論文の概要: SemViQA: A Semantic Question Answering System for Vietnamese Information Fact-Checking
- arxiv url: http://arxiv.org/abs/2503.00955v1
- Date: Sun, 02 Mar 2025 16:22:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:25:17.604526
- Title: SemViQA: A Semantic Question Answering System for Vietnamese Information Fact-Checking
- Title(参考訳): SemViQA:ベトナム情報共有のためのセマンティック質問応答システム
- Authors: Nam V. Nguyen, Dien X. Tran, Thanh T. Tran, Anh T. Hoang, Tai V. Duong, Di T. Le, Phuc-Lu Le,
- Abstract要約: 本稿ではベトナムのファクトチェックフレームワークSemViQAを紹介する。
セマンティックに基づくエビデンス検索(SER)と2段階検証分類(TVC)を統合する。
ISE-DSC01の精度は78.97%、ViWikiFCの精度は80.82%である。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The rise of misinformation, exacerbated by Large Language Models (LLMs) like GPT and Gemini, demands robust fact-checking solutions, especially for low-resource languages like Vietnamese. Existing methods struggle with semantic ambiguity, homonyms, and complex linguistic structures, often trading accuracy for efficiency. We introduce SemViQA, a novel Vietnamese fact-checking framework integrating Semantic-based Evidence Retrieval (SER) and Two-step Verdict Classification (TVC). Our approach balances precision and speed, achieving state-of-the-art results with 78.97\% strict accuracy on ISE-DSC01 and 80.82\% on ViWikiFC, securing 1st place in the UIT Data Science Challenge. Additionally, SemViQA Faster improves inference speed 7x while maintaining competitive accuracy. SemViQA sets a new benchmark for Vietnamese fact verification, advancing the fight against misinformation. The source code is available at: https://github.com/DAVID-NGUYEN-S16/SemViQA.
- Abstract(参考訳): GPTやGeminiのようなLarge Language Models(LLM)によって悪化した誤情報の増加は、特にベトナムのような低リソース言語において、堅牢なファクトチェックソリューションを要求している。
既存の手法は意味的曖昧さ、同義語、複雑な言語構造に苦しむが、しばしば効率性のために正確さを交換する。
本稿では,セマンティックベースのエビデンス検索(SER)と2段階検証分類(TVC)を統合したベトナムのファクトチェックフレームワークであるSemViQAを紹介する。
ISE-DSC01では78.97 %、ViWikiFCでは80.82 %の精度で、UITデータサイエンスチャレンジでは第1位となった。
さらに、SemViQA Fasterは、競合精度を維持しながら、推論速度7xを改善する。
SemViQAはベトナムの事実検証のための新しいベンチマークを設定し、誤報との戦いを進めた。
ソースコードはhttps://github.com/DAVID-NGUYEN-S16/SemViQA.comで入手できる。
関連論文リスト
- ViFactCheck: A New Benchmark Dataset and Methods for Multi-domain News Fact-Checking in Vietnamese [1.0395448371001137]
ViFactCheckはベトナムのファクトチェック用に設計された最初のベンチマークデータセットである。
このデータセットには、信頼できるベトナムのオンラインニュースから得られた7,232組の請求-証拠の組み合わせが含まれている。
Gemmaモデルは優れた効果を示し、マクロF1スコアは89.90%であった。
論文 参考訳(メタデータ) (2024-12-19T13:41:59Z) - ViWikiFC: Fact-Checking for Vietnamese Wikipedia-Based Textual Knowledge Source [0.964547614383472]
ViWikiFCはベトナム語ウィキペディアのFact Checkingのための最初の手動注釈付きオープンドメインコーパスである。
我々は、新しい依存率、新しいn-gramレート、新しい単語レートから、多くの言語的側面からコーパスを分析する。
BM25とInfoXLM(ラージ)は2つのタスクで最高の結果を達成し、BM25は88.30%のサポーター、86.93%のREFUTES、56.67%のエビデンス検索タスクを達成した。
論文 参考訳(メタデータ) (2024-05-13T10:24:05Z) - Homonym Sense Disambiguation in the Georgian Language [49.1574468325115]
本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。
これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
論文 参考訳(メタデータ) (2024-04-24T21:48:43Z) - Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) [62.44395685571094]
T2IScoreScoreはプロンプトを含むセマンティックエラーグラフのキュレートされたセットであり,誤画像の集合である。
これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。
最先端のVLMベースのメトリクスは、CLIPScoreのような単純な(そしておそらく悪い)機能ベースのメトリクスを著しく上回りません。
論文 参考訳(メタデータ) (2024-04-05T17:57:16Z) - VlogQA: Task, Dataset, and Baseline Models for Vietnamese Spoken-Based Machine Reading Comprehension [1.3942150186842373]
本稿では,機械読解作業のためのベトナム語音声コーパスの開発過程について述べる。
ベトナムの既存のMRCコーポラは主にウィキペディアの記事、オンライン新聞、教科書などの公式文書に焦点を当てている。
対照的に、VlogQAはYouTubeからソースされた1,230の文書に基づいて10,076の質問応答ペアで構成されている。
論文 参考訳(メタデータ) (2024-02-05T00:54:40Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - CSED: A Chinese Semantic Error Diagnosis Corpus [52.92010408053424]
関連するデータセットが欠如している中国の意味的誤り診断(CSED)の複雑な問題について検討する。
意味的誤りの研究は、それらが非常に一般的であり、統語的不規則や理解の問題に繋がる可能性があるため重要である。
本稿では,CSEDタスクに適応する構文認識モデルを提案する。
論文 参考訳(メタデータ) (2023-05-09T05:33:31Z) - ConNER: Consistency Training for Cross-lingual Named Entity Recognition [96.84391089120847]
言語間の名前付きエンティティ認識は、対象言語のデータの不足に悩まされる。
言語間NERのための新しい一貫性トレーニングフレームワークとしてConNERを提案する。
論文 参考訳(メタデータ) (2022-11-17T07:57:54Z) - VSEC: Transformer-based Model for Vietnamese Spelling Correction [0.19116784879310028]
ベトナム語のスペル誤りを訂正する新しい手法を提案する。
深層学習モデルを用いて誤字誤りや誤字誤りの問題に対処する。
実験の結果,86.8%の誤差が検出され,81.5%の誤りが修正された。
論文 参考訳(メタデータ) (2021-11-01T00:55:32Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。