論文の概要: PASS-FC: Progressive and Adaptive Search Scheme for Fact Checking of Comprehensive Claims
- arxiv url: http://arxiv.org/abs/2504.09866v2
- Date: Mon, 26 May 2025 03:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:54.236632
- Title: PASS-FC: Progressive and Adaptive Search Scheme for Fact Checking of Comprehensive Claims
- Title(参考訳): PASS-FC:包括的クレームのファクトチェックのためのプログレッシブで適応的な検索方式
- Authors: Ziyu Zhuang,
- Abstract要約: PASS-FCは、Fact Checkingのためのプログレッシブで適応的な検索スキームである。
各原子のクレームは、まず正確な時間と曖昧なエンティティ記述子で基礎付けられている。
一般的な知識、科学文献、現実世界の出来事、そして10の言語を含む6つのベンチマークの実験は、PASS-FCが従来のシステムより一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 2.187145486382368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated fact-checking (AFC) still falters on claims that are time-sensitive, entity-ambiguous, or buried beneath noisy search-engine results. We present PASS-FC, a Progressive and Adaptive Search Scheme for Fact Checking. Each atomic claim is first grounded with a precise time span and disambiguated entity descriptors. An adaptive search loop then issues structured queries, filters domains through credible-source selection, and expands queries cross-lingually; when necessary, a lightweight reflection routine restarts the loop. Experiments on six benchmark--covering general knowledge, scientific literature, real-world events, and ten languages--show that PASS-FC consistently outperforms prior systems, even those powered by larger backbone LLMs. On the multilingual X-FACT set, performance of different languages partially correlates with typological closeness to English, and forcing the model to reason in low-resource languages degrades accuracy. Ablations highlight the importance of temporal grounding and the adaptive search scheme, while detailed analysis shows that cross-lingual retrieval contributes genuinely new evidence. Code and full results will be released to facilitate further research.
- Abstract(参考訳): AFC(Automated fact-checking)は、時間に敏感で、実体を曖昧にしたり、ノイズの多い検索結果の下に埋もれていたりしている。
ファクトチェックのためのプログレッシブ・アダプティブ検索方式であるPASS-FCを提案する。
各原子のクレームは、まず正確な時間と曖昧なエンティティ記述子で基礎付けられている。
適応的なサーチループは構造化されたクエリを発行し、信頼できるソース選択を通じてドメインをフィルタリングし、必要に応じて軽量なリフレクションルーチンがループを再起動する。
一般的な知識、科学文献、現実世界の出来事、そして10の言語を含む6つのベンチマークの実験では、PASS-FCは、より大きなバックボーンLLMを動力とするシステムよりも一貫して優れていることが示されている。
マルチリンガルなX-FACTセットでは、異なる言語のパフォーマンスは、部分的には英語の類型的近さと相関し、低リソース言語での推論は精度を低下させる。
アブレーションは時間的接地と適応探索方式の重要性を強調し、詳細な分析は言語間検索が真に新しい証拠に寄与していることを示している。
コードと完全な結果は、さらなる研究を促進するためにリリースされます。
関連論文リスト
- LLM-Assisted Cheating Detection in Korean Language via Keystrokes [1.9344365651682767]
本稿では,韓国におけるLLM支援不正検出のためのキーストロークに基づくフレームワークを提案する。
我々のデータセットには,3つの条件下でタスクを完了した69人の参加者が含まれている。
論文 参考訳(メタデータ) (2025-07-29T20:59:03Z) - The Cross-Lingual Cost: Retrieval Biases in RAG over Arabic-English Corpora [6.594531626178451]
言語間検索強化生成(RAG)は、言語間で回答を検索し、生成する重要な能力である。
我々は、実世界の企業データセットから得られたベンチマークを用いて、アラビア語のRAGをドメイン固有の設定で研究する。
両言語から等価な検索を行うことにより,この失敗の原因を解消する簡単な検索戦略を提案する。
論文 参考訳(メタデータ) (2025-07-10T08:38:31Z) - Verifiable Natural Language to Linear Temporal Logic Translation: A Benchmark Dataset and Evaluation Suite [8.325455397285873]
時相論理(TL)翻訳システムに対する最先端自然言語(NL)の実証評価は,既存のベンチマークにおいてほぼ完全な性能を示す。
本稿では,自動NL-to-LTL翻訳の検証と妥当性を評価する統一ベンチマークであるVerifiable Linear Temporal Logic Benchmark (VLTL-Bench)を紹介する。
論文 参考訳(メタデータ) (2025-07-01T15:41:57Z) - Search Arena: Analyzing Search-Augmented LLMs [61.28673331156436]
クラウドソーシングで大規模で,24,000以上のペア化されたマルチターンユーザインタラクションの人為的なデータセットであるSearch Arenaを紹介した。
データセットはさまざまな意図や言語にまたがっており、人間の好みの投票数約12,000の完全なシステムトレースが含まれている。
分析の結果,引用されたコンテンツが属性付クレームを直接サポートしていない場合でも,ユーザの嗜好は引用数に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2025-06-05T17:59:26Z) - Fine-Tuning Large Language Models and Evaluating Retrieval Methods for Improved Question Answering on Building Codes [0.0]
建築法典は、構造的整合性、防火、アクセシビリティを確保するために、建物の設計、建設、安全性の基準を確立する規則である。
主な課題は、大量のテキストをナビゲートすること、技術的言語を解釈すること、異なるセクションにまたがる関連する節を特定することである。
潜在的な解決策は、ビルドコードに基づいてユーザクエリに回答するQA(QA)システムを構築することである。
QAシステムを構築するための様々な方法のうち、RAG(Retrieval-Augmented Generation)のパフォーマンスは際立っている。
論文 参考訳(メタデータ) (2025-05-07T05:04:30Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Poly-FEVER: A Multilingual Fact Verification Benchmark for Hallucination Detection in Large Language Models [10.663446796160567]
生成AIにおける幻覚、特にLarge Language Models(LLMs)は、多言語アプリケーションの信頼性に重大な課題をもたらす。
幻覚検出のための既存のベンチマークは、主に英語といくつかの広く話されている言語に焦点を当てている。
大規模多言語事実検証ベンチマークであるPoly-FEVERを紹介する。
論文 参考訳(メタデータ) (2025-03-19T01:46:09Z) - AskToAct: Enhancing LLMs Tool Use via Self-Correcting Clarification [25.27444694706659]
AskToActは、クエリとそのツール呼び出しソリューション間の構造マッピングを利用する。
私たちの重要な洞察は、ツールパラメータが明示的なユーザ意図を自然に表現していることです。
クエリから重要なパラメータを体系的に取り除き,それらを根拠として保持することにより,高品質なトレーニングデータの自動構築を可能にする。
論文 参考訳(メタデータ) (2025-03-03T12:55:49Z) - First Token Probability Guided RAG for Telecom Question Answering [15.854941373238226]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) にドメイン固有情報を組み込むことにおいて、明確な優位性を示している。
本稿では,通信におけるMultiple Choice Question Answering(MCQA)の課題に対処する,新しいトークン確率ガイド付きRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-11T07:47:31Z) - Review-Then-Refine: A Dynamic Framework for Multi-Hop Question Answering with Temporal Adaptability [19.722009684115434]
Retrieve-augmented Generation (RAG) フレームワークがマルチホップ質問応答(QA)タスクの有望なソリューションとして登場した。
既存のRAGフレームワークは、通常、検索対象のパラダイムに従っており、時間情報を持つマルチホップQAと競合することが多い。
本稿では,マルチホップQAシナリオにおけるLLMの性能向上を目的とした,Review-then-refineと呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-19T17:48:23Z) - DeepNote: Note-Centric Deep Retrieval-Augmented Generation [72.70046559930555]
Retrieval-Augmented Generation (RAG)は質問応答のための大規模言語モデル(LLM)における事実誤りと幻覚を緩和する
我々は、ノート中心の適応検索により、知識ソースの奥深くで堅牢な探索を実現する適応RAGフレームワークであるDeepNoteを開発した。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z) - Large Language Models for Information Retrieval: A Survey [58.30439850203101]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Federated Test-Time Adaptive Face Presentation Attack Detection with
Dual-Phase Privacy Preservation [100.69458267888962]
顔提示攻撃検出(fPAD)は、現代の顔認識パイプラインにおいて重要な役割を果たす。
法的およびプライバシー上の問題により、トレーニングデータ(実際の顔画像と偽画像)は、異なるデータソース間で直接共有することはできない。
本稿では,二相プライバシー保護フレームワークを用いたフェデレーションテスト時間適応顔提示検出を提案する。
論文 参考訳(メタデータ) (2021-10-25T02:51:05Z) - Retrieval-guided Counterfactual Generation for QA [5.434621727606356]
質問応答のための偽物作成の課題に焦点をあてる。
本研究では,逆実効評価とトレーニングデータを作成するRetrieve-Generate-Filter手法を開発した。
RGFデータは局所摂動に対するモデルの堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-14T17:56:37Z) - Anomaly Detection Based on Selection and Weighting in Latent Space [73.01328671569759]
SWADと呼ばれる新しい選択および重み付けに基づく異常検出フレームワークを提案する。
ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。
論文 参考訳(メタデータ) (2021-03-08T10:56:38Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。