論文の概要: EMULATE: A Multi-Agent Framework for Determining the Veracity of Atomic Claims by Emulating Human Actions
- arxiv url: http://arxiv.org/abs/2505.16576v1
- Date: Thu, 22 May 2025 12:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.270661
- Title: EMULATE: A Multi-Agent Framework for Determining the Veracity of Atomic Claims by Emulating Human Actions
- Title(参考訳): EMULATE:人間行動のエミュレートによる原子の正当性決定のためのマルチエージェントフレームワーク
- Authors: Spencer Hong, Meng Luo, Xinyi Wan,
- Abstract要約: EMULATEは、マルチエージェントフレームワークを使うことで、人間のアクションをよりうまくエミュレートするように設計されている。
いくつかのベンチマークの実験では、以前の作業よりも明らかな改善が示され、新しいマルチエージェントフレームワークの有効性が実証された。
- 参考スコア(独自算出の注目度): 0.6144680854063939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Determining the veracity of atomic claims is an imperative component of many recently proposed fact-checking systems. Many approaches tackle this problem by first retrieving evidence by querying a search engine and then performing classification by providing the evidence set and atomic claim to a large language model, but this process deviates from what a human would do in order to perform the task. Recent work attempted to address this issue by proposing iterative evidence retrieval, allowing for evidence to be collected several times and only when necessary. Continuing along this line of research, we propose a novel claim verification system, called EMULATE, which is designed to better emulate human actions through the use of a multi-agent framework where each agent performs a small part of the larger task, such as ranking search results according to predefined criteria or evaluating webpage content. Extensive experiments on several benchmarks show clear improvements over prior work, demonstrating the efficacy of our new multi-agent framework.
- Abstract(参考訳): 原子クレームの正確性を決定することは、最近提案された多くのファクトチェックシステムの必須成分である。
多くのアプローチは、まず検索エンジンに問い合わせて証拠を検索し、次に大きな言語モデルにエビデンスセットと原子的クレームを提供することによって分類を行うことによってこの問題に対処するが、このプロセスは、人間がタスクを実行するために何をするかを逸脱する。
近年の研究では、反復的な証拠検索を提案し、必要なときにのみ何回も証拠を収集することを可能にしている。
この一連の研究を継続し、各エージェントが予め定義された基準に従って検索結果をランク付けしたり、Webページの内容を評価するなど、より大きなタスクのごく一部を実行するマルチエージェントフレームワークを用いて、人間の行動をよりうまくエミュレートする、EMULATEと呼ばれる新たなクレーム検証システムを提案する。
いくつかのベンチマークでの大規模な実験は、新しいマルチエージェントフレームワークの有効性を実証し、以前の作業よりも明らかな改善を示している。
関連論文リスト
- Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts [67.67746334493302]
大規模言語モデル(LLM)は、多くのタスクにまたがる顕著な機能を示してきたが、複雑なタスクを扱うために外部のコンテキストに依存していることが多い。
我々は、このプロセスをマルコフ決定プロセス(MDP)としてモデル化するトリエンコーダシーケンシャルレトリバーを提案する。
提案手法は,サンプル間の依存関係を明示的にモデル化することの重要性を強調し,ベースラインを一貫して大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-04-15T17:35:56Z) - MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration [63.31211701741323]
我々はマルチエージェント・マルチモデル推論を生成にまで拡張し、特に改良による忠実度の向上を図っている。
我々は,各サブタスクに対して固有の評価を設計し,マルチエージェント(複数インスタンス)とマルチモデル(多変数LPMタイプ)の両方がエラー検出やクオリティクスに有効であることを示す。
我々はこれらの知見を、マルチエージェント・マルチモデル・リファインメント(MAMM-Refinement)と呼ばれる最終的な"レシピ"に統合し、マルチエージェント・マルチモデルコラボレーションがパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-19T14:46:53Z) - A Multi-Agent Perspective on Modern Information Retrieval [12.228832858396368]
大規模言語モデル(LLM)の台頭は情報検索(IR)の新しい時代をもたらした。
このシフトは、長年にわたるIRパラダイムに挑戦し、理論的なフレームワークと実践的な方法論の両方の再評価を要求する。
我々は、クエリエージェント、ドキュメントエージェント、ランサーエージェント間の複雑な相互作用をよりよく捉えるために、マルチエージェントの視点を提唱する。
論文 参考訳(メタデータ) (2025-02-20T18:17:26Z) - Options-Aware Dense Retrieval for Multiple-Choice query Answering [5.098112872671412]
長文複数選択質問応答タスクは、広範囲なテキストソースに対して頑健な推論を必要とする。
この領域における先行研究は、主に事前訓練された高密度検索モデルを利用している。
本稿では,これらの課題に対処するため,OADR (Options Aware Dense Retrieval) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T15:03:26Z) - Recommender Systems with Generative Retrieval [58.454606442670034]
本稿では,対象候補の識別子を自己回帰的に復号する新たな生成検索手法を提案する。
そのために、各項目のセマンティックIDとして機能するために、意味論的に意味のあるコードワードを作成します。
提案手法を用いて学習した推薦システムは,様々なデータセット上での現在のSOTAモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-08T21:48:17Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Deep Reinforcement Agent for Efficient Instant Search [14.086339486783018]
本稿では,関連する文書を検索する上で,意味的により健全なトークンを識別することで,負荷問題に対処することを提案する。
我々は、検索エンジンと直接対話し、単語の重要性を予測する強化エージェントを訓練する。
トリガーサーチ数とシステム性能のトレードオフを研究するために,新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-17T22:47:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。