Fugu-MT 論文翻訳(概要): Adversarial Multi-Agent Evaluation of Large Language Models through Iterative Debates

論文の概要: Adversarial Multi-Agent Evaluation of Large Language Models through Iterative Debates

arxiv url: http://arxiv.org/abs/2410.04663v2
Date: Thu, 24 Oct 2024 21:42:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 02:37:51.149829
Title: Adversarial Multi-Agent Evaluation of Large Language Models through Iterative Debates
Title（参考訳）: 反復的議論による大規模言語モデルの対立的マルチエージェント評価
Authors: Chaithanya Bandi, Abir Harrasse,
Abstract要約: 本稿では,対話エージェントのアンサンブル内で,大規模言語モデル(LLM)を提唱者として解釈するフレームワークを提案する。このアプローチは、従来の人間ベースの評価や自動メトリクスと比較して、よりダイナミックで包括的な評価プロセスを提供します。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper explores optimal architectures for evaluating the outputs of large language models (LLMs) using LLMs themselves. We propose a novel framework that interprets LLMs as advocates within an ensemble of interacting agents, allowing them to defend their answers and reach conclusions through a judge and jury system. This approach offers a more dynamic and comprehensive evaluation process compared to traditional human-based assessments or automated metrics. We discuss the motivation behind this framework, its key components, and comparative advantages. We also present a probabilistic model to evaluate the error reduction achieved by iterative advocate systems. Finally, we outline experiments to validate the effectiveness of multi-advocate architectures and discuss future research directions.
Abstract（参考訳）: 本稿では,LLM自体を用いた大規模言語モデル(LLM)の出力評価のための最適アーキテクチャについて検討する。本稿では, LLMを対話エージェントのアンサンブル内での支持者として解釈し, その回答を守り, 審査員と陪審員のシステムを通じて結論に達することのできる, 新たな枠組みを提案する。このアプローチは、従来の人間ベースの評価や自動メトリクスと比較して、よりダイナミックで包括的な評価プロセスを提供します。このフレームワークの背景にあるモチベーション、主要なコンポーネント、および比較上の利点について論じる。また,反復的アドボケートシステムによって達成される誤差低減を評価する確率モデルを提案する。最後に,マルチアドボケートアーキテクチャの有効性を検証する実験の概要と今後の研究方向性について述べる。

関連論文リスト

Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。 REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文参考訳（メタデータ） (2026-02-18T02:55:55Z)
Multimodal Fact-Level Attribution for Verifiable Reasoning [80.60864342985748]
マルチモーダル大言語モデル(MLLM)は、多段階推論と長文生成を含む実世界のタスクにますます利用されている。既存のマルチモーダルグラウンドベンチマークと評価手法は、複雑なマルチモーダル推論における属性評価に失敗する。我々は、直接観察以上の推論を必要とする設定において、ファクトレベルのマルチモーダル属性を評価するためのベンチマークであるMuRGAtを紹介する。
論文参考訳（メタデータ） (2026-02-12T03:10:02Z)
A Comprehensive Evaluation of LLM Reasoning: From Single-Model to Multi-Agent Paradigms [20.241519889633285]
大規模言語モデル(LLM)は、推論パラダイムが重要な役割を果たす推論システムとして、ますます多くデプロイされている。我々は、直接単モデル生成、CoT拡張単モデル推論、代表MASなど、推論パラダイムを包括的かつ統一的に評価する。 MIMeBenchは、2つの基本的な未探索セマンティック機能をターゲットにした新しいオープンエンドベンチマークである。
論文参考訳（メタデータ） (2026-01-19T17:23:45Z)
The Stability Trap: Evaluating the Reliability of LLM-Based Instruction Adherence Auditing [1.5954459915735735]
アプリケーション・アンダー・テスト(AUT)の指示型は、判断評価の安定性にどの程度影響しますか? Scoped Instruction Decomposition Frameworkを導入し、AUT命令を客観型と主観型に分類し、判断の不安定性を誘導する要因を分離する。以上の結果から,検証安定性と推論安定性の相違を特徴とする安定性トラップ'が明らかになった。
論文参考訳（メタデータ） (2026-01-16T21:15:13Z)
Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。 ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。複数のベンチマーク実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2026-01-08T06:57:03Z)
Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following [99.20581206115979]
Multi-Crit は、マルチモーダルな審査員が複数の基準に従い、信頼できる基準レベルの判断を下す能力を評価するためのベンチマークである。 25 LMMの包括的分析から,1) プロプライエタリなモデルは,(特にオープンエンド評価において) 多元的基準への一貫した従順性を維持するのに苦慮している,2) オープンソースのモデルは,様々な基準に柔軟に遅れている,3) 全体論的判断信号による批判的微調整は,視覚的根拠を高めるが,多元的基準レベルの判断に一般化することができない,などが分かる。
論文参考訳（メタデータ） (2025-11-26T18:35:17Z)
TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文参考訳（メタデータ） (2025-09-25T13:04:29Z)
CMR-SPB: Cross-Modal Multi-Hop Reasoning over Text, Image, and Speech with Path Balance [10.843417240658992]
クロスモーダル・マルチホップ推論(CMR)は、マルチモーダル・大規模言語モデル(MLLM)の重要かつ未探索の能力である。この能力を評価するための既存のベンチマークには、重大な欠点がある、と我々は主張する。 CMR-SPB (Cross-Modal Multi-Hop Reasoning over Text, Image and Speech with Path Balance) という新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-08-22T08:17:31Z)
Debate, Reflect, and Distill: Multi-Agent Feedback with Tree-Structured Preference Optimization for Efficient Language Model Enhancement [43.532921045069365]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクにおいて、新しい標準を設定し続けている。静的な知識蒸留、人間からのフィードバックからのリソース集約的な強化学習、あるいは限られた自己回帰のような現在の技術は、実質的で持続的なパフォーマンス向上をもたらす。本稿では、より小さなモデルとより強力な教師モデルの間でのマルチターン議論を編成し、実用的なフィードバックを導き出す新しいリフレクション・アンド・ディベート(D&R)フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-04T03:52:20Z)
KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。 KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文参考訳（メタデータ） (2025-05-20T16:06:32Z)
Ensemble Bayesian Inference: Leveraging Small Language Models to Achieve LLM-level Accuracy in Profile Matching Tasks [0.0]
本研究では,プロプライエタリな大規模言語モデル (LLM) に匹敵する精度を実現するため,小型言語モデル (SLM) アンサンブルの可能性を検討する。本稿では,複数のSLMから判断を合成するためにベイズ推定を適用した新しい手法として,EBI(Ensemble Bayesian Inference)を提案する。
論文参考訳（メタデータ） (2025-04-24T15:55:10Z)
Debate-Feedback: A Multi-Agent Framework for Efficient Legal Judgment Prediction [7.196065223124077]
本稿では,Debate-Feedbackアーキテクチャに基づく新たな法的判断予測モデルを提案する。従来の手法とは異なり、我々のモデルは大規模な歴史的データセットの必要性を最小限に抑え、効率を大幅に改善する。
論文参考訳（メタデータ） (2025-04-07T09:34:14Z)
Multi-Agent LLM Judge: automatic personalized LLM judge design for evaluating natural language generation applications [0.0]
大規模言語モデル(LLM)は、さまざまなドメインにまたがって素晴らしいパフォーマンスを示しているが、ドメイン固有の知識の不足、バイアス、幻覚といった問題に直面している。単語重複やテキスト埋め込みに依存する従来の評価手法は、動的でオープンなテキスト生成を評価するのに必要なニュアンスドセマンティック情報を取得するには不十分である。本稿では,様々な自然言語生成アプリケーション向けにパーソナライズされたLLM判断器を自動設計する動的マルチエージェントシステムを提案する。
論文参考訳（メタデータ） (2025-04-01T09:36:56Z)
Revisiting Benchmark and Assessment: An Agent-based Exploratory Dynamic Evaluation Framework for LLMs [29.72874725703848]
従来のQAベンチマークを、より柔軟な"戦略基準"フォーマットに拡張するBenchmark+と、インタラクションプロセスを強化するAccess+という2つの概念を紹介します。本研究では,これらの概念を検索の強化と強化学習を通じて実装するTestAgentというエージェントベース評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T11:20:42Z)
Thinking Fair and Slow: On the Efficacy of Structured Prompts for Debiasing Language Models [14.405446719317291]
既存のデバイアス技術はトレーニングベースまたはモデルの内部および出力分布へのアクセスを必要とするのが一般的である。我々は,システム2の思考プロセスを適用し,論理的,反射的,批判的テキスト生成を誘導する,包括的エンドユーザー中心のデバイアスの反復的枠組みを評価する。
論文参考訳（メタデータ） (2024-05-16T20:27:58Z)
DEBATE: Devil's Advocate-Based Assessment and Text Evaluation [6.2689399557794525]
マルチエージェントスコアリングシステムに基づくNLG評価フレームワークであるDEBATEを提案する。フレームワーク内では、あるエージェントが他のエージェントの議論を批判するように指示される。エージェント間の議論の広範囲性とエージェントのペルソナが評価者のパフォーマンスに影響を及ぼすことを示す。
論文参考訳（メタデータ） (2024-05-16T09:41:12Z)
Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。 LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文参考訳（メタデータ） (2024-02-23T06:04:23Z)
LLM Comparator: Visual Analytics for Side-by-Side Evaluation of Large Language Models [31.426274932333264]
自動側評価から結果をインタラクティブに分析する新しいビジュアル分析ツールであるComparatorを提案する。このツールは、モデルがベースラインモデルよりも優れているか悪いかを、ユーザがいつ、なぜ理解するかを対話的にサポートする。
論文参考訳（メタデータ） (2024-02-16T09:14:49Z)
Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。フレームワークのコードをGitHubで公開しています。
論文参考訳（メタデータ） (2024-01-30T07:03:32Z)
DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文参考訳（メタデータ） (2024-01-04T08:34:16Z)
Answering Causal Queries at Layer 3 with DiscoSCMs-Embracing Heterogeneity [0.0]
本稿では, 分散一貫性構造因果モデル (DiscoSCM) フレームワークを, 反事実推論の先駆的アプローチとして提唱する。
論文参考訳（メタデータ） (2023-09-17T17:01:05Z)
ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文参考訳（メタデータ） (2023-08-14T15:13:04Z)
Unlocking the Potential of User Feedback: Leveraging Large Language Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文参考訳（メタデータ） (2023-06-16T13:04:56Z)
Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。 LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文参考訳（メタデータ） (2023-05-22T15:12:43Z)
Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文参考訳（メタデータ） (2023-04-13T13:08:38Z)
Exploring the Trade-off between Plausibility, Change Intensity and Adversarial Power in Counterfactual Explanations using Multi-objective Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。本稿では, 対実例生成のための新しい枠組みを提案する。
論文参考訳（メタデータ） (2022-05-20T15:02:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。