論文の概要: GRASP: Deterministic argument ranking in interaction graphs
- arxiv url: http://arxiv.org/abs/2605.19141v1
- Date: Mon, 18 May 2026 21:49:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.006125
- Title: GRASP: Deterministic argument ranking in interaction graphs
- Title(参考訳): GRASP:相互作用グラフにおける決定論的引数ランキング
- Authors: Diganta Misra, Antonio Orvieto, Rediet Abebe, Volkan Cevher,
- Abstract要約: 全体的判断はモデル間不一致に悩まされていることを示す。
この不安定性は、議論の複雑な相互作用構造を1つの不透明なスコアに崩壊させることから生じる。
安定な局所的相互作用判断をグローバルなランキングに集約する決定論的なフレームワークであるGRASPを提案する。
- 参考スコア(独自算出の注目度): 65.66879897437157
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models are increasingly deployed as automated judges to evaluate the strength of arguments. As this role expands, their legitimacy depends on consistency, transparency, and the ability to separate argumentative structure from rhetorical appeal. However, we show that holistic judging - a common LLM-as-a-Judge practice where a model provides a global verdict on a debate - suffers from substantial inter-model disagreement. We argue that this instability arises from collapsing a debate's complex interaction structure into a single opaque score. To address this, we propose GRASP (Gradual Ranking with Attacks and Support Propagation), a deterministic framework that aggregates stable local interaction judgments into a global ranking via a convergent attack--defense propagation operator. We show that local interaction judgments are more reproducible than holistic rankings in LLM-as-a-Judge evaluations, allowing GRASP to produce more consistent global rankings. We further show that GRASP scores do not correlate with human "convincingness" labels, highlighting a vital sociotechnical distinction: GRASP does not measure persuasion, factuality, or rhetorical appeal, but structural sufficiency - a defense-aware notion of argument robustness over the explicit interaction graph. Overall, GRASP offers a transparent and auditable alternative to holistic LLM judging.
- Abstract(参考訳): 大きな言語モデルは、議論の強さを評価するために、自動判断器としてますます多くデプロイされている。
この役割が拡大するにつれて、それらの正当性は一貫性、透明性、および論証的構造を修辞的魅力から分離する能力に依存する。
しかし、モデルが議論のグローバルな評定を提供する一般的なLLM-as-a-Judgeプラクティスである全体論的判断は、モデル間の実質的な意見の不一致に悩まされていることを示す。
この不安定性は、議論の複雑な相互作用構造を1つの不透明なスコアに崩壊させることによって生じる。
そこで我々は,安定な局所的相互作用判断を集約する決定論的フレームワークGRASP(Gradual Ranking with Attacks and Support Propagation)を提案する。
LLM-as-a-Judge評価では,局所的相互作用判定は全体的ランキングよりも再現性が高く,GRASPはより一貫したグローバルランキングを作成できることを示す。
さらに、GRASPのスコアは人間の「説得力」ラベルと相関せず、社会技術的に重要な違いを浮き彫りにする: GRASPは説得力、事実性、または修辞的魅力を測るのではなく、構造的十分性 - 明示的な相互作用グラフに対する議論の堅牢性という防衛的な概念である。
全体的に、GRASPは全体論的LLM判定に代わる透明で監査可能な代替手段を提供する。
関連論文リスト
- SAVOIR: Learning Social Savoir-Faire via Shapley-based Reward Attribution [82.31558282651811]
複雑な対人相互作用をナビゲートするソーシャルインテリジェンスは、言語エージェントに根本的な課題を提示する。
既存のアプローチでは、言語モデルを直接使用してエピソードレベルの報酬を分配する。
協調ゲーム理論に基づく新しい原理的枠組みであるSAVOIRを提案する。
論文 参考訳(メタデータ) (2026-04-21T02:08:25Z) - LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval [74.72139580745511]
LaSERは、レトリバーの潜在空間に明示的な推論を内部化する、新しい自己蒸留フレームワークである。
提案手法は, 明示的なCoTパイプラインの推論深度と, 標準的な高密度検索器の推論効率をうまく組み合わせる。
論文 参考訳(メタデータ) (2026-03-02T04:11:18Z) - AREG: Adversarial Resource Extraction Game for Evaluating Persuasion and Resistance in Large Language Models [0.0]
本稿では,金融資源に対する多ターンゼロサム交渉として説得と抵抗を運用するベンチマークであるAdversarial Resource extract Game (AREG)を紹介する。
ラウンドロビントーナメントをフロンティアモデル全体で使用することで、AREGは攻撃的(説得)と防御的(抵抗)の能力を共同で評価することができる。
論文 参考訳(メタデータ) (2026-02-18T17:28:28Z) - Benchmarking at the Edge of Comprehension [38.43582342860192]
ベンチマークが実現不可能になった場合、AIの進歩を計測する能力が重要になります。
完全人間の理解が不可能な場合でも,モデルを比較するために設計された対戦型フレームワークであるCrytique-Resilient Benchmarkingを提案する。
標準的なベンチマークとは異なり、人間は有界検証として機能し、ローカライズされたクレームにフォーカスする。
論文 参考訳(メタデータ) (2026-02-15T20:51:29Z) - Towards Generalizable Reasoning: Group Causal Counterfactual Policy Optimization for LLM Reasoning [50.352417879912515]
大規模言語モデル(LLM)は推論能力の進歩とともに複雑なタスクに優れる。
一般化可能な推論パターンを学習するために,LLMを明示的に訓練するためのグループ因果政策最適化を提案する。
次に、この報酬からトークンレベルのアドバンテージを構築し、ポリシーを最適化し、LCMにプロセス無効で事実上堅牢な推論パターンを推奨します。
論文 参考訳(メタデータ) (2026-02-06T08:03:11Z) - JAF: Judge Agent Forest [8.150475950851359]
JAF:ジャッジエージェントフォレスト(JAF: Judge Agent Forest)は、判定エージェントがクエリ応答ペアのコホートを越えて共同推論を行うフレームワークである。
セマンティックな埋め込みを組み込んで情報的バイナリコードを学ぶフレキシブルな局所性に敏感なハッシュアルゴリズムを開発した。
我々は,大規模クラウド環境におけるクラウド構成ミストリアージの要求タスクに関する実証的研究により,JAFを検証した。
論文 参考訳(メタデータ) (2026-01-29T19:42:42Z) - Can You Trick the Grader? Adversarial Persuasion of LLM Judges [15.386741140145205]
この研究は、戦略的に組み込まれた説得言語が数学的推論タスクを評価する際にLCMの判断に偏りがあることを初めて明らかにした。
我々は,7つの説得技法(マジョリティ,一貫性,フラタリー,互恵性,ピティ,権威,アイデンティティ)を定式化し,それらと全く同じ応答に組み込む。
説得力のある言語は、LCMの判断者が不正確な解に膨らませたスコアを、平均で最大8%の精度で割り当てることを可能にし、一貫性は最も深刻な歪みを引き起こす。
論文 参考訳(メタデータ) (2025-08-11T09:45:02Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。