論文の概要: Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy
- arxiv url: http://arxiv.org/abs/2603.25764v1
- Date: Thu, 26 Mar 2026 04:39:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.195299
- Title: Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy
- Title(参考訳): Consistency Amplify: 行動変数形状がエージェントの精度に及ぼす影響
- Authors: Aman Mehta,
- Abstract要約: 複雑なマルチステップ推論を必要とするソフトウェアエンジニアリングベンチマークであるSWE-benchのコンテキストにおける一貫性について検討する。
モデル全体で、より高い一貫性と高い精度が一致していることが分かりました。
モデル内では、一貫性は正しい解釈と間違った解釈の両方を増幅することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLM-based agents are deployed in production systems, understanding their behavioral consistency (whether they produce similar action sequences when given identical tasks) becomes critical for reliability. We study consistency in the context of SWE-bench, a challenging software engineering benchmark requiring complex, multi-step reasoning. Comparing Claude~4.5~Sonnet, GPT-5, and Llama-3.1-70B across 50 runs each (10 tasks $\times$ 5 runs), we find that across models, higher consistency aligns with higher accuracy: Claude achieves the lowest variance (CV: 15.2\%) and highest accuracy (58\%), GPT-5 is intermediate (CV: 32.2\%, accuracy: 32\%), and Llama shows the highest variance (CV: 47.0\%) with lowest accuracy (4\%). However, within a model, consistency can amplify both correct and incorrect interpretations. Our analysis reveals a critical nuance: \textbf{consistency amplifies outcomes rather than guaranteeing correctness}. 71\% of Claude's failures stem from "consistent wrong interpretation": making the same incorrect assumption across all runs. Interestingly, GPT-5 achieves similar early strategic agreement as Claude (diverging at step 3.4 vs.\ 3.2) but exhibits 2.1$\times$ higher variance, suggesting that divergence timing alone does not determine consistency. These findings suggest that for production deployment, interpretation accuracy matters more than execution consistency, with implications for agent evaluation and training.
- Abstract(参考訳): LLMをベースとしたエージェントが本番システムにデプロイされるため、動作の一貫性(同一タスクが与えられたときに類似のアクションシーケンスを生成するかどうか)を理解することが信頼性にとって重要となる。
複雑なマルチステップ推論を必要とするソフトウェアエンジニアリングベンチマークであるSWE-benchのコンテキストにおける一貫性について検討する。
Claude~4.5~Sonnet, GPT-5, Llama-3.1-70B の各50回の実行(10タスク$\times$5実行)を比較すると、モデル全体で、より高い一貫性の整合性(CV: 15.2\%)と高い精度(58\%)を達成すること、GPT-5 は中間(CV: 32.2\%、精度: 32\%)、Llama は最も高い分散(CV: 47.0\%)と低い精度(4\%)を示す。
しかし、モデル内では、一貫性は正しい解釈と間違った解釈の両方を増幅することができる。
我々の分析は、重要なニュアンスを明らかにしている: \textbf{consistency amplify outcomes than guaranteeing correctness}。
クロードの失敗の71.%は「矛盾した解釈」("Consistent wrong interpretation")に起因している。
興味深いことに、GPT-5はClaude(ステップ3.4とステップ3.4の分割)と同じような初期の戦略的合意を達成している。
しかし2.1$\times$高分散を示し、発散タイミングだけでは一貫性を決定できないことを示唆している。
これらの結果から, 実運用環境において, 解釈精度は実行の一貫性よりも重要であり, エージェント評価やトレーニングに影響を及ぼすことが示唆された。
関連論文リスト
- Prompt Architecture Determines Reasoning Quality: A Variable Isolation Study on the Car Wash Problem [0.0]
本研究では,生産システムのアーキテクチャ層が正しい推論を可能にする方法を検討する。
STAR(Situation-Task-Action-Result)推論フレームワークだけでは精度が0%から85%に向上することがわかった。
論文 参考訳(メタデータ) (2026-02-25T11:40:15Z) - When Agents Disagree With Themselves: Measuring Behavioral Consistency in LLM-Based Agents [0.0]
ReActスタイルのエージェントは、同じ入力でも平均10回の実行毎に2.0--4.2の異なるアクションシーケンスを生成する。
一貫性のある動作を持つタスクは80-92%の精度を達成するが、一貫性のないタスクは25-60%しか達成しない。
この結果から,実行中の動作の整合性を監視することにより,早期のエラー検出とエージェント信頼性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2026-02-12T06:15:14Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models [108.26461635308796]
Rationale Consistencyは、モデルの推論プロセスと人間の判断のアライメントを定量化する、きめ細かい計量である。
我々のフロンティアモデルの評価では,最先端モデル間で合理的な一貫性が効果的に識別できることが示されている。
我々は、GenRMトレーニングの合理性一貫性と結果精度を組み合わせたハイブリッド信号を導入する。
論文 参考訳(メタデータ) (2026-02-04T15:24:52Z) - Does Inference Scaling Improve Reasoning Faithfulness? A Multi-Model Analysis of Self-Consistency Tradeoffs [0.0]
自己整合性は、推論タスクにおける大きな言語モデルの精度を改善するための一般的な手法として現れてきた。
推論スケーリングは信頼の推論を改善するのか?
我々は、100 GSM8Kの数学的推論問題に対して、4つのフロンティアモデル(GPT-5.2、Claude Opus 4.5、Gemini-3-flash-preview、DeepSeek-v3.2)にわたる総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2026-01-10T04:20:00Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Robust Fine-tuning of Zero-shot Models via Variance Reduction [56.360865951192324]
微調整ゼロショットモデルの場合、このデシドラトゥムは細調整モデルで、分布内(ID)と分布外(OOD)の両方で優れる。
トレードオフを伴わずに最適なIDとOODの精度を同時に達成できるサンプルワイズアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2024-11-11T13:13:39Z) - Accurate and Reliable Predictions with Mutual-Transport Ensemble [46.368395985214875]
Kullback-Leibler (KL) を用いた共学習補助モデルの提案とクロスエントロピー損失の適応的正則化
MTEは精度と不確実性の両方を同時に向上させることができる。
例えば、CIFAR-100データセットでは、我々のResNet34/50上のMTEメソッドは、従来の最先端の手法に比べて大幅に改善された。
論文 参考訳(メタデータ) (2024-05-30T03:15:59Z) - Benchmarking and Improving Generator-Validator Consistency of Language
Models [82.73914625520686]
言語モデル(LM)において、解答の生成と検証が一般的である矛盾
最先端のLMであるGPT-4でさえ、GVとの共存率はわずか76%である。
このアプローチはAlpaca-30BのGV一貫性を60%から93%に向上させる。
論文 参考訳(メタデータ) (2023-10-03T07:23:22Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。