論文の概要: Joint Consistency: A Unified Test-Time Aggregation Framework via Energy Minimization
- arxiv url: http://arxiv.org/abs/2605.06219v1
- Date: Thu, 07 May 2026 13:17:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.827653
- Title: Joint Consistency: A Unified Test-Time Aggregation Framework via Energy Minimization
- Title(参考訳): 合同一貫性:エネルギー最小化による統合テスト時間集約フレームワーク
- Authors: Yunzhen Yao, Hongye Wang, Yahong Wang, Michael C. Gastpar, Bo Jiang, Lie He,
- Abstract要約: 本稿では,複数の推論トレースを生成し,それらを最終回答に集約するテスト時間アグリゲーションについて検討する。
JC(Joint Consistency)はIsing型エネルギー最小化問題として定式化されている。
JCはタスク、判断モデル、トレース予算、トレース生成設定など、既存のベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 9.75605605236214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies test-time aggregation, an approach that generates multiple reasoning traces and aggregates them into a final answer. Most existing methods rely on evaluation signals collected from candidate traces in isolation or answer frequencies, while ignoring comparative interactions among candidates. We propose Joint Consistency (JC), formulated as a constrained Ising-type energy minimization problem, where independent evaluation signals act as external fields and pairwise comparisons act as interactions. JC provides a unified framework for test-time aggregation that subsumes existing voting and weighted aggregation methods as special cases. Our construction of the interaction matrix leverages LLM-as-a-judge comparisons, and admits a theoretical interpretation under answer-level homogeneity assumptions. Moreover, we develop an efficient approximation strategy that makes interaction modeling practical for large-scale test-time aggregation. Experiments on math and code reasoning benchmarks show that JC consistently outperforms existing baselines across tasks, judge models, trace budgets, and trace-generation settings.
- Abstract(参考訳): 本稿では,複数の推論トレースを生成し,それらを最終回答に集約するテスト時間アグリゲーションについて検討する。
既存の手法のほとんどは、候補者間の比較的な相互作用を無視しながら、孤立または応答頻度で候補トレースから収集された評価信号に依存している。
本稿では,制約付きIsing型エネルギー最小化問題として定式化されたJC(Joint Consistency)を提案する。
JCはテスト時間アグリゲーションのための統一されたフレームワークを提供し、これは既存の投票方法と重み付けされたアグリゲーションメソッドを特別なケースとして仮定する。
相互作用行列の構成は LLM-as-a-judge 比較を利用しており、解準同次性仮定の下で理論的解釈が可能である。
さらに,大規模テスト時間アグリゲーションのための相互作用モデリングを実用化する効率的な近似手法を開発した。
数学とコード推論ベンチマークの実験は、JCがタスク、判断モデル、トレース予算、トレース生成設定で既存のベースラインを一貫して上回っていることを示している。
関連論文リスト
- Distribution-Calibrated Inference time compute for Thinking LLM-as-a-Judge [5.855996386998925]
大きな言語モデル(LLM)をペアの選好の判断に使用すると、単一サンプルレベルではノイズが残る。
本研究では,各項目ごとにn個の独立した思考型サンプルを生成する評価器の推論時間計算(ITC)について検討する。
論文 参考訳(メタデータ) (2025-12-02T18:46:47Z) - JudgeBoard: Benchmarking and Enhancing Small Language Models for Reasoning Evaluation [13.831735556002426]
小型言語モデル(SLM)は様々な推論タスクを約束している。
解答の正しさを判断する能力は、大言語モデル(LLM)と比較しても明らかでない。
論文 参考訳(メタデータ) (2025-11-20T01:14:39Z) - Multi-Agent Debate for LLM Judges with Adaptive Stability Detection [46.67172123607961]
エージェントが協調して判断し、反復的に応答を洗練するマルチエージェントの議論判断フレームワークを提案する。
議論の過程を数学的に定式化し、エージェントの相互作用を分析し、議論が静的アンサンブルと比較して正確さを増幅することを証明する。
複数のベンチマークやモデルを用いた実験により,本フレームワークは計算効率を維持しつつ,多数決よりも判定精度を向上させることが示された。
論文 参考訳(メタデータ) (2025-10-14T16:30:30Z) - BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses [32.58830706120845]
大規模言語モデル(LLM)のバイアス緩和手法に関する既存の研究は、様々なベースラインとメトリクスを用いてバイアス低減性能を評価する。
BiasFreeBenchは8つの主流バイアス緩和手法を包括的に比較した経験的ベンチマークである。
我々は、バイアス軽減研究のための統合テストベッドを確立することを目的として、我々のベンチマークを公開します。
論文 参考訳(メタデータ) (2025-09-30T19:56:54Z) - Representation Consistency for Accurate and Coherent LLM Answer Aggregation [31.694036998078264]
表現整合性(英: representation consistency, RC)は、大規模言語モデルの複数の候補応答から引き出された回答を集約するテスト時間スケーリング手法である。
RCは、各応答集合における各応答の発生数を考慮することにより、回答集約を強化する。
キャッシュされたアクティベーションと軽量な類似性計算のみを使用し,追加のモデルクエリを必要としない。
論文 参考訳(メタデータ) (2025-06-18T05:07:47Z) - CORG: Generating Answers from Complex, Interrelated Contexts [57.213304718157985]
現実世界のコーパスでは、知識は文書間で頻繁に再帰するが、曖昧な命名、時代遅れの情報、エラーのためにしばしば矛盾を含む。
以前の研究では、言語モデルはこれらの複雑さに苦しむことが示されており、典型的には孤立した単一要因に焦点を当てている。
複数のコンテキストを個別に処理されたグループに整理するフレームワークであるContext Organizer (CORG)を紹介する。
論文 参考訳(メタデータ) (2025-04-25T02:40:48Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - SHINE: Saliency-aware HIerarchical NEgative Ranking for Compositional Temporal Grounding [52.98133831401225]
時間的グラウンドディング(英: Temporal grounding、ビデオモーメント検索(英語版))は、所定のクエリ文に対応するビデオセグメントを特定することを目的としている。
本稿では, GPT-3.5-Turbo を用いた負のクエリ構築のための大規模言語モデル駆動手法を提案する。
本稿では,ビデオと階層的負のクエリ間の多粒度意味的関係を学習するモデルを提案する。
論文 参考訳(メタデータ) (2024-07-06T16:08:17Z) - Generating Chain-of-Thoughts with a Pairwise-Comparison Approach to Searching for the Most Promising Intermediate Thought [70.30423016640749]
CoT法(Chain-of- Thoughts)は、大規模言語モデルにステップバイステップの推論を誘導し、単純から複雑への問題解決を可能にする手法である。
大規模言語モデル (LLMs) による評価は、一般的にうるさく、信頼できないものであり、将来有望な中間的思考を選択する際の生成過程を誤解させる可能性がある。
本稿では,Vapnikの原理を動機として,ポイントワイドスコアではなくペアワイズ比較評価を用いて,有望な中間思考を探索する。
論文 参考訳(メタデータ) (2024-02-10T09:51:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。