論文の概要: You Only Forward Once: An Efficient Compositional Judging Paradigm
- arxiv url: http://arxiv.org/abs/2511.16600v2
- Date: Fri, 21 Nov 2025 07:08:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 14:08:26.128273
- Title: You Only Forward Once: An Efficient Compositional Judging Paradigm
- Title(参考訳): 一度だけ前へ:効率的な作曲判断パラダイム
- Authors: Tianlong Zhang, Hongwei Xue, Shilin Yan, Di Wu, Chen Xu, Yunyun Yang,
- Abstract要約: YOFOはテンプレート条件付きメソッドで、単一のフォワードパスですべての要求を判断する。
標準的なレコメンデーションデータセットで最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 17.06658600909927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) show strong potential as judges. However, existing approaches face a fundamental trade-off: adapting MLLMs to output a single score misaligns with the generative nature of MLLMs and limits fine-grained requirement understanding, whereas autoregressively generating judging analyses is prohibitively slow in high-throughput settings. Observing that judgment reduces to verifying whether inputs satisfy a set of structured requirements, we propose YOFO, a template-conditioned method that judges all requirements in a single forward pass. Built on an autoregressive model, YOFO accepts a structured requirement template and, in one inference step, produces a binary yes/no decision for each requirement by reading the logits of the final token associated with that requirement. This design yields orders-of-magnitude speedups while preserving interpretability. Extensive experiments show that YOFO not only achieves state-of-the-art results on standard recommendation datasets, but also supports dependency-aware analysis -- where subsequent judgments are conditioned on previous ones -- and further benefits from post-hoc CoT.
- Abstract(参考訳): MLLM(Multimodal large language model)は、裁判官として強い可能性を示す。
しかし、既存のアプローチは基本的なトレードオフに直面しており、MLLMを1つのスコアに適合させてMLLMの生成特性とミスアライメントを出力し、きめ細かな要求理解を制限する。
入力が一組の構造化された要件を満たすかどうかを検証することによる判断の低減を見極めるため,単一のフォワードパスで全ての要求を判定するテンプレート条件付き手法であるYOFOを提案する。
自動回帰モデルに基づいて構築されたYOFOは、構造化された要件テンプレートを受け入れ、ある推論ステップでは、その要件に関連する最終トークンのロジットを読み込んで、各要件に対してバイナリのye/no判定を生成する。
この設計は、解釈可能性を維持しながら、オーダー・オブ・マグニチュード・スピードアップをもたらす。
大規模な実験によると、YOFOは標準的なレコメンデーションデータセットで最先端の結果を達成するだけでなく、依存性を意識した分析もサポートしている。
関連論文リスト
- Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - SSFO: Self-Supervised Faithfulness Optimization for Retrieval-Augmented Generation [20.129079009870125]
我々は,RAGの忠実度を高めるために,自己監督的忠実度最適化(SSFO)を導入する。
SSFOは、コンテキストを伴わずに生成されたモデルの出力を対比することで、好みのデータペアを構築する。
SSFOは既存の手法よりも優れており,複数の文脈に基づく質問応答データセットに対する最先端の忠実性を実現している。
論文 参考訳(メタデータ) (2025-08-24T06:58:29Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - Order-Independence Without Fine Tuning [18.020492646988746]
本稿では,LLMの出力が指定されたサブシーケンスのセットに順序依存しないことを保証する手法であるSet-Based Promptingを提案する。
我々の入力が分布外であるにもかかわらず、期待される精度への影響は小さく、予測は、一様に選択された応答のシャッフルの順序を超える。
論文 参考訳(メタデータ) (2024-06-04T16:09:13Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。