論文の概要: Textual Self-attention Network: Test-Time Preference Optimization through Textual Gradient-based Attention
- arxiv url: http://arxiv.org/abs/2511.06682v1
- Date: Mon, 10 Nov 2025 04:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.067841
- Title: Textual Self-attention Network: Test-Time Preference Optimization through Textual Gradient-based Attention
- Title(参考訳): テキスト・セルフ・アテンション・ネットワーク:テキスト・グラディエント・ベースのアテンションによるテスト時間優先最適化
- Authors: Shibing Mo, Haoyang Ruan, Kai Wu, Jing Liu,
- Abstract要約: 本稿では,テスト時間優先最適化のための新しいパラダイムである Textual Self-Attention Network (TSAN) を提案する。
TSANは、このギャップを克服するために、自然言語で完全に自己注意をエミュレートする。
TSANは、ベースSFTモデルでわずか3回のテストタイムのイテレーションで、Llama-3.1-70B-Instructのような教師付きモデルを上回った。
- 参考スコア(独自算出の注目度): 11.162559089998576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable generalization capabilities, but aligning their outputs with human preferences typically requires expensive supervised fine-tuning. Recent test-time methods leverage textual feedback to overcome this, but they often critique and revise a single candidate response, lacking a principled mechanism to systematically analyze, weigh, and synthesize the strengths of multiple promising candidates. Such a mechanism is crucial because different responses may excel in distinct aspects (e.g., clarity, factual accuracy, or tone), and combining their best elements may produce a far superior outcome. This paper proposes the Textual Self-Attention Network (TSAN), a new paradigm for test-time preference optimization that requires no parameter updates. TSAN emulates self-attention entirely in natural language to overcome this gap: it analyzes multiple candidates by formatting them into textual keys and values, weighs their relevance using an LLM-based attention module, and synthesizes their strengths into a new, preference-aligned response under the guidance of the learned textual attention. This entire process operates in a textual gradient space, enabling iterative and interpretable optimization. Empirical evaluations demonstrate that with just three test-time iterations on a base SFT model, TSAN outperforms supervised models like Llama-3.1-70B-Instruct and surpasses the current state-of-the-art test-time alignment method by effectively leveraging multiple candidate solutions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、顕著な一般化能力を示しているが、その出力を人間の好みに合わせるには、通常、高価な教師付き微調整が必要である。
最近のテストタイム手法では、テキストフィードバックを利用してこれを克服するが、複数の候補の強度を体系的に分析し、測定し、合成する原理的なメカニズムが欠如しているため、単一の候補の応答を批判し、修正することが多い。
このようなメカニズムは、異なる応答が異なる側面(例えば、明瞭さ、事実的正確性、トーン)で優れ、それらの最良の要素を組み合わせることで、はるかに優れた結果が得られるため、非常に重要である。
本稿では,テキスト・セルフ・アテンション・ネットワーク(TSAN, Textual Self-Attention Network)を提案する。
TSANは、このギャップを克服するために、自然言語で完全に自己注意をエミュレートし、複数の候補をテキストキーと値にフォーマットして分析し、LLMベースのアテンションモジュールを使用して関連性を評価し、学習されたテキストアテンションのガイダンスの下で、その強みを新たな優先的な応答に合成する。
このプロセス全体がテキスト勾配空間で動作し、反復的かつ解釈可能な最適化を可能にする。
実験的な評価では、ベースSFTモデル上での3回のテストタイムイテレーションで、TSANはLlama-3.1-70B-Instructのような教師付きモデルよりも優れており、複数の候補ソリューションを効果的に活用することで現在の最先端テストタイムアライメント手法を超越している。
関連論文リスト
- Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - Test-Time Alignment for Large Language Models via Textual Model Predictive Control [63.508812485566374]
Textual Model Predictive Control (TMPC) は、推論時に大規模言語モデルを調整するために適応された新しい予測計画フレームワークである。
TMPCは、談話レベル翻訳、長文応答生成、プログラム合成の3つの異なるセグメンテーション特性を持つタスクで評価される。
その結果、TMPCはパフォーマンスを継続的に改善し、一般性を強調している。
論文 参考訳(メタデータ) (2025-02-28T07:24:33Z) - Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback [40.01227095901647]
大規模言語モデル(LLM)は、優れたパフォーマンスを示すが、リトレーニングなしに素早く人間の好みに適応する柔軟性に欠ける。
本稿では,LLM出力と推論時の人間の嗜好を一致させるフレームワークであるテスト時間優先最適化(TPO)を紹介する。
本研究は,TPOをテスト時間優先最適化の実用的で軽量な代替手段として確立し,ハエのアライメントを実現している。
論文 参考訳(メタデータ) (2025-01-22T14:15:46Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Enhancing LLM-Based Text Classification in Political Science: Automatic Prompt Optimization and Dynamic Exemplar Selection for Few-Shot Learning [1.6967824074619953]
大型言語モデル (LLMs) は、政治学におけるテキスト分類をかなり約束する。
本フレームワークは,自動プロンプト最適化,動的指数選択,コンセンサス機構を通じてLLM性能を向上させる。
オープンソースのPythonパッケージ(PoliPrompt)がGitHubで公開されている。
論文 参考訳(メタデータ) (2024-09-02T21:05:31Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。