論文の概要: Words & Weights: Streamlining Multi-Turn Interactions via Co-Adaptation
- arxiv url: http://arxiv.org/abs/2603.01375v1
- Date: Mon, 02 Mar 2026 02:16:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.652463
- Title: Words & Weights: Streamlining Multi-Turn Interactions via Co-Adaptation
- Title(参考訳): 単語と重み:共適応によるマルチスレッドインタラクションの合理化
- Authors: Chenxing Wei, Hong Wang, Ying He, Zhongxiang Dai, Bo Jiang, F. Richard Yu, Yao Shu,
- Abstract要約: マルチターンインタラクション(T2PAM)に対するテスト時ポリシー適応は,大規模言語モデル(LLM)と動的ユーザニーズとの整合に不可欠である。
本稿では,単語と重みの不均一な空間上での相互作用を協調最適化問題として再構成するフレームワークであるROSA2を提案する。
- 参考スコア(独自算出の注目度): 55.938648534942665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time policy adaptation for multi-turn interactions (T2PAM) is essential for aligning Large Language Models (LLMs) with dynamic user needs during inference time. However, existing paradigms commonly treat test-time adaptation as a single-axis problem, either purely refining instructions (Prompt Engineering) or only adjusting weights (Test-Time Training), ignoring that interaction failures stem from a coupled mix of ambiguity and incapacity. We argue that these two optimization paths are not merely additive but synergistic: semantic clarity acts as a pre-conditioner for effective parameter updates. To this end, we propose ROSA2, a framework that reformulates interaction as a joint optimization problem over the heterogeneous space of Words and Weights. By mathematically decomposing the error signal, ROSA2 utilizes textual gradients to rectify intent ambiguity and parameter updates to bridge capability gaps. Theoretically, we prove that this co-adaptation strictly reduces the required parameter shift for convergence. Empirically, ROSA2 outperforms state-of-the-art baselines by 30% on MATH while reducing interaction turns by 40%, demonstrating that refining the context unlocks the true potential of parameter updates.
- Abstract(参考訳): マルチターンインタラクション(T2PAM)に対するテスト時ポリシー適応は,大規模言語モデル(LLM)と動的ユーザニーズとの整合に不可欠である。
しかし、既存のパラダイムは、テストタイム適応を、純粋に精製する(プロンプトエンジニアリング)か、ウェイトを調整する(テストタイムトレーニング)のいずれかの単一軸問題として扱うのが一般的であり、相互作用の失敗は曖昧さと非能力の混合に起因することを無視する。
これら2つの最適化パスは単なる加法的ではなく、相乗的であり、意味的明確性は効果的なパラメータ更新の前提条件として機能する。
そこで本研究では,単語と重みの不均一な空間上での協調最適化問題としてインタラクションを再構築するフレームワークであるROSA2を提案する。
数学的に誤り信号を分解することにより、ROSA2はテキストの勾配を利用して意図のあいまいさとパラメータの更新をブリッジ能力ギャップに修正する。
理論的には、この共適応は収束に必要なパラメータシフトを厳密に減少させる。
実証的には、ROSA2はMATHで最先端のベースラインを30%上回り、相互作用を40%減らし、コンテキストの精製がパラメータ更新の真の可能性を解放することを示した。
関連論文リスト
- Weight Updates as Activation Shifts: A Principled Framework for Steering [54.70188910511715]
アクティベーションステアリングは極めてパラメータ効率のよい適応形態となるが、その有効性は重要な設計選択に依存する。
我々は,活性化空間介入と重量空間更新の1次等価性を確立し,活性化ステアリングが微調整動作を再現できる条件を導出する。
この等価性は、設計をステアリングするための原則的な枠組みをもたらし、ポストブロック出力を理論的に支持され、非常に表現力のある介入サイトとして特定する。
論文 参考訳(メタデータ) (2026-02-28T02:50:04Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs [20.892283201423048]
T2PAM(Test-Time Policy Adaptation for Multi-Turn Interactions)について紹介する。
まず,ユーザのフィードバックを報奨信号として利用し,ユーザの嗜好に合致した潜在最適ポリシーを推定する,新しいパラダイムT2PAMを提案する。
次に,T2PAM を演算する軽量アルゴリズムであるOptimum-Referenced One-Step Adaptation (ROSA) を導入する。
論文 参考訳(メタデータ) (2025-09-27T07:46:15Z) - EmbedGrad: Gradient-Based Prompt Optimization in Embedding Space for Large Language Models [45.78656491861157]
グラデーションベースのリファインメントによるテキストプロンプト埋め込みを最適化するフレームワークであるEmbedGradを提案する。
当社のアプローチは,デプロイメントからトレーニングを分離するものです。
数学的推論、感情分析、因果判断タスクの総合的な評価は、EmbedGradの有効性を示す。
論文 参考訳(メタデータ) (2025-08-05T15:03:10Z) - Sparsity Outperforms Low-Rank Projections in Few-Shot Adaptation [14.086036250269613]
ラベル付きサンプルがほとんどない新しいドメインにビジョンランゲージモデルを適用することは、過度なオーバーフィットと計算上の制約のため、課題である。
本稿では,ごく少数のパラメータを動的に調整する新しいスパース最適化フレームワークを提案する。
11の多様なデータセットの実験により、SOはメモリオーバーヘッドを低減しつつ、最先端の数発の適応性能を実現している。
論文 参考訳(メタデータ) (2025-04-16T19:10:34Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Adapter-X: A Novel General Parameter-Efficient Fine-Tuning Framework for Vision [52.80792724919329]
本稿では,2次元画像と3次元点雲の微調整を改善するためのAdapter-Xという新しいフレームワークを提案する。
2D画像と3Dポイントの雲のモードで完全な微調整をし、パラメータが大幅に少ない、すなわち2Dと3Dの分類タスクにおいて、オリジナルのトレーニング可能なパラメータのわずか0.20%と1.88%で、初めて性能を上回った。
論文 参考訳(メタデータ) (2024-06-05T08:26:44Z) - Infusing Hierarchical Guidance into Prompt Tuning: A Parameter-Efficient
Framework for Multi-level Implicit Discourse Relation Recognition [16.647413058592125]
マルチレベル暗黙的談話関係認識(MIDRR)は,議論間の階層的談話関係の同定を目的とする。
本稿では,プロンプトベースを提案する。
上記の問題を解決するための多レベルIDRR(PEMI)フレームワーク。
論文 参考訳(メタデータ) (2024-02-23T03:53:39Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - RatE: Relation-Adaptive Translating Embedding for Knowledge Graph
Completion [51.64061146389754]
複素空間における新たな重み付き積の上に構築された関係適応変換関数を提案する。
次に、関係適応型翻訳埋め込み(RatE)アプローチを示し、各グラフを3倍にスコアする。
論文 参考訳(メタデータ) (2020-10-10T01:30:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。