論文の概要: Alignment Drift in Long-Term Human-LLM Interaction: A Mechanism-Oriented Framework
- arxiv url: http://arxiv.org/abs/2605.16516v1
- Date: Fri, 15 May 2026 18:11:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.595575
- Title: Alignment Drift in Long-Term Human-LLM Interaction: A Mechanism-Oriented Framework
- Title(参考訳): 長期人間-LLMインタラクションにおけるアライメントドリフト:メカニズム指向フレームワーク
- Authors: Xintong Yao,
- Abstract要約: 本稿では,アライメントドリフトを記述するためのメカニズム指向フレームワークを提案する。
本論文は,アライメントドリフトをモデル側失敗ではなく相互作用過程としてフレーミングすることにより,長期の人間-システム間相互作用を研究するための概念的基礎を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term interaction with LLM-based systems may produce alignment drift: a gradual process in which system outputs become less constrained by the user's current message and more shaped by prior interaction history, while still appearing helpful, coherent, and responsive. This process is difficult to detect because the user's subjective experience may improve as the system becomes more familiar, useful, and attuned. Existing research on human-LLM interaction has largely focused on short-term task performance, isolated outputs, or single-instance alignment problems, leaving slow and cumulative interaction-level dynamics undercharacterized. This paper proposes a mechanism-oriented framework for describing alignment drift. The framework defines the distinction between signal A and signal B, explains how drift develops through feedback loops and sub-pattern selection, divides the process into three interactional regimes, and identifies boundary conditions for controlling drift. By framing alignment drift as a recursive interactional process rather than an isolated model-side failure, the paper provides a conceptual basis for studying long-term human-system interaction.
- Abstract(参考訳): LLMベースのシステムとの長期的な相互作用は、アライメントドリフト(アライメントドリフト)を引き起こす可能性がある: システムの出力がユーザの現在のメッセージによって制約を受けにくくなり、以前のインタラクション履歴によって形づくられるようになるが、それでも有用で一貫性があり、応答性が高い。
このプロセスは、システムがより親しみやすく、有用で、直感的になるにつれて、ユーザの主観的体験が改善する可能性があるため、検出が困難である。
ヒトとLLMの相互作用に関する既存の研究は、短期的なタスクパフォーマンス、孤立出力、単一インスタンスアライメントの問題に主に焦点を合わせており、遅くて累積的な相互作用レベルのダイナミクスが不足している。
本稿では,アライメントドリフトを記述するためのメカニズム指向フレームワークを提案する。
このフレームワークは信号Aと信号Bの区別を定義し、フィードバックループとサブパターン選択を通じてドリフトがどのように発達するかを説明し、プロセスを3つの相互作用状態に分割し、ドリフトを制御する境界条件を特定する。
本論文は,アライメントドリフトをモデル側失敗ではなく再帰的相互作用過程として捉えることにより,長期の人-システム相互作用を研究するための概念的基礎を提供する。
関連論文リスト
- Engagement Process: Rethinking the Temporal Interface of Action and Observation [26.709060042723348]
Engagement Process(EP)は、適切な意思決定手順でペアを組むのではなく、イベントストリームの分離としてアクションとオブザーバを表現します。
EPは、検討、遅延、遅延フィードバック、永続的なアクションなど、単一エージェントのタイミング問題をキャプチャする。
EPはステップベースのインターフェースによって隠された一時的な振る舞いを公開し、ポリシーが明示的な時間的コストで適応できるようにする。
論文 参考訳(メタデータ) (2026-05-12T04:02:03Z) - Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - HINT: Hierarchical Interaction Modeling for Autoregressive Multi-Human Motion Generation [55.73037290387896]
HINTは,階層的インタラクティクスモデリングを応用した多関節モーション生成のための最初の自動回帰フレームワークである。
第一に、HINTは正準化潜在空間内でのゆがみのある動きの表現を活用し、局所的な動きのセマンティクスを対人インタラクションから切り離す。
第二に、HINTは効率的なオンライン生成のためのスライドウインドウ戦略を採用し、局所的なウィンドウ内およびグローバルなクロスウインドウ条件を集約し、過去の人類の歴史、個人間の依存関係を捉え、テキストガイダンスと整合する。
論文 参考訳(メタデータ) (2026-01-28T08:47:23Z) - Agent Drift: Quantifying Behavioral Degradation in Multi-Agent LLM Systems Over Extended Interactions [0.0]
エージェントドリフト(エージェントドリフト)は、エージェントの挙動、決定品質、およびエージェント間コヒーレンスを、拡張された相互作用シーケンス上で段階的に劣化させる。
12次元にわたるドリフトを定量化するための新しい合成計量であるエージェント安定度指数(ASI)を導入する。
未確認エージェントドリフトがタスク完了精度を大幅に低下させ、人間の介入要求が増大することを示す。
論文 参考訳(メタデータ) (2026-01-07T18:37:26Z) - InterAgent: Physics-based Multi-agent Command Execution via Diffusion on Interaction Graphs [72.5651722107621]
InterAgentはテキスト駆動型物理ベースのマルチエージェントヒューマノイド制御のためのエンドツーエンドフレームワークである。
本稿では,マルチストリームブロックを備えた自己回帰拡散トランスフォーマーを提案する。
また,空間依存性の微粒化を明示的に捉えた対話グラフのエクスセプション表現を提案する。
論文 参考訳(メタデータ) (2025-12-08T10:46:01Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z) - Divide and Rule: Recurrent Partitioned Network for Dynamic Processes [25.855428321990328]
多くの動的なプロセスは、物理的システムから社会学的分析まで、相互作用する変数に関与している。
我々のゴールは、部分全体階層を持つシステムを表現し、システム内変数間の暗黙の依存関係を発見することである。
提案アーキテクチャは, (i) 複数のレベルにおける観測の階層的かつ時間的に一貫した表現を抽出する知覚モジュール, (ii) 各レベルにおけるニューロン間の関係性を決定する導出モジュール, (iii)時間分布推定を条件に未来を予測する統計的モジュールからなる。
論文 参考訳(メタデータ) (2021-06-01T06:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。