論文の概要: Frictional Agent Alignment Framework: Slow Down and Don't Break Things
- arxiv url: http://arxiv.org/abs/2505.19428v1
- Date: Mon, 26 May 2025 02:39:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.115798
- Title: Frictional Agent Alignment Framework: Slow Down and Don't Break Things
- Title(参考訳): Frictional Agent Alignment Framework: スローダウンして物事を壊さない
- Authors: Abhijnan Nath, Carine Graff, Andrei Bachinin, Nikhil Krishnaswamy,
- Abstract要約: 正確な文脈対応フリクションを生成するためのフリクションエージェントアライメントフレームワーク(FAAF)を提案する。
FAAFの2人のプレイヤーの目標はデータスキューから切り離され、介入政策は協力者優先の反応を生み出す。
実験の結果、FAAFは簡潔で解釈可能な摩擦やOODの一般化においてライバルよりも優れていた。
- 参考スコア(独自算出の注目度): 6.102274021710727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI support of collaborative interactions entails mediating potential misalignment between interlocutor beliefs. Common preference alignment methods like DPO excel in static settings, but struggle in dynamic collaborative tasks where the explicit signals of interlocutor beliefs are sparse and skewed. We propose the Frictional Agent Alignment Framework (FAAF), to generate precise, context-aware "friction" that prompts for deliberation and re-examination of existing evidence. FAAF's two-player objective decouples from data skew: a frictive-state policy identifies belief misalignments, while an intervention policy crafts collaborator-preferred responses. We derive an analytical solution to this objective, enabling training a single policy via a simple supervised loss. Experiments on three benchmarks show FAAF outperforms competitors in producing concise, interpretable friction and in OOD generalization. By aligning LLMs to act as adaptive "thought partners" -- not passive responders -- FAAF advances scalable, dynamic human-AI collaboration. Our code and data can be found at https://github.com/csu-signal/FAAF_ACL.
- Abstract(参考訳): 協調的な相互作用のAIサポートは、対話者間の信念間の潜在的なミスアライメントを仲介する。
DPOのような一般的な選好アライメント手法は、静的な設定では優れているが、インターロケータの信念の明確なシグナルが疎外され、歪んでいる動的な協調作業に苦労する。
本稿では, 既存の証拠の再検討と検討を促す, 正確な文脈認識型フリクションを生成するために, FAAF (Frictional Agent Alignment Framework) を提案する。
連邦航空局(FAA)の2人乗りの目標はデータから切り離される: 摩擦的国家政策は信念の誤りを識別し、介入政策は協力者優先の反応を作らせる。
この目的に対して分析的な解決策を導出し、単純な教師付き損失による単一のポリシーのトレーニングを可能にします。
3つのベンチマークの実験では、FAAFは簡潔で解釈可能な摩擦を発生させ、OODの一般化においてライバルより優れていた。
LLMを適応的な"思想のパートナ"として -- 受動的応答者ではなく -- に調整することで、FAAFはスケーラブルでダイナミックなヒューマン-AIコラボレーションを推進します。
コードとデータはhttps://github.com/csu-signal/FAAF_ACLで確認できます。
関連論文リスト
- Inference-Time Policy Steering through Human Interactions [54.02655062969934]
推論中、人間はしばしばポリシー実行ループから取り除かれる。
本稿では,人間のインタラクションを活用して生成するサンプリングプロセスにバイアスを与える推論時ポリシーステアリングフレームワークを提案する。
提案手法は,アライメントと分布シフトの最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2024-11-25T18:03:50Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - Unsupervised Robust Cross-Lingual Entity Alignment via Neighbor Triple Matching with Entity and Relation Texts [17.477542644785483]
言語間エンティティアライメント(EA)は、異なる言語間での複数の知識グラフ(KG)の統合を可能にする。
近隣の3重マッチング戦略により、エンティティレベルとリレーレベルアライメントを共同で実行するEAパイプライン。
論文 参考訳(メタデータ) (2024-07-22T12:25:48Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - Combating Exacerbated Heterogeneity for Robust Models in Federated
Learning [91.88122934924435]
対人訓練と連合学習の組み合わせは、望ましくない頑丈さの劣化につながる可能性がある。
我々は、Slack Federated Adversarial Training (SFAT)と呼ばれる新しいフレームワークを提案する。
各種ベンチマークおよび実世界のデータセットに対するSFATの合理性と有効性を検証する。
論文 参考訳(メタデータ) (2023-03-01T06:16:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。