論文の概要: Co-Alignment: Rethinking Alignment as Bidirectional Human-AI Cognitive Adaptation
- arxiv url: http://arxiv.org/abs/2509.12179v3
- Date: Fri, 10 Oct 2025 23:33:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 20:23:38.900294
- Title: Co-Alignment: Rethinking Alignment as Bidirectional Human-AI Cognitive Adaptation
- Title(参考訳): 協調アライメント:アライメントを双方向のヒューマンAI認知適応として再考する
- Authors: Yubo Li, Weiyi Song,
- Abstract要約: RLHFによる現在のAIアライメントは、人間の認識を固定として扱いながら、AIが人間の嗜好に準拠する、単一の方向性パラダイムに従っている。
我々は,人間とAIが相互に適応する双方向認知アライメント(Bidirectional Cognitive Alignment, BiCA)による協調調整への移行を提案する。
- 参考スコア(独自算出の注目度): 7.969018781312211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current AI alignment through RLHF follows a single directional paradigm that AI conforms to human preferences while treating human cognition as fixed. We propose a shift to co-alignment through Bidirectional Cognitive Alignment (BiCA), where humans and AI mutually adapt. BiCA uses learnable protocols, representation mapping, and KL-budget constraints for controlled co-evolution. In collaborative navigation, BiCA achieved 85.5% success versus 70.3% baseline, with 230% better mutual adaptation and 332% better protocol convergence. Emergent protocols outperformed handcrafted ones by 84%, while bidirectional adaptation unexpectedly improved safety (+23% out-of-distribution robustness). The 46% synergy improvement demonstrates optimal collaboration exists at the intersection, not union, of human and AI capabilities, validating the shift from single-directional to co-alignment paradigms.
- Abstract(参考訳): RLHFによる現在のAIアライメントは、人間の認識を固定として扱いながら、AIが人間の嗜好に準拠する、単一の方向性パラダイムに従っている。
我々は,人間とAIが相互に適応する双方向認知アライメント(Bidirectional Cognitive Alignment, BiCA)による協調調整への移行を提案する。
BiCAは、学習可能なプロトコル、表現マッピング、制御された共進化のためのKL予算制約を使用する。
共同航法において、BiCAは、70.3%のベースラインに対して85.5%の成功し、230%の相互適応と332%のプロトコル収束を達成した。
創発的プロトコルは手工芸品を84%上回り、双方向適応は予想外に安全性を向上した(+23%のアウト・オブ・ディストリビューション・ロバスト性)。
46%のシナジー改善は、統合ではなく、人間とAIの能力の交差点に最適なコラボレーションが存在することを示した。
関連論文リスト
- Heterogeneous Agent Collaborative Reinforcement Learning [52.99813668995983]
不均一エージェント協調強化学習(HACRL)
本稿では,このパラダイムに基づいて,サンプル利用とエージェント間の知識伝達を最大化するために,原則的なロールアウト共有を可能にする協調RLアルゴリズムであるHACPOを提案する。
多様な異種モデルの組み合わせと推論ベンチマークによる実験により、HACPOはすべてのエージェントを一貫して改善し、GSPOを平均3.3%上回り、ロールアウトコストの半分しか使っていないことが示された。
論文 参考訳(メタデータ) (2026-03-03T05:09:49Z) - Nested Training for Mutual Adaptation in Human-AI Teaming [30.247046563601202]
既存のアプローチは、トレーニングパートナの多様性を改善して人間の振る舞いを近似することを目的としているが、これらのパートナは静的であり、人間の適応的な振る舞いを捉えることができない。
我々は,人間ロボットのチーム化シナリオを対話的部分観測可能なマルコフ決定プロセス (I-POMDP) としてモデル化し,その状態の一部としての人間の適応を明示的にモデル化する。
提案手法を,人間ロボットの協調作業用に設計された複数のベースラインエージェントと比較し,オーバークッキング領域における協調設定を必要とするマルチフェーズで学習する。
論文 参考訳(メタデータ) (2026-02-18T23:07:48Z) - AI, Metacognition, and the Verification Bottleneck: A Three-Wave Longitudinal Study of Human Problem-Solving [0.0]
このパイロット研究は、AIが学術的な環境での6ヶ月にわたる問題解決にどのように影響するかを追跡した。
結果は、主にアーリーアドプター、学術関連集団に一般化される。
論文 参考訳(メタデータ) (2026-01-21T15:49:04Z) - TRYLOCK: Defense-in-Depth Against LLM Jailbreaks via Layered Preference and Representation Engineering [0.0]
提案するTRYLOCKは,推論スタックをまたいだ4つのメカニズムを組み合わせた,最初のディフェンス・イン・ディースアーキテクチャである。
Mistral-7B-Instructが249プロンプト攻撃セットに対して評価された場合、TRYLOCKは88.0%の相対的なASR減少を達成する。
論文 参考訳(メタデータ) (2026-01-06T03:02:20Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - MapReduce LoRA: Advancing the Pareto Front in Multi-Preference Optimization for Generative Models [52.32146943039743]
人間のフィードバックからの強化学習は、生成モデルと人間の美学と知覚的嗜好を高度に一致させる。
MapReduce LoRA と Reward-aware Token Embedding (RaTE) の2つの補完手法を紹介する。
我々のフレームワークは、モダリティにまたがる新しい最先端のマルチ参照アライメントのレシピを定めている。
論文 参考訳(メタデータ) (2025-11-25T18:49:21Z) - Detecting and Steering LLMs' Empathy in Action [0.0]
LLM活性化空間における線形方向としての共感-in-actionについて検討する。
Empathy-in-Actionベンチマークに基づいた対照的なプロンプトを用いて、検出と4つのモデル間のステアリングをテストする。
論文 参考訳(メタデータ) (2025-11-17T23:45:26Z) - HeatV2X: Scalable Heterogeneous Collaborative Perception via Efficient Alignment and Interaction [7.171380055232685]
V2X(Van-to-Everything)コラボレーティブ・インセプションは、トランスミッションを通じて、単一車両の限界を超えて知覚を拡大する。
既存のフレームワークは、(1)参加エージェントは本質的にマルチモーダルで異種であり、(2)新しいエージェントに対応するためには、協調フレームワークはスケーラブルでなければならない。
スケーラブルな協調フレームワークであるHeatV2Xを提案する。
論文 参考訳(メタデータ) (2025-11-13T11:33:22Z) - Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving [62.71545696485824]
我々は,異種エージェントフレームワーク間のシームレスな体験共有を可能にするユニバーサルメモリ基盤であるAgent KBを紹介した。
Agent KBはトラジェクトリを構造化知識ベースに集約し、軽量APIを提供する。
我々は,GAIA,Humanity's Last Exam,GPQA,SWE-benchなどの主要フレームワークにまたがるエージェントを検証した。
論文 参考訳(メタデータ) (2025-07-08T17:59:22Z) - Direct Advantage Regression: Aligning LLMs with Online AI Reward [59.78549819431632]
オンラインAIフィードバック(OAIF)は、人間からの強化学習(RLHF)に代わる有望な代替手段を提供する
我々は,重み付き教師付き微調整による政策改善を最適化するダイレクトアドバンテージ・レグレッション(DAR)を提案する。
我々の経験的結果は、AI報酬はAIの好みとは対照的に、より高度な人間とAIの合意を一貫して達成するAI監督のより良い形態であることを示している。
論文 参考訳(メタデータ) (2025-04-19T04:44:32Z) - Automatic Curriculum Design for Zero-Shot Human-AI Coordination [4.634917646296438]
ゼロショットヒューマンAIコーディネーション(ゼロショットヒューマンAIコーディネーション)とは、人間データなしで人間と協調するエゴエージェントのトレーニングである。
ゼロショット人間-AI協調設定のためのユーティリティ関数とコプレーヤサンプリングを提案する。
本手法は,見知らぬ環境下での人間とAIの協調作業において高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-10T12:55:31Z) - Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。
我々は,エバが有効なRLキュリキュラを作成でき,アブレーションにまたがって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z) - Unsupervised Cross-Domain Image Retrieval via Prototypical Optimal Transport [24.141959555741696]
教師なしクロスドメイン画像検索は、ラベル付きデータに頼ることなく、さまざまな領域で同じカテゴリを共有する画像を検索することを目的としている。
従来のアプローチでは、UCIRの問題をドメイン内表現学習とドメイン間特徴アライメントという2つの異なるタスクに分解していた。
本稿では,UCIR に最適化された新規な Optimal Transport の定式化である ProtoOT を紹介する。
論文 参考訳(メタデータ) (2024-02-28T15:31:45Z) - iPLAN: Intent-Aware Planning in Heterogeneous Traffic via Distributed
Multi-Agent Reinforcement Learning [57.24340061741223]
本稿では,高密度および不均一な交通シナリオにおける軌跡や意図を予測できる分散マルチエージェント強化学習(MARL)アルゴリズムを提案する。
インテント対応プランニングのアプローチであるiPLANにより、エージェントは近くのドライバーの意図をローカルな観察からのみ推測できる。
論文 参考訳(メタデータ) (2023-06-09T20:12:02Z) - Best Practices for 2-Body Pose Forecasting [58.661899246497896]
我々は、人間のポーズ予測の進捗状況を概観し、最善を尽くす一対一の実践を詳細に評価する。
他の1人のプラクティスは2体に移行しないため、提案されているベストプラクティスは階層的なボディモデリングや注目に基づくインタラクションエンコーディングは含まない。
提案した2体ポーズによるベストプラクティス予測では,最新のExPIデータセットのパフォーマンスが21.9%向上した。
論文 参考訳(メタデータ) (2023-04-12T10:46:23Z) - Signal Propagation in a Gradient-Based and Evolutionary Learning System [9.911708222650825]
GANトレーニングのための共進化アルゴリズム(CEA)は、彼らに経験的に堅牢です。
そこで我々は,Lipizzanerのような分散CEAであるLipi-Ringを提案する。
主課題は,信号伝搬の方向性の違いがリピズザナーの性能品質と訓練効率に合致するかどうかである。
論文 参考訳(メタデータ) (2021-02-10T16:46:44Z) - Multi-Agent Reinforcement Learning in NOMA-aided UAV Networks for
Cellular Offloading [59.32570888309133]
複数の無人航空機(UAV)によるセルローディングのための新しい枠組みの提案
非直交多重アクセス(NOMA)技術は、無線ネットワークのスペクトル効率をさらに向上するために、各UAVに採用されている。
相互深いQ-network (MDQN) アルゴリズムは,UAVの最適3次元軌道と電力配分を共同で決定するために提案される。
論文 参考訳(メタデータ) (2020-10-18T20:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。