論文の概要: Interactive Groupwise Comparison for Reinforcement Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2507.04340v1
- Date: Sun, 06 Jul 2025 10:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.128686
- Title: Interactive Groupwise Comparison for Reinforcement Learning from Human Feedback
- Title(参考訳): ヒューマンフィードバックからの強化学習のための対話型グループワイド比較
- Authors: Jan Kompatscher, Danqing Shi, Giovanna Varni, Tino Weinkauf, Antti Oulasvirta,
- Abstract要約: 人間からのフィードバックからの強化学習(RLHF)は、AI行動と人間の嗜好の整合を可能にする重要な技術として登場した。
我々は、人間の視覚能力を利用して、サンプル群全体を比較し、探索するインタラクティブな可視化を提案する。
- 参考スコア(独自算出の注目度): 20.743622601707347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) has emerged as a key enabling technology for aligning AI behavior with human preferences. The traditional way to collect data in RLHF is via pairwise comparisons: human raters are asked to indicate which one of two samples they prefer. We present an interactive visualization that better exploits the human visual ability to compare and explore whole groups of samples. The interface is comprised of two linked views: 1) an exploration view showing a contextual overview of all sampled behaviors organized in a hierarchical clustering structure; and 2) a comparison view displaying two selected groups of behaviors for user queries. Users can efficiently explore large sets of behaviors by iterating between these two views. Additionally, we devised an active learning approach suggesting groups for comparison. As shown by our evaluation in six simulated robotics tasks, our approach increases the final policy returns by 69.34%. It leads to lower error rates and better policies. We open-source the code that can be easily integrated into the RLHF training loop, supporting research on human-AI alignment.
- Abstract(参考訳): 人間からのフィードバックからの強化学習(RLHF)は、AI行動と人間の嗜好の整合を可能にする重要な技術として登場した。
従来のRLHFのデータ収集方法は、ペアワイズ比較によって行われる。
我々は、人間の視覚能力を利用して、サンプル群全体を比較、探索するインタラクティブな可視化を提案する。
インターフェースは2つのリンクされたビューで構成されています。
1)階層的クラスタリング構造に整理されたすべてのサンプル行動の文脈的概要を示す探索的視点
2)ユーザクエリに対する2つの選択された行動群を示す比較ビュー。
ユーザはこの2つのビューを反復することで、大きな振る舞いの集合を効率的に探索できる。
さらに,グループ比較を提案する能動的学習手法を考案した。
シミュレーションロボット6つのタスクで評価した結果、最終方針は69.34%向上した。
エラー率を低くし、ポリシーを良くします。
我々は、RLHFトレーニングループに簡単に統合できるコードをオープンソース化し、人間-AIアライメントの研究を支援します。
関連論文リスト
- Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Knowledge Guided Bidirectional Attention Network for Human-Object
Interaction Detection [3.0915392100355192]
HOIにおけるボトムアップ構文解析戦略の独立的利用は直感に反し、注意の拡散につながる可能性があると論じる。
HOIに新たな知識誘導型トップダウンアテンションを導入し、関係解析を「ルックアンドサーチ」プロセスとしてモデル化することを提案する。
一つのエンコーダ-デコーダモデルでボトムアップとトップダウンの注意を統一することで、プロセスを実装します。
論文 参考訳(メタデータ) (2022-07-16T16:42:49Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - Symbiotic Adversarial Learning for Attribute-based Person Search [86.7506832053208]
本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。
具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
論文 参考訳(メタデータ) (2020-07-19T07:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。