論文の概要: The Future of Open Human Feedback
- arxiv url: http://arxiv.org/abs/2408.16961v2
- Date: Wed, 4 Sep 2024 15:39:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 17:07:21.831122
- Title: The Future of Open Human Feedback
- Title(参考訳): オープンヒューマンフィードバックの未来
- Authors: Shachar Don-Yehiya, Ben Burtenshaw, Ramon Fernandez Astudillo, Cailean Osborne, Mimansa Jaiswal, Tzu-Sheng Kuo, Wenting Zhao, Idan Shenfeld, Andi Peng, Mikhail Yurochkin, Atoosa Kasirzadeh, Yangsibo Huang, Tatsunori Hashimoto, Yacine Jernite, Daniel Vila-Suero, Omri Abend, Jennifer Ding, Sara Hooker, Hannah Rose Kirk, Leshem Choshen,
- Abstract要約: 私たちは学際的な専門家を集めて、AIのための人間のフィードバックのオープンなエコシステムを実現するための機会と課題を評価します。
私たちはまず、ピアプロダクション、オープンソース、市民科学コミュニティで成功したプラクティスを探します。
最終的には、持続可能なオープンな人間のフィードバックエコシステムを支えるために必要なコンポーネントを想定します。
- 参考スコア(独自算出の注目度): 65.2188596695235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human feedback on conversations with language language models (LLMs) is central to how these systems learn about the world, improve their capabilities, and are steered toward desirable and safe behaviors. However, this feedback is mostly collected by frontier AI labs and kept behind closed doors. In this work, we bring together interdisciplinary experts to assess the opportunities and challenges to realizing an open ecosystem of human feedback for AI. We first look for successful practices in peer production, open source, and citizen science communities. We then characterize the main challenges for open human feedback. For each, we survey current approaches and offer recommendations. We end by envisioning the components needed to underpin a sustainable and open human feedback ecosystem. In the center of this ecosystem are mutually beneficial feedback loops, between users and specialized models, incentivizing a diverse stakeholders community of model trainers and feedback providers to support a general open feedback pool.
- Abstract(参考訳): 言語モデル(LLM)との会話に対する人間のフィードバックは、これらのシステムが世界についてどのように学び、その能力を改善し、望ましい、安全な行動へと導かれるかの中心である。
しかし、このフィードバックは、主にフロンティアAIラボによって収集され、ドアの陰に置かれている。
本研究では、AIのための人間のフィードバックのオープンなエコシステムを実現するための機会と課題を評価するために、学際専門家を集結させます。
私たちはまず、ピアプロダクション、オープンソース、市民科学コミュニティで成功したプラクティスを探します。
そして、人間のフィードバックをオープンにする主な課題を特徴づけます。
それぞれについて、現在のアプローチを調査し、推奨します。
最終的には、持続可能なオープンな人間のフィードバックエコシステムを支えるために必要なコンポーネントを想定します。
このエコシステムの中心には、ユーザと専門モデルの間の相互に有益なフィードバックループがあり、一般的なオープンなフィードバックプールをサポートするために、モデルトレーナとフィードバックプロバイダの多様な利害関係者コミュニティにインセンティブを与えます。
関連論文リスト
- Source Echo Chamber: Exploring the Escalation of Source Bias in User, Data, and Recommender System Feedback Loop [65.23044868332693]
本稿では,ソースバイアスがレコメンデーションシステムの領域に与える影響について検討する。
ソースバイアスの頻度を示し、ソースバイアスを増幅した潜在的デジタルエコーチャンバーを明らかにする。
我々は,HGCとAIGCの両方に対してモデル不均一性を維持するブラックボックスデバイアス法を導入する。
論文 参考訳(メタデータ) (2024-05-28T09:34:50Z) - Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Breadcrumbs to the Goal: Goal-Conditioned Exploration from
Human-in-the-Loop Feedback [22.89046164459011]
非熟練者からの低品質フィードバックを利用するHuman Guided Exploration(HuGE)という手法を提案する。
HuGEは、シミュレーションだけでなく、実世界でも、厳密な報酬仕様なしで強化学習の探索をガイドしている。
論文 参考訳(メタデータ) (2023-07-20T17:30:37Z) - Continually Improving Extractive QA via Human Feedback [59.49549491725224]
本研究では,人間のフィードバックによる抽出質問応答(QA)システムの改善を継続的に進める。
多様な設定の下で何千ものユーザインタラクションを含む実験を行い、時間とともにフィードバックからの学習の理解を広げます。
論文 参考訳(メタデータ) (2023-05-21T14:35:32Z) - Humans are not Boltzmann Distributions: Challenges and Opportunities for
Modelling Human Feedback and Interaction in Reinforcement Learning [13.64577704565643]
これらのモデルは単純すぎるし、RLの研究者たちはアルゴリズムを設計し評価するために、より現実的な人間モデルを開発する必要がある、と我々は主張する。
本稿は、AIへのフィードバックの仕方や、より堅牢なループ内RLシステムの構築方法について、さまざまな分野からの研究を募集する。
論文 参考訳(メタデータ) (2022-06-27T13:58:51Z) - Perspectives on Incorporating Expert Feedback into Model Updates [46.99664744930785]
専門家のフィードバックタイプと実践者の更新とを一致させる分類法を考案する。
実践者は、観察レベルまたはドメインレベルの専門家からフィードバックを受けることができる。
我々は、このフィードバック更新分類について、MLと人間とコンピュータの相互作用による既存の研究を概観する。
論文 参考訳(メタデータ) (2022-05-13T21:46:55Z) - Reinforcement Learning with Feedback from Multiple Humans with Diverse
Skills [1.433758865948252]
強化学習における堅牢性と探索を改善するための有望なアプローチは、人間のフィードバックを集めることである。
しかし、品質に関する十分なフィードバックを得るには高すぎる場合が多い。
私たちは、十分なフィードバックを得るために、異なるスキルレベルを持つ複数の専門家のグループに頼ることを目指しています。
論文 参考訳(メタデータ) (2021-11-16T16:19:19Z) - Advances and Challenges in Conversational Recommender Systems: A Survey [133.93908165922804]
現在の会話レコメンダーシステム(CRS)で使用されるテクニックの体系的なレビューを提供します。
CRS開発の主な課題を5つの方向にまとめます。
これらの研究の方向性は、情報検索(IR)、自然言語処理(NLP)、人間とコンピュータの相互作用(HCI)などの複数の研究分野を含みます。
論文 参考訳(メタデータ) (2021-01-23T08:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。