論文の概要: OpenAssistant Conversations -- Democratizing Large Language Model
Alignment
- arxiv url: http://arxiv.org/abs/2304.07327v1
- Date: Fri, 14 Apr 2023 18:01:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 19:41:15.845873
- Title: OpenAssistant Conversations -- Democratizing Large Language Model
Alignment
- Title(参考訳): open assistant conversations -- 大きな言語モデルアライメントの民主化
- Authors: Andreas K\"opf, Yannic Kilcher, Dimitri von R\"utte, Sotiris
Anagnostidis, Zhi-Rui Tam, Keith Stevens, Abdullah Barhoum, Nguyen Minh Duc,
Oliver Stanley, Rich\'ard Nagyfi, Shahul ES, Sameer Suri, David Glushkov,
Arnav Dantuluri, Andrew Maguire, Christoph Schuhmann, Huu Nguyen, Alexander
Mattick
- Abstract要約: 我々は人為的な人為的注釈付き対話型コーパスであるOpenAssistant Conversationsをリリースする。
OpenAssistantは、人間のデータに基づいてトレーニングされる最初の、完全にオープンソースな大規模インストラクションチューニングモデルである。
- 参考スコア(独自算出の注目度): 42.098088345954906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning large language models (LLMs) with human preferences has proven to
drastically improve usability and has driven rapid adoption as demonstrated by
ChatGPT. Alignment techniques such as supervised fine-tuning (SFT) and
reinforcement learning from human feedback (RLHF) greatly reduce the required
skill and domain knowledge to effectively harness the capabilities of LLMs,
increasing their accessibility and utility across various domains. However,
state-of-the-art alignment techniques like RLHF rely on high-quality human
feedback data, which is expensive to create and often remains proprietary. In
an effort to democratize research on large-scale alignment, we release
OpenAssistant Conversations, a human-generated, human-annotated assistant-style
conversation corpus consisting of 161,443 messages distributed across 66,497
conversation trees, in 35 different languages, annotated with 461,292 quality
ratings. The corpus is a product of a worldwide crowd-sourcing effort involving
over 13,500 volunteers. To demonstrate the OpenAssistant Conversations
dataset's effectiveness, we present OpenAssistant, the first fully open-source
large-scale instruction-tuned model to be trained on human data. A preference
study revealed that OpenAssistant replies are comparably preferred to
GPT-3.5-turbo (ChatGPT) with a relative winrate of 48.3% vs. 51.7%
respectively. We release our code and data under fully permissive licenses.
- Abstract(参考訳): 大きな言語モデル(LLM)を人間の好みに合わせることで、ユーザビリティが大幅に向上することが証明され、ChatGPTで実証されたように、急速に採用されている。
教師付き微調整(SFT)や人間フィードバックからの強化学習(RLHF)といったアライメント技術は、LLMの能力を効果的に活用するために必要なスキルとドメイン知識を大幅に削減し、様々な領域におけるアクセシビリティと有用性を向上する。
しかし、RLHFのような最先端のアライメント技術は、高品質な人間のフィードバックデータに依存している。
大規模アライメントの研究を民主化するために,66,497の会話ツリーに散在する161,443のメッセージからなる人為的な対話型コーパスであるOpenAssistant Conversationsを,461,292の品質評価で注釈付けした35の言語でリリースした。
このコーパスは、全世界で13500人以上のボランティアが参加するクラウドソーシングの製品だ。
OpenAssistant Conversationsデータセットの有効性を示すために、人間のデータに基づいてトレーニングされる最初の完全にオープンソースな大規模命令チューニングモデルOpenAssistantを提案する。
選好調査の結果、OpenAssistant反応はGPT-3.5-turbo (ChatGPT) よりもそれぞれ48.3%、51.7%の相対利得が好まれていた。
私たちは完全な許容ライセンスの下でコードとデータをリリースします。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Supporting Human Raters with the Detection of Harmful Content using Large Language Models [8.580258386804282]
大規模言語モデル (LLMs) は, 人間の判断と比較して90%の精度を達成できることを実証した。
人間の評価とLLMを統合した5つのデザインパターンを提案する。
提案した手法を現実世界のレビューキューで試行することで、利用可能な人間のレーダ容量の最適化が41.5%向上したことを共有しています。
論文 参考訳(メタデータ) (2024-06-18T17:12:50Z) - Data-Efficient Alignment of Large Language Models with Human Feedback
Through Natural Language [31.0723480021355]
自然言語による人間のフィードバックをモデル化する際のデータ効率について検討する。
オープンソースLLM(例えばFalcon-40B-Instruct)を、自然言語における人間のフィードバックの比較的少ない部分で微調整する。
このモデルは,最強のLLMでも応答の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-24T15:20:36Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Enhancing Chat Language Models by Scaling High-quality Instructional
Conversations [91.98516412612739]
まず,UltraChatという,体系的に設計され,多様で,情報的,大規模な会話データセットを提供する。
我々の目標は、人間がAIアシスタントで持つであろう対話の幅を捉えることです。
我々はLLaMAモデルを微調整し、強力な対話モデルであるUltraLLaMAを作成する。
論文 参考訳(メタデータ) (2023-05-23T16:49:14Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。