論文の概要: Quality-Diversity through AI Feedback
- arxiv url: http://arxiv.org/abs/2310.13032v4
- Date: Thu, 7 Dec 2023 19:56:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 18:18:19.812125
- Title: Quality-Diversity through AI Feedback
- Title(参考訳): AIフィードバックによる品質多様性
- Authors: Herbie Bradley, Andrew Dai, Hannah Teufel, Jenny Zhang, Koen
Oostermeijer, Marco Bellagente, Jeff Clune, Kenneth Stanley, Gr\'egory
Schott, Joel Lehman
- Abstract要約: 品質多様性(QD)探索アルゴリズムは、候補者の人口を継続的に改善し多様化することを目的としている。
言語モデル(LM)の最近の発展により、AIフィードバックによる探索のガイドが可能になった。
QDAIFは、独立して検索、多様化、評価、改善が可能なAIシステムへのステップである。
- 参考スコア(独自算出の注目度): 10.423093353553217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many text-generation problems, users may prefer not only a single
response, but a diverse range of high-quality outputs from which to choose.
Quality-diversity (QD) search algorithms aim at such outcomes, by continually
improving and diversifying a population of candidates. However, the
applicability of QD to qualitative domains, like creative writing, has been
limited by the difficulty of algorithmically specifying measures of quality and
diversity. Interestingly, recent developments in language models (LMs) have
enabled guiding search through AI feedback, wherein LMs are prompted in natural
language to evaluate qualitative aspects of text. Leveraging this development,
we introduce Quality-Diversity through AI Feedback (QDAIF), wherein an
evolutionary algorithm applies LMs to both generate variation and evaluate the
quality and diversity of candidate text. When assessed on creative writing
domains, QDAIF covers more of a specified search space with high-quality
samples than do non-QD controls. Further, human evaluation of QDAIF-generated
creative texts validates reasonable agreement between AI and human evaluation.
Our results thus highlight the potential of AI feedback to guide open-ended
search for creative and original solutions, providing a recipe that seemingly
generalizes to many domains and modalities. In this way, QDAIF is a step
towards AI systems that can independently search, diversify, evaluate, and
improve, which are among the core skills underlying human society's capacity
for innovation.
- Abstract(参考訳): 多くのテキスト生成問題では、ユーザーは単一の応答だけでなく、選択すべき高品質な出力の多様さを好む。
品質多様性(QD)探索アルゴリズムは、候補者の人口を継続的に改善し多様化させることにより、このような結果を目指している。
しかしながら、クリエイティビティライティングのような質的ドメインへのqdの適用性は、品質と多様性の指標をアルゴリズムで指定する困難さによって制限されている。
興味深いことに、近年の言語モデル(LM)の発展により、AIフィードバックによるガイド検索が可能となり、テキストの質的な側面を評価するために自然言語でLMが促される。
この開発を活用して、AIフィードバック(QDAIF)による品質多様性を導入し、進化的アルゴリズムでは、変動を生成し、候補テキストの品質と多様性を評価する。
クリエイティブなライティングドメインで評価すると、qdaifは非qdコントロールよりも質の高いサンプルで指定された検索スペースをカバーできる。
さらに、QDAIFによる創造的テキストの人間評価は、AIと人間評価の合理的な一致を検証する。
これにより、AIフィードバックが創造的でオリジナルなソリューションをオープンに検索する可能性を強調し、多くのドメインやモダリティに一般化したレシピを提供する。
このようにして、QDAIFは、人間社会のイノベーション能力の根底にある中核的なスキルである、独立して探索、多様化、評価、改善が可能なAIシステムへのステップである。
関連論文リスト
- Interactive Multi-Objective Evolutionary Optimization of Software
Architectures [0.0]
人間をループに入れることで、検索ベースのソフトウェアエンジニアリング分野に新たな課題がもたらされる。
本稿では,人間の判断を探索プロセスに統合するための基礎として,インタラクティブな進化的計算がいかに役立つかを考察する。
論文 参考訳(メタデータ) (2024-01-08T19:15:40Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - Quality Diversity through Human Feedback [14.415813558840972]
人間のフィードバックによる品質の多様性(QDHF)は、人間のフィードバックを品質の多様性フレームワークに統合する新しいアプローチである。
我々の実証研究は、QDHFが自動多様性発見において最先端の手法を著しく上回っていることを示している。
我々はQDHFのスケーラビリティと派生した多様性指標の品質を分析して結論付ける。
論文 参考訳(メタデータ) (2023-10-18T16:46:16Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation
Evaluation [96.74302670358145]
生成/編集された画像と対応するプロンプト/インストラクションの整合性を評価するために,視覚概念評価(ViCE)の自動手法を提案する。
ViCEは、Large Language Models(LLM)とVisual Question Answering(VQA)の強みを統合パイプラインに統合し、品質評価において人間の認知プロセスを再現することを目指している。
論文 参考訳(メタデータ) (2023-07-18T16:33:30Z) - Towards Diverse and Effective Question-Answer Pair Generation from
Children Storybooks [3.850557558248366]
本稿では,質問文と暗黙的/明示的回答を生成することにより,QA型の多様性を高めるフレームワークを提案する。
本フレームワークは,QFSベースの応答生成器,繰り返しQA生成器,関連性を考慮したランク付け器を備える。
論文 参考訳(メタデータ) (2023-06-11T06:55:59Z) - Intrinsic Dimension Estimation for Robust Detection of AI-Generated
Texts [22.852855047237153]
自然言語におけるフロートテキストの平均内在次元は、アルファベットベースの言語では9ドル、中国語では7ドル前後で推移している。
この特性により、スコアベースの人工テキスト検出器を構築することができる。
論文 参考訳(メタデータ) (2023-06-07T18:38:04Z) - Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video
Quality Assessment [54.31355080688127]
コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。
BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。
我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
論文 参考訳(メタデータ) (2023-04-28T08:06:05Z) - MAILS -- Meta AI Literacy Scale: Development and Testing of an AI
Literacy Questionnaire Based on Well-Founded Competency Models and
Psychological Change- and Meta-Competencies [6.368014180870025]
アンケートはモジュラー(すなわち、互いに独立して使用できる異なるファセットを含む)であり、プロフェッショナルな生活に柔軟に適用できるべきである。
我々は、AIリテラシーの異なる側面を表すために、Ngと同僚がAIリテラシーを概念化した60項目を作成した。
AIに関する問題解決、学習、感情制御などの心理的能力を表す12項目が追加されている。
論文 参考訳(メタデータ) (2023-02-18T12:35:55Z) - The Role of AI in Drug Discovery: Challenges, Opportunities, and
Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。
データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文 参考訳(メタデータ) (2022-12-08T23:23:39Z) - Improving the Question Answering Quality using Answer Candidate
Filtering based on Natural-Language Features [117.44028458220427]
本稿では,質問応答(QA)の品質をいかに改善できるかという課題に対処する。
私たちの主な貢献は、QAシステムが提供する間違った回答を識別できるアプローチです。
特に,提案手法は誤答の大部分を除去しつつ,その可能性を示した。
論文 参考訳(メタデータ) (2021-12-10T11:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。