Fugu-MT 論文翻訳(概要): Quality-Diversity through AI Feedback

論文の概要: Quality-Diversity through AI Feedback

arxiv url: http://arxiv.org/abs/2310.13032v4
Date: Thu, 7 Dec 2023 19:56:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-11 18:18:19.812125
Title: Quality-Diversity through AI Feedback
Title（参考訳）: AIフィードバックによる品質多様性
Authors: Herbie Bradley, Andrew Dai, Hannah Teufel, Jenny Zhang, Koen Oostermeijer, Marco Bellagente, Jeff Clune, Kenneth Stanley, Gr\'egory Schott, Joel Lehman
Abstract要約: 品質多様性(QD)探索アルゴリズムは、候補者の人口を継続的に改善し多様化することを目的としている。言語モデル(LM)の最近の発展により、AIフィードバックによる探索のガイドが可能になった。 QDAIFは、独立して検索、多様化、評価、改善が可能なAIシステムへのステップである。
参考スコア（独自算出の注目度）: 10.423093353553217
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In many text-generation problems, users may prefer not only a single response, but a diverse range of high-quality outputs from which to choose. Quality-diversity (QD) search algorithms aim at such outcomes, by continually improving and diversifying a population of candidates. However, the applicability of QD to qualitative domains, like creative writing, has been limited by the difficulty of algorithmically specifying measures of quality and diversity. Interestingly, recent developments in language models (LMs) have enabled guiding search through AI feedback, wherein LMs are prompted in natural language to evaluate qualitative aspects of text. Leveraging this development, we introduce Quality-Diversity through AI Feedback (QDAIF), wherein an evolutionary algorithm applies LMs to both generate variation and evaluate the quality and diversity of candidate text. When assessed on creative writing domains, QDAIF covers more of a specified search space with high-quality samples than do non-QD controls. Further, human evaluation of QDAIF-generated creative texts validates reasonable agreement between AI and human evaluation. Our results thus highlight the potential of AI feedback to guide open-ended search for creative and original solutions, providing a recipe that seemingly generalizes to many domains and modalities. In this way, QDAIF is a step towards AI systems that can independently search, diversify, evaluate, and improve, which are among the core skills underlying human society's capacity for innovation.
Abstract（参考訳）: 多くのテキスト生成問題では、ユーザーは単一の応答だけでなく、選択すべき高品質な出力の多様さを好む。品質多様性(QD)探索アルゴリズムは、候補者の人口を継続的に改善し多様化させることにより、このような結果を目指している。しかしながら、クリエイティビティライティングのような質的ドメインへのqdの適用性は、品質と多様性の指標をアルゴリズムで指定する困難さによって制限されている。興味深いことに、近年の言語モデル(LM)の発展により、AIフィードバックによるガイド検索が可能となり、テキストの質的な側面を評価するために自然言語でLMが促される。この開発を活用して、AIフィードバック(QDAIF)による品質多様性を導入し、進化的アルゴリズムでは、変動を生成し、候補テキストの品質と多様性を評価する。クリエイティブなライティングドメインで評価すると、qdaifは非qdコントロールよりも質の高いサンプルで指定された検索スペースをカバーできる。さらに、QDAIFによる創造的テキストの人間評価は、AIと人間評価の合理的な一致を検証する。これにより、AIフィードバックが創造的でオリジナルなソリューションをオープンに検索する可能性を強調し、多くのドメインやモダリティに一般化したレシピを提供する。このようにして、QDAIFは、人間社会のイノベーション能力の根底にある中核的なスキルである、独立して探索、多様化、評価、改善が可能なAIシステムへのステップである。

関連論文リスト

InnoGym: Benchmarking the Innovation Potential of AI Agents [74.64144272881414]
InnoGymはAIエージェントのイノベーションの可能性を評価するために設計された最初のベンチマークである。 InnoGym氏は2つの相補的なメトリクスを紹介している。パフォーマンスゲイン(パフォーマンスゲイン)と、従来のアプローチと方法論的な違いを捉えるノベルティ(ノベルティ)だ。
論文参考訳（メタデータ） (2025-12-01T16:03:04Z)
Not Everything That Counts Can Be Counted: A Case for Safe Qualitative AI [2.943914288677608]
我々は、解釈研究のためにゼロから構築された定性的なAIシステムを開発することについて論じる。我々は、既存の自動発見パイプラインが堅牢な質的能力によってどのように拡張されるかを示す最近の文献をレビューする。
論文参考訳（メタデータ） (2025-11-12T13:36:58Z)
Jointly Reinforcing Diversity and Quality in Language Model Generations [64.72289248044514]
大規模言語モデル(LM)のポストトレーニングは、しばしば多様性を犠牲にして正確さと役に立つことを優先する。 DARling(Diversity-Aware Reinforcement Learning)は、応答品質とセマンティック多様性を協調的に最適化するフレームワークである。
論文参考訳（メタデータ） (2025-09-02T17:38:47Z)
The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文参考訳（メタデータ） (2025-06-09T18:37:14Z)
What Makes a Good Natural Language Prompt? [72.3282960118995]
我々は,2022年から2025年にかけて,NLPおよびAIカンファレンスを主導する150以上のプロンプト関連論文を対象としたメタ分析調査を実施している。本研究では,6次元に分類した21の特性を含む,迅速な品質評価のための特性・人間中心のフレームワークを提案する。次に、複数プロパティのプロンプト強化を実証的に検討し、単一プロパティのプロンプトが最大の影響を与える場合が多いことを観察する。
論文参考訳（メタデータ） (2025-06-07T23:19:27Z)
On Benchmarking Human-Like Intelligence in Machines [77.55118048492021]
現在のAI評価パラダイムは、人間のような認知能力を評価するには不十分である、と我々は主張する。人為的なラベルの欠如、人間の反応の多様性と不確実性の表現の不適切な表現、単純で生態学的に無意味なタスクへの依存。
論文参考訳（メタデータ） (2025-02-27T20:21:36Z)
Validity Arguments For Constructed Response Scoring Using Generative Artificial Intelligence Applications [0.0]
ジェネレーティブAIは、従来のAIスコアリングにおける手作り機能に必要な労力を減らすため、特に魅力的である。我々は,人間の評価,特徴に基づく自然言語処理AIスコアリングエンジン,生成AIを用いたスコアリングシステムに必要な妥当性証拠を比較した。
論文参考訳（メタデータ） (2025-01-04T16:59:29Z)
AI-generated Image Quality Assessment in Visual Communication [72.11144790293086]
AIGI-VCは、視覚コミュニケーションにおけるAI生成画像の品質評価データベースである。データセットは、14の広告トピックと8つの感情タイプにまたがる2500のイメージで構成されている。粗い人間の嗜好アノテーションときめ細かい嗜好記述を提供し、選好予測、解釈、推論におけるIQAメソッドの能力をベンチマークする。
論文参考訳（メタデータ） (2024-12-20T08:47:07Z)
AI-Generated Image Quality Assessment Based on Task-Specific Prompt and Multi-Granularity Similarity [62.00987205438436]
本稿では,TSP-MGSというAIGIの品質評価手法を提案する。タスク固有のプロンプトを設計し、AIGIとプロンプトの多粒度類似度を測定する。一般的に使用されるAGIQA-1KとAGIQA-3Kベンチマークの実験は、提案されたTSP-MGSの優位性を示している。
論文参考訳（メタデータ） (2024-11-25T04:47:53Z)
AI-generated Essays: Characteristics and Implications on Automated Scoring and Academic Integrity [13.371946973050845]
我々は、人気のある大言語モデル(LLM)によって生成されるエッセイの特徴と品質を検証し、ベンチマークする。本研究は,既存の自動スコアリングシステムの限界を強調し,改善すべき領域を特定した。 LLMの多種多様さがAI生成エッセイの検出の可能性を損なう可能性があるという懸念にもかかわらず、我々の研究結果は、あるモデルから生成されたエッセイに基づいて訓練された検出器が、高い精度で他人のテキストを識別できることをしばしば示している。
論文参考訳（メタデータ） (2024-10-22T21:30:58Z)
The Future of Learning in the Age of Generative AI: Automated Question Generation and Assessment with Large Language Models [0.0]
大規模言語モデル(LLM)と生成AIは、自然言語処理(NLP)に革命をもたらした。本章では,自動質問生成と回答評価におけるLLMの変容の可能性について考察する。
論文参考訳（メタデータ） (2024-10-12T15:54:53Z)
Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA [43.116608441891096]
人間は知識に基づく帰納的、概念的推論においてAIシステムより優れています。 GPT-4やLLaMAのような最先端のLLMは、ターゲット情報検索において優れた性能を示す。
論文参考訳（メタデータ） (2024-10-09T03:53:26Z)
Decoding AI and Human Authorship: Nuances Revealed Through NLP and Statistical Analysis [0.0]
本研究では,AIが生成したテキストと人間が作成したテキストの微妙な相違について検討する。本研究は,人文・AI生成テキストに固有の言語特性,創造性パターン,潜在的なバイアスについて検討した。
論文参考訳（メタデータ） (2024-07-15T18:09:03Z)
Understanding and Evaluating Human Preferences for AI Generated Images with Instruction Tuning [58.41087653543607]
我々はまず,AIGCIQA2023+と呼ばれるAIGIのための画像品質評価(IQA)データベースを構築した。本稿では,AIGIに対する人間の嗜好を評価するためのMINT-IQAモデルを提案する。
論文参考訳（メタデータ） (2024-05-12T17:45:11Z)
Large Language Models as In-context AI Generators for Quality-Diversity [8.585387103144825]
In-context QDは、QDアーカイブから品質の異なる例をコンテキストとして、少数ショットと多ショットのプロンプトを使って興味深いソリューションを生成することを目的としている。 In-context QD display promising results than both QD baselines and similar strategy developed for single-jective optimization。
論文参考訳（メタデータ） (2024-04-24T10:35:36Z)
Quality Diversity through Human Feedback: Towards Open-Ended Diversity-Driven Optimization [13.436983663467938]
本稿では,ヒトフィードバックによる品質の多様性(QDHF)について紹介する。実証的な研究によると、QDHFは自動多様性発見において最先端の手法を著しく上回っている。オープンな生成タスクにおいて、QDHFは拡散モデルからテキストから画像への生成の多様性を大幅に向上させる。
論文参考訳（メタデータ） (2023-10-18T16:46:16Z)
ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文参考訳（メタデータ） (2023-08-14T15:13:04Z)
Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video Quality Assessment [54.31355080688127]
コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。 BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
論文参考訳（メタデータ） (2023-04-28T08:06:05Z)
The Role of AI in Drug Discovery: Challenges, Opportunities, and Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文参考訳（メタデータ） (2022-12-08T23:23:39Z)
Improving the Question Answering Quality using Answer Candidate Filtering based on Natural-Language Features [117.44028458220427]
本稿では,質問応答(QA)の品質をいかに改善できるかという課題に対処する。私たちの主な貢献は、QAシステムが提供する間違った回答を識別できるアプローチです。特に,提案手法は誤答の大部分を除去しつつ,その可能性を示した。
論文参考訳（メタデータ） (2021-12-10T11:09:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。