論文の概要: AgentEval: Generative Agents as Reliable Proxies for Human Evaluation of AI-Generated Content
- arxiv url: http://arxiv.org/abs/2512.08273v1
- Date: Tue, 09 Dec 2025 06:03:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.829979
- Title: AgentEval: Generative Agents as Reliable Proxies for Human Evaluation of AI-Generated Content
- Title(参考訳): AgentEval:AI生成コンテンツの人間評価のための信頼性プロキシとしての生成エージェント
- Authors: Thanh Vu, Richi Nayak, Thiru Balasubramaniam,
- Abstract要約: 本研究は,これらの課題に対処する手段としてジェネレーティブエージェントを紹介した。
これらのエージェントはAI生成コンテンツを迅速かつ効果的に評価し、コヒーレンス、面白さ、明瞭さ、公正さ、関連性などの評価面によって人間の判断をシミュレートすることができる。
これらのエージェントを組み込むことで、企業はコンテンツ生成を合理化し、一貫性のある高品質なアウトプットを確保することができる。
- 参考スコア(独自算出の注目度): 1.7884814298198934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern businesses are increasingly challenged by the time and expense required to generate and assess high-quality content. Human writers face time constraints, and extrinsic evaluations can be costly. While Large Language Models (LLMs) offer potential in content creation, concerns about the quality of AI-generated content persist. Traditional evaluation methods, like human surveys, further add operational costs, highlighting the need for efficient, automated solutions. This research introduces Generative Agents as a means to tackle these challenges. These agents can rapidly and cost-effectively evaluate AI-generated content, simulating human judgment by rating aspects such as coherence, interestingness, clarity, fairness, and relevance. By incorporating these agents, businesses can streamline content generation and ensure consistent, high-quality output while minimizing reliance on costly human evaluations. The study provides critical insights into enhancing LLMs for producing business-aligned, high-quality content, offering significant advancements in automated content generation and evaluation.
- Abstract(参考訳): 現代ビジネスは、高品質なコンテンツの生成と評価に必要な時間と費用にますます悩まされている。
人間のライターは時間的制約に直面し、外在的な評価はコストがかかる可能性がある。
大規模言語モデル(LLM)はコンテンツ生成の可能性を秘めているが、AI生成コンテンツの品質に関する懸念は続く。
人間の調査のような従来の評価手法は、より運用コストを増大させ、効率的で自動化されたソリューションの必要性を強調している。
本研究は,これらの課題に対処する手段としてジェネレーティブエージェントを紹介した。
これらのエージェントはAI生成コンテンツを迅速かつ効果的に評価し、コヒーレンス、面白さ、明瞭さ、公正さ、関連性などの評価面によって人間の判断をシミュレートすることができる。
これらのエージェントを取り入れることで、企業はコンテンツ生成を合理化し、コストのかかる人的評価への依存を最小限に抑えながら、一貫性のある高品質なアウトプットを確保することができる。
本研究は,ビジネス対応型高品質コンテンツ作成のためのLCMの強化に関する重要な知見を提供し,自動コンテンツ生成と評価の大幅な進歩を提供する。
関連論文リスト
- Development and Benchmarking of a Blended Human-AI Qualitative Research Assistant [1.170789976854236]
MuseはAIを使ったインタラクティブな質的研究システムだ。
十分に特定されたコードに対して、MuseとCohenの$0.71の人間の間には、ラッター間の信頼性がある。
また、障害モードを特定し、将来の改善をガイドし、人間のバイアスを修正する能力を示すために、堅牢なエラー解析も行います。
論文 参考訳(メタデータ) (2025-10-14T21:17:34Z) - Benchmarking is Broken -- Don't Let AI be its Own Judge [22.93026946593552]
私たちは、AIを評価するための現在のlaissez-faireアプローチは持続不可能である、と論じます。
PeerBenchは、コミュニティが管理し、熟達した評価青写真である。
私たちのゴールは、完全性を回復し、真に信頼できるAI進歩の手段を提供するための評価の道を開くことです。
論文 参考訳(メタデータ) (2025-10-08T21:41:37Z) - CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - When AIs Judge AIs: The Rise of Agent-as-a-Judge Evaluation for LLMs [8.575522204707958]
大規模言語モデル(LLM)は能力と自律性が向上し、特にオープンで複雑なタスクにおいて、アウトプットの評価が重要なボトルネックとなっている。
新たなパラダイムが生まれつつある。AIエージェントを評価対象として使用することだ。
本稿では,エージェント・アズ・ア・ジャッジの概念を定義し,単一モデル審査員から動的マルチエージェント・ディスカッション・フレームワークへの進化を辿り,その強みと欠点を批判的に検証する。
論文 参考訳(メタデータ) (2025-08-05T01:42:25Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - Information Retrieval in the Age of Generative AI: The RGB Model [77.96475639967431]
本稿では,生成型AIツールの利用の増加に伴って生じる複雑な情報ダイナミクスについて,新たな定量的アプローチを提案する。
本稿では,新たなトピックに応答して情報の生成,索引付け,普及を特徴付けるモデルを提案する。
以上の結果から,AI導入の急激なペースとユーザ依存度の増加は,不正確な情報拡散のリスクを増大させる可能性が示唆された。
論文 参考訳(メタデータ) (2025-04-29T10:21:40Z) - Generative AI for Health Technology Assessment: Opportunities, Challenges, and Policy Considerations [12.73011921253]
本稿では、医療技術評価(HTA)のための生成人工知能(AI)と大規模言語モデル(LLM)を含む基礎モデルについて紹介する。
本研究は, 4つの重要な領域, 合成証拠, 証拠生成, 臨床試験, 経済モデリングにおける応用について検討する。
約束にもかかわらず、これらの技術は急速に改善されているものの、まだ初期段階にあり、HTAへの適用には慎重な評価が引き続き必要である。
論文 参考訳(メタデータ) (2024-07-09T09:25:27Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。