論文の概要: ChatBench: From Static Benchmarks to Human-AI Evaluation
- arxiv url: http://arxiv.org/abs/2504.07114v1
- Date: Sat, 22 Mar 2025 01:21:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-20 18:26:54.982892
- Title: ChatBench: From Static Benchmarks to Human-AI Evaluation
- Title(参考訳): ChatBench: 静的ベンチマークからヒューマンAI評価へ
- Authors: Serina Chang, Ashton Anderson, Jake M. Hofman,
- Abstract要約: 我々は,MMLU質問をユーザAI会話に変換するためのユーザスタディを設計し,実施する。
AIのみの精度は、ユーザAIの精度を予測するのに失敗する。
ユーザ-AIの会話を分析し、AI-aloneベンチマークからどのように分岐するかを洞察する。
- 参考スコア(独自算出の注目度): 12.625918658040636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid adoption of LLM-based chatbots, there is a pressing need to evaluate what humans and LLMs can achieve together. However, standard benchmarks, such as MMLU, measure LLM capabilities in isolation (i.e., "AI-alone"). Here, we design and conduct a user study to convert MMLU questions into user-AI conversations, by seeding the user with the question and having them carry out a conversation with the LLM to answer their question. We release ChatBench, a new dataset with AI-alone, user-alone, and user-AI data for 396 questions and two LLMs, including 144K answers and 7,336 user-AI conversations. We find that AI-alone accuracy fails to predict user-AI accuracy, with significant differences across multiple subjects (math, physics, and moral reasoning), and we analyze the user-AI conversations to provide insight into how they diverge from AI-alone benchmarks. Finally, we show that fine-tuning a user simulator on a subset of ChatBench improves its ability to estimate user-AI accuracies, increasing correlation on held-out questions by more than 20 points, creating possibilities for scaling interactive evaluation.
- Abstract(参考訳): LLMベースのチャットボットが急速に普及するにつれ、人間とLLMが一体化できることを評価する必要性が高まっている。
しかし、MMLUのような標準ベンチマークでは、LLMの能力を単独で測定する(つまり「AI-alone」)。
そこで我々は,MMLU質問をユーザとAIの会話に変換するためのユーザスタディを設計し,実施する。
AI-alone、ユーザ-alone、ユーザ-AIデータを備えた新たなデータセットであるChatBenchを396の質問と、144Kの回答と7,336のユーザ-AI会話を含む2つのLLMでリリースしています。
AI-aloneの精度は、複数の主題(数学、物理学、道徳的推論)で大きな違いがあり、AI-aloneの精度を予測できないことを発見し、ユーザー-AIの会話を分析し、AI-aloneベンチマークからどのように逸脱するかについての洞察を提供する。
最後に,ChatBenchのサブセットでユーザシミュレータを微調整することで,ユーザAIの精度を推定する能力が向上し,保持された質問に対する相関が20ポイント以上向上し,対話的評価のスケーリングが可能となることを示す。
関連論文リスト
- Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [51.9706400130481]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。
PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。
LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文 参考訳(メタデータ) (2025-04-19T08:16:10Z) - Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。
本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-21T20:29:02Z) - InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback [16.031192986950465]
既存のベンチマークでは、人間ユーザとの対話的なインテリジェンスにおいて、LMM(Large Multimodal Model)をテストしていない。
対話型フレームワークであるInterFeedbackを設計し、任意のLMMとデータセットに適用して、この機能を自律的に評価する。
主要なモデルで対話的なパフォーマンスを手動でテストするために設計された120のケースからなるデータセットであるInterFeedback-Humanを提示する。
論文 参考訳(メタデータ) (2025-02-20T20:27:06Z) - Automated test generation to evaluate tool-augmented LLMs as conversational AI agents [0.27309692684728615]
対話型AIエージェントを評価するテスト生成パイプラインを提案する。
当社のフレームワークでは,ユーザ定義の手順に基づく多種多様なテストを生成するためにLLMを使用している。
ツール拡張LDMは単一のインタラクションでよく機能するが、完全な会話を扱うのに苦労することが多い。
論文 参考訳(メタデータ) (2024-09-24T09:57:43Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena [76.21004582932268]
本研究では, LLM-as-a-judgeの使用状況と限界について検討し, 位置, 冗長性, 自己改善バイアスについて検討した。
次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるArenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
論文 参考訳(メタデータ) (2023-06-09T05:55:52Z) - Approximating Online Human Evaluation of Social Chatbots with Prompting [11.657633779338724]
既存の評価指標は、オフラインユーザ評価の自動化と、事前計算したダイアログの人的判断の近似を目的としている。
GPTファミリーの大規模言語モデル(LLM)を利用したオンライン人間評価の近似手法を提案する。
Prompting (DEP) に基づく新しいダイアログシステム評価フレームワークを導入し,完全な自動評価パイプラインを実現する。
論文 参考訳(メタデータ) (2023-04-11T14:45:01Z) - A Hybrid Solution to Learn Turn-Taking in Multi-Party Service-based Chat
Groups [2.943984871413744]
テキストベースのチャットグループでは、利用可能な情報は送信者、テキストの内容、対話履歴のみである。
本稿では,これらの情報をコーパスとアーキテクチャを用いて予測タスクでどのように利用することができるかについて述べる。
論文 参考訳(メタデータ) (2020-01-14T22:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。