論文の概要: Evaluations at Work: Measuring the Capabilities of GenAI in Use
- arxiv url: http://arxiv.org/abs/2505.10742v2
- Date: Tue, 03 Jun 2025 15:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.113398
- Title: Evaluations at Work: Measuring the Capabilities of GenAI in Use
- Title(参考訳): 職場での評価:GenAIの活用能力の測定
- Authors: Brandon Lepine, Gawesha Weerantunga, Juho Kim, Pamela Mishkin, Matthew Beane,
- Abstract要約: 現在のAIベンチマークは、人間とAIのコラボレーションの混乱したマルチターンの性質を見逃している。
実世界のタスクを相互依存サブタスクに分解する評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.124088786766965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current AI benchmarks miss the messy, multi-turn nature of human-AI collaboration. We present an evaluation framework that decomposes real-world tasks into interdependent subtasks, letting us track both LLM performance and users' strategies across a dialogue. Complementing this framework, we develop a suite of metrics, including a composite usage derived from semantic similarity, word overlap, and numerical matches; structural coherence; intra-turn diversity; and a novel measure of the "information frontier" reflecting the alignment between AI outputs and users' working knowledge. We demonstrate our methodology in a financial valuation task that mirrors real-world complexity. Our empirical findings reveal that while greater integration of LLM-generated content generally enhances output quality, its benefits are moderated by factors such as response incoherence, excessive subtask diversity, and the distance of provided information from users' existing knowledge. These results suggest that proactive dialogue strategies designed to inject novelty may inadvertently undermine task performance. Our work thus advances a more holistic evaluation of human-AI collaboration, offering both a robust methodological framework and actionable insights for developing more effective AI-augmented work processes.
- Abstract(参考訳): 現在のAIベンチマークは、人間とAIのコラボレーションの混乱したマルチターンの性質を見逃している。
実世界のタスクを相互依存サブタスクに分解し,LLMのパフォーマンスとユーザ戦略の両方を対話を通して追跡する評価フレームワークを提案する。
このフレームワークを補完し、意味的類似性、単語重複、数値マッチングから派生した複合利用、構造的コヒーレンス、ターン内多様性、AI出力とユーザの作業知識の整合性を反映した「情報フロンティア」の新たな尺度を含む、一連のメトリクスを開発する。
我々は、実世界の複雑さを反映した財務評価タスクで方法論を実証する。
実験結果から,LCM生成コンテンツの統合により出力品質が向上する一方で,応答不整合,過度なサブタスク多様性,ユーザの既存知識からの提供情報の距離といった要因により,そのメリットが緩和されることが判明した。
これらの結果から,新規性を注入する積極的な対話戦略がタスク性能を損なう可能性が示唆された。
私たちの作業は、より効果的なAI強化作業プロセスを開発するための堅牢な方法論的フレームワークと実行可能な洞察の両方を提供する、人間とAIのコラボレーションに関するより包括的な評価を前進させます。
関連論文リスト
- Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T15:47:47Z) - Fine-Grained Appropriate Reliance: Human-AI Collaboration with a Multi-Step Transparent Decision Workflow for Complex Task Decomposition [14.413413322901409]
本稿では,MST(Multi-Step Transparent)決定ワークフローがユーザ依存行動に与える影響について検討する。
MST決定ワークフローとの人間とAIのコラボレーションは、特定の文脈におけるワンステップのコラボレーションよりも優れていることを示す。
私たちの研究は、最適な人間とAIのコラボレーションを得るのに役立つ、オールサイズの意思決定ワークフローが存在しないことを強調しています。
論文 参考訳(メタデータ) (2025-01-19T01:03:09Z) - Evaluating Human-AI Collaboration: A Review and Methodological Framework [4.41358655687435]
人間-AIコラボレーション(Human-AI Collaboration、HAIC)として知られる個人との作業環境における人工知能(AI)の利用が不可欠である。
HAICの有効性を評価することは、関連するコンポーネントの複雑な相互作用のため、依然として困難である。
本稿では,既存のHAIC評価手法を詳細に分析し,これらのシステムをより効果的に評価するための新しいパラダイムを開発する。
論文 参考訳(メタデータ) (2024-07-09T12:52:22Z) - OPEx: A Component-Wise Analysis of LLM-Centric Agents in Embodied
Instruction Following [38.99303334457817]
EIF(Embodied Instruction following)は、自然言語の指示を満たすために、エージェントが自我中心の観察を通して環境と対話することを要求する、実践的な学習において重要なタスクである。
近年,大規模な言語モデル(LLM)をフレームワーク中心のアプローチで採用し,EDFの性能向上が図られている。
EIFタスクの解決に不可欠なコアコンポーネント(Observer、Planner、Executor)を記述した包括的なフレームワークであるOPExを紹介します。
論文 参考訳(メタデータ) (2024-03-05T14:53:53Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。