論文の概要: Seeking Information with RAG-Assistants: Does Model Size Matter in Human-AI Collaborations?
- arxiv url: http://arxiv.org/abs/2605.00964v1
- Date: Fri, 01 May 2026 15:18:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.517908
- Title: Seeking Information with RAG-Assistants: Does Model Size Matter in Human-AI Collaborations?
- Title(参考訳): RAG-Assistantで情報を探す:人間とAIのコラボレーションにおけるモデルのサイズは重要か?
- Authors: Lennard C. Froma, Tom Kouwenhoven, Maaike H. T. de Boer, Catholijn M. Jonker, Max J. van Duijn,
- Abstract要約: 本研究では,現実的なマルチターン情報探索シナリオにおいて,RAG(Retrieval-Augmented Generation)に基づくアシスタントを評価する。
そこで本研究では,モデルサイズが人間とAIの協調力学をどのように形成するかを考察する。
その結果,モデルサイズに関係なく,モデルのみのベースラインに対する人間とAIの協調作業の性能向上が重要であることがわかった。
- 参考スコア(独自算出の注目度): 2.824083651578116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Much research on LLMs has focused on increasing benchmark performance. However, the evaluation of such models in real-world collaborative human-AI workflows has stayed behind. This work evaluates a chatbot-style assistant based on Retrieval-Augmented Generation (RAG) in a realistic multi-turn information-seeking scenario inspired by workplace settings where compliance with local legislation and secure handling of sensitive data are often key. Specifically, we examine the performance of humans (N=112) assisted by RAG-assistants compared to LLM-only or LLM+RAG baselines. In this setting, we investigate how underlying model size (3B, 8B, and 70B) shapes the human-AI collaborative dynamic and how it influences perceived usability and satisfaction. Results show that the performance gain of human-AI collaboration over the model-only baselines is significant, irrespective of model size, suggesting that hybrid systems are beneficial in information-seeking scenarios. Interestingly, however, perceived usability and satisfaction among participants showed little difference across model sizes. This demonstrates a nuanced trade-off between model size, performance, and user perception. Our work highlights the added value of evaluating AI applications in actual multi-turn interactions with human users, looking at usability and satisfaction besides accuracy, rather than focusing on benchmark performance only.
- Abstract(参考訳): LLMに関する多くの研究は、ベンチマークのパフォーマンス向上に重点を置いている。
しかし、現実の協調型ヒューマンAIワークフローにおけるそのようなモデルの評価は、いまだに残されている。
本研究は,レトリーバル・Augmented Generation(RAG)に基づくチャットボットスタイルのアシスタントを,現地の法律の遵守や機密データのセキュアな取り扱いが鍵となる職場環境に触発された,現実的なマルチターン情報検索シナリオで評価する。
具体的には, LLM-only あるいは LLM+RAG ベースラインと比較して, RAG-assistant によるヒト (N=112) の性能について検討した。
本研究では,モデルサイズ(3B,8B,70B)が人間とAIの協調動態をどのように形成し,それがユーザビリティと満足度に与える影響を考察する。
結果から,モデルのみのベースラインに対する人間とAIのコラボレーションの性能向上は,モデルのサイズに関わらず重要であり,ハイブリッドシステムは情報検索のシナリオにおいて有用であることが示唆された。
しかし, 参加者のユーザビリティと満足度は, モデルサイズにはほとんど差がなかった。
これは、モデルのサイズ、パフォーマンス、ユーザ知覚の微妙なトレードオフを示しています。
私たちの研究は、ベンチマークパフォーマンスのみに注目するのではなく、ユーザビリティと精度以外の満足度に注目しながら、実際のマルチターンインタラクションにおけるAIアプリケーション評価の付加価値を強調しています。
関連論文リスト
- Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction [1.3511057160494195]
リーダー-フォロワー相互作用は人間-ロボット相互作用(HRI)において重要なパラダイムである
小言語モデル(SLM)は潜在的な代替手段を提供するが、HRIにおける役割分類の有効性は体系的に評価されていない。
論文 参考訳(メタデータ) (2026-02-26T18:20:26Z) - LVLM-Aided Alignment of Task-Specific Vision Models [49.96265491629163]
タスク固有の視覚モデルは、高い領域において不可欠である。
本稿では,タスク固有の視覚モデルと人間のドメイン知識を協調する,新しい,効率的な手法を提案する。
提案手法は, モデル動作と人間の仕様との整合性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-12-26T11:11:25Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Human Re-ID Meets LVLMs: What can we expect? [14.370360290704197]
人間の再識別作業における主要な視覚言語モデルの性能を比較した。
以上の結果から,LVLMの強度は確認できたが,破滅的な回答につながる場合が多い。
論文 参考訳(メタデータ) (2025-01-30T19:00:40Z) - Testing Human-Hand Segmentation on In-Distribution and Out-of-Distribution Data in Human-Robot Interactions Using a Deep Ensemble Model [40.815678328617686]
我々は、IDデータとより挑戦的なOODシナリオの両方の下で、事前学習されたディープラーニングモデルの性能を評価することによって、新しいアプローチを提案する。
動作の速い手から指を横切る動作や動きのぼやけなど,特異かつ稀な条件を取り入れた。
その結果、産業用データセットでトレーニングされたモデルは、非工業用データセットでトレーニングされたモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-01-13T21:52:46Z) - Can foundation models actively gather information in interactive environments to test hypotheses? [43.42688356541211]
基礎モデルはシングルターン推論において優れているが、動的環境におけるマルチターン探索に苦慮している。
これらのモデルを,経験から学び,適応し,情報を収集する能力に基づいて評価した。
論文 参考訳(メタデータ) (2024-12-09T12:27:21Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Investigations of Performance and Bias in Human-AI Teamwork in Hiring [30.046502708053097]
AIによる意思決定では、効果的なハイブリッドチームワーク(ヒューマンAI)は、AIのパフォーマンスにのみ依存するものではない。
本研究では,モデルの予測性能とバイアスの両方が,推薦型意思決定タスクにおいてどのように人間に伝達されるかを検討する。
論文 参考訳(メタデータ) (2022-02-21T17:58:07Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。