論文の概要: AI Revolution on Chat Bot: Evidence from a Randomized Controlled
Experiment
- arxiv url: http://arxiv.org/abs/2401.10956v1
- Date: Fri, 19 Jan 2024 05:54:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 18:41:37.595274
- Title: AI Revolution on Chat Bot: Evidence from a Randomized Controlled
Experiment
- Title(参考訳): チャットボットのAI革命:ランダムに制御された実験からの証拠
- Authors: Sida Peng, Wojciech Swiatek, Allen Gao, Paul Cullivan, Haoge Chang
- Abstract要約: 大規模言語モデル(LLM)はChatGPT-4を例に大きく注目されている。
近年の進歩にもかかわらず、現実的な設定でLLMベースのツールを応用したフィールド実験は限られている。
本稿では,LLMツールを用いた情報検索支援サービスにおけるフィールドランダム化制御試験の有効性を評価する。
- 参考スコア(独自算出の注目度): 11.626057561212694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, generative AI has undergone major advancements,
demonstrating significant promise in augmenting human productivity. Notably,
large language models (LLM), with ChatGPT-4 as an example, have drawn
considerable attention. Numerous articles have examined the impact of LLM-based
tools on human productivity in lab settings and designed tasks or in
observational studies. Despite recent advances, field experiments applying
LLM-based tools in realistic settings are limited. This paper presents the
findings of a field randomized controlled trial assessing the effectiveness of
LLM-based tools in providing unmonitored support services for information
retrieval.
- Abstract(参考訳): 近年、ジェネレーティブAIは大きな進歩を遂げており、人間の生産性を高める上で大きな可能性を秘めている。
特に、ChatGPT-4を例として、大きな言語モデル(LLM)が注目されている。
実験室の設定や設計作業や観察研究におけるLLMベースのツールが人間の生産性に与える影響について,多くの論文が検討されている。
近年の進歩にもかかわらず、現実的な設定でLLMベースのツールを応用したフィールド実験は限られている。
本稿では,LLMツールを用いた情報検索支援サービスにおけるフィールドランダム化制御試験の有効性を評価する。
関連論文リスト
- Characteristic AI Agents via Large Language Models [40.10858767752735]
本研究は,特有なAIエージェント構築における大規模言語モデルの性能調査に焦点をあてる。
character100''と呼ばれるデータセットがこのベンチマークのために構築されており、ウィキペディアの言語モデルでロールプレイを行う最も訪問者の多い人々で構成されている。
実験結果から,LLMの能力向上に向けた潜在的な方向性が明らかにされた。
論文 参考訳(メタデータ) (2024-03-19T02:25:29Z) - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - From Summary to Action: Enhancing Large Language Models for Complex
Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。
このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。
ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-02-28T08:42:23Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool
Utilization in Real-World Complex Scenarios [95.97781233780357]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - LLMs for Science: Usage for Code Generation and Data Analysis [0.07499722271664144]
大規模言語モデル (LLMs) は、今日の作業環境の多くの領域で生産性の向上を図っている。
LLMのポテンシャルが研究の実践においてどのように実現されるのかは、いまだ不明である。
論文 参考訳(メタデータ) (2023-11-28T12:29:33Z) - Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
計算的議論に関する研究は、主に議論マイニングと議論生成の2つのタイプのタスクを含む。
大規模言語モデルは、文脈を理解し、自然言語を生成する強力な能力を示している。
既存のタスクを6つの主要なカテゴリに分類し、14のオープンソースデータセットのフォーマットを標準化します。
さらに,LLMのエンドツーエンド性能を総合的に評価することを目的とした,対向音声生成のための新しいベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-11-15T15:12:15Z) - Large Language Models as Data Preprocessors [10.914067455923847]
OpenAIのGPTシリーズとMetaのLLaMAに代表されるLarge Language Models (LLMs)は、人工知能において大きな進歩を遂げている。
この研究は、LLMの応用を拡大し、データ前処理におけるその可能性を探る。
我々は,最先端のプロンプト技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - Improving Small Language Models on PubMedQA via Generative Data
Augmentation [4.96649519549027]
大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
小型言語モデル(SLM)はその効率で知られているが、限られた能力と訓練データに悩まされることが多い。
医療領域におけるSLMの改善を目的とした,LLMに基づく生成データ拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-12T23:49:23Z) - LLM-based Interaction for Content Generation: A Case Study on the
Perception of Employees in an IT department [85.1523466539595]
本稿では,IT企業の従業員が生成ツールを使用する意図を明らかにするためのアンケート調査を行う。
以上の結果から, 生成ツールの比較的平均的な受容性が示唆されるが, ツールが有用であると認識されるほど, 意図が高くなることが示唆された。
分析の結果, 生産ツールの利用頻度は, 従業員が作業の文脈でこれらのツールをどのように認識しているかを理解する上で重要な要因である可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-18T15:35:43Z) - Operationalizing Machine Learning: An Interview Study [13.300075655862573]
私たちは18人の機械学習エンジニア(MLE)と半構造化インタビューを行い、多くのアプリケーションで作業しています。
私たちのインタビューでは、運用MLデプロイメントの成功を管理する変数として、Velocity、Validation、Versioningの3つを公開しています。
ML実験の成功、デプロイメント、運用パフォーマンスの維持に関する一般的なプラクティスを要約します。
論文 参考訳(メタデータ) (2022-09-16T16:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。