論文の概要: The Shifted and The Overlooked: A Task-oriented Investigation of
User-GPT Interactions
- arxiv url: http://arxiv.org/abs/2310.12418v1
- Date: Thu, 19 Oct 2023 02:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 17:15:13.354003
- Title: The Shifted and The Overlooked: A Task-oriented Investigation of
User-GPT Interactions
- Title(参考訳): シフトと概観--ユーザ-GPTインタラクションのタスク指向調査
- Authors: Siru Ouyang, Shuohang Wang, Yang Liu, Ming Zhong, Yizhu Jiao, Dan
Iter, Reid Pryzant, Chenguang Zhu, Heng Ji, Jiawei Han
- Abstract要約: 実際のユーザクエリの大規模なコレクションをGPTに解析する。
ユーザインタラクションでは'設計'や'計画'といったタスクが一般的だが,従来のNLPベンチマークとは大きく異なる。
- 参考スコア(独自算出の注目度): 114.67699010359637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in Large Language Models (LLMs) has produced models that
exhibit remarkable performance across a variety of NLP tasks. However, it
remains unclear whether the existing focus of NLP research accurately captures
the genuine requirements of human users. This paper provides a comprehensive
analysis of the divergence between current NLP research and the needs of
real-world NLP applications via a large-scale collection of user-GPT
conversations. We analyze a large-scale collection of real user queries to GPT.
We compare these queries against existing NLP benchmark tasks and identify a
significant gap between the tasks that users frequently request from LLMs and
the tasks that are commonly studied in academic research. For example, we find
that tasks such as ``design'' and ``planning'' are prevalent in user
interactions but are largely neglected or different from traditional NLP
benchmarks. We investigate these overlooked tasks, dissect the practical
challenges they pose, and provide insights toward a roadmap to make LLMs better
aligned with user needs.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、様々なNLPタスクで顕著な性能を示すモデルを生み出している。
しかし、既存のNLP研究の焦点が人間の真の要求を正確に捉えているかどうかは不明である。
本稿では,ユーザ-GPT対話の大規模収集を通じて,現在のNLP研究と実世界のNLPアプリケーションのニーズの相違を包括的に分析する。
実際のユーザクエリの大規模なコレクションをGPTに解析する。
我々は,これらのクエリを既存のNLPベンチマークタスクと比較し,LLMから頻繁に要求されるタスクと,学術研究でよく研究されるタスクとの間に大きなギャップを見出した。
例えば、 ``design'' や ``planning'' のようなタスクはユーザインタラクションでよく使われるが、従来の NLP ベンチマークとは大きく異なる。
これらの見過ごされたタスクを調査し、それらがもたらす実践的な課題を識別し、LCMをユーザニーズに合うようにするためのロードマップへの洞察を提供する。
関連論文リスト
- Towards better Human-Agent Alignment: Assessing Task Utility in
LLM-Powered Applications [37.047117782796064]
AgentEvalはユーティリティ検証プロセスをシンプルにするために設計されたフレームワークである。
本稿では,量子化器の研究の堅牢性について包括的に分析する。
論文 参考訳(メタデータ) (2024-02-14T08:46:15Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - CRoW: Benchmarking Commonsense Reasoning in Real-World Tasks [29.35269979211728]
CRoWは,6つの実世界のNLPタスクの文脈において,コモンセンス推論を適用するモデルの能力を評価するベンチマークである。
我々は、CRoWを用いて、NLPシステムが、物理的、時間的、社会的推論など、さまざまなコモンセンス知識の次元でどのように機能するかを研究する。
実世界のタスク設定において,NLPシステムが人間に比べてCRoW上で評価される場合,コモンセンス推論が解決されるには程遠いことを示す。
論文 参考訳(メタデータ) (2023-10-23T18:00:23Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。
そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。
NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文 参考訳(メタデータ) (2023-06-16T09:40:05Z) - Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A
Preliminary Study on Writing Assistance [60.40541387785977]
小さな基礎モデルは、命令駆動データを用いて微調整された場合、多様なタスクに対処する際、顕著な習熟度を示すことができる。
本研究は, 汎用的な指導よりも, 1つないし数つの特定のタスクに主眼を置いている, 実践的な問題設定について検討する。
実験結果から,命令データに対する微調整LLaMAは,タスクの記述能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-05-22T16:56:44Z) - TELeR: A General Taxonomy of LLM Prompts for Benchmarking Complex Tasks [2.822851601000061]
本稿では,多様な複雑なタスクを実行するために,特定の特性を持つプロンプトを設計するための一般的な分類法を提案する。
この分類学により、将来のベンチマーク研究は、研究の一部として使われるプロンプトの特定のカテゴリを報告できるようになる。
論文 参考訳(メタデータ) (2023-05-19T04:59:34Z) - Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond [48.70557995528463]
このガイドは、研究者や実践者が大規模言語モデルを扱うための貴重な洞察とベストプラクティスを提供することを目的としている。
実世界のシナリオにおける LLM の実用的応用と限界を説明するために, 様々なユースケースと非利用事例を提示する。
論文 参考訳(メタデータ) (2023-04-26T17:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。