論文の概要: The Shifted and The Overlooked: A Task-oriented Investigation of
User-GPT Interactions
- arxiv url: http://arxiv.org/abs/2310.12418v1
- Date: Thu, 19 Oct 2023 02:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 17:15:13.354003
- Title: The Shifted and The Overlooked: A Task-oriented Investigation of
User-GPT Interactions
- Title(参考訳): シフトと概観--ユーザ-GPTインタラクションのタスク指向調査
- Authors: Siru Ouyang, Shuohang Wang, Yang Liu, Ming Zhong, Yizhu Jiao, Dan
Iter, Reid Pryzant, Chenguang Zhu, Heng Ji, Jiawei Han
- Abstract要約: 実際のユーザクエリの大規模なコレクションをGPTに解析する。
ユーザインタラクションでは'設計'や'計画'といったタスクが一般的だが,従来のNLPベンチマークとは大きく異なる。
- 参考スコア(独自算出の注目度): 114.67699010359637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in Large Language Models (LLMs) has produced models that
exhibit remarkable performance across a variety of NLP tasks. However, it
remains unclear whether the existing focus of NLP research accurately captures
the genuine requirements of human users. This paper provides a comprehensive
analysis of the divergence between current NLP research and the needs of
real-world NLP applications via a large-scale collection of user-GPT
conversations. We analyze a large-scale collection of real user queries to GPT.
We compare these queries against existing NLP benchmark tasks and identify a
significant gap between the tasks that users frequently request from LLMs and
the tasks that are commonly studied in academic research. For example, we find
that tasks such as ``design'' and ``planning'' are prevalent in user
interactions but are largely neglected or different from traditional NLP
benchmarks. We investigate these overlooked tasks, dissect the practical
challenges they pose, and provide insights toward a roadmap to make LLMs better
aligned with user needs.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、様々なNLPタスクで顕著な性能を示すモデルを生み出している。
しかし、既存のNLP研究の焦点が人間の真の要求を正確に捉えているかどうかは不明である。
本稿では,ユーザ-GPT対話の大規模収集を通じて,現在のNLP研究と実世界のNLPアプリケーションのニーズの相違を包括的に分析する。
実際のユーザクエリの大規模なコレクションをGPTに解析する。
我々は,これらのクエリを既存のNLPベンチマークタスクと比較し,LLMから頻繁に要求されるタスクと,学術研究でよく研究されるタスクとの間に大きなギャップを見出した。
例えば、 ``design'' や ``planning'' のようなタスクはユーザインタラクションでよく使われるが、従来の NLP ベンチマークとは大きく異なる。
これらの見過ごされたタスクを調査し、それらがもたらす実践的な課題を識別し、LCMをユーザニーズに合うようにするためのロードマップへの洞察を提供する。
関連論文リスト
- WILT: A Multi-Turn, Memorization-Robust Inductive Logic Benchmark for LLMs [0.8883751685905831]
メモリ化に抵抗するように設計された,シンプルなマルチターン推論ベンチマークである Wason Inductive Logic Test (WILT) を紹介する。
以上の結果から,LSMはこの課題に苦しむことが明らかとなった。
これらの変動にもかかわらず、最高の性能モデルは28%の精度しか達成せず、複雑なマルチターン推論タスクにおけるLLM性能の重大なギャップを浮き彫りにしている。
論文 参考訳(メタデータ) (2024-10-14T18:29:13Z) - Towards Boosting LLMs-driven Relevance Modeling with Progressive Retrieved Behavior-augmented Prompting [23.61061000692023]
本研究では,検索ログに記録されたユーザインタラクションを活用して,ユーザの暗黙の検索意図に対する洞察を得ることを提案する。
ProRBPは,探索シナリオ指向の知識を大規模言語モデルと統合するための,プログレッシブ検索行動拡張型プロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-08-18T11:07:38Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - CRoW: Benchmarking Commonsense Reasoning in Real-World Tasks [29.35269979211728]
CRoWは,6つの実世界のNLPタスクの文脈において,コモンセンス推論を適用するモデルの能力を評価するベンチマークである。
我々は、CRoWを用いて、NLPシステムが、物理的、時間的、社会的推論など、さまざまなコモンセンス知識の次元でどのように機能するかを研究する。
実世界のタスク設定において,NLPシステムが人間に比べてCRoW上で評価される場合,コモンセンス推論が解決されるには程遠いことを示す。
論文 参考訳(メタデータ) (2023-10-23T18:00:23Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。
そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。
NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文 参考訳(メタデータ) (2023-06-16T09:40:05Z) - TELeR: A General Taxonomy of LLM Prompts for Benchmarking Complex Tasks [2.822851601000061]
本稿では,多様な複雑なタスクを実行するために,特定の特性を持つプロンプトを設計するための一般的な分類法を提案する。
この分類学により、将来のベンチマーク研究は、研究の一部として使われるプロンプトの特定のカテゴリを報告できるようになる。
論文 参考訳(メタデータ) (2023-05-19T04:59:34Z) - Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond [48.70557995528463]
このガイドは、研究者や実践者が大規模言語モデルを扱うための貴重な洞察とベストプラクティスを提供することを目的としている。
実世界のシナリオにおける LLM の実用的応用と限界を説明するために, 様々なユースケースと非利用事例を提示する。
論文 参考訳(メタデータ) (2023-04-26T17:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。