論文の概要: Why and When LLM-Based Assistants Can Go Wrong: Investigating the
Effectiveness of Prompt-Based Interactions for Software Help-Seeking
- arxiv url: http://arxiv.org/abs/2402.08030v1
- Date: Mon, 12 Feb 2024 19:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 17:43:13.485846
- Title: Why and When LLM-Based Assistants Can Go Wrong: Investigating the
Effectiveness of Prompt-Based Interactions for Software Help-Seeking
- Title(参考訳): LLMベースのアシスタントが間違っている理由と時期 - ソフトウェアヘルプ検索におけるプロンプトベースのインタラクションの有効性の検討
- Authors: Anjali Khurana, Hari Subramonyam, Parmit K Chilana
- Abstract要約: 大規模言語モデル(LLM)アシスタントは、ユーザーがソフトウェアをナビゲートするための検索方法の潜在的な代替手段として登場した。
LLMアシスタントは、ドメイン固有のテキスト、ソフトウェアマニュアル、コードリポジトリからの膨大なトレーニングデータを使用して、人間のようなインタラクションを模倣する。
- 参考スコア(独自算出の注目度): 5.755004576310333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) assistants, such as ChatGPT, have emerged as
potential alternatives to search methods for helping users navigate complex,
feature-rich software. LLMs use vast training data from domain-specific texts,
software manuals, and code repositories to mimic human-like interactions,
offering tailored assistance, including step-by-step instructions. In this
work, we investigated LLM-generated software guidance through a within-subject
experiment with 16 participants and follow-up interviews. We compared a
baseline LLM assistant with an LLM optimized for particular software contexts,
SoftAIBot, which also offered guidelines for constructing appropriate prompts.
We assessed task completion, perceived accuracy, relevance, and trust.
Surprisingly, although SoftAIBot outperformed the baseline LLM, our results
revealed no significant difference in LLM usage and user perceptions with or
without prompt guidelines and the integration of domain context. Most users
struggled to understand how the prompt's text related to the LLM's responses
and often followed the LLM's suggestions verbatim, even if they were incorrect.
This resulted in difficulties when using the LLM's advice for software tasks,
leading to low task completion rates. Our detailed analysis also revealed that
users remained unaware of inaccuracies in the LLM's responses, indicating a gap
between their lack of software expertise and their ability to evaluate the
LLM's assistance. With the growing push for designing domain-specific LLM
assistants, we emphasize the importance of incorporating explainable,
context-aware cues into LLMs to help users understand prompt-based
interactions, identify biases, and maximize the utility of LLM assistants.
- Abstract(参考訳): ChatGPTのようなLarge Language Model (LLM)アシスタントは、複雑な機能豊富なソフトウェアをナビゲートする検索方法の潜在的な代替手段として登場した。
LLMは、ドメイン固有のテキスト、ソフトウェアマニュアル、コードリポジトリからの膨大なトレーニングデータを使用して、ヒューマンライクなインタラクションを模倣する。
本研究では,16名の参加者によるイントラサブジェクト実験とフォローアップインタビューを通じて,llm生成ソフトウェア指導について検討した。
私たちは、ベースラインのllmアシスタントと、特定のソフトウェアコンテキストに最適化されたllm、softaibotを比較しました。
タスク完了、精度、妥当性、信頼を評価しました。
意外なことに,SoftAIBot はベースライン LLM よりも優れていたが,本研究の結果,即時ガイドラインとドメインコンテキストの統合により,LLM の使用状況とユーザ認識に有意な差は認められなかった。
ほとんどのユーザーは、LLMの反応に関連するプロンプトのテキストの理解に苦慮し、たとえ間違っていたとしても、LLMの提案に従わざるを得なかった。
この結果、LCMのソフトウェアタスクに対するアドバイスの使用が困難となり、タスク完了率が低下した。
我々の詳細な分析では、ユーザがLSMの応答の不正確さに気付いておらず、ソフトウェア専門知識の欠如とLCMのアシストを評価する能力のギャップが示唆された。
ドメイン固有のLLMアシスタントの設計を推し進める中で,我々は,ユーザが迅速なインタラクションを理解し,バイアスを特定し,LLMアシスタントの有用性を最大化するために,説明可能なコンテキスト対応キューをLLMに組み込むことの重要性を強調した。
関連論文リスト
- PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - User-LLM: Efficient LLM Contextualization with User Embeddings [24.099604517203606]
大規模言語モデル(LLM)のコンテキスト化にユーザ埋め込みを活用する新しいフレームワークであるUser-LLMを提案する。
MovieLens、Amazon Review、Google Local Reviewのデータセットに関する我々の実験は、様々なタスクで大きなパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-02-21T08:03:27Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When
and What to Retrieve for LLMs [64.0049955128318]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - LLMCheckup: Conversational Examination of Large Language Models via
Interpretability Tools [20.536681813020824]
ユーザがその振る舞いについて,最先端の大規模言語モデル(LLM)とチャットできる,アクセスしやすいツールを提案する。
我々はLSMが単独ですべての説明を生成し、微調整をせずに意図認識の処理を行えるようにした。
LLMCheckupは、XAIのさまざまなレベルの専門知識を持つ個人を対象に、システムで利用可能なオペレーションのチュートリアルを提供する。
論文 参考訳(メタデータ) (2024-01-23T09:11:07Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Lessons from Building StackSpot AI: A Contextualized AI Coding Assistant [2.268415020650315]
大規模言語モデル上に構築された新しいタイプのツールが登場しつつある。
これらのツールは、微調整やコンテキスト情報によるユーザプロンプトの強化といった手法を用いて、欠点を軽減することを目的としている。
論文 参考訳(メタデータ) (2023-11-30T10:51:26Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for
Themselves [63.33254282051988]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Low-code LLM: Visual Programming over LLMs [49.37966903221752]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
6種類のシンプルなローコードビジュアルプログラミングインタラクションが組み込まれており、すべてクリック、ドラッグ、テキスト編集によってサポートされている。
低コードLSMの利点として、制御可能な生成結果、ユーザフレンドリなヒューマン-LLMインタラクション、広く適用可能なシナリオの3つを挙げる。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。