Fugu-MT 論文翻訳(概要): Why and When LLM-Based Assistants Can Go Wrong: Investigating the Effectiveness of Prompt-Based Interactions for Software Help-Seeking

論文の概要: Why and When LLM-Based Assistants Can Go Wrong: Investigating the Effectiveness of Prompt-Based Interactions for Software Help-Seeking

arxiv url: http://arxiv.org/abs/2402.08030v1
Date: Mon, 12 Feb 2024 19:49:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 17:43:13.485846
Title: Why and When LLM-Based Assistants Can Go Wrong: Investigating the Effectiveness of Prompt-Based Interactions for Software Help-Seeking
Title（参考訳）: LLMベースのアシスタントが間違っている理由と時期 - ソフトウェアヘルプ検索におけるプロンプトベースのインタラクションの有効性の検討
Authors: Anjali Khurana, Hari Subramonyam, Parmit K Chilana
Abstract要約: 大規模言語モデル(LLM)アシスタントは、ユーザーがソフトウェアをナビゲートするための検索方法の潜在的な代替手段として登場した。 LLMアシスタントは、ドメイン固有のテキスト、ソフトウェアマニュアル、コードリポジトリからの膨大なトレーニングデータを使用して、人間のようなインタラクションを模倣する。
参考スコア（独自算出の注目度）: 5.755004576310333
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Model (LLM) assistants, such as ChatGPT, have emerged as potential alternatives to search methods for helping users navigate complex, feature-rich software. LLMs use vast training data from domain-specific texts, software manuals, and code repositories to mimic human-like interactions, offering tailored assistance, including step-by-step instructions. In this work, we investigated LLM-generated software guidance through a within-subject experiment with 16 participants and follow-up interviews. We compared a baseline LLM assistant with an LLM optimized for particular software contexts, SoftAIBot, which also offered guidelines for constructing appropriate prompts. We assessed task completion, perceived accuracy, relevance, and trust. Surprisingly, although SoftAIBot outperformed the baseline LLM, our results revealed no significant difference in LLM usage and user perceptions with or without prompt guidelines and the integration of domain context. Most users struggled to understand how the prompt's text related to the LLM's responses and often followed the LLM's suggestions verbatim, even if they were incorrect. This resulted in difficulties when using the LLM's advice for software tasks, leading to low task completion rates. Our detailed analysis also revealed that users remained unaware of inaccuracies in the LLM's responses, indicating a gap between their lack of software expertise and their ability to evaluate the LLM's assistance. With the growing push for designing domain-specific LLM assistants, we emphasize the importance of incorporating explainable, context-aware cues into LLMs to help users understand prompt-based interactions, identify biases, and maximize the utility of LLM assistants.
Abstract（参考訳）: ChatGPTのようなLarge Language Model (LLM)アシスタントは、複雑な機能豊富なソフトウェアをナビゲートする検索方法の潜在的な代替手段として登場した。 LLMは、ドメイン固有のテキスト、ソフトウェアマニュアル、コードリポジトリからの膨大なトレーニングデータを使用して、ヒューマンライクなインタラクションを模倣する。本研究では,16名の参加者によるイントラサブジェクト実験とフォローアップインタビューを通じて,llm生成ソフトウェア指導について検討した。私たちは、ベースラインのllmアシスタントと、特定のソフトウェアコンテキストに最適化されたllm、softaibotを比較しました。タスク完了、精度、妥当性、信頼を評価しました。意外なことに,SoftAIBot はベースライン LLM よりも優れていたが,本研究の結果,即時ガイドラインとドメインコンテキストの統合により,LLM の使用状況とユーザ認識に有意な差は認められなかった。ほとんどのユーザーは、LLMの反応に関連するプロンプトのテキストの理解に苦慮し、たとえ間違っていたとしても、LLMの提案に従わざるを得なかった。この結果、LCMのソフトウェアタスクに対するアドバイスの使用が困難となり、タスク完了率が低下した。我々の詳細な分析では、ユーザがLSMの応答の不正確さに気付いておらず、ソフトウェア専門知識の欠如とLCMのアシストを評価する能力のギャップが示唆された。ドメイン固有のLLMアシスタントの設計を推し進める中で,我々は,ユーザが迅速なインタラクションを理解し,バイアスを特定し,LLMアシスタントの有用性を最大化するために,説明可能なコンテキスト対応キューをLLMに組み込むことの重要性を強調した。

関連論文リスト

LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests [7.6818904666624395]
本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。 LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
論文参考訳（メタデータ） (2025-07-29T02:34:28Z)
Just Put a Human in the Loop? Investigating LLM-Assisted Annotation for Subjective Tasks [18.695435335031355]
複数のもっともらしい回答を持つ主観的アノテーションタスクでは、LCM出力のレビューはラベルの分布を変えることができる。 410種類のアノテーションと7000以上のアノテーションを用いた事前登録実験を行った。その結果, LLM によるアノテーション提案をクラウドワーカーに提示することは, より迅速ではなく, 自己報告によるタスクへの信頼感を向上させることができた。
論文参考訳（メタデータ） (2025-07-21T17:29:21Z)
Can Large Language Models Help Students Prove Software Correctness? An Experimental Study with Dafny [79.56218230251953]
コンピューティング教育の学生は、ChatGPTのような大きな言語モデル(LLM)をますます利用している。本稿では,Dafny の形式的検証演習において,学生が LLM とどのように相互作用するかを検討する。
論文参考訳（メタデータ） (2025-06-27T16:34:13Z)
Scoring with Large Language Models: A Study on Measuring Empathy of Responses in Dialogues [3.2162648244439684]
本研究では,対話における応答の共感を測り,評価する上で,大規模言語モデルがいかに効果的かを調べるための枠組みを開発する。我々の戦略は、最新かつ微調整されたLLMの性能を明示的で説明可能な特徴で近似することである。以上の結果から,組込みのみを用いる場合,ジェネリックLLMに近い性能が得られることがわかった。
論文参考訳（メタデータ） (2024-12-28T20:37:57Z)
LLMs are Imperfect, Then What? An Empirical Study on LLM Failures in Software Engineering [38.20696656193963]
非自明なソフトウェアエンジニアリングタスクにおいて,ChatGPTをコーディングアシスタントとして使用した22名の参加者を対象に,観察的研究を行った。そこで我々は,ChatGPTが失敗した事例,その根本原因,およびユーザが使用する緩和ソリューションを特定した。
論文参考訳（メタデータ） (2024-11-15T03:29:41Z)
Exploring Knowledge Tracing in Tutor-Student Dialogues using LLMs [49.18567856499736]
本研究では,大規模言語モデル(LLM)が対話学習を支援することができるかどうかを検討する。我々は,学習者の知識レベルを対話全体にわたって追跡するために,ラベル付きデータに知識追跡(KT)手法を適用した。我々は,2つの学習対話データセットの実験を行い,従来のKT手法よりも学生の反応の正しさを予測できる新しいLCM-based method LLMKTが優れていることを示す。
論文参考訳（メタデータ） (2024-09-24T22:31:39Z)
Learning to Ask: When LLMs Meet Unclear Instruction [49.256630152684764]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。 Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-31T23:06:12Z)
I Need Help! Evaluating LLM's Ability to Ask for Users' Support: A Case Study on Text-to-SQL Generation [60.00337758147594]
本研究では,LLMのユーザサポートを積極的に行う能力について検討する。性能改善とユーザ負担のトレードオフを評価する指標を提案する。我々の実験は、外部からのフィードバックがなければ、多くのLCMがユーザサポートの必要性を認識するのに苦労していることを示している。
論文参考訳（メタデータ） (2024-07-20T06:12:29Z)
CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2024-07-15T07:43:55Z)
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-04-18T15:21:34Z)
LLMCheckup: Conversational Examination of Large Language Models via Interpretability Tools and Self-Explanations [26.340786701393768]
対話の形で説明を提供する解釈可能性ツールは,ユーザの理解を高める上で有効であることを示す。しかしながら、対話ベースの説明のための現在のソリューションは、しばしば外部ツールやモジュールを必要とし、設計されていないタスクに簡単に転送できない。ユーザがその振る舞いについて,最先端の大規模言語モデル(LLM)とチャットできる,アクセスしやすいツールを提案する。
論文参考訳（メタデータ） (2024-01-23T09:11:07Z)
Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文参考訳（メタデータ） (2023-04-17T09:27:40Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。