論文の概要: LLMCheckup: Conversational Examination of Large Language Models via Interpretability Tools and Self-Explanations
- arxiv url: http://arxiv.org/abs/2401.12576v2
- Date: Wed, 24 Apr 2024 17:17:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 21:08:18.285057
- Title: LLMCheckup: Conversational Examination of Large Language Models via Interpretability Tools and Self-Explanations
- Title(参考訳): LLMCheckup:解釈可能性ツールと自己説明による大規模言語モデルの会話的検証
- Authors: Qianli Wang, Tatiana Anikina, Nils Feldhus, Josef van Genabith, Leonhard Hennig, Sebastian Möller,
- Abstract要約: 対話の形で説明を提供する解釈可能性ツールは,ユーザの理解を高める上で有効であることを示す。
しかしながら、対話ベースの説明のための現在のソリューションは、しばしば外部ツールやモジュールを必要とし、設計されていないタスクに簡単に転送できない。
ユーザがその振る舞いについて,最先端の大規模言語モデル(LLM)とチャットできる,アクセスしやすいツールを提案する。
- 参考スコア(独自算出の注目度): 26.340786701393768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretability tools that offer explanations in the form of a dialogue have demonstrated their efficacy in enhancing users' understanding (Slack et al., 2023; Shen et al., 2023), as one-off explanations may fall short in providing sufficient information to the user. Current solutions for dialogue-based explanations, however, often require external tools and modules and are not easily transferable to tasks they were not designed for. With LLMCheckup, we present an easily accessible tool that allows users to chat with any state-of-the-art large language model (LLM) about its behavior. We enable LLMs to generate explanations and perform user intent recognition without fine-tuning, by connecting them with a broad spectrum of Explainable AI (XAI) methods, including white-box explainability tools such as feature attributions, and self-explanations (e.g., for rationale generation). LLM-based (self-)explanations are presented as an interactive dialogue that supports follow-up questions and generates suggestions. LLMCheckupprovides tutorials for operations available in the system, catering to individuals with varying levels of expertise in XAI and supporting multiple input modalities. We introduce a new parsing strategy that substantially enhances the user intent recognition accuracy of the LLM. Finally, we showcase LLMCheckup for the tasks of fact checking and commonsense question answering.
- Abstract(参考訳): 対話形式で説明を提供する解釈可能性ツールは,ユーザへの十分な情報提供に不足する可能性があるため,ユーザの理解を高める効果(Slack et al , 2023; Shen et al , 2023)を示した。
しかしながら、対話ベースの説明のための現在のソリューションは、しばしば外部ツールやモジュールを必要とし、設計されていないタスクに簡単に転送できない。
LLMCheckupでは、ユーザが最新の大規模言語モデル(LLM)の振る舞いをチャットできる、容易にアクセスできるツールを提供する。
特徴属性などのホワイトボックス説明可能性ツールや自己説明(合理生成など)を含む、説明可能なAI(XAI)メソッドを幅広い範囲に接続することにより、LCMが説明を生成し、微調整なしでユーザ意図の認識を可能にする。
LLMベースの(自己)説明は、フォローアップ質問をサポートし、提案を生成する対話対話として提示される。
LLMCheckupprovidesはシステムで利用可能なオペレーションのチュートリアルを公開し、XAIの様々なレベルの専門知識を持つ個人にケアし、複数の入力モダリティをサポートする。
LLMのユーザ意図認識精度を大幅に向上させる新しい解析手法を提案する。
最後に,ファクトチェックとコモンセンス質問応答のタスクに対するLLMCheckupを紹介する。
関連論文リスト
- PromptExp: Multi-granularity Prompt Explanation of Large Language Models [16.259208045898415]
PromptExpは,トークンレベルの洞察を集約することで,複数の粒度を自動生成するフレームワークである。
PromptExpは、ホワイトボックスとブラックボックスの説明の両方をサポートし、説明をより高い粒度レベルまで拡張する。
PromptExpを感情分析などのケーススタディで評価し,摂動に基づくアプローチが優れていることを示す。
論文 参考訳(メタデータ) (2024-10-16T22:25:15Z) - Learning to Ask: When LLMs Meet Unclear Instruction [49.256630152684764]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - What You Need is What You Get: Theory of Mind for an LLM-Based Code Understanding Assistant [0.0]
開発者のコード理解を支援するために、多くのツールがLLM(Large Language Models)を使用している。
本研究では,LLMをベースとした対話型アシスタントの設計を行った。
コード理解の初心者を支援するためにLLMベースの会話アシスタントを開発したり改善したりしたい研究者やツールビルダーに洞察を提供する。
論文 参考訳(メタデータ) (2024-08-08T14:08:15Z) - Why and When LLM-Based Assistants Can Go Wrong: Investigating the
Effectiveness of Prompt-Based Interactions for Software Help-Seeking [5.755004576310333]
大規模言語モデル(LLM)アシスタントは、ユーザーがソフトウェアをナビゲートするための検索方法の潜在的な代替手段として登場した。
LLMアシスタントは、ドメイン固有のテキスト、ソフトウェアマニュアル、コードリポジトリからの膨大なトレーニングデータを使用して、人間のようなインタラクションを模倣する。
論文 参考訳(メタデータ) (2024-02-12T19:49:58Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Frugal Prompting for Dialog Models [17.048111072193933]
本研究では,大規模言語モデル(LLM)を用いた対話システム構築のための異なるアプローチについて検討する。
即時チューニングの一環として、インストラクション、例題、現在のクエリ、追加のコンテキストを提供する様々な方法を試行する。
この研究は、最適な使用情報密度を持つダイアログ履歴の表現も分析する。
論文 参考訳(メタデータ) (2023-05-24T09:06:49Z) - Leveraging Large Language Models in Conversational Recommender Systems [9.751217336860924]
Conversational Recommender System (CRS)は、リアルタイムのマルチターン対話を通じてシステムと対話できるようにすることにより、ユーザに対して透明性とコントロールを向上する。
大言語モデル(LLM)は、自然に会話し、世界知識と常識推論を言語理解に組み込むという前例のない能力を示した。
論文 参考訳(メタデータ) (2023-05-13T16:40:07Z) - Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。
ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。