論文の概要: Beyond the Known: Investigating LLMs Performance on Out-of-Domain Intent
Detection
- arxiv url: http://arxiv.org/abs/2402.17256v1
- Date: Tue, 27 Feb 2024 07:02:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 17:35:11.135905
- Title: Beyond the Known: Investigating LLMs Performance on Out-of-Domain Intent
Detection
- Title(参考訳): 未知領域検出におけるLCMの性能調査
- Authors: Pei Wang, Keqing He, Yejie Wang, Xiaoshuai Song, Yutao Mou, Jingang
Wang, Yunsen Xian, Xunliang Cai, Weiran Xu
- Abstract要約: 本稿では,ChatGPTで表される大規模言語モデル(LLM)を包括的に評価する。
LLMには強力なゼロショット機能と少数ショット機能があるが、フルリソースで微調整されたモデルに比べれば依然として不利である。
- 参考スコア(独自算出の注目度): 34.135738700682055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Out-of-domain (OOD) intent detection aims to examine whether the user's query
falls outside the predefined domain of the system, which is crucial for the
proper functioning of task-oriented dialogue (TOD) systems. Previous methods
address it by fine-tuning discriminative models. Recently, some studies have
been exploring the application of large language models (LLMs) represented by
ChatGPT to various downstream tasks, but it is still unclear for their ability
on OOD detection task.This paper conducts a comprehensive evaluation of LLMs
under various experimental settings, and then outline the strengths and
weaknesses of LLMs. We find that LLMs exhibit strong zero-shot and few-shot
capabilities, but is still at a disadvantage compared to models fine-tuned with
full resource. More deeply, through a series of additional analysis
experiments, we discuss and summarize the challenges faced by LLMs and provide
guidance for future work including injecting domain knowledge, strengthening
knowledge transfer from IND(In-domain) to OOD, and understanding long
instructions.
- Abstract(参考訳): Out-of-domain(OOD)インテント検出は、ユーザのクエリが、タスク指向対話(TOD)システムの適切な機能に欠かせない、システムの事前定義されたドメイン外にあるかどうかを調べることを目的としている。
従来の方法は、識別モデルの微調整によってそれに対処する。
近年,ChatGPT で表される大規模言語モデル (LLM) を様々な下流タスクに適用する研究が行われているが,OOD 検出タスクの能力についてはまだ不明であり,様々な実験環境下で LLM の総合評価を行い,その強みと弱点を概説する。
LLMには強力なゼロショット機能と少数ショット機能があるが、フルリソースで微調整されたモデルに比べれば不利である。
より深く、一連の追加分析実験を通じて、LLMが直面する課題を議論、要約し、ドメイン知識の注入、IND(In- domain)からOODへの知識伝達の強化、ロングインストラクションの理解など、今後の研究の指針を提供する。
関連論文リスト
- Exploring Large Language Models for Multimodal Sentiment Analysis: Challenges, Benchmarks, and Future Directions [0.0]
マルチモーダル・アスペクトベース感性分析(MABSA)は、テキストや画像を含む多モーダル情報からアスペクト項とその対応する感情極性を抽出することを目的としている。
従来の教師付き学習手法はこの課題において有効性を示したが、大規模言語モデル(LLM)のMABSAへの適応性は未だ不明である。
Llama2、LLaVA、ChatGPTなどのLLMの最近の進歩は、一般的なタスクにおいて強力な能力を示しているが、MABSAのような複雑できめ細かなシナリオでは、その性能が過小評価されている。
論文 参考訳(メタデータ) (2024-11-23T02:17:10Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とAIのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Defining Boundaries: A Spectrum of Task Feasibility for Large Language Models [6.008311204104302]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示しているが、多くの場合、その知識や能力を超えるクエリを処理できない。
本稿では,LLMが能力を超えるために必要なスキルのために,実用不可能なタスクを認識し,拒否する必要性に対処する。
論文 参考訳(メタデータ) (2024-08-11T22:58:23Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - A Reality check of the benefits of LLM in business [1.9181612035055007]
大規模言語モデル(LLM)は、言語理解および生成タスクにおいて顕著なパフォーマンスを達成した。
ビジネスプロセスにおけるLCMの有用性と準備性について概説する。
論文 参考訳(メタデータ) (2024-06-09T02:36:00Z) - Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [68.83624133567213]
そこで本研究では,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。
また, モデルに対して, 合成推論を積極的に行うための, 単純かつ効果的な手法であるアクティブ推論(AD)を提案する。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z) - How Good Are LLMs at Out-of-Distribution Detection? [13.35571704613836]
アウト・オブ・ディストリビューション(OOD)検出は、機械学習(ML)モデルの信頼性を高める上で重要な役割を果たす。
本稿では,大規模言語モデル(LLM)の領域におけるOOD検出の先駆的実証研究について述べる。
論文 参考訳(メタデータ) (2023-08-20T13:15:18Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。