Fugu-MT 論文翻訳(概要): Beyond the Known: Investigating LLMs Performance on Out-of-Domain Intent Detection

論文の概要: Beyond the Known: Investigating LLMs Performance on Out-of-Domain Intent Detection

arxiv url: http://arxiv.org/abs/2402.17256v2
Date: Mon, 4 Mar 2024 06:04:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 23:26:15.804171
Title: Beyond the Known: Investigating LLMs Performance on Out-of-Domain Intent Detection
Title（参考訳）: 未知領域検出におけるLCMの性能調査
Authors: Pei Wang, Keqing He, Yejie Wang, Xiaoshuai Song, Yutao Mou, Jingang Wang, Yunsen Xian, Xunliang Cai, Weiran Xu
Abstract要約: 本稿では,ChatGPTで表される大規模言語モデル(LLM)を包括的に評価する。 LLMには強力なゼロショット機能と少数ショット機能があるが、フルリソースで微調整されたモデルに比べれば依然として不利である。
参考スコア（独自算出の注目度）: 34.135738700682055
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Out-of-domain (OOD) intent detection aims to examine whether the user's query falls outside the predefined domain of the system, which is crucial for the proper functioning of task-oriented dialogue (TOD) systems. Previous methods address it by fine-tuning discriminative models. Recently, some studies have been exploring the application of large language models (LLMs) represented by ChatGPT to various downstream tasks, but it is still unclear for their ability on OOD detection task.This paper conducts a comprehensive evaluation of LLMs under various experimental settings, and then outline the strengths and weaknesses of LLMs. We find that LLMs exhibit strong zero-shot and few-shot capabilities, but is still at a disadvantage compared to models fine-tuned with full resource. More deeply, through a series of additional analysis experiments, we discuss and summarize the challenges faced by LLMs and provide guidance for future work including injecting domain knowledge, strengthening knowledge transfer from IND(In-domain) to OOD, and understanding long instructions.
Abstract（参考訳）: Out-of-domain(OOD)インテント検出は、ユーザのクエリが、タスク指向対話(TOD)システムの適切な機能に欠かせない、システムの事前定義されたドメイン外にあるかどうかを調べることを目的としている。従来の方法は、識別モデルの微調整によってそれに対処する。近年,ChatGPT で表される大規模言語モデル (LLM) を様々な下流タスクに適用する研究が行われているが,OOD 検出タスクの能力についてはまだ不明であり,様々な実験環境下で LLM の総合評価を行い,その強みと弱点を概説する。 LLMには強力なゼロショット機能と少数ショット機能があるが、フルリソースで微調整されたモデルに比べれば不利である。より深く、一連の追加分析実験を通じて、LLMが直面する課題を議論、要約し、ドメイン知識の注入、IND(In- domain)からOODへの知識伝達の強化、ロングインストラクションの理解など、今後の研究の指針を提供する。

関連論文リスト

When Seeing Is not Enough: Revealing the Limits of Active Reasoning in MLLMs [29.198301196459834]
MLLM(Multimodal large language model)は、幅広いベンチマークで強力な機能を示している。既存の評価のほとんどは受動的推論に重点を置いており、モデルが完全な情報の下でステップバイステップの推論を行う。 MLLMは不完全な情報の下で行方不明の証拠を積極的に取得できるのか? 我々はMLLMに、タスク固有の事前情報のない候補プールから目標画像を選択することにより、欠落した証拠を積極的に取得し、不完全な情報の下で決定を反復的に洗練するよう要求する。 20個の優れたMLLMを評価したところ、アクティブな推論ラグがパッシブな設定ではるかに遅れていることが分かり、かなりの余地があることが示唆された。
論文参考訳（メタデータ） (2025-10-17T08:17:27Z)
Hidden in Plain Sight: Evaluation of the Deception Detection Capabilities of LLMs in Multimodal Settings [14.065907685322097]
本稿では,Large Language Model (LLM) とLarge Multimodal Model (LMM) の自動偽造検出機能について,包括的に評価する。実生活トライアル面接(RLTD)、対人的シナリオ(MU3D)、詐欺的レビュー(OpSpam)の3つの異なるデータセットを用いて、オープンソースおよび商用LLMの性能を評価する。以上の結果から,LMMはクロスモーダルな手法を十分に活用するのに苦戦しているのに対し,微調整のLLMはテキスト偽造検出タスクにおいて最先端のパフォーマンスを実現することが示唆された。
論文参考訳（メタデータ） (2025-06-11T06:12:50Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文参考訳（メタデータ） (2025-04-10T16:14:55Z)
Exploring Large Language Models for Multimodal Sentiment Analysis: Challenges, Benchmarks, and Future Directions [0.0]
マルチモーダル・アスペクトベース感性分析(MABSA)は、テキストや画像を含む多モーダル情報からアスペクト項とその対応する感情極性を抽出することを目的としている。従来の教師付き学習手法はこの課題において有効性を示したが、大規模言語モデル(LLM)のMABSAへの適応性は未だ不明である。 Llama2、LLaVA、ChatGPTなどのLLMの最近の進歩は、一般的なタスクにおいて強力な能力を示しているが、MABSAのような複雑できめ細かなシナリオでは、その性能が過小評価されている。
論文参考訳（メタデータ） (2024-11-23T02:17:10Z)
Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。現在の手法はバイナリ分類に重点を置いており、人間とAIのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2024-10-18T08:14:10Z)
Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。既存の評価は最終的な成功率にのみ依存する傾向がある。本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文参考訳（メタデータ） (2024-10-09T17:59:00Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
Defining Boundaries: A Spectrum of Task Feasibility for Large Language Models [6.008311204104302]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示しているが、多くの場合、その知識や能力を超えるクエリを処理できない。本稿では,LLMが能力を超えるために必要なスキルのために,実用不可能なタスクを認識し,拒否する必要性に対処する。
論文参考訳（メタデータ） (2024-08-11T22:58:23Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
A Reality check of the benefits of LLM in business [1.9181612035055007]
大規模言語モデル(LLM)は、言語理解および生成タスクにおいて顕著なパフォーマンスを達成した。ビジネスプロセスにおけるLCMの有用性と準備性について概説する。
論文参考訳（メタデータ） (2024-06-09T02:36:00Z)
Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [68.83624133567213]
そこで本研究では,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。また, モデルに対して, 合成推論を積極的に行うための, 単純かつ効果的な手法であるアクティブ推論(AD)を提案する。
論文参考訳（メタデータ） (2024-04-19T15:53:27Z)
How Good Are LLMs at Out-of-Distribution Detection? [13.35571704613836]
アウト・オブ・ディストリビューション(OOD)検出は、機械学習(ML)モデルの信頼性を高める上で重要な役割を果たす。本稿では,大規模言語モデル(LLM)の領域におけるOOD検出の先駆的実証研究について述べる。
論文参考訳（メタデータ） (2023-08-20T13:15:18Z)
Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。 26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文参考訳（メタデータ） (2023-05-24T10:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。