Fugu-MT 論文翻訳(概要): Do LLMs Adhere to Label Definitions? Examining Their Receptivity to External Label Definitions

論文の概要: Do LLMs Adhere to Label Definitions? Examining Their Receptivity to External Label Definitions

arxiv url: http://arxiv.org/abs/2509.02452v1
Date: Tue, 02 Sep 2025 16:01:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-04 15:17:04.093829
Title: Do LLMs Adhere to Label Definitions? Examining Their Receptivity to External Label Definitions
Title（参考訳）: LLMはラベル定義に固執しているか?外部ラベル定義に対する認識性の検討
Authors: Seyedali Mohammadi, Bhaskara Hanuma Vedula, Hemank Lamba, Edward Raff, Ponnurangam Kumaraguru, Francis Ferraro, Manas Gaur,
Abstract要約: 複数の説明ベンチマークデータセット(一般およびドメイン固有)にまたがる実験を行う。以上の結果から,明示的なラベル定義は精度と説明可能性を高めることができるが,LLMのタスク解決プロセスへの統合は保証されず,一貫性も持たないことが明らかとなった。これらの知見は、LLMが既存の能力とともに外部知識をどのように処理するかをより深く理解する必要性を浮き彫りにした。
参考スコア（独自算出の注目度）: 46.08795043966853
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Do LLMs genuinely incorporate external definitions, or do they primarily rely on their parametric knowledge? To address these questions, we conduct controlled experiments across multiple explanation benchmark datasets (general and domain-specific) and label definition conditions, including expert-curated, LLM-generated, perturbed, and swapped definitions. Our results reveal that while explicit label definitions can enhance accuracy and explainability, their integration into an LLM's task-solving processes is neither guaranteed nor consistent, suggesting reliance on internalized representations in many cases. Models often default to their internal representations, particularly in general tasks, whereas domain-specific tasks benefit more from explicit definitions. These findings underscore the need for a deeper understanding of how LLMs process external knowledge alongside their pre-existing capabilities.
Abstract（参考訳）: LLMは実際に外部定義を取り入れるのか、それとも主にパラメトリック知識に依存しているのか? これらの問題に対処するために、複数の説明ベンチマークデータセット(一般およびドメイン固有)とラベル定義条件(エキスパートキュレート、LLM生成、摂動、スワップ定義を含む)の制御実験を行った。その結果、明示的なラベル定義は精度と説明可能性を高めることができるが、LLMのタスク解決プロセスへの統合は保証されず、一貫したものではないことが判明し、多くの場合、内部表現に依存することが示唆された。モデルはしばしば内部表現、特に一般的なタスクに対してデフォルトとなるが、ドメイン固有のタスクは明示的な定義の恩恵を受ける。これらの知見は、LLMが既存の能力とともに外部知識をどのように処理するかをより深く理解する必要性を浮き彫りにした。

関連論文リスト

RvLLM: LLM Runtime Verification with Domain Knowledge [8.15645390408007]
大規模言語モデル(LLM)は、例外的なテキスト理解と生成能力のため、AIパラダイムの主流として現れている。不整合または誤ったアウトプットを生成する傾向は、特に正確さと信頼性を必要とする高い領域において、その信頼性に挑戦する。既存の研究は、多くの場合、ドメイン固有の知識を統合する可能性を見越して、汎用シナリオにおけるモデル誤動作の検出と緩和に重点を置いている。
論文参考訳（メタデータ） (2025-05-24T08:21:44Z)
Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。性能ギャップを実証的に説明するための一連の実験を考案する。
論文参考訳（メタデータ） (2024-09-27T05:06:43Z)
Do LLMs Really Adapt to Domains? An Ontology Learning Perspective [2.0755366440393743]
大規模言語モデル(LLM)は、様々なアプリケーション領域において、様々な自然言語処理タスクに対して前例のない進歩を見せている。近年の研究では、LLMが知識ベースコンプリート(KBC)やオントロジー学習(OL)などの語彙意味タスクに活用できることが示されている。 LLMは本当にドメインに適応し、構造化知識の抽出に一貫性を持ち続けるのか、それとも推論の代わりに語彙感覚のみを学ぶのか?
論文参考訳（メタデータ） (2024-07-29T13:29:43Z)
CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文参考訳（メタデータ） (2024-05-20T14:34:01Z)
Aligning Language Models to Explicitly Handle Ambiguity [22.078095273053506]
我々は,あいまいなクエリを扱うために,言語モデルを整列する新しいパイプラインであるAlignment with Perceived Ambiguity (APA)を提案する。質問応答データセットの実験結果から、APAはLLMに対して、あいまいなクエリを明示的に検出し、管理する権限を持つことが示された。我々の発見は、APAがゴールドスタンダードラベルのトレーニング、特にアウト・オブ・ディストリビューションのシナリオで優れていることを証明している。
論文参考訳（メタデータ） (2024-04-18T07:59:53Z)
Knowledge Plugins: Enhancing Large Language Models for Domain-Specific Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文参考訳（メタデータ） (2023-11-16T07:09:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。