論文の概要: Investigating Faithfulness in Large Audio Language Models
- arxiv url: http://arxiv.org/abs/2509.22363v1
- Date: Fri, 26 Sep 2025 13:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.476915
- Title: Investigating Faithfulness in Large Audio Language Models
- Title(参考訳): 大規模音声言語モデルにおける忠実度の検討
- Authors: Lovenya Jain, Pooneh Mousavi, Mirco Ravanelli, Cem Subakan,
- Abstract要約: 忠実さは、チェーンオブ思想表現がモデルの決定過程を正確に反映しているかどうかを測り、信頼性のある説明として使用することができる。
本稿では,複数のLALMが生成するCoTの忠実度を,対象とする介入を適用して検討する。
上記のいくつかのデータセットやタスクにわたる介入を経た上で、私たちの実験は、LALMが一般的に、根底にある意思決定プロセスに忠実であるように見えるCoTを生成することを示唆しています。
- 参考スコア(独自算出の注目度): 22.917844547310626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Faithfulness measures whether chain-of-thought (CoT) representations accurately reflect a model's decision process and can be used as reliable explanations. Prior work has shown that CoTs from text-based LLMs are often unfaithful. This question has not been explored for large audio-language models (LALMs), where faithfulness is critical for safety-sensitive applications. Reasoning in LALMs is also more challenging, as models must first extract relevant clues from audio before reasoning over them. In this paper, we investigate the faithfulness of CoTs produced by several LALMs by applying targeted interventions, including paraphrasing, filler token injection, early answering, and introducing mistakes, on two challenging reasoning datasets: SAKURA and MMAR. After going through the aforementioned interventions across several datasets and tasks, our experiments suggest that, LALMs generally produce CoTs that appear to be faithful to their underlying decision processes.
- Abstract(参考訳): Faithfulnessは、チェーン・オブ・思想(CoT)表現がモデルの決定過程を正確に反映しているかどうかを測定し、信頼できる説明として使用することができる。
以前の研究によると、テキストベースのLLMのCoTは、しばしば不信である。
この問題は、安全性に敏感なアプリケーションに忠実さが不可欠である大規模オーディオ言語モデル(LALM)では研究されていない。
LALMの推論は、モデルがまず音声から関連する手がかりを抽出し、推論する前に抽出する必要があるため、さらに難しい。
本稿では,複数のLALMが生成するCoTの信頼度について,パラフレーズ化,フィラートークン注入,早期回答,ミス導入といった目的的介入を,SAkuraとMMARの2つの挑戦的推論データセットに適用することによって検討する。
上記のいくつかのデータセットやタスクにわたる介入を経た上で、私たちの実験は、LALMが一般的に、根底にある意思決定プロセスに忠実であるように見えるCoTを生成することを示唆しています。
関連論文リスト
- Causal Prompting for Implicit Sentiment Analysis with Large Language Models [21.39152516811571]
Implicit Sentiment Analysis (ISA) は、明示的に述べられるのではなく、示唆される感情を推測することを目的としている。
近年,Large Language Models (LLMs) を用いたプロンプトベースの手法がISAで実現されている。
我々は,CoT推論に正面調整を組み込んだ因果的プロンプトフレームワークであるCAPITALを提案する。
論文 参考訳(メタデータ) (2025-07-01T03:01:09Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。
本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。
AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文 参考訳(メタデータ) (2024-05-02T17:32:59Z) - Causal Prompting: Debiasing Large Language Model Prompting based on Front-Door Adjustment [32.12998469814097]
大規模言語モデル(LLM)のバイアスを効果的に軽減するために,正面調整に基づく新たな因果的プロンプト手法を提案する。
実験結果から,提案手法は7つの自然言語処理データセットにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-05T07:47:34Z) - The Curious Case of Hallucinatory (Un)answerability: Finding Truths in
the Hidden States of Over-Confident Large Language Models [46.990141872509476]
本研究では,大言語モデル (LLM) の問合せ時の動作について検討する。
この結果から,入力クエリの応答性を符号化したモデルが強く示唆され,最初の復号化トークンの表現が強い指標であることが示唆された。
論文 参考訳(メタデータ) (2023-10-18T11:01:09Z) - Shortcut Learning of Large Language Models in Natural Language
Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。
予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。
これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文 参考訳(メタデータ) (2022-08-25T03:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。