論文の概要: Introducing Visual Scenes and Reasoning: A More Realistic Benchmark for Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2511.19005v1
- Date: Mon, 24 Nov 2025 11:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.179505
- Title: Introducing Visual Scenes and Reasoning: A More Realistic Benchmark for Spoken Language Understanding
- Title(参考訳): ビジュアルシーンの導入と推論: 音声言語理解のためのより現実的なベンチマーク
- Authors: Di Wu, Liting Jiang, Ruiyu Fang, Bianjing, Hongyan Xie, Haoxiang Su, Hao Huang, Zhongjiang He, Shuangyong Song, Xuelong Li,
- Abstract要約: 視覚画像と明示的推論の両方を統合する新しいデータセットであるVRSLUを紹介する。
オーバーイデオライズされたCAでは、GPT-4oとFLUX.1-devを使用して、ユーザの環境やステータスを反映した画像を生成し、続いて人間の検証によって品質を保証する。
推論のために、GPT-4oは予測ラベルの説明を生成するために使用され、その説明は人間のアノテータによって洗練され、精度と一貫性が保証される。
- 参考スコア(独自算出の注目度): 51.010563573083495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken Language Understanding (SLU) consists of two sub-tasks: intent detection (ID) and slot filling (SF). Given its broad range of real-world applications, enhancing SLU for practical deployment is increasingly critical. Profile-based SLU addresses ambiguous user utterances by incorporating context awareness (CA), user profiles (UP), and knowledge graphs (KG) to support disambiguation, thereby advancing SLU research toward real-world applicability. However, existing SLU datasets still fall short in representing real-world scenarios. Specifically, (1) CA uses one-hot vectors for representation, which is overly idealized, and (2) models typically focuses solely on predicting intents and slot labels, neglecting the reasoning process that could enhance performance and interpretability. To overcome these limitations, we introduce VRSLU, a novel SLU dataset that integrates both Visual images and explicit Reasoning. For over-idealized CA, we use GPT-4o and FLUX.1-dev to generate images reflecting users' environments and statuses, followed by human verification to ensure quality. For reasoning, GPT-4o is employed to generate explanations for predicted labels, which are then refined by human annotators to ensure accuracy and coherence. Additionally, we propose an instructional template, LR-Instruct, which first predicts labels and then generates corresponding reasoning. This two-step approach helps mitigate the influence of reasoning bias on label prediction. Experimental results confirm the effectiveness of incorporating visual information and highlight the promise of explicit reasoning in advancing SLU.
- Abstract(参考訳): Spoken Language Understanding (SLU)は、インテント検出(ID)とスロットフィリング(SF)の2つのサブタスクで構成されている。
現実世界の幅広いアプリケーションを考えると、実用展開のためのSLUの強化はますます重要になっている。
プロファイルに基づくSLUは、コンテキスト認識(CA)、ユーザプロファイル(UP)、知識グラフ(KG)を組み込むことで、曖昧なユーザ発話に対処する。
しかし、既存のSLUデータセットは現実世界のシナリオを表現できない。
具体的には, (1) CA は表現に 1-ホットベクトルを用い, 過度に理想化され, (2) モデルは通常, 目的やスロットラベルの予測に重点を置いており, 性能や解釈可能性を高めるような推論プロセスを無視している。
これらの制限を克服するために、視覚画像と明示的推論の両方を統合する新しいSLUデータセットであるVRSLUを導入する。
オーバーイデオライズされたCAでは、GPT-4oとFLUX.1-devを使用して、ユーザの環境やステータスを反映した画像を生成し、続いて人間の検証によって品質を保証する。
推論のために、GPT-4oは予測ラベルの説明を生成するために使用され、その説明は人間のアノテータによって洗練され、精度と一貫性が保証される。
さらに、まずラベルを予測し、次に対応する推論を生成する命令テンプレートLR-Instructを提案する。
この2段階のアプローチは、ラベル予測に対する推論バイアスの影響を軽減するのに役立つ。
実験により,視覚情報の導入の有効性を確認し,SLUの進行における明確な推論の可能性を強調した。
関連論文リスト
- Language as a Label: Zero-Shot Multimodal Classification of Everyday Postures under Data Scarcity [0.764671395172401]
近年のビジョン・ランゲージ・モデル(VLM)は、画像とテキストを共有空間にアライメントすることで、ゼロショットの分類を可能にする。
本研究は, 座位, 立位, 歩行・走走の0ショット分類において, 即時特異性がどの程度影響するかを検討する。
論文 参考訳(メタデータ) (2025-10-15T09:53:46Z) - GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入する。
ZSADにおけるGlocalCLIPの一般化性能を実世界の15のデータセットで実証した。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - Unified Lexical Representation for Interpretable Visual-Language Alignment [52.059812317944434]
複雑な設計をせずに両方のモダリティを統一した語彙表現を学習するためのフレームワークであるLexVLAを紹介する。
我々はDINOv2をローカル言語の特徴の視覚モデルとして使用し、生成言語モデルであるLlamaをテキスト内語彙予測能力の活用に利用した。
これら2つの事前学習されたユニモーダルモデルが、控えめなマルチモーダルデータセットを微調整することで、適切に整列できることを実証する。
論文 参考訳(メタデータ) (2024-07-25T07:35:27Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Multi-task RNN-T with Semantic Decoder for Streamable Spoken Language
Understanding [16.381644007368763]
E2E SLU(End-to-end Spoken Language Understanding)は、共同最適化と低レイテンシの利点により、関心を集めている。
本稿では,これらの考察に対処するために,マルチタスク・セマンティックトランスデューサモデルを提案する。
提案アーキテクチャは, ASR と NLU のラベルを自動回帰的に予測し, セマンティックデコーダを用いて従来予測されていたワードピースとスロットタグの両方を取り込みます。
論文 参考訳(メタデータ) (2022-04-01T16:38:56Z) - Text is no more Enough! A Benchmark for Profile-based Spoken Language
Understanding [26.549776399115203]
プロファイルベースの音声言語理解(ProSLU)は、プレーンテキストだけでなく、適切な意図やスロットを予測するために、サポートされたプロファイル情報にも依存するモデルを必要とする。
我々は、5K以上の発話とそれに対応するプロファイル情報を備えた大規模人手による中国語データセットを導入する。
実験結果から,既存のテキストベースSLUモデルは,発話が意味的に曖昧である場合に動作しないことがわかった。
論文 参考訳(メタデータ) (2021-12-22T15:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。