論文の概要: LLM-Guided Semantic Relational Reasoning for Multimodal Intent Recognition
- arxiv url: http://arxiv.org/abs/2509.01337v1
- Date: Mon, 01 Sep 2025 10:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.644
- Title: LLM-Guided Semantic Relational Reasoning for Multimodal Intent Recognition
- Title(参考訳): マルチモーダルインテント認識のためのLLM誘導意味関係推論
- Authors: Qianrui Zhou, Hua Xu, Yifan Wang, Xinzhi Dong, Hanlei Zhang,
- Abstract要約: 本稿では,マルチモーダル信号から人間の意図を理解する新しい手法を提案する。
この方法は、大きな言語モデル(LLM)の拡張的な知識を活用して意味的基盤を確立する。
マルチモーダルな意図と対話行動タスクの実験は、LGSRRが最先端の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 14.683883775425821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding human intents from multimodal signals is critical for analyzing human behaviors and enhancing human-machine interactions in real-world scenarios. However, existing methods exhibit limitations in their modality-level reliance, constraining relational reasoning over fine-grained semantics for complex intent understanding. This paper proposes a novel LLM-Guided Semantic Relational Reasoning (LGSRR) method, which harnesses the expansive knowledge of large language models (LLMs) to establish semantic foundations that boost smaller models' relational reasoning performance. Specifically, an LLM-based strategy is proposed to extract fine-grained semantics as guidance for subsequent reasoning, driven by a shallow-to-deep Chain-of-Thought (CoT) that autonomously uncovers, describes, and ranks semantic cues by their importance without relying on manually defined priors. Besides, we formally model three fundamental types of semantic relations grounded in logical principles and analyze their nuanced interplay to enable more effective relational reasoning. Extensive experiments on multimodal intent and dialogue act recognition tasks demonstrate LGSRR's superiority over state-of-the-art methods, with consistent performance gains across diverse semantic understanding scenarios. The complete data and code are available at https://github.com/thuiar/LGSRR.
- Abstract(参考訳): マルチモーダル信号から人間の意図を理解することは、人間の行動を分析し、現実世界のシナリオにおける人間と機械の相互作用を強化するために重要である。
しかし、既存の手法は、複雑な意図理解のための微粒な意味論に対する関係推論を制約し、モダリティレベル依存の限界を示す。
本稿では,LLM-Guided Semantic Relational Reasoning (LGSRR)法を提案する。
具体的には,後続の推論のガイダンスとして,手動で定義した先行概念を頼らずに,自律的に記述し,重要度によってセマンティック・キューをランク付けする,浅層から深層までのチェーン・オブ・ソート(CoT)によって,微粒なセマンティクスを抽出する手法を提案する。
さらに、論理原理に基づく3つの基本的意味関係を形式的にモデル化し、それらの曖昧な相互作用を分析し、より効果的な関係推論を可能にする。
マルチモーダルな意図と対話行動認識タスクに関する広範な実験は、LGSRRが最先端の手法よりも優れていることを示した。
完全なデータとコードはhttps://github.com/thuiar/LGSRRで入手できる。
関連論文リスト
- Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。
大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。
本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文 参考訳(メタデータ) (2025-04-04T04:04:56Z) - LogiDynamics: Unraveling the Dynamics of Logical Inference in Large Language Model Reasoning [74.0242521818214]
本稿では、類似推論のための制御された評価環境を導入することにより、探索的アプローチを採用する。
帰納的,帰納的,帰納的,帰納的な推論パイプラインの比較力学を解析する。
仮説選択や検証,洗練といった高度なパラダイムを考察し,論理的推論のスケールアップの可能性を明らかにする。
論文 参考訳(メタデータ) (2025-02-16T15:54:53Z) - Do Large Language Models Advocate for Inferentialism? [0.0]
ChatGPTやClaudeといった大規模言語モデル(LLM)の出現は、言語哲学に対する新たな課題を提示している。
本稿では,これらのシステムを理解するための代替基盤フレームワークとして,Robert Brandom氏の推論的セマンティクスについて考察する。
論文 参考訳(メタデータ) (2024-12-19T03:48:40Z) - Prompt-based Logical Semantics Enhancement for Implicit Discourse
Relation Recognition [4.7938839332508945]
Inlicit Discourse Relation Recognition (IDRR) のための Prompt-based Logical Semantics Enhancement (PLSE) 法を提案する。
提案手法は,事前学習した言語モデルに対する対話関係に関する知識を,素早い接続予測によってシームレスに注入する。
PDTB 2.0 と CoNLL16 データセットによる実験結果から,本手法は現状の最先端モデルに対して優れた一貫した性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-11-01T08:38:08Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。