論文の概要: TCDA: Thread-Constrained Discourse-Aware Modeling for Conversational Sentiment Quadruple Analysis
- arxiv url: http://arxiv.org/abs/2605.01717v1
- Date: Sun, 03 May 2026 05:18:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.900748
- Title: TCDA: Thread-Constrained Discourse-Aware Modeling for Conversational Sentiment Quadruple Analysis
- Title(参考訳): TCDA:会話知覚四重項解析のためのスレッド制約談話認識モデリング
- Authors: Xinran Li, Xinze Che, Yifan Lyu, Zhiqi Huang, Xiujuan Xu,
- Abstract要約: スレッド制約指向非巡回グラフ(TC-DAG)とD-RoPE(Discourse-Aware Rotary Position Embedding)を組み合わせた新しいフレームワークを提案する。
2つのベンチマークデータセットの実験結果は、我々のフレームワークが最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 14.788693126884404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational Aspect-based Sentiment Quadruple Analysis (DiaASQ) needs to capture the complex interrelationships in multiple rounds of dialogues. Existing methods usually employ simple Graph Convolutional Networks (GCN), which introduce structural noise and fail to consider the temporal sequence of the dialogues, or use standard RoPE, which implicitly captures relative distances in a flat sequence but cannot clearly separate the token-level syntactic order from the utterance-level progression, and may suffer from the Distance Dilution problem. To address these issues, we propose a new framework that combines Thread-Constrained Directed Acyclic Graph (TC-DAG) and Discourse-Aware Rotary Position Embedding (D-RoPE). Specifically, TC-DAG filters out cross-thread noise based on thread constraints, maintains global connectivity through root anchoring, and incorporates the temporal sequence of the dialogues. D-RoPE aligns multi-layer semantics using dual-stream projection and multi-scale frequency signals, captures thread dependencies using tree-like distances, and alleviates the token-level Distance Dilution problem by incorporating utterance-level progressions. Experimental results on two benchmark datasets demonstrate that our framework achieves state-of-the-art performance.
- Abstract(参考訳): 対話型アスペクトに基づく知覚4重解析 (DiaASQ) では, 複雑な相互関係を複数ラウンドの対話で捉える必要がある。
既存の手法では、構造的ノイズを導入して対話の時間的シーケンスを考慮できない単純なグラフ畳み込みネットワーク(GCN)や、平らなシーケンスで暗黙的に相対的な距離をキャプチャする標準のRoPEを用いるが、トークンレベルの構文順を発話レベルの進行から明確に分離することができず、遠隔解問題に悩まされることがある。
これらの問題に対処するため,スレッド制約付きダイレクトアサイクリンググラフ(TC-DAG)とD-RoPE(Discourse-Aware Rotary Position Embedding)を組み合わせた新しいフレームワークを提案する。
具体的には,スレッド制約に基づくクロススレッドノイズをフィルタし,ルートアンカリングによるグローバル接続を維持し,対話の時間的シーケンスを組み込む。
D-RoPEは、二重ストリームプロジェクションとマルチスケールの周波数信号を用いて多層セマンティクスを整列し、木のような距離を用いてスレッド依存をキャプチャし、発話レベルの進行を取り入れることでトークンレベルの距離希釈問題を緩和する。
2つのベンチマークデータセットの実験結果は、我々のフレームワークが最先端のパフォーマンスを達成することを示す。
関連論文リスト
- Bridging Discrete Marks and Continuous Dynamics: Dual-Path Cross-Interaction for Marked Temporal Point Processes [13.290746265058644]
NEXTPPは,イベント・グラニュラー・ニューラル・エボリューションを通じて離散的かつ連続的な表現を統一する,デュアルチャネル・フレームワークである。
NextPPは、自己アテンション機構を介して離散イベントマークをエンコードし、同時に潜時連続状態を進化させる。
融合表現はニューラルホークス過程の条件強度関数を駆動し、イテレーティブな薄型サンプリング器は将来の事象を生成する。
論文 参考訳(メタデータ) (2026-03-12T02:39:47Z) - TagSpeech: End-to-End Multi-Speaker ASR and Diarization with Fine-Grained Temporal Grounding [15.908533215017059]
本稿では,テンポラルアンカーグラウンドを用いた統合フレームワークTagSpeechについて述べる。
本フレームワークは,(1)SOT(Serialized Output Training)を用いて微調整されたセマンティックストリームと話者ストリームを分離してターンテイクダイナミクスを学習し,(2)セマンティック理解と話者追跡の同期信号として機能するインターリーブ時間アンカー機構である。
論文 参考訳(メタデータ) (2026-01-11T12:40:07Z) - Chain-of-Thought Reasoning in Streaming Full-Duplex End-to-End Spoken Dialogue Systems [82.70507055599093]
本稿では,Duplex SDS のための Streaming Chain-of-Thought (CoT) フレームワークを提案する。
ブロック毎に中間的ターゲットアライメントされたユーザ書き起こしとシステム応答を作成します。
実験により,本手法は既存の二重解法よりもコヒーレントで解釈可能な応答を生成することが示された。
論文 参考訳(メタデータ) (2025-10-02T14:33:05Z) - TEn-CATG:Text-Enriched Audio-Visual Video Parsing with Multi-Scale Category-Aware Temporal Graph [28.536724593429398]
TEn-CATGは、セマンティックキャリブレーションとカテゴリー対応の時間的推論を組み合わせたテキスト強化AVVPフレームワークである。
弱教師付きAVVPタスクにおいて,TEn-CATGは複雑な時間的および意味的依存関係を捕捉する堅牢性と優れた能力を実現する。
論文 参考訳(メタデータ) (2025-09-04T10:32:40Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - OED: Towards One-stage End-to-End Dynamic Scene Graph Generation [18.374354844446962]
ダイナミックシーングラフ生成(DSGG)は、ビデオの空間時間領域内の視覚的関係を特定することに焦点を当てている。
本稿では,DSGGパイプラインを合理化する一段階のエンドツーエンドフレームワークOEDを提案する。
このフレームワークは、設定された予測問題としてタスクを再構成し、ペアワイズ機能を活用してシーングラフ内の各対象物対を表現する。
論文 参考訳(メタデータ) (2024-05-27T08:18:41Z) - Temporal-Viewpoint Transportation Plan for Skeletal Few-shot Action
Recognition [38.27785891922479]
Joint tEmporalとcAmera viewpoiNt alIgnmEntによる3Dスケルトンに基づく動作認識のためのFew-shot Learning Pipeline
論文 参考訳(メタデータ) (2022-10-30T11:46:38Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。