論文の概要: MTPChat: A Multimodal Time-Aware Persona Dataset for Conversational Agents
- arxiv url: http://arxiv.org/abs/2502.05887v1
- Date: Sun, 09 Feb 2025 13:00:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:30.762300
- Title: MTPChat: A Multimodal Time-Aware Persona Dataset for Conversational Agents
- Title(参考訳): MTPChat:会話エージェントのためのマルチモーダル時間対応ペルソナデータセット
- Authors: Wanqi Yang, Yanda Li, Meng Fang, Ling Chen,
- Abstract要約: MTPChatは、対話とペルソナメモリに言語的、視覚的、時間的要素を統合する、タイムアウェアなペルソナ対話データセットである。
時間的次反応予測(TNRP)と時間的接地記憶予測(TGMP)の2つのタスクを提案する。
本稿では,マルチモーダルストリームを効果的に統合し,時間依存を捕捉する適応時間モジュールを特徴とする革新的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.98067169669452
- License:
- Abstract: Understanding temporal dynamics is critical for conversational agents, enabling effective content analysis and informed decision-making. However, time-aware datasets, particularly for persona-grounded conversations, are still limited, which narrows their scope and diminishes their complexity. To address this gap, we introduce MTPChat, a multimodal, time-aware persona dialogue dataset that integrates linguistic, visual, and temporal elements within dialogue and persona memory. Leveraging MTPChat, we propose two time-sensitive tasks: Temporal Next Response Prediction (TNRP) and Temporal Grounding Memory Prediction (TGMP), both designed to assess a model's ability to understand implicit temporal cues and dynamic interactions. Additionally, we present an innovative framework featuring an adaptive temporal module to effectively integrate multimodal streams and capture temporal dependencies. Experimental results validate the challenges posed by MTPChat and demonstrate the effectiveness of our framework in multimodal time-sensitive scenarios.
- Abstract(参考訳): 時間的ダイナミクスを理解することは会話エージェントにとって重要であり、効果的なコンテンツ分析と情報意思決定を可能にする。
しかし、特に対人会話のタイムアウェアデータセットは、スコープを狭め、複雑さを減らし、依然として制限されている。
このギャップに対処するため,MTPChatは対話やペルソナメモリに言語的,視覚的,時間的要素を統合する多モーダル・タイムアウェアなペルソナ対話データセットである。
MTPChatを活用することで,TNRP(Temporal Next Response Prediction)とTGMP(Temporal Grounding Memory Prediction)の2つの時間依存的タスクを提案する。
さらに,マルチモーダルストリームを効果的に統合し,時間依存を捕捉する適応時間モジュールを特徴とする革新的なフレームワークを提案する。
MTPChatがもたらす課題を実験的に検証し,マルチモーダル・タイムセンシティブなシナリオにおけるフレームワークの有効性を実証した。
関連論文リスト
- TReMu: Towards Neuro-Symbolic Temporal Reasoning for LLM-Agents with Memory in Multi-Session Dialogues [13.638344516302851]
マルチセッション対話における時間的推論は、過小評価されている重要な課題である。
本稿では,LoCoMoからの対話を増強し,複数選択QAを作成することで,新しいベンチマークを構築する手法を提案する。
また,LLMエージェントの時間的推論能力の向上を目的とした新しいフレームワークであるTReMuについても紹介する。
論文 参考訳(メタデータ) (2025-02-03T18:58:19Z) - TempoGPT: Enhancing Temporal Reasoning via Quantizing Embedding [13.996105878417204]
本稿では,マルチモーダル時系列データ構築手法とマルチモーダル時系列言語モデル(TLM, TempoGPT)を提案する。
ホワイトボックスシステム内の変数-システム関係を解析することにより,複雑な推論タスクのためのマルチモーダルデータを構築する。
広範な実験により、TempoGPTは時間的情報を正確に知覚し、結論を論理的に推論し、構築された複雑な時系列推論タスクにおける最先端の処理を達成することが示されている。
論文 参考訳(メタデータ) (2025-01-13T13:47:05Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - Evaluating Very Long-Term Conversational Memory of LLM Agents [95.84027826745609]
我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。
我々は、各エージェントに画像の共有と反応の能力を持たせる。
生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
論文 参考訳(メタデータ) (2024-02-27T18:42:31Z) - On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Conversation Understanding using Relational Temporal Graph Neural
Networks with Auxiliary Cross-Modality Interaction [2.1261712640167856]
感情認識は人間の会話理解にとって重要な課題である。
我々は,CORECT(Cross-Modality Interaction)を用いた入力時間グラフニューラルネットワークを提案する。
CORECTは会話レベルの対話と発話レベルの時間的依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2023-11-08T07:46:25Z) - Dyadformer: A Multi-modal Transformer for Long-Range Modeling of Dyadic
Interactions [33.67477398036821]
そこで我々はDyadformerを提案する。Dyadformerは、動的相互作用における個人的および対人的特徴をモデル化する、新しいマルチモーダルマルチオブジェクトトランスフォーマーアーキテクチャである。
提案するクロスオブジェクト層は,対象者間のインタラクションを注意的操作により明示的にモデル化することを可能にする。
この概念実証アプローチは、双方の相互作用の複数モーダリティと結合モデリングが、より長い時間にわたって、個々の属性を予測するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-09-20T12:45:04Z) - Sequential Recommender via Time-aware Attentive Memory Network [67.26862011527986]
本稿では,注意機構と繰り返し単位を改善するための時間ゲーティング手法を提案する。
また,長期と短期の嗜好を統合するマルチホップ・タイムアウェア・アテンテーティブ・メモリ・ネットワークを提案する。
提案手法は,候補探索タスクに対してスケーラブルであり,ドット積に基づくTop-Kレコメンデーションのための潜在因数分解の非線形一般化とみなすことができる。
論文 参考訳(メタデータ) (2020-05-18T11:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。