Fugu-MT 論文翻訳(概要): InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

論文の概要: InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

arxiv url: http://arxiv.org/abs/2412.09596v1
Date: Thu, 12 Dec 2024 18:58:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-13 15:57:57.390317
Title: InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions
Title（参考訳）: InternLM-XComposer2.5-OmniLive:長期ストリーミングビデオとオーディオインタラクションのための総合マルチモーダルシステム
Authors: Pan Zhang, Xiaoyi Dong, Yuhang Cao, Yuhang Zang, Rui Qian, Xilin Wei, Lin Chen, Yifei Li, Junbo Niu, Shuangrui Ding, Qipeng Guo, Haodong Duan, Xin Chen, Han Lv, Zheng Nie, Min Zhang, Bin Wang, Wenwei Zhang, Xinyue Zhang, Jiaye Ge, Wei Li, Jingwen Li, Zhongying Tu, Conghui He, Xingcheng Zhang, Kai Chen, Yu Qiao, Dahua Lin, Jiaqi Wang,
Abstract要約: 本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
参考スコア（独自算出の注目度）: 104.90258030688256
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Creating AI systems that can interact with environments over long periods, similar to human cognition, has been a longstanding research goal. Recent advancements in multimodal large language models (MLLMs) have made significant strides in open-world understanding. However, the challenge of continuous and simultaneous streaming perception, memory, and reasoning remains largely unexplored. Current MLLMs are constrained by their sequence-to-sequence architecture, which limits their ability to process inputs and generate responses simultaneously, akin to being unable to think while perceiving. Furthermore, relying on long contexts to store historical data is impractical for long-term interactions, as retaining all information becomes costly and inefficient. Therefore, rather than relying on a single foundation model to perform all functions, this project draws inspiration from the concept of the Specialized Generalist AI and introduces disentangled streaming perception, reasoning, and memory mechanisms, enabling real-time interaction with streaming video and audio input. The proposed framework InternLM-XComposer2.5-OmniLive (IXC2.5-OL) consists of three key modules: (1) Streaming Perception Module: Processes multimodal information in real-time, storing key details in memory and triggering reasoning in response to user queries. (2) Multi-modal Long Memory Module: Integrates short-term and long-term memory, compressing short-term memories into long-term ones for efficient retrieval and improved accuracy. (3) Reasoning Module: Responds to queries and executes reasoning tasks, coordinating with the perception and memory modules. This project simulates human-like cognition, enabling multimodal large language models to provide continuous and adaptive service over time.
Abstract（参考訳）: 人間の認知と同様、長期間にわたって環境と対話できるAIシステムを作ることは、長年の研究目標だった。マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、オープンワールドの理解に大きく貢献している。しかし、連続的かつ同時的なストリーミングの認識、記憶、推論の課題は、まだほとんど解明されていない。現在のMLLMはシーケンス・ツー・シーケンスアーキテクチャによって制約されており、入力を処理し、同時にレスポンスを生成する能力を制限する。さらに、すべての情報の保存がコストと非効率になるため、歴史的データを保存するための長期的コンテキストに依存することは、長期的な相互作用にとって現実的ではない。したがって、このプロジェクトは、すべての機能を実行するために単一の基礎モデルに頼るのではなく、特殊化ジェネリストAIの概念からインスピレーションを得て、非絡み合ったストリーミング知覚、推論、メモリメカニズムを導入し、ストリーミングビデオとオーディオ入力とのリアルタイムインタラクションを可能にする。提案するフレームワークであるInternLM-XComposer2.5-OmniLive (IXC2.5-OL) は,(1) ストリームパーセプションモジュール: マルチモーダル情報をリアルタイムで処理し,メモリにキーの詳細を格納し,ユーザクエリに応答して推論をトリガーする。 2) マルチモーダル長期記憶モジュール: 短期記憶と長期記憶を統合し, 短期記憶を長期記憶に圧縮し, 効率的な検索と精度の向上を図る。 (3) 推論モジュール: クエリに応答し、推論タスクを実行し、知覚とメモリモジュールと協調する。このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。

関連論文リスト

LoopServe: An Adaptive Dual-phase LLM Inference Acceleration System for Multi-Turn Dialogues [55.332261548836485]
LoopServeは、多ターン対話における大規模言語モデルのための適応的な二相推論フレームワークである。既存のベースラインに比べて一貫して優れた効果を発揮する。これは、幅広い長文対話タスクにおける推論を著しく加速する。
論文参考訳（メタデータ） (2025-07-18T06:12:08Z)
Infinite Video Understanding [50.78256932424239]
Infinite Video Understandingをブルースキー研究の目的とするフレーミングは、マルチメディアにとって重要な北の星となると我々は主張する。我々は、この変革能力を達成するための主要な課題と研究の方向性を概説する。
論文参考訳（メタデータ） (2025-07-11T23:07:04Z)
MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文参考訳（メタデータ） (2025-06-18T19:44:46Z)
DaMO: A Data-Efficient Multimodal Orchestrator for Temporal Reasoning with Video LLMs [5.074812070492738]
本稿では,正確な時間的推論とマルチモーダル理解を目的とした,データ効率のよいビデオLLMであるDaMOを紹介する。構造化された4段階のプログレッシブトレーニングパラダイムを通じてDaMOをトレーニングし、マルチモーダルアライメント、セマンティックグラウンド、時間的推論機能を備えたモデルを段階的に装備する。我々の研究は、データ効率の良いビデオ言語モデリングのための有望な方向性を確立する。
論文参考訳（メタデータ） (2025-06-13T08:13:05Z)
Towards General Continuous Memory for Vision-Language Models [39.95345066340921]
言語モデル(LM)とその拡張である視覚言語モデル(VLM)は、様々なタスクで顕著なパフォーマンスを実現している。彼らはまだ、マルチモーダルまたはマルチリンガルな実世界の知識を必要とする複雑な推論タスクに苦慮している。本稿では,マルチモーダルおよび多言語知識を表現するために,連続記憶(continuous memory)という高密度埋め込みのコンパクトな集合を提案する。我々のアプローチであるCoMEMは、VLMの本来の能力を利用して、任意のマルチモーダルおよび多言語知識をたった8つの連続的な埋め込みにエンコードする。
論文参考訳（メタデータ） (2025-05-23T09:36:53Z)
Temporal Working Memory: Query-Guided Segment Refinement for Enhanced Multimodal Understanding [28.635761403266496]
MFMの時間的モデリング能力を高めることを目的とした、特別な認知モジュールである時間的ワーキングメモリ(TWM)を導入する。 TWMは時間次元にまたがるタスク関連情報を選択的に保持し、ビデオおよびオーディオコンテンツの処理を通して重要な詳細が保存されることを保証する。我々のTWMでは、9つの最先端モデルが、ビデオキャプション、質問応答、ビデオテキスト検索といったタスクにおいて、大幅なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2025-02-09T20:26:30Z)
LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory [68.97819665784442]
チャットアシスタントの5つのコアメモリ能力を評価するためのベンチマークであるLongMemEvalを紹介する。 LongMemEvalは、既存の長期記憶システムにとって重要な課題である。本稿では,長期記憶設計をインデックス化,検索,読解の3段階に分割する統合フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-14T17:59:44Z)
Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。マルチグラニュラリティコントラストクロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文参考訳（メタデータ） (2024-10-12T06:21:58Z)
The Compressor-Retriever Architecture for Language Model OS [20.56093501980724]
オペレーティングシステム(OS)のコアコンポーネントとして言語モデルを用いるという概念について検討する。このようなLM OSを実現する上で重要な課題は、寿命の長いコンテキストを管理し、セッション間のステートフルネスを確保することだ。本稿では,生涯のコンテキスト管理のために設計されたモデル非依存アーキテクチャであるコンプレッサー・レトリバーを紹介する。
論文参考訳（メタデータ） (2024-09-02T23:28:15Z)
HERMES: temporal-coHERent long-forM understanding with Episodes and Semantics [32.117677036812836]
HERMESは、エピソードメモリ蓄積をシミュレートしてアクションシーケンスをキャプチャするモデルである。エピソード・コムプレッサーは、ミクロからセミマクロレベルまでの重要な表現を効率的に集約する。 Semantic ReTRieverは、関連するマクロレベルの情報を保持しながら、特徴次元を劇的に削減する。
論文参考訳（メタデータ） (2024-08-30T17:52:55Z)
MeMSVD: Long-Range Temporal Structure Capturing Using Incremental SVD [27.472705540825316]
本論文は、長時間の時間窓上での人間の行動を認識すること(最大数分)を目標とする長期映像理解について述べる。本稿では,Singular Value Decomposition を用いて取得したメモリの低ランク近似に基づくアテンションベースのスキームの代替を提案する。提案手法には2つの利点がある: (a) 複雑度を1桁以上削減し, (b) メモリベース計算の効率的な実装が可能である。
論文参考訳（メタデータ） (2024-06-11T12:03:57Z)
Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。 LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文参考訳（メタデータ） (2024-06-09T21:58:32Z)
Evaluating Very Long-Term Conversational Memory of LLM Agents [95.84027826745609]
我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。我々は、各エージェントに画像の共有と反応の能力を持たせる。生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
論文参考訳（メタデータ） (2024-02-27T18:42:31Z)
RecallM: An Adaptable Memory Mechanism with Temporal Understanding for Large Language Models [3.9770715318303353]
RecallMは、適応可能で拡張可能な長期記憶機構を備えた大規模言語モデルを提供するための新しいアーキテクチャである。 RecallM は,長期記憶に格納された知識を更新するためのベクトルデータベースよりも 4 倍有効であることを示す。また、RecallMは、一般的な質問応答およびコンテキスト内学習タスクにおいて、競合性能を示すことを示した。
論文参考訳（メタデータ） (2023-07-06T02:51:54Z)
Enhancing Large Language Model with Self-Controlled Memory Framework [56.38025154501917]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文参考訳（メタデータ） (2023-04-26T07:25:31Z)
Sequential Recommender via Time-aware Attentive Memory Network [67.26862011527986]
本稿では,注意機構と繰り返し単位を改善するための時間ゲーティング手法を提案する。また,長期と短期の嗜好を統合するマルチホップ・タイムアウェア・アテンテーティブ・メモリ・ネットワークを提案する。提案手法は,候補探索タスクに対してスケーラブルであり,ドット積に基づくTop-Kレコメンデーションのための潜在因数分解の非線形一般化とみなすことができる。
論文参考訳（メタデータ） (2020-05-18T11:29:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。