論文の概要: AuroraLong: Bringing RNNs Back to Efficient Open-Ended Video Understanding
- arxiv url: http://arxiv.org/abs/2507.02591v1
- Date: Thu, 03 Jul 2025 12:55:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.284254
- Title: AuroraLong: Bringing RNNs Back to Efficient Open-Ended Video Understanding
- Title(参考訳): AuroraLong:RNNを効率的なオープンエンディングビデオ理解に戻す
- Authors: Weili Xu, Enxin Song, Wenhao Chai, Xuexiang Wen, Tian Ye, Gaoang Wang,
- Abstract要約: 本稿では,任意の長さの入力シーケンスを一定サイズの隠れ状態で処理する線形RNN言語モデルを提案する。
我々は、線形RNNベースのLLMバックボーンをLLaVAライクなモデルでオープンエンドビデオ理解に初めて使用しました。
- 参考スコア(独自算出の注目度): 11.962983827236862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The challenge of long video understanding lies in its high computational complexity and prohibitive memory cost, since the memory and computation required by transformer-based LLMs scale quadratically with input sequence length. We propose AuroraLong to address this challenge by replacing the LLM component in MLLMs with a linear RNN language model that handles input sequence of arbitrary length with constant-size hidden states. To further increase throughput and efficiency, we combine visual token merge with linear RNN models by reordering the visual tokens by their sizes in ascending order. Despite having only 2B parameters and being trained exclusively on public data, AuroraLong achieves performance comparable to Transformer-based models of similar size trained on private datasets across multiple video benchmarks. This demonstrates the potential of efficient, linear RNNs to democratize long video understanding by lowering its computational entry barrier. To our best knowledge, we are the first to use a linear RNN based LLM backbone in a LLaVA-like model for open-ended video understanding.
- Abstract(参考訳): 長いビデオ理解の課題は、トランスフォーマーベースのLLMが要求するメモリと計算が入力シーケンス長と2倍にスケールするため、高い計算複雑性と禁止メモリコストにある。
本研究では,MLLMのLLM成分を任意の長さの入力シーケンスを一定サイズの隠れ状態で処理する線形RNN言語モデルに置き換えることにより,この問題に対処するAuroraLongを提案する。
スループットと効率をさらに向上するために、視覚トークンマージと線形RNNモデルを組み合わせる。
AuroraLongは2Bパラメータしか持たず、公開データのみにトレーニングされているにもかかわらず、複数のビデオベンチマークでプライベートデータセットでトレーニングされた同様のサイズのTransformerベースのモデルに匹敵するパフォーマンスを実現している。
これは、その計算エントリー障壁を低くすることで、長いビデオ理解を民主化するための効率的で線形なRNNの可能性を示す。
我々の知る限り、私たちはLLaVAのようなモデルで線形RNNベースのLLMバックボーンをオープンエンドビデオ理解に初めて使用しました。
関連論文リスト
- pLSTM: parallelizable Linear Source Transition Mark networks [10.620405837091022]
我々は、ソース、トランジション、マークゲートを用いた並列化可能な線形ソース遷移マークネットワーク(pLSTM)を導入する。
pLSTMは、DAGの長距離における2つの異なるモードによる消滅/爆発的アクティベーション/段階的な問題に対処する。
我々は,pLSTMが画像サイズを大きくするのに対して,Transformerは外挿に苦慮していることを示す。
論文 参考訳(メタデータ) (2025-06-13T17:51:37Z) - GL-Fusion: Rethinking the Combination of Graph Neural Network and Large Language model [63.774726052837266]
グラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を深く統合した新しいアーキテクチャを導入する。
本稿では,(1)GNNのメッセージパッシング機能を直接LLMのトランスフォーマー層に組み込む構造対応トランスフォーマー,(2)グラフノードとエッジから圧縮されていない全テキストを処理するグラフテキストクロスアテンション,(3)GNN-LLMツインプレクタ,(3)GNN-LLMツインプレクタ,3)GNNのスケーラブルなワンパス予測とともに,LLMの柔軟な自己回帰生成を実現する。
論文 参考訳(メタデータ) (2024-12-08T05:49:58Z) - Can a Large Language Model Learn Matrix Functions In Context? [3.7478782183628634]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を通じて複雑なタスクを解く能力を実証した。
本稿では,LLMの非線形数値計算能力について検討し,特異値分解関数に着目した。
論文 参考訳(メタデータ) (2024-11-24T00:33:43Z) - LION: Linear Group RNN for 3D Object Detection in Point Clouds [85.97541374148508]
本稿では,LInear grOup RNN上に構築されたウィンドウベースフレームワークを提案する。
3次元空間特徴記述器を導入し,それを線形群 RNN 演算子に統合して空間特徴を増強する。
高分散点雲の課題にさらに対処するため,前景の特徴を密度化するための3次元ボクセル生成戦略を提案する。
論文 参考訳(メタデータ) (2024-07-25T17:50:32Z) - Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-22T19:45:01Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Advancing Regular Language Reasoning in Linear Recurrent Neural Networks [56.11830645258106]
本稿では,リニアリカレントニューラルネットワーク(LRNN)がトレーニングシーケンスに隠された規則を学習できるかを検討する。
ブロック対角および入力依存遷移行列を備えた新しいLRNNを提案する。
実験結果から,提案モデルが正規言語タスクに対して長さ外挿を行うことができる唯一のLRNNであることが示唆された。
論文 参考訳(メタデータ) (2023-09-14T03:36:01Z) - Distance and Equivalence between Finite State Machines and Recurrent
Neural Networks: Computational results [0.348097307252416]
訓練されたRNN言語モデルから有限状態マシンベースモデルを抽出する問題に関するいくつかの結果を示す。
我々の3-SATによる削減技術は、後者の事実を他のRNNアーキテクチャに容易に一般化できるようにする。
論文 参考訳(メタデータ) (2020-04-01T14:48:59Z) - The Power of Linear Recurrent Neural Networks [1.124958340749622]
自己回帰線形,すなわち線形活性化リカレントニューラルネットワーク(LRNN)が,任意の時間依存関数f(t)を近似できることを示す。
LRNNは、最小限のユニット数でMSOタスクのこれまでの最先端を上回ります。
論文 参考訳(メタデータ) (2018-02-09T15:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。