Fugu-MT 論文翻訳(概要): ELLMPEG: An Edge-based Agentic LLM Video Processing Tool

論文の概要: ELLMPEG: An Edge-based Agentic LLM Video Processing Tool

arxiv url: http://arxiv.org/abs/2602.00028v1
Date: Sat, 17 Jan 2026 14:51:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 02:03:42.225837
Title: ELLMPEG: An Edge-based Agentic LLM Video Processing Tool
Title（参考訳）: ELLMPEG:エッジベースのエージェントLDMビデオ処理ツール
Authors: Zoha Azimi, Reza Farahani, Radu Prodan, Christian Timmerer,
Abstract要約: 大規模言語モデル(LLM)は、ChatGPTのような生成AIシステムの基盤である。最近のエージェントAIの進歩は、オープンでローカルにデプロイされたツールやLLMを利用するより良い方法を提供する。本稿では,映像処理コマンドの自動生成のためのエッジ対応エージェント LLM フレームワーク ELL を提案する。
参考スコア（独自算出の注目度）: 8.024869491175561
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs), the foundation of generative AI systems like ChatGPT, are transforming many fields and applications, including multimedia, enabling more advanced content generation, analysis, and interaction. However, cloud-based LLM deployments face three key limitations: high computational and energy demands, privacy and reliability risks from remote processing, and recurring API costs. Recent advances in agentic AI, especially in structured reasoning and tool use, offer a better way to exploit open and locally deployed tools and LLMs. This paper presents ELLMPEG, an edge-enabled agentic LLM framework for the automated generation of video-processing commands. ELLMPEG integrates tool-aware Retrieval-Augmented Generation (RAG) with iterative self-reflection to produce and locally verify executable FFmpeg and VVenC commands directly at the edge, eliminating reliance on external cloud APIs. To evaluate ELLMPEG, we collect a dedicated prompt dataset comprising 480 diverse queries covering different categories of FFmpeg and the Versatile Video Codec (VVC) encoder (VVenC) commands. We validate command generation accuracy and evaluate four open-source LLMs based on command validity, tokens generated per second, inference time, and energy efficiency. We also execute the generated commands to assess their runtime correctness and practical applicability. Experimental results show that Qwen2.5, when augmented with the ELLMPEG framework, achieves an average command-generation accuracy of 78 % with zero recurring API cost, outperforming all other open-source models across both the FFmpeg and VVenC datasets.
Abstract（参考訳）: ChatGPTのような生成AIシステムの基盤である大規模言語モデル(LLM)は、マルチメディアを含む多くの分野やアプリケーションを変え、より高度なコンテンツ生成、分析、インタラクションを可能にしている。しかし、クラウドベースのLLMデプロイメントには、高い計算とエネルギー要求、リモート処理によるプライバシと信頼性リスク、繰り返し発生するAPIコストの3つの大きな制限がある。エージェントAIの最近の進歩、特に構造化推論とツールの使用は、オープンでローカルにデプロイされたツールやLLMを活用するためのより良い方法を提供する。本稿では,映像処理コマンドの自動生成のためのエッジ対応エージェントLLMフレームワークであるELLMPEGを提案する。 ELLMPEGはツール対応のRetrieval-Augmented Generation(RAG)と反復的な自己回帰を統合して,実行可能FFmpegとVVenCコマンドを直接エッジでローカルに検証することで,外部クラウドAPIへの依存を排除している。 ELMPEGを評価するために,FFmpeg と Versatile Video Codec (VVC) encoder (VVenC) コマンドの異なるカテゴリをカバーする480種類のクエリからなる専用プロンプトデータセットを収集した。コマンド生成精度を検証し,命令妥当性,秒単位のトークン生成,推論時間,エネルギー効率に基づいて4つのオープンソースLCMを評価する。また、生成したコマンドを実行し、実行時の正確さと実用性を評価します。実験の結果, ELMPEGフレームワークで拡張した場合, Qwen2.5は平均コマンド生成精度78 %をAPIコストゼロで達成し, FFmpegとVVenCの両方のデータセットで他のすべてのオープンソースモデルを上回る結果となった。

関連論文リスト

CoPE-VideoLM: Codec Primitives For Efficient Video Language Models [56.76440182038839]
ビデオ言語モデル(Video Language Models, ビデオ言語モデル)は、ビデオの時間的ダイナミクスを理解するためのAIシステムである。現在の方法では、マクロレベルのイベントとマイクロレベルの詳細の両方を見逃すことができるサンプリングを使用する。多くのフレームに対して高価なフルイメージエンコーディングを必要とせず、ビデオ冗長性と疎結合性を符号化するビデオプリミティブを活用することを提案する。
論文参考訳（メタデータ） (2026-02-13T18:57:31Z)
Towards Effective and Efficient Long Video Understanding of Multimodal Large Language Models via One-shot Clip Retrieval [57.88666884515147]
ワンショットビデオクリップに基づく検索オーグメンテーション(OneClip-RAG)を提案する。 OneClip-RAGは、ビデオ理解のためのビデオクリップの利点をフル活用している。また、新しいクエリ誘導ビデオチャンキングアルゴリズムも備えている。
論文参考訳（メタデータ） (2025-12-09T09:40:20Z)
AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文参考訳（メタデータ） (2025-06-16T15:18:15Z)
VideoAgent2: Enhancing the LLM-Based Agent System for Long-Form Video Understanding by Uncertainty-Aware CoT [31.413204839972984]
本稿では,長時間のビデオ解析に適した特別なチェーン・オブ・シント(CoT)プロセスを提案する。我々の不確実性を認識したCoTは、外部ツールからのノイズを効果的に軽減し、より信頼性の高い出力を生み出します。我々は、一般的なコンテキスト取得や特殊なツール設計などの追加モジュールを含むVideoAgent2というシステムで、我々のアプローチを実装している。
論文参考訳（メタデータ） (2025-04-06T13:03:34Z)
Breaking the Encoder Barrier for Seamless Video-Language Understanding [22.749949819082484]
視覚エンコーダに依存しないニュアンス付きビデオ言語インタラクションを直接モデル化するエンコーダフリーLLMであるELVAを提案する。公開されているビデオテキストペアはわずか700万で、ELVAはエンコーダベースのVideo-LLMと同等のパフォーマンスを実現し、FLOPを最大95%削減し、推論遅延を92%削減した。
論文参考訳（メタデータ） (2025-03-24T08:06:39Z)
STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
LAVENDER: Unifying Video-Language Understanding as Masked Language Modeling [102.42424022921243]
Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
論文参考訳（メタデータ） (2022-06-14T20:43:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。