論文の概要: TVWorld: Foundations for Remote-Control TV Agents
- arxiv url: http://arxiv.org/abs/2601.13142v1
- Date: Mon, 19 Jan 2026 15:24:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.950587
- Title: TVWorld: Foundations for Remote-Control TV Agents
- Title(参考訳): TVWorld:遠隔会議型テレビエージェントの基礎
- Authors: Zhantao Ma, Quanfeng Lu, Shuai Zhong, Dahai Yu, Ping Luo, Michael K. Ng,
- Abstract要約: 我々は,リアルタイムTVナビゲーションのオフライングラフに基づく抽象化であるtextbfTVWorldを紹介した。
テレビ使用能力を総合的に評価する2つのベンチマークを導出する。
本稿では,LVLMにトポロジ認識を注入するEmphTopology-Aware Trainingフレームワークを提案する。
TVTheseusは、TVWorld-Nで68.3%の成功を収め、強力なクローズドソースベースラインを超えた。
- 参考スコア(独自算出の注目度): 38.32220666056975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large vision-language models (LVLMs) have demonstrated strong potential for device control. However, existing research has primarily focused on point-and-click (PnC) interaction, while remote-control (RC) interaction commonly encountered in everyday TV usage remains largely underexplored. To fill this gap, we introduce \textbf{TVWorld}, an offline graph-based abstraction of real-world TV navigation that enables reproducible and deployment-free evaluation. On this basis, we derive two complementary benchmarks that comprehensively assess TV-use capabilities: \textbf{TVWorld-N} for topology-aware navigation and \textbf{TVWorld-G} for focus-aware grounding. These benchmarks expose a key limitation of existing agents: insufficient topology awareness for focus-based, long-horizon TV navigation. Motivated by this finding, we propose a \emph{Topology-Aware Training} framework that injects topology awareness into LVLMs. Using this framework, we develop \textbf{TVTheseus}, a foundation model specialized for TV navigation. TVTheseus achieves a success rate of $68.3\%$ on TVWorld-N, surpassing strong closed-source baselines such as Gemini 3 Flash and establishing state-of-the-art (SOTA) performance. Additional analyses further provide valuable insights into the development of effective TV-use agents.
- Abstract(参考訳): 近年の大規模視覚言語モデル (LVLM) はデバイス制御に強い可能性を示している。
しかし、既存の研究は主にポイント・アンド・クリック(PnC)のインタラクションに焦点を当てているが、日常テレビでよく見られる遠隔操作(RC)のインタラクションは、まだほとんど探索されていない。
このギャップを埋めるために、実世界のテレビナビゲーションのオフライングラフに基づく抽象化である \textbf{TVWorld} を導入する。
そこで本研究では、トポロジ対応ナビゲーション用 \textbf{TVWorld-N} とフォーカス対応グラウンドティング用 \textbf{TVWorld-G} の2つの相補的ベンチマークを導出した。
これらのベンチマークは、既存のエージェントの重要な制限を明らかにしている。
そこで本研究では,LVLM にトポロジ認識を注入する 'emph{Topology-Aware Training} フレームワークを提案する。
このフレームワークを用いて,テレビナビゲーションに特化した基礎モデルである「textbf{TVTheseus}」を開発した。
TVTheseusは、Gemini 3 Flashのような強力なクローズドソースベースラインを超え、最先端(SOTA)のパフォーマンスを確立することで、TVWorld-Nで68.3\%の成功率を達成した。
さらなる分析により、効果的なテレビ用エージェントの開発に関する貴重な洞察が得られた。
関連論文リスト
- Spatial-VLN: Zero-Shot Vision-and-Language Navigation With Explicit Spatial Perception and Exploration [16.651645602449577]
大規模言語モデル(LLM)を利用した視覚・言語ナビゲーション(VLN)エージェントは、一般化が優れているが、空間認識が不十分である。
本稿では,これらの課題を克服するための知覚誘導探索フレームワークであるSpatial-VLNを提案する。
論文 参考訳(メタデータ) (2026-01-19T06:53:02Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation [23.72290930234063]
NaVidは、ヴィジュアル・アンド・ランゲージナビゲーションのためのビデオベースの大型視覚言語モデル(VLM)である。
NaVidはシミュレーション環境と現実世界で最先端のパフォーマンスを実現し、優れたクロスデータセットとSim2Real転送を実現している。
論文 参考訳(メタデータ) (2024-02-24T16:39:16Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。