Fugu-MT 論文翻訳(概要): On the Opportunities and Challenges of using Animals Videos in Reinforcement Learning

関連論文リスト

VideoCuRL: Video Curriculum Reinforcement Learning with Orthogonal Difficulty Decomposition [18.449209218204782]
強化学習(RL)は、複雑なスカラー推論を備えたビデオLLMの強化である。 VideoRLは、難易度を視覚的テンポラルロードと認知推論深さに分解する。大規模な実験の結果、VideoRLは推論のベースラインをはるかに超えている。
論文参考訳（メタデータ） (2025-12-31T09:25:36Z)
Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning [65.86184845073075]
Video-RTSは、データ効率を大幅に改善したビデオ推論機能を改善するための新しいアプローチである。出力ベースの報酬を伴う効率的な純RLトレーニングを採用しており、追加のアノテーションや広範囲の微調整は必要ありません。提案手法を複数のビデオ推論ベンチマークで検証し,既存のビデオ推論モデルに平均2.4%の精度で超えることを示す。
論文参考訳（メタデータ） (2025-07-09T02:06:13Z)
Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文参考訳（メタデータ） (2025-06-02T17:28:26Z)
ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。 ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。 ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文参考訳（メタデータ） (2025-05-21T12:29:40Z)
Video-Enhanced Offline Reinforcement Learning: A Model-Based Approach [55.76249793590689]
Video-Enhanced Offline RL (VeoRL) は、インタラクティブな世界モデルを構築するためのモデルベースの手法である。 VeoRLは、ロボット操作、自律運転、オープンワールドビデオゲームにおける視覚制御タスクにおいて、大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2025-05-10T00:54:12Z)
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。 Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文参考訳（メタデータ） (2025-03-31T17:55:23Z)
ViVa: Video-Trained Value Functions for Guiding Online RL from Diverse Data [56.217490064597506]
広範に利用可能なビデオデータから学習することで、RLを自動的に誘導するデータ駆動手法を提案し、分析する。インテント条件付き値関数を使用して、多様なビデオから学び、これらのゴール条件付き値を報酬に組み込む。実験により、ビデオ学習値関数は、様々なデータソースとうまく機能し、人間のビデオ事前学習からのポジティブな転送を示し、目に見えない目標に一般化し、データセットサイズでスケールできることが示されている。
論文参考訳（メタデータ） (2025-03-23T21:24:33Z)
Memory-enhanced Retrieval Augmentation for Long Video Understanding [57.371543819761555]
我々は,ヒトの認知記憶にインスパイアされた新しいRAGベースのLVUアプローチ,MemVidを紹介した。提案手法は,全体的映像情報の記憶,メモリに基づくタスクの情報要求の推論,情報要求に基づくクリティカルモーメントの検索,最終回答を生成するための検索モーメントの抽出という,4つの基本的なステップで機能する。
論文参考訳（メタデータ） (2025-03-12T08:23:32Z)
Pre-trained Visual Dynamics Representations for Efficient Policy Learning [33.62440075940917]
本稿では,ビデオと下流タスク間の領域ギャップを埋めて効率的なポリシー学習を実現するために,事前学習型ビジュアルダイナミクス表現(PVDR)を提案する。事前訓練された視覚力学表現は、ビデオの知識以前の視覚力学をキャプチャする。この抽象的な事前知識は、ダウンストリームタスクに容易に適応でき、オンライン適応を通じて実行可能なアクションと整合することができる。
論文参考訳（メタデータ） (2024-11-05T15:18:02Z)
An Examination of Offline-Trained Encoders in Vision-Based Deep Reinforcement Learning for Autonomous Driving [0.0]
部分観測可能なマルコフ決定過程(POMDP)における深層強化学習(DRL)の課題に関する研究我々の研究は、オフラインで訓練されたエンコーダを用いて、自己教師付き学習を通じて大規模なビデオデータセットを活用し、一般化可能な表現を学習する。 CARLAシミュレータにおいて,BDD100Kの運転映像から得られた特徴を直接転送することで,車線追従や衝突回避を実現することができることを示す。
論文参考訳（メタデータ） (2024-09-02T14:16:23Z)
Enhancing Reinforcement Learning Through Guided Search [4.111084095218968]
オフラインの政策学習では、潜在的な政策エラーを軽減するための基準ポリシーに近づき続けることが一般的である。異なる環境ではありますが,同じようなコンセプトがパフォーマンス向上に有効かどうか,という疑問が浮かび上がっています。実験はAtari 100kベンチマークで行った。
論文参考訳（メタデータ） (2024-08-19T16:00:02Z)
A Benchmark Environment for Offline Reinforcement Learning in Racing Games [54.83171948184851]
オフライン強化学習(英語: Offline Reinforcement Learning、ORL)は、従来の強化学習(RL)の高サンプリング複雑さを減らすための有望なアプローチである。本稿では,ORL研究のための新しい環境であるOfflineManiaを紹介する。 TrackManiaシリーズにインスパイアされ、Unity 3Dゲームエンジンで開発された。
論文参考訳（メタデータ） (2024-07-12T16:44:03Z)
Diagnosing and exploiting the computational demands of videos games for deep reinforcement learning [13.98405611352641]
本稿では,タスクの知覚的および強化的学習要求を測定するツールであるLearning Challenge Diagnosticator (LCD)を紹介する。我々はLCDを用いて、Procgenベンチマークの新たな課題の分類を発見し、これらの予測が信頼性が高く、アルゴリズム開発を指導できることを示す。
論文参考訳（メタデータ） (2023-09-22T21:03:33Z)
Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。 RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文参考訳（メタデータ） (2023-08-25T15:06:05Z)
Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文参考訳（メタデータ） (2023-05-24T15:45:35Z)
Fantastic Rewards and How to Tame Them: A Case Study on Reward Learning for Task-oriented Dialogue Systems [111.80916118530398]
強化学習(RL)技術は、ユーザ固有の目標を達成するための対話戦略を訓練するために、自然に利用することができる。本稿では,エンド・ツー・エンド(E2E)TODエージェントのトレーニングにおいて,報酬関数を効果的に学習し,活用する方法という疑問に答えることを目的とする。
論文参考訳（メタデータ） (2023-02-20T22:10:04Z)
Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文参考訳（メタデータ） (2022-03-25T19:44:09Z)
Learning to Run with Potential-Based Reward Shaping and Demonstrations from Video Data [70.540936204654]
「走ることを学ぶ」競技は、二本足のヒューマノイドボディを最高速度で模擬レースコースで走るように訓練することであった。すべての提出者は、強化学習(RL)へのタブラララサアプローチを採り入れ、比較的速いが最適な実行動作は得られなかった。本研究では,人間のランニング映像から得られるデータを用いて,ヒューマノイド学習エージェントの報酬を形成できることを示す。
論文参考訳（メタデータ） (2020-12-16T09:46:58Z)
Balancing a CartPole System with Reinforcement Learning -- A Tutorial [5.5701008180812375]
本稿では,Cart-Poleシステムを制御するための各種強化学習(RL)アルゴリズムについて述べる。特に、Q-learning、Deep Q Networks (DQN)、Double DQN、Dueling Network、(優先順位付けされた)経験の再現など、様々なRL概念を説明し、学習性能への影響を示す。
論文参考訳（メタデータ） (2020-06-08T21:14:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: On the Opportunities and Challenges of using Animals Videos in Reinforcement Learning

関連論文リスト