Fugu-MT 論文翻訳(概要): Tree-Structured Policy based Progressive Reinforcement Learning for Temporally Language Grounding in Video

論文の概要: Tree-Structured Policy based Progressive Reinforcement Learning for Temporally Language Grounding in Video

arxiv url: http://arxiv.org/abs/2001.06680v1
Date: Sat, 18 Jan 2020 15:08:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-10 05:21:58.366845
Title: Tree-Structured Policy based Progressive Reinforcement Learning for Temporally Language Grounding in Video
Title（参考訳）: 木構造政策に基づく時間的言語接地のためのプログレッシブ強化学習
Authors: Jie Wu, Guanbin Li, Si Liu, Liang Lin
Abstract要約: 非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
参考スコア（独自算出の注目度）: 128.08590291947544
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Temporally language grounding in untrimmed videos is a newly-raised task in video understanding. Most of the existing methods suffer from inferior efficiency, lacking interpretability, and deviating from the human perception mechanism. Inspired by human's coarse-to-fine decision-making paradigm, we formulate a novel Tree-Structured Policy based Progressive Reinforcement Learning (TSP-PRL) framework to sequentially regulate the temporal boundary by an iterative refinement process. The semantic concepts are explicitly represented as the branches in the policy, which contributes to efficiently decomposing complex policies into an interpretable primitive action. Progressive reinforcement learning provides correct credit assignment via two task-oriented rewards that encourage mutual promotion within the tree-structured policy. We extensively evaluate TSP-PRL on the Charades-STA and ActivityNet datasets, and experimental results show that TSP-PRL achieves competitive performance over existing state-of-the-art methods.
Abstract（参考訳）: 非トリミングビデオの時間的言語基盤化は、ビデオ理解の新たな課題である。既存の手法のほとんどは効率が悪く、解釈性に欠け、人間の知覚メカニズムから逸脱している。ヒトの粗大な意思決定パラダイムにインスパイアされた新しい木構造政策に基づくプログレッシブ強化学習(TSP-PRL)フレームワークを定式化し、反復的洗練プロセスにより時間境界を逐次制御する。セマンティクスの概念はポリシーのブランチとして明示的に表現され、複雑なポリシーを解釈可能なプリミティブアクションに効率的に分解するのに役立つ。プログレッシブ強化学習は2つのタスク指向の報酬を通じて正しい信用割当を提供し、木構造政策における相互の促進を促進する。本稿では,Charades-STAおよびActivityNetデータセット上でTSP-PRLを広範囲に評価し,既存の最先端手法と比較してTSP-PRLが競合性能を発揮することを示す実験結果を得た。

関連論文リスト

AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。 AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文参考訳（メタデータ） (2025-08-04T07:47:38Z)
BASIL: Best-Action Symbolic Interpretable Learning for Evolving Compact RL Policies [0.0]
BASIL(Best-Action Symbolic Interpretable Learning)は、シンボリックなルールベースのポリシーを生成するための体系的なアプローチである。本稿では,象徴的表現性,進化的多様性,オンライン学習を組み合わせた新しい解釈可能なポリシー合成手法を提案する。
論文参考訳（メタデータ） (2025-05-31T00:47:24Z)
Policy Learning with a Natural Language Action Space: A Causal Approach [24.096991077437146]
本稿では,自然言語行動空間における多段階意思決定のための新たな因果的枠組みを提案する。本手法では,1つのモデルを用いて動的処理規則(DTR)を推定するためにQラーニングを用いる。このアプローチの重要な技術的貢献は、最適化された埋め込みをコヒーレントな自然言語に変換するデコード戦略です。
論文参考訳（メタデータ） (2025-02-24T17:26:07Z)
Multi-Agent Transfer Learning via Temporal Contrastive Learning [8.487274986507922]
本稿では,深層多エージェント強化学習のための新しい伝達学習フレームワークを提案する。このアプローチは、ゴール条件付きポリシーと時間的コントラスト学習を自動的に組み合わせて、意味のあるサブゴールを発見する。
論文参考訳（メタデータ） (2024-06-03T14:42:14Z)
Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文参考訳（メタデータ） (2024-03-18T04:30:31Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Time-Efficient Reinforcement Learning with Stochastic Stateful Policies [20.545058017790428]
我々は,ステートフルな政策を,後者をグラデーションな内部状態カーネルとステートレスなポリシーに分解して訓練するための新しいアプローチを提案する。我々は、ステートフルなポリシー勾配定理の異なるバージョンを導入し、一般的な強化学習アルゴリズムのステートフルな変種を簡単にインスタンス化できるようにする。
論文参考訳（メタデータ） (2023-11-07T15:48:07Z)
SCD-Net: Spatiotemporal Clues Disentanglement Network for Self-supervised Skeleton-based Action Recognition [39.99711066167837]
本稿では、SCD-Net(Stemporal Clues Disentanglement Network)という、対照的な学習フレームワークを紹介する。具体的には,これらのシーケンスを特徴抽出器と統合し,空間領域と時間領域からそれぞれ明確な手がかりを導出する。我々は,NTU-+D (60&120) PKU-MMDI (&I) データセットの評価を行い,行動認識,行動検索,伝達学習などの下流タスクを網羅した。
論文参考訳（メタデータ） (2023-09-11T21:32:13Z)
Option-Aware Adversarial Inverse Reinforcement Learning for Robotic Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。逆逆強化学習に基づく新しいHILアルゴリズムを開発した。また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-05T00:28:26Z)
A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。 D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文参考訳（メタデータ） (2022-02-19T20:22:04Z)
Constructing a Good Behavior Basis for Transfer using Generalized Policy Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文参考訳（メタデータ） (2021-12-30T12:20:46Z)
Continuous Action Reinforcement Learning from a Mixture of Interpretable Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文参考訳（メタデータ） (2020-06-10T16:02:08Z)
Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文参考訳（メタデータ） (2019-12-29T08:57:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。