論文の概要: Beyond Static Perception: Integrating Temporal Context into VLMs for Cloth Folding
- arxiv url: http://arxiv.org/abs/2505.07600v1
- Date: Mon, 12 May 2025 14:24:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.425109
- Title: Beyond Static Perception: Integrating Temporal Context into VLMs for Cloth Folding
- Title(参考訳): 静的知覚を超えて:衣服の折り畳みのための時間コンテキストをVLMに統合する
- Authors: Oriol Barbany, Adrià Colomé, Carme Torras,
- Abstract要約: BiFoldは、視覚的な観察から言語条件のピック・アンド・プレイス・アクションを予測するモデルである。
本稿では,その微調整と時間的コンテキストがテキストと画像領域の効果的なアライメントを可能にすることを示す。
- 参考スコア(独自算出の注目度): 6.0914269533287175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manipulating clothes is challenging due to their complex dynamics, high deformability, and frequent self-occlusions. Garments exhibit a nearly infinite number of configurations, making explicit state representations difficult to define. In this paper, we analyze BiFold, a model that predicts language-conditioned pick-and-place actions from visual observations, while implicitly encoding garment state through end-to-end learning. To address scenarios such as crumpled garments or recovery from failed manipulations, BiFold leverages temporal context to improve state estimation. We examine the internal representations of the model and present evidence that its fine-tuning and temporal context enable effective alignment between text and image regions, as well as temporal consistency.
- Abstract(参考訳): 衣料品の操作は、複雑なダイナミクス、高い変形性、頻繁な自己閉塞性のために困難である。
ガーメントは、ほぼ無限個の構成を示し、明示的な状態表現を定義するのが困難である。
本稿では,視覚的観察から言語条件付きピック・アンド・プレイス動作を予測するモデルであるBiFoldを,エンド・ツー・エンド・ラーニングによる衣服の状態の暗黙的に符号化する。
クランプされた衣服や操作失敗からの回復といったシナリオに対処するために、BiFoldは時間的コンテキストを活用して状態推定を改善する。
モデルの内部表現について検討し、その微調整と時間的文脈がテキストと画像領域の効果的なアライメントと時間的一貫性を実現することを示す。
関連論文リスト
- SVLTA: Benchmarking Vision-Language Temporal Alignment via Synthetic Video Situation [33.02002580363215]
視覚言語による時間的アライメントは、現実世界のシナリオにおける人間の動的な認識と認識にとって重要な能力である。
シミュレーション環境において,よく設計され,実現可能な制御生成手法によって導出されたSVLTA(Synthetic Vision-Language Temporal Alignment)を紹介する。
本実験では, 時間的質問応答, 分布的シフト感度, 時間的アライメント適応の評価を通じて, 診断上の知見を明らかにする。
論文 参考訳(メタデータ) (2025-04-08T11:31:37Z) - Counterfactual-Consistency Prompting for Relative Temporal Understanding in Large Language Models [24.586475741345616]
本稿では, 大規模言語モデル(LLM)における時間的不整合の問題に対処し, 新たな対実的プロンプト手法を提案する。
提案手法は, 対実的な質問を生成し, 集合的制約を強制し, モデルの一貫性を高める。
提案手法を複数のデータセット上で評価し、明示的で暗黙的なイベントのイベント順序付けと時間的コモンセンス理解の大幅な改善を実証した。
論文 参考訳(メタデータ) (2025-02-17T04:37:07Z) - Sequential Representation Learning via Static-Dynamic Conditional Disentanglement [58.19137637859017]
本稿では,ビデオ中の時間非依存要因と時間変化要因を分離することに着目し,逐次的データ内での自己教師付き不整合表現学習について検討する。
本稿では,静的/動的変数間の因果関係を明示的に考慮し,それらの因子間の通常の独立性仮定を破る新しいモデルを提案する。
実験により、提案手法は、シーンのダイナミックスが内容に影響されるシナリオにおいて、従来の複雑な最先端技術よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-08-10T17:04:39Z) - On the Consistency and Robustness of Saliency Explanations for Time
Series Classification [4.062872727927056]
時系列ウィンドウを画像として解釈するために、サリエンシマップが適用されている。
本稿では,時系列の特徴と時間的属性に対するサリエンシマップの一貫性とロバスト性について広く分析する。
論文 参考訳(メタデータ) (2023-09-04T09:08:22Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Generating Coherent Narratives by Learning Dynamic and Discrete Entity
States with a Contrastive Framework [68.1678127433077]
我々はトランスフォーマーモデルを拡張して,物語生成のためのエンティティ状態更新と文実現を動的に行う。
2つのナラティブデータセットの実験により、我々のモデルは強いベースラインよりも一貫性があり多様なナラティブを生成できることが示された。
論文 参考訳(メタデータ) (2022-08-08T09:02:19Z) - Video Activity Localisation with Uncertainties in Temporal Boundary [74.7263952414899]
時間とともにビデオ活動のローカライゼーションを行う方法は、時間的境界が決定され正確であると暗黙的に仮定する。
無記述の自然ビデオでは、異なるアクティビティがスムーズに移動するため、アクティビティの開始と終了が時間とともに正確にラベル付けされることは本質的に曖昧である。
フレキシブルかつ適応的な活動時間境界に対応するための弾性モーメントバウンディング(EMB)を導入する。
論文 参考訳(メタデータ) (2022-06-26T16:45:56Z) - Interpretable Time-series Representation Learning With Multi-Level
Disentanglement [56.38489708031278]
Disentangle Time Series (DTS)は、シーケンシャルデータのための新しいDisentanglement Enhanceingフレームワークである。
DTSは時系列の解釈可能な表現として階層的意味概念を生成する。
DTSは、セマンティック概念の解釈性が高く、下流アプリケーションで優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-05-17T22:02:24Z) - Unsupervised Video Decomposition using Spatio-temporal Iterative
Inference [31.97227651679233]
マルチオブジェクトシーンの分解は、学習において急速に進化する問題である。
色情報のないモデルでも精度が高いことを示す。
本稿では, モデルの分解, セグメント化予測能力を実証し, いくつかのベンチマークデータセットにおいて, 最先端のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-25T22:57:17Z) - Temporal Embeddings and Transformer Models for Narrative Text
Understanding [72.88083067388155]
キャラクタ関係モデリングのための物語テキスト理解のための2つのアプローチを提案する。
これらの関係の時間的進化は動的単語埋め込みによって説明され、時間とともに意味的変化を学ぶように設計されている。
最新の変換器モデルBERTに基づく教師付き学習手法を用いて文字間の静的な関係を検出する。
論文 参考訳(メタデータ) (2020-03-19T14:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。