論文の概要: Disentanglement Beyond Static vs. Dynamic: A Benchmark and Evaluation Framework for Multi-Factor Sequential Representations
- arxiv url: http://arxiv.org/abs/2510.17313v2
- Date: Tue, 21 Oct 2025 18:12:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.03195
- Title: Disentanglement Beyond Static vs. Dynamic: A Benchmark and Evaluation Framework for Multi-Factor Sequential Representations
- Title(参考訳): 静的と動的を超越した絡み合い:多要素シーケンス表現のためのベンチマークと評価フレームワーク
- Authors: Tal Barami, Nimrod Berman, Ilan Naiman, Amos H. Hason, Rotem Ezra, Omri Azencot,
- Abstract要約: 6つの異なるデータセット間での複数要素の逐次的絡み合いを評価するための、最初の標準ベンチマークを導入する。
本研究では,潜伏次元を意味的因子と自動的に整列するポストホック潜伏探索段階を提案し,最先端の結果が得られるクープマンモデルを提案する。
- 参考スコア(独自算出の注目度): 14.972702558607557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning disentangled representations in sequential data is a key goal in deep learning, with broad applications in vision, audio, and time series. While real-world data involves multiple interacting semantic factors over time, prior work has mostly focused on simpler two-factor static and dynamic settings, primarily because such settings make data collection easier, thereby overlooking the inherently multi-factor nature of real-world data. We introduce the first standardized benchmark for evaluating multi-factor sequential disentanglement across six diverse datasets spanning video, audio, and time series. Our benchmark includes modular tools for dataset integration, model development, and evaluation metrics tailored to multi-factor analysis. We additionally propose a post-hoc Latent Exploration Stage to automatically align latent dimensions with semantic factors, and introduce a Koopman-inspired model that achieves state-of-the-art results. Moreover, we show that Vision-Language Models can automate dataset annotation and serve as zero-shot disentanglement evaluators, removing the need for manual labels and human intervention. Together, these contributions provide a robust and scalable foundation for advancing multi-factor sequential disentanglement.
- Abstract(参考訳): シーケンシャルデータにおける不整合表現の学習は、視覚、オーディオ、時系列など幅広い分野において、ディープラーニングの重要な目標である。
実際のデータには時間とともに複数の相互作用するセマンティックファクタが含まれるが、以前の作業は主に2要素の静的および動的設定に重点を置いている。
本稿では,ビデオ,音声,時系列にまたがる6つの多様なデータセット間の複数要素の連続的絡み合いを評価するための,最初の標準ベンチマークを紹介する。
私たちのベンチマークには、データセット統合、モデル開発、多要素分析に適した評価指標のためのモジュラーツールが含まれています。
さらに,潜伏次元を意味的要因と自動的に整列するポストホック潜伏探索段階を提案し,最先端の結果が得られるクープマンモデルを提案する。
さらに、Vision-Language Modelsはデータセットのアノテーションを自動化し、ゼロショットディスタングル評価器として機能し、手動ラベルや人間の介入の必要性を排除できることを示す。
これらのコントリビューションは、多要素のシーケンシャルな絡み合いを進めるための堅牢でスケーラブルな基盤を提供する。
関連論文リスト
- Toward Purpose-oriented Topic Model Evaluation enabled by Large Language Models [0.8193467416247519]
トピック品質の4つの重要な側面にまたがる9つのLarge Language Models(LLM)ベースのメトリクスを利用する目的指向評価フレームワークを導入する。
このフレームワークは、敵対的およびサンプリングベースのプロトコルを通じて検証され、ニュース記事、学術出版物、ソーシャルメディア投稿にまたがるデータセットに適用される。
論文 参考訳(メタデータ) (2025-09-08T18:46:08Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - RemoteSAM: Towards Segment Anything for Earth Observation [29.707796048411705]
我々は、地球観測のための頑健でフレキシブルな視覚基盤モデルを開発することを目指している。
多様な視覚的目標を認識し、位置を特定する能力を持つべきである。
いくつかの地球観測知覚ベンチマークで新しいSoTAを確立する基盤モデルであるRemoteSAMを提案する。
論文 参考訳(メタデータ) (2025-05-23T15:27:57Z) - EBES: Easy Benchmarking for Event Sequences [17.277513178760348]
イベントシーケンス(英: Event Sequences、EvS)とは、不規則なサンプリング間隔と分類的特徴と数値的特徴の混合を特徴とするシーケンシャルデータである。
EBESは、シーケンスレベルのターゲットを持つEvS分類のための包括的なベンチマークである。
9つのモダンモデルを実装したオープンソースのPyTorchライブラリとともに、標準化された評価シナリオとプロトコルを備えている。
論文 参考訳(メタデータ) (2024-10-04T13:03:43Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - The Multimodal Sentiment Analysis in Car Reviews (MuSe-CaR) Dataset:
Collection, Insights and Improvements [14.707930573950787]
この種のマルチモーダルデータセットの1つである MuSe-CaR について述べる。
このデータは、最近第1回マルチモーダルセンチメント分析チャレンジのテストベッドとして公開された。
論文 参考訳(メタデータ) (2021-01-15T10:40:37Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。