論文の概要: EBind: a practical approach to space binding
- arxiv url: http://arxiv.org/abs/2511.14229v1
- Date: Tue, 18 Nov 2025 08:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.003471
- Title: EBind: a practical approach to space binding
- Title(参考訳): EBind : 空間結合への実践的アプローチ
- Authors: Jim Broadbent, Felix Cohen, Frederik Hvilshøj, Eric Landau, Eren Sasoglu,
- Abstract要約: 我々は,2つのコアコンポーネント,モダリティ毎の単一エンコーダと高品質なデータに着目し,空間結合を単純化する。
我々は,複数のコントラストモデルの埋め込み空間を結合する簡易で,データ中心で,パラメータ効率のよい EBind を提案する。
- 参考スコア(独自算出の注目度): 2.3732312642586813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We simplify space binding by focusing on two core components, a single encoder per modality and high-quality data; enabling training state-of-the-art models on a single GPU in a few hours as opposed to multiple days. We present EBind, an Easy, data-centric, and parameter-efficient method to Bind the embedding spaces of multiple contrastive models. We demonstrate that a simple 1.8B-parameter image-text-video-audio-3D model can outperform models 4 to 17x the size. The key to achieving this is a carefully curated dataset of three complementary data sources: i) 6.7M fully-automated multimodal quintuples sourced via SOTA retrieval models, ii) 1M diverse, semi-automated triples annotated by humans as negative, partial, or positive matches, and iii) 3.4M pre-existing captioned data items. We use 13 different evaluations to demonstrate the value of each data source. Due to limitations with existing benchmarks, we further introduce the first high-quality, consensus-annotated zero-shot classification benchmark between audio and PCs. In contrast to related work, we will open-source our code, model weights, and datasets.
- Abstract(参考訳): 我々は,2つのコアコンポーネント,モダリティ毎の単一エンコーダと高品質なデータに注目することで,空間バインディングを簡素化する。
我々は,複数のコントラストモデルの埋め込み空間を結合する簡易で,データ中心で,パラメータ効率のよい EBind を提案する。
1.8Bパラメトリック画像-テキスト-ビデオ-オーディオ3Dモデルでは,モデルのサイズが4~17倍であることを示す。
これを達成するための鍵は、3つの補完的なデータソースの慎重にキュレートされたデータセットである。
i)SOTA検索モデルによる全自動マルチモーダルクインタプル6.7M
二 人によって陰性、部分的又は正の一致として注釈付けされた多様で半自動三重奏
三 キャプション付きデータ項目の3.4百万件
私たちは、各データソースの価値を示すために、13の異なる評価を使用します。
既存のベンチマークの限界により、オーディオとPC間で、初めて高品質でコンセンサスに言及されたゼロショット分類ベンチマークを導入する。
関連する作業とは対照的に、コード、モデルの重み付け、データセットをオープンソースにします。
関連論文リスト
- MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm [60.14048367611333]
MonkeyOCRはドキュメント解析のためのビジョン言語モデルである。
SRR(Structure-Recognition-Relation)三重項パラダイムを活用することで、最先端の技術の進歩を図っている。
論文 参考訳(メタデータ) (2025-06-05T16:34:57Z) - MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model [87.71060849866093]
MVGenMasterは3Dプリエントで拡張された多視点拡散モデルであり,NVS(多目的なノベルビュー合成)タスクに対処する。
我々のモデルは、可変参照ビューとカメラポーズで条件付けられた100の新しいビューを生成できる、シンプルで効果的なパイプラインを特徴としている。
スケールアップデータセットを用いてモデルを強化するために,いくつかのトレーニングとモデル修正を提案する。
論文 参考訳(メタデータ) (2024-11-25T07:34:23Z) - UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model [4.443066817473078]
さまざまなアノテーションを持つデータセットを活用するために設計されたマルチヘッドアーキテクチャを特徴とする統一モデルUniTalkerを提案する。
トレーニング安定性の向上とマルチヘッド出力の整合性確保のために,PCA,モデルウォームアップ,ピボットIDの埋め込みという3つのトレーニング戦略を採用した。
単一の訓練されたUniTalkerモデルでは、BIWIデータセットでは9.2%、Vocasetでは13.7%の実質的なリップ頂点エラー削減を実現している。
論文 参考訳(メタデータ) (2024-08-01T17:59:27Z) - LRM: Large Reconstruction Model for Single Image to 3D [61.47357798633123]
本稿では,1つの入力画像からオブジェクトの3次元モデルを5秒以内で予測する最初のLarge Restruction Model (LRM)を提案する。
LRMは5億の学習可能なパラメータを持つ高度にスケーラブルなトランスフォーマーベースのアーキテクチャを採用し、入力画像からニューラル放射場(NeRF)を直接予測する。
約100万のオブジェクトを含む巨大なマルチビューデータに基づいて、エンド・ツー・エンドでモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-08T00:03:52Z) - Foundation Model is Efficient Multimodal Multitask Model Selector [47.017463595702274]
ブルートフォースアプローチは、すべてのターゲットデータセット上のすべてのモデルを微調整し、高い計算コストをもたらす。
マルチタスクモデルセレクタ(EMMS)を提案し,多様なラベル形式を統一的な雑音ラベル埋め込みに変換する。
EMMSは、事前訓練されたモデルの転送可能性を評価するのに十分な高速で効果的で汎用的であり、マルチタスクシナリオにおける最初のモデル選択方法である。
論文 参考訳(メタデータ) (2023-08-11T17:54:44Z) - M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object
Detection with Transformers [78.48081972698888]
M3DeTRは、マルチスケールのフィーチャーピラミッドに基づいて、異なるポイントクラウド表現と異なる機能スケールを組み合わせたものです。
M3DeTRは、複数のポイントクラウド表現、機能スケール、およびトランスを使用してポイントクラウド間の相互関係を同時にモデル化する最初のアプローチです。
論文 参考訳(メタデータ) (2021-04-24T06:48:23Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。