論文の概要: ART: Adaptive Relation Tuning for Generalized Relation Prediction
- arxiv url: http://arxiv.org/abs/2507.23543v1
- Date: Thu, 31 Jul 2025 13:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.823036
- Title: ART: Adaptive Relation Tuning for Generalized Relation Prediction
- Title(参考訳): ART:一般化関係予測のための適応的関係調整
- Authors: Gopika Sudhakaran, Hikaru Shindo, Patrick Schramowski, Simone Schaub-Meyer, Kristian Kersting, Stefan Roth,
- Abstract要約: 視覚的関係検出(VRD)は、シーン内のオブジェクト間の関係を識別するタスクである。
プロンプトチューニングは視覚言語モデル(VLM)をVRDに適用するために使われてきたが、手作りのプロンプトを使用し、新規または複雑な関係に苦戦している。
我々は、多様な命令データに基づいてVLMを微調整することで、命令チューニングがより効果的なソリューションとなることを論じる。
- 参考スコア(独自算出の注目度): 33.15138052099355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual relation detection (VRD) is the task of identifying the relationships between objects in a scene. VRD models trained solely on relation detection data struggle to generalize beyond the relations on which they are trained. While prompt tuning has been used to adapt vision-language models (VLMs) for VRD, it uses handcrafted prompts and struggles with novel or complex relations. We argue that instruction tuning offers a more effective solution by fine-tuning VLMs on diverse instructional data. We thus introduce ART, an Adaptive Relation Tuning framework that adapts VLMs for VRD through instruction tuning and strategic instance selection. By converting VRD datasets into an instruction tuning format and employing an adaptive sampling algorithm, ART directs the VLM to focus on informative relations while maintaining generalizability. Specifically, we focus on the relation classification, where subject-object boxes are given and the model predicts the predicate between them. We tune on a held-in set and evaluate across multiple held-out datasets of varying complexity. Our approach strongly improves over its baselines and can infer unseen relation concepts, a capability absent in mainstream VRD methods. We demonstrate ART's practical value by using the predicted relations for segmenting complex scenes.
- Abstract(参考訳): 視覚的関係検出(VRD)は、シーン内のオブジェクト間の関係を識別するタスクである。
関係検出データのみに基づいてトレーニングされたVRDモデルは、トレーニング対象の関係を超えて一般化するために苦労する。
プロンプトチューニングは視覚言語モデル(VLM)をVRDに適用するために使われてきたが、手作りのプロンプトを使用し、新規または複雑な関係に苦戦している。
我々は、多様な命令データに基づいてVLMを微調整することで、命令チューニングがより効果的なソリューションとなることを論じる。
そこで我々は,命令チューニングと戦略的インスタンス選択により,VRDにVLMを適用する適応型関係調整フレームワークARTを導入する。
VRDデータセットを命令チューニング形式に変換し、適応サンプリングアルゴリズムを用いることで、ARTはVLMに一般化性を維持しながら情報的関係に集中するよう指示する。
具体的には,対象と対象のボックスが与えられる関係分類に注目し,モデルがそれらの間の述語を予測する。
ホールドインセットをチューニングし、さまざまな複雑さを持つ複数のホールドアウトデータセットを評価します。
提案手法はベースラインを改良し,主要なVRD手法に欠如している不明瞭な関係概念を推測する。
複雑なシーンのセグメンテーションに予測された関係を用いることでARTの実用的価値を実証する。
関連論文リスト
- Task-Agnostic Contrastive Pretraining for Relational Deep Learning [0.0]
本稿では,データベース全体の表現学習を可能にするRDLのためのタスク依存型コントラスト事前学習手法を提案する。
モジュール型RDLアーキテクチャにより,各事前学習手法を実装した。
予備的な結果から、事前訓練したモデルの微調整は、スクラッチからトレーニングを成功させることが示された。
論文 参考訳(メタデータ) (2025-06-27T13:18:13Z) - Generalized Visual Relation Detection with Diffusion Models [94.62313788626128]
視覚的関係検出(VRD)は、画像内のオブジェクトペア間の関係(または相互作用)を特定することを目的としている。
本稿では,視覚的関係を連続的な埋め込みとしてモデル化し,一般化されたVRDを条件付き生成方法で実現するための拡散モデルの設計を提案する。
我々のDiff-VRDは、予め定義されたデータセットのカテゴリラベルを超えて、視覚的な関係を生成できる。
論文 参考訳(メタデータ) (2025-04-16T14:03:24Z) - Hierarchical Relation-augmented Representation Generalization for Few-shot Action Recognition [53.02634128715853]
Few-shot Action Recognition (FSAR) は、新しいアクションカテゴリーをほとんど見ない形で認識することを目的としている。
FSARのための階層的関係強化表現一般化フレームワークHR2G-shotを提案する。
3種類の関係モデリング(フレーム間、ビデオ間、タスク間)を統合し、全体的視点からタスク固有の時間パターンを学習する。
論文 参考訳(メタデータ) (2025-04-14T10:23:22Z) - DreamRelation: Relation-Centric Video Customization [33.65405972817795]
ビデオのカスタマイズ(英: video customization)とは、2つの主題間のユーザー特定関係を描写したパーソナライズされたビデオを作成することを指す。
既存の手法では、被写体や動きをパーソナライズできるが、複雑なビデオのカスタマイズには苦戦している。
本稿では,DreamRelationを提案する。DreamRelationはビデオの小さな集合を捉え,デカップリング学習とダイナミックエンハンスメントという2つの重要なコンポーネントを活用する。
論文 参考訳(メタデータ) (2025-03-10T17:58:03Z) - VERA: Explainable Video Anomaly Detection via Verbalized Learning of Vision-Language Models [20.92507667350599]
本稿では、視覚言語モデルによるビデオ異常検出を可能にするVERAという言語学習フレームワークを提案する。
VERAは、VADに必要な複雑な推論を、よりシンプルでより焦点を絞った質問のリフレクションに分解する。
推論中、VERAは学習した質問をモデルプロンプトに埋め込んで、セグメントレベルの異常スコアを生成するVLMをガイドする。
論文 参考訳(メタデータ) (2024-12-02T04:10:14Z) - Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。
具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:01:19Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。