論文の概要: Detailed Object Description with Controllable Dimensions
- arxiv url: http://arxiv.org/abs/2411.19106v2
- Date: Wed, 08 Jan 2025 04:11:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:53:26.662220
- Title: Detailed Object Description with Controllable Dimensions
- Title(参考訳): 制御可能な次元を持つ詳細オブジェクト記述
- Authors: Xinran Wang, Haiwen Zhang, Baoteng Li, Kongming Liang, Hao Sun, Zhongjiang He, Zhanyu Ma, Jun Guo,
- Abstract要約: トレーニング不要なオブジェクト記述リファインメントパイプラインであるDmension Tailorを提案する。
このパイプラインには、ディメンション、消去、サプリメントという3つのステップが含まれており、記述をユーザが指定したディメンションに分解する。
制御可能なオブジェクト記述に対する次元タイラーの有効性を示すため,広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 25.34736316558397
- License:
- Abstract: Object description plays an important role for visually impaired individuals to understand and compare the differences between objects. Recent multimodal large language models(MLLMs) exhibit powerful perceptual abilities and demonstrate impressive potential for generating object-centric descriptions. However, the descriptions generated by such models may still usually contain a lot of content that is not relevant to the user intent or miss some important object dimension details. Under special scenarios, users may only need the details of certain dimensions of an object. In this paper, we propose a training-free object description refinement pipeline, Dimension Tailor, designed to enhance user-specified details in object descriptions. This pipeline includes three steps: dimension extracting, erasing, and supplementing, which decompose the description into user-specified dimensions. Dimension Tailor can not only improve the quality of object details but also offer flexibility in including or excluding specific dimensions based on user preferences. We conducted extensive experiments to demonstrate the effectiveness of Dimension Tailor on controllable object descriptions. Notably, the proposed pipeline can consistently improve the performance of the recent MLLMs. The code is currently accessible at https://github.com/xin-ran-w/ControllableObjectDescription.
- Abstract(参考訳): オブジェクト記述は視覚障害者にとって、オブジェクト間の差異を理解し、比較する上で重要な役割を担います。
近年のマルチモーダル大言語モデル(MLLM)は、強力な知覚能力を示し、オブジェクト中心の記述を生成するための印象的な可能性を示している。
しかし、そのようなモデルによって生成された記述は、通常、ユーザー意図に関係のない多くのコンテンツを含むかもしれないし、重要なオブジェクト次元の詳細を見逃すかもしれない。
特別なシナリオでは、ユーザーはオブジェクトの特定の次元の詳細しか必要としないかもしれない。
本稿では,オブジェクト記述におけるユーザ指定の詳細性を高めるために,トレーニング不要なオブジェクト記述改善パイプラインであるDimension Tailorを提案する。
このパイプラインには、ディメンション抽出、消去、サプリメントという3つのステップが含まれており、記述をユーザが指定したディメンションに分解する。
ディメンジョン・タイラーは、オブジェクトの細部の品質を向上するだけでなく、ユーザの好みに基づいて特定のディメンションを包含または除外する柔軟性を提供する。
制御可能なオブジェクト記述に対する次元タイラーの有効性を示すため,広範囲な実験を行った。
特に、提案されたパイプラインは、最近のMLLMの性能を一貫して改善することができる。
コードは現在https://github.com/xin-ran-w/ControllableObjectDescriptionでアクセス可能である。
関連論文リスト
- Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation [47.047267066525265]
画像にオブジェクトレベルの文脈知識を取り入れた新しいアプローチを導入する。
提案手法は,多種多様なデータセットにまたがる高い一般化性を有する最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-26T06:34:48Z) - OLIVE: Object Level In-Context Visual Embeddings [8.168219870640318]
テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルを提案する。
これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。
実験の結果,提案手法は競合参照対象分類とキャプション性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T21:36:31Z) - GraCo: Granularity-Controllable Interactive Segmentation [52.9695642626127]
Granularity-Controllable Interactive (GraCo) は、入力に追加パラメータを導入することによって、予測粒度の正確な制御を可能にする新しいアプローチである。
GraCoは、事前訓練されたISモデルのセマンティック特性を利用して、豊富なマスクとグラニュラリティのペアを自動的に生成する。
オブジェクトと部分レベルの複雑なシナリオの実験は、GraCoが以前の方法よりも大きな利点があることを示しています。
論文 参考訳(メタデータ) (2024-05-01T15:50:16Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Leveraging VLM-Based Pipelines to Annotate 3D Objects [68.51034848207355]
本稿では,VLMの応答に影響を与える視点などの要因を疎外する代替アルゴリズムを提案する。
テキストのみの応答をマージする代わりに、VLMの合同画像テキストの可能性を利用する。
VLMベースのパイプラインを使って764Kデータセットから764Kオブジェクトの信頼性の高いアノテーションを生成する方法を示す。
論文 参考訳(メタデータ) (2023-11-29T17:54:22Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Multi3DRefer: Grounding Text Description to Multiple 3D Objects [15.54885309441946]
本稿では,自然言語記述を用いて,現実の3Dシーンにおけるフレキシブルなオブジェクトをローカライズするタスクを紹介する。
我々のデータセットには1609個のオブジェクトの61926の記述が含まれており、0、単、複数個の対象オブジェクトがそれぞれの記述によって参照される。
コントラスト学習による提案をオンラインでレンダリングすることで,CLIPの2D機能を活用したより良いベースラインを構築する。
論文 参考訳(メタデータ) (2023-09-11T06:03:39Z) - DEVICE: DEpth and VIsual ConcEpts Aware Transformer for TextCaps [10.87327544629769]
テキストキャプチャのためのDEVICE(Depth and VIsual ConcEpts Aware Transformer)を提案する。
我々の装置は、より包括的にシーンを一般化し、記述された視覚的実体の精度を高めることができる。
論文 参考訳(メタデータ) (2023-02-03T04:31:13Z) - Objects are Different: Flexible Monocular 3D Object Detection [87.82253067302561]
そこで本研究では,乱れたオブジェクトを明示的に分離し,オブジェクト深度推定のための複数のアプローチを適応的に組み合わせたモノクル3次元オブジェクト検出のためのフレキシブルなフレームワークを提案する。
実験の結果,本手法はkittiベンチマークテストセットにおいて,中等度レベルが27%,硬度が30%と,最先端法を27%上回った。
論文 参考訳(メタデータ) (2021-04-06T07:01:28Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。