論文の概要: Detailed Object Description with Controllable Dimensions
- arxiv url: http://arxiv.org/abs/2411.19106v1
- Date: Thu, 28 Nov 2024 12:42:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:10.382782
- Title: Detailed Object Description with Controllable Dimensions
- Title(参考訳): 制御可能な次元を持つ詳細オブジェクト記述
- Authors: Xinran Wang, Haiwen Zhang, Baoteng Li, Kongming Liang, Hao Sun, Zhongjiang He, Zhanyu Ma, Jun Guo,
- Abstract要約: 本研究では,オブジェクト記述におけるユーザ指定の詳細を強化するために,トレーニング不要なキャプションリファインメントパイプラインであるtextbf Dimension Tailorを提案する。
このパイプラインには、ディメンション抽出、消去、サプリメントという3つのステップが含まれており、記述を事前に定義されたディメンションに分解する。
制御可能なオブジェクト記述に対する次元タイラーの有効性を示すため,広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 25.34736316558397
- License:
- Abstract: Object description plays an important role for visually impaired individuals to understand and compare the differences between objects. Recent multimodal large language models (MLLMs) exhibit powerful perceptual abilities and demonstrate impressive potential for generating object-centric captions. However, the descriptions generated by such models may still usually contain a lot of content that is not relevant to the user intent. Under special scenarios, users may only need the details of certain dimensions of an object. In this paper, we propose a training-free captioning refinement pipeline, \textbf{Dimension Tailor}, designed to enhance user-specified details in object descriptions. This pipeline includes three steps: dimension extracting, erasing, and supplementing, which decompose the description into pre-defined dimensions and correspond to user intent. Therefore, it can not only improve the quality of object details but also offer flexibility in including or excluding specific dimensions based on user preferences. We conducted extensive experiments to demonstrate the effectiveness of Dimension Tailor on controllable object descriptions. Notably, the proposed pipeline can consistently improve the performance of the recent MLLMs. The code is currently accessible at the following anonymous link: \url{https://github.com/xin-ran-w/ControllableObjectDescription}.
- Abstract(参考訳): オブジェクト記述は視覚障害者にとって、オブジェクト間の差異を理解し、比較する上で重要な役割を担います。
近年のマルチモーダル大言語モデル(MLLM)は、強力な知覚能力を示し、オブジェクト中心のキャプションを生成するための印象的な可能性を示している。
しかし、そのようなモデルによって生成された記述は、通常、ユーザー意図に関係のない多くのコンテンツを含むかもしれない。
特別なシナリオでは、ユーザーはオブジェクトの特定の次元の詳細しか必要としないかもしれない。
本稿では,オブジェクト記述におけるユーザ指定の詳細を強化するために,トレーニング不要なキャプション改善パイプラインである‘textbf{Dimension Tailor} を提案する。
このパイプラインには、ディメンション抽出、消去、サプリメントという3つのステップが含まれており、記述を事前に定義されたディメンションに分解し、ユーザの意図に対応する。
したがって、オブジェクトの細部の品質を向上するだけでなく、ユーザの好みに基づいて特定の次元を包含または除外する柔軟性も提供する。
制御可能なオブジェクト記述に対する次元タイラーの有効性を示すため,広範囲な実験を行った。
特に、提案されたパイプラインは、最近のMLLMの性能を一貫して改善することができる。
コードは現在、以下の匿名リンクでアクセス可能である。
関連論文リスト
- Arti-PG: A Toolbox for Procedurally Synthesizing Large-Scale and Diverse Articulated Objects with Rich Annotations [41.54457853741178]
本稿ではArticulated Object Procedural Generation Toolbox(Articulated Object Procedural Generation Toolbox)を提案する。
Arti-PGは26種類の音節オブジェクトの手続き生成をサポートし、視覚と操作タスクの両方でアノテーションを提供する。
Arti-PGツールボックスをコミュニティで使用するために公開します。
論文 参考訳(メタデータ) (2024-12-19T15:48:51Z) - Towards Flexible 3D Perception: Object-Centric Occupancy Completion Augments 3D Object Detection [54.78470057491049]
占領は3Dシーンの知覚に有望な代替手段として現れてきた。
オブジェクトbboxのサプリメントとして,オブジェクト中心の占有率を導入する。
これらの特徴は,最先端の3Dオブジェクト検出器の検出結果を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-12-06T16:12:38Z) - Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
高品質な手動アノテーションを備えたUniversal Scene Description (USD)フォーマットで、専門家がキュレートしたデータセットを導入する。
広範かつ高品質なアノテーションにより、このデータは総合的な3Dシーン理解モデルの基礎を提供する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation [47.047267066525265]
画像にオブジェクトレベルの文脈知識を取り入れた新しいアプローチを導入する。
提案手法は,多種多様なデータセットにまたがる高い一般化性を有する最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-26T06:34:48Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Leveraging VLM-Based Pipelines to Annotate 3D Objects [68.51034848207355]
本稿では,VLMの応答に影響を与える視点などの要因を疎外する代替アルゴリズムを提案する。
テキストのみの応答をマージする代わりに、VLMの合同画像テキストの可能性を利用する。
VLMベースのパイプラインを使って764Kデータセットから764Kオブジェクトの信頼性の高いアノテーションを生成する方法を示す。
論文 参考訳(メタデータ) (2023-11-29T17:54:22Z) - Multi3DRefer: Grounding Text Description to Multiple 3D Objects [15.54885309441946]
本稿では,自然言語記述を用いて,現実の3Dシーンにおけるフレキシブルなオブジェクトをローカライズするタスクを紹介する。
我々のデータセットには1609個のオブジェクトの61926の記述が含まれており、0、単、複数個の対象オブジェクトがそれぞれの記述によって参照される。
コントラスト学習による提案をオンラインでレンダリングすることで,CLIPの2D機能を活用したより良いベースラインを構築する。
論文 参考訳(メタデータ) (2023-09-11T06:03:39Z) - Objects are Different: Flexible Monocular 3D Object Detection [87.82253067302561]
そこで本研究では,乱れたオブジェクトを明示的に分離し,オブジェクト深度推定のための複数のアプローチを適応的に組み合わせたモノクル3次元オブジェクト検出のためのフレキシブルなフレームワークを提案する。
実験の結果,本手法はkittiベンチマークテストセットにおいて,中等度レベルが27%,硬度が30%と,最先端法を27%上回った。
論文 参考訳(メタデータ) (2021-04-06T07:01:28Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。