論文の概要: InstructPart: Task-Oriented Part Segmentation with Instruction Reasoning
- arxiv url: http://arxiv.org/abs/2505.18291v1
- Date: Fri, 23 May 2025 18:36:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.32857
- Title: InstructPart: Task-Oriented Part Segmentation with Instruction Reasoning
- Title(参考訳): InstructPart: Instruction Reasoningによるタスク指向部分分割
- Authors: Zifu Wan, Yaqi Xie, Ce Zhang, Zhiqiu Lin, Zihan Wang, Simon Stepputtis, Deva Ramanan, Katia Sycara,
- Abstract要約: 実世界の新しいベンチマークであるInstructPartを導入し、現在のモデルの性能を評価し、部分レベルのタスクの理解と実行を行う。
現状のビジョン・ランゲージモデルにおいても,タスク指向の部分分割は依然として困難な問題であることを示す。
- 参考スコア(独自算出の注目度): 48.455643602907934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multimodal foundation models, particularly in the domains of language and vision, have significantly advanced various tasks, including robotics, autonomous driving, information retrieval, and grounding. However, many of these models perceive objects as indivisible, overlooking the components that constitute them. Understanding these components and their associated affordances provides valuable insights into an object's functionality, which is fundamental for performing a wide range of tasks. In this work, we introduce a novel real-world benchmark, InstructPart, comprising hand-labeled part segmentation annotations and task-oriented instructions to evaluate the performance of current models in understanding and executing part-level tasks within everyday contexts. Through our experiments, we demonstrate that task-oriented part segmentation remains a challenging problem, even for state-of-the-art Vision-Language Models (VLMs). In addition to our benchmark, we introduce a simple baseline that achieves a twofold performance improvement through fine-tuning with our dataset. With our dataset and benchmark, we aim to facilitate research on task-oriented part segmentation and enhance the applicability of VLMs across various domains, including robotics, virtual reality, information retrieval, and other related fields. Project website: https://zifuwan.github.io/InstructPart/.
- Abstract(参考訳): 言語と視覚の領域における大規模なマルチモーダル基盤モデルは、ロボット工学、自律運転、情報検索、接地といった様々なタスクを著しく進歩させてきた。
しかし、これらのモデルの多くは、オブジェクトを構成するコンポーネントを見渡すことで、オブジェクトを区別できないと認識している。
これらのコンポーネントとその関連性を理解することは、幅広いタスクを実行するのに基本となる、オブジェクトの機能に関する貴重な洞察を提供する。
そこで本研究では,手書きのパートセグメンテーションアノテーションとタスク指向の指示を含む実世界の新しいベンチマークであるInstructPartを導入し,日々の状況下でのパートレベルのタスクの理解と実行において,現在のモデルの性能を評価する。
本稿では,タスク指向部分分割が現状のビジョン・ランゲージ・モデル(VLM)においても困難な問題であることを示す。
ベンチマークに加えて,データセットの微調整による2倍のパフォーマンス向上を実現するための,シンプルなベースラインも導入している。
本研究の目的は,ロボット工学,仮想現実,情報検索,その他の関連分野を含む,タスク指向部分のセグメンテーションの研究の促進と,VLMの適用性の向上である。
プロジェクトウェブサイト: https://zifuwan.github.io/InstructPart/.com
関連論文リスト
- ZISVFM: Zero-Shot Object Instance Segmentation in Indoor Robotic Environments with Vision Foundation Models [10.858627659431928]
サービスロボットは、機能を強化するために、未知のオブジェクトを効果的に認識し、セグメント化する必要がある。
従来の教師付き学習ベースのセグメンテーション技術は、広範な注釈付きデータセットを必要とする。
本稿では,セグメンテーションアプライスモデル (SAM) の強力なゼロショット能力と,自己監督型視覚変換器 (ViT) からの明示的な視覚表現を活用することで,UOISを解く新しいアプローチ (ZISVFM) を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:22:20Z) - CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models [2.331828779757202]
本稿では,マルチイメージ部分レベルの推論セグメンテーションのためのLVLM(Large Vision-Language Model)を提案する。
セマンティックな部分レベルの対応を識別する新しい対応抽出モジュールと、この情報をLVLMに埋め込む適応対応モジュールである。
パラメータの0.3%しか微調整されていないCALICOは,この課題に対して高いパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2024-12-26T18:59:37Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - SynMotor: A Benchmark Suite for Object Attribute Regression and
Multi-task Learning [0.0]
このベンチマークは、2D/3D検出、分類、セグメンテーション、マルチ属性学習などのコンピュータビジョンタスクに使用できる。
モータのほとんどの特性は、バイナリではなく連続的な変数として定量化されているため、我々のベンチマークは、未検討の回帰タスクに適している。
論文 参考訳(メタデータ) (2023-01-11T18:27:29Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z) - Dynamic Feature Integration for Simultaneous Detection of Salient
Object, Edge and Skeleton [108.01007935498104]
本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。
まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
論文 参考訳(メタデータ) (2020-04-18T11:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。