論文の概要: BioVL-QR: Egocentric Biochemical Video-and-Language Dataset Using Micro QR Codes
- arxiv url: http://arxiv.org/abs/2404.03161v1
- Date: Thu, 4 Apr 2024 02:22:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 16:03:13.231228
- Title: BioVL-QR: Egocentric Biochemical Video-and-Language Dataset Using Micro QR Codes
- Title(参考訳): BioVL-QR:マイクロQRコードを用いたEgocentric Biochemical Video-and-Language Dataset
- Authors: Taichi Nishimura, Koki Yamamoto, Yuto Haneji, Keiya Kajimura, Chihiro Nishiwaki, Eriko Daikoku, Natsuko Okuda, Fumihito Ono, Hirotaka Kameko, Shinsuke Mori,
- Abstract要約: 本稿では,バイオケミカル・ビジョン・アンド・ランゲージ・データセットを提案する。
24のエゴセントリックな実験ビデオ、対応するプロトコル、そしてビデオと言語によるアライメントで構成されている。
- 参考スコア(独自算出の注目度): 2.9512318511021665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a biochemical vision-and-language dataset, which consists of 24 egocentric experiment videos, corresponding protocols, and video-and-language alignments. The key challenge in the wet-lab domain is detecting equipment, reagents, and containers is difficult because the lab environment is scattered by filling objects on the table and some objects are indistinguishable. Therefore, previous studies assume that objects are manually annotated and given for downstream tasks, but this is costly and time-consuming. To address this issue, this study focuses on Micro QR Codes to detect objects automatically. From our preliminary study, we found that detecting objects only using Micro QR Codes is still difficult because the researchers manipulate objects, causing blur and occlusion frequently. To address this, we also propose a novel object labeling method by combining a Micro QR Code detector and an off-the-shelf hand object detector. As one of the applications of our dataset, we conduct the task of generating protocols from experiment videos and find that our approach can generate accurate protocols.
- Abstract(参考訳): 本稿では,24のエゴセントリックな実験ビデオ,対応するプロトコル,およびビデオ・アンド・ランゲージアライメントからなるバイオケミカルビジョン・アンド・ランゲージデータセットを提案する。
ウェットラブ領域の鍵となる課題は、装置、試薬、容器を検知することである。
そのため、従来の研究では、オブジェクトは手動でアノテートされ、下流のタスクに与えられると仮定していたが、これはコストと時間を要する。
そこで本研究では,オブジェクトを自動的に検出するマイクロQRコードに焦点を当てた。
予備研究では、マイクロQRコードのみを用いて物体を検出することは、研究者が物体を操作し、ぼやけや閉塞を頻繁に起こすため、依然として難しいことが判明した。
そこで本研究では,マイクロQRコード検出器とオフザシェルフハンドオブジェクト検出器を組み合わせた新しいオブジェクトラベリング手法を提案する。
データセットの応用の一つとして、実験ビデオからプロトコルを生成するタスクを実行し、我々のアプローチが正確なプロトコルを生成することができることを確かめる。
関連論文リスト
- VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs [5.891295920078768]
本稿では,物体の視覚的フィールド検出のための高度な手法を提案する。
まず,画像中の物体の詳細な空間地図を生成するために,SAMモデルを用いた。
次に、Vision Studioを使用してセマンティックオブジェクト記述を抽出する。
第3に、GPT-4の常識知識を用いて、オブジェクトの意味論と空間マップとのギャップを埋める。
論文 参考訳(メタデータ) (2024-04-01T14:53:36Z) - Continual Object Detection via Prototypical Task Correlation Guided
Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。
具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。
COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文 参考訳(メタデータ) (2022-05-06T07:31:28Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - A Survey of Self-Supervised and Few-Shot Object Detection [19.647681501581225]
自己教師付き手法は、オブジェクト検出などの下流タスクにうまく転送されるラベルのないデータから表現を学習することを目的としている。
ほとんどショットされていないオブジェクト検出は、ほとんどデータを持たない新しい(見えない)オブジェクトクラスのモデルをトレーニングすることです。
本調査では, 少数ショット・自己監督型物体検出における最新のアプローチを概観し, 特徴付けする。
論文 参考訳(メタデータ) (2021-10-27T18:55:47Z) - Towards Optimal Correlational Object Search [25.355936023640506]
相関オブジェクト探索POMDPは相関情報を用いた探索戦略を作成することができる。
我々は,家庭環境の現実的なシミュレータであるAI2-THORと,広く使用されている物体検出器であるYOLOv5を用いて実験を行った。
論文 参考訳(メタデータ) (2021-10-19T14:03:43Z) - Discovery-and-Selection: Towards Optimal Multiple Instance Learning for
Weakly Supervised Object Detection [86.86602297364826]
複数インスタンス学習(DS-MIL)と融合した発見・選択手法を提案する。
我々の提案するDS-MILアプローチは,最先端の性能を報告しながら,ベースラインを一貫して改善することができる。
論文 参考訳(メタデータ) (2021-10-18T07:06:57Z) - Self-supervised object detection from audio-visual correspondence [101.46794879729453]
我々は、監視なしで物体検出器を学習する問題に取り組む。
画像レベルのクラスラベルは想定せず、代わりにオーディオビジュアルデータから監視信号を抽出します。
本研究では,航空機やネコなどの機器以外のジェネリック物体の検出を学習できることを示した。
論文 参考訳(メタデータ) (2021-04-13T17:59:03Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - Detective: An Attentive Recurrent Model for Sparse Object Detection [25.5804429439316]
ディテクティヴ(英: Detective)は、画像中の物体を連続的に識別する注意オブジェクト検出器である。
Detectiveはスパースオブジェクト検出器で、オブジェクトインスタンス毎に単一のバウンディングボックスを生成する。
ハンガリーのアルゴリズムに基づく学習機構と,局所化と分類タスクのバランスをとる損失を提案する。
論文 参考訳(メタデータ) (2020-04-25T17:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。