論文の概要: J-EDI QA: Benchmark for deep-sea organism-specific multimodal LLM
- arxiv url: http://arxiv.org/abs/2412.15574v1
- Date: Fri, 20 Dec 2024 05:11:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:24:00.823313
- Title: J-EDI QA: Benchmark for deep-sea organism-specific multimodal LLM
- Title(参考訳): J-EDI QA:深海生物特異的マルチモーダルLCMのベンチマーク
- Authors: Takero Yoshida, Yuikazu Ito, Yoshihiro Fujiwara, Shinji Tsuchida, Daisuke Sugiyama, Daisuke Matsuoka,
- Abstract要約: マルチモーダル大言語モデル(LLM)を用いた深海生物のイメージ理解のためのベンチマークであるJ-EDI QAを提案する。
本論文では,OpenAI o1が50%の正応答率を達成した。
- 参考スコア(独自算出の注目度): 0.6597195879147557
- License:
- Abstract: Japan Agency for Marine-Earth Science and Technology (JAMSTEC) has made available the JAMSTEC Earth Deep-sea Image (J-EDI), a deep-sea video and image archive (https://www.godac.jamstec.go.jp/jedi/e/index.html). This archive serves as a valuable resource for researchers and scholars interested in deep-sea imagery. The dataset comprises images and videos of deep-sea phenomena, predominantly of marine organisms, but also of the seafloor and physical processes. In this study, we propose J-EDI QA, a benchmark for understanding images of deep-sea organisms using a multimodal large language model (LLM). The benchmark is comprised of 100 images, accompanied by questions and answers with four options by JAMSTEC researchers for each image. The QA pairs are provided in Japanese, and the benchmark assesses the ability to understand deep-sea species in Japanese. In the evaluation presented in this paper, OpenAI o1 achieved a 50% correct response rate. This result indicates that even with the capabilities of state-of-the-art models as of December 2024, deep-sea species comprehension is not yet at an expert level. Further advances in deep-sea species-specific LLMs are therefore required.
- Abstract(参考訳): 日本海洋科学技術庁(JAMSTEC)は、深海ビデオ・画像アーカイブ(https://www.godac.jamstec.go.jp/jedi/e/index.html)であるJAMSTEC Earth Deep-sea Image(J-EDI)を公開した。
このアーカイブは深海画像に興味のある研究者や研究者にとって貴重な資料となっている。
このデータセットは深海現象の画像とビデオで構成されており、主に海洋生物であるが、海底や物理過程も記録している。
本研究では,多モーダル大言語モデル(LLM)を用いた深海生物のイメージ理解のためのベンチマークであるJ-EDI QAを提案する。
ベンチマークは100の画像で構成されており、各画像に対するJAMSTEC研究者による4つのオプションによる質問と回答が伴っている。
QAペアは日本語で提供され、このベンチマークは日本語で深海種を理解する能力を評価する。
本論文では,OpenAI o1が50%の正応答率を達成した。
この結果から,2024年12月時点での最先端モデルにおいても,深海種の理解は未だ専門家レベルでは行われていないことが示唆された。
したがって深海種特異的LLMのさらなる進歩が必要である。
関連論文リスト
- INQUIRE: A Natural World Text-to-Image Retrieval Benchmark [51.823709631153946]
InQUIREは、専門家レベルのクエリにおけるマルチモーダル視覚言語モデルに挑戦するために設計されたテキスト・ツー・イメージ検索ベンチマークである。
InQUIREには、iNaturalist 2024(iNat24)、500万の自然界の画像の新しいデータセット、250のエキスパートレベルの検索クエリが含まれている。
InQUIRE-Fullrank,完全なデータセットランキングタスク,INQUIRE-Rerank,トップ100検索の精算タスクの2つの中核検索タスクを評価した。
論文 参考訳(メタデータ) (2024-11-04T19:16:53Z) - SeafloorAI: A Large-scale Vision-Language Dataset for Seafloor Geological Survey [11.642711706384212]
SeafloorAIは、5つの地質層にまたがる海底マッピングのための、初めてのAI対応データセットである。
このデータセットは、17,300平方キロメートルに及ぶ62の地理的分散データサーベイと、696Kソナー画像、827Kの注釈付きセグメンテーションマスク、696Kの詳細な言語記述で構成されている。
論文 参考訳(メタデータ) (2024-10-31T19:37:47Z) - MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding [66.23502779435053]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を発揮している。
既存のベンチマークには、他のデータと混合された詳細な評価サンプルが限られているか、あるいは自然画像のオブジェクトレベルの評価に限られている。
自然画像の補足に多粒度および多モード情報を用いた文書画像を提案する。
論文 参考訳(メタデータ) (2024-10-25T16:00:55Z) - BenthicNet: A global compilation of seafloor images for deep learning applications [25.466405216505166]
BenthicNetは海底画像のグローバルコンパイルである。
最初の114万枚以上の画像が収集され、海底環境の多様性を表すためにキュレーションされた。
このコンパイルに基づいて大規模なディープラーニングモデルをトレーニングし,その予備的な結果から,大規模かつ小規模の画像解析タスクの自動化に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-05-08T17:37:57Z) - MIPI 2023 Challenge on RGBW Remosaic: Methods and Results [88.53703757370016]
本稿は、MIPI 2023上でのRGBW Joint Remosaic and Denoiseのトラックを要約し、レビューする。
合計81人の参加者が登録され、4チームが最終テストフェーズで結果を提出した。
本論文では,本課題で開発された上位3モデルについて詳述する。
論文 参考訳(メタデータ) (2023-04-20T05:12:42Z) - MIPI 2023 Challenge on RGBW Fusion: Methods and Results [88.53703757370016]
本稿は、MIPI 2023上でのRGBW Joint Fusion and Denoiseのトラックを要約し、レビューする。
合計69人の参加者が登録され、4チームが最終テストフェーズで結果を提出した。
本論文では,本課題で開発された上位3モデルについて詳述する。
論文 参考訳(メタデータ) (2023-04-20T05:02:03Z) - KOLOMVERSE: Korea open large-scale image dataset for object detection in the maritime universe [0.5732204366512352]
KRISO による海洋領域における物体検出のための大規模画像データセット KOLOMVERSE を提案する。
韓国の21の領海から撮影した5,845時間の動画データを収集した。
データセットには3840$times$2160ピクセルのイメージがあり、私たちの知る限り、海洋ドメインにおけるオブジェクト検出のための公開データセットとしては、これまでで最大のものである。
論文 参考訳(メタデータ) (2022-06-20T16:45:12Z) - UID2021: An Underwater Image Dataset for Evaluation of No-reference
Quality Assessment Metrics [11.570496045891465]
水中画像品質評価(UIQA)は水中の視覚知覚と画像/映像処理において重要である。
この問題に対処するため、非参照UIQAメトリクスを評価するために、UID 2021と呼ばれる大規模な水中画像データセットを構築した。
構築されたデータセットは、様々なソースから収集された60個の多重分解水中画像を含み、6つの一般的な水中シーンをカバーしている。
論文 参考訳(メタデータ) (2022-04-19T11:28:08Z) - FathomNet: A global underwater image training set for enabling
artificial intelligence in the ocean [0.0]
オーシャンゴープラットフォームは、監視とナビゲーションのために高解像度のカメラフィードを統合することで、視覚データを大量に生成している。
機械学習の最近の進歩は、視覚データの高速かつ洗練された分析を可能にするが、海洋学の世界では成功しなかった。
FathomNetのデータに基づいてトレーニングされた機械学習モデルを、さまざまな機関のビデオデータに適用する方法を実証する。
論文 参考訳(メタデータ) (2021-09-29T18:08:42Z) - Object Detection in Aerial Images: A Large-Scale Benchmark and
Challenges [124.48654341780431]
航空画像(DOTA)におけるオブジェクトデテクションの大規模データセットとODAIの総合的ベースラインについて述べる。
提案するDOTAデータセットは,11,268個の空中画像から収集した18カテゴリのオブジェクト指向ボックスアノテーションの1,793,658個のオブジェクトインスタンスを含む。
70以上の構成を持つ10の最先端アルゴリズムをカバーするベースラインを構築し,各モデルの速度と精度を評価した。
論文 参考訳(メタデータ) (2021-02-24T11:20:55Z) - Video Depth Estimation by Fusing Flow-to-Depth Proposals [65.24533384679657]
本稿では,映像深度推定のためのフロー・ツー・ディープス・レイヤの異なる手法を提案する。
モデルは、フロー・トゥ・ディープス層、カメラ・ポーズ・リファインメント・モジュール、ディープ・フュージョン・ネットワークから構成される。
提案手法は,最先端の深度推定法より優れ,合理的なデータセット一般化能力を有する。
論文 参考訳(メタデータ) (2019-12-30T10:45:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。