Fugu-MT 論文翻訳(概要): CLIP-Guided Multi-Task Regression for Multi-View Plant Phenotyping

論文の概要: CLIP-Guided Multi-Task Regression for Multi-View Plant Phenotyping

arxiv url: http://arxiv.org/abs/2603.04091v1
Date: Wed, 04 Mar 2026 14:01:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.33503
Title: CLIP-Guided Multi-Task Regression for Multi-View Plant Phenotyping
Title（参考訳）: CLIP-Guided Multi-Task Regression for Multi-View Plant Phenotyping
Authors: Simon Warmers, Muhammad Zawish, Fayaz Ali Dharejo, Steven Davy, Radu Timofte,
Abstract要約: CLIP埋め込み上に構築された1つのマルチタスクモデルを用いて、植物齢と葉数とを共同で予測するレベル認識型視覚言語フレームワークを提案する。提案手法は,不完全あるいは不整合な入力下での安定な予測のための視点レベルを符号化する軽量テキスト先行画像の回転ビューを,角度不変の表現と条件に集約する。 GroMo25 ベンチマークでは,平均葉数 MAE は7.74 から3.91 に,平均葉数 MAE は5.52 から3.08 に減少し,それぞれ49.5% と 44.2% に改善した。
参考スコア（独自算出の注目度）: 43.24254323363639
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modeling plant growth dynamics plays a central role in modern agricultural research. However, learning robust predictors from multi-view plant imagery remains challenging due to strong viewpoint redundancy and viewpoint-dependent appearance changes. We propose a level-aware vision language framework that jointly predicts plant age and leaf count using a single multi-task model built on CLIP embeddings. Our method aggregates rotational views into angle-invariant representations and conditions visual features on lightweight text priors encoding viewpoint level for stable prediction under incomplete or unordered inputs. On the GroMo25 benchmark, our approach reduces mean age MAE from 7.74 to 3.91 and mean leaf-count MAE from 5.52 to 3.08 compared to the GroMo baseline, corresponding to improvements of 49.5% and 44.2%, respectively. The unified formulation simplifies the pipeline by replacing the conventional dual-model setup while improving robustness to missing views. The models and code is available at: https://github.com/SimonWarmers/CLIP-MVP
Abstract（参考訳）: 植物成長動態のモデリングは、現代の農業研究において中心的な役割を担っている。しかし,多視点植物像からの頑健な予測器の学習は,視点の冗長性や視点に依存した外観の変化のため,依然として困難である。 CLIP埋め込み上に構築された1つのマルチタスクモデルを用いて、植物齢と葉数とを共同で予測するレベル認識型視覚言語フレームワークを提案する。提案手法は,不完全あるいは不整合な入力下での安定な予測のための視点レベルを符号化する軽量テキスト先行画像の回転ビューを,角度不変の表現と条件に集約する。 GroMo25 ベンチマークでは,平均葉数 MAE は7.74 から3.91 に,平均葉数 MAE は5.52 から3.08 に減少し,それぞれ49.5% と 44.2% に改善した。統一された定式化は、従来のデュアルモデルセットアップを置き換えることでパイプラインを単純化し、欠落したビューに対する堅牢性を改善した。モデルとコードは、https://github.com/SimonWarmers/CLIP-MVPで利用可能です。

関連論文リスト

LeafInst - Unified Instance Segmentation Network for Fine-Grained Forestry Leaf Phenotype Analysis: A New UAV based Benchmark [10.61947524568352]
リーフインスト(LeafInst)は、不規則で多スケールな葉の構造に適した新しいセグメンテーションフレームワークである。 68.4 mAPを達成し、YOLOv11を7.1%、MaskDinoを6.5%上回っている。
論文参考訳（メタデータ） (2026-03-04T01:01:57Z)
MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation [48.84450712826316]
MSVBenchは、マルチショットビデオ生成に適した階層的なスクリプトと参照イメージを備えた最初の包括的なベンチマークである。本稿では,大規模マルチモーダルモデルの高レベルな意味推論と,ドメイン固有のエキスパートモデルの微粒な知覚的厳密さを相乗化するハイブリッド評価フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-27T12:26:34Z)
VLA Models Are More Generalizable Than You Think: Revisiting Physical and Spatial Modeling [60.341503853471494]
本稿では,新しいカメラ視点と視覚摂動の下で,視覚言語行動モデルが急激に劣化することを示す。本稿では,軽量で学習可能な更新によって視覚表現を再分類するワンショット適応フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-02T16:16:13Z)
A Multimodal, Multitask System for Generating E Commerce Text Listings from Images [0.0]
本稿では,1つの画像から現実的なテキストリストを生成するエンド・ツー・エンドマルチタスクシステムを提案する。階層的な生成プロセスは非常に効果的であることが証明され、事実の幻覚率を12.7%から7.1%に下げる。 1つの小さな欠点は、ROUGE-Lスコアで直接視覚から言語へのモデルよりも3.5%悪い性能を発揮することである。
論文参考訳（メタデータ） (2025-10-22T11:50:49Z)
ViewSparsifier: Killing Redundancy in Multi-View Plant Phenotyping [8.348234911002821]
植物の表現型付けは、植物の成長、健康、発達をよりよく理解するために、植物の観測可能な特性を分析することである。ディープラーニングの文脈では、この分析は単一ビューの分類や回帰モデルを通してアプローチされることが多い。これを解決するため、ACM Multimedia 2025のGrowth Modelling (GroMo) Grand Challengeでは、複数の植物を含むマルチビューデータセットが提供されている。
論文参考訳（メタデータ） (2025-09-10T12:53:38Z)
GroMo: Plant Growth Modeling with Multiview Images [3.7287379829068805]
本稿では,植物齢予測と葉数推定の2つの主要な課題を対象とした成長モデル(GroMo)課題を提案する。 GroMo Challengeは、植物の成長を追跡し予測するための革新的なソリューションを奨励することで、植物の表現型研究を進めることを目的としている。
論文参考訳（メタデータ） (2025-03-09T13:23:16Z)
Fisher Mask Nodes for Language Model Merging [0.0]
本稿では,トランスフォーマーの新たなモデルマージ手法について紹介し,フィッシャー重み付けにおける過去の研究成果とモデルプルーニングにおけるフィッシャー情報の利用について考察する。提案手法は,BERTファミリーの各種モデルに対して,正規かつ顕著な性能向上を示し,計算コストのごく一部において,大規模フィッシャー重み付き平均値よりも優れていた。
論文参考訳（メタデータ） (2024-03-14T21:52:26Z)
Stay on topic with Classifier-Free Guidance [57.28934343207042]
CFGは純粋言語モデリングにおける推論時手法として広く利用できることを示す。 CFG は Pythia, GPT-2 および LLaMA ファミリーモデルの性能をタスクの配列にわたって改善することを示す。
論文参考訳（メタデータ） (2023-06-30T17:07:02Z)
ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文参考訳（メタデータ） (2022-08-28T04:18:27Z)
Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。 MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-11-07T13:09:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。