論文の概要: A Two-stage Framework for Compound Figure Separation
- arxiv url: http://arxiv.org/abs/2101.09903v1
- Date: Mon, 25 Jan 2021 05:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 19:13:52.898204
- Title: A Two-stage Framework for Compound Figure Separation
- Title(参考訳): 複合図形分離のための2段階フレームワーク
- Authors: Weixin Jiang, Eric Schwenker, Trevor Spreadbury, Nicola Ferrier, Maria
K.Y. Chan, Oliver Cossairt
- Abstract要約: 本研究では, 複合図形を構成部分体に分解する複合図形分離の新しい戦略を提案する。
提案する複合図形分離問題に対処するための二段階フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.2162841563262585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific literature contains large volumes of complex, unstructured figures
that are compound in nature (i.e. composed of multiple images, graphs, and
drawings). Separation of these compound figures is critical for information
retrieval from these figures. In this paper, we propose a new strategy for
compound figure separation, which decomposes the compound figures into
constituent subfigures while preserving the association between the subfigures
and their respective caption components. We propose a two-stage framework to
address the proposed compound figure separation problem. In particular, the
subfigure label detection module detects all subfigure labels in the first
stage. Then, in the subfigure detection module, the detected subfigure labels
help to detect the subfigures by optimizing the feature selection process and
providing the global layout information as extra features. Extensive
experiments are conducted to validate the effectiveness and superiority of the
proposed framework, which improves the detection precision by 9%.
- Abstract(参考訳): 科学文献には、自然界で複雑な複雑な、非構造的な図形が大量に含まれている。
複数の画像、グラフ、図面で構成されている)。
これらの複合数値の分離は、これらの数字からの情報検索に不可欠です。
本稿では,複合図形を構成部分図形に分解し,その部分図形と各字幕成分との関係を保ちながら,複合図形分離のための新しい戦略を提案する。
提案する複合図形分離問題に対処するための二段階フレームワークを提案する。
特に、サブフィギュアラベル検出モジュールは、第1段階で全てのサブフィギュアラベルを検出する。
そして、検出された副図ラベルは、特徴選択プロセスを最適化し、グローバルレイアウト情報を余分な特徴として提供することにより、副図を検出するのに役立つ。
提案手法の有効性と優越性を検証するために広範な実験を行い,検出精度を9%向上させた。
関連論文リスト
- GarmentAligner: Text-to-Garment Generation via Retrieval-augmented Multi-level Corrections [63.82168065819053]
GarmentAlignerは、検索強化マルチレベル補正で訓練されたテキスト間拡散モデルである。
コンポーネントレベルでのセマンティックアライメントを実現するために,自動コンポーネント抽出パイプラインを導入する。
衣服画像内の成分関係を活用すべく,各衣服の検索サブセットを構築した。
論文 参考訳(メタデータ) (2024-08-22T12:50:45Z) - Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Hierarchical Instance Mixing across Domains in Aerial Segmentation [14.738954189759156]
階層型インスタンス混合(HIMix)と呼ばれるドメイン間の空域分割のための新しい戦略を開発する。
LoveDAベンチマークで広範な実験を行い、私たちのソリューションは現在の最先端よりも優れています。
論文 参考訳(メタデータ) (2022-10-12T14:02:20Z) - GaitStrip: Gait Recognition via Effective Strip-based Feature
Representations and Multi-Level Framework [34.397404430838286]
本稿では,様々なレベルの歩行情報を抽出するために,GaitStripという名前のストリップベースマルチレベル歩行認識ネットワークを提案する。
具体的には、私たちの高レベルブランチは歩行シーケンスのコンテキストを探求し、低レベルブランチは詳細な姿勢変化に焦点を当てています。
我々のGaitStripは、通常の歩行条件と複雑な歩行条件の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2022-03-08T09:49:48Z) - Industrial Scene Text Detection with Refined Feature-attentive Network [20.48850807989818]
そこで本稿では,不正確な局所化問題を解決するために,RFN (Feature-attentive Network) を提案する。
102156画像と1948809テキストの様々な文字構造と金属部品を含む2つの産業シーンテキストデータセットを構築した。
論文 参考訳(メタデータ) (2021-10-25T06:23:44Z) - Form2Seq : A Framework for Higher-Order Form Structure Extraction [14.134131448981295]
テキストを用いた構造抽出のための新しいシーケンス・ツー・シーケンス(Seq2Seq)を提案する。
1)フィールドキャプション,リスト項目などの下位要素を10種類に分類すること,2)テキストフィールド,チョイスフィールド,チョイスグループなどの下位要素を情報収集機構として使用する高次構成要素に分類すること,の2つの課題について論じる。
実験結果から, 分類作業の精度90%, F1が75.82, 86.01, 61.63のテキストベースアプローチの有効性が示された。
論文 参考訳(メタデータ) (2021-07-09T13:10:51Z) - Multi-Modal Association based Grouping for Form Structure Extraction [14.134131448981295]
形態構造抽出のための新しいマルチモーダル手法を提案する。
我々は、TextBlocks、Text Fields、Choice Fields、Choice Groupsなどの高階構造を抽出する。
提案手法は, それぞれ90.29%, 73.80%, 83.12%, 52.72%のリコールを達成している。
論文 参考訳(メタデータ) (2021-07-09T12:49:34Z) - Person-in-Context Synthesiswith Compositional Structural Space [59.129960774988284]
本研究では,コンテキスト合成におけるtextbfPersons という新たな問題を提案する。
コンテキストは、形状情報を欠いたバウンディングボックスオブジェクトレイアウトで指定され、キーポイントによる人物のポーズは、わずかに注釈付けされている。
入力構造におけるスターク差に対処するため、各(コンテキスト/人物)入力を「共有構成構造空間」に意図的に合成する2つの別個の神経枝を提案した。
この構造空間は多レベル特徴変調戦略を用いて画像空間にデコードされ、自己学習される
論文 参考訳(メタデータ) (2020-08-28T14:33:28Z) - Bidirectional Graph Reasoning Network for Panoptic Segmentation [126.06251745669107]
本稿では,BGRNet(Bidirectional Graph Reasoning Network)を導入し,前景物と背景物間のモジュラー内およびモジュラー間関係について検討する。
BGRNetはまず、インスタンスとセマンティックセグメンテーションの両方でイメージ固有のグラフを構築し、提案レベルとクラスレベルで柔軟な推論を可能にする。
論文 参考訳(メタデータ) (2020-04-14T02:32:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。