論文の概要: SciPostLayoutTree: A Dataset for Structural Analysis of Scientific Posters
- arxiv url: http://arxiv.org/abs/2511.18329v1
- Date: Sun, 23 Nov 2025 07:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.780771
- Title: SciPostLayoutTree: A Dataset for Structural Analysis of Scientific Posters
- Title(参考訳): SciPostLayoutTree:科学ポスターの構造解析用データセット
- Authors: Shohei Tanaka, Atsushi Hashimoto, Yoshitaka Ushiku,
- Abstract要約: ポスターの読み順と親子関係の分析は、構造を意識した要約の構築に不可欠である。
学術的なコミュニケーションが盛んに行われているにもかかわらず、ポスターは構造解析研究に過小評価されている。
SciPostTreeは、約8000のポスターを収集し、読み順と親子関係を構築した。
- 参考スコア(独自算出の注目度): 13.142607539907745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific posters play a vital role in academic communication by presenting ideas through visual summaries. Analyzing reading order and parent-child relations of posters is essential for building structure-aware interfaces that facilitate clear and accurate understanding of research content. Despite their prevalence in academic communication, posters remain underexplored in structural analysis research, which has primarily focused on papers. To address this gap, we constructed SciPostLayoutTree, a dataset of approximately 8,000 posters annotated with reading order and parent-child relations. Compared to an existing structural analysis dataset, SciPostLayoutTree contains more instances of spatially challenging relations, including upward, horizontal, and long-distance relations. As a solution to these challenges, we develop Layout Tree Decoder, which incorporates visual features as well as bounding box features including position and category information. The model also uses beam search to predict relations while capturing sequence-level plausibility. Experimental results demonstrate that our model improves the prediction accuracy for spatially challenging relations and establishes a solid baseline for poster structure analysis. The dataset is publicly available at https://huggingface.co/datasets/omron-sinicx/scipostlayouttree. The code is also publicly available at https://github.com/omron-sinicx/scipostlayouttree.
- Abstract(参考訳): 科学ポスターは、視覚的な要約を通してアイデアを提示することで学術的なコミュニケーションにおいて重要な役割を担っている。
ポスターの読み順と親子関係の分析は,研究内容の明確かつ正確な理解を促進する構造認識インタフェースの構築に不可欠である。
学術的なコミュニケーションが盛んであるにもかかわらず、ポスターは主に論文に焦点を当てた構造分析研究に過小評価されている。
そこで我々はSciPostLayoutTreeを構築した。これは約8000のポスターに読み順序と親子関係を付加したデータセットである。
既存の構造解析データセットと比較して、SciPostLayoutTreeには、上向き、水平方向、長距離関係を含む、空間的に困難な関係のより多くのインスタンスが含まれている。
これらの課題に対する解決策として,視覚的特徴を取り入れたレイアウトツリーデコーダと,位置情報やカテゴリ情報を含むバウンディングボックス機能を開発した。
また、ビームサーチを用いて関係を予測し、シーケンスレベルの妥当性をキャプチャする。
実験結果から,空間的課題のある関係の予測精度が向上し,ポスター構造解析のためのソリッドベースラインが確立された。
データセットはhttps://huggingface.co/datasets/omron-sinicx/scipostlayouttreeで公開されている。
コードはhttps://github.com/omron-sinicx/scipostlayouttreeでも公開されている。
関連論文リスト
- Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Exploring Sparse Spatial Relation in Graph Inference for Text-Based VQA [45.98167752508643]
本稿では,空間認識型関係解析技術を導入した空間グラフネットワーク(SSGN)を提案する。
TextVQAとST-VQAデータセットの実験結果は、SSGNが有望なパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-10-13T14:39:34Z) - Generating Topological Structure of Floorplans from Room Attributes [4.1715767752637145]
反復型および適応型グラフトポロジ学習(ITL)を用いて,部屋属性からトポロジ情報を抽出することを提案する。
ITLは部屋間の複数の関係を徐々に予測し、各イテレーションでノードの埋め込みを改善し、それによってより優れたトポロジグラフ構造を生成する。
論文 参考訳(メタデータ) (2022-04-26T14:24:58Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - CORAL: COde RepresentAtion Learning with Weakly-Supervised Transformers
for Analyzing Data Analysis [33.190021245507445]
ソースコード、特に科学的なソースコードの大規模解析は、データサイエンスのプロセスをよりよく理解する約束を持っている。
本稿では,抽象構文木と周辺自然言語コメントからコードの共同表現を計算するための,弱い教師付きトランスフォーマーベースのアーキテクチャを提案する。
本モデルでは,手軽に手軽に管理できる弱さを生かし,専門家による供給よりも38%の精度向上を実現し,ベースラインを上回ります。
論文 参考訳(メタデータ) (2020-08-28T19:57:49Z) - HOSE-Net: Higher Order Structure Embedded Network for Scene Graph
Generation [20.148175528691905]
本稿では,関係の局所的および大域的構造情報を出力空間に組み込むための新しい構造認識型組込み分類器(SEC)モジュールを提案する。
また,高次構造情報を導入して部分空間の数を減らし,階層的セマンティックアグリゲーション(HSA)モジュールを提案する。
提案したHOSE-Netは、Visual GenomeとVRDの2つの人気のあるベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-08-12T07:58:13Z) - Linguistically Driven Graph Capsule Network for Visual Question
Reasoning [153.76012414126643]
我々は「言語的に駆動されるグラフカプセルネットワーク」と呼ばれる階層的構成推論モデルを提案する。
具体的には,各カプセルを最下層に結合させ,元の質問に1つの単語を埋め込んだ言語的埋め込みを視覚的証拠で橋渡しする。
CLEVRデータセット、CLEVR合成生成テスト、およびFinalQAデータセットの実験は、我々のエンドツーエンドモデルの有効性と構成一般化能力を示す。
論文 参考訳(メタデータ) (2020-03-23T03:34:25Z) - Weakly-Supervised Salient Object Detection via Scribble Annotations [54.40518383782725]
本稿では,スクリブルラベルからサリエンシを学習するための弱教師付きサリエント物体検出モデルを提案する。
そこで本研究では,予測されたサリエンシマップの構造アライメントを測定するために,新しい尺度であるサリエンシ構造尺度を提案する。
我々の手法は、既存の弱教師付き/非教師付き手法よりも優れているだけでなく、いくつかの完全教師付き最先端モデルと同等である。
論文 参考訳(メタデータ) (2020-03-17T12:59:50Z) - Relational Message Passing for Knowledge Graph Completion [78.47976646383222]
本稿では,知識グラフ補完のためのリレーショナルメッセージパッシング手法を提案する。
エッジ間でリレーショナルメッセージを反復的に送信し、近隣情報を集約する。
その結果,本手法は最先端の知識完成手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2020-02-17T03:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。