論文の概要: Figure Descriptive Text Extraction using Ontological Representation
- arxiv url: http://arxiv.org/abs/2208.06040v1
- Date: Thu, 11 Aug 2022 21:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 12:53:48.827781
- Title: Figure Descriptive Text Extraction using Ontological Representation
- Title(参考訳): オントロジー表現を用いた図記述テキスト抽出
- Authors: Gilchan Park, Julia Rayz, Line Pouchard
- Abstract要約: 本研究は,学術論文の本体から図形記述テキストを抽出する手法を提案する。
我々は、図形関連情報の概念認識を支援するために、存在論的意味論を採用した。
以上の結果から,概念モデルにより,単語に基づく手法よりも図形記述文の分類が向上することが示唆された。
- 参考スコア(独自算出の注目度): 2.3204178451683264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Experimental research publications provide figure form resources including
graphs, charts, and any type of images to effectively support and convey
methods and results. To describe figures, authors add captions, which are often
incomplete, and more descriptions reside in body text. This work presents a
method to extract figure descriptive text from the body of scientific articles.
We adopted ontological semantics to aid concept recognition of figure-related
information, which generates human- and machine-readable knowledge
representations from sentences. Our results show that conceptual models bring
an improvement in figure descriptive sentence classification over word-based
approaches.
- Abstract(参考訳): 実験的な研究出版物は、グラフ、チャート、あらゆる種類の画像を含む図形資源を提供し、効果的にメソッドや結果をサポートし、伝達する。
図形を記述するために、著者はキャプションを追加し、しばしば不完全であり、さらに多くの記述が本文にある。
本研究は,学術論文の本体から図形記述テキストを抽出する手法を提案する。
文から人間や機械に読み取れる知識表現を生成する図形関連情報の概念認識を支援する存在論的意味論を用いた。
以上の結果から,概念モデルによって単語ベースアプローチよりも図形記述文の分類が改善されることが示された。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Towards a text-based quantitative and explainable histopathology image analysis [4.064178811354613]
テキストベースの定量的・説明可能な病理画像解析を提案し,これをTQxと呼ぶ。
検索した単語は、病理像を定量化し、理解可能な特徴埋め込みを生成するために使用される。
その結果、TQxは、計算病理学における一般的な視覚モデルに匹敵する病理像を定量化し、分析できることを示した。
論文 参考訳(メタデータ) (2024-07-10T04:33:43Z) - DiffusionPID: Interpreting Diffusion via Partial Information Decomposition [24.83767778658948]
入力テキストプロンプトを基本成分に分解するために,情報理論の原理を適用した。
個々のトークンとその相互作用が生成した画像をどのように形成するかを分析する。
PIDはテキスト・画像拡散モデルの評価と診断のための強力なツールであることを示す。
論文 参考訳(メタデータ) (2024-06-07T18:17:17Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z) - Best Prompts for Text-to-Image Models and How to Find Them [1.9531522349116028]
遺伝的アルゴリズムを用いて,最も有用なキーワードの組み合わせを学習する。
このようなアプローチが,同じ記述を描写した画像の美的魅力をいかに向上させるかを示す。
論文 参考訳(メタデータ) (2022-09-23T16:39:13Z) - Visual Clues: Bridging Vision and Language Foundations for Image
Paragraph Captioning [78.07495777674747]
我々は、視覚的手がかりを用いて、大きな事前訓練された視覚基盤モデルと言語モデルをブリッジすることで、余分なクロスモーダルトレーニングなしでそれを行うことができると論じる。
基礎モデルの強力なゼロショット機能のおかげで、画像のリッチなセマンティック表現を構築することから始める。
大規模言語モデルを用いて視覚的コンテンツを包括的に記述し、視覚モデルによって再度検証し、画像に最適な候補を選択する。
論文 参考訳(メタデータ) (2022-06-03T22:33:09Z) - Describing image focused in cognitive and visual details for visually
impaired people: An approach to generating inclusive paragraphs [2.362412515574206]
ウェブナーなど、オンラインコンテンツに表示される画像コンテキストの理解など、特定のタスクをサポートするサービスが不足している。
本稿では,高密度キャプション手法とフィルタを併用したウェビナー画像のコンテキスト生成手法を提案し,ドメイン内のキャプションに適合する手法と抽象要約タスクのための言語モデルを提案する。
論文 参考訳(メタデータ) (2022-02-10T21:20:53Z) - Deep Learning Approaches on Image Captioning: A Review [0.5852077003870417]
画像キャプションは、静止画像の形で視覚コンテンツのための自然言語記述を生成することを目的としている。
ディープラーニングとビジョン言語による事前学習技術がこの分野に革命をもたらし、より洗練された手法と性能の向上につながった。
この分野で直面している課題は、対象の幻覚、欠落した文脈、照明条件、文脈理解、参照表現といった課題を強調することで解決する。
画像とテキストのモダリティ間の情報不一致問題への対処、データセットバイアスの軽減、字幕生成を向上するための視覚言語事前学習手法の導入、精度向上のための評価ツールの開発など、この分野における研究の今後の方向性について検討する。
論文 参考訳(メタデータ) (2022-01-31T00:39:37Z) - A Diagnostic Study of Explainability Techniques for Text Classification [52.879658637466605]
既存の説明可能性技術を評価するための診断特性のリストを作成する。
そこで本研究では, モデルの性能と有理性との整合性の関係を明らかにするために, 説明可能性手法によって割り当てられた有理性スコアと有理性入力領域の人間のアノテーションを比較した。
論文 参考訳(メタデータ) (2020-09-25T12:01:53Z) - Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。
提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文 参考訳(メタデータ) (2020-02-12T21:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。