Fugu-MT 論文翻訳(概要): End-to-End Attention-based Image Captioning

論文の概要: End-to-End Attention-based Image Captioning

arxiv url: http://arxiv.org/abs/2104.14721v1
Date: Fri, 30 Apr 2021 01:54:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-04 02:04:56.590911
Title: End-to-End Attention-based Image Captioning
Title（参考訳）: 注意に基づく画像キャプション
Authors: Carola Sundaramoorthy, Lin Ziwen Kelvin, Mahak Sarin, Shubham Gupta
Abstract要約: 本稿では,特に分子翻訳における画像キャプションの問題について述べる。その結果は、所定の分子構造に対するInChI形式での予測された化学記法となる。この問題を克服するためのエンドツーエンドトランスモデルを提案する。
参考スコア（独自算出の注目度）: 9.51556587612669
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we address the problem of image captioning specifically for molecular translation where the result would be a predicted chemical notation in InChI format for a given molecular structure. Current approaches mainly follow rule-based or CNN+RNN based methodology. However, they seem to underperform on noisy images and images with small number of distinguishable features. To overcome this, we propose an end-to-end transformer model. When compared to attention-based techniques, our proposed model outperforms on molecular datasets.
Abstract（参考訳）: 本稿では,特定の分子構造に対してinchi形式の化学記法が予測される場合,特に分子翻訳のための画像キャプションの問題に対処する。現在のアプローチは主にルールベースまたはCNN+RNNベースの方法論に従っている。しかし、ノイズの多い画像や少数の特徴を持つ画像では性能が劣っているようである。そこで本研究では,エンドツーエンドトランスモデルを提案する。注意に基づく手法と比較すると,提案手法は分子データセットよりも優れている。

関連論文リスト

RxnCaption: Reformulating Reaction Diagram Parsing as Visual Prompt Guided Captioning [51.393018266721576]
化学反応図解析(RxnDP)のためのRxnCaptionフレームワークを提案する。本フレームワークは,従来の座標予測による解析処理を画像キャプション問題に再構成する。我々は,BBox and Index as Visual Prompt (BIVP) という,最先端の分子検出器である MolYOLO を用いて,分子境界ボックスやインデックスを直接入力画像上に描画する戦略を紹介した。
論文参考訳（メタデータ） (2025-11-04T09:08:44Z)
Training Text-to-Molecule Models with Context-Aware Tokenization [48.35188892892129]
我々は、文脈認識分子T5(CAMT5)という新しいテキスト・分子モデルを提案する。分子構造を理解する上でのサブストラクチャーレベルのコンテキストの重要性に着想を得て,テキストから分子モデルへのサブストラクチャーレベルのトークン化を導入する。我々は、重要なサブ構造を優先し、CAMT5が分子意味をよりよく捉えられるように、重要度に基づくトレーニング戦略を開発する。
論文参考訳（メタデータ） (2025-08-30T07:59:02Z)
Smirk: An Atomically Complete Tokenizer for Molecular Foundation Models [0.0]
SMILES言語を対象とする13種のケミカル特異的トークン化剤を系統的に評価した。 I>smirk/i>と<i>smirk-gpe/i>の2つの新しいトークンを導入し,OpenSMILES仕様の全体を表す。
論文参考訳（メタデータ） (2024-09-19T02:36:04Z)
Data-Efficient Molecular Generation with Hierarchical Textual Inversion [48.816943690420224]
分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。 HI-Molは分子分布を理解する上での階層的情報、例えば粗い特徴ときめ細かい特徴の重要性にインスパイアされている。単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
論文参考訳（メタデータ） (2024-05-05T08:35:23Z)
MolNexTR: A Generalized Deep Learning Model for Molecular Image Recognition [4.510482519069965]
MolNexTRは、ConvNextとVision-TRansformerの強みを融合させる、新しい画像からグラフまでのディープラーニングモデルである。同時に原子と結合を予測し、それらのレイアウトルールを理解することができる。テストセットでは, MolNexTR が優れた性能を示し,81～97% の精度を達成した。
論文参考訳（メタデータ） (2024-03-06T13:17:41Z)
MultiModal-Learning for Predicting Molecular Properties: A Framework Based on Image and Graph Structures [2.5563339057415218]
MolIGは、画像とグラフ構造に基づいて分子特性を予測するための、新しいMultiModaL分子事前学習フレームワークである。両者の分子表現の強さを融合させる。ベンチマークグループ内の分子特性予測に関連する下流タスクでは、パフォーマンスが向上する。
論文参考訳（メタデータ） (2023-11-28T10:28:35Z)
Improving Diffusion-based Image Translation using Asymmetric Gradient Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2023-06-07T12:56:56Z)
MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular Representation Learning [77.31492888819935]
分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。 MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
論文参考訳（メタデータ） (2022-12-20T19:32:30Z)
Graph neural networks for the prediction of molecular structure-property relationships [59.11160990637615]
グラフニューラルネットワーク(GNN)は、分子グラフ上で直接動作する新しい機械学習手法である。 GNNは、エンドツーエンドでプロパティを学習できるため、情報記述子の必要性を回避することができる。本稿では、分子特性予測のための2つの例を通して、GNNの基礎を説明し、GNNの応用を実証する。
論文参考訳（メタデータ） (2022-07-25T11:30:44Z)
MolScribe: Robust Molecular Structure Recognition with Image-To-Graph Generation [28.93523736883784]
MolScribeは、分子構造を構築するために、原子と結合と幾何学的レイアウトを明示的に予測する画像とグラフのモデルである。 MolScribeは以前のモデルよりも大幅に優れ、公開ベンチマークで76-93%の精度を達成した。
論文参考訳（メタデータ） (2022-05-28T03:03:45Z)
Image-to-Graph Transformers for Chemical Structure Recognition [4.180435324231826]
画像から分子構造を抽出する深層学習モデルを提案する。提案モデルは,分子画像を直接対応するグラフに変換するように設計されている。エンド・ツー・エンドの学習アプローチにより、様々なソースからの多くのオープン画像と分子のペアデータを完全に活用することができる。
論文参考訳（メタデータ） (2022-02-19T11:33:54Z)
Image-Like Graph Representations for Improved Molecular Property Prediction [7.119677737397071]
本稿では,CubeMol と呼ばれる GNN の必要性を完全に回避する,新しい固有分子表現法を提案する。我々の定次元表現は、トランスモデルと組み合わせると、最先端のGNNモデルの性能を超え、拡張性を提供する。
論文参考訳（メタデータ） (2021-11-20T22:39:11Z)
Reinforced Molecular Optimization with Neighborhood-Controlled Grammars [63.84003497770347]
分子最適化のためのグラフ畳み込みポリシネットワークであるMNCE-RLを提案する。我々は、元の近傍制御された埋め込み文法を拡張して、分子グラフ生成に適用する。提案手法は, 分子最適化タスクの多種多様さにおいて, 最先端性能を実現する。
論文参考訳（メタデータ） (2020-11-14T05:42:15Z)
Multi-View Graph Neural Networks for Molecular Property Prediction [67.54644592806876]
マルチビューグラフニューラルネットワーク(MV-GNN)を提案する。 MV-GNNでは,学習過程を安定させるために,自己注意型読み出しコンポーネントと不一致損失を導入する。我々は、相互依存型メッセージパッシング方式を提案することにより、MV-GNNの表現力をさらに強化する。
論文参考訳（メタデータ） (2020-05-17T04:46:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。