論文の概要: Descripci\'on autom\'atica de secciones delgadas de rocas: una
aplicaci\'on Web
- arxiv url: http://arxiv.org/abs/2402.15039v1
- Date: Fri, 23 Feb 2024 01:22:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:00:16.348448
- Title: Descripci\'on autom\'atica de secciones delgadas de rocas: una
aplicaci\'on Web
- Title(参考訳): Descripci\'on autom\'atica de secciones delgadas de rocas: una aplicaci\on Web
- Authors: Stalyn Paucar, Christian Mej\'ia-Escobar y V\'ictor Collaguazo
- Abstract要約: 我々は,EfficientNetB7によって抽出された画像の特徴を関連づけるモデルのトレーニングのために,画像のデータセットとそのテキスト記述を構築した。
このモデルは、研究、専門的、学術的な作業に有用なリソースとなり得るので、Webアプリケーションを通じてパブリックに利用されています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The identification and characterization of various rock types is one of the
fundamental activities for geology and related areas such as mining, petroleum,
environment, industry and construction. Traditionally, a human specialist is
responsible for analyzing and explaining details about the type, composition,
texture, shape and other properties using rock samples collected in-situ or
prepared in a laboratory. The results become subjective based on experience, in
addition to consuming a large investment of time and effort. The present
proposal uses artificial intelligence techniques combining computer vision and
natural language processing to generate a textual and verbal description from a
thin section image of rock. We build a dataset of images and their respective
textual descriptions for the training of a model that associates the relevant
features of the image extracted by EfficientNetB7 with the textual description
generated by a Transformer network, reaching an accuracy value of 0.892 and a
BLEU value of 0.71. This model can be a useful resource for research,
professional and academic work, so it has been deployed through a Web
application for public use.
- Abstract(参考訳): 様々な岩類の識別と特徴付けは, 鉱業, 石油, 環境, 産業, 建設など, 地質学および関連分野の基本的な活動の1つである。
伝統的に、人間の専門家は、実験室で採取された岩石サンプルを用いて、種類、組成、テクスチャ、形状、その他の性質を分析、説明する責任がある。
結果は経験に基づいて主観的になり、時間と労力の大きな投資を消費します。
本提案では,コンピュータビジョンと自然言語処理を組み合わせた人工知能技術を用いて,岩石の薄断面画像からテクスト的・言語的記述を生成する。
我々は,EfficientNetB7 が抽出した画像の特徴と Transformer ネットワークが生成したテキスト記述とを関連づけたモデルのトレーニング用画像データセットとそのテキスト記述を作成し,精度0.892 とBLEU 値 0.71 に到達した。
このモデルは、研究、専門的、学術的な作業に有用なリソースであり、webアプリケーションを通じて公開するためにデプロイされている。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Generating Synthetic Satellite Imagery for Rare Objects: An Empirical Comparison of Models and Metrics [39.33537027948218]
合成衛星画像を生成するために微調整した生成アーキテクチャの大規模評価を行った。
ゲームエンジンからのテキスト入力と画像入力の2つのモードを条件付けて合成画像を生成する。
本研究は, 稀な物体であっても, テキストや詳細な建築レイアウトによる合成衛星画像の生成が可能であることを示す。
論文 参考訳(メタデータ) (2024-09-02T10:19:39Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Perceptual Artifacts Localization for Image Synthesis Tasks [59.638307505334076]
我々は10,168個の画像からなる新しいデータセットを導入し,それぞれに知覚的アーティファクトラベルを付加した。
提案したデータセットに基づいてトレーニングされたセグメンテーションモデルは、さまざまなタスクにまたがるアーティファクトを効果的にローカライズする。
生成した画像の知覚的アーティファクトをシームレスに修正する,革新的なズームイン・インペインティングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-09T10:22:08Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Context-driven Visual Object Recognition based on Knowledge Graphs [0.8701566919381223]
本稿では,知識グラフに符号化された外部文脈知識を用いて,ディープラーニング手法を強化する手法を提案する。
我々は、異なる文脈ビューが同じ画像データセットの学習対象表現に与える影響を調べるために、一連の実験を行った。
論文 参考訳(メタデータ) (2022-10-20T13:09:00Z) - PetroGAN: A novel GAN-based approach to generate realistic, label-free
petrographic datasets [0.0]
本研究では,GAN(Generative Adversarial Network)に基づく新しいディープラーニングフレームワークを開発し,最初のリアルな合成石油写真データセットを作成する。
トレーニングデータセットは、平面光と横偏光の両方で岩石の薄い部分の10070枚の画像で構成されている。
このアルゴリズムは264のGPU時間で訓練され、ペトログラフ画像のFr'echet Inception Distance(FID)スコアが12.49に達した。
論文 参考訳(メタデータ) (2022-04-07T01:55:53Z) - DELAUNAY: a dataset of abstract art for psychophysical and machine
learning research [0.0]
本稿では,抽象絵画のデータセットであるDELAUNAYについて紹介する。
このデータセットは、自然画像と人工パターンの中間層を提供し、様々なコンテキストで使用することができる。
私たちはDELAUNAYで市販の畳み込みニューラルネットワークをトレーニングし、その興味深い特徴をいくつか強調します。
論文 参考訳(メタデータ) (2022-01-28T13:57:32Z) - Generating Compositional Color Representations from Text [3.141061579698638]
画像検索エンジン上のユーザクエリのかなりの部分が(属性、オブジェクト)構造に従っているという事実に触発され、このような大局的な色プロファイルを生成する生成逆ネットワークを提案する。
コンポジションを学ぶためにパイプラインを設計します - 見た属性とオブジェクトを、目に見えないペアに組み合わせる機能です。
論文 参考訳(メタデータ) (2021-09-22T01:37:13Z) - MOGAN: Morphologic-structure-aware Generative Learning from a Single
Image [59.59698650663925]
近年,1つの画像のみに基づく生成モデルによる完全学習が提案されている。
多様な外観のランダムなサンプルを生成するMOGANというMOrphologic-structure-aware Generative Adversarial Networkを紹介します。
合理的な構造の維持や外観の変化など、内部機能に重点を置いています。
論文 参考訳(メタデータ) (2021-03-04T12:45:23Z) - A Heterogeneous Graph with Factual, Temporal and Logical Knowledge for
Question Answering Over Dynamic Contexts [81.4757750425247]
動的テキスト環境における質問応答について検討する。
構築したグラフ上にグラフニューラルネットワークを構築し,エンドツーエンドでモデルをトレーニングする。
論文 参考訳(メタデータ) (2020-04-25T04:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。