論文の概要: Assessing the trade-off between prediction accuracy and interpretability
for topic modeling on energetic materials corpora
- arxiv url: http://arxiv.org/abs/2206.00773v1
- Date: Wed, 1 Jun 2022 21:28:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 13:23:59.333165
- Title: Assessing the trade-off between prediction accuracy and interpretability
for topic modeling on energetic materials corpora
- Title(参考訳): エネルギー材料コーパスのトピックモデリングにおける予測精度と解釈可能性のトレードオフ評価
- Authors: Monica Puerto, Mason Kellett, Rodanthi Nikopoulou, Mark D. Fuge, Ruth
Doherty, Peter W. Chung, and Zois Boukouvalas
- Abstract要約: 本稿では,3つの文書埋め込み手法を用いて,予測精度と解釈可能性のトレードオフについて検討する。
本研究は,我々のエネルギティクスの専門家チームが作成した新しいラベル付きエネルギティクスデータセットを用いて行った。
- 参考スコア(独自算出の注目度): 2.1694433437280765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the amount and variety of energetics research increases, machine aware
topic identification is necessary to streamline future research pipelines. The
makeup of an automatic topic identification process consists of creating
document representations and performing classification. However, the
implementation of these processes on energetics research imposes new
challenges. Energetics datasets contain many scientific terms that are
necessary to understand the context of a document but may require more complex
document representations. Secondly, the predictions from classification must be
understandable and trusted by the chemists within the pipeline. In this work,
we study the trade-off between prediction accuracy and interpretability by
implementing three document embedding methods that vary in computational
complexity. With our accuracy results, we also introduce local interpretability
model-agnostic explanations (LIME) of each prediction to provide a localized
understanding of each prediction and to validate classifier decisions with our
team of energetics experts. This study was carried out on a novel labeled
energetics dataset created and validated by our team of energetics experts.
- Abstract(参考訳): エネルギー研究の量と多様性が増大するにつれて、将来の研究パイプラインを合理化するためには、機械認識のトピック識別が必要である。
自動トピック識別プロセスの構成は、文書表現の作成と分類からなる。
しかし、エネルギー研究におけるこれらのプロセスの実装は、新しい課題を課している。
エネルギーデータセットには、文書のコンテキストを理解するのに必要な多くの科学的用語が含まれているが、より複雑な文書表現を必要とすることもある。
第二に、分類からの予測はパイプライン内の化学者によって理解され信頼されなければならない。
本研究では,計算複雑性の異なる3つの文書埋め込み手法を実装することにより,予測精度と解釈可能性のトレードオフを検討する。
また,各予測の局所的解釈可能性モデルに依存しない説明(LIME)を導入し,各予測の局所的理解と,エネルギー専門家チームによる分類決定の検証を行った。
本研究は,我々のエネルギティクスの専門家チームが作成した新しいラベル付きエネルギティクスデータセットを用いて行った。
関連論文リスト
- Probing the limitations of multimodal language models for chemistry and materials research [3.422786943576035]
実世界の化学や材料科学のタスクを視覚言語モデルがどのように扱うかを評価するためのベンチマークであるMaCBenchを紹介する。
これらのシステムは、基本的な知覚タスクにおいて有望な能力を示すが、空間的推論、クロスモーダル情報合成、論理的推論の基本的な限界を示す。
私たちの洞察は、化学や材料科学以外にも重要な意味を持ち、信頼性の高いマルチモーダルAI科学アシスタントを開発するには、適切なトレーニングデータとそれらのモデルをトレーニングするためのアプローチのキュレーションの進歩が必要であることを示唆している。
論文 参考訳(メタデータ) (2024-11-25T21:51:45Z) - Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Causal Representation Learning from Multimodal Biological Observations [57.00712157758845]
我々は,マルチモーダルデータに対するフレキシブルな識別条件の開発を目指している。
我々は、各潜伏成分の識別可能性を保証するとともに、サブスペース識別結果を事前の作業から拡張する。
我々の重要な理論的要素は、異なるモーダル間の因果関係の構造的空間性である。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - BLADE: Benchmarking Language Model Agents for Data-Driven Science [18.577658530714505]
プランニング、メモリ、コード実行機能を備えたLMベースのエージェントは、データ駆動科学をサポートする可能性がある。
本稿では,エージェントの多面的アプローチを自動的に評価するベンチマークBLADEについて述べる。
論文 参考訳(メタデータ) (2024-08-19T02:59:35Z) - From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models [98.41645229835493]
グラフ形式のデータの可視化は、データ分析において重要な役割を担い、重要な洞察を提供し、情報的な意思決定を支援する。
大規模言語モデルのような大規模な基盤モデルは、様々な自然言語処理タスクに革命をもたらした。
本研究は,自然言語処理,コンピュータビジョン,データ解析の分野における研究者や実践者の包括的資源として機能する。
論文 参考訳(メタデータ) (2024-03-18T17:57:09Z) - Transformers and Language Models in Form Understanding: A Comprehensive
Review of Scanned Document Analysis [16.86139440201837]
我々は、スキャンされた文書の文脈におけるフォーム理解のトピックに焦点を当てる。
我々の研究手法は、人気文書の詳細な分析と過去10年間のトレンドの理解の形式に関するものである。
我々は、トランスフォーマーがいかにフィールドを前進させ、フォームアンダード技術に革命をもたらしたかを紹介する。
論文 参考訳(メタデータ) (2024-03-06T22:22:02Z) - NLP for Knowledge Discovery and Information Extraction from Energetics
Corpora [0.0]
エネルギー材料および関連システムの研究を支援するためのNLPの有用性を実証する。
NLP法はテキストデータの機械的理解を可能にし,知識発見と情報抽出のための自動経路を提供する。
論文 参考訳(メタデータ) (2024-02-10T14:43:08Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Data Mining in Clinical Trial Text: Transformers for Classification and
Question Answering Tasks [2.127049691404299]
本研究は,医学的テキストに基づくエビデンス合成に自然言語処理の進歩を適用した。
主な焦点は、Population、Intervention、Comparator、Outcome(PICO)フレームワークを通じて特徴づけられる情報である。
トランスフォーマーに基づく最近のニューラルネットワークアーキテクチャは、トランスファーラーニングの能力を示し、下流の自然言語処理タスクのパフォーマンスが向上している。
論文 参考訳(メタデータ) (2020-01-30T11:45:59Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。