論文の概要: Multi-environment Topic Models
- arxiv url: http://arxiv.org/abs/2410.24126v2
- Date: Fri, 01 Nov 2024 01:49:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:34:08.455116
- Title: Multi-environment Topic Models
- Title(参考訳): 多環境トピックモデル
- Authors: Dominic Sobhani, Amir Feder, David Blei,
- Abstract要約: 我々は,グローバルおよび環境特化用語を分離した教師なし確率モデルであるマルチ環境トピックモデル(MTM)を導入する。
MTMは、異なる環境特化語で解釈可能なグローバルトピックを生成する。
また、正確な因果関係の発見も可能である。
- 参考スコア(独自算出の注目度): 8.609587510471943
- License:
- Abstract: Probabilistic topic models are a powerful tool for extracting latent themes from large text datasets. In many text datasets, we also observe per-document covariates (e.g., source, style, political affiliation) that act as environments that modulate a "global" (environment-agnostic) topic representation. Accurately learning these representations is important for prediction on new documents in unseen environments and for estimating the causal effect of topics on real-world outcomes. To this end, we introduce the Multi-environment Topic Model (MTM), an unsupervised probabilistic model that separates global and environment-specific terms. Through experimentation on various political content, from ads to tweets and speeches, we show that the MTM produces interpretable global topics with distinct environment-specific words. On multi-environment data, the MTM outperforms strong baselines in and out-of-distribution. It also enables the discovery of accurate causal effects.
- Abstract(参考訳): 確率論的トピックモデルは、大きなテキストデータセットから潜在テーマを抽出する強力なツールである。
多くのテキストデータセットでは、文書ごとの共変量(例えば、ソース、スタイル、政治的アフィリエイト)も観察し、"グローバル"(環境に依存しない)トピック表現を変調する環境として機能する。
これらの表現を正確に学習することは、目に見えない環境における新しい文書の予測や、現実世界の成果に対するトピックの因果的影響を推定するために重要である。
この目的のために,グローバルおよび環境特化用語を分離した教師なし確率モデルであるMulti-Environment Topic Model (MTM)を導入する。
広告からツイート,スピーチに至るまで,様々な政治内容の実験を通じて,MTMが異なる環境特化語で解釈可能なグローバルトピックを生成することを示す。
マルチ環境データでは、MTMは強いベースラインとアウト・オブ・ディストリビューションを上回ります。
また、正確な因果関係の発見も可能である。
関連論文リスト
- Capturing research literature attitude towards Sustainable Development Goals: an LLM-based topic modeling approach [0.7806050661713976]
持続可能な開発目標は2015年に国連によって策定され、2030年までにこれらの世界的な課題に対処した。
自然言語処理技術は、研究文献の中のSDGに関する議論を明らかにするのに役立つ。
我々は,Scopusデータベースからコンテンツを取り出し,SDGの5つのグループ専用のデータセットを作成する,完全に自動化されたパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:37:23Z) - Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions [68.92637077909693]
本稿では,グラフィカルユーザインタフェース(GUI)環境におけるマルチモーダル大規模言語モデル(MLLM)エージェントの忠実さについて検討する。
ユーザとエージェントの両方が良性であり、環境は悪質ではないが、無関係なコンテンツを含む、一般的な設定が提案されている。
実験結果から、ジェネラリストエージェントや専門的なGUIエージェントなど、最も強力なモデルでさえ、気晴らしの影響を受けやすいことが明らかとなった。
論文 参考訳(メタデータ) (2024-08-05T15:16:22Z) - WorldGPT: Empowering LLM as Multimodal World Model [51.243464216500975]
MLLM(Multimodal Large Language Model)に基づく汎用世界モデルWorldGPTを紹介する。
WorldGPTは、さまざまなドメインにまたがる数百万のビデオを分析して、世界ダイナミクスの理解を得る。
マルチモーダル状態遷移予測ベンチマークWorldNetの評価を行う。
論文 参考訳(メタデータ) (2024-04-28T14:42:02Z) - EcoVerse: An Annotated Twitter Dataset for Eco-Relevance Classification, Environmental Impact Analysis, and Stance Detection [0.0]
EcoVerseは、さまざまな環境トピックにまたがる3,023のツイートからなる、英語の注釈付きTwitterデータセットである。
本研究では,環境関連分類,スタンス検出,環境影響分析のための独自のアプローチの導入を目的とした3段階のアノテーションスキームを提案する。
論文 参考訳(メタデータ) (2024-04-08T01:21:11Z) - LITE: Modeling Environmental Ecosystems with Multimodal Large Language Models [25.047123247476016]
LITEは環境生態系モデリングのための大きな言語モデルである。
異なる環境変数を自然言語記述や線グラフ画像に変換することで統一する。
このステップでは、不完全な機能は、sparse Mixture-of-Expertsフレームワークによって説明される。
論文 参考訳(メタデータ) (2024-04-01T15:14:07Z) - Deep Generative Model for Simultaneous Range Error Mitigation and
Environment Identification [29.827191184889898]
本稿では,環境の同時検出のためのDGM(Deep Generative Model)を提案する。
一般的なUltraワイドバンドデータセットの実験では、レンジエラー軽減、異なる環境へのスケーラビリティ、および同時環境識別における新しい能力の優れた性能が示されている。
論文 参考訳(メタデータ) (2023-05-23T10:16:22Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Multi-Environment Pretraining Enables Transfer to Action Limited
Datasets [129.24823721649028]
強化学習では、意思決定の利用可能なデータは、アクションに注釈を付けないことが多い。
そこで本研究では,Emphtarget環境と他のさまざまなEmphsource環境の完全注釈付きデータセットを組み合わせることを提案する。
IDMプレトレーニング中に、さらに1つの連続ラベル付きデータの環境データセットを利用することで、アノテーションのないシーケンスに対するアクションラベルの生成が大幅に改善されることが示される。
論文 参考訳(メタデータ) (2022-11-23T22:48:22Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - DeepClimGAN: A High-Resolution Climate Data Generator [60.59639064716545]
地球系モデル(ESM)は、気候変動シナリオの将来の予測を生成するためにしばしば用いられる。
妥協として、エミュレータはかなり安価であるが、ESMの複雑さを全て備えているわけではない。
本稿では, ESMエミュレータとして, 条件付き生成逆数ネットワーク(GAN)の使用を実証する。
論文 参考訳(メタデータ) (2020-11-23T20:13:37Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。