論文の概要: From text saliency to linguistic objects: learning linguistic
interpretable markers with a multi-channels convolutional architecture
- arxiv url: http://arxiv.org/abs/2004.03254v1
- Date: Tue, 7 Apr 2020 10:46:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 23:05:00.335453
- Title: From text saliency to linguistic objects: learning linguistic
interpretable markers with a multi-channels convolutional architecture
- Title(参考訳): テキストサリエンシーから言語オブジェクトへ:マルチチャンネル畳み込み構造を用いた言語解釈可能なマーカーの学習
- Authors: Laurent Vanni, Marco Corneli, Damon Mayaffre, Fr\'ed\'eric Precioso
- Abstract要約: 本稿では,分類プロセスを利用したテキストから解釈可能な言語オブジェクトを抽出するために,実装されたCNNの隠れ層を検査する手法を提案する。
我々は、英語とフランス語の2つの異なる言語からのコーパスに対するアプローチの効率を実証的に実証した。
- 参考スコア(独自算出の注目度): 2.064612766965483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A lot of effort is currently made to provide methods to analyze and
understand deep neural network impressive performances for tasks such as image
or text classification. These methods are mainly based on visualizing the
important input features taken into account by the network to build a decision.
However these techniques, let us cite LIME, SHAP, Grad-CAM, or TDS, require
extra effort to interpret the visualization with respect to expert knowledge.
In this paper, we propose a novel approach to inspect the hidden layers of a
fitted CNN in order to extract interpretable linguistic objects from texts
exploiting classification process. In particular, we detail a weighted
extension of the Text Deconvolution Saliency (wTDS) measure which can be used
to highlight the relevant features used by the CNN to perform the
classification task. We empirically demonstrate the efficiency of our approach
on corpora from two different languages: English and French. On all datasets,
wTDS automatically encodes complex linguistic objects based on co-occurrences
and possibly on grammatical and syntax analysis.
- Abstract(参考訳): 画像やテキストの分類などのタスクにおいて、深層ニューラルネットワークが印象的なパフォーマンスを解析し、理解するための方法を提供するために、現在多くの努力が払われている。
これらの手法は主に、意思決定のためにネットワークが考慮した重要な入力特徴を可視化することに基づいている。
しかし、これらのテクニック、例えば、lime、shap、grad-cam、tdsを引用すると、専門家の知識に関して可視化を解釈するのに余計な労力が必要となる。
本稿では,分類過程を利用したテキストから解釈可能な言語オブジェクトを抽出するために,cnnの隠れた層を検査する新しい手法を提案する。
特に、cnnが分類タスクを実行するために使用する関連する特徴を強調するために使用できる、wtd(text deconvolution saliency)尺度の重み付き拡張について詳述する。
我々は、英語とフランス語の2つの異なる言語からのコーパスに対するアプローチの効率を実証的に実証した。
すべてのデータセットにおいて、wTDSは共起や文法や構文解析に基づく複雑な言語オブジェクトを自動的に符号化する。
関連論文リスト
- Towards Interpreting Visual Information Processing in Vision-Language Models [24.51408101801313]
VLM(Vision-Language Models)は、テキストや画像の処理と理解のための強力なツールである。
著名なVLMであるLLaVAの言語モデルコンポーネントにおける視覚トークンの処理について検討する。
論文 参考訳(メタデータ) (2024-10-09T17:55:02Z) - LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。
特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2024-05-29T15:35:09Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - A Knowledge-Enhanced Adversarial Model for Cross-lingual Structured
Sentiment Analysis [31.05169054736711]
言語間構造的感情分析タスクは、ソース言語からターゲット言語へ知識を伝達することを目的としている。
本稿では,暗黙的分散と明示的構造的知識を両立させた知識強化逆数モデル(textttKEAM)を提案する。
我々は5つのデータセットの実験を行い、textttKEAMと教師なしおよび教師なしの両方の手法を比較した。
論文 参考訳(メタデータ) (2022-05-31T03:07:51Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - AttViz: Online exploration of self-attention for transparent neural
language modeling [7.574392147428978]
本研究では,AttVizを提案する。AttVizは,個々のテキストトークンに関連付けられた自己注意値の探索を行うオンラインツールキットである。
既存のディープラーニングパイプラインが、AttVizに適したアウトプットを生成し、最小限の労力で、アテンションヘッドとアグリゲーションの新たな視覚化を提供する方法を示します。
論文 参考訳(メタデータ) (2020-05-12T12:21:40Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。