論文の概要: Mass-Producing Failures of Multimodal Systems with Language Models
- arxiv url: http://arxiv.org/abs/2306.12105v2
- Date: Fri, 1 Mar 2024 21:28:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 03:19:26.158287
- Title: Mass-Producing Failures of Multimodal Systems with Language Models
- Title(参考訳): 言語モデルを用いたマルチモーダルシステムの大量生産失敗
- Authors: Shengbang Tong, Erik Jones, Jacob Steinhardt
- Abstract要約: MultiMonは、システム障害を自動的に識別するシステムである。
誤った合意の例としてコーパスをスクラップする。
その後、言語モデルに障害の系統的なパターンを見つけるように促す。
- 参考スコア(独自算出の注目度): 37.11288679887794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deployed multimodal systems can fail in ways that evaluators did not
anticipate. In order to find these failures before deployment, we introduce
MultiMon, a system that automatically identifies systematic failures --
generalizable, natural-language descriptions of patterns of model failures. To
uncover systematic failures, MultiMon scrapes a corpus for examples of
erroneous agreement: inputs that produce the same output, but should not. It
then prompts a language model (e.g., GPT-4) to find systematic patterns of
failure and describe them in natural language. We use MultiMon to find 14
systematic failures (e.g., "ignores quantifiers") of the CLIP text-encoder,
each comprising hundreds of distinct inputs (e.g., "a shelf with a few/many
books"). Because CLIP is the backbone for most state-of-the-art multimodal
systems, these inputs produce failures in Midjourney 5.1, DALL-E, VideoFusion,
and others. MultiMon can also steer towards failures relevant to specific use
cases, such as self-driving cars. We see MultiMon as a step towards evaluation
that autonomously explores the long tail of potential system failures. Code for
MULTIMON is available at https://github.com/tsb0601/MultiMon.
- Abstract(参考訳): デプロイされたマルチモーダルシステムは、評価者が予想しなかった方法で失敗する可能性がある。
デプロイ前にこれらの障害を見つけるために、MultiMonを導入する。MultiMonは、モデル障害のパターンを自然言語で記述する、系統的な障害を自動的に識別するシステムである。
体系的な失敗を明らかにするために、MultiMonは間違った合意の例としてコーパスをスクラップする。
その後、言語モデル(gpt-4など)に障害の系統的パターンを見つけ、自然言語で記述するように促す。
マルチモンを用いて、クリップテキストエンコーダの14の系統的障害(例えば、"ignores quantifiers"など)を見つけ、それぞれが数百の異なる入力(例えば、"a shelf with a few/many books")からなる。
CLIPは最先端のマルチモーダルシステムのバックボーンであるため、これらの入力はMidjourney 5.1、DALL-E、VideoFusionなどで失敗する。
またMultiMonは、自動運転車など特定のユースケースに関連する障害にも対応できる。
我々はMultiMonを、潜在的なシステム障害の長い尾を自律的に探究する評価へのステップと考えている。
MultiMONのコードはhttps://github.com/tsb0601/MultiMonで入手できる。
関連論文リスト
- SysBench: Can Large Language Models Follow System Messages? [30.701602680394686]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがって実装されており、これらのモデルを特定のシナリオにカスタマイズすることがますます重要になっている。
AI駆動型ソリューションを最適化するシステムメッセージの可能性は認識されているが、LLMがシステムメッセージにどの程度うまく従うかを評価するためのベンチマークは、特に欠落している。
我々は,既存のLLMの3つの制限の観点から,システムメッセージ追従能力を体系的に解析するベンチマークであるSysBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-20T15:33:16Z) - Concurrent Linguistic Error Detection (CLED) for Large Language Models [13.01669288397494]
大規模言語モデル(LLM)に対する同時言語誤り検出(CLED)を提案する。
CLEDはLLMによって生成されたテキストの言語的特徴を抽出し、エラーを検出する同時分類器に供給する。
提案手法は,ニュース要約時にT5モデル,翻訳時にOPUS-MTモデルで評価されている。
論文 参考訳(メタデータ) (2024-03-25T03:17:27Z) - AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - Robust Multimodal Failure Detection for Microservice Systems [32.25907616511765]
AnoFusionは、マイクロサービスシステムに対する教師なしの障害検出アプローチである。
異種マルチモーダルデータの相関を学習し、グラフ注意ネットワーク(GAT)とGRU(Gated Recurrent Unit)を統合する。
これはそれぞれ0.857と0.922のF1スコアを達成し、最先端の故障検出手法より優れている。
論文 参考訳(メタデータ) (2023-05-30T12:39:42Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - Capturing Failures of Large Language Models via Human Cognitive Biases [18.397404180932373]
OpenAIのCodex errsは、入力プロンプトのフレーム化、アンカーへの出力の調整、頻繁なトレーニング例を模倣する出力へのバイアスなどに基づいている。
我々の実験は、認知科学が現代の機械学習システムがどのように振る舞うかをよりよく理解するために有用な跳躍点になり得ることを示唆している。
論文 参考訳(メタデータ) (2022-02-24T18:58:52Z) - EXPLAINABOARD: An Explainable Leaderboard for NLP [69.59340280972167]
ExplainaBoardはNLP評価の新たな概念化と実装である。
研究者は(i)一つのシステムの強みと弱さを診断し、(ii)複数のシステム間の関係を解釈することができる。
論文 参考訳(メタデータ) (2021-04-13T17:45:50Z) - Listen, Read, and Identify: Multimodal Singing Language Identification [5.337127684194359]
音声コンテンツとテキストメタデータの両方を用いたマルチモーダル歌唱言語分類モデルを提案する。
提案モデルであるLRID-Netは,メタデータから推定した音声信号と言語確率ベクトルを取り,目標言語10言語の確率を出力する。
論文 参考訳(メタデータ) (2021-03-02T17:45:04Z) - The Paradigm Discovery Problem [121.79963594279893]
我々は、パラダイム発見問題を定式化し、システム判定のためのメトリクスを開発する。
5つの多言語に対する経験的結果について報告する。
私たちのコードとデータは公開されています。
論文 参考訳(メタデータ) (2020-05-04T16:38:54Z) - Imitation Attacks and Defenses for Black-box Machine Translation Systems [86.92681013449682]
ブラックボックス機械翻訳(MT)システムは高い商業価値を持ち、エラーはコストがかかる。
MTシステムはモノリンガル文を問合せし,その出力を模倣する訓練モデルを用いて盗むことができることを示す。
本稿では,模倣モデルの最適化を誤指示するために,翻訳出力を変更するディフェンスを提案する。
論文 参考訳(メタデータ) (2020-04-30T17:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。