Fugu-MT 論文翻訳(概要): Mass-Producing Failures of Multimodal Systems with Language Models

論文の概要: Mass-Producing Failures of Multimodal Systems with Language Models

arxiv url: http://arxiv.org/abs/2306.12105v2
Date: Fri, 1 Mar 2024 21:28:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 03:19:26.158287
Title: Mass-Producing Failures of Multimodal Systems with Language Models
Title（参考訳）: 言語モデルを用いたマルチモーダルシステムの大量生産失敗
Authors: Shengbang Tong, Erik Jones, Jacob Steinhardt
Abstract要約: MultiMonは、システム障害を自動的に識別するシステムである。誤った合意の例としてコーパスをスクラップする。その後、言語モデルに障害の系統的なパターンを見つけるように促す。
参考スコア（独自算出の注目度）: 37.11288679887794
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deployed multimodal systems can fail in ways that evaluators did not anticipate. In order to find these failures before deployment, we introduce MultiMon, a system that automatically identifies systematic failures -- generalizable, natural-language descriptions of patterns of model failures. To uncover systematic failures, MultiMon scrapes a corpus for examples of erroneous agreement: inputs that produce the same output, but should not. It then prompts a language model (e.g., GPT-4) to find systematic patterns of failure and describe them in natural language. We use MultiMon to find 14 systematic failures (e.g., "ignores quantifiers") of the CLIP text-encoder, each comprising hundreds of distinct inputs (e.g., "a shelf with a few/many books"). Because CLIP is the backbone for most state-of-the-art multimodal systems, these inputs produce failures in Midjourney 5.1, DALL-E, VideoFusion, and others. MultiMon can also steer towards failures relevant to specific use cases, such as self-driving cars. We see MultiMon as a step towards evaluation that autonomously explores the long tail of potential system failures. Code for MULTIMON is available at https://github.com/tsb0601/MultiMon.
Abstract（参考訳）: デプロイされたマルチモーダルシステムは、評価者が予想しなかった方法で失敗する可能性がある。デプロイ前にこれらの障害を見つけるために、MultiMonを導入する。MultiMonは、モデル障害のパターンを自然言語で記述する、系統的な障害を自動的に識別するシステムである。体系的な失敗を明らかにするために、MultiMonは間違った合意の例としてコーパスをスクラップする。その後、言語モデル(gpt-4など)に障害の系統的パターンを見つけ、自然言語で記述するように促す。マルチモンを用いて、クリップテキストエンコーダの14の系統的障害(例えば、"ignores quantifiers"など)を見つけ、それぞれが数百の異なる入力(例えば、"a shelf with a few/many books")からなる。 CLIPは最先端のマルチモーダルシステムのバックボーンであるため、これらの入力はMidjourney 5.1、DALL-E、VideoFusionなどで失敗する。またMultiMonは、自動運転車など特定のユースケースに関連する障害にも対応できる。我々はMultiMonを、潜在的なシステム障害の長い尾を自律的に探究する評価へのステップと考えている。 MultiMONのコードはhttps://github.com/tsb0601/MultiMonで入手できる。

関連論文リスト

Bayesian Joint Model of Multi-Sensor and Failure Event Data for Multi-Mode Failure Prediction [2.8123958518740544]
現代の産業システムには複数の障害モードがあり、その状態は複数のセンサーで監視されている。システムの残りの有用な寿命(RUL)を正確に予測するには、マルチセンサーの時系列データを効果的に活用する必要がある。本稿では,マルチセンサの時系列データと複数障害モードに関する障害時間とを協調的にモデル化するための統一的なアプローチを提案する。
論文参考訳（メタデータ） (2025-06-20T14:44:15Z)
Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文参考訳（メタデータ） (2025-04-12T15:03:00Z)
Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文参考訳（メタデータ） (2025-02-05T18:58:19Z)
Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文参考訳（メタデータ） (2025-01-02T22:26:54Z)
SysBench: Can Large Language Models Follow System Messages? [30.701602680394686]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがって実装されており、これらのモデルを特定のシナリオにカスタマイズすることがますます重要になっている。 AI駆動型ソリューションを最適化するシステムメッセージの可能性は認識されているが、LLMがシステムメッセージにどの程度うまく従うかを評価するためのベンチマークは、特に欠落している。我々は,既存のLLMの3つの制限の観点から,システムメッセージ追従能力を体系的に解析するベンチマークであるSysBenchを紹介する。
論文参考訳（メタデータ） (2024-08-20T15:33:16Z)
Concurrent Linguistic Error Detection (CLED) for Large Language Models [13.01669288397494]
大規模言語モデル(LLM)に対する同時言語誤り検出(CLED)を提案する。 CLEDはLLMによって生成されたテキストの言語的特徴を抽出し、エラーを検出する同時分類器に供給する。提案手法は,ニュース要約時にT5モデル,翻訳時にOPUS-MTモデルで評価されている。
論文参考訳（メタデータ） (2024-03-25T03:17:27Z)
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文参考訳（メタデータ） (2024-02-19T15:33:10Z)
Robust Multimodal Failure Detection for Microservice Systems [32.25907616511765]
AnoFusionは、マイクロサービスシステムに対する教師なしの障害検出アプローチである。異種マルチモーダルデータの相関を学習し、グラフ注意ネットワーク(GAT)とGRU(Gated Recurrent Unit)を統合する。これはそれぞれ0.857と0.922のF1スコアを達成し、最先端の故障検出手法より優れている。
論文参考訳（メタデータ） (2023-05-30T12:39:42Z)
Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文参考訳（メタデータ） (2023-05-28T13:19:12Z)
Capturing Failures of Large Language Models via Human Cognitive Biases [18.397404180932373]
OpenAIのCodex errsは、入力プロンプトのフレーム化、アンカーへの出力の調整、頻繁なトレーニング例を模倣する出力へのバイアスなどに基づいている。我々の実験は、認知科学が現代の機械学習システムがどのように振る舞うかをよりよく理解するために有用な跳躍点になり得ることを示唆している。
論文参考訳（メタデータ） (2022-02-24T18:58:52Z)
EXPLAINABOARD: An Explainable Leaderboard for NLP [69.59340280972167]
ExplainaBoardはNLP評価の新たな概念化と実装である。研究者は(i)一つのシステムの強みと弱さを診断し、(ii)複数のシステム間の関係を解釈することができる。
論文参考訳（メタデータ） (2021-04-13T17:45:50Z)
Listen, Read, and Identify: Multimodal Singing Language Identification [5.337127684194359]
音声コンテンツとテキストメタデータの両方を用いたマルチモーダル歌唱言語分類モデルを提案する。提案モデルであるLRID-Netは,メタデータから推定した音声信号と言語確率ベクトルを取り,目標言語10言語の確率を出力する。
論文参考訳（メタデータ） (2021-03-02T17:45:04Z)
The Paradigm Discovery Problem [121.79963594279893]
我々は、パラダイム発見問題を定式化し、システム判定のためのメトリクスを開発する。 5つの多言語に対する経験的結果について報告する。私たちのコードとデータは公開されています。
論文参考訳（メタデータ） (2020-05-04T16:38:54Z)
Imitation Attacks and Defenses for Black-box Machine Translation Systems [86.92681013449682]
ブラックボックス機械翻訳(MT)システムは高い商業価値を持ち、エラーはコストがかかる。 MTシステムはモノリンガル文を問合せし,その出力を模倣する訓練モデルを用いて盗むことができることを示す。本稿では,模倣モデルの最適化を誤指示するために,翻訳出力を変更するディフェンスを提案する。
論文参考訳（メタデータ） (2020-04-30T17:56:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。