Fugu-MT 論文翻訳(概要): Negation Blindness in Large Language Models: Unveiling the NO Syndrome in Image Generation

論文の概要: Negation Blindness in Large Language Models: Unveiling the NO Syndrome in Image Generation

arxiv url: http://arxiv.org/abs/2409.00105v2
Date: Wed, 4 Sep 2024 14:40:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 17:07:21.818824
Title: Negation Blindness in Large Language Models: Unveiling the NO Syndrome in Image Generation
Title（参考訳）: 大規模言語モデルにおける否定的盲点:画像生成におけるNO症候群の解明
Authors: Mohammad Nadeem, Shahab Saquib Sohail, Erik Cambria, Björn W. Schuller, Amir Hussain,
Abstract要約: 基礎的な大規模言語モデル(LLM)は、私たちが技術を理解する方法を変えました。詩の執筆からコーディング、エッセイ生成、パズルの解決まで、様々な課題に長けていることが示されている。画像生成機能の導入により、より包括的で汎用的なAIツールとなった。現在特定されている欠陥には、幻覚、偏見、有害なコンテンツを生成するために制限されたコマンドをバイパスすることが含まれる。
参考スコア（独自算出の注目度）: 63.064204206220936
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Foundational Large Language Models (LLMs) have changed the way we perceive technology. They have been shown to excel in tasks ranging from poem writing and coding to essay generation and puzzle solving. With the incorporation of image generation capability, they have become more comprehensive and versatile AI tools. At the same time, researchers are striving to identify the limitations of these tools to improve them further. Currently identified flaws include hallucination, biases, and bypassing restricted commands to generate harmful content. In the present work, we have identified a fundamental limitation related to the image generation ability of LLMs, and termed it The NO Syndrome. This negation blindness refers to LLMs inability to correctly comprehend NO related natural language prompts to generate the desired images. Interestingly, all tested LLMs including GPT-4, Gemini, and Copilot were found to be suffering from this syndrome. To demonstrate the generalization of this limitation, we carried out simulation experiments and conducted entropy-based and benchmark statistical analysis tests on various LLMs in multiple languages, including English, Hindi, and French. We conclude that the NO syndrome is a significant flaw in current LLMs that needs to be addressed. A related finding of this study showed a consistent discrepancy between image and textual responses as a result of this NO syndrome. We posit that the introduction of a negation context-aware reinforcement learning based feedback loop between the LLMs textual response and generated image could help ensure the generated text is based on both the LLMs correct contextual understanding of the negation query and the generated visual output.
Abstract（参考訳）: 基礎的な大規模言語モデル(LLM)は、私たちが技術を理解する方法を変えました。詩の執筆やコーディング、エッセイ生成、パズルの解き方など、様々な課題に長けていることが示されている。画像生成機能の導入により、より包括的で汎用的なAIツールとなった。同時に、研究者たちはこれらのツールの限界を特定し、さらに改善しようとしている。現在特定されている欠陥には、幻覚、偏見、有害なコンテンツを生成するために制限されたコマンドをバイパスすることが含まれる。本研究は,LLMの画像生成能力に関する基礎的限界を特定し,それを「NO症候群」と呼ぶ。この否定盲目は、所望の画像を生成するためのNO関連自然言語プロンプトを正しく理解できないLLMを指す。興味深いことに、GPT-4、Gemini、Copilotを含む全ての試験LLMがこの症候群を患っていることが判明した。この制限の一般化を実証するため、英語、ヒンディー語、フランス語を含む多言語でエントロピーベースおよびベンチマーク統計分析試験を行った。我々はNO症候群が現在のLSMの重大な欠陥であり、対処する必要があると結論づける。本研究はNO症候群の結果,画像とテキストの反応の相違がみられた。我々は,LLMのテキスト応答と生成された画像の間に,否定文脈を考慮した強化学習に基づくフィードバックループを導入することで,生成したテキストが,否定クエリの正しいコンテキスト理解と生成した視覚的出力の両方に基づいていることを保証することができると仮定する。

関連論文リスト

Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文参考訳（メタデータ） (2025-02-10T03:43:55Z)
Reasoning Over the Glyphs: Evaluation of LLM's Decipherment of Rare Scripts [0.6144680854063939]
稀なスクリプトを含む言語パズルのマルチモーダルデータセットを構築するための新しいアプローチを提案する。我々は,GPT-4o,Gemini,Claude 3.5 Sonnetといった著名なモデルを用いて,言語パズルに関する実験を行った。言語解読における現在のAI手法の長所と短所を明らかにした。
論文参考訳（メタデータ） (2025-01-29T17:24:19Z)
Randomly Sampled Language Reasoning Problems Elucidate Limitations of In-Context Learning [9.75748930802634]
機械学習の性能を向上させるために,テキスト内学習の能力について検討する。非常に単純なドメインを考える: 単純な言語タスクにおける次のトークン予測。この課題において LLM は n-gram モデルに一様に劣ることがわかった。
論文参考訳（メタデータ） (2025-01-06T07:57:51Z)
Knowledge Graphs, Large Language Models, and Hallucinations: An NLP Perspective [5.769786334333616]
大規模言語モデル(LLM)は、自動テキスト生成や質問応答などを含む自然言語処理(NLP)ベースのアプリケーションに革命をもたらした。幻覚では、モデルがもっともらしい音を出すが、実際には正しくない反応を生成する。本稿では,現状のデータセットやベンチマーク,知識統合や幻覚評価の手法など,これらのオープンな課題について論じる。
論文参考訳（メタデータ） (2024-11-21T16:09:05Z)
A Methodology for Explainable Large Language Models with Integrated Gradients and Linguistic Analysis in Text Classification [2.556395214262035]
アルツハイマー病(AD)のような発声に影響を及ぼす神経疾患は、患者と介護者の生活に大きな影響を及ぼす。近年のLarge Language Model (LLM) アーキテクチャの進歩は、自然発声による神経疾患の代表的特徴を識別する多くのツールを開発した。本稿では,ADに代表される語彙成分を識別できるSLIME法を提案する。
論文参考訳（メタデータ） (2024-09-30T21:45:02Z)
Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文参考訳（メタデータ） (2024-07-04T18:47:42Z)
Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。 1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文参考訳（メタデータ） (2024-04-25T13:10:48Z)
A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models [7.705767540805267]
大きな言語モデル(LLM)は、人間のようなテキストを書く能力の進歩を続けている。重要な課題は、事実に見えるが根拠のないコンテンツを生み出すことを幻覚させる傾向にある。本稿では,LLMにおける幻覚を緩和するために開発された32以上の技術について調査する。
論文参考訳（メタデータ） (2024-01-02T17:56:30Z)
Improving Factual Consistency of Text Summarization by Adversarially Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。これらの幻覚は、従来の方法による検出が困難である。 LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文参考訳（メタデータ） (2023-10-30T08:40:16Z)
Evaluating, Understanding, and Improving Constrained Text Generation for Large Language Models [49.74036826946397]
本研究では,大言語モデル(LLM)の制約付きテキスト生成について検討する。本研究は主に,制約を語彙型,構造型,関係型に分類するオープンソース LLM に重点を置いている。その結果、LLMの能力と不足を照らし、制約を取り入れ、制約付きテキスト生成における将来の発展に対する洞察を提供する。
論文参考訳（メタデータ） (2023-10-25T03:58:49Z)
LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文参考訳（メタデータ） (2023-05-19T07:44:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。