このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240217となっている論文です。

PDF登録状況(公開日: 20240217)

TitleAuthorsAbstract論文公表日・翻訳日
# ディープ・アンフォールディングによる無線ネットワークの最適化:2つのディープ・アンフォールディング機構の比較検討

Optimizing Wireless Networks with Deep Unfolding: Comparative Study on Two Deep Unfolding Mechanisms ( http://arxiv.org/abs/2403.18930v1 )

ライセンス: Link先を確認
Abuzar B. M. Adam, Mohammed A. M. Elhassan, Elhadj Moustapha Diallo, (参考訳) 本研究では,次世代無線ネットワークにおける電力制御を効率的に行うための2つの深い展開機構の比較研究を行う。 電力制御問題は、複数の干渉リンク上でのエネルギー効率として定式化される。 問題は非凸である。 この問題に対する2つのソリューションを設計するために、分数的なプログラミング変換を使用します。 第1の解は数値解であり、第2の解は閉形式解である。 最初のソリューションに基づいて、無線通信のドメイン知識と、データ駆動型ディープラーニングの最近の進歩を組み合わせた半展開型ディープラーニングモデルを設計する。 さらに,クローズドフォームソリューションのハイライトとして,表現力のあるクローズドフォームパワーコントロールソリューションとディープラーニングの進歩をフル活用した,完全深部展開型ディープラーニングモデルが設計されている。 シミュレーションの結果、提案したディープラーニングモデルと反復解の性能を精度と推論速度で比較し、次世代ネットワークにおけるリアルタイムアプリケーションへの適合性を示す。

In this work, we conduct a comparative study on two deep unfolding mechanisms to efficiently perform power control in the next generation wireless networks. The power control problem is formulated as energy efficiency over multiple interference links. The problem is nonconvex. We employ fractional programming transformation to design two solutions for the problem. The first solution is a numerical solution while the second solution is a closed-form solution. Based on the first solution, we design a semi-unfolding deep learning model where we combine the domain knowledge of the wireless communications and the recent advances in the data-driven deep learning. Moreover, on the highlights of the closed-form solution, fully deep unfolded deep learning model is designed in which we fully leveraged the expressive closed-form power control solution and deep learning advances. In the simulation results, we compare the performance of the proposed deep learning models and the iterative solutions in terms of accuracy and inference speed to show their suitability for the real-time application in next generation networks.
翻訳日:2024-04-01 02:25:04 公開日:2024-02-17
# 量子化アタック:モデル量子化によるトランスファー可能な敵攻撃の強化

Quantization Aware Attack: Enhancing Transferable Adversarial Attacks by Model Quantization ( http://arxiv.org/abs/2305.05875v3 )

ライセンス: Link先を確認
Yulong Yang, Chenhao Lin, Qian Li, Zhengyu Zhao, Haoran Fan, Dawei Zhou, Nannan Wang, Tongliang Liu, Chao Shen, (参考訳) 量子ニューラルネットワーク(QNN)は、異常な一般化性のため、リソース制約のあるシナリオに注目が集まっている。 しかし、現実的なブラックボックス攻撃に対するロバスト性は広く研究されていない。 このシナリオでは、異なる量子化ビット幅を持つQNN間で、特に未知のアーキテクチャや防御手法を含む逆転送性が追求される。 従来の研究では、同じアーキテクチャを共有するという条件下で異なるビット幅を持つQNN間で転送性を実現することは困難であった。 しかし、異なるアーキテクチャでは、超低ビット幅のQNNを代替モデルとして量子化することにより、転送可能性を大幅に改善できることが判明した。 マルチビットトレーニング目的のQNN代替モデルを微調整する「textit{quantization aware attack} (QAA)」を提案することにより、攻撃伝達性をさらに向上する。 特に、QAAは、転送可能性を妨げるために一般的に知られている2つの問題に対処していることを実証する。 1)量子化シフト 2) 勾配のずれ。 広範囲な実験結果により、様々なターゲットモデルに対するQAAの高い転送性が確認された。 例えば、ImageNet上のResNet-34代替モデルを採用する場合、QAAは、標準的な訓練を受けたDNN、反対に訓練されたDNN、および様々なビット幅を持つQNNに対する攻撃において、それぞれ4.3\% $\sim$ 20.9\%、 8.7\% $\sim$ 15.5\%、 2.6\% $\sim$ 31.1\%(絶対値)をそれぞれ上回っている。 さらに、QAAは微調整に1時間しかかからないため、効率的である。 最後に,損失景観の観点から,QAAの有効性を実証的に説明する。 私たちのコードはhttps://github.com/yyl-github-1896/QAA/で利用可能です。

Quantized neural networks (QNNs) have received increasing attention in resource-constrained scenarios due to their exceptional generalizability. However, their robustness against realistic black-box adversarial attacks has not been extensively studied. In this scenario, adversarial transferability is pursued across QNNs with different quantization bitwidths, which particularly involve unknown architectures and defense methods. Previous studies claim that transferability is difficult to achieve across QNNs with different bitwidths on the condition that they share the same architecture. However, we discover that under different architectures, transferability can be largely improved by using a QNN quantized with an extremely low bitwidth as the substitute model. We further improve the attack transferability by proposing \textit{quantization aware attack} (QAA), which fine-tunes a QNN substitute model with a multiple-bitwidth training objective. In particular, we demonstrate that QAA addresses the two issues that are commonly known to hinder transferability: 1) quantization shifts and 2) gradient misalignments. Extensive experimental results validate the high transferability of the QAA to diverse target models. For instance, when adopting the ResNet-34 substitute model on ImageNet, QAA outperforms the current best attack in attacking standardly trained DNNs, adversarially trained DNNs, and QNNs with varied bitwidths by 4.3\% $\sim$ 20.9\%, 8.7\% $\sim$ 15.5\%, and 2.6\% $\sim$ 31.1\% (absolute), respectively. In addition, QAA is efficient since it only takes one epoch for fine-tuning. In the end, we empirically explain the effectiveness of QAA from the view of the loss landscape. Our code is available at https://github.com/yyl-github-1896/QAA/
翻訳日:2024-03-25 23:48:38 公開日:2024-02-17
# 野生におけるプライバシ・インパクトアセスメント:スコーピングのレビュー

Privacy Impact Assessments in the Wild: A Scoping Review ( http://arxiv.org/abs/2402.11193v1 )

ライセンス: Link先を確認
Leonardo Horn Iwaya, Ala Sarah Alaqra, Marit Hansen, Simone Fischer-Hübner, (参考訳) プライバシ・インパクト・アセスメント(PIAs)は、プロジェクトやシステムのプライバシ・インパクトを評価するための体系的なプロセスを提供する。 プライバシエンジニアリング戦略として、PIAは設計によるプライバシの主なアプローチのひとつとして認識され、脅威とコントロールの早期識別をサポートする。 しかし、その取り込みや実効性に関する実証的な証拠はいまだに不足している。 文献・研究の現状をよりよく理解するために,本論文では,PRISMAガイドラインに則って,PIAの「野生」に関する総合的なScR(Scoping Review)を提供する。 その結果、このScRは45の研究を含み、既存の知識の体系を広範囲に合成し、研究と出版のタイプを分類し、一次研究の方法論的品質を評価し、PIAの実証的な側面と否定的な側面を概説する研究が報告されている。 このScRはまた、重要な研究ギャップ(例えば、矛盾する結果からの証拠ギャップと研究設計の欠陥からの方法論的ギャップ)、将来の研究経路、そして、研究者、実践者、政策立案者に対して、PIAフレームワークを開発し、評価することの意味を明らかにしている。 結論として、このトピックについて、質的かつ定量的に、より重要な研究の必要性は依然として大きい。 質的研究の批判的評価 (n=28) により, 方法論的品質の欠如が明らかとなり, 4つの定量的研究しか確認されず, 現在の一次研究は未熟であることが示唆された。 それでも、PIAは経験的プライバシエンジニアリングの幅広い分野において顕著なサブ領域と見なされ、よりエビデンスベースのプラクティスへのさらなる研究を保証している。

Privacy Impact Assessments (PIAs) offer a systematic process for assessing the privacy impacts of a project or system. As a privacy engineering strategy, PIAs are heralded as one of the main approaches to privacy by design, supporting the early identification of threats and controls. However, there is still a shortage of empirical evidence on their uptake and proven effectiveness in practice. To better understand the current state of literature and research, this paper provides a comprehensive Scoping Review (ScR) on the topic of PIAs "in the wild", following the well-established Preferred Reporting Items for Systematic reviews and Meta-Analyses (PRISMA) guidelines. As a result, this ScR includes 45 studies, providing an extensive synthesis of the existing body of knowledge, classifying types of research and publications, appraising the methodological quality of primary research, and summarising the positive and negative aspects of PIAs in practice, as reported by studies. This ScR also identifies significant research gaps (e.g., evidence gaps from contradictory results and methodological gaps from research design deficiencies), future research pathways, and implications for researchers, practitioners, and policymakers developing and evaluating PIA frameworks. As we conclude, there is still a significant need for more primary research on the topic, both qualitative and quantitative. A critical appraisal of qualitative studies (n=28) revealed deficiencies in the methodological quality, and only four quantitative studies were identified, suggesting that current primary research remains incipient. Nonetheless, PIAs can be regarded as a prominent sub-area in the broader field of Empirical Privacy Engineering, warranting further research toward more evidence-based practices.
翻訳日:2024-03-25 09:06:20 公開日:2024-02-17
# ブロックチェーンネットワークにおけるセキュリティ強化 - 異常、不正、高度な検出技術

Enhancing Security in Blockchain Networks: Anomalies, Frauds, and Advanced Detection Techniques ( http://arxiv.org/abs/2402.11231v1 )

ライセンス: Link先を確認
Joerg Osterrieder, Stephen Chan, Jeffrey Chu, Yuanyuan Zhang, Branka Hadji Misheva, Codruta Mare, (参考訳) ブロックチェーン技術は、基本的な分散台帳システムであり、セキュアで透明な複数パーティトランザクションを可能にする。 その利点にもかかわらず、ブロックチェーンネットワークは異常や詐欺の影響を受けやすく、その完全性とセキュリティに重大なリスクをもたらす。 本稿では、ブロックチェーンのキー定義とプロパティの詳細な検証と、これらのネットワークを損なうさまざまな異常や不正を詳細に分析する。 統計学と機械学習の手法、ゲーム理論のソリューション、デジタル法医学、評判に基づくシステム、包括的なリスクアセスメント技術を含む、検出と予防の一連の戦略を説明する。 ケーススタディを通じて、ブロックチェーンネットワークにおける異常と不正検出の実践的応用を探り、現在の実践と将来の研究の両方に価値ある洞察と意味を抽出する。 さらに、この分野における新たな動向や課題に注目し、今後の調査や技術開発に向けた方向性を提案する。 実践者と研究者の両方を対象とした本論文では,ブロックチェーンネットワーク内の異常および不正検出の技術的,詳細な概要を提供するとともに,ネットワークセキュリティと信頼性の向上を追求する上で大きな一歩を踏み出した。

Blockchain technology, a foundational distributed ledger system, enables secure and transparent multi-party transactions. Despite its advantages, blockchain networks are susceptible to anomalies and frauds, posing significant risks to their integrity and security. This paper offers a detailed examination of blockchain's key definitions and properties, alongside a thorough analysis of the various anomalies and frauds that undermine these networks. It describes an array of detection and prevention strategies, encompassing statistical and machine learning methods, game-theoretic solutions, digital forensics, reputation-based systems, and comprehensive risk assessment techniques. Through case studies, we explore practical applications of anomaly and fraud detection in blockchain networks, extracting valuable insights and implications for both current practice and future research. Moreover, we spotlight emerging trends and challenges within the field, proposing directions for future investigation and technological development. Aimed at both practitioners and researchers, this paper seeks to provide a technical, in-depth overview of anomaly and fraud detection within blockchain networks, marking a significant step forward in the search for enhanced network security and reliability.
翻訳日:2024-03-25 09:06:20 公開日:2024-02-17
# UAV支援6Gネットワークにおける安全・ロバスト・エネルギー効率の高い認証データ共有

Secure, Robust, and Energy-Efficient Authenticated Data Sharing in UAV-Assisted 6G Networks ( http://arxiv.org/abs/2402.11382v1 )

ライセンス: Link先を確認
Atefeh Mohseni Ejiyeh, (参考訳) 本稿では,無人航空機(UAV)のユニークな機能を活用することで,第6世代(6G)無線通信ネットワークのプレス課題に直面する。 超信頼性の高い1 Tbpsデータ配信と超低レイテンシを含む6Gの野心的な約束により、革新的なソリューションの需要は必然的になる。 従来の地上基地局は有効ではあるが、ユビキタス接続を必要とするシナリオに制限があり、UAVの統合を促す。 これらの課題に対応するため、包括的ソリューションを導入します。 これには、UAVがサービスプロバイダから望ましいコンテンツを共同でダウンロードし、その後、効率的なコンテンツ交換のためにユーザとのセキュアな接続を確立することが含まれる。 そこで本研究では,SeGDSと呼ばれるUAV間の協調グループデータダウンロード方式と,D2D通信による直接データ共有を実現するSeDDSの2つの新しいプロトコルを提案する。 証明書なしの署名暗号化と証明書なしのマルチレシーバ暗号化を活用することで、これらのプロトコルは、ユーザの取り消し、非監査、相互認証などの機能を備えた、軽量で証明書なしのソリューションを提供する。 高可用性を優先して提案プロトコルは,DoS(DoS)とフリーライディング攻撃を効果的に検出する。 SeDDSは、UAVに対してより軽量な通信負荷を課し、SeGDSはSwarm UAVセキュリティ要件を満たし、通信コストを低計算コストで4倍削減する。

This paper confronts the pressing challenges of sixth-generation (6G) wireless communication networks by harnessing the unique capabilities of Unmanned Aerial Vehicles (UAVs). With the ambitious promises of 6G, including ultra-reliable 1 Tbps data delivery and ultra-low latency, the demand for innovative solutions becomes imperative. Traditional terrestrial base stations, though effective, exhibit limitations in scenarios requiring ubiquitous connectivity, prompting the integration of UAVs. In response to these challenges, we introduce a comprehensive solution. This involves UAVs collaboratively downloading desired content from service providers, and subsequently establishing secure connections with users for efficient content exchange. Accordingly, we introduce two new protocols: a collaborative group data downloading scheme among UAVs called SeGDS, and SeDDS for secure direct data sharing through out-of-band autonomous Device-to-Device (D2D) communication. Leveraging certificateless signcryption and certificateless multi-receiver encryption, these protocols offer lightweight, certificate-free solutions with features such as user revocation, non-repudiation, and mutual authentication. Prioritizing high availability, the proposed protocols effectively detect Denial of Service (DoS) and free riding attacks. A thorough evaluation underscores the superiority of the proposed protocols in both security and efficiency over existing models; SeDDS reduces overall computation by 3x, imposing a lighter communication load on UAVs, while SeGDS meets swarm UAV security requirements, reducing communication costs by 4x with low computation cost.
翻訳日:2024-03-25 09:06:20 公開日:2024-02-17
# ソーシャルメディアデータから不安症状を報告した人におけるADHDの危険因子の検出

Detecting a Proxy for Potential Comorbid ADHD in People Reporting Anxiety Symptoms from Social Media Data ( http://arxiv.org/abs/2403.05561v1 )

ライセンス: Link先を確認
Claire S. Lee, Noelle Lim, Michael Guerzhoy, (参考訳) 本稿では,不安とADHDの関連性を解明する新しいタスクを提案する。また,キーワードベースの分類器では解けない課題の解決に向けてトランスフォーマーを用いて,不安とADHDの関連性を示す分類器の可視化手法について議論する。 ADHDを持つ成人の約50%は不安障害があり、不安を持つ成人の約30%はADHDを持つ可能性がある。 不安を呈する患者は、ADHDを考慮せずに不安の治療を受け、治療に影響を及ぼす可能性がある。 不安を伴うADHDに付随するデータがソーシャルメディアデータからどのように得られるかを示すとともに,不安症状のある人のADHDに影響を及ぼすプロキシを検出するためにトランスフォーマーが利用できることを示す。 不安とADHDオンラインフォーラム(サブレディット)からデータを収集した。 不安サブレディットに投稿開始後,ADHDサブレディットに投稿開始したポスターも同定した。 不安症状を発症した人々の代理としてポスターのこのサブセットを使用し,ADHDを発症する可能性を認識した。 我々は、Transformerアーキテクチャベースの分類器を微調整し、Anxiety subredditに投稿し始め、ADHD subredditに投稿した人とAnxiety subredditに投稿した人とADHD subredditに投稿した人を分類した。 トランスフォーマーアーキテクチャは,適切な結果(RoBERTaに対して76%,キーワードベースモデルでは60%,ベースレートでは50%)を得られることを示す。

We present a novel task that can elucidate the connection between anxiety and ADHD; use Transformers to make progress toward solving a task that is not solvable by keyword-based classifiers; and discuss a method for visualization of our classifier illuminating the connection between anxiety and ADHD presentations. Up to approximately 50% of adults with ADHD may also have an anxiety disorder and approximately 30\% of adults with anxiety may also have ADHD. Patients presenting with anxiety may be treated for anxiety without ADHD ever being considered, possibly affecting treatment. We show how data that bears on ADHD that is comorbid with anxiety can be obtained from social media data, and show that Transformers can be used to detect a proxy for possible comorbid ADHD in people with anxiety symptoms. We collected data from anxiety and ADHD online forums (subreddits). We identified posters who first started posting in the Anxiety subreddit and later started posting in the ADHD subreddit as well. We use this subset of the posters as a proxy for people who presented with anxiety symptoms and then became aware that they might have ADHD. We fine-tune a Transformer architecture-based classifier to classify people who started posting in the Anxiety subreddit and then started posting in the ADHD subreddit vs. people who posted in the Anxiety subreddit without later posting in the ADHD subreddit. We show that a Transformer architecture is capable of achieving reasonable results (76% correct for RoBERTa vs. under 60% correct for the best keyword-based model, both with 50% base rate).
翻訳日:2024-03-25 08:36:53 公開日:2024-02-17
# WebAssemblyベースのCircumvention Transports

Just add WATER: WebAssembly-based Circumvention Transports ( http://arxiv.org/abs/2312.00163v3 )

ライセンス: Link先を確認
Erik Chi, Gaukas Wang, J. Alex Halderman, Eric Wustrow, Jack Wampler, (参考訳) インターネット検閲が急速に新しいブロッキングテクニックを進化させるにつれ、回避ツールも適応し、ブロックされないままにするための新しい戦略を展開する必要がある。 しかし、新たな戦略は、回避者が開発やデプロイに時間を要する場合がある。 さらに、アップデートされたアプリケーションをさまざまなプラットフォームに分散することは、独自の課題を生じさせる。 本稿では,WebAssemblyベースのアプリケーション層(TLSなど)を使用してネットワーク接続をラップし,ネットワークトランスポートを提供する,新しい設計であるWater(WebAssembly Transport Executables Runtime)を紹介する。 Waterで新しい回避テクニックをデプロイするには、WebAssemblyトランスポートモジュール(WATM)バイナリと任意のトランスポート固有の設定を分散するだけでよい。 WATMも汎用的に設計されており、異なるアプリケーションが同じWATMを使用して自身のユーザに対して高速に回避技術をデプロイし、独立した回避ツール間の迅速な相互運用性を促進することができる。

As Internet censors rapidly evolve new blocking techniques, circumvention tools must also adapt and roll out new strategies to remain unblocked. But new strategies can be time consuming for circumventors to develop and deploy, and usually an update to one tool often requires significant additional effort to be ported to others. Moreover, distributing the updated application across different platforms poses its own set of challenges. In this paper, we introduce WATER (WebAssembly Transport Executables Runtime), a novel design that enables applications to use a WebAssembly-based application-layer (e.g., TLS) to wrap network connections and provide network transports. Deploying a new circumvention technique with WATER only requires distributing the WebAssembly Transport Module(WATM) binary and any transport-specific configuration, allowing dynamic transport updates without any change to the application itself. WATMs are also designed to be generic such that different applications using WATER can use the same WATM to rapidly deploy successful circumvention techniques to their own users, facilitating rapid interoperability between independent circumvention tools.
翻訳日:2024-03-18 13:35:06 公開日:2024-02-17
# 犯罪予測のためのデータマイニング技術に関する実証的および実験的考察:包括的調査

Empirical and Experimental Insights into Data Mining Techniques for Crime Prediction: A Comprehensive Survey ( http://arxiv.org/abs/2403.00780v1 )

ライセンス: Link先を確認
Kamal Taha(参考訳) 本研究では,犯罪予測手法の包括的分析を行い,この領域で活用される様々な技術・技術について検討する。 本稿では,犯罪データの解析に使用される統計的手法,機械学習アルゴリズム,深層学習技術について検討するとともに,その有効性と限界について検討する。 犯罪予測アルゴリズムを特定の手法に分類する方法論的分類法を提案する。 この分類は方法論のカテゴリ、方法論のサブカテゴリ、方法論のテクニック、方法論のサブテクニックの4つの階層に分けられる。 異なるテクニックをランク付けするための実証的および実験的評価が提供される。 実証的評価は4つの基準に基づいて犯罪予測手法を評価し,実験評価では,同一のサブテクニークを用いるアルゴリズム,同一の技術を使用する異なるサブテクニーク,同一の方法論をサブカテゴリとする異なるテクニック,同一カテゴリ内の異なる方法論サブカテゴリ,異なる方法論カテゴリを分類した。 方法論の分類学、経験的評価、実験的な比較の組み合わせは、犯罪予測アルゴリズムの微妙で包括的な理解を可能にし、研究者が情報的な決定を下すのを助ける。 最後に, 犯罪予測技術の将来を垣間見るとともに, 今後の研究の可能性と可能性について述べる。

This survey paper presents a comprehensive analysis of crime prediction methodologies, exploring the various techniques and technologies utilized in this area. The paper covers the statistical methods, machine learning algorithms, and deep learning techniques employed to analyze crime data, while also examining their effectiveness and limitations. We propose a methodological taxonomy that classifies crime prediction algorithms into specific techniques. This taxonomy is structured into four tiers, including methodology category, methodology sub-category, methodology techniques, and methodology sub-techniques. Empirical and experimental evaluations are provided to rank the different techniques. The empirical evaluation assesses the crime prediction techniques based on four criteria, while the experimental evaluation ranks the algorithms that employ the same sub-technique, the different sub-techniques that employ the same technique, the different techniques that employ the same methodology sub-category, the different methodology sub-categories within the same category, and the different methodology categories. The combination of methodological taxonomy, empirical evaluations, and experimental comparisons allows for a nuanced and comprehensive understanding of crime prediction algorithms, aiding researchers in making informed decisions. Finally, the paper provides a glimpse into the future of crime prediction techniques, highlighting potential advancements and opportunities for further research in this field
翻訳日:2024-03-11 00:23:14 公開日:2024-02-17
# 量子チャネルによる同定

Identification Via Quantum Channels ( http://arxiv.org/abs/1212.0494v2 )

ライセンス: Link先を確認
Andreas Winter(参考訳) 本稿では, ahlswede と dueck のチャネルによる識別理論の量子版の開発について概説する。 量子確率の場合と同様に、量子化は1つだけではなく、いくつかの量子化が存在する:我々は量子チャネルを通して古典的な情報の識別に関する少なくとも2つの異なる概念と、量子情報に対する3つの異なる識別能力を知っている。 本総説では, 概念点とオープンな問題に焦点をあて, 読者を, 詳細について, 少数の原記事を参照する。

We review the development of the quantum version of Ahlswede and Dueck's theory of identification via channels. As is often the case in quantum probability, there is not just one but several quantizations: we know at least two different concepts of identification of classical information via quantum channels, and three different identification capacities for quantum information. In the present summary overview we concentrate on conceptual points and open problems, referring the reader to the small set of original articles for details.
翻訳日:2024-03-03 19:41:36 公開日:2024-02-17
# CliqueParcel:効率と信心を共同で最適化するLDMプロンプトのバッチ化アプローチ

CliqueParcel: An Approach For Batching LLM Prompts That Jointly Optimizes Efficiency And Faithfulness ( http://arxiv.org/abs/2402.14833v1 )

ライセンス: Link先を確認
Jiayi Liu, Tinghan Yang, Jennifer Neville(参考訳) 近年,大規模言語モデル (LLMs) が重要視されている。 しかし、推論プロセスの間、LLMは依然としてかなりのリソースを必要とする。 本稿では,高速バッチ処理によるLCMの効率向上を目的としたCliqueParcelを提案する。 推論効率を最適化する既存の戦略は、しばしば出力品質を損なう。 この問題は精度の低下や、詳細でない出力をもたらす可能性がある。 CliqueParcelは、この挑戦に対する私たちの答えです。 精度の確保と元の出力からの偏差(すなわち忠実さ)の最小化を図りながら,提案手法は推論時の効率を著しく向上させる。 本研究は,まず,短い長さによる走行時間の短縮を排除し,効率測定を再定義する。 そして,「計数アウトプット」問題の性質を明らかにするため,効率性と忠実性との包括的トレードオフを提案する。 CliqueParcelフレームワーク内では、複数のバッチサブメソッドを提案し、適用可能な特定のシナリオについて議論する。 評価中、CliqueParcelは広く認識されている8つのデータセットでテストされ、読み取り理解、オープンソースの質問回答、推論の3つのタイプに分類される。 実験では,CliqueParcelの効率性,忠実性,トレードオフなどについて検討した。 この研究は推論効率に関する新しい洞察を提供し、有望なパフォーマンスを示す。

Large language models (LLMs) have become pivotal in recent research. However, during the inference process, LLMs still require substantial resources. In this paper, we propose CliqueParcel, a method designed to improve the efficiency of LLMs via prompt batching. Existing strategies to optimize inference efficiency often compromise on output quality, leading to a discounted output problem. This issue might result in reduced accuracy or outputs that are less detailed. CliqueParcel is our answer to this challenge. While ensuring accuracy and minimizing deviations from the original outputs (i.e., faithfulness), our method significantly improves efficiency during inference. To lay the groundwork, we first redefine efficiency measurements by excluding the reduction in running time due to shorter lengths. Then, we provide a comprehensive trade-off between efficiency and faithfulness to clarify the nature of the 'discounted output' problem. Within the CliqueParcel framework, we suggest multiple batching sub-methods and discuss the specific scenarios in which they can be applied. During evaluation, CliqueParcel is tested on eight widely recognized datasets, which can be classified into three types: reading comprehension, open-source question-answering, and reasoning. Our experiments explore the performance of CliqueParcel, including efficiency, faithfulness, and the trade-off between them. This work provides novel insights into inference efficiency and demonstrates promising performance.
翻訳日:2024-03-03 19:37:00 公開日:2024-02-17
# 認知干渉ネットワークにおける分散動的チャネル配置のためのSINR対応深層強化学習

SINR-Aware Deep Reinforcement Learning for Distributed Dynamic Channel Allocation in Cognitive Interference Networks ( http://arxiv.org/abs/2402.17773v1 )

ライセンス: Link先を確認
Yaniv Cohen, Tomer Gafni, Ronen Greenberg, Kobi Cohen(参考訳) 本稿では,認知通信ネットワークにおける動的チャネル割当(DCA)の問題点について考察し,各ネットワークの目標品質(QoS)-SINR(QoS)-SINR(QoS)-SINR)を最大化することを目的とする。 共有帯域幅は周波数分離によりkチャネルに分割される。 完全直交性や1対1のユーザチャネル割り当てマッピングを前提とする既存の研究のほとんどとは対照的に,本論文では,複数の大規模ネットワークによる実世界システム間干渉(ici)とチャネル再利用に注目する。 この現実的なシナリオは問題次元を大きく増加させ、既存のアルゴリズムを非効率にする。 本稿では,CARLTON(Channel Allocation RL To Overlapped Networks)という,分散DCAのための新しいマルチエージェント強化学習フレームワークを提案する。 CARLTONフレームワークは、DeepMellow値ベースのRLアルゴリズムを利用して、CTDE(Centralized Training with Decentralized Execution)パラダイムに基づいている。 干渉遅延環境におけるロバストな性能を確保するため、CARLTONは低次元の観測表現を用い、グローバルSINRを最大化し、各ネットワークに対するターゲットQoS-SINRを確保しながらQoS型測定値を生成する。 提案手法は従来の手法に比べて優れた性能を示しつつ,完全集中型アプローチに比べてわずかに性能を低下させる。

We consider the problem of dynamic channel allocation (DCA) in cognitive communication networks with the goal of maximizing a global signal-to-interference-plus-noise ratio (SINR) measure under a specified target quality of service (QoS)-SINR for each network. The shared bandwidth is partitioned into K channels with frequency separation. In contrast to the majority of existing studies that assume perfect orthogonality or a one- to-one user-channel allocation mapping, this paper focuses on real-world systems experiencing inter-carrier interference (ICI) and channel reuse by multiple large-scale networks. This realistic scenario significantly increases the problem dimension, rendering existing algorithms inefficient. We propose a novel multi-agent reinforcement learning (RL) framework for distributed DCA, named Channel Allocation RL To Overlapped Networks (CARLTON). The CARLTON framework is based on the Centralized Training with Decentralized Execution (CTDE) paradigm, utilizing the DeepMellow value-based RL algorithm. To ensure robust performance in the interference-laden environment we address, CARLTON employs a low-dimensional representation of observations, generating a QoS-type measure while maximizing a global SINR measure and ensuring the target QoS-SINR for each network. Our results demonstrate exceptional performance and robust generalization, showcasing superior efficiency compared to alternative state-of-the-art methods, while achieving a marginally diminished performance relative to a fully centralized approach.
翻訳日:2024-03-03 19:09:06 公開日:2024-02-17
# EEG2Rep:インフォームティブ・マスク入力による自己教師型脳波表現の強化

EEG2Rep: Enhancing Self-supervised EEG Representation Through Informative Masked Inputs ( http://arxiv.org/abs/2402.17772v1 )

ライセンス: Link先を確認
Navid Mohammadi Foumani, Geoffrey Mackellar, Soheila Ghane, Saad Irtza, Nam Nguyen, Mahsa Salehi(参考訳) Self-supervised approaches for electroencephalography (EEG) representation learning face three specific challenges inherent to EEG data: (1) The low signal-to-noise ratio which challenges the quality of the representation learned, (2) The wide range of amplitudes from very small to relatively large due to factors such as the inter-subject variability, risks the models to be dominated by higher amplitude ranges, and (3) The absence of explicit segmentation in the continuous-valued sequences which can result in less informative representations. これらの課題に対処するために,脳波からの自己教師型表現学習のための自己予測手法であるEEG2Repを紹介する。 EEG2Repの中核となる2つの新しいコンポーネントは以下のとおりである。 1)生の脳波からマスク入力を予測することを学ぶ代わりに、EEG2Repは潜在表現空間におけるマスク入力を予測することを学ぶ。 2) 従来のマスキング方式の代わりに,EEG2Rep では,よりリッチなセマンティック表現を生成するために,情報的なマスキング入力を提供する新たなセマンティックサブシーケンス保存 (SSP) 方式を採用している。 EEG2Repは、対象変数を持つ6つの多様なEEGタスクの実験において、最先端の手法を著しく上回っている。 本研究は,自己予測文献における既存のマスキング手法を改善し,50\%の脳波記録を保存すれば,平均して6つのタスクにおいて最も正確な結果が得られることを示す。 最後に、EEG2Repは、脳波データに存在する重要な課題に対処するノイズに対して堅牢であることを示す。 モデルとコードは、https://github.com/Navidfoumani/EEG2Rep.comで入手できる。

Self-supervised approaches for electroencephalography (EEG) representation learning face three specific challenges inherent to EEG data: (1) The low signal-to-noise ratio which challenges the quality of the representation learned, (2) The wide range of amplitudes from very small to relatively large due to factors such as the inter-subject variability, risks the models to be dominated by higher amplitude ranges, and (3) The absence of explicit segmentation in the continuous-valued sequences which can result in less informative representations. To address these challenges, we introduce EEG2Rep, a self-prediction approach for self-supervised representation learning from EEG. Two core novel components of EEG2Rep are as follows: 1) Instead of learning to predict the masked input from raw EEG, EEG2Rep learns to predict masked input in latent representation space, and 2) Instead of conventional masking methods, EEG2Rep uses a new semantic subsequence preserving (SSP) method which provides informative masked inputs to guide EEG2Rep to generate rich semantic representations. In experiments on 6 diverse EEG tasks with subject variability, EEG2Rep significantly outperforms state-of-the-art methods. We show that our semantic subsequence preserving improves the existing masking methods in self-prediction literature and find that preserving 50\% of EEG recordings will result in the most accurate results on all 6 tasks on average. Finally, we show that EEG2Rep is robust to noise addressing a significant challenge that exists in EEG data. Models and code are available at: https://github.com/Navidfoumani/EEG2Rep
翻訳日:2024-03-03 19:08:36 公開日:2024-02-17
# 因果イベント結合配列の学習

Learning causation event conjunction sequences ( http://arxiv.org/abs/2402.14027v1 )

ライセンス: Link先を確認
Thomas E. Portegys(参考訳) これは、イベントシーケンスで因果関係を学ぶいくつかの方法の検討である。 因果関係は、任意の順序で起こる1つ以上の原因事象と、影響をもたらす可能性のある非因果関係事象の結合として定義される。 この手法には、ANN(recurrent and non-recurrent Artificial Neural Network)やヒストグラムベースのアルゴリズムが含まれる。 ANN は ANN の中で最も優れ,ヒストグラムアルゴリズムはすべての ANN よりも優れていた。

This is an examination of some methods that learn causations in event sequences. A causation is defined as a conjunction of one or more cause events occurring in an arbitrary order, with possible intervening non-causal events, that lead to an effect. The methods include recurrent and non-recurrent artificial neural networks (ANNs), as well as a histogram-based algorithm. An attention recurrent ANN performed the best of the ANNs, while the histogram algorithm was significantly superior to all the ANNs.
翻訳日:2024-02-25 16:56:50 公開日:2024-02-17
# 単語埋め込みの伝達学習のためのグループスパース行列分解

Group-Sparse Matrix Factorization for Transfer Learning of Word Embeddings ( http://arxiv.org/abs/2104.08928v3 )

ライセンス: Link先を確認
Kan Xu, Xuanyi Zhao, Hamsa Bastani, Osbert Bastani(参考訳) unstructured textは意思決定者に、小売における製品レビューから医療における看護ノートまで、多くの領域で豊富なデータソースを提供する。 この情報を活用するために、単語は通常、行列因子化のような教師なし学習アルゴリズムを通して、単語間の意味関係を符号化するベクトルである単語埋め込みに翻訳される。 しかし,「ポジティブ」という単語は一般的にポジティブな感情を持つが,患者が疾患に対して陽性であることを示す可能性があるため,医用紙に否定的な感情を抱くことが多いため,訓練データに制限のある新たなドメインからの単語埋め込みを学習することは困難である。 実際には、少数のドメイン特化語だけが新しい意味を持つことを期待する。 グループスパースペナルティによってこの構造を利用する直感的な2段階推定器を提案し、大規模テキストコーパス(ウィキペディアなど)と限られたドメイン固有テキストデータを組み合わせることにより、学習ドメイン固有の単語埋め込みを効率的に転送する。 転送学習推定器の一般化誤差を拘束し、少数の埋め込みがドメイン間でのみ変更される場合に、ドメイン固有のデータを大幅に少なくして高精度に達成できることを証明した。 さらに, 非凸目的関数によって同定された局所最小値はすべて, 標準正規化条件下でのグローバル最小値と統計的に区別できないことを証明し, 効率的に推定できることを示す。 以上の結果から, 群スパース行列因子分解の第一の限界が得られ, 独立な関心が持たれる。 自然言語処理による最先端の微調整ヒューリスティックと比較し,そのアプローチを実証的に評価した。

Unstructured text provides decision-makers with a rich data source in many domains, ranging from product reviews in retail to nursing notes in healthcare. To leverage this information, words are typically translated into word embeddings -- vectors that encode the semantic relationships between words -- through unsupervised learning algorithms such as matrix factorization. However, learning word embeddings from new domains with limited training data can be challenging, because the meaning/usage may be different in the new domain, e.g., the word ``positive'' typically has positive sentiment, but often has negative sentiment in medical notes since it may imply that a patient tested positive for a disease. In practice, we expect that only a small number of domain-specific words may have new meanings. We propose an intuitive two-stage estimator that exploits this structure via a group-sparse penalty to efficiently transfer learn domain-specific word embeddings by combining large-scale text corpora (such as Wikipedia) with limited domain-specific text data. We bound the generalization error of our transfer learning estimator, proving that it can achieve high accuracy with substantially less domain-specific data when only a small number of embeddings are altered between domains. Furthermore, we prove that all local minima identified by our nonconvex objective function are statistically indistinguishable from the global minimum under standard regularization conditions, implying that our estimator can be computed efficiently. Our results provide the first bounds on group-sparse matrix factorization, which may be of independent interest. We empirically evaluate our approach compared to state-of-the-art fine-tuning heuristics from natural language processing.
翻訳日:2024-02-22 22:06:27 公開日:2024-02-17
# 協調的逆強化学習

Cooperative Inverse Reinforcement Learning ( http://arxiv.org/abs/1606.03137v4 )

ライセンス: Link先を確認
Dylan Hadfield-Menell, Anca Dragan, Pieter Abbeel, Stuart Russell(参考訳) 自律的なシステムが人間に役立ち、不確実なリスクを伴わないためには、その行動が人間の価値の最大化に寄与するように、その価値を環境内の人間のものと一致させる必要がある。 本稿では,協調逆強化学習(CIRL)として,値アライメント問題の形式的定義を提案する。 cirl問題(cirl problem)は、人間とロボットの2つのエージェントによる協調的な部分的な情報ゲームである。 古典的なIRLとは対照的に、人間は孤立して最適な行動をとると仮定されるが、最適なCIRLソリューションは、積極的教育、能動的学習、より効果的なコミュニケーション行動などの行動を生み出す。 我々は,CIRLゲームにおける最適ジョイントポリシーの計算をPOMDPの解法に還元し,CIRLにおける最適性が準最適であることを証明し,近似CIRLアルゴリズムを導出することを示した。

For an autonomous system to be helpful to humans and to pose no unwarranted risks, it needs to align its values with those of the humans in its environment in such a way that its actions contribute to the maximization of value for the humans. We propose a formal definition of the value alignment problem as cooperative inverse reinforcement learning (CIRL). A CIRL problem is a cooperative, partial-information game with two agents, human and robot; both are rewarded according to the human's reward function, but the robot does not initially know what this is. In contrast to classical IRL, where the human is assumed to act optimally in isolation, optimal CIRL solutions produce behaviors such as active teaching, active learning, and communicative actions that are more effective in achieving value alignment. We show that computing optimal joint policies in CIRL games can be reduced to solving a POMDP, prove that optimality in isolation is suboptimal in CIRL, and derive an approximate CIRL algorithm.
翻訳日:2024-02-22 22:04:53 公開日:2024-02-17
# MLSTL-WSN:WSNにおけるSMOTETomekを用いた機械学習による侵入検出

MLSTL-WSN: Machine Learning-based Intrusion Detection using SMOTETomek in WSNs ( http://arxiv.org/abs/2402.13277v1 )

ライセンス: Link先を確認
Md. Alamin Talukder, Selina Sharmin, Md Ashraf Uddin, Md Manowarul Islam and Sunil Aryal(参考訳) 無線センサネットワーク(WSN)は、静止センサーと移動センサの両方を含むインフラとして重要な役割を担っている。 これらのセンサーは、通信、集合的センシング、収集、処理、周囲のデータ送信のためのマルチホップ接続を自己組織化し確立する。 その重要性にもかかわらず、wsnsは機能を破壊しうる迅速かつ有害な攻撃に直面している。 既存のWSNの侵入検知方法は、低検出率、計算オーバーヘッド、誤警報などの問題に遭遇する。 これらの問題は、センサノードのリソース制約、データ冗長性、ネットワーク内の高い相関性に起因する。 これらの課題に対処するために、機械学習(ML)技術とSMOTE-TomekLink(SMOTE-TomekLink)アルゴリズムを統合する革新的な侵入検出手法を提案する。 このブレンドはマイノリティインスタンスを合成し、tomekリンクをなくし、wsnの検出精度を大幅に向上させるバランスのとれたデータセットを生成する。 さらに、標準化による機能スケーリングを取り入れて、入力機能の一貫性と拡張性を実現し、より正確なトレーニングと検出を可能にします。 不均衡なWSNデータセットに対処するため、私たちはSMOTE-Tomekリサンプリング技術を採用し、オーバーフィッティングを緩和し、未適合の問題を緩和する。 374,661レコードを含むWSNデータセット(WSN-DS)を用いて,WSNの侵入検出のための最適モデルを特定する。 私たちの研究の際立った成果は、我々のモデルの素晴らしいパフォーマンスです。 バイナリでは99.78%、マルチクラスでは99.92%という非常に高い精度を達成している。 これらの結果は,wsn侵入検出における提案の効率性と優位性を強調するものであり,wsn侵入の検出と緩和に有効であることを示す。

Wireless Sensor Networks (WSNs) play a pivotal role as infrastructures, encompassing both stationary and mobile sensors. These sensors self-organize and establish multi-hop connections for communication, collectively sensing, gathering, processing, and transmitting data about their surroundings. Despite their significance, WSNs face rapid and detrimental attacks that can disrupt functionality. Existing intrusion detection methods for WSNs encounter challenges such as low detection rates, computational overhead, and false alarms. These issues stem from sensor node resource constraints, data redundancy, and high correlation within the network. To address these challenges, we propose an innovative intrusion detection approach that integrates Machine Learning (ML) techniques with the Synthetic Minority Oversampling Technique Tomek Link (SMOTE-TomekLink) algorithm. This blend synthesizes minority instances and eliminates Tomek links, resulting in a balanced dataset that significantly enhances detection accuracy in WSNs. Additionally, we incorporate feature scaling through standardization to render input features consistent and scalable, facilitating more precise training and detection. To counteract imbalanced WSN datasets, we employ the SMOTE-Tomek resampling technique, mitigating overfitting and underfitting issues. Our comprehensive evaluation, using the WSN Dataset (WSN-DS) containing 374,661 records, identifies the optimal model for intrusion detection in WSNs. The standout outcome of our research is the remarkable performance of our model. In binary, it achieves an accuracy rate of 99.78% and in multiclass, it attains an exceptional accuracy rate of 99.92%. These findings underscore the efficiency and superiority of our proposal in the context of WSN intrusion detection, showcasing its effectiveness in detecting and mitigating intrusions in WSNs.
翻訳日:2024-02-22 18:36:08 公開日:2024-02-17
# LLMsがアコースティックランドマークと出会う時:抑うつ検出のための大規模言語モデルへの音声統合のための効率的なアプローチ

When LLMs Meets Acoustic Landmarks: An Efficient Approach to Integrate Speech into Large Language Models for Depression Detection ( http://arxiv.org/abs/2402.13276v1 )

ライセンス: Link先を確認
Xiangyu Zhang, Hexin Liu, Kaishuai Xu, Qiquan Zhang, Daijiao Liu, Beena Ahmed, Julien Epps(参考訳) 抑うつは世界的メンタルヘルスにおいて重要な関心事であり、AIに基づく検出方法の広範な研究を促している。 さまざまなAI技術の中で、Large Language Models(LLM)は、メンタルヘルスケアアプリケーションにおける汎用性において際立っている。 しかし、その主な制限は、その全体的な能力を制限するテキスト入力への排他的依存から生じる。 さらに, うつ状態の同定と解析におけるLDMの利用はいまだに未発達である。 本稿では,マルチモーダル抑うつ検出のためのLLMフレームワークに音声情報を統合するための革新的なアプローチを提案する。 音響ランドマークを用いたLLMに音声信号を統合することで抑うつ検出の効率的な手法を検討する。 本手法は,音声の発音に特有なアコースティックなランドマークを組み込むことで,テキストの書き起こしに重要な次元を付加する。 この統合はまた、個人のユニークな音声パターンに関する洞察を与え、個人の潜在的な精神状態を明らかにする。 DAIC-WOZデータセットに対する提案手法の評価により,既存のAudio-Textベースラインと比較して,最先端の結果が得られた。 加えて、このアプローチはうつ病の検出に有用であるだけでなく、llmが音声信号を理解し処理する能力を高める新しい視点を表している。

Depression is a critical concern in global mental health, prompting extensive research into AI-based detection methods. Among various AI technologies, Large Language Models (LLMs) stand out for their versatility in mental healthcare applications. However, their primary limitation arises from their exclusive dependence on textual input, which constrains their overall capabilities. Furthermore, the utilization of LLMs in identifying and analyzing depressive states is still relatively untapped. In this paper, we present an innovative approach to integrating acoustic speech information into the LLMs framework for multimodal depression detection. We investigate an efficient method for depression detection by integrating speech signals into LLMs utilizing Acoustic Landmarks. By incorporating acoustic landmarks, which are specific to the pronunciation of spoken words, our method adds critical dimensions to text transcripts. This integration also provides insights into the unique speech patterns of individuals, revealing the potential mental states of individuals. Evaluations of the proposed approach on the DAIC-WOZ dataset reveal state-of-the-art results when compared with existing Audio-Text baselines. In addition, this approach is not only valuable for the detection of depression but also represents a new perspective in enhancing the ability of LLMs to comprehend and process speech signals.
翻訳日:2024-02-22 18:35:35 公開日:2024-02-17
# 大脳皮質基底神経節ループのモデルの実装

Implementation of a Model of the Cortex Basal Ganglia Loop ( http://arxiv.org/abs/2402.13275v1 )

ライセンス: Link先を確認
Naoya Arakawa(参考訳) 本稿では,行動選択と実行に有用な大脳皮質-脳神経節-視床ループの簡易モデルを提示し,その実施結果について報告する。 このモデルは大脳皮質が行動を予測するという仮説に基づいているが、基底神経節は強化学習を用いて大脳皮質が予測する行動を行うかどうかを決定する。 この実装は、皮質領域または脳にインスパイアされた認知アーキテクチャからなる脳のモデルのコンポーネントとして使用されることを意図している。

This article presents a simple model of the cortex-basal ganglia-thalamus loop, which is thought to serve for action selection and executions, and reports the results of its implementation. The model is based on the hypothesis that the cerebral cortex predicts actions, while the basal ganglia use reinforcement learning to decide whether to perform the actions predicted by the cortex. The implementation is intended to be used as a component of models of the brain consisting of cortical regions or brain-inspired cognitive architectures.
翻訳日:2024-02-22 18:35:15 公開日:2024-02-17
# hcr-net:深層学習に基づくスクリプト独立手書き文字認識ネットワーク

HCR-Net: A deep learning based script independent handwritten character recognition network ( http://arxiv.org/abs/2108.06663v4 )

ライセンス: Link先を確認
Vinod Kumar Chauhan, Sukhdeep Singh and Anuj Sharma(参考訳) 手書き文字認識(HCR)は、数十年の研究にもかかわらず困難なパターン認識問題であり、スクリプト独立認識技術の研究は欠如している。 色{black} これは主に、類似した文字構造、異なる手書きスタイル、多様なスクリプト、手作りの特徴抽出技術、データとコードの利用不可能、そしてスクリプト固有のディープラーニング技術の開発によるものである。 これらの制約に対処するため、HCR-Netと呼ばれるHCR研究のためのスクリプト独立型ディープラーニングネットワークを提案し、この分野の新たな研究方向性を定めている。 HCR-Netは、事前学習されたネットワークの特徴抽出レイヤをtextit{partly} で利用する、HCRのための新しいトランスファー学習アプローチに基づいている。 転送学習と画像拡張のため、hcr-netは高速で計算効率のよいトレーニング、パフォーマンスと一般化を提供し、小さなデータセットで動作します。 HCR-Netは、Bangla, Punjabi, Hindi, English, Swedish, Urdu, Farsi, Tibetan, Kannada, Malayalam, Telugu, Marathi, Nepali and Arabic Languageの40の公開データセットで広く評価されており、残りのケースで最高の結果に近づきながら26の新しいベンチマーク結果を確立した。 hcr-netは、既存の結果に対して最大で11\%のパフォーマンス改善を示し、最初の時代において、最終的なパフォーマンスの99\%の高速収束率を達成した。 hcr-netは、最先端の転送学習技術を大きく上回り、トレーニング可能なパラメータの数を、トレーニング済みネットワークと比較して34\%削減した。 HCR研究の再現性とさらなる進歩を容易にするため、完全なコードは \url{https://github.com/jmdvinodjmd/HCR-Net} で公開されている。

Handwritten character recognition (HCR) remains a challenging pattern recognition problem despite decades of research, and lacks research on script independent recognition techniques. {\color{black}This is mainly because of similar character structures, different handwriting styles, diverse scripts, handcrafted feature extraction techniques, unavailability of data and code, and the development of script-specific deep learning techniques. To address these limitations, we have proposed a script independent deep learning network for HCR research, called HCR-Net, that sets a new research direction for the field. HCR-Net is based on a novel transfer learning approach for HCR, which \textit{partly utilizes} feature extraction layers of a pre-trained network.} Due to transfer learning and image augmentation, HCR-Net provides faster and computationally efficient training, better performance and generalizations, and can work with small datasets. HCR-Net is extensively evaluated on 40 publicly available datasets of Bangla, Punjabi, Hindi, English, Swedish, Urdu, Farsi, Tibetan, Kannada, Malayalam, Telugu, Marathi, Nepali and Arabic languages, and established 26 new benchmark results while performed close to the best results in the rest cases. HCR-Net showed performance improvements up to 11\% against the existing results and achieved a fast convergence rate showing up to 99\% of final performance in the very first epoch. HCR-Net significantly outperformed the state-of-the-art transfer learning techniques and also reduced the number of trainable parameters by 34\% as compared with the corresponding pre-trained network. To facilitate reproducibility and further advancements of HCR research, the complete code is publicly released at \url{https://github.com/jmdvinodjmd/HCR-Net}.
翻訳日:2024-02-21 22:07:35 公開日:2024-02-17
# 分割診断による確率最適化のためのロバスト学習率の選択

Robust Learning Rate Selection for Stochastic Optimization via Splitting Diagnostic ( http://arxiv.org/abs/1910.08597v5 )

ライセンス: Link先を確認
Matteo Sordello, Niccol\`o Dalmasso, Hangfeng He and Weijie Su(参考訳) 本稿では,確率最適化のための新しい動的学習率スケジュールであるSplitSGDを提案する。 この方法は、定常位相が検出されたとき、すなわち、イテレートが局所極小付近でバウンドし易いという目的関数の局所幾何への適応性を改善するための学習率を低下させる。 この検出は、単一糸を2つに分割し、2本の糸から勾配の内積を定常度を測定することで行う。 この単純かつ証明可能な定常性検出のため、SplitSGDは実装が容易であり、基本的に標準のSGDよりも計算コストが増大しない。 一連の広範囲な実験を通して、この手法は凸問題とトレーニング(非凸)ニューラルネットワークの両方に適しており、他の確率的最適化手法と比較して性能が好適であることを示す。 重要なことに、この方法は様々な問題に対するデフォルトパラメータのセットで非常に頑健であり、さらにadamのような他の適応勾配法よりも優れた一般化性能が得られる。

This paper proposes SplitSGD, a new dynamic learning rate schedule for stochastic optimization. This method decreases the learning rate for better adaptation to the local geometry of the objective function whenever a stationary phase is detected, that is, the iterates are likely to bounce at around a vicinity of a local minimum. The detection is performed by splitting the single thread into two and using the inner product of the gradients from the two threads as a measure of stationarity. Owing to this simple yet provably valid stationarity detection, SplitSGD is easy-to-implement and essentially does not incur additional computational cost than standard SGD. Through a series of extensive experiments, we show that this method is appropriate for both convex problems and training (non-convex) neural networks, with performance compared favorably to other stochastic optimization methods. Importantly, this method is observed to be very robust with a set of default parameters for a wide range of problems and, moreover, can yield better generalization performance than other adaptive gradient methods such as Adam.
翻訳日:2024-02-21 22:05:30 公開日:2024-02-17
# テキストから自己へ:対人コミュニケーションと自己に対するAIの可能性に対する利用者の認識

From Text to Self: Users' Perceptions of Potential of AI on Interpersonal Communication and Self ( http://arxiv.org/abs/2310.03976v2 )

ライセンス: Link先を確認
Yue Fu, Sami Foell, Xuhai Xu, Alexis Hiniker(参考訳) ai-mediated communication(aimc)の急速な発展の中で、大規模言語モデル(llm)を活用したツールが対人コミュニケーションに不可欠なものになりつつある。 混合手法を用いて1週間の日記とインタビュー調査を行い,ツールの能力に対するユーザの認識について検討した。 1)対人コミュニケーションを短期的に支援すること、及び 2) 長期的影響の可能性を示唆する。 以上の結果から,aimcはコミュニケーションの信頼度の向上や,言語的・文化的障壁をナビゲートし,思考を表現するための正確な言語の発見など,aimcの支持を好意的に捉えていることが示唆された。 しかし、この研究はaimcツールの現在の限界を明らかにするもので、冗長性、不自然な反応、過度の感情的強度などが含まれている。 これらの欠点は、信頼性の欠如とこの技術への潜在的な依存に対するユーザの懸念によってさらに悪化する。 さらに,aimcツールに対するユーザの態度を別々に予測するコミュニケーションステークス(high or low)とリレーションシップダイナミクス(formal or informal)の4つの重要なコミュニケーション空間を同定した。 特に, 参加者は, フォーマルなコミュニケーションよりもフォーマルなコミュニケーションに適しており, ローテイクなコミュニケーションよりもハイテイクなコミュニケーションに有益であることがわかった。

In the rapidly evolving landscape of AI-mediated communication (AIMC), tools powered by Large Language Models (LLMs) are becoming integral to interpersonal communication. Employing a mixed-methods approach, we conducted a one-week diary and interview study to explore users' perceptions of these tools' ability to: 1) support interpersonal communication in the short-term, and 2) lead to potential long-term effects. Our findings indicate that participants view AIMC support favorably, citing benefits such as increased communication confidence, and finding precise language to express their thoughts, navigating linguistic and cultural barriers. However, the study also uncovers current limitations of AIMC tools, including verbosity, unnatural responses, and excessive emotional intensity. These shortcomings are further exacerbated by user concerns about inauthenticity and potential overreliance on the technology. Furthermore, we identified four key communication spaces delineated by communication stakes (high or low) and relationship dynamics (formal or informal) that differentially predict users' attitudes toward AIMC tools. Specifically, participants found the tool is more suitable for communicating in formal relationships than informal ones and more beneficial in high-stakes than low-stakes communication.
翻訳日:2024-02-21 20:38:22 公開日:2024-02-17
# ethereum 2.0における報酬ダイナミクスと分散化の分析: 高度なデータエンジニアリングワークフローと総合的なインセンティブ証明のためのデータセット

Analyzing Reward Dynamics and Decentralization in Ethereum 2.0: An Advanced Data Engineering Workflow and Comprehensive Datasets for Proof-of-Stake Incentives ( http://arxiv.org/abs/2402.11170v1 )

ライセンス: Link先を確認
Tao Yan, Shengnan Li, Benjamin Kraner, Luyao Zhang, and Claudio J. Tessone(参考訳) 著名なスマートコントラクトブロックチェーンプラットフォームであるEthereum 2.0は、サードパーティの介入なしにアプリケーションの正確な実行を保証する。 このシステムの中核となるのは、確率過程を利用してブロックの提案と検証のバリデータを選択するProof-of-Stake(PoS)コンセンサス機構である。 しかし、ブロックチェーン技術の実装は、しばしば分散コンセンサスの中心から逸脱し、重要な分析上の課題を呈する。 本研究は、Ethereum Beacon チェーンからコンセンサス報酬データを収集し、報酬分布と進化の包括的分析を行い、それらを証明、提案、同期委員会報酬に分類する。 PoS Ethereumの分散度を評価するために、シャノンエントロピー、ジーニ指数、中本係数、ヘルフィンダール・ヒルシュマン指数(HHI)などの不等式指標を適用した。 包括的なデータセットはharvard dataverseで公開されており、分析方法論はgithubからアクセスでき、オープンアクセスリサーチを促進しています。 さらに、ブロックチェーンシステムの分散化、セキュリティ、効率性の評価、強化、改善に焦点を当てた今後の調査にデータを活用するための洞察を与えます。

Ethereum 2.0, as the preeminent smart contract blockchain platform, guarantees the precise execution of applications without third-party intervention. At its core, this system leverages the Proof-of-Stake (PoS) consensus mechanism, which utilizes a stochastic process to select validators for block proposal and validation, consequently rewarding them for their contributions. However, the implementation of blockchain technology often diverges from its central tenet of decentralized consensus, presenting significant analytical challenges. Our study collects consensus reward data from the Ethereum Beacon chain and conducts a comprehensive analysis of reward distribution and evolution, categorizing them into attestation, proposer and sync committee rewards. To evaluate the degree of decentralization in PoS Ethereum, we apply several inequality indices, including the Shannon entropy, the Gini Index, the Nakamoto Coefficient, and the Herfindahl-Hirschman Index (HHI). Our comprehensive dataset is publicly available on Harvard Dataverse, and our analytical methodologies are accessible via GitHub, promoting open-access research. Additionally, we provide insights on utilizing our data for future investigations focused on assessing, augmenting, and refining the decentralization, security, and efficiency of blockchain systems.
翻訳日:2024-02-21 19:19:09 公開日:2024-02-17
# ドメイン知識としての初等・二次的要因の整合性

Primary and Secondary Factor Consistency as Domain Knowledge to Guide Happiness Computing in Online Assessment ( http://arxiv.org/abs/2402.12398v1 )

ライセンス: Link先を確認
Xiaohua Wu and Lin Li and Xiaohui Tao and Frank Xing and Jingling Yuan(参考訳) 大規模オンラインWebデータと機械学習手法に基づく幸福コンピューティングは、個人的成長から社会的安定に至るまで、さまざまな問題を支える新たな研究トピックである。 説明付きの高度な機械学習(ML)モデルの多くは、結果の高精度を維持しながら、オンライン評価の幸福度を計算するために使用される。 しかしながら、幸福要因の一次関係や二次関係といったドメイン知識の制約は、これらのモデルに欠如しており、計算結果とそれらの発生理由の関連性が制限されている。 この記事では,経験的研究の観点から,説明の一貫性に関する新たな洞察の提供を試みる。 次に,mlモデルの信頼性を高めるために,ドメイン知識制約の表現と導入について検討する。 1) 加法因子帰属を伴う複数の予測モデルが1次および2次関係一貫性の望ましい性質を持つことを示すこと, (2) 量との因子関係をドメイン知識のエンコーディングにおける重要分布として表現できることを示すこと。 Kullback-Leibler分散に基づく計算モデル間の損失により、要因説明の違いが罰せられる。 2つのオンラインWebデータセットを用いた実験結果から,安定要因関係のドメイン知識の存在が確認された。 この知識を利用することで、幸福計算の精度が向上するだけでなく、意思決定をうまく支援するための明確な幸福要因も明らかになる。

Happiness computing based on large-scale online web data and machine learning methods is an emerging research topic that underpins a range of issues, from personal growth to social stability. Many advanced Machine Learning (ML) models with explanations are used to compute the happiness online assessment while maintaining high accuracy of results. However, domain knowledge constraints, such as the primary and secondary relations of happiness factors, are absent from these models, which limits the association between computing results and the right reasons for why they occurred. This article attempts to provide new insights into the explanation consistency from an empirical study perspective. Then we study how to represent and introduce domain knowledge constraints to make ML models more trustworthy. We achieve this through: (1) proving that multiple prediction models with additive factor attributions will have the desirable property of primary and secondary relations consistency, and (2) showing that factor relations with quantity can be represented as an importance distribution for encoding domain knowledge. Factor explanation difference is penalized by the Kullback-Leibler divergence-based loss among computing models. Experimental results using two online web datasets show that domain knowledge of stable factor relations exists. Using this knowledge not only improves happiness computing accuracy but also reveals more significative happiness factors for assisting decisions well.
翻訳日:2024-02-21 19:04:09 公開日:2024-02-17
# 多クラス時間論理ニューラルネットワーク

Multi-class Temporal Logic Neural Networks ( http://arxiv.org/abs/2402.12397v1 )

ライセンス: Link先を確認
Danyang Li, Roberto Tron(参考訳) 時系列データは、ドローンや自動運転車のような自律システムの振る舞いを表現できる。 この分野では,バイナリ分類とマルチクラス分類の問題に多くの関心が寄せられている。 ニューラルネットワークは、データを分類する一般的なアプローチであるが、解釈可能性に欠けており、それらから有意義な情報を抽出する上で大きな課題となっている。 信号時相論理 (Signal Temporal Logic, STL) は、時間的挙動の特性を記述する形式である。 時系列データの多クラス分類のためのstl仕様を表すニューラルネットワークを提案する。 重要な貢献が2つあります 1)多類分類におけるマージンの概念を導入し, 2) 結果の解釈性を高めるために, STL ベースの属性を導入する。 本手法を2つのデータセットで評価し,最先端のベースラインと比較した。

Time-series data can represent the behaviors of autonomous systems, such as drones and self-driving cars. The problem of binary and multi-class classification has received a lot of attention in this field. Neural networks represent a popular approach to classifying data; However, they lack interpretability, which poses a significant challenge in extracting meaningful information from them. Signal Temporal Logic (STL) is a formalism to describe the properties of timed behaviors. We propose a method that combines all of the above: neural networks that represent STL specifications for multi-class classification of time-series data. We offer two key contributions: 1) We introduce a notion of margin for multi-class classification, and 2) we introduce the use of STL-based attributes for enhancing the interpretability of the results. We evaluate our method on two datasets and compare with state-of-the-art baselines.
翻訳日:2024-02-21 19:03:46 公開日:2024-02-17
# 年齢条件平均処理効果曲線の推定:NBAにおける負荷管理戦略の評価への応用

Estimating the age-conditioned average treatment effects curves: An application for assessing load-management strategies in the NBA ( http://arxiv.org/abs/2402.12400v1 )

ライセンス: Link先を確認
Shinpei Nakamura-Sakai, Laura Forastiere, Brian Macdonald(参考訳) 競争スポーツの分野では、年齢曲線(進行、ピーク、減少を示す)で表される選手のパフォーマンスダイナミクスを理解することが不可欠である。 本研究は, 年齢別治療効果を定量化し, 性能軌跡解析の粒度を高めるための新しい枠組みを提案する。 まず、ゲームレベルのデータを用いて年齢曲線を推定し、伝統的な季節レベルのデータアプローチから逸脱し、高度な機械学習モデルを活用するメタラーナーフレームワークで固有の複雑さに取り組む手法を提案する。 このアプローチは、既存のメソッドが見逃す複雑な非線形パターンを明らかにする。 第2に,この枠組みは因果効果の同定を可能にし,様々な条件下での年齢曲線の詳細な検討を可能にする。 年齢依存治療効果(ACTE)を定義することにより,特定の年齢における治療効果に関する因果関係の探索を容易にする。 最後に、この方法論を適用して、特に異なる年齢におけるパフォーマンス指標に対する休日の影響を研究することで、負荷管理戦略の有効性に関する貴重な洞察を提供する。 本研究は,スポーツ選手のパフォーマンスに肯定的な影響を及ぼすとともに,スポーツ選手のパフォーマンスを最適化するための現在のマネジメントプラクティスの再評価を示唆するものである。

In the realm of competitive sports, understanding the performance dynamics of athletes, represented by the age curve (showing progression, peak, and decline), is vital. Our research introduces a novel framework for quantifying age-specific treatment effects, enhancing the granularity of performance trajectory analysis. Firstly, we propose a methodology for estimating the age curve using game-level data, diverging from traditional season-level data approaches, and tackling its inherent complexities with a meta-learner framework that leverages advanced machine learning models. This approach uncovers intricate non-linear patterns missed by existing methods. Secondly, our framework enables the identification of causal effects, allowing for a detailed examination of age curves under various conditions. By defining the Age-Conditioned Treatment Effect (ACTE), we facilitate the exploration of causal relationships regarding treatment impacts at specific ages. Finally, applying this methodology to study the effects of rest days on performance metrics, particularly across different ages, offers valuable insights into load management strategies' effectiveness. Our findings underscore the importance of tailored rest periods, highlighting their positive impact on athlete performance and suggesting a reevaluation of current management practices for optimizing athlete performance.
翻訳日:2024-02-21 18:49:22 公開日:2024-02-17
# 廃棄物を価値に変える:MoEのルーターの1万ドル超の発明

Turn Waste into Worth: Rectifying Top-$k$ Router of MoE ( http://arxiv.org/abs/2402.12399v1 )

ライセンス: Link先を確認
Zhiyuan Zeng, Qipeng Guo, Zhaoye Fei, Zhangyue Yin, Yunhua Zhou, Linyang Li, Tianxiang Sun, Hang Yan, Dahua Lin, Xipeng Qiu(参考訳) sparse mixed of experts (moe)モデルはその計算効率のために大きな言語モデルのトレーニングに人気がある。 しかし、一般的なトップ$kのルーティングメカニズムは、アンバランスなルーティングのために冗長性計算とメモリコストに悩まされている。 一部の専門家はオーバーフローを行い、トークンを超えるものを削除する。 一部の専門家は、ゼロでパットされている空いているが、モデルのパフォーマンスに悪影響を及ぼす。 落下したトークンとパディングに対処するため,GPU内整流とFill-in整流を含むRectify-Routerを提案する。 Intra-GPU Rectificationはドロップトークンを処理し、GPU間の通信を避けるために、GPU内のエキスパートに効率的にルーティングする。 Fill-in Rectificationは、パディングトークンを高いルーティングスコアを持つトークンに置き換えることでパディングに対処する。 実験の結果,GPU内整流法とFill-in整流法は,それぞれドロップトークンとパディングを効果的に処理できることがわかった。 さらに、これらの組み合わせはバニラトップ1ルータの精度を4.7%上回る優れた性能を実現している。

Sparse Mixture of Experts (MoE) models are popular for training large language models due to their computational efficiency. However, the commonly used top-$k$ routing mechanism suffers from redundancy computation and memory costs due to the unbalanced routing. Some experts are overflow, where the exceeding tokens are dropped. While some experts are vacant, which are padded with zeros, negatively impacting model performance. To address the dropped tokens and padding, we propose the Rectify-Router, comprising the Intra-GPU Rectification and the Fill-in Rectification. The Intra-GPU Rectification handles dropped tokens, efficiently routing them to experts within the GPU where they are located to avoid inter-GPU communication. The Fill-in Rectification addresses padding by replacing padding tokens with the tokens that have high routing scores. Our experimental results demonstrate that the Intra-GPU Rectification and the Fill-in Rectification effectively handle dropped tokens and padding, respectively. Furthermore, the combination of them achieves superior performance, surpassing the accuracy of the vanilla top-1 router by 4.7%.
翻訳日:2024-02-21 18:48:44 公開日:2024-02-17
# 量子アプリケーション用超低雑音増幅器(QLNA)の設計

Design of Ultra-Low Noise Amplifier for Quantum Applications (QLNA) ( http://arxiv.org/abs/2111.15358v4 )

ライセンス: Link先を確認
Ahmad Salmanogli and Vahid Sharif Sirat(参考訳) 本論文は主に量子応用に特化した超低雑音増幅器の設計に焦点をあてる。 量子関連アプリケーションは回路のノイズ温度を0.4K程度にする必要があるため、回路設計はノイズフィギュアの改善に重点を置いている。 この課題にはかなりの課題があるが、回路のエンジニアリングに集中し、ミスマッチと反射係数を最小化し、同時に回路のトランスコンダクタンスを向上する。 これらの取り組みはノイズフィギュアをできるだけ効率的に改善することを目的としている。 本研究は,10k動作のユニークな回路設計において,約0.009dbのノイズフィギュアを実現する可能性を示唆する。従来の手法を離れて,量子力学的理論を用いて回路を包括的に解析する。 量子理論を用いることで、研究者は回路設計がノイズフィギュアの最適化に重点を置くべき重要な量を強調する関係性を引き出す。 例えば、回路のフォトニックモードに依存する回路の利得電力は理論的に導出され、ノイズフィギュアに直接影響を及ぼすことが判明した。 量子論と工学的アプローチを融合させることで、量子アプリケーション設定におけるノイズフィギュアを著しく最小化する高効率回路の設計に成功した。

The present article primarily focuses on the design of an ultra-low-noise amplifier specifically tailored for quantum applications. The circuit design places a significant emphasis on improving the noise figure, as quantum-associated applications require the circuit's noise temperature to be around 0.4 K. This requirement aims to achieve performance comparable to the Josephson Junction amplifier. Although this task presents considerable challenges, the work concentrates on engineering the circuit to minimize mismatch and reflection coefficients, while simultaneously enhancing circuit transconductance. These efforts aim to improve the noise figure as efficiently as possible. The results of this study indicate the possibility of achieving a noise figure of approximately 0.009 dB for a unique circuit design operating at 10 K. In a departure from traditional approaches, this study employs quantum mechanical theory to analyze the circuit comprehensively. By employing quantum theory, the researchers derive relationships that highlight the crucial quantities upon which the circuit design should focus to optimize the noise figure. For example, the circuit's gain power, which depends on the circuit's photonic modes, is theoretically derived and found to affect the noise figure directly. Ultimately, by merging quantum theory with engineering approaches, this study successfully designs a highly efficient circuit that significantly minimizes the noise figure in a quantum application setting.
翻訳日:2024-02-21 07:55:33 公開日:2024-02-17
# タイミングサイドチャネルを用いたディープニューラルネットワークにおけるユーザのプライバシ評価について

On the Evaluation of User Privacy in Deep Neural Networks using Timing Side Channel ( http://arxiv.org/abs/2208.01113v3 )

ライセンス: Link先を確認
Shubhi Shukla, Manaar Alam, Sarani Bhattacharya, Debdeep Mukhopadhyay, Pabitra Mitra(参考訳) 複雑な現実世界のタスクを解くための最近のDeep Learning (DL)の進歩は、実践的応用において広く採用されている。 しかし、この機会には重大なリスクが伴う。これらのモデルの多くは、さまざまなアプリケーションのトレーニングにプライバシーに敏感なデータに依存しているため、プライバシー侵害に対する過度に暴露される脅威となる。 さらに、堅牢なインフラストラクチャサポートにクラウドベースのMachine-Learning-as-a-Service(MLaaS)が広く使用されていることにより、脅威表面が拡張され、さまざまなリモートサイドチャネル攻撃が含まれている。 本稿では,広く使用されているdlフレームワークpytorchにおける非定常時間分岐操作に由来するdl実装における,新たなデータ依存タイミングサイドチャネルリーク(いわゆるクラスリーク)を特定し,報告する。 さらに、MLaaSのユーザ特権とハードラベルのブラックボックスアクセスを持つ敵が、クラスリークを利用してMLaaSユーザのプライバシーを侵害する、実用的な推論時攻撃を実証する。 dlモデルはメンバーシップ推論攻撃(mia)に対して脆弱であり、敵の目標はモデルトレーニング中に特定のデータが使用されたかどうかを推測することである。 本稿では,異なるケーススタディとして,差分プライバシーが確保されたDLモデル(MIAに対する一般的な対策)が,いまだにクラスリークを悪用する敵に対するMIAに対して脆弱であることを示す。 我々は,クラスリークを緩和し,MIAを緩和する定時分岐操作を行うことにより,実装が容易な対策を開発する。 我々は、CIFAR-10とCIFAR-100という2つの標準ベンチマーク画像分類データセットを選択して、5つの最先端の訓練済みDLモデルをトレーニングしました。

Recent Deep Learning (DL) advancements in solving complex real-world tasks have led to its widespread adoption in practical applications. However, this opportunity comes with significant underlying risks, as many of these models rely on privacy-sensitive data for training in a variety of applications, making them an overly-exposed threat surface for privacy violations. Furthermore, the widespread use of cloud-based Machine-Learning-as-a-Service (MLaaS) for its robust infrastructure support has broadened the threat surface to include a variety of remote side-channel attacks. In this paper, we first identify and report a novel data-dependent timing side-channel leakage (termed Class Leakage) in DL implementations originating from non-constant time branching operation in a widely used DL framework PyTorch. We further demonstrate a practical inference-time attack where an adversary with user privilege and hard-label black-box access to an MLaaS can exploit Class Leakage to compromise the privacy of MLaaS users. DL models are vulnerable to Membership Inference Attack (MIA), where an adversary's objective is to deduce whether any particular data has been used while training the model. In this paper, as a separate case study, we demonstrate that a DL model secured with differential privacy (a popular countermeasure against MIA) is still vulnerable to MIA against an adversary exploiting Class Leakage. We develop an easy-to-implement countermeasure by making a constant-time branching operation that alleviates the Class Leakage and also aids in mitigating MIA. We have chosen two standard benchmarking image classification datasets, CIFAR-10 and CIFAR-100 to train five state-of-the-art pre-trained DL models, over two different computing environments having Intel Xeon and Intel i7 processors to validate our approach.
翻訳日:2024-02-21 07:48:57 公開日:2024-02-17
# 複雑なマルチエージェントシナリオにおける反事実的治療結果の推定

Estimating counterfactual treatment outcomes over time in complex multiagent scenarios ( http://arxiv.org/abs/2206.01900v4 )

ライセンス: Link先を確認
Keisuke Fujii, Koh Takeuchi, Atsushi Kuribayashi, Naoya Takeishi, Yoshinobu Kawahara, Kazuya Takeda(参考訳) マルチエージェントシステムにおける介入の評価(例えば、人間が自律運転システムに介入すべき時や、プレーヤがチームメイトに良いショットを渡すべき時など)は、様々な工学や科学分野において困難である。 対人的長期予測を用いた個別治療効果(ite)の推定は,これらの介入を評価するのに有用である。 しかし、従来のフレームワークの多くは、マルチエージェント関係の時間変化する複雑な構造や、反事実予測を考慮していなかった。 これは ite の誤った評価と解釈の難しさにつながる可能性がある。 本稿では,マルチエージェントシステムにおける解釈可能で反事実的再帰的ネットワークを提案し,介入の効果を推定する。 本モデルでは,マルチエージェント共変量および結果の長期予測に基づいて,グラフ変動リカレントニューラルネットワークとITE推定フレームワークのドメイン知識を用いた理論ベース計算を利用して,介入が有効な状況を確認する。 自動走行車と生体エージェントのシミュレーションモデルについて, 提案手法は, 正則共変量における推定誤差の低減と, ベースラインよりも効果的な処理タイミングを達成できたことを示す。 さらに,実際のバスケットボールデータを用いて現実的な対実予測を行い,ショットシナリオにおける対実パスを評価した。

Evaluation of intervention in a multiagent system, e.g., when humans should intervene in autonomous driving systems and when a player should pass to teammates for a good shot, is challenging in various engineering and scientific fields. Estimating the individual treatment effect (ITE) using counterfactual long-term prediction is practical to evaluate such interventions. However, most of the conventional frameworks did not consider the time-varying complex structure of multiagent relationships and covariate counterfactual prediction. This may lead to erroneous assessments of ITE and difficulty in interpretation. Here we propose an interpretable, counterfactual recurrent network in multiagent systems to estimate the effect of the intervention. Our model leverages graph variational recurrent neural networks and theory-based computation with domain knowledge for the ITE estimation framework based on long-term prediction of multiagent covariates and outcomes, which can confirm the circumstances under which the intervention is effective. On simulated models of an automated vehicle and biological agents with time-varying confounders, we show that our methods achieved lower estimation errors in counterfactual covariates and the most effective treatment timing than the baselines. Furthermore, using real basketball data, our methods performed realistic counterfactual predictions and evaluated the counterfactual passes in shot scenarios.
翻訳日:2024-02-21 07:45:56 公開日:2024-02-17
# 代数機械学習と化学への応用

Algebraic Machine Learning with an Application to Chemistry ( http://arxiv.org/abs/2205.05795v3 )

ライセンス: Link先を確認
Ezzeddine El Sai, Parker Gara, Markus J. Pflaum(参考訳) 科学応用で使われるデータセットが複雑化するにつれて、データの幾何学とトポロジを研究することが、データ分析プロセスにおいてますます普及している。 これは例えば、永続ホモロジーのようなトポロジカルツールへの関心が高まる中で見られる。 しかし、トポロジカルツールは本質的に、データの基本空間に関する粗い情報のみを提供することに限られている。 一方、より幾何学的なアプローチは、基礎となる空間が滑らかな多様体であると主張する多様体仮説に優先的に依拠する。 この仮定は、基礎空間が特異点を含む多くの物理モデルに対して失敗する。 本稿では,スムーズな仮定を必要とせず,微粒な幾何学的情報を捉える機械学習パイプラインを開発する。 この手法は微分幾何学や滑らかな多様体の代わりに代数幾何学や代数多様体の範囲内で働く。 バラエティ仮説の設定では、サンプルデータを用いて基礎となるバラエティを見つけることが学習問題となる。 我々は、この学習問題を、固有値計算の観点で解決する最大Aポストエリオリ最適化問題に投入した。 基礎となる多様体を見出し, gr\"obner基底と数値解法を用いてその幾何学的情報を明らかにする。 特に,基礎となる多様体の特異点近傍にある点を数値的に検出するためのヒューリスティックを提案する。

As datasets used in scientific applications become more complex, studying the geometry and topology of data has become an increasingly prevalent part of the data analysis process. This can be seen for example with the growing interest in topological tools such as persistent homology. However, on the one hand, topological tools are inherently limited to providing only coarse information about the underlying space of the data. On the other hand, more geometric approaches rely predominately on the manifold hypothesis, which asserts that the underlying space is a smooth manifold. This assumption fails for many physical models where the underlying space contains singularities. In this paper we develop a machine learning pipeline that captures fine-grain geometric information without having to rely on any smoothness assumptions. Our approach involves working within the scope of algebraic geometry and algebraic varieties instead of differential geometry and smooth manifolds. In the setting of the variety hypothesis, the learning problem becomes to find the underlying variety using sample data. We cast this learning problem into a Maximum A Posteriori optimization problem which we solve in terms of an eigenvalue computation. Having found the underlying variety, we explore the use of Gr\"obner bases and numerical methods to reveal information about its geometry. In particular, we propose a heuristic for numerically detecting points lying near the singular locus of the underlying variety.
翻訳日:2024-02-21 07:45:09 公開日:2024-02-17
# 生物時系列データによる確率力学方程式の発見

Discovering stochastic dynamical equations from biological time series data ( http://arxiv.org/abs/2205.02645v5 )

ライセンス: Link先を確認
Arshed Nabeel, Ashwin Karichannavar, Shuaib Palathingal, Jitesh Jhawar, David B. Br\"uckner, Danny Raj M., Vishwesha Guttal(参考訳) 確率微分方程式(英: stochastic differential equation, sdes)は、ランダム性を持つ力学をモデル化するための重要な枠組みである。 これらのモデルと経験的データを統合するという逆問題はまだ大きな課題である。 本稿では,時系列データを入力とし,微妙なスケール変動を解析し,データの長時間ダイナミクスを正しく捉えた解釈可能なsdeを出力する方程式発見手法を提案する。 確率計算学の従来の手法と最先端の方程式発見技術を組み合わせることでこれを実現できる。 我々は,合成データセットに対する我々のアプローチを検証し,その方法の汎用性と適用性について,空間的スケールの異なる2つの実世界データセット上で実証する。 (i)確率が重要な役割を担う魚学校集団運動、 (ii) 単一細胞の移動は、主に緩やかな発振によって制限される。 我々はPyDaddy(Python Library for Data Driven Dynamics)という,使いやすいオープンソースのPythonパッケージとして,このメソッドを利用可能にしています。

Stochastic differential equations (SDEs) are an important framework to model dynamics with randomness, as is common in most biological systems. The inverse problem of integrating these models with empirical data remains a major challenge. Here, we present an equation discovery methodology that takes time series data as an input, analyses fine scale fluctuations and outputs an interpretable SDE that can correctly capture long-time dynamics of data. We achieve this by combining traditional approaches from stochastic calculus literature with state-of-the-art equation discovery techniques. We validate our approach on synthetic datasets, and demonstrate the generality and applicability of the method on two real-world datasets of vastly different spatiotemporal scales: (i) collective movement of fish school where stochasticity plays a crucial role, and (ii) confined migration of a single cell, primarily following a relaxed oscillation. We make the method available as an easy-to-use, open-source Python package, PyDaddy (Python Library for Data Driven Dynamics).
翻訳日:2024-02-21 07:44:50 公開日:2024-02-17
# BMX: 説明可能な自然言語生成メトリクスの強化

BMX: Boosting Natural Language Generation Metrics with Explainability ( http://arxiv.org/abs/2212.10469v2 )

ライセンス: Link先を確認
Christoph Leiter, Hoa Nguyen, Steffen Eger(参考訳) 最先端の自然言語生成評価指標はブラックボックス言語モデルに基づいている。 したがって、最近の研究では、人間の理解力の向上と、失敗事例を含むメトリクス分析の改善という目標により、その説明可能性を検討している。 これとは対照的に,提案手法であるbmx: 説明可能な自然言語生成メトリクスの促進は,説明を明示的に活用してメトリクスのパフォーマンスを向上させる。 特に、特徴の重要性を単語レベルのスコアとして捉え、それをパワー手段でセグメントレベルのスコアに変換する。 そして、このセグメントレベルのスコアを元のメトリックと組み合わせ、より良いメトリックを得る。 本テストでは,MTおよび要約データセット間の複数のメトリクスの改善を示す。 機械翻訳の改善は小さいが、要約には強い。 特に, ライム弁別器と予め選択したパラメータを用いたbmxは, システムレベルの要約評価において, スピアマン相関において平均0.087点の改善を達成している。

State-of-the-art natural language generation evaluation metrics are based on black-box language models. Hence, recent works consider their explainability with the goals of better understandability for humans and better metric analysis, including failure cases. In contrast, our proposed method BMX: Boosting Natural Language Generation Metrics with explainability explicitly leverages explanations to boost the metrics' performance. In particular, we perceive feature importance explanations as word-level scores, which we convert, via power means, into a segment-level score. We then combine this segment-level score with the original metric to obtain a better metric. Our tests show improvements for multiple metrics across MT and summarization datasets. While improvements in machine translation are small, they are strong for summarization. Notably, BMX with the LIME explainer and preselected parameters achieves an average improvement of 0.087 points in Spearman correlation on the system-level evaluation of SummEval.
翻訳日:2024-02-21 07:36:27 公開日:2024-02-17
# g-map: ドメインタスクのための一般メモリ型事前学習言語モデル

G-MAP: General Memory-Augmented Pre-trained Language Model for Domain Tasks ( http://arxiv.org/abs/2212.03613v3 )

ライセンス: Link先を確認
Zhongwei Wan, Yichun Yin, Wei Zhang, Jiaxin Shi, Lifeng Shang, Guangyong Chen, Xin Jiang, Qun Liu(参考訳) 近年、特定のドメイン(例えば、生物医学やコンピュータ科学)のタスク性能を高めるために、ドメイン固有のPLMが提案されている。 しかし、このDomain-Adaptive Pre-Training (DAPT; Gururangan et al. (2020)) は、一般的なPLMが獲得したこれまでの一般的な知識を忘れがちであり、破滅的な忘れ物現象と準最適性能をもたらす。 そこで本研究では,一般の知識を失うことなく,フリーズした一般plmから構築したメモリ表現によってドメイン固有plmを拡張できる汎用メモリ拡張事前学習言語モデル(g-map)の新たなフレームワークを提案する。 具体的には、新しいメモリ表示層を提案し、それに基づいて異なる拡張戦略を検討し、メモリ表現を構築し、それをドメイン固有のplmに適応的に融合する。 我々は,G-MAPが様々な領域(生物・コンピュータ科学出版物,ニュース,レビュー)およびタスクの異なる種類(テキスト分類,QA,NER)において有効であることを示し,提案したG-MAPが全てのタスクにおいてSOTA結果を得ることができることを示す。

Recently, domain-specific PLMs have been proposed to boost the task performance of specific domains (e.g., biomedical and computer science) by continuing to pre-train general PLMs with domain-specific corpora. However, this Domain-Adaptive Pre-Training (DAPT; Gururangan et al. (2020)) tends to forget the previous general knowledge acquired by general PLMs, which leads to a catastrophic forgetting phenomenon and sub-optimal performance. To alleviate this problem, we propose a new framework of General Memory Augmented Pre-trained Language Model (G-MAP), which augments the domain-specific PLM by a memory representation built from the frozen general PLM without losing any general knowledge. Specifically, we propose a new memory-augmented layer, and based on it, different augmented strategies are explored to build the memory representation and then adaptively fuse it into the domain-specific PLM. We demonstrate the effectiveness of G-MAP on various domains (biomedical and computer science publications, news, and reviews) and different kinds (text classification, QA, NER) of tasks, and the extensive results show that the proposed G-MAP can achieve SOTA results on all tasks.
翻訳日:2024-02-21 07:35:27 公開日:2024-02-17
# 低精度環境におけるリプシッツ連続損失関数のsgd変異

Variants of SGD for Lipschitz Continuous Loss Functions in Low-Precision Environments ( http://arxiv.org/abs/2211.04655v6 )

ライセンス: Link先を確認
Michael R. Metel(参考訳) 低ビット浮動小数点浮動小数点環境におけるニューラルネットワークの学習を動機とし,適応ステップサイズと計算誤差を用いてsgdの変種について検討した。 一般的な確率的リプシッツ連続損失関数を考えると、クラーク定常点への漸近収束の結果と、近似定常点への非漸近収束が証明される。 sgdステップ自体の計算誤差に加えて、損失関数の確率勾配の近似のみを計算できると仮定する。 2つの画像認識タスクのSGDと比較して、テストセットの精度が向上した様々な低精度演算環境において、異なるSGDの変種を経験的にテストする。

Motivated by neural network training in low-bit floating and fixed-point environments, this work studies the convergence of variants of SGD using adaptive step sizes with computational error. Considering a general stochastic Lipschitz continuous loss function, an asymptotic convergence result to a Clarke stationary point is proven as well as the non-asymptotic convergence to an approximate stationary point. It is assumed that only an approximation of the loss function's stochastic gradient can be computed in addition to error in computing the SGD step itself. Different variants of SGD are tested empirically in a variety of low-precision arithmetic environments, where improved test set accuracy is observed compared to SGD for two image recognition tasks.
翻訳日:2024-02-21 07:33:59 公開日:2024-02-17
# 二次元磁性体によるキャビティマグノメカニクスの量子状態工学

Quantum-state engineering in cavity magnomechanics formed by two-dimensional magnetic materials ( http://arxiv.org/abs/2210.15519v2 )

ライセンス: Link先を確認
Chun-Jie Yang, Qingjun Tong, Jun-Hong An(参考訳) キャビティマグノメカニクスは、マクロな量子効果を探求する理想的なプラットフォームとなっている。 マグノン、フォノン、光子をシステムに持ち込むことで、量子技術に多くの機会を開く。 これは従来、yttrium iron garnetによって実現され、パラメトリックなmagnon-phonon結合である$\hat{m}^\dag\hat{m}(\hat{b}^\dag+\hat{b})$、$\hat{m}$と$\hat{b}$がmagnonおよびphononモードである。 近年の二次元(2d)磁石の実現に触発されて,光学駆動と磁気駆動の両方を備えた2次元磁性材料を用いたキャビティマグノメカニクスシステムを提案する。 共存するフォトン-フォノン放射圧結合と二次マグノン-フォノン結合 $\hat{m}^\dag\hat{m}(\hat{b}^\dag+\hat{b})^2$ は磁歪相互作用によって誘導される。 抑制されたフォノン数を有するレジームにおいて、3つのモード間のフォノン及びバイ及びトリパーティト絡み合いの安定なスクイーズを生成する。 従来のスキームと比較して, 余分な非線形相互作用や貯水池工学は不要であり, 熱揺らぎに対して頑健である。 キャビティマグノメカニクスの実現により、量子状態工学においてその2次元特徴によって実現される多彩な相互作用により、その優越性を示す。

Cavity magnomechanics has become an ideal platform to explore macroscopic quantum effects. Bringing together magnons, phonons, and photons in a system, it opens many opportunities for quantum technologies. It was conventionally realized by an yttrium iron garnet, which exhibits a parametric magnon-phonon coupling $\hat{m}^\dag\hat{m}(\hat{b}^\dag+\hat{b})$, with $\hat{m}$ and $\hat{b}$ being the magnon and phonon modes. Inspired by the recent realization of two-dimensional (2D) magnets, we propose a cavity magnomechanical system using a 2D magnetic material with both optical and magnetic drivings. It features the coexisting photon-phonon radiation-pressure coupling and quadratic magnon-phonon coupling $\hat{m}^\dag\hat{m}(\hat{b}^\dag+\hat{b})^2$ induced by the magnetostrictive interaction. A stable squeezing of the phonon and bi- and tri-partite entanglements among the three modes are generated in the regimes with a suppressed phonon number. Compared with previous schemes, ours does not require any extra nonlinear interaction and reservoir engineering and is robust against the thermal fluctuation. Enriching the realization of cavity magnomechanics, our system exhibits its superiority in quantum-state engineering due to the versatile interactions enabled by its 2D feature.
翻訳日:2024-02-21 07:33:35 公開日:2024-02-17
# 数学用語問題に対する自己整合性推論

Self-consistent Reasoning For Solving Math Word Problems ( http://arxiv.org/abs/2210.15373v2 )

ライセンス: Link先を確認
Jing Xiong, Zhongwei Wan, Xiping Hu, Min Yang, Chengming Li(参考訳) 数学語問題 (MWPs) は、テキスト中の数学問題から解表現を自動的に導出するタスクである。 従来の研究は、入力テキストと出力表現の相関性に支障をきたす。 この問題を軽減するために,SCRと呼ばれる自己整合性推論フレームワークを提案する。このフレームワークはプルーニング戦略を採用して,出力分布のシフトを補正し,これらの突発的相関サンプルを暗黙的に修正する。 具体的には、最初のroberta2treeモデルとprunedサブネットワーク間の出力分布のギャップを利用して、スプリアス相関サンプルを露出させるためにroberta2treeモデルをprunしてサブネットワークを得る。 次に,sprious相関を緩和するために,対称kullback-leiblerダイバージェンスを適用して出力分布シフトを校正する。 さらに、SCRは等価な表現を生成するため、元のテキストからのヒントに頼るのではなく、元のテキストのロジックをキャプチャする。 2つの大規模ベンチマークに関する広範囲な実験は、我々のモデルは強力なベースラインメソッドを実質的に上回っていることを示している。

Math word problems (MWPs) is a task that automatically derives solution expression from a giving math problems in text. The previous studies suffer from spurious correlations between input text and output expression. To mitigate this issue, we propose a self-consistent reasoning framework called SCR, which attempts to adopt a pruning strategy to correct the output distribution shift so as to implicitly fix those spurious correlative samples. Specifically, we firstly obtain a sub-network by pruning a roberta2tree model, for the sake to use the gap on output distribution between the original roberta2tree model and the pruned sub-network to expose spurious correlative samples. Then, we calibrate the output distribution shift by applying symmetric Kullback-Leibler divergence to alleviate spurious correlations. In addition, SCR generates equivalent expressions, thereby, capturing the original text's logic rather than relying on hints from original text. Extensive experiments on two large-scale benchmarks demonstrate that our model substantially outperforms the strong baseline methods.
翻訳日:2024-02-21 07:33:00 公開日:2024-02-17
# 安定な測定誘起フロッケ富化位相秩序

Stable measurement-induced Floquet enriched topological order ( http://arxiv.org/abs/2303.01533v2 )

ライセンス: Link先を確認
DinhDuy Vu, Ali Lavasani, Jong Yeon Lee, Matthew P. A. Fisher(参考訳) フロケ符号は2量子ビットの周期列を用いて位相順序を実現する。 各測定ラウンドの後、瞬時安定化群をハニカムトーリックコードにマッピングし、トポロジ的特徴を説明する。 コードは時間結晶の順序を持ち、各サイクルの後にe-m$変換を行い、測定スケジュールのフロッケ対称性を破る。 この振舞いは、ランダム回路または時間非依存ハミルトニアンで実現された定常位相順序とは異なる。 したがって、結果として生じる位相は、フロケリッチトポロジカルオーダーのクラスと測定誘起位相の重複に属する。 本研究では,フロッケ符号とトーリック符号の間を補間する連続経路を構築し,時間結晶と定常位相相間の遷移に着目した。 この変遷は, 異種長スケールによって特徴づけられる。 また、Floquet符号のよりリッチな2次元パラメトリック位相図を得るとともに、Floquetリッチトポロジカル秩序の安定性を示す。

The Floquet code utilizes a periodic sequence of two-qubit measurements to realize the topological order. After each measurement round, the instantaneous stabilizer group can be mapped to a honeycomb toric code, explaining the topological feature. The code also possesses a time-crystal order - the $e-m$ transmutation after every cycle, breaking the Floquet symmetry of the measurement schedule. This behavior is distinct from the stationary topological order realized in either random circuits or time-independent Hamiltonian. Therefore, the resultant phase belongs to the overlap between the classes of Floquet enriched topological orders and measurement-induced phases. In this work, we construct a continuous path interpolating between the Floquet and toric codes, focusing on the transition between the time-crystal and stationary topological phases. We show that this transition is characterized by a divergent length scale. We also add single-qubit perturbations to the model and obtain a richer two-dimensional parametric phase diagram of the Floquet code, showing the stability of the Floquet enriched topological order.
翻訳日:2024-02-21 07:25:00 公開日:2024-02-17
# Lumos: 分散デバイス上でのフェデレーショングラフ学習

Lumos: Heterogeneity-aware Federated Graph Learning over Decentralized Devices ( http://arxiv.org/abs/2303.00492v3 )

ライセンス: Link先を確認
Qiying Pan, Yifei Zhu, Lingyang Chu(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データを扱う能力のため、現実世界のネットワークアプリケーションやシステムに広くデプロイされている。 しかし、データプライバシに対する認識の高まりは、サーバがすべてのグラフ情報を保持している従来の集中型モデルトレーニングパラダイムに大きく挑戦する。 フェデレートラーニング(Federated Learning)は、データ集中化のないモデルトレーニングを可能にする、新たなコラボレーティブコンピューティングパラダイムである。 既存のGNN研究は主にクライアントが固有のグラフやサブグラフを保持するシステムに焦点を当てている。 各クライアントが直接の隣人だけを意識している実際のノードレベルの連合状況についてはまだ研究されていない。 本稿では,ノードレベルのフェデレーショングラフにおける特徴と次数保護を備えた教師あり教師なし学習を支援するLumosという,最初のフェデレーションGNNフレームワークを提案する。 まず,限られた構造情報から表現能力を向上させるために木コンストラクタを設計する。 さらに,モンテカルロ・マルコフ・チェインに基づくアルゴリズムを用いて,理論的に保証された性能の次不均一性に起因する負荷の不均衡を緩和する。 クライアント毎に構築したツリーに基づいて,多用途トレーニングをサポートする分散型木ベースgnnトレーナーを提案する。 広範な実験により、lumosがベースラインをはるかに高い精度で上回り、通信コストとトレーニング時間を大幅に削減できることが示されている。

Graph neural networks (GNN) have been widely deployed in real-world networked applications and systems due to their capability to handle graph-structured data. However, the growing awareness of data privacy severely challenges the traditional centralized model training paradigm, where a server holds all the graph information. Federated learning is an emerging collaborative computing paradigm that allows model training without data centralization. Existing federated GNN studies mainly focus on systems where clients hold distinctive graphs or sub-graphs. The practical node-level federated situation, where each client is only aware of its direct neighbors, has yet to be studied. In this paper, we propose the first federated GNN framework called Lumos that supports supervised and unsupervised learning with feature and degree protection on node-level federated graphs. We first design a tree constructor to improve the representation capability given the limited structural information. We further present a Monte Carlo Markov Chain-based algorithm to mitigate the workload imbalance caused by degree heterogeneity with theoretically-guaranteed performance. Based on the constructed tree for each client, a decentralized tree-based GNN trainer is proposed to support versatile training. Extensive experiments demonstrate that Lumos outperforms the baseline with significantly higher accuracy and greatly reduced communication cost and training time.
翻訳日:2024-02-21 07:24:41 公開日:2024-02-17
# 分位流を伴う分布型グフローネット

Distributional GFlowNets with Quantile Flows ( http://arxiv.org/abs/2302.05793v3 )

ライセンス: Link先を確認
Dinghuai Zhang, Ling Pan, Ricky T. Q. Chen, Aaron Courville, Yoshua Bengio(参考訳) Generative Flow Networks (GFlowNets) は、エージェントが一連の意思決定ステップを通じて複雑な組合せ構造を生成する確率的ポリシーを学ぶ確率的サンプルの新たなファミリーである。 強化学習にインスパイアされたものの、現在のGFlowNetフレームワークの適用性は比較的限られており、報酬関数の確率性は扱えない。 本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。 各エッジフローを分位関数を通じてパラメータ化することにより,提案するgflownet学習アルゴリズムは,リスク不確実性を持つシナリオを扱う上で不可欠な,リスクに敏感なポリシを学習することができる。 さらに, 従来の手法と比較して, 決定論的報酬のある設定においても, 従来の手法と比較して, 分布的アプローチが大幅に改善できることが判明した。

Generative Flow Networks (GFlowNets) are a new family of probabilistic samplers where an agent learns a stochastic policy for generating complex combinatorial structure through a series of decision-making steps. Despite being inspired from reinforcement learning, the current GFlowNet framework is relatively limited in its applicability and cannot handle stochasticity in the reward function. In this work, we adopt a distributional paradigm for GFlowNets, turning each flow function into a distribution, thus providing more informative learning signals during training. By parameterizing each edge flow through their quantile functions, our proposed \textit{quantile matching} GFlowNet learning algorithm is able to learn a risk-sensitive policy, an essential component for handling scenarios with risk uncertainty. Moreover, we find that the distributional approach can achieve substantial improvement on existing benchmarks compared to prior methods due to our enhanced training algorithm, even in settings with deterministic rewards.
翻訳日:2024-02-21 07:22:35 公開日:2024-02-17
# 思考課題論における大規模言語モデルの評価

Evaluating Large Language Models in Theory of Mind Tasks ( http://arxiv.org/abs/2302.02083v6 )

ライセンス: Link先を確認
Michal Kosinski(参考訳) 11の大規模言語モデル (llm) は、人間のテスト理論 (tom) において黄金の標準と見なされる偽のタスクのカスタムメイドのバッテリを用いて評価された。 バッテリーには、40種類のタスクにまたがる640のプロンプトが含まれており、それぞれが偽確認シナリオ、密に一致した真信制御シナリオ3つ、逆4つのバージョンが含まれていた。 1つのタスクを解決するために、モデルは8つのシナリオすべてで16のプロンプトに正しく答える必要がある。 GPT-3-davinci-003(2022年11月)とChatGPT-3.5-turbo(2023年3月)は20%のタスクを解き、ChatGPT-4(2023年6月)は75%のタスクを解き、過去の研究で観察された6歳児のパフォーマンスと一致した。 これまでに人間専用と考えられていたToMが、LLMの言語能力向上の副産物として自然に現れた可能性を含め、これらの発見の潜在的な解釈について検討する。

Eleven Large Language Models (LLMs) were assessed using a custom-made battery of false-belief tasks, considered a gold standard in testing Theory of Mind (ToM) in humans. The battery included 640 prompts spread across 40 diverse tasks, each one including a false-belief scenario, three closely matched true-belief control scenarios, and the reversed versions of all four. To solve a single task, a model needed to correctly answer 16 prompts across all eight scenarios. Smaller and older models solved no tasks; GPT-3-davinci-003 (from November 2022) and ChatGPT-3.5-turbo (from March 2023) solved 20% of the tasks; ChatGPT-4 (from June 2023) solved 75% of the tasks, matching the performance of six-year-old children observed in past studies. We explore the potential interpretation of these findings, including the intriguing possibility that ToM, previously considered exclusive to humans, may have spontaneously emerged as a byproduct of LLMs' improving language skills.
翻訳日:2024-02-21 07:22:00 公開日:2024-02-17
# グラフに基づく時系列異常検出:調査と展望

Graph-based Time-Series Anomaly Detection: A Survey and Outlook ( http://arxiv.org/abs/2302.00058v3 )

ライセンス: Link先を確認
Thi Kieu Khanh Ho, Ali Karami, Narges Armanfard(参考訳) 近年の技術の進歩により、広範囲のシステムが時間とともに大量のデータを収集し続け、時系列を生成するようになった。 時系列異常検出(TSAD)は、eコマース、サイバーセキュリティ、車両メンテナンス、医療監視など、さまざまな時系列アプリケーションにおいて重要なタスクである。 しかし、変数を時系列データの観察として定義できる変数内依存性と変数間依存関係の両方を考慮する必要があるため、このタスクは非常に難しい。 最近のグラフベースのアプローチは、この分野の課題に取り組む上で素晴らしい進歩を遂げています。 本稿では,グラフベースのTSAD(G-TSAD)の総合的かつ最新のレビューを行う。 まず,時系列データに対するグラフ表現学習の可能性を検討する。 次に,時系列の文脈における最先端グラフ異常検出手法について検討し,その強度と欠点について考察する。 最後に,本研究分野における技術的課題と今後の展望について考察する。

With the recent advances in technology, a wide range of systems continue to collect a large amount of data over time and thus generate time series. Time-Series Anomaly Detection (TSAD) is an important task in various time-series applications such as e-commerce, cybersecurity, vehicle maintenance, and healthcare monitoring. However, this task is very challenging as it requires considering both the intra-variable dependency and the inter-variable dependency, where a variable can be defined as an observation in time series data. Recent graph-based approaches have made impressive progress in tackling the challenges of this field. In this survey, we conduct a comprehensive and up-to-date review of Graph-based TSAD (G-TSAD). First, we explore the significant potential of graph representation learning for time-series data. Then, we review state-of-the-art graph anomaly detection techniques in the context of time series and discuss their strengths and drawbacks. Finally, we discuss the technical challenges and potential future directions for possible improvements in this research field.
翻訳日:2024-02-21 07:20:58 公開日:2024-02-17
# ChatGPTは良い感度分析器か? 予備的研究

Is ChatGPT a Good Sentiment Analyzer? A Preliminary Study ( http://arxiv.org/abs/2304.04339v2 )

ライセンス: Link先を確認
Zengzhi Wang, Qiming Xie, Yi Feng, Zixiang Ding, Zinong Yang, Rui Xia(参考訳) 近年、ChatGPTは研究コミュニティと一般の双方から大きな注目を集めている。 ユニバーサル感情アナライザとして機能するかどうか,特に関心があります。 この目的のために、本論文では、テキストに含まれる \emph{opinions} 、 \emph{sentiments} 、 \emph{emotions} の理解について、ChatGPT の予備評価を行う。 具体的には,<emph{standard} 評価,<emph{polarity shift} 評価,<emph{open- domain} 評価の3つの設定で評価する。 我々は17のベンチマークデータセットをカバーする7つの代表感情分析タスクの評価を行い、ChatGPTを細調整したBERTとそれに対応するSOTAモデルと比較する。 我々はまた、さらに能力を引き出すために、いくつかの人気のあるプロンプト技術を試行する。 さらに、人間の評価を行い、感情分析能力の深い理解を得るために、定性的なケーススタディを提示する。

Recently, ChatGPT has drawn great attention from both the research community and the public. We are particularly interested in whether it can serve as a universal sentiment analyzer. To this end, in this work, we provide a preliminary evaluation of ChatGPT on the understanding of \emph{opinions}, \emph{sentiments}, and \emph{emotions} contained in the text. Specifically, we evaluate it in three settings, including \emph{standard} evaluation, \emph{polarity shift} evaluation and \emph{open-domain} evaluation. We conduct an evaluation on 7 representative sentiment analysis tasks covering 17 benchmark datasets and compare ChatGPT with fine-tuned BERT and corresponding state-of-the-art (SOTA) models on them. We also attempt several popular prompting techniques to elicit the ability further. Moreover, we conduct human evaluation and present some qualitative case studies to gain a deep comprehension of its sentiment analysis capabilities.
翻訳日:2024-02-21 07:12:55 公開日:2024-02-17
# SciMON:新奇性に最適化された科学機器

SciMON: Scientific Inspiration Machines Optimized for Novelty ( http://arxiv.org/abs/2305.14259v5 )

ライセンス: Link先を確認
Qingyun Wang, Doug Downey, Heng Ji, Tom Hope(参考訳) 文献に基づく新たな科学的方向を生成するために,ニューラルランゲージモデルを探索し,拡張する。 文献に基づく仮説生成の研究は、伝統的に二進的リンク予測に焦点を当ててきた。 この作品は、新規性を最適化することにも焦点を当てていない。 モデルが入力背景の文脈(例えば、問題、実験的な設定、目標)として使用される新しい設定で劇的な出発点を取り、文学に基づいた自然言語アイデアを出力します。 我々は,過去の論文から「インスパイア」を検索し,先行論文と比較し,十分な新規性が得られるまでアイデア提案の更新を行うことにより,ノベルティを明示的に最適化するモデリングフレームワークであるscimonを提案する。 包括的評価の結果,GPT-4は全体的に低い技術深度と新規性を持つアイデアを産み出す傾向にあることがわかった。 私たちの研究は、科学文献から新たなアイデアを生み出す言語モデルの評価と開発のための第一歩です。

We explore and enhance the ability of neural language models to generate novel scientific directions grounded in literature. Work on literature-based hypothesis generation has traditionally focused on binary link prediction -- severely limiting the expressivity of hypotheses. This line of work also does not focus on optimizing novelty. We take a dramatic departure with a novel setting in which models use as input background contexts (e.g., problems, experimental settings, goals), and output natural language ideas grounded in literature. We present SciMON, a modeling framework that uses retrieval of "inspirations" from past scientific papers, and explicitly optimizes for novelty by iteratively comparing to prior papers and updating idea suggestions until sufficient novelty is achieved. Comprehensive evaluations reveal that GPT-4 tends to generate ideas with overall low technical depth and novelty, while our methods partially mitigate this issue. Our work represents a first step toward evaluating and developing language models that generate new ideas derived from the scientific literature.
翻訳日:2024-02-21 07:00:58 公開日:2024-02-17
# LogicLLM:大規模言語モデルのための自己教師型論理強化トレーニング

LogicLLM: Exploring Self-supervised Logic-enhanced Training for Large Language Models ( http://arxiv.org/abs/2305.13718v3 )

ライセンス: Link先を確認
Fangkai Jiao, Zhiyang Teng, Bosheng Ding, Zhengyuan Liu, Nancy F. Chen, Shafiq Joty(参考訳) 言語モデルの論理的推論能力を改善する努力は、主に教師付き微調整に依存し、新しいドメインやタスクへの一般化を妨げる。 LLM(Large Langauge Models)の開発は、豊富な知識を単一のプロキシに圧縮する能力を示し、複数のタスクに効果的に取り組むことができる。 予備実験では, LLMは論理的推論の能力を示していない。 論理推論ベンチマークにおけるllmsのパフォーマンスは、既存の最先端のベースラインよりもはるかに低い。 本稿では,自己教師付きポストトレーニングを通じて論理知識を組み込むことの実現可能性について検討し,論理LLM(LogicLLM)と呼ぶコンテキスト内学習を通じてそれを活性化する試みを行う。 具体的には、自動回帰客観的なMERItを考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。 2つの難解な論理推論ベンチマークの結果は、logicllmの有効性を示している。 さらに,論理指向プロキシタスクの設計における重要な要因を分析するために,広範なアブレーション研究を行う。

Existing efforts to improve logical reasoning ability of language models have predominantly relied on supervised fine-tuning, hindering generalization to new domains and/or tasks. The development of Large Langauge Models (LLMs) has demonstrated the capacity of compressing abundant knowledge into a single proxy, enabling them to tackle multiple tasks effectively. Our preliminary experiments, nevertheless, show that LLMs do not show capability on logical reasoning. The performance of LLMs on logical reasoning benchmarks is far behind the existing state-of-the-art baselines. In this paper, we make the first attempt to investigate the feasibility of incorporating logical knowledge through self-supervised post-training, and activating it via in-context learning, which we termed as LogicLLM. Specifically, we devise an auto-regressive objective variant of MERIt and integrate it with two LLM series, i.e., FLAN-T5 and LLaMA, with parameter size ranging from 3 billion to 13 billion. The results on two challenging logical reasoning benchmarks demonstrate the effectiveness of LogicLLM. Besides, we conduct extensive ablation studies to analyze the key factors in designing logic-oriented proxy tasks.
翻訳日:2024-02-21 07:00:40 公開日:2024-02-17
# 大規模言語モデルは構造化テーブルデータを理解することができるか? ベンチマークと実証的研究

Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study ( http://arxiv.org/abs/2305.13062v4 )

ライセンス: Link先を確認
Yuan Sui, Mengyu Zhou, Mingjie Zhou, Shi Han, Dongmei Zhang(参考訳) 大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になりつつある。 しかし、LLMがテーブルのような構造化データをどのように理解しているかは、まだ学ぶべきことがたくさんある。 テーブルはシリアライゼーションを伴うLSMへの入力として使用できるが、LSMがそのようなデータを真に理解できるかどうかを調べる包括的な研究は乏しい。 本稿では,LLMの構造理解能力(SUC)を評価するためのベンチマークを設計し,これを理解しようと試みる。 ベンチマークには7つのタスクが含まれており、それぞれがセルルックアップ、行検索、サイズ検出など、独自の課題を持つ。 GPT-3.5とGPT-4について一連の評価を行った。 テーブル入力形式,コンテンツ順序,ロールプロンプト,パーティションマークなど,複数の入力選択によるパフォーマンスの変化が確認された。 評価の結果から,LLMの内部知識を用いた臨界値/範囲識別などの効果的な構造的プロンプトのためのtextit{self-augmentation}を提案する。 慎重に選択された入力選択と組み合わせることで、TabFact($\uparrow2.31\%$)、HybridQA($\uparrow2.13\%$)、SQA($\uparrow2.72\%$)、Feverous($\uparrow0.84\%$)、ToTTo($\uparrow5.68\%$$)といった様々なタブタスクにおけるLCMのパフォーマンスが向上する。 当社のオープンソースベンチマークと提案手法は,今後の研究において,単純かつ汎用的な選択として機能すると思います。

Large language models (LLMs) are becoming attractive as few-shot reasoners to solve Natural Language (NL)-related tasks. However, there is still much to learn about how well LLMs understand structured data, such as tables. Although tables can be used as input to LLMs with serialization, there is a lack of comprehensive studies that examine whether LLMs can truly comprehend such data. In this paper, we try to understand this by designing a benchmark to evaluate the structural understanding capabilities (SUC) of LLMs. The benchmark we create includes seven tasks, each with its own unique challenges, e.g., cell lookup, row retrieval, and size detection. We perform a series of evaluations on GPT-3.5 and GPT-4. We find that performance varied depending on several input choices, including table input format, content order, role prompting, and partition marks. Drawing from the insights gained through the benchmark evaluations, we propose \textit{self-augmentation} for effective structural prompting, such as critical value / range identification using internal knowledge of LLMs. When combined with carefully chosen input choices, these structural prompting methods lead to promising improvements in LLM performance on a variety of tabular tasks, e.g., TabFact($\uparrow2.31\%$), HybridQA($\uparrow2.13\%$), SQA($\uparrow2.72\%$), Feverous($\uparrow0.84\%$), and ToTTo($\uparrow5.68\%$). We believe that our open source benchmark and proposed prompting methods can serve as a simple yet generic selection for future research.
翻訳日:2024-02-21 07:00:21 公開日:2024-02-17
# 並列ハイブリッド量子古典機械学習による時系列分類

Parallel hybrid quantum-classical machine learning for kernelized time-series classification ( http://arxiv.org/abs/2305.05881v2 )

ライセンス: Link先を確認
Jack S. Baker, Gilchan Park, Kwangmin Yu, Ara Ghukasyan, Oktay Goktas and Santosh Kumar Radha(参考訳) 時系列分類の監督は、金融、天文学、バイオセンサーなど幅広い分野に適用可能であることから、広く関心を集めている。 本研究では,時系列ハミルトニアンカーネル(TSHK)を用いて時系列インスタンス間の時間的一対関係を導出する,ハイブリッド量子古典機械学習を用いてこの問題に取り組む。 TSHKは、パラメータ化された時間進化演算子を用いて進化した量子状態によって生成される内部積の和で構成される。 この和は、複数のカーネル学習に由来する手法を用いて最適に重み付けされる。 カーネル重み付けステップを微分凸最適化問題として扱うため、この手法は、サポートベクトルマシン(SVM)のようなカーネル化された機械学習技術で使用するのに適したデータセット一般化カーネル関数である、エンドツーエンドで学習可能なハイブリッド量子-古典-凸ニューラルネットワーク(QCC-net)とみなすことができる。 SVMへの入力としてTSHKを用いて、量子回路シミュレータを用いて一変量および多変量時系列を分類し、量子マルチプログラミングを用いて127量子ビット超伝導量子プロセッサへのアルゴリズムの効率的な並列展開を実証する。

Supervised time-series classification garners widespread interest because of its applicability throughout a broad application domain including finance, astronomy, biosensors, and many others. In this work, we tackle this problem with hybrid quantum-classical machine learning, deducing pairwise temporal relationships between time-series instances using a time-series Hamiltonian kernel (TSHK). A TSHK is constructed with a sum of inner products generated by quantum states evolved using a parameterized time evolution operator. This sum is then optimally weighted using techniques derived from multiple kernel learning. Because we treat the kernel weighting step as a differentiable convex optimization problem, our method can be regarded as an end-to-end learnable hybrid quantum-classical-convex neural network, or QCC-net, whose output is a data set-generalized kernel function suitable for use in any kernelized machine learning technique such as the support vector machine (SVM). Using our TSHK as input to a SVM, we classify univariate and multivariate time-series using quantum circuit simulators and demonstrate the efficient parallel deployment of the algorithm to 127-qubit superconducting quantum processors using quantum multi-programming.
翻訳日:2024-02-21 06:57:53 公開日:2024-02-17
# セレンディピティーの獲得:オフポリティアクター批判における過去の成功価値の爆発

Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic ( http://arxiv.org/abs/2306.02865v4 )

ライセンス: Link先を確認
Tianying Ji, Yu Luo, Fuchun Sun, Xianyuan Zhan, Jianwei Zhang, Huazhe Xu(参考訳) 高品質なQ値関数の学習は、多くの現代のオフポリティ深い強化学習(RL)アルゴリズムの成功に重要な役割を果たしている。 これまでの研究では、価値の過大評価問題、関数近似子の採用とオフポリティミー学習の成果に焦点が当てられている。 共通視点から考えると、RLトレーニングプロセスの後半段階では、Q値が実際に過小評価され、主にリプレイバッファのより最適なアクションサンプルと比較して、ベルマン更新における現在のポリシーからの劣るアクションの使用に関連している。 この長期にわたる現象が政策学習を妨げる可能性があり、サンプル効率を低下させるという仮説を立てる。 この問題に対処するための私たちの洞察は、探索の楽観性を維持しながら、過去の成功の十分な活用を組み込むことです。 我々は,過去のベストパフォーマンスアクションと現在のポリシの両方を使用してq値を更新する,単純かつ効果的なアプローチであるmixed exploitation and exploration (bee)オペレータを提案する。 モデルフリーとモデルベースの両方の設定における本手法のインスタンス化は, 各種連続制御タスクにおける最先端の手法よりも優れ, 障害発生シナリオや実世界のロボットタスクにおいて高い性能を実現する。

Learning high-quality Q-value functions plays a key role in the success of many modern off-policy deep reinforcement learning (RL) algorithms. Previous works focus on addressing the value overestimation issue, an outcome of adopting function approximators and off-policy learning. Deviating from the common viewpoint, we observe that Q-values are indeed underestimated in the latter stage of the RL training process, primarily related to the use of inferior actions from the current policy in Bellman updates as compared to the more optimal action samples in the replay buffer. We hypothesize that this long-neglected phenomenon potentially hinders policy learning and reduces sample efficiency. Our insight to address this issue is to incorporate sufficient exploitation of past successes while maintaining exploration optimism. We propose the Blended Exploitation and Exploration (BEE) operator, a simple yet effective approach that updates Q-value using both historical best-performing actions and the current policy. The instantiations of our method in both model-free and model-based settings outperform state-of-the-art methods in various continuous control tasks and achieve strong performance in failure-prone scenarios and real-world robot tasks.
翻訳日:2024-02-21 06:48:27 公開日:2024-02-17
# Med-UniC: バイアを駆使した言語横断型医療ビジョン学習

Med-UniC: Unifying Cross-Lingual Medical Vision-Language Pre-Training by Diminishing Bias ( http://arxiv.org/abs/2305.19894v3 )

ライセンス: Link先を確認
Zhongwei Wan, Che Liu, Mi Zhang, Jie Fu, Benyou Wang, Sibo Cheng, Lei Ma, C\'esar Quilodr\'an-Casas, Rossella Arcucci(参考訳) データ不足は、医用視覚言語事前訓練(VLP)の有効性にとって重要な障害となる。 潜在的な解決策は、さまざまな言語コミュニティのデータセットの組み合わせにある。 それにもかかわらず、主な課題は、多様な構文と意味論、言語固有の医学用語、文化固有の暗黙の知識を統合する複雑さにある。 したがって、考慮すべき重要な側面は、異なる言語によって引き起こされるコミュニティバイアスの存在である。 本稿では、英語とスペイン語の2言語で広く使われているマルチモーダル医療データを統合するために、Unifying Cross-Lingual Medical Vision-Language Pre-Training(Med-UniC)という新しいフレームワークを提案する。 具体的には、多言語コミュニティに由来する医療報告の言語間セマンティックな表現を明確に統一するために、言語間テキストアライメント規則化(CTR)を提案する。 CTRは潜時言語不整合により最適化され, 最適化対象は陰性標本に依存しないよう最適化され, 類似医療報告における正負サンプル対の決定からバイアスを著しく軽減する。 さらに、言語間の表現が特定の言語コミュニティに偏らないことを保証する。 Med-UniCは、5つの医療画像タスクと30以上の疾患を含む10のデータセットで優れたパフォーマンスを達成し、多様な言語コミュニティ内でマルチモーダル医療データを統一するための汎用的なフレームワークを提供する。 実験結果は、言語間VLPにおけるコミュニティバイアスの存在を強調している。 このバイアスを減らすことで、視覚言語タスクだけでなく、一様視覚タスクでもパフォーマンスが向上する。

The scarcity of data presents a critical obstacle to the efficacy of medical visionlanguage pre-training (VLP). A potential solution lies in the combination of datasets from various language communities. Nevertheless, the main challenge stems from the complexity of integrating diverse syntax and semantics, language-specific medical terminology, and culture-specific implicit knowledge. Therefore, one crucial aspect to consider is the presence of community bias caused by different languages. This paper presents a novel framework named Unifying Cross-Lingual Medical Vision-Language Pre-Training (Med-UniC), designed to integrate multimodal medical data from the two most prevalent languages, English and Spanish. Specifically, we propose Cross-lingual Text Alignment Regularization (CTR) to explicitly unify cross-lingual semantic representations of medical reports originating from diverse language communities. CTR is optimized through latent language disentanglement, rendering our optimization objective to not depend on negative samples, thereby significantly mitigating the bias from determining positive-negative sample pairs within analogous medical reports. Furthermore, it ensures that the cross-lingual representation is not biased toward any specific language community. Med-UniC reaches superior performance across 5 medical image tasks and 10 datasets encompassing over 30 diseases, offering a versatile framework for unifying multi-modal medical data within diverse linguistic communities. The experimental outcomes highlight the presence of community bias in cross-lingual VLP. Reducing this bias enhances the performance not only in vision-language tasks but also in uni-modal visual tasks.
翻訳日:2024-02-21 06:46:49 公開日:2024-02-17
# 正当性維持保証下の統合プロセスの責任構成と最適化

Responsible Composition and Optimization of Integration Processes under Correctness Preserving Guarantees ( http://arxiv.org/abs/2305.19196v2 )

ライセンス: Link先を確認
Daniel Ritter, Fredrik Nordvall Forsberg, Stefanie Rinderle-Ma(参考訳) エンタープライズアプリケーション統合は異種アプリケーション接続の問題を扱うもので、現在のオンプレミス、クラウド、デバイス統合シナリオの中心的な要素である。 統合シナリオでは、プロセスへのパターンの構造化と統合プロセスの改善が重要です。 そこで我々は,それらの特徴に基づいて統合パターンの構成を定式化し,モデル複雑性の低減に役立つ最適化戦略を記述し,設計時の手法を用いてプロセス実行効率を向上する。 時間付きdb-nets - ペトリネットの改良 - を形式化することで、制御とデータフロー、トランザクションデータストレージ、補償と例外処理、そして再帰的なソリューションに存在する時間的側面といった統合ロジック機能を別々の統合パターンとしてモデル化します。 次に、グラフ書き換えによる最適化戦略の実現を提案し、構造的および機能的正当性の両方を考慮に入れた最適化を実証する。 900以上の統合プロセスを含む実世界のパターン合成カタログの改善を評価し,これら2つのプロセスに基づくケーススタディにおける正しさ特性について述べる。

Enterprise Application Integration deals with the problem of connecting heterogeneous applications, and is the centerpiece of current on-premise, cloud and device integration scenarios. For integration scenarios, structurally correct composition of patterns into processes and improvements of integration processes are crucial. In order to achieve this, we formalize compositions of integration patterns based on their characteristics, and describe optimization strategies that help to reduce the model complexity, and improve the process execution efficiency using design time techniques. Using the formalism of timed DB-nets - a refinement of Petri nets - we model integration logic features such as control- and data flow, transactional data storage, compensation and exception handling, and time aspects that are present in reoccurring solutions as separate integration patterns. We then propose a realization of optimization strategies using graph rewriting, and prove that the optimizations we consider preserve both structural and functional correctness. We evaluate the improvements on a real-world catalog of pattern compositions, containing over 900 integration processes, and illustrate the correctness properties in case studies based on two of these processes.
翻訳日:2024-02-21 06:45:35 公開日:2024-02-17
# 表現学習のための自動符号化条件付きニューラルプロセス

Autoencoding Conditional Neural Processes for Representation Learning ( http://arxiv.org/abs/2305.18485v2 )

ライセンス: Link先を確認
Victor Prokhorov, Ivan Titov, N. Siddharth(参考訳) 条件付き神経プロセス(conditional neural process, cnps)は、データから確率的プロセスを学習するフレキシブルで効率的なモデル群である。 ある場所でピクセル値を観測し、他の観測されていない場所での値の分布を予測する。 しかし、CNPを学習する際のピクセルの選択は、通常、ランダムまたは単純な統計測度(例えば、ピクセル分散)に由来する。 CNPは、より優れたCNPの適合を容易にし、そのようなピクセルは、基盤となる画像について意味のあることを教えてくれるのか? この目的のために、CNPコンテキストを潜時変数として同時に学習するアモータイズされた変分フレームワークであるPartial Pixel Space Variational Autoencoder (PPS-VAE) を開発した。 異なる視覚データにまたがる複数のタスクについてpps-vaeを評価し,より適したcppを実現するだけでなく,空間的配置や値が画像情報に有意義な特徴付けを行うことを見出し,データ内分布と外分布の両方の分類レンズを通して評価した。 さらに,このモデルにより,コンテキストセットのサイズの動的適応と,より大きな画像へのスケールアップが可能となり,有意義で効果的な視覚表現の学習方法として期待できる。

Conditional neural processes (CNPs) are a flexible and efficient family of models that learn to learn a stochastic process from data. They have seen particular application in contextual image completion - observing pixel values at some locations to predict a distribution over values at other unobserved locations. However, the choice of pixels in learning CNPs is typically either random or derived from a simple statistical measure (e.g. pixel variance). Here, we turn the problem on its head and ask: which pixels would a CNP like to observe - do they facilitate fitting better CNPs, and do such pixels tell us something meaningful about the underlying image? To this end we develop the Partial Pixel Space Variational Autoencoder (PPS-VAE), an amortised variational framework that casts CNP context as latent variables learnt simultaneously with the CNP. We evaluate PPS-VAE over a number of tasks across different visual data, and find that not only can it facilitate better-fit CNPs, but also that the spatial arrangement and values meaningfully characterise image information - evaluated through the lens of classification on both within and out-of-data distributions. Our model additionally allows for dynamic adaption of context-set size and the ability to scale-up to larger images, providing a promising avenue to explore learning meaningful and effective visual representations.
翻訳日:2024-02-21 06:44:49 公開日:2024-02-17
# 不信頼接続下でのセキュアな垂直フェデレーション学習

Secure Vertical Federated Learning Under Unreliable Connectivity ( http://arxiv.org/abs/2305.16794v3 )

ライセンス: Link先を確認
Xinchi Qiu, Heng Pan, Wanru Zhao, Yan Gao, Pedro P.B. Gusmao, William F. Shen, Chenyang Ma, Nicholas D. Lane(参考訳) プライバシ保存型フェデレーション学習(fl)におけるほとんどの作業は、水平分割されたデータセットに注目しており、クライアントは同じ機能を持ち、クライアントレベルのモデルを独立してトレーニングする。 しかしながら、個々のデータポイントは、垂直FL(VFL)設定でクライアントとして知られるさまざまな機関に分散することが多い。 このflのカテゴリに対処するには、参加者間の中間出力と勾配の交換が必要であり、潜在的なプライバシー漏洩リスクと収束率の低下を引き起こす。 さらに、多くの現実世界のシナリオでは、VFLトレーニングはクライアントストラグラーとドロップアウトの急激な問題に直面しています。 本稿では、最も一般化された垂直フレームワークをサポートする最初のドロップアウト耐性VFLプロトコルであるvFedSecを紹介する。 埋め込み-パディング技術とともに革新的なSecure Layerを使用することで、セキュアで効率的なモデルトレーニングを実現する。 我々は,トレーニング性能を維持しながら,設計がセキュリティを向上できることを理論的に証明する。 大規模な実験による実証的な結果は、vFedSecがクライアントのドロップアウトに対して堅牢であることを示し、無視可能な計算と通信オーバーヘッドによるセキュアなトレーニングを提供する。 広く採用されている同型暗号(HE)法と比較して,本手法は690倍の高速化を実現し,通信コストを9.6倍削減する。

Most work in privacy-preserving federated learning (FL) has focused on horizontally partitioned datasets where clients hold the same features and train complete client-level models independently. However, individual data points are often scattered across different institutions, known as clients, in vertical FL (VFL) settings. Addressing this category of FL necessitates the exchange of intermediate outputs and gradients among participants, resulting in potential privacy leakage risks and slow convergence rates. Additionally, in many real-world scenarios, VFL training also faces the acute issue of client stragglers and drop-outs, a serious challenge that can significantly hinder the training process but has been largely overlooked in existing studies. In this work, we present vFedSec, a first dropout-tolerant VFL protocol, which can support the most generalized vertical framework. It achieves secure and efficient model training by using an innovative Secure Layer alongside an embedding-padding technique. We provide theoretical proof that our design attains enhanced security while maintaining training performance. Empirical results from extensive experiments also demonstrate vFedSec is robust to client dropout and provides secure training with negligible computation and communication overhead. Compared to widely adopted homomorphic encryption (HE) methods, our approach achieves a remarkable > 690x speedup and reduces communication costs significantly by > 9.6x.
翻訳日:2024-02-21 06:43:57 公開日:2024-02-17
# 機械学習における人間の限界:土壌マイクロバイオームデータによる植物表現型予測

Human Limits in Machine Learning: Prediction of Plant Phenotypes Using Soil Microbiome Data ( http://arxiv.org/abs/2306.11157v2 )

ライセンス: Link先を確認
Rosa Aghdam, Xudong Tang, Shan Shan, Richard Lankau, Claudia Sol\'is-Lemus(参考訳) 土壌の健康の保全は、農業、人間の健康、生物多様性に大きな影響を与えるため、21世紀の重要な課題である。 土壌と生物学的表現型との関係を理解するために,機械学習モデルの予測可能性に関する最初の深い調査を行った。 本研究では, ランダム林とベイズニューラルネットワークの2つのモデルを用いて, 土壌の生物学的, 化学的, 物理的特性から, 植物の表現型を正確に予測する統合的枠組みについて検討した。 微生物情報に加え, 土壌物理化学的特性や微生物集団密度などの環境特性をモデルに組み込むことにより, 予測が向上することを示す。 さまざまなデータ前処理戦略の探索は、人間の決定が予測性能に与える影響を裏付ける。 マイクロバイオーム研究で一般的に用いられるnaive total sum scaling normalizationは,予測力の最大化のための最適戦略ではないことを示す。 また, 正規化, 分類学レベル, モデル特性よりも, 正確に定義されたラベルの方が重要であることがわかった。 人間がサンプルを正確に分類できない場合、機械学習モデルの性能は限られる。 最後に、モデル予測能力を最適化する人間の選択を特定するために、完全なモデル選択決定ツリーを通じてドメイン科学者を提供する。 我々の研究には、微生物研究コミュニティの最大のアウトリーチのためのオープンソース再現可能なスクリプト(https://github.com/solislemuslab/soil-microbiome-nn)が伴っている。

The preservation of soil health is a critical challenge in the 21st century due to its significant impact on agriculture, human health, and biodiversity. We provide the first deep investigation of the predictive potential of machine learning models to understand the connections between soil and biological phenotypes. We investigate an integrative framework performing accurate machine learning-based prediction of plant phenotypes from biological, chemical, and physical properties of the soil via two models: random forest and Bayesian neural network. We show that prediction is improved when incorporating environmental features like soil physicochemical properties and microbial population density into the models, in addition to the microbiome information. Exploring various data preprocessing strategies confirms the significant impact of human decisions on predictive performance. We show that the naive total sum scaling normalization that is commonly used in microbiome research is not the optimal strategy to maximize predictive power. Also, we find that accurately defined labels are more important than normalization, taxonomic level or model characteristics. In cases where humans are unable to classify samples accurately, machine learning model performance is limited. Lastly, we provide domain scientists via a full model selection decision tree to identify the human choices that optimize model prediction power. Our work is accompanied by open source reproducible scripts (https://github.com/solislemuslab/soil-microbiome-nn) for maximum outreach among the microbiome research community.
翻訳日:2024-02-21 06:34:36 公開日:2024-02-17
# 機械学習センサのためのデータシート:インテリジェントセンシングの透明性、可聴性、責任

Datasheets for Machine Learning Sensors: Towards Transparency, Auditability, and Responsibility for Intelligent Sensing ( http://arxiv.org/abs/2306.08848v3 )

ライセンス: Link先を確認
Matthew Stewart, Pete Warden, Yasmine Omri, Shvetank Prakash, Joao Santos, Shawn Hymel, Benjamin Brown, Jim MacArthur, Nat Jeffries, Sachin Katti, Brian Plancher, Vijay Janapa Reddi(参考訳) 機械学習(ML)センサーは、エンドユーザにデータをより多くコントロールすることで、エッジでのインテリジェンスを可能にする。 mlセンサーは、クラウドに頼るのではなく、処理と分析をデバイス自体に移動するセンシングの新しいパラダイムを提供し、レイテンシの低減やデータのプライバシの向上といったメリットをもたらす。 これらのインテリジェントエッジデバイスの台頭は、モノのインターネット(IoT)やヘルスケアといった分野に革命をもたらす一方で、プライバシ、セキュリティ、そしてAI意思決定の不透明性に関する重要な疑問を投げかけている。 MLセンサーがより広く普及するにつれて、透明性、説明責任、公正性に関する司法的なガバナンスが必要になる。 この目的のために、これらのMLセンサ用の標準データシートテンプレートを導入し、システムのハードウェア仕様のような標準データシートコンポーネント、MLモデルやデータセット属性のようなIoTおよびAIコンポーネント、エンドツーエンドのパフォーマンス指標のような新しいコンポーネント、環境影響メトリクスの拡張など、データシートの各セクションの設計とモチベーションを詳細に議論し、評価する。 データシートテンプレートの適用事例として,コンピュータビジョンに基づくパーソナライズを行うmlセンサの例として,社内で設計・開発されたオープンソースのmlセンサと,産業協力者が開発した第2の商用mlセンサの2つを設計し,試作した。 MLセンサーとそのデータシートは、ML対応組み込みシステムのプライバシー、セキュリティ、透明性、説明可能性、監査性、ユーザフレンドリ性を提供する。 我々は、センサデータの責任ある使用を保証するため、MLコミュニティ全体のデータシートの標準化の必要性を強調した。

Machine learning (ML) sensors are enabling intelligence at the edge by empowering end-users with greater control over their data. ML sensors offer a new paradigm for sensing that moves the processing and analysis to the device itself rather than relying on the cloud, bringing benefits like lower latency and greater data privacy. The rise of these intelligent edge devices, while revolutionizing areas like the internet of things (IoT) and healthcare, also throws open critical questions about privacy, security, and the opacity of AI decision-making. As ML sensors become more pervasive, it requires judicious governance regarding transparency, accountability, and fairness. To this end, we introduce a standard datasheet template for these ML sensors and discuss and evaluate the design and motivation for each section of the datasheet in detail including: standard dasheet components like the system's hardware specifications, IoT and AI components like the ML model and dataset attributes, as well as novel components like end-to-end performance metrics, and expanded environmental impact metrics. To provide a case study of the application of our datasheet template, we also designed and developed two examples for ML sensors performing computer vision-based person detection: one an open-source ML sensor designed and developed in-house, and a second commercial ML sensor developed by our industry collaborators. Together, ML sensors and their datasheets provide greater privacy, security, transparency, explainability, auditability, and user-friendliness for ML-enabled embedded systems. We conclude by emphasizing the need for standardization of datasheets across the broader ML community to ensure the responsible use of sensor data.
翻訳日:2024-02-21 06:33:15 公開日:2024-02-17
# GeoDiffusion:オブジェクト検出データ生成のためのテキストプロンプト幾何制御

GeoDiffusion: Text-Prompted Geometric Control for Object Detection Data Generation ( http://arxiv.org/abs/2306.04607v8 )

ライセンス: Link先を確認
Kai Chen, Enze Xie, Zhe Chen, Yibo Wang, Lanqing Hong, Zhenguo Li, Dit-Yan Yeung(参考訳) 拡散モデルは、コンテンツを作成し、画像分類のようなタスクのためにデータを生成する素晴らしい能力のために、大きな注目を集めている。 しかし、高品質な物体検出データを生成するための拡散モデルの利用は、画像レベルの知覚的品質だけでなく、バウンディングボックスやカメラビューのような幾何学的条件も必要不可欠な領域である。 これまでの研究では、コピー・ペースト合成またはレイアウト・ツー・イメージ(l2i)生成を使い、セマンティックレイアウトを符号化するために特別に設計されたモジュールを使用してきた。 本稿では,様々な幾何学的条件をテキストプロンプトに柔軟に翻訳し,高品質な検出データ生成のための事前学習されたテキスト・ツー・イメージ(t2i)拡散モデルを可能にするシンプルなフレームワークgeodiffusionを提案する。 従来のl2i法とは異なり、geodiffusionはバウンディングボックスだけでなく、自動運転シーンのカメラビューなどの余分な幾何学的条件もエンコードできる。 大規模な実験では、GeoDiffusionは従来のL2I法よりも高速に4倍のトレーニング時間を維持する。 私たちの知る限りでは、幾何学的な条件でレイアウトから画像への拡散モデルを採用し、l2i生成画像が物体検出器の性能向上に有用であることを実証するのはこれが初めてです。

Diffusion models have attracted significant attention due to the remarkable ability to create content and generate data for tasks like image classification. However, the usage of diffusion models to generate the high-quality object detection data remains an underexplored area, where not only image-level perceptual quality but also geometric conditions such as bounding boxes and camera views are essential. Previous studies have utilized either copy-paste synthesis or layout-to-image (L2I) generation with specifically designed modules to encode the semantic layouts. In this paper, we propose the GeoDiffusion, a simple framework that can flexibly translate various geometric conditions into text prompts and empower pre-trained text-to-image (T2I) diffusion models for high-quality detection data generation. Unlike previous L2I methods, our GeoDiffusion is able to encode not only the bounding boxes but also extra geometric conditions such as camera views in self-driving scenes. Extensive experiments demonstrate GeoDiffusion outperforms previous L2I methods while maintaining 4x training time faster. To the best of our knowledge, this is the first work to adopt diffusion models for layout-to-image generation with geometric conditions and demonstrate that L2I-generated images can be beneficial for improving the performance of object detectors.
翻訳日:2024-02-21 06:32:20 公開日:2024-02-17
# 言語モデルからの効果的なプロンプト抽出

Effective Prompt Extraction from Language Models ( http://arxiv.org/abs/2307.06865v2 )

ライセンス: Link先を確認
Yiming Zhang and Nicholas Carlini and Daphne Ippolito(参考訳) 大規模言語モデルが生成するテキストは、ユーザのクエリに先立つプロンプトがモデルの出力をガイドするプロンプトによって一般的に制御される。 企業がモデルをガイドするために使用するプロンプトは、しばしば秘密として扱われ、クエリを行うユーザから隠される。 購入・販売される商品として扱われることもある。 しかし、逸話報告では、敵のユーザはこれらのプロンプトを回復するために即時抽出攻撃を利用している。 本稿では,これらの攻撃の有効性を体系的に測定する枠組みを提案する。 3種類のプロンプトと11種類の大きな言語モデルを用いた実験では、単純なテキストベースの攻撃がプロンプトを高い確率で明らかにできることがわかった。 本フレームワークは,抽出したプロンプトがモデル幻覚ではなく実際の秘密プロンプトであるか否かを高精度に判定する。 bing chatやchatgptのような実システムにおける迅速な抽出実験は、既存の防御にもかかわらず、システムプロンプトが敵によって露呈できることを示唆している。

The text generated by large language models is commonly controlled by prompting, where a prompt prepended to a user's query guides the model's output. The prompts used by companies to guide their models are often treated as secrets, to be hidden from the user making the query. They have even been treated as commodities to be bought and sold. However, anecdotal reports have shown adversarial users employing prompt extraction attacks to recover these prompts. In this paper, we present a framework for systematically measuring the effectiveness of these attacks. In experiments with 3 different sources of prompts and 11 underlying large language models, we find that simple text-based attacks can in fact reveal prompts with high probability. Our framework determines with high precision whether an extracted prompt is the actual secret prompt, rather than a model hallucination. Prompt extraction experiments on real systems such as Bing Chat and ChatGPT suggest that system prompts can be revealed by an adversary despite existing defenses in place.
翻訳日:2024-02-21 06:21:48 公開日:2024-02-17
# パノ拡散:360度パノラマ露光

PanoDiffusion: 360-degree Panorama Outpainting via Diffusion ( http://arxiv.org/abs/2307.03177v5 )

ライセンス: Link先を確認
Tianhao Wu, Chuanxia Zheng, Tat-Jen Cham(参考訳) 狭視野画像から完全な360度パノラマを生成することは、全方位RGBデータが容易に利用できないため、現在進行中である。 既存のGANベースのアプローチは、高品質な出力を実現するための障壁に直面し、異なるマスクタイプに対する一般化性能が劣る。 本稿では, 潜伏拡散モデル(ldm)を用いた360度室内rgb-dパノラマ描画モデル(panodiffusion)を提案する。 トレーニング中にRGBと深度パノラマデータの両方を利用する新しいバイモーダル潜時拡散構造を導入する。 さらに,拡散分別ステップ毎にプログレッシブカメラ回転を導入する新しい手法を提案する。 以上の結果から,RGB-Dパノラマにおけるパノ拡散法は,様々な種類のマスクに対して多種多様な構造を持つ結果が得られるだけでなく,高品質のパノラマを合成し,リアルな3次元室内モデルを提供することが可能であることが示唆された。

Generating complete 360-degree panoramas from narrow field of view images is ongoing research as omnidirectional RGB data is not readily available. Existing GAN-based approaches face some barriers to achieving higher quality output, and have poor generalization performance over different mask types. In this paper, we present our 360-degree indoor RGB-D panorama outpainting model using latent diffusion models (LDM), called PanoDiffusion. We introduce a new bi-modal latent diffusion structure that utilizes both RGB and depth panoramic data during training, which works surprisingly well to outpaint depth-free RGB images during inference. We further propose a novel technique of introducing progressive camera rotations during each diffusion denoising step, which leads to substantial improvement in achieving panorama wraparound consistency. Results show that our PanoDiffusion not only significantly outperforms state-of-the-art methods on RGB-D panorama outpainting by producing diverse well-structured results for different types of masks, but can also synthesize high-quality depth panoramas to provide realistic 3D indoor models.
翻訳日:2024-02-21 06:20:38 公開日:2024-02-17
# 大規模言語モデルを用いた協調作業型エージェントの構築

Building Cooperative Embodied Agents Modularly with Large Language Models ( http://arxiv.org/abs/2307.02485v2 )

ライセンス: Link先を確認
Hongxin Zhang, Weihua Du, Jiaming Shan, Qinhong Zhou, Yilun Du, Joshua B. Tenenbaum, Tianmin Shu, Chuang Gan(参考訳) 本研究では, 分散制御, 生の感覚観察, コストのかかるコミュニケーション, 様々な環境下でインスタンス化された多目的タスクによる多目的協調問題に対処する。 これまでの研究は、コストのないコミュニケーションチャネルを前提にするか、あるいは共有観察を持つ集中型コントローラに依存しているが、共通認識知識、推論能力、言語理解、llmのテキスト生成能力を利用して、認識、記憶、実行と統合した認知的インスパイアされたモジュラーフレームワークにシームレスに統合する。 このようにして、長期的タスクを効率的に達成するために、計画、コミュニケーション、協力が可能な協力型言語エージェント CoELA を構築する。 C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。 LLAMA-2のような現在のOpen LMはまだパフォーマンスが低いが、エージェントで収集したデータをCoELAに微調整し、有望なパフォーマンスを実現する方法を示す。 また,人間とエージェントのインタラクションに関するユーザ調査を行い,自然言語でコミュニケーションするcoelaは,より信頼を得て,より効果的に人間と協力できることを発見した。 本研究は,マルチエージェント共同研究におけるLCMの可能性を明らかにするものである。 ビデオはプロジェクトのWebサイトhttps://vis-www.cs.umass.edu/Co-LLM-Agents/で見ることができる。

In this work, we address challenging multi-agent cooperation problems with decentralized control, raw sensory observations, costly communication, and multi-objective tasks instantiated in various embodied environments. While previous research either presupposes a cost-free communication channel or relies on a centralized controller with shared observations, we harness the commonsense knowledge, reasoning ability, language comprehension, and text generation prowess of LLMs and seamlessly incorporate them into a cognitive-inspired modular framework that integrates with perception, memory, and execution. Thus building a Cooperative Embodied Language Agent CoELA, who can plan, communicate, and cooperate with others to accomplish long-horizon tasks efficiently. Our experiments on C-WAH and TDW-MAT demonstrate that CoELA driven by GPT-4 can surpass strong planning-based methods and exhibit emergent effective communication. Though current Open LMs like LLAMA-2 still underperform, we fine-tune a CoELA with data collected with our agents and show how they can achieve promising performance. We also conducted a user study for human-agent interaction and discovered that CoELA communicating in natural language can earn more trust and cooperate more effectively with humans. Our research underscores the potential of LLMs for future research in multi-agent cooperation. Videos can be found on the project website https://vis-www.cs.umass.edu/Co-LLM-Agents/.
翻訳日:2024-02-21 06:20:09 公開日:2024-02-17
# TC-LIF:長期連続モデリングのための2成分スパイクニューロンモデル

TC-LIF: A Two-Compartment Spiking Neuron Model for Long-Term Sequential Modelling ( http://arxiv.org/abs/2308.13250v3 )

ライセンス: Link先を確認
Shimin Zhang, Qu Yang, Chenxiang Ma, Jibin Wu, Haizhou Li, Kay Chen Tan(参考訳) 潜在的な機会や危険に関連する感覚的手がかりの同定は、長期間の遅延によって有用な手がかりを分離する無関係な出来事によってしばしば複雑になる。 その結果、最先端のスパイクニューラルネットワーク(snn)では、遠方の手がかり間の長期的な時間的依存関係を確立することが課題となっている。 この課題に対処するため,我々はtc-lifと呼ばれる,生物にインスパイアされた2つのコンパートメントによる統合・ファイアスパイキングニューロンモデルを提案する。 提案モデルでは,長期的時間的依存関係の学習を容易にするように設計された身体的および樹状的な区画を慎重に設計した。 さらに,TC-LIFが時間的長期にわたる誤差勾配の伝播に有効であることを示す理論的解析を行った。 本研究は, 時間的分類課題の多種多様さに対して, 時間的分類能力の向上, 迅速な訓練収束, 提案したTC-LIFモデルの高エネルギー化を実証した。 したがって、この研究は、新興のニューロモルフィックコンピューティングシステムにおける時間的処理課題を解決するための無数の機会を開く。 私たちのコードはhttps://github.com/ZhangShimin1/TC-LIFで公開されています。

The identification of sensory cues associated with potential opportunities and dangers is frequently complicated by unrelated events that separate useful cues by long delays. As a result, it remains a challenging task for state-of-the-art spiking neural networks (SNNs) to establish long-term temporal dependency between distant cues. To address this challenge, we propose a novel biologically inspired Two-Compartment Leaky Integrate-and-Fire spiking neuron model, dubbed TC-LIF. The proposed model incorporates carefully designed somatic and dendritic compartments that are tailored to facilitate learning long-term temporal dependencies. Furthermore, a theoretical analysis is provided to validate the effectiveness of TC-LIF in propagating error gradients over an extended temporal duration. Our experimental results, on a diverse range of temporal classification tasks, demonstrate superior temporal classification capability, rapid training convergence, and high energy efficiency of the proposed TC-LIF model. Therefore, this work opens up a myriad of opportunities for solving challenging temporal processing tasks on emerging neuromorphic computing systems. Our code is publicly available at https://github.com/ZhangShimin1/TC-LIF.
翻訳日:2024-02-21 06:12:20 公開日:2024-02-17
# マルチモーダルエンベディングにおける逆イリュージョン

Adversarial Illusions in Multi-Modal Embeddings ( http://arxiv.org/abs/2308.11804v3 )

ライセンス: Link先を確認
Tingwei Zhang, Rishi Jha, Eugene Bagdasaryan, Vitaly Shmatikov(参考訳) マルチモーダル埋め込みは、テキスト、画像、音声、ビデオなどを単一の埋め込み空間にエンコードし、異なるモーダル性(例えば、犬の画像をbarkeingサウンドに関連付ける)にまたがる表現を整合させる。 本稿では,マルチモーダル埋め込みが「逆錯覚」と呼ばれる攻撃に対して脆弱であることを示す。 画像や音が与えられると、敵はそれを摂動させて、別のモダリティで任意の逆チョセン入力に埋め込むことができる。 これらの攻撃はクロスモーダルで標的であり、敵は自由にあらゆる画像と音を自分の選択したターゲットに合わせることができる。 敵の錯覚は埋め込み空間の近さを悪用し、従って下流のタスクやモダリティとは無関係であり、現在および将来の下流のタスクやモダリティの全体的妥協を可能にする。 ImageBindとAudioCLIPの埋め込みを用いて、特定の下流タスク、誤解を招く画像生成、テキスト生成、ゼロショット分類、オーディオ検索の知識のない逆アラインインプットがどのように生成されるかを示す。 我々は、異なる埋め込みをまたいだ錯覚の伝達可能性を調査し、Amazonの商用の独自のタイタン埋め込みに対する最初の対向アライメント攻撃を示すために、我々の方法のブラックボックス版を開発する。 最後に,対策と回避攻撃の分析を行う。

Multi-modal embeddings encode texts, images, sounds, videos, etc., into a single embedding space, aligning representations across different modalities (e.g., associate an image of a dog with a barking sound). In this paper, we show that multi-modal embeddings can be vulnerable to an attack we call "adversarial illusions." Given an image or a sound, an adversary can perturb it to make its embedding close to an arbitrary, adversary-chosen input in another modality. These attacks are cross-modal and targeted: the adversary is free to align any image and any sound with any target of his choice. Adversarial illusions exploit proximity in the embedding space and are thus agnostic to downstream tasks and modalities, enabling a wholesale compromise of current and future downstream tasks and modalities not available to the adversary. Using ImageBind and AudioCLIP embeddings, we demonstrate how adversarially aligned inputs, generated without knowledge of specific downstream tasks, mislead image generation, text generation, zero-shot classification, and audio retrieval. We investigate transferability of illusions across different embeddings and develop a black-box version of our method that we use to demonstrate the first adversarial alignment attack on Amazon's commercial, proprietary Titan embedding. Finally, we analyze countermeasures and evasion attacks.
翻訳日:2024-02-21 06:11:58 公開日:2024-02-17
# ChatEDA:EDAのための大規模言語モデル駆動自律エージェント

ChatEDA: A Large Language Model Powered Autonomous Agent for EDA ( http://arxiv.org/abs/2308.10204v2 )

ライセンス: Link先を確認
Zhuolun He, Haoyuan Wu, Xinyun Zhang, Xufeng Yao, Su Zheng, Haisheng Zheng, Bei Yu(参考訳) 電子設計自動化(eda)ツールの複雑なセットの統合は、回路設計者にとって重要な関心事である。 大規模言語モデル(LLM)の最近の進歩は、自然言語処理と理解において、EDAツールと対面する新しいアプローチを提供する、優れた能力を示した。 本稿では,大規模な言語モデルであるAutoMageによって強化されたEDAの自律エージェントであるChatEDAを紹介し,エグゼクタとしてのEDAツールを補完する。 ChatEDAは、タスク計画、スクリプト生成、タスク実行を効果的に管理することで、登録-転送レベル(RTL)からグラフデータシステムバージョンII(GDSII)への設計フローを合理化する。 総合的な実験評価を通じて,ChatEDAは多様な要求に対処する能力を示し,我々の微調整オートマージモデルはGPT-4や他のLLMと比較して優れた性能を示した。

The integration of a complex set of Electronic Design Automation (EDA) tools to enhance interoperability is a critical concern for circuit designers. Recent advancements in large language models (LLMs) have showcased their exceptional capabilities in natural language processing and comprehension, offering a novel approach to interfacing with EDA tools. This research paper introduces ChatEDA, an autonomous agent for EDA empowered by a large language model, AutoMage, complemented by EDA tools serving as executors. ChatEDA streamlines the design flow from the Register-Transfer Level (RTL) to the Graphic Data System Version II (GDSII) by effectively managing task planning, script generation, and task execution. Through comprehensive experimental evaluations, ChatEDA has demonstrated its proficiency in handling diverse requirements, and our fine-tuned AutoMage model has exhibited superior performance compared to GPT-4 and other similar LLMs.
翻訳日:2024-02-21 06:10:25 公開日:2024-02-17
# 言語障壁を打破する - HindiとMarathiのための質問回答データセット

Breaking Language Barriers: A Question Answering Dataset for Hindi and Marathi ( http://arxiv.org/abs/2308.09862v3 )

ライセンス: Link先を確認
Maithili Sabane and Onkar Litake and Aman Chadha(参考訳) ディープラーニングの最近の進歩は、データに対する待ちきれない食欲を持つ高度に洗練されたシステムの開発につながった。 一方、低リソース言語のための優れたディープラーニングモデルの構築は、依然として難しい課題です。 本稿では,ヒンディー語とマラティ語という2つの言語を対象とした質問応答データセットの開発に着目する。 ヒンディー語は3億4500万人の話者を持つ世界第3位の言語であり、マラティ語は世界第11位の言語であり、8320万人の話者を持つにもかかわらず、どちらの言語も効率的な質問応答システムを構築するための限られたリソースに直面している。 データ不足の課題に取り組むため,我々は squad 2.0 データセットをhindi と marathi に変換する新しい手法を開発した。 これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。 各種アーキテクチャのデータセットを評価し、ヒンディー語とマラティー語の両方で最高の性能のモデルをリリースし、これらの言語の研究をさらに促進する。 類似性ツールを活用することで、多様な言語でデータセットを作成する可能性を秘め、様々な言語文脈における自然言語の理解を深める。 微調整されたモデル、コード、データセットが公開される予定だ。

The recent advances in deep-learning have led to the development of highly sophisticated systems with an unquenchable appetite for data. On the other hand, building good deep-learning models for low-resource languages remains a challenging task. This paper focuses on developing a Question Answering dataset for two such languages- Hindi and Marathi. Despite Hindi being the 3rd most spoken language worldwide, with 345 million speakers, and Marathi being the 11th most spoken language globally, with 83.2 million speakers, both languages face limited resources for building efficient Question Answering systems. To tackle the challenge of data scarcity, we have developed a novel approach for translating the SQuAD 2.0 dataset into Hindi and Marathi. We release the largest Question-Answering dataset available for these languages, with each dataset containing 28,000 samples. We evaluate the dataset on various architectures and release the best-performing models for both Hindi and Marathi, which will facilitate further research in these languages. Leveraging similarity tools, our method holds the potential to create datasets in diverse languages, thereby enhancing the understanding of natural language across varied linguistic contexts. Our fine-tuned models, code, and dataset will be made publicly available.
翻訳日:2024-02-21 06:10:06 公開日:2024-02-17
# 数学的検証のための大規模言語モデルの前方逆推論

Forward-Backward Reasoning in Large Language Models for Mathematical Verification ( http://arxiv.org/abs/2308.07758v5 )

ライセンス: Link先を確認
Weisen Jiang and Han Shi and Longhui Yu and Zhengying Liu and Yu Zhang and Zhenguo Li and James T. Kwok(参考訳) 自己矛盾のサンプル さまざまな推論チェーンに回答を付け、多数決で最終回答を選択する。 前方推論に基づいており、飽和時により多くの推論鎖をサンプリングすることで、さらなる性能向上はできない。 性能をさらに高めるために,候補回答の検証に後方推論を導入する。 具体的には、数学的なタスクに対して、質問の番号をマスキングし、簡単なテンプレートによって作成された後方質問、すなわち、候補回答が提供されたときにマスクされた番号を予測するようLLMに求める。 フォワード推論やフォワード推論を単独で使用する代わりに、検証のためにフォバーとフォワード推論を組み合わせることを提案する。 6つの標準的な数学的データセットと3つのLCMに関する大規模な実験は、FOBARが最先端のパフォーマンスを達成することを示す。 特に、FOBARはフォワード推論のみを使用し、フォワード推論とフォワード推論の組み合わせがより優れていることを示すセルフ一貫性よりも優れています。 さらに、FOBARは既存の検証手法よりも優れた性能を示し、後方推論に使用される単純なテンプレートと提案した組み合わせの有効性を示した。 非数学的問題への拡張も議論され、実証的に検証される。

Self-Consistency samples diverse reasoning chains with answers and chooses the final answer by majority voting. It is based on forward reasoning and cannot further improve performance by sampling more reasoning chains when saturated. To further boost performance, we introduce backward reasoning to verify candidate answers. Specifically, for mathematical tasks, we mask a number in the question and ask the LLM to answer a backward question created by a simple template, i.e., to predict the masked number when a candidate answer is provided. Instead of using forward or backward reasoning alone, we propose FOBAR to combine FOrward and BAckward Reasoning for verification. Extensive experiments on six standard mathematical data sets and three LLMs show that FOBAR achieves state-of-the-art performance. In particular, FOBAR outperforms Self-Consistency, which uses forward reasoning alone, demonstrating that combining forward and forward reasoning is better. In addition, FOBAR performs better than existing verification methods, showing the effectiveness of the simple template used in backward reasoning and the proposed combination. Extensions to non-mathematical problems are also discussed and validated empirically.
翻訳日:2024-02-21 06:09:45 公開日:2024-02-17
# 正規化フローを用いた秩序に基づく構造学習

Order-based Structure Learning with Normalizing Flows ( http://arxiv.org/abs/2308.07480v2 )

ライセンス: Link先を確認
Hamidreza Kamkari, Vahid Balazadeh, Vahid Zehtab, Rahul G. Krishnan(参考訳) 観測データの因果構造の推定は,超指数的にグラフサイズにスケールする組合せ探索問題である。 既存の手法では、この問題を計算的に抽出可能にするために連続緩和を用いるが、明示的あるいは暗黙的な仮定を通じて、データ生成プロセスを加法雑音モデル(ANM)に制限することが多い。 自己回帰正規化フローを用いてこれらの仮定を緩和するフレームワークである,正規化フローを用いた秩序に基づく構造学習(OSLow)を提案する。 トポロジカル順序付けによる探索は構造発見における非巡回性を強制する自然な方法であり,このような順序付けを見つけるための新しい可微分置換学習法を提案する。 合成データと実世界のデータに関する広範囲な実験を通じて,oslowは従来のベースラインよりも優れており,構造的ハミング距離と構造的介入距離によって測定された観測的サックスとシントレンデータセットの性能が向上し,既存の手法による anm 仮定の緩和の重要性が強調された。

Estimating the causal structure of observational data is a challenging combinatorial search problem that scales super-exponentially with graph size. Existing methods use continuous relaxations to make this problem computationally tractable but often restrict the data-generating process to additive noise models (ANMs) through explicit or implicit assumptions. We present Order-based Structure Learning with Normalizing Flows (OSLow), a framework that relaxes these assumptions using autoregressive normalizing flows. We leverage the insight that searching over topological orderings is a natural way to enforce acyclicity in structure discovery and propose a novel, differentiable permutation learning method to find such orderings. Through extensive experiments on synthetic and real-world data, we demonstrate that OSLow outperforms prior baselines and improves performance on the observational Sachs and SynTReN datasets as measured by structural hamming distance and structural intervention distance, highlighting the importance of relaxing the ANM assumption made by existing methods.
翻訳日:2024-02-21 06:09:28 公開日:2024-02-17
# ビジョンモデルのためのディープビデオコーデック制御

Deep Video Codec Control for Vision Models ( http://arxiv.org/abs/2308.16215v5 )

ライセンス: Link先を確認
Christoph Reich, Biplob Debnath, Deep Patel, Tim Prangemeier, Daniel Cremers, Srimat Chakradhar(参考訳) 標準的なロッキーなビデオコーディングは、ほとんどすべての現実世界のビデオ処理パイプラインの中核にある。 レート制御は、標準コーデックが異なるネットワーク帯域幅条件やストレージ制約に対応できるように使用される。 しかし、標準的なビデオコーデック(H.264など)とそのレート制御モジュールは、人間の品質評価におけるビデオ歪みを最小限にすることを目的としている。 我々は、標準符号化ビデオがディープビジョンモデルの性能を著しく低下させていることを実証的に示す。 視力性能の劣化を克服するため,既存の標準化に固執しつつ,帯域制限と下流の視力性能の両方を考慮した,エンドツーエンドで学習可能な深層ビデオコーデック制御を提案する。 当社のアプローチは,従来のアプローチよりも下流の深い視力性能を向上することを示す。

Standardized lossy video coding is at the core of almost all real-world video processing pipelines. Rate control is used to enable standard codecs to adapt to different network bandwidth conditions or storage constraints. However, standard video codecs (e.g., H.264) and their rate control modules aim to minimize video distortion w.r.t human quality assessment. We demonstrate empirically that standard-coded videos vastly deteriorate the performance of deep vision models. To overcome the deterioration of vision performance, this paper presents the first end-to-end learnable deep video codec control that considers both bandwidth constraints and downstream deep vision performance, while adhering to existing standardization. We demonstrate that our approach better preserves downstream deep vision performance than traditional approaches.
翻訳日:2024-02-21 05:55:53 公開日:2024-02-17
# 連続可変量子鍵分布システム:過去・現在・未来

Continuous-variable quantum key distribution system: past, present, and future ( http://arxiv.org/abs/2310.04831v3 )

ライセンス: Link先を確認
Yichen Zhang, Yiming Bian, Zhengyu Li, Song Yu, and Hong Guo(参考訳) 量子鍵分布は、量子力学の原理によって保証される情報理論のセキュリティを備えたセキュアキーを提供する。 コヒーレント状態を用いた量子鍵分布の連続変数バージョンは、商用レーザーやホモダイン検出器を用いた通信業界との互換性の利点を提供する。 本稿では,コヒーレント状態に基づくプロトコルに着目した連続可変量子鍵分散システムの原理について述べる。 まず、これらのプロトコルの理論的プロトコルと現在のセキュリティ状態をレビューする。 そこで本研究では,システム構造,キーモジュール,メインストリームシステム実装について論じる。 デジタル技術,チップシステム,ポイント・ツー・マルチポイントシステムなど,今後の応用の進歩について論じる。 最後に,システムの実用的安全性について論じ,今後の研究分野の展望をまとめる。

Quantum key distribution provides secure keys with information-theoretic security ensured by the principle of quantum mechanics. The continuous-variable version of quantum key distribution using coherent states offers the advantages of its compatibility with telecom industry, e.g., using commercial laser and homodyne detector, is now going through a booming period. In this review article, we describe the principle of continuous-variable quantum key distribution system, focus on protocols based on coherent states, whose systems are gradually moving from proof-of-principle lab demonstrations to in-field implementations and technological prototypes. We start by reviewing the theoretical protocols and the current security status of these protocols. Then, we discuss the system structure, the key module, and the mainstream system implementations. The advanced progress for future applications are discussed, including the digital techniques, system on chip and point-to-multipoint system. Finally, we discuss the practical security of the system and conclude with promising perspectives in this research field.
翻訳日:2024-02-21 05:48:04 公開日:2024-02-17
# マルチドメインノイズシーンにおけるテキストの深さへの拡散

Diving into the Depths of Spotting Text in Multi-Domain Noisy Scenes ( http://arxiv.org/abs/2310.00558v3 )

ライセンス: Link先を確認
Alloy Das, Sanket Biswas, Umapada Pal and Josep Llad\'os(参考訳) 実世界の騒々しい環境で使用する場合、複数のドメインに一般化する能力は、任意の自律的なシーンテキストスポッティングシステムに不可欠である。 しかし、既存の最先端手法では、他の複雑なドメイン間での機能相互作用を活用できない自然シーンデータセットの事前訓練と微調整戦略を採用している。 本研究では、特定のドメインやシナリオに特化するのではなく、対象とするドメインに直接一般化できるように、マルチドメインソースデータ上でモデルをトレーニングするという、ドメインに依存しないシーンテキストスポッティングの問題を調査し、検討する。 そこで本稿では,水中の騒々しいシーンに対して,UWT(Under-Water Text)と呼ばれるテキストスポッティング検証ベンチマークを実施し,重要なケーススタディを確立する。 さらに, DA-TextSpotter と呼ばれる高解像度のエンド・ツー・エンド・エンド・トランスフォーマーベースラインを設計し, 精度とモデル効率の両面から, 正規および任意の形状のシーンテキストスポッティングベンチマークにおいて, 既存のテキストスポッティングアーキテクチャと同等あるいは優れた性能を実現する。 データセット、コード、事前トレーニングされたモデルは、受け入れ次第リリースされる。

When used in a real-world noisy environment, the capacity to generalize to multiple domains is essential for any autonomous scene text spotting system. However, existing state-of-the-art methods employ pretraining and fine-tuning strategies on natural scene datasets, which do not exploit the feature interaction across other complex domains. In this work, we explore and investigate the problem of domain-agnostic scene text spotting, i.e., training a model on multi-domain source data such that it can directly generalize to target domains rather than being specialized for a specific domain or scenario. In this regard, we present the community a text spotting validation benchmark called Under-Water Text (UWT) for noisy underwater scenes to establish an important case study. Moreover, we also design an efficient super-resolution based end-to-end transformer baseline called DA-TextSpotter which achieves comparable or superior performance over existing text spotting architectures for both regular and arbitrary-shaped scene text spotting benchmarks in terms of both accuracy and model efficiency. The dataset, code and pre-trained models will be released upon acceptance.
翻訳日:2024-02-21 05:47:25 公開日:2024-02-17
# 3次元ディラック半金属中の異常リニアおよび4次元ノードレス表面ディラックコーン

Anomalous Linear and Quadratic Nodeless Surface Dirac Cones in Three-Dimensional Dirac Semimetals ( http://arxiv.org/abs/2309.15154v2 )

ライセンス: Link先を確認
Dongling Liu, Xiao-Jiao Wang, Yijie Mo, Zhongbo Yan(参考訳) 3次元の位相絶縁体の表面ディラックコーンは、多くのエキゾチックな性質をホストしているため、ほぼ20年にわたって多大な関心を寄せてきた。 本研究では,3次元ディラック半金属中の2種類の異常な表面ディラックコーンの存在を明らかにした。 これらの表面のディラック円錐は回転対称性軸に垂直な表面に位置し、トポロジカル絶縁体と著しく異なる多くの特徴を示す。 最も顕著なものは特異ディラックノードがないことである。 さらに、これらのノードレス面のスピンテクスチャは、独自の2相角依存性を示し、軌道分解されたスピンテクスチャに2つの異なる巻数が存在することが見出され、これはトポロジカル絶縁体におけるよく知られたスピン-モーメントロックとはかなり異なる。 ディラックノードが存在しないにもかかわらず、2種類の表面ディラックコーンは2次分散を持つにもかかわらず、量子化された$\pi$ベリー位相によって特徴付けられる。 時間反転対称性の破れ場が存在すると、表面とバルクディラックコーンの応答は興味深いバルク面対応を示すことが分かる。 これらのノードのない表面ディラック円錐の解明は、ディラック半金属における位相的表面状態とバルク境界対応の理解を広げると同時に、非伝統的なディラック物理学の研究の基礎も築いている。

Surface Dirac cones in three-dimensional topological insulators have generated tremendous and enduring interest for almost two decades owing to hosting a multitude of exotic properties. In this work, we unveil the existence of two types of anomalous surface Dirac cones in three-dimensional Dirac semimetals. These surface Dirac cones are located at the surfaces perpendicular to the rotation symmetry axis, and are found to display a number of features remarkably different from that in topological insulators. The most prominent one is the absence of singular Dirac node. In addition, the spin textures of these nodeless surface Dirac cones are found to exhibit a unique two-phase-angle dependence, leading to the presence of two different winding numbers in the orbital-resolved spin textures, which is rather different from the well-known spin-momentum locking in topological insulators. Despite the absence of Dirac node, we find that the two types of surface Dirac cones are also characterized by quantized $\pi$ Berry phases, even though one of them takes a quadratic dispersion. In the presence of time-reversal-symmetry-breaking fields, we find that the responses of the surface and bulk Dirac cones display an interesting bulk-surface correspondence. The uncovering of these nodeless surface Dirac cones broadens our understanding of the topological surface states and bulk-boundary correspondence in Dirac semimetals, and also lays down the basis for studying unconventional Dirac physics.
翻訳日:2024-02-21 05:46:13 公開日:2024-02-17
# ニューラルネットワークの効率的な推論のためのクラス排除による早期実行

Early-Exit with Class Exclusion for Efficient Inference of Neural Networks ( http://arxiv.org/abs/2309.13443v2 )

ライセンス: Link先を確認
Jingcun Wang, Bing Li, Grace Li Zhang(参考訳) ディープニューラルネットワーク(DNN)は様々な分野に適用されている。 DNNでは、多数の乗算累積(MAC)操作が実行され、エッジデバイスなどのリソース制約のあるプラットフォームに適用する上で重要な課題を提起する。 本稿では,この課題に対処するために,動的推論のためのクラスベースアーリーエクイットを提案する。 中間層で動的決定を行うためにDNNをプッシュするのではなく、これらのレイヤで学んだ機能を活用して、可能な限り多くの無関係なクラスを除外します。 ある層に1つのクラスしか残っていない場合、このクラスは対応する分類結果である。 実験により,提案手法により推論におけるDNNの計算コストを大幅に削減できることを示した。 コードはhttps://github.com/HWAI-TUDa/EarlyClassExclusionにある。

Deep neural networks (DNNs) have been successfully applied in various fields. In DNNs, a large number of multiply-accumulate (MAC) operations are required to be performed, posing critical challenges in applying them in resource-constrained platforms, e.g., edge devices. To address this challenge, in this paper, we propose a class-based early-exit for dynamic inference. Instead of pushing DNNs to make a dynamic decision at intermediate layers, we take advantage of the learned features in these layers to exclude as many irrelevant classes as possible, so that later layers only have to determine the target class among the remaining classes. When only one class remains at a layer, this class is the corresponding classification result. Experimental results demonstrate the computational cost of DNNs in inference can be reduced significantly with the proposed early-exit technique. The codes can be found at https://github.com/HWAI-TUDa/EarlyClassExclusion.
翻訳日:2024-02-21 05:45:09 公開日:2024-02-17
# 静的マップ要素アノテーションに対する視覚中心的アプローチ

A Vision-Centric Approach for Static Map Element Annotation ( http://arxiv.org/abs/2309.11754v2 )

ライセンス: Link先を確認
Jiaxin Zhang, Shiyuan Chen, Haoran Yin, Ruohong Mei, Xuan Liu, Cong Yang, Qian Zhang and Wei Sui(参考訳) オンライン静的マップ要素(別名hdマップ)の構築アルゴリズムが最近開発され、基礎的真理アノテーションを持つデータに対する需要が高まっている。 しかし、現在利用可能な公開データセットは、一貫性と正確性に関する高品質なトレーニングデータを提供できない。 そこで我々は,一貫性と正確なマップアノテーションのための視覚中心のアプローチであるCAMAを提案する。 提案するフレームワークは,LiDAR入力がなければ,静的マップ要素の高品質な3Dアノテーションを生成することができる。 特に、アノテーションは周囲の全てのカメラで高い再投影精度を達成でき、全シーケンスにわたって空間的時間的一貫性を持つ。 提案フレームワークを人気のあるnuscenesデータセットに適用し,効率的な高精度なアノテーションを提供する。 オリジナルの nuScenes の静的マップエレメントと比較すると、CAMA のアノテーションで訓練されたモデルは低い再射誤差(例えば 4.73 対 8.03 ピクセル)を達成する。

The recent development of online static map element (a.k.a. HD Map) construction algorithms has raised a vast demand for data with ground truth annotations. However, available public datasets currently cannot provide high-quality training data regarding consistency and accuracy. To this end, we present CAMA: a vision-centric approach for Consistent and Accurate Map Annotation. Without LiDAR inputs, our proposed framework can still generate high-quality 3D annotations of static map elements. Specifically, the annotation can achieve high reprojection accuracy across all surrounding cameras and is spatial-temporal consistent across the whole sequence. We apply our proposed framework to the popular nuScenes dataset to provide efficient and highly accurate annotations. Compared with the original nuScenes static map element, models trained with annotations from CAMA achieve lower reprojection errors (e.g., 4.73 vs. 8.03 pixels).
翻訳日:2024-02-21 05:44:37 公開日:2024-02-17
# CBCT画像における歯片分割のための3D-U-SAMネットワーク

3D-U-SAM Network For Few-shot Tooth Segmentation in CBCT Images ( http://arxiv.org/abs/2309.11015v2 )

ライセンス: Link先を確認
Yifu Zhang and Zuozhu Liu and Yang Feng and Renjing Xu(参考訳) 歯の位置の正確な表現は治療において極めて重要である。 3次元歯科画像のセグメンテーションは広く用いられている手法であるが、ラベル付き3次元歯科データセットは乏しい資源であり、このタスクが直面する小さなサンプルの問題に繋がる。 そこで本研究では, 3次元画像分割のための新しい3D-U-SAMネットワークを提案する。 具体的には,2次元事前学習された重みを3次元データセットで使用する問題を解決するため,畳み込み近似法を採用した。 本手法の有効性は,アブレーション実験,比較実験,サンプルサイズ実験で実証された。

Accurate representation of tooth position is extremely important in treatment. 3D dental image segmentation is a widely used method, however labelled 3D dental datasets are a scarce resource, leading to the problem of small samples that this task faces in many cases. To this end, we address this problem with a pretrained SAM and propose a novel 3D-U-SAM network for 3D dental image segmentation. Specifically, in order to solve the problem of using 2D pre-trained weights on 3D datasets, we adopted a convolution approximation method; in order to retain more details, we designed skip connections to fuse features at all levels with reference to U-Net. The effectiveness of the proposed method is demonstrated in ablation experiments, comparison experiments, and sample size experiments.
翻訳日:2024-02-21 05:43:57 公開日:2024-02-17
# recall+: 意味セグメンテーションにおける連続学習のためのwebベースリプレイ

RECALL+: Adversarial Web-based Replay for Continual Learning in Semantic Segmentation ( http://arxiv.org/abs/2309.10479v2 )

ライセンス: Link先を確認
Chang Liu, Giulia Rizzoli, Francesco Barbato, Andrea Maracani, Marco Toldo, Umberto Michieli, Yi Niu and Pietro Zanuttigh(参考訳) 過去の知識の破滅的な忘れは、通常様々な正規化戦略によって扱われる連続学習において重要な問題である。 しかし、いくつかの段階的なステップが実行される場合、既存の手法は特に苦労する。 本稿では,従来の手法(RECALL)を拡張し,教師なしのWebクローリングデータを活用して,オンラインデータベースから古いクラスの例を検索する。 本研究は,web ベースデータの評価を含まない従来の手法とは対照的に,逆アプローチと適応しきい値戦略という2つの高度な手法を提案する。 これらの手法は、現在利用できないトレーニングデータと強い統計的一致を示すWebデータから、厳密にサンプルを選択するために利用される。 さらに,疑似ラベル方式を改善し,現在のステップで学習されるクラスも考慮した,より正確なwebデータのラベル付けを実現する。 実験結果から、この拡張アプローチは、特にインクリメンタルシナリオが複数のステップにまたがる場合、顕著な結果をもたらすことが示された。

Catastrophic forgetting of previous knowledge is a critical issue in continual learning typically handled through various regularization strategies. However, existing methods struggle especially when several incremental steps are performed. In this paper, we extend our previous approach (RECALL) and tackle forgetting by exploiting unsupervised web-crawled data to retrieve examples of old classes from online databases. In contrast to the original methodology, which did not incorporate an assessment of web-based data, the present work proposes two advanced techniques: an adversarial approach and an adaptive threshold strategy. These methods are utilized to meticulously choose samples from web data that exhibit strong statistical congruence with the no longer available training data. Furthermore, we improved the pseudo-labeling scheme to achieve a more accurate labeling of web data that also considers classes being learned in the current step. Experimental results show that this enhanced approach achieves remarkable results, particularly when the incremental scenario spans multiple steps.
翻訳日:2024-02-21 05:43:42 公開日:2024-02-17
# 常識推論のための忠実な知識グラフ説明

Faithful Knowledge Graph Explanations for Commonsense Reasoning ( http://arxiv.org/abs/2310.04910v3 )

ライセンス: Link先を確認
Weihe Zhai, Arkaitz Zubiaga, Bingquan Liu, Chengjie Sun, Yalong Zhao(参考訳) 言語モデルと知識グラフの融合は、常識的な質問応答研究で一般的になっているが、これらのモデルにおける忠実な連鎖説明を可能にすることは、未解決の問題である。 解析の結果、現在のKGに基づく説明手法の大きな弱点は、評価中の経路復号の忠実さを見越すことにあることがわかった。 この見落としにより、グラフエンコーダの分布はしばしば元のモデル予測から逸脱する。 このギャップに対処するため,1) グラフ表現の信頼性を評価するために, テキスト-GNN 忠実度をこの特定の文脈で提案し, 検証する。 2)TeGDA(Text-Graph Distribution-aware Alignment)は,グラフエンコーダを対象モデルと整列させて,その後の説明の忠実さを向上し,既存のアプローチに容易に統合できる新しいアルゴリズムである。 我々の実験と分析は、より忠実なシステムを生み出す可能性を示している。 具体的には, LM-KG推論モデルにおける分布の不整合問題に着目した。

While fusing language models and knowledge graphs has become common in commonsense question answering research, enabling faithful chain-of-thought explanations in these models remains an open problem. Our analysis reveals that one major weakness of current KG-based explanation methodologies lies in overlooking the faithfulness of path decoding during evaluation. This oversight leads to the distribution of the graph encoder often diverging from the original model predictions. To address this gap, we present two main contributions: (1) We propose and validate Text-GNN Fidelity in this specific context, to assess the reliability of the graph representation. (2) We introduce TeGDA (Text-Graph Distribution-aware Alignment), a novel algorithm that aligns the graph encoder with the target model to improve the faithfulness of subsequent explanations and that can be easily integrated into existing approaches. Our experiments and analysis show its potential to produce more faithful systems. Concretely, our work emphasises the neglected distributional misalignment problem in LM-KG reasoning models, which has been a latent source of spurious explanations.
翻訳日:2024-02-21 05:34:40 公開日:2024-02-17
# インターネットアクセスにおける年齢関連パターンの探索:ニュージーランドのサーベイデータの二次分析から

Exploring age-related patterns in internet access: Insights from a secondary analysis of New Zealand survey data ( http://arxiv.org/abs/2310.03252v3 )

ライセンス: Link先を確認
Edgar Pacheco(参考訳) 約30年前、インターネットが商業化され始めたとき、メディアへのアクセスは研究と議論のトピックとなった。 このような年齢の重要な予測要因に関する最新の証拠は、インターネットの絶え間なく変化する性質と、それにアクセスすることに伴う課題のために重要である。 本稿では,ニュージーランドのインターネットアクセスの動向と年齢との関連について概観することを目的とする。 調査対象は、成人1,001人を対象にした大規模オンラインパネル調査である。 独立性のチ二乗検定とクレイマーのVが分析に用いられた。 この研究は、デジタル分割を理解するための新しい証拠を提供する。 具体的には、インターネット接続の質の格差が増大していることが分かる。 ファイバーは家庭で最も一般的なブロードバンド接続のタイプだが、高齢者はそれを利用せず、より遅い接続タイプである無線ブロードバンドを使う傾向が強い。 さらに、すべての年齢層でかなりの数の人々がインターネット上で好意的な意見を持っている。 興味深いことに、これは高齢者に普及したが、オンライン上の個人情報のセキュリティに関する懸念が高まっている。 この結果の意義について考察し,今後の研究の方向性について述べる。

About thirty years ago, when the Internet started to be commercialised, access to the medium became a topic of research and debate. Up-to-date evidence about key predictors, such age, is crucial because of the Internet's ever-changing nature and the challenges associated with gaining access to it. This paper aims to give an overview of New Zealand's Internet access trends and how they relate to age. It is based on secondary analysis of data from a larger online panel survey with 1,001 adult respondents. The Chi-square test of independence and Cramer's V were used in the analysis. The study provides new evidence to understand the digital divide. Specifically, it uncovers a growing disparity in the quality of Internet connectivity. Even though fibre is the most common type of broadband connection at home, older adults are less likely to have it and more likely to use wireless broadband, which is a slower connection type. Additionally, a sizable majority of people in all age categories have favourable opinions on the Internet. Interestingly, this was more prevalent among older people, although they report an increased concern about the security of their personal information online. The implications of the results are discussed and some directions for future research are proposed.
翻訳日:2024-02-21 05:34:23 公開日:2024-02-17
# なぜオートエンコーダが動くのか?

Why should autoencoders work? ( http://arxiv.org/abs/2310.02250v3 )

ライセンス: Link先を確認
Matthew D. Kvalheim and Eduardo D. Sontag(参考訳) ディープニューラルネットワークオートエンコーダは、モデル削減のために計算的に使用される。 それらは入力ユークリッド空間 $\mathbb{R}^n$ の$k$-次元部分集合 $K$ にあるデータの本質的な次元を認識することができる。 基本的な考え方は、$\mathbb{r}^n$を$\mathbb{r}^k$(ボトルネック層または潜在変数の空間と呼ばれる)にマッピングする符号化層と、$\mathbb{r}^k$を$\mathbb{r}^n$に戻す復号層の両方を得ることである。 これは、入力と再構成された出力との差を最小限に抑えるために、ネットワーク内のパラメータ(重み)を調整することで達成される。 ニューラルネットワーク(連続活性化関数を持つ)は連続写像を計算するので、完全再構成を達成するネットワークの存在は、$K$が$\mathbb{R}^k$の$k$-次元部分集合に同型であることを意味する。 一方、実際には、このテクニックは"うまく働く"ことが分かり、この効果を説明する方法があるかどうかを尋ねることになる。 私たちは、小さなエラーまで、実際にそのメソッドが機能することを保証していることを示す。 これは微分トポロジーから特定の事実に訴えることによって行われる。 アイデアを説明するための計算例も含んでいる。

Deep neural network autoencoders are routinely used computationally for model reduction. They allow recognizing the intrinsic dimension of data that lie in a $k$-dimensional subset $K$ of an input Euclidean space $\mathbb{R}^n$. The underlying idea is to obtain both an encoding layer that maps $\mathbb{R}^n$ into $\mathbb{R}^k$ (called the bottleneck layer or the space of latent variables) and a decoding layer that maps $\mathbb{R}^k$ back into $\mathbb{R}^n$, in such a way that the input data from the set $K$ is recovered when composing the two maps. This is achieved by adjusting parameters (weights) in the network to minimize the discrepancy between the input and the reconstructed output. Since neural networks (with continuous activation functions) compute continuous maps, the existence of a network that achieves perfect reconstruction would imply that $K$ is homeomorphic to a $k$-dimensional subset of $\mathbb{R}^k$, so clearly there are topological obstructions to finding such a network. On the other hand, in practice the technique is found to "work" well, which leads one to ask if there is a way to explain this effectiveness. We show that, up to small errors, indeed the method is guaranteed to work. This is done by appealing to certain facts from differential topology. A computational example is also included to illustrate the ideas.
翻訳日:2024-02-21 05:32:52 公開日:2024-02-17
# CoDi:高忠実・高速画像生成のための条件拡散蒸留

CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster Image Generation ( http://arxiv.org/abs/2310.01407v2 )

ライセンス: Link先を確認
Kangfu Mei and Mauricio Delbracio and Hossein Talebi and Zhengzhong Tu and Vishal M. Patel and Peyman Milanfar(参考訳) 大規模な生成拡散モデルは、テキストから画像への生成に革命をもたらし、画像の強調、復元、編集、合成といった条件付き生成タスクに大きな可能性を秘めている。 しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。 そこで,本研究では,事前学習した潜在拡散モデルを用いて画像コンディショニング入力を受理し,高品質な結果を得るのに必要なサンプリングステップを大幅に削減する新しい手法codiを提案する。 本手法は, 大規模事前学習中に得られたモデルの事前知識を損なうことなく, コンディショニング入力を組み込むための controlnet などのアーキテクチャを活用できる。 さらに、条件整合性損失は拡散ステップ間の一貫した予測を強制し、数ステップで条件付き高品質な画像を生成することを効果的に促す。 条件付きタスク学習と蒸留のアプローチは,従来の蒸留法を上回っており,超解像,テキストガイド画像編集,奥行き対画像生成など,複数のタスクをまたいで,極めて少ないステップ(1-4など)で高品質な画像を生成するための新たな最先端技術を実現している。

Large generative diffusion models have revolutionized text-to-image generation and offer immense potential for conditional generation tasks such as image enhancement, restoration, editing, and compositing. However, their widespread adoption is hindered by the high computational cost, which limits their real-time application. To address this challenge, we introduce a novel method dubbed CoDi, that adapts a pre-trained latent diffusion model to accept additional image conditioning inputs while significantly reducing the sampling steps required to achieve high-quality results. Our method can leverage architectures such as ControlNet to incorporate conditioning inputs without compromising the model's prior knowledge gained during large scale pre-training. Additionally, a conditional consistency loss enforces consistent predictions across diffusion steps, effectively compelling the model to generate high-quality images with conditions in a few steps. Our conditional-task learning and distillation approach outperforms previous distillation methods, achieving a new state-of-the-art in producing high-quality images with very few steps (e.g., 1-4) across multiple tasks, including super-resolution, text-guided image editing, and depth-to-image generation.
翻訳日:2024-02-21 05:31:49 公開日:2024-02-17
# 強化学習における目的特定形式主義の表現性について

On The Expressivity of Objective-Specification Formalisms in Reinforcement Learning ( http://arxiv.org/abs/2310.11840v2 )

ライセンス: Link先を確認
Rohan Subramani and Marcus Williams and Max Heitmann and Halfdan Holm and Charlie Griffin and Joar Skalse(参考訳) 強化学習(rl)におけるほとんどのアルゴリズムは、目的をマルコフ報酬関数で定式化する必要がある。 しかし、マルコフの報奨における目的によって特定のタスクが表現できないことはよく知られており、線形時間論理や多目的強化学習のようなRLにおける代替目的特定形式論の研究を動機付けている。 これまでのところ、これらの形式主義が相互にどのような関係を持つのか、その表現性の観点からの詳細な分析はまだ行われていない。 既存の文献のこのギャップを埋めるためには、17の有能な客観的特化形式を包括的に比較する。 私たちはこれらの形式をその表現力に基づいて前順序に置き、この前順序をハッセ図として提示する。 異なる形式主義に対する様々な制限を見いだし、形式主義が圧倒的に表現力があり、現在の技法で最適化するのが簡単であると主張する。 例えば、正規化されたrl、(外部)非線形マルコフ報酬、報酬機械、線形時相論理、および制限平均報酬が、他の人ができないタスクを表現できることを証明する。 結果の意義は2つあります。 まず,政策最適化の目的を特定する際に考慮すべき重要な表現力制限を明らかにする。 第2に, 既存の報酬学習手法の多くは, 希望する目的がマルコフ形式をとると仮定しているため, 報酬学習を多種多様な形式に適応させる今後の研究の必要性を浮き彫りにした。 我々の研究は、RLの客観的な定式化のコストと利点をより密集した理解に寄与する。

Most algorithms in reinforcement learning (RL) require that the objective is formalised with a Markovian reward function. However, it is well-known that certain tasks cannot be expressed by means of an objective in the Markov rewards formalism, motivating the study of alternative objective-specification formalisms in RL such as Linear Temporal Logic and Multi-Objective Reinforcement Learning. To date, there has not yet been any thorough analysis of how these formalisms relate to each other in terms of their expressivity. We fill this gap in the existing literature by providing a comprehensive comparison of 17 salient objective-specification formalisms. We place these formalisms in a preorder based on their expressive power, and present this preorder as a Hasse diagram. We find a variety of limitations for the different formalisms, and argue that no formalism is both dominantly expressive and straightforward to optimise with current techniques. For example, we prove that each of Regularised RL, (Outer) Nonlinear Markov Rewards, Reward Machines, Linear Temporal Logic, and Limit Average Rewards can express a task that the others cannot. The significance of our results is twofold. First, we identify important expressivity limitations to consider when specifying objectives for policy optimization. Second, our results highlight the need for future research which adapts reward learning to work with a greater variety of formalisms, since many existing reward learning methods assume that the desired objective takes a Markovian form. Our work contributes towards a more cohesive understanding of the costs and benefits of different RL objective-specification formalisms.
翻訳日:2024-02-21 05:22:56 公開日:2024-02-17
# セットバックから知恵を得る - ミス分析による大規模言語モデルの整合

Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis ( http://arxiv.org/abs/2310.10477v6 )

ライセンス: Link先を確認
Kai Chen, Chunwei Wang, Kuo Yang, Jianhua Han, Lanqing Hong, Fei Mi, Hang Xu, Zhengying Liu, Wenyong Huang, Zhenguo Li, Dit-Yan Yeung, Lifeng Shang, Xin Jiang, Qun Liu(参考訳) 大規模言語モデル(llm)の急速な発展は、多くの機会をもたらしただけでなく、大きな課題ももたらした。 LLMが意図しないもしくは意図的な誘導によって有害または有害な物質を不注意に生成すると、これは特に明らかになる。 既存のアライメント手法は通常、人間が注釈付き、不完全な命令応答ペアを利用することで好ましい結果にllmを向ける。 逆に, 誤りの原因や回避方法を学習するために, LLMを誤った内容に意図的に公開する, 誤り解析に基づく新しいアライメント手法を提案する。 この場合、ミスはアライメントのために貴重なデータに再利用され、誤応答の発生を効果的に回避する。 外部モデルや人的アノテーションがなければ,本手法は,望ましくない誤りを識別し,生成した応答の安全性を向上させるモデル固有の能力を利用する。 実験結果から,本手法はモデル安全性を向上させるために既存のアライメント手法よりも優れていることがわかった。

The rapid development of large language models (LLMs) has not only provided numerous opportunities but also presented significant challenges. This becomes particularly evident when LLMs inadvertently generate harmful or toxic content, either unintentionally or because of intentional inducement. Existing alignment methods usually direct LLMs toward the favorable outcomes by utilizing human-annotated, flawless instruction-response pairs. Conversely, this study proposes a novel alignment technique based on mistake analysis, which deliberately exposes LLMs to erroneous content to learn the reasons for mistakes and how to avoid them. In this case, mistakes are repurposed into valuable data for alignment, effectively helping to avoid the production of erroneous responses. Without external models or human annotations, our method leverages a model's intrinsic ability to discern undesirable mistakes and improves the safety of its generated responses. Experimental results reveal that our method outperforms existing alignment approaches in enhancing model safety while maintaining the overall utility.
翻訳日:2024-02-21 05:21:24 公開日:2024-02-17
# 毒性検出は必要ではない:ボランティアコンテンツモデレータをサポートするためのギャップの測定

Toxicity Detection is NOT all you Need: Measuring the Gaps to Supporting Volunteer Content Moderators ( http://arxiv.org/abs/2311.07879v2 )

ライセンス: Link先を確認
Yang Trista Cao, Lovely-Frances Domingo, Sarah Ann Gilbert, Michelle Mazurek, Katie Shilton, Hal Daum\'e III(参考訳) コンテンツモデレーションのための自動アプローチの広範な取り組みは、モデレーターの負荷を軽くするため、有害、不快、憎悪のあるコンテンツを特定するモデルの開発に焦点が当てられている。 しかし、これらのタスクの改善がモデレーターのニーズに本当に対処したかどうかはまだ不明である。 本稿では、コンテンツモデレーションの面での自動化を目的とした過去の研究成果と、様々なモデレーションルール違反の特定に関して、ボランティアコンテンツモデレーターのニーズとの間にギャップを生じさせる。 そこで我々はHugging Faceのモデルレビューを行い、3つの典型的なフォーラムから様々なモデレーションルールとガイドラインをカバーしたモデルの可用性を明らかにする。 さらに、テストに最先端のLLMを適用し、これらのモデルが特定のフォーラムからプラットフォームルールの違反をフラグ付けする際の性能を評価します。 最後に,ボランティアモデレーターによるユーザ調査を行い,有用なモデレーションモデルに対する視点について考察する。 概して、未発達のモデルとLLMはルールのかなりの部分で中程度から低い性能を示すため、非自明なギャップを観察する。 モデレーターのレポートは、モデレーションアシスタントモデルの開発に関する将来の作業のためのガイドを提供する。

Extensive efforts in automated approaches for content moderation have been focused on developing models to identify toxic, offensive, and hateful content with the aim of lightening the load for moderators. Yet, it remains uncertain whether improvements on those tasks have truly addressed moderators' needs in accomplishing their work. In this paper, we surface gaps between past research efforts that have aimed to provide automation for aspects of content moderation and the needs of volunteer content moderators, regarding identifying violations of various moderation rules. To do so, we conduct a model review on Hugging Face to reveal the availability of models to cover various moderation rules and guidelines from three exemplar forums. We further put state-of-the-art LLMs to the test, evaluating how well these models perform in flagging violations of platform rules from one particular forum. Finally, we conduct a user survey study with volunteer moderators to gain insight into their perspectives on useful moderation models. Overall, we observe a non-trivial gap, as missing developed models and LLMs exhibit moderate to low performance on a significant portion of the rules. Moderators' reports provide guides for future work on developing moderation assistant models.
翻訳日:2024-02-21 05:12:26 公開日:2024-02-17
# インストラクティブデコーディング:インストラクティブチューニングされた大規模言語モデルはノイズインストラクティブからの自己リファインダーである

Instructive Decoding: Instruction-Tuned Large Language Models are Self-Refiner from Noisy Instructions ( http://arxiv.org/abs/2311.00233v2 )

ライセンス: Link先を確認
Taehyeon Kim, Joonkee Kim, Gihun Lee, Se-Young Yun(参考訳) 命令調整言語モデルは印象的なゼロショット一般化を示しているが、これらのモデルはトレーニングセットの外にある命令に直面すると、正確な応答を生成するのに苦労することが多い。 本稿では,インストラクティブ・デコーディング(Instructive Decoding,ID)を提案する。 特に、IDは、ノイズのある命令と呼ばれる元の命令の操作されたバージョンから生成された予測を利用して、逆方向の予測のためにロジットを調整する。 このノイズのある命令は、意図した命令から分岐する可能性のある応答を導き出すことを目的としている。 我々は,無作為な単語に意味的ノイズを挿入するものから,逸脱した応答を誘発する「提案」のような他のものまで,ノイズのある命令のスペクトルをまたいで実験を行う。 提案手法は,追加のパラメータ更新を必要とせずに,各種命令調整モデルやタスクに対して大幅な性能向上を実現する。 特に、"opposite" を元の命令から最大のばらつきを示す ID のノイズインストラクションとして利用することで、複数のモデルやタスク間で、最も顕著なパフォーマンス向上を実現している。

While instruction-tuned language models have demonstrated impressive zero-shot generalization, these models often struggle to generate accurate responses when faced with instructions that fall outside their training set. This paper presents Instructive Decoding (ID), a simple yet effective approach that augments the efficacy of instruction-tuned models. Specifically, ID adjusts the logits for next-token prediction in a contrastive manner, utilizing predictions generated from a manipulated version of the original instruction, referred to as a noisy instruction. This noisy instruction aims to elicit responses that could diverge from the intended instruction yet remain plausible. We conduct experiments across a spectrum of such noisy instructions, ranging from those that insert semantic noise via random words to others like 'opposite' that elicit the deviated responses. Our approach achieves considerable performance gains across various instruction-tuned models and tasks without necessitating any additional parameter updates. Notably, utilizing 'opposite' as the noisy instruction in ID, which exhibits the maximum divergence from the original instruction, consistently produces the most significant performance gains across multiple models and tasks.
翻訳日:2024-02-21 05:11:10 公開日:2024-02-17
# AnomalyCLIP:ゼロショット異常検出のための物体認識型プロンプト学習

AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection ( http://arxiv.org/abs/2310.18961v6 )

ライセンス: Link先を確認
Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen(参考訳) ゼロショット異常検出(ZSAD)は、ターゲットデータセットのトレーニングサンプルなしで異常を検出するために補助データを使用してトレーニングされた検出モデルを必要とする。 さまざまな関心事,例えばデータのプライバシなどによって,トレーニングデータにアクセスできない場合において重要なタスクであると同時に,前景オブジェクトの出現,異常領域,さまざまな製品や組織の欠陥や腫瘍などのバックグラウンド機能など,さまざまな領域にわたる異常に一般化する必要が生じるため,そのモデルは極めて困難である。 近年,クリップなどの大規模事前学習型視覚言語モデル(vlms)が,異常検出を含む様々な視覚課題において強いゼロショット認識能力を示している。 しかし、VLMは画像の異常や異常ではなく、前景オブジェクトのクラスセマンティクスをモデル化することに重点を置いているため、ZSAD性能は弱い。 本稿では、AnomalyCLIPと呼ばれる新しいアプローチを導入し、CLIPを異なる領域にわたる正確なZSADに適用する。 AnomalyCLIPの重要な洞察は、オブジェクトに依存しないテキストのプロンプトを学習し、前景のオブジェクトに関係なく画像の一般的な正規性と異常を捉えることである。 これにより、モデルがオブジェクトのセマンティクスよりも異常な画像領域に焦点を合わせ、様々な種類のオブジェクトに対する一般化された正規性と異常認識を可能にします。 17の現実世界の異常検出データセットに関する大規模実験では、様々な欠陥検査や医療画像領域からの多種多様なクラスセマンティクスのデータセットにおいて、異常を検出および分割する優れたゼロショット性能が得られた。 コードはhttps://github.com/zqhang/AnomalyCLIPで公開される。

Zero-shot anomaly detection (ZSAD) requires detection models trained using auxiliary data to detect anomalies without any training sample in a target dataset. It is a crucial task when training data is not accessible due to various concerns, eg, data privacy, yet it is challenging since the models need to generalize to anomalies across different domains where the appearance of foreground objects, abnormal regions, and background features, such as defects/tumors on different products/organs, can vary significantly. Recently large pre-trained vision-language models (VLMs), such as CLIP, have demonstrated strong zero-shot recognition ability in various vision tasks, including anomaly detection. However, their ZSAD performance is weak since the VLMs focus more on modeling the class semantics of the foreground objects rather than the abnormality/normality in the images. In this paper we introduce a novel approach, namely AnomalyCLIP, to adapt CLIP for accurate ZSAD across different domains. The key insight of AnomalyCLIP is to learn object-agnostic text prompts that capture generic normality and abnormality in an image regardless of its foreground objects. This allows our model to focus on the abnormal image regions rather than the object semantics, enabling generalized normality and abnormality recognition on diverse types of objects. Large-scale experiments on 17 real-world anomaly detection datasets show that AnomalyCLIP achieves superior zero-shot performance of detecting and segmenting anomalies in datasets of highly diverse class semantics from various defect inspection and medical imaging domains. Code will be made available at https://github.com/zqhang/AnomalyCLIP.
翻訳日:2024-02-21 05:10:22 公開日:2024-02-17
# InCharacter:心理面接によるロールプレイングエージェントの個性評価

InCharacter: Evaluating Personality Fidelity in Role-Playing Agents through Psychological Interviews ( http://arxiv.org/abs/2310.17976v3 )

ライセンス: Link先を確認
Xintao Wang, Yunze Xiao, Jen-tse Huang, Siyu Yuan, Rui Xu, Haoran Guo, Quan Tu, Yaying Fei, Ziang Leng, Wei Wang, Jiangjie Chen, Cheng Li, Yanghua Xiao(参考訳) 大規模言語モデルによるロールプレイングエージェント(rpas)は、アプリケーションの繁栄分野として登場した。 しかし、重要な課題は、RPAがターゲットキャラクタのペルソナ、すなわちキャラクタの忠実さを正確に再現するかどうかを評価することである。 既存の手法は主に文字の知識と言語パターンに焦点を当てている。 本稿では,rpaの性格的忠実度を心理的尺度で評価するための新しい視点を提案する。 RPAに対する過去の自己報告評価の欠点を克服し、個性検査のためのインタビュリング・キャラクタ・エージェントであるInCharacterを提案する。 実験には様々な種類の RPA と LLM が含まれ、14の広く使用されている心理学的尺度で32の異なる文字をカバーしている。 RPAの個人性測定におけるInCharacterの有効性を検証した。 次に、InCharacterを用いて、現状のRPAは人物の人格と高度に一致した個性を示し、80.7%の精度を実現していることを示す。 デモ、コード、データセット、結果はhttps://github.com/neph0s/incharacter.com/で公開されている。

Role-playing agents (RPAs), powered by large language models, have emerged as a flourishing field of applications. However, a key challenge lies in assessing whether RPAs accurately reproduce the personas of target characters, namely their character fidelity. Existing methods mainly focus on the knowledge and linguistic patterns of characters. This paper, instead, introduces a novel perspective to evaluate the personality fidelity of RPAs with psychological scales. Overcoming drawbacks of previous self-report assessments on RPAs, we propose InCharacter, namely Interviewing Character agents for personality tests. Experiments include various types of RPAs and LLMs, covering 32 distinct characters on 14 widely used psychological scales. The results validate the effectiveness of InCharacter in measuring RPA personalities. Then, with InCharacter, we show that state-of-the-art RPAs exhibit personalities highly aligned with the human-perceived personalities of the characters, achieving an accuracy up to 80.7%. Our demo, code, dataset, and results are publicly available at https://github.com/Neph0s/InCharacter.
翻訳日:2024-02-21 05:09:22 公開日:2024-02-17
# DALA: 言語モデルに対するロラに基づく分散攻撃

DALA: A Distribution-Aware LoRA-Based Adversarial Attack against Language Models ( http://arxiv.org/abs/2311.08598v2 )

ライセンス: Link先を確認
Yibo Wang, Xiangjue Dong, James Caverlee, Philip S. Yu(参考訳) 言語モデル(LM)は、入力データに微妙な摂動をもたらす敵攻撃によって操作することができる。 最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができるが、生成した敵の例は元の例と異なるデータ分布を持つ。 具体的には、これらの逆の例は、トレーニングデータ分布から信頼性レベルが低下し、より多くのばらつきを示す。 したがって、簡単な検出手法で容易に検出でき、そのような攻撃の有効性を低下させる。 そこで本研究では,分散認識型lora-based adversarial attack (dala) 法を提案する。 DALAは、敵の例の分布シフトを考慮して、検出方法による攻撃の有効性を改善する。 さらに、新たな評価基準である非検出可能な攻撃成功率(NASR)を設計し、攻撃タスクに対するASRと検出性の両方を統合する。 我々は, DALA が生成した敵対的事例の攻撃効果と伝達性を評価するために, 広く使用されている4つのデータセットについて, ホワイトボックスBERTベースモデルとブラックボックス LLaMA2-7b モデルの両方に対して実験を行った。 私たちのコードはhttps://anonymous.4open.science/r/DALA-A16D/で利用可能です。

Language models (LMs) can be manipulated by adversarial attacks, which introduce subtle perturbations to input data. While recent attack methods can achieve a relatively high attack success rate (ASR), we've observed that the generated adversarial examples have a different data distribution compared with the original examples. Specifically, these adversarial examples exhibit reduced confidence levels and greater divergence from the training data distribution. Consequently, they are easy to detect using straightforward detection methods, diminishing the efficacy of such attacks. To address this issue, we propose a Distribution-Aware LoRA-based Adversarial Attack (DALA) method. DALA considers distribution shifts of adversarial examples to improve the attack's effectiveness under detection methods. We further design a novel evaluation metric, the Non-detectable Attack Success Rate (NASR), which integrates both ASR and detectability for the attack task. We conduct experiments on four widely used datasets to validate the attack effectiveness and transferability of adversarial examples generated by DALA against both the white-box BERT-base model and the black-box LLaMA2-7b model. Our codes are available at https://anonymous.4open.science/r/DALA-A16D/.
翻訳日:2024-02-21 05:00:18 公開日:2024-02-17
# 迷入ファジィ集合と迷入ファジィ情報システムの基礎理論と多強度知的分類器への応用

Foundational theories of hesitant fuzzy sets and hesitant fuzzy information systems and their applications for multi-strength intelligent classifiers ( http://arxiv.org/abs/2311.04256v3 )

ライセンス: Link先を確認
Shizhan Lu, Zeshui Xu, Zhu Fu(参考訳) ヘジットファジィ集合は、不確実性やためらいのある場合において広く用いられる。 集合において、包含関係は重要かつ基礎的な定義である。 したがって、ある種の集合として、ヘジットファジィ集合は包含関係を明確に定義する必要がある。 本研究では, 離散形式の迷入ファジィ構成度に基づいて, 迷入ファジィ集合に対する数種類の包含関係を提案する。 すると、ヘッシタンファジィ集合の基本命題のいくつかが、ヘッシタンファジィ集合の族の提案とともに提示される。 パラメータ還元に関して, 迷入ファジィ情報システムの基礎的な提案がいくつか提案され, パラメータ還元の過程を説明するための例とアルゴリズムが与えられた。 最後に,複雑なシステムに対して健康状態診断を行うために,多強度インテリジェント分類器を提案する。

Hesitant fuzzy sets are widely used in certain instances of uncertainty and hesitation. In sets, the inclusion relationship is an important and foundational definition. Thus, as a kind of set, hesitant fuzzy sets require an explicit definition of inclusion relationship. Based on the hesitant fuzzy membership degree of discrete form, several kinds of inclusion relationships for hesitant fuzzy sets are proposed in this work. Then, some foundational propositions of hesitant fuzzy sets are presented, along with propositions of families of hesitant fuzzy sets. Some foundational propositions of hesitant fuzzy information systems are proposed with respect to parameter reductions and an example and an algorithm are given to illustrate the processes of parameter reduction. Finally, a multi-strength intelligent classifier is proposed to make health state diagnoses for complex systems.
翻訳日:2024-02-21 04:56:22 公開日:2024-02-17
# OCT2 Confocal: 3D CycleGANによる網膜OCT画像の共焦点顕微鏡への変換

OCT2Confocal: 3D CycleGAN based Translation of Retinal OCT Images to Confocal Microscopy ( http://arxiv.org/abs/2311.10902v3 )

ライセンス: Link先を確認
Xin Tian, Nantheera Anantrasirichai, Lindsay Nicholson, Alin Achim(参考訳) 光コヒーレンス断層撮影(oct)と共焦点顕微鏡は網膜イメージングにおいて重要な役割を果たす。 In-vivo OCTは、迅速で非侵襲的な画像を提供するが、明快な問題や運動アーティファクトによって妨げられる。 元vivo共焦点顕微鏡は高分解能で細胞質の詳細なカラー画像を提供するが、侵襲的であり、倫理的な懸念と潜在的な組織損傷を引き起こす。 これらのモダリティを橋渡しするために, in-vivo oct から ex-vivo 共焦点顕微鏡画像への教師なし変換のための 3d cyclegan フレームワークを開発した。 OCT2Confocalのデータセットに適用すると、このフレームワークは3Dの医療データドメイン間で効果的に翻訳され、血管、テクスチャ、細胞の詳細を精度良くキャプチャする。 これは、octの固有の3d情報を活用し、共焦点顕微鏡のリッチで詳細な色領域に変換する最初の試みである。 3D CycleGANフレームワークは、量的および質的な評価を通じて評価され、圧縮可能な画像の忠実度と品質を示し、制限されたデータの制約にもかかわらず、既存の手法よりも優れている。 この非侵襲的な網膜共焦点画像の生成は、眼科における診断とモニタリング機能をさらに強化する可能性がある。 ソースコードとOCT2Confocalデータセットはhttps://github.com/xintian-99/OCT2Confocalで公開されています。

Optical coherence tomography (OCT) and confocal microscopy are pivotal in retinal imaging, each presenting unique benefits and limitations. In-vivo OCT offers rapid, non-invasive imaging but can be hampered by clarity issues and motion artifacts. Ex-vivo confocal microscopy provides high-resolution, cellular detailed color images but is invasive and poses ethical concerns and potential tissue damage. To bridge these modalities, we developed a 3D CycleGAN framework for unsupervised translation of in-vivo OCT to ex-vivo confocal microscopy images. Applied to our OCT2Confocal dataset, this framework effectively translates between 3D medical data domains, capturing vascular, textural, and cellular details with precision. This marks the first attempt to exploit the inherent 3D information of OCT and translate it into the rich, detailed color domain of confocal microscopy. Assessed through quantitative and qualitative evaluations, the 3D CycleGAN framework demonstrates commendable image fidelity and quality, outperforming existing methods despite the constraints of limited data. This non-invasive generation of retinal confocal images has the potential to further enhance diagnostic and monitoring capabilities in ophthalmology. Our source code and OCT2Confocal dataset are available at https://github.com/xintian-99/OCT2Confocal.
翻訳日:2024-02-21 04:47:50 公開日:2024-02-17
# カスタマイズ可能なストックプールにおけるポートフォリオ管理のためのマスク可能なストック表現を用いた強化学習

Reinforcement Learning with Maskable Stock Representation for Portfolio Management in Customizable Stock Pools ( http://arxiv.org/abs/2311.10801v3 )

ライセンス: Link先を確認
Wentao Zhang, Yilei Zhao, Shuo Sun, Jie Ying, Yonggang Xie, Zitao Song, Xinrun Wang, Bo An(参考訳) ポートフォリオ・マネジメント(pm)は金融取引の基本課題であり、長期利益を追求するために資本を異なる株式に最適に移すことを探求する。 強化学習(rl)は金融市場との対話を通じてpmの有益なエージェントを訓練する可能性を最近示した。 しかし、既存の仕事は、主に投資家の実際的な需要と矛盾する固定株プールに焦点を当てている。 特に、異なる投資家のターゲットの株価プールは、市場国家との格差のために劇的に変動し、個々の投資家は、取引したい株式(例えば1つの人気株を追加する)を一時的に調整し、カスタマイズ可能な株式プール(csp)に繋がる可能性がある。 既存のRL手法では、ストックプールを少し変更してもRLエージェントを再訓練する必要があるため、高い計算コストと不安定な性能が得られる。 この課題に取り組むため,我々は,グローバルストックプール(gsp)でのワンショットトレーニングを通じてpmをcspで扱うための,マスキング可能なストック表現を備えた強化学習フレームワークであるearnmoreを提案する。 具体的には,まず,ターゲットプールの外に在庫を隠蔽する機構を導入する。 第2に,自己教師付きマスキングと再構築プロセスを通じて有意義な在庫表現を学習する。 第3に、ポートフォリオが好意的な株式に集中し、ターゲットプールの外の株を無視するように再重み付けメカニズムが設計されている。 米国株式市場の8つのサブセット株式プールに関する広範な実験を通じて、EarnMoreは、利益の40%以上向上した6つの一般的な財務指標において、14の最先端のベースラインを大きく上回っていることを実証した。

Portfolio management (PM) is a fundamental financial trading task, which explores the optimal periodical reallocation of capitals into different stocks to pursue long-term profits. Reinforcement learning (RL) has recently shown its potential to train profitable agents for PM through interacting with financial markets. However, existing work mostly focuses on fixed stock pools, which is inconsistent with investors' practical demand. Specifically, the target stock pool of different investors varies dramatically due to their discrepancy on market states and individual investors may temporally adjust stocks they desire to trade (e.g., adding one popular stocks), which lead to customizable stock pools (CSPs). Existing RL methods require to retrain RL agents even with a tiny change of the stock pool, which leads to high computational cost and unstable performance. To tackle this challenge, we propose EarnMore, a rEinforcement leARNing framework with Maskable stOck REpresentation to handle PM with CSPs through one-shot training in a global stock pool (GSP). Specifically, we first introduce a mechanism to mask out the representation of the stocks outside the target pool. Second, we learn meaningful stock representations through a self-supervised masking and reconstruction process. Third, a re-weighting mechanism is designed to make the portfolio concentrate on favorable stocks and neglect the stocks outside the target pool. Through extensive experiments on 8 subset stock pools of the US stock market, we demonstrate that EarnMore significantly outperforms 14 state-of-the-art baselines in terms of 6 popular financial metrics with over 40% improvement on profit.
翻訳日:2024-02-21 04:47:25 公開日:2024-02-17
# 古典信号と量子信号のハイブリッドネットワークにおけるルーティングと波長割り当て

Routing and wavelength assignment in hybrid networks with classical and quantum signals ( http://arxiv.org/abs/2311.10474v2 )

ライセンス: Link先を確認
Lidia Ruiz and Juan Carlos Garcia-Escartin(参考訳) 量子鍵分布は成熟した量子技術となり、専用リンクが成長し、古典的基盤に組み込まれる準備が整っている。 複数の潜在ノードを持つこのシナリオでは、すべての潜在ユーザ間でネットワークリソースを割り当てる効率的な方法を持つことが重要です。 本稿では,古典チャネルと量子チャネルが共存する波長多重ネットワークにおけるルーティングと波長割り当ての簡易な手法を提案する。 提案したヒューリスティックスは、量子鍵分布の特定の要件を考慮に入れ、古典的な信号からの光子による量子チャネルの汚染を非線形プロセスで抑えることに重点を置いている。 これらのヒューリスティックは、古典チャネルと量子チャネル間の共有経路を減少させ、量子チャネルの信号対雑音比を改善し、量子キーレートを改善する。 結果は通常の古典的RWA手法と比較する。

Quantum Key Distribution has become a mature quantum technology that has outgrown dedicated links and is ready to be incorporated into the classical infrastructure. In this scenario with multiple potential nodes, it is crucial having efficient ways to allocate the network resources between all the potential users. We propose a simple method for routing and wavelength assignment in wavelength multiplexed networks in which classical and quantum channels coexist. The proposed heuristics take into account the specific requirements of quantum key distribution and focus on keeping at bay the contamination of the quantum channels by photons coming from the classical signals by non-linear processes, among others. These heuristics reduce the shared path between classical and quantum channels and improve the signal-to-noise ratio in the quantum channels, improving their quantum key rate. We compare the results to the usual classical RWA approach.
翻訳日:2024-02-21 04:46:30 公開日:2024-02-17
# 大規模学習における関数空間アグリゲーションの活用

Leveraging Function Space Aggregation for Federated Learning at Scale ( http://arxiv.org/abs/2311.10291v2 )

ライセンス: Link先を確認
Nikita Dhawan, Nicole Mitchell, Zachary Charles, Zachary Garrett, Gintare Karolina Dziugaite(参考訳) フェデレーション学習パラダイムは、クライアントデータを共有することなく、複数のクライアント更新をグローバルサーバモデルに集約する手法の開発を動機付けた。 fedavg(canonical federated averaging)を含む多くのフェデレーション学習アルゴリズムは、分散最適化の結果によって動機付けられた、クライアントパラメータのアップデートの直接的な(おそらく重み付けされた)平均を取る。 本研究では,関数空間の視点を採用し,フィッシャー情報に基づく推定値を用いて,クライアントが学習した関数に局所近似を集約する新しいアルゴリズムfeedfishを提案する。 我々はFedFishを、現実的で大規模なクロスデバイスベンチマークで評価する。 FedAvgのパフォーマンスは、クライアントモデルがさらに離れていくにつれて悪化する可能性があるが、FedFishはより長いローカルトレーニングよりも堅牢であることを示す。 画像および言語ベンチマークのいくつかの設定で評価したところ、FedFishはローカルトレーニングのエポックが増加するにつれてFedAvgよりも優れています。 さらに、FedFishは、同じまたはシフトしたデータ分布上の局所的な微調整によって、より効率的なパーソナライズを行うことができるグローバルネットワークに結果をもたらす。 例えば、C4データセット上でのフェデレーション事前トレーニング、続いてStack Overflowでのパーソナライゼーションは、FedAvgよりもFedFishによる次のトーケン予測を7%改善する。

The federated learning paradigm has motivated the development of methods for aggregating multiple client updates into a global server model, without sharing client data. Many federated learning algorithms, including the canonical Federated Averaging (FedAvg), take a direct (possibly weighted) average of the client parameter updates, motivated by results in distributed optimization. In this work, we adopt a function space perspective and propose a new algorithm, FedFish, that aggregates local approximations to the functions learned by clients, using an estimate based on their Fisher information. We evaluate FedFish on realistic, large-scale cross-device benchmarks. While the performance of FedAvg can suffer as client models drift further apart, we demonstrate that FedFish is more robust to longer local training. Our evaluation across several settings in image and language benchmarks shows that FedFish outperforms FedAvg as local training epochs increase. Further, FedFish results in global networks that are more amenable to efficient personalization via local fine-tuning on the same or shifted data distributions. For instance, federated pretraining on the C4 dataset, followed by few-shot personalization on Stack Overflow, results in a 7% improvement in next-token prediction by FedFish over FedAvg.
翻訳日:2024-02-21 04:46:16 公開日:2024-02-17
# 自己愛的評価指標としてのLLM:Egoが評価スコアを膨らませたとき

LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores ( http://arxiv.org/abs/2311.09766v2 )

ライセンス: Link先を確認
Yiqi Liu, Nafise Sadat Moosavi, Chenghua Lin(参考訳) 生成したテキストコンテンツの自動評価は、NLP分野において進行中の課題である。 様々なnlpタスクにまたがる現代言語モデル(lms)の印象的な能力を考えると、これらのモデルを用いて生成タスクの自動評価のための革新的な評価指標を作成する傾向が高まっている。 言語モデル駆動評価メトリクスは、本質的に同じ基礎となる言語モデルによって生成されたテキストに有利なバイアスを示すか? 具体的には,BARTScore,T5Score,GPTScoreなどの著名なLM評価指標が,要約タスクの文脈において,それぞれのLMに対して好ましいバイアスを示すか否かを評価する。 以上の結果から,金サマリーを使わずに,その評価指標を参照フリーで使用する場合,特に潜伏バイアスが顕在化した。 これらの結果は、生成的評価モデルによって提供される評価は、本質的なテキスト品質以上の要因に影響され、将来より信頼性の高い評価プロトコルを開発する必要性を強調している。

Automatic evaluation of generated textual content presents an ongoing challenge within the field of NLP. Given the impressive capabilities of modern language models (LMs) across diverse NLP tasks, there is a growing trend to employ these models in creating innovative evaluation metrics for automated assessment of generation tasks. This paper investigates a pivotal question: Do language model-driven evaluation metrics inherently exhibit bias favoring texts generated by the same underlying language model? Specifically, we assess whether prominent LM-based evaluation metrics (e.g. BARTScore, T5Score, and GPTScore) demonstrate a favorable bias toward their respective underlying LMs in the context of summarization tasks. Our findings unveil a latent bias, particularly pronounced when such evaluation metrics are used in an reference-free manner without leveraging gold summaries. These results underscore that assessments provided by generative evaluation models can be influenced by factors beyond the inherent text quality, highlighting the necessity of developing more dependable evaluation protocols in the future.
翻訳日:2024-02-21 04:45:33 公開日:2024-02-17
# rescue: 応答生成を改善する部分順序付きllm応答のランク付け

Rescue: Ranking LLM Responses with Partial Ordering to Improve Response Generation ( http://arxiv.org/abs/2311.09136v2 )

ライセンス: Link先を確認
Yikun Wang and Rui Zheng and Haoming Li and Qi Zhang and Tao Gui and Fei Liu(参考訳) 特定のタスクに対するllmのカスタマイズには、効果的な応答と誤った応答を区別することが含まれる。 この技術は、人選好データを用いた教師付き微調整を用いて開発することができる。 しかし、専門家による好みデータを取得することは、ほとんどのタスクにとって高価である。 本稿では,ランキング指標を用いたLCMの最適化手法を提案する。 この方法は、特定のタスクのために作成された候補のプールから最高の応答を優先するようにモデルを訓練する。 従来の完全な順序ではなく、候補応答の完全な順序に関するコンセンサスを達成することは困難であるとして、部分的な順序付けを提唱する。 部分順序付けはより堅牢で、ノイズに対する感度が低く、制限された人間のアノテーションやヒューリスティックな手法で実現できます。 我々は,最新のマルチドキュメント質問応答タスクを含むベンチマークデータセットを用いて,システムの改善された応答生成能力をテストする。 我々は,特定の課題に対する候補応答の収集方法,最も適切な順序の決定方法,教師付き微調整とランキング指標のバランスなど,重要な要素を理解するためにアブレーション研究を行う。 提案手法は, LLMの文脈的理解を, 応答ランキングによって向上させるための, 有望な道筋を示唆するものである。

Customizing LLMs for a specific task involves distinguishing effective responses from erroneous ones. This skill can be developed using supervised fine-tuning with extensive human preference data. However, obtaining expert-annotated preference data is expensive for most tasks. In this paper, we present a novel method to optimize LLMs using ranking metrics. This method trains the model to prioritize the best responses from a pool of candidates created for a particular task. Rather than a traditional full ordering, we advocate for a partial ordering, as achieving consensus on the perfect order of candidate responses can be challenging. Our partial ordering is more robust, less sensitive to noise, and can be achieved with limited human annotations or through heuristic methods. We test our system's improved response generation ability using benchmark datasets, including the latest multi-document question answering task. We conduct ablation studies to understand crucial factors, such as how to gather candidate responses for specific tasks, determine their most suitable order, and balance supervised fine-tuning with ranking metrics. Our approach, named \textsc{Rescue}, suggests a promising avenue for enhancing LLMs' contextual understanding via response ranking.
翻訳日:2024-02-21 04:43:27 公開日:2024-02-17
# code search debiasing: 総合的なランキング性能を超えた検索結果の改善

Code Search Debiasing:Improve Search Results beyond Overall Ranking Performance ( http://arxiv.org/abs/2311.14901v2 )

ライセンス: Link先を確認
Sheng Zhang, Hui Li, Yanlin Wang, Zhao Wei, Yong Xiu, Juhong Wang, Rongong Ji(参考訳) コード検索エンジンはソフトウェア開発に不可欠なツールである。 多くのコード検索手法が登場し、コード検索の総合的な性能に焦点を当てている。 本稿では,コード検索モデルのバイアスを分析することによって,別の視点からコード検索を行う。 バイアスドコード検索エンジンは、全体的なパフォーマンスが期待できるにもかかわらず、ユーザエクスペリエンスが劣っている。 異なる開発規約(例えば長いクエリや略語を好む)のため、エンジンが役に立つと考えるプログラマもいれば、望ましい検索結果を得るのが難しいプログラマもいる。 バイアスを軽減するために,検索結果の校正に再ランキングを用いる汎用デバイアスフレームワークを開発した。 既存のエンジンに簡単に接続でき、将来発見された新しいコード検索バイアスを処理することができる。 実験により、我々のフレームワークは、バイアスを効果的に低減できることが示される。 一方、コード検索の全体的なランク付け性能はデバイアス後に改善される。

Code search engine is an essential tool in software development. Many code search methods have sprung up, focusing on the overall ranking performance of code search. In this paper, we study code search from another perspective by analyzing the bias of code search models. Biased code search engines provide poor user experience, even though they show promising overall performance. Due to different development conventions (e.g., prefer long queries or abbreviations), some programmers will find the engine useful, while others may find it hard to get desirable search results. To mitigate biases, we develop a general debiasing framework that employs reranking to calibrate search results. It can be easily plugged into existing engines and handle new code search biases discovered in the future. Experiments show that our framework can effectively reduce biases. Meanwhile, the overall ranking performance of code search gets improved after debiasing.
翻訳日:2024-02-21 04:34:24 公開日:2024-02-17
# ユーザガイドベイズ最適化のための汎用フレームワーク

A General Framework for User-Guided Bayesian Optimization ( http://arxiv.org/abs/2311.14645v2 )

ライセンス: Link先を確認
Carl Hvarfner and Frank Hutter and Luigi Nardi(参考訳) 高価なブラックボックス関数の最適化は、様々な科学分野において一般的である。 ベイズ最適化(英: bayesian optimization)は、基本関数のダイナミクスを最小限の知識で解く自動的、一般的、サンプル効率の良い手法である。 しかし、最適化を加速するために、事前の知識や目の前の機能についての信念を組み込むベイズ最適化の能力は限られており、予算の厳しい知識のある実践者へのアピールを減少させる。 ドメインエキスパートが最適化ルーチンをカスタマイズできるようにするため、最適化器の位置や最適値などの典型的なカーネル構造を超えて、事前の信念を組み込む最初のベイズ原理フレームワークであるColaBOを提案する。 ColaBOの一般性は、モンテカルロの様々な獲得関数やユーザー信念の種類に応用できる。 我々は,ColaBOの事前情報が正確である場合に最適化を著しく高速化し,ミスリード時のほぼ既定性能を維持する能力を実証的に実証した。

The optimization of expensive-to-evaluate black-box functions is prevalent in various scientific disciplines. Bayesian optimization is an automatic, general and sample-efficient method to solve these problems with minimal knowledge of the underlying function dynamics. However, the ability of Bayesian optimization to incorporate prior knowledge or beliefs about the function at hand in order to accelerate the optimization is limited, which reduces its appeal for knowledgeable practitioners with tight budgets. To allow domain experts to customize the optimization routine, we propose ColaBO, the first Bayesian-principled framework for incorporating prior beliefs beyond the typical kernel structure, such as the likely location of the optimizer or the optimal value. The generality of ColaBO makes it applicable across different Monte Carlo acquisition functions and types of user beliefs. We empirically demonstrate ColaBO's ability to substantially accelerate optimization when the prior information is accurate, and to retain approximately default performance when it is misleading.
翻訳日:2024-02-21 04:34:12 公開日:2024-02-17
# 法的要件分析

Legal Requirements Analysis ( http://arxiv.org/abs/2311.13871v3 )

ライセンス: Link先を確認
Sallam Abualhaija and Marcello Ceci and Lionel Briand(参考訳) 現代のソフトウェアは多くの分野やアプリケーションコンテキストにおいて日常的な活動の不可欠な部分です。 人工知能(AI)を活用したインテリジェントオートメーションの導入は、多くの分野でブレークスルーにつながった。 aiの有効性は、データの可用性の増加など、いくつかの要因によって引き起こされる可能性がある。 欧州連合(EU)におけるGDPR(General Data Protection Regulation)などの規制は、個人データの保護を保証するために導入されている。 個人データを収集、処理、共有するソフトウェアシステムは、そのような規則に従っている。 コンプライアンスソフトウェアの開発は、ソフトウェア開発プロセスの要件工学(re)フェーズにおける中心的な活動である、適用規則に規定された法的要件の対処に大きく依存する。 REは、法的要件を含むシステム・トゥ・ビーの要件を特定し維持することに関心がある。 個人データ処理のために組織が実施する政策を記述した法的合意は、法的要件を付与するための規制に付加的な情報源を提供することができる。 本章では、法的要件を分析し、GDPR上でそれらを実証する様々な方法について考察する。 具体的には、規制から機械分析可能な表現を作成するための代替案について述べ、規制に対するコンプライアンス検証を可能にする既存の自動化手段を調査し、法的要件分析の現在の課題をさらに反映する。

Modern software has been an integral part of everyday activities in many disciplines and application contexts. Introducing intelligent automation by leveraging artificial intelligence (AI) led to break-throughs in many fields. The effectiveness of AI can be attributed to several factors, among which is the increasing availability of data. Regulations such as the general data protection regulation (GDPR) in the European Union (EU) are introduced to ensure the protection of personal data. Software systems that collect, process, or share personal data are subject to compliance with such regulations. Developing compliant software depends heavily on addressing legal requirements stipulated in applicable regulations, a central activity in the requirements engineering (RE) phase of the software development process. RE is concerned with specifying and maintaining requirements of a system-to-be, including legal requirements. Legal agreements which describe the policies organizations implement for processing personal data can provide an additional source to regulations for eliciting legal requirements. In this chapter, we explore a variety of methods for analyzing legal requirements and exemplify them on GDPR. Specifically, we describe possible alternatives for creating machine-analyzable representations from regulations, survey the existing automated means for enabling compliance verification against regulations, and further reflect on the current challenges of legal requirements analysis.
翻訳日:2024-02-21 04:33:33 公開日:2024-02-17
# 拡散に基づく生成モデルとその誤差境界について:完全収束推定をもつ対数凹の場合

On diffusion-based generative models and their error bounds: The log-concave case with full convergence estimates ( http://arxiv.org/abs/2311.13584v2 )

ライセンス: Link先を確認
Stefano Bruno, Ying Zhang, Dong-Young Lim, \"Omer Deniz Akyildiz and Sotirios Sabanis(参考訳) リプシッツ連続関数を用いてスコア推定に使用する関数の近似クラスを近似しながら、強い対数凹データ分布を仮定して拡散に基づく生成モデルの収束挙動を理論的に完全に保証する。 モチベーションの例を通して、未知の平均を持つガウス分布からサンプリングし、我々のアプローチの強力さを示す。 この場合、関連する最適化問題、すなわちスコア近似に対して明示的な推定が提供され、それらと対応するサンプリング推定とを組み合わせる。 その結果、データ分布(ガウス平均)とサンプリングアルゴリズムの間のワッサーシュタイン-2距離について、興味の量や収束率などの重要な値から最もよく知られた上限推定値を得ることができた。 モチベーションの他に,様々な確率的最適化器の使用を可能にするために,我々は,確率的最適化器に対する期待と,既知の情報のみを使用する新たな補助プロセスの下で決定的に形成される$l^2$-accurateスコア推定仮定を用いて結果を提示する。 この手法はサンプリングアルゴリズムにおいて最もよく知られた収束率をもたらす。

We provide full theoretical guarantees for the convergence behaviour of diffusion-based generative models under the assumption of strongly log-concave data distributions while our approximating class of functions used for score estimation is made of Lipschitz continuous functions. We demonstrate via a motivating example, sampling from a Gaussian distribution with unknown mean, the powerfulness of our approach. In this case, explicit estimates are provided for the associated optimization problem, i.e. score approximation, while these are combined with the corresponding sampling estimates. As a result, we obtain the best known upper bound estimates in terms of key quantities of interest, such as the dimension and rates of convergence, for the Wasserstein-2 distance between the data distribution (Gaussian with unknown mean) and our sampling algorithm. Beyond the motivating example and in order to allow for the use of a diverse range of stochastic optimizers, we present our results using an $L^2$-accurate score estimation assumption, which crucially is formed under an expectation with respect to the stochastic optimizer and our novel auxiliary process that uses only known information. This approach yields the best known convergence rate for our sampling algorithm.
翻訳日:2024-02-21 04:33:16 公開日:2024-02-17
# シュロディンガーの物質波方程式の力学的類似性

Mechanical Analogue for Schrodinger's Matter-Wave Equation ( http://arxiv.org/abs/2312.05581v3 )

ライセンス: Link先を確認
Nicos Makris(参考訳) この論文では、シュロディンガーの元々の4階実数値物質波方程式の1次元版に正確な機械的類似性があることを最初に示した。 分散弾性ばねに支持される複合曲げシーリングビームである。 しかしながら、この発見にもかかわらず、この論文はシュロディンガーの2階複素値物質波方程式の物理的に実現可能な機械的類似体を構築することは不可能であり、それ故に元の4階実数値物質波方程式で予測されたものよりも低いエネルギー準位が生じることを示す。

In this paper we first show that, there exists a precise mechanical analogue for the one-dimensional version of Schrodinger's original 4th-order, real-valued matter-wave equation. It is a composite, flexural-shear beam supported on distributed elastic springs. Nevertheless, in spite of this finding, this paper shows that it is not possible to construct a physically realizable mechanical analogue for Schrodinger's 2nd-order, complex valued matter-wave equation which yields lower eigenvalues; therefore, lower energy levels than these predicted with his original 4th-order, real-valued matter-wave equation.
翻訳日:2024-02-21 04:23:31 公開日:2024-02-17
# バリデーションラベルはいくつ必要ですか? ラベル効率モデルランキングの設計領域の検討

How Many Validation Labels Do You Need? Exploring the Design Space of Label-Efficient Model Ranking ( http://arxiv.org/abs/2312.01619v3 )

ライセンス: Link先を確認
Zhengyu Hu, Jieyu Zhang, Yue Yu, Yuchen Zhuang, Hui Xiong(参考訳) 本稿では,lemr(label- efficient model ranking)とmorabenchベンチマークを紹介する。 LEMRは、未ラベルのバリデーションセットからインスタンスを戦略的にアノテートすることで、モデル選択におけるコストのかかるアノテーションの必要性を最小限にする新しいフレームワークである。 LEMRを評価するために、さまざまなシナリオにわたるモデル出力の包括的なコレクションであるMoraBench Benchmarkを利用する。 半教師付き学習,弱監督,迅速な選択タスクにおいて,23種類のNLPタスクにまたがる広範囲な評価は,ラベル付けコストを大幅に削減するLEMRの有効性を示す。 重要な知見は、適切なアンサンブル方法、不確実性サンプリング戦略、モデル評価精度向上のためのモデル委員会選択の影響である。 モラベンチの洞察によってサポートされているlemrは、モデル選択のためのコスト効率が高く正確なソリューションを提供する。

This paper presents LEMR (Label-Efficient Model Ranking) and introduces the MoraBench Benchmark. LEMR is a novel framework that minimizes the need for costly annotations in model selection by strategically annotating instances from an unlabeled validation set. To evaluate LEMR, we leverage the MoraBench Benchmark, a comprehensive collection of model outputs across diverse scenarios. Our extensive evaluation across 23 different NLP tasks in semi-supervised learning, weak supervision, and prompt selection tasks demonstrates LEMR's effectiveness in significantly reducing labeling costs. Key findings highlight the impact of suitable ensemble methods, uncertainty sampling strategies, and model committee selection in enhancing model ranking accuracy. LEMR, supported by the insights from MoraBench, provides a cost-effective and accurate solution for model selection, especially valuable in resource-constrained environments.
翻訳日:2024-02-21 04:22:18 公開日:2024-02-17
# モビリティ・アズ・ア・サービスシステムの利用意欲に及ぼすプライバシとセキュリティ意識と旅行者の懸念の影響

The Impact of Privacy and Security Attitudes and Concerns of Travellers on Their Willingness to Use Mobility-as-a-Service Systems ( http://arxiv.org/abs/2312.00519v2 )

ライセンス: Link先を確認
Maria Sophia Heering, Haiyue Yuan, Shujun Li(参考訳) 本稿では,旅行者のプライバシとセキュリティに対する態度が,モビリティ・アズ・ア・サービス(MaaS)システムの利用意欲に与える影響に関するオンライン調査の結果を報告する。 この研究は、MaaS獲得の可能性に対する障壁の調査を目的とした、より大きなプロジェクトの一部である。 このオンライン調査は、データプライバシとセキュリティの姿勢と懸念、および旅行者がMaaSシステムを使用する意図に関連付けられた様々な社会心理学的・社会デコグラフィー変数をカバーするように設計されている。 この調査には、多作な調査プラットフォームを通じてリクルートされた英国の参加者が320ドルだった。 全体としては、相関分析と多重回帰モデルにより、個人データのプライバシーとセキュリティに対する参加者の態度や懸念は、予期せぬ結果となったMaaSシステムの使用の決定に大きく影響しないことが示された。 もう一つの驚くべき結果として、プライバシーの不正侵入の犠牲者であったことは、個人がMaaSシステムを使用する意図に影響していないように見えるが、個人データの誤用について聞いた頻度はあった。 結果と今後の方向性についても議論されており、例えば、maasプロバイダは企業イメージの信頼性向上に取り組むことが推奨されている。

This paper reports results from an online survey on the impact of travellers' privacy and security attitudes and concerns on their willingness to use mobility-as-a-service (MaaS) systems. This study is part of a larger project that aims at investigating barriers to potential MaaS uptake. The online survey was designed to cover data privacy and security attitudes and concerns as well as a variety of socio-psychological and socio-demographic variables associated with travellers' intentions to use MaaS systems. The study involved $n=320$ UK participants recruited via the Prolific survey platform. Overall, correlation analysis and a multiple regression model indicated that, neither attitudes nor concerns of participants over the privacy and security of personal data would significantly impact their decisions to use MaaS systems, which was an unexpected result, however, their trust in (commercial and governmental) websites would. Another surprising result is that, having been a victim of improper invasion of privacy did not appear to affect individuals' intentions to use MaaS systems, whereas frequency with which one heard about misuse of personal data did. Implications of the results and future directions are also discussed, e.g., MaaS providers are encouraged to work on improving the trustworthiness of their corporate image.
翻訳日:2024-02-21 04:22:01 公開日:2024-02-17
# 塑性損失の説明としての曲率の方向性

Directions of Curvature as an Explanation for Loss of Plasticity ( http://arxiv.org/abs/2312.00246v2 )

ライセンス: Link先を確認
Alex Lewandowski, Haruto Tanaka, Dale Schuurmans, Marlos C. Machado(参考訳) 可塑性の喪失は、ニューラルネットワークが新しい経験から学ぶ能力を失う現象である。 いくつかの問題で経験的に観察されているにもかかわらず、可塑性を損なうメカニズムについてはほとんど理解されていない。 本稿では, ニューラルネットワークはトレーニング中に曲率の方向を逸脱し, 可塑性の喪失は曲率の減少に起因するという一貫した説明を与える。 このような主張を支援するため,MNIST, CIFAR-10, ImageNet を用いた連続学習課題における可塑性損失の系統的研究を行った。 その結果, 曲がり方向の喪失は塑性の喪失と一致し, 以前の説明ではすべての環境において塑性の喪失を説明するには不十分であった。 最後に, 可塑性損失を緩和する正則化器も曲率を保ち, 検討した問題設定において有効であることを示す単純な分布正則化器を動機付けていることを示す。

Loss of plasticity is a phenomenon in which neural networks lose their ability to learn from new experience. Despite being empirically observed in several problem settings, little is understood about the mechanisms that lead to loss of plasticity. In this paper, we offer a consistent explanation for loss of plasticity: Neural networks lose directions of curvature during training and that loss of plasticity can be attributed to this reduction in curvature. To support such a claim, we provide a systematic investigation of loss of plasticity across continual learning tasks using MNIST, CIFAR-10 and ImageNet. Our findings illustrate that loss of curvature directions coincides with loss of plasticity, while also showing that previous explanations are insufficient to explain loss of plasticity in all settings. Lastly, we show that regularizers which mitigate loss of plasticity also preserve curvature, motivating a simple distributional regularizer that proves to be effective across the problem settings we considered.
翻訳日:2024-02-21 04:21:39 公開日:2024-02-17
# ジェネレーティブAIの創造性におけるインタフェース設計の役割

The role of interface design on prompt-mediated creativity in Generative AI ( http://arxiv.org/abs/2312.00233v2 )

ライセンス: Link先を確認
Maddalena Torricelli, Mauro Martino, Andrea Baronchelli, Luca Maria Aiello(参考訳) 画像作成のための生成AIは、デジタルアーティストやビジュアルデザイナのツールキットの定番になりつつある。 これらのシステムとのインタラクションは、ユーザが所望のイメージの内容とスタイルを記述するための短いテキストを書くプロセスである \emph{prompting} によって媒介される。 プロンプトの研究は、人間の創造性に関する洞察を得る前例のない機会を提供する。 しかし、人々の使い方に対する私たちの理解は限定的です。 我々は、2つの生成型aiプラットフォーム(stable diffusion と pick-a-pic)のログから145,000以上のプロンプトを分析し、人々が時間とともにどのように新しい概念を展開するか、そしてそれらの探索が、人間-コンピュータインターフェイスから生成型aiへの異なるデザイン選択にどのように影響するかを明らかにした。 利用者は,前回訪問した概念の活用よりも,新たなトピックの探求の傾向がみられた。 しかし、この2つのプラットフォームの比較分析によって、スコープと機能の両方が異なることが判明した。 画像の変種を高速に生成するためのショートカットのプロンプトと提供からユーザフォーカスを逸脱させる機能は、新規概念の探索と提案されたプロンプトの細部の両方で大幅に削減される。 これらの結果は、ヒューマンインターフェースの設計をジェネレーティブAIに直接的な意味を持ち、プロンプトのプロセスがクリエイティビティを最も支援する方法でどのように役立つべきか、という新たな疑問を提起する。

Generative AI for the creation of images is becoming a staple in the toolkit of digital artists and visual designers. The interaction with these systems is mediated by \emph{prompting}, a process in which users write a short text to describe the desired image's content and style. The study of prompts offers an unprecedented opportunity to gain insight into the process of human creativity. Yet, our understanding of how people use them remains limited. We analyze more than 145,000 prompts from the logs of two Generative AI platforms (Stable Diffusion and Pick-a-Pic) to shed light on how people \emph{explore} new concepts over time, and how their exploration might be influenced by different design choices in human-computer interfaces to Generative AI. We find that users exhibit a tendency towards exploration of new topics over exploitation of concepts visited previously. However, a comparative analysis of the two platforms, which differ both in scope and functionalities, reveals some stark differences. Features diverting user focus from prompting and providing instead shortcuts for quickly generating image variants are associated with a considerable reduction in both exploration of novel concepts and detail in the submitted prompts. These results carry direct implications for the design of human interfaces to Generative AI and raise new questions regarding how the process of prompting should be aided in ways that best support creativity.
翻訳日:2024-02-21 04:21:23 公開日:2024-02-17
# 自己注意を超えたシーケンスレコメンデーションのための注意インダクティブバイアス

An Attentive Inductive Bias for Sequential Recommendation beyond the Self-Attention ( http://arxiv.org/abs/2312.10325v2 )

ライセンス: Link先を確認
Yehjin Shin, Jeongwhan Choi, Hyowon Wi, Noseong Park(参考訳) トランスフォーマーに基づく逐次レコメンデーション(SR)モデルは、目覚ましい成功を収めた。 コンピュータビジョンと自然言語処理のためのトランスフォーマーの自己着脱機構は、過度に滑らかな問題、すなわちトークンに類似した隠れた表現に苦しむ。 srドメインでは、私たちは初めて同じ問題が発生することを示します。 我々は,SRにおける自己注意の低パスフィルタの性質を明らかにする先駆的な研究を行い,過度なスムーシングを引き起こす。 そこで本稿では,フーリエ変換を利用した逐次$\textbf{rec}$ommendation (bsarec) のための$\textbf{b}$eyond $\textbf{s}$elf-$\textbf{a}$ttention という新しい手法を提案する。 一 微粒な連続パターンを考慮し、誘導バイアスを注入すること 二 過密を緩和するために低周波情報を統合すること。 我々の発見は、SRドメインの大幅な進歩を示し、既存のTransformerベースのSRモデルのギャップを埋めることが期待されている。 提案手法は,6つのベンチマークデータセットの広範な実験を通じて検証する。 実験の結果,提案モデルがレコメンデーション性能で7つのベースラインメソッドを上回った。 私たちのコードはhttps://github.com/yehjin-shin/bsarecで利用可能です。

Sequential recommendation (SR) models based on Transformers have achieved remarkable successes. The self-attention mechanism of Transformers for computer vision and natural language processing suffers from the oversmoothing problem, i.e., hidden representations becoming similar to tokens. In the SR domain, we, for the first time, show that the same problem occurs. We present pioneering investigations that reveal the low-pass filtering nature of self-attention in the SR, which causes oversmoothing. To this end, we propose a novel method called $\textbf{B}$eyond $\textbf{S}$elf-$\textbf{A}$ttention for Sequential $\textbf{Rec}$ommendation (BSARec), which leverages the Fourier transform to i) inject an inductive bias by considering fine-grained sequential patterns and ii) integrate low and high-frequency information to mitigate oversmoothing. Our discovery shows significant advancements in the SR domain and is expected to bridge the gap for existing Transformer-based SR models. We test our proposed approach through extensive experiments on 6 benchmark datasets. The experimental results demonstrate that our model outperforms 7 baseline methods in terms of recommendation performance. Our code is available at https://github.com/yehjin-shin/BSARec.
翻訳日:2024-02-21 04:10:30 公開日:2024-02-17
# tap4llm: 大言語モデル推論のための半構造化データのサンプリング、拡張、パッキングに関するテーブルプロバイダ

TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning ( http://arxiv.org/abs/2312.09039v2 )

ライセンス: Link先を確認
Yuan Sui, Jiaru Zou, Mengyu Zhou, Xinyi He, Lun Du, Shi Han, Dongmei Zhang(参考訳) 表に基づく推論は、深層モデルと離散的推論の組み合わせにおいて顕著な進歩を示しており、これは自由形式自然言語(NL)問題と半構造化表データの両方を推論する必要がある。 しかし、従来のテーブル推論ソリューションは、小さなテーブルのみを考慮し、より大きなテーブルを扱う際の制限を示す。 さらに、既存のほとんどの手法は、重要な情報がない、あるいは異なる場所に散らばっているため、複雑な問題を理解するのに苦労している。 これらの課題を解決するために,(1)テーブルサンプリング,(2)テーブル拡張,(3)テーブルパッキングを通じてテーブルプロンプトを生成するために,トークン割り当てトレードオフのバランスをとりながら,汎用的な事前処理ツールボックスとしてTAP4LLMを提案する。 各モジュールでは、様々なシナリオ(例えば、精度よりも速度)で使用するいくつかの一般的なメソッドを収集し、設計する。 また,TAP4LLM内の各コンポーネントの性能を総合的に評価し,各タスクにおけるLCMの推論能力の向上と,効率的な事前処理によるLCMと表データ間の相互作用の向上を示す。

Table-based reasoning has shown remarkable progress in combining deep models with discrete reasoning, which requires reasoning over both free-form natural language (NL) questions and semi-structured tabular data. However, previous table reasoning solutions only consider small-sized tables and exhibit limitations in handling larger tables. In addition, most existing methods struggle to reason over complex questions since they lack essential information or they are scattered in different places. To alleviate these challenges, we propose TAP4LLM as a versatile pre-processing toolbox to generate table prompts through (1) table sampling, (2) table augmentation, and (3) table packing while balancing the token allocation trade-off. In each module, we collect and design several common methods for usage in various scenarios (e.g., speed over accuracy). We also provide a comprehensive evaluation on performance of each components inside TAP4LLM and show that our method improves LLMs' reasoning capabilities in various tabular tasks and enhances the interaction between LLMs and tabular data by employing effective pre-processing.
翻訳日:2024-02-21 04:09:19 公開日:2024-02-17
# プレトレーニング動作モデルの改良

Refining Pre-Trained Motion Models ( http://arxiv.org/abs/2401.00850v2 )

ライセンス: Link先を確認
Xinglong Sun, Adam W. Harley, and Leonidas J. Guibas(参考訳) 動画中の動きを手動でアノテートすることの難しさから、現在の最良の動き推定法は合成データで訓練されるため、列車/テストのギャップのために多少の困難がある。 自己監督的手法は、実際のビデオで直接トレーニングするという約束を保っているが、通常より悪いパフォーマンスを示す。 これには、ワープ誤差(すなわち色コンステンシー)と滑らかさ項の組み合わせで訓練された方法と、見積もりのサイクル一貫性を促進する方法が含まれる(すなわち、後方追跡は、前方追跡として反対の軌道を生じさせる)。 本研究では,自己教師型トレーニングによる最先端の教師付きモデルの改善に挑戦する。 初期化を監督する重み付けを行うと、既存の自己超越技術のほとんどは、改善ではなくパフォーマンスを悪くするので、新しいデータを見る利点はトレーニング信号のノイズによって過度に隠されていることが示唆される。 実世界の映像からクリーンなトレーニング信号を得ることに着目し,ラベル作成とトレーニングを2つの異なる段階に分けることを提案する。 第1段階では,事前学習モデルを用いて映像中の動きを推定し,サイクル整合性で検証可能な動き推定のサブセットを選択する。 これにより、ビデオのスパースだが正確な擬似ラベリングが生成される。 第2段階では、これらの出力を再現するためにモデルを微調整し、入力に拡張を適用する。 このブートストラップ法を,擬似ラベルの強化と再バランスを行うシンプルな手法で補完し,単に「簡単」なトラックでトレーニングすることを保証する。 本手法は,実映像における全教師あり方式に対して,短期的(フローベース)と長期的(マルチフレーム)の画素追跡において,信頼性の高いゲインが得られることを示す。

Given the difficulty of manually annotating motion in video, the current best motion estimation methods are trained with synthetic data, and therefore struggle somewhat due to a train/test gap. Self-supervised methods hold the promise of training directly on real video, but typically perform worse. These include methods trained with warp error (i.e., color constancy) combined with smoothness terms, and methods that encourage cycle-consistency in the estimates (i.e., tracking backwards should yield the opposite trajectory as tracking forwards). In this work, we take on the challenge of improving state-of-the-art supervised models with self-supervised training. We find that when the initialization is supervised weights, most existing self-supervision techniques actually make performance worse instead of better, which suggests that the benefit of seeing the new data is overshadowed by the noise in the training signal. Focusing on obtaining a "clean" training signal from real-world unlabelled video, we propose to separate label-making and training into two distinct stages. In the first stage, we use the pre-trained model to estimate motion in a video, and then select the subset of motion estimates which we can verify with cycle-consistency. This produces a sparse but accurate pseudo-labelling of the video. In the second stage, we fine-tune the model to reproduce these outputs, while also applying augmentations on the input. We complement this boot-strapping method with simple techniques that densify and re-balance the pseudo-labels, ensuring that we do not merely train on "easy" tracks. We show that our method yields reliable gains over fully-supervised methods in real videos, for both short-term (flow-based) and long-range (multi-frame) pixel tracking.
翻訳日:2024-02-21 03:58:40 公開日:2024-02-17
# 多言語推論改善のための質問翻訳訓練

Question Translation Training for Better Multilingual Reasoning ( http://arxiv.org/abs/2401.07817v2 )

ライセンス: Link先を確認
Wenhao Zhu, Shujian Huang, Fei Yuan, Shuaijie She, Jiajun Chen, Alexandra Birch(参考訳) 大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。 トレーニングデータは、ほとんどが英語のテキストと指示で構成されているので、これは驚きではない。 典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。 このアプローチは高いコストを発生させるだけでなく、数学的連鎖の非標準フォーマットのため、低翻訳データをもたらす。 本稿では,x- englishparallel question dataの微調整によって推論質問を英語に翻訳するモデルをトレーニングする,質問アライメントの利点について検討する。 このようにして、英語の指示データを最大限活用してllmsの多言語推論能力を解き放つ、ターゲティングなドメイン内言語アライメントを行う。 LLaMA2-13Bの実験結果から、MGSMとMSVAMPの多言語推論ベンチマークで10言語で平均11.3%と16.1%の精度が向上した。 プロジェクトは、https://github.com/NJUNLP/QAlign.comから入手できる。

Large language models show compelling performance on reasoning tasks but they tend to perform much worse in languages other than English. This is unsurprising given that their training data largely consists of English text and instructions. A typical solution is to translate instruction data into all languages of interest, and then train on the resulting multilingual data, which is called translate-training. This approach not only incurs high cost, but also results in poorly translated data due to the non-standard formatting of mathematical chain-of-thought. In this paper, we explore the benefits of question alignment, where we train the model to translate reasoning questions into English by finetuning on X-English parallel question data. In this way we perform targeted, in-domain language alignment which makes best use of English instruction data to unlock the LLMs' multilingual reasoning abilities. Experimental results on LLaMA2-13B show that question alignment leads to consistent improvements over the translate-training approach: an average improvement of 11.3% and 16.1% accuracy across ten languages on the MGSM and MSVAMP multilingual reasoning benchmarks. The project will be available at: https://github.com/NJUNLP/QAlign.
翻訳日:2024-02-21 03:46:03 公開日:2024-02-17
# Pandora's Box of LLM: Representation Engineering による LLM のジェイルブレイク

Open the Pandora's Box of LLMs: Jailbreaking LLMs through Representation Engineering ( http://arxiv.org/abs/2401.06824v2 )

ライセンス: Link先を確認
Tianlong Li, Shihan Dou, Wenhao Liu, Muling Wu, Changze Lv, Xiaoqing Zheng, Xuanjing Huang(参考訳) 脱獄技術は、悪意のあるクエリに対する有害な応答を誘導することによって、大規模言語モデル(LLM)の安全性の境界を調査することを目的としている。 既存のジェイルブレイク方式は、主に迅速なエンジニアリングに依存しており、LSMの安全メカニズムを回避するために入力を変更するが、攻撃の成功率が低く、時間的オーバーヘッドもかなり高く、柔軟性に欠ける。 これらの制約を克服するために,JRE (Representation Engineering) による Jailbreaking LLMs という新しいジェイルブレイク手法を提案する。 本手法では,ターゲットモデルの防御を回避し,前例のないジェイルブレイク性能を達成するために使用できる<safety patterns'を抽出するために,少数のクエリペアのみを必要とする。 また,これらの知見に基づいて,JRE原則に着想を得た新しい防御フレームワークを導入する。 大規模な実験により、JRE攻撃の優れたパフォーマンスとJRE防御フレームワークの堅牢性が確認された。 本研究は,表現工学のレンズによるモデル安全性問題理解の進展に寄与することを期待している。

Jailbreaking techniques aim to probe the boundaries of safety in large language models (LLMs) by inducing them to generate toxic responses to malicious queries, a significant concern within the LLM community. While existing jailbreaking methods primarily rely on prompt engineering, altering inputs to evade LLM safety mechanisms, they suffer from low attack success rates and significant time overheads, rendering them inflexible. To overcome these limitations, we propose a novel jailbreaking approach, named Jailbreaking LLMs through Representation Engineering (JRE). Our method requires only a small number of query pairs to extract ``safety patterns'' that can be used to circumvent the target model's defenses, achieving unprecedented jailbreaking performance. Building upon these findings, we also introduce a novel defense framework inspired by JRE principles, which demonstrates notable effectiveness. Extensive experimentation confirms the superior performance of the JRE attacks and the robustness of the JRE defense framework. We hope this study contributes to advancing the understanding of model safety issues through the lens of representation engineering.
翻訳日:2024-02-21 03:44:02 公開日:2024-02-17
# Graph-of-Thought: 大規模言語モデルを使って複雑で動的なビジネス問題を解決する

Graph-of-Thought: Utilizing Large Language Models to Solve Complex and Dynamic Business Problems ( http://arxiv.org/abs/2401.06801v2 )

ライセンス: Link先を確認
Ye Li(参考訳) 本稿では,複雑なタスク実行における大規模言語モデル(LLM)の柔軟性と効率を向上させるワークフロー自動化の新しいモデルであるGraph-of-Thought(GoT)を提案する。 GoTは、動的なパス選択を可能にするグラフ構造を持つ従来の線形および木のような認知モデルを超えて進歩する。 オープンソースのエンジンであるGoTFlowは、GoTの実践的な応用を実証し、さまざまなドメインで自動でデータ駆動による意思決定を容易にする。 複雑さと透明性の課題にもかかわらず、GoTFlowのビジネスプロセス改善の可能性は重要であり、継続的開発による効率性と意思決定品質の両方の進歩が期待できる。

This paper presents Graph-of-Thought (GoT), a new model for workflow automation that enhances the flexibility and efficiency of Large Language Models (LLMs) in complex task execution. GoT advances beyond traditional linear and tree-like cognitive models with a graph structure that enables dynamic path selection. The open-source engine GoTFlow demonstrates the practical application of GoT, facilitating automated, data-driven decision-making across various domains. Despite challenges in complexity and transparency, GoTFlow's potential for improving business processes is significant, promising advancements in both efficiency and decision quality with continuous development.
翻訳日:2024-02-21 03:43:42 公開日:2024-02-17
# 生成コンテキストによるBlinded: オープンドメインQAのための生成コンテキストと検索コンテキストをマージする言語モデル

Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts for Open-Domain QA? ( http://arxiv.org/abs/2401.11911v3 )

ライセンス: Link先を確認
Hexiang Tan, Fei Sun, Wanli Yang, Yuanzhuo Wang, Qi Cao, Xueqi Cheng(参考訳) 補助情報は、LLM(Large Language Models)の拡張の鍵となっているが、LLMがこれらのコンテキストをどのように統合するかについては、特にLLMが生成したコンテキストと外部ソースから取得したコンテキストについてはあまり知られていない。 そこで本研究では,LLMの応答が生成コンテキストと検索コンテキストの統合から導かれるのかを,生成コンテキストと検索コンテキストのいずれかに関連付けられているのかを判定する枠組みを定式化する。 応答の起源を容易に追跡するために,各質問は生成したコンテキストと検索したコンテキストの両方にペアリングされるが,その中の1つだけが正解である。 実験の結果,複数のLDM (GPT-4/3.5, Llama2) において, 誤った情報を提供する場合でも, 生成コンテキストを優先する有意なバイアスが認められた。 さらに、このバイアスに寄与する2つの重要な要因を特定します。 i) LLMが生成する文脈は,通常,質問とより類似し,選択される可能性を高める。 二 検索した文脈におけるセグメンテーションのプロセスは、その完全性を損なうため、LLMの完全利用を阻害する。 我々の分析は、LLMが様々な文脈を融合する方法の理解を深め、LLMの現在の拡張方法を進める上で貴重な洞察を提供する。

While auxiliary information has become a key to enhancing Large Language Models (LLMs), relatively little is known about how LLMs merge these contexts, specifically contexts generated by LLMs and those retrieved from external sources. To investigate this, we formulate a systematic framework to identify whether LLMs' responses, derived from the integration of generated and retrieved contexts, are attributed to either generated or retrieved contexts. To easily trace the origin of the response, we construct datasets with conflicting contexts, i.e., each question is paired with both generated and retrieved contexts, yet only one of them contains the correct answer. Our experiments reveal a significant bias in several LLMs (GPT-4/3.5 and Llama2) to favor generated contexts, even when they provide incorrect information. We further identify two key factors contributing to this bias: i) contexts generated by LLMs typically show greater similarity to the questions, increasing their likelihood of being selected; ii) the segmentation process used in retrieved contexts disrupts their completeness, thereby hindering their full utilization in LLMs. Our analysis enhances the understanding of how LLMs merge diverse contexts, offering valuable insights for advancing current augmentation methods for LLMs.
翻訳日:2024-02-21 03:33:56 公開日:2024-02-17
# 言語固有のFact-Checkingモデルが必要か? 中国語の事例

Do We Need Language-Specific Fact-Checking Models? The Case of Chinese ( http://arxiv.org/abs/2401.15498v2 )

ライセンス: Link先を確認
Caiqi Zhang, Zhijiang Guo, Andreas Vlachos(参考訳) 本稿では,中国語の事例に着目し,言語固有のファクトチェックモデルの潜在的メリットについて検討する。 まず,翻訳ベースの手法と多言語大言語モデル(gpt-4など)の限界を示し,言語固有のシステムの必要性を強調する。 また、文脈情報を組み込んで文書から証拠をよりよく検索できる中国のファクトチェックシステムを提案する。 異なるシステムにおけるトークンレベルのバイアスをよりよく解析するため、CHEFデータセットに基づいて逆のデータセットを構築し、各インスタンスは元のものと大きな単語重なりを持つが、逆の精度ラベルを持っている。 CHEFデータセットと逆数データセットによる実験結果から,提案手法は翻訳に基づく手法や多言語LPMよりも優れ,バイアスに対して頑健であり,まだ改善の余地が広く,言語固有の事実チェックシステムの重要性を強調している。

This paper investigates the potential benefits of language-specific fact-checking models, focusing on the case of Chinese. We first demonstrate the limitations of translation-based methods and multilingual large language models (e.g., GPT-4), highlighting the need for language-specific systems. We further propose a Chinese fact-checking system that can better retrieve evidence from a document by incorporating context information. To better analyze token-level biases in different systems, we construct an adversarial dataset based on the CHEF dataset, where each instance has large word overlap with the original one but holds the opposite veracity label. Experimental results on the CHEF dataset and our adversarial dataset show that our proposed method outperforms translation-based methods and multilingual LLMs and is more robust toward biases, while there is still large room for improvement, emphasizing the importance of language-specific fact-checking systems.
翻訳日:2024-02-21 03:20:17 公開日:2024-02-17
# MM-LLM:マルチモーダル大言語モデルの最近の進歩

MM-LLMs: Recent Advances in MultiModal Large Language Models ( http://arxiv.org/abs/2401.13601v3 )

ライセンス: Link先を確認
Duzhen Zhang, Yahan Yu, Chenxing Li, Jiahua Dong, Dan Su, Chenhui Chu, Dong Yu(参考訳) 過去1年間で、MM-LLM(MultiModal Large Language Models)は大幅に進歩し、MM入力やアウトプットをコスト効率のよいトレーニング戦略を通じてサポートするために、既製のLLMを拡張した。 結果として得られたモデルは、LLMの固有の推論と意思決定能力を保持するだけでなく、多様なMMタスクも強化する。 本稿では,MM-LLMのさらなる研究を促進するための総合的な調査を行う。 まず、モデルアーキテクチャとトレーニングパイプラインの一般設計について概説する。 次に, MM-LLMを122ドル(約1万2000円)で提供する分類法を紹介した。 さらに,主要なベンチマークで選択したMM-LLMの性能を概観し,MM-LLMの有効性を高めるための重要なトレーニングレシピを要約する。 最後に,MM-LLMの今後の方向性を検討するとともに,現場の最新開発のためのリアルタイム追跡Webサイトを同時に維持する。 この調査がMM-LLMsドメインの継続的な進歩に寄与することを願っている。

In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Initially, we outline general design formulations for model architecture and training pipeline. Subsequently, we introduce a taxonomy encompassing $122$ MM-LLMs, each characterized by its specific formulations. Furthermore, we review the performance of selected MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Finally, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.
翻訳日:2024-02-21 03:18:49 公開日:2024-02-17
# unfollowing misinformation spreader のダイナミクス

The Dynamics of (Not) Unfollowing Misinformation Spreaders ( http://arxiv.org/abs/2401.13480v2 )

ライセンス: Link先を確認
Joshua Ashkinaze, Eric Gilbert, Ceren Budak(参考訳) 多くの研究は、人々がどのように誤情報にさらされるかを調査している。 しかし、人々がどのようにして誤情報にさらされるかについては、あまり知られていない。 人々は誤報拡散器と有機的に結びつくか? そして、何を予測しているのか? 6ヶ月以上にわたって、twitterの健康情報拡散者約5万人をフォローしていない9万人のフォロワーの頻度と予測を追跡した。 私たちは誤情報のつながりが永続的であることを発見した。 月間降格率は0.52%である。 言い換えると、誤情報の99.5%は毎月続いている。 また、誤情報スプレッダーをアンフォローするよりも、非誤情報スプレッダーをアンフォローする可能性が31%高い。 一般的には頻度は低いが, 偽情報の拡散に最も関与する要因は(1)冗長性と(2)イデオロギーである。 まず最初に、ユーザーはまず多くのスプレッドシートをフォローするか、あるいは頻繁にツイートするスプレッドシートをフォローしている。 第二に、リベラル派は保守派よりも控え目な傾向にある。 全体として、誤情報関係の強い持続性を観察する。 ユーザが誤情報スプレッダーをアンフォローすることは、外部の悪用の必要性と、そもそも露出が起こらないことの重要性を示唆している。

Many studies explore how people 'come into' misinformation exposure. But much less is known about how people 'come out of' misinformation exposure. Do people organically sever ties to misinformation spreaders? And what predicts doing so? Over six months, we tracked the frequency and predictors of ~900K followers unfollowing ~5K health misinformation spreaders on Twitter. We found that misinformation ties are persistent. Monthly unfollowing rates are just 0.52%. In other words, 99.5% of misinformation ties persist each month. Users are also 31% more likely to unfollow non-misinformation spreaders than they are to unfollow misinformation spreaders. Although generally infrequent, the factors most associated with unfollowing misinformation spreaders are (1) redundancy and (2) ideology. First, users initially following many spreaders, or who follow spreaders that tweet often, are most likely to unfollow later. Second, liberals are more likely to unfollow than conservatives. Overall, we observe a strong persistence of misinformation ties. The fact that users rarely unfollow misinformation spreaders suggests a need for external nudges and the importance of preventing exposure from arising in the first place.
翻訳日:2024-02-21 03:18:11 公開日:2024-02-17
# 可積分量子回路における強零モード

Strong zero modes in integrable quantum circuits ( http://arxiv.org/abs/2401.12305v2 )

ライセンス: Link先を確認
Eric Vernier, Hsiu-Chung Yeh, Lorenzo Piroli, Aditi Mitra(参考訳) ある種の相互作用可能なスピンチェーンが強零モード(szms)として知られる強固なエッジモードを持つという古典的な結果である。 本研究では、この結果を局所量子回路のフロケ設定に拡張し、XXZハイゼンベルクスピン鎖の進化のための可積分トロッタライゼーションを提供する原型モデルに焦点を当てる。 積分可能性の代数的構造を利用して、パラメータ空間の特定の領域における積分可能量子回路に対して正確なSZM演算子を構築することができることを示す。 連続時間極限においてポール・フェンドリーがよく知られた結果を回復する我々の構成は、可積分性から知られている可換移動行列の集合に依存し、正規化可視性を含むSZMの重要な性質を容易に証明することができる。 我々のアプローチは以前の方法と異なり、ハミルトニアンの設定においても独立した関心を持つことができる。 我々の予測は、無限温度自己相関関数の数値シミュレーションによって裏付けられ、利用可能な量子プラットフォーム上のxxz量子回路の実装に潜在的に興味深い。

It is a classic result that certain interacting integrable spin chains host robust edge modes known as strong zero modes (SZMs). In this work, we extend this result to the Floquet setting of local quantum circuits, focusing on a prototypical model providing an integrable Trotterization for the evolution of the XXZ Heisenberg spin chain. By exploiting the algebraic structures of integrability, we show that an exact SZM operator can be constructed for these integrable quantum circuits in certain regions of parameter space. Our construction, which recovers a well-known result by Paul Fendley in the continuous-time limit, relies on a set of commuting transfer matrices known from integrability, and allows us to easily prove important properties of the SZM, including normalizabilty. Our approach is different from previous methods and could be of independent interest even in the Hamiltonian setting. Our predictions, which are corroborated by numerical simulations of infinite-temperature autocorrelation functions, are potentially interesting for implementations of the XXZ quantum circuit on available quantum platforms.
翻訳日:2024-02-21 03:17:53 公開日:2024-02-17
# 機械翻訳のためのllmsにおける文脈内学習の実証的研究

An Empirical Study of In-context Learning in LLMs for Machine Translation ( http://arxiv.org/abs/2401.12097v2 )

ライセンス: Link先を確認
Pranjal A. Chitale, Jay Gala, Raj Dabre(参考訳) 近年,機械翻訳(MT)にLarge Language Models(LLMs)を採用することへの関心が高まっている(Vilar et al., 2023)。 ほとんどの先行研究は翻訳品質の最適化に重点を置いており、その品質に影響を与えるiclの特定の側面の理解に限定している。 この目的を達成するために,機械翻訳における文脈内学習について,最初の徹底的な研究を行う。 まず、ICLは主に例駆動であり、命令駆動ではないことを確認します。 続いて,ダウンストリームパフォーマンスへの影響を理解するために,サンプルのさまざまな側面を広範囲に調査する。 分析には, 実演の質や量, 空間的近接性, ソース対ターゲットの独創性などが含まれる。 さらに, iclの限界を理解するために, 間接性や誤用を含む難解なシナリオについても検討した。 実演のソース分布よりも目標分布の質を重要視する一方で、摂動が時として正則化器として機能し、性能改善をもたらすことを観察する。 驚いたことに、ICLは同じタスクからサンプルを必要とせず、同じターゲット分布を持つ関連するタスクは十分である。 我々は,本研究がmtにおけるicl活用の指針となることを願っている。

Recent interest has surged in employing Large Language Models (LLMs) for machine translation (MT) via in-context learning (ICL) (Vilar et al., 2023). Most prior studies primarily focus on optimizing translation quality, with limited attention to understanding the specific aspects of ICL that influence the said quality. To this end, we perform the first of its kind, exhaustive study of in-context learning for machine translation. We first establish that ICL is primarily example-driven and not instruction-driven. Following this, we conduct an extensive exploration of various aspects of the examples to understand their influence on downstream performance. Our analysis includes factors such as quality and quantity of demonstrations, spatial proximity, and source versus target originality. Further, we also investigate challenging scenarios involving indirectness and misalignment of examples to understand the limits of ICL. While we establish the significance of the quality of the target distribution over the source distribution of demonstrations, we further observe that perturbations sometimes act as regularizers, resulting in performance improvements. Surprisingly, ICL does not necessitate examples from the same task, and a related task with the same target distribution proves sufficient. We hope that our study acts as a guiding resource for considerations in utilizing ICL for MT.
翻訳日:2024-02-21 03:17:33 公開日:2024-02-17
# 新規大規模言語モデルに基づく医薬品安全のための臨床判断支援システムの開発と試験

Development and Testing of a Novel Large Language Model-Based Clinical Decision Support Systems for Medication Safety in 12 Clinical Specialties ( http://arxiv.org/abs/2402.01741v2 )

ライセンス: Link先を確認
Jasmine Chiat Ling Ong, Liyuan Jin, Kabilan Elangovan, Gilbert Yong San Lim, Daniel Yan Zheng Lim, Gerald Gui Ren Sng, Yuhe Ke, Joshua Yi Min Tung, Ryan Jian Zhong, Christopher Ming Yao Koh, Keane Zhi Hao Lee, Xiang Chen, Jack Kian Chng, Aung Than, Ken Junyang Goh, Daniel Shu Wei Ting(参考訳) 重要性: 安全な医薬品処方をサポートするために, 臨床決定支援システム (CDSS) として, 新規な検索言語モデル (LLM) フレームワークを導入する。 目的: LLMをベースとしたCDSSの有効性を評価するため, 臨床・外科領域の多種多様な患者用ヴィグネットの薬物的誤りを, 人手による根本真理の導出に対して正しく同定する。 LLMをベースとしたCDSS単独(完全自律型)とジュニア薬剤師+LCMをベースとしたCDSS(コパイロット,補助型)を比較した。 デザイン, 設定, 参加者: 最先端の医療関連LSM (GPT-4, Gemini Pro 1.0, Med-PaLM 2) を用いたRAGモデルを用いて, 12種類の医療・外科専門分野の23の複合臨床用ヴィグネットに61のシナリオを組み込んだ。 PCNE分類による薬物関連問題 (DRPs) と, NCC MERP の薬剤エラー指標を用いた重症度/潜在的な評価を行った。 比較した。 RAG-LLM は LLM 単独よりも優れていた。 コパイロットモードを採用すると、精度、リコール、F1スコアが最適化され、中等度から重度のDRPを識別する効果が示された。 RAG-LLMによるDRP検出の精度はいくつかのカテゴリーで向上したが、精度は低下した。 結論】RAG-LLMをベースとしたCDSSは中等薬理士(co-pilot)と併用した場合の薬物誤認の精度を著しく向上させ,重度のDRPの検出において顕著な改善が認められた。 また, RAGを用いたCDSSシステムにおいて, 現状LLMの性能比較を行った。

Importance: We introduce a novel Retrieval Augmented Generation (RAG)-Large Language Model (LLM) framework as a Clinical Decision Support Systems (CDSS) to support safe medication prescription. Objective: To evaluate the efficacy of LLM-based CDSS in correctly identifying medication errors in different patient case vignettes from diverse medical and surgical sub-disciplines, against a human expert panel derived ground truth. We compared performance for under 2 different CDSS practical healthcare integration modalities: LLM-based CDSS alone (fully autonomous mode) vs junior pharmacist + LLM-based CDSS (co-pilot, assistive mode). Design, Setting, and Participants: Utilizing a RAG model with state-of-the-art medically-related LLMs (GPT-4, Gemini Pro 1.0 and Med-PaLM 2), this study used 61 prescribing error scenarios embedded into 23 complex clinical vignettes across 12 different medical and surgical specialties. A multidisciplinary expert panel assessed these cases for Drug-Related Problems (DRPs) using the PCNE classification and graded severity / potential for harm using revised NCC MERP medication error index. We compared. Results RAG-LLM performed better compared to LLM alone. When employed in a co-pilot mode, accuracy, recall, and F1 scores were optimized, indicating effectiveness in identifying moderate to severe DRPs. The accuracy of DRP detection with RAG-LLM improved in several categories but at the expense of lower precision. Conclusions This study established that a RAG-LLM based CDSS significantly boosts the accuracy of medication error identification when used alongside junior pharmacists (co-pilot), with notable improvements in detecting severe DRPs. This study also illuminates the comparative performance of current state-of-the-art LLMs in RAG-based CDSS systems.
翻訳日:2024-02-21 03:09:16 公開日:2024-02-17
# 放射線科専門医の専門知識を活かしてLLMの評価を高める

Leveraging Professional Radiologists' Expertise to Enhance LLMs' Evaluation for Radiology Reports ( http://arxiv.org/abs/2401.16578v3 )

ライセンス: Link先を確認
Qingqing Zhu, Xiuying Chen, Qiao Jin, Benjamin Hou, Tejas Sudharshan Mathai, Pritam Mukherjee, Xin Gao, Ronald M Summers, Zhiyong Lu(参考訳) 放射線学では、人工知能(AI)はレポート生成を大幅に進歩させたが、これらのAIによって生成されたレポートの自動評価は依然として困難である。 従来の自然言語生成(NLG)や臨床効力感(CE)といった現在の指標は、臨床コンテキストの意味的な複雑さを捉えたり、臨床の詳細を過度に強調したり、報告の明確さを損なうことがしばしばある。 これらの問題を解決するため,提案手法は,GPT-3.5 や GPT-4 1 のような大規模言語モデル (LLM) の専門医の専門知識を相乗化したものである。 In-Context Instruction Learning (ICIL) とChain of Thought (CoT) の推論を活用することで,LLMの評価を放射線学の標準と整合させ,人間とAIが生成したレポートの詳細な比較を可能にする。 これは、文評価スコアを集約する回帰モデルによってさらに強化される。 実験結果から、我々の「詳細 GPT-4 (5-shot) モデル」は、METEOR を 0.19 で上回り、METEOR を 0.48 で上回り、我々の「回帰 GPT-4 モデル」は専門家による評価とさらに整合性を示し、既存の指標を 0.35 で上回る結果となった。 さらに, 説明の堅牢性は, 徹底的な反復戦略によって検証されている。 我々は,放射線学の専門家からアノテーションを公開し,今後の評価における精度の基準を策定する。 このことは、AI駆動型医療報告の品質評価を強化するアプローチの可能性を示している。

In radiology, Artificial Intelligence (AI) has significantly advanced report generation, but automatic evaluation of these AI-produced reports remains challenging. Current metrics, such as Conventional Natural Language Generation (NLG) and Clinical Efficacy (CE), often fall short in capturing the semantic intricacies of clinical contexts or overemphasize clinical details, undermining report clarity. To overcome these issues, our proposed method synergizes the expertise of professional radiologists with Large Language Models (LLMs), like GPT-3.5 and GPT-4 1. Utilizing In-Context Instruction Learning (ICIL) and Chain of Thought (CoT) reasoning, our approach aligns LLM evaluations with radiologist standards, enabling detailed comparisons between human and AI generated reports. This is further enhanced by a Regression model that aggregates sentence evaluation scores. Experimental results show that our "Detailed GPT-4 (5-shot)" model achieves a 0.48 score, outperforming the METEOR metric by 0.19, while our "Regressed GPT-4" model shows even greater alignment with expert evaluations, exceeding the best existing metric by a 0.35 margin. Moreover, the robustness of our explanations has been validated through a thorough iterative strategy. We plan to publicly release annotations from radiology experts, setting a new standard for accuracy in future assessments. This underscores the potential of our approach in enhancing the quality assessment of AI-driven medical reports.
翻訳日:2024-02-21 03:06:29 公開日:2024-02-17
# A.I. ありとあらゆる場所において

A.I. In All The Wrong Places ( http://arxiv.org/abs/2401.16268v4 )

ライセンス: Link先を確認
Marc B\"ohlen, Ruolin Chen, Xiaoxu Dong, Srikar Gopaladinne, Hemanth Gorla, Divya Kandukuri, Sean Mansfield(参考訳) このテキストは、2世代の生成型人工知能(a.i.)システムが学際的、大学レベルのa.i.のアートとデザインの実践コースに組み込まれた2年間のテスト期間を通じて得られた経験を記述している。 このテキストは、コースの結果を使って、トラップと限界を考慮しながら、アートとデザインにおける生成システムの新たな機会を反映している。

This text describes experiences gained across a two-year test period during which two generations of Generative Artificial Intelligence (A.I.) systems were incorporated into an interdisciplinary, university level course on A.I. for art and design practices. The text uses the results from the courses to reflect on new opportunities for generative systems in art and design, while considering traps and limits.
翻訳日:2024-02-21 03:05:10 公開日:2024-02-17
# MoE-LLaVA:大型ビジョンランゲージモデルの専門家の混在

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models ( http://arxiv.org/abs/2401.15947v3 )

ライセンス: Link先を確認
Bin Lin, Zhenyu Tang, Yang Ye, Jiaxi Cui, Bin Zhu, Peng Jin, Jinfa Huang, Junwu Zhang, Munan Ning, Li Yuan(参考訳) 最近の進歩は、LVLM(Large Vision-Language Models)のスケールが、下流タスクのパフォーマンスを効果的に改善することを示している。 しかし、既存のスケーリング手法により、計算の各トークンに対してすべてのモデルパラメータがアクティブになり、大量のトレーニングとコストの推測が可能になる。 本研究では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。 この戦略は、マルチモーダルスパルシティ学習における性能低下の一般的な問題に革新的に対処し、不規則なパラメータを持つが一定の計算コストを持つスパースモデルを構築した。 さらに,MoEをベースとしたスパースLVLMアーキテクチャであるMoE-LLaVAについて述べる。 広範囲にわたる実験は、様々な視覚的理解と物体幻覚ベンチマークにおけるMoE-LLaVAの顕著な性能を示している。 注目すべきは、約3Bのわずかに活性化されたパラメータだけで、MoE-LLaVAは様々な視覚的理解データセット上でLLaVA-1.5-7Bに匹敵する性能を示し、オブジェクト幻覚ベンチマークではLLaVA-1.5-13Bを超えていることだ。 MoE-LLaVAを通じて、スパースLVLMのベースラインを確立し、より効率的で効果的なマルチモーダル学習システムの開発において、今後の研究に有用な洞察を提供する。 コードはhttps://github.com/PKU-YuanGroup/MoE-LLaVAで公開されている。

Recent advances demonstrate that scaling Large Vision-Language Models (LVLMs) effectively improves downstream task performances. However, existing scaling methods enable all model parameters to be active for each token in the calculation, which brings massive training and inferring costs. In this work, we propose a simple yet effective training strategy MoE-Tuning for LVLMs. This strategy innovatively addresses the common issue of performance degradation in multi-modal sparsity learning, consequently constructing a sparse model with an outrageous number of parameters but a constant computational cost. Furthermore, we present the MoE-LLaVA, a MoE-based sparse LVLM architecture, which uniquely activates only the top-k experts through routers during deployment, keeping the remaining experts inactive. Extensive experiments show the significant performance of MoE-LLaVA in a variety of visual understanding and object hallucination benchmarks. Remarkably, with only approximately 3B sparsely activated parameters, MoE-LLaVA demonstrates performance comparable to the LLaVA-1.5-7B on various visual understanding datasets and even surpasses the LLaVA-1.5-13B in object hallucination benchmark. Through MoE-LLaVA, we aim to establish a baseline for sparse LVLMs and provide valuable insights for future research in developing more efficient and effective multi-modal learning systems. Code is released at https://github.com/PKU-YuanGroup/MoE-LLaVA.
翻訳日:2024-02-21 03:05:02 公開日:2024-02-17
# TopoX: トポロジカルドメインでの機械学習のためのPythonパッケージスイート

TopoX: A Suite of Python Packages for Machine Learning on Topological Domains ( http://arxiv.org/abs/2402.02441v4 )

ライセンス: Link先を確認
Mustafa Hajij, Mathilde Papillon, Florian Frantzen, Jens Agerberg, Ibrahem AlJabea, Ruben Ballester, Claudio Battiloro, Guillermo Bern\'ardez, Tolga Birdal, Aiden Brent, Peter Chin, Sergio Escalera, Simone Fiorellino, Odin Hoff Gardaa, Gurusankar Gopalakrishnan, Devendra Govil, Josef Hoppe, Maneel Reddy Karri, Jude Khouja, Manuel Lecha, Neal Livesay, Jan Mei{\ss}ner, Soham Mukherjee, Alexander Nikitin, Theodore Papamarkou, Jaro Pr\'ilepok, Karthikeyan Natesan Ramamurthy, Paul Rosen, Aldo Guzm\'an-S\'aenz, Alessandro Salatiello, Shreyas N. Samaga, Simone Scardapane, Michael T. Schaub, Luca Scofano, Indro Spinelli, Lev Telyatnikov, Quang Truong, Robin Walters, Maosheng Yang, Olga Zaghen, Ghada Zamzmi, Ali Zia, Nina Miolane(参考訳) TopoXは,グラフを拡張するトポロジ的ドメイン(ハイパーグラフ,単純化,セル,パス,コンビネータ)上で,信頼性が高くユーザフレンドリなビルディングブロックを提供するPythonソフトウェアスイートである。 TopoNetXは、ノード、エッジ、高階セルなど、これらのドメインの構築と計算を容易にするTopoEmbedX、ノード2vecのような一般的なグラフベースの埋め込みアルゴリズムに似た、トポロジカルドメインをベクトル空間に埋め込む方法を提供するTopoEmbedX、PyTorch上に構築され、トポロジカルドメイン上のニューラルネットワークのための高階メッセージパッシング関数の包括的なツールボックスを提供する。 TopoXの広範囲にドキュメント化され、ユニットテストされたソースコードは、MITライセンスでhttps://pyt-team.github.io/で入手できる。

We introduce TopoX, a Python software suite that provides reliable and user-friendly building blocks for computing and machine learning on topological domains that extend graphs: hypergraphs, simplicial, cellular, path and combinatorial complexes. TopoX consists of three packages: TopoNetX facilitates constructing and computing on these domains, including working with nodes, edges and higher-order cells; TopoEmbedX provides methods to embed topological domains into vector spaces, akin to popular graph-based embedding algorithms such as node2vec; TopoModelx is built on top of PyTorch and offers a comprehensive toolbox of higher-order message passing functions for neural networks on topological domains. The extensively documented and unit-tested source code of TopoX is available under MIT license at https://pyt-team.github.io/.
翻訳日:2024-02-21 02:54:46 公開日:2024-02-17
# 抽象化最適化によるSlate Bandit Policiesのオフライン評価

Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction ( http://arxiv.org/abs/2402.02171v2 )

ライセンス: Link先を確認
Haruka Kiyohara, Masahiro Nomura, Yuta Saito(参考訳) 政策がスレートとして知られる多次元行動を選択する場合のスレート・コンテクスト・バンドイット問題におけるオフ・ポリティィ・アセスメント(OPE)について検討する。 この問題は、リコメンデータシステム、検索エンジン、マーケティング、医療アプリケーションに広まっているが、典型的な逆不均衡スコアリング(IPS)推定器は、大きなアクション空間のためにかなりのばらつきに悩まされており、有効なOPEが大きな課題となっている。 Pseudo Inverse (PI) 推定器は、報酬関数の線形性を仮定することで分散問題を緩和するために導入されているが、この仮定は観測データから検証が困難であり、しばしば実質的に違反されるため、かなりのバイアスをもたらす。 従来の推定器の限界に対処するため,Latent IPS (LIPS) と呼ばれる,低次元スレート抽象空間における重要重みを定義し,データ駆動方式でLPPSのバイアスと分散を最小化するためにスレート抽象化を最適化する新しい推定器を開発した。 これにより、LIPSは線形性のような報酬関数構造に制限的な仮定を課すことなくIPSの分散を大幅に低減することができる。 経験的評価により、LIPSは既存の推定器、特に非線形報酬や大きなスレート空間のシナリオにおいて、かなり優れることを示した。

We study off-policy evaluation (OPE) in the problem of slate contextual bandits where a policy selects multi-dimensional actions known as slates. This problem is widespread in recommender systems, search engines, marketing, to medical applications, however, the typical Inverse Propensity Scoring (IPS) estimator suffers from substantial variance due to large action spaces, making effective OPE a significant challenge. The PseudoInverse (PI) estimator has been introduced to mitigate the variance issue by assuming linearity in the reward function, but this can result in significant bias as this assumption is hard-to-verify from observed data and is often substantially violated. To address the limitations of previous estimators, we develop a novel estimator for OPE of slate bandits, called Latent IPS (LIPS), which defines importance weights in a low-dimensional slate abstraction space where we optimize slate abstractions to minimize the bias and variance of LIPS in a data-driven way. By doing so, LIPS can substantially reduce the variance of IPS without imposing restrictive assumptions on the reward function structure like linearity. Through empirical evaluation, we demonstrate that LIPS substantially outperforms existing estimators, particularly in scenarios with non-linear rewards and large slate spaces.
翻訳日:2024-02-21 02:54:05 公開日:2024-02-17
# LLaGA: 大規模言語とグラフアシスタント

LLaGA: Large Language and Graph Assistant ( http://arxiv.org/abs/2402.08170v2 )

ライセンス: Link先を確認
Runjin Chen, Tong Zhao, Ajay Jaiswal, Neil Shah, Zhangyang Wang(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データ分析の進歩を促進する。 近年、GPT-4のような大規模言語モデル(LLM)の台頭は、ディープラーニングの新しい時代を告げている。 しかし、グラフデータへの彼らの応用は、グラフ構造を言語に翻訳することが本質的に困難であるため、異なる課題をもたらす。 この目的のために,Large Language and Graph Assistant (LLaGA)を導入し,LLM機能を効果的に統合し,グラフ構造化データの複雑さを処理する。 LLaGA は LLM の汎用性を維持しながら、グラフデータを LLM 入力と互換性のあるフォーマットに適合させる。 LLaGAはグラフノードを構造認識シーケンスに再編成し、それを多目的プロジェクタを通じてトークン埋め込み空間にマッピングすることでこれを実現している。 LLaGAは汎用性、一般化性、解釈性に優れており、異なるデータセットやタスク間で一貫して機能し、データセットやタスクを表示できないように拡張し、グラフの説明を提供する。 LLaGAは4つのデータセットと3つのタスクを1つのモデルで比較し、教師付きおよびゼロショットのシナリオで最先端のグラフモデルを上回っていることを示す。 私たちのコードは \url{https://github.com/VITA-Group/LLaGA} で利用可能です。

Graph Neural Networks (GNNs) have empowered the advance in graph-structured data analysis. Recently, the rise of Large Language Models (LLMs) like GPT-4 has heralded a new era in deep learning. However, their application to graph data poses distinct challenges due to the inherent difficulty of translating graph structures to language. To this end, we introduce the Large Language and Graph Assistant (LLaGA), an innovative model that effectively integrates LLM capabilities to handle the complexities of graph-structured data. LLaGA retains the general-purpose nature of LLMs while adapting graph data into a format compatible with LLM input. LLaGA achieves this by reorganizing graph nodes to structure-aware sequences and then mapping these into the token embedding space through a versatile projector. LLaGA excels in versatility, generalizability and interpretability, allowing it to perform consistently well across different datasets and tasks, extend its ability to unseen datasets or tasks, and provide explanations for graphs. Our extensive experiments across popular graph benchmarks show that LLaGA delivers outstanding performance across four datasets and three tasks using one single model, surpassing state-of-the-art graph models in both supervised and zero-shot scenarios. Our code is available at \url{https://github.com/VITA-Group/LLaGA}.
翻訳日:2024-02-21 01:08:27 公開日:2024-02-17
# キーバリュー制約付き生成言語モデル推論におけるエビテーションポリシーの有効性について

On the Efficacy of Eviction Policy for Key-Value Constrained Generative Language Model Inference ( http://arxiv.org/abs/2402.06262v2 )

ライセンス: Link先を確認
Siyu Ren, Kenny Q. Zhu(参考訳) 近年のLLM(Large Language Models)の成功にもかかわらず、過剰なメモリと計算要求のため、リソース制約のある環境でのデプロイには特に費用がかかる。 モデルパラメータに加えて、キー値キャッシュもGPUメモリに格納され、バッチサイズとシーケンス長とともに線形に成長する。 対策として、近年の研究では、所定の予算の下でキーバリューキャッシュのオーバーヘッドを維持するための様々な制限ポリシーが提案されている。 本稿では,重要スコア計算と推定範囲構築の観点から,既存の消去政策の有効性について述べる。 これら2つの側面における事前ポリシーの欠如を認識し、時間的注意点とロバストネス尺度に基づく堅牢なキャッシュ省略ポリシーであるRoCoを導入する。 予備充填と自己回帰復号段階にまたがる大規模な実験は、RoCoの優位性を検証する。 最後に、ユーザフレンドリーなキー値制約付き生成推論専用の汎用ソフトウェアパッケージであるEasyKVをリリースする。 コードはhttps://github.com/drsy/easykv。

Despite the recent success associated with Large Language Models (LLMs), they are notably cost-prohibitive to deploy in resource-constrained environments due to their excessive memory and computational demands. In addition to model parameters, the key-value cache is also stored in GPU memory, growing linearly with batch size and sequence length. As a remedy, recent works have proposed various eviction policies for maintaining the overhead of key-value cache under a given budget. This paper embarks on the efficacy of existing eviction policies in terms of importance score calculation and eviction scope construction. We identify the deficiency of prior policies in these two aspects and introduce RoCo, a robust cache omission policy based on temporal attention scores and robustness measures. Extensive experimentation spanning prefilling and auto-regressive decoding stages validates the superiority of RoCo. Finally, we release EasyKV, a versatile software package dedicated to user-friendly key-value constrained generative inference. Code available at https://github.com/DRSY/EasyKV.
翻訳日:2024-02-21 01:06:09 公開日:2024-02-17
# オンデバイスモデルのホワイトボックス攻撃の調査

Investigating White-Box Attacks for On-Device Models ( http://arxiv.org/abs/2402.05493v2 )

ライセンス: Link先を確認
Mingyi Zhou, Xiang Gao, Jing Wu, Kui Liu, Hailong Sun, Li Li(参考訳) 多くのモバイルアプリがディープラーニング機能を活用している。 しかし、オンデバイスモデルは、対応するモバイルアプリから簡単に抽出できるため、攻撃に対して脆弱である。 既存のデバイス上の攻撃アプローチではブラックボックス攻撃しか発生せず、ホワイトボックス戦略よりも効率的で効率的である。 これは、TFLiteのようなモバイルディープラーニングフレームワークが、ホワイトボックス攻撃アルゴリズムに必要な勾配コンピューティングをサポートしていないためである。 そこで本研究では,デバイス上での攻撃の危険性を過小評価している。 デバイス上のモデルは、ホワイトボックス戦略によって直接攻撃できるだろうか? まず,オンデバイスモデルからデバッグ可能なバージョンへの変換の難しさを体系的に解析し,コンパイルされたオンデバイスtfliteモデルをデバッグ可能なモデルに自動変換するオンデバイスモデル(reom)のためのリバースエンジニアリングフレームワークを提案する。 具体的には、reomはまずコンパイルされたオンデバイスモデルからopen neural network exchangeフォーマットに変換し、次に削除できない部分を削除してデバッグ可能なdlモデルフォーマットに変換し、攻撃者がホワイトボックス設定を悪用できるようにする。 実験の結果,提案手法は244TFLiteモデル間の自動変換を実現するのに有効であることがわかった。 代理モデルを使った以前の攻撃と比較すると、REOMは攻撃者の攻撃成功率を100倍に抑えることができる。 さらに,ONNXプラットフォームにはモデルフォーマット交換のためのツールが豊富にあるため,ONNXプラットフォームに基づく提案手法は他のモデルフォーマットにも適用可能である。 我々の研究は、開発者がモデルデプロイメント戦略を慎重に検討し、デバイス上のモデルの脆弱性を評価するためにホワイトボックスメソッドを使うことを強調した。

Numerous mobile apps have leveraged deep learning capabilities. However, on-device models are vulnerable to attacks as they can be easily extracted from their corresponding mobile apps. Existing on-device attacking approaches only generate black-box attacks, which are far less effective and efficient than white-box strategies. This is because mobile deep learning frameworks like TFLite do not support gradient computing, which is necessary for white-box attacking algorithms. Thus, we argue that existing findings may underestimate the harmfulness of on-device attacks. To this end, we conduct a study to answer this research question: Can on-device models be directly attacked via white-box strategies? We first systematically analyze the difficulties of transforming the on-device model to its debuggable version, and propose a Reverse Engineering framework for On-device Models (REOM), which automatically reverses the compiled on-device TFLite model to the debuggable model. Specifically, REOM first transforms compiled on-device models into Open Neural Network Exchange format, then removes the non-debuggable parts, and converts them to the debuggable DL models format that allows attackers to exploit in a white-box setting. Our experimental results show that our approach is effective in achieving automated transformation among 244 TFLite models. Compared with previous attacks using surrogate models, REOM enables attackers to achieve higher attack success rates with a hundred times smaller attack perturbations. In addition, because the ONNX platform has plenty of tools for model format exchanging, the proposed method based on the ONNX platform can be adapted to other model formats. Our findings emphasize the need for developers to carefully consider their model deployment strategies, and use white-box methods to evaluate the vulnerability of on-device models.
翻訳日:2024-02-21 01:05:20 公開日:2024-02-17
# 2量子状態のローレンツ正準形式

Lorentz canoncial forms of two-qubit states ( http://arxiv.org/abs/2402.09258v2 )

ライセンス: Link先を確認
Sudha, A. R. Usha Devi, B. N. Karthik, H. S. Karthik, Akshata Shenoy H, K. S. Mallesh and A. V. Gopala Rao(参考訳) ブロッホ球面は、キュービットを視覚化するエレガントな方法を提供する。 2量子ビットの最も単純な合成状態の類似表現が注目されている。 ここでは、ブロッホ球に刻まれた正準楕円体の観点から、実行列パラメトリゼーションとそれに伴う任意の2量子状態の幾何図形化の詳細な数学的解析について述べる。

The Bloch sphere provides an elegant way of visualizing a qubit. Analogous representation of the simplest composite state of two-qubits has attracted significant attention. Here we present a detailed mathematical analysis of the real-matrix parametrization and associated geometric picturization of arbitrary two-qubit states - up to their local SL2C equivalence, in terms of canonical ellipsoids inscribed within the Bloch sphere.
翻訳日:2024-02-21 00:54:10 公開日:2024-02-17
# ブラックボックス大言語モデルによる知識編集

Knowledge Editing on Black-box Large Language Models ( http://arxiv.org/abs/2402.08631v2 )

ライセンス: Link先を確認
Xiaoshuai Song, Zhengyang Wang, Keqing He, Guanting Dong, Yutao Mou, Jinxu Zhao, Weiran Xu(参考訳) 知識編集(KE)は、大きな言語モデル(LLM)の振る舞いを効率よく正確に修正し、特定の知識を他の知識に悪影響を及ぼすことなく更新することを目的としている。 ブラックボックス LLM 編集 (Black-box LLMs editing) - LLM がインターフェースを通じてアクセスされ、テキスト出力のみが利用可能である。 本稿では,まず,ブラックボックス LLM に KE を導入し,ブラックボックス LLM の編集や包括性を欠く既存の評価の限界を克服する包括的評価フレームワークを提案する。 編集データのプライバシリークや現在の方法でのスタイルオーバーエディットに対処するために,下流のポストプロセッシングによるプライバシの懸念を解決する新しいpostitフレームワークを導入し,元の応答に対するきめ細かい編集によるテキストスタイルの一貫性を維持する。 2つのベンチマークの実験と分析により、 PostEditはすべてのベースラインを上回り、特にスタイル保持を大幅に改善した(平均$+20.82\%\uparrow$)。

Knowledge editing (KE) aims to efficiently and precisely modify the behavior of large language models (LLMs) to update specific knowledge without negatively influencing other knowledge. Current research primarily focuses on white-box LLMs editing, overlooking an important scenario: black-box LLMs editing, where LLMs are accessed through interfaces and only textual output is available. In this paper, we first officially introduce KE on black-box LLMs and then propose a comprehensive evaluation framework to overcome the limitations of existing evaluations that are not applicable to black-box LLMs editing and lack comprehensiveness. To tackle privacy leaks of editing data and style over-editing in current methods, we introduce a novel postEdit framework, resolving privacy concerns through downstream post-processing and maintaining textual style consistency via fine-grained editing to original responses. Experiments and analysis on two benchmarks demonstrate that postEdit outperforms all baselines and achieves strong generalization, especially with huge improvements on style retention (average $+20.82\%\uparrow$).
翻訳日:2024-02-21 00:54:02 公開日:2024-02-17
# グラフェンの不純物とそのカシミール相互作用への影響

Impurities in graphene and their influence on the Casimir interaction ( http://arxiv.org/abs/2402.06972v2 )

ライセンス: Link先を確認
N. Khusnutdinov and D. Vassilevich(参考訳) グラフェンと理想導体とのカシミール相互作用や, 温度0のグラフェンと化学的ポテンシャルにおける2つの同一シート間の相互作用に及ぼすグラフェン中の不純物の影響について検討した。 この目的のために、グラフェン中の準粒子の偏極テンソルと、TEおよびTMチャネルの対応する導電率を計算する。 カシミールエネルギー密度はリフシッツの公式の助けを借りて評価される。 質量ギャップパラメータの値によって、$\gamma$の存在はわずかな減衰またはカシミール相互作用の大幅な強化につながる可能性がある。

We study the influence of impurities in graphene described by a scattering rate $\Gamma$ on the Casimir interaction between graphene and an ideal conductor or between two identical sheets of graphene at zero temperature and chemical potential. To this end, we compute the polarization tensor of quasiparticles in graphene and corresponding conductivities for TE and TM channels. The Casimir energy density is evaluated with the help of the Lifshitz formula. We find that depending on the value of mass gap parameter the presence of $\Gamma$ may lead to a slight damping or to a considerable enhancement of the Casimir interaction.
翻訳日:2024-02-21 00:51:02 公開日:2024-02-17
# LlaSMol: 大規模で包括的で高品質なインストラクションチューニングデータセットによる化学用大規模言語モデルの改善

LlaSMol: Advancing Large Language Models for Chemistry with a Large-Scale, Comprehensive, High-Quality Instruction Tuning Dataset ( http://arxiv.org/abs/2402.09391v2 )

ライセンス: Link先を確認
Botao Yu, Frazier N. Baker, Ziqi Chen, Xia Ning, Huan Sun(参考訳) 化学は創薬や物質科学など多くの分野において重要な役割を担っている。 gpt-4のような大規模言語モデル(llm)は自然言語処理タスクにおいて顕著な能力を示すが、既存の研究は化学処理における性能が著しく低いことを示している。 しかし,本論文では,本研究で開発したLCMが,全タスクにおいて最上級の GPT-4 をかなり上回り,SoTA タスク固有モデルに近づき,包括的な化学タスクの集合において非常に強力な結果が得られることを実証する。 私たちの成功の鍵はSMolInstructという名前の命令チューニングのための大規模で包括的で高品質なデータセットです。 14の精巧に選択された化学タスクと300万以上の高品質なサンプルが含まれており、化学のためのLCMの訓練と評価のためのしっかりとした基礎を築いている。 SMolInstructに基づいて、オープンソースのLCMの集合を微調整し、ミストラールが化学タスクの最良のベースモデルであることを示す。 さらに,学習可能なパラメータの影響に関する分析を行い,今後の研究への洞察を提供する。

Chemistry plays a crucial role in many domains, such as drug discovery and material science. While large language models (LLMs) such as GPT-4 exhibit remarkable capabilities on natural language processing tasks, existing work shows their performance on chemistry tasks is discouragingly low. In this paper, however, we demonstrate that our developed LLMs can achieve very strong results on a comprehensive set of chemistry tasks, outperforming the most advanced GPT-4 across all the tasks by a substantial margin and approaching the SoTA task-specific models. The key to our success is a large-scale, comprehensive, high-quality dataset for instruction tuning named SMolInstruct. It contains 14 meticulously selected chemistry tasks and over three million high-quality samples, laying a solid foundation for training and evaluating LLMs for chemistry. Based on SMolInstruct, we fine-tune a set of open-source LLMs, among which, we find that Mistral serves as the best base model for chemistry tasks. We further conduct analysis on the impact of trainable parameters, providing insights for future research.
翻訳日:2024-02-21 00:42:32 公開日:2024-02-17
# YOLOv8-AM: YOLOv8による小児関節リスト骨折の検出

YOLOv8-AM: YOLOv8 with Attention Mechanisms for Pediatric Wrist Fracture Detection ( http://arxiv.org/abs/2402.09329v2 )

ライセンス: Link先を確認
Chun-Tse Chien, Rui-Yang Ju, Kuang-Yi Chou, Jen-Shiun Chiang(参考訳) 難治性外傷や骨折は、特に骨折症例のかなりの割合を占める小児において、日常生活において頻繁に起こる。 手術の前に、外科医は患者にまずX線撮影を依頼し、放射線医の分析に基づいてそれに備える。 ニューラルネットワークの開発に伴い、You Only Look Once (YOLO)シリーズモデルがコンピュータ支援診断(CAD)として骨折検出に広く利用されている。 2023年、UltralyticsはYOLOモデルの最新バージョンを発表した。 アテンション機構はモデル性能を改善する最もホットな方法の1つである。 本研究は,YOLOv8アーキテクチャにアテンション機構を組み込んだYOLOv8-AMを提案する。 具体的には、4つの注意モジュール、CBAM(Convolutional Block Attention Module)、GAM(Global Attention Mechanism)、ECA(Efficient Channel Attention)、SA(Shuffle Attention)を使用して、改良されたモデルを設計し、GRAZPEDWRI-DXデータセットでトレーニングする。 ResBlock + CBAM (ResCBAM) に基づくYOLOv8-AMモデルのIoU 50(mAP 50)の平均精度は63.6%から65.8%に向上し,SOTAの性能が向上した。 逆に、GAMを組み込んだYOLOv8-AMモデルでは、mAP 50の64.2%の値が得られる。 したがって、ResBlockとGAMを組み合わせてResGAMを導入し、新しいYOLOv8-AMモデルを設計し、mAP 50値が65.0%に向上した。

Wrist trauma and even fractures occur frequently in daily life, particularly among children who account for a significant proportion of fracture cases. Before performing surgery, surgeons often request patients to undergo X-ray imaging first and prepare for it based on the analysis of the radiologist. With the development of neural networks, You Only Look Once (YOLO) series models have been widely used in fracture detection as computer-assisted diagnosis (CAD). In 2023, Ultralytics presented the latest version of the YOLO models, which has been employed for detecting fractures across various parts of the body. Attention mechanism is one of the hottest methods to improve the model performance. This research work proposes YOLOv8-AM, which incorporates the attention mechanism into the original YOLOv8 architecture. Specifically, we respectively employ four attention modules, Convolutional Block Attention Module (CBAM), Global Attention Mechanism (GAM), Efficient Channel Attention (ECA), and Shuffle Attention (SA), to design the improved models and train them on GRAZPEDWRI-DX dataset. Experimental results demonstrate that the mean Average Precision at IoU 50 (mAP 50) of the YOLOv8-AM model based on ResBlock + CBAM (ResCBAM) increased from 63.6% to 65.8%, which achieves the state-of-the-art (SOTA) performance. Conversely, YOLOv8-AM model incorporating GAM obtains the mAP 50 value of 64.2%, which is not a satisfactory enhancement. Therefore, we combine ResBlock and GAM, introducing ResGAM to design another new YOLOv8-AM model, whose mAP 50 value is increased to 65.0%.
翻訳日:2024-02-21 00:42:11 公開日:2024-02-17
# UR2M:マイクロコントローラにおける不確実性とリソース認識イベント検出

UR2M: Uncertainty and Resource-Aware Event Detection on Microcontrollers ( http://arxiv.org/abs/2402.09264v2 )

ライセンス: Link先を確認
Hong Jia, Young D. Kwon, Dong Ma, Nhat Pham, Lorena Qendro, Tam Vu and Cecilia Mascolo(参考訳) 従来の機械学習技術は、トレーニングとテストフェーズ間のデータの分散の変化に直面すると、不正確な予測を生成する傾向がある。 この脆弱性は、特にモバイルヘルスケアのようなアプリケーションにおいて、深刻な結果をもたらす可能性がある。 不確実性推定は、モデルの出力の信頼性を評価することによってこの問題を軽減する可能性がある。 しかし、既存の不確実性推定技術ではかなりの計算資源とメモリを必要とすることが多く、マイクロコントローラ (mcu) の実装には実用的でない。 この制限は、心臓発作検出など多くの重要なデバイス上のウェアラブルイベント検出(WED)アプリケーションの実現を妨げている。 本稿では,MCUのための新しい不確実性とリソース認識イベント検出フレームワークUR2Mを提案する。 具体的には (i)正確な事象検出と信頼性の高い不確実性推定のための証拠理論に基づく不確実性認識wedの開発 (II)異なるイベントモデル間でより浅いモデルレイヤを共有することにより、早期出口を通じた効率的なモデル推論を実現するためのカスケードMLフレームワークを導入する。 (iii)システム効率のためにモデルとMCUライブラリのデプロイを最適化する。 3つのウェアラブルデータセットを用いてur2mを従来の不確実性ベースラインと比較した。 その結果,UR2Mでは推定速度が最大864%,不確実性推定が857%,MCUが55%,不確実性定量化性能が22%向上した。 UR2Mは広範囲のMCUにデプロイでき、リアルタイムおよび信頼性の高いWEDアプリケーションを大幅に拡張する。

Traditional machine learning techniques are prone to generating inaccurate predictions when confronted with shifts in the distribution of data between the training and testing phases. This vulnerability can lead to severe consequences, especially in applications such as mobile healthcare. Uncertainty estimation has the potential to mitigate this issue by assessing the reliability of a model's output. However, existing uncertainty estimation techniques often require substantial computational resources and memory, making them impractical for implementation on microcontrollers (MCUs). This limitation hinders the feasibility of many important on-device wearable event detection (WED) applications, such as heart attack detection. In this paper, we present UR2M, a novel Uncertainty and Resource-aware event detection framework for MCUs. Specifically, we (i) develop an uncertainty-aware WED based on evidential theory for accurate event detection and reliable uncertainty estimation; (ii) introduce a cascade ML framework to achieve efficient model inference via early exits, by sharing shallower model layers among different event models; (iii) optimize the deployment of the model and MCU library for system efficiency. We conducted extensive experiments and compared UR2M to traditional uncertainty baselines using three wearable datasets. Our results demonstrate that UR2M achieves up to 864% faster inference speed, 857% energy-saving for uncertainty estimation, 55% memory saving on two popular MCUs, and a 22% improvement in uncertainty quantification performance. UR2M can be deployed on a wide range of MCUs, significantly expanding real-time and reliable WED applications.
翻訳日:2024-02-21 00:41:12 公開日:2024-02-17
# 臨床的に有意義な前立腺癌の鑑別のための多変量経直腸超音波画像分類

Multi-modality transrectal ultrasound video classification for identification of clinically significant prostate cancer ( http://arxiv.org/abs/2402.08987v2 )

ライセンス: Link先を確認
Hong Wu, Juan Fu, Hongsheng Ye, Yuming Zhong, Xuebin Zhou, Jianhua Zhou, Yi Wang(参考訳) 前立腺癌は世界でも最も多い非皮膚癌である。 近年,多モード経直腸超音波(TRUS)が前立腺生検の指導に有効なツールになりつつある。 前立腺癌を効果的に同定することを目的として,多モードTRUSビデオから臨床上重要な前立腺癌(csPCa)を分類するための枠組みを提案する。 このフレームワークは2つの3d resnet-50モデルを使用して、bモード画像から特徴を抽出する。 2つのモダリティの特徴を集約するために適応型空間融合モジュールが導入された。 直交正規化損失はさらに特徴冗長性を軽減するために用いられる。 提案するフレームワークは,512本のTRUSビデオを含む社内データセットを用いて評価し,csPCaを曲線下面積(AUC)0.84で識別する上で良好な性能を発揮する。 さらに,提案フレームワークから生成された可視化されたクラスアクティベーションマッピング(cam)画像は,cspcaの局在化のための有用なガイダンスとなり,trus誘導標的生検が容易になる。 私たちのコードはhttps://github.com/2313595986/ProstateTRUSで公開されています。

Prostate cancer is the most common noncutaneous cancer in the world. Recently, multi-modality transrectal ultrasound (TRUS) has increasingly become an effective tool for the guidance of prostate biopsies. With the aim of effectively identifying prostate cancer, we propose a framework for the classification of clinically significant prostate cancer (csPCa) from multi-modality TRUS videos. The framework utilizes two 3D ResNet-50 models to extract features from B-mode images and shear wave elastography images, respectively. An adaptive spatial fusion module is introduced to aggregate two modalities' features. An orthogonal regularized loss is further used to mitigate feature redundancy. The proposed framework is evaluated on an in-house dataset containing 512 TRUS videos, and achieves favorable performance in identifying csPCa with an area under curve (AUC) of 0.84. Furthermore, the visualized class activation mapping (CAM) images generated from the proposed framework may provide valuable guidance for the localization of csPCa, thus facilitating the TRUS-guided targeted biopsy. Our code is publicly available at https://github.com/2313595986/ProstateTRUS.
翻訳日:2024-02-21 00:40:47 公開日:2024-02-17
# 変分量子アルゴリズムにおけるユニタリノイズを超えて-ノイズ誘起バレンプラトーと固定点

Beyond unital noise in variational quantum algorithms: noise-induced barren plateaus and fixed points ( http://arxiv.org/abs/2402.08721v2 )

ライセンス: Link先を確認
P. Singkanipa, D.A. Lidar(参考訳) 変分量子アルゴリズム(vqas)は大きな期待を持っているが、指数関数的に小さな勾配の課題に直面している。 このバレンプラトー(BP)現象は、VQAの指数的トレーニングオーバーヘッドをもたらす。 おそらく最も多いのがノイズによって引き起こされる不毛高原(nibps)であり、これはオープンシステム効果から生じる不可避なbpの一種であり、単位的ノイズチャネルには存在することが知られている。 ここでは、NIBPの研究を、より一般的な完全正のトレース保存マップに一般化し、ユニタリおよびシングルキュービットの非ユニタリケースにおけるNIBPの存在を確立し、NIBPが現れる回路深さの対数的先行境界に固着する。 我々は,VQAコスト関数の雑音誘起定点(NIFP)の関連現象を同定し,一様雑音と一様雑音の両方に対してその存在を証明した。 その過程で、VQAのパラメータシフトルールをノイズ設定に拡張する。 解析結果を示す非分極チャネルと振幅減衰チャネルの数値シミュレーションとともに、NIBPとNIFPを生じる関連するパラメータに関して厳密な境界を提供する。

Variational quantum algorithms (VQAs) hold much promise but face the challenge of exponentially small gradients. Unmitigated, this barren plateau (BP) phenomenon leads to an exponential training overhead for VQAs. Perhaps the most pernicious are noise-induced barren plateaus (NIBPs), a type of unavoidable BP arising from open system effects, which have so far been shown to exist for unital noise channels. Here, we generalize the study of NIBPs to more general completely positive, trace-preserving maps, establishing the existence of NIBPs in the unital and single-qubit non-unital cases and tightening to logarithmic earlier bounds on the circuit depth at which an NIBP appears. We identify the associated phenomenon of noise-induced fixed points (NIFP) of the VQA cost function and prove its existence for both unital and single-qubit non-unital noise. Along the way, we extend the parameter shift rule of VQAs to the noisy setting. We provide rigorous bounds in terms of the relevant parameters that give rise to NIBPs and NIFPs, along with numerical simulations of the depolarizing and amplitude-damping channels that illustrate our analytical results.
翻訳日:2024-02-21 00:39:34 公開日:2024-02-17
# 分散位相発振器を用いた創発的歩行の学習--観察・報酬・フィードバックの役割について

Learning Emergent Gaits with Decentralized Phase Oscillators: on the role of Observations, Rewards, and Feedback ( http://arxiv.org/abs/2402.08662v2 )

ライセンス: Link先を確認
Jenny Zhang, Steve Heim, Se Hwan Jeon, Sangbae Kim(参考訳) 四足歩行学習のための最小位相発振器モデルを提案する。 4つの発振器はそれぞれ、地上反応力の局所的なフィードバックによってそれ自体と対応する脚にのみ結合され、これはオブザーバフィードバックゲインと解釈できる。 発振器自体を潜在接触状態推定器と解釈する。 系統的アブレーション研究により, 位相観測, 単純な位相に基づく報酬, 局所的なフィードバックのダイナミクスの組み合わせは, 特定の歩行を規定することなく, 簡単な報酬を減らしながら, 創発的な歩行嗜好を示す政策を誘導することを示した。 コードはオープンソースで、ビデオ合成はhttps://youtu.be/1NKQ0rSV3jUで公開されている。

We present a minimal phase oscillator model for learning quadrupedal locomotion. Each of the four oscillators is coupled only to itself and its corresponding leg through local feedback of the ground reaction force, which can be interpreted as an observer feedback gain. We interpret the oscillator itself as a latent contact state-estimator. Through a systematic ablation study, we show that the combination of phase observations, simple phase-based rewards, and the local feedback dynamics induces policies that exhibit emergent gait preferences, while using a reduced set of simple rewards, and without prescribing a specific gait. The code is open-source, and a video synopsis available at https://youtu.be/1NKQ0rSV3jU.
翻訳日:2024-02-21 00:38:42 公開日:2024-02-17
# rlhfにおける情報構造再考:グラフ理論の観点からの報酬一般化

Rethinking Information Structures in RLHF: Reward Generalization from a Graph Theory Perspective ( http://arxiv.org/abs/2402.10184v2 )

ライセンス: Link先を確認
Tianyi Qiu, Fanzhi Zeng, Jiaming Ji, Dong Yan, Kaile Wang, Jiayi Zhou, Han Yang, Josef Dai, Xuehai Pan, Yaodong Yang(参考訳) ヒューマンフィードバック(RLHF)からの強化学習には、高度に多様なコンテキスト、低ラベリングコスト、信頼性のあるアライメントパフォーマンスの不適合性がある。 本稿では,報酬モデリングにおけるデータセット情報構造の設計を通じて,このような非互換性を軽減し,一方で,ゴールの非一般化に光を当てる可能性を含む,より広い応用性を持つ新たな分析手法を提案する。 具体的には,まずrlhfプロセスを再検討し,テキスト分布上の自動エンコーディングプロセスとして表現する理論的枠組みを提案する。 我々のフレームワークは、人間の好みと大規模言語モデル(LLM)の振る舞いの分布整合性を保証するというRLHFの目的を定式化する。 本稿では,ランダムグラフ理論に基づく新しい手法,誘導ベイズネットワーク(IBN)を提案する。 意味空間における一般化をモデル化し、一般化誤差境界の経験的基底解析を可能にし、rlhfの報酬汎化に光を当てる。 本分析から得られた知見は,従来のRLHF法に比べ,報奨モデルにおける木に基づく情報構造の優位性である。 制限されたデータを持つ複雑なコンテキストにおいて、ツリーベースの報酬モデル(rm)は最大で$\theta(\log n/\log\log n)がデータセットサイズであるチェーンベースのrmよりも最大で分散しない。 検証の結果,3つのNLPタスクにおいて,木系RMはチェーン系ベースラインに対して平均65%の勝利率を達成した。

There is a trilemma in reinforcement learning from human feedback (RLHF): the incompatibility between highly diverse contexts, low labeling cost, and reliable alignment performance. Here we aim to mitigate such incompatibility through the design of dataset information structures during reward modeling, and meanwhile propose new methods of analysis that have wider applications, including potentially shedding light on goal misgeneralization. Specifically, we first reexamine the RLHF process and propose a theoretical framework portraying it as an autoencoding process over text distributions. Our framework formalizes the RLHF objective of ensuring distributional consistency between human preference and large language model (LLM) behavior. Under this framework, we introduce a new method based on random graph theory, the induced Bayesian network (IBN). It models generalization in the semantic space and enables empirically grounded analysis of generalization error bounds, aiming to shed light on reward generalization in RLHF. An insight from our analysis is the superiority of the tree-based information structure in reward modeling, compared to chain-based baselines in conventional RLHF methods. We derive that in complex contexts with limited data, the tree-based reward model (RM) induces up to $\Theta(\log n/\log\log n)$ times less variance than chain-based RM where $n$ is the dataset size. As validation, we demonstrate that on three NLP tasks, the tree-based RM achieves 65% win rate on average against chain-based baselines.
翻訳日:2024-02-21 00:28:40 公開日:2024-02-17
# リカレントニューラルネットワークにおけるワーキングメモリ変数に結合する隠れトラベル波

Hidden Traveling Waves bind Working Memory Variables in Recurrent Neural Networks ( http://arxiv.org/abs/2402.10163v2 )

ライセンス: Link先を確認
Arjun Karuvally, Terrence J. Sejnowski, Hava T. Siegelmann(参考訳) トラベル波は脳の基本的な現象であり、短期的な情報保存において重要な役割を果たす。 本研究では,神経格子内の進行波ダイナミクスの概念を活用し,神経作業記憶の理論モデルを構築し,その特性とaiにおける実世界への影響について検討する。 提案手法は,静的なレジスタ状位置における情報記憶を干渉によって更新する従来の手法と異なる。 代わりに、モデルは、波の境界条件によって更新される波としてデータを格納する。 歴史に依存した力学系を学習する上で欠かせない状態履歴の表現と学習におけるモデルの能力について精査する。 その結果, モデルが外部情報を確実に保存し, 勾配の減少に対処して学習プロセスを強化することがわかった。 モデルの適用性を理解するために,線形境界条件と非線形,自己注意駆動境界条件の2つのケースを探索する。 実験の結果,線形シナリオは履歴に依存した力学系をモデル化する際に,バックプロパゲーションを通じてリカレントニューラルネットワーク(RNN)によって効果的に学習されることがわかった。 逆に、非線形シナリオは注意のみのトランスの自己回帰ループと平行である。 我々の発見は、AIにおける走行波の幅広い関連性と、ニューラルネットワークアーキテクチャの進歩の可能性を示している。

Traveling waves are a fundamental phenomenon in the brain, playing a crucial role in short-term information storage. In this study, we leverage the concept of traveling wave dynamics within a neural lattice to formulate a theoretical model of neural working memory, study its properties, and its real world implications in AI. The proposed model diverges from traditional approaches, which assume information storage in static, register-like locations updated by interference. Instead, the model stores data as waves that is updated by the wave's boundary conditions. We rigorously examine the model's capabilities in representing and learning state histories, which are vital for learning history-dependent dynamical systems. The findings reveal that the model reliably stores external information and enhances the learning process by addressing the diminishing gradient problem. To understand the model's real-world applicability, we explore two cases: linear boundary condition and non-linear, self-attention-driven boundary condition. The experiments reveal that the linear scenario is effectively learned by Recurrent Neural Networks (RNNs) through backpropagation when modeling history-dependent dynamical systems. Conversely, the non-linear scenario parallels the autoregressive loop of an attention-only transformer. Collectively, our findings suggest the broader relevance of traveling waves in AI and its potential in advancing neural network architectures.
翻訳日:2024-02-21 00:28:15 公開日:2024-02-17
# 橋としてのllms:接地されたマルチモーダル名前付きエンティティ認識の再構成

LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition ( http://arxiv.org/abs/2402.09989v2 )

ライセンス: Link先を確認
Jinyuan Li, Han Li, Di Sun, Jiahao Wang, Wenkun Zhang, Zan Wang, Gang Pan(参考訳) Grounded Multimodal Named Entity Recognition (GMNER) は、名前付きエンティティ、エンティティタイプおよび対応する視覚領域を識別することを目的とした、初期段階のマルチモーダルタスクである。 GMNERタスクは2つの難しい特性を示す。 1) ソーシャルメディアにおける画像とテキストのペア間の弱い相関関係は, 名前付きエンティティのかなりの部分が接地不能となる。 2) 類似したタスクで一般的に用いられる粗粒度参照表現(句のローカライズや表現理解など)と細粒度参照表現との区別が存在する。 本稿では,大規模な言語モデル(LLM)を接続ブリッジとして活用することにより,GMNERをMNER-VE-VGタスクに再構成する統合フレームワークであるRiVEGを提案する。 この改革は2つの利点をもたらす。 1) MNERの最適性能を維持し, 地域特徴の事前抽出にオブジェクト検出手法を用いる必要をなくし, 既存のGMNER手法の2つの大きな限界に自然に対処する。 2) エンティティ拡張表現とビジュアルエンタテインメント(VE)モジュールの導入により,ビジュアルグラウンド(VG)とエンティティグラウンド(EG)が統合される。 これによってRiVEGは,現在のあるいは将来的なマルチモーダル事前トレーニングモデルのVisual EntailmentとVisual Grounding機能を,懸命に継承することができる。 大規模な実験により、RiVEGは既存のGMNERデータセットの最先端の手法より優れており、全3つのサブタスクで10.65%、6.21%、および8.83%の絶対的なリードを達成している。

Grounded Multimodal Named Entity Recognition (GMNER) is a nascent multimodal task that aims to identify named entities, entity types and their corresponding visual regions. GMNER task exhibits two challenging properties: 1) The weak correlation between image-text pairs in social media results in a significant portion of named entities being ungroundable. 2) There exists a distinction between coarse-grained referring expressions commonly used in similar tasks (e.g., phrase localization, referring expression comprehension) and fine-grained named entities. In this paper, we propose RiVEG, a unified framework that reformulates GMNER into a joint MNER-VE-VG task by leveraging large language models (LLMs) as a connecting bridge. This reformulation brings two benefits: 1) It maintains the optimal MNER performance and eliminates the need for employing object detection methods to pre-extract regional features, thereby naturally addressing two major limitations of existing GMNER methods. 2) The introduction of entity expansion expression and Visual Entailment (VE) Module unifies Visual Grounding (VG) and Entity Grounding (EG). It enables RiVEG to effortlessly inherit the Visual Entailment and Visual Grounding capabilities of any current or prospective multimodal pretraining models. Extensive experiments demonstrate that RiVEG outperforms state-of-the-art methods on the existing GMNER dataset and achieves absolute leads of 10.65%, 6.21%, and 8.83% in all three subtasks.
翻訳日:2024-02-21 00:27:07 公開日:2024-02-17
# 良いプロンプトを作るか、模範的な対話を提供するか? パーソナラベース対話生成のための文脈内学習に関する研究

Crafting a Good Prompt or Providing Exemplary Dialogues? A Study of In-Context Learning for Persona-based Dialogue Generation ( http://arxiv.org/abs/2402.09954v2 )

ライセンス: Link先を確認
Jiashu Pu, Yajing Wan, Yuru Zhang, Jing Chen, Ling Cheng, Qian Shao, Yongzhu Chang, Tangjie Lv, Rongsheng Zhang(参考訳) これまでICL(In-context Learning)研究は、分類、機械翻訳、text2tableなどのタスクに重点を置いてきたが、ICLが人間に似た対話生成を改善できるかどうかの研究は少ない。 本研究は,多言語モデル(LLM)の対話生成におけるICL機能を体系的に検討し,高品質な中国語対話データセットに関する広範な実験を行うことによって,このギャップを埋めるものである。 実験結果から3つの結論が導かれる。 1) 迅速な指示の調整は,生成品質を改善するための最も直接的かつ効果的かつ経済的方法である。 2)ランダムに検索するデモ(デモ)は,多種多様で効果的な情報の量が多いため,おそらく最高の結果を達成している。 3) デモにおけるマルチターン関連やシングルターンセマンティクスを破壊しても,デモの数が増えても対話性能が向上し,LLMが劣化した対話デモから学習できることが証明された。 ICL機構の以前の説明、例えば$n$-gram誘導ヘッドは、この現象を完全に説明できない。

Previous in-context learning (ICL) research has focused on tasks such as classification, machine translation, text2table, etc., while studies on whether ICL can improve human-like dialogue generation are scarce. Our work fills this gap by systematically investigating the ICL capabilities of large language models (LLMs) in persona-based dialogue generation, conducting extensive experiments on high-quality real human Chinese dialogue datasets. From experimental results, we draw three conclusions: 1) adjusting prompt instructions is the most direct, effective, and economical way to improve generation quality; 2) randomly retrieving demonstrations (demos) achieves the best results, possibly due to the greater diversity and the amount of effective information; counter-intuitively, retrieving demos with a context identical to the query performs the worst; 3) even when we destroy the multi-turn associations and single-turn semantics in the demos, increasing the number of demos still improves dialogue performance, proving that LLMs can learn from corrupted dialogue demos. Previous explanations of the ICL mechanism, such as $n$-gram induction head, cannot fully account for this phenomenon.
翻訳日:2024-02-21 00:26:38 公開日:2024-02-17
# TuneTables: スケーラブルなプリデータフィットネットワークのためのコンテキスト最適化

TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks ( http://arxiv.org/abs/2402.11137v1 )

ライセンス: Link先を確認
Benjamin Feuer, Robin Tibor Schirrmeister, Valeriia Cherepanova, Chinmay Hegde, Frank Hutter, Micah Goldblum, Niv Cohen, Colin White(参考訳) 表形式の分類は伝統的にオフスクラッチトレーニングに依存してきたが、最近のPFNと呼ばれるブレークスルーはこのアプローチに挑戦している。 大きな言語モデルと同様に、pfnは事前トレーニングとインコンテキスト学習を使用して、1回のフォワードパスで新しいタスクで強力なパフォーマンスを達成する。 しかし、現在のPFNは広く普及することを禁じる制限がある。 特にTabPFNは、小さな表のデータセットで非常に強力なパフォーマンスを達成するが、1000以上のデータセットの予測は設計されていない。 本研究では,これらの制約を克服し,PFNの文脈最適化手法を開発することによりPFNの性能を大幅に向上する。 具体的には、大規模データセットをより小さな学習コンテキストに圧縮する新しいプロンプトチューニング戦略であるTuneTablesを提案する。 TuneTablesはTabPFNを、TabPFNよりもかなり低い推論時間を持ちながら、大規模データセットの最先端のタブラ分類手法と競合するようにスケールする。 さらに,チューンテーブルを解釈ツールとして利用し,公平性目標を最適化することでバイアスを軽減できることを示した。

While tabular classification has traditionally relied on from-scratch training, a recent breakthrough called prior-data fitted networks (PFNs) challenges this approach. Similar to large language models, PFNs make use of pretraining and in-context learning to achieve strong performance on new tasks in a single forward pass. However, current PFNs have limitations that prohibit their widespread adoption. Notably, TabPFN achieves very strong performance on small tabular datasets but is not designed to make predictions for datasets of size larger than 1000. In this work, we overcome these limitations and substantially improve the performance of PFNs by developing context optimization techniques for PFNs. Specifically, we propose TuneTables, a novel prompt-tuning strategy that compresses large datasets into a smaller learned context. TuneTables scales TabPFN to be competitive with state-of-the-art tabular classification methods on larger datasets, while having a substantially lower inference time than TabPFN. Furthermore, we show that TuneTables can be used as an interpretability tool and can even be used to mitigate biases by optimizing a fairness objective.
翻訳日:2024-02-20 23:27:11 公開日:2024-02-17
# panda (pedantic answer-correctness determination and adjudication):質問応答とテキスト生成の自動評価の改善

PANDA (Pedantic ANswer-correctness Determination and Adjudication):Improving Automatic Evaluation for Question Answering and Text Generation ( http://arxiv.org/abs/2402.11161v1 )

ライセンス: Link先を確認
Zongxia Li, Ishani Mondal, Yijun Liang, Huy Nghiem, Jordan Lee Boyd-Graber(参考訳) 質問応答(QA)は、答えが正しいかどうかを知る場合にのみ進行するが、最も困難で興味深いQAの例では、現在の回答正当性(AC)メトリクスは人間の判断、特に冗長で、大きな言語モデル(LLM)からの自由なフォーム回答と一致しない。 データ不足とモデルが大きすぎるという2つの課題があります。 LLMベースのスコアラは人間と相関するが、この高価なタスクは限られたQAデータセットでのみテストされている。 我々は、人間のQAコンテストから採用したマシンQAを評価するための明確なガイドラインを提供することで、これらの問題を是正する。 また,回答の正確さをより正確に評価する小型かつ効率的で決定論的AC分類器であるPANDA (Precise ANswer correctness determined and Adjudication) を導入する。

Question answering (QA) can only make progress if we know if an answer is correct, but for many of the most challenging and interesting QA examples, current answer correctness (AC) metrics do not align with human judgments, particularly verbose, free form answers from large language models (LLM). There are two challenges: a lack of data and that models are too big. LLM based scorers correlate better with humans, but this expensive task has only been tested on limited QA datasets. We rectify these issues by providing clear guidelines for evaluating machine QA adopted from human QA contests. We also introduce Precise ANswer correctness Determination and Adjudication (PANDA), a small, efficient, deterministic AC classifier (812 KB) that more accurately evaluates answer correctness.
翻訳日:2024-02-20 23:16:15 公開日:2024-02-17
# 視覚シーン理解のための意味的認識型ニューラルラジアンスフィールド:総合的レビュー

Semantically-aware Neural Radiance Fields for Visual Scene Understanding: A Comprehensive Review ( http://arxiv.org/abs/2402.11141v1 )

ライセンス: Link先を確認
Thang-Anh-Quan Nguyen, Amine Bourki, M\'aty\'as Macudzinski, Anthony Brunel, Mohammed Bennamoun(参考訳) 本稿では,250以上の学術論文の分析を網羅し,視覚的場面理解における意味認識型ニューラルラジアンスフィールド(NeRF)の役割を徹底的に検討する。 シーン内の静止オブジェクトと動的オブジェクトの両方に対して、NeRFが正確に3D表現を推測する方法を探索する。 この機能は、高品質な新しい視点の生成、欠落したシーンの詳細(インペインティング)の完了、包括的なシーンセグメンテーション(panoptic segmentation)の実行、3dバウンディングボックスの予測、3dシーンの編集、オブジェクト中心の3dモデル抽出に欠かせない。 本研究の重要な側面は、空間座標をセマンティックラベルのスペクトルに効果的にマッピングし、シーン内の異なる物体の認識を容易にする、視点不変関数としてのセマンティックラベルの適用である。 本調査は,視覚的シーン解釈の文脈における意味的認識型ニューラルラディアンスフィールドの進展と多様な応用に焦点を当てた。

This review thoroughly examines the role of semantically-aware Neural Radiance Fields (NeRFs) in visual scene understanding, covering an analysis of over 250 scholarly papers. It explores how NeRFs adeptly infer 3D representations for both stationary and dynamic objects in a scene. This capability is pivotal for generating high-quality new viewpoints, completing missing scene details (inpainting), conducting comprehensive scene segmentation (panoptic segmentation), predicting 3D bounding boxes, editing 3D scenes, and extracting object-centric 3D models. A significant aspect of this study is the application of semantic labels as viewpoint-invariant functions, which effectively map spatial coordinates to a spectrum of semantic labels, thus facilitating the recognition of distinct objects within the scene. Overall, this survey highlights the progression and diverse applications of semantically-aware neural radiance fields in the context of visual scene interpretation.
翻訳日:2024-02-20 23:15:56 公開日:2024-02-17
# 思考の促進:大規模言語モデルによる試行錯誤問題解決

Boosting of Thoughts: Trial-and-Error Problem Solving with Large Language Models ( http://arxiv.org/abs/2402.11140v1 )

ライセンス: Link先を確認
Sijia Chen, Baochun Li, Di Niu(参考訳) 大規模言語モデル(llm)の幅広い問題に対する推論性能は、いくつかの思考実証をプロンプトの例示として提供することを含む、思考の連鎖(chain-of-thought)のプロンプトに依存する。 最近の研究、例えば、Tree of Thoughtsは、複雑な問題解決のためのステップ選択の推論における探索と自己評価の重要性を指摘している。 本稿では,多くの思考木を反復的に探索し,自己評価することで,複雑な問題を解決するための新しい方法となる試行錯誤の推論経験のアンサンブルを得るために,llmを用いた問題解決のための自動プロンシングフレームワークであるboost of thoughts(bot)を提案する。 単純なプロンプトから例を必要とせずに始めると、BoTは反復的に推論ステップの集合を探索し評価し、さらに重要なことは、LSMから得られたエラー分析を使ってプロンプトを明示的に修正し、最終的な答えが得られるまで推論ステップの生成を増強する。 GPT-4とLlama2による複雑な数学的問題に対する実験は、BoTが他の先進的なプロンプト法よりも高いあるいは同等の問題解決率を達成することを示す。

The reasoning performance of Large Language Models (LLMs) on a wide range of problems critically relies on chain-of-thought prompting, which involves providing a few chain of thought demonstrations as exemplars in prompts. Recent work, e.g., Tree of Thoughts, has pointed out the importance of exploration and self-evaluation in reasoning step selection for complex problem solving. In this paper, we present Boosting of Thoughts (BoT), an automated prompting framework for problem solving with LLMs by iteratively exploring and self-evaluating many trees of thoughts in order to acquire an ensemble of trial-and-error reasoning experiences, which will serve as a new form of prompting to solve the complex problem. Starting from a simple prompt without requiring examples, BoT iteratively explores and evaluates a large collection of reasoning steps, and more importantly, uses error analysis obtained from the LLM on them to explicitly revise prompting, which in turn enhances reasoning step generation, until a final answer is attained. Our experiments with GPT-4 and Llama2 across extensive complex mathematical problems demonstrate that BoT consistently achieves higher or comparable problem-solving rates than other advanced prompting approaches.
翻訳日:2024-02-20 23:15:38 公開日:2024-02-17
# LiGNN: LinkedInのグラフニューラルネットワーク

LiGNN: Graph Neural Networks at LinkedIn ( http://arxiv.org/abs/2402.11139v1 )

ライセンス: Link先を確認
Fedor Borisyuk, Shihai He, Yunbo Ouyang, Morteza Ramezani, Peng Du, Xiaochen Hou, Chengming Jiang, Nitin Pasumarthy, Priya Bannur, Birjodh Tiwana, Ping Liu, Siddharth Dangi, Daqi Sun, Zhoutao Pei, Xiao Shi, Sirou Zhu, Qianqi Shen, Kuang-Hsuan Lee, David Stein, Baolei Li, Haichao Wei, Amol Ghoting, Souvik Ghosh(参考訳) 本稿では,大規模グラフニューラルネットワーク(gnns)フレームワークであるlignnについて述べる。 私たちはLinkedInで大規模にGNNの開発と展開に関する洞察を共有しています。 本稿では,長期的損失を伴う時間グラフアーキテクチャ,グラフ密度化による効率的なコールドスタートソリューション,ID埋め込み,マルチホップ近傍サンプリングなど,GNN表現学習の品質向上のためのアルゴリズム的改善を提案する。 私たちは、隣人の適応的なサンプリング、トレーニングデータバッチのグルーピングとスライシング、特別な共有メモリキュー、ローカル勾配最適化によって、linkedinグラフの大規模トレーニングを7倍で構築し、スピードアップした方法を説明します。 A/Bテストから集めたデプロイメントの教訓と学習を要約します。 この研究で示された技術は、ジョブアプリケーションの聴覚バックレートの1%、広告CTRリフトの2%、フィードアクティブユーザーの0.5%、セッションリフト0.2%、週刊アクティブユーザリフト0.1%の相対的な改善に寄与している。 この研究は、グラフニューラルネットワークを大規模に適用することに関心のあるエンジニアに、実用的なソリューションと洞察を提供するものだと考えています。

In this paper, we present LiGNN, a deployed large-scale Graph Neural Networks (GNNs) Framework. We share our insight on developing and deployment of GNNs at large scale at LinkedIn. We present a set of algorithmic improvements to the quality of GNN representation learning including temporal graph architectures with long term losses, effective cold start solutions via graph densification, ID embeddings and multi-hop neighbor sampling. We explain how we built and sped up by 7x our large-scale training on LinkedIn graphs with adaptive sampling of neighbors, grouping and slicing of training data batches, specialized shared-memory queue and local gradient optimization. We summarize our deployment lessons and learnings gathered from A/B test experiments. The techniques presented in this work have contributed to an approximate relative improvements of 1% of Job application hearing back rate, 2% Ads CTR lift, 0.5% of Feed engaged daily active users, 0.2% session lift and 0.1% weekly active user lift from people recommendation. We believe that this work can provide practical solutions and insights for engineers who are interested in applying Graph neural networks at large scale.
翻訳日:2024-02-20 23:15:15 公開日:2024-02-17
# コントラスト命令チューニング

Contrastive Instruction Tuning ( http://arxiv.org/abs/2402.11138v1 )

ライセンス: Link先を確認
Tianyi Yan, Fei Wang, James Y. Huang, Wenxuan Zhou, Fan Yin, Aram Galstyan, Wenpeng Yin, Muhao Chen(参考訳) 命令チューニングは、大きな言語モデル(llm)の性能を改善するための有望なアプローチとして使われてきた。 しかし、現在のLLMは、未確認の命令に対して限られた堅牢性を示し、同じ命令がわずかに異なる形式や言語スタイルで言い換えられたときに、一貫性のない出力を生成する。 この行動は、LLMのテキストのバリエーションに対する堅牢性の欠如と、見つからない命令に対する一般化性を示し、信頼性の問題につながる可能性がある。 そこで本研究では,意味的に等価な命令-インスタンスペアの隠れ表現間の類似性を最大化し,意味的に異なる命令間の類似性を最小化するContrastive Instruction Tuningを提案する。 このアプローチを容易にするために,タスク命令を言い換えることで既存のFLANコレクションを増強する。 PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。

Instruction tuning has been used as a promising approach to improve the performance of large language models (LLMs) on unseen tasks. However, current LLMs exhibit limited robustness to unseen instructions, generating inconsistent outputs when the same instruction is phrased with slightly varied forms or language styles. This behavior indicates LLMs' lack of robustness to textual variations and generalizability to unseen instructions, potentially leading to trustworthiness issues. Accordingly, we propose Contrastive Instruction Tuning, which maximizes the similarity between the hidden representations of semantically equivalent instruction-instance pairs while minimizing the similarity between semantically different ones. To facilitate this approach, we augment the existing FLAN collection by paraphrasing task instructions. Experiments on the PromptBench benchmark show that CoIN consistently improves LLMs' robustness to unseen instructions with variations across character, word, sentence, and semantic levels by an average of +2.5% in accuracy.
翻訳日:2024-02-20 23:14:55 公開日:2024-02-17
# KnowTuning: 大規模言語モデルのための知識対応ファインチューニング

KnowTuning: Knowledge-aware Fine-tuning for Large Language Models ( http://arxiv.org/abs/2402.11176v1 )

ライセンス: Link先を確認
Yougang Lyu, Lingyong Yan, Shuaiqiang Wang, Haibo Shi, Dawei Yin, Pengjie Ren, Zhumin Chen, Maarten de Rijke, Zhaochun Ren(参考訳) 多くの自然言語処理(NLP)タスクで成功したにも拘わらず、大きな言語モデル(LLM)は知識集約的なタスクの知識を効果的に活用することに苦慮し、不完全、非実効的、または非論理的な回答を生成するような限界を示す。 これらの制限は、バニラの微調整におけるllmの知識の不十分さに起因する。 これらの問題に対処するために,LLMの知識認識を明確かつ暗黙的に改善する知識対応微調整(KnowTuning)手法を提案する。 llmをトレーニングし、回答の3つの知識を明確に識別するために、明示的な知識認識生成ステージを考案する。 また,LLMを学習し,信頼できない知識と信頼できない知識とを,完全性,事実性,論理性という3つの側面で区別することを提案する。 総合的および医療的質問応答(QA)データセットの広範な実験により、LLMのさまざまなサイズにわたる自動的および人的評価を通じて、KnowTuningの有効性が確認された。 最後に、KnowTuningの改善が、目に見えないQAデータセットに一般化されることを実証する。

Despite their success at many natural language processing (NLP) tasks, large language models (LLMs) still struggle to effectively leverage knowledge for knowledge-intensive tasks, manifesting limitations such as generating incomplete, non-factual, or illogical answers. These limitations stem from inadequate knowledge awareness of LLMs during vanilla fine-tuning. To address these problems, we propose a knowledge-aware fine-tuning (KnowTuning) method to explicitly and implicitly improve the knowledge awareness of LLMs. We devise an explicit knowledge-aware generation stage to train LLMs to explicitly identify knowledge triples in answers. We also propose an implicit knowledge-aware comparison stage to train LLMs to implicitly distinguish between reliable and unreliable knowledge, in three aspects: completeness, factuality, and logicality. Extensive experiments on both generic and medical question answering (QA) datasets confirm the effectiveness of KnowTuning, through automatic and human evaluations, across various sizes of LLMs. Finally, we demonstrate that the improvements of KnowTuning generalize to unseen QA datasets.
翻訳日:2024-02-20 23:03:26 公開日:2024-02-17
# M4GT-Bench:ブラックボックスマシン生成テキスト検出のための評価ベンチマーク

M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text Detection ( http://arxiv.org/abs/2402.11175v1 )

ライセンス: Link先を確認
Yuxia Wang, Jonibek Mansurov, Petar Ivanov, Jinyan Su, Artem Shelmanov, Akim Tsvigun, Osama Mohanned Afzal, Tarek Mahmoud, Giovanni Puccetti, Thomas Arnold, Alham Fikri Aji, Nizar Habash, Iryna Gurevych, Preslav Nakov(参考訳) LLM(Large Language Models)の出現は、様々なチャネルにわたる機械生成テキスト(MGT)の急上昇をもたらした。 これは、その潜在的な誤用と社会的意味に関する正当な懸念を引き起こす。 これらの内容と本物の人間生成テキストを識別し区別することの必要性は、偽情報と戦うこと、教育と科学分野の整合性を維持すること、コミュニケーションへの信頼を維持するために重要である。 本研究では,MGT検出のための多言語,マルチドメイン,マルチジェネレータを含む新しいベンチマークであるM4GT-Benchを導入することで,この問題に対処する。 1) 単言語性および多言語性mgtの検出、(2) 特定のモデルがテキストを生成するかを特定するマルチウェイ検出、(3) 人間が書いたコンテンツからmgtを識別する単語境界を決定するためのヒューマンマシン混合テキスト検出の3つのタスク定式化で収集する。 タスク2の人間による評価は、ランダムな推測性能よりも低く、ユニークなLLMを区別する上での課題を示す。 トレーニングとテストデータが同じドメインやジェネレータ内で分散する場合、結果のプロミシングは常に発生する。

The advent of Large Language Models (LLMs) has brought an unprecedented surge in machine-generated text (MGT) across diverse channels. This raises legitimate concerns about its potential misuse and societal implications. The need to identify and differentiate such content from genuine human-generated text is critical in combating disinformation, preserving the integrity of education and scientific fields, and maintaining trust in communication. In this work, we address this problem by introducing a new benchmark involving multilingual, multi-domain and multi-generator for MGT detection -- M4GT-Bench. It is collected for three task formulations: (1) mono-lingual and multi-lingual binary MGT detection; (2) multi-way detection identifies which particular model generates the text; and (3) human-machine mixed text detection, where a word boundary delimiting MGT from human-written content should be determined. Human evaluation for Task 2 shows less than random guess performance, demonstrating the challenges to distinguish unique LLMs. Promising results always occur when training and test data distribute within the same domain or generators.
翻訳日:2024-02-20 23:03:04 公開日:2024-02-17
# 勾配を小さくする方法:差分プライベートな非凸最適化のための改善率

How to Make the Gradients Small Privately: Improved Rates for Differentially Private Non-Convex Optimization ( http://arxiv.org/abs/2402.11173v1 )

ライセンス: Link先を確認
Andrew Lowy, Jonathan Ullman, Stephen J. Wright(参考訳) 非凸損失関数の近似定常点を求めるために微分プライベートアルゴリズムを設計するための、単純で柔軟なフレームワークを提供する。 提案手法は, 静止点探索のための別のプライベートアルゴリズム「ウォームスタート」に, プライベート近似リスク最小化器を用いたものである。 このフレームワークを用いて、いくつかの非凸損失関数のクラスに対して改善され、時には最適となるレートを得る。 まず, 滑らかな非凸経験的損失関数の定常点を求めるための改善率を求める。 第2に、星凸関数を一般化し、力学系の学習やニューラルネットの訓練において生じるクエーサー凸関数を専門とする。 私たちはこのクラスの最適率を達成する。 第3に,kurdyka-lojasiewicz (kl)条件を満たす関数の定常点を求めるための最適アルゴリズムを提案する。 例えば、過パラメータニューラルネットワークは、しばしばこの条件を満たす。 第4に、非凸人口減少関数の定常点に対する新しい最先端率を提供する。 第5に、非凸一般化線形モデルの改善率を得る。 このアルゴリズムの修正は、リプシッツ・ヘッシアン関数の2次定常点に対してほぼ同じ速度を達成し、上記の各問題に対する以前の状態よりも改善される。

We provide a simple and flexible framework for designing differentially private algorithms to find approximate stationary points of non-convex loss functions. Our framework is based on using a private approximate risk minimizer to "warm start" another private algorithm for finding stationary points. We use this framework to obtain improved, and sometimes optimal, rates for several classes of non-convex loss functions. First, we obtain improved rates for finding stationary points of smooth non-convex empirical loss functions. Second, we specialize to quasar-convex functions, which generalize star-convex functions and arise in learning dynamical systems and training some neural nets. We achieve the optimal rate for this class. Third, we give an optimal algorithm for finding stationary points of functions satisfying the Kurdyka-Lojasiewicz (KL) condition. For example, over-parameterized neural networks often satisfy this condition. Fourth, we provide new state-of-the-art rates for stationary points of non-convex population loss functions. Fifth, we obtain improved rates for non-convex generalized linear models. A modification of our algorithm achieves nearly the same rates for second-order stationary points of functions with Lipschitz Hessian, improving over the previous state-of-the-art for each of the above problems.
翻訳日:2024-02-20 23:02:44 公開日:2024-02-17
# Black-Box Probabilistic Certification による説明のための信頼領域

Trust Regions for Explanations via Black-Box Probabilistic Certification ( http://arxiv.org/abs/2402.11168v1 )

ライセンス: Link先を確認
Amit Dhurandhar, Swagatam Haldar, Dennis Wei and Karthikeyan Natesan Ramamurthy(参考訳) 機械学習モデルのブラックボックスの性質を考えると、個々の決定の背後にある要因を解読するために、多くの説明可能性法が開発されている。 本稿では,ブラックボックス(確率的)説明証明の新たな問題を提案する。 クエリアクセスのみを持つブラックボックスモデル、例の説明と品質指標(viz.fidelity, stability)が与えられた場合、ハイパーキューブ内のすべての例に説明が適用される場合(高い確率で)、品質基準が満たされる場合(viz.fidelityはいくつかの値よりも大きい)、その例を中心とした最大のハイパーキューブ($\ell_{\infty}$ ball)を見つけることができるか? そのような \emph{trust region} を効率的に見つけることは、いくつかの利点がある。 i) \emph{ Region}, with a \emph{guarantee}におけるモデル行動に関する洞察 二 説明のemph{stability}を確定する。 三 あらゆる例について説明をしなくてすむことにより、時間、エネルギー及びお金を節約できる「emph{explanation reuse}」 iv) 説明方法の比較可能な \emph{meta-metric} 。 私たちの貢献には、この問題の形式化、ソリューションの提案、計算可能なこれらのソリューションに対する理論的保証の提供、合成および実データに対するそれらの有効性を実験的に示すことが含まれる。

Given the black box nature of machine learning models, a plethora of explainability methods have been developed to decipher the factors behind individual decisions. In this paper, we introduce a novel problem of black box (probabilistic) explanation certification. We ask the question: Given a black box model with only query access, an explanation for an example and a quality metric (viz. fidelity, stability), can we find the largest hypercube (i.e., $\ell_{\infty}$ ball) centered at the example such that when the explanation is applied to all examples within the hypercube, (with high probability) a quality criterion is met (viz. fidelity greater than some value)? Being able to efficiently find such a \emph{trust region} has multiple benefits: i) insight into model behavior in a \emph{region}, with a \emph{guarantee}; ii) ascertained \emph{stability} of the explanation; iii) \emph{explanation reuse}, which can save time, energy and money by not having to find explanations for every example; and iv) a possible \emph{meta-metric} to compare explanation methods. Our contributions include formalizing this problem, proposing solutions, providing theoretical guarantees for these solutions that are computable, and experimentally showing their efficacy on synthetic and real data.
翻訳日:2024-02-20 23:02:22 公開日:2024-02-17
# トークンアンサンブルテキスト生成:AIによる自動テキスト検出の攻撃について

Token-Ensemble Text Generation: On Attacking the Automatic AI-Generated Text Detection ( http://arxiv.org/abs/2402.11167v1 )

ライセンス: Link先を確認
Fan Huang, Haewoon Kwak, Jisun An(参考訳) aiコンテンツ検出モデルの耕作攻撃(パラフレージングやワードスイッチなど)に対する堅牢性は、依然として重要な関心事である。 本研究では,現在のAIコンテンツ検出手法の堅牢性に挑戦するトークンアンサンブル生成手法を提案する。 ランダムな候補LLMから生成された次のトークンでプロンプトを完了することで,アンサンブル攻撃戦略を探索する。 トークンアンサンブルアプローチはAIコンテンツ検出モデルの性能を著しく低下させる(コードとテストセットがリリースされる)。 以上の結果から,トークン・センス・ジェネレーションは現在の検出モデルにとって重要な課題であり,高度な敵戦略に対抗するための検出技術の進歩の必要性を示唆する。

The robustness of AI-content detection models against cultivated attacks (e.g., paraphrasing or word switching) remains a significant concern. This study proposes a novel token-ensemble generation strategy to challenge the robustness of current AI-content detection approaches. We explore the ensemble attack strategy by completing the prompt with the next token generated from random candidate LLMs. We find the token-ensemble approach significantly drops the performance of AI-content detection models (The code and test sets will be released). Our findings reveal that token-ensemble generation poses a vital challenge to current detection models and underlines the need for advancing detection technologies to counter sophisticated adversarial strategies.
翻訳日:2024-02-20 23:01:59 公開日:2024-02-17
# GenDec:マルチホップ推論のための堅牢な生成的質問分解手法

GenDec: A robust generative Question-decomposition method for Multi-hop reasoning ( http://arxiv.org/abs/2402.11166v1 )

ライセンス: Link先を確認
Jian Wu and Linyi Yang and Yuliang Ji and Wenhao Huang and B\"orje F. Karlsson and Manabu Okumura(参考訳) マルチホップQA(MHQA)は、複雑な質問に答え、複数の関連するサポート事実を見つけるためのステップバイステップの推論を含む。 しかし、マルチホップ質問応答における既存の大規模言語モデル(llms)の推論能力は、マルチホップ質問に答えるには不十分である。 さらに、LLMが正しい最終解を得るために望ましい推論連鎖に従うかどうかは不明である。 本稿では,rag における llms の推論能力を高めるための追加抽出証拠を組み込んだ独立かつ完全サブクエスチョーションを生成することにより,説明可能な qa の観点から,\textbf{gen}erative question \textbf{dec}omposition method (gendec) を提案する。 Gendecの効果, 一般化, 堅牢性を示すために, 我々は2つの実験を行い, 第一に, 段落検索とQAタスクにおけるGenDecと小さなQAシステムを組み合わせる。 第2に,GenDecと組み合わせた GPT-4 と GPT-3.5 を含む様々な最先端 LLM の推論能力について検討した。 我々はHotpotQA, 2WikihopMultiHopQA, MuSiQue, PokeMQAデータセットについて実験を行った。

Multi-hop QA (MHQA) involves step-by-step reasoning to answer complex questions and find multiple relevant supporting facts. However, Existing large language models'(LLMs) reasoning ability in multi-hop question answering remains exploration, which is inadequate in answering multi-hop questions. Moreover, it is unclear whether LLMs follow a desired reasoning chain to reach the right final answer. In this paper, we propose a \textbf{gen}erative question \textbf{dec}omposition method (GenDec) from the perspective of explainable QA by generating independent and complete sub-questions based on incorporating additional extracted evidence for enhancing LLMs' reasoning ability in RAG. To demonstrate the impact, generalization, and robustness of Gendec, we conduct two experiments, the first is combining GenDec with small QA systems on paragraph retrieval and QA tasks. We secondly examine the reasoning capabilities of various state-of-the-art LLMs including GPT-4 and GPT-3.5 combined with GenDec. We experiment on the HotpotQA, 2WikihopMultiHopQA, MuSiQue, and PokeMQA datasets.
翻訳日:2024-02-20 23:01:45 公開日:2024-02-17
# KG-Agent:知識グラフ上の複雑な推論のための効率的な自律エージェントフレームワーク

KG-Agent: An Efficient Autonomous Agent Framework for Complex Reasoning over Knowledge Graph ( http://arxiv.org/abs/2402.11163v1 )

ライセンス: Link先を確認
Jinhao Jiang, Kun Zhou, Wayne Xin Zhao, Yang Song, Chen Zhu, Hengshu Zhu, Ji-Rong Wen(参考訳) 本稿では,知識グラフ(kgs)よりも大規模言語モデル(llm)の推論能力を向上し,複雑な質問に答えることを目的とする。 そこで我々は,LLMとKGのインタラクション戦略を設計する既存の手法に着想を得て,KG-Agentと呼ばれる自律型LLMベースのエージェントフレームワークを提案する。 KG-Agentでは、LLM、多機能ツールボックス、KGベースのエグゼキュータ、知識メモリを統合し、ツールを自律的に選択し、KG上の推論のためにメモリを更新するイテレーションメカニズムを開発する。 有効性を保証するため,プログラム言語を用いてkg上のマルチホップ推論プロセスを定式化し,ベースllmを微調整するコードベースの命令データセットを合成する。 大規模な実験では、LLaMA-7Bのチューニングに10Kサンプルのみを使用することで、ドメイン内およびドメイン外の両方のデータセットにおいて、より大きなLLMまたはそれ以上のデータを使用して最先端のメソッドよりパフォーマンスがよいことが示されている。 私たちのコードとデータは公開される予定だ。

In this paper, we aim to improve the reasoning ability of large language models (LLMs) over knowledge graphs (KGs) to answer complex questions. Inspired by existing methods that design the interaction strategy between LLMs and KG, we propose an autonomous LLM-based agent framework, called KG-Agent, which enables a small LLM to actively make decisions until finishing the reasoning process over KGs. In KG-Agent, we integrate the LLM, multifunctional toolbox, KG-based executor, and knowledge memory, and develop an iteration mechanism that autonomously selects the tool then updates the memory for reasoning over KG. To guarantee the effectiveness, we leverage program language to formulate the multi-hop reasoning process over the KG, and synthesize a code-based instruction dataset to fine-tune the base LLM. Extensive experiments demonstrate that only using 10K samples for tuning LLaMA-7B can outperform state-of-the-art methods using larger LLMs or more data, on both in-domain and out-domain datasets. Our code and data will be publicly released.
翻訳日:2024-02-20 23:01:23 公開日:2024-02-17
# 対訳テキストガイド付きコントラスト言語-画像事前学習によるニュースサムネイル表現の理解

Understanding News Thumbnail Representativeness by Counterfactual Text-Guided Contrastive Language-Image Pretraining ( http://arxiv.org/abs/2402.11159v1 )

ライセンス: Link先を確認
Yejun Yoon, Seunghyun Yoon, and Kunwoo Park(参考訳) 本稿では,ニュースサムネイル画像の表現性を理解する上で重要な課題について述べる。 ニュース画像がニューステキストで議論される主主題を表現しているかに注目した。 この課題に対処するために,ニュースサムネイル画像とテキストペアを手動でアノテートしたデータセットである \textsc{NewsTT} を導入する。 clipやblip-2といった事前訓練済みのビジョンと言語モデルがこのタスクに苦労していることが分かりました。 ニュースの主題は、しばしば名前付きエンティティや固有名詞を含むため、事前訓練されたモデルは、その視覚とテキストの外観にマッチすることができない。 そこで本研究では,テキスト誘導型コントラスト言語画像事前学習フレームワークであるCFT-CLIPを提案する。 我々は、ニューステキストと、その名前のついたエンティティを置き換えた反事実を対比する学習が、ターゲットタスクにおけるクロスモーダルマッチング能力を高めることができると仮定する。 NewsTTを用いた評価実験では、CLIPやBLIP-2といった事前学習モデルよりもCFT-CLIPの方が優れていた。 私たちのコードとデータは、論文が受け入れられた後、一般公開されます。

This paper delves into the critical challenge of understanding the representativeness of news thumbnail images, which often serve as the first visual engagement for readers when an article is disseminated on social media. We focus on whether a news image represents the main subject discussed in the news text. To serve the challenge, we introduce \textsc{NewsTT}, a manually annotated dataset of news thumbnail image and text pairs. We found that pretrained vision and language models, such as CLIP and BLIP-2, struggle with this task. Since news subjects frequently involve named entities or proper nouns, a pretrained model could not have the ability to match its visual and textual appearances. To fill the gap, we propose CFT-CLIP, a counterfactual text-guided contrastive language-image pretraining framework. We hypothesize that learning to contrast news text with its counterfactual, of which named entities are replaced, can enhance the cross-modal matching ability in the target task. Evaluation experiments using NewsTT show that CFT-CLIP outperforms the pretrained models, such as CLIP and BLIP-2. Our code and data will be made accessible to the public after the paper is accepted.
翻訳日:2024-02-20 23:01:01 公開日:2024-02-17
# 効率的な低ランク行列推定、実験設計およびアームセット依存低ランクバンディット

Efficient Low-Rank Matrix Estimation, Experimental Design, and Arm-Set-Dependent Low-Rank Bandits ( http://arxiv.org/abs/2402.11156v1 )

ライセンス: Link先を確認
Kyoungseok Jang, Chicheng Zhang, Kwang-Sung Jun(参考訳) 低ランク行列のトレースレグレッションとその関連問題について検討する。 共変量の分布へのアクセスを仮定し, 低ポパルトと呼ばれる新しい低ランク行列推定法を提案し, q が測定分布の共分散行列である問題の硬さを特徴付ける b(q) で表される新しい量に依存する回復保証を提供する。 提案手法は,いくつかの問題において,古典的核規範による最小二乗法 (Koltchinskii et al., 2011) よりも厳密な回復保証を提供できることを示す。 任意に与えられた測定セットAから限られた数の測定値で効率的な推定を行うために,B(Q)を計算効率で最小化する新しい設計基準を提案する。 我々は,新しい推定器と実験の設計を活用し,後悔の上限を改良した一般アームセットのための2つの低ランク線形バンディットアルゴリズムを導出する。 これは、アームセットが単位球である、あるいは効率的な探索分布が与えられるというやや制限的な仮定を下級バンディットに関する以前の研究よりも改善する。 私たちの知る限りでは、実験的な設計基準は、線形回帰へのナイーブな還元を超えた低ランク行列推定に適応した最初のものである。

We study low-rank matrix trace regression and the related problem of low-rank matrix bandits. Assuming access to the distribution of the covariates, we propose a novel low-rank matrix estimation method called LowPopArt and provide its recovery guarantee that depends on a novel quantity denoted by B(Q) that characterizes the hardness of the problem, where Q is the covariance matrix of the measurement distribution. We show that our method can provide tighter recovery guarantees than classical nuclear norm penalized least squares (Koltchinskii et al., 2011) in several problems. To perform efficient estimation with a limited number of measurements from an arbitrarily given measurement set A, we also propose a novel experimental design criterion that minimizes B(Q) with computational efficiency. We leverage our novel estimator and design of experiments to derive two low-rank linear bandit algorithms for general arm sets that enjoy improved regret upper bounds. This improves over previous works on low-rank bandits, which make somewhat restrictive assumptions that the arm set is the unit ball or that an efficient exploration distribution is given. To our knowledge, our experimental design criterion is the first one tailored to low-rank matrix estimation beyond the naive reduction to linear regression, which can be of independent interest.
翻訳日:2024-02-20 23:00:38 公開日:2024-02-17
# 一般化を超えて - グラフの外部分布適応に関する調査

Beyond Generalization: A Survey of Out-Of-Distribution Adaptation on Graphs ( http://arxiv.org/abs/2402.11153v1 )

ライセンス: Link先を確認
Shuhan Liu, Kaize Ding(参考訳) グラフ上の分散シフト -- グラフ機械学習モデルのトレーニングとテストの間のデータ分散の相違は、しばしばユビキタスで、現実のシナリオでは避けられない。 このようなシフトはモデルのパフォーマンスを著しく低下させ、信頼できるグラフ機械学習にとって大きな課題となる可能性がある。 その結果、分布シフトを緩和し、ある分布から別の分布へ知識を適応させることを目的としたグラフ外分布適応法(OOD)の研究が急増した。 本調査では,OOD適応法とテスト時間グラフOOD適応の2つの主要な問題シナリオを網羅し,最新のOOD適応法を概観する。 まず、2つの問題を形式的に定式化し、グラフ上の異なる種類の分布シフトについて論じる。 提案するグラフOOD適応分類法に基づいて,既存の手法を学習パラダイムに従って体系的に分類し,その背後にある技術について検討する。 最後に,有望な研究の方向性と対応課題を指摘する。 また、https://github.com/kaize0409/Awesome-Graph-OOD-Adaptation.gitで継続的に更新された読み込みリストも提供します。

Distribution shifts on graphs -- the data distribution discrepancies between training and testing a graph machine learning model, are often ubiquitous and unavoidable in real-world scenarios. Such shifts may severely deteriorate the performance of the model, posing significant challenges for reliable graph machine learning. Consequently, there has been a surge in research on graph Out-Of-Distribution (OOD) adaptation methods that aim to mitigate the distribution shifts and adapt the knowledge from one distribution to another. In our survey, we provide an up-to-date and forward-looking review of graph OOD adaptation methods, covering two main problem scenarios including training-time as well as test-time graph OOD adaptation. We start by formally formulating the two problems and then discuss different types of distribution shifts on graphs. Based on our proposed taxonomy for graph OOD adaptation, we systematically categorize the existing methods according to their learning paradigm and investigate the techniques behind them. Finally, we point out promising research directions and the corresponding challenges. We also provide a continuously updated reading list at https://github.com/kaize0409/Awesome-Graph-OOD-Adaptation.git
翻訳日:2024-02-20 23:00:16 公開日:2024-02-17
# SBOM(Software Bill of Materials)におけるオープンソースとプロプライエタリツールの景観調査

A Landscape Study of Open Source and Proprietary Tools for Software Bill of Materials (SBOM) ( http://arxiv.org/abs/2402.11151v1 )

ライセンス: Link先を確認
Mehdi Mirakhorli, Derek Garcia, Schuyler Dillon, Kevin Laporte, Matthew Morrison, Henry Lu, Viktoria Koscinski, Christopher Enoch(参考訳) 現代のソフトウェアアプリケーションは、様々なベンダーやオープンソースリポジトリから派生した多様なサードパーティのコンポーネント、ライブラリ、フレームワークに大きく依存しており、ソフトウェアサプライチェーンを確保するための複雑な課題を提示している。 この複雑さに対処するため、Software Bill of Materials(SBOM)の採用が有望なソリューションとして現れ、アプリケーションで使用されるすべてのサードパーティコンポーネントと依存関係を発明する集中リポジトリを提供する。 最近SolarWinds攻撃によって実証されたサプライチェーンの侵害は、ソフトウェアセキュリティを強化し、脆弱性リスクを軽減する緊急の必要性を強調し、SBOMは潜在的な脆弱性、時代遅れのコンポーネント、およびサポート要素を明らかにすることで、この取り組みにおいて重要な役割を果たす。 本研究では、SBOMに関連するオープンソースおよびプロプライエタリツールの現在の状況を評価するために、広範な実証分析を行う。 ソフトウェアサプライチェーンのセキュリティにおける新たなユースケースを調査し,SBOM技術のギャップを特定する。 分析には84のツールが含まれており、現在の市場のスナップショットを提供し、改善すべき領域を強調しています。

Modern software applications heavily rely on diverse third-party components, libraries, and frameworks sourced from various vendors and open source repositories, presenting a complex challenge for securing the software supply chain. To address this complexity, the adoption of a Software Bill of Materials (SBOM) has emerged as a promising solution, offering a centralized repository that inventories all third-party components and dependencies used in an application. Recent supply chain breaches, exemplified by the SolarWinds attack, underscore the urgent need to enhance software security and mitigate vulnerability risks, with SBOMs playing a pivotal role in this endeavor by revealing potential vulnerabilities, outdated components, and unsupported elements. This research paper conducts an extensive empirical analysis to assess the current landscape of open-source and proprietary tools related to SBOM. We investigate emerging use cases in software supply chain security and identify gaps in SBOM technologies. Our analysis encompasses 84 tools, providing a snapshot of the current market and highlighting areas for improvement.
翻訳日:2024-02-20 22:59:57 公開日:2024-02-17
# 変換型教師マッチングに基づく知識蒸留

Knowledge Distillation Based on Transformed Teacher Matching ( http://arxiv.org/abs/2402.11148v1 )

ライセンス: Link先を確認
Kaixiang Zheng and En-Hui Yang(参考訳) ロジットマッチングと確率分布マッチングを橋渡しする技術として、温度スケーリングは知識蒸留(KD)において重要な役割を果たす。 伝統的に、KDにおける教師のロジットと生徒のロジットの両方に温度スケーリングが適用される。 本稿では,近年の研究成果に動機づけられて,生徒側の温度スケールを下げ,kdの変種であるttm(transform teacher matching)を体系的に研究する。 温度スケーリングを確率分布のパワー変換として再解釈することにより、元のKDと比較して、TTMは目的関数に固有のR'enyiエントロピー項を持ち、余剰正規化項として機能することを示す。 この本質的な正規化により、TTMは元のKDよりも優れた一般化の訓練を受けた学生を導いた。 さらに,教師のパワー変換確率分布に適合する生徒の能力を高めるために,サンプル適応重み付け係数をTTMに導入し,新しい蒸留手法をWTTM(hetered TTM)と呼ぶ。 包括的実験により、WTTMは単純であるが、有効であり、TTMにより改善され、最先端の精度性能が得られることを示した。 ソースコードはhttps://github.com/zkxufo/ttmで入手できます。

As a technique to bridge logit matching and probability distribution matching, temperature scaling plays a pivotal role in knowledge distillation (KD). Conventionally, temperature scaling is applied to both teacher's logits and student's logits in KD. Motivated by some recent works, in this paper, we drop instead temperature scaling on the student side, and systematically study the resulting variant of KD, dubbed transformed teacher matching (TTM). By reinterpreting temperature scaling as a power transform of probability distribution, we show that in comparison with the original KD, TTM has an inherent R\'enyi entropy term in its objective function, which serves as an extra regularization term. Extensive experiment results demonstrate that thanks to this inherent regularization, TTM leads to trained students with better generalization than the original KD. To further enhance student's capability to match teacher's power transformed probability distribution, we introduce a sample-adaptive weighting coefficient into TTM, yielding a novel distillation approach dubbed weighted TTM (WTTM). It is shown, by comprehensive experiments, that although WTTM is simple, it is effective, improves upon TTM, and achieves state-of-the-art accuracy performance. Our source code is available at https://github.com/zkxufo/TTM.
翻訳日:2024-02-20 22:59:38 公開日:2024-02-17
# 対話型ビデオの人間行動分析のためのマルチモーダル機械学習ツールによるエキスパート支援

Supporting Experts with a Multimodal Machine-Learning-Based Tool for Human Behavior Analysis of Conversational Videos ( http://arxiv.org/abs/2402.11145v1 )

ライセンス: Link先を確認
Riku Arakawa and Kiyosu Maeda and Hiromu Yakura(参考訳) 会話のマルチモーダルなシーン検索は、社会的ダイナミクスの貴重な洞察を解き明かし、コミュニケーションを強化するために不可欠である。 会話分析の専門家は、重要なシーンを見つけるための独自の知識とスキルを持っているが、多様なマルチモーダルクエリの処理を合理化する包括的でユーザフレンドリーなツールの欠如は、効率と客観性を妨げる。 そこで我々は,専門家による形成的研究から得られた設計上の考察に基づくビジュアルプログラミングベースのツールであるprovidenceを開発した。 さまざまな機械学習アルゴリズムを組み合わせて、コードを書かずに人間の行動の手がかりを捉えることができる。 本研究は,会話のシーン探索タスクの遂行に要する認知負荷が少なく,ユーザビリティと満足度の高いアウトプットを示し,カスタマイズ可能性と透明性の重要性を検証した。 さらに、現在進行中の試行を通じて、ツールトランスフォーメーションの専門家のワークフローの客観性と再利用性を確認し、高度にヒューマンコンテキストのドメインにおけるエキスパートとAIのコラボレーションの利点を示唆した。

Multimodal scene search of conversations is essential for unlocking valuable insights into social dynamics and enhancing our communication. While experts in conversational analysis have their own knowledge and skills to find key scenes, a lack of comprehensive, user-friendly tools that streamline the processing of diverse multimodal queries impedes efficiency and objectivity. To solve it, we developed Providence, a visual-programming-based tool based on design considerations derived from a formative study with experts. It enables experts to combine various machine learning algorithms to capture human behavioral cues without writing code. Our study showed its preferable usability and satisfactory output with less cognitive load imposed in accomplishing scene search tasks of conversations, verifying the importance of its customizability and transparency. Furthermore, through the in-the-wild trial, we confirmed the objectivity and reusability of the tool transform experts' workflow, suggesting the advantage of expert-AI teaming in a highly human-contextual domain.
翻訳日:2024-02-20 22:59:14 公開日:2024-02-17
# 本質の把握:ゼロショット関係抽出のための大規模言語モデルの調整

Grasping the Essentials: Tailoring Large Language Models for Zero-Shot Relation Extraction ( http://arxiv.org/abs/2402.11142v1 )

ライセンス: Link先を確認
Sizhe Zhou, Yu Meng, Bowen Jin, Jiawei Han(参考訳) NLPにおける重要なタスクである関係抽出(RE)は、テキストに言及されたエンティティ間の意味的関係を特定することを目的としている。 この分野での大きな進歩にもかかわらず、既存のモデルは通常、トレーニングのための広範囲な注釈付きデータに依存している。 さらに、これらのモデルは、しばしば新しい、または見えない関係に適応するのに苦労する。 対照的に、アノテーションの要求を減らし、ターゲット関係のセマンティクスを理解するために、不完全で偏りのある監視を提供する少数ショットの学習設定は、劣化し不安定なパフォーマンスをもたらす。 関係型の正確かつ明示的な記述とアノテーション要件の最小化を目的として,自然言語で表現された関係定義のみを用いてREモデルを訓練するゼロショットRE設定について検討した。 本研究では, LLMの強力な合成データ生成能力に触発されたフレームワークREPaLを提案する。(1) LLMを用いて, 関係定義と未ラベルコーパスに基づく初期シードインスタンスを生成する。 2) 対象領域との関係を学習するために,これらの初期種を用いた双方向小言語モデル(SLM)を微調整する。 (3)SLMの未ラベルコーパスに対する予測から得られたフィードバックを取り入れることで,初期種子の限られた数から生じるパターンカバレッジとバイアスを軽減する。 これを実現するために、LLMのマルチターン会話機能を活用し、フォローアップ対話で新しいインスタンスを生成する。 2つのデータセットの実験では、REPaLはベースラインメソッドよりも大きなマージンでゼロショットのパフォーマンスが向上している。

Relation extraction (RE), a crucial task in NLP, aims to identify semantic relationships between entities mentioned in texts. Despite significant advancements in this field, existing models typically rely on extensive annotated data for training, which can be both costly and time-consuming to acquire. Moreover, these models often struggle to adapt to new or unseen relationships. In contrast, few-shot learning settings, which aim to reduce annotation requirements, may offer incomplete and biased supervision for understanding target relation semantics, leading to degraded and unstable performance. To provide the model with accurate and explicit descriptions of the relations types and meanwhile minimize the annotation requirements, we study the definition only zero-shot RE setting where only relation definitions expressed in natural language are used to train a RE model. Motivated by the strong synthetic data generation power of LLMs, we propose a framework REPaL which consists of three stages: (1) We utilize LLMs to generate initial seed instances based on relation definitions and an unlabeled corpora. (2) We fine-tune a bidirectional Small Language Model (SLM) using these initial seeds to learn the relations for the target domain. (3) We enhance pattern coverage and mitigate bias resulting from the limited number of initial seeds by incorporating feedback acquired from SLM's predictions on unlabeled corpora. To accomplish this, we leverage the multi-turn conversation ability of LLMs to generate new instances in follow-up dialogues. Experiments on two datasets show REPaL achieves better zero-shot performance with large margins over baseline methods.
翻訳日:2024-02-20 22:58:54 公開日:2024-02-17
# HEAL:脳にインスパイアされた高次元能動的学習

HEAL: Brain-inspired Hyperdimensional Efficient Active Learning ( http://arxiv.org/abs/2402.11223v1 )

ライセンス: Link先を確認
Yang Ni, Zhuowen Zou, Wenjun Huang, Hanning Chen, William Youngwoo Chung, Samuel Cho, Ranganath Krishnan, Pietro Mercati, Mohsen Imani(参考訳) 人間の脳の卓越した学習能力からインスピレーションを得た超次元コンピューティング(HDC)は、新しいコンピューティングパラダイムとして登場し、脳に似た軽量機械学習(ML)のための高次元ベクトルプレゼンテーションと操作を活用する。 HDCの実践的な展開は、幅広いアプリケーションにおける現在の深層ML手法と比較して学習効率を大幅に向上させた。 しかし,教師付き学習におけるhdc分類器のデータ効率の向上は未解決の問題である。 本稿では,hdc分類に適した新しいアクティブラーニング(al)フレームワークであるheal(hyperdimensional efficient active learning)を提案する。 healは不確実性と多様性誘導による買収を通じて、ラベルなしのデータポイントを積極的に注釈付けし、より効率的なデータセットアノテーションと労働コストの削減に繋がる。 ディープニューラルネットワーク(DNN)上に構築された分類器のみをサポートする従来のALメソッドとは異なり、HEALは勾配や確率計算を必要としない。 これにより、既存のHDC分類器アーキテクチャと懸命に統合できる。 HEALの鍵となる設計は、従来のハイパーベクターを用いた軽量HDCアンサンブルによるHDC分類器の不確実性推定のための新しいアプローチである。 さらに,ハイパーベクトルをプロトタイプ(すなわちコンパクト表現)として活用することにより,各バッチ内の多彩なサンプルをアノテーションとして選択するための余分な指標を開発する。 評価の結果、HEALはAL品質の多様なベースラインを超え、多くのBNN方式や多様性誘導型AL方式よりも高速な取得を実現し、バッチ毎に11倍から4万倍の高速化を実現している。

Drawing inspiration from the outstanding learning capability of our human brains, Hyperdimensional Computing (HDC) emerges as a novel computing paradigm, and it leverages high-dimensional vector presentation and operations for brain-like lightweight Machine Learning (ML). Practical deployments of HDC have significantly enhanced the learning efficiency compared to current deep ML methods on a broad spectrum of applications. However, boosting the data efficiency of HDC classifiers in supervised learning remains an open question. In this paper, we introduce Hyperdimensional Efficient Active Learning (HEAL), a novel Active Learning (AL) framework tailored for HDC classification. HEAL proactively annotates unlabeled data points via uncertainty and diversity-guided acquisition, leading to a more efficient dataset annotation and lowering labor costs. Unlike conventional AL methods that only support classifiers built upon deep neural networks (DNN), HEAL operates without the need for gradient or probabilistic computations. This allows it to be effortlessly integrated with any existing HDC classifier architecture. The key design of HEAL is a novel approach for uncertainty estimation in HDC classifiers through a lightweight HDC ensemble with prior hypervectors. Additionally, by exploiting hypervectors as prototypes (i.e., compact representations), we develop an extra metric for HEAL to select diverse samples within each batch for annotation. Our evaluation shows that HEAL surpasses a diverse set of baselines in AL quality and achieves notably faster acquisition than many BNN-powered or diversity-guided AL methods, recording 11 times to 40,000 times speedup in acquisition runtime per batch.
翻訳日:2024-02-20 22:52:13 公開日:2024-02-17
# 知識グラフを用いたマルチホップ推論における思考連鎖の直接評価

Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs ( http://arxiv.org/abs/2402.11199v1 )

ライセンス: Link先を確認
Minh-Vuong Nguyen, Linhao Luo, Fatemeh Shiri, Dinh Phung, Yuan-Fang Li, Thuy-Trang Vu, Gholamreza Haffari(参考訳) 大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シント(CoT)の説明を生成するよう促されたときに強い推論能力を示す。 しかし,従来のLCMの評価では,生成したCoTの正しさを無視し,解答精度にのみ焦点が当てられていた。 本稿では,知識グラフ(KGs)を用いて,多項目質問応答におけるLLMのCoT推論能力を深く研究する。 本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。 2つのマルチホップ問合せデータセットにまたがる5種類のLLMに対して行った実験により,LLMは推論を行うのに十分な知識を持っていることがわかった。 しかし、LLMが生成したCoT推論の正解精度と忠実度の間には大きな相違があり、誤った推論によって正しい解に到達することがしばしばあることを示している。

Large language models (LLMs) demonstrate strong reasoning abilities when prompted to generate chain-of-thought (CoT) explanations alongside answers. However, previous research on evaluating LLMs has solely focused on answer accuracy, neglecting the correctness of the generated CoT. In this paper, we delve deeper into the CoT reasoning capabilities of LLMs in multi-hop question answering by utilizing knowledge graphs (KGs). We propose a novel discriminative and generative CoT evaluation paradigm to assess LLMs' knowledge of reasoning and the accuracy of the generated CoT. Through experiments conducted on 5 different families of LLMs across 2 multi-hop question-answering datasets, we find that LLMs possess sufficient knowledge to perform reasoning. However, there exists a significant disparity between answer accuracy and faithfulness of the CoT reasoning generated by LLMs, indicating that they often arrive at correct answers through incorrect reasoning.
翻訳日:2024-02-20 22:51:45 公開日:2024-02-17
# 不均一クライアントによる非同期フェデレーション学習における線形高速化の実現

Achieving Linear Speedup in Asynchronous Federated Learning with Heterogeneous Clients ( http://arxiv.org/abs/2402.11198v1 )

ライセンス: Link先を確認
Xiaolu Wang, Zijian Li, Shi Jin, Jun Zhang(参考訳) Federated Learning(FL)は、異なるクライアントにローカルに保存されるデータを交換したり転送したりすることなく、共通のグローバルモデルを学ぶことを目的とした、新興の分散トレーニングパラダイムである。 Federated Averaging (FedAvg)ベースのアルゴリズムは、各クライアントが中央サーバと通信する前に複数のローカライズされたイテレーションを実行するという通信オーバーヘッドを減らすために、FLでかなりの人気を得ている。 本稿では,クライアントが多様な計算能力や通信能力を持つFLに焦点を当てる。 この状況下では、最新のグローバルモデルからイテレーションを開始するために、グローバルアグリゲーションに参加するすべてのクライアントが必要であるため、fedavgは効率が低下する可能性がある。 この問題に対処するため,DeFedAvg(Delayed Federated Averaging)と呼ばれる非同期フェデレーション学習(AFL)フレームワークを提案する。 DeFedAvgでは、クライアントは異なる古いグローバルモデルで独自のペースでローカルトレーニングを実行することができる。 理論的解析により、DeFedAvgは非凸問題を解くためのFedAvgの結果と同等の漸近収束率を達成することを示した。 より重要なことに、defedavgは、高スケーラビリティを示す、望ましい線形スピードアップ特性を実現する最初のaflアルゴリズムである。 さらに,深層ニューラルネットワークの学習におけるアプローチの効率と拡張性を検証するために,実データセットを用いた広範囲な数値実験を行った。

Federated learning (FL) is an emerging distributed training paradigm that aims to learn a common global model without exchanging or transferring the data that are stored locally at different clients. The Federated Averaging (FedAvg)-based algorithms have gained substantial popularity in FL to reduce the communication overhead, where each client conducts multiple localized iterations before communicating with a central server. In this paper, we focus on FL where the clients have diverse computation and/or communication capabilities. Under this circumstance, FedAvg can be less efficient since it requires all clients that participate in the global aggregation in a round to initiate iterations from the latest global model, and thus the synchronization among fast clients and straggler clients can severely slow down the overall training process. To address this issue, we propose an efficient asynchronous federated learning (AFL) framework called Delayed Federated Averaging (DeFedAvg). In DeFedAvg, the clients are allowed to perform local training with different stale global models at their own paces. Theoretical analyses demonstrate that DeFedAvg achieves asymptotic convergence rates that are on par with the results of FedAvg for solving nonconvex problems. More importantly, DeFedAvg is the first AFL algorithm that provably achieves the desirable linear speedup property, which indicates its high scalability. Additionally, we carry out extensive numerical experiments using real datasets to validate the efficiency and scalability of our approach when training deep neural networks.
翻訳日:2024-02-20 22:51:28 公開日:2024-02-17
# セトロイドを用いた最小ベイズリスク復号

Centroid-Based Efficient Minimum Bayes Risk Decoding ( http://arxiv.org/abs/2402.11197v1 )

ライセンス: Link先を確認
Hiroyuki Deguchi, Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe, Hideki Tanaka, Masao Utiyama(参考訳) 最小ベイズリスク(MBR)復号化は,人間の評価と高い相関性を持つ神経メトリックであるCOMETを用いて,最先端の翻訳性能を達成した。 しかし、MBR復号法は、翻訳仮説と全ての参照翻訳の間の期待スコアを計算するため、2次時間を必要とする。 我々は,MBRデコーディングの高速化を図るために,セントロイド型MBRデコーディング(CBMBR)を提案する。 提案手法では,参照翻訳を特徴空間に集約し,各クラスタのセンタロイドを用いてスコアを計算する。 実験の結果,我々のCBMBRは期待スコア計算の復号速度を6.9倍に向上するだけでなく,WMT'22 En$\leftrightarrow$Ja, En$\leftrightarrow$De, En$\leftrightarrow$Zh, WMT'23 En$\leftrightarrow$Jaの翻訳品質において,最大0.5 COMETのバニラMBR復号性能を向上した。

Minimum Bayes risk (MBR) decoding achieved state-of-the-art translation performance by using COMET, a neural metric that has a high correlation with human evaluation. However, MBR decoding requires quadratic time since it computes the expected score between a translation hypothesis and all reference translations. We propose centroid-based MBR (CBMBR) decoding to improve the speed of MBR decoding. Our method clusters the reference translations in the feature space, and then calculates the score using the centroids of each cluster. The experimental results show that our CBMBR not only improved the decoding speed of the expected score calculation 6.9 times, but also outperformed vanilla MBR decoding in translation quality by up to 0.5 COMET in the WMT'22 En$\leftrightarrow$Ja, En$\leftrightarrow$De, En$\leftrightarrow$Zh, and WMT'23 En$\leftrightarrow$Ja translation tasks.
翻訳日:2024-02-20 22:51:00 公開日:2024-02-17
# 継続的学習における対向的ロバスト性維持

Maintaining Adversarial Robustness in Continuous Learning ( http://arxiv.org/abs/2402.11196v1 )

ライセンス: Link先を確認
Xiaolei Ru, Xiaowei Cao, Zijia Liu, Jack Murdoch Moore, Xin-Ya Zhang, Xia Zhu, Wenjia Wei, Gang Yan(参考訳) 機械学習システムのセキュリティと信頼性には、相反する堅牢性が不可欠である。 しかし、高度な防御アルゴリズムによって得られる敵の堅牢性は、ニューラルネットワークが進化して新しいタスクを学ぶために容易に消される。 この脆弱性は、連続的ロバスト学習(continual robust learning)と呼ばれるニューラルネットワークの新しい能力の育成によって対処できる。 連続的ロバスト学習を実現するために,2つの重要な部分空間に直交的に重み更新の勾配を投影するDouble Gradient Projectionと,ニューラルネットワークの最終出力を安定化するDouble Gradient Projectionというアプローチを提案する。 4つのベンチマークによる実験結果から,本手法は強敵攻撃に対する持続的ロバスト性を効果的に維持し,既存の防衛戦略と連続学習法を組み合わせたベースラインを上回った。

Adversarial robustness is essential for security and reliability of machine learning systems. However, the adversarial robustness gained by sophisticated defense algorithms is easily erased as the neural network evolves to learn new tasks. This vulnerability can be addressed by fostering a novel capability for neural networks, termed continual robust learning, which focuses on both the (classification) performance and adversarial robustness on previous tasks during continuous learning. To achieve continuous robust learning, we propose an approach called Double Gradient Projection that projects the gradients for weight updates orthogonally onto two crucial subspaces -- one for stabilizing the smoothed sample gradients and another for stabilizing the final outputs of the neural network. The experimental results on four benchmarks demonstrate that the proposed approach effectively maintains continuous robustness against strong adversarial attacks, outperforming the baselines formed by combining the existing defense strategies and continual learning methods.
翻訳日:2024-02-20 22:50:37 公開日:2024-02-17
# 財務文書質問応答におけるLLMの数学的推論の評価

Assessing LLMs' Mathematical Reasoning in Financial Document Question Answering ( http://arxiv.org/abs/2402.11194v1 )

ライセンス: Link先を確認
Pragya Srivastava, Manuj Malik, Tanuja Ganu(参考訳) 大規模言語モデル(LLM)は、自然言語理解に優れているが、構造化テーブルと非構造化テキストの融合による複雑な数学的推論能力は不確実である。 本研究は,tatqa,finqa,convfinqa,multihierttの4つの財務表型質問応答データセットについて,llmsの数学的推論を考察する。 様々なモデルやプロンプト技術による広範な実験を通じて,LLMが複雑なテーブルや数学的タスクにどのように適応するかを評価する。 算術的推論ステップの増加に伴い,テーブルの複雑性や性能の変動に対する感度に注目する。 この結果は、半構造化テーブルの複雑な数学的シナリオを扱う際のLLMの能力と限界に関する洞察を与える。 最終的に、我々は、セミ構造化文書に適した新しいプロンプト技術を導入し、そのタスクに対するLCMの能力の微妙な理解を提供しながら、他のベースラインのマッチングや性能の向上を実現した。

Large Language Models (LLMs), excel in natural language understanding, but their capability for complex mathematical reasoning with an amalgamation of structured tables and unstructured text is uncertain. This study explores LLMs' mathematical reasoning on four financial tabular question-answering datasets: TATQA, FinQA, ConvFinQA, and Multihiertt. Through extensive experiments with various models and prompting techniques, we assess how LLMs adapt to complex tables and mathematical tasks. We focus on sensitivity to table complexity and performance variations with an increasing number of arithmetic reasoning steps. The results provide insights into LLMs' capabilities and limitations in handling complex mathematical scenarios for semi-structured tables. Ultimately, we introduce a novel prompting technique tailored to semi-structured documents, matching or outperforming other baselines in performance while providing a nuanced understanding of LLMs abilities for such a task.
翻訳日:2024-02-20 22:50:22 公開日:2024-02-17
# 私の言語を話せば、もっと学ぶ - スタイル調整による大規模言語モデルの微調整

I Learn Better If You Speak My Language: Enhancing Large Language Model Fine-Tuning with Style-Aligned Response Adjustments ( http://arxiv.org/abs/2402.11192v1 )

ライセンス: Link先を確認
Xuan Ren and Biao Wu and Lingqiao Liu(参考訳) 特定のタスクのための小さなデータセットを持つ細調整された大型言語モデル(LLM)は、広く遭遇するが複雑である。 限られた数の例に過剰に適合する可能性は、元のスキルを一般化し維持するモデルの能力に負の影響を与える可能性がある。 本研究は,微調整過程における地中応答の様式の影響について検討する。 その結果,基底応答スタイルとllm固有のスタイルを一致させることで,よりよい学習結果が得られることがわかった。 そこで本研究では,これらの適応応答を訓練対象として,llmの既存の応答を最小に修正して誤りを訂正する手法を開発した。 この技術は、モデルのネイティブレスポンススタイルに合わせて正確な修正を可能にし、モデルのコア能力を保護し、過剰な適合を避ける。 以上の結果から,本手法はLLMのタスク固有精度を向上するだけでなく,本来の能力と有効性も維持することが明らかとなった。

Fine-tuning large language models (LLMs) with a small data set for particular tasks is a widely encountered yet complex challenge. The potential for overfitting on a limited number of examples can negatively impact the model's ability to generalize and retain its original skills. Our research explores the impact of the style of ground-truth responses during the fine-tuning process. We found that matching the ground-truth response style with the LLM's inherent style results in better learning outcomes. Building on this insight, we developed a method that minimally alters the LLM's pre-existing responses to correct errors, using these adjusted responses as training targets. This technique enables precise corrections in line with the model's native response style, safeguarding the model's core capabilities and thus avoid overfitting. Our findings show that this approach not only improves the LLM's task-specific accuracy but also crucially maintains its original competencies and effectiveness.
翻訳日:2024-02-20 22:50:04 公開日:2024-02-17
# スポーツニュースの自動執筆を支援する知識グラフ

Knowledge Graph Assisted Automatic Sports News Writing ( http://arxiv.org/abs/2402.11191v1 )

ライセンス: Link先を確認
Yang Cao, Xinyi Chen, Xin Zhang, Siying Li(参考訳) 本稿では,スポーツニュースを自動生成する新しい手法を提案する。これは,ライブテキスト放送から重要な瞬間を抽出し,それを用いてニュースの最初の草案を作成する,ユニークなアルゴリズムを用いる。 このドラフトは、特別に設計されたスポーツ知識グラフから重要な詳細と背景情報を取り入れることでさらに洗練される。 このグラフには5,893個のエンティティが含まれており、これらは3つの異なる概念カテゴリに分類される。 さらに,畳み込みニューラルネットワークとトランスフォーマーエンコーダを組み合わせた多段階学習モデルを構築した。 このモデルは畳み込みニューラルネットワークを用いたエンティティとタスクの相互作用を表現し、クエリセット内のエンティティ表現をトランスフォーマーエンコーダで強化する。 また、不完全なトリプルのマッチングスコアを計算し、わずかなナレッジグラフ補完問題に対処するプロセッサも備えている。 本手法の有効性は,50件の試験事例の主観的および客観的評価を通じて確認され,スポーツニュースの創出に革命をもたらす能力を示した。

In this paper, we present a novel method for automatically generating sports news, which employs a unique algorithm that extracts pivotal moments from live text broadcasts and uses them to create an initial draft of the news. This draft is further refined by incorporating key details and background information from a specially designed sports knowledge graph. This graph contains 5,893 entities, which are classified into three distinct conceptual categories, interconnected through four relationship types, and characterized by 27 unique attributes. In addition, we create a multi-stage learning model by combining convolutional neural networks and a transformer encoder. This model expresses entity-task interactions using convolutional neural networks and enriches entity representations in the query set with the transformer encoder. It also includes a processor to compute matching scores for incomplete triples, addressing few-shot knowledge graph completion problem. The efficiency of this approach has been confirmed through both subjective and objective evaluations of 50 selected test cases, demonstrating its capability in revolutionizing the creation of sports news.
翻訳日:2024-02-20 22:49:47 公開日:2024-02-17
# LLMにおけるジェンダーバイアスの開示と緩和

Disclosure and Mitigation of Gender Bias in LLMs ( http://arxiv.org/abs/2402.11190v1 )

ライセンス: Link先を確認
Xiangjue Dong, Yibo Wang, Philip S. Yu, James Caverlee(参考訳) 大規模言語モデル(LLM)はバイアス応答を生成する。 しかし、以前の直接探索技術には、包括的な収集が困難である性別の言及か、事前に定義された性別のステレオタイプが含まれている。 そこで,条件付き生成に基づく間接的探索フレームワークを提案する。 このアプローチは、明示的な性別やステレオタイプに言及することなく、LSMに性別バイアスを明らかにすることを目的としている。 LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を検討する。 実験の結果, 性別のステレオタイプが入力に存在しない場合においても, 検査対象のLDMは明示的および/または暗黙的な性別バイアスを示すことがわかった。 さらに、モデルサイズやモデルアライメントの増加は、ほとんどの場合、バイアスを増幅します。 さらに, ハイパーパラメータチューニング, インストラクションガイド, デビアスチューニングによるLLMのバイアス軽減手法について検討した。 驚くべきことに、これらの方法は明示的な性別やステレオタイプがない場合でも有効である。

Large Language Models (LLMs) can generate biased responses. Yet previous direct probing techniques contain either gender mentions or predefined gender stereotypes, which are challenging to comprehensively collect. Hence, we propose an indirect probing framework based on conditional generation. This approach aims to induce LLMs to disclose their gender bias even without explicit gender or stereotype mentions. We explore three distinct strategies to disclose explicit and implicit gender bias in LLMs. Our experiments demonstrate that all tested LLMs exhibit explicit and/or implicit gender bias, even when gender stereotypes are not present in the inputs. In addition, an increased model size or model alignment amplifies bias in most cases. Furthermore, we investigate three methods to mitigate bias in LLMs via Hyperparameter Tuning, Instruction Guiding, and Debias Tuning. Remarkably, these methods prove effective even in the absence of explicit genders or stereotypes.
翻訳日:2024-02-20 22:49:29 公開日:2024-02-17
# LaCo: レイヤ崩壊による大規模言語モデルプルーニング

LaCo: Large Language Model Pruning via Layer Collapse ( http://arxiv.org/abs/2402.11187v1 )

ライセンス: Link先を確認
Yifei Yang, Zouying Cao, Hai Zhao(参考訳) トランスフォーマーに基づく大規模言語モデル(llm)は、モデルトレーニングと推論の両方にかなりのコストをもたらす、サイズ拡張の注目すべきトレンドを目撃している。 しかし、モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、ハードウェアサポートの制限、広範なトレーニングの必要性、モデルの内部構造の変更など、様々な問題によって制約されている。 本稿では, モデル構造を保ちながらモデルサイズを高速に削減し, 後部モデル層を前層に崩壊させる「textit{Layer Collapse (LaCo)}」と呼ばれる簡潔な層分割法を提案する。 包括的実験により,提案手法はプルーニング比が25~30\%で平均80\%以上のタスク性能を維持し,従来の構造プルーニング法を大きく上回ることを示した。 また,提案手法が元のモデルのパラメータを効果的に継承することを確認した後学習実験を行った。 最後に, 層間類似性の観点からのモチベーションを考察し, 各種プルーニング比におけるプルーニングllmの性能評価を行った。

Large language models (LLMs) based on transformer are witnessing a notable trend of size expansion, which brings considerable costs to both model training and inference. However, existing methods such as model quantization, knowledge distillation, and model pruning are constrained by various issues, including hardware support limitations, the need for extensive training, and alterations to the internal structure of the model. In this paper, we propose a concise layer-wise pruning method called \textit{Layer Collapse (LaCo)}, in which rear model layers collapse into a prior layer, enabling a rapid reduction in model size while preserving the model structure. Comprehensive experiments show that our method maintains an average task performance of over 80\% at pruning ratios of 25-30\%, significantly outperforming existing state-of-the-art structured pruning methods. We also conduct post-training experiments to confirm that the proposed pruning method effectively inherits the parameters of the original model. Finally, we discuss our motivation from the perspective of layer-wise similarity and evaluate the performance of the pruned LLMs across various pruning ratios.
翻訳日:2024-02-20 22:49:15 公開日:2024-02-17
# 飛行同定のための自己組織化マップの最小監督位相投影

Minimally Supervised Topological Projections of Self-Organizing Maps for Phase of Flight Identification ( http://arxiv.org/abs/2402.11185v1 )

ライセンス: Link先を確認
Zimeng Lyu, Pujan Thapa, Travis Desell(参考訳) 飛行データレコーダからフライトデータのどのフェーズが収集されるかを知ることは、安全や有害事象のより効果的な検出に役立てることができるため、一般航空分野において飛行の特定フェーズが重要である。 飛行識別フェーズの一般的な飛行データは、通常秒単位のデータであり、大規模で、クラス不均衡である。 データのラベル付けとトレーニングの分類モデルは通常、クラス不均衡の問題に直面する。 本研究は,SOM U行列の近傍多数決を利用した最小教師付き自己組織化マップ(MS-SOM)の新たな手法について検討する。 提案手法は,ラベル付きデータの完全なデータファイルを利用して,クラス毎に30個のラベル付きデータポイントしか持たない,単純なSOMアプローチに到達または超えることを示す。 さらに、最小に監督されたSOMは、飛行データの位相のクラス不均衡に対して、はるかに堅牢である。 これらの結果は、飛行識別の有効なフェーズに必要なデータが少ないことを表している。

Identifying phases of flight is important in the field of general aviation, as knowing which phase of flight data is collected from aircraft flight data recorders can aid in the more effective detection of safety or hazardous events. General aviation flight data for phase of flight identification is usually per-second data, comes on a large scale, and is class imbalanced. It is expensive to manually label the data and training classification models usually faces class imbalance problems. This work investigates the use of a novel method for minimally supervised self-organizing maps (MS-SOMs) which utilize nearest neighbor majority votes in the SOM U-matrix for class estimation. Results show that the proposed method can reach or exceed a naive SOM approach which utilized a full data file of labeled data, with only 30 labeled datapoints per class. Additionally, the minimally supervised SOM is significantly more robust to the class imbalance of the phase of flight data. These results highlight how little data is required for effective phase of flight identification.
翻訳日:2024-02-20 22:48:52 公開日:2024-02-17
# 広汎なAIセンサの時代における物質性とリスク

Materiality and Risk in the Age of Pervasive AI Sensors ( http://arxiv.org/abs/2402.11183v1 )

ライセンス: Link先を確認
Matthew Stewart, Emanuel Moss, Pete Warden, Brian Plancher, Susan Kennedy, Mona Sloane, Vijay Janapa Reddi(参考訳) センサーを内蔵したデバイスに接続された人工知能システムは普及しており、プライバシー、環境、自律性など、さまざまなAIリスクに重大な影響を与えている。 したがって、これらの技術の責任ある開発と展開に関する説明責任の増加の必要性が高まっている。 本稿では,センサの進化,それらの物質的存在によるリスク,ユビキタスセンシングとオンデバイスaiの影響について,総合的な分析を行う。 我々は,リスク管理フレームワークにセンサを組み込むことを提案し,より責任のあるセンサとシステム設計パラダイムを提唱する。 そのために、アナログデバイスからインテリジェントなネットワークシステムへのセンサの進化を追跡し、ネットワークの極端でリアルタイムのデータ分析と意思決定を可能にする。 センサの普及は、データの収集とコスト削減を優先し、プライバシ、監視、ムダ、パワーダイナミクスに関するリスクを発生させる、計算モデルによって駆動されることを示している。 次に、これらのリスクを分析し、妥当性、安全性、セキュリティ、説明責任、解釈可能性、バイアスの問題を強調する。 我々は、センサ特性がデータやアルゴリズムモデルをどのように形作るかを明らかにする物質性レンズを用いて、AIのリスク管理に対する既存のアプローチでは一般的に捉えられていないセンサー関連リスクを表面化する。 我々は、アルゴリズムシステム、特にオンデバイスAIセンサーの実用性への注目の高まりを説き、ユーザとコミュニティを活性化し、公正性、説明可能性、透明性を高めるための責任あるセンサー設計パラダイムの開発の必要性を強調した。

Artificial intelligence systems connected to sensor-laden devices are becoming pervasive, which has significant implications for a range of AI risks, including to privacy, the environment, autonomy, and more. There is therefore a growing need for increased accountability around the responsible development and deployment of these technologies. In this paper, we provide a comprehensive analysis of the evolution of sensors, the risks they pose by virtue of their material existence in the world, and the impacts of ubiquitous sensing and on-device AI. We propose incorporating sensors into risk management frameworks and call for more responsible sensor and system design paradigms that address risks of such systems. To do so, we trace the evolution of sensors from analog devices to intelligent, networked systems capable of real-time data analysis and decision-making at the extreme edge of the network. We show that the proliferation of sensors is driven by calculative models that prioritize data collection and cost reduction and produce risks that emerge around privacy, surveillance, waste, and power dynamics. We then analyze these risks, highlighting issues of validity, safety, security, accountability, interpretability, and bias. We surface sensor-related risks not commonly captured in existing approaches to AI risk management, using a materiality lens that reveals how physical sensor properties shape data and algorithmic models. We conclude by advocating for increased attention to the materiality of algorithmic systems, and of on-device AI sensors in particular, and highlight the need for development of a responsible sensor design paradigm that empowers users and communities and leads to a future of increased fairness, accountability and transparency.
翻訳日:2024-02-20 22:48:34 公開日:2024-02-17
# 進化過程のグラフ畳み込みニューラルネットワークモデルの不確実性定量化

Uncertainty Quantification of Graph Convolution Neural Network Models of Evolving Processes ( http://arxiv.org/abs/2402.11179v1 )

ライセンス: Link先を確認
Jeremiah Hauth, Cosmin Safta, Xun Huan, Ravi G. Patel, Reese E. Jones(参考訳) 近年,科学的機械学習タスクへのニューラルネットワークモデルの適用が増加している。 特に、ニューラルネットワークモデルは、空間的時間的複雑さを持つモデリングプロセスに適していることが証明されている。 にもかかわらず、これらの高パラメータ化モデルは、関心の体系に量子化された誤差境界を持つ出力を生成する能力に懐疑論を抱いている。 したがって、ニューラルネットワークに適した不確実性定量化方法を見つける必要がある。 本研究では,複雑な空間-時間過程をモデル化するニューラルネットワークのパラメトリック不確かさの定量化について,ハミルトニアンモンテカルロとスタイン変分勾配降下とその投影型との比較を行った。 具体的には,リカレントニューラルネットワークとニューラル常微分方程式をモデルとした進化系のグラフ畳み込みニューラルネットワークモデルに適用する。 我々は, 複雑なニューラルネットワークモデルに対して, スタイン変分推論がモンテカルロ法に代わる有効な方法であることを示す。 私たちの例では、スタイン変分干渉はハミルトニアンモンテカルロと比較して時間を通じて類似の不確かさプロファイルを与え、一般的には寛大な分散を示したが、予測されたスタイン変分勾配降下は、非計画のものと同様の不確実性プロファイルも生み出したが、アクティブウェイト空間の大幅な縮小は、ニューラルネットワークの予測の安定性と畳み込み確率の景観によって達成された。

The application of neural network models to scientific machine learning tasks has proliferated in recent years. In particular, neural network models have proved to be adept at modeling processes with spatial-temporal complexity. Nevertheless, these highly parameterized models have garnered skepticism in their ability to produce outputs with quantified error bounds over the regimes of interest. Hence there is a need to find uncertainty quantification methods that are suitable for neural networks. In this work we present comparisons of the parametric uncertainty quantification of neural networks modeling complex spatial-temporal processes with Hamiltonian Monte Carlo and Stein variational gradient descent and its projected variant. Specifically we apply these methods to graph convolutional neural network models of evolving systems modeled with recurrent neural network and neural ordinary differential equations architectures. We show that Stein variational inference is a viable alternative to Monte Carlo methods with some clear advantages for complex neural network models. For our exemplars, Stein variational interference gave similar uncertainty profiles through time compared to Hamiltonian Monte Carlo, albeit with generally more generous variance.Projected Stein variational gradient descent also produced similar uncertainty profiles to the non-projected counterpart, but large reductions in the active weight space were confounded by the stability of the neural network predictions and the convoluted likelihood landscape.
翻訳日:2024-02-20 22:48:07 公開日:2024-02-17
# RENOVI: 社会・文化会話におけるノーム違反の迅速化のためのベンチマーク

RENOVI: A Benchmark Towards Remediating Norm Violations in Socio-Cultural Conversations ( http://arxiv.org/abs/2402.11178v1 )

ライセンス: Link先を確認
Haolan Zhan, Zhuang Li, Xiaoxi Kang, Tao Feng, Yuncheng Hua, Lizhen Qu, Yi Ying, Mei Rianto Chandra, Kelly Rosalin, Jureynolds Jureynolds, Suraj Sharma, Shilin Qu, Linhao Luo, Lay-Ki Soon, Zhaleh Semnani Azad, Ingrid Zukerman, Gholamreza Haffari(参考訳) 規範違反は、個人が文化的に受け入れられた行動に従わない場合に起こり、潜在的な対立を引き起こす可能性がある。 規範違反の修正には社会的意識と遊びのニュアンスに対する文化的感受性が必要である。 対話型aiシステムに修復能力を持たせるために、社会規範を付記した9,258のマルチターン対話の大規模なコーパスであるrenoviと、規範違反の理解と修正を支援するタスクのシーケンスを段階的に定義する。 ReNoViは512の人間による対話(実データ)と、ChatGPTが素早い学習を通じて生成した8,746の合成会話からなる。 十分な人間によるデータ収集はコストがかかるが、合成会話はトレーニングデータの不足を軽減するのに適切な量のデータを提供し、社会規範の認識においてLLMと人間との整合性を評価する機会を提供する。 これにより、ChatGPTのパワーを利用して、タスクのための合成トレーニングデータを生成する。 人為的データと合成データの両方の品質を確保するため,データ収集時に品質制御プロトコルに従う。 本研究は, 社会文化的会話における規範違反の修正の重要性と, 合成データから得られる性能の向上を実証する。

Norm violations occur when individuals fail to conform to culturally accepted behaviors, which may lead to potential conflicts. Remediating norm violations requires social awareness and cultural sensitivity of the nuances at play. To equip interactive AI systems with a remediation ability, we offer ReNoVi - a large-scale corpus of 9,258 multi-turn dialogues annotated with social norms, as well as define a sequence of tasks to help understand and remediate norm violations step by step. ReNoVi consists of two parts: 512 human-authored dialogues (real data), and 8,746 synthetic conversations generated by ChatGPT through prompt learning. While collecting sufficient human-authored data is costly, synthetic conversations provide suitable amounts of data to help mitigate the scarcity of training data, as well as the chance to assess the alignment between LLMs and humans in the awareness of social norms. We thus harness the power of ChatGPT to generate synthetic training data for our task. To ensure the quality of both human-authored and synthetic data, we follow a quality control protocol during data collection. Our experimental results demonstrate the importance of remediating norm violations in socio-cultural conversations, as well as the improvement in performance obtained from synthetic data.
翻訳日:2024-02-20 22:47:40 公開日:2024-02-17
# 中国人事情報総合抽出のための質問応答に基づくパイプライン

A Question Answering Based Pipeline for Comprehensive Chinese EHR Information Extraction ( http://arxiv.org/abs/2402.11177v1 )

ライセンス: Link先を確認
Huaiyuan Ying, Sheng Yu(参考訳) 電子健康記録(EHR)は、研究や応用に重要な価値を持っている。 新しい情報抽出法として、質問応答(QA)は従来の方法よりも柔軟な情報を抽出することができ、臨床研究者にもアクセスしやすいが、その進歩は注釈付きデータの不足によって妨げられている。 本稿では,QAモデルの伝達学習のための学習データを自動的に生成する手法を提案する。 我々のパイプラインは、不連続な回答や多対一の関係のあるケースを含む、抽出されたQAフレームワークと容易に互換性のないタイプの抽出によって生じる課題を処理するために、事前処理モジュールを組み込んでいる。 得られたQAモデルは,EHRにおける情報抽出のサブタスクに優れた性能を示し,イエス・ノー・質問を含むほとんどショットやゼロショットの設定を効果的に処理できる。 ケーススタディとアブレーション研究は, 設計における各成分の必要性を実証し, 実用性に適したモデルと考えられる。

Electronic health records (EHRs) hold significant value for research and applications. As a new way of information extraction, question answering (QA) can extract more flexible information than conventional methods and is more accessible to clinical researchers, but its progress is impeded by the scarcity of annotated data. In this paper, we propose a novel approach that automatically generates training data for transfer learning of QA models. Our pipeline incorporates a preprocessing module to handle challenges posed by extraction types that are not readily compatible with extractive QA frameworks, including cases with discontinuous answers and many-to-one relationships. The obtained QA model exhibits excellent performance on subtasks of information extraction in EHRs, and it can effectively handle few-shot or zero-shot settings involving yes-no questions. Case studies and ablation studies demonstrate the necessity of each component in our design, and the resulting model is deemed suitable for practical use.
翻訳日:2024-02-20 22:47:14 公開日:2024-02-17
# llmはハイパーパラメータ認識生成による自己制御を実現する

LLM can Achieve Self-Regulation via Hyperparameter Aware Generation ( http://arxiv.org/abs/2402.11251v1 )

ライセンス: Link先を確認
Siyin Wang, Shimin Li, Tianxiang Sun, Jinlan Fu, Qinyuan Cheng, Jiasheng Ye, Junjie Ye, Xipeng Qiu, Xuanjing Huang(参考訳) LLM(Large Language Models)の領域では、ユーザは様々なデコード戦略を採用し、生成したテキストを制御するためにハイパーパラメータを調整する。 しかし、批判的な疑問が浮かび上がってくる: LLMはこれらのデコード戦略の存在を意識し、自己統制できるだろうか? 現在のデコード生成プロセスは、しばしば経験的かつヒューリスティックな手動調整をタスクの種類や要求に基づいてハイパーパラメータに頼っている。 しかし、このプロセスは通常面倒であり、デコードハイパーパラメータは各サンプルに対して必ずしも最適とは限らない。 上記の課題に対処するため,我々はハイパーパラメータ認識生成(hag)と呼ばれる新しいテキスト生成パラダイムを提案する。 ハイパーパラメータ対応の命令チューニングを活用することで、LLMは入力サンプルに基づいて最適なデコード戦略と設定を自律的に決定し、自己規制を可能にする。 このアプローチは、より自律的で自己規制型のモデル動作を提供する、広範囲な手動チューニングの必要性を排除します。 推論、創造性、翻訳、数学のタスクにまたがる6つのデータセットにまたがる実験結果から、ハイパーパラメータ対応の命令チューニングによって、LLMはデコード戦略とハイパーパラメータを自己制御できることが示された。 HAGはテキスト生成プロセスにおける現在のパラダイムを拡張し、自己規制デコード戦略でLLMを実現する可能性を強調している。

In the realm of Large Language Models (LLMs), users commonly employ diverse decoding strategies and adjust hyperparameters to control the generated text. However, a critical question emerges: Are LLMs conscious of the existence of these decoding strategies and capable of regulating themselves? The current decoding generation process often relies on empirical and heuristic manual adjustments to hyperparameters based on types of tasks and demands. However, this process is typically cumbersome, and the decoding hyperparameters may not always be optimal for each sample. To address the aforementioned challenges, we propose a novel text generation paradigm termed Hyperparameter Aware Generation (HAG). By leveraging hyperparameter-aware instruction tuning, the LLM autonomously determines the optimal decoding strategy and configs based on the input samples, enabling self-regulation. Our approach eliminates the need for extensive manual tuning, offering a more autonomous, self-regulate model behavior. Experimental results spanning six datasets across reasoning, creativity, translation, and mathematics tasks demonstrate that hyperparameter-aware instruction tuning empowers the LLMs to self-regulate the decoding strategy and hyperparameter. HAG extends the current paradigm in the text generation process, highlighting the feasibility of endowing the LLMs with self-regulate decoding strategies.
翻訳日:2024-02-20 22:38:36 公開日:2024-02-17
# $\mathcal{D}_8^{(1)}$スペクトルを持つ弱結合量子イジングはしごにおけるスピンダイナミクスとダーク粒子

Spin dynamics and dark particle in a weak-coupled quantum Ising ladder with $\mathcal{D}_8^{(1)}$ spectrum ( http://arxiv.org/abs/2402.11229v1 )

ライセンス: Link先を確認
Yunjing Gao, Xiao Wang, Ning Xi, Yunfeng Jiang, Rong Yu, and Jianda Wu(参考訳) 弱結合された2つの臨界場イジング鎖からなる量子イジングラダーにおいて、創発的イジング_h^2$積分性が予測される。 この可積分系は、8種類の大質量相対論的粒子を含み、その散乱行列とスペクトルは$\mathcal{d}_8^{(1)}$リー代数によって特徴づけられる。 この記事では、この積分可能な量子イジングはしごのゼロ温度スピンダイナミクスを掘り下げる。 解析的フォームファクターアプローチによる動的構造因子の計算により、スピン力学スペクトルにおける(反)ソリトンおよびブレッサーの分散単粒子励起とそれらの多粒子連続体を明確に同定する。 局所スピン作用素と同様に、Ising$_h^2$粒子の固有電荷パリティ$\mathcal{C}$に固有の形状因子の選択規則が、暗黒粒子と呼ばれる$\mathcal{C}$-odd粒子が局所的あるいは準局所的な操作によって基底状態から直接励起されないという有意な結果をもたらすことを示す。 さらに、最も軽い暗黒粒子は共鳴吸収共鳴放出過程によって生成・制御されることが提案されている。 暗黒粒子の長い寿命は、量子情報技術の進歩のための安定な量子ビットとしての可能性を示している。

Emergent Ising$_h^2$ integrability is anticipated in a quantum Ising ladder composed of two weakly coupled, critical transverse field Ising chains. This integrable system is remarkable for including eight types of massive relativistic particles, with their scattering matrix and spectrum characterized by the $\mathcal{D}_8^{(1)}$ Lie algebra. In this article we delve into the zero-temperature spin dynamics of this integrable quantum Ising ladder. By computing the dynamical structure factors from analytical form factor approach, we clearly identify dispersive single-particle excitations of (anti-) soliton and breathers as well as their multi-particle continua in the spin dynamical spectrum. We show that the selection rule to the form factor, which is inherent in the intrinsic charge-parity $\mathcal{C}$ of the Ising$_h^2$ particles as well as the local spin operators, causes a significant result that $\mathcal{C}$-odd particles, termed as dark particles, cannot be directly excited from the ground state through any local or quasi-local operations. Furthermore, the lightest dark particle is proposed to be generated and controlled through resonant absorption-resonant emission processes. The long lifetime of dark particle suggests its potential as a stable qubit for advancing quantum information technology.
翻訳日:2024-02-20 22:38:12 公開日:2024-02-17
# 最適ランダム森林における適応的スプリットバランス

Adaptive Split Balancing for Optimal Random Forest ( http://arxiv.org/abs/2402.11228v1 )

ライセンス: Link先を確認
Yuqian Zhang, Weijie Ji, Jelena Bradic(参考訳) ランダムフォレストは回帰問題によく用いられるが、既存の手法では複雑な状況では適応性が欠如し、単純な滑らかなシナリオでは最適性が失われることが多い。 本研究では,データから木表現を学習し,リプシッツクラスの下でミニマックス最適性を同時に達成できる適応的分割バランスフォレスト(asbf)を提案する。 高次滑らか度レベルを活用するために、任意の$q\in\mathbb{N}$および$\beta\in(0,1]$に対して、H\"older class $\mathcal{H}^{q,\beta}$の下でミニマックスレートを達成するローカライズされたバージョンを提案する。 広く使われているランダムな特徴選択に頼るのではなく、既存のアプローチに対するバランスの取れた修正を検討する。 以上の結果から, 補助的ランダム性への過度依存が木モデルの近似力を損なう可能性が示唆された。 逆に、よりランダムでバランスのとれたアプローチは最適性を示す。 さらに,一様上限を設定し,平均処理効果推定問題におけるランダム林の適用を検討する。 シミュレーション研究と実データ応用を通じて,提案手法が既存無作為林よりも優れた実証性能を示す。

While random forests are commonly used for regression problems, existing methods often lack adaptability in complex situations or lose optimality under simple, smooth scenarios. In this study, we introduce the adaptive split balancing forest (ASBF), capable of learning tree representations from data while simultaneously achieving minimax optimality under the Lipschitz class. To exploit higher-order smoothness levels, we further propose a localized version that attains the minimax rate under the H\"older class $\mathcal{H}^{q,\beta}$ for any $q\in\mathbb{N}$ and $\beta\in(0,1]$. Rather than relying on the widely-used random feature selection, we consider a balanced modification to existing approaches. Our results indicate that an over-reliance on auxiliary randomness may compromise the approximation power of tree models, leading to suboptimal results. Conversely, a less random, more balanced approach demonstrates optimality. Additionally, we establish uniform upper bounds and explore the application of random forests in average treatment effect estimation problems. Through simulation studies and real-data applications, we demonstrate the superior empirical performance of the proposed methods over existing random forests.
翻訳日:2024-02-20 22:37:46 公開日:2024-02-17
# マスクレーディングファイル検出における類似性の役割について

On the Role of Similarity in Detecting Masquerading Files ( http://arxiv.org/abs/2402.11227v1 )

ライセンス: Link先を確認
Jonathan Oliver, Jue Mo, Susmit Yenkar, Raghav Batta and Sekhar Josyoula(参考訳) 類似性は、一般的に機械学習モデルで使用される幅広いセキュリティアプリケーションに適用されている。 本研究は,不正行為者によって作製された正統なサンプルと類似またはほぼ同一のサンプルである。 これらのサンプルは、機械学習ソリューションに重大な問題を引き起こす可能性がある。 一番の問題は、悪いアクターがマスクレーディングサンプルを使用することで機械学習ソリューションを回避できることです。 次に、デジタル署名と機械学習ソリューションの相互作用を検討する。 特に、実行ファイルとコード署名にフォーカスしています。 ファイルを偽造するために分類を提供する。 類似性とクラスタリングの組み合わせを使って、乱雑なファイルを見つけます。 このプロセスで収集した洞察を使って、類似性ベースの機械学習セキュリティソリューションを改善しています。

Similarity has been applied to a wide range of security applications, typically used in machine learning models. We examine the problem posed by masquerading samples; that is samples crafted by bad actors to be similar or near identical to legitimate samples. We find that these samples potentially create significant problems for machine learning solutions. The primary problem being that bad actors can circumvent machine learning solutions by using masquerading samples. We then examine the interplay between digital signatures and machine learning solutions. In particular, we focus on executable files and code signing. We offer a taxonomy for masquerading files. We use a combination of similarity and clustering to find masquerading files. We use the insights gathered in this process to offer improvements to similarity based and machine learning security solutions.
翻訳日:2024-02-20 22:37:22 公開日:2024-02-17
# 低精度)多項式近似を用いたニューラルネットワーク : 精度向上のための新しい洞察と技術

Neural Networks with (Low-Precision) Polynomial Approximations: New Insights and Techniques for Accuracy Improvement ( http://arxiv.org/abs/2402.11224v1 )

ライセンス: Link先を確認
Chi Zhang, Man Ho Au, Siu Ming Yiu(参考訳) ニューラルネットワークの非多項関数(例えば、reluのような非線形活性化関数)をその多項式近似に置き換えることは、プライバシ保存機械学習の標準的なプラクティスである。 本稿では、ニューラルネットワーク(PANN)の多項式近似と呼ばれる結果のニューラルネットワークを、プライバシー保護モデル推論を可能にするための高度な暗号システムと互換性がある。 の近似を用いて、最先端のPANNは基礎となるバックボーンモデルと同様の推論精度を提供する。 しかし、近似の効果についてはほとんど知られておらず、既存の文献では必要近似の精度を経験的に決定していることが多い。 本稿では,スタンドアロンオブジェクトとしてのpannの検討を開始する。 特に、私たちの貢献は2倍です。 まず、PANNにおける近似誤差の影響について説明する。 特に, (1) PANNはある種の摂動の影響を受けやすいこと, (2) 体重正規化はPANNの精度を著しく低下させることがわかった。 私たちは実験で説明を支持します。 第2に,我々の調査から得られた知見に基づき,pannの推論精度を向上させる手法を提案する。 同じ精度で、私たちのPANNは最先端技術よりも10%から50%高い精度で、同じ精度で、私たちのPANNは2^{-9}$の精度しか必要とせず、最先端ソリューションは2^{-12}$の精度でCIFAR-10データセット上でResNet-20モデルを使用する必要がある。

Replacing non-polynomial functions (e.g., non-linear activation functions such as ReLU) in a neural network with their polynomial approximations is a standard practice in privacy-preserving machine learning. The resulting neural network, called polynomial approximation of neural network (PANN) in this paper, is compatible with advanced cryptosystems to enable privacy-preserving model inference. Using ``highly precise'' approximation, state-of-the-art PANN offers similar inference accuracy as the underlying backbone model. However, little is known about the effect of approximation, and existing literature often determined the required approximation precision empirically. In this paper, we initiate the investigation of PANN as a standalone object. Specifically, our contribution is two-fold. Firstly, we provide an explanation on the effect of approximate error in PANN. In particular, we discovered that (1) PANN is susceptible to some type of perturbations; and (2) weight regularisation significantly reduces PANN's accuracy. We support our explanation with experiments. Secondly, based on the insights from our investigations, we propose solutions to increase inference accuracy for PANN. Experiments showed that combination of our solutions is very effective: at the same precision, our PANN is 10% to 50% more accurate than state-of-the-arts; and at the same accuracy, our PANN only requires a precision of $2^{-9}$ while state-of-the-art solution requires a precision of $2^{-12}$ using the ResNet-20 model on CIFAR-10 dataset.
翻訳日:2024-02-20 22:37:10 公開日:2024-02-17
# 動的属性グラフを用いた大規模言語モデルのためのテキスト生成制御

Controlled Text Generation for Large Language Model with Dynamic Attribute Graphs ( http://arxiv.org/abs/2402.11218v1 )

ライセンス: Link先を確認
Xun Liang, Hanyu Wang, Shichao Song, Mengting Hu, Xunzhi Wang, Zhiyu Li, Feiyu Xiong, Bo Tang(参考訳) 制御テキスト生成(ctg)は、特定の望ましい属性を示すテキストを作成することを目的としている。 本研究では,DATG(Dynamic Attribute Graphs-based Control Text Generation)という,Large Language Models (LLMs) 用のプラグイン可能なCTGフレームワークを提案する。 このフレームワークは属性スコアを用いてllmsによって生成された文の属性を評価し、動的属性グラフを構築する。 DATGは、キー属性語とキーアンチ属性語の発生を変調し、モデルの本来の能力を損なうことなく効果的な属性制御を実現する。 5つのllmを基礎モデルとして,毒性緩和と感情変容の2つの課題で実験を行った。 その結果、制御精度が著しく向上し、4つのデータセットで最も好ましいタスクにおいて、ベースラインメソッドよりも19.29%向上した。 さらに,重度の低下が顕著に観察され,テキストフラレンシが著しく向上した。

Controlled Text Generation (CTG) aims to produce texts that exhibit specific desired attributes. In this study, we introduce a pluggable CTG framework for Large Language Models (LLMs) named Dynamic Attribute Graphs-based controlled text generation (DATG). This framework utilizes an attribute scorer to evaluate the attributes of sentences generated by LLMs and constructs dynamic attribute graphs. DATG modulates the occurrence of key attribute words and key anti-attribute words, achieving effective attribute control without compromising the original capabilities of the model. We conduct experiments across four datasets in two tasks: toxicity mitigation and sentiment transformation, employing five LLMs as foundational models. Our findings highlight a remarkable enhancement in control accuracy, achieving a peak improvement of 19.29% over baseline methods in the most favorable task across four datasets. Additionally, we observe a significant decrease in perplexity, markedly improving text fluency.
翻訳日:2024-02-20 22:36:46 公開日:2024-02-17
# asclepius:医療用マルチモーダル大言語モデルのためのスペクトル評価ベンチマーク

Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models ( http://arxiv.org/abs/2402.11217v1 )

ライセンス: Link先を確認
Wenxuan Wang, Yihang Su, Jingyuan Huan, Jie Liu, Wenting Chen, Yudi Zhang, Cheng-Yi Li, Kao-Jung Chang, Xiaohan Xin, Linlin Shen, Michael R. Lyu(参考訳) 医療多モード大規模言語モデル(Med-MLLMs)の重要なブレークスルーは、堅牢な情報合成と医療決定支援によって現代医療を革新する。 しかしながら、これらのモデルは、様々な医学的専門分野を包含し、複雑な臨床的決定を伴う現実世界の診断フレームワークの複雑な性質のため、Med-MLLMに適さないベンチマークでしばしば評価される。 さらに、これらのベンチマークは、Med-MLLMは公開データの大規模なアセンブリで訓練されているため、データ漏洩の影響を受けやすい。 したがって, 信頼性の高いmed-mllms評価には, 単離および臨床的に代表されるベンチマークが望ましい。 そこで本研究では,Asclepiusという新しいMed-MLLMベンチマークを導入し,異なる医療専門分野(心臓血管,胃腸科など)と異なる診断能力(知覚,疾患解析など)の観点から,モデル能力の厳密かつ包括的に評価する。 3つの基本原則に基づいて、アスクレピウスは15の専門分野を包含し、臨床業務の3つの主要なカテゴリと8つのサブカテゴリに区分し、列車の無効な汚染を免除することで包括的な評価を確実にする。 さらに、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較し、その能力と様々な医学的文脈における限界について考察する。 我々の研究は、Med-MLLMsの能力の理解を深めるだけでなく、将来の評価や臨床環境におけるこれらのモデルの安全な展開の先例となる。 我々は、Med-MLLM機能のコミュニティアセスメントのためのリーダーボード(https://asclepius-med.github.io/)を立ち上げ、維持する。

The significant breakthroughs of Medical Multi-Modal Large Language Models (Med-MLLMs) renovate modern healthcare with robust information synthesis and medical decision support. However, these models are often evaluated on benchmarks that are unsuitable for the Med-MLLMs due to the intricate nature of the real-world diagnostic frameworks, which encompass diverse medical specialties and involve complex clinical decisions. Moreover, these benchmarks are susceptible to data leakage, since Med-MLLMs are trained on large assemblies of publicly available data. Thus, an isolated and clinically representative benchmark is highly desirable for credible Med-MLLMs evaluation. To this end, we introduce Asclepius, a novel Med-MLLM benchmark that rigorously and comprehensively assesses model capability in terms of: distinct medical specialties (cardiovascular, gastroenterology, etc.) and different diagnostic capacities (perception, disease analysis, etc.). Grounded in 3 proposed core principles, Asclepius ensures a comprehensive evaluation by encompassing 15 medical specialties, stratifying into 3 main categories and 8 sub-categories of clinical tasks, and exempting from train-validate contamination. We further provide an in-depth analysis of 6 Med-MLLMs and compare them with 5 human specialists, providing insights into their competencies and limitations in various medical contexts. Our work not only advances the understanding of Med-MLLMs' capabilities but also sets a precedent for future evaluations and the safe deployment of these models in clinical environments. We launch and maintain a leaderboard for community assessment of Med-MLLM capabilities (https://asclepius-med.github.io/).
翻訳日:2024-02-20 22:36:32 公開日:2024-02-17
# AdAdaGrad:Adaptive Gradient MethodsのためのAdaptive Batch Size Schemes

AdAdaGrad: Adaptive Batch Size Schemes for Adaptive Gradient Methods ( http://arxiv.org/abs/2402.11215v1 )

ライセンス: Link先を確認
Tim Tsz-Kit Lau, Han Liu, Mladen Kolar(参考訳) 確率的勾配オプティマイザにおけるバッチサイズの選択はモデルトレーニングに不可欠である。 しかしながら、トレーニングプロセス全体でのバッチサイズの変化の実践は、他のハイパーパラメータと比べて、あまり調査されていない。 従来は確率的勾配降下にのみ適用されていた適応的サンプリング法に基づく適応的バッチサイズ戦略について検討した。 学習率とバッチサイズの間に有意な相互作用があり、ディープラーニングにおける適応勾配法の普及を考えると、これらの文脈における適応的バッチサイズ戦略の必要性を強調する。 本稿では、AdAdaGradとそのスカラー変種AdAdaGradNormを紹介し、トレーニング中のバッチサイズを漸進的に増加させ、モデル更新はAdaGradとAdaGradNormを使用して行う。 adagradnorm は $k$ の反復内で滑らかな非凸関数の1次定常点を見つけるために $\mathscr{o}(1/k)$ で高い確率で収束する。 AdaGradはまた、我々の適応バッチサイズ戦略の座標ワイドな新しい変種と統合した場合、同様の収束特性を示す。 この理論的な主張は,様々な画像分類タスクにおける数値実験によって支持されており,ディープラーニングにおけるプログレッシブバッチプロトコルの適応性の向上と,大規模モデルトレーニングにおける適応勾配最適化を用いた適応バッチサイズ戦略の可能性に注目している。

The choice of batch sizes in stochastic gradient optimizers is critical for model training. However, the practice of varying batch sizes throughout the training process is less explored compared to other hyperparameters. We investigate adaptive batch size strategies derived from adaptive sampling methods, traditionally applied only in stochastic gradient descent. Given the significant interplay between learning rates and batch sizes, and considering the prevalence of adaptive gradient methods in deep learning, we emphasize the need for adaptive batch size strategies in these contexts. We introduce AdAdaGrad and its scalar variant AdAdaGradNorm, which incrementally increase batch sizes during training, while model updates are performed using AdaGrad and AdaGradNorm. We prove that AdaGradNorm converges with high probability at a rate of $\mathscr{O}(1/K)$ for finding a first-order stationary point of smooth nonconvex functions within $K$ iterations. AdaGrad also demonstrates similar convergence properties when integrated with a novel coordinate-wise variant of our adaptive batch size strategies. Our theoretical claims are supported by numerical experiments on various image classification tasks, highlighting the enhanced adaptability of progressive batching protocols in deep learning and the potential of such adaptive batch size strategies with adaptive gradient optimizers in large-scale model training.
翻訳日:2024-02-20 22:36:03 公開日:2024-02-17
# ハンドヘルド超音波デバイスにおける自己適応領域シフトのための訓練不要な画像スタイルアライメント

Training-free image style alignment for self-adapting domain shift on handheld ultrasound devices ( http://arxiv.org/abs/2402.11211v1 )

ライセンス: Link先を確認
Hongye Zeng, Ke Zou, Zhihao Chen, Yuchong Gao, Hongbo Chen, Haibin Zhang, Kang Zhou, Meng Wang, Rick Siow Mong Goh, Yong Liu, Chang Jiang, Rui Zheng, Huazhu Fu(参考訳) ハンドヘルド超音波デバイスは、ユーザの経験不足による使用制限に直面しており、広範な専門家のアノテーションなしでは教師付きディープラーニングの恩恵を受けることができない。 さらに、標準超音波装置データに基づいてトレーニングされたモデルは、データ分布の訓練によって制約され、ハンドヘルドデバイスデータに直接適用された場合、性能が低下する。 本研究では,ハンドヘルドデバイスデータのスタイルを標準デバイスと整合させるトレーニングフリーな画像スタイルアライメント(TISA)フレームワークを提案する。 提案するtisaは,手持ちのデバイスイメージを余分なトレーニングなしで直接推定でき,臨床応用に適している。 ハンドヘルドデバイスデータに対する医学的検出およびセグメンテーションタスクにおいて,TISAは,より安定して,より優れた性能を発揮することを示す。 さらに, 脊髄曲率, 頸動脈 intima-media thickness の自動測定のための臨床モデルとして, TISA を検証した。 自動測定は、ヒトの専門家による手動測定とよく一致し、測定誤差は臨床上許容範囲内に留まる。 我々は,tsaが手持ち超音波装置の自動診断を容易にし,その普及を早める可能性を実証する。

Handheld ultrasound devices face usage limitations due to user inexperience and cannot benefit from supervised deep learning without extensive expert annotations. Moreover, the models trained on standard ultrasound device data are constrained by training data distribution and perform poorly when directly applied to handheld device data. In this study, we propose the Training-free Image Style Alignment (TISA) framework to align the style of handheld device data to those of standard devices. The proposed TISA can directly infer handheld device images without extra training and is suited for clinical applications. We show that TISA performs better and more stably in medical detection and segmentation tasks for handheld device data. We further validate TISA as the clinical model for automatic measurements of spinal curvature and carotid intima-media thickness. The automatic measurements agree well with manual measurements made by human experts and the measurement errors remain within clinically acceptable ranges. We demonstrate the potential for TISA to facilitate automatic diagnosis on handheld ultrasound devices and expedite their eventual widespread use.
翻訳日:2024-02-20 22:35:38 公開日:2024-02-17
# エージェントに気をつけて! LLMエージェントに対するバックドア脅威の調査

Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents ( http://arxiv.org/abs/2402.11208v1 )

ライセンス: Link先を確認
Wenkai Yang, Xiaohan Bi, Yankai Lin, Sishuo Chen, Jie Zhou, Xu Sun(参考訳) 大規模言語モデル LLM の急速な開発を生かした LLM ベースのエージェントは、金融、ヘルスケア、ショッピングなど、様々な現実世界のアプリケーションを扱うために開発されている。 LLMベースのエージェントの信頼性とセキュリティを確保することが重要である。 しかし、現在llmベースのエージェントの安全性の問題が検討中である。 本研究では, LLMをベースとしたエージェントに対して, 典型的な安全脅威であるバックドア攻撃の1つを調査する。 まず,エージェントバックドアアタックの汎用フレームワークを定式化し,エージェントバックドアアタックの異なる形態について詳細な分析を行った。 具体的には、最終攻撃結果の観点から、攻撃者は最終出力分布を操作するか、中間推論プロセスで悪意のある振る舞いのみを導入するか、最終出力を正しく保ちながら選択することができる。 さらに、以前のカテゴリはトリガー位置に基づいて2つのサブカテゴリに分けられる: バックドアトリガーは、ユーザクエリ内または外部環境によって返される中間観察中に隠蔽される。 本稿では,Webショッピングとツール利用の2つの典型的なエージェントタスクに対して,上記のエージェントバックドア攻撃のバリエーションを実装するためのデータ中毒機構を提案する。 大規模な実験により、LSMベースのエージェントがバックドア攻撃に重傷を負い、LDMベースのエージェントに対するバックドア攻撃に対する防御の開発について、さらなる研究の必要性が示唆された。 警告: この論文は偏りのある内容を含むかもしれない。

Leveraging the rapid development of Large Language Models LLMs, LLM-based agents have been developed to handle various real-world applications, including finance, healthcare, and shopping, etc. It is crucial to ensure the reliability and security of LLM-based agents during applications. However, the safety issues of LLM-based agents are currently under-explored. In this work, we take the first step to investigate one of the typical safety threats, backdoor attack, to LLM-based agents. We first formulate a general framework of agent backdoor attacks, then we present a thorough analysis on the different forms of agent backdoor attacks. Specifically, from the perspective of the final attacking outcomes, the attacker can either choose to manipulate the final output distribution, or only introduce malicious behavior in the intermediate reasoning process, while keeping the final output correct. Furthermore, the former category can be divided into two subcategories based on trigger locations: the backdoor trigger can be hidden either in the user query or in an intermediate observation returned by the external environment. We propose the corresponding data poisoning mechanisms to implement the above variations of agent backdoor attacks on two typical agent tasks, web shopping and tool utilization. Extensive experiments show that LLM-based agents suffer severely from backdoor attacks, indicating an urgent need for further research on the development of defenses against backdoor attacks on LLM-based agents. Warning: This paper may contain biased content.
翻訳日:2024-02-20 22:35:20 公開日:2024-02-17
# デジタル鑑識におけるハンドバイオメトリックス

Hand Biometrics in Digital Forensics ( http://arxiv.org/abs/2402.11206v1 )

ライセンス: Link先を確認
Asish Bera, Debotosh Bhattacharjee, Mita Nasipuri(参考訳) デジタル法医学は、デジタルワールドをID盗難から守るのに避けられない存在だ。 大量のデータベースを扱う犯罪の順序は、あらゆるインテリジェントシステムにとって非常に難しい問題です。 生体認証は、デジタル法医学が直面する問題に勝つためのより良いソリューションである。 多くのバイオメトリックな特徴は、何十年もの間、法医学において重要な役割を演じてきた。 法医学における手基モードの潜在的な利点と範囲について,手形状の検証方法の例証を用いて検討した。 効果的な生体認証の証拠が適切に利用できない場合、手袋が損傷し、汚れやその他の液体が指紋や手のひらプリントのアクセシビリティや信頼性を最小化することができる。 非常に大きなデータベースのハンド機能の純粋にユニークさの危機のため、検証のみに関係している可能性がある。 2d, 3d, 赤外線画像を用いて, いくつかの特徴抽出, データベース, 検証手法を備えた, ユニモーダルおよびマルチモーダルハンドベースバイオメトリックス(手の形状, 手のプリント, 手の静脈など)について検討した。

Digital forensic is now an unavoidable part for securing the digital world from identity theft. Higher order of crimes, dealing with a massive database is really very challenging problem for any intelligent system. Biometric is a better solution to win over the problems encountered by digital forensics. Many biometric characteristics are playing their significant roles in forensics over the decades. The potential benefits and scope of hand based modes in forensics have been investigated with an illustration of hand geometry verifi-cation method. It can be applied when effective biometric evidences are properly unavailable; gloves are damaged, and dirt or any kind of liquid can minimize the accessibility and reliability of the fingerprint or palmprint. Due to the crisis of pure uniqueness of hand features for a very large database, it may be relevant for verification only. Some unimodal and multimodal hand based biometrics (e.g. hand geometry, palmprint and hand vein) with several feature extractions, database and verification methods have been discussed with 2D, 3D and infrared images.
翻訳日:2024-02-20 22:34:55 公開日:2024-02-17
# ペアリングハミルトニアンを符号化するブロックの効率的な量子回路

An Efficient Quantum Circuit for Block Encoding a Pairing Hamiltonian ( http://arxiv.org/abs/2402.11205v1 )

ライセンス: Link先を確認
Diyi Liu, Weijie Du, Lin Lin, James P.Vary, Chao Yang(参考訳) 我々は、原子核物理学で研究したペア化ハミルトンのブロック符号化のための効率的な量子回路を提案する。 新しいブロック符号化方式では、生成と消滅演算子をパウリ作用素にマッピングする必要はなく、ハミルトニアンをユニタリの線型結合として表す。 代わりに、制御スワップを使って演算子を直接エンコードする方法を示す。 ブロック符号化回路のゲート複雑性を解析し、ペアリングハミルトニアンに関連する量子状態を表現するのに必要な量子ビット数に対して多項式的にスケールすることを示す。 また、ブロック符号化回路と量子特異値変換を組み合わせることで、対のハミルトニアンの状態密度を近似する効率的な量子回路を構築する方法を示す。 本論文では、ブロック符号化回路に着目して、より一般的な第二量子化ハミルトニアンを符号化できるように拡張する。

We present an efficient quantum circuit for block encoding pairing Hamiltonians studied in nuclear physics. The new block encoding scheme does not require mapping the creation and annihilation operators to Pauli operators and representing the Hamiltonian as a linear combination of unitaries. Instead, we show how to encode these operators directly using controlled swaps. We analyze the gate complexity of the block encoding circuit and show that it scales polynomially with respect to the number of qubits required to represent a quantum state associated with the pairing Hamiltonian. We also show how the block encoding circuit can be combined with quantum singular value transformation to construct an efficient quantum circuit for approximating the density of state of a pairing Hamiltonian. Athough we focus on block encoding circuit for pair Hamiltonians in this paper, the techniques presented here can be extended to encode more general second quantized Hamiltonians.
翻訳日:2024-02-20 22:34:37 公開日:2024-02-17
# 次世代情報検索のためのchatgptの検討 : 機会と課題

Exploring ChatGPT for Next-generation Information Retrieval: Opportunities and Challenges ( http://arxiv.org/abs/2402.11203v1 )

ライセンス: Link先を確認
Yizheng Huang and Jimmy Huang(参考訳) 人工知能(AI)の急速な進歩は、情報検索(IR)分野における重要な技術としてChatGPTを強調している。 前者とは違い、ChatGPTは産業コミュニティと学術コミュニティの両方の注目を集める大きな利益を提供している。 ChatGPTは画期的なイノベーションであると考える人もいる一方で、製品開発と市場戦略の効果的な統合によって成功したと考える人もいる。 GPT-4と共にChatGPTの出現は、生成AIの新しいフェーズであり、トレーニングの例とは異なるコンテンツを生成し、OpenAIによる以前のGPT-3モデルの能力を超えた。 IRタスクにおける従来の教師付き学習アプローチとは異なり、ChatGPTは既存のパラダイムに挑戦し、テキスト品質保証、モデルバイアス、効率に関する新たな課題と機会を生み出している。 本稿では,ChatGPTがIRタスクに与える影響について検討し,今後の展望について考察する。

The rapid advancement of artificial intelligence (AI) has highlighted ChatGPT as a pivotal technology in the field of information retrieval (IR). Distinguished from its predecessors, ChatGPT offers significant benefits that have attracted the attention of both the industry and academic communities. While some view ChatGPT as a groundbreaking innovation, others attribute its success to the effective integration of product development and market strategies. The emergence of ChatGPT, alongside GPT-4, marks a new phase in Generative AI, generating content that is distinct from training examples and exceeding the capabilities of the prior GPT-3 model by OpenAI. Unlike the traditional supervised learning approach in IR tasks, ChatGPT challenges existing paradigms, bringing forth new challenges and opportunities regarding text quality assurance, model bias, and efficiency. This paper seeks to examine the impact of ChatGPT on IR tasks and offer insights into its potential future developments.
翻訳日:2024-02-20 22:34:21 公開日:2024-02-17
# 軽量セマンティクスセグメンテーションのための多レベル特徴の逐次集約型復号法

A Decoding Scheme with Successive Aggregation of Multi-Level Features for Light-Weight Semantic Segmentation ( http://arxiv.org/abs/2402.11201v1 )

ライセンス: Link先を確認
Jiwon Yoo, Jangwon Lee, Gyeonghwan Kim(参考訳) 階層型視覚変換器を含むマルチスケールアーキテクチャは、最小性能損失の計算複雑性を扱うために、高分解能なセマンティックセグメンテーションに一般的に適用されてきた。 本稿では,マルチスケールアーキテクチャを用いたエンコーダのマルチレベル特徴を考慮した,セマンティックセグメンテーションのための新しいデコード方式を提案する。 マルチレベル視覚変換器に基づく復号方式は, 計算コストの削減だけでなく, セグメント化精度の向上を目的とし, 多レベル特徴の集約に連続的な相互アテンションを導入する。 さらに,セマンティクスを集約することで,マルチレベル機能を強化する手法を提案する。 この取り組みは、注意割当の観点からコンテキスト整合性を維持することに重点を置いており、計算コストを大幅に削減してパフォーマンスを向上させる。 一般的なデータセットに対する実験のセットは、精度を損なうことなく計算コストの観点から、最先端のセマンティックセグメンテーションモデルに対する提案手法の優位性を示し、広範囲にわたるアブレーション研究は提案されたアイデアの有効性を証明している。

Multi-scale architecture, including hierarchical vision transformer, has been commonly applied to high-resolution semantic segmentation to deal with computational complexity with minimum performance loss. In this paper, we propose a novel decoding scheme for semantic segmentation in this regard, which takes multi-level features from the encoder with multi-scale architecture. The decoding scheme based on a multi-level vision transformer aims to achieve not only reduced computational expense but also higher segmentation accuracy, by introducing successive cross-attention in aggregation of the multi-level features. Furthermore, a way to enhance the multi-level features by the aggregated semantics is proposed. The effort is focused on maintaining the contextual consistency from the perspective of attention allocation and brings improved performance with significantly lower computational cost. Set of experiments on popular datasets demonstrates superiority of the proposed scheme to the state-of-the-art semantic segmentation models in terms of computational cost without loss of accuracy, and extensive ablation studies prove the effectiveness of ideas proposed.
翻訳日:2024-02-20 22:34:08 公開日:2024-02-17
# 大規模マルチモーダルモデルで画像の奥深くのセマンティックスを発見できるのか?

Can Large Multimodal Models Uncover Deep Semantics Behind Images? ( http://arxiv.org/abs/2402.11281v1 )

ライセンス: Link先を確認
Yixin Yang, Zheng Li, Qingxiu Dong, Heming Xia, Zhifang Sui(参考訳) 画像の深い意味を理解することは、ソーシャルメディアが支配する時代において不可欠である。 しかし、現在の研究は、主に画像の表層的記述に取り組んでおり、本質的な深層意味論の体系的研究において顕著な欠陥が明らかにされている。 本研究では,視覚深層セマンティクスの大規模マルチモーダルモデル(LMM)能力を評価するための総合的なベンチマークであるDEEPEVALを紹介する。 DEEPEVALには、人間の注釈付きデータセットと、3つのプログレッシブサブタスクが含まれている。 DEEPEVALを用いて9つのオープンソースLMMとGPT-4V(ision)を評価した。 本評価は,既存のLMMと人間との深い意味理解能力の差を顕著に示すものである。 例えば、GPT-4Vは、画像記述において人間に比較可能な性能を達成するにもかかわらず、深い意味論を理解する上で、人間よりも30%遅れている。 さらに分析した結果,推論過程における記述テキストの統合により,LMMの深い意味を知覚する能力が顕著に向上することが示唆された。 さらに,データセットを複数のカテゴリに分割し,これらのカテゴリについてより詳細な分析を行った。

Understanding the deep semantics of images is essential in the era dominated by social media. However, current research works primarily on the superficial description of images, revealing a notable deficiency in the systematic investigation of the inherent deep semantics. In this work, we introduce DEEPEVAL, a comprehensive benchmark to assess Large Multimodal Models' (LMMs) capacities of visual deep semantics. DEEPEVAL includes human-annotated dataset and three progressive subtasks: fine-grained description selection, in-depth title matching, and deep semantics understanding. Utilizing DEEPEVAL, we evaluate 9 open-source LMMs and GPT-4V(ision).Our evaluation demonstrates a substantial gap between the deep semantic comprehension capabilities of existing LMMs and humans. For example, GPT-4V is 30% behind humans in understanding deep semantics, even though it achieves human-comparable performance in image description. Further analysis indicates that the integration of description texts during the inference process notably enhances LMMs' ability to perceive deep semantics. Furthermore, our dataset is divided into multiple categories, and we conducted a more detailed analysis within these categories.
翻訳日:2024-02-20 22:26:48 公開日:2024-02-17
# Moral: LLMの生涯学習のためのMoE Augmented LoRA

MoRAL: MoE Augmented LoRA for LLMs' Lifelong Learning ( http://arxiv.org/abs/2402.11260v1 )

ライセンス: Link先を確認
Shu Yang, Muhammad Asif Ali, Cheng-Long Wang, Lijie Hu, and Di Wang(参考訳) 大規模言語モデル(LLM)を新しいドメイン/タスクに適用し、効率的な生涯学習を可能にすることは、重要な課題である。 本稿では,MoRAL,すなわちMixture-of-Expertsの低ランク適応を生涯学習に適用する手法を提案する。 モラルは、LLMの効果的な生涯学習のために、MoEのマルチタスク能力とLoRAの微調整能力を組み合わせる。 事実三重項を入力として使用する従来のアプローチとは対照的に、Moralは単純な質問応答ペアに依存しており、堅牢で効率的な学習のためのより実践的で効果的な戦略である。 新しいデータ設定により、新しいデータセットを含むllm(5l-bench)の生涯学習と、オープンブックおよびクローズドブック設定におけるモラルの厳密な評価のための一連の評価指標を新たに導入する。 実験による評価 i) LLMは、クローズドブックに比べてPhi-2.7Bの「RA」を最大30.15%改善したオープンブック設定で速く学習する(MoRALで微調整されたモデルの場合)。 (ii)より多数のパラメータを持つモデルにおいて,MoRALはより高い性能向上を示す。 (iii)モラルは、ベースラインよりも優れた知識保持を提供する破滅的な忘れ方に対して頑健である。

Adapting large language models (LLMs) to new domains/tasks and enabling them to be efficient lifelong learners is a pivotal challenge. In this paper, we propose MoRAL, i.e., Mixture-of-Experts augmented Low-Rank Adaptation for Lifelong Learning. MoRAL combines the multi-tasking abilities of MoE with the fine-tuning abilities of LoRA for effective life-long learning of LLMs. In contrast to the conventional approaches that use factual triplets as inputs MoRAL relies on simple question-answer pairs, which is a more practical and effective strategy for robust and efficient learning. Owing to new data settings, we introduce a new evaluation benchmark namely: Life Long Learning of LLM (5L-bench) encompassing a newly curated dataset of question-answer pairs, and a set of evaluation metrics for rigorous evaluation of MoRAL in open-book and closed-book settings. Experimental evaluation shows (i) LLMs learn fast in open-book settings with up to 30.15% improvement in "RA" for Phi-2-2.7B compared to closed-book (for models fine-tuned with MoRAL); (ii) MoRAL shows higher performance improvement for models with a greater number of parameters; (iii) MoRAL is robust to catastrophic forgetting offering better knowledge retention compared to baselines.
翻訳日:2024-02-20 22:26:29 公開日:2024-02-17
# 量子ドット格子で散乱した無質量ディラックフェミオンを用いたフーリエ電子光学

Fourier Electron Optics with Massless Dirac Fermions Scattered by Quantum Dot Lattice ( http://arxiv.org/abs/2402.11259v1 )

ライセンス: Link先を確認
Partha Sarathi Banerjee, Rahul Marathe and Sankalpa Ghosh(参考訳) 電子光学の分野は電子や荷電準粒子の運動の類似性を利用しており、主に電磁場と電磁場(EM)の2次元材料と、屈折率の異なる誘電体媒質中での電磁波の伝播である。 リップマン・シュウィンガー形式で処理された2次元量子ドット格子(tdqdl)からの散乱を考慮し、この類似性を大きく拡張し、質量を持たないディラックフェルミオン(mdf)を持つフーリエ電子光学(feo)、すなわち環境条件下での単層グラフェンの電荷キャリアを導入する。 tdqdl からの mdf のキャビティとの散乱、およびねじれた tdqdl の moir\'{e} パターンを考えることにより、バビネットの光学における原理の電子的類似性を確立する。 フラウンホーファー回折パターンと結果の微分散乱断面積の類似性を証明し、そのようなFEOの辞書を構築する。 その後,これらの電荷キャリアの伝播方向とドット格子の対称性軸との間の角度の関数としてボルツマン法を用いて分散MDFの比抵抗を評価し,これらを解析し,この比抵抗に付随する空間周波数がドット格子の構造変化に応じてフィルタリングされることを示し,MDFのFEOの広い適用性を示す。

The field of electron optics exploits the analogy between the movement of electrons or charged quasiparticles, primarily in two-dimensional materials subjected to electric and magnetic (EM) fields and the propagation of electromagnetic waves in a dielectric medium with varied refractive index. We significantly extend this analogy by introducing Fourier electron optics (FEO) with massless Dirac fermions (MDF), namely the charge carriers of single-layer graphene under ambient conditions, by considering their scattering from a two-dimensional quantum dot lattice (TDQDL) treated within Lippmann-Schwinger formalism. By considering the scattering of MDF from TDQDL with a cavity, as well as the moir\'{e} pattern of twisted TDQDLs, we establish an electronic analogue of Babinet's principle in optics. Exploiting the similarity of the resulting differential scattering cross-section with the Fraunhofer diffraction pattern, we construct a dictionary for such FEO. Subsequently, we evaluate the resistivity of such scattered MDF using the Boltzmann approach as a function of the angle made between the direction of propagation of these charge-carriers and the symmetry axis of the dot-lattice, and Fourier analyze them to show that the spatial frequency associated with the angle-resolved resistivity gets filtered according to the structural changes in the dot lattice, indicating wider applicability of FEO of MDF.
翻訳日:2024-02-20 22:26:09 公開日:2024-02-17
# C-ICL:情報抽出のためのコントラスト型インコンテキスト学習

C-ICL: Contrastive In-context Learning for Information Extraction ( http://arxiv.org/abs/2402.11254v1 )

ライセンス: Link先を確認
Ying Mo, Jian Yang, Jiahao Liu, Shun Zhang, Jingang Wang, Zhoujun Li(参考訳) 近年、情報抽出(IE)分野において、名前付きエンティティ認識(NER)や関係抽出(RE)に関連するタスクに特化して、先進的な大規模言語モデル(LLM)の能力を探ることへの関心が高まっている。 llmsを用いたコンテキスト内学習を通じて,少数の情報抽出の利用を検討している研究者は多いが,実演の正しい例や肯定的な例のみに注目する傾向にあり,学習プロセスに不正確な例や否定的な例を取り込む潜在的な価値を無視する傾向がある。 本稿では, 正しいサンプル構成と不正確なサンプル構成を併用して, 文脈内学習のデモを作成する, 新規な複数ショット技術であるc-ICLを提案する。 このアプローチは、ポジティブなサンプルだけでなく、背後にある推論を含むプロンプトを利用することで、エンティティとリレーションを抽出できるllmの能力を高める。 この方法は、潜在的なインターフェースエラーの識別と修正を可能にする。 特に,本提案手法では,硬い負のサンプルと最寄りの正の近傍の固有文脈情報と貴重な情報をテストに適用し,llmsに基づく文脈内学習デモを適用した。 各種データセットに対する実験により、c-ICLは従来の数発のコンテキスト内学習法より優れており、関連するタスクの幅広い範囲で性能が大幅に向上していることが示された。 これらの改善は注目に値するもので、さまざまなシナリオにおける我々のアプローチの汎用性を示している。

Recently, there has been increasing interest in exploring the capabilities of advanced large language models (LLMs) in the field of information extraction (IE), specifically focusing on tasks related to named entity recognition (NER) and relation extraction (RE). Although researchers are exploring the use of few-shot information extraction through in-context learning with LLMs, they tend to focus only on using correct or positive examples for demonstration, neglecting the potential value of incorporating incorrect or negative examples into the learning process. In this paper, we present c-ICL, a novel few-shot technique that leverages both correct and incorrect sample constructions to create in-context learning demonstrations. This approach enhances the ability of LLMs to extract entities and relations by utilizing prompts that incorporate not only the positive samples but also the reasoning behind them. This method allows for the identification and correction of potential interface errors. Specifically, our proposed method taps into the inherent contextual information and valuable information in hard negative samples and the nearest positive neighbors to the test and then applies the in-context learning demonstrations based on LLMs. Our experiments on various datasets indicate that c-ICL outperforms previous few-shot in-context learning methods, delivering substantial enhancements in performance across a broad spectrum of related tasks. These improvements are noteworthy, showcasing the versatility of our approach in miscellaneous scenarios.
翻訳日:2024-02-20 22:25:39 公開日:2024-02-17
# オンライン自己判断による大規模言語モデルの調整

Aligning Large Language Models by On-Policy Self-Judgment ( http://arxiv.org/abs/2402.11253v1 )

ライセンス: Link先を確認
Sangkyu Lee, Sungdong Kim, Ashkan Yousefpour, Minjoon Seo, Kang Min Yoo, Youngjae Yu(参考訳) 大規模言語モデルと人間の好みを整合させるために、既存の研究は、個別報酬モデル(rm)を使用してオンポリシー学習を行うか、オンポリシー学習と個別のrmの必要性を捨ててトレーニング手順を単純化する。 本稿では,新しいアライメントフレームワークであるSELF-JUDGEについて述べる。 2) パラメータ効率は, オンライン学習のサンプルを評価するための追加のRMを必要としない。 そこで本研究では,政策と裁判官の両方として機能する単一モデルの訓練を行うために,審査強化細管(JSFT)を提案する。 具体的には、ペアの判断タスクを命令追従タスクの特別なケースとみなし、応答対からより良い応答を選択する。 したがって、結果として得られたモデルは、それ自体から初期化された現在のポリシーからのオンザフライ応答の好みを判断することができる。 評価実験の結果,SELF-JUDGEは選好ベンチマークのベースラインを上回った。 また, オーバーサンプリングによる自己拒絶は, 追加評価器を使わずにさらに改善できることを示した。 私たちのコードはhttps://github.com/oddqueue/self-judgeで入手できる。

To align large language models with human preferences, existing research either utilizes a separate reward model (RM) to perform on-policy learning or simplifies the training procedure by discarding the on-policy learning and the need for a separate RM. In this paper, we present a novel alignment framework, SELF-JUDGE that is (1) on-policy learning and 2) parameter efficient, as it does not require an additional RM for evaluating the samples for on-policy learning. To this end, we propose Judge-augmented Supervised Fine-Tuning (JSFT) to train a single model acting as both a policy and a judge. Specifically, we view the pairwise judgment task as a special case of the instruction-following task, choosing the better response from a response pair. Thus, the resulting model can judge preferences of on-the-fly responses from current policy initialized from itself. Experimental results show the efficacy of SELF-JUDGE, outperforming baselines in preference benchmarks. We also show that self-rejection with oversampling can improve further without an additional evaluator. Our code is available at https://github.com/oddqueue/self-judge.
翻訳日:2024-02-20 22:25:14 公開日:2024-02-17
# ポイントクラウド幾何圧縮のための階層的事前ベーススーパーレゾリューション

Hierarchical Prior-based Super Resolution for Point Cloud Geometry Compression ( http://arxiv.org/abs/2402.11250v1 )

ライセンス: Link先を確認
Dingquan Li and Kede Ma and Jing Wang and Ge Li(参考訳) 幾何学に基づくポイントクラウド圧縮(G-PCC)は、ポイントクラウドを圧縮するために移動画像専門家グループによって開発された。 損失モードでは、G-PCC による再構成点雲は、しばしば na\"{i}ve の幾何量子化(すなわちグリッドダウンサンプリング)による顕著な歪みに悩まされる。 本稿では,ポイントクラウド幾何圧縮のための階層型事前解像法を提案する。 コンテンツ依存の階層的先行はエンコーダ側で構築され、デコーダ側の点雲幾何学の粗い超解像を可能にする。 より正確には、この側情報をエンコードするために必要なビットの増加を犠牲にして、再構築性能が向上する。 提案手法は,octreeベースおよびtrisoupベースのg-pcc v14を超えるmpeg cat1aデータセットにおけるbjontegaard-deltaビットレートの削減効果を示す。 我々は、https://github.com/lidq92/mpeg-pcc-tmc13で再現可能な研究のための実装を提供しています。

The Geometry-based Point Cloud Compression (G-PCC) has been developed by the Moving Picture Experts Group to compress point clouds. In its lossy mode, the reconstructed point cloud by G-PCC often suffers from noticeable distortions due to the na\"{i}ve geometry quantization (i.e., grid downsampling). This paper proposes a hierarchical prior-based super resolution method for point cloud geometry compression. The content-dependent hierarchical prior is constructed at the encoder side, which enables coarse-to-fine super resolution of the point cloud geometry at the decoder side. A more accurate prior generally yields improved reconstruction performance, at the cost of increased bits required to encode this side information. With a proper balance between prior accuracy and bit consumption, the proposed method demonstrates substantial Bjontegaard-delta bitrate savings on the MPEG Cat1A dataset, surpassing the octree-based and trisoup-based G-PCC v14. We provide our implementations for reproducible research at https://github.com/lidq92/mpeg-pcc-tmc13.
翻訳日:2024-02-20 22:24:54 公開日:2024-02-17
# collavo: 大きな言語とビジョンモデル

CoLLaVO: Crayon Large Language and Vision mOdel ( http://arxiv.org/abs/2402.11248v1 )

ライセンス: Link先を確認
Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro(参考訳) LLM(Large Language Models)とインストラクションチューニングの顕著な成功は、視覚言語モデル(VLM)の多目的汎用モデルへの進化を促進する。 しかし、現在のvlmが「画像内のどのオブジェクト」から決定される高品質なオブジェクトレベルの画像理解能力を持っているのか、それとも「どのオブジェクトが指定された境界ボックスに対応するのか? その結果,現在のVLMのイメージ理解能力は,ビジョン言語(VL)タスクにおけるゼロショット性能と強く相関していることがわかった。 このことは、VLMがVLタスクに精通する上で、基本的なイメージ理解の優先順位付けが重要であることを示唆している。 オブジェクトレベルの画像理解を強化するため,我々は,パンオプティックカラーマップに基づく新しい視覚的プロンプトチューニングスキームとして,クラヨンプロンプトによる命令チューニングを組み込んだcrayon large language and vision model (collavo)を提案する。 さらに,視覚インストラクションチューニング中にオブジェクトレベルの画像理解を忘れることなく保持し,ゼロショットの多数のvlベンチマークにおいて大幅な飛躍を実現するために,dual qloraの学習戦略を提案する。

The remarkable success of Large Language Models (LLMs) and instruction tuning drives the evolution of Vision Language Models (VLMs) towards a versatile general-purpose model. Yet, it remains unexplored whether current VLMs genuinely possess quality object-level image understanding capabilities determined from 'what objects are in the image?' or 'which object corresponds to a specified bounding box?'. Our findings reveal that the image understanding capabilities of current VLMs are strongly correlated with their zero-shot performance on Vision Language (VL) tasks. This suggests that prioritizing basic image understanding is crucial for VLMs to excel at VL tasks. To enhance object-level image understanding, we propose Crayon Large Language and Vision mOdel (CoLLaVO), which incorporates instruction tuning with crayon prompt as a new visual prompt tuning scheme based on panoptic color maps. Furthermore, we present a learning strategy of Dual QLoRA to preserve object-level image understanding without forgetting it during visual instruction tuning, thereby achieving a significant leap in zero-shot numerous VL benchmarks.
翻訳日:2024-02-20 22:24:32 公開日:2024-02-17
# 大規模言語モデルは関係ベースの引数マイニングを実行できるか?

Can Large Language Models perform Relation-based Argument Mining? ( http://arxiv.org/abs/2402.11243v1 )

ライセンス: Link先を確認
Deniz Gorur, Antonio Rago, Francesca Toni(参考訳) 引数マイニング(英: argument mining、am)は、テキストから引数とそのコンポーネントおよび/または関係を自動的に抽出するプロセスである。 オンライン討論を支援するプラットフォームの数が増えるにつれて、特に下流タスクのサポートにおいて、AMの必要性はますます緊急になっている。 関係ベースAM(Relation-based AM、RbAM)は、議論における合意(サポート)と不一致(アタック)の関係の特定に焦点を当てたAMの一形態である。 RbAMは難しい分類タスクであり、既存のメソッドは十分に機能しない。 本稿では,汎用大規模言語モデル (llm) が,最もパフォーマンスの高い (roberta ベース) ベースラインを大幅に上回ることができることを示す。 具体的には、Llama-2 と Mistral の2つのオープンソース LLM を10個のデータセットで実験する。

Argument mining (AM) is the process of automatically extracting arguments, their components and/or relations amongst arguments and components from text. As the number of platforms supporting online debate increases, the need for AM becomes ever more urgent, especially in support of downstream tasks. Relation-based AM (RbAM) is a form of AM focusing on identifying agreement (support) and disagreement (attack) relations amongst arguments. RbAM is a challenging classification task, with existing methods failing to perform satisfactorily. In this paper, we show that general-purpose Large Language Models (LLMs), appropriately primed and prompted, can significantly outperform the best performing (RoBERTa-based) baseline. Specifically, we experiment with two open-source LLMs (Llama-2 and Mistral) with ten datasets.
翻訳日:2024-02-20 22:24:14 公開日:2024-02-17
# サンプル選択におけるバイアス回避による不均衡雑音データによる学習

Learning with Imbalanced Noisy Data by Preventing Bias in Sample Selection ( http://arxiv.org/abs/2402.11242v1 )

ライセンス: Link先を確認
Huafeng Liu, Mengmeng Sheng, Zeren Sun, Yazhou Yao, Xian-Sheng Hua, and Heng-Tao Shen(参考訳) 現実のシナリオにおける避けられない不完全なラベルは、深いモデルパフォーマンスを著しく損なう可能性があるため、ノイズの多いラベルによる学習が注目を集めている。 近年の研究では、低損失サンプルをクリーンなものとみなし、ノイズラベルの負の影響を軽減するために高損失サンプルを廃棄する傾向にある。 しかし、実際のデータセットはノイズラベルだけでなくクラス不均衡も含んでいる。 テールクラスのアンダーラーニングも高い損失を生み出すために傾いているため、アンバランス問題はロスベースサンプル選択の失敗を引き起こす可能性がある。 そこで本研究では,不均衡なデータセットにおけるノイズラベルに対処する,シンプルで効果的な手法を提案する。 具体的には,クラスBalance-based sample Selection (CBS) を提案し,トレーニング中にテールクラスサンプルが無視されるのを防ぐ。 本稿では,クリーンサンプルの信頼性を高めるために,信頼性に基づくサンプル拡張(CSA)を提案する。 選択されたノイズサンプルを利用するには,予測履歴を用いてノイズサンプルのラベルを補正する。 さらに,モデルの進化するトレーニングダイナミクスを活かし,補正ラベルの品質を測定するための平均信頼率(acm)指標を導入し,低品質の補正ノイズサンプルを適切にマスクアウトできるようにする。 最後に、モデル性能を高めるために、フィルタラベル補正ノイズサンプルに整合正則化を課す。 合成および実世界のデータセットに関する総合的な実験結果から,提案手法の有効性と優位性,特に不均衡なシナリオにおいて検証した。 合成および実世界のデータセットに関する総合的な実験結果から,提案手法の有効性と優位性,特に不均衡なシナリオにおいて検証した。

Learning with noisy labels has gained increasing attention because the inevitable imperfect labels in real-world scenarios can substantially hurt the deep model performance. Recent studies tend to regard low-loss samples as clean ones and discard high-loss ones to alleviate the negative impact of noisy labels. However, real-world datasets contain not only noisy labels but also class imbalance. The imbalance issue is prone to causing failure in the loss-based sample selection since the under-learning of tail classes also leans to produce high losses. To this end, we propose a simple yet effective method to address noisy labels in imbalanced datasets. Specifically, we propose Class-Balance-based sample Selection (CBS) to prevent the tail class samples from being neglected during training. We propose Confidence-based Sample Augmentation (CSA) for the chosen clean samples to enhance their reliability in the training process. To exploit selected noisy samples, we resort to prediction history to rectify labels of noisy samples. Moreover, we introduce the Average Confidence Margin (ACM) metric to measure the quality of corrected labels by leveraging the model's evolving training dynamics, thereby ensuring that low-quality corrected noisy samples are appropriately masked out. Lastly, consistency regularization is imposed on filtered label-corrected noisy samples to boost model performance. Comprehensive experimental results on synthetic and real-world datasets demonstrate the effectiveness and superiority of our proposed method, especially in imbalanced scenarios. Comprehensive experimental results on synthetic and real-world datasets demonstrate the effectiveness and superiority of our proposed method, especially in imbalanced scenarios.
翻訳日:2024-02-20 22:23:59 公開日:2024-02-17
# DiffPoint: ViTベース拡散モデルによる単視点・多視点クラウド再構成

DiffPoint: Single and Multi-view Point Cloud Reconstruction with ViT Based Diffusion Model ( http://arxiv.org/abs/2402.11241v1 )

ライセンス: Link先を確認
Yu Feng, Xing Shi, Mengli Cheng, Yun Xiong(参考訳) 2dから3dへの再構成作業は,実世界の様々なシナリオにおいて大きな注目を集めているため,高品質のポイントクラウドを生成できることが重要である。 近年のポイントクラウド生成におけるディープラーニングモデルの成功にもかかわらず、画像とポイントクラウドの相違による忠実度の高い結果の生成には依然として課題がある。 視覚変換器(ViT)と拡散モデルは様々な視覚タスクにおいて有望であるが、画像から点雲を再構成する利点はまだ示されていない。 本稿では,まず,点雲再構成のためのViTと拡散モデルを組み合わせたDiffPointという,巧妙で強力なアーキテクチャを提案する。 各拡散ステップで、ノイズのある点雲を不規則なパッチに分割する。 そして、すべての入力をトークン(時間情報、画像埋め込み、ノイズパッチを含む)として扱う標準のViTバックボーンを使用して、入力画像に基づいてターゲットポイントを予測するようにモデルを訓練する。 単視点および多視点の再構成タスクにおける差分点を評価し,最新の結果を得る。 さらに,単一または複数の入力画像から画像特徴を集約する統一的で柔軟な機能融合モジュールを提案する。 さらに,本研究は,言語や画像に統一アーキテクチャを適用して3次元再構成作業を改善する可能性を示した。

As the task of 2D-to-3D reconstruction has gained significant attention in various real-world scenarios, it becomes crucial to be able to generate high-quality point clouds. Despite the recent success of deep learning models in generating point clouds, there are still challenges in producing high-fidelity results due to the disparities between images and point clouds. While vision transformers (ViT) and diffusion models have shown promise in various vision tasks, their benefits for reconstructing point clouds from images have not been demonstrated yet. In this paper, we first propose a neat and powerful architecture called DiffPoint that combines ViT and diffusion models for the task of point cloud reconstruction. At each diffusion step, we divide the noisy point clouds into irregular patches. Then, using a standard ViT backbone that treats all inputs as tokens (including time information, image embeddings, and noisy patches), we train our model to predict target points based on input images. We evaluate DiffPoint on both single-view and multi-view reconstruction tasks and achieve state-of-the-art results. Additionally, we introduce a unified and flexible feature fusion module for aggregating image features from single or multiple input images. Furthermore, our work demonstrates the feasibility of applying unified architectures across languages and images to improve 3D reconstruction tasks.
翻訳日:2024-02-20 22:23:34 公開日:2024-02-17
# クラウドにマイクロサービスアーキテクチャを展開するための持続可能な代替策の検討

Exploring sustainable alternatives for the deployment of microservices architectures in the cloud ( http://arxiv.org/abs/2402.11238v1 )

ライセンス: Link先を確認
Vittorio Cortellessa, Daniele Di Pompeo, Michele Tucci(参考訳) 組織がアプリケーションをクラウドに移行するにつれて、マイクロサービスアーキテクチャの最適化が持続可能性目標を達成する上で不可欠になる。 それでも、持続可能なデプロイメントはコストを増大させ、パフォーマンスを低下させる可能性があるため、これらの矛盾する要件の中で最適なトレードオフを特定することは、達成し難い重要な目標である。 本稿では,アプリケーション性能,デプロイメントコスト,消費電力の最適な組み合わせを目標として,マイクロサービスアーキテクチャのクラウド展開を支援する新たなアプローチを提案する。 遺伝的アルゴリズム、特にNSGA-IIを活用することで、代替アーキテクチャの配置を自動生成する。 この結果は,Train Ticketケーススタディの総合的な評価を通じて,我々のアプローチの可能性を示すものである。

As organizations increasingly migrate their applications to the cloud, the optimization of microservices architectures becomes imperative for achieving sustainability goals. Nonetheless, sustainable deployments may increase costs and deteriorate performance, thus the identification of optimal tradeoffs among these conflicting requirements is a key objective not easy to achieve. This paper introduces a novel approach to support cloud deployment of microservices architectures by targeting optimal combinations of application performance, deployment costs, and power consumption. By leveraging genetic algorithms, specifically NSGA-II, we automate the generation of alternative architectural deployments. The results demonstrate the potential of our approach through a comprehensive assessment of the Train Ticket case study.
翻訳日:2024-02-20 22:23:13 公開日:2024-02-17
# 永続性: ディープラーニングのショートカットを緩和するための統一ソリューションに向けて

Be Persistent: Towards a Unified Solution for Mitigating Shortcuts in Deep Learning ( http://arxiv.org/abs/2402.11237v1 )

ライセンス: Link先を確認
Hadi M. Dolatabadi, Sarah M. Erfani, Christopher Leckie(参考訳) 深層ニューラルネットワーク(DNN)は、意図したタスクを学ぶのではなく、入力と出力の間に不確定な関係を描く傾向がある。 近距離学習は、ニューラルネットワークの多くの障害ケースにおいて普遍的であり、この現象の痕跡は、その一般化可能性の問題、ドメインシフト、敵対的脆弱性、そして多数派グループに対するバイアスに見ることができる。 本稿では,様々なDNN問題の原因となるこの共通性が,ショートカット学習の統一解を見つけるために活用すべき重要な機会を生んでいることを論じる。 この目的のために,最近のトポロジカルデータ解析(TDA)と永続的ホモロジー(PH)の進歩を概説し,深層学習におけるショートカット検出のための統一されたロードマップをスケッチする。 本研究は,dnnにおける計算グラフの位相的特徴を,既知例と意思決定バイアスの2つの事例を用いて検証し,議論を実証する。 DNNにおけるこれらの2つの障害事例を分析してみると、DNNにおけるショートカット学習のための統一されたソリューションを見つけることは不可能であり、TDAはそのようなフレームワークを形成する上で重要な役割を果たす。

Deep neural networks (DNNs) are vulnerable to shortcut learning: rather than learning the intended task, they tend to draw inconclusive relationships between their inputs and outputs. Shortcut learning is ubiquitous among many failure cases of neural networks, and traces of this phenomenon can be seen in their generalizability issues, domain shift, adversarial vulnerability, and even bias towards majority groups. In this paper, we argue that this commonality in the cause of various DNN issues creates a significant opportunity that should be leveraged to find a unified solution for shortcut learning. To this end, we outline the recent advances in topological data analysis~(TDA), and persistent homology~(PH) in particular, to sketch a unified roadmap for detecting shortcuts in deep learning. We demonstrate our arguments by investigating the topological features of computational graphs in DNNs using two cases of unlearnable examples and bias in decision-making as our test studies. Our analysis of these two failure cases of DNNs reveals that finding a unified solution for shortcut learning in DNNs is not out of reach, and TDA can play a significant role in forming such a framework.
翻訳日:2024-02-20 22:23:03 公開日:2024-02-17
# ZeroG: グラフにおけるデータセット間のゼロショット転送可能性の調査

ZeroG: Investigating Cross-dataset Zero-shot Transferability in Graphs ( http://arxiv.org/abs/2402.11235v1 )

ライセンス: Link先を確認
Yuhan Li, Peisong Wang, Zhixun Li, Jeffrey Xu Yu, Jia Li(参考訳) 大規模言語モデルのような基礎モデルの開発に伴い、ゼロショット転送学習はますます重要になっている。 これは、GPT-4のようなNLPモデルの生成能力と、CLIPのようなCVモデルの検索ベースのアプローチによって強調される。 グラフ学習の領域では、新しいグラフの継続的な出現と人間のラベル付けの課題は、ゼロショット転送学習の必要性を増幅し、データセットやラベル固有の微調整を必要とせず、多様なグラフデータにまたがる一般化可能なアプローチの探索を促進する。 本研究では,クロスデータセットの一般化を可能にする新しいフレームワークであるzerogを導入することで,このようなパラダイムをグラフのゼロショット転送可能性に拡張する。 特徴のミスアライメント、ラベル空間のミスマッチ、負の移動といった固有の課題に対処するため、我々は言語モデルを利用してノード属性とクラスセマンティクスの両方を符号化し、データセット間で一貫した特徴次元を確保する。 また,プロンプトノードと近傍アグリゲーションを用いて抽出されたサブグラフの意味情報と構造情報を強化するプロンプトベースのサブグラフサンプリングモジュールを提案する。 さらに、オーバーフィットのリスクを低減し、言語モデルのゼロショット学習効果を維持する軽量な微調整戦略を採用する。 この結果は,グラフ基礎モデル開発のための開水路として,重要なクロスデータセットのゼロショット転送可能性を達成する上でのモデルの有効性を強調するものである。 特にゼロショット法であるzerogは、pubmed上の半教師付き学習に匹敵する結果を得ることができる。

With the development of foundation models such as large language models, zero-shot transfer learning has become increasingly significant. This is highlighted by the generative capabilities of NLP models like GPT-4, and the retrieval-based approaches of CV models like CLIP, both of which effectively bridge the gap between seen and unseen data. In the realm of graph learning, the continuous emergence of new graphs and the challenges of human labeling also amplify the necessity for zero-shot transfer learning, driving the exploration of approaches that can generalize across diverse graph data without necessitating dataset-specific and label-specific fine-tuning. In this study, we extend such paradigms to zero-shot transferability in graphs by introducing ZeroG, a new framework tailored to enable cross-dataset generalization. Addressing the inherent challenges such as feature misalignment, mismatched label spaces, and negative transfer, we leverage a language model to encode both node attributes and class semantics, ensuring consistent feature dimensions across datasets. We also propose a prompt-based subgraph sampling module that enriches the semantic information and structure information of extracted subgraphs using prompting nodes and neighborhood aggregation, respectively. We further adopt a lightweight fine-tuning strategy that reduces the risk of overfitting and maintains the zero-shot learning efficacy of the language model. The results underscore the effectiveness of our model in achieving significant cross-dataset zero-shot transferability, opening pathways for the development of graph foundation models. Especially, ZeroG, as a zero-shot method, can even achieve results comparable to those of semi-supervised learning on Pubmed.
翻訳日:2024-02-20 22:22:42 公開日:2024-02-17
# ポラリトン系室温量子フォトトランジスタ

Polariton-Based Room Temperature Quantum Phototransistors ( http://arxiv.org/abs/2402.11234v1 )

ライセンス: Link先を確認
Jhuma Dutta (1), Pooja Bhatt (1), Kuljeet Kaur (1), Daniel E. G\'omez (2) and Jino George (1) ((1) Indian Institute of Science Education and Research (IISER) Mohali, (2) School of Science, RMIT University, Melbourne)(参考訳) 強い光-物質結合は、光と物質が結合してハイブリッド状態を生成する量子過程である。 これは分子ハイブリダイゼーションの概念に似ているが、その構成要素の1つは光である。 ここでは、ドナーとアクセプターの組み合わせを使って、ラビ振動によってエネルギーを伝達できる量子フォトトランジスタのアイデアと準備を行った。 試作実験では、電界効果トランジスタキャビティにシアニンJ凝集体(TDBC, ドナー)とMoS2単層(アクセプター)を用い、光応答性を検討した。 エネルギーは新たに形成された分極子を移動し、装置の相対効率はオン共鳴でほぼ7倍になる。 さらに、独立装置毎に光子混合率を算出し、エネルギー移動効率と相関させる。 強結合系では、新しく形成された分極状態が確率関数を再シャッフルする。 時間依存schr\"odinger方程式に基づく理論モデルは、結果の解釈にも用いられる。 ここで、絡み合った光マター状態は、MoS2単層にエネルギーを伝達する強いチャネルとして作用し、ON共鳴において最も高い光応答性を示す能力を高める。 これらの実験結果と提案モデルは、量子材料における強い光・物質結合の新しい応用を示唆している。

Strong light-matter coupling is a quantum process in which light and matter are coupled together, generating hybridized states. This is similar to the notion of molecular hybridization, but one of the components is light. Here, we utilized the idea and prepared quantum phototransistors using donor-acceptor combinations that can transfer energy via Rabi oscillations. As a prototype experiment, we used a cyanine J-aggregate (TDBC; donor) and MoS2 monolayer (acceptor) in a field effect transistor cavity and studied the photoresponsivity. The energy migrates through the newly formed polaritonic ladder, and the relative efficiency of the device is nearly seven-fold at the ON resonance. Further, the photon mixing fraction is calculated for each independent device and correlated with energy transfer efficiency. In the strongly coupled system, newly formed polaritonic states reshuffle the probability function. A theoretical model based on the time dependent Schr\"odinger equation is also used to interpret the results. Here, the entangled light-matter states act as a strong channel for funnelling the energy to the MoS2 monolayer, thereby boosting its ability to show the highest photoresponsivity at ON-resonance. These experimental findings and the proposed model suggest novel applications of strong light-matter coupling in quantum materials.
翻訳日:2024-02-20 22:22:10 公開日:2024-02-17
# 大規模言語モデルの推論を用いたパズル解法:調査

Puzzle Solving using Reasoning of Large Language Models: A Survey ( http://arxiv.org/abs/2402.11291v1 )

ライセンス: Link先を確認
Panagiotis Giadikiaroglou, Maria Lymperaiou, Giorgos Filandrianos, Giorgos Stamou(参考訳) パズル解決におけるLarge Language Models(LLM)の機能の探索は、人工知能におけるその可能性と課題に関する重要な洞察を公開し、複雑な推論タスクにおけるそれらの適用性を理解するための重要なステップとなる。 この調査では、パズルをルールベースとルールレスのカテゴリに分割するユニークな分類法を活用し、様々な方法論を通じてLSMを批判的に評価する。 関連するデータセットとベンチマークの批判的レビューを通じて、LLMの性能を評価し、複雑なパズルシナリオにおける重要な課題を特定する。 本研究は,高度な論理的推論を必要とする人において,LLM能力と人間ライクな推論の相違を強調した。 この調査は、LLMのパズル解決能力を高め、AIの論理的推論と創造的問題解決の進歩に貢献するために、新しい戦略とよりリッチなデータセットの必要性を強調している。

Exploring the capabilities of Large Language Models (LLMs) in puzzle solving unveils critical insights into their potential and challenges in artificial intelligence, marking a significant step towards understanding their applicability in complex reasoning tasks. This survey leverages a unique taxonomy -- dividing puzzles into rule-based and rule-less categories -- to critically assess LLMs through various methodologies, including prompting techniques, neuro-symbolic approaches, and fine-tuning. Through a critical review of relevant datasets and benchmarks, we assess LLMs' performance, identifying significant challenges in complex puzzle scenarios. Our findings highlight the disparity between LLM capabilities and human-like reasoning, particularly in those requiring advanced logical inference. The survey underscores the necessity for novel strategies and richer datasets to advance LLMs' puzzle-solving proficiency and contribute to AI's logical reasoning and creative problem-solving advancements.
翻訳日:2024-02-20 22:13:38 公開日:2024-02-17
# コンピュータビジョンと人工知能の革新による胸腔外科手術における外科的パフォーマンス向上 : ナラティブ・レビュー

Enhancing Surgical Performance in Cardiothoracic Surgery with Innovations from Computer Vision and Artificial Intelligence: A Narrative Review ( http://arxiv.org/abs/2402.11288v1 )

ライセンス: Link先を確認
Merryn D. Constable, Hubert P. H. Shum, Stephen Clark(参考訳) 技術的な要件が高く、患者の成果が極めて重要である場合、客観的な動作分析フィードバックによる手術スキルの監視と改善の機会は特に有益である。 このナラティブレビューは、技術的および非技術的外科的スキル、協調的なタスクパフォーマンス、そして、コンピュータビジョンや人工知能の革新によって心胸部外科的パフォーマンスを前進させる新たな機会を示すためのポーズ推定について研究する。 これらの技術革新は、心臓外科手術のコミュニティに利益をもたらすことができるという点で批判的に評価され、テクノロジーの取り込みの障壁が詳細に述べられている。 他の専門分野と同様に、心臓胸腔外科は、その内に組み込まれたデータキャプチャー技術(例えばロボット補助腹腔鏡手術など)の恩恵を受ける機会が比較的少ない。 このような場合、スペシャリストやマーカーを使わずに、従来の操作領域を移動追跡できるポーズ推定技術は、かなりの可能性を秘めている。 シミュレーションまたは実際の手術手順からの映像データを用いて、(1)外科医のキャリアにおける専門知識と外科的業績の発達に関する洞察、(2)改善すべき領域に関する外科医へのフィードバック、(3)訓練や指導プログラムにおいて焦点をあてるべき外科的スキルの側面を知らせることのできる患者の成果にどのようなスキルの側面が関連しているかを調査できる機会を提供する。 人工知能を用いて専門的な専門知識を習得する分類アルゴリズムや評価アルゴリズムは、訓練生が能力閾値を満たすかどうかを判断する教育者を支援することができる。

When technical requirements are high, and patient outcomes are critical, opportunities for monitoring and improving surgical skills via objective motion analysis feedback may be particularly beneficial. This narrative review synthesises work on technical and non-technical surgical skills, collaborative task performance, and pose estimation to illustrate new opportunities to advance cardiothoracic surgical performance with innovations from computer vision and artificial intelligence. These technological innovations are critically evaluated in terms of the benefits they could offer the cardiothoracic surgical community, and any barriers to the uptake of the technology are elaborated upon. Like some other specialities, cardiothoracic surgery has relatively few opportunities to benefit from tools with data capture technology embedded within them (as with robotic-assisted laparoscopic surgery, for example). In such cases, pose estimation techniques that allow for movement tracking across a conventional operating field without using specialist equipment or markers offer considerable potential. With video data from either simulated or real surgical procedures, these tools can (1) provide insight into the development of expertise and surgical performance over a surgeon's career, (2) provide feedback to trainee surgeons regarding areas for improvement, (3) provide the opportunity to investigate what aspects of skill may be linked to patient outcomes which can (4) inform the aspects of surgical skill which should be focused on within training or mentoring programmes. Classifier or assessment algorithms that use artificial intelligence to 'learn' what expertise is from expert surgical evaluators could further assist educators in determining if trainees meet competency thresholds.
翻訳日:2024-02-20 22:13:19 公開日:2024-02-17
# デンストラッキング用デンスマッチ

Dense Matchers for Dense Tracking ( http://arxiv.org/abs/2402.11287v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Jel\'inek, Jon\'a\v{s} \v{S}er\'ych, Ji\v{r}\'i Matas(参考訳) 光フローは3次元再構成、ポーズ推定、追跡、動きからの構造化など、様々な用途に有用な入力である。 その有用性にもかかわらず、特に広いベースライン上での密集した長期追跡の分野は、広く研究されていない。 本稿では,MFT が提案する対数空間間隔における多重光流の結合の概念を拡張した。 我々は,MFTと異なる光フローネットワークとの整合性を実証し,個々の性能を上回る結果を得た。 さらに,これらのネットワークをMDTフレームワーク内でシンプルかつ効果的に組み合わせることを提案する。 このアプローチは、位置予測精度の観点からより洗練された非因果的手法と競合し、長期追跡アプリケーションの強化におけるMFTの可能性を強調している。

Optical flow is a useful input for various applications, including 3D reconstruction, pose estimation, tracking, and structure-from-motion. Despite its utility, the field of dense long-term tracking, especially over wide baselines, has not been extensively explored. This paper extends the concept of combining multiple optical flows over logarithmically spaced intervals as proposed by MFT. We demonstrate the compatibility of MFT with different optical flow networks, yielding results that surpass their individual performance. Moreover, we present a simple yet effective combination of these networks within the MFT framework. This approach proves to be competitive with more sophisticated, non-causal methods in terms of position prediction accuracy, highlighting the potential of MFT in enhancing long-term tracking applications.
翻訳日:2024-02-20 22:12:47 公開日:2024-02-17
# 仮想化O-RANプラットフォームにおける公平な資源配分

Fair Resource Allocation in Virtualized O-RAN Platforms ( http://arxiv.org/abs/2402.11285v1 )

ライセンス: Link先を確認
Fatih Aslan, George Iosifidis, Jose A. Ayala-Romero, Andres Garcia-Saavedra, Xavier Costa-Perez(参考訳) o-ranシステムとその仮想化汎用コンピューティングプラットフォーム(o-cloud)への展開は、前例のないパフォーマンス向上を期待するパラダイムシフトを構成する。 しかし、これらのアーキテクチャは新たな実装課題を引き起こし、モバイルネットワークの既に高いエネルギー消費を悪化させる恐れがある。 本稿では,まず,o-cloudのエネルギーコストと,サーバのハードウェア,容量,データトラフィック特性への依存度を評価する実験を行った。 次に,O-Cloudサーバへの基地局データのロードをエネルギー効率のよい方法で割り当てる計算ポリシと,不要なエネルギーコストを回避するため,ユーザ毎の送信ブロックサイズをほぼリアルタイムで決定する無線ポリシを提案する。 ポリシーは省エネとパフォーマンスのバランスをとっており、両者がそれぞれサーバとユーザ間で公平に分散していることを保証する。 政策に影響を及ぼす未知の時間的変動パラメータに対応するために,システム全体(長期的公平性)に適用可能な公平性保証を備えた新しいオンライン学習フレームワークを開発した。 これらのポリシーはトレース駆動シミュレーションを用いて評価され,実シナリオにおけるエネルギーコストとスループットを測定するO-RAN互換システムで完全に実装されている。

O-RAN systems and their deployment in virtualized general-purpose computing platforms (O-Cloud) constitute a paradigm shift expected to bring unprecedented performance gains. However, these architectures raise new implementation challenges and threaten to worsen the already-high energy consumption of mobile networks. This paper presents first a series of experiments which assess the O-Cloud's energy costs and their dependency on the servers' hardware, capacity and data traffic properties which, typically, change over time. Next, it proposes a compute policy for assigning the base station data loads to O-Cloud servers in an energy-efficient fashion; and a radio policy that determines at near-real-time the minimum transmission block size for each user so as to avoid unnecessary energy costs. The policies balance energy savings with performance, and ensure that both of them are dispersed fairly across the servers and users, respectively. To cater for the unknown and time-varying parameters affecting the policies, we develop a novel online learning framework with fairness guarantees that apply to the entire operation horizon of the system (long-term fairness). The policies are evaluated using trace-driven simulations and are fully implemented in an O-RAN compatible system where we measure the energy costs and throughput in realistic scenarios.
翻訳日:2024-02-20 22:12:33 公開日:2024-02-17
# ラベル付きデータを用いないサロゲートモデリングのための深層適応サンプリング

Deep adaptive sampling for surrogate modeling without labeled data ( http://arxiv.org/abs/2402.11283v1 )

ライセンス: Link先を確認
Xili Wang, Kejun Tang, Jiayu Zhai, Xiaoliang Wan, Chao Yang(参考訳) 代理モデリングはパラメトリック微分方程式系にとって非常に実用的である。 古典的な数値法とは対照的に、物理インフォームド・ディープラーニング法を用いてそのようなシステムのためのシミュレータを構築することは、高次元性を扱う可能性から有望な方向であり、ランダムサンプルのトレーニングセットよりも損失を最小限に抑える必要がある。 しかし、ランダムサンプルは統計誤差を導入し、これは低規則性および高次元問題の近似において支配的な誤差となる可能性がある。 本稿では,surogate modeling (\text{das}^2$) に対するディープアダプティブサンプリング法を提案する。ここでは,deep adaptive sampling (das) method [62] [tang, wan and yang, 2023] を一般化し,低正則パラメトリック微分方程式のためのサロゲートモデルを構築する。 パラメトリック設定では、残留損失関数は空間変数とパラメトリック変数の非正規化確率密度関数(PDF)とみなすことができる。 このPDFは深層生成モデルによって近似され、そこから新しいサンプルが生成され、トレーニングセットに追加される。 新しいサンプルは残留誘起分布と一致するため、洗練されたトレーニングセットは現在の近似解の統計誤差をさらに低減することができる。 パラメトリックリッド駆動の2次元キャビティ流れ問題を含む100から1000までの連続的なレイノルズ数を含む一連の数値実験により,$\text{das}^2$の有効性を実証した。

Surrogate modeling is of great practical significance for parametric differential equation systems. In contrast to classical numerical methods, using physics-informed deep learning methods to construct simulators for such systems is a promising direction due to its potential to handle high dimensionality, which requires minimizing a loss over a training set of random samples. However, the random samples introduce statistical errors, which may become the dominant errors for the approximation of low-regularity and high-dimensional problems. In this work, we present a deep adaptive sampling method for surrogate modeling ($\text{DAS}^2$), where we generalize the deep adaptive sampling (DAS) method [62] [Tang, Wan and Yang, 2023] to build surrogate models for low-regularity parametric differential equations. In the parametric setting, the residual loss function can be regarded as an unnormalized probability density function (PDF) of the spatial and parametric variables. This PDF is approximated by a deep generative model, from which new samples are generated and added to the training set. Since the new samples match the residual-induced distribution, the refined training set can further reduce the statistical error in the current approximate solution. We demonstrate the effectiveness of $\text{DAS}^2$ with a series of numerical experiments, including the parametric lid-driven 2D cavity flow problem with a continuous range of Reynolds numbers from 100 to 1000.
翻訳日:2024-02-20 22:12:13 公開日:2024-02-17
# 文法的錯覚か曖昧な解釈か? マンダリン中心埋蔵構造における欠落np効果の性質と事象関連電位

Grammaticality illusion or ambiguous interpretation? Event-related potentials reveal the nature of the missing-NP effect in Mandarin centre-embedded structures ( http://arxiv.org/abs/2402.11282v1 )

ライセンス: Link先を確認
Qihang Yang, Caimei Yang, Yu Liao, Ziman Zhuang(参考訳) いくつかの言語では、ダブルセンター埋め込み構造で動詞句(vp)を省略すると、文法的な錯覚が生じる。 マンダリン欠損NP二重中心埋め込み構造にも同様の錯覚が現れる。 しかし、その性質については意見の一致はない。 文法的な錯覚として扱う代わりに、動詞の曖昧な解釈がマンダリンにおけるこの現象を最もよく説明できると主張する。 この仮説をさらに裏付けるために, 文章の被写体位置に自己埋め込み関係節を配置することにより, 複雑さを低減した擬似二重中心埋め込み構造に関する2つの脳波実験を行った。 実験1では、同様の現象がp600効果の欠如とn400効果の存在によって証明された。 実験2では、曖昧さを減らすための意味的な手がかりを提供することで、P600効果によって証明されたこの錯覚を免れた。 園芸パス理論に基づく結果の解釈を行い,この言語間差異を語順差が考慮しうることを提案する。

In several languages, omitting a verb phrase (VP) in double centre-embedded structures creates a grammaticality illusion. Similar illusion also exhibited in Mandarin missing-NP double centre-embedded structures. However, there is no consensus on its very nature. Instead of treating it as grammaticality illusion, we argue that ambiguous interpretations of verbs can best account for this phenomenon in Mandarin. To further support this hypothesis, we conducted two electroencephalography (EEG) experiments on quasi double centre-embedded structures whose complexity is reduced by placing the self-embedding relative clauses into the sentence's subject position. Experiment 1 showed that similar phenomenon even exhibited in this structure, evidenced by an absence of P600 effect and a presence of N400 effect. In Experiment 2, providing semantic cues to reduce ambiguity dispelled this illusion, as evidenced by a P600 effect. We interpret the results under garden-path theory and propose that word-order difference may account for this cross-linguistic variation.
翻訳日:2024-02-20 22:11:44 公開日:2024-02-17
# 大規模言語モデルにおけるマルチパースペクティブ一貫性による信頼度推定

Multi-Perspective Consistency Enhances Confidence Estimation in Large Language Models ( http://arxiv.org/abs/2402.11279v1 )

ライセンス: Link先を確認
Pei Wang, Yejie Wang, Muxi Diao, Keqing He, Guanting Dong, Weiran Xu(参考訳) 大規模言語モデル(llm)の展開においては,モデル予測の信頼性を評価する上で,正確な信頼度推定が重要である。 しかし、既存の手法は、しばしば不正確な答えに対する過信の問題を克服することができない。 本研究は,大規模言語モデルの信頼度推定の改善に焦点をあてる。 言語モデルにおける自己認識の脆弱さを考慮して,マルチパースペクティブ・一貫性(MPC)法を提案する。 モデル内の異なる視点(MPC-Internal)と異なるモデル(MPC-Across)の相補的な洞察を活用し、特異な視点から生じる過信の問題を軽減する。 8つの公開データセットの実験結果は、我々のMPCが最先端のパフォーマンスを達成することを示す。 さらなる分析は、MPCが過信の問題を軽減することができ、他のモデルに効果的にスケーラブルであることを示している。

In the deployment of large language models (LLMs), accurate confidence estimation is critical for assessing the credibility of model predictions. However, existing methods often fail to overcome the issue of overconfidence on incorrect answers. In this work, we focus on improving the confidence estimation of large language models. Considering the fragility of self-awareness in language models, we introduce a Multi-Perspective Consistency (MPC) method. We leverage complementary insights from different perspectives within models (MPC-Internal) and across different models (MPC-Across) to mitigate the issue of overconfidence arising from a singular viewpoint. The experimental results on eight publicly available datasets show that our MPC achieves state-of-the-art performance. Further analyses indicate that MPC can mitigate the problem of overconfidence and is effectively scalable to other models.
翻訳日:2024-02-20 22:11:28 公開日:2024-02-17
# TC-DiffRecon:拡散モデルと修正MF-UNetに基づくテクスチャ協調MRI再構成法

TC-DiffRecon: Texture coordination MRI reconstruction method based on diffusion model and modified MF-UNet method ( http://arxiv.org/abs/2402.11274v1 )

ライセンス: Link先を確認
Chenyan Zhang, Yifei Chen, Zhenxiong Fan, Yiyu Huang, Wenchao Weng, Ruiquan Ge, Dong Zeng, Changmiao Wang(参考訳) 近年,拡散モデルが深層学習に基づく新しい生成手法として注目されている。 これらのモデルは、ターゲット分布に固執するガウス分布からデータをサンプリングしようと試み、MRIデータの再構成にうまく適応した。 しかし、非条件生成モデルとして、拡散モデルは通常、条件付きブートストラップによって導入されたデータの一貫した投影のため、画像調整を妨害する。 これはしばしば画像の断片化と不整合をもたらす。 さらに、拡散モデル固有の制限は、しばしば生成された画像の過度な滑らか化につながる。 同じ例では、深層学習に基づくモデルでは、しばしば一般化性能の低下に悩まされ、その効果は異なる加速因子に大きく影響される。 これらの課題に対処するために,T-DiffReconと呼ばれる拡散モデルに基づくMRI再構成手法を提案する。 また,MF-UNetモジュールを組み込むことにより,モデルが生成したMRI画像の品質を向上させるとともに,過度なスムーシング問題をある程度軽減することを提案する。 画像生成サンプリングプロセスでは,新しいtckgモジュールと粗粒のサンプリング方式を採用している。 これらの追加は、画像テクスチャの調和、サンプリングプロセスの高速化、データの一貫性の実現を目的としている。 ソースコードはhttps://github.com/justlfc03/tc-diffreconで入手できます。

Recently, diffusion models have gained significant attention as a novel set of deep learning-based generative methods. These models attempt to sample data from a Gaussian distribution that adheres to a target distribution, and have been successfully adapted to the reconstruction of MRI data. However, as an unconditional generative model, the diffusion model typically disrupts image coordination because of the consistent projection of data introduced by conditional bootstrap. This often results in image fragmentation and incoherence. Furthermore, the inherent limitations of the diffusion model often lead to excessive smoothing of the generated images. In the same vein, some deep learning-based models often suffer from poor generalization performance, meaning their effectiveness is greatly affected by different acceleration factors. To address these challenges, we propose a novel diffusion model-based MRI reconstruction method, named TC-DiffRecon, which does not rely on a specific acceleration factor for training. We also suggest the incorporation of the MF-UNet module, designed to enhance the quality of MRI images generated by the model while mitigating the over-smoothing issue to a certain extent. During the image generation sampling process, we employ a novel TCKG module and a Coarse-to-Fine sampling scheme. These additions aim to harmonize image texture, expedite the sampling process, while achieving data consistency. Our source code is available at https://github.com/JustlfC03/TC-DiffRecon.
翻訳日:2024-02-20 22:11:15 公開日:2024-02-17
# 強弱データ拡張戦略を活用したクロス擬似ラベルに基づく半教師付き医用画像分割法

Semi-supervised Medical Image Segmentation Method Based on Cross-pseudo Labeling Leveraging Strong and Weak Data Augmentation Strategies ( http://arxiv.org/abs/2402.11273v1 )

ライセンス: Link先を確認
Yifei Chen, Chenyan Zhang, Yifan Ke, Yiyu Huang, Xuezhou Dai, Feiwei Qin, Yongquan Zhang, Xiaodong Zhang, Changmiao Wang(参考訳) 従来の教師付き学習法では、医療画像のセグメンテーションにおいて、難解な収集プロセス、高いラベリングコスト、低信号対雑音比、バイオメディカルイメージを特徴付ける複雑な特徴により、一定の制約に直面してきた。 本稿では,Fixmatch の概念を革新的に取り入れた半教師付きモデル DFCPS を提案する。 これにより、ラベルなしデータに対する様々な戦略を用いて、データ拡張処理によるモデルの性能と一般化性を大幅に向上する。 同時に、モデル設計は擬似ラベルの生成、濾過、精製プロセスに適切に重点を置いている。 整合性学習と自己学習を統合したクロス擬似超越の概念が導入された。 これにより、モデルは複数の視点から擬似ラベルを完全に活用し、トレーニングの多様性を向上させることができる。 DFCPSモデルは、一般公開されているKvasir-SEGデータセットを使用して、ベースラインモデルと先進モデルの両方と比較される。 ラベルなしデータの比率が異なる4つの区分で、我々のモデルは一貫して優れた性能を示す。 ソースコードはhttps://github.com/justlfc03/dfcpsで入手できます。

Traditional supervised learning methods have historically encountered certain constraints in medical image segmentation due to the challenging collection process, high labeling cost, low signal-to-noise ratio, and complex features characterizing biomedical images. This paper proposes a semi-supervised model, DFCPS, which innovatively incorporates the Fixmatch concept. This significantly enhances the model's performance and generalizability through data augmentation processing, employing varied strategies for unlabeled data. Concurrently, the model design gives appropriate emphasis to the generation, filtration, and refinement processes of pseudo-labels. The novel concept of cross-pseudo-supervision is introduced, integrating consistency learning with self-training. This enables the model to fully leverage pseudo-labels from multiple perspectives, thereby enhancing training diversity. The DFCPS model is compared with both baseline and advanced models using the publicly accessible Kvasir-SEG dataset. Across all four subdivisions containing different proportions of unlabeled data, our model consistently exhibits superior performance. Our source code is available at https://github.com/JustlfC03/DFCPS.
翻訳日:2024-02-20 22:10:55 公開日:2024-02-17
# 次アレスト近傍相互作用を持つ完全フラストレーションハイゼンベルクスピン-1/2はしごモデルの多体局在特性

Many-body localization properties of fully frustrated Heisenberg spin-1/2 ladder model with next-nearest-neighbor interaction ( http://arxiv.org/abs/2402.11272v1 )

ライセンス: Link先を確認
Jiameng Hong and Taotao Hu(参考訳) 多体局在 (mbl) は相互作用と障害の相互作用から生じる興味深い物理現象であり、量子系が熱化を防止できる。 本研究では,完全フラストレーション状態にあるハイゼンベルクスピン1/2ラダーモデルと,脚方向に沿ったnext-nearest-neighborホッピング相互作用のmbl特性を調べ,それをハイゼンベルクスピン1/2単鎖モデルとnext-nearest-neighborホッピング相互作用と比較した。 ランダム行列理論を用いてmbl遷移を探索し、絡み合いエントロピーの特性とその分散について検討する。 その結果,単一チェーンモデルでは臨界点$w _{1} \sim$ 7.5 $\pm$ 0.5,フラストレーション付きラダーモデルでは$w _{2} \sim$ 10.5 $\pm$ 0.5が得られた。 さらに,フラストレーションはしごモデルにおける多体移動エッジの存在を観察する。 また, フラストレーションはしごモデルの動的特性について検討し, エンタングルメントエントロピーの対数的成長, 初期情報の忠実度, 局所化相における磁化現象を同定した。 最後に,2つのモデルの有限スケールについて検討する。 この結果から,MBL遷移を連続的な2次相転移として解釈すると,2モデルのKosterlitz-Thouless型遷移よりも優れたスケーリング解が得られることが示唆された。

Many-body localization (MBL) is an intriguing physical phenomenon that arises from the interplay of interaction and disorder, allowing quantum systems to prevent thermalization. In this study, we investigate the MBL properties of the fully frustrated Heisenberg spin-1/2 ladder model with next-nearest-neighbor hopping interaction along the leg direction and compare it with the Heisenberg spin-1/2 single-chain model with next-nearest-neighbor hopping interaction. We explore the MBL transition using random matrix theory and study the characteristics of entanglement entropy and its variance. Our results show that for the single-chain model, the critical point $w _{1} \sim$ 7.5 $\pm$ 0.5, whereas for the frustrated ladder model, $w _{2} \sim$ 10.5 $\pm$ 0.5. Moreover, we observe the existence of a many-body mobility edge in the frustrated ladder model. We also investigate the dynamical properties of the frustrated ladder model and identify the logarithmic growth of entanglement entropy, high fidelity of initial information, and magnetic localization phenomenon in the localized phase. Finally, we explore the finite-size scaling of the two models. Our findings suggest that interpreting MBL transition as a continuous second-order phase transition yields a better scaling solution than the Kosterlitz-Thouless type transition for our two models, and this difference is more pronounced in the frustrated ladder model compared with the single-chain model.
翻訳日:2024-02-20 22:10:38 公開日:2024-02-17
# コミュニケーション時代の人間とAIの相互作用:局所的オプティマスを実現するオートファジー

Human-AI Interactions in the Communication Era: Autophagy Makes Large Models Achieving Local Optima ( http://arxiv.org/abs/2402.11271v1 )

ライセンス: Link先を確認
Shu Yang, Lijie Hu, Lu Yu, Muhammad Asif Ali, and Di Wang(参考訳) 社会情報処理における大規模言語とマルチモーダルモデルの重要性の高まりは、社会安全と倫理に関する議論を引き起こしている。 しかし、人間と人工知能システムの相互作用の包括的観点から、これらの制限の分析にアプローチした研究は少ない。 本研究では,人間と大規模モデルがコミュニケーションの鍵となるリンクとして使用される場合のバイアスと嗜好について検討する。 そこで我々は,多モードデータセットと3つの実験を設計し,生産者や情報発信者としての役割における生成モデルを評価する。 我々の主な発見は、合成された情報は、人為的な情報よりも、モデルトレーニングデータセットやメッセージングに組み込まれる可能性が高いことである。 さらに、情報伝達者として振る舞う場合、大きなモデルは特定のコンテンツを選択的に修正し、失う傾向がある。 概念的には,人間とAIシステム間の情報交換における人為的な情報の抑制を考慮した,2つの現実的な自己消費ループモデルを提案する。 以上の傾向から生じる社会情報の多様性の低下とモデル性能のボトルネックを,大規模モデルの局所的オプティマに一般化する。

The increasing significance of large language and multimodal models in societal information processing has ignited debates on social safety and ethics. However, few studies have approached the analysis of these limitations from the comprehensive perspective of human and artificial intelligence system interactions. This study investigates biases and preferences when humans and large models are used as key links in communication. To achieve this, we design a multimodal dataset and three different experiments to evaluate generative models in their roles as producers and disseminators of information. Our main findings highlight that synthesized information is more likely to be incorporated into model training datasets and messaging than human-generated information. Additionally, large models, when acting as transmitters of information, tend to modify and lose specific content selectively. Conceptually, we present two realistic models of autophagic ("self-consumption") loops to account for the suppression of human-generated information in the exchange of information between humans and AI systems. We generalize the declining diversity of social information and the bottleneck in model performance caused by the above trends to the local optima of large models.
翻訳日:2024-02-20 22:10:05 公開日:2024-02-17
# ジェネリックな下界への新しいアプローチ:クラシック/量子mdl、量子ファクタリングなど

A New Approach to Generic Lower Bounds: Classical/Quantum MDL, Quantum Factoring, and More ( http://arxiv.org/abs/2402.11269v1 )

ライセンス: Link先を確認
Minki Hhan(参考訳) 本稿では,様々なモデルにおける古典的および量子的設定における暗号問題に対する一般的なアプローチの限界について検討する。 -古典的総称群モデル(GGM)では、離散対数問題(DL)の変項の下限に対する単純な代替証明として、多重インスタンスDLと1つ以上のDL問題(およびそれらの混合)が見つかる。 また, 順序探索, 根抽出, 繰り返しスクアリングなど, 未知の階数 GGM の下限も再検討した。 -量子ジェネリック・グループ・モデル(QGGM)において、離散対数の変異の複雑さについて検討する。 合成順序設定においてもQGGMの対数DLが低いことを証明した。 また,マルチインスタンスdl問題に対する漸近的にきつく下界を証明した。 どちらの結果も、Hhan, Yamakawa, Yun の最近の研究で示唆されたオープンな問題を解決している。 -新しく提案した量子ジェネリック環モデルにおいて、順序探索アルゴリズムに対して対数下限を与え、これはショアのアルゴリズムにとって重要なステップである。 また、Regevのアルゴリズムの修正版を含む比較的小さな整数を出力する一般的な分解アルゴリズムに対して、対数下界を与える。 最終的に、滑らかな数に関する新しい理想化群モデルにおいて、dl問題を解くための基本指標計算法の下限が証明される。 両方のモデルにおける量子下界は、古典前処理のある種の(異なる)タイプを許容する。 すべての証明は以前の証明よりもはるかに単純であり、圧縮補題と呼ばれる1つのツールと線形代数ツールによって実現される。 私たちのこの補題の使用は独立した関心事かもしれない。

This paper studies the limitations of the generic approaches to solving cryptographic problems in classical and quantum settings in various models. - In the classical generic group model (GGM), we find simple alternative proofs for the lower bounds of variants of the discrete logarithm (DL) problem: the multiple-instance DL and one-more DL problems (and their mixture). We also re-prove the unknown-order GGM lower bounds, such as the order finding, root extraction, and repeated squaring. - In the quantum generic group model (QGGM), we study the complexity of variants of the discrete logarithm. We prove the logarithm DL lower bound in the QGGM even for the composite order setting. We also prove an asymptotically tight lower bound for the multiple-instance DL problem. Both results resolve the open problems suggested in a recent work by Hhan, Yamakawa, and Yun. - In the quantum generic ring model we newly suggested, we give the logarithmic lower bound for the order-finding algorithms, an important step for Shor's algorithm. We also give a logarithmic lower bound for a certain generic factoring algorithm outputting relatively small integers, which includes a modified version of Regev's algorithm. - Finally, we prove a lower bound for the basic index calculus method for solving the DL problem in a new idealized group model regarding smooth numbers. The quantum lower bounds in both models allow certain (different) types of classical preprocessing. All of the proofs are significantly simpler than the previous proofs and are through a single tool, the so-called compression lemma, along with linear algebra tools. Our use of this lemma may be of independent interest.
翻訳日:2024-02-20 22:09:48 公開日:2024-02-17
# リテラル記述を超えて:人間の意図に相応しいオープンワールドオブジェクトの理解と配置

Beyond Literal Descriptions: Understanding and Locating Open-World Objects Aligned with Human Intentions ( http://arxiv.org/abs/2402.11265v1 )

ライセンス: Link先を確認
Wenxuan Wang, Yisi Zhang, Xingjian He, Yichen Yan, Zijia Zhao, Xinlong Wang, Jing Liu(参考訳) visual grounding (vg) は、与えられた自然言語表現にマッチする前景エンティティを見つけることを目的としている。 従来のVGタスクのデータセットやメソッドは、与えられた表現がターゲットオブジェクトを文字通り参照しなければならないという前提に大きく依存しており、現実のシナリオにおけるエージェントの実践的配置を著しく妨げている。 ユーザは通常、すべての詳細をカバーするのではなく、所望のオブジェクトに対して意図に基づく表現を提供することを好むため、エージェントは意図駆動的な指示を解釈する必要がある。 そこで本研究では,意図駆動型視覚言語(V-L)の理解をさらに進める。 人間の意図の解釈に向けて古典的なVGを促進するために,意図駆動型視覚グラウンドディング(IVG)タスクを提案し,インテンションVGと呼ばれる最大規模のIVGデータセットを自由形式の意図表現で構築する。 基礎課題を実現するために,現実的なエージェントが様々なシナリオの特定の目標を移動して見つけ出す必要があることを考えると,我々のIVGタスクと意図VGデータセットは,多シナリオ認識と自我中心的視点の両方の重要な特性を考慮に入れている。 また,IVGタスクを実現するためのベースラインとして,様々なモデルが設定されている。 IntentionVGデータセットとベースラインに関する大規模な実験により,V-Lフィールドにおける本手法の必要性と有効性を示した。 この方向の今後の研究を促進するために、新たに構築したデータセットとベースラインが一般公開される予定です。

Visual grounding (VG) aims at locating the foreground entities that match the given natural language expression. Previous datasets and methods for classic VG task mainly rely on the prior assumption that the given expression must literally refer to the target object, which greatly impedes the practical deployment of agents in real-world scenarios. Since users usually prefer to provide the intention-based expressions for the desired object instead of covering all the details, it is necessary for the agents to interpret the intention-driven instructions. Thus, in this work, we take a step further to the intention-driven visual-language (V-L) understanding. To promote classic VG towards human intention interpretation, we propose a new intention-driven visual grounding (IVG) task and build a largest-scale IVG dataset named IntentionVG with free-form intention expressions. Considering that practical agents need to move and find specific targets among various scenarios to realize the grounding task, our IVG task and IntentionVG dataset have taken the crucial properties of both multi-scenario perception and egocentric view into consideration. Besides, various types of models are set up as the baselines to realize our IVG task. Extensive experiments on our IntentionVG dataset and baselines demonstrate the necessity and efficacy of our method for the V-L field. To foster future research in this direction, our newly built dataset and baselines will be publicly available.
翻訳日:2024-02-20 22:09:23 公開日:2024-02-17
# ミラーグラディエント:フラット局所最小値探索によるロバストなマルチモーダルレコメンダシステムを目指して

Mirror Gradient: Towards Robust Multimodal Recommender Systems via Exploring Flat Local Minima ( http://arxiv.org/abs/2402.11262v1 )

ライセンス: Link先を確認
Shanshan Zhong, Zhongzhan Huang, Daifeng Li, Wushao Wen, Jinghui Qin, Liang Lin(参考訳) マルチモーダルレコメンデータシステムは、ユーザの好みやアイテムの特徴をモデル化するために様々な種類の情報を利用する。 マルチモーダル情報の統合は、データ空間の問題やコールドスタート問題といったレコメンデーションシステムにおける固有の課題を軽減する。 しかし、情報調整リスクや固有ノイズリスクといったマルチモーダル情報入力から特定のリスクを同時に拡大する。 これらのリスクは、レコメンデーションモデルの堅牢性に重要な課題をもたらす。 本稿では,平坦な局所ミニマの新たな視点からマルチモーダルレコメンデータシステムを分析し,ミラーグラディエント(MG)と呼ばれる簡潔で効果的な勾配戦略を提案する。 この戦略は、最適化プロセス中のモデルの堅牢性を暗黙的に強化し、マルチモーダル情報入力から生じる不安定性リスクを軽減する。 また,様々なマルチモーダルレコメンデーションモデルとベンチマークにおいてmgが優れていることを示すために,強い理論的証拠を提供し,広範な実験を行った。 さらに,提案するmgは既存のロバストなトレーニング手法を補完し,多様な先進的レコメンデーションモデルに容易に拡張できることを見いだし,マルチモーダルレコメンデータシステムをトレーニングするための新たな基本的パラダイムとして有望である。 コードはhttps://github.com/qrange-group/mirror-gradientでリリースされる。

Multimodal recommender systems utilize various types of information to model user preferences and item features, helping users discover items aligned with their interests. The integration of multimodal information mitigates the inherent challenges in recommender systems, e.g., the data sparsity problem and cold-start issues. However, it simultaneously magnifies certain risks from multimodal information inputs, such as information adjustment risk and inherent noise risk. These risks pose crucial challenges to the robustness of recommendation models. In this paper, we analyze multimodal recommender systems from the novel perspective of flat local minima and propose a concise yet effective gradient strategy called Mirror Gradient (MG). This strategy can implicitly enhance the model's robustness during the optimization process, mitigating instability risks arising from multimodal information inputs. We also provide strong theoretical evidence and conduct extensive empirical experiments to show the superiority of MG across various multimodal recommendation models and benchmarks. Furthermore, we find that the proposed MG can complement existing robust training methods and be easily extended to diverse advanced recommendation models, making it a promising new and fundamental paradigm for training multimodal recommender systems. The code is released at https://github.com/Qrange-group/Mirror-Gradient.
翻訳日:2024-02-20 22:08:58 公開日:2024-02-17
# 半古典的電磁力学とカシミール効果

Semi-Classical Electrodynamics and the Casimir Effect ( http://arxiv.org/abs/2402.11326v1 )

ライセンス: Link先を確認
M. Bostr\"om, A. Gholamhosseinian, S. Pal, Y. Li, I. Brevik(参考訳) 1960年代後半から以降、バリー・ニンガムとエイドリアン・パージアンのグループとその多くの協力者たちは、分子間力の理論と実験に多くの重要な貢献をした。 特に、マクスウェルの方程式とプランクの光の量子化(英語版)($\rightarrow$ Lifshitz and Casimir interaction)という半古典理論を探求した。 我々は、ninhamとそのグループから選択された思考誘発結果について議論する。 いくつかの結果は物議を醸すものとして考えられているが、われわれは決して興味を示さない。

From the late 1960s and onwards the groups of Barry Ninham and Adrian Parsegian, and their many collaborators, made a number of important contributions to theory and experiment of intermolecular forces. In particular, they explored the semi-classical theory: Maxwell's equations and Planck quantization of light $\rightarrow$ Lifshitz and Casimir interactions. We discuss some selected thought-provoking results from Ninham and his group. Some of the results have been conceived as controversial but, we dare, say never uninteresting.
翻訳日:2024-02-20 22:02:07 公開日:2024-02-17
# ChatEarthNet: リモートセンシングのためのグローバルスケールで高品質な画像テキストデータセット

ChatEarthNet: A Global-Scale, High-Quality Image-Text Dataset for Remote Sensing ( http://arxiv.org/abs/2402.11325v1 )

ライセンス: Link先を確認
Zhenghang Yuan, Zhitong Xiong, Lichao Mou, and Xiao Xiang Zhu(参考訳) 地球観測において地球規模の土地被覆の深い理解が不可欠であり、様々な応用の基礎を形成している。 リモートセンシング技術は急速に進歩し、衛星画像の拡散につながるが、これらの画像の本質的な複雑さは、専門家でないユーザにとって理解しづらいことが多い。 自然言語は、人間の知識のキャリアとして、一般的なユーザーと複雑な衛星画像の間の橋渡しとなる。 本研究では,衛星画像の理解を容易にするために,センティネル2データの自然言語記述を提供するリモートセンシングのための,大規模で高品質な画像テキストデータセットを提案する。 具体的には,欧州宇宙機関(ESA)のWorldCoverプロジェクトのセマンティックセグメンテーションラベルを用いて,土地被覆に関する記述を充実させる。 詳細な意味分析を行うことで、ChatGPTから豊富な記述を引き出すための詳細なプロンプトを定式化する。 データセットの品質を高めるために,手動検証プロセスを導入する。 このステップでは、データセットを洗練するための手作業による検査と修正によって、精度と品質を大幅に向上します。 最後に,グローバルカバレッジ,高品質,多彩な多様性,詳細な説明を特徴とする大規模画像テキストデータセットである,コミュニティチャットアースネットを提案する。 chatearthnet は163,488個の画像テキスト対と chatgpt-3.5 が生成するキャプションと、chatgpt-4v (ision) が生成するキャプションと10,000個の画像テキスト対からなる。 このデータセットは、視覚言語基礎モデルをトレーニングし、リモートセンシングのための大きな視覚言語モデルを評価する大きな可能性を持っている。 データセットは一般公開される予定だ。

An in-depth comprehension of global land cover is essential in Earth observation, forming the foundation for a multitude of applications. Although remote sensing technology has advanced rapidly, leading to a proliferation of satellite imagery, the inherent complexity of these images often makes them difficult for non-expert users to understand. Natural language, as a carrier of human knowledge, can be a bridge between common users and complicated satellite imagery. In this context, we introduce a global-scale, high-quality image-text dataset for remote sensing, providing natural language descriptions for Sentinel-2 data to facilitate the understanding of satellite imagery for common users. Specifically, we utilize Sentinel-2 data for its global coverage as the foundational image source, employing semantic segmentation labels from the European Space Agency's (ESA) WorldCover project to enrich the descriptions of land covers. By conducting in-depth semantic analysis, we formulate detailed prompts to elicit rich descriptions from ChatGPT. To enhance the dataset's quality, we introduce the manual verification process. This step involves manual inspection and correction to refine the dataset, thus significantly improving its accuracy and quality. Finally, we offer the community ChatEarthNet, a large-scale image-text dataset characterized by global coverage, high quality, wide-ranging diversity, and detailed descriptions. ChatEarthNet consists of 163,488 image-text pairs with captions generated by ChatGPT-3.5 and an additional 10,000 image-text pairs with captions generated by ChatGPT-4V(ision). This dataset has significant potential for training vision-language foundation models and evaluating large vision-language models for remote sensing. The dataset will be made publicly available.
翻訳日:2024-02-20 22:01:57 公開日:2024-02-17
# EVEDIT:デダクティブ編集境界を用いたイベントベースの知識編集

EVEDIT: Event-based Knowledge Editing with Deductive Editing Boundaries ( http://arxiv.org/abs/2402.11324v1 )

ライセンス: Link先を確認
Jiateng Liu, Pengfei Yu, Yuji Zhang, Sha Li, Zixuan Zhang, Heng Ji(参考訳) 実世界の情報のダイナミックな性質は、知識更新のために大きな言語モデル(LLM)における効率的な知識編集(KE)を必要とする。 しかし、現在のKEアプローチは、一般的に(対象、関係、対象)三重に作用し、異なる知識間の文脈情報や関係を無視している。 したがって、このような編集方法は不確定な編集境界に遭遇する可能性があり、多くの関連する知識を曖昧さに残すことになる。 本研究では,未確認の知識集合を強調し,編集時の知識推論を補助する,keの理論的枠組みを導入することで,この問題を分析し,その解法を解法アンカーと呼ぶ。 我々は、事実と事象記述を組み合わせるイベントベースの知識編集の新しいタスクを提案することにより、この問題をさらに解決する。 このタスクは、現実世界の編集シナリオのより密接なシミュレーションだけでなく、より論理的に健全な設定を示し、非決定的な編集境界の問題に対処するために、推論アンカーを暗黙的に定義する。 編集されたモデルにおける不確実性を解決するための既存の設定よりもイベントベースの編集が優れていることを実証的に証明し、CounterFactデータセットから派生した新しいベンチマークデータセットEvEditをキュレートする。 さらに、イベントベースの設定は既存のアプローチでは著しく困難であるものの、より優れたパフォーマンスを示し、生成の自然性を維持しながら55.6%の一貫性の向上を実現する新しいアプローチであるセルフ編集を提案する。

The dynamic nature of real-world information necessitates efficient knowledge editing (KE) in large language models (LLMs) for knowledge updating. However, current KE approaches, which typically operate on (subject, relation, object) triples, ignore the contextual information and the relation among different knowledge. Such editing methods could thus encounter an uncertain editing boundary, leaving a lot of relevant knowledge in ambiguity: Queries that could be answered pre-edit cannot be reliably answered afterward. In this work, we analyze this issue by introducing a theoretical framework for KE that highlights an overlooked set of knowledge that remains unchanged and aids in knowledge deduction during editing, which we name as the deduction anchor. We further address this issue by proposing a novel task of event-based knowledge editing that pairs facts with event descriptions. This task manifests not only a closer simulation of real-world editing scenarios but also a more logically sound setting, implicitly defining the deduction anchor to address the issue of indeterminate editing boundaries. We empirically demonstrate the superiority of event-based editing over the existing setting on resolving uncertainty in edited models, and curate a new benchmark dataset EvEdit derived from the CounterFact dataset. Moreover, while we observe that the event-based setting is significantly challenging for existing approaches, we propose a novel approach Self-Edit that showcases stronger performance, achieving 55.6% consistency improvement while maintaining the naturalness of generation.
翻訳日:2024-02-20 22:01:27 公開日:2024-02-17
# SpikeNAS: スパイクニューラルネットワークシステムのための高速メモリ対応ニューラルネットワーク検索フレームワーク

SpikeNAS: A Fast Memory-Aware Neural Architecture Search Framework for Spiking Neural Network Systems ( http://arxiv.org/abs/2402.11322v1 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Muhammad Shafique(参考訳) spiking neural networks (snns)は、機械学習タスクを解決するための超低消費電力/エネルギー計算を実現する有望なソリューションを提供する。 現在、snnアーキテクチャの大部分は、ニューロンのアーキテクチャと操作がsnsとは異なる人工ニューラルネットワークに由来するか、基礎となる処理ハードウェアからメモリ予算を考慮せずに開発されたものである。 これらの制限により、SNNは正確性と効率性において大きな可能性を秘めている。 そこで我々は,SNNのための新しいメモリ対応ニューラルアーキテクチャ探索(NAS)フレームワークであるSpikeNASを提案する。 これを実現するために、私たちのSpikeNASでは、ネットワーク操作が精度に与える影響を分析し、学習品質を改善するためにネットワークアーキテクチャを拡張し、高速なメモリ認識検索アルゴリズムを開発した。 実験結果から,spikenasは,与えられたメモリ予算(例えば,nvidia rtx 6000 ada gpuマシンを用いたcifar100の4.4倍高速検索と1.3%の精度向上)を満たしながら,最先端と比較して検索時間を短縮し,高い精度を保ち,メモリ制約付きsnベースシステムに適したsnnアーキテクチャを迅速に提供できることがわかった。

Spiking Neural Networks (SNNs) offer a promising solution to achieve ultra low-power/energy computation for solving machine learning tasks. Currently, most of the SNN architectures are derived from Artificial Neural Networks whose neurons' architectures and operations are different from SNNs, or developed without considering memory budgets from the underlying processing hardware. These limitations hinder the SNNs from reaching their full potential in accuracy and efficiency. Towards this, we propose SpikeNAS, a novel memory-aware neural architecture search (NAS) framework for SNNs that can quickly find an appropriate SNN architecture with high accuracy under the given memory budgets. To do this, our SpikeNAS employs several key steps: analyzing the impacts of network operations on the accuracy, enhancing the network architecture to improve the learning quality, and developing a fast memory-aware search algorithm. The experimental results show that our SpikeNAS improves the searching time and maintains high accuracy as compared to state-of-the-art while meeting the given memory budgets (e.g., 4.4x faster search with 1.3% accuracy improvement for CIFAR100, using an Nvidia RTX 6000 Ada GPU machine), thereby quickly providing the appropriate SNN architecture for memory-constrained SNN-based systems.
翻訳日:2024-02-20 22:01:01 公開日:2024-02-17
# RGBDセンシングと時間畳み込みネットワークを用いたフレキシブル連続マニピュレータのヒステリシス補償

Hysteresis Compensation of Flexible Continuum Manipulator using RGBD Sensing and Temporal Convolutional Network ( http://arxiv.org/abs/2402.11319v1 )

ライセンス: Link先を確認
Junhyun Park, Seonghyeok Jang, Hyojae Park, Seongjun Bae, Minho Hwang(参考訳) フレキシブル連続マニピュレータは、非線型経路を介して制限された空間へのアクセスを提供する、最小侵襲の手術に有用である。 しかし、ケーブル駆動マニピュレータは摩擦、伸長、カップリングなどのカップリング効果によるヒステリシスのために制御が困難である。 これらの効果は非線形性のためモデル化が困難であり、長いマルチセグメンテーションマニピュレータを扱う場合、さらに困難になる。 本稿では,リカレントニューラルネットワークに基づくデータ駆動手法を提案する。 物理的関節構成をデータセットとして収集するために、カスタマイズされた画像マーカーを設計する。 4つのディープニューラルネットワーク(DNN)モデルによる学習性能の比較の結果,時間的畳み込みネットワーク(TCN)が最も高い予測能力を示した。 訓練されたtcnを利用してヒステリシスを補償する制御アルゴリズムを構築した。 未確認軌道を用いたタスク空間での追跡テストでは、最適制御器は平均位置と方向誤差を61.39%(13.7mmから5.29mm)、64.04%(31.17{\degから11.21{\degまで)削減している。

Flexible continuum manipulators are valued for minimally invasive surgery, offering access to confined spaces through nonlinear paths. However, cable-driven manipulators face control difficulties due to hysteresis from cabling effects such as friction, elongation, and coupling. These effects are difficult to model due to nonlinearity and the difficulties become even more evident when dealing with long and multi-segmented manipulator. This paper proposes a data-driven approach based on recurrent neural networks to capture these nonlinear and previous states-dependent characteristics of cable actuation. We design customized fiducial markers to collect physical joint configurations as a dataset. Result on a study comparing the learning performance of four Deep Neural Network (DNN) models show that the Temporal Convolution Network (TCN) demonstrates the highest predictive capability. Leveraging trained TCNs, we build a control algorithm to compensate for hysteresis. Tracking tests in task space using unseen trajectories show that the best controller reduces the mean position and orientation error by 61.39% (from 13.7 mm to 5.29 mm) and 64.04% (from 31.17{\deg} to 11.21{\deg}), respectively.
翻訳日:2024-02-20 22:00:36 公開日:2024-02-17
# BiasBuster:Biased Location Dataを用いた人口統計の正確な推定のためのニューラルネットワーク

BiasBuster: a Neural Approach for Accurate Estimation of Population Statistics using Biased Location Data ( http://arxiv.org/abs/2402.11318v1 )

ライセンス: Link先を確認
Sepanta Zeighami, Cyrus Shahabi(参考訳) 極めて有用(新型コロナウイルスの予測や政策立案、都市移動分析やマーケティング、ビジネス洞察の獲得など)だが、モバイルデバイスから収集された位置情報には、偏った人口のサブセットのデータが含まれ、一部のコミュニティは収集されたデータセットに過小評価されている。 その結果、これらのデータセットから算出された集計統計(Safegraph、Google、Facebookなど様々な企業が行っているように)はバイアスを無視しながら、人口統計の不正確な表現につながる。 そのような統計は一般に不正確であるだけでなく、誤りは異なる集団に不釣り合いに影響を及ぼす(例えば、不正確な地域社会を無視している)。 これらのデータセットは、新型コロナウイルスの政策決定のような繊細な意思決定に使用されるため、これは恐ろしい結果をもたらす。 本稿では,このような偏りのあるデータセットを用いて,正確な人口統計を提供する問題に取り組む。 統計的偏りは有用である場合もあるが,精度が向上しない場合が多い。 次に、人口統計と位置特性の相関を利用して、人口統計の正確な推定を行うニューラルネットワーク手法であるBiasBusterを提案する。 実世界のデータに対する大規模な実験により、BiasBusterは一般に最大で2倍、人口不足では最大で3倍精度が向上することが示された。

While extremely useful (e.g., for COVID-19 forecasting and policy-making, urban mobility analysis and marketing, and obtaining business insights), location data collected from mobile devices often contain data from a biased population subset, with some communities over or underrepresented in the collected datasets. As a result, aggregate statistics calculated from such datasets (as is done by various companies including Safegraph, Google, and Facebook), while ignoring the bias, leads to an inaccurate representation of population statistics. Such statistics will not only be generally inaccurate, but the error will disproportionately impact different population subgroups (e.g., because they ignore the underrepresented communities). This has dire consequences, as these datasets are used for sensitive decision-making such as COVID-19 policymaking. This paper tackles the problem of providing accurate population statistics using such biased datasets. We show that statistical debiasing, although in some cases useful, often fails to improve accuracy. We then propose BiasBuster, a neural network approach that utilizes the correlations between population statistics and location characteristics to provide accurate estimates of population statistics. Extensive experiments on real-world data show that BiasBuster improves accuracy by up to 2 times in general and up to 3 times for underrepresented populations.
翻訳日:2024-02-20 22:00:11 公開日:2024-02-17
# 非定常力学における高速オンライン適応のためのデバイアスオフライン表現学習

Debiased Offline Representation Learning for Fast Online Adaptation in Non-stationary Dynamics ( http://arxiv.org/abs/2402.11317v1 )

ライセンス: Link先を確認
Xinyu Zhang, Wenjie Qiu, Yi-Chen Li, Lei Yuan, Chengxing Jia, Zongzhang Zhang, Yang Yu(参考訳) 非定常環境に適応できる政策の開発は、実世界の強化学習アプリケーションにとって不可欠である。 しかし、そのような適応可能なポリシーをオフライン設定で学習するには、事前コンパイルされた軌道の限られたセットしか必要としない。 オフラインデータに制限があるため、コンテキストエンコーダが環境のダイナミクスの変化と振る舞いポリシーの変化を区別することが難しくなり、しばしばコンテキストの誤結合につながるため、重要な困難が生じる。 この問題に対処するために、高速オンライン適応(DORA)のためのDebiased Offline Representationと呼ばれる新しいアプローチを導入する。 DORAは、動的エンコーディングと環境データ間の相互情報を最大化しつつ、動的エンコーディングと行動ポリシーの動作間の相互情報を最小化する情報ボトルネック原理を取り入れている。 本稿では,情報ボトルネック原理のトラクタブルバウンダリを活用したDORAの実践的実装を提案する。 変数パラメータを持つ6つのベンチマークMuJoCoタスクに対する実験的な評価は、DORAがより正確なダイナミックス符号化を実現するだけでなく、性能の点で既存のベースラインを著しく上回ることを示す。

Developing policies that can adjust to non-stationary environments is essential for real-world reinforcement learning applications. However, learning such adaptable policies in offline settings, with only a limited set of pre-collected trajectories, presents significant challenges. A key difficulty arises because the limited offline data makes it hard for the context encoder to differentiate between changes in the environment dynamics and shifts in the behavior policy, often leading to context misassociations. To address this issue, we introduce a novel approach called Debiased Offline Representation for fast online Adaptation (DORA). DORA incorporates an information bottleneck principle that maximizes mutual information between the dynamics encoding and the environmental data, while minimizing mutual information between the dynamics encoding and the actions of the behavior policy. We present a practical implementation of DORA, leveraging tractable bounds of the information bottleneck principle. Our experimental evaluation across six benchmark MuJoCo tasks with variable parameters demonstrates that DORA not only achieves a more precise dynamics encoding but also significantly outperforms existing baselines in terms of performance.
翻訳日:2024-02-20 21:59:47 公開日:2024-02-17
# 都市計画におけるマルチジェネレイティブエージェント集団意思決定--ケンドール広場改修を事例として

Multi-Generative Agent Collective Decision-Making in Urban Planning: A Case Study for Kendall Square Renovation ( http://arxiv.org/abs/2402.11314v1 )

ライセンス: Link先を確認
Jin Gao, Hanyong Xu, Luc Dao(参考訳) 本研究では,kendall square の volpe ビルの再開発のためのコミュニティ意思決定をシミュレートするマルチジェネレーティブエージェントシステムを開発した。 シミュレーションでは,現地の利害関係者へのインタビューに基づき,エージェントプロンプトに様々なコミュニケーション,人口統計データ,生活価値を取り入れた。 その結果,エージェント間のコミュニケーションは集団的推論を改善し,人口動態や生活価値はより明確な意見を導き出した。 これらの発見は、複雑な社会的相互作用と意思決定プロセスを理解するためのAIの潜在的な応用を強調し、Kendall Squareのような多様な環境で都市計画とコミュニティの関与に関する貴重な洞察を提供する。

In this study, we develop a multiple-generative agent system to simulate community decision-making for the redevelopment of Kendall Square's Volpe building. Drawing on interviews with local stakeholders, our simulations incorporated varying degrees of communication, demographic data, and life values in the agent prompts. The results revealed that communication among agents improved collective reasoning, while the inclusion of demographic and life values led to more distinct opinions. These findings highlight the potential application of AI in understanding complex social interactions and decision-making processes, offering valuable insights for urban planning and community engagement in diverse settings like Kendall Square.
翻訳日:2024-02-20 21:59:25 公開日:2024-02-17
# ICHPro:脳内出血予後分類 : 結合注意核融合による3次元クロスモーダルネットワーク

ICHPro: Intracerebral Hemorrhage Prognosis Classification Via Joint-attention Fusion-based 3d Cross-modal Network ( http://arxiv.org/abs/2402.11307v1 )

ライセンス: Link先を確認
Xinlei Yu, Xinyang Li, Ruiquan Ge, Shibin Wu, Ahmed Elazab, Jichao Zhu, Lingyan Zhang, Gangyong Jia, Taosheng Xu, Xiang Wan, Changmiao Wang(参考訳) 脳内出血(ICH)は脳卒中で最も致命的なサブタイプであり、死亡率と障害を減少させるために、時間的および正確な予後評価を必要とする。 しかし、ICHの多要素的性質と複雑さは、CT画像の特徴のみに基づく手法を不適切なものにしている。 追加情報を融合するクロスモーダルネットワークの能力にもかかわらず、異なるモーダル特徴の効果的な組み合わせは重要な課題である。 本研究では,神経外科医が活用するiciの予後解釈過程をシミュレートする3dクロスモーダルネットワーク ichpro を提案する。 ICHProには、CT画像から人口統計学的および臨床的テキストデータに特徴を融合させる、共同注意融合モジュールが含まれている。 クロスモーダルな特徴の表現を強化するために,共同損失関数を導入する。 ICHProはよりリッチなクロスモーダル特徴の抽出を容易にし、分類性能を向上させる。 5倍のクロスバリデーションを用いて実験を行ったところ,精度89.11%,f1スコア0.8767,auc値0.9429であった。 これらの結果は、テストデータセットに基づく他の先進的手法より優れており、ichproの優れた有効性を示す。 コードはgithubのhttps://github.com/yu-deep/ich.com/で入手できる。

Intracerebral Hemorrhage (ICH) is the deadliest subtype of stroke, necessitating timely and accurate prognostic evaluation to reduce mortality and disability. However, the multi-factorial nature and complexity of ICH make methods based solely on computed tomography (CT) image features inadequate. Despite the capacity of cross-modal networks to fuse additional information, the effective combination of different modal features remains a significant challenge. In this study, we propose a joint-attention fusion-based 3D cross-modal network termed ICHPro that simulates the ICH prognosis interpretation process utilized by neurosurgeons. ICHPro includes a joint-attention fusion module to fuse features from CT images with demographic and clinical textual data. To enhance the representation of cross-modal features, we introduce a joint loss function. ICHPro facilitates the extraction of richer cross-modal features, thereby improving classification performance. Upon testing our method using a five-fold cross-validation, we achieved an accuracy of 89.11%, an F1 score of 0.8767, and an AUC value of 0.9429. These results outperform those obtained from other advanced methods based on the test dataset, thereby demonstrating the superior efficacy of ICHPro. The code is available at our Github: https://github.com/YU-deep/ICH.
翻訳日:2024-02-20 21:59:12 公開日:2024-02-17
# 大規模プレトレーニングモデルにおけるタスク特異的蒸留の実践

On Good Practices for Task-Specific Distillation of Large Pretrained Models ( http://arxiv.org/abs/2402.11305v1 )

ライセンス: Link先を確認
Juliette Marrie, Michael Arbel, Julien Mairal, Diane Larlus(参考訳) 大きな事前訓練された視覚モデルは、様々な認識タスクで顕著な一般化を示す。 しかし、現実世界のアプリケーションは、特定の問題に合わせたコンパクトモデルを要求することが多い。 このような目的のために、知識蒸留の変種が考案され、タスク固有のコンパクトモデル(学生)が一般的な大きな事前学習されたモデル(教師)から学ぶことができるようになった。 本稿では,最近の熟成モデルの優れたロバスト性と汎用性が,文献に定められた慣習に挑戦し,タスク特化蒸留の新しい最適ガイドラインを提唱する。 下流タスクにおけるサンプルの欠如に対処するために、安定拡散に基づくMixupの変種が標準データ拡張を補完することを示す。 この戦略は、設計済みテキストプロンプトの必要性をなくし、汎用モデルの合理化された特殊ネットワークへの蒸留を改善する。

Large pretrained visual models exhibit remarkable generalization across diverse recognition tasks. Yet, real-world applications often demand compact models tailored to specific problems. Variants of knowledge distillation have been devised for such a purpose, enabling task-specific compact models (the students) to learn from a generic large pretrained one (the teacher). In this paper, we show that the excellent robustness and versatility of recent pretrained models challenge common practices established in the literature, calling for a new set of optimal guidelines for task-specific distillation. To address the lack of samples in downstream tasks, we also show that a variant of Mixup based on stable diffusion complements standard data augmentation. This strategy eliminates the need for engineered text prompts and improves distillation of generic models into streamlined specialized networks.
翻訳日:2024-02-20 21:58:47 公開日:2024-02-17
# FViT:Gaborフィルタを用いた音声ビジョン変換器

FViT: A Focal Vision Transformer with Gabor Filter ( http://arxiv.org/abs/2402.11303v1 )

ライセンス: Link先を確認
Yulong Shi, Mingwei Sun, Yongshuai Wang, Rui Wang, Hui Sun, Zengqiang Chen(参考訳) ビジョントランスフォーマーは、様々なコンピュータビジョンタスクの進歩を奨励している。 これは、機能トークン間のグローバルな依存関係のモデリングにおける自己注意の能力に起因している、というのが一般的な考えである。 残念ながら、自己注意は、高い計算複雑性や望ましい帰納バイアスの欠如など、高密度な予測タスクにおけるいくつかの課題に直面している。 上記の問題に対処するため,視覚変換器とガボルフィルタの統合による潜在的な利点を再検討し,畳み込みを用いた学習可能なガボルフィルタ(LGF)を提案する。 自己注意の代替として,生体視覚系の単純細胞のイメージ入力に対する応答をシミュレートするためにLGFを用い,様々なスケールや方向からターゲットの識別的特徴表現に焦点を合わせるようモデルに促した。 さらに,LGF をベースとした Bionic Focal Vision (BFV) ブロックを設計した。 このブロックは神経科学からインスピレーションを受け、生物学的視覚野処理情報の動作方法を並列にエミュレートするMulti-Path Feed Forward Network (MPFFN)を導入している。 さらに、BFVブロックを積み重ねることにより、Focal Vision Transformers (FViT) と呼ばれる統合的で効率的なピラミッドバックボーンネットワークファミリーを開発する。 FViTは様々な視覚タスクにおいて高い競争性能を示す。 特に計算効率とスケーラビリティの面では、FViTは他のものに比べて大きな優位性を示している。

Vision transformers have achieved encouraging progress in various computer vision tasks. A common belief is that this is attributed to the competence of self-attention in modeling the global dependencies among feature tokens. Unfortunately, self-attention still faces some challenges in dense prediction tasks, such as the high computational complexity and absence of desirable inductive bias. To address these above issues, we revisit the potential benefits of integrating vision transformer with Gabor filter, and propose a Learnable Gabor Filter (LGF) by using convolution. As an alternative to self-attention, we employ LGF to simulate the response of simple cells in the biological visual system to input images, prompting models to focus on discriminative feature representations of targets from various scales and orientations. Additionally, we designed a Bionic Focal Vision (BFV) block based on the LGF. This block draws inspiration from neuroscience and introduces a Multi-Path Feed Forward Network (MPFFN) to emulate the working way of biological visual cortex processing information in parallel. Furthermore, we develop a unified and efficient pyramid backbone network family called Focal Vision Transformers (FViTs) by stacking BFV blocks. Experimental results show that FViTs exhibit highly competitive performance in various vision tasks. Especially in terms of computational efficiency and scalability, FViTs show significantly advantages compared with other counterparts.
翻訳日:2024-02-20 21:58:34 公開日:2024-02-17
# ReViT:視覚認識のための注意残差接続型視覚変換器

ReViT: Enhancing Vision Transformers with Attention Residual Connections for Visual Recognition ( http://arxiv.org/abs/2402.11301v1 )

ライセンス: Link先を確認
Anxhelo Diko, Danilo Avola, Marco Cascio, Luigi Cinque(参考訳) 視覚変換器 (ViT) の自己保持機構は, 深い層に特徴的崩壊が生じ, 低レベルの視覚的特徴が消失する。 しかし、そのような特徴は画像内の要素を正確に表現し識別し、視覚ベースの認識システムの精度と堅牢性を高めるのに役立つ。 そこで本研究では,vitベースのアーキテクチャを改良し,視覚的特徴の多様性とモデルロバスト性を高めるための,新しい残余注意学習法を提案する。 このようにして、提案するネットワークは、重要な低レベル特徴をキャプチャして保存し、分析対象のシーン内の要素の詳細を提供する。 提案手法の有効性とロバスト性は,ImageNet1k, CIFAR10, CIFAR100, Oxford Flowers-102, Oxford-IIIT Petの5つの画像分類ベンチマークで評価され, 性能が向上した。 さらに、COCO2017データセットの実験では、空間認識トランスフォーマーモデルに実装された場合、オブジェクト検出とインスタンスセグメンテーションのための意味的および空間的関係を発見し、組み込むことが示されている。

Vision Transformer (ViT) self-attention mechanism is characterized by feature collapse in deeper layers, resulting in the vanishing of low-level visual features. However, such features can be helpful to accurately represent and identify elements within an image and increase the accuracy and robustness of vision-based recognition systems. Following this rationale, we propose a novel residual attention learning method for improving ViT-based architectures, increasing their visual feature diversity and model robustness. In this way, the proposed network can capture and preserve significant low-level features, providing more details about the elements within the scene being analyzed. The effectiveness and robustness of the presented method are evaluated on five image classification benchmarks, including ImageNet1k, CIFAR10, CIFAR100, Oxford Flowers-102, and Oxford-IIIT Pet, achieving improved performances. Additionally, experiments on the COCO2017 dataset show that the devised approach discovers and incorporates semantic and spatial relationships for object detection and instance segmentation when implemented into spatial-aware transformer models.
翻訳日:2024-02-20 21:58:12 公開日:2024-02-17
# MMMModal -- Multi-Images Multi-Audio Multi-turn Multi-Modal

MMMModal -- Multi-Images Multi-Audio Multi-turn Multi-Modal ( http://arxiv.org/abs/2402.11297v1 )

ライセンス: Link先を確認
Husein Zolkepli, Aisyah Razak, Kamarul Adha, Ariff Nazhan(参考訳) 本稿では,マルチターンセッションでマルチイメージ,マルチオーディオ,マルチイメージを理解できるように設計された,画期的なマルチモーダル大規模言語モデルを提案する。 最先端モデルを利用して視覚入力にSigLIPエンコーダ,音声入力にWhisper Encoderを利用する。 この多モーダルな言語モデルはバイリンガルであり、英語とマレー語の両方を同時に理解するのに熟練している。 我々はこのモデルの2つのバージョンを誇らしげに発表した。1.1bパラメータのtinyllamaと7bパラメータのmistralだ。 多様なモダリティや言語をナビゲートする能力によって、我々のモデルはマレーシアの文脈やその先を大きく前進させています。 すべてのモデルがhttps://huggingface.co/collections/mesolitica/multimodal-malaysian-llm-65c6f893e03f78fa9e5c8859でリリース

Our contribution introduces a groundbreaking multimodal large language model designed to comprehend multi-images, multi-audio, and multi-images-multi-audio within a single multiturn session. Leveraging state-of-the-art models, we utilize the SigLIP encoder for visual inputs and the Whisper Encoder for audio inputs. Notably, this multimodal large language model is bilingual, proficient in understanding both English and Malay simultaneously. We proudly unveil two versions of this model: TinyLlama with 1.1B parameters, and Mistral with 7B parameters. With its ability to navigate diverse modalities and languages, our model represents a significant advancement for the Malaysian context and beyond. All models released at https://huggingface.co/collections/mesolitica/multimodal-malaysian-llm-65c6f893e03f78fa9e5c8859
翻訳日:2024-02-20 21:57:49 公開日:2024-02-17
# 人間とLLMを区別する

Dissecting Human and LLM Preferences ( http://arxiv.org/abs/2402.11296v1 )

ライセンス: Link先を確認
Junlong Li, Fan Zhou, Shichao Sun, Yikai Zhang, Hai Zhao, Pengfei Liu(参考訳) モデル応答の相対的な品質比較として、人間と大規模言語モデル(LLM)の嗜好はモデル微調整における共通のアライメント目標と評価における基準となる。 しかし、これらの選好は単に広範な傾向を反映しているだけであり、潜在的な安全性リスクを伴う説明可能で制御可能なモデルが少なくなる。 本研究では,実世界のユーザモデル会話のアノテーションを用いて,人間と32種類のllmの好みを分析し,その量的構成を理解する。 人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。 一方、GPT-4-Turboのような高度なLCMは、より正確性、明確性、無害性を強調している。 さらに、同様のサイズのLLMは、トレーニング方法にかかわらず、同様の好みを示す傾向があり、アライメントのための微調整は、事前訓練済みのLLMの好みを著しく変えない。 最後に,嗜好に基づく評価を故意に操作できることを示す。 トレーニングフリーとトレーニングベースの両方の設定では、モデルを審査員の好みに合わせるとスコアが上がり、最小限のプロパティを注入するとスコアが低下する。 その結果、mt-bench (1-10スケール) が 0.59 まで、alpacaeval 2.0 (0-100スケール) が 31.94 まで上昇し、この戦略的適応の影響が顕著となった。 Interactive Demo: https://huggingface.co/spaces/GAIR/Preference-Dissection-Visualization Dataset: https://huggingface.co/datasets/GAIR/preference-Dissection Code: https://github.com/GAIR-NLP/Preference-Dissection

As a relative quality comparison of model responses, human and Large Language Model (LLM) preferences serve as common alignment goals in model fine-tuning and criteria in evaluation. Yet, these preferences merely reflect broad tendencies, resulting in less explainable and controllable models with potential safety risks. In this work, we dissect the preferences of human and 32 different LLMs to understand their quantitative composition, using annotations from real-world user-model conversations for a fine-grained, scenario-wise analysis. We find that humans are less sensitive to errors, favor responses that support their stances, and show clear dislike when models admit their limits. On the contrary, advanced LLMs like GPT-4-Turbo emphasize correctness, clarity, and harmlessness more. Additionally, LLMs of similar sizes tend to exhibit similar preferences, regardless of their training methods, and fine-tuning for alignment does not significantly alter the preferences of pretrained-only LLMs. Finally, we show that preference-based evaluation can be intentionally manipulated. In both training-free and training-based settings, aligning a model with the preferences of judges boosts scores, while injecting the least preferred properties lowers them. This results in notable score shifts: up to 0.59 on MT-Bench (1-10 scale) and 31.94 on AlpacaEval 2.0 (0-100 scale), highlighting the significant impact of this strategic adaptation. Interactive Demo: https://huggingface.co/spaces/GAIR/Preference-Dissection-Visualization Dataset: https://huggingface.co/datasets/GAIR/preference-dissection Code: https://github.com/GAIR-NLP/Preference-Dissection
翻訳日:2024-02-20 21:57:31 公開日:2024-02-17
# OneBit: 極低ビット大規模言語モデルを目指して

OneBit: Towards Extremely Low-bit Large Language Models ( http://arxiv.org/abs/2402.11295v1 )

ライセンス: Link先を確認
Yuzhuang Xu, Xu Han, Zonghan Yang, Shuo Wang, Qingfu Zhu, Zhiyuan Liu, Weidong Liu, Wanxiang Che(参考訳) モデル定量化では、低ビット幅値を使用してモデルの重み行列を表現する。 しかし、既存の量子化法はビット幅が極端に小さくなると深刻な性能劣化に悩まされ、4ビットまたは8ビットの値を用いてモデルを量子化する。 本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。 この目的のために,1ビット量子化アウェアトレーニング(qat)フレームワークonebitを紹介し,llmをより良く量子化するための新しい1ビットパラメータ表現法と,行列分解に基づく有効パラメータ初期化法を用いて,qatフレームワークの収束速度を向上させる。 十分な実験結果から,OneBitは1ビットの重み行列のみを用いることで,堅牢なトレーニングプロセスで良好な性能(最低でも83%の非量子化性能)を達成できることが示唆された。

Model quantification uses low bit-width values to represent the weight matrices of models, which is a promising approach to reduce both storage and computational overheads of deploying highly anticipated LLMs. However, existing quantization methods suffer severe performance degradation when the bit-width is extremely reduced, and thus focus on utilizing 4-bit or 8-bit values to quantize models. This paper boldly quantizes the weight matrices of LLMs to 1-bit, paving the way for the extremely low bit-width deployment of LLMs. For this target, we introduce a 1-bit quantization-aware training (QAT) framework named OneBit, including a novel 1-bit parameter representation method to better quantize LLMs as well as an effective parameter initialization method based on matrix decomposition to improve the convergence speed of the QAT framework. Sufficient experimental results indicate that OneBit achieves good performance (at least 83% of the non-quantized performance) with robust training processes when only using 1-bit weight matrices.
翻訳日:2024-02-20 21:56:59 公開日:2024-02-17
# 自動運転における深層学習のためのTノルムの探索

Exploiting T-norms for Deep Learning in Autonomous Driving ( http://arxiv.org/abs/2402.11362v1 )

ライセンス: Link先を確認
Mihaela C\u{a}t\u{a}lina Stoian, Eleonora Giunchiglia, Thomas Lukasiewicz(参考訳) ディープラーニングは、ニューラルネットワークが生データからパターンを見つけ出し、正確な予測にするという成功によって、自動運転分野の開発の中核をなしている。 さらに、近年のニューロシンボリック研究により、tノルムによる損失関数に手元にある問題の背景知識を組み込むことで、深層学習モデルの性能をさらに向上できることが示されている。 しかし、t-normベースの損失はメモリ要求が非常に高いため、自律運転のような複雑なアプリケーションドメインに適用することは不可能である。 本稿では、自律運転における事象検出のタスクにおいて、メモリ効率の高いtノルムに基づく損失をどうやって定義できるかを示す。 ROAD-Rデータセットに関する広範な実験分析を行い、そのことを示す。 (i)25ギブ未満のメモリでgpu上で実装・動作することを提案し、標準のtノルムベースの損失は100ギブ以上必要と推定され、通常利用可能なメモリをはるかに超えている。 t-ノルムに基づく損失は、特にラベル付きデータが限られている場合、パフォーマンスを向上させる。 (iii)ラベル付きデータとラベルなしデータの両方で悪用された場合、t-normベースの損失は更にパフォーマンスを向上させることができる。

Deep learning has been at the core of the autonomous driving field development, due to the neural networks' success in finding patterns in raw data and turning them into accurate predictions. Moreover, recent neuro-symbolic works have shown that incorporating the available background knowledge about the problem at hand in the loss function via t-norms can further improve the deep learning models' performance. However, t-norm-based losses may have very high memory requirements and, thus, they may be impossible to apply in complex application domains like autonomous driving. In this paper, we show how it is possible to define memory-efficient t-norm-based losses, allowing for exploiting t-norms for the task of event detection in autonomous driving. We conduct an extensive experimental analysis on the ROAD-R dataset and show (i) that our proposal can be implemented and run on GPUs with less than 25 GiB of available memory, while standard t-norm-based losses are estimated to require more than 100 GiB, far exceeding the amount of memory normally available, (ii) that t-norm-based losses improve performance, especially when limited labelled data are available, and (iii) that t-norm-based losses can further improve performance when exploited on both labelled and unlabelled data.
翻訳日:2024-02-20 21:50:41 公開日:2024-02-17
# 言語モデルを変更することなく言語モデルエージェントを訓練する

Training Language Model Agents without Modifying Language Models ( http://arxiv.org/abs/2402.11359v1 )

ライセンス: Link先を確認
Shaokun Zhang, Jieyu Zhang, Jiale Liu, Linxin Song, Chi Wang, Ranjay Krishna, Qingyun Wu(参考訳) 研究者や実践者が最近、強力なLarge Language Models(LLM)をエージェントとして再構成し、主に特殊な関数を使って複雑なタスクを自動化した。 LLM エージェントの開発を容易にするため,LLM エージェントを LLM 重量を変更することなくトレーニングする新たなパラダイムを提案する。 静的なツールセットに適合するように我々の生物学的構造を変えるのではなく、人間が現実世界のタスクに適応するためのツールを継続的に鍛造する方法に着想を得て、我々は、LCMの重みを変更するのではなく、下流タスクをよりよく解くためにエージェントの機能を段階的に鍛造することを提案する。 学習可能な「エージェントパラメータ」として処理し、人工知能におけるモデルトレーニングの基本的な考え方を活用することにより、エージェントの機能を更新し、エージェントトレーニングアルゴリズムを2つの戦略(ロールバックとアーリーストップ)で考案し、トレーニングプロセスを合理化するエージェントオプティマイザを開発する。 広範な実験により,エージェントトレーニングパラダイムが様々な下流タスクにおける代表的llmエージェントのパフォーマンスを大幅に向上させることを示した。 また,学習曲線やドメイン転送可能性といった側面におけるエージェントトレーニングの挙動についても検討した。

Researchers and practitioners have recently reframed powerful Large Language Models (LLMs) as agents, enabling them to automate complex tasks largely via the use of specialized functions. To facilitate the development of LLM agents, we present a novel paradigm of training LLM agents without modifying the LLM weights, which is particularly useful when the LLMs are difficult or inaccessible for modifications. Inspired by how humans continuously forge tools to adapt to real-world tasks, rather than change our biological structure to fit a static set of tools, we propose to progressively forge agent's functions to better solve the downstream tasks instead of modifying the LLM weights. By treating the functions as learnable `agent parameters' and leveraging the fundamental idea of model training in artificial intelligence, we develop AgentOptimizer that employs the LLM to update agents' functions and devise an agent training algorithm with two strategies, roll-back, and early-stop, to streamline the training process. With extensive experiments, we showcase that the agent training paradigm could significantly improve the performance of representative LLM agents in various downstream tasks. We also study the behavior of the agent training regarding aspects like the learning curve and domain transferability.
翻訳日:2024-02-20 21:50:07 公開日:2024-02-17
# 何が変わった? 表現のインターベンションを自然言語に変換する

What Changed? Converting Representational Interventions to Natural Language ( http://arxiv.org/abs/2402.11355v1 )

ライセンス: Link先を確認
Matan Avitan, Ryan Cotterell, Yoav Goldberg, Shauli Ravfogel(参考訳) 言語モデル(LM)の表現空間をターゲットとした介入は、モデル行動に影響を与える効果的な手段として現れてきた。 これらの手法は、例えば、モデル表現内の性別などの人口統計情報のエンコーディングを排除または変更し、反事実表現を作成するために用いられる。 しかし、介入は表現空間内で動作するため、どの特徴を修飾するかを正確に理解することが課題となる。 表現空間の反事実は自然言語の反事実に変換できることを示す。 提案手法は,与えられた表現空間の介入に対応する言語変化を解析し,特定の概念を符号化するための特徴を解釈することを可能にする。 さらに、結果として生じる反事実は分類のバイアスを軽減するのに使うことができる。

Interventions targeting the representation space of language models (LMs) have emerged as effective means to influence model behavior. These methods are employed, for example, to eliminate or alter the encoding of demographic information such as gender within the model's representations, creating a counterfactual representation. However, since the intervention operates within the representation space, understanding precisely which features it modifies poses a challenge. We show that representation-space counterfactuals can be converted into natural language counterfactuals. We demonstrate that this approach enables us to analyze the linguistic alterations corresponding to a given representation-space intervention and to interpret the features utilized for encoding a specific concept. Moreover, the resulting counterfactuals can be used to mitigate bias in classification.
翻訳日:2024-02-20 21:49:27 公開日:2024-02-17
# グラフに基づく近似近辺探索の確率的ルーティング

Probabilistic Routing for Graph-Based Approximate Nearest Neighbor Search ( http://arxiv.org/abs/2402.11354v1 )

ライセンス: Link先を確認
Kejing Lu, Chuan Xiao, Yoshiharu Ishikawa(参考訳) 高次元空間における近似近接探索(ANNS)は機械学習分野における重要な課題である。 近年、グラフベースの手法がannよりも優れたアプローチとして登場し、新しい最先端の芸術を確立している。 グラフベースのANNSの様々な最適化が導入されたが、それらは主に公式な理論的裏付けを持たないヒューリスティックな手法に依存している。 本稿では,グラフ中のノード近傍を探索する際の確率的保証を提供する手法を導入することにより,グラフベースのann内のルーティングを強化することを目的とする。 我々は,この問題を確率的ルーティングとして定式化し,局所性に敏感な手法を取り入れ,2つのベースライン戦略を構築する。 次に,グラフ内のどの近傍が正確な距離計算を行うべきかを効率的に同定し,実際の効率を大幅に向上させるPEOを紹介した。 実験により, PEOの装備により, 一般的に利用されるグラフインデックス(HNSW)のスループットが1.6から2.5に向上し, その効率が1.1から1.4倍に向上することを示した。

Approximate nearest neighbor search (ANNS) in high-dimensional spaces is a pivotal challenge in the field of machine learning. In recent years, graph-based methods have emerged as the superior approach to ANNS, establishing a new state of the art. Although various optimizations for graph-based ANNS have been introduced, they predominantly rely on heuristic methods that lack formal theoretical backing. This paper aims to enhance routing within graph-based ANNS by introducing a method that offers a probabilistic guarantee when exploring a node's neighbors in the graph. We formulate the problem as probabilistic routing and develop two baseline strategies by incorporating locality-sensitive techniques. Subsequently, we introduce PEOs, a novel approach that efficiently identifies which neighbors in the graph should be considered for exact distance computation, thus significantly improving efficiency in practice. Our experiments demonstrate that equipping PEOs can increase throughput on a commonly utilized graph index (HNSW) by a factor of 1.6 to 2.5, and its efficiency consistently outperforms the leading-edge routing technique by 1.1 to 1.4 times.
翻訳日:2024-02-20 21:48:33 公開日:2024-02-17
# 公衆衛生介入のための大規模言語モデル駆動型チャットボットによる長期記憶の自己開示への影響の理解

Understanding the Impact of Long-Term Memory on Self-Disclosure with Large Language Model-Driven Chatbots for Public Health Intervention ( http://arxiv.org/abs/2402.11353v1 )

ライセンス: Link先を確認
Eunkyung Jo, Yuin Jeong, SoHyun Park, Daniel A. Epstein, Young-Ho Kim(参考訳) 最近の大規模言語モデル(LLM)は、オープンエンドの会話を通じて公衆の健康情報公開を促進することで、公衆の健康モニタリングを支援する可能性を秘めている。 長期記憶を用いたLLMの拡張は、エンゲージメントと自己開示を改善する機会を与えるが、公衆衛生介入におけるLLM駆動型チャットボットとの相互作用がどう影響するかは理解できない。 LLMによる音声チャットボットであるCareCallの事例を,1,252件の通話ログの分析と,9名のユーザへのインタビューを通じて検討した。 その結果,LTMは健康情報の開示を高め,親しみを提供することでチャットボットの肯定的な認識を高めた。 しかし,LTMによる自己開示の促進,特に慢性的な健康状態やプライバシー問題に対処する上での課題も見いだした。 我々は、公衆衛生監視のためのllm駆動チャットボットにおけるltm統合の考慮事項について検討し、公衆衛生の目標に照らして記憶すべきトピックを慎重に決定することを含める。

Recent large language models (LLMs) offer the potential to support public health monitoring by facilitating health disclosure through open-ended conversations but rarely preserve the knowledge gained about individuals across repeated interactions. Augmenting LLMs with long-term memory (LTM) presents an opportunity to improve engagement and self-disclosure, but we lack an understanding of how LTM impacts people's interaction with LLM-driven chatbots in public health interventions. We examine the case of CareCall -- an LLM-driven voice chatbot with LTM -- through the analysis of 1,252 call logs and interviews with nine users. We found that LTM enhanced health disclosure and fostered positive perceptions of the chatbot by offering familiarity. However, we also observed challenges in promoting self-disclosure through LTM, particularly around addressing chronic health conditions and privacy concerns. We discuss considerations for LTM integration in LLM-driven chatbots for public health monitoring, including carefully deciding what topics need to be remembered in light of public health goals.
翻訳日:2024-02-20 21:47:42 公開日:2024-02-17
# 誤感染集団による流行拡大の増幅のモデル化

Modeling the amplification of epidemic spread by misinformed populations ( http://arxiv.org/abs/2402.11351v1 )

ライセンス: Link先を確認
Matthew R. DeVerna, Francesco Pierri, Yong-Yeol Ahn, Santo Fortunato, Alessandro Flammini, Filippo Menczer(参考訳) 誤情報が病気の拡散にどのように影響するかを理解することは公衆の健康にとって重要である。 しかし,データインフォームド・包括的流行モデルによる誤情報と流行アウトカムの相互作用について調査することは困難である。 本稿では,大規模かつ移動性に富んだ物理的接触ネットワークと,ソーシャルメディアデータから得られた郡間における不正な個人分布を組み込んだ流行モデルを提案する。 このモデルによって,様々なシナリオをシミュレートし,予測し,誤情報の拡散に対する影響を理解することができる。 このモデルを用いて、最悪のシナリオでは、誤報が米国内で4700万件のCOVID-19感染を引き起こした可能性があると推定する。

Understanding how misinformation affects the spread of disease is crucial for public health, especially given recent research indicating that misinformation can increase vaccine hesitancy and discourage vaccine uptake. However, it is difficult to investigate the interaction between misinformation and epidemic outcomes due to the dearth of data-informed holistic epidemic models. Here, we propose an epidemic model that incorporates a large, mobility-informed physical contact network as well as the distribution of misinformed individuals across counties derived from social media data. Our model allows us to simulate and estimate various scenarios to understand the impact of misinformation on epidemic spreading. Using this model, we estimate that misinformation could have led to 47 million additional COVID-19 infections in the U.S. in a worst-case scenario.
翻訳日:2024-02-20 21:47:24 公開日:2024-02-17
# 非ハイゼンベルク量子力学

Non-Heisenberg quantum mechanics ( http://arxiv.org/abs/2402.11350v1 )

ライセンス: Link先を確認
MohammadJavad Kazemi and Ghadir Jafari(参考訳) 公理理論の仮定を緩和することは、より一般的な理論を見つける自然な方法であり、歴史的に非ユークリッド幾何学の発見はこの方法の有名な例である。 ここで、この方法ではハイゼンベルクの量子力学の中心を無視して量子力学を拡張する -- ハイゼンベルクの可換関係を満たす位置作用素の存在を仮定しない、$[\hat x,\hat p]=i\hbar$。 ガリレオ対称性以外の量子理論の残りの公理は、自由パラメータ $l_0$ の長さ次元を持つより一般的な量子理論へと導かれ、例えば $l_0 \to 0$ が標準量子理論に還元される。 おそらく、この非ハイゼンベルク量子論は、非可換関係を前提とせず、修正されたハイゼンベルクの不確実性関係($\Delta x \Delta p\geq \sqrt{\hbar^2/4+l_0^2(\Delta p)^2}$)をもたらす。 このフレームワークの結果を、バー重力波検出器AURIGAの第1次常態モードと水素原子中の1S-2S$遷移を含む観測データと比較することにより、$l_0$の上界を得る。

Relaxing the postulates of an axiomatic theory is a natural way to find more general theories, and historically, the discovery of non-Euclidean geometry is a famous example of this procedure. Here, we use this way to extend quantum mechanics by ignoring the heart of Heisenberg's quantum mechanics -- We do not assume the existence of a position operator that satisfies the Heisenberg commutation relation, $[\hat x,\hat p]=i\hbar$. The remaining axioms of quantum theory, besides Galilean symmetry, lead to a more general quantum theory with a free parameter $l_0$ of length dimension, such that as $l_0 \to 0$ the theory reduces to standard quantum theory. Perhaps surprisingly, this non-Heisenberg quantum theory, without a priori assumption of the non-commutation relation, leads to a modified Heisenberg uncertainty relation, $\Delta x \Delta p\geq \sqrt{\hbar^2/4+l_0^2(\Delta p)^2}$, which ensures the existence of a minimal position uncertainty, $l_0$, as expected from various quantum gravity studies. By comparing the results of this framework with some observed data, which includes the first longitudinal normal modes of the bar gravitational wave detector AURIGA and the $1S-2S$ transition in the hydrogen atom, we obtain upper bounds on the $l_0$.
翻訳日:2024-02-20 21:47:12 公開日:2024-02-17
# 言語モデルが学習しないタスク

Tasks That Language Models Don't Learn ( http://arxiv.org/abs/2402.11349v1 )

ライセンス: Link先を確認
Bruce W. Lee and JaeHyuk Lim(参考訳) 私たちは、現在の大きな言語モデル(LLM)が学ばない言語の性質があると主張している。 本稿では,H-TESTと呼ばれる一連の課題を通して,言語視覚特性の実証的研究を行う。 このベンチマークは、知覚経験を自然に統合する人間の言語理解と、LLMの知覚不足処理能力との根本的なギャップを強調している。 私たちの仮説を支持して 一 意図的な推論(思考の連鎖) 2. 少数の例、または 3. 同じモデルファミリー(LLaMA 2 13B -> LLaMA 2 70B)の強力なLLMでは,H-TEST性能は向上しない。 そこで我々は,感覚を欠いた環境の中で世界について学ぶメアリーの哲学的ケースに,特に関連付ける(Jackson, 1986)。 実験の結果,最強プロプライエタリなLSMのいくつかは,確率ベースライン精度50%に近づき,感覚経験の欠如による知識の限界を浮き彫りにした。

We argue that there are certain properties of language that our current large language models (LLMs) don't learn. We present an empirical investigation of visual-auditory properties of language through a series of tasks, termed H-TEST. This benchmark highlights a fundamental gap between human linguistic comprehension, which naturally integrates sensory experiences, and the sensory-deprived processing capabilities of LLMs. In support of our hypothesis, 1. deliberate reasoning (Chain-of-Thought), 2. few-shot examples, or 3. stronger LLM from the same model family (LLaMA 2 13B -> LLaMA 2 70B) do not trivially bring improvements in H-TEST performance. Therefore, we make a particular connection to the philosophical case of Mary, who learns about the world in a sensory-deprived environment (Jackson, 1986). Our experiments show that some of the strongest proprietary LLMs stay near random chance baseline accuracy of 50%, highlighting the limitations of knowledge acquired in the absence of sensory experience.
翻訳日:2024-02-20 21:46:40 公開日:2024-02-17
# PhaseEvo: 大規模言語モデルの統一型インコンテキストプロンプト最適化を目指して

PhaseEvo: Towards Unified In-Context Prompt Optimization for Large Language Models ( http://arxiv.org/abs/2402.11347v1 )

ライセンス: Link先を確認
Wendi Cui, Jiaxin Zhang, Zhuohang Li, Hao Sun, Damien Lopez, Kamalika Das, Bradley Malin, Sricharan Kumar(参考訳) LLM(Large Language Models)の理想的なプロンプトを構築することは、重要なリソースと専門的な人間の入力を必要とする難しいタスクです。 既存の作業は、プロンプト命令とインコンテキスト学習例の最適化を別の問題として扱い、サブ最適プロンプト性能をもたらす。 本研究は,プロンプト命令とサンプルの協調最適化を実現するために,コンテキスト内プロンプト最適化フレームワークを統一することで,この制限に対処する。 しかし、離散的かつ高次元の自然言語空間におけるそのような最適化の定式化は収束性や計算効率の面での課題をもたらす。 これらの問題を克服するために,llmの生成能力と進化アルゴリズムのグローバル検索能力を組み合わせた効率的な自動最適化フレームワークphaseevoを提案する。 本フレームワークは,探索効率の向上と収束の促進を目的として,革新的なllmベースの突然変異演算子を組み込んだ多相設計を特徴とする。 我々は35のベンチマークタスクにまたがってアプローチを広範囲に評価する。 その結果,PhaseEvoは高い効率を維持しつつ,最先端のベースライン法よりも高い性能を示した。

Crafting an ideal prompt for Large Language Models (LLMs) is a challenging task that demands significant resources and expert human input. Existing work treats the optimization of prompt instruction and in-context learning examples as distinct problems, leading to sub-optimal prompt performance. This research addresses this limitation by establishing a unified in-context prompt optimization framework, which aims to achieve joint optimization of the prompt instruction and examples. However, formulating such optimization in the discrete and high-dimensional natural language space introduces challenges in terms of convergence and computational efficiency. To overcome these issues, we present PhaseEvo, an efficient automatic prompt optimization framework that combines the generative capability of LLMs with the global search proficiency of evolution algorithms. Our framework features a multi-phase design incorporating innovative LLM-based mutation operators to enhance search efficiency and accelerate convergence. We conduct an extensive evaluation of our approach across 35 benchmark tasks. The results demonstrate that PhaseEvo significantly outperforms the state-of-the-art baseline methods by a large margin whilst maintaining good efficiency.
翻訳日:2024-02-20 21:46:26 公開日:2024-02-17
# 変動エントロピー探索による期待改善の調整

Variational Entropy Search for Adjusting Expected Improvement ( http://arxiv.org/abs/2402.11345v1 )

ライセンス: Link先を確認
Nuojin Cheng and Stephen Becker(参考訳) ベイズ最適化はブラックボックス関数の最適化に広く用いられている手法であり、この領域で最もよく利用される取得関数である期待改善(EI)が用いられる。 EI はエントロピー探索 (ES) や最大値エントロピー探索 (MES) など他の情報理論的獲得関数と区別されることが多いが,本研究は変動推論 (VI) を通して EI が MES の特別な場合と見なせることを示した。 この文脈で我々は,情報理論的な概念から原理を取り込んでeiを適用する変分エントロピー探索(ves)法とves-gammaアルゴリズムを開発した。 VES-Gammaの有効性は、ベイズ最適化シナリオにおける理論的および実用性を強調し、様々なテスト関数と読み取りデータセットで実証されている。

Bayesian optimization is a widely used technique for optimizing black-box functions, with Expected Improvement (EI) being the most commonly utilized acquisition function in this domain. While EI is often viewed as distinct from other information-theoretic acquisition functions, such as entropy search (ES) and max-value entropy search (MES), our work reveals that EI can be considered a special case of MES when approached through variational inference (VI). In this context, we have developed the Variational Entropy Search (VES) methodology and the VES-Gamma algorithm, which adapts EI by incorporating principles from information-theoretic concepts. The efficacy of VES-Gamma is demonstrated across a variety of test functions and read datasets, highlighting its theoretical and practical utilities in Bayesian optimization scenarios.
翻訳日:2024-02-20 21:46:07 公開日:2024-02-17
# 重み付きオートエンコーダを用いた特徴選択のためのランサムウェア検出

Ransomware detection using stacked autoencoder for feature selection ( http://arxiv.org/abs/2402.11342v1 )

ライセンス: Link先を確認
Mike Nkongolo and Mahmut Tokmak(参考訳) 本研究の目的は,高度なランサムウェア検出・分類手法を提案し,精度の高い特徴選択のためのスタックドオートエンコーダ(SAE)とランサムウェア階層化精度を高めるLong Short Term Memory(LSTM)分類器を組み合わせることにある。 提案手法は、UGRansomeデータセットの徹底的な事前処理と、LSTMモデルの分類能力を高めるための教師なし学習による最適な特徴選択や微調整のための教師なしSAEの訓練を含む。 この研究は、オートエンコーダの学習重量とアクティベーションを慎重に分析し、ランサムウェアファミリーと他のマルウェアを区別するための重要な特徴を特定し、正確な分類のための合理化機能セットを作成する。 モデルの性能を最適化するために、最大400エポック、さまざまな学習率を含む広範な実験が行われている。 その結果,SAE-LSTMモデルの性能は全ランサムウェア群で優れており,高い精度,リコール,F1スコアが特徴的であった。 さらに、バランスのとれた平均スコアは、様々なマルウェアタイプにまたがって効果的に一般化する提案モデルの能力を証明する。 提案手法はランサムウェアの分類において99%の精度を達成し,SAE機能選択機構の有効性により,Extreme Gradient Boosting (XGBoost)アルゴリズムを上回り,その精度を向上した。 このモデルはまた、シグネチャ攻撃を特定する上で優れたパフォーマンスを示し、98%の精度を達成する。

The aim of this study is to propose and evaluate an advanced ransomware detection and classification method that combines a Stacked Autoencoder (SAE) for precise feature selection with a Long Short Term Memory (LSTM) classifier to enhance ransomware stratification accuracy. The proposed approach involves thorough pre processing of the UGRansome dataset and training an unsupervised SAE for optimal feature selection or fine tuning via supervised learning to elevate the LSTM model's classification capabilities. The study meticulously analyzes the autoencoder's learned weights and activations to identify essential features for distinguishing ransomware families from other malware and creates a streamlined feature set for precise classification. Extensive experiments, including up to 400 epochs and varying learning rates, are conducted to optimize the model's performance. The results demonstrate the outstanding performance of the SAE-LSTM model across all ransomware families, boasting high precision, recall, and F1 score values that underscore its robust classification capabilities. Furthermore, balanced average scores affirm the proposed model's ability to generalize effectively across various malware types. The proposed model achieves an exceptional 99% accuracy in ransomware classification, surpassing the Extreme Gradient Boosting (XGBoost) algorithm primarily due to its effective SAE feature selection mechanism. The model also demonstrates outstanding performance in identifying signature attacks, achieving a 98% accuracy rate.
翻訳日:2024-02-20 21:45:49 公開日:2024-02-17
# ハイパーグラフ対称性分割による高速リンク予測

Expressive Higher-Order Link Prediction through Hypergraph Symmetry Breaking ( http://arxiv.org/abs/2402.11339v1 )

ライセンス: Link先を確認
Simon Zhang, Cheng Xin, Tamal K. Dey(参考訳) ハイパーグラフはノードの集合とハイパーエッジと呼ばれるノードのサブセットの集合からなる。 高次リンク予測はハイパーグラフに欠けているハイパーエッジの存在を予測するタスクである。 高次リンク予測のために学習されたハイパーエッジ表現は、同型への差分パワーを失わない場合に完全に表現される。 既存のハイパーグラフ表現学習者の多くは、Weisfeiler Lehman-1アルゴリズムの一般化であるGeneralized Weisfeiler Lehman-1(GWL-1)アルゴリズムによって表現力に縛られている。 しかし、GWL-1は表現力に制限がある。 実際、同一のgwl-1値ノードを持つ誘導サブハイパーグラフは区別できない。 さらに、ハイパーグラフ上のメッセージパッシングはすでに計算コストが高く、特にgpuメモリでは高い。 これらの制限に対処するために、対称性を示す特定の正規部分ハイパーグラフを識別できるプリプロセッシングアルゴリズムを考案する。 プリプロセッシングアルゴリズムは、入力ハイパーグラフのサイズを複雑にしながら一度実行します。 トレーニング中、アルゴリズムによって同定されたサブハイパーグラフをハイパーエッジに置き換え、対称性を破る。 本手法はGWL-1の表現性を向上させる。 また,グラフデータとハイパーグラフデータの両方に対する高次リンク予測に対する提案手法の有効性について検討した。

A hypergraph consists of a set of nodes along with a collection of subsets of the nodes called hyperedges. Higher-order link prediction is the task of predicting the existence of a missing hyperedge in a hypergraph. A hyperedge representation learned for higher order link prediction is fully expressive when it does not lose distinguishing power up to an isomorphism. Many existing hypergraph representation learners, are bounded in expressive power by the Generalized Weisfeiler Lehman-1 (GWL-1) algorithm, a generalization of the Weisfeiler Lehman-1 algorithm. However, GWL-1 has limited expressive power. In fact, induced subhypergraphs with identical GWL-1 valued nodes are indistinguishable. Furthermore, message passing on hypergraphs can already be computationally expensive, especially on GPU memory. To address these limitations, we devise a preprocessing algorithm that can identify certain regular subhypergraphs exhibiting symmetry. Our preprocessing algorithm runs once with complexity the size of the input hypergraph. During training, we randomly replace subhypergraphs identified by the algorithm with covering hyperedges to break symmetry. We show that our method improves the expressivity of GWL-1. Our extensive experiments also demonstrate the effectiveness of our approach for higher-order link prediction on both graph and hypergraph datasets with negligible change in computation.
翻訳日:2024-02-20 21:45:19 公開日:2024-02-17
# 部分フィードバックによる公平な分類:探索に基づくデータ収集アプローチ

Fair Classification with Partial Feedback: An Exploration-Based Data-Collection Approach ( http://arxiv.org/abs/2402.11338v1 )

ライセンス: Link先を確認
Vijay Keswani, Anay Mehrotra, L. Elisa Celis(参考訳) 多くの予測的文脈(例えば信用融資)において、真の結果は過去に肯定的に分類されたサンプルに対してのみ観察される。 これらの過去の観測は、将来の予測を行う分類器のトレーニングデータセットを形成する。 しかし、このようなトレーニングデータセットは、過去に(誤って)否定的に分類され、誤った分類につながるサンプルの結果に関する情報を欠いている。 本稿では、利用可能なデータを用いて分類器を訓練し、それ以外は無視されるであろうサブ集団に関する結果データを集めるための探索戦略のファミリーを伴うアプローチを提案する。 いかなる探索戦略に対しても、アプローチは(1)全てのサブポピュレーションが探索され、(2)偽陽性の断片が有界であること、(3)訓練された分類器が「望まれる」分類器に収束することを保証する。 適切な探索戦略は文脈依存であり、学習保証を改善し、文脈固有のグループフェアネス特性をエンコードするために選択することができる。 実世界のデータセットの評価は、このアプローチが一貫して収集された結果データの品質を高め、予測ユーティリティをわずかに減らすだけで、すべてのグループに対する真の正の比率を改善することを示している。

In many predictive contexts (e.g., credit lending), true outcomes are only observed for samples that were positively classified in the past. These past observations, in turn, form training datasets for classifiers that make future predictions. However, such training datasets lack information about the outcomes of samples that were (incorrectly) negatively classified in the past and can lead to erroneous classifiers. We present an approach that trains a classifier using available data and comes with a family of exploration strategies to collect outcome data about subpopulations that otherwise would have been ignored. For any exploration strategy, the approach comes with guarantees that (1) all sub-populations are explored, (2) the fraction of false positives is bounded, and (3) the trained classifier converges to a "desired" classifier. The right exploration strategy is context-dependent; it can be chosen to improve learning guarantees and encode context-specific group fairness properties. Evaluation on real-world datasets shows that this approach consistently boosts the quality of collected outcome data and improves the fraction of true positives for all groups, with only a small reduction in predictive utility.
翻訳日:2024-02-20 21:44:59 公開日:2024-02-17
# レコンストラクションによる学習は知覚に不自然な特徴をもたらす

Learning by Reconstruction Produces Uninformative Features For Perception ( http://arxiv.org/abs/2402.11337v1 )

ライセンス: Link先を確認
Randall Balestriero, Yann LeCun(参考訳) 入力空間再構成は魅力的な表現学習パラダイムである。 再現と生成の解釈可能性にもかかわらず、再構築による学習と知覚の学習の相違を識別する。 前者は、観測された分散を説明するデータの部分空間に向けてモデルの容量を割り当てる-後者に対して非可換な特徴を持つ部分空間-を示す。 例えば、トップサブスペースに画像が投影され、ピクセル分散の90\%を説明する教師付きtinyimagenetタスクは、45\%のテスト精度で解決できる。 代わりに下位部分空間を使用すると、ピクセル分散の20\%しか計算できず、55\%テスト精度に達する。 最後に学習される知覚の特徴は、例えばマスク付きオートエンコーダで、長いトレーニング時間の必要性を説明する。 偽りによる学習は、その誤解を和らげる一般的な戦略である。 マスキングなどのノイズ戦略は確かに有益であるが,加法的ガウスノイズのようなノイズ戦略は有益ではない。 しかし、マスクの場合においても、マスクの形状、比率、考慮されたデータセットの関数として、利点が異なることが分かる。 知覚課題を知らずにノイズ戦略を調整することは困難に思えるが,ノイズ戦略が知覚課題によらず有益でないかどうかを検知するための第1の手がかりを提供する。

Input space reconstruction is an attractive representation learning paradigm. Despite interpretability of the reconstruction and generation, we identify a misalignment between learning by reconstruction, and learning for perception. We show that the former allocates a model's capacity towards a subspace of the data explaining the observed variance--a subspace with uninformative features for the latter. For example, the supervised TinyImagenet task with images projected onto the top subspace explaining 90\% of the pixel variance can be solved with 45\% test accuracy. Using the bottom subspace instead, accounting for only 20\% of the pixel variance, reaches 55\% test accuracy. The features for perception being learned last explains the need for long training time, e.g., with Masked Autoencoders. Learning by denoising is a popular strategy to alleviate that misalignment. We prove that while some noise strategies such as masking are indeed beneficial, others such as additive Gaussian noise are not. Yet, even in the case of masking, we find that the benefits vary as a function of the mask's shape, ratio, and the considered dataset. While tuning the noise strategy without knowledge of the perception task seems challenging, we provide first clues on how to detect if a noise strategy is never beneficial regardless of the perception task.
翻訳日:2024-02-20 21:44:40 公開日:2024-02-17
# ボリウッド映画とハリウッド映画における社会規範のクロスカルチャー分析

A Cross-Cultural Analysis of Social Norms in Bollywood and Hollywood Movies ( http://arxiv.org/abs/2402.11333v1 )

ライセンス: Link先を確認
Sunny Rai, Khushang Zilesh Zaveri, Shreya Havaldar, Soumna Nema, Lyle Ungar, Sharath Chandra Guntuku(参考訳) 社会的規範が文化によってどのように異なるかを理解することは、文化的に整合したNLPシステムを構築するのに役立つ。 モラル感情,恥,誇りを用いて,規範的期待の具体例を識別し,対応する社会的規範を抽出し,規範的発見に対する文化非依存的アプローチを提案する。 我々は,5.4Kボリウッド映画とハリウッド映画から得られた,初めての文化的自己意識感情データセットと10K以上の社会的規範を提示する。 例えば、ボリウッド映画は、社会的役割の逸脱による恥を強調し、家族の名誉を誇示する一方で、ハリウッドは貧困と無能を恥じ、倫理的行為を誇りにしている。 特に、女性は両方の文化でより恥じられ、両方の文化は、同様の規範的期待に反する女性を恥じている。

Understanding how social norms vary across cultures can help us build culturally aligned NLP systems. We propose a culture agnostic approach to norm discovery, using moral emotions, shame and pride, to identify examples of normative expectations and extract corresponding social norms. We present the first cross cultural self-conscious emotions dataset, obtained from 5.4K Bollywood and Hollywood movies, along with over 10K extracted social norms. We validate our dataset using native speakers and demonstrate how our dataset reveals variations in social norms that align with the cultural dichotomy observed in these nations e.g., Bollywood movies emphasize shame due to deviation from social roles, and express pride in family honor, while Hollywood shames poverty and incompetence, and takes pride in ethical behavior. Notably, females are shamed more across both cultures and both cultures shame women for violating similar normative expectations.
翻訳日:2024-02-20 21:44:21 公開日:2024-02-17
# ディープラーニング潜在特徴空間の安定性の評価

Evaluating the Stability of Deep Learning Latent Feature Spaces ( http://arxiv.org/abs/2402.11404v1 )

ライセンス: Link先を確認
Ademide O. Mabadeje and Michael J. Pyrcz(参考訳) 高次元データセットは、様々な分野にわたる統計的モデリングにおいて重要な課題を示し、効果的な次元削減法を必要とする。 深層学習のアプローチは、複雑なデータから本質的な特徴を抽出し、モデリング、可視化、空間の縮小による圧縮を促進する能力で有名であり、バイオインフォマティクスから地球科学まで幅広い応用がある。 本研究では、これらの潜在空間の安定性を評価し、その後の解析における一貫性と信頼性を保証する新しいワークフローを提案する。 最小データへの潜在空間の不変性、訓練実現、パラメータ摂動といった安定性は重要であり、しばしば見過ごされる。 提案手法は, 3種類の安定型, サンプル, 構造, 推論を潜在空間内に記述し, 包括的評価のための一連の指標を導入する。 私たちはこのワークフローを500のオートエンコーダ実現と3つのデータセットにまたがって実装します。 k-平均クラスタリングと改良されたJonker-Volgenantアルゴリズムを用いて、異方性測定と凸殻解析を行い、新しい安定性指標として調整応力とジャカードの相似性を導入する。 本研究は潜在機能空間における本質的不安定性を強調し,これらの不安定性を定量化し解釈するワークフローの有効性を示す。 この研究は潜在機能空間の理解を促進し、深層学習を活用した多様な分析ワークフローのためのより深い意思決定のためのモデル解釈可能性の向上と品質管理を促進する。

High-dimensional datasets present substantial challenges in statistical modeling across various disciplines, necessitating effective dimensionality reduction methods. Deep learning approaches, notable for their capacity to distill essential features from complex data, facilitate modeling, visualization, and compression through reduced dimensionality latent feature spaces, have wide applications from bioinformatics to earth sciences. This study introduces a novel workflow to evaluate the stability of these latent spaces, ensuring consistency and reliability in subsequent analyses. Stability, defined as the invariance of latent spaces to minor data, training realizations, and parameter perturbations, is crucial yet often overlooked. Our proposed methodology delineates three stability types, sample, structural, and inferential, within latent spaces, and introduces a suite of metrics for comprehensive evaluation. We implement this workflow across 500 autoencoder realizations and three datasets, encompassing both synthetic and real-world scenarios to explain latent space dynamics. Employing k-means clustering and the modified Jonker-Volgenant algorithm for class alignment, alongside anisotropy metrics and convex hull analysis, we introduce adjusted stress and Jaccard dissimilarity as novel stability indicators. Our findings highlight inherent instabilities in latent feature spaces and demonstrate the workflow's efficacy in quantifying and interpreting these instabilities. This work advances the understanding of latent feature spaces, promoting improved model interpretability and quality control for more informed decision-making for diverse analytical workflows that leverage deep learning.
翻訳日:2024-02-20 21:35:36 公開日:2024-02-17
# リアルタイムマルチモーダル複合事象検出におけるニューラルおよびニューロシンボリックアプローチの実証的評価

An Empirical Evaluation of Neural and Neuro-symbolic Approaches to Real-time Multimodal Complex Event Detection ( http://arxiv.org/abs/2402.11403v1 )

ライセンス: Link先を確認
Liying Han, Mani B. Srivastava(参考訳) ロボットと自律システムは、センサーデータから複雑な事象(CE)を理解して、環境や人間と効果的に対話する必要がある。 従来のエンドツーエンドのニューラルネットワークは、センサーデータを効率的に処理するが、コンテキストサイズや推論能力の制限のため、長期にわたるイベントに苦しむ。 人間の知識を活用したニューラルモデルとシンボリックモデルを統合するニューロシンボリック手法の最近の進歩は、少ないデータでパフォーマンスを改善することを約束している。 本研究では,複合事象検出(CED)におけるこれらのアプローチの有効性の理解のギャップについて考察する。 マルチモーダルCEDタスクにおけるニューラルネットワークおよびニューラルシンボリックアーキテクチャの性能について検討し,IMUおよび音響データストリームを分析してCEパターンを認識する。 私たちの方法論には i)センサー埋め込みからの直接CE検出のためのエンドツーエンドニューラルネットワークアーキテクチャ 二 CE検出前の原子イベント(AE)にセンサ埋め込みをマッピングする二段階概念に基づくニューラルモデル 3)AEsからのCE検出のためのシンボル有限状態マシンを用いたニューロシンボリックアプローチ。 経験的に、ニューロシンボリックアーキテクチャは純粋に神経モデルを大幅に上回っており、広範なトレーニングデータや神経アプローチのための十分な時間的文脈においても、ce認識において優れた性能を示している。

Robots and autonomous systems require an understanding of complex events (CEs) from sensor data to interact with their environments and humans effectively. Traditional end-to-end neural architectures, despite processing sensor data efficiently, struggle with long-duration events due to limited context sizes and reasoning capabilities. Recent advances in neuro-symbolic methods, which integrate neural and symbolic models leveraging human knowledge, promise improved performance with less data. This study addresses the gap in understanding these approaches' effectiveness in complex event detection (CED), especially in temporal reasoning. We investigate neural and neuro-symbolic architectures' performance in a multimodal CED task, analyzing IMU and acoustic data streams to recognize CE patterns. Our methodology includes (i) end-to-end neural architectures for direct CE detection from sensor embeddings, (ii) two-stage concept-based neural models mapping sensor embeddings to atomic events (AEs) before CE detection, and (iii) a neuro-symbolic approach using a symbolic finite-state machine for CE detection from AEs. Empirically, the neuro-symbolic architecture significantly surpasses purely neural models, demonstrating superior performance in CE recognition, even with extensive training data and ample temporal context for neural approaches.
翻訳日:2024-02-20 21:35:11 公開日:2024-02-17
# GraphKD:構造化グラフ作成による文書オブジェクト検出に向けた知識蒸留の探索

GraphKD: Exploring Knowledge Distillation Towards Document Object Detection with Structured Graph Creation ( http://arxiv.org/abs/2402.11401v1 )

ライセンス: Link先を確認
Ayan Banerjee, Sanket Biswas, Josep Llad\'os, and Umapada Pal(参考訳) 文書中のオブジェクト検出は、階層構造と異なる要素間の関係を理解することによって、デジタル文書やスキャン文書の構造要素識別プロセスを自動化するための重要なステップである。 大規模で複雑なモデルは高い精度を達成する一方で、計算コストが高く、メモリ集約的であり、リソース制約のあるデバイスへのデプロイには実用的ではない。 知識蒸留により、より大型の蒸留器の性能の多くを保持する小型で効率的なモデルが作成できる。 本稿では,ドキュメント画像内の文書オブジェクトを正しく識別し,局所化するグラフベースの知識蒸留フレームワークを提案する。 本稿では,提案領域間の関係を表すエッジと提案レベルの特徴を含むノードを持つ構造化グラフを設計する。 また、テキストバイアスを減らすために、適応ノードサンプリング戦略は、重み分布を損ね、非テキストノードの重み付けを増やすように設計されている。 本論文では,全グラフを知識表現としてエンコードし,ローカル情報とグローバル情報の両方を同時取得することにより,提案する蒸留損失を通じて教師から生徒に伝達する。 競合ベンチマークに関する広範な実験は、提案されたフレームワークが現在の最先端のアプローチを上回っていることを示している。 コードは以下の通り。 https://github.com/ayanban011/GraphKD。

Object detection in documents is a key step to automate the structural elements identification process in a digital or scanned document through understanding the hierarchical structure and relationships between different elements. Large and complex models, while achieving high accuracy, can be computationally expensive and memory-intensive, making them impractical for deployment on resource constrained devices. Knowledge distillation allows us to create small and more efficient models that retain much of the performance of their larger counterparts. Here we present a graph-based knowledge distillation framework to correctly identify and localize the document objects in a document image. Here, we design a structured graph with nodes containing proposal-level features and edges representing the relationship between the different proposal regions. Also, to reduce text bias an adaptive node sampling strategy is designed to prune the weight distribution and put more weightage on non-text nodes. We encode the complete graph as a knowledge representation and transfer it from the teacher to the student through the proposed distillation loss by effectively capturing both local and global information concurrently. Extensive experimentation on competitive benchmarks demonstrates that the proposed framework outperforms the current state-of-the-art approaches. The code will be available at: https://github.com/ayanban011/GraphKD.
翻訳日:2024-02-20 21:34:47 公開日:2024-02-17
# k-SemStamp: 機械生成テキスト検出のためのクラスタリングに基づく意味的透かし

k-SemStamp: A Clustering-Based Semantic Watermark for Detection of Machine-Generated Text ( http://arxiv.org/abs/2402.11399v1 )

ライセンス: Link先を確認
Abe Bohan Hou, Jingyu Zhang, Yichen Wang, Daniel Khashabi, Tianxing He(参考訳) 最近の透かし生成アルゴリズムは、言語生成中に検出可能なシグネチャを注入し、ポストホック検出を容易にする。 トークンレベルの透かしはパラフレーズ攻撃に弱いが、SemStamp (Hou et al., 2023) は文の意味表現に透かしを適用し、有望な堅牢性を示す。 SemStampは局所性に敏感なハッシュ(LSH)を用いて、意味空間を任意の超平面で分割する。 我々は,SemStampの簡易かつ効果的な拡張であるk-SemStampを提案し,k-meansクラスタリングをLSHの代替として利用して,埋め込み空間を固有の意味構造を意識して分割する。 実験の結果, k-semstampは, 生成品質を維持しつつ, 頑健性とサンプリング効率を良好に向上し, 機械生成テキスト検出のためのより効果的なツールであることがわかった。

Recent watermarked generation algorithms inject detectable signatures during language generation to facilitate post-hoc detection. While token-level watermarks are vulnerable to paraphrase attacks, SemStamp (Hou et al., 2023) applies watermark on the semantic representation of sentences and demonstrates promising robustness. SemStamp employs locality-sensitive hashing (LSH) to partition the semantic space with arbitrary hyperplanes, which results in a suboptimal tradeoff between robustness and speed. We propose k-SemStamp, a simple yet effective enhancement of SemStamp, utilizing k-means clustering as an alternative of LSH to partition the embedding space with awareness of inherent semantic structure. Experimental results indicate that k-SemStamp saliently improves its robustness and sampling efficiency while preserving the generation quality, advancing a more effective tool for machine-generated text detection.
翻訳日:2024-02-20 21:34:29 公開日:2024-02-17
# 比較前に推論する: llm-enhanced semantic similarity metrics for domain special text analysis

Reasoning before Comparison: LLM-Enhanced Semantic Similarity Metrics for Domain Specialized Text Analysis ( http://arxiv.org/abs/2402.11398v1 )

ライセンス: Link先を確認
Shaochen Xu, Zihao Wu, Huaqin Zhao, Peng Shu, Zhengliang Liu, Wenxiong Liao, Sheng Li, Andrea Sikora, Tianming Liu, Xiang Li(参考訳) 本研究では, ROUGEやBLEUのような従来の教師なしNLPメトリクスの限界に対処するため, LLMを活用して意味分析を強化し, テキストの類似度指標を開発する。 我々は, gpt-4 などの llm をゼロショットテキスト識別, ラベル生成に利用し, ラベルをテキスト類似度の測定値として用いるフレームワークを開発した。 提案手法をMIMICデータ上で検証することにより,GPT-4 生成ラベルは従来の NLP 指標よりも臨床基盤の真偽に近いスコアで意味的類似性評価を大幅に改善できることがわかった。 本研究は,高度専門領域に対するllmによる半定量的推論結果を用いて,テキストデータの意味分析を行う可能性を示す。 このフレームワークはラジオロジーレポートの類似性分析のために実装されているが、その概念は他の専門領域にも拡張することができる。

In this study, we leverage LLM to enhance the semantic analysis and develop similarity metrics for texts, addressing the limitations of traditional unsupervised NLP metrics like ROUGE and BLEU. We develop a framework where LLMs such as GPT-4 are employed for zero-shot text identification and label generation for radiology reports, where the labels are then used as measurements for text similarity. By testing the proposed framework on the MIMIC data, we find that GPT-4 generated labels can significantly improve the semantic similarity assessment, with scores more closely aligned with clinical ground truth than traditional NLP metrics. Our work demonstrates the possibility of conducting semantic analysis of the text data using semi-quantitative reasoning results by the LLMs for highly specialized domains. While the framework is implemented for radiology report similarity analysis, its concept can be extended to other specialized domains as well.
翻訳日:2024-02-20 21:34:10 公開日:2024-02-17
# 最適近似のランダム射影ニューラルネットワーク:収束理論とその応用

Random Projection Neural Networks of Best Approximation: Convergence theory and practical applications ( http://arxiv.org/abs/2402.11397v1 )

ライセンス: Link先を確認
Gianluca Fabiani(参考訳) 本稿では、フィードフォワードニューラルネットワーク(FNN)の最適近似の概念を考察し、ランダム投影(RPNN)のレンズによる収束特性について検討する。 RPNNは、内部の重みとバイアスを事前に決めて固定し、計算効率を提供する。 我々は,非多項的無限微分可能活性化関数を持つrpnn群に対して,任意の無限微分可能関数を近似するときに指数収束率を示す外部重みの選択肢が存在することを実証する。 図示目的のために,提案したRPNN関数近似を5つのベンチマーク関数近似問題に比較検討した。 その結果、RPNNはRegendre Polynomialsのような確立した手法に匹敵する性能を示し、効率的かつ正確な関数近似の可能性を強調した。

We investigate the concept of Best Approximation for Feedforward Neural Networks (FNN) and explore their convergence properties through the lens of Random Projection (RPNNs). RPNNs have predetermined and fixed, once and for all, internal weights and biases, offering computational efficiency. We demonstrate that there exists a choice of external weights, for any family of such RPNNs, with non-polynomial infinitely differentiable activation functions, that exhibit an exponential convergence rate when approximating any infinitely differentiable function. For illustration purposes, we test the proposed RPNN-based function approximation, with parsimoniously chosen basis functions, across five benchmark function approximation problems. Results show that RPNNs achieve comparable performance to established methods such as Legendre Polynomials, highlighting their potential for efficient and accurate function approximation.
翻訳日:2024-02-20 21:33:53 公開日:2024-02-17
# 風力発電の最大化のための強化学習

Reinforcement learning to maximise wind turbine energy generation ( http://arxiv.org/abs/2402.11384v1 )

ライセンス: Link先を確認
Daniel Soler, Oscar Mari\~no, David Huergo, Mart\'in de Frutos, Esteban Ferrer(参考訳) 本研究では,ロータ速度,ロータヨー角,ブレードピッチ角を積極的に変化させることで,風力タービンのエネルギー発生を制御するための強化学習戦略を提案する。 優先体験再生剤を用いた二重深度Q学習をブレード要素運動量モデルに結合し、風の変化を制御できるように訓練する。 エージェントは、単純な定常風に対して最適な制御(速度、ヨー、ピッチ)を決定するように訓練され、その後、実際の動的乱流風に挑戦され、良好な性能を示す。 ダブルディープQ-ラーニングは、古典的なイテレーション強化学習制御と比較され、どちらの戦略も古典的なPID制御を全ての環境で上回る。 さらに, 補強学習手法は, 乱流風などの環境変化に適しており, 高い適応性を示す。 最後に,全制御戦略と実風を比較し,年間エネルギー生産量を計算する。 この場合、ダブルディープQ-ラーニングアルゴリズムは古典的手法よりも優れている。

We propose a reinforcement learning strategy to control wind turbine energy generation by actively changing the rotor speed, the rotor yaw angle and the blade pitch angle. A double deep Q-learning with a prioritized experience replay agent is coupled with a blade element momentum model and is trained to allow control for changing winds. The agent is trained to decide the best control (speed, yaw, pitch) for simple steady winds and is subsequently challenged with real dynamic turbulent winds, showing good performance. The double deep Q- learning is compared with a classic value iteration reinforcement learning control and both strategies outperform a classic PID control in all environments. Furthermore, the reinforcement learning approach is well suited to changing environments including turbulent/gusty winds, showing great adaptability. Finally, we compare all control strategies with real winds and compute the annual energy production. In this case, the double deep Q-learning algorithm also outperforms classic methodologies.
翻訳日:2024-02-20 21:33:38 公開日:2024-02-17
# 共通感覚報酬のための多タスク逆強化学習

Multi Task Inverse Reinforcement Learning for Common Sense Reward ( http://arxiv.org/abs/2402.11367v1 )

ライセンス: Link先を確認
Neta Glazer, Aviv Navon, Aviv Shamsian, Ethan Fetaya(参考訳) 複雑な現実世界環境で強化学習を適用する際の課題の1つは、エージェントに十分な詳細な報酬関数を提供することである。 報酬と望ましい行動の間の不一致は、望ましくない結果をもたらす可能性がある。 これは、エージェントが意図しない行動によって報酬を最大化する「リワードハッキング」のような問題につながる可能性がある。 本稿では,報酬を2つの異なる部分に分割することを提案する。 目の前のタスクの細部を概説する単純なタスク固有の報酬と、環境内のエージェントの期待される振る舞いを示す未知の共通意味の報酬。 次に、この常識的な報酬が専門家のデモからどのように学べるかを考察する。 まず,エージェントの訓練に成功しても,逆強化学習は有用な報酬関数を学習しないことを示す。 すなわち、学習した報酬で新しいエージェントを訓練しても、望ましい振る舞いを損なうことはない。 そして,複数のタスクで同時にトレーニングすることで,この問題が解決できることを実証する。 すなわち、多タスク逆強化学習を適用して有用な報酬関数を学習することができる。

One of the challenges in applying reinforcement learning in a complex real-world environment lies in providing the agent with a sufficiently detailed reward function. Any misalignment between the reward and the desired behavior can result in unwanted outcomes. This may lead to issues like "reward hacking" where the agent maximizes rewards by unintended behavior. In this work, we propose to disentangle the reward into two distinct parts. A simple task-specific reward, outlining the particulars of the task at hand, and an unknown common-sense reward, indicating the expected behavior of the agent within the environment. We then explore how this common-sense reward can be learned from expert demonstrations. We first show that inverse reinforcement learning, even when it succeeds in training an agent, does not learn a useful reward function. That is, training a new agent with the learned reward does not impair the desired behaviors. We then demonstrate that this problem can be solved by training simultaneously on multiple tasks. That is, multi-task inverse reinforcement learning can be applied to learn a useful reward function.
翻訳日:2024-02-20 21:33:19 公開日:2024-02-17
# ガウス過程を用いたデータ駆動確率AC-OPF

Data-Driven Stochastic AC-OPF using Gaussian Processes ( http://arxiv.org/abs/2402.11365v1 )

ライセンス: Link先を確認
Mile Mitrovic(参考訳) この論文は、確率交互流(AC)確率制約(CC)最適潮流(OPF)問題を解決するために、機械学習に基づくデータ駆動アルゴリズムの開発に焦点を当てている。 AC CC-OPF問題は学術分野では成功したが、非常に非線形で計算的に要求され、実際的な影響を制限している。 提案手法は,複数のIEEEテストケースへの適用を通じて,この制限に対処し,その経験的効率性を実証することを目的としている。 非凸で計算的に困難なCC AC-OPF問題を解決するため、提案手法は機械学習ガウス過程回帰(GPR)モデルに依存する。 ガウス過程 (GP) のアプローチは、不確実な入力を組み込むことができるACパワーフロー方程式への単純な非凸データ駆動近似を学習することができる。 提案手法はgp-uncertaintyの伝播に様々な近似を用いる。 GP CC-OPFアプローチは、最先端のサンプルベースのチャンス制約アプローチよりも優れた、非常に競争力があり、有望な結果を示す。 GP CC-OPFの堅牢性と複雑性/精度のトレードオフをさらに改善するため,高速なデータ駆動方式を提案する。 このセットアップは、入力不確実性を伴うパワーフロー方程式をモデル化するスパースおよびハイブリッドガウス過程(GP)フレームワークに依存している。

The thesis focuses on developing a data-driven algorithm, based on machine learning, to solve the stochastic alternating current (AC) chance-constrained (CC) Optimal Power Flow (OPF) problem. Although the AC CC-OPF problem has been successful in academic circles, it is highly nonlinear and computationally demanding, which limits its practical impact. The proposed approach aims to address this limitation and demonstrate its empirical efficiency through applications to multiple IEEE test cases. To solve the non-convex and computationally challenging CC AC-OPF problem, the proposed approach relies on a machine learning Gaussian process regression (GPR) model. The full Gaussian process (GP) approach is capable of learning a simple yet non-convex data-driven approximation to the AC power flow equations that can incorporate uncertain inputs. The proposed approach uses various approximations for GP-uncertainty propagation. The full GP CC-OPF approach exhibits highly competitive and promising results, outperforming the state-of-the-art sample-based chance constraint approaches. To further improve the robustness and complexity/accuracy trade-off of the full GP CC-OPF, a fast data-driven setup is proposed. This setup relies on the sparse and hybrid Gaussian processes (GP) framework to model the power flow equations with input uncertainty.
翻訳日:2024-02-20 21:33:04 公開日:2024-02-17
# データ非依存獲得質量分析のためのトランス型de novoペプチドシーケンシング

Transformer-based de novo peptide sequencing for data-independent acquisition mass spectrometry ( http://arxiv.org/abs/2402.11363v1 )

ライセンス: Link先を確認
Shiva Ebrahimi and Xuan Guo(参考訳) タンデム質量分析法(tandem mass spectrometry, ms/ms)は、生物試料中のタンパク質含有量を包括的に分析する手法である。 この方法論はプロテオミクスの進歩の原動力である。 近年、データ非依存獲得(DIA)戦略において、前駆体イオンの公平かつ非標的の断片化を促進する重要な取り組みが進められている。 DIAが生成するMS/MSスペクトルは、その本質的に高い多重性のため、強い障害となる。 各スペクトルは、複数の前駆体ペプチドに由来する断片化された生成イオンをカプセル化する。 この複雑さはde novoペプチド/タンパク質シークエンシングにおいて特に深刻な課題となり、現在の手法では多重化に対処できない。 本稿では,トランスフォーマーアーキテクチャに基づくディープラーニングモデルであるcasanovo-diaを紹介する。 DIA質量分析データからペプチド配列を解読する。 その結果,DeepNovo-DIA や PepNet など,既存の STOA 手法よりも大幅に改善された。 カサノボ-DIAは精度を15.14%から34.8%に、アミノ酸レベルでは11.62%から31.94%に、ペプチドレベルでは59%から81.36%に向上する。 DIAデータとCasanovo-DIAモデルを統合することで、新規ペプチドの発見と、より包括的な生物学的サンプルのプロファイリングが期待できる。 Casanovo-DIAはGNU GPLライセンスのもと、https://github.com/Biocomputing-Research-Group/Casanovo-DIAで無料で利用できる。

Tandem mass spectrometry (MS/MS) stands as the predominant high-throughput technique for comprehensively analyzing protein content within biological samples. This methodology is a cornerstone driving the advancement of proteomics. In recent years, substantial strides have been made in Data-Independent Acquisition (DIA) strategies, facilitating impartial and non-targeted fragmentation of precursor ions. The DIA-generated MS/MS spectra present a formidable obstacle due to their inherent high multiplexing nature. Each spectrum encapsulates fragmented product ions originating from multiple precursor peptides. This intricacy poses a particularly acute challenge in de novo peptide/protein sequencing, where current methods are ill-equipped to address the multiplexing conundrum. In this paper, we introduce Casanovo-DIA, a deep-learning model based on transformer architecture. It deciphers peptide sequences from DIA mass spectrometry data. Our results show significant improvements over existing STOA methods, including DeepNovo-DIA and PepNet. Casanovo-DIA enhances precision by 15.14% to 34.8%, recall by 11.62% to 31.94% at the amino acid level, and boosts precision by 59% to 81.36% at the peptide level. Integrating DIA data and our Casanovo-DIA model holds considerable promise to uncover novel peptides and more comprehensive profiling of biological samples. Casanovo-DIA is freely available under the GNU GPL license at https://github.com/Biocomputing-Research-Group/Casanovo-DIA.
翻訳日:2024-02-20 21:32:43 公開日:2024-02-17