このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240122となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 通信用暗号化方式としての多重サブセット問題
Multiple Subset Problem as an encryption scheme for communication ( http://arxiv.org/abs/2401.09221v2 ) ライセンス: Link先を確認 | Yair Zadok, Nadav Voloch, Noa Voloch-Bloch, Maor Meir Hajaj, | (参考訳) 暗号化によく知られた数学的問題を用いることは、計算的に困難であり、暗号化手法に対する潜在的な攻撃に対するセキュリティを提供するため、広く使われているテクニックである。
部分集合和問題(SSP)は、与えられた集合から整数のサブセットを見つけ、その和は指定された整数に等しいと定義することができる。
古典的なSSPには様々なバリエーションがあり、そのうちの1つはマルチサブセット問題(MSSP)である。
MSSPでは、選択したアイテムの総重量を最大化しながら、各ビンの容量が超えていないことを保証して、所定のセットからアイテムを選択し、複数のビンに分散させることが目的である。
このアプローチは、異なる視点で関連する問題に対処する。
ここで、関連する異なる種類の問題にアプローチする: 集合 A={A1, A2 の集合が与えられる。
., An} は、与えられた集合のすべての部分集合が、そのような整数が存在するならば、合計される整数 s を見つける。
問題は SSP の変種として考えるとき NP 完全である。
しかし、既知のpri-vateキーに対して比較的効率的なアルゴリズムが存在する。
このアルゴリズムは、ポテンシャル和の非関連値を排除することに基づいている。
本稿では,MSSPに基づく暗号化方式を提案する。
Using well-known mathematical problems for encryption is a widely used technique because they are computationally hard and provide security against potential attacks on the encryption method. The subset sum problem (SSP) can be defined as finding a subset of integers from a given set, whose sum is equal to a specified integer. The classic SSP has various variants, one of which is the multiple-subset problem (MSSP). In the MSSP, the goal is to select items from a given set and distribute them among multiple bins, en-suring that the capacity of each bin is not exceeded while maximizing the total weight of the selected items. This approach addresses a related problem with a different perspective. Here a related different kind of problem is approached: given a set of sets A={A1, A2..., An}, find an integer s for which every subset of the given sets is summed up to, if such an integer exists. The problem is NP-complete when considering it as a variant of SSP. However, there exists an algorithm that is relatively efficient for known pri-vate keys. This algorithm is based on dispensing non-relevant values of the potential sums. In this paper we present the encryption scheme based on MSSP and present its novel usage and implementation in communication. | 翻訳日:2024-03-25 12:27:42 公開日:2024-01-22 |
# zkLogin: 既存のクレデンシャルによるブロックチェーン認証のプライバシ保護
zkLogin: Privacy-Preserving Blockchain Authentication with Existing Credentials ( http://arxiv.org/abs/2401.11735v1 ) ライセンス: Link先を確認 | Foteini Baldimtsi, Konstantinos Kryptos Chalkias, Yan Ji, Jonas Lindstrøm, Deepak Maram, Ben Riva, Arnab Roy, Mahdi Sedaghat, Joy Wang, | (参考訳) 多くのユーザにとって、プライベートキーベースのウォレットは、ブロックチェーンの主要なエントリポイントとして機能する。
一般的に推奨されるmnemonicsやハードウェアウォレットなどのウォレット認証手法は煩雑である。
このユーザオンボーディングの難しさは、ブロックチェーンベースのアプリケーションの採用を著しく妨げている。
一般的なプラットフォーム(OpenID Connectを有効にするプラットフォーム,例えばGoogleやFacebookなど)が発行するIDトークンを利用して,トランザクションを認証する,新たなテクニックであるzkLoginを開発します。
zkLoginの中心には署名スキームがあり、署名者は既存のOpenIDアカウントを使ってtextit{signを指定できる。
これにより、ユーザが新しいシークレットを覚える必要がなく、既存のアカウントを再利用できるため、ユーザエクスペリエンスが大幅に向上する。
zkLoginは強力なセキュリティとプライバシ保証を提供する。
設計上、zkLoginは基盤となるプラットフォームの認証メカニズムの上に構築されており、そのセキュリティをそこから引き出す。
しかし、以前の関連する作業とは異なり、zkLoginはセキュリティ保証のために他の信頼できる関係者(例えば、信頼できるハードウェアやオラクル)の使用を避けている。
zkLoginはゼロ知識証明(ZKP)を活用して、ユーザのオフチェーンとオンチェーンIDのリンクが、プラットフォーム自身からでも隠されていることを保証する。
従来のデジタル署名ベースのアドレスに代わるものとして、Swiブロックチェーン上でzkLoginを実装し、デプロイしました。
ソーシャルログインだけでWeb3のオンボードが簡単になるため、ゲーム、DeFi、ダイレクトペイメント、NTTコレクション、ライドシェアリング、スポーツレースなど、数十万のzkLoginアカウントがすでに生成されている。
For many users, a private key based wallet serves as the primary entry point to blockchains. Commonly recommended wallet authentication methods, such as mnemonics or hardware wallets, can be cumbersome. This difficulty in user onboarding has significantly hindered the adoption of blockchain-based applications. We develop zkLogin, a novel technique that leverages identity tokens issued by popular platforms (any OpenID Connect enabled platform e.g. Google, Facebook, etc.) to authenticate transactions. At the heart of zkLogin lies a signature scheme allowing the signer to \textit{sign using their existing OpenID accounts} and nothing else. This improves the user experience significantly as users do not need to remember a new secret and can reuse their existing accounts. zkLogin provides strong security and privacy guarantees. By design, zkLogin builds on top of the underlying platform's authentication mechanisms, and derives its security from there. Unlike prior related works however, zkLogin avoids the use of additional trusted parties (e.g., trusted hardware or oracles) for its security guarantees. zkLogin leverages zero-knowledge proofs (ZKP) to ensure that the link between a user's off-chain and on-chain identities is hidden, even from the platform itself. We have implemented and deployed zkLogin on the Sui blockchain as an alternative to traditional digital signature-based addresses. Due to the ease of web3 on-boarding just with social login, without requiring mnemonics, many hundreds of thousands zkLogin accounts have already been generated in various industries such as gaming, DeFi, direct payments, NFT collections, ride sharing, sports racing and many more. | 翻訳日:2024-03-18 08:36:55 公開日:2024-01-22 |
# UAVスワム通信のためのセキュアなマルチホップテレメトリ放送
Secure Multi-hop Telemetry Broadcasts for UAV Swarm Communication ( http://arxiv.org/abs/2401.11915v1 ) ライセンス: Link先を確認 | Randolf Rotta, Pavlo Mykytyn, | (参考訳) 無人航空機(UAV)は、精密検査、緊急応答、リモートセンシングなど、幅広い用途に適応可能なプラットフォームとして進化している。
自律型UAV群は、ミッション実行を成功させるために、配置中に効率的で安定した通信を必要とする。
例えば、すべてのSwarmメンバー間の定期的なテレメトリデータの交換は、成層飛行と衝突回避の基礎となる。
しかし、車両の移動性や無線通信の不安定性のため、安全で信頼性の高い全通信を維持することは依然として困難である。
本稿では,カスタムIEEE 802.11 Wi-Fiデータフレームの送信に基づく,暗号化および認証されたマルチホップブロードキャスト通信について検討する。
Unmanned Aerial Vehicles (UAVs) are evolving as adaptable platforms for a wide range of applications such as precise inspections, emergency response, and remote sensing. Autonomous UAV swarms require efficient and stable communication during deployment for a successful mission execution. For instance, the periodic exchange of telemetry data between all swarm members provides the foundation for formation flight and collision avoidance. However, due to the mobility of the vehicles and instability of wireless transmissions, maintaining a secure and reliable all-to-all communication remains challenging. This paper investigates encrypted and authenticated multi-hop broadcast communication based on the transmission of custom IEEE 802.11 Wi-Fi data frames. | 翻訳日:2024-03-18 08:36:55 公開日:2024-01-22 |
# 効率的なカバーレス画像ステガノグラフィーのための動的YOLOに基づくシーケンスマッチングモデル
A Dynamic YOLO-Based Sequence-Matching Model for Efficient Coverless Image Steganography ( http://arxiv.org/abs/2401.11946v1 ) ライセンス: Link先を確認 | Jiajun Liu, Lina Tan, Zhili Zhou, Yi Li, Peng Chen, | (参考訳) 多くの既存のカバーレスステガノグラフィー手法は、カバー画像と隠れデータの間のマッピング関係を確立する。
データベースに格納されている画像の数は、帳票の容量が増加するにつれて指数関数的に増加するという問題がある。
高いステガノグラフィー能力の必要性は、イメージデータベースの構築を困難にしている。
ステガノグラフィーシステムの画像ライブラリ利用とアンチアタック機能を改善するために,動的にマッチングされたサブストリングに基づく効率的なカバーレススキームを提案する。
YOLOは最適なオブジェクトの選択に使用され、これらのオブジェクトとスクランブル要素の間のマッピング辞書が確立される。
この辞書の助けを借りて、各画像は、受信者のシーケンスキーをスクランブルするために使用される特定のスクランブル係数に効果的に割り当てられる。
限られた画像ライブラリに基づく十分なステガノグラフィ機能を実現するため、スクランブルシーケンスの全てのサブストリングがデータを隠蔽する可能性を秘めている。
秘密情報マッチングが完了すると、データベースから理想的なステゴ画像の枚数を得る。
実験結果によると、この技術は、データ負荷、送信セキュリティ、隠蔽能力に関するこれまでの研究よりも優れていた。
典型的な幾何学的攻撃の下では、平均して79.85 %の秘密情報を復元することができる。
さらに、画像当たり19ビットの容量を満たすために、ランダムな画像は200個程度しか必要としない。
Many existing coverless steganography methods establish a mapping relationship between cover images and hidden data. There exists an issue that the number of images stored in the database grows exponentially as the steganographic capacity rises. The need for a high steganographic capacity makes it challenging to build an image database. To improve the image library utilization and anti-attack capability of the steganography system, we present an efficient coverless scheme based on dynamically matched substrings. YOLO is employed for selecting optimal objects, and a mapping dictionary is established between these objects and scrambling factors. With the aid of this dictionary, each image is effectively assigned to a specific scrambling factor, which is used to scramble the receiver's sequence key. To achieve sufficient steganography capability based on a limited image library, all substrings of the scrambled sequences hold the potential to hide data. After completing the secret information matching, the ideal number of stego images will be obtained from the database. According to experimental results, this technology outperforms most previous works on data load, transmission security, and hiding capacity. Under typical geometric attacks, it can recover 79.85\% of secret information on average. Furthermore, only approximately 200 random images are needed to meet a capacity of 19 bits per image. | 翻訳日:2024-03-18 08:36:55 公開日:2024-01-22 |
# Ensemble Knowledge Distillation-based Federated Learning を用いた不均一なネットワークにおける効果的な侵入検出
Effective Intrusion Detection in Heterogeneous Internet-of-Things Networks via Ensemble Knowledge Distillation-based Federated Learning ( http://arxiv.org/abs/2401.11968v1 ) ライセンス: Link先を確認 | Jiyuan Shen, Wenzhuo Yang, Zhaowei Chu, Jiani Fan, Dusit Niyato, Kwok-Yan Lam, | (参考訳) 低コストの家電やクラウドコンピューティングの急速な発展に伴い、IoT(Internet-of-Things)デバイスはスマートシティや産業制御システムといった次世代分散システムをサポートするために広く採用されている。
IoTデバイスは、オープンなデプロイメント環境と、厳格なセキュリティコントロールのための限られたコンピューティング能力のために、サイバー攻撃の影響を受けやすいことが多い。
したがって、侵入検知システム(IDS)は、異常な活動を監視・検出することでIoTネットワークを保護する効果的な方法の1つである。
しかし、既存のIDSアプローチは、振る舞いプロファイルを生成し、異常を検出するために集中サーバに依存しており、通信オーバーヘッドによる応答時間と運用コストの増大の原因となっている。
さらに、オープンで分散したIoTネットワーク環境における行動データの共有は、デバイス上のプライバシ要件に違反している可能性がある。
さらに、さまざまなIoTデバイスは、振る舞いモデルのトレーニングを複雑にする異種データをキャプチャする傾向がある。
本稿では,IDSの分散共有モデルを他者に公開することなく,協調的に学習するフェデレートラーニング(FL)を提案する。
さらに,FLEKD (Federated Learning Ensemble Knowledge Distillation) という手法を提案する。
FLEKDは従来のモデル融合法よりも柔軟な凝集法を実現する。
公開データセットCICIDS2019の実験結果によると、提案手法は、速度と性能の両方において、ローカルトレーニングや従来のFLよりも優れており、未知の攻撃を検出するシステムの能力が大幅に向上している。
最後に、提案するフレームワークの性能を実世界の3つのシナリオで評価し、FLEKDが実験結果において明らかな優位性を持つことを示す。
With the rapid development of low-cost consumer electronics and cloud computing, Internet-of-Things (IoT) devices are widely adopted for supporting next-generation distributed systems such as smart cities and industrial control systems. IoT devices are often susceptible to cyber attacks due to their open deployment environment and limited computing capabilities for stringent security controls. Hence, Intrusion Detection Systems (IDS) have emerged as one of the effective ways of securing IoT networks by monitoring and detecting abnormal activities. However, existing IDS approaches rely on centralized servers to generate behaviour profiles and detect anomalies, causing high response time and large operational costs due to communication overhead. Besides, sharing of behaviour data in an open and distributed IoT network environment may violate on-device privacy requirements. Additionally, various IoT devices tend to capture heterogeneous data, which complicates the training of behaviour models. In this paper, we introduce Federated Learning (FL) to collaboratively train a decentralized shared model of IDS, without exposing training data to others. Furthermore, we propose an effective method called Federated Learning Ensemble Knowledge Distillation (FLEKD) to mitigate the heterogeneity problems across various clients. FLEKD enables a more flexible aggregation method than conventional model fusion techniques. Experiment results on the public dataset CICIDS2019 demonstrate that the proposed approach outperforms local training and traditional FL in terms of both speed and performance and significantly improves the system's ability to detect unknown attacks. Finally, we evaluate our proposed framework's performance in three potential real-world scenarios and show FLEKD has a clear advantage in experimental results. | 翻訳日:2024-03-18 08:27:10 公開日:2024-01-22 |
# オフロード音声理解におけるプライバシー保護
Lightweight Protection for Privacy in Offloaded Speech Understanding ( http://arxiv.org/abs/2401.11983v1 ) ライセンス: Link先を確認 | Dongqi Cai, | (参考訳) 音声は組み込み機器の一般的な入力方式であるが、クラウドベースの音声認識システムはプライバシー上のリスクをもたらす。
ディアンタングメントベースのエンコーダは、音声信号から機密情報をフィルタリングすることでユーザのプライバシを保護するように設計されている。
そこで我々は,このようなデバイスに最適化された新しいシステム XXX を提案する。
XXXは、音声理解は主に発話の長期的な依存関係全体を理解することに依存しているという洞察に基づいて構築されている。
そのため、XXXはこれらの短期的要素を選択的にマスキングすることに集中し、長期的な音声理解の質を維持する。
XXXのコアは、解釈可能な学習に基礎を置き、マスク処理を微調整する革新的な微分マスク生成器である。
我々は、STM32H7マイクロコントローラ上でXXXを試験し、その性能を様々な攻撃シナリオで評価した。
その結果、XXXは既存のエンコーダに匹敵するレベルの音声認識精度とプライバシーを維持しているが、効率を大幅に改善し、53.3$\times$高速処理と134.1$\times$より小さなメモリフットプリントを実現している。
Speech is a common input method for mobile embedded devices, but cloud-based speech recognition systems pose privacy risks. Disentanglement-based encoders, designed to safeguard user privacy by filtering sensitive information from speech signals, unfortunately require substantial memory and computational resources, which limits their use in less powerful devices. To overcome this, we introduce a novel system, XXX, optimized for such devices. XXX is built on the insight that speech understanding primarily relies on understanding the entire utterance's long-term dependencies, while privacy concerns are often linked to short-term details. Therefore, XXX focuses on selectively masking these short-term elements, preserving the quality of long-term speech understanding. The core of XXX is an innovative differential mask generator, grounded in interpretable learning, which fine-tunes the masking process. We tested XXX on the STM32H7 microcontroller, assessing its performance in various potential attack scenarios. The results show that XXX maintains speech understanding accuracy and privacy at levels comparable to existing encoders, but with a significant improvement in efficiency, achieving up to 53.3$\times$ faster processing and a 134.1$\times$ smaller memory footprint. | 翻訳日:2024-03-18 08:27:10 公開日:2024-01-22 |
# スマートコントラクトの将来をモニタリングする
Monitoring the Future of Smart Contracts ( http://arxiv.org/abs/2401.12093v1 ) ライセンス: Link先を確認 | Margarita Capretto, Martin Ceresa, Cesar Sanchez, | (参考訳) ブロックチェーンは、信頼できる実行保証を提供する分散システムである。
スマートコントラクトは、トークンと暗号通貨の送受信方法を管理するブロックチェーン上で動作する、特殊なプログラミング言語で記述されたプログラムである。
スマートコントラクトは、外部ユーザによって常に起動されるトランザクションの実行中に、他のスマートコントラクトを呼び出すことができる。
デプロイが完了すると、スマートコントラクトを変更できないため、ランタイム検証のようなテクニックは信頼性の向上に非常に適しています。
しかし、スマートコントラクトの従来の計算モデルはトランザクショナルであり、オペレーションがコミットされると、その効果は永続的であり、取り消せない。
本稿では,コミットや中止前に,モニタが将来のトランザクションを待ち続けることができるような,将来のモニタの概念を提案する。
これは、トランザクション効果の遅延によって効率を向上(およびコスト削減)する、現代的なブロックチェーン実装である楽観的なロールアップにインスパイアされたものだ。
この遅延を利用して(有界な)将来のモニタを可能にする計算モデルを提案する。
当社のモニタは、レガシトランザクションに対する正しい敬意、将来のバウンドモニタの実装方法、進捗の保証方法を示します。
本稿では,マルチトランザクショナルフラッシュローンを正しく実装するために,将来の有界モニタの利用について述べる。
Blockchains are decentralized systems that provide trustable execution guarantees. Smart contracts are programs written in specialized programming languages running on blockchains that govern how tokens and cryptocurrency are sent and received. Smart contracts can invoke other smart contracts during the execution of transactions always initiated by external users. Once deployed, smart contracts cannot be modified, so techniques like runtime verification are very appealing for improving their reliability. However, the conventional model of computation of smart contracts is transactional: once operations commit, their effects are permanent and cannot be undone. In this paper, we proposed the concept of future monitors which allows monitors to remain waiting for future transactions to occur before committing or aborting. This is inspired by optimistic rollups, which are modern blockchain implementations that increase efficiency (and reduce cost) by delaying transaction effects. We exploit this delay to propose a model of computation that allows (bounded) future monitors. We show our monitors correct respect of legacy transactions, how they implement future bounded monitors and how they guarantee progress. We illustrate the use of future bounded monitors to implement correctly multi-transaction flash loans. | 翻訳日:2024-03-18 08:27:10 公開日:2024-01-22 |
# ブロックビルの集中化とプロポーラ・ビルダー分離
Centralization in Block Building and Proposer-Builder Separation ( http://arxiv.org/abs/2401.12120v1 ) ライセンス: Link先を確認 | Maryam Bahrani, Pranav Garimidi, Tim Roughgarden, | (参考訳) 本研究の目的は,ブロック構築における集中化(例えば,MEV,プライベートオーダーフロー)や,バリデータによるブロック構築のアウトソーシング(プロジェクタとビルダーの分離)について,従来の知恵を厳格に問うことである。
2.プロジェクタ・ビルダー分離は異質性を排除し、プロジェクタ間の分散性を維持するか?
本研究では, 内因性奪取, 異種ブロック生成者報酬, 取付コストを伴うゲーム理論モデルにおいて, 不均一報酬が平衡占拠分布に集中する程度を定量化する。
2) 不均一なブロック生産者が繰り返し報酬を再投資する確率モデルにおいて,ブロック生産者の不均一性の関数として,最も洗練されたブロック生産者に集中する割合を定量化する。
3) ヘテロジニアスなプロジェクタと特殊ビルダのモデルでは, ビルダエコシステムの競争性の関数として, プロジェクタとビルダの分離によって, 異なるプロジェクタ間での報酬の不均一性が低下する程度を定量化する。
我々のモデルと結果は、競合設計、P'olya urnプロセス、およびオークション理論への接続を生かしている。
The goal of this paper is to rigorously interrogate conventional wisdom about centralization in block-building (due to, e.g., MEV and private order flow) and the outsourcing of block-building by validators to specialists (i.e., proposer-builder separation): 1. Does heterogeneity in skills and knowledge across block producers inevitably lead to centralization? 2. Does proposer-builder separation eliminate heterogeneity and preserve decentralization among proposers? This paper develops mathematical models and results that offer answers to these questions: 1. In a game-theoretic model with endogenous staking, heterogeneous block producer rewards, and staking costs, we quantify the extent to which heterogeneous rewards lead to concentration in the equilibrium staking distribution. 2. In a stochastic model in which heterogeneous block producers repeatedly reinvest rewards into staking, we quantify, as a function of the block producer heterogeneity, the rate at which stake concentrates on the most sophisticated block producers. 3. In a model with heterogeneous proposers and specialized builders, we quantify, as a function of the competitiveness of the builder ecosystem, the extent to which proposer-builder separation reduces the heterogeneity in rewards across different proposers. Our models and results take advantage of connections to contest design, P\'olya urn processes, and auction theory. | 翻訳日:2024-03-18 08:27:10 公開日:2024-01-22 |
# あなたのケトルはハッカーより賢い? 消費者向けIoTデバイスでリプレイ攻撃の脆弱性を評価するためのスケーラブルなツール
Is Your Kettle Smarter Than a Hacker? A Scalable Tool for Assessing Replay Attack Vulnerabilities on Consumer IoT Devices ( http://arxiv.org/abs/2401.12184v1 ) ライセンス: Link先を確認 | Sara Lazzaro, Vincenzo De Angelis, Anna Maria Mandalari, Francesco Buccafurri, | (参考訳) コンシューマモノのインターネット(IoT)デバイスは、しばしばローカルネットワークを利用して対応するアプリや他のデバイスと通信する。
これはクラウドをオフロードするため、効率の面でメリットがあります。
ENISAとNISTのセキュリティガイドラインは、安全と信頼性のためのデフォルトのローカル通信を可能にすることの重要性を強調している。
実際、IoTデバイスは、クラウド接続が利用できない場合にも機能し続けなければならない。
クラウドデバイス接続のセキュリティは通常、標準プロトコルの使用によって強化されるが、ローカル接続セキュリティはしばしば見過ごされる。
ローカル通信のセキュリティの無視は、リプレイ攻撃を含む様々な脅威への扉を開く。
本稿では,攻撃をリプレイするためのIoTデバイスの脆弱性を自動的にテストするための体系的手法を設計することによって,この種の攻撃について検討する。
具体的には,REPLIOTというツールを用いて,ターゲット装置の事前知識を必要とせずに,リプレイ攻撃が成功したかどうかを判定する手法を提案する。
私たちは、さまざまなベンダーやカテゴリにまたがる人気のある商用デバイスを使って、何千もの自動実験を行います。
特に,これらのデバイスのうち51%はローカル接続をサポートしていないため,ENISA/NISTガイドラインの信頼性と安全性要件に準拠していない。
残りの75%のデバイスは、検出精度0.98-1のREPLIOTによるリプレイ攻撃に対して脆弱であることがわかった。
最後に、この脆弱性の原因について検討し、緩和戦略について議論する。
Consumer Internet of Things (IoT) devices often leverage the local network to communicate with the corresponding companion app or other devices. This has benefits in terms of efficiency since it offloads the cloud. ENISA and NIST security guidelines underscore the importance of enabling default local communication for safety and reliability. Indeed, an IoT device should continue to function in case the cloud connection is not available. While the security of cloud-device connections is typically strengthened through the usage of standard protocols, local connectivity security is frequently overlooked. Neglecting the security of local communication opens doors to various threats, including replay attacks. In this paper, we investigate this class of attacks by designing a systematic methodology for automatically testing IoT devices vulnerability to replay attacks. Specifically, we propose a tool, named REPLIOT, able to test whether a replay attack is successful or not, without prior knowledge of the target devices. We perform thousands of automated experiments using popular commercial devices spanning various vendors and categories. Notably, our study reveals that among these devices, 51% of them do not support local connectivity, thus they are not compliant with the reliability and safety requirements of the ENISA/NIST guidelines. We find that 75% of the remaining devices are vulnerable to replay attacks with REPLIOT having a detection accuracy of 0.98-1. Finally, we investigate the possible causes of this vulnerability, discussing possible mitigation strategies. | 翻訳日:2024-03-18 08:27:10 公開日:2024-01-22 |
# ゴールデンモデル自由ランタイムトロイの木馬検出と位置検出のためのプログラマブルEMセンサアレイ
Programmable EM Sensor Array for Golden-Model Free Run-time Trojan Detection and Localization ( http://arxiv.org/abs/2401.12193v1 ) ライセンス: Link先を確認 | Hanqiu Wang, Max Panoff, Zihao Zhan, Shuo Wang, Christophe Bobda, Domenic Forte, | (参考訳) サイドチャネル解析は集積回路(IC)におけるハードウェアトロイの木の検出に有効であることが証明されている。
しかし、ほとんどの検出技術は、データ収集のために大きな外部プローブとアンテナに依存しており、トロヤ群を検出するのに長い測定時間を必要とする。
このような制限により、これらのテクニックは実行時のデプロイには実用的ではなく、微妙なサイドチャネルシグネチャを持つ小さなトロイの木を検出できない。
これらの課題を克服するために,実行時ハードウェアトロイの木馬検出,ローカライゼーション,識別のためのプログラマブルセンサアレイ(PSA)を提案する。
PSAは、センサーの形状、サイズ、位置を変えるために再プログラムできる、磁気センサアレイである。
PSAを用いて、IC上の異なる位置のセンサーから収集されたEM側チャネル測定結果を分析して、トロイの木馬をローカライズし同定することができる。
PSAは、従来の外部磁気プローブや最先端のオンチップ単コイル磁界センサよりも優れた性能を有する。
AES-128テストチップを4基のAESハードウェアトロイの木馬で製造した。
クロスドメイン解析により10ミリ秒以内のオンチップPSAを検出,検出,検出し,同定した。
Side-channel analysis has been proven effective at detecting hardware Trojans in integrated circuits (ICs). However, most detection techniques rely on large external probes and antennas for data collection and require a long measurement time to detect Trojans. Such limitations make these techniques impractical for run-time deployment and ineffective in detecting small Trojans with subtle side-channel signatures. To overcome these challenges, we propose a Programmable Sensor Array (PSA) for run-time hardware Trojan detection, localization, and identification. PSA is a tampering-resilient integrated on-chip magnetic field sensor array that can be re-programmed to change the sensors' shape, size, and location. Using PSA, EM side-channel measurement results collected from sensors at different locations on an IC can be analyzed to localize and identify the Trojan. The PSA has better performance than conventional external magnetic probes and state-of-the-art on-chip single-coil magnetic field sensors. We fabricated an AES-128 test chip with four AES Hardware Trojans. They were successfully detected, located, and identified with the proposed on-chip PSA within 10 milliseconds using our proposed cross-domain analysis. | 翻訳日:2024-03-18 08:27:10 公開日:2024-01-22 |
# ファジィ定量的攻撃木解析
Fuzzy quantitative attack tree analysis ( http://arxiv.org/abs/2401.12346v1 ) ライセンス: Link先を確認 | Thi Kim Nhung Dang, Milan Lopuhaä-Zwakenberg, Mariëlle Stoelinga, | (参考訳) 攻撃木はシステムの弱点や脆弱性を特定するのに役立つため、セキュリティにとって重要である。
定量的アタックツリー分析は、最も短く、最も可能性が高く、最も安価な攻撃のような重要なKPIを定式化する、多数のセキュリティ指標をサポートする。
定量的分析における重要なボトルネックは、データ不足や知識不足のため、その値が正確には分かっていないことである。
ファジィ論理はそのような不確実な値を扱うための顕著なフレームワークであり、多くの領域で応用されている。
いくつかの研究では、木解析を攻撃するためのファジィアプローチが提案されているが、ファジィメトリック値やファジィメトリックの計算のための汎用アルゴリズムの明確な定義は提供されていない。
本研究では、ファジィ計量値の一般的な定式化を定義し、最も定量的な測定値に適用する。
結果として得られる計量値は、ザデの拡張原理に従って得られるファジィ数であり、攻撃木の葉にファジィ数を持たせたときに得られる。
さらに,最上位ファジィ計量値を効率的に計算するボトムアップアルゴリズムを導出するモジュラ分解定理を証明した。
Attack trees are important for security, as they help to identify weaknesses and vulnerabilities in a system. Quantitative attack tree analysis supports a number security metrics, which formulate important KPIs such as the shortest, most likely and cheapest attacks. A key bottleneck in quantitative analysis is that the values are usually not known exactly, due to insufficient data and/or lack of knowledge. Fuzzy logic is a prominent framework to handle such uncertain values, with applications in numerous domains. While several studies proposed fuzzy approaches to attack tree analysis, none of them provided a firm definition of fuzzy metric values or generic algorithms for computation of fuzzy metrics. In this work, we define a generic formulation for fuzzy metric values that applies to most quantitative metrics. The resulting metric value is a fuzzy number obtained by following Zadeh's extension principle, obtained when we equip the basis attack steps, i.e., the leaves of the attack trees, with fuzzy numbers. In addition, we prove a modular decomposition theorem that yields a bottom-up algorithm to efficiently calculate the top fuzzy metric value. | 翻訳日:2024-03-18 08:27:10 公開日:2024-01-22 |
# Co-dimension $k$符号による格子内短ベクトル探索のための新しいアルゴリズム
A New Class of Algorithms for Finding Short Vectors in Lattices Lifted from Co-dimension $k$ Codes ( http://arxiv.org/abs/2401.12383v1 ) ライセンス: Link先を確認 | Robert Lin, Peter W. Shor, | (参考訳) 共次元$k$ over $\mathbb{Z}_P^d$, ここでは$P$は素数である。
共次元の$$は、プロジェクションのパッキング特性である mod $P$ を1つの双対符号ワードに初期セットの非格子ベクトルに利用することで解決される。
私たちが導入した技術ツールは射影のソートであり、続いて単段階のユークリッド対射影の減少が続き、正の値の射影の単調収束が 0 となる。
ベクトルの長さは、反復ごとに幾何学的因子によって成長する。
固定された$P$と$d$と、十分なユーザ定義の入力セットに対して、反復回数を最小化し、したがって全体の長さ拡大係数を最小化し、短い格子ベクトルを得ることができることを示す。
そこで我々は,Noah Stephens-Davidowitz による開問題(最短ベクトル問題 (SVP) に対する近似スキームの可能性)を解いた出力長を制御する新しい手法を得る。
このアプローチでは、格子次元が非常に大きい場合、例えば、8000 である場合でも、短いベクトルを得ることができる。
固定$P$の場合、このアルゴリズムはより大きい$d$に対してより短いベクトルを生成する。
さらに、基本共次元法の多くの拡張と一般化を提示する。
これには整数で二重コードワードを乗算し、$P$で修飾することで、多くの異なる格子ベクトルを得る方法、共同次元の$k$一般化、大きな入力集合の一般化、そして最後に、$k$パーティー(非ユークリッド)還元による対(ユークリッド)還元を置き換える「ブロック」一般化が含まれる。
我々のアルゴリズムの$k$-block一般化は、$k\geq 2$でインデックス付けされた多項式時間アルゴリズムのクラスを構成する。
We introduce a new class of algorithms for finding a short vector in lattices defined by codes of co-dimension $k$ over $\mathbb{Z}_P^d$, where $P$ is prime. The co-dimension $1$ case is solved by exploiting the packing properties of the projections mod $P$ of an initial set of non-lattice vectors onto a single dual codeword. The technical tools we introduce are sorting of the projections followed by single-step pairwise Euclidean reduction of the projections, resulting in monotonic convergence of the positive-valued projections to zero. The length of vectors grows by a geometric factor each iteration. For fixed $P$ and $d$, and large enough user-defined input sets, we show that it is possible to minimize the number of iterations, and thus the overall length expansion factor, to obtain a short lattice vector. Thus we obtain a novel approach for controlling the output length, which resolves an open problem posed by Noah Stephens-Davidowitz (the possibility of an approximation scheme for the shortest-vector problem (SVP) which does not reduce to near-exact SVP). In our approach, one may obtain short vectors even when the lattice dimension is quite large, e.g., 8000. For fixed $P$, the algorithm yields shorter vectors for larger $d$. We additionally present a number of extensions and generalizations of our fundamental co-dimension $1$ method. These include a method for obtaining many different lattice vectors by multiplying the dual codeword by an integer and then modding by $P$; a co-dimension $k$ generalization; a large input set generalization; and finally, a "block" generalization, which involves the replacement of pairwise (Euclidean) reduction by a $k$-party (non-Euclidean) reduction. The $k$-block generalization of our algorithm constitutes a class of polynomial-time algorithms indexed by $k\geq 2$, which yield successively improved approximations for the short vector problem. | 翻訳日:2024-03-18 08:27:10 公開日:2024-01-22 |
# ガウス前駆体に対するフグのプライバシの近似
Approximation of Pufferfish Privacy for Gaussian Priors ( http://arxiv.org/abs/2401.12391v1 ) ライセンス: Link先を確認 | Ni Ding, | (参考訳) 本稿では,パワラマガエルのプライバシを,パワラマガエルがパワラマガエルのパワラマガエルのパワラマガエルのプライバシを推定する方法について検討する。
Mongeの最適輸送計画を用いて、各識別秘密対に条件付けられたガウス分布の平均と分散の差に付加的なLaplaceノイズを校正した場合、$(\epsilon, \delta)$-pufferfishのプライバシーが達成されることを示す。
典型的なアプリケーションは和(平均)クエリのプライベートリリースであり、個々の機密データにおいて$\epsilon$-statistical indistinguishabilityを近似するのに十分な条件が導出される。
その結果は、ガウス混合モデル(GMM)によって訓練された任意の事前信念に拡張される: 平均とガウス成分間の差異の凸結合にラプラスノイズを校正すると、プライバシが$(\epsilon,\delta)$-pufferfishに達する。
This paper studies how to approximate pufferfish privacy when the adversary's prior belief of the published data is Gaussian distributed. Using Monge's optimal transport plan, we show that $(\epsilon, \delta)$-pufferfish privacy is attained if the additive Laplace noise is calibrated to the differences in mean and variance of the Gaussian distributions conditioned on every discriminative secret pair. A typical application is the private release of the summation (or average) query, for which sufficient conditions are derived for approximating $\epsilon$-statistical indistinguishability in individual's sensitive data. The result is then extended to arbitrary prior beliefs trained by Gaussian mixture models (GMMs): calibrating Laplace noise to a convex combination of differences in mean and variance between Gaussian components attains $(\epsilon,\delta)$-pufferfish privacy. | 翻訳日:2024-03-18 08:27:10 公開日:2024-01-22 |
# マルチユーザ協調による無線エッジコンピューティングの計算速度最大化
Computation Rate Maximization for Wireless Powered Edge Computing With Multi-User Cooperation ( http://arxiv.org/abs/2402.16866v1 ) ライセンス: Link先を確認 | Yang Li, Xing Zhang, Bo Lei, Qianying Zhao, Min Wei, Zheyan Qu, Wenbo Wang, | (参考訳) 移動エッジコンピューティング(MEC)と無線周波数ベースの無線電力伝送(WPT)の組み合わせは、ネットワークエッジで持続可能なエネルギー供給およびコンピューティングサービスを提供するための有望な技術である。
本研究では,コンピュータユニットとIoT(Internet of Things)デバイスを備えたハイブリッドアクセスポイント(HAP)を備えた無線モバイルエッジコンピューティングシステムについて考察する。
特に,協調クラスタを動的に形成する計算性能を改善するための,新しいマルチユーザ協調方式を提案する。
各協調クラスタは、ソース装置(SD)と補助装置(AD)から構成されており、SDは、計算タスクをローカル処理、HAPへのオフロード、およびHAPの助けを借りてADによるリモート実行のために、様々なセグメントに分割することができる。
具体的には、ネットワーク内のすべてのIoTデバイスの重み付け和計算率(WSCR)を最大化する。
これは、複数のIoTデバイスとHAP間のコラボレーション、時間、データの割り当てを共同で最適化することを含み、各デバイスのエネルギー因果性と最小データ処理要件を考慮している。
当初、インテリアポイント法に基づく最適化アルゴリズムは、時間とデータの割り当てのために設計されている。
その後、優先度に基づく反復アルゴリズムを開発し、マルチユーザ協調方式のほぼ最適解を求める。
最後に、アルゴリズムの動作をさらに加速するために、ディープラーニングベースのアプローチが考案され、最初の2つのアルゴリズムに基づいて構築される。
シミュレーションの結果,提案アルゴリズムの性能は網羅的探索法と同等であり,深層学習に基づくアルゴリズムはアルゴリズムの実行時間を著しく短縮することがわかった。
The combination of mobile edge computing (MEC) and radio frequency-based wireless power transfer (WPT) presents a promising technique for providing sustainable energy supply and computing services at the network edge. This study considers a wireless-powered mobile edge computing system that includes a hybrid access point (HAP) equipped with a computing unit and multiple Internet of Things (IoT) devices. In particular, we propose a novel muti-user cooperation scheme to improve computation performance, where collaborative clusters are dynamically formed. Each collaborative cluster comprises a source device (SD) and an auxiliary device (AD), where the SD can partition the computation task into various segments for local processing, offloading to the HAP, and remote execution by the AD with the assistance of the HAP. Specifically, we aims to maximize the weighted sum computation rate (WSCR) of all the IoT devices in the network. This involves jointly optimizing collaboration, time and data allocation among multiple IoT devices and the HAP, while considering the energy causality property and the minimum data processing requirement of each device. Initially, an optimization algorithm based on the interior-point method is designed for time and data allocation. Subsequently, a priority-based iterative algorithm is developed to search for a near-optimal solution to the multi-user collaboration scheme. Finally, a deep learning-based approach is devised to further accelerate the algorithm's operation, building upon the initial two algorithms. Simulation results show that the performance of the proposed algorithms is comparable to that of the exhaustive search method, and the deep learning-based algorithm significantly reduces the execution time of the algorithm. | 翻訳日:2024-03-18 07:09:00 公開日:2024-01-22 |
# マルチモーダルアウトオフコンテキスト検出のためのチャットベース大規模視覚言語モデルの活用
Leveraging Chat-Based Large Vision Language Models for Multimodal Out-Of-Context Detection ( http://arxiv.org/abs/2403.08776v1 ) ライセンス: Link先を確認 | Fatma Shalabi, Hichem Felouat, Huy H. Nguyen, Isao Echizen, | (参考訳) アウト・オブ・コンテクスト(OOC)検出は、提示されるコンテキストとは無関係な画像やテキストを識別する難しいタスクである。
視覚言語モデル(LVLM)は画像分類やテキスト生成など様々なタスクに有効である。
しかし,マルチモーダルOCO検出タスクの習熟度は明らかになっていない。
本稿では,LVLMのマルチモーダルOC検出能力について検討し,これらのモデルが微調整なしでOOC検出タスクにおいて高い精度を達成できないことを示す。
しかし,マルチモーダルOCデータセット上での微調整LVLMにより,OOC検出精度が向上することが実証された。
OOC検出タスクにおけるLVLMの性能を評価するため,マルチモーダルOCの大規模データセットであるNewsCLIPpingsデータセット上でMiniGPT-4を微調整した。
以上の結果から,NewsCLIPpingsデータセットにおけるMiniGPT-4の微調整により,OOC検出精度が向上することが示唆された。
このことから,OOC検出タスクにおけるLVLMの性能は微調整により大幅に向上する可能性が示唆された。
Out-of-context (OOC) detection is a challenging task involving identifying images and texts that are irrelevant to the context in which they are presented. Large vision-language models (LVLMs) are effective at various tasks, including image classification and text generation. However, the extent of their proficiency in multimodal OOC detection tasks is unclear. In this paper, we investigate the ability of LVLMs to detect multimodal OOC and show that these models cannot achieve high accuracy on OOC detection tasks without fine-tuning. However, we demonstrate that fine-tuning LVLMs on multimodal OOC datasets can further improve their OOC detection accuracy. To evaluate the performance of LVLMs on OOC detection tasks, we fine-tune MiniGPT-4 on the NewsCLIPpings dataset, a large dataset of multimodal OOC. Our results show that fine-tuning MiniGPT-4 on the NewsCLIPpings dataset significantly improves the OOC detection accuracy in this dataset. This suggests that fine-tuning can significantly improve the performance of LVLMs on OOC detection tasks. | 翻訳日:2024-03-18 05:40:54 公開日:2024-01-22 |
# 時系列予測のための注意的フェデレーションを持つ変圧器 Transformers with Attentive Federated Aggregation for Time Series Stock Forecasting ( http://arxiv.org/abs/2402.06638v1 ) ライセンス: Link先を確認 | Chu Myaet Thwal, Ye Lin Tun, Kitae Kim, Seong-Bae Park, Choong Seon Hong | (参考訳) 近年のトランスの革新は、自然言語処理(NLP)とコンピュータビジョン(CV)において優れた性能を示している。
時系列データにおける長距離依存関係と相互作用をキャプチャする能力もまた時系列モデリングに大きな関心を惹き付け、多くの時系列アプリケーションでトランスフォーマーが広く使われるようになった。
しかしながら、最も一般的かつ重要な応用であるトランスフォーマーの時系列予測への適応は、有望かつ矛盾した結果とともに制限され続けている。
NLPやCVの課題とは対照的に、時系列問題は入力シーケンス間の順序や時間的依存の複雑さを増すだけでなく、このデータの多くが意思決定に有用である傾向、レベル、季節的な情報も考慮している。
従来のトレーニング手法では,予測タスクにおいてトランスフォーマーを利用する場合,モデルオーバーフィットやデータ不足,プライバシの問題などが指摘されている。
本研究では,企業へのプライバシを保ちつつ,より優れたパフォーマンスで時系列株価予測を行うための注意深いフェデレーショントランスフォーマーを提案する。
Yahoo!ファイナンスウェブサイトのさまざまなストックデータに関する実証結果は、上記の課題とフェデレート学習におけるデータの均一性に対処する上で、提案手法の優位性を示している。 Recent innovations in transformers have shown their superior performance in natural language processing (NLP) and computer vision (CV). The ability to capture long-range dependencies and interactions in sequential data has also triggered a great interest in time series modeling, leading to the widespread use of transformers in many time series applications. However, being the most common and crucial application, the adaptation of transformers to time series forecasting has remained limited, with both promising and inconsistent results. In contrast to the challenges in NLP and CV, time series problems not only add the complexity of order or temporal dependence among input sequences but also consider trend, level, and seasonality information that much of this data is valuable for decision making. The conventional training scheme has shown deficiencies regarding model overfitting, data scarcity, and privacy issues when working with transformers for a forecasting task. In this work, we propose attentive federated transformers for time series stock forecasting with better performance while preserving the privacy of participating enterprises. Empirical results on various stock data from the Yahoo! Finance website indicate the superiority of our proposed scheme in dealing with the above challenges and data heterogeneity in federated learning. | 翻訳日:2024-02-18 14:09:52 公開日:2024-01-22 |
# 教育におけるAIとChatGPTの応用と課題と倫理的課題 Applications, challenges and ethical issues of AI and ChatGPT in education ( http://arxiv.org/abs/2402.07907v1 ) ライセンス: Link先を確認 | Dimitrios Sidiropoulos and Christos-Nikolaos Anagnostopoulos | (参考訳) 近年の人工知能(AI)は、人生のあらゆる面において触媒的な役割を果たす傾向にある、前例のないほど印象的な発展を見せている。
学術コミュニティや政府の関心は、AIのダイナミクスに大きな影響を与えており、進行中の真に爆発的な投資と研究によって反映されている。
AIに関する懐疑的な意見や言明は毎日行われていますが、同時に、その効果について驚くべき予測をもたらします。
本稿では,人工知能とチャットgptを用いた教育改善の機会について述べるとともに,その課題と倫理的課題を明らかにすることを目的とする。 Artificial Intelligence (AI) in recent years has shown an unprecedentedly impressive development, tending to play a catalytic role in all aspects of life. The interest of the academic community, but also of governments, is huge in the dynamics of AI and is reflected by the truly explosive amount of investment and research that is underway. Enthusiastic opinions and statements about AI are made every day, but at the same time they also bring to the fore alarming predictions about its effects. This paper aims to describe the opportunities emerging from the use of artificial intelligence and ChatGPT to improve education, but also to identify the challenges and ethical issues that arise. | 翻訳日:2024-02-18 13:40:30 公開日:2024-01-22 |
# インテントベースアプリケーション管理のためのllmに基づくポリシー生成 LLM-based policy generation for intent-based management of applications ( http://arxiv.org/abs/2402.10067v1 ) ライセンス: Link先を確認 | Kristina Dzeparoska, Jieyu Lin, Ali Tizghadam, Alberto Leon-Garcia | (参考訳) 自動管理には、システムが理解し実行可能な抽象化に、インテントなどのハイレベルなユーザ要求を分解する必要がある。
単純な意図であっても、多くの順序付けされたステップを実行する必要があるため、これは難しいことです。
そして、これらのステップを(条件の変化として)識別し、適応するタスクには、事前定義できない分解アプローチが必要です。
これらの課題に対処し、自動意図の分解と実行をサポートするために、Large Language Models(LLMs)の少数ショット機能について検討する。
ポリシベースの抽象化を使用して,必要なアクションを生成してインテントを段階的に分解するパイプラインを提案する。
これにより、インテント配置のためのクローズドコントロールループを作成することで、ポリシーの実行を自動化できます。
そのためには、ポリシーをapiに生成およびマップし、必要な監視、分析、計画、実行を実行するアプリケーション管理ループを形成します。
本提案は,仮想ネットワーク機能のアプリケーションサービスチェーンを満たし,保証するためのユースケースを用いて評価する。
このアプローチを用いることで、インテントを実現するために必要なステップを一般化し、生成し、アプリケーション管理のためのインテント自動化を可能にします。 Automated management requires decomposing high-level user requests, such as intents, to an abstraction that the system can understand and execute. This is challenging because even a simple intent requires performing a number of ordered steps. And the task of identifying and adapting these steps (as conditions change) requires a decomposition approach that cannot be exactly pre-defined beforehand. To tackle these challenges and support automated intent decomposition and execution, we explore the few-shot capability of Large Language Models (LLMs). We propose a pipeline that progressively decomposes intents by generating the required actions using a policy-based abstraction. This allows us to automate the policy execution by creating a closed control loop for the intent deployment. To do so, we generate and map the policies to APIs and form application management loops that perform the necessary monitoring, analysis, planning and execution. We evaluate our proposal with a use-case to fulfill and assure an application service chain of virtual network functions. Using our approach, we can generalize and generate the necessary steps to realize intents, thereby enabling intent automation for application management. | 翻訳日:2024-02-18 12:54:37 公開日:2024-01-22 |
# トウモロコシをナビゲートする:分子シミュレーションのための周期および条件計算グラフ Navigating the Maize: Cyclic and conditional computational graphs for molecular simulation ( http://arxiv.org/abs/2402.10064v1 ) ライセンス: Link先を確認 | Thomas L\"ohr, Michael Dodds, Lili Cao, Mikhail Kabeshov, Michele Assante, Jon-Paul Janet, Marco Kl\"ahn, Ola Engkvist | (参考訳) 多くの計算化学と分子シミュレーションのワークフローはグラフとして表現できる。
この抽象化は,既存のコンポーネントのモジュール化と再利用,並列化と再現性の向上に有用だ。
既存のツールは、計算を有向非巡回グラフ(DAG)として表現し、並列ブランチの並列化による効率的な実行を可能にする。
しかしながら、これらのシステムは概して循環的および条件的ワークフローを表現できない。
そこで我々は,フローベースプログラミングの原理に基づいて,循環グラフと条件グラフのワークフローマネージャMaizeを開発した。
グラフの各ノードを別々のプロセスで同時に実行し、専用のノード間チャネルを介していつでも通信できるようにすることで、任意のグラフ構造を実行できる。
本稿では, 小分子生成モデルと関連するスコアリングシステムを用いることで, 計算薬物設計における動的能動的学習課題に対するツールの有効性を実証する。 Many computational chemistry and molecular simulation workflows can be expressed as graphs. This abstraction is useful to modularize and potentially reuse existing components, as well as provide parallelization and ease reproducibility. Existing tools represent the computation as a directed acyclic graph (DAG), thus allowing efficient execution by parallelization of concurrent branches. These systems can, however, generally not express cyclic and conditional workflows. We therefore developed Maize, a workflow manager for cyclic and conditional graphs based on the principles of flow-based programming. By running each node of the graph concurrently in separate processes and allowing communication at any time through dedicated inter-node channels, arbitrary graph structures can be executed. We demonstrate the effectiveness of the tool on a dynamic active learning task in computational drug design, involving the use of a small molecule generative model and an associated scoring system. | 翻訳日:2024-02-18 12:54:19 公開日:2024-01-22 |
# エネルギーコミュニティのためのオンライン階層型エネルギー管理システム An Online Hierarchical Energy Management System for Energy Communities, Complying with the Current Technical Legislation Framework ( http://arxiv.org/abs/2402.01688v1 ) ライセンス: Link先を確認 | Antonino Capillo, Enrico De Santis, Fabio Massimo Frattale Mascioli, Antonello Rizzi | (参考訳) 気候変動対策の取り組みは、スマートグリッド(SG)における新たなエネルギー効率戦略にますます向けられている。
2018年、欧州連合(EU)は、再生可能エネルギー共同体(Renewable Energy Community, REC)を、自ら生産した再生可能エネルギーを共用する地域電力網として定義し、適切なインセンティブを生かして法案費用の削減を目指す。
この行動は、地元の再生可能エネルギー利用の広がりを加速させ、そのコストは誰の手に届かなかった。
RECは技術的にはSGであるため、上記の戦略を適用でき、具体的には実用的なエネルギー管理システム(EMS)が必要である。
そこで本研究では,RECコスト最小化のためにオンライン階層型EMS(HEMS)を合成し,ローカルな自己消費手法よりも優れた性能を評価する。
EUの技術的指示(イタリアから受け継がれている)は、できるだけ現実的な結果を目指している。
RECノード間の電力フロー、またはマイクログリッド(MG)は、エネルギー貯蔵システム(ESS)とPVプラントコスト、エネルギー購入コスト、RECインセンティブによって最適化される。
ハイブリッドファジィ推論システム - 遺伝的アルゴリズム(fis-ga)モデルは、fisパラメータをコードするgaで実装されている。
システム全体の入力である発電と消費は、履歴データに基づいて訓練されたLSTMによって予測される。
提案する階層モデルでは,短時間の計算時間で精度が向上し,自己消費アプローチを上回り,20%の節約が可能となった。
さらに、FISを通じてモデルを特徴付ける説明可能なAI(XAI)は、優れた人間の解釈レベルにより、結果をより信頼性を高める。
最終的にHEMSはパラメトリフィケーションされ、別の国の技術的立法枠組みに切り替えるのが簡単である。 Efforts in the fight against Climate Change are increasingly oriented towards new energy efficiency strategies in Smart Grids (SGs). In 2018, with proper legislation, the European Union (EU) defined the Renewable Energy Community (REC) as a local electrical grid whose participants share their self-produced renewable energy, aiming at reducing bill costs by taking advantage of proper incentives. That action aspires to accelerate the spread of local renewable energy exploitation, whose costs could not be within everyone's reach. Since a REC is technically an SG, the strategies above can be applied, and specifically, practical Energy Management Systems (EMSs) are required. Therefore, in this work, an online Hierarchical EMS (HEMS) is synthesized for REC cost minimization to evaluate its superiority over a local self-consumption approach. EU technical indications (as inherited from Italy) are diligently followed, aiming for results that are as realistic as possible. Power flows between REC nodes, or Microgrids (MGs) are optimized by taking Energy Storage Systems (ESSs) and PV plant costs, energy purchase costs, and REC incentives. A hybrid Fuzzy Inference System - Genetic Algorithm (FIS-GA) model is implemented with the GA encoding the FIS parameters. Power generation and consumption, which are the overall system input, are predicted by a LSTM trained on historical data. The proposed hierarchical model achieves good precision in short computation times and outperforms the self-consumption approach, leading to about 20% savings compared to the latter. In addition, the Explainable AI (XAI), which characterizes the model through the FIS, makes results more reliable thanks to an excellent human interpretation level. To finish, the HEMS is parametrized so that it is straightforward to switch to another Country's technical legislation framework. | 翻訳日:2024-02-11 16:54:10 公開日:2024-01-22 |
# 「何LLMを使うべきか?」:インドにおける大学院コンピュータサイエンス学生の課題に対するLLMの評価 "Which LLM should I use?": Evaluating LLMs for tasks performed by Undergraduate Computer Science Students in India ( http://arxiv.org/abs/2402.01687v1 ) ライセンス: Link先を確認 | Vibhor Agarwal, Nakul Thureja, Madhav Krishan Garg, Sahiti Dharmavaram, Meghna, Dhruv Kumar | (参考訳) 本研究は,大学生に共通する課題遂行における様々な大規模言語モデル(LLM)の有効性を評価する。
コンピュータ教育コミュニティにおける多くの研究は、様々なタスクにLLMを使用する可能性について検討してきたが、異なるLLMを比較し、どのLLMが様々なタスクに最も効果的であるかを評価する包括的な研究は乏しい。
本研究では,google bard,chatgpt,github copilot chat,microsoft copilotなどの公開llmを,学部生のコンピュータサイエンスの学生に共通するさまざまなタスクで体系的に評価した。
これらのタスクには、コード生成、説明、プロジェクトイデオレーション、コンテンツ生成、クラス割り当て、メール構成が含まれる。
これらのタスクの評価は、コンピュータサイエンスの中高生によって行われ、モデルの強みと限界についての洞察を提供する。
本研究の目的は,学生が特定のタスクに適したLLMを選択することを指導することであり,学生やインストラクターがLLMをどのように構築的に利用できるかについての貴重な知見を提供することである。 This study evaluates the effectiveness of various large language models (LLMs) in performing tasks common among undergraduate computer science students. Although a number of research studies in the computing education community have explored the possibility of using LLMs for a variety of tasks, there is a lack of comprehensive research comparing different LLMs and evaluating which LLMs are most effective for different tasks. Our research systematically assesses some of the publicly available LLMs such as Google Bard, ChatGPT, GitHub Copilot Chat, and Microsoft Copilot across diverse tasks commonly encountered by undergraduate computer science students. These tasks include code generation, explanation, project ideation, content generation, class assignments, and email composition. Evaluation for these tasks was carried out by junior and senior students in computer science, and provides insights into the models' strengths and limitations. This study aims to guide students in selecting suitable LLMs for any specific task and offers valuable insights on how LLMs can be used constructively by students and instructors. | 翻訳日:2024-02-11 16:53:36 公開日:2024-01-22 |
# 交通診断のためのデジタル双生児の系統的マッピング研究 A Systematic Mapping Study of Digital Twins for Diagnosis in Transportation ( http://arxiv.org/abs/2402.01686v1 ) ライセンス: Link先を確認 | Liliana Marie Prikler, Franz Wotawa (Graz University of Technology, Institute for Software Technology) | (参考訳) 近年,プロトタイピングからメンテナンスまで,様々な分野においてデジタル双生児が提案・実装されている。
今後は、自動運転車など、多くの効率的で持続可能な技術の実現を目指している。
しかし、多くの分野の研究にもかかわらず、学者はデジタル双生児とは何か、そしてその結果、その能力と限界が何であるかについて合意していない。
我々の理解を深めるために、輸送分野における診断に関するデジタル双生児の能力を探究する。
我々は,車とその構成要素のデジタル双生児と交通インフラを含む体系的マッピング研究を行っている。
デジタル双生児に関する論文は、診断過程を記述していないことが分かりました。
さらに、既存のアプローチのほとんどはシステム監視や障害検出に限られているように見える。
これらの結果から,デジタル双生児を用いた診断的推論にはさらなる研究が必要であることが示唆された。 In recent years, digital twins have been proposed and implemented in various fields with potential applications ranging from prototyping to maintenance. Going forward, they are to enable numerous efficient and sustainable technologies, among them autonomous cars. However, despite a large body of research in many fields, academics have yet to agree on what exactly a digital twin is -- and as a result, what its capabilities and limitations might be. To further our understanding, we explore the capabilities of digital twins concerning diagnosis in the field of transportation. We conduct a systematic mapping study including digital twins of vehicles and their components, as well as transportation infrastructure. We discovered that few papers on digital twins describe any diagnostic process. Furthermore, most existing approaches appear limited to system monitoring or fault detection. These findings suggest that we need more research for diagnostic reasoning utilizing digital twins. | 翻訳日:2024-02-11 16:53:16 公開日:2024-01-22 |
# CGC-LORAアルゴリズムを用いたLLMにおける1+Nマルチタスクファインチューニングパターンの実装 A Framework to Implement 1+N Multi-task Fine-tuning Pattern in LLMs Using the CGC-LORA Algorithm ( http://arxiv.org/abs/2402.01684v1 ) ライセンス: Link先を確認 | Chao Song and Zhihao Ye and Qiqiang Lin and Qiuying Peng and Jun Wang | (参考訳) 自然言語処理(NLP)分野における大規模言語モデル(LLM)の生産的進化により、複数の特定の領域における様々なタスクを効果的に微調整する共通の事前学習 LLM の開発に多くの努力が注がれた。
実際には、適応が達成できる方法が2つある。
(i)複数独立モデル:各タスクから対応するトレーニングサンプルを用いて,事前学習したLCMを複数回微調整する。
(ii)統合モデル:全てのタスクからのサンプルを併用し、事前試行されたLLMを統一的に微調整する。
高い計算コストとシーソー問題に同時に対処するために,新しいカスタマイズゲート制御 (CGC) ローランク適応 (LoRA) アルゴリズムを用いて,LLMの1 + N mutli-taskファインチューニングパターンを実装した統一フレームワークを提案する。
我々の研究は、MPL(CGC)とPEFT(LoRA)の両方の利点を享受することを目的としている。
与えられたタスクのクラスタに対して、2種類の専門家を含む革新的なレイヤを設計し、LoRAをMTLと互換性を持たせるためのトレーニング可能なパラメータを追加します。
提案フレームワークを包括的に評価するために,2つの公開データセットを適切に設計した実験を行う。
実験の結果, cgc-loraモジュールを用いた統一フレームワークは, 2つのデータセットのベンチマークよりも高い評価スコアが得られることがわかった。 With the productive evolution of large language models (LLMs) in the field of natural language processing (NLP), tons of effort has been made to effectively fine-tune common pre-trained LLMs to fulfill a variety of tasks in one or multiple specific domain. In practice, there are two prevailing ways, in which the adaptation can be achieved: (i) Multiple Independent Models: Pre-trained LLMs are fine-tuned a few times independently using the corresponding training samples from each task. (ii) An Integrated Model: Samples from all tasks are employed to fine-tune a pre-trianed LLM unitedly. To address the high computing cost and seesawing issue simultaneously, we propose a unified framework that implements a 1 + N mutli-task fine-tuning pattern in LLMs using a novel Customized Gate Control (CGC) Low-rank Adaptation (LoRA) algorithm. Our work aims to take an advantage of both MTL (i.e., CGC) and PEFT (i.e., LoRA) scheme. For a given cluster of tasks, we design an innovative layer that contains two types of experts as additional trainable parameters to make LoRA be compatible with MTL. To comprehensively evaluate the proposed framework, we conduct well-designed experiments on two public datasets. The experimental results demonstrate that the unified framework with CGC-LoRA modules achieves higher evaluation scores than all benchmarks on both two datasets. | 翻訳日:2024-02-11 16:53:04 公開日:2024-01-22 |
# ソーシャルメディアデータを用いた危機活動に関する地域住民の行動理解:2023年ニューヨーク市のカナダ山火事について Community-based Behavioral Understanding of Crisis Activity Concerns using Social Media Data: A Study on the 2023 Canadian Wildfires in New York City ( http://arxiv.org/abs/2402.01683v1 ) ライセンス: Link先を確認 | Khondhaker Al Momin, Md Sami Hasnine, Arif Mohaimin Sadri | (参考訳) ニューヨーク・ニューヨーク(NYC)は2023年6月、カナダから流れてきた山火事による大気汚染で、世界最高を記録した。
この前例のない状況は、ニューヨーク市住民の伝統的な活動パターンに大きな混乱と変化をもたらした。
本研究は,大規模ソーシャルメディアデータを用いて,ニューヨークにおける2023年のカナダ山火事の発生における危機活動(避難,屋内滞在,ショッピング,レクリエーション活動など)の異なる課題を調査した。
この点に関して、ニューヨークから1週間(6月02日から6月09日、2023年6月)のジオタグ付きtwitterデータを検索して分析に使用した。
ツイートは高度なテキスト分類技術を使って処理され、後に社会保障管理データ、国勢調査、アメリカコミュニティサーベイなどの国立データベースに統合された。
最後に、大きな山火事で異なる活動に関するコミュニティの推測を作成するためにモデルが開発されました。
この結果は、山火事の間、女性は避難、医療、社会、レクリエーションの目的での旅行、仕事の通勤など、空気の質が悪くても作業を続ける職場の影響を受けにくいことを示唆している。
これらの議論には人種的格差もあり、アジア人はヒスパニック人よりも避難や通勤を議論する傾向があり、アフリカ系アメリカ人は社会活動やレクリエーション活動について議論する傾向が低かった。
また、低所得地域や非高等教育の学生は、避難に対する懸念が少なかった。
本研究は, 政策立案者, 緊急プランナー, 公衆衛生担当者に対して, 目標とする通信戦略の策定と適切な緊急対応計画の策定を支援する貴重な知見を提供する。 New York City (NYC) topped the global chart for the worst air pollution in June 2023, owing to the wildfire smoke drifting in from Canada. This unprecedented situation caused significant travel disruptions and shifts in traditional activity patterns of NYC residents. This study utilized large-scale social media data to study different crisis activity concerns (i.e., evacuation, staying indoors, shopping, and recreational activities among others) in the emergence of the 2023 Canadian wildfire smoke in NYC. In this regard, one week (June 02 through June 09, 2023) geotagged Twitter data from NYC were retrieved and used in the analysis. The tweets were processed using advanced text classification techniques and later integrated with national databases such as Social Security Administration data, Census, and American Community Survey. Finally, a model has been developed to make community inferences of different activity concerns in a major wildfire. The findings suggest, during wildfires, females are less likely to engage in discussions about evacuation, trips for medical, social, or recreational purposes, and commuting for work, likely influenced by workplaces maintaining operations despite poor air quality. There were also racial disparities in these discussions, with Asians being more likely than Hispanics to discuss evacuation and work commute, and African Americans being less likely to discuss social and recreational activities. Additionally, individuals from low-income neighborhoods and non-higher education students expressed fewer concerns about evacuation. This study provides valuable insights for policymakers, emergency planners, and public health officials, aiding them in formulating targeted communication strategies and equitable emergency response plans. | 翻訳日:2024-02-11 16:52:37 公開日:2024-01-22 |
# ソーシャルメディアデータを活用したアクセシビリティ, 社会経済格差, 公共交通に対する社会的態度の把握 Leveraging Social Media Data to Identify Factors Influencing Public Attitude Towards Accessibility, Socioeconomic Disparity and Public Transportation ( http://arxiv.org/abs/2402.01682v1 ) ライセンス: Link先を確認 | Khondhaker Al Momin, Arif Mohaimin Sadri, Md Sami Hasnine | (参考訳) 本研究は,交通アクセシビリティ,社会経済的格差,公共インフラに対する個人の認識に影響を与える要因を理解するための新しい手法を提案する。
時間と費用のかかるサーベイベースアプローチとは対照的に,ソーシャルメディアから大規模有機反応を生成し,様々な交通問題に対する個人の認識を理解する統計モデルを開発する。
この調査は、2020年3月19日から2022年5月15日まで、ニューヨーク市から36,098件のツイートを検索、分析した。
最先端自然言語処理アルゴリズムは、テキストマイニングと分類に使用される。
データ融合技術は、モデル内の説明変数として使用される一連の社会経済特性を生成するために採用されている。
モデルの結果は、アジア起源の女性や個人は、交通機関のアクセシビリティーを相手よりも議論しがちであり、近隣の交通量も高い傾向にあることを示している。
しかし、失業者や低所得地域や自然災害リスクの高い地域で生活する者を含む不利な人は、そのような問題についてのコミュニケーションが低い傾向にある。
社会経済的格差については、アジア起源の個人や様々な種類の大気汚染を経験している人々は、これらの話題をTwitter上で議論しがちである。
しかし、失業した、または不利な個人や、高い自然災害リスクや予想される損失を抱える地域に住む人々は、このテーマについてツイートする傾向が低い。
インターネットアクセシビリティの欠如は、多くの不利な個人がトランスポートアクセシビリティや助成金付きインターネットについてツイートしていないことが、解決策になり得る理由かもしれない。 This study proposes a novel method to understand the factors affecting individuals' perception of transport accessibility, socioeconomic disparity, and public infrastructure. As opposed to the time consuming and expensive survey-based approach, this method can generate organic large-scale responses from social media and develop statistical models to understand individuals' perceptions of various transportation issues. This study retrieved and analyzed 36,098 tweets from New York City from March 19, 2020, to May 15, 2022. A state-of-the-art natural language processing algorithm is used for text mining and classification. A data fusion technique has been adopted to generate a series of socioeconomic traits that are used as explanatory variables in the model. The model results show that females and individuals of Asian origin tend to discuss transportation accessibility more than their counterparts, with those experiencing high neighborhood traffic also being more vocal. However, disadvantaged individuals, including the unemployed and those living in low-income neighborhoods or in areas with high natural hazard risks, tend to communicate less about such issues. As for socioeconomic disparity, individuals of Asian origin and those experiencing various types of air pollution are more likely to discuss these topics on Twitter, often with a negative sentiment. However, unemployed, or disadvantaged individuals, as well as those living in areas with high natural hazard risks or expected losses, are less inclined to tweet about this subject. Lack of internet accessibility could be a reason why many disadvantaged individuals do not tweet about transport accessibility and subsidized internet could be a possible solution. | 翻訳日:2024-02-11 16:52:09 公開日:2024-01-22 |
# 絵文字のデコード:ChatGPTを活用してソーシャルメディアコミュニケーションの理解を深める Emojis Decoded: Leveraging ChatGPT for Enhanced Understanding in Social Media Communications ( http://arxiv.org/abs/2402.01681v1 ) ライセンス: Link先を確認 | Yuhang Zhou, Paiheng Xu, Xiyao Wang, Xuan Lu, Ge Gao, Wei Ai | (参考訳) 単なる言葉やフレーズ以外の意味をカプセル化する絵文字は、ソーシャルネットワークのコミュニケーションで普及している。
これにより、その特性や機能を探究する学術的な関心が高まった。
しかし、絵文字関連の研究と応用には2つの大きな課題がある。
まず、研究者は通常、感情、使用意図、意味を理解するために、絵文字に注釈をつけるためにクラウドソーシングに頼る。
第二に、ユーザによる主観的解釈は、しばしば絵文字の誤解を招き、コミュニケーション障壁を引き起こす。
大規模言語モデル(llm)は様々なアノテーションタスクで大きな成功を収めており、chatgptは複数のドメインにまたがる専門知識を示している。
本研究は,ChatGPTが以前に注釈付きタスクや下流タスクの処理に有効であることを示す。
本研究の目的は,ChatGPTが人間のアノテータの代用として絵文字研究に有効であり,絵文字の意味を説明できる能力は,オンラインコミュニケーションにおける明瞭さと透明性を高めることができるという仮説を検証することである。
以上の結果から,ChatGPTは絵文字の知識が豊富であることが示唆された。
様々なアプリケーションシナリオにまたがる絵文字の意味を解明し、様々なタスクにおいて人間のアノテータを置き換える可能性を示す。 Emojis, which encapsulate semantics beyond mere words or phrases, have become prevalent in social network communications. This has spurred increasing scholarly interest in exploring their attributes and functionalities. However, emoji-related research and application face two primary challenges. First, researchers typically rely on crowd-sourcing to annotate emojis in order to understand their sentiments, usage intentions, and semantic meanings. Second, subjective interpretations by users can often lead to misunderstandings of emojis and cause the communication barrier. Large Language Models (LLMs) have achieved significant success in various annotation tasks, with ChatGPT demonstrating expertise across multiple domains. In our study, we assess ChatGPT's effectiveness in handling previously annotated and downstream tasks. Our objective is to validate the hypothesis that ChatGPT can serve as a viable alternative to human annotators in emoji research and that its ability to explain emoji meanings can enhance clarity and transparency in online communications. Our findings indicate that ChatGPT has extensive knowledge of emojis. It is adept at elucidating the meaning of emojis across various application scenarios and demonstrates the potential to replace human annotators in a range of tasks. | 翻訳日:2024-02-11 16:51:39 公開日:2024-01-22 |
# 産業5.0における予測健康分析 : 建設中のモーションキャプチャーに関するサイエントメトリと体系的レビュー Predictive Health Analysis in Industry 5.0: A Scientometric and Systematic Review of Motion Capture in Construction ( http://arxiv.org/abs/2402.01689v1 ) ライセンス: Link先を確認 | Md Hadisur Rahman, Md Rabiul Hasan, Nahian Ismail Chowdhury, Md Asif Bin Syed, Mst Ummul Farah | (参考訳) 急速な技術進歩の時代において、産業4.0の台頭により、産業は革新的なプロセス改善を追求した。
人間とインテリジェントシステムとのコラボレーションに重点を置く産業5.0に向けて進むにつれ、医療と安全のためのより良いセンシング技術の必要性が高まっている。
その結果、モーションキャプチャー(MoCap)システムは、建設を含む様々な職場で、未整合の精度と汎用性を提供することにより、この技術の進化において重要な実現要因となっている。
建設作業場では,作業関連筋骨格障害(WMSD)や健康問題など,身体的に要求される作業が求められているため,産業4.0と5.0という概念におけるMoCapシステムとの関連性が高まっている。
重要性の増大にもかかわらず、建設におけるMoCapシステムの役割を定量的に評価する、より包括的な研究が必要である。
本研究は, このギャップに対処するために, 文献学, サイエントメトリック, 体系的レビューのアプローチを組み合わせて, Scopusデータベースからの論文を分析した。
サイエントメトリー法と定性的深層検査を用いて, 定量的研究のために, 合計52論文を962論文のプールから慎重に選択した。
その結果, 作業者の健康と安全を向上し, 作業上の危険を軽減するためにMoCapシステムを採用しており, より詳細な調査では, メーソンリー, リフト, トレーニング, クライミングといった最もテストされた作業が, マーカーレスシステムに好まれていることがわかった。 In an era of rapid technological advancement, the rise of Industry 4.0 has prompted industries to pursue innovative improvements in their processes. As we advance towards Industry 5.0, which focuses more on collaboration between humans and intelligent systems, there is a growing requirement for better sensing technologies for healthcare and safety purposes. Consequently, Motion Capture (MoCap) systems have emerged as critical enablers in this technological evolution by providing unmatched precision and versatility in various workplaces, including construction. As the construction workplace requires physically demanding tasks, leading to work-related musculoskeletal disorders (WMSDs) and health issues, the study explores the increasing relevance of MoCap systems within the concept of Industry 4.0 and 5.0. Despite the growing significance, there needs to be more comprehensive research, a scientometric review that quantitatively assesses the role of MoCap systems in construction. Our study combines bibliometric, scientometric, and systematic review approaches to address this gap, analyzing articles sourced from the Scopus database. A total of 52 papers were carefully selected from a pool of 962 papers for a quantitative study using a scientometric approach and a qualitative, indepth examination. Results showed that MoCap systems are employed to improve worker health and safety and reduce occupational hazards.The in-depth study also finds the most tested construction tasks are masonry, lifting, training, and climbing, with a clear preference for markerless systems. | 翻訳日:2024-02-11 16:36:38 公開日:2024-01-22 |
# HPC学生24,000名における広域授業の評価 Evaluating the Wide Area Classroom After 24,000 HPC Students ( http://arxiv.org/abs/2402.03343v1 ) ライセンス: Link先を確認 | John Urbanic, Thomas Maiden, and Valerie Rossi | (参考訳) 2023年現在、我々は、新しい分散教育プラットフォームであるワイド・エリア・クラスルームを使って、106のイベントで24,000人以上の学生に教えている。
これはいくつかの重要な指標によって測定された成功の成果である。
本稿では,これらのイベントの技術的・論理的構造と,最も普及していると証明された特定のHPCカリキュラムについて述べる。 As of 2023 we have taught more than 24,000 students over the course of 106 events using the Wide Area Classroom, a novel distributed teaching platform. This has been a successful effort gauged by several important metrics. We describe both the technical and logistical structure of these events as well as the specific HPC curriculums which have proven to be most popular. | 翻訳日:2024-02-11 15:38:05 公開日:2024-01-22 |
# 二元パーセプトロンの容量についての一考察 A note on the capacity of the binary perceptron ( http://arxiv.org/abs/2401.15092v1 ) ライセンス: Link先を確認 | Dylan J. Altschuler and Konstantin Tikhomirov | (参考訳) バイナリパーセプトロンの容量$\alpha_c$を決定することは長年の問題である。
Krauth and Mezard (1989) は、$\alpha_c$ の明示的な値が .833 とほぼ等しいと予測し、この予想に一致する厳密な下界は、最近 Ding and Sun (2019) によって確立された。
上界に関して、Kim and Roche (1998) と Talagrand (1999) は独立に $\alpha_c$ < .996 を示し、Krauth と Mezard は $\alpha_c$ < .847 を示す議論を概説した。
この説明書の目的は、有界$\alpha_c$ < .847の完全な証明を記録することである。
証明は球面パーセプトロンの既知の結果と組み合わせた条件付き第一モーメント法である Determining the capacity $\alpha_c$ of the Binary Perceptron is a long-standing problem. Krauth and Mezard (1989) conjectured an explicit value of $\alpha_c$, approximately equal to .833, and a rigorous lower bound matching this prediction was recently established by Ding and Sun (2019). Regarding the upper bound, Kim and Roche (1998) and Talagrand (1999) independently showed that $\alpha_c$ < .996, while Krauth and Mezard outlined an argument which can be used to show that $\alpha_c$ < .847. The purpose of this expository note is to record a complete proof of the bound $\alpha_c$ < .847. The proof is a conditional first moment method combined with known results on the spherical perceptron | 翻訳日:2024-02-04 05:34:55 公開日:2024-01-22 |
# 総称的完全等長不変量を用いた材料特性予測の高速化 Accelerating Material Property Prediction using Generically Complete Isometry Invariants ( http://arxiv.org/abs/2401.15089v1 ) ライセンス: Link先を確認 | Jonathan Balasingham, Viktor Zamaraev, Vitaliy Kurlin | (参考訳) 近年,機械学習を用いた材料や結晶特性の予測が盛んになり,従来のシミュレーション手法に代えて計算効率が向上している。
これらのアルゴリズムにとって重要な最初のステップは、周期的結晶の表現である。
分子やタンパク質のような類似の物体は有限個の原子を持ち、それらの表現は有限点の雲の解釈に基づいて構築できるが、周期結晶は大きさが無制限であるため、その表現はより困難である。
本研究では,学習アルゴリズムの表現として,周期的な点集合に対して連続的かつ総称的に完全アイソメトリ不変の点距離分布 (PDD) を適用する。
PDDはアイソメトリーに設定した周期点の識別に有効であるが, 材料組成については考慮されていない。
本研究では,PDDを利用して空間符号化により構成情報を組み込むことができる自己認識機構を改良したトランスフォーマーモデルを開発した。
このモデルは、Material ProjectとJarvis-DFTデータベースの結晶上でテストされ、トレーニング時間と予測時間の両方で数倍高速でありながら、最先端の手法と同等の精度が得られることを示した。 Material or crystal property prediction using machine learning has grown popular in recent years as it provides a computationally efficient replacement to classical simulation methods. A crucial first step for any of these algorithms is the representation used for a periodic crystal. While similar objects like molecules and proteins have a finite number of atoms and their representation can be built based upon a finite point cloud interpretation, periodic crystals are unbounded in size, making their representation more challenging. In the present work, we adapt the Pointwise Distance Distribution (PDD), a continuous and generically complete isometry invariant for periodic point sets, as a representation for our learning algorithm. While the PDD is effective in distinguishing periodic point sets up to isometry, there is no consideration for the composition of the underlying material. We develop a transformer model with a modified self-attention mechanism that can utilize the PDD and incorporate compositional information via a spatial encoding method. This model is tested on the crystals of the Materials Project and Jarvis-DFT databases and shown to produce accuracy on par with state-of-the-art methods while being several times faster in both training and prediction time. | 翻訳日:2024-02-04 05:34:34 公開日:2024-01-22 |
# 限られた資源環境における自動機械状態監視・保守システムの設計と実装 Design & Implementation of Automatic Machine Condition Monitoring and Maintenance System in Limited Resource Situations ( http://arxiv.org/abs/2401.15088v1 ) ライセンス: Link先を確認 | Abu Hanif Md. Ripon, Muhammad Ahsan Ullah, Arindam Kumar Paul, Md. Mortaza Morshed | (参考訳) 第4次産業革命の時代には、機械の故障検出と診断の自動化が不可欠であり、破滅的な被害を受ける前に適切な行動を取るための警告システムを開発できる。
一部のマシンのヘルスモニタリングシステムは世界中で使用されているが、費用が高く、運用と分析に訓練された人材が必要である。
発展途上国では、インフラの不十分、熟練した人材の不足、金融危機などの理由から、予測的保守と労働安全文化は利用できない。
本研究は, 故障データ収集のための費用対効果DASの開発から始まり, プロセスの自動化とともに, 限られたデータと資源の効果について検討した。
この問題を解決するために、ウェーブレット、微分計算、信号処理の概念を組み合わせた特徴工学およびデータ削減手法を開発した。
最後に、プロセス全体を自動化するために、予測モデルを開発するために必要な全ての理論および実践的考察が提案されている。
DASは、専門的な手動監視システムと比較して精度が89%のマシンから必要なデータを収集した。
SVMとNNは、トレーニング中に95%以上、新しいサンプルのテスト中に100%以上予測精度が高いため、予測目的で提案された。
本研究では,データ集約型システムに代えて,単純なアルゴリズムとルールベースシステムを組み合わせることで,収集データを用いたハイブリッド化が実現した。
この研究の成果は、他の問題を見つけ、それに従って開発するために、中小規模の産業に即座に適用することができる。
自動FDDの基礎研究の1つとして、この研究の発見と手順により、他の研究者はFDDの自動化に他の次元を拡大、一般化、追加することができる。 In the era of the fourth industrial revolution, it is essential to automate fault detection and diagnosis of machineries so that a warning system can be developed that will help to take an appropriate action before any catastrophic damage. Some machines health monitoring systems are used globally but they are expensive and need trained personnel to operate and analyse. Predictive maintenance and occupational health and safety culture are not available due to inadequate infrastructure, lack of skilled manpower, financial crisis, and others in developing countries. Starting from developing a cost-effective DAS for collecting fault data in this study, the effect of limited data and resources has been investigated while automating the process. To solve this problem, A feature engineering and data reduction method has been developed combining the concepts from wavelets, differential calculus, and signal processing. Finally, for automating the whole process, all the necessary theoretical and practical considerations to develop a predictive model have been proposed. The DAS successfully collected the required data from the machine that is 89% accurate compared to the professional manual monitoring system. SVM and NN were proposed for the prediction purpose because of their high predicting accuracy greater than 95% during training and 100% during testing the new samples. In this study, the combination of the simple algorithm with a rule-based system instead of a data-intensive system turned out to be hybridization by validating with collected data. The outcome of this research can be instantly applied to small and medium-sized industries for finding other issues and developing accordingly. As one of the foundational studies in automatic FDD, the findings and procedure of this study can lead others to extend, generalize, or add other dimensions to FDD automation. | 翻訳日:2024-02-04 05:34:12 公開日:2024-01-22 |
# 非線形分類器のポストホック展開器としてのファジィ論理関数 Fuzzy Logic Function as a Post-hoc Explanator of the Nonlinear Classifier ( http://arxiv.org/abs/2401.14417v1 ) ライセンス: Link先を確認 | Martin Klimo, Lubomir Kralik | (参考訳) ディープニューラルネットワークを用いて実装されたパターン認識システムは線形モデルよりも優れた結果が得られる。
しかし、その欠点はブラックボックスの特性である。
この性質は、非線形システムを利用した経験のない人は、決定の結果を理解するのに役立つかもしれないことを意味する。
このようなソリューションは、最終決定に責任を持つユーザには受け入れられない。
彼はその決定を信じるだけでなく、それを理解しなければならない。
したがって、recognisersは、インタプリタが発見を解釈できるアーキテクチャを持つ必要がある。
ポストホックな説明可能な分類器の考え方は、ブラックボックス分類器と平行な解釈可能な分類器を設計し、ブラックボックス分類器と同じ決定を与えることである。
本稿では、Zadehのファジィ論理関数が分類器を形成し、DeconvNetの重要性が真理値を与える場合、説明可能な分類器がMNISTおよびFashionMNISTデータベース上のブラックボックス分類器と一致する分類決定を完了することを示す。
他のテストされた重要度尺度はDeconvNetよりも低い性能を達成したため、データベースと認識アーキテクチャのファジィ論理関数への入力として特徴値から真理値への最適な変換である。 Pattern recognition systems implemented using deep neural networks achieve better results than linear models. However, their drawback is the black box property. This property means that one with no experience utilising nonlinear systems may need help understanding the outcome of the decision. Such a solution is unacceptable to the user responsible for the final decision. He must not only believe in the decision but also understand it. Therefore, recognisers must have an architecture that allows interpreters to interpret the findings. The idea of post-hoc explainable classifiers is to design an interpretable classifier parallel to the black box classifier, giving the same decisions as the black box classifier. This paper shows that the explainable classifier completes matching classification decisions with the black box classifier on the MNIST and FashionMNIST databases if Zadeh`s fuzzy logic function forms the classifier and DeconvNet importance gives the truth values. Since the other tested significance measures achieved lower performance than DeconvNet, it is the optimal transformation of the feature values to their truth values as inputs to the fuzzy logic function for the databases and recogniser architecture used. | 翻訳日:2024-02-04 05:32:56 公開日:2024-01-22 |
# 音声リズムの音響的特徴付け--リカレントニューラルネットワークを用いたメトリクスを越えて Acoustic characterization of speech rhythm: going beyond metrics with recurrent neural networks ( http://arxiv.org/abs/2401.14416v1 ) ライセンス: Link先を確認 | Fran\c{c}ois Deloche, Laurent Bonnasse-Gahot, Judit Gervain | (参考訳) 言語は、そのリズミカルな特性によって長い間説明されてきた。
彼らは、新生児が言語を区別し、大人のリスナーが非ネイティブ言語をどのように処理するかに関する洞察を与える能力の一部を予測している。
言語リズミカルクラスの存在を支持するためのリズム指標の相対的成功にもかかわらず、定量的研究はまだ音声リズムに関連する時間的規則性の完全な複雑さを捉えていない。
深層学習は、音声リズムの音響的基盤の特徴付けを進めるための強力なパターン認識手法であると主張する。
この仮説を探求するため,21ヶ国語音声記録の大規模データベース上で言語識別タスクにおいて,中規模のリカレントニューラルネットワークを訓練した。
ネットワークは振幅エンベロープと発声セグメントを識別する変数にアクセスでき、この信号が音素情報を伝達しにくいが韻律的特徴を保持すると仮定した。
ネットワークは、40%のケースで10秒の録音の言語を識別でき、そして3分の2のケースでトップ3の推測をすることができた。
可視化により、ネットワークアクティベーションから構築された表現は、ストレスと音節時間言語の間の2つのクラスタよりも複雑であるが、音声リズムのタイポロジーと一致していることが示された。
さらに,ネットワークアクティベーションと既知の音声リズム指標の相関関係を同定し,モデル解析を行った。
本研究は,言語関連音響特徴空間の同定と探索を通じて,音声リズムの理解を深める深層学習ツールの可能性を示すものである。 Languages have long been described according to their perceived rhythmic attributes. The associated typologies are of interest in psycholinguistics as they partly predict newborns' abilities to discriminate between languages and provide insights into how adult listeners process non-native languages. Despite the relative success of rhythm metrics in supporting the existence of linguistic rhythmic classes, quantitative studies have yet to capture the full complexity of temporal regularities associated with speech rhythm. We argue that deep learning offers a powerful pattern-recognition approach to advance the characterization of the acoustic bases of speech rhythm. To explore this hypothesis, we trained a medium-sized recurrent neural network on a language identification task over a large database of speech recordings in 21 languages. The network had access to the amplitude envelopes and a variable identifying the voiced segments, assuming that this signal would poorly convey phonetic information but preserve prosodic features. The network was able to identify the language of 10-second recordings in 40% of the cases, and the language was in the top-3 guesses in two-thirds of the cases. Visualization methods show that representations built from the network activations are consistent with speech rhythm typologies, although the resulting maps are more complex than two separated clusters between stress and syllable-timed languages. We further analyzed the model by identifying correlations between network activations and known speech rhythm metrics. The findings illustrate the potential of deep learning tools to advance our understanding of speech rhythm through the identification and exploration of linguistically relevant acoustic feature spaces. | 翻訳日:2024-02-04 05:32:37 公開日:2024-01-22 |
# 大規模aiモデルによるマルチメディアの検出:調査 Detecting Multimedia Generated by Large AI Models: A Survey ( http://arxiv.org/abs/2402.00045v1 ) ライセンス: Link先を確認 | Li Lin, Neeraj Gupta, Yue Zhang, Hainan Ren, Chun-Hao Liu, Feng Ding, Xin Wang, Xin Li, Luisa Verdoliva, Shu Hu | (参考訳) 大規模AIモデル(LAIM)の急速な進歩、特に拡散モデルと大規模言語モデルは、AI生成マルチメディアが日々のさまざまな側面にますます統合される新しい時代を象徴している。
多くの分野において有益であるが、この内容は潜在的な誤用、社会的破壊、倫理的懸念などの重大なリスクをもたらす。
その結果、LAIMによるマルチメディアの検出が重要となり、関連する研究が顕著に増加した。
それにもかかわらず、LAIM生成マルチメディアの検出に特に焦点をあてる体系的な調査には、注目すべきギャップが残っている。
そこで本研究では,laimsが作成したマルチメディア(テキスト,画像,ビデオ,オーディオ,マルチモーダルコンテンツなど)の検出に関する既存の研究を包括的にカバーする最初の調査を行う。
具体的には, メディアモダリティによって分類され, 純粋な検出(検出性能を高めるための試み)と検出(一般化性, 堅牢性, 検出器の解釈性など)という2つの視点に合致する, 検出方法の新しい分類法を提案する。
さらに,この分野の研究者や実践者にとって有用なリソースを提供するために,生成メカニズム,公開データセット,オンライン検出ツールの概要を提示した。
さらに,laimsが生成するマルチメディア検出における未探索,進行中,新興の課題に対処する今後の研究の課題を特定し,今後の方向性を提案する。
この調査の目的は、学術的なギャップを埋め、グローバルなAIセキュリティ努力に貢献することであり、デジタル領域における情報の整合性の確保を支援することです。
プロジェクトリンクはhttps://github.com/Purdue-M2/Detect-LAIM- generated-Multimedia-Survey。 The rapid advancement of Large AI Models (LAIMs), particularly diffusion models and large language models, has marked a new era where AI-generated multimedia is increasingly integrated into various aspects of daily life. Although beneficial in numerous fields, this content presents significant risks, including potential misuse, societal disruptions, and ethical concerns. Consequently, detecting multimedia generated by LAIMs has become crucial, with a marked rise in related research. Despite this, there remains a notable gap in systematic surveys that focus specifically on detecting LAIM-generated multimedia. Addressing this, we provide the first survey to comprehensively cover existing research on detecting multimedia (such as text, images, videos, audio, and multimodal content) created by LAIMs. Specifically, we introduce a novel taxonomy for detection methods, categorized by media modality, and aligned with two perspectives: pure detection (aiming to enhance detection performance) and beyond detection (adding attributes like generalizability, robustness, and interpretability to detectors). Additionally, we have presented a brief overview of generation mechanisms, public datasets, and online detection tools to provide a valuable resource for researchers and practitioners in this field. Furthermore, we identify current challenges in detection and propose directions for future research that address unexplored, ongoing, and emerging issues in detecting multimedia generated by LAIMs. Our aim for this survey is to fill an academic gap and contribute to global AI security efforts, helping to ensure the integrity of information in the digital realm. The project link is https://github.com/Purdue-M2/Detect-LAIM-generated-Multimedia-Survey. | 翻訳日:2024-02-04 05:11:07 公開日:2024-01-22 |
# Java Geometry Expertを数学コンテストの準備のガイドとして使う Using Java Geometry Expert as Guide in the Preparations for Math Contests ( http://arxiv.org/abs/2401.13704v1 ) ライセンス: Link先を確認 | Ines Ganglmayr (The Private University College of Education of the Diocese of Linz, Austria), Zolt\'an Kov\'acs (The Private University College of Education of the Diocese of Linz, Austria) | (参考訳) 学校におけるJava Geometry Expert(JGEX)について,オーストリアの学校システムを中心に考察した。
JGEXは、特に数学的な競争課題を解決するために、いくつかの教室で素晴らしいサポートを提供することができる。
また,プログラムの制限についても検討する。 We give an insight into Java Geometry Expert (JGEX) in use in a school context, focusing on the Austrian school system. JGEX can offer great support in some classroom situations, especially for solving mathematical competition tasks. Also, we discuss some limitations of the program. | 翻訳日:2024-01-26 17:03:51 公開日:2024-01-22 |
# N\'aboj 2023 Contestの幾何問題とGeoGebra発見における自動推論の解法 Solving Some Geometry Problems of the N\'aboj 2023 Contest with Automated Deduction in GeoGebra Discovery ( http://arxiv.org/abs/2401.13703v1 ) ライセンス: Link先を確認 | Amela Hota (The Private University College of Education of the Diocese of Linz, Austria), Zolt\'an Kov\'acs (The Private University College of Education of the Diocese of Linz, Austria), Alexander Vujic (The Private University College of Education of the Diocese of Linz, Austria) | (参考訳) 本稿では,ソフトウェアツールgeogebra discoveryが計算可能な例を用いて,n\'aboj 2023コンペティションの幾何問題のいくつかをコンピュータの助けを借りて解く。
いずれの場合も、計算にはシンボリック計算が必要である。
我々は,この問題をマシンに入力することの難しさを分析し,今後,このようなコンテストの問題をさらに困難にするため,さらなる目標を設定していく。 In this article, we solve some of the geometry problems of the N\'aboj 2023 competition with the help of a computer, using examples that the software tool GeoGebra Discovery can calculate. In each case, the calculation requires symbolic computations. We analyze the difficulty of feeding the problem into the machine and set further goals to make the problems of this type of contests even more tractable in the future. | 翻訳日:2024-01-26 17:03:43 公開日:2024-01-22 |
# 屋根裏部屋のオープンソース証明機 Open Source Prover in the Attic ( http://arxiv.org/abs/2401.13702v1 ) ライセンス: Link先を確認 | Zolt\'an Kov\'acs (The Private University College of Education of the Diocese of Linz, Austria), Alexander Vujic (The Private University College of Education of the Diocese of Linz, Austria) | (参考訳) 有名なJGEXプログラムは数年前にオープンソースになったが、どうやら、このプログラムのさらなる開発はオリジナルの作者なしでしかできないようだ。
本プロジェクトでは,原作者の関与なく,このような大規模プロジェクトを新参者として継続できるかどうかを検討中である。
国際化やバグ修正,コードベースの改善,新機能の追加といった方法はありますか?
言い換えれば、屋根裏で見つかった遺物を保存し、日常的に有用な道具として磨くことである。 The well known JGEX program became open source a few years ago, but seemingly, further development of the program can only be done without the original authors. In our project, we are looking at whether it is possible to continue such a large project as a newcomer without the involvement of the original authors. Is there a way to internationalize, fix bugs, improve the code base, add new features? In other words, to save a relic found in the attic and polish it into a useful everyday tool. | 翻訳日:2024-01-26 17:02:55 公開日:2024-01-22 |
# 定規とコンパス構成の自動可読証明に向けて Towards Automated Readable Proofs of Ruler and Compass Constructions ( http://arxiv.org/abs/2401.13700v1 ) ライセンス: Link先を確認 | Vesna Marinkovi\'c (Faculty of Mathematics, University of Belgrade), Tijana \v{S}ukilovi\'c (Faculty of Mathematics, University of Belgrade), Filip Mari\'c (Faculty of Mathematics, University of Belgrade) | (参考訳) 定規およびコンパス構築問題に対する構築手順をうまく生成するシステムはいくつか存在するが、いずれも生成した構成に対して可読な合成正しさ証明を提供していない。
本研究は,我々の三角形構成解法であるArgoTriCSが一階述語論理とコヒーレント論理の自動定理証明と協調して,人間の可読性および形式性の両方を持つ構成正当性証明(CoqやIsabelle/HOLのような対話的定理証明によって検証できる)を生成する方法を示す。
これらの証明は現在、多くの高いレベルの補題に依存しており、我々の目標は、幾何の基本的な公理からそれらを全て正式に示すことである。 Although there are several systems that successfully generate construction steps for ruler and compass construction problems, none of them provides readable synthetic correctness proofs for generated constructions. In the present work, we demonstrate how our triangle construction solver ArgoTriCS can cooperate with automated theorem provers for first order logic and coherent logic so that it generates construction correctness proofs, that are both human-readable and formal (can be checked by interactive theorem provers such as Coq or Isabelle/HOL). These proofs currently rely on many high-level lemmas and our goal is to have them all formally shown from the basic axioms of geometry. | 翻訳日:2024-01-26 17:02:45 公開日:2024-01-22 |
# IoT医療におけるAI駆動型人型デジタル双生児の総合調査 Generative AI-Driven Human Digital Twin in IoT-Healthcare: A Comprehensive Survey ( http://arxiv.org/abs/2401.13699v1 ) ライセンス: Link先を確認 | Jiayuan Chen, You Shi, Changyan Yi, Hongyang Du, Jiawen Kang, Dusit Niyato | (参考訳) モノのインターネット(IoT)は、特に医療における人間の生活の質を大幅に向上させ、IoTヘルスサービスに大きな注目を集める。
一方、人間のデジタルツイン(HDT)は、デジタル世界における個人の身体の複製を包括的に特徴づけ、その物理的状態をリアルタイムで反映する革新的なパラダイムとして提案されている。
当然HDTは、多目的で鮮明な人間のデジタルテストベッドとして機能し、その結果をシミュレートし、実践的な治療を導くことによって、医療の応用を超えてIoTヘルスケアの強化を図っている。
しかし、HDTの確立に成功するには、高忠実度仮想モデリングと強力な情報インタラクションが必要です。
幸いなことに、最近普及したgenerative artificial intelligence(gai)と呼ばれる技術は、高度なaiアルゴリズムを利用して価値あるデータを自動生成、操作、修正することができるので、有望なソリューションになるかもしれない。
この調査は特に、IoTヘルスにおけるGAI駆動HDTの実装に焦点を当てている。
まず、IoTヘルスの背景と、GAI駆動のHDTの可能性を紹介する。
次に,GAI 駆動 HDT の基本技術とフレームワークについて述べる。
その後、GAI対応データ取得、通信、データ管理、デジタルモデリング、データ分析など、GAI駆動型HDTの実現について詳細に検討する。
さらに, gai 駆動型 hdt に革命をもたらす代表的なiot ヘルスケアアプリケーション, パーソナライズされたヘルスモニタリングと診断, パーソナライズド処方, パーソナライズドリハビリテーションについて論じる。
最後に、今後の研究の方向性を強調して、この調査を締めくくる。 The Internet of things (IoT) can significantly enhance the quality of human life, specifically in healthcare, attracting extensive attentions to IoT-healthcare services. Meanwhile, the human digital twin (HDT) is proposed as an innovative paradigm that can comprehensively characterize the replication of the individual human body in the digital world and reflect its physical status in real time. Naturally, HDT is envisioned to empower IoT-healthcare beyond the application of healthcare monitoring by acting as a versatile and vivid human digital testbed, simulating the outcomes and guiding the practical treatments. However, successfully establishing HDT requires high-fidelity virtual modeling and strong information interactions but possibly with scarce, biased and noisy data. Fortunately, a recent popular technology called generative artificial intelligence (GAI) may be a promising solution because it can leverage advanced AI algorithms to automatically create, manipulate, and modify valuable while diverse data. This survey particularly focuses on the implementation of GAI-driven HDT in IoT-healthcare. We start by introducing the background of IoT-healthcare and the potential of GAI-driven HDT. Then, we delve into the fundamental techniques and present the overall framework of GAI-driven HDT. After that, we explore the realization of GAI-driven HDT in detail, including GAI-enabled data acquisition, communication, data management, digital modeling, and data analysis. Besides, we discuss typical IoT-healthcare applications that can be revolutionized by GAI-driven HDT, namely personalized health monitoring and diagnosis, personalized prescription, and personalized rehabilitation. Finally, we conclude this survey by highlighting some future research directions. | 翻訳日:2024-01-26 17:02:06 公開日:2024-01-22 |
# 普遍性、絡み合い、ブラックホール情報 Universality, intertwiners and black hole information ( http://arxiv.org/abs/2010.12565v2 ) ライセンス: Link先を確認 | Abram Akal | (参考訳) この記事の中心的な疑問は、どのように情報がブラックホールから漏れているかである。
代数的議論と超選択セクタの概念に依拠して、ブラックホールの大気と内部の範囲に相関関係が広がるある作用素の存在を提案する。
完全な代数に含まれるこれらのブラックホールのインターツウィナーは、半古典的バルク物理学を記述する部分代数に属しない。
本提案は,多数のマイクロステートを含む符号空間に対する演算子再構成の文脈で検討する。
大気が特定のサブシステムから除外されている限り、関連する代数の作用の下で見られる大域的な状態は最大に混合され、従って単一の古典的背景によって記述される。
関連した相関が符号化されると、すなわち代数が十分に拡大された場合、完全状態の区別が可能である。
これをフォン・ノイマンエントロピー(von neumann entropy)と計算し、量子極値面処方を混合状態に適用することにより得られる結果を説明する。
次に、これらの知見をブラックホールの蒸発の文脈で検証し、情報はブラックホールインターツウィンダーを介して放射に伝達されると主張する。
ページ曲線を導出します。
上記のメカニズムは、ブラックホールの情報は位相的に保護されていることを示唆している。
没落するオブザーバーはドラマを経験しないでしょう。
これはファイアウォールや状態パズルにぶつかることなくユニタリティ問題を解くことができ、後者は一般化エントロピー計算で明らかである。
また, これらの知見から, ワームホールトポロジーの解明について考察した。
重力レプリカ計算におけるそれらの現象は、古いブラックホールを取り巻く放射と大気の最大相関と関連している可能性がある。
これは位相変化と近接地平線量子重力効果の関係を示唆するかもしれない。 The central question in this article is how information does leak out from black holes. Relying on algebraic arguments and the concept of superselection sectors, we propose the existence of certain operators whose correlations extend across the black hole atmosphere and range into the interior. Contained in the full algebra, these black hole intertwiners will not belong to the subalgebra describing semiclassical bulk physics. We study this proposal in the context of operator reconstructions for code spaces containing a large number of microstates. As long as the atmosphere is excluded from a particular subsystem, the global state seen under the action of the associated algebra is maximally mixed and therefore described by a single classical background. Once the relevant correlations are encoded, i.e. if the algebra is sufficiently enlarged, perfect state distinguishability becomes possible. We arrive at this by computing the von Neumann entropy which may explain the result obtained by applying the quantum extremal surface prescription to the mixed state. We then examine these insights in the context of black hole evaporation and argue that information is transferred to the radiation via black hole intertwiners. We derive the Page curve. The mechanism above suggests that black hole information is topologically protected. An infalling observer would experience no drama. This may resolve the unitarity problem without running into any firewall or state puzzle, the latter being evident in generalized entropy computations. We also examine the question of how certain wormhole topologies may be understood given these findings. We argue that their occurrence in gravity replica computations may be related to the maximal correlation between radiation and atmosphere surrounding the old black hole. This may suggest a connection between topology change and near horizon quantum gravitational effects. | 翻訳日:2024-01-25 18:28:06 公開日:2024-01-22 |
# 周期多角形における理論発見 Theorem Discovery Amongst Cyclic Polygons ( http://arxiv.org/abs/2401.13002v1 ) ライセンス: Link先を確認 | Philip Todd (Saltire Software) | (参考訳) 巡回2n-角上の幾何定理のクラスについて検討する。
n個の辺の非連結対を取り、それぞれが偶数個の多角形辺で分離すると、それらの辺の間の角度の線形結合が定数であることを証明する。
我々は線形結合の公式を示し、それらの角度の項で定理のステートメントを提供する。
この結果を用いて新しい幾何学的証明問題とその解を生成するプログラムについて述べる。 We examine a class of geometric theorems on cyclic 2n-gons. We prove that if we take n disjoint pairs of sides, each pair separated by an even number of polygon sides, then there is a linear combination of the angles between those sides which is constant. We present a formula for the linear combination, which provides a theorem statement in terms of those angles. We describe a program which uses this result to generate new geometry proof problems and their solutions. | 翻訳日:2024-01-25 16:29:42 公開日:2024-01-22 |
# patternportrait: 落書きの1つのように私を描きます PatternPortrait: Draw Me Like One of Your Scribbles ( http://arxiv.org/abs/2401.13001v1 ) ライセンス: Link先を確認 | Sabine Wieluch, Friedhelm Schwenker | (参考訳) 本稿では,絵画から抽象的な肖像画を作成する方法を紹介する。
その独特のスタイルは、単一のフリーハンドパターンスケッチを参照として利用して、シェーディングのためのユニークなパターンを生成する。
この方法は、画像から顔や身体の特徴を抽出し、それらをベクトル線に変換する。
この研究の重要な側面は、スケッチストローク表現をベクトル形式で学習し、多様なストローク変動を生成するように設計されたグラフニューラルネットワークアーキテクチャの開発である。
これら2つのアプローチの組み合わせは、ペンプロッターによって実現される楽しい抽象的な図面を生み出します。
提案プロセスは,約280人の参加者から肯定的なフィードバックを得た。 This paper introduces a process for generating abstract portrait drawings from pictures. Their unique style is created by utilizing single freehand pattern sketches as references to generate unique patterns for shading. The method involves extracting facial and body features from images and transforming them into vector lines. A key aspect of the research is the development of a graph neural network architecture designed to learn sketch stroke representations in vector form, enabling the generation of diverse stroke variations. The combination of these two approaches creates joyful abstract drawings that are realized via a pen plotter. The presented process garnered positive feedback from an audience of approximately 280 participants. | 翻訳日:2024-01-25 16:29:11 公開日:2024-01-22 |
# 量子インスパイアされた機械学習による分子ドッキング Quantum-Inspired Machine Learning for Molecular Docking ( http://arxiv.org/abs/2401.12999v1 ) ライセンス: Link先を確認 | Runqiu Shu, Bowen Liu, Zhaoping Xiong, Xiaopeng Cui, Yunting Li, Wei Cui, Man-Hong Yung and Nan Qiao | (参考訳) 分子ドッキングは構造に基づく薬物設計の重要なツールであり、薬物開発効率を加速する。
タンパク質と小さな分子の間の複雑な動的結合プロセスは、広い空間範囲で探索とサンプリングを必要とする。
結合部位やコンホメーションの探索による従来のドッキングは計算が複雑であり、盲点ドッキングでは不十分である。
量子特性とアニールを組み合わせた量子インスピレーションアルゴリズムは組合せ最適化問題の解法において大きな利点を示す。
これにより、量子インスパイアされたドッキングと、エンコードされた分子空間でディープラーニングによって学習された勾配を組み合わせることで、ブラインドドッキングが改善された。
数値シミュレーションにより,本手法は従来のドッキングアルゴリズムや深層学習に基づくアルゴリズムを10 %以上上回ることがわかった。
現在のディープラーニングベースのドッキングアルゴリズムであるdiffdockと比較して、top-1(rmsd<2)の成功率は、同じセットアップで33\%から35\%に向上した。
特に、diffdockで検出されていない分子データに対して、高精度領域(rmsd<1)において6\%改善を実現し、この方法の一般化を実証する。 Molecular docking is an important tool for structure-based drug design, accelerating the efficiency of drug development. Complex and dynamic binding processes between proteins and small molecules require searching and sampling over a wide spatial range. Traditional docking by searching for possible binding sites and conformations is computationally complex and results poorly under blind docking. Quantum-inspired algorithms combining quantum properties and annealing show great advantages in solving combinatorial optimization problems. Inspired by this, we achieve an improved in blind docking by using quantum-inspired combined with gradients learned by deep learning in the encoded molecular space. Numerical simulation shows that our method outperforms traditional docking algorithms and deep learning-based algorithms over 10\%. Compared to the current state-of-the-art deep learning-based docking algorithm DiffDock, the success rate of Top-1 (RMSD<2) achieves an improvement from 33\% to 35\% in our same setup. In particular, a 6\% improvement is realized in the high-precision region(RMSD<1) on molecules data unseen in DiffDock, which demonstrates the well-generalized of our method. | 翻訳日:2024-01-25 16:29:01 公開日:2024-01-22 |
# 再生粒子トンプソンサンプリング Regenerative Particle Thompson Sampling ( http://arxiv.org/abs/2203.08082v3 ) ライセンス: Link先を確認 | Zeyu Zhou, Bruce Hajek, Nakjung Choi, Anwar Walid | (参考訳) 本稿では, 再生粒子トンプソンサンプリング (RPTS) を提案する。
トンプソンサンプリングそのものは確率的バンディット問題を解決するベイズ的ヒューリスティックであるが、連続した後続分布を維持するという難しさのために実際に実装することは困難である。
粒子トンプソンサンプリング(英: particle thompson sampling、pts)は、連続分布を重み付き静粒子の集合で支持される離散分布に置き換えることで得られるトンプソンサンプリングの近似である。
PTSでは、いくつかの適合粒子を除く全ての重みが0に収束する。
RPTSは、崩壊する不適合粒子を除去し、不適合粒子の近傍で新しい粒子を再生する、というヒューリスティックに基づいている。
実証的な証拠は、RPTSからRPTSへの均一な改善と、5Gネットワークスライシングへの応用を含む一連の代表的な帯域幅問題に対するRPTSの柔軟性と有効性を示している。 This paper proposes regenerative particle Thompson sampling (RPTS), a flexible variation of Thompson sampling. Thompson sampling itself is a Bayesian heuristic for solving stochastic bandit problems, but it is hard to implement in practice due to the intractability of maintaining a continuous posterior distribution. Particle Thompson sampling (PTS) is an approximation of Thompson sampling obtained by simply replacing the continuous distribution by a discrete distribution supported at a set of weighted static particles. We observe that in PTS, the weights of all but a few fit particles converge to zero. RPTS is based on the heuristic: delete the decaying unfit particles and regenerate new particles in the vicinity of fit surviving particles. Empirical evidence shows uniform improvement from PTS to RPTS and flexibility and efficacy of RPTS across a set of representative bandit problems, including an application to 5G network slicing. | 翻訳日:2024-01-24 20:32:28 公開日:2024-01-22 |
# サイエンスニュースにおける著者の思い込み : 名前付きエスニシティの幅広さ Author Mentions in Science News Reveal Widespread Disparities Across Name-inferred Ethnicities ( http://arxiv.org/abs/2009.01896v3 ) ライセンス: Link先を確認 | Hao Peng, Misha Teplitskiy, David Jurgens | (参考訳) メディアは、科学的な知識を一般大衆に広める上で重要な役割を担い、仲間の研究者のプロファイルを高める。
しかし、ジャーナリストが物語に研究者を紹介する方法はあまり理解されていない。
288の米国メディアからの223,587のニュース記事の包括的なデータセットを使って、あらゆる科学分野の100,486の研究論文を報告し、著者の民族が、名前から推測されるように、ジャーナリストが明示的に名前を挙げているかどうかを検証した。
研究論文のニュースメディアに注目することで、私たちの分析は、名前の言及の違いが研究の質やニュース性の違いによって引き起こされるという懸念を減らします。
我々は、民族的に差別的な名前の言及率にかなりの格差を見出した。
英語以外の名前を持つ研究者、特に東アジアとアフリカの名前を持つ研究者は、特定の研究テーマで特定の科学会場の出版物に関する特定のニュースソースの記事を比較しても、彼らの研究をカバーするニュース記事の中で言及される可能性がかなり低い。
両者の相違は著者の所属地域によって完全に説明されず、面接のスケジューリングが困難であるなどの現実的な要因が一部の役割を担っていることを示唆している。
さらに、アメリカの作家の間では、ジャーナリストは非アングロ名作家を指す際に、名前の代わりに著者の施設を使うことが多く、ジャーナリストの修辞的選択も重要であることを示唆している。
全体として、今回の研究では、研究者が研究のメディア報道でどのように説明されているかに民族的格差がある証拠が見つかりました。 Media outlets play a key role in spreading scientific knowledge to the general public and raising the profile of researchers among their peers. Yet, how journalists choose to present researchers in their stories is poorly understood. Using a comprehensive dataset of 223,587 news stories from 288 U.S. outlets reporting on 100,486 research papers across all areas of science, we investigate if the authors' ethnicities, as inferred from names, are associated with whether journalists explicitly mention them by name. By focusing on research papers news outlets chose to cover, our analysis reduces concerns that differences in name mentions are driven by differences in research quality or newsworthiness. We find substantial disparities in name mention rates across ethnically-distinctive names. Researchers with non-Anglo names, especially those with East Asian and African names, are significantly less likely to be mentioned in news stories covering their research, even when comparing stories from a particular news outlet reporting on publications in a particular scientific venue on a particular research topic. The disparities are not fully explained by authors' affiliation locations, suggesting that pragmatic factors such as difficulties in scheduling interviews play only a partial role. Furthermore, among U.S.-based authors, journalists more often use authors' institutions instead of names when referring to non-Anglo-named authors, suggesting that journalists' rhetorical choices are also key. Overall, this study finds evidence of ethnic disparities in how researchers are described in the media coverage of their research, likely affecting thousands of non-Anglo-named scholars in our data alone. | 翻訳日:2024-01-24 20:29:53 公開日:2024-01-22 |
# スマートロボット支援環境における異常検出のためのウェーブレットに基づくヒト活動の時間モデル Wavelet-based temporal models of human activity for anomaly detection in smart robot-assisted environments ( http://arxiv.org/abs/2002.11503v3 ) ライセンス: Link先を確認 | Manuel Fernandez-Carmona, Sariah Mghames and Nicola Bellotto | (参考訳) 抽象。
センサデータのパターンにおける異常の検出は、アクティブ・アシスト・リビング(aal)のための国内活動監視を含む、多くの実用的な応用において重要である。
しかし、これらのパターンをどう表現し分析するかは、特にデータが比較的乏しく、明示的なモデルが特定のシナリオに対して微調整される必要がある場合、依然として難しい課題である。
そこで本稿では,ロボット支援環境における異常状況検出に使用されるスマートホームセンサを用いた,長期的人間活動の時間的モデリング手法を提案する。
このモデルはウェーブレット変換に基づいており、スマートセンサーデータの予測に使われ、人間の環境における予期せぬ事象を検知する時間前を提供する。
この目的のために、バイナリセンサー、エキスパートロジックルール、ウェーブレットベースの時間モデルなど、さまざまな異常指標をマージするハイブリッドマルコフ論理ネットワークの新たな拡張が開発された。
特に後者では、より単純な周波数ベースモデルでは検出できない長期活動パターンからの逸脱を推論システムが検出することができる。
2つの新しいデータセットが、いくつかのスマートセンサーを使用して収集され、オフィスおよび国内シナリオにおけるアプローチを評価した。
実験結果は, 提案手法の有効性と, 複雑な人間環境への展開の成功を実証し, 今後のスマートホーム・ロボット統合サービスへの可能性を示した。 Abstract. Detecting anomalies in patterns of sensor data is important in many practical applications, including domestic activity monitoring for Active Assisted Living (AAL). How to represent and analyse these patterns, however, remains a challenging task, especially when data is relatively scarce and an explicit model is required to be fine-tuned for specific scenarios. This paper, therefore, presents a new approach for temporal modelling of long-term human activities with smart-home sensors, which is used to detect anomalous situations in a robot-assisted environment. The model is based on wavelet transforms and used to forecast smart sensor data, providing a temporal prior to detect unexpected events in human environments. To this end, a new extension of Hybrid Markov Logic Networks has been developed that merges different anomaly indicators, including activities detected by binary sensors, expert logic rules, and wavelet-based temporal models. The latter in particular allows the inference system to discover deviations from long-term activity patterns, which cannot be detected by simpler frequency-based models. Two new publicly available datasets were collected using several smart-sensors to evaluate the approach in office and domestic scenarios. The experimental results demonstrate the effectiveness of the proposed solutions and their successful deployment in complex human environments, showing their potential for future smart-home and robot integrated services. | 翻訳日:2024-01-24 20:29:08 公開日:2024-01-22 |
# 2.75d: 小型データのための2次元特徴への3次元医用画像表現による学習の促進 2.75D: Boosting learning by representing 3D Medical imaging to 2D features for small data ( http://arxiv.org/abs/2002.04251v3 ) ライセンス: Link先を確認 | Xin Wang, Ruisheng Su, Weiyi Xie, Wenjin Wang, Yi Xu, Ritse Mann, Jungong Han, Tao Tan | (参考訳) 医学データ駆動学習において、3D畳み込みニューラルネットワーク(CNN)は、多くのディープラーニングタスクにおいて、2D CNNよりも優れた性能を示し始め、特徴表現に3D空間情報の付加価値が証明されている。
しかし、より多くのトレーニングサンプルを集結させるのが難しく、計算資源が増え、実行時間が長くなるため、このアプローチは適用しにくくなる。
また、3D CNNにトランスファーラーニングを適用することは、公開トレーニング済みの3Dモデルがないために困難である。
これらの課題に対処するため,我々は2.75Dという,ボリュームデータの2次元戦略的表現を提案する。
本研究では3次元画像の空間情報をスパイラルスピン法により単一の2次元ビューでキャプチャする。
その結果,2次元CNNネットワークをボリューム情報学習に用いることが可能となった。
さらに、下流視覚問題に事前学習した2D CNNを活用できる。
また、マルチビュー 2.75D 戦略 2.75D 3 チャネル (2.75Dx3) も検討し、2.75D の利点を高める。
分類作業における2D, 2.5D, 3Dに対して, 形態や臓器の異なる3つの公開データセット(Lung CT, Breast MRI, Prostate MRI)を用いて提案手法の評価を行った。
その結果,提案手法は肺データセットのスクラッチから全手法をトレーニングした場合,他の手法よりも有意に優れていた。
このような性能向上は、転送学習や限られたトレーニングデータの場合よりも顕著である。
我々の手法は他のデータセットで同等のパフォーマンスを達成した。
さらに, 2.5D法や3D法と比較して, トレーニングと推論の時間消費を大幅に削減した。 In medical-data driven learning, 3D convolutional neural networks (CNNs) have started to show superior performance to 2D CNNs in numerous deep learning tasks, proving the added value of 3D spatial information in feature representation. However, the difficulty in collecting more training samples to converge, more computational resources and longer execution time make this approach less applied. Also, applying transfer learning on 3D CNN is challenging due to a lack of publicly available pre-trained 3D models. To tackle these issues, we proposed a novel 2D strategical representation of volumetric data, namely 2.75D. In this work, the spatial information of 3D images is captured in a single 2D view by a spiral-spinning technique. As a result, 2D CNN networks can also be used to learn volumetric information. Besides, we can fully leverage pre-trained 2D CNNs for downstream vision problems. We also explore a multi-view 2.75D strategy, 2.75D 3 channels (2.75Dx3), to boost the advantage of 2.75D. We evaluated the proposed methods on three public datasets with different modalities or organs (Lung CT, Breast MRI, and Prostate MRI), against their 2D, 2.5D, and 3D counterparts in classification tasks. Results show that the proposed methods significantly outperform other counterparts when all methods were trained from scratch on the lung dataset. Such performance gain is more pronounced with transfer learning or in the case of limited training data. Our methods also achieved comparable performance on other datasets. In addition, our methods achieved a substantial reduction in time consumption of training and inference compared with the 2.5D or 3D method. | 翻訳日:2024-01-24 20:28:44 公開日:2024-01-22 |
# ニューラルレンデブー : 星間物体の観測におけるロバスト誘導と制御 Neural-Rendezvous: Provably Robust Guidance and Control to Encounter Interstellar Objects ( http://arxiv.org/abs/2208.04883v2 ) ライセンス: Link先を確認 | Hiroyasu Tsukamoto, Soon-Jo Chung, Benjamin Donitz, Michel Ingham, Declan Mages, Yashwanth Kumar Nakka | (参考訳) 恒星間天体 (isos) は、太陽系外惑星系を理解する上で貴重な原始物質の代表である。
しかし、一般に高い傾斜と相対速度を持つ制約の少ない軌道のため、従来の人軌道アプローチによるisoの探索は極めて困難である。
本稿では, isosを含む高速に動く物体に対して,ロバストに,正確に,かつ自律的にリアルタイムに遭遇するための,深層学習に基づく誘導制御フレームワークneural-rendezvousを提案する。
スペクトル正規化ディープニューラルネットワークによってモデル化された誘導ポリシーの上に、ポイントワイズ最小ノルムトラッキング制御を使用し、そのハイパーパラメータはMPC状態軌跡追跡エラーを直接ペナルティ化する損失関数でチューニングされる。
Neural-Rendezvous は、期待される宇宙船の配送誤差に高い確率指数的境界を与え、その証明は確率的漸進安定性解析を利用することを示す。
特に、ISO状態の不確かさと非線形状態推定保証の局所的性質を明示的に考慮し、スーパーマーチンゲール特性を持つ非負関数を構築するために用いられる。
数値シミュレーションでは、100のISO候補に対して期待される誤差を満たすことが示される。
この性能は、我々の宇宙船シミュレーターと、最大20UAVの高度かつ分散されたUAV群再構成を用いて実証的に検証されている。 Interstellar objects (ISOs) are likely representatives of primitive materials invaluable in understanding exoplanetary star systems. Due to their poorly constrained orbits with generally high inclinations and relative velocities, however, exploring ISOs with conventional human-in-the-loop approaches is significantly challenging. This paper presents Neural-Rendezvous, a deep learning-based guidance and control framework for encountering fast-moving objects, including ISOs, robustly, accurately, and autonomously in real time. It uses pointwise minimum norm tracking control on top of a guidance policy modeled by a spectrally-normalized deep neural network, where its hyperparameters are tuned with a loss function directly penalizing the MPC state trajectory tracking error. We show that Neural-Rendezvous provides a high probability exponential bound on the expected spacecraft delivery error, the proof of which leverages stochastic incremental stability analysis. In particular, it is used to construct a non-negative function with a supermartingale property, explicitly accounting for the ISO state uncertainty and the local nature of nonlinear state estimation guarantees. In numerical simulations, Neural-Rendezvous is demonstrated to satisfy the expected error bound for 100 ISO candidates. This performance is also empirically validated using our spacecraft simulator and in high-conflict and distributed UAV swarm reconfiguration with up to 20 UAVs. | 翻訳日:2024-01-24 20:20:07 公開日:2024-01-22 |
# 正規化クロス密度汎関数:確率過程の統計的依存性を定量化する枠組み The Normalized Cross Density Functional: A Framework to Quantify Statistical Dependence for Random Processes ( http://arxiv.org/abs/2212.04631v2 ) ライセンス: Link先を確認 | Bo Hu and Jose C. Principe | (参考訳) 本稿では,Alfr\'ed R\'enyi にインスパイアされた機能的方法論を用いて,2つの連続乱数過程(r.p.)間の統計的依存の多変量定義を提案する。
ここで正規化交叉密度 (ncd) と呼ばれる r.p. の対のサンプル間の相互情報の対数の議論は、対称かつ自己随伴な正定値関数を定義する。
入力サンプルペアの結合確率密度のそれぞれに適用される交互共分散推定(ACE)再帰の最大化は、Renyiの最大相関のすべての特性に従うことを示す。
我々は、入力と出力r.pの間の統計的依存の新たな多変量尺度として、NCDの固有スペクトルを提案する。
提案した関数最大相関アルゴリズム(FMCA)は、2つのニューラルネットワークから構築された機械学習アーキテクチャに適用され、互いに出力を近似することで同時に学習する。
FMCA最適解は、クロス密度カーネルの固有スペクトルを推定する平衡点であることを示す。
合成データと中規模の画像データセットによる予備的な結果が理論を裏付ける。
クロス密度カーネルを適用する4つの異なる戦略が提案され、教師あり学習を超越した方法論の汎用性と安定性を示すために徹底的に議論された。
より具体的には、2つのランダムプロセスが高次元実世界画像と白色一様ノイズ処理である場合、アルゴリズムは、訓練画像セットに特定の入力が存在することを保証し、機能学習にとって非常に重要な因子コード(すなわち、コードの発生)を学習する。 This paper proposes a novel multivariate definition of statistical dependence between two continuous random processes (r.p.) using a functional methodology inspired by Alfr\'ed R\'enyi. The argument of the logarithm of mutual information between pairs of samples of a r.p., named here the normalized cross density (NCD), defines a symmetric and self-adjoint positive definite function. We show that maximizing the alternating covariance estimation (ACE) recursion, applied to each of the joint probability density of input sample pairs, obeys all the properties of Renyi's maximal correlation. We propose the NCD's eigenspectrum as a novel multivariate measure of the statistical dependence between the input and output r.p. The multivariate statistical dependence can also be estimated directly from r.p. realizations. The proposed functional maximum correlation algorithm (FMCA) is applied to a machine learning architecture built from two neural networks that learn concurrently by approximating each others' outputs. We prove that the FMCA optimal solution is an equilibrium point that estimates the eigenspectrum of the cross density kernel. Preliminary results with synthetic data and medium size image datasets corroborate the theory. Four different strategies of applying the cross density kernel are proposed and thoroughly discussed to show the versatility and stability of the methodology, which transcends supervised learning. More specifically, when the two random processes are high-dimensional real-world images and a white uniform noise process, the algorithm learns a factorial code i.e., the occurrence of a code guarantees that a certain input in the training image set was present, which is quite important for feature learning. | 翻訳日:2024-01-24 20:05:57 公開日:2024-01-22 |
# ジピット!
異なるタスクからトレーニングなしでモデルをマージする ZipIt! Merging Models from Different Tasks without Training ( http://arxiv.org/abs/2305.03053v2 ) ライセンス: Link先を確認 | George Stoica, Daniel Bolya, Jakob Bjorner, Pratik Ramesh, Taylor Hearn, Judy Hoffman | (参考訳) 一般的なディープビジュアル認識モデルは、訓練されたタスクを実行することができる。
本稿では,異なる初期化モデルと異なる初期化モデルを組み合わせて,個別のタスクを1つのマルチタスクモデルに組み合わせることの難しさに対処する。
モデルマージにおける事前の作業は、1つのモデルをもう1つのモデル空間に置換し、それらを平均化する。
これは同じタスクでトレーニングされたモデルに当てはまるが、非結合タスクでトレーニングされたモデルの違いを考慮するのに失敗する。
そこで我々は,2つの簡単な戦略を組み込んだ,同じアーキテクチャの2つの任意のモデルを統合する一般的な手法であるZipIt!を紹介する。
まず,モデル間で共有されていない特徴を考慮し,モデルマージ問題を拡張して,一般的なzip操作を定義することにより,各モデル内の機能マージを可能にする。
第二に、我々はモデルを特定の層まで部分的にジップし、自然にマルチヘッドモデルを作成するサポートを追加します。
これらの2つの変更は、事前の作業よりも20~60%改善されているため、非結合タスクでトレーニングされたモデルを再トレーニングせずにマージしやすくなる。 Typical deep visual recognition models are capable of performing the one task they were trained on. In this paper, we tackle the extremely difficult problem of combining distinct models with different initializations, each solving a separate task, into one multi-task model without any additional training. Prior work in model merging permutes one model to the space of the other then averages them together. While this works for models trained on the same task, we find that this fails to account for the differences in models trained on disjoint tasks. Thus, we introduce "ZipIt!", a general method for merging two arbitrary models of the same architecture that incorporates two simple strategies. First, in order to account for features that aren't shared between models, we expand the model merging problem to allow for merging features within each model by defining a general "zip" operation. Second, we add support for partially zipping the models up until a specified layer, naturally creating a multi-head model. We find that these two changes combined account for 20-60% improvement over prior work, making it more feasible to merge models trained on disjoint tasks without retraining. | 翻訳日:2024-01-24 19:56:25 公開日:2024-01-22 |
# 非エルミート系における位相的モノモード Topological Monomodes in non-Hermitian Systems ( http://arxiv.org/abs/2304.05748v3 ) ライセンス: Link先を確認 | E. Slootman, W. Cherifi, L. Eek, R. Arouca, E. J. Bergholtz, M. Bourennane, C. Morais Smith | (参考訳) 対称性は現代物理学の基盤の1つであり、異なる領域に深く影響している。
トポロジカルシステムでは、これらの物質が示す魅力的な性質の中心にある表面状態を保護するために対称性が責任を負う。
エッジモードを保護する対称性が破れると、位相相は自明になる。
トポロジカルエルミート相を保護する対称性を破る工学的損失により、新しい真の非エルミート対称性が出現し、トポロジカルモノモデという境界モードの1つを保護し、選択する。
さらに、非エルミート系の位相は、より高次元の有効なエルミートハミルトニアンによって特徴づけられる。
この理論を裏付けるために,フォトニック格子を用いた非エルミート 1D と 2D SSH モデルを実験的に検討した。
我々は、存在する(非エルミート)対称性の観点からシステムを分類し、対応する位相不変量を計算する。
トポロジカルモノモディは、組換えの防止によってコーナー状態の堅牢性を高めるため、フォトニクスや量子光学に深く影響する可能性がある。 Symmetry is one of the cornerstones of modern physics and has profound implications in different areas. In topological systems, symmetries are responsible for protecting surface states, which are at the heart of the fascinating properties exhibited by these materials. When the symmetry protecting the edge mode is broken, the topological phase becomes trivial. By engineering losses that break the symmetry protecting a topological Hermitian phase, we show that a new genuinely non-Hermitian symmetry emerges, which protects and selects one of the boundary modes: the topological monomode. Moreover, the topology of the non-Hermitian system can be characterized by an effective Hermitian Hamiltonian in a higher dimension. To corroborate the theory, we experimentally investigated the non-Hermitian 1D and 2D SSH models using photonic lattices and observed dynamically generated monomodes in both cases. We classify the systems in terms of the (non-Hermitian) symmetries that are present and calculate the corresponding topological invariants. Our findings might have profound implications for photonics and quantum optics because topological monomodes increase the robustness of corner states by preventing recombination. | 翻訳日:2024-01-24 19:53:58 公開日:2024-01-22 |
# 文脈化文学に基づく発見による新しい科学的方向の学習 Learning to Generate Novel Scientific Directions with Contextualized Literature-based Discovery ( http://arxiv.org/abs/2305.14259v4 ) ライセンス: Link先を確認 | Qingyun Wang, Doug Downey, Heng Ji, Tom Hope | (参考訳) 文学に基づく発見(LBD)は、論文の採掘と仮説の生成によって新しい科学的知識を発見することを目的としている。
標準LBDは、離散概念(例えば、薬物放出リンク)のペアワイズ関係の予測に限られており、実験的な設定(例えば、薬物が評価される特定の患者集団)や背景動機(例えば、特定の副作用のない薬物を見つけるために)のような重要な文脈を無視する。
これらの制約を文脈化されたLBD (C-LBD) の新たな定式化によって解決し、仮説探索空間を制御するコンテキストに基礎を置いている。
本稿では,過去の学術論文から<inspirations'を検索したモデルフレームワークを提案する。
評価の結果、gpt-4は技術的な奥行きが低く斬新なアイデアを生み出す傾向にあり、私たちのインスピレーションを促すアプローチがこの問題を部分的に緩和していることが明らかとなった。
私たちの研究は、科学文献から新たなアイデアを生み出す言語モデルを構築するための第一歩です。 Literature-Based Discovery (LBD) aims to discover new scientific knowledge by mining papers and generating hypotheses. Standard LBD is limited to predicting pairwise relations between discrete concepts (e.g., drug-disease links), and ignores critical contexts like experimental settings (e.g., a specific patient population where a drug is evaluated) and background motivations (e.g., to find drugs without specific side effects). We address these limitations with a novel formulation of contextualized-LBD (C-LBD): generating scientific hypotheses in natural language, while grounding them in a context that controls the hypothesis search space. We present a modeling framework using retrieval of ``inspirations'' from past scientific papers. Our evaluations reveal that GPT-4 tends to generate ideas with overall low technical depth and novelty, while our inspiration prompting approaches partially mitigate this issue. Our work represents a first step toward building language models that generate new ideas derived from scientific literature. | 翻訳日:2024-01-24 19:41:49 公開日:2024-01-22 |
# カラムジェネレーションに基づく分類木学習のための数学的改良 An improved column-generation-based matheuristic for learning classification trees ( http://arxiv.org/abs/2308.11477v2 ) ライセンス: Link先を確認 | Krunal Kishor Patel, Guy Desaulniers, Andrea Lodi | (参考訳) 決定木は機械学習(ML)の分類問題を解くための非常に解釈可能なモデルである。
決定木を訓練するための標準的なMLアルゴリズムは高速だが、精度の点で最適木を生成する。
論文の他の離散最適化モデルは最適性問題に対処するが、比較的小さなデータセットでのみうまく機能する。
\cite{firat2020column} は列生成に基づく決定木学習のためのヒューリスティックアプローチを提案した。
このアプローチはスケーラビリティを改善し、大規模なデータセットで動作する。
本稿では,このカラム生成手法の改良について述べる。
まず、サブプロブレムモデルを変更し、マルチクラス分類インスタンスにおけるサブプロブレムの数を大幅に削減する。
次に,マスタ問題におけるデータ依存制約が含意していることを示し,それらを切断平面として用いる。
さらに,線形計画緩和解が対応する制約に違反するデータポイントを生成するための分離モデルについて述べる。
これらの修正によってスケーラビリティが向上することを示す計算結果を提示して結論付ける。 Decision trees are highly interpretable models for solving classification problems in machine learning (ML). The standard ML algorithms for training decision trees are fast but generate suboptimal trees in terms of accuracy. Other discrete optimization models in the literature address the optimality problem but only work well on relatively small datasets. \cite{firat2020column} proposed a column-generation-based heuristic approach for learning decision trees. This approach improves scalability and can work with large datasets. In this paper, we describe improvements to this column generation approach. First, we modify the subproblem model to significantly reduce the number of subproblems in multiclass classification instances. Next, we show that the data-dependent constraints in the master problem are implied, and use them as cutting planes. Furthermore, we describe a separation model to generate data points for which the linear programming relaxation solution violates their corresponding constraints. We conclude by presenting computational results that show that these modifications result in better scalability. | 翻訳日:2024-01-24 19:33:05 公開日:2024-01-22 |
# A type $I$ クロス製品の近似 A Type $I$ Approximation of the Crossed Product ( http://arxiv.org/abs/2307.12481v4 ) ライセンス: Link先を確認 | Ronak M Soni | (参考訳) 私は、タイプ$III_{1}$代数学からタイプ$II$代数学への横断積構成の類似が、タイプ$I$の場合にも存在することを示します。
これは、局所代数が$i$因子の非自明な直和であるときに特に自然である。
具体的には、通常の$i$トレースを別の方法で書き直し、再正規化します。
この新しい再正規化トレースは、各因子がタイプされたときにもよく定義されている。
私は、コード内の中央演算子に異なる制約を課すことで、タイプ$II_{\infty}$とタイプ$II_{1}$ algebraの両方を回復できます。
この構造の例はホログラフィック量子誤り訂正符号に現れ、中心演算子は領域演算子である。 I show that an analog of the crossed product construction that takes type $III_{1}$ algebras to type $II$ algebras exists also in the type $I$ case. This is particularly natural when the local algebra is a non-trivial direct sum of type $I$ factors. Concretely, I rewrite the usual type $I$ trace in a different way and renormalise it. This new renormalised trace stays well-defined even when each factor is taken to be type $III$. I am able to recover both type $II_{\infty}$ as well as type $II_{1}$ algebras by imposing different constraints on the central operator in the code. An example of this structure appears in holographic quantum error-correcting codes; the central operator is then the area operator. | 翻訳日:2024-01-24 19:32:04 公開日:2024-01-22 |
# CasTGAN:リアルなタブラルデータ合成のためのカスケード生成逆ネットワーク CasTGAN: Cascaded Generative Adversarial Network for Realistic Tabular Data Synthesis ( http://arxiv.org/abs/2307.00384v2 ) ライセンス: Link先を確認 | Abdallah Alshantti, Damiano Varagnolo, Adil Rasheed, Aria Rahmati and Frank Westad | (参考訳) generative adversarial networks (gans) は、多目的に使用できる合成データを生成する能力が証明されたことで、近年かなりの注目を集めている。
ganは、オリジナルのデータセットのダイナミクスを再現する合成データサンプルの作成に多大な成功を収めているが、合成データの妥当性と基礎となるプライバシ上の懸念は、十分に対処されていない大きな課題を表している。
本研究では,出力の妥当性に焦点を絞った現実的な表データを生成するためのカスケード付きganフレームワーク(castgan)を設計する。
この文脈では、妥当性とは、実際のデータに見られる特徴間の依存関係を指すが、通常は伝統的な生成モデルによって誤解される。
私たちのキーとなるアイデアは、専用のジェネレータが各特徴をサンプリングするカスケードアーキテクチャを利用することで、合成出力が実際のデータより代表的になるということです。
実験により,我々のモデルは,機械学習モデルに適合する合成表データを生成することができることを示した。
さらに,本モデルでは,実データの特徴,特に高次元データセット間の制約や相関関係をよく捉えている。
さらに,本モデルに対するホワイトボックス・プライバシ攻撃のリスクを評価した結果,CasTGANの補助学習者に対する摂動がターゲット攻撃に対するモデル全体の堅牢性を高めることを示した。 Generative adversarial networks (GANs) have drawn considerable attention in recent years for their proven capability in generating synthetic data which can be utilised for multiple purposes. While GANs have demonstrated tremendous successes in producing synthetic data samples that replicate the dynamics of the original datasets, the validity of the synthetic data and the underlying privacy concerns represent major challenges which are not sufficiently addressed. In this work, we design a cascaded tabular GAN framework (CasTGAN) for generating realistic tabular data with a specific focus on the validity of the output. In this context, validity refers to the the dependency between features that can be found in the real data, but is typically misrepresented by traditional generative models. Our key idea entails that employing a cascaded architecture in which a dedicated generator samples each feature, the synthetic output becomes more representative of the real data. Our experimental results demonstrate that our model is capable of generating synthetic tabular data that can be used for fitting machine learning models. In addition, our model captures well the constraints and the correlations between the features of the real data, especially the high dimensional datasets. Furthermore, we evaluate the risk of white-box privacy attacks on our model and subsequently show that applying some perturbations to the auxiliary learners in CasTGAN increases the overall robustness of our model against targeted attacks. | 翻訳日:2024-01-24 19:31:04 公開日:2024-01-22 |
# QH9:QM9分子の量子ハミルトン予測ベンチマーク QH9: A Quantum Hamiltonian Prediction Benchmark for QM9 Molecules ( http://arxiv.org/abs/2306.09549v3 ) ライセンス: Link先を確認 | Haiyang Yu, Meng Liu, Youzhi Luo, Alex Strasser, Xiaofeng Qian, Xiaoning Qian, Shuiwang Ji | (参考訳) 教師付き機械学習アプローチは、密度汎関数理論(DFT)のような第一原理計算手法の代用として、電子構造予測の加速にますます利用されている。
多くの量子化学データセットは化学的性質と原子力に焦点を当てているが、物理系と化学特性の量子状態を決定する最も重要かつ基本的な物理量であるため、ハミルトン行列の正確かつ効率的な予測を達成する能力は非常に望ましい。
本研究では、量子ハミルトニアンデータセットqh9を作成し、qm9データセットに基づいて、999の分子動力学軌道と130,831の安定な分子幾何学のための正確なハミルトニアン行列を提供する。
様々な分子を用いてベンチマークタスクを設計することにより、現在の機械学習モデルは任意の分子に対するハミルトン行列を予測する能力を有することを示す。
QH9データセットとベースラインモデルの両方がオープンソースベンチマークを通じてコミュニティに提供されており、機械学習手法の開発や、科学および技術応用のための分子および材料設計の加速に非常に有用である。
私たちのベンチマークはhttps://github.com/divelab/AIRS/tree/main/OpenDFT/QHBenchで公開されています。 Supervised machine learning approaches have been increasingly used in accelerating electronic structure prediction as surrogates of first-principle computational methods, such as density functional theory (DFT). While numerous quantum chemistry datasets focus on chemical properties and atomic forces, the ability to achieve accurate and efficient prediction of the Hamiltonian matrix is highly desired, as it is the most important and fundamental physical quantity that determines the quantum states of physical systems and chemical properties. In this work, we generate a new Quantum Hamiltonian dataset, named as QH9, to provide precise Hamiltonian matrices for 999 molecular dynamics trajectories and 130,831 stable molecular geometries, based on the QM9 dataset. By designing benchmark tasks with various molecules, we show that current machine learning models have the capacity to predict Hamiltonian matrices for arbitrary molecules. Both the QH9 dataset and the baseline models are provided to the community through an open-source benchmark, which can be highly valuable for developing machine learning methods and accelerating molecular and materials design for scientific and technological applications. Our benchmark is publicly available at https://github.com/divelab/AIRS/tree/main/OpenDFT/QHBench. | 翻訳日:2024-01-24 19:28:31 公開日:2024-01-22 |
# DiariST:話者ダイアリゼーションを用いたストリーム音声翻訳 DiariST: Streaming Speech Translation with Speaker Diarization ( http://arxiv.org/abs/2309.08007v2 ) ライセンス: Link先を確認 | Mu Yang, Naoyuki Kanda, Xiaofei Wang, Junkun Chen, Peidong Wang, Jian Xue, Jinyu Li, Takuya Yoshioka | (参考訳) 会話記録のためのエンドツーエンド音声翻訳(ST)には、正確な単語タイムスタンプのない話者ダイアリゼーション(SD)や、ストリーミング方式で重複する音声の処理など、未解決の課題がいくつか含まれている。
本研究では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築されており、トークンレベルのシリアライズされた出力トレーニングとtベクトルを統合している。
この領域における評価ベンチマークが欠如しているため、アリミートコーパスの参照中国語転写を英語に翻訳し、新しい評価データセット diarist-alimeeting を開発した。
また,sd精度を考慮しながらst品質を測定するために,話者非依存bleuおよび話者帰属bleuと呼ばれる新しい指標を提案する。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
この新たな方向の研究を容易にするために,評価データ,オフラインベースラインシステム,評価コードをリリースする。 End-to-end speech translation (ST) for conversation recordings involves several under-explored challenges such as speaker diarization (SD) without accurate word time stamps and handling of overlapping speech in a streaming fashion. In this work, we propose DiariST, the first streaming ST and SD solution. It is built upon a neural transducer-based streaming ST system and integrates token-level serialized output training and t-vector, which were originally developed for multi-talker speech recognition. Due to the absence of evaluation benchmarks in this area, we develop a new evaluation dataset, DiariST-AliMeeting, by translating the reference Chinese transcriptions of the AliMeeting corpus into English. We also propose new metrics, called speaker-agnostic BLEU and speaker-attributed BLEU, to measure the ST quality while taking SD accuracy into account. Our system achieves a strong ST and SD capability compared to offline systems based on Whisper, while performing streaming inference for overlapping speech. To facilitate the research in this new direction, we release the evaluation data, the offline baseline systems, and the evaluation code. | 翻訳日:2024-01-24 19:20:07 公開日:2024-01-22 |
# 片半反射エントロピーは浄化の絡み合いの低い境界ではない One-half reflected entropy is not a lower bound for entanglement of purification ( http://arxiv.org/abs/2309.02506v2 ) ライセンス: Link先を確認 | Josiah Couch, Phuc Nguyen, Sarah Racz, Georgios Stratis, Yuxuan Zhang | (参考訳) 最近の研究で、Akers et al. は、精製の絡み合い$E_p(A:B)$が$q$-R\enyiの反射エントロピー$S_R^{(q)}(A:B)$の下の半分で有界であることを証明し、すべての$q\geq2$に対して$E_p(A:B) = \frac{1}{2} S_R^{(q)}(A:B)$がランダムなテンソルネットワーク状態のクラスに対して成り立つことを示した。
自然に、著者は同様の境界が$q = 1$ であるかどうかという疑問を提起する。
我々の研究は、数値最適化によって得られる明確な反例を見つけることで、負の質問に答える。
しかしながら、この結果は、半古典的な重力双対を持つ CFT 状態のような制限された状態の集合が問題となる境界に従う可能性を妨げるものではない。 In recent work, Akers et al. proved that the entanglement of purification $E_p(A:B)$ is bounded below by half of the $q$-R\'enyi reflected entropy $S_R^{(q)}(A:B)$ for all $q\geq2$, showing that $E_p(A:B) = \frac{1}{2} S_R^{(q)}(A:B)$ for a class of random tensor network states. Naturally, the authors raise the question of whether a similar bound holds at $q = 1$. Our work answers that question in the negative by finding explicit counter-examples, which we arrive at through numerical optimization. Nevertheless, this result does not preclude the possibility that restricted sets of states, such as CFT states with semi-classical gravity duals, could obey the bound in question. | 翻訳日:2024-01-24 19:19:15 公開日:2024-01-22 |
# 顔のランドマーク検出とドメイン分離・再構築の協調学習による顔行動単位検出の促進 Boosting Facial Action Unit Detection Through Jointly Learning Facial Landmark Detection and Domain Separation and Reconstruction ( http://arxiv.org/abs/2310.05207v2 ) ライセンス: Link先を確認 | Ziqiao Shang, Li Yu | (参考訳) 近年,非ラベル顔画像の多数を監督的顔行動単位(AU)検出フレームワークに導入する方法が課題となっている。
本稿では,AUドメインの分離と再構築,および顔のランドマーク検出をホモ構造的顔抽出モジュールのパラメータを共有することで共同で学習するマルチタスク学習を実現する新しいAU検出フレームワークを提案する。
さらに,単純なプロジェクタによるコントラスト学習に基づく新たな特徴アライメントスキームと,コントラスト損失の改善を提案する。
2つのベンチマークによる実験結果は、野生でのAU検出の最先端手法に対する我々の優位性を示している。 Recently how to introduce large amounts of unlabeled facial images in the wild into supervised Facial Action Unit (AU) detection frameworks has become a challenging problem. In this paper, we propose a new AU detection framework where multi-task learning is introduced to jointly learn AU domain separation and reconstruction and facial landmark detection by sharing the parameters of homostructural facial extraction modules. In addition, we propose a new feature alignment scheme based on contrastive learning by simple projectors and an improved contrastive loss, which adds four additional intermediate supervisors to promote the feature reconstruction process. Experimental results on two benchmarks demonstrate our superiority against the state-of-the-art methods for AU detection in the wild. | 翻訳日:2024-01-24 19:06:53 公開日:2024-01-22 |
# genai against humanity: 生成型人工知能と大規模言語モデルの有害な応用 GenAI Against Humanity: Nefarious Applications of Generative Artificial Intelligence and Large Language Models ( http://arxiv.org/abs/2310.00737v3 ) ライセンス: Link先を確認 | Emilio Ferrara | (参考訳) Generative Artificial Intelligence(GenAI)とLarge Language Models(LLMs)は素晴らしい技術であり、自然言語処理とマルチモーダルコンテンツ生成に長けており、変革的な未来を約束している。
しかし、すべての強力なツールと同様に、影が付いてくる。
ディープフェイクが現実と区別できない世界では、合成アイデンティティーが悪意あるキャンペーンを組織し、標的となる偽情報や詐欺が非類似の精度で制作される。
GenAIアプリケーションのより暗い側にようこそ。
この記事は、GenAIとLLMの潜在的な誤用の危険を乗り越える旅であるだけでなく、今後の課題の緊急性を認識するための呼びかけでもある。
偽情報キャンペーン、悪意のあるコンテンツ生成、高度なマルウェアの発見の海を旅する中で、私たちが目にしているGenAI革命の社会的影響を明らかにする。
ソーシャルメディアプラットフォーム上のAIによるボットネットから、AIの絶望的なポテンシャルから、製造されたアイデンティティや合成現実で作られたアリバイまで、その利害関係はかつてないほど高くなっていた。
仮想世界と現実世界の境界線はぼやけており、GenAIの悪名高いアプリケーションの結果が私たち全員に影響を与えています。
本稿は、GenAIのリスクとLLMの誤用に関する厳密な研究の合成と、近い将来遭遇する可能性のある有害なGenAIのさまざまなタイプのビジョンと、それに対応するためのいくつかの方法として機能する。 Generative Artificial Intelligence (GenAI) and Large Language Models (LLMs) are marvels of technology; celebrated for their prowess in natural language processing and multimodal content generation, they promise a transformative future. But as with all powerful tools, they come with their shadows. Picture living in a world where deepfakes are indistinguishable from reality, where synthetic identities orchestrate malicious campaigns, and where targeted misinformation or scams are crafted with unparalleled precision. Welcome to the darker side of GenAI applications. This article is not just a journey through the meanders of potential misuse of GenAI and LLMs, but also a call to recognize the urgency of the challenges ahead. As we navigate the seas of misinformation campaigns, malicious content generation, and the eerie creation of sophisticated malware, we'll uncover the societal implications that ripple through the GenAI revolution we are witnessing. From AI-powered botnets on social media platforms to the unnerving potential of AI to generate fabricated identities, or alibis made of synthetic realities, the stakes have never been higher. The lines between the virtual and the real worlds are blurring, and the consequences of potential GenAI's nefarious applications impact us all. This article serves both as a synthesis of rigorous research presented on the risks of GenAI and misuse of LLMs and as a thought-provoking vision of the different types of harmful GenAI applications we might encounter in the near future, and some ways we can prepare for them. | 翻訳日:2024-01-24 19:06:14 公開日:2024-01-22 |
# RTFS-Net:効率的な音声・視覚音声分離のための繰り返し時間周波数モデリング RTFS-Net: Recurrent time-frequency modelling for efficient audio-visual speech separation ( http://arxiv.org/abs/2309.17189v3 ) ライセンス: Link先を確認 | Samuel Pegg, Kai Li, Xiaolin Hu | (参考訳) 音声-視覚的音声分離手法は,高品質な分離音声を生成するために,異なるモードを統合することを目的としている。
既存のSOTA(State-of-the-art)モデルは時間領域で動作する。
しかし、音響特性をモデル化するための過度に単純化されたアプローチは、SOTAの性能を達成するために、より大きくより計算集約的なモデルを必要とすることが多い。
本稿では、短時間フーリエ変換によって得られる複雑な時間周波数ビンに対して、そのアルゴリズムを適用したRTFS-Net(Recurrent Time-Frequency Separation Network)を提案する。
我々は、各次元に沿って多層RNNを用いて、オーディオの時間と周波数の次元を独立にモデル化し、キャプチャする。
さらに,音声と視覚情報の効率的な統合のためのユニークな注意に基づく融合手法と,より明瞭な分離のために音響特徴の固有スペクトル特性を利用した新しいマスク分離手法を提案する。
RTFS-Netは、パラメータの10%とMACの18%しか使用せず、以前のSOTA法より優れている。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。 Audio-visual speech separation methods aim to integrate different modalities to generate high-quality separated speech, thereby enhancing the performance of downstream tasks such as speech recognition. Most existing state-of-the-art (SOTA) models operate in the time domain. However, their overly simplistic approach to modeling acoustic features often necessitates larger and more computationally intensive models in order to achieve SOTA performance. In this paper, we present a novel time-frequency domain audio-visual speech separation method: Recurrent Time-Frequency Separation Network (RTFS-Net), which applies its algorithms on the complex time-frequency bins yielded by the Short-Time Fourier Transform. We model and capture the time and frequency dimensions of the audio independently using a multi-layered RNN along each dimension. Furthermore, we introduce a unique attention-based fusion technique for the efficient integration of audio and visual information, and a new mask separation approach that takes advantage of the intrinsic spectral nature of the acoustic features for a clearer separation. RTFS-Net outperforms the previous SOTA method using only 10% of the parameters and 18% of the MACs. This is the first time-frequency domain audio-visual speech separation method to outperform all contemporary time-domain counterparts. | 翻訳日:2024-01-24 19:05:09 公開日:2024-01-22 |
# 変形性物体追跡のための高速点雲メッシュ再構成 Fast Point Cloud to Mesh Reconstruction for Deformable Object Tracking ( http://arxiv.org/abs/2311.02749v2 ) ライセンス: Link先を確認 | Elham Amin Mansour, Hehui Zheng, Robert K. Katzschmann | (参考訳) 私たちの周りの世界は、私たちが知覚し変形する柔らかな物体でいっぱいです。
ロボットハンドが柔らかい物体を制御するためには、変形物体のオンライン状態フィードバックを取得する必要がある。
rgb-dカメラは30hzの速度で閉塞点雲を収集できるが、これは連続追跡可能な物体表面を表すものではない。
そこで本研究では,オブジェクトの非変形状態におけるメッシュであるテンプレートメッシュと,同一オブジェクトの変形したポイントクラウドを入力し,変形したポイントクラウドにマッチするようにテンプレートメッシュを形作る手法を開発した。
点雲からのメッシュの再構成は、3次元再構成と4次元再構成の下でコンピュータグラフィックスの分野で長い間研究されてきたが、ロボット工学アプリケーションに必要な速度と一般化性は欠如している。
我々のモデルはポイントクラウドオートエンコーダとReal-NVPアーキテクチャを用いて設計されている。
トレーニングされたモデルでは,3000頂点のテンプレートメッシュと5,000点の変形点雲で58Hzの速度でメッシュ再構築と追跡を行うことができ,実験では軟質材料(シザー,ハンマー,泡瓦,クリーザーボトル,オレンジ,サイコロ)でできていると推定される6種類の対象カテゴリの変形に対して一般化可能である。
オブジェクトメッシュは、YCBベンチマークデータセットから取得される。
ダウンストリームアプリケーションの例としては、操作されたオブジェクトの状態からオンラインフィードバックを必要とするロボットハンドの制御アルゴリズムがある。
さらに,本手法のトラッキング能力は,マーカーレス手法による変形物体の同定に有効である。
今後の作業では、トレーニングされたモデルを6つのオブジェクトカテゴリを超えて一般化し、さらに現実世界のデフォーミングポイントクラウドに拡張します。 The world around us is full of soft objects we perceive and deform with dexterous hand movements. For a robotic hand to control soft objects, it has to acquire online state feedback of the deforming object. While RGB-D cameras can collect occluded point clouds at a rate of 30Hz, this does not represent a continuously trackable object surface. Hence, in this work, we developed a method that takes as input a template mesh which is the mesh of an object in its non-deformed state and a deformed point cloud of the same object, and then shapes the template mesh such that it matches the deformed point cloud. The reconstruction of meshes from point clouds has long been studied in the field of Computer graphics under 3D reconstruction and 4D reconstruction, however, both lack the speed and generalizability needed for robotics applications. Our model is designed using a point cloud auto-encoder and a Real-NVP architecture. Our trained model can perform mesh reconstruction and tracking at a rate of 58Hz on a template mesh of 3000 vertices and a deformed point cloud of 5000 points and is generalizable to the deformations of six different object categories which are assumed to be made of soft material in our experiments (scissors, hammer, foam brick, cleanser bottle, orange, and dice). The object meshes are taken from the YCB benchmark dataset. An instance of a downstream application can be the control algorithm for a robotic hand that requires online feedback from the state of the manipulated object which would allow online grasp adaptation in a closed-loop manner. Furthermore, the tracking capacity of our method can help in the system identification of deforming objects in a marker-free approach. In future work, we will extend our trained model to generalize beyond six object categories and additionally to real-world deforming point clouds. | 翻訳日:2024-01-24 18:54:39 公開日:2024-01-22 |
# パーソナライゼーションのための安全な選好学習手法と自動運転車への応用 A Safe Preference Learning Approach for Personalization with Applications to Autonomous Vehicles ( http://arxiv.org/abs/2311.02099v2 ) ライセンス: Link先を確認 | Ruya Karagulle and Nikos Arechiga and Andrew Best and Jonathan DeCastro and Necmiye Ozay | (参考訳) この研究は、自動運転車への適用とともに、所定の仕様に準拠することを保証する選好学習手法を導入する。
本手法では,トラフィックルールを記述する信号時相論理(stl)式を学習フレームワークに優先順序付けする。
パラメトリック重み付き信号時相論理(pwstl)を活用し,ペアワイズ比較に基づく安全性保証型選好学習の問題を定式化し,この課題を解決するためのアプローチを提案する。
提案手法は, 与えられたPWSTL式を重み付けし, これらの重み付けにより, 優先信号が非優先値よりも重み付けされた量的満足度測定値であることを示す。
提案手法により得られた重みの有意な評価は,重み付きSTL式に導かれる。
本手法は,停止標識と横断歩道を含む2つの運転シナリオをシミュレートし,被験者による被験者実験を用いて実演する。
提案手法は,既存の選好学習手法と比較して,嗜好を捉えて比較し,安全性を考慮すれば,特に勝っている。 This work introduces a preference learning method that ensures adherence to given specifications, with an application to autonomous vehicles. Our approach incorporates the priority ordering of Signal Temporal Logic (STL) formulas describing traffic rules into a learning framework. By leveraging Parametric Weighted Signal Temporal Logic (PWSTL), we formulate the problem of safety-guaranteed preference learning based on pairwise comparisons and propose an approach to solve this learning problem. Our approach finds a feasible valuation for the weights of the given PWSTL formula such that, with these weights, preferred signals have weighted quantitative satisfaction measures greater than their non-preferred counterparts. The feasible valuation of weights given by our approach leads to a weighted STL formula that can be used in correct-and-custom-by-construction controller synthesis. We demonstrate the performance of our method with a pilot human subject study in two different simulated driving scenarios involving a stop sign and a pedestrian crossing. Our approach yields competitive results compared to existing preference learning methods in terms of capturing preferences, and notably outperforms them when safety is considered. | 翻訳日:2024-01-24 18:54:08 公開日:2024-01-22 |
# 手続き的インタラクション生成によるヒューマン・オブジェクト間インタラクションのテンプレートフリー再構築 Template Free Reconstruction of Human-object Interaction with Procedural Interaction Generation ( http://arxiv.org/abs/2312.07063v2 ) ライセンス: Link先を確認 | Xianghui Xie and Bharat Lal Bhatnagar and Jan Eric Lenssen and Gerard Pons-Moll | (参考訳) 単一のRGB画像から3Dで人間とオブジェクトのインタラクションを再構築することは難しい作業であり、既存のデータ駆動手法は慎重に計算された3Dインタラクションデータセットに存在するオブジェクトを超えて一般化しない。
強力な相互作用と3次元形状の先行を学習するために大規模な実データをキャプチャすることは、人間と物体の相互作用の組合せの性質のために非常に高価である。
本稿では,ProciGen(Procedural Interaction Generation, 手続き的インタラクション生成)を提案する。
我々は3Dで1M以上の人間と物体の相互作用ペアを生成し、この大規模なデータを利用してHDM(Hierarchical Diffusion Model)を訓練する。
我々のHDMは、現実的な相互作用と高精度な人間と物体の形状の両方を学習する画像条件拡散モデルである。
ProciGenでトレーニングしたHDMは、テンプレートメッシュを必要とする事前メソッドよりも大幅に優れており、データセットはオブジェクトインスタンスを発見できない強力な一般化能力を持つトレーニングメソッドを可能にします。
私たちのコードとデータは、https://virtual humans.mpi-inf.mpg.de/procigen-hdm.comで公開されます。 Reconstructing human-object interaction in 3D from a single RGB image is a challenging task and existing data driven methods do not generalize beyond the objects present in the carefully curated 3D interaction datasets. Capturing large-scale real data to learn strong interaction and 3D shape priors is very expensive due to the combinatorial nature of human-object interactions. In this paper, we propose ProciGen (Procedural interaction Generation), a method to procedurally generate datasets with both, plausible interaction and diverse object variation. We generate 1M+ human-object interaction pairs in 3D and leverage this large-scale data to train our HDM (Hierarchical Diffusion Model), a novel method to reconstruct interacting human and unseen objects, without any templates. Our HDM is an image-conditioned diffusion model that learns both realistic interaction and highly accurate human and object shapes. Experiments show that our HDM trained with ProciGen significantly outperforms prior methods that requires template meshes and that our dataset allows training methods with strong generalization ability to unseen object instances. Our code and data will be publicly released at: https://virtualhumans.mpi-inf.mpg.de/procigen-hdm. | 翻訳日:2024-01-24 18:44:15 公開日:2024-01-22 |
# レコメンダシステムのためのベイズグラフニューラルネットワークの選好と共起性 Preference and Concurrence Aware Bayesian Graph Neural Networks for Recommender Systems ( http://arxiv.org/abs/2312.11486v2 ) ライセンス: Link先を確認 | Hongjian Gu, Yaochen Hu, Yingxue Zhang | (参考訳) グラフベースの協調フィルタリング手法は、ユーザとアイテム間の高次情報をキャプチャできるため、インダストリアルシナリオにおけるリンクを欠いたり、刺激的なポジティブなインタラクションを含む可能性のある、観測されたユーザとイテムのインタラクションからグラフを構築することができるため、レコメンデータシステムの性能が向上している。
Bayesian Graph Neural Networkフレームワークは、相互作用グラフの生成モデルによってこの問題にアプローチする。
重要な問題は、レコメンデーターシステムに適したグラフ生成モデルの適切なファミリーを考案することである。
本稿では,ユーザの好みや項目の一致,重要なグラフ構造情報などを共同で検討する効率的な生成モデルを提案する。
提案したグラフ生成手法の有効性を示す4つのベンチマークデータセットの実験を行った。 Graph-based collaborative filtering methods have prevailing performance for recommender systems since they can capture high-order information between users and items, in which the graphs are constructed from the observed user-item interactions that might miss links or contain spurious positive interactions in industrial scenarios. The Bayesian Graph Neural Network framework approaches this issue with generative models for the interaction graphs. The critical problem is to devise a proper family of graph generative models tailored to recommender systems. We propose an efficient generative model that jointly considers the preferences of users, the concurrence of items and some important graph structure information. Experiments on four popular benchmark datasets demonstrate the effectiveness of our proposed graph generative methods for recommender systems. | 翻訳日:2024-01-24 18:28:37 公開日:2024-01-22 |
# ディープニューラルネットワークを用いたマルチセルグラフからの学習ダイナミクス Learning Dynamics from Multicellular Graphs with Deep Neural Networks ( http://arxiv.org/abs/2401.12196v1 ) ライセンス: Link先を確認 | Haiqian Yang, Florian Meyer, Shaoxun Huang, Liu Yang, Cristiana Lungu, Monilola A. Olayioye, Markus J. Buehler, Ming Guo | (参考訳) 多細胞自己集合の推論は、胚、オルガノイド、腫瘍など多くの形態形成を理解する中心的課題である。
しかし、多細胞動態を示す構造的特徴を特定することは極めて困難である。
本稿では,グラフベースディープニューラルネットワーク(gnn)の予測能力を利用して,ダイナミクスを予測できる重要なグラフ特徴を探索する。
実験とシミュレーションの両方で位置のスナップショットから多細胞集団の運動性を予測するために、物理的に情報を得たGNN(piGNN)を適用した。
我々は,従来の力学モデルでは達成できないマルチセルリビングシステムの複雑なグラフ特徴をナビゲートできることを実証した。
本稿では,多細胞データ量の増加に伴い,多細胞データバンク(MDB)の構築に協力して,多細胞組織を汎用的に予測するための大規模多細胞グラフモデル(LMGM)の構築が可能であることを提案する。 The inference of multicellular self-assembly is the central quest of understanding morphogenesis, including embryos, organoids, tumors, and many others. However, it has been tremendously difficult to identify structural features that can indicate multicellular dynamics. Here we propose to harness the predictive power of graph-based deep neural networks (GNN) to discover important graph features that can predict dynamics. To demonstrate, we apply a physically informed GNN (piGNN) to predict the motility of multicellular collectives from a snapshot of their positions both in experiments and simulations. We demonstrate that piGNN is capable of navigating through complex graph features of multicellular living systems, which otherwise can not be achieved by classical mechanistic models. With increasing amounts of multicellular data, we propose that collaborative efforts can be made to create a multicellular data bank (MDB) from which it is possible to construct a large multicellular graph model (LMGM) for general-purposed predictions of multicellular organization. | 翻訳日:2024-01-24 18:21:07 公開日:2024-01-22 |
# 遺伝性Versus Strategic Generosityに対する市場反応:NFTチャリティ資金調達者の実証検討 Market Responses to Genuine Versus Strategic Generosity: An Empirical Examination of NFT Charity Fundraisers ( http://arxiv.org/abs/2401.12064v1 ) ライセンス: Link先を確認 | Chen Liang, Murat Tunc, Gordon Burtch | (参考訳) 現在、暗号通貨の寄付は世界中の慈善寄付のかなりの部分を占めている。
nft(nonfungible token)の慈善募金事業は、慈善団体に寄付された収益で芸術作品のnftの販売を伴い、この分野で新たな発展を遂げた。
NFTチャリティ資金調達者のユニークな側面は、寄付者が購入したNFTの価値の上昇から金銭的利益を享受する大きな可能性である。
これらのチャリティー募金者の寄付者のモチベーションに関する疑問が持ち上がり、社会的イメージが否定的になる。
NFTチャリティの募金者は、寄付者の社会的イメージの経済的影響を理解するユニークな機会を提供する。
大規模NFTチャリティ募金者の文脈におけるこれらの効果について検討する。
我々は、ブロックチェーン上でのトランザクション処理時間のランダムな変動を利用して、寄付者の後の市場成果に対するチャリティ募金者内のNFT購入の因果効果を同定する。
さらに、購入した慈善団体NFT(戦略的寛大さの兆候)をリストアップする個人の決定に基づいて、NFTマーケットプレース内での個人の社会的露出度に基づいて、異質性の明確なパターンを実証する。
我々は、NFTの「リクルーター」が、他のNFTリスティングで命令できる価格、特に迅速にリトライする人、より社会的に露出した人に対して、市場で大きなペナルティを経験していることを示します。
我々の研究は、デジタル可視性とトレーサビリティの重要性の高まり、暗号慈善を特徴付ける特徴、そしてオンライン慈善をより広く示す。 Crypto donations now represent a significant fraction of charitable giving worldwide. Nonfungible token (NFT) charity fundraisers, which involve the sale of NFTs of artistic works with the proceeds donated to philanthropic causes, have emerged as a novel development in this space. A unique aspect of NFT charity fundraisers is the significant potential for donors to reap financial gains from the rising value of purchased NFTs. Questions may arise about the motivations of donors in these charity fundraisers, resulting in a negative social image. NFT charity fundraisers thus offer a unique opportunity to understand the economic consequences of a donor's social image. We investigate these effects in the context of a large NFT charity fundraiser. We identify the causal effect of purchasing an NFT within the charity fundraiser on a donor's later market outcomes by leveraging random variation in transaction processing times on the blockchain. Further, we demonstrate a clear pattern of heterogeneity, based on an individual's decision to relist (versus hold) the purchased charity NFTs (a sign of strategic generosity), and based on an individual's degree of social exposure within the NFT marketplace. We show that charity-NFT "relisters" experience significant penalties in the market, in terms of the prices they are able to command on other NFT listings, particularly among those who relist quickly and those who are more socially exposed. Our study underscores the growing importance of digital visibility and traceability, features that characterize crypto-philanthropy, and online philanthropy more broadly. | 翻訳日:2024-01-24 18:20:18 公開日:2024-01-22 |
# 部分的発音:文脈コントラスト推論アプローチ Partial Diacritization: A Context-Contrastive Inference Approach ( http://arxiv.org/abs/2401.08919v2 ) ライセンス: Link先を確認 | Muhammad ElNokrashy, Badr AlKhamissi | (参考訳) 読解は読みやすさを改善し、アラビア語のテキストの意味を曖昧にする上で重要な役割を果たしている。
これまでの努力は、すべての適格な文字(完全な発音)をマークすることに集中してきた。
比較的に見落とされ、部分弁別(PD)は必要に応じて理解を助けるためにマークされる文字のサブセットの選択である。
過度なダイアクリティカルマークは、読み速度と正確さを損なう、熟練した読者を阻害する可能性がある。
行動実験を行い, 部分的にマークされたテキストは, 完全にマークされたテキストよりも読みやすく, 時には平文よりも読みやすいことを示す。
本稿では,既存のアラビア語発音システムとシームレスに統合されたPDに対する新しいアプローチとして,文脈コントラスト部分発音法(CCPD)を導入する。
CCPDは各単語を2回、文脈で1回、文脈なしで1回処理し、2つの推論に違いがある文字のみを分類する。
さらに,これを機械学習タスクとして確立するために不可欠な,部分的発音品質(SR,PDER,HDER,ERE)を測定するための新しい指標を導入する。
最後に,提案する指標に対して,他の既知のシステムと比較して著しく異なる性能プロファイルを提供する,確立されたモデルのトランスフォーマティブなtd2を紹介する。 Diacritization plays a pivotal role in improving readability and disambiguating the meaning of Arabic texts. Efforts have so far focused on marking every eligible character (Full Diacritization). Comparatively overlooked, Partial Diacritzation (PD) is the selection of a subset of characters to be marked to aid comprehension where needed. Research has indicated that excessive diacritic marks can hinder skilled readers--reducing reading speed and accuracy. We conduct a behavioral experiment and show that partially marked text is often easier to read than fully marked text, and sometimes easier than plain text. In this light, we introduce Context-Contrastive Partial Diacritization (CCPD)--a novel approach to PD which integrates seamlessly with existing Arabic diacritization systems. CCPD processes each word twice, once with context and once without, and diacritizes only the characters with disparities between the two inferences. Further, we introduce novel indicators for measuring partial diacritization quality (SR, PDER, HDER, ERE), essential for establishing this as a machine learning task. Lastly, we introduce TD2, a Transformer-variant of an established model which offers a markedly different performance profile on our proposed indicators compared to all other known systems. | 翻訳日:2024-01-24 18:17:59 公開日:2024-01-22 |
# オーバーサンプリング,スタック機能埋め込み,特徴抽出を用いた大規模・不均衡データの機械学習によるネットワーク侵入検出 Machine learning-based network intrusion detection for big and imbalanced data using oversampling, stacking feature embedding and feature extraction ( http://arxiv.org/abs/2401.12262v1 ) ライセンス: Link先を確認 | Md. Alamin Talukder, Md. Manowarul Islam, Md Ashraf Uddin, Khondokar Fida Hasan, Selina Sharmin, Salem A. Alyami and Mohammad Ali Moni | (参考訳) サイバーセキュリティは世界の深刻な懸念となっている。
侵入検知システム(IDS)は、悪意あるアクターや活動を検出することによって相互接続ネットワークを保護する上で重要な役割を果たす。
IDS内の機械学習(ML)に基づく行動分析は、動的サイバー脅威を検出し、異常を識別し、ネットワーク内の悪意のある行為を識別する大きな可能性を秘めている。
しかし、データ数が増加するにつれて、MLモデルをトレーニングする際に次元の縮小がますます困難になる。
そこで本稿では,データ不均衡に対処するためのランダムオーバーサンプリング(RO)と,クラスタリング結果に基づくスタック機能埋め込み(Stacking Feature Embedding)と,次元削減のための主成分分析(PCA)を導入し,大規模かつ不均衡なデータセットに特化して設計したMLベースのネットワーク侵入検出モデルを提案する。
このモデルの性能は、UNSW-NB15、CIC-IDS-2017、CIC-IDS-2018の3つの最先端ベンチマークデータセットを使用して慎重に評価される。
UNSW-NB15データセットでは、RFモデルとETモデルはそれぞれ99.59%と99.95%の精度を達成している。
さらに、CIC-IDS2017データセット、DT、RF、ETモデルは99.99%、DTとRFモデルは99.94%に達する。
これらの性能は最先端を継続的に上回り,ネットワーク侵入検出の分野において有意な進展を示した。
この成果は提案手法の有効性を実証し,ネットワークトラフィックの侵入を正確に監視し,特定し,脅威を防止できる。 Cybersecurity has emerged as a critical global concern. Intrusion Detection Systems (IDS) play a critical role in protecting interconnected networks by detecting malicious actors and activities. Machine Learning (ML)-based behavior analysis within the IDS has considerable potential for detecting dynamic cyber threats, identifying abnormalities, and identifying malicious conduct within the network. However, as the number of data grows, dimension reduction becomes an increasingly difficult task when training ML models. Addressing this, our paper introduces a novel ML-based network intrusion detection model that uses Random Oversampling (RO) to address data imbalance and Stacking Feature Embedding based on clustering results, as well as Principal Component Analysis (PCA) for dimension reduction and is specifically designed for large and imbalanced datasets. This model's performance is carefully evaluated using three cutting-edge benchmark datasets: UNSW-NB15, CIC-IDS-2017, and CIC-IDS-2018. On the UNSW-NB15 dataset, our trials show that the RF and ET models achieve accuracy rates of 99.59% and 99.95%, respectively. Furthermore, using the CIC-IDS2017 dataset, DT, RF, and ET models reach 99.99% accuracy, while DT and RF models obtain 99.94% accuracy on CIC-IDS2018. These performance results continuously outperform the state-of-art, indicating significant progress in the field of network intrusion detection. This achievement demonstrates the efficacy of the suggested methodology, which can be used practically to accurately monitor and identify network traffic intrusions, thereby blocking possible threats. | 翻訳日:2024-01-24 18:09:22 公開日:2024-01-22 |
# 法的分析に基づくタクシー割当戦略の合理化 Streamlining Advanced Taxi Assignment Strategies based on Legal Analysis ( http://arxiv.org/abs/2401.12324v1 ) ライセンス: Link先を確認 | Holger Billhardt, Jos\'e-Antonio Santos, Alberto Fern\'andez, Mar Moreno, Sascha Ossowski, Jos\'e A. Rodr\'iguez | (参考訳) 近年,協調的にサービスや活動の提供を促進する新たなアプリケーションが数多く登場している。
このようなシステムの背後にある重要な考え方は、既存のリソースのアイドルや未使用の能力を生かして、機能の追加、効率の向上、コスト削減など、日々のタスクの人々を支援するサービスを改善することだ。
特に都市交通の分野では、多くの研究者が新しいアイデアを提唱してきた。
しかし、そのような提案は、もしそのようなシステムが現実世界に適用されることを意図した場合、適切な識別と対処を必要とする複数の非技術的問題を引き起こす。
実際には、そのようなAIベースのシステムに関連する法的・倫理的な側面は、研究開発プロセスの初期にはほとんど考えられませんが、設計決定を制限するだけでなく、それらを導くのにも役立ちます。
本原稿では,個人(および自律型)タクシーと潜在的な顧客を仲介するタクシーコーディネートサービスのプロトタイプから作成する。
半構造化された方法で運用の重要な側面を表現した後、現在の法的制約や制約の観点からその可能性を分析し、追加の非機能要件とそれに対応するオプションを特定する。
次に、私たちは一歩先へ進み、実際に既存のプロトタイプを変更して、以前に特定した推奨事項を組み込む。
この改良されたシステムで実験を行うことは、法的に許容されるいくつかの選択肢の中で最も適切な選択肢を特定するのに役立ちます。 In recent years many novel applications have appeared that promote the provision of services and activities in a collaborative manner. The key idea behind such systems is to take advantage of idle or underused capacities of existing resources, in order to provide improved services that assist people in their daily tasks, with additional functionality, enhanced efficiency, and/or reduced cost. Particularly in the domain of urban transportation, many researchers have put forward novel ideas, which are then implemented and evaluated through prototypes that usually draw upon AI methods and tools. However, such proposals also bring up multiple non-technical issues that need to be identified and addressed adequately if such systems are ever meant to be applied to the real world. While, in practice, legal and ethical aspects related to such AI-based systems are seldomly considered in the beginning of the research and development process, we argue that they not only restrict design decisions, but can also help guiding them. In this manuscript, we set out from a prototype of a taxi coordination service that mediates between individual (and autonomous) taxis and potential customers. After representing key aspects of its operation in a semi-structured manner, we analyse its viability from the viewpoint of current legal restrictions and constraints, so as to identify additional non-functional requirements as well as options to address them. Then, we go one step ahead, and actually modify the existing prototype to incorporate the previously identified recommendations. Performing experiments with this improved system helps us identify the most adequate option among several legally admissible alternatives. | 翻訳日:2024-01-24 17:58:57 公開日:2024-01-22 |
# 局所断熱駆動のための効率的な経路 Efficient Paths for Local Counterdiabatic Driving ( http://arxiv.org/abs/2401.12287v1 ) ライセンス: Link先を確認 | Stewart Morawetz, Anatoli Polkovnikov | (参考訳) local counterdiabatic driving (cd) は、局所制御のみを使用して、過度に長いプロトコル時間を必要とすることなく、量子状態準備のような近似可逆/断熱プロセスを実現するための実現可能なアプローチを提供する。
しかし、CDプロトコルの精度が高い場合の多くは、非常に複雑な新しい制御やパルスシーケンスを必要とする。
本稿では,ローカルcdプロトコルの性能向上に伴なう余分な局所制御を付加することにより,断熱経路を変更する体系的手法について述べる。
そこで本手法は,短距離および長距離の相互作用を持ついくつかのスピン系の非自明なGHZ基底状態の生成において,劇的な改善をもたらすことを示す。 Local counterdiabatic driving (CD) provides a feasible approach for realizing approximate reversible/adiabatic processes like quantum state preparation using only local controls and without demanding excessively long protocol times. However, in many instances getting high accuracy of such CD protocols requires engineering very complicated new controls or pulse sequences. In this work, we describe a systematic method for altering the adiabatic path by adding extra local controls along which performance of local CD protocols is enhanced. We then show that this method provides dramatic improvement in the preparation of non-trivial GHZ ground states of several different spin systems with both short-range and long-range interactions. | 翻訳日:2024-01-24 17:58:31 公開日:2024-01-22 |
# ソーシャルロボットナビゲーションのためのマルチエージェント動的関係推論 Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation ( http://arxiv.org/abs/2401.12275v1 ) ライセンス: Link先を確認 | Jiachen Li and Chuanbo Hua and Hengbo Ma and Jinkyoo Park and Victoria Dax and Mykel J. Kochenderfer | (参考訳) ソーシャルロボットナビゲーションは、日常生活の様々な文脈で役立つが、安全な人間とロボットの相互作用と効率的な軌道計画を必要とする。
対関係のモデル化はマルチエージェント相互作用システムで広く研究されているが、大規模なグループ間アクティビティをキャプチャする能力は限られている。
本稿では,動的に発展する関係構造を明示的に推論する体系的関係推論手法を提案し,マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
複数ノード間のエッジ(エージェント)に加えて、複数のノードを適応的に接続し、教師なしの方法でグループワイズ推論を可能にするハイパーエッジを推論することを提案する。
提案手法は,軌道予測器が将来の状態を生成するために使用する関係の進化を捉えるために,動的に進化する関係グラフとハイパーグラフを推論する。
一方,学習した関係の鋭さと疎さ,および関係進化の滑らかさを規則化し,学習安定性とモデル性能を向上させることを提案する。
提案手法は,合成クラウドシミュレーションと実世界のベンチマークデータセットで検証される。
実験は、このアプローチが合理的な関係を推論し、最先端の予測性能を達成することを実証する。
さらに,リレーショナル推論と軌道予測を体系的に組み込んだ,ソーシャルロボットナビゲーションのための深層強化学習(drl)フレームワークを提案する。
群集シミュレーションでは,高密度で対話的なシナリオにおいて,安全性,効率,社会的コンプライアンスの面で,最強の基準を達成している。 Social robot navigation can be helpful in various contexts of daily life but requires safe human-robot interactions and efficient trajectory planning. While modeling pairwise relations has been widely studied in multi-agent interacting systems, the ability to capture larger-scale group-wise activities is limited. In this paper, we propose a systematic relational reasoning approach with explicit inference of the underlying dynamically evolving relational structures, and we demonstrate its effectiveness for multi-agent trajectory prediction and social robot navigation. In addition to the edges between pairs of nodes (i.e., agents), we propose to infer hyperedges that adaptively connect multiple nodes to enable group-wise reasoning in an unsupervised manner. Our approach infers dynamically evolving relation graphs and hypergraphs to capture the evolution of relations, which the trajectory predictor employs to generate future states. Meanwhile, we propose to regularize the sharpness and sparsity of the learned relations and the smoothness of the relation evolution, which proves to enhance training stability and model performance. The proposed approach is validated on synthetic crowd simulations and real-world benchmark datasets. Experiments demonstrate that the approach infers reasonable relations and achieves state-of-the-art prediction performance. In addition, we present a deep reinforcement learning (DRL) framework for social robot navigation, which incorporates relational reasoning and trajectory prediction systematically. In a group-based crowd simulation, our method outperforms the strongest baseline by a significant margin in terms of safety, efficiency, and social compliance in dense, interactive scenarios. | 翻訳日:2024-01-24 17:58:19 公開日:2024-01-22 |
# インタラクションの倫理 - LLMにおけるセキュリティ脅威の緩和 The Ethics of Interaction: Mitigating Security Threats in LLMs ( http://arxiv.org/abs/2401.12273v1 ) ライセンス: Link先を確認 | Ashutosh Kumar, Sagarika Singh, Shiv Vignesh Murty, Swathy Ragupathy | (参考訳) 本稿では,セキュリティの脅威から言語学習モデル(LLM)まで,倫理的課題を包括的に考察する。
これらの複雑なデジタルレポジトリは、日々の生活にますます統合されており、トレーニングデータとデータソースの機密性を侵害する攻撃の主ターゲットとなっている。
この論文は、社会や個人のプライバシーに対するこのようなセキュリティ上の脅威に対する、倫理的な悪影響を詳しく説明している。
我々は、迅速な注入、ジェイルブレイク、個人識別情報(pii)の露出、性的明快なコンテンツ、ヘイトベースコンテンツの5つの主要な脅威を調査し、その重要な倫理的結果と彼らが強固な防御戦略のために作り出す緊急性を評価するための、単なる識別を越えている。
LLMへの依存の増大は、これらのシステムが倫理的規範の範囲内で運用されることを保証するための重要な必要性を浮き彫りにしている。
本稿では,LLMに適した評価ツールの構想と開発について提案する。このツールは,開発者とデザイナに対して,バックエンドシステムのプリエンプティブな強化を指導し,テストフェーズにおけるLLMチャットボット応答の倫理的側面を精査する。
道徳的文脈におけるLLMの反応と人間の期待する反応を比較することにより、より広い社会が持つ倫理的価値観とAIの行動がどの程度一致しているかを明らかにすることを目的とする。
結論として,本論文は,llmsが提示する倫理的問題点を強調するだけでなく,これらのシステムに対する信頼を育む道筋を浮き彫りにするものである。 This paper comprehensively explores the ethical challenges arising from security threats to Language Learning Models (LLMs). These intricate digital repositories are increasingly integrated into our daily lives, making them prime targets for attacks that can compromise their training data and the confidentiality of their data sources. The paper delves into the nuanced ethical repercussions of such security threats on society and individual privacy. We scrutinize five major threats: prompt injection, jailbreaking, Personal Identifiable Information (PII) exposure, sexually explicit content, and hate based content, going beyond mere identification to assess their critical ethical consequences and the urgency they create for robust defensive strategies. The escalating reliance on LLMs underscores the crucial need for ensuring these systems operate within the bounds of ethical norms, particularly as their misuse can lead to significant societal and individual harm. We propose conceptualizing and developing an evaluative tool tailored for LLMs, which would serve a dual purpose, guiding developers and designers in preemptive fortification of backend systems and scrutinizing the ethical dimensions of LLM chatbot responses during the testing phase. By comparing LLM responses with those expected from humans in a moral context, we aim to discern the degree to which AI behaviors align with the ethical values held by a broader society. Ultimately, this paper not only underscores the ethical troubles presented by LLMs, it also highlights a path toward cultivating trust in these systems. | 翻訳日:2024-01-24 17:57:55 公開日:2024-01-22 |
# 非パラメトリック回帰のための伝達学習--非漸近的ミニマックス解析と適応手順 Transfer Learning for Nonparametric Regression: Non-asymptotic Minimax Analysis and Adaptive Procedure ( http://arxiv.org/abs/2401.12272v1 ) ライセンス: Link先を確認 | T. Tony Cai and Hongming Pu | (参考訳) 非パラメトリック回帰のための転送学習を考える。
この問題に対する非漸近的最小リスクをまず研究し、対数係数までの最小リスクを達成できる信頼しきい値推定器と呼ばれる新しい推定器を開発した。
提案手法は,非パラメトリック回帰と区別される自己運動とスーパーアクセラレーションという,トランスファー学習における2つの特異な現象を示す。
次に,パラメータ空間の幅の広い対数係数までの最小リスクを適応的に達成するデータ駆動アルゴリズムを提案する。
適応移動学習アルゴリズムの数値性能を評価するためにシミュレーション研究を行い,提案手法の利点を示す実例を示した。 Transfer learning for nonparametric regression is considered. We first study the non-asymptotic minimax risk for this problem and develop a novel estimator called the confidence thresholding estimator, which is shown to achieve the minimax optimal risk up to a logarithmic factor. Our results demonstrate two unique phenomena in transfer learning: auto-smoothing and super-acceleration, which differentiate it from nonparametric regression in a traditional setting. We then propose a data-driven algorithm that adaptively achieves the minimax risk up to a logarithmic factor across a wide range of parameter spaces. Simulation studies are conducted to evaluate the numerical performance of the adaptive transfer learning algorithm, and a real-world example is provided to demonstrate the benefits of the proposed method. | 翻訳日:2024-01-24 17:57:28 公開日:2024-01-22 |
# 8成分波動関数と分散関係の光学的および音響的分岐を持つマス・イン・マス・チェーンとディラック方程式の一般化 A Mass-in-Mass Chain and the Generalization of the Dirac Equation with an Eight-Component Wave Function and with Optical and Acoustic Branches of the Dispersion Relation ( http://arxiv.org/abs/2401.12271v1 ) ライセンス: Link先を確認 | Valentin O. Turin, Yulia V. Ilyushina, Pavel A. Andreev, Anastasia Yu. Cherepkova, Daniil D. Kireev, Iliya V. Nazritsky | (参考訳) この論文は、わずかに修正された1次元無限質量鎖を考える。
連続媒質への遷移に対応する長波近似の場合、古典力学のKlein-Gordon-Fock方程式の一般化である2つの方程式の系が得られ、分散関係の光学的および音響的分岐を持つ。
この古典力学系に基づいて、相対論的量子力学のクライン・ゴルドン・フォック方程式の一般化である2つの相対論的量子力学方程式の系を提案した。
次に,この系とディラック・アプローチに基づいて,第1次線形偏微分方程式系という形で8成分波動関数を持つ自由電子に対するディラック方程式の一般化を提案した。
分散関係の光学分枝のみを持つ4成分波動関数を持つディラック方程式とは異なり、一般化ディラック方程式は分散関係の光学分枝と音響分枝の両方を持ち、それぞれ正と負のエネルギーを持つ2つの分枝を持つ。
すべての場合の位相速度と群速度を計算した。
正の音響分枝と負の音響分枝では、位相と群速度は光速に等しい。
正および負の光学枝では、位相と群速度はド・ブロイ波のような構造を持つ。
1次元の場合、分散の2つの分岐の8つの組合せ、総エネルギーの2つの兆候、スピン配向の2つの可能な2つの方向に対応する8つの線形独立解が4つの平面波の形で得られる。 The paper considers a slightly modified one-dimensional infinite mass-in-mass chain. In the case of the long-wave approximation, which corresponds to the transition to a continuous medium, we obtained a system of two equations, which is a generalization of the classical mechanics Klein-Gordon-Fock equation and has both optical and acoustic branches of the dispersion relation. Based on this classical mechanics system of equations, we have proposed a system of two relativistic quantum mechanics equations, which is a generalization of the relativistic quantum mechanics Klein-Gordon-Fock equation. Next, based on this system and following the Dirac approach, we have proposed the generalization of the Dirac equation for a free electron with an eight-component wave function in the form of a system of eight linear partial differential equations of the first order. Unlike the Dirac equation with a four-component wave function, which has only an optical branch of the dispersion relation, the generalized Dirac equation has both optical and acoustic branches of the dispersion relation, each of which has two branches with positive and negative energies, respectively. We have calculated phase and group velocities for all cases. For the positive and negative acoustic branches, the phase and group velocities are equal in modulus to the speed of light. For the positive and negative optical branches, the phase and group velocities have a structure like that of de Broglie waves. In the one-dimensional case, eight linearly independent solutions corresponding to eight combinations of two branches of dispersion, two signs of total energy, and two possible directions of spin orientation, each in the form of four plane waves, are obtained. | 翻訳日:2024-01-24 17:57:14 公開日:2024-01-22 |
# 敵対的攻撃下でのオープンリポジトリにおけるAIビジョンモデルの品質属性の分析 Analyzing the Quality Attributes of AI Vision Models in Open Repositories Under Adversarial Attacks ( http://arxiv.org/abs/2401.12261v1 ) ライセンス: Link先を確認 | Zerui Wang, Yan Liu | (参考訳) AIモデルが急速に進化するにつれて、HuggingFaceのようなオープンリポジトリに頻繁にリリースされる。
製品開発ライフサイクルに組み込む前に、これらのモデルの品質保証検証を実行することが不可欠です。
バランスの取れた精度と計算コストの観点から効率を評価することに加えて、敵攻撃はAIモデルの堅牢性と説明可能性に対する潜在的な脅威である。
一方、XAIは入力を近似したアルゴリズムをポストホック出力に適用し、貢献する特徴を特定する。
敵対的摂動は、さらなる調査を必要とするXAI説明の有用性を低下させる可能性がある。
本稿では,aiモデルの精度検証,ベンチマーク摂動によるロバスト性評価,説明ユーティリティの比較,オーバーヘッド評価など,下流評価タスク用に設計された統合プロセスを提案する。
CNNベース,トランスフォーマーベース,ハイブリッドアーキテクチャ,3種類の摂動,5種類のXAI手法を含む6種類のコンピュータビジョンモデルによる評価シナリオを実証し,90種類の一意な組み合わせを得た。
このプロセスは, 対向的摂動に応答する鍵領域を同定し, XAI法における説明の有用性を明らかにする。
このプロセスは、各aiモデルの複数の属性を示す集約結果を生成する。 As AI models rapidly evolve, they are frequently released to open repositories, such as HuggingFace. It is essential to perform quality assurance validation on these models before integrating them into the production development lifecycle. In addition to evaluating efficiency in terms of balanced accuracy and computing costs, adversarial attacks are potential threats to the robustness and explainability of AI models. Meanwhile, XAI applies algorithms that approximate inputs to outputs post-hoc to identify the contributing features. Adversarial perturbations may also degrade the utility of XAI explanations that require further investigation. In this paper, we present an integrated process designed for downstream evaluation tasks, including validating AI model accuracy, evaluating robustness with benchmark perturbations, comparing explanation utility, and assessing overhead. We demonstrate an evaluation scenario involving six computer vision models, which include CNN-based, Transformer-based, and hybrid architectures, three types of perturbations, and five XAI methods, resulting in ninety unique combinations. The process reveals the explanation utility among the XAI methods in terms of the identified key areas responding to the adversarial perturbation. The process produces aggregated results that illustrate multiple attributes of each AI model. | 翻訳日:2024-01-24 17:56:24 公開日:2024-01-22 |
# エッジ上の効率的なディープラーニングのための量子化アウェアニューラルアーキテクチャ探索のスケールアップ Scaling Up Quantization-Aware Neural Architecture Search for Efficient Deep Learning on the Edge ( http://arxiv.org/abs/2401.12350v1 ) ライセンス: Link先を確認 | Yao Lu, Hiram Rayo Torres Rodriguez, Sebastian Vogel, Nick van de Waterlaat, Pavol Jancura | (参考訳) ニューラルアーキテクチャ検索(nas)は、エッジデバイスのための正確で効率的なネットワークを設計するためのデファクトのアプローチとなっている。
モデルは通常、エッジ配置のために量子化されるため、最近の研究は、高精度で効率的な量子化モデルを探すための量子化対応NAS(QA-NAS)を調査している。
しかし、既存のQA-NASアプローチ、特にFB-MP法は、より大きなタスクにスケールしない。
その結果、QA-NASは低スケールのタスクや小さなネットワークに限られている。
本研究では,ブロックワイズNASによって導入されたブロックワイズ式を利用して,大規模タスクにおけるQA-NAS(INT8とFB-MP)を実現する手法を提案する。
本研究では,Cityscapesデータセット上のセマンティックセグメンテーションタスクについて,FB-MPモデルが33%小さく,INT8モデルがタスク性能を損なうことなく,DeepLabV3(INT8)よりも17.6%高速であることを示す。 Neural Architecture Search (NAS) has become the de-facto approach for designing accurate and efficient networks for edge devices. Since models are typically quantized for edge deployment, recent work has investigated quantization-aware NAS (QA-NAS) to search for highly accurate and efficient quantized models. However, existing QA-NAS approaches, particularly few-bit mixed-precision (FB-MP) methods, do not scale to larger tasks. Consequently, QA-NAS has mostly been limited to low-scale tasks and tiny networks. In this work, we present an approach to enable QA-NAS (INT8 and FB-MP) on large-scale tasks by leveraging the block-wise formulation introduced by block-wise NAS. We demonstrate strong results for the semantic segmentation task on the Cityscapes dataset, finding FB-MP models 33% smaller and INT8 models 17.6% faster than DeepLabV3 (INT8) without compromising task performance. | 翻訳日:2024-01-24 17:45:52 公開日:2024-01-22 |
# リフティング非文脈不等式 Lifting noncontextuality inequalities ( http://arxiv.org/abs/2401.12349v1 ) ライセンス: Link先を確認 | Raman Choudhary, Rui Soares Barbosa, Ad\'an Cabello | (参考訳) kochen-specker contextityは量子力学の基本的な特徴であり、量子計算の優位性と通信の複雑さの低減に欠かせない資源である。
しかしながら、非コンテキストポリトープのファセットに対応するすべての既知の非コンテキスト不等式はベルの不等式か、巡回的あるいは状態非依存的なKS文脈性シナリオである。
本稿では,非コンテキスト不等式を持ち上げ,任意のシナリオの非コンテキスト多面体の非自明な面を特徴付ける一般的な方法を提案する。
任意のシナリオから始めると、新しい測定値や新しい結果が付加され、任意の非文脈性不等式のファセット定義性が保たれることを示す。
これは、ベル非局所性シナリオから文脈性シナリオへのピロニオ [J. Math. Phys. 46, 062112 (2005)] の結果を拡張し、ベルと非文脈性の不等式を統一する。
本手法は,すべてのシナリオにおいて文脈相関のある非文脈性不等式をファセット定義することを示すとともに,実例が知られていないシナリオに対してファセット定義非コンテキスト性不等式を例示する。 Kochen-Specker contextuality is a fundamental feature of quantum mechanics and a crucial resource for quantum computational advantage and reduction of communication complexity. However, all known noncontextuality inequalities corresponding to facets of noncontextual polytopes are either Bell inequalities or refer to cyclic or state-independent KS contextuality scenarios. Here, we introduce a general method for lifting noncontextuality inequalities and characterising nontrivial facets of noncontextual polytopes of arbitrary scenarios. We show that, starting from an arbitrary scenario, the addition of a new measurement or a new outcome preserves the facet-defining nature of any noncontextuality inequality. This extends the results of Pironio [J. Math. Phys. 46, 062112 (2005)] from Bell nonlocality scenarios to contextuality scenarios and unifies liftings of Bell and noncontextuality inequalities. We show that our method produces facet-defining noncontextuality inequalities in all scenarios with contextual correlations, and we present examples of facet-defining noncontextuality inequalities for scenarios where no examples were known. | 翻訳日:2024-01-24 17:45:31 公開日:2024-01-22 |
# OCT-SelfNet: 汎用およびロバスト網膜疾患検出のための多モードデータセットを用いた自己監視フレームワーク OCT-SelfNet: A Self-Supervised Framework with Multi-Modal Datasets for Generalized and Robust Retinal Disease Detection ( http://arxiv.org/abs/2401.12344v1 ) ライセンス: Link先を確認 | Fatema-E Jannat, Sina Gholami, Minhaj Nur Alam, Hamed Tabkhi | (参考訳) AIの革命的な影響と、局所的に訓練されたアルゴリズムの開発にもかかわらず、医療AIのマルチモーダルデータから広く一般化された学習を実現することは、依然として大きな課題である。
このギャップは、スケーラブルな医療AIソリューションの実践的な展開を妨げる。
この課題に対処するため,光コヒーレンストモグラフィ(OCT)画像を用いた眼疾患検出のための自己教師付き堅牢な機械学習フレームワークOCT-SelfNetを開発した。
本研究では,様々な機関の各種データセットを組み合わせることで,より包括的な表現が可能となる。
本手法は,SwinV2バックボーンをベースとしたマスクオートエンコーダと,自己指導型プレトレーニングと教師型微調整を組み合わせた2段階のトレーニング手法を用いてこの問題に対処する。
異なるエンコーダのバックボーン、低いデータ設定、見えないデータ設定を持つ3つのデータセットに対する大規模な実験により、我々の手法はベースラインモデル、Resnet-50より優れており、全てのテストでAUC-ROC性能が77%以上、ベースラインモデルは54%以上であることがわかった。
さらに, AUC-PR測定では, 提案手法は42%以上であり, 33%を超えるベースラインに比べて, 少なくとも10%以上の性能向上を示した。
これは我々のアプローチの可能性の理解に寄与し、臨床環境での有用性を強調します。 Despite the revolutionary impact of AI and the development of locally trained algorithms, achieving widespread generalized learning from multi-modal data in medical AI remains a significant challenge. This gap hinders the practical deployment of scalable medical AI solutions. Addressing this challenge, our research contributes a self-supervised robust machine learning framework, OCT-SelfNet, for detecting eye diseases using optical coherence tomography (OCT) images. In this work, various data sets from various institutions are combined enabling a more comprehensive range of representation. Our method addresses the issue using a two-phase training approach that combines self-supervised pretraining and supervised fine-tuning with a mask autoencoder based on the SwinV2 backbone by providing a solution for real-world clinical deployment. Extensive experiments on three datasets with different encoder backbones, low data settings, unseen data settings, and the effect of augmentation show that our method outperforms the baseline model, Resnet-50 by consistently attaining AUC-ROC performance surpassing 77% across all tests, whereas the baseline model exceeds 54%. Moreover, in terms of the AUC-PR metric, our proposed method exceeded 42%, showcasing a substantial increase of at least 10% in performance compared to the baseline, which exceeded only 33%. This contributes to our understanding of our approach's potential and emphasizes its usefulness in clinical settings. | 翻訳日:2024-01-24 17:45:09 公開日:2024-01-22 |
# 部分グラフ抽出に基づくHLSのフィードバック誘導反復スケジューリング Subgraph Extraction-based Feedback-guided Iterative Scheduling for HLS ( http://arxiv.org/abs/2401.12343v1 ) ライセンス: Link先を確認 | Hanchen Ye, David Z. Pan, Chris Leary, Deming Chen, Xiaoqing Xu | (参考訳) 本稿では,高次合成(HLS)のための差分制約(SDC)スケジューリングアルゴリズムであるISDCを提案する。
ISDCは、論理合成器のような下流ツールからのサブグラフ抽出に基づく低レベルフィードバックを活用して、HLSスケジューリングを反復的に洗練する。
1)低レベルのフィードバックを線形プログラミング(LP)問題に効果的に統合する強化SDC定式化,(2)フィードバックサイクルを駆動するファンアウトおよびウィンドウベースのサブグラフ抽出機構,(3)幅広い下流ツールやプロセス設計キット(PDK)と互換性のある非人為的なISDCフロー。
評価の結果、ISDCは産業力のあるオープンソースのHLSツールに対してレジスタ使用量を28.5%削減している。 This paper proposes ISDC, a novel feedback-guided iterative system of difference constraints (SDC) scheduling algorithm for high-level synthesis (HLS). ISDC leverages subgraph extraction-based low-level feedback from downstream tools like logic synthesizers to iteratively refine HLS scheduling. Technical innovations include: (1) An enhanced SDC formulation that effectively integrates low-level feedback into the linear-programming (LP) problem; (2) A fanout and window-based subgraph extraction mechanism driving the feedback cycle; (3) A no-human-in-loop ISDC flow compatible with a wide range of downstream tools and process design kits (PDKs). Evaluation shows that ISDC reduces register usage by 28.5% against an industrial-strength open-source HLS tool. | 翻訳日:2024-01-24 17:44:42 公開日:2024-01-22 |
# 目標アノテーションのためのコントラスト学習とサイクル一貫性に基づくトランスダクティブ・トランスダクティブ・ラーニング Contrastive Learning and Cycle Consistency-based Transductive Transfer Learning for Target Annotation ( http://arxiv.org/abs/2401.12340v1 ) ライセンス: Link先を確認 | Shoaib Meraj Sami, Md Mahedi Hasan, Nasser M. Nasrabadi, Raghuveer Rao | (参考訳) 自動目標認識(ATR)の注釈付けは、主にターゲット領域におけるラベル付きデータの有効性のため、非常に難しい作業である。
したがって、ソース領域画像のラベル付き情報を利用して最適なターゲットドメイン分類器を構築することが不可欠である。
サイクガンベースの非パイレッドドメイン翻訳ネットワークを組み込んだトランスダクティブ・トランスファー・トランスファー・ラーニング(ttl)法は,従来,効果的なatrアノテーションのための文献で提案されてきた。
この手法はATRに大きな可能性を示すが、アノテーション性能の低下、Fr'echet Inception Distance(FID)スコアの上昇、および合成画像に視覚的アーティファクトが存在することに苦しむ。
これらの課題に対処するために,FIDスコアが大幅に低いH-CUT(Hybrid contrastive learning base unpaired domain translation)ネットワークを提案する。
注目とエントロピーの両方を取り入れて、ドメイン固有の領域を強調するとともに、高変動性合成陰性パッチを生成するノイズ混在モジュールや、最適化ノイズコントラスト推定(MoNCE)の損失を最適化し、すべての負のパッチを再重み付けしてパフォーマンスを向上させる。
提案するコントラスト学習とc3ttl(cycle-consistency-based ttl)フレームワークは2つのhカットネットワークと2つの分類器から構成される。
同時にサイクル一貫性、MoNCE、ID損失を最適化する。
C3TTLでは、2つのH-CUTネットワークがビジェクションマッピングを用いて、再構成されたソースドメインイメージをトレーニング済みの分類器に供給し、最適なターゲットドメイン分類器を導く。
3つのATRデータセットで大規模な実験分析を行った結果,提案手法は民間車両や軍用車両のアノテートに有効であることがわかった。 Annotating automatic target recognition (ATR) is a highly challenging task, primarily due to the unavailability of labeled data in the target domain. Hence, it is essential to construct an optimal target domain classifier by utilizing the labeled information of the source domain images. The transductive transfer learning (TTL) method that incorporates a CycleGAN-based unpaired domain translation network has been previously proposed in the literature for effective ATR annotation. Although this method demonstrates great potential for ATR, it severely suffers from lower annotation performance, higher Fr\'echet Inception Distance (FID) score, and the presence of visual artifacts in the synthetic images. To address these issues, we propose a hybrid contrastive learning base unpaired domain translation (H-CUT) network that achieves a significantly lower FID score. It incorporates both attention and entropy to emphasize the domain-specific region, a noisy feature mixup module to generate high variational synthetic negative patches, and a modulated noise contrastive estimation (MoNCE) loss to reweight all negative patches using optimal transport for better performance. Our proposed contrastive learning and cycle-consistency-based TTL (C3TTL) framework consists of two H-CUT networks and two classifiers. It simultaneously optimizes cycle-consistency, MoNCE, and identity losses. In C3TTL, two H-CUT networks have been employed through a bijection mapping to feed the reconstructed source domain images into a pretrained classifier to guide the optimal target domain classifier. Extensive experimental analysis conducted on three ATR datasets demonstrates that the proposed C3TTL method is effective in annotating civilian and military vehicles, as well as ship targets. | 翻訳日:2024-01-24 17:44:27 公開日:2024-01-22 |
# ロス表面形状を用いたSGD安定性の高精度評価 A Precise Characterization of SGD Stability Using Loss Surface Geometry ( http://arxiv.org/abs/2401.12332v1 ) ライセンス: Link先を確認 | Gregory Dexter, Borja Ocejo, Sathiya Keerthi, Aman Gupta, Ayan Acharya, Rajiv Khanna | (参考訳) Stochastic Gradient Descent (SGD) は実世界の実証的な成功を証明したが、理論的な理解は比較的限られている。
最近の研究は、その実用性に寄与する重要な要因である暗黙の正規化を照らしている。
過パラメータニューラルネットワーク(wu et al., 2022; jastrzebski et al., 2019; cohen et al., 2021)におけるシャープネスと一般化誤差の予測指標として、静止点近傍におけるsgdの線形安定性特性が研究されている。
本稿では,線形安定性とシャープネスの関係について考察する。
具体的には, 線形安定性, SGD のハイパーパラメータ, 最適のシャープネスについて, 必要かつ十分な条件を慎重に記述する。
この目的に向けて、SGDの線形安定性に関連する損失関数の関連する幾何学的性質をカプセル化するロス・ヘシアンの新しいコヒーレンス測度を導入する。
これにより、最適な線形不安定性を特定するための簡易な条件が提供される。
特筆すべきは,これまでの研究に比べてかなり軽度な仮定に依存しており,平均二乗誤差だけでなく,クロスエントロピー損失も含む,従来よりも幅広い損失関数に適用できる点である。 Stochastic Gradient Descent (SGD) stands as a cornerstone optimization algorithm with proven real-world empirical successes but relatively limited theoretical understanding. Recent research has illuminated a key factor contributing to its practical efficacy: the implicit regularization it instigates. Several studies have investigated the linear stability property of SGD in the vicinity of a stationary point as a predictive proxy for sharpness and generalization error in overparameterized neural networks (Wu et al., 2022; Jastrzebski et al., 2019; Cohen et al., 2021). In this paper, we delve deeper into the relationship between linear stability and sharpness. More specifically, we meticulously delineate the necessary and sufficient conditions for linear stability, contingent on hyperparameters of SGD and the sharpness at the optimum. Towards this end, we introduce a novel coherence measure of the loss Hessian that encapsulates pertinent geometric properties of the loss function that are relevant to the linear stability of SGD. It enables us to provide a simplified sufficient condition for identifying linear instability at an optimum. Notably, compared to previous works, our analysis relies on significantly milder assumptions and is applicable for a broader class of loss functions than known before, encompassing not only mean-squared error but also cross-entropy loss. | 翻訳日:2024-01-24 17:43:54 公開日:2024-01-22 |
# 交通インフラの優先利用に向けて--都市部における車両固有のダイナミックアクセス制限の場合 Towards a prioritised use of transportation infrastructures: the case of vehicle-specific dynamic access restrictions to city centres ( http://arxiv.org/abs/2401.12329v1 ) ライセンス: Link先を確認 | Holger Billhardt, Alberto Fern\'andez, Pasqual Mart\'i, Javier Prieto Tejedor, Sascha Ossowski | (参考訳) 大都市の地方自治体が直面するべき主な問題の一つは、都市移動の規制である。
人々の効率的な移動と商品の流通を可能にする手段を提供する必要がある。
しかし、交通サービスの供給は、排出削減や健康な生活環境の確保といった、個人の利益と常に一致しているとは限らない一般的なグローバルな目的を考慮に入れる必要がある。
都市モビリティは通常、モビリティをサポートするすべての要素を含む交通インフラを通じて提供される。
多くの場合、このインフラの要素の容量は実際の需要よりも低く、様々な輸送活動が彼らの利用を競う。
本稿では, 少ない輸送インフラ要素を, 社会の観点から, より有効性の高い輸送活動, 例えば, 環境汚染を低減し, 社会に価値をもたらす活動に優先して, 動的かつ優先的に割り当てるべきである,と論じる。
本稿では,時刻制限要素と呼ばれる特定の交通インフラ要素の使用を優先する一般的なモデルを定義し,その利用時間が未定である場合,その動態を都市中心部における車両固有の動的アクセス制限という2つのユースケースを通じて示す。
一 利用可能な駐車場の利用状況及び利用状況に基づくもの
(ii)市中心部の許容空気質レベルを持続的に確保すること。
相撲交通シミュレーションツールを用いて,提案手法を評価する実験を行った。 One of the main problems that local authorities of large cities have to face is the regulation of urban mobility. They need to provide the means to allow for the efficient movement of people and distribution of goods. However, the provisioning of transportation services needs to take into account general global objectives, like reducing emissions and having more healthy living environments, which may not always be aligned with individual interests. Urban mobility is usually provided through a transport infrastructure that includes all the elements that support mobility. On many occasions, the capacity of the elements of this infrastructure is lower than the actual demand and thus different transportation activities compete for their use. In this paper, we argue that scarce transport infrastructure elements should be assigned dynamically and in a prioritised manner to transport activities that have a higher utility from the point of view of society; for example, activities that produce less pollution and provide more value to society. In this paper, we define a general model for prioritizing the use of a particular type of transportation infrastructure element called time-unlimited elements, whose usage time is unknown a priori, and illustrate its dynamics through two use cases: vehicle-specific dynamic access restriction in city centres (i) based on the usage levels of available parking spaces and (ii) to assure sustained admissible air quality levels in the city centre. We carry out several experiments using the SUMO traffic simulation tool to evaluate our proposal. | 翻訳日:2024-01-24 17:43:33 公開日:2024-01-22 |
# マルチジェネレータ、マルチドメイン、多言語機械生成テキスト検出のための微調整大言語モデル Fine-tuning Large Language Models for Multigenerator, Multidomain, and Multilingual Machine-Generated Text Detection ( http://arxiv.org/abs/2401.12326v1 ) ライセンス: Link先を確認 | Feng Xiong, Thanet Markchom, Ziwei Zheng, Subin Jung, Varun Ojha, Huizhi Liang | (参考訳) SemEval-2024 Task 8では、さまざまな言語やドメインのさまざまなLarge Language Models(LLM)から機械生成テキストを特定するという課題が紹介されている。
このタスクは3つのサブタスクから構成される: 単言語および多言語におけるバイナリ分類(Subtask A)、多クラス分類(Subtask B)、混合テキスト検出(Subtask C)。
各サブタスクは、トレーニング、開発、テストのための3つのデータセットによってサポートされます。
この課題に取り組むには2つの方法がある。
1) 特徴抽出のための自然言語前処理(NLP)を用いた従来の機械学習(ML)
2) テキスト分類のための微調整LDM。
その結果、トランスフォーマーモデル、特にLoRA-RoBERTaは従来のML手法よりも有効であり、多数決は機械生成テキストを識別するための多言語文脈において特に有効であることがわかった。 SemEval-2024 Task 8 introduces the challenge of identifying machine-generated texts from diverse Large Language Models (LLMs) in various languages and domains. The task comprises three subtasks: binary classification in monolingual and multilingual (Subtask A), multi-class classification (Subtask B), and mixed text detection (Subtask C). This paper focuses on Subtask A & B. Each subtask is supported by three datasets for training, development, and testing. To tackle this task, two methods: 1) using traditional machine learning (ML) with natural language preprocessing (NLP) for feature extraction, and 2) fine-tuning LLMs for text classification. The results show that transformer models, particularly LoRA-RoBERTa, exceed traditional ML methods in effectiveness, with majority voting being particularly effective in multilingual contexts for identifying machine-generated texts. | 翻訳日:2024-01-24 17:43:10 公開日:2024-01-22 |
# 自転車シェアリングシステムにおける自転車レンタルのためのスマートレコメンデーション Smart Recommendations for Renting Bikes in Bike Sharing Systems ( http://arxiv.org/abs/2401.12322v1 ) ライセンス: Link先を確認 | Holger Billhardt, Alberto Fern\'andez, Sascha Ossowski | (参考訳) Vehicle-sharing systems -- such as bike-, car-, or motorcycle-sharing systems -- have become increasingly popular in big cities in recent years. On the one hand, they provide a cheaper and environmentally friendlier means of transportation than private cars, and on the other hand, they satisfy the individual mobility demands of citizens better than traditional public transport systems. One of their advantages in this regard is their availability, e.g., the possibility of taking (or leaving) a vehicle almost anywhere in a city. This availability obviously depends on different strategic and operational management decisions and policies, such as the dimension of the fleet or the (re)distribution of vehicles. Agglutination problems -- where, due to usage patterns, available vehicles are concentrated in certain areas, whereas no vehicles are available in others -- are quite common in such systems, and need to be dealt with.
不均衡な状況を減らすための様々な技術を特定することで、この問題に焦点を絞った研究が行われている。
本稿では,自転車の貸出・返却を希望する利用者に対して,駅を推薦する戦略を提示・比較する。
我々の最初の貢献は、より低い距離と、自転車やスロットを見つける確率の点で、利用者の効用に基づいて駅を推薦するキューイング理論に基づく新しい推奨戦略である。
さらに,将来的な需要に対する自転車やスロットの分布改善の観点から測定した,特定のユーザのユーティリティとグローバルシステムのユーティリティを組み合わせることで,ステーションを推奨する戦略を,暗黙的に回避あるいは緩和することを目的として,さらに一歩進める。
マドリードの自転車共有システムBiciMADの実際のデータを用いて提案手法の評価実験を行った。 Vehicle-sharing systems -- such as bike-, car-, or motorcycle-sharing systems -- have become increasingly popular in big cities in recent years. On the one hand, they provide a cheaper and environmentally friendlier means of transportation than private cars, and on the other hand, they satisfy the individual mobility demands of citizens better than traditional public transport systems. One of their advantages in this regard is their availability, e.g., the possibility of taking (or leaving) a vehicle almost anywhere in a city. This availability obviously depends on different strategic and operational management decisions and policies, such as the dimension of the fleet or the (re)distribution of vehicles. Agglutination problems -- where, due to usage patterns, available vehicles are concentrated in certain areas, whereas no vehicles are available in others -- are quite common in such systems, and need to be dealt with. Research has been dedicated to this problem, specifying different techniques to reduce imbalanced situations. In this paper, we present and compare strategies for recommending stations to users who wish to rent or return bikes in station-based bike-sharing systems. Our first contribution is a novel recommendation strategy based on queuing theory that recommends stations based on their utility to the user in terms of lower distance and higher probability of finding a bike or slot. Then, we go one step further, defining a strategy that recommends stations by combining the utility of a particular user with the utility of the global system, measured in terms of the improvement in the distribution of bikes and slots with respect to the expected future demand, with the aim of implicitly avoiding or alleviating balancing problems. We present several experiments to evaluate our proposal with real data from the bike sharing system BiciMAD in Madrid. | 翻訳日:2024-01-24 17:42:54 公開日:2024-01-22 |
# ロボティクスのためのソフトウェアエンジニアリング:今後の研究方向;2023年ロボティクスのためのソフトウェアエンジニアリングに関するワークショップ報告 Software Engineering for Robotics: Future Research Directions; Report from the 2023 Workshop on Software Engineering for Robotics ( http://arxiv.org/abs/2401.12317v1 ) ライセンス: Link先を確認 | Claire Le Goues (Carnegie Mellon University), Sebastian Elbaum (University of Virginia), David Anthony (Southwest Research Institute), Z. Berkay Celik (Purdue University), Mauricio Castillo-Effen (Lockheed Martin), Nikolaus Correll (University of Colorado-Boulder), Pooyan Jamshidi (University of South Carolina), Morgan Quigley (Open Source Robotics Foundation), Trenton Tabor (Carnegie Mellon University) and Qi Zhu (Northwestern University) | (参考訳) ロボットは、家のメンテナンスやインフラ検査、効率的なウェアハウスから自動運転車まで、私たちの日常生活の多くの側面を浸透させながら、革命を経験している。
この技術的進歩とその影響は驚くべきものだ。
しかし、この革命は、何十年も変わっていない既存のソフトウェア開発プロセス、技術、ツールの能力を上回っている。
これらの能力は、多様なドメイン、異種ハードウェア、プログラムと学習されたコンポーネント、不確実性によって捕捉されモデル化された複雑な物理的環境、人間のインタラクションを含む創発的な振る舞い、複数の次元にまたがるスケーラビリティ要求など、ロボット工学ソフトウェア特有の課題を扱うのに不適である。
よりユビキタスで自律的で、複雑な適応コンポーネントやハードウェア、データに依存したロボットのためのソフトウェアを開発する必要性を鑑み、2023年10月にミシガン州デトロイトで開催されたSoftware Engineering for Roboticsのテーマに関するNSF主催のコミュニティワークショップを動機とした。
ワークショップの目的は、ロボット工学とソフトウェア工学の思想的リーダーを集めてコミュニティを合体させ、そのコミュニティが今後5年間に解決することを目指すロボット工学のためのSEの領域における重要な問題を特定することである。
本報告は,そのワークショップの動機,活動,成果を要約し,特にロボットソフトウェアに特有の課題を明確にし,それらに取り組むための実りある短期的な研究方向のビジョンを特定する。 Robots are experiencing a revolution as they permeate many aspects of our daily lives, from performing house maintenance to infrastructure inspection, from efficiently warehousing goods to autonomous vehicles, and more. This technical progress and its impact are astounding. This revolution, however, is outstripping the capabilities of existing software development processes, techniques, and tools, which largely have remained unchanged for decades. These capabilities are ill-suited to handling the challenges unique to robotics software such as dealing with a wide diversity of domains, heterogeneous hardware, programmed and learned components, complex physical environments captured and modeled with uncertainty, emergent behaviors that include human interactions, and scalability demands that span across multiple dimensions. Looking ahead to the need to develop software for robots that are ever more ubiquitous, autonomous, and reliant on complex adaptive components, hardware, and data, motivated an NSF-sponsored community workshop on the subject of Software Engineering for Robotics, held in Detroit, Michigan in October 2023. The goal of the workshop was to bring together thought leaders across robotics and software engineering to coalesce a community, and identify key problems in the area of SE for robotics that that community should aim to solve over the next 5 years. This report serves to summarize the motivation, activities, and findings of that workshop, in particular by articulating the challenges unique to robot software, and identifying a vision for fruitful near-term research directions to tackle them. | 翻訳日:2024-01-24 17:42:29 公開日:2024-01-22 |
# 非極性から強極性原子-イオン衝突ダイナミクスの$$$situ$観測 $In$ $situ$ observation of non-polar to strongly polar atom-ion collision dynamics ( http://arxiv.org/abs/2401.12312v1 ) ライセンス: Link先を確認 | Moritz Berngruber, Daniel J. Bosworth, Oscar A. Herrera-Sancho, Viraatt S. V. Anasuri, Nico Zuber, Frederic Hummel, Jennifer Krauter, Florian Meinert, Robert L\"ow, Peter Schmelcher and Tilman Pfau | (参考訳) イオンとライドバーグ原子の衝突ダイナミクスの開始は、多数の衝突チャネルによって特徴づけられる状態において研究される。
これらのチャネルは、非極性ライドバーグ状態と多くの高極性スターク状態のカップリングから生じる。
極性スターク状態によって形成される相互作用電位は、その場で観測される衝突時間スケールの分離につながる非極性状態と比較して、空間勾配の実質的な差を示す。
衝突エネルギーが $k_\textrm{b}\cdot\mu$k to $k_\textrm{b}\cdot$k の範囲であれば、ダイナミクスは温度に対する直観的な反依存を示し、コールド(当初は「遅い」)系の衝突ダイナミクスを高速化する。
双極子選択規則により、非極性電位上の衝突対を高度に制御し、衝突経路の占有を決定することができる。
実験的な観察は、ペア状態の進化をモデル化し、調整可能な非断熱力学の証拠を提供する半古典的なシミュレーションによって支持される。 The onset of collision dynamics between an ion and a Rydberg atom is studied in a regime characterized by a multitude of collision channels. These channels arise from coupling between a non-polar Rydberg state and numerous highly polar Stark states. The interaction potentials formed by the polar Stark states show a substantial difference in spatial gradient compared to the non-polar state leading to a separation of collisional timescales, which is observed in situ. For collision energies in the range of $k_\textrm{B}\cdot\mu$K to $k_\textrm{B}\cdot$K, the dynamics exhibit a counter-intuitive dependence on temperature, resulting in faster collision dynamics for cold - initially "slow" - systems. Dipole selection rules enable us to prepare the collision pair on the non-polar potential in a highly controlled manner, which determines occupation of the collision channels. The experimental observations are supported by semi-classical simulations, which model the pair state evolution and provide evidence for tunable non-adiabatic dynamics. | 翻訳日:2024-01-24 17:41:59 公開日:2024-01-22 |
# 可積分量子回路における強零モード Strong zero modes in integrable quantum circuits ( http://arxiv.org/abs/2401.12305v1 ) ライセンス: Link先を確認 | Eric Vernier, Hsiu-Chung Yeh, Lorenzo Piroli, Aditi Mitra | (参考訳) ある種の相互作用可能なスピンチェーンが強零モード(szms)として知られる強固なエッジモードを持つという古典的な結果である。
本研究では、この結果を局所量子回路のフロケ設定に拡張し、XXZハイゼンベルクスピン鎖の進化のための可積分トロッタライゼーションを提供する原型モデルに焦点を当てる。
積分可能性の代数的構造を利用して、パラメータ空間の特定の領域における積分可能量子回路に対して正確なSZM演算子を構築することができることを示す。
連続時間極限においてポール・フェンドリーがよく知られた結果を回復する我々の構成は、可積分性から知られている可換移動行列の集合に依存し、正規化可視性を含むSZMの重要な性質を容易に証明することができる。
我々のアプローチは以前の方法と異なり、ハミルトニアンの設定においても独立した関心を持つことができる。
我々の予測は、無限温度自己相関関数の数値シミュレーションによって裏付けられ、利用可能な量子プラットフォーム上のxxz量子回路の実装に潜在的に興味深い。 It is a classic result that certain interacting integrable spin chains host robust edge modes known as strong zero modes (SZMs). In this work, we extend this result to the Floquet setting of local quantum circuits, focusing on a prototypical model providing an integrable Trotterization for the evolution of the XXZ Heisenberg spin chain. By exploiting the algebraic structures of integrability, we show that an exact SZM operator can be constructed for these integrable quantum circuits in certain regions of parameter space. Our construction, which recovers a well-known result by Paul Fendley in the continuous-time limit, relies on a set of commuting transfer matrices known from integrability, and allows us to easily prove important properties of the SZM, including normalizabilty. Our approach is different from previous methods and could be of independent interest even in the Hamiltonian setting. Our predictions, which are corroborated by numerical simulations of infinite-temperature autocorrelation functions, are potentially interesting for implementations of the XXZ quantum circuit on available quantum platforms. | 翻訳日:2024-01-24 17:41:37 公開日:2024-01-22 |
# 安価学習: 最小データを用いたソーシャルデータサイエンスのための言語モデルの性能の最大化 Cheap Learning: Maximising Performance of Language Models for Social Data Science Using Minimal Data ( http://arxiv.org/abs/2401.12295v1 ) ライセンス: Link先を確認 | Leonardo Castro-Gonzalez and Yi-Ling Chung and Hannak Rose Kirk and John Francis and Angus R. Williams and Pica Johansson and Jonathan Bright | (参考訳) 機械学習の分野は最近、新しいモデルを構築する際にラベル付きトレーニングデータの要件を減らすことに大きな進歩を遂げている。
これらの‘チーパー’学習技術は、大規模なラベル付きトレーニングデータセットの開発が分析タスクに機械学習を使用する上で、しばしば重要な実践上の障害となる社会科学に大きな可能性を秘めている。
本稿では,近年発展してきた3つの「チープ」技術について概説する。
後者については、大規模言語モデルのゼロショットプロンプトの特定の事例についてもレビューする。
それぞれのテクニックについて、その動作のガイドを提供し、6つの異なる現実的な社会科学アプリケーション(2つの異なるタスクと3つの異なるデータセットメイクアップのペア)にまたがってそのアプリケーションをデモします。
我々は,すべての手法に優れた性能を示し,特に,大規模言語モデルのプロンプトが極めて低コストで高い精度を達成できることを実証する。
結果にはコードリポジトリが伴っていて、他の人が作業を複製し、自分たちの研究で使用しやすくしています。
本論文は,社会科学におけるこれらの手法のさらなる取り込みをめざすものである。 The field of machine learning has recently made significant progress in reducing the requirements for labelled training data when building new models. These `cheaper' learning techniques hold significant potential for the social sciences, where development of large labelled training datasets is often a significant practical impediment to the use of machine learning for analytical tasks. In this article we review three `cheap' techniques that have developed in recent years: weak supervision, transfer learning and prompt engineering. For the latter, we also review the particular case of zero-shot prompting of large language models. For each technique we provide a guide of how it works and demonstrate its application across six different realistic social science applications (two different tasks paired with three different dataset makeups). We show good performance for all techniques, and in particular we demonstrate how prompting of large language models can achieve high accuracy at very low cost. Our results are accompanied by a code repository to make it easy for others to duplicate our work and use it in their own research. Overall, our article is intended to stimulate further uptake of these techniques in the social sciences. | 翻訳日:2024-01-24 17:41:18 公開日:2024-01-22 |
# GRATH: 大規模言語モデルのための経時的自己改善 GRATH: Gradual Self-Truthifying for Large Language Models ( http://arxiv.org/abs/2401.12292v1 ) ライセンス: Link先を確認 | Weixin Chen, Bo Li | (参考訳) 現実のアプリケーションにますますデプロイされているため、大きな言語モデル(LLM)にとって真実性は最重要である。
しかし、既存のLLMは、TrathfulQAのようなベンチマークにおける控えめなパフォーマンスによって証明されているように、真実の答えとコンテンツの生成に苦戦している。
この問題に対処するために,LLMの真正性を高めるための新しいポストプロセッシング手法であるGRATHを提案する。
GRATHはドメイン外質問プロンプトを使用して対応する回答を生成し、直接選好最適化(DPO)によってモデルを適応的に最適化する。
この過程で、GRATHは注釈付き回答を必要とせず、自己監督的な方法で真理を学ぶ。
特に、GRATHは、まずLLM自体に質問を含む各ペアとその正解と誤解を誘導することにより、ペアワイズ真正性トレーニングデータを生成する。
モデルはdpoを使って微調整され、回答ペアの違いから学習される。
その後、GRATHは忠実度データを反復的に洗練し、モデルを最適化し、モデルの真しさを徐々に改善する。
実験により,GRATHを異なる7B-LLMを用いて評価し,ベンチマークデータセットの類似あるいはそれ以上の大きさのLLMと比較した。
以上の結果から, GRATHは他のコア能力を損なうことなく, LLMの真偽性を効果的に改善できることが示唆された。
特に、GRATHはTrathfulQAの最先端性能を達成し、MC1の精度は54.71%、MC2の精度は69.10%となり、それぞれLlama2-Chat-70Bのような大規模モデルよりも23.62%、24.18%向上した。 Truthfulness is paramount for large language models (LLMs) as they are increasingly deployed in real-world applications. However, existing LLMs still struggle with generating truthful answers and content, as evidenced by their modest performance on benchmarks like TruthfulQA. To address this issue, we propose GRAdual self-truTHifying (GRATH), a novel post-processing method to enhance truthfulness of LLMs. GRATH utilizes out-of-domain question prompts to generate corresponding answers and adaptively optimizes the model via direct preference optimization (DPO). Note that during this process, GRATH learns truthfulness in a self-supervised manner without requiring annotated answers. In particular, GRATH first generates pairwise truthfulness training data by prompting the LLM itself, with each pair containing a question and its correct and incorrect answers. The model is then fine-tuned using DPO to learn from the difference between answer pairs. Subsequently, GRATH iteratively refines the truthfulness data and optimizes the model, leading to a gradual improvement in model truthfulness. Empirically, we evaluate GRATH using different 7B-LLMs and compare with LLMs with similar or even larger sizes on benchmark datasets. Our results show that GRATH effectively improves LLMs' truthfulness without compromising other core capabilities. Notably, GRATH achieves state-of-the-art performance on TruthfulQA, with MC1 accuracy as 54.71% and MC2 accuracy as 69.10%, which even surpass those on larger-scale models, such as Llama2-Chat-70B, by 23.62% and 24.18%, respectively. | 翻訳日:2024-01-24 17:40:58 公開日:2024-01-22 |
# 線形プローブ校正による文脈内学習の強化 Enhancing In-context Learning via Linear Probe Calibration ( http://arxiv.org/abs/2401.12406v1 ) ライセンス: Link先を確認 | Momin Abbas and Yi Zhou and Parikshit Ram and Nathalie Baracaldo and Horst Samulowitz and Theodoros Salonidis and Tianyi Chen | (参考訳) In-context Learning (ICL)は、GPT(Generative Pre-trained Transformer)のようなモデルを利用した自然言語処理の新しいパラダイムである。
このアプローチでは、コンテキスト内デモを含むプロンプトを使用して、新しいクエリ入力に対応する出力を生成する。
しかし、実例でのICLの適用はサンプル数に応じてスケールせず、異なるプロンプトテンプレートやデモの置換に対する堅牢性に欠ける。
本稿では,ICLを用いたGPT様モデルを用いて,シャノンエントロピーに基づく新しい指標に基づく信頼性の低い予測結果を示す。
この問題を解決するために,線形プローブ校正法 (LinC) と呼ばれる新しい手法を提案する。この手法はモデルの出力確率を校正し,信頼性の高い予測と性能向上を実現し,最小限の追加サンプル(ラベル付きデータサンプルは5つまで)しか必要としない。
LinCは、様々なベンチマークデータセット上でのGPTモデルのICLテスト性能を大幅に向上させ、平均21%まで改善し、いくつかのケースでは50%改善し、特に低リソース環境においてPEFT法の性能を大幅に向上させる。
さらに、LinCはより低いキャリブレーション誤差を達成し、ラベルの比率、テンプレートのプロンプト、デモの置換に対して非常に堅牢である。
私たちのコードは \url{https://github.com/mominabbass/LinC} で利用可能です。 In-context learning (ICL) is a new paradigm for natural language processing that utilizes Generative Pre-trained Transformer (GPT)-like models. This approach uses prompts that include in-context demonstrations to generate the corresponding output for a new query input. However, applying ICL in real cases does not scale with the number of samples, and lacks robustness to different prompt templates and demonstration permutations. In this paper, we first show that GPT-like models using ICL result in unreliable predictions based on a new metric based on Shannon entropy. Then, to solve this problem, we propose a new technique called the Linear Probe Calibration (LinC), a method that calibrates the model's output probabilities, resulting in reliable predictions and improved performance, while requiring only minimal additional samples (as few as five labeled data samples). LinC significantly enhances the ICL test performance of GPT models on various benchmark datasets, with an average improvement of up to 21%, and up to a 50% improvement in some cases, and significantly boosts the performance of PEFT methods, especially in the low resource regime. Moreover, LinC achieves lower expected calibration error, and is highly robust to varying label proportions, prompt templates, and demonstration permutations. Our code is available at \url{https://github.com/mominabbass/LinC}. | 翻訳日:2024-01-24 17:34:14 公開日:2024-01-22 |
# 反応系における動的自己修復のための学習リカバリ戦略 Learning Recovery Strategies for Dynamic Self-healing in Reactive Systems ( http://arxiv.org/abs/2401.12405v1 ) ライセンス: Link先を確認 | Mateo Sanabria, Ivana Dusparic, Nicolas Cardozo | (参考訳) 自己修復システムは、既知の障害状態から回復するための事前定義された命令のセットに依存する。
障害状態は一般的にドメイン固有の特別なメトリクスに基づいて検出される。
障害フィックスは、さまざまな障害タイプを管理するのに十分な表現力を持たない、事前定義されたアプリケーションフックで適用される。
自己修復は通常、障害の検出が通信の問題に制限される分散システムのコンテキストで適用され、解決戦略は完全なコンポーネントを置き換えることで構成されることが多い。
本提案では,システム特性の満足度条件を規定する述語としてモニタを定義する。
このようなモニタは関数的に表現可能で、実行時に定義して、任意の実行ポイントの障害状態を検出することができる。
障害状態が検出されると、強化学習に基づく手法を使用して、ユーザの修正シーケンスに基づいてリカバリ戦略を学習します。
最後に、学習した戦略を実行するために、障害状態が検出されたときに動的に活性化するCOP変種を抽出し、その状態の回復戦略でベースシステムの振る舞いを上書きする。
マウスの動きを追跡するprototypical reactive applicationと,自己修復システムのためのdeltaiot exemplarを用いて,このフレームワークの有効性と有効性を検証する。
その結果,モニタの定義だけでは,第1のアプリケーションにおける障害の55%-92%と,第2のアプリケーションにおける事前定義された戦略と同等の障害の検出と復旧に有効であることがわかった。 Self-healing systems depend on following a set of predefined instructions to recover from a known failure state. Failure states are generally detected based on domain specific specialized metrics. Failure fixes are applied at predefined application hooks that are not sufficiently expressive to manage different failure types. Self-healing is usually applied in the context of distributed systems, where the detection of failures is constrained to communication problems, and resolution strategies often consist of replacing complete components. Our proposal targets complex reactive systems, defining monitors as predicates specifying satisfiability conditions of system properties. Such monitors are functionally expressive and can be defined at run time to detect failure states at any execution point. Once failure states are detected, we use a Reinforcement Learning-based technique to learn a recovery strategy based on users' corrective sequences. Finally, to execute the learned strategies, we extract them as COP variations that activate dynamically whenever the failure state is detected, overwriting the base system behavior with the recovery strategy for that state. We validate the feasibility and effectiveness of our framework through a prototypical reactive application for tracking mouse movements, and the DeltaIoT exemplar for self-healing systems. Our results demonstrate that with just the definition of monitors, the system is effective in detecting and recovering from failures between 55%-92% of the cases in the first application, and at par with the predefined strategies in the second application. | 翻訳日:2024-01-24 17:33:47 公開日:2024-01-22 |
# 量子メモリと単一スピン光子変換器を組み合わせたハイブリッド量子リピータ Hybrid Quantum Repeaters with Ensemble-based Quantum Memories and Single-spin Photon Transducers ( http://arxiv.org/abs/2401.12395v1 ) ライセンス: Link先を確認 | Fenglei Gu, Shankar G Menon, David Maier, Antariksha Das, Tanmoy Chakraborty, Wolfgang Tittel, Hannes Bernien, Johannes Borregaard | (参考訳) 数百kmを超える信頼性の高い量子通信は、量子インターネットにとって必須の要件である。
光子損失を克服するには、遠隔ネットワークノード間の量子リピータステーションの配置が必要である。
様々な量子ハードウェアがこの目的のために開発されており、それぞれのプラットフォームには独自の機会と課題がある。
本稿では、2つの有望なハードウェアプラットフォームをハイブリッド量子リピータアーキテクチャに組み合わせて、コストを削減し、長距離量子通信の性能を高めることを提案する。
本稿では、光子を単一スピンで生成、変換、変調できるデバイスである単一スピン光子トランスデューサと、アンサンブルベースの量子メモリを組み合わせることで、通信速度を増幅するための大規模多重化、効率的な光子生成、量子論理を促進させる方法について概説する。
特定の例として、ナノフォトニック共振器に結合した1つのルビジウム(Rb)原子が高レートでテレコム可視光子源として機能し、可視光子がサリウムドープ結晶メモリ(Tmメモリ)の記憶に適合し、テレコム光子が低損失ファイバ伝播に適合することを示す。
我々はTmとRbの遷移が互いに共鳴していることを実験的に検証した。
解析の結果,最大16のリピータ局を用いて,最大350個の記憶モードを持つ2つのTmメモリと4つのRb原子を同時に装備することにより,最大1000kmの距離で毎秒数百キュービットを超える量子通信速度を達成できることがわかった。 Reliable quantum communication over hundreds of kilometers is a daunting yet necessary requirement for a quantum internet. To overcome photon loss, the deployment of quantum repeater stations between distant network nodes is necessary. A plethora of different quantum hardware is being developed for this purpose, each platform with its own opportunities and challenges. Here, we propose to combine two promising hardware platforms in a hybrid quantum repeater architecture to lower the cost and boost the performance of long-distance quantum communication. We outline how ensemble-based quantum memories combined with single-spin photon transducers, which are devices that can generate, convert, and modulate photons with single spins, can facilitate massive multiplexing, efficient photon generation, and quantum logic for amplifying communication rates. As a specific example, we describe how a single Rubidium (Rb) atom coupled to nanophotonic resonators can function as a high-rate, telecom-visible entangled photon source with the visible photon being compatible with storage in a Thulium-doped crystal memory (Tm-memory) and the telecom photon being compatible with low loss fiber propagation. We experimentally verify that Tm and Rb transitions are in resonance with each other. Our analysis shows that by employing up to 16 repeater stations, each equipped with two Tm-memories capable of holding up to 350 storage modes, along with four single Rb atoms, one can reach a quantum communication rate exceeding hundreds of qubits per second across distances of up to 1000 km. | 翻訳日:2024-01-24 17:33:23 公開日:2024-01-22 |
# フェデレーションデータ管理のための学習ベースの宣言的プライバシー保存フレームワーク A Learning-based Declarative Privacy-Preserving Framework for Federated Data Management ( http://arxiv.org/abs/2401.12393v1 ) ライセンス: Link先を確認 | Hong Guan, Summer Gautier, Deepti Gupta, Rajan Hari Ambrish, Yancheng Wang, Harsha Lakamsani, Dhanush Giriyan, Saajan Maslanka, Chaowei Xiao, Yingzhen Yang, Jia Zou | (参考訳) 複数のプライベートデータサイロ上でのフェデレーションクエリ処理のプライバシと精度のバランスをとることが難しい。
本研究では,DP-SGDアルゴリズムを用いて学習したディープラーニングモデルを用いて,クエリに応答する実際のデータの一部を置換する,新たなプライバシ保護手法のエンドツーエンドワークフローを実証する。
提案する宣言的プライバシー保護ワークフローにより,ユーザは「保護する方法」ではなく「保護すべきプライベート情報」を指定することができる。
内部では,クエリモデル変換計画とハイパーパラメータを自動的に選択する。
同時に、提案されたワークフローでは、監査/コンプライアンス、最適化目的のために選択されたプライバシ保護メカニズムをレビューし、調整することができる。 It is challenging to balance the privacy and accuracy for federated query processing over multiple private data silos. In this work, we will demonstrate an end-to-end workflow for automating an emerging privacy-preserving technique that uses a deep learning model trained using the Differentially-Private Stochastic Gradient Descent (DP-SGD) algorithm to replace portions of actual data to answer a query. Our proposed novel declarative privacy-preserving workflow allows users to specify "what private information to protect" rather than "how to protect". Under the hood, the system automatically chooses query-model transformation plans as well as hyper-parameters. At the same time, the proposed workflow also allows human experts to review and tune the selected privacy-preserving mechanism for audit/compliance, and optimization purposes. | 翻訳日:2024-01-24 17:32:53 公開日:2024-01-22 |
# 自動運転車の路面知覚評価:フィールドテストからの考察 Evaluating Roadside Perception for Autonomous Vehicles: Insights from Field Testing ( http://arxiv.org/abs/2401.12392v1 ) ライセンス: Link先を確認 | Rusheng Zhang, Depu Meng, Shengyin Shen, Tinghan Wang, Tai Karir, Michael Maile, Henry X. Liu | (参考訳) 道路側の認識システムは、交通安全の強化と自動運転車の協調運転の促進にますます重要になっている。
急速な技術進歩にもかかわらず、この新たな分野には、標準化された評価方法やベンチマークが欠如しているという大きな課題が続いている。
この制限は、異なるシステムの性能を効果的に評価し比較する能力を損なうため、この重要な分野における進歩を妨げます。
本稿では,道路側知覚システムの性能評価に特化した総合評価手法を提案する。
本手法は,実世界の実地試験を基礎とした計測技術,計量選択,実験的試行設計を包含し,本手法の実用性を確保する。
我々は,本手法を制御試験環境であるmcity\footnote{\url{https://mcity.umich.edu/}} に適用し,市販の知覚システムの評価を行った。
このアプローチは、現実的なシナリオにおけるパフォーマンスの詳細な比較分析を可能にし、それぞれの強みと限界に対する重要な洞察を提供する。
本研究の成果は,産業標準ベンチマークと評価手法の開発に役立ち,自動運転車における路側知覚システムの開発と展開の有効性を高めることを目的としている。
本論文は,道路側認識システムにおける評価手法の標準化に関する本質的な議論を刺激し,この技術のフロンティアを推し進めることが期待できる。
さらに,同時代のインフラストラクチャ・ベースの知覚システムの能力に関する包括的理解を,学界と産業界の両方に与えた。 Roadside perception systems are increasingly crucial in enhancing traffic safety and facilitating cooperative driving for autonomous vehicles. Despite rapid technological advancements, a major challenge persists for this newly arising field: the absence of standardized evaluation methods and benchmarks for these systems. This limitation hampers the ability to effectively assess and compare the performance of different systems, thus constraining progress in this vital field. This paper introduces a comprehensive evaluation methodology specifically designed to assess the performance of roadside perception systems. Our methodology encompasses measurement techniques, metric selection, and experimental trial design, all grounded in real-world field testing to ensure the practical applicability of our approach. We applied our methodology in Mcity\footnote{\url{https://mcity.umich.edu/}}, a controlled testing environment, to evaluate various off-the-shelf perception systems. This approach allowed for an in-depth comparative analysis of their performance in realistic scenarios, offering key insights into their respective strengths and limitations. The findings of this study are poised to inform the development of industry-standard benchmarks and evaluation methods, thereby enhancing the effectiveness of roadside perception system development and deployment for autonomous vehicles. We anticipate that this paper will stimulate essential discourse on standardizing evaluation methods for roadside perception systems, thus pushing the frontiers of this technology. Furthermore, our results offer both academia and industry a comprehensive understanding of the capabilities of contemporary infrastructure-based perception systems. | 翻訳日:2024-01-24 17:32:40 公開日:2024-01-22 |
# Redditポストの縦型感性分類 Longitudinal Sentiment Classification of Reddit Posts ( http://arxiv.org/abs/2401.12382v1 ) ライセンス: Link先を確認 | Fabian Nwaoha, Ziyad Gaffar, Ho Joon Chun, Marina Sokolova | (参考訳) カナダの4大大学の学生によるReddit投稿の縦断的感情分類の結果を報告する。
2020-2023年を中心に、この記事のテキストで作業しています。
感情閾値を [-0.075,0.075] の範囲に微調整することにより,ポスト感情を正と負のカテゴリに分類できる分類器の構築に成功した。
特に、私たちの感情分類結果は4つの大学のデータセットで一致しています。 We report results of a longitudinal sentiment classification of Reddit posts written by students of four major Canadian universities. We work with the texts of the posts, concentrating on the years 2020-2023. By finely tuning a sentiment threshold to a range of [-0.075,0.075], we successfully built classifiers proficient in categorizing post sentiments into positive and negative categories. Noticeably, our sentiment classification results are consistent across the four university data sets. | 翻訳日:2024-01-24 17:32:15 公開日:2024-01-22 |
# テキスト-SQL合成における大規模言語モデルの有効性の分析 Analyzing the Effectiveness of Large Language Models on Text-to-SQL Synthesis ( http://arxiv.org/abs/2401.12379v1 ) ライセンス: Link先を確認 | Richard Roberson, Gowtham Kaki, Ashutosh Trivedi | (参考訳) 本研究では,大規模言語モデル(llms)を用いたテキストからsqlへのプログラム合成手法について検討し,結果と洞察に着目した。
人気のあるText-to-SQLデータセットであるSpiderを使用することで、データベーススキーマとともに自然言語の質問を入力し、正しいSQL SELECTクエリを出力することが目標だった。
最初のアプローチは、ローカルおよびオープンソースモデルを微調整して、セレクトクエリを生成することだった。
QLoRaがクモデータセット上でWizardLMのWizardCoder-15Bモデルを微調整した後、生成されたクエリの実行精度は61%に達した。
第2のアプローチでは、微調整されたgpt-3.5-turbo-16k (few-shot) + gpt-4-turbo (zero-shot error correction) を使用して、実行精度は82.1%に達した。
間違った列または間違った列の順序を選択し、間違った列をグループ化し、条件付きで間違った値を予測し、基礎的な真理と異なる集約を使用し、余分に少ないJOIN節を使用し、Spiderデータセットの不整合、そして最後に完全に不正確なクエリ構造である。
ほとんどの場合、全てのクエリがこれらのカテゴリに該当せず、障害がまだLLMプログラム合成のどこにあるのか、どこで改善できるのかを理解することは、洞察に富んでいる。 This study investigates various approaches to using Large Language Models (LLMs) for Text-to-SQL program synthesis, focusing on the outcomes and insights derived. Employing the popular Text-to-SQL dataset, spider, the goal was to input a natural language question along with the database schema and output the correct SQL SELECT query. The initial approach was to fine-tune a local and open-source model to generate the SELECT query. After QLoRa fine-tuning WizardLM's WizardCoder-15B model on the spider dataset, the execution accuracy for generated queries rose to a high of 61%. With the second approach, using the fine-tuned gpt-3.5-turbo-16k (Few-shot) + gpt-4-turbo (Zero-shot error correction), the execution accuracy reached a high of 82.1%. Of all the incorrect queries, most can be categorized into a seven different categories of what went wrong: selecting the wrong columns or wrong order of columns, grouping by the wrong column, predicting the wrong values in conditionals, using different aggregates than the ground truth, extra or too few JOIN clauses, inconsistencies in the Spider dataset, and lastly completely incorrect query structure. Most if not all of the queries fall into these categories and it is insightful to understanding where the faults still lie with LLM program synthesis and where they can be improved. | 翻訳日:2024-01-24 17:32:08 公開日:2024-01-22 |
# 視覚障害者のためのNLP駆動型コンピュータテストガイドの開発 Development of an NLP-driven computer-based test guide for visually impaired students ( http://arxiv.org/abs/2401.12375v1 ) ライセンス: Link先を確認 | Tubo Faustinah Nemieboka, Ikechukwu E. Onyenwe, Doris C. Asogwa | (参考訳) 近年、自然言語処理(NLP)技術の進歩は、特に視覚障害のある学生(VIS)のアクセシビリティと排他性の分野に革命をもたらした。
cbtは何年も前に、試験を電子的に管理し、テストプロセスをより簡単にし、より速く、より正確な結果を提供し、候補者に対してより柔軟性とアクセシビリティを提供するという点で関連性を示してきた。
しかし、その関連性は、学生が印刷文書にアクセスできないため、視覚障害者には感じられなかった。
そこで本稿では,視覚障害者のためのNLP駆動型コンピュータベーステストガイドを提案する。
視覚障がいのある学生にリアルタイム支援と支援を提供するために、事前訓練された音声技術を使用している。
このシステムはNLP技術を利用してテキストベースの質問と関連するオプションを機械可読形式で変換する。
その後、音声技術事前学習モデルは、VISがコンテンツを理解し解析できるように変換されたテキストを処理する。
さらに,本システムによって予測された20visから得られた音声記録と比較し,精度,リコール,f1-scoreの値を得るため,サンプルオーディオデータセットラベル(a,b,c,d,e,f,g)を用いた精度テストにより,この事前学習モデルがパーバースではないことを検証した。
これらのメトリクスは、事前訓練されたモデルの性能を評価するのに使われ、評価されたシステムにより良い性能を与えるのに十分であることを示す。
このシステムで採用されている手法はオブジェクト指向分析・設計方法論(ooadm)であり、オブジェクトは現実世界のインスタンスをモデリングすることで議論され構築される。 In recent years, advancements in Natural Language Processing (NLP) techniques have revolutionized the field of accessibility and exclusivity of testing, particularly for visually impaired students (VIS). CBT has shown in years back its relevance in terms of administering exams electronically, making the test process easier, providing quicker and more accurate results, and offering greater flexibility and accessibility for candidates. Yet, its relevance was not felt by the visually impaired students as they cannot access printed documents. Hence, in this paper, we present an NLP-driven Computer-Based Test guide for visually impaired students. It employs a speech technology pre-trained methods to provide real-time assistance and support to visually impaired students. The system utilizes NLP technologies to convert the text-based questions and the associated options in a machine-readable format. Subsequently, the speech technology pre-trained model processes the converted text enabling the VIS to comprehend and analyze the content. Furthermore, we validated that this pre-trained model is not perverse by testing for accuracy using sample audio datasets labels (A, B, C, D, E, F, G) to compare with the voice recordings obtained from 20 VIS which is been predicted by the system to attain values for precision, recall, and F1-scores. These metrics are used to assess the performance of the pre-trained model and have indicated that it is proficient enough to give its better performance to the evaluated system. The methodology adopted for this system is Object Oriented Analysis and Design Methodology (OOADM) where Objects are discussed and built by modeling real-world instances. | 翻訳日:2024-01-24 17:31:40 公開日:2024-01-22 |
# SubgroupTE:サブグループ同定による治療効果の評価 SubgroupTE: Advancing Treatment Effect Estimation with Subgroup Identification ( http://arxiv.org/abs/2401.12369v1 ) ライセンス: Link先を確認 | Seungyeon Lee, Ruoqi Liu, Wenyu Song, Lang Li, and Ping Zhang | (参考訳) 治療効果の正確な評価は介入効果を評価する上で重要である。
深層学習モデルは、治療効果推定(TEE)の学習対実表現において有望な性能を示したが、これらのモデルの大部分は、治療効果の異なる潜在的サブグループ間の治療効果の多様性を見越して、全人口を均質なグループとして扱うことである。
この制限は、治療効果を正確に見積り、サブグループ固有の治療勧告を提供する能力を制限する。
本稿では,サブグループ識別をTEEに組み込んだ新しい治療効果推定モデル,SubgroupTEを提案する。
subgroupteは、異なる治療応答を持つ不均一なサブグループを特定し、サブグループ固有の因果効果を考慮してより正確に治療効果を推定する。
さらに、SubgroupTEは、サブグループと処理効果推定ネットワークを反復的に最適化し、推定とサブグループ識別の両方を強化する。
合成および半合成データセットに関する総合的な実験は、治療効果推定の最先端モデルと比較して、SubgroupTEの優れた性能を示す。
さらに,オピオイド使用障害 (OUD) 患者に対して, サブグループ識別による治療効果推定を推し進めることにより, パーソナライズされた治療勧告の強化を図った。 Precise estimation of treatment effects is crucial for evaluating intervention effectiveness. While deep learning models have exhibited promising performance in learning counterfactual representations for treatment effect estimation (TEE), a major limitation in most of these models is that they treat the entire population as a homogeneous group, overlooking the diversity of treatment effects across potential subgroups that have varying treatment effects. This limitation restricts the ability to precisely estimate treatment effects and provide subgroup-specific treatment recommendations. In this paper, we propose a novel treatment effect estimation model, named SubgroupTE, which incorporates subgroup identification in TEE. SubgroupTE identifies heterogeneous subgroups with different treatment responses and more precisely estimates treatment effects by considering subgroup-specific causal effects. In addition, SubgroupTE iteratively optimizes subgrouping and treatment effect estimation networks to enhance both estimation and subgroup identification. Comprehensive experiments on the synthetic and semi-synthetic datasets exhibit the outstanding performance of SubgroupTE compared with the state-of-the-art models on treatment effect estimation. Additionally, a real-world study demonstrates the capabilities of SubgroupTE in enhancing personalized treatment recommendations for patients with opioid use disorder (OUD) by advancing treatment effect estimation with subgroup identification. | 翻訳日:2024-01-24 17:31:13 公開日:2024-01-22 |
# サポートベクターマシンを用いた障害誘発テスト入力への探索の誘導 Guiding the Search Towards Failure-Inducing Test Inputs Using Support Vector Machines ( http://arxiv.org/abs/2401.12364v1 ) ライセンス: Link先を確認 | Lev Sorokin, Niklas Kerscher | (参考訳) 本稿では,支援ベクターマシン(svm)分類モデルを用いて,故障回避テスト入力に対する探索を指示する,新しい学習可能な進化型および探索型テストアルゴリズムであるnsga-ii-svm(non-dominated sorting genetic algorithm with support vector machine guidance)を提案する。
NSGA-II-SVMは、遺伝的検索によって、テスト入力空間の反復SVMベースのモデルを作成し、検索空間内のどの領域が探索されるかを学ぶ。
その後の進化的探索反復のサンプリングと反復により、予測においてモデルを洗練し、より正確にすることができる。
また, nsga-ii-svmの予備評価を行った結果, nsga-ii-svmは, 芸術学習可能な進化的テスト技術やナイーブなランダム探索技術よりも, 重要なテスト事例の同定に有効であることが示された。 In this paper, we present NSGA-II-SVM (Non-dominated Sorting Genetic Algorithm with Support Vector Machine Guidance), a novel learnable evolutionary and search-based testing algorithm that leverages Support Vector Machine (SVM) classification models to direct the search towards failure-revealing test inputs. Supported by genetic search, NSGA-II-SVM creates iteratively SVM-based models of the test input space, learning which regions in the search space are promising to be explored. A subsequent sampling and repetition of evolutionary search iterations allow to refine and make the model more accurate in the prediction. Our preliminary evaluation of NSGA-II-SVM by testing an Automated Valet Parking system shows that NSGA-II-SVM is more effective in identifying more critical test cases than a state of the art learnable evolutionary testing technique as well as naive random search. | 翻訳日:2024-01-24 17:30:51 公開日:2024-01-22 |
# ファフィアン活性化関数を持つグラフニューラルネットワークのVC次元 VC dimension of Graph Neural Networks with Pfaffian activation functions ( http://arxiv.org/abs/2401.12362v1 ) ライセンス: Link先を確認 | Giuseppe Alessio D'Inverno, Monica Bianchini, Franco Scarselli | (参考訳) グラフニューラルネットワーク(GNN)は、近年、データ駆動方式で幅広いグラフドメインのタスクを学習する強力なツールとして登場している。メッセージパッシング機構に基づいて、グラフ同型に対するWeisfeiler-Lehman(WL)テストと密接に関連した、直感的な定式化によって、GNNの人気が高まっている。
理論的な観点から、GNNは普遍近似器であることが示され、その一般化能力(すなわち、Vapnik Chervonekis(VC)次元上の境界)は、多項式活性化関数を持つGNNに対して最近研究されている。
本研究の目的は, ファフ関数理論の枠組みを用いて, GNNのVC次元に関するこの解析をシグモイドや双曲タンジェントといった他のよく用いられる活性化関数に拡張することである。
境界は、アーキテクチャパラメータ(深さ、ニューロン数、入力サイズ)、およびグラフドメインに適用された1-wlテストによる色数について提供される。
この理論解析は予備的な実験研究によって裏付けられている。 Graph Neural Networks (GNNs) have emerged in recent years as a powerful tool to learn tasks across a wide range of graph domains in a data-driven fashion; based on a message passing mechanism, GNNs have gained increasing popularity due to their intuitive formulation, closely linked with the Weisfeiler-Lehman (WL) test for graph isomorphism, to which they have proven equivalent. From a theoretical point of view, GNNs have been shown to be universal approximators, and their generalization capability (namely, bounds on the Vapnik Chervonekis (VC) dimension) has recently been investigated for GNNs with piecewise polynomial activation functions. The aim of our work is to extend this analysis on the VC dimension of GNNs to other commonly used activation functions, such as sigmoid and hyperbolic tangent, using the framework of Pfaffian function theory. Bounds are provided with respect to architecture parameters (depth, number of neurons, input size) as well as with respect to the number of colors resulting from the 1-WL test applied on the graph domain. The theoretical analysis is supported by a preliminary experimental study. | 翻訳日:2024-01-24 17:30:34 公開日:2024-01-22 |
# 分散台帳技術(dlt)アプリケーションにおけるセキュリティリスク評価手法:3つの産業ケーススタディ A Security Risk Assessment Method for Distributed Ledger Technology (DLT) based Applications: Three Industry Case Studies ( http://arxiv.org/abs/2401.12358v1 ) ライセンス: Link先を確認 | Elena Baninemeh, Slinger Jansen, Katsiaryna Labunets | (参考訳) 近年,分散台帳技術が注目され,採用されている。
分散台帳技術が提供するさまざまなセキュリティ機能にもかかわらず、利己的なマイニングやシビル攻撃など、さまざまな悪意のある攻撃に対して脆弱である。
このような脆弱性は調査されているが、適切な対策の検出と発見は引き続き報告する必要がある。
サイバーセキュリティに関する知識は制限され、この領域では断片化されている。
したがって、分散台帳への潜在的な攻撃を克服する研究が必要である。
本研究では,分散型台帳技術のセキュリティリスク評価手法を設計し,分散型台帳技術のセキュリティに対する意識を高めることを目的とする。
我々は,この手法に付随する分散型台帳技術に対するセキュリティ脅威と既知の攻撃の可能性のあるデータベースを開発した。
分散台帳アプリケーションに対するサイバーセキュリティリスクを評価するために,半体系的な文献レビューと手法工学を併用した手法を開発した。
この手法はその後3つのケーススタディで評価され、これらの組織における分散台帳アプリケーションに対するセキュリティリスク評価を効果的に行うのに役立つことが示されている。 Distributed ledger technologies have gained significant attention and adoption in recent years. Despite various security features distributed ledger technology provides, they are vulnerable to different and new malicious attacks, such as selfish mining and Sybil attacks. While such vulnerabilities have been investigated, detecting and discovering appropriate countermeasures still need to be reported. Cybersecurity knowledge is limited and fragmented in this domain, while distributed ledger technology usage grows daily. Thus, research focusing on overcoming potential attacks on distributed ledgers is required. This study aims to raise awareness of the cybersecurity of distributed ledger technology by designing a security risk assessment method for distributed ledger technology applications. We have developed a database with possible security threats and known attacks on distributed ledger technologies to accompany the method, including sets of countermeasures. We employed a semi-systematic literature review combined with method engineering to develop a method that organizations can use to assess their cybersecurity risk for distributed ledger applications. The method has subsequently been evaluated in three case studies, which show that the method helps to effectively conduct security risk assessments for distributed ledger applications in these organizations. | 翻訳日:2024-01-24 17:30:12 公開日:2024-01-22 |
# フェデレーション学習システムにおける重み駆動型協調ダイナミクスによる効率的な協調 Efficient Collaborations through Weight-Driven Coalition Dynamics in Federated Learning Systems ( http://arxiv.org/abs/2401.12356v1 ) ライセンス: Link先を確認 | Mohammed El Hanjri, Hamza Reguieg, Adil Attiaoui, Amine Abouaomar, Abdellatif Kobbane, Mohamed El Kamili | (参考訳) IoT(Internet of Things)の時代には、マシンラーニングのための分散パラダイムが人気を集めています。
本稿では,デバイスモデルの重み間のユークリッド距離に着目し,その類似性と不一致を評価するフェデレーション学習モデルを提案する。
これは我々のシステムの基本であり、モデル重量の密接度に基づくデバイス間の連立の形成を指示する。
さらに、モデルの重みの平均を表すbarycenterの概念は、複数のデバイスからのアップデートを集約するのに役立ちます。
従来のフェデレーション学習平均化アルゴリズムと比較し,均質かつ異質なデータ分布を用いたアプローチを評価した。
数値的な結果は、iotベースの機械学習に構造化され、優れた通信効率のモデルを提供する可能性を示しています。 In the era of the Internet of Things (IoT), decentralized paradigms for machine learning are gaining prominence. In this paper, we introduce a federated learning model that capitalizes on the Euclidean distance between device model weights to assess their similarity and disparity. This is foundational for our system, directing the formation of coalitions among devices based on the closeness of their model weights. Furthermore, the concept of a barycenter, representing the average of model weights, helps in the aggregation of updates from multiple devices. We evaluate our approach using homogeneous and heterogeneous data distribution, comparing it against traditional federated learning averaging algorithm. Numerical results demonstrate its potential in offering structured, outperformed and communication-efficient model for IoT-based machine learning. | 翻訳日:2024-01-24 17:29:38 公開日:2024-01-22 |
# $k$- positive Mapsの完全な境界付きノルム Completely Bounded Norms of $k$-positive Maps ( http://arxiv.org/abs/2401.12352v1 ) ライセンス: Link先を確認 | Guillaume Aubrun, Kenneth R. Davidson, Alexander M\"uller-Hermes, Vern I. Paulsen, and Mizanur Rahaman | (参考訳) 演算子システム $\cl S$ が与えられたとき、パラメータ $r_k(\cl S)$ (resp) を定義する。
\ $d_k(\cl S)$) は任意の作用素系から$\cl S$ (resp) への単位の $k$-陽性写像の完全有界ノルムの最大値として定義される。
は、$\cl s$ から任意の演算子システムへ)。
行列代数 $M_n$, for $1 \leq k \leq n$ の場合、正確な値 $r_k(M_n) = \frac{2n-k}{k}$ を計算し、パラメータ $d_k(\M_n)$ の上と下の境界を示す。
さらに、$\cl S$ が有限次元作用素系であり、Passer と 4 番目の著者 \cite{PaPa} の結果を適用するとき、$(r_k(\cl S))$ の列が $1$ になるのは、$\cl S$ が完全で、$(d_k(\cl S))$ の列が $1$ となることと、$\cl S$ がリフト特性を持つときのみであることを示す。 Given an operator system $\cl S$, we define the parameters $r_k(\cl S)$ (resp.\ $d_k(\cl S)$) defined as the maximal value of the completely bounded norm of a unital $k$-positive map from an arbitrary operator system into $\cl S$ (resp.\ from $\cl S$ into an arbitrary operator system). In the case of the matrix algebras $M_n$, for $1 \leq k \leq n$, we compute the exact value $r_k(M_n) = \frac{2n-k}{k}$ and show upper and lower bounds on the parameters $d_k(\M_n)$. Moreover, when $\cl S$ is a finite-dimensional operator system, adapting results of Passer and the 4th author \cite{PaPa}, we show that the sequence $(r_k(\cl S))$ tends to $1$ if and only if $\cl S$ is exact and that the sequence $(d_k(\cl S))$ tends to $1$ if and only if $\cl S$ has the lifting property. | 翻訳日:2024-01-24 17:29:15 公開日:2024-01-22 |
# 100のサンプルはどこまで?
Tiny Multi-Parallelデータによるゼロショット多言語翻訳のアンロック How Far Can 100 Samples Go? Unlocking Overall Zero-Shot Multilingual Translation via Tiny Multi-Parallel Data ( http://arxiv.org/abs/2401.12413v1 ) ライセンス: Link先を確認 | Di Wu, Shaomu Tan, Yan Meng, David Stap and Christof Monz | (参考訳) ゼロショット翻訳はオープンな問題であり、Multilingual Machine Translation (MMT)のトレーニング中に見つからない言語ペア間の翻訳を目的としている。
リソース消費の一般的な解決策は、できるだけ多くの翻訳方向をマイニングして並列コーパスに追加することだ。
本稿では、非常に少ないマルチ並列データで微調整を行うことにより、英語中心モデルのゼロショット能力を容易に向上できることを示す。
例えば、EC30データセットでは、英語中心の方向での保存能力を維持しながら、100のマルチ並列サンプルを使用することで、英語以外の全体的な改善(870方向)を+21.7 ChrFで達成できることが示されている。
さらに、微調整データのサイズ効果とその転送機能について検討する。
驚くべきことに、我々の経験的分析は、小さなランダムにサンプリングされた方向セット(10\%)での微調整でも、同等の全体的な改善が達成できることを示している。
また、結果として得られる非英語のパフォーマンスは上界に近い(完全翻訳)。
その高い効率と実践性から,我々はコミュニティを奨励する
1)ゼロショット翻訳のための強固なベースラインとしての微調整法の使用と考察
2) より包括的で高品質なマルチ並列データを構築し、現実の需要をカバーする。 Zero-shot translation is an open problem, aiming to translate between language pairs unseen during training in Multilingual Machine Translation (MMT). A common, albeit resource-consuming, solution is to mine as many translation directions as possible to add to the parallel corpus. In this paper, we show that the zero-shot capability of an English-centric model can be easily enhanced by fine-tuning with a very small amount of multi-parallel data. For example, on the EC30 dataset, we show that up to +21.7 ChrF non-English overall improvements (870 directions) can be achieved by using only 100 multi-parallel samples, meanwhile preserving capability in English-centric directions. We further study the size effect of fine-tuning data and its transfer capabilities. Surprisingly, our empirical analysis shows that comparable overall improvements can be achieved even through fine-tuning in a small, randomly sampled direction set (10\%). Also, the resulting non-English performance is quite close to the upper bound (complete translation). Due to its high efficiency and practicality, we encourage the community 1) to consider the use of the fine-tuning method as a strong baseline for zero-shot translation and 2) to construct more comprehensive and high-quality multi-parallel data to cover real-world demand. | 翻訳日:2024-01-24 17:16:50 公開日:2024-01-22 |
# 静的解析によるプログラム分解と翻訳 Program Decomposition and Translation with Static Analysis ( http://arxiv.org/abs/2401.12412v1 ) ライセンス: Link先を確認 | Ali Reza Ibrahimzada | (参考訳) 大規模言語モデル(llms)の人気が高まり、コード関連のタスクでの利用を探求する動機となった。
数百万のパラメータを持つコードLLMは、異なるプログラミング言語(PL)で大量のコードで訓練されています。
このようなモデルは、プロンプトエンジニアリングを使用して様々なソフトウェアエンジニアリング(SE)タスクを自動化するために使用される。
しかし、業界規模のプロジェクトファイルがとても大きいことを考えると、これらのLLMの大きな問題は、コンテキストウィンドウのサイズが限られていることであり、「これらのLLMは、非常に大きなファイルを処理する。
コード翻訳は、ソースコードをあるPLから別のPLに変換することを目的としている。
本研究では,LLMのコンテキストウィンドウに対するメソッドレベルのプログラム分解の効果を評価し,この手法がコンテキスト外問題により本来不可能であった非常に大きなファイルの翻訳を可能にする方法について検討する。
20のよく知られたjavaプロジェクトと約60Kメソッドから得られた観察から、メソッドレベルのプログラムの分解はLLMの限られたコンテキストウィンドウ問題を99.5%改善することを示唆している。
さらに,メソッドレベルの分解では,各入力フラグメントがコンテキストウインドウの5%しか消費せず,プロンプトエンジニアリングとアウトプットのためのコンテキストスペースを多く残していることを示す。
最後に、メソッドレベルのプログラム分解を行う際に、非常に大きなファイルを翻訳するためのCall Graph(CG)アプローチの有効性を検討する。 The rising popularity of Large Language Models (LLMs) has motivated exploring their use in code-related tasks. Code LLMs with more than millions of parameters are trained on a massive amount of code in different Programming Languages (PLs). Such models are used for automating various Software Engineering (SE) tasks using prompt engineering. However, given the very large size of industry-scale project files, a major issue of these LLMs is their limited context window size, motivating the question of "Can these LLMs process very large files and can we effectively perform prompt engineering?". Code translation aims to convert source code from one PL to another. In this work, we assess the effect of method-level program decomposition on context window of LLMs and investigate how this approach can enable translation of very large files which originally could not be done due to out-of-context issue. Our observations from 20 well-known java projects and approximately 60K methods suggest that method-level program decomposition significantly improves the limited context window problem of LLMs by 99.5%. Furthermore, our empirical analysis indicate that with method-level decomposition, each input fragment on average only consumes 5% of the context window, leaving more context space for prompt engineering and the output. Finally, we investigate the effectiveness of a Call Graph (CG) approach for translating very large files when doing method-level program decomposition. | 翻訳日:2024-01-24 17:16:31 公開日:2024-01-22 |
# オービフォールド格子によるゲージ理論の量子シミュレーション Quantum simulation of gauge theory via orbifold lattice ( http://arxiv.org/abs/2011.06576v3 ) ライセンス: Link先を確認 | Alexander J. Buser, Hrant Gharibyan, Masanori Hanada, Masazumi Honda, Junyu Liu | (参考訳) 普遍量子コンピュータ上で$\text{U}(k)$ Yang-Mills理論をシミュレートするための新しいフレームワークを提案する。
この構成は、もともと超対称ゲージ理論に応用したKaplan, Katz, Unsalによって提唱されたオービフォールド格子の定式化を用いている。
提案手法は、通常のkogut-susskind定式化よりも有利な量子場理論の量子シミュレーションの新たな展望をもたらす。
本稿では, 量子化, 量子信号処理, ヨルダン-リー-プレスキル境界, シャドウトモグラフィなど, グルーボール計測からAdS/CFTまで, ヤン・ミルズ理論の静的特性とリアルタイムダイナミクスの計算への応用について論じる。
ある超対称ヤン・ミルズ理論への一般化は単純であり、ホログラフィック双対性による量子重力の量子シミュレーションへの道を開く。 We propose a new framework for simulating $\text{U}(k)$ Yang-Mills theory on a universal quantum computer. This construction uses the orbifold lattice formulation proposed by Kaplan, Katz, and Unsal, who originally applied it to supersymmetric gauge theories. Our proposed approach yields a novel perspective on quantum simulation of quantum field theories, carrying certain advantages over the usual Kogut-Susskind formulation. We discuss the application of our constructions to computing static properties and real-time dynamics of Yang-Mills theories, from glueball measurements to AdS/CFT, making use of a variety of quantum information techniques including qubitization, quantum signal processing, Jordan-Lee-Preskill bounds, and shadow tomography. The generalizations to certain supersymmetric Yang-Mills theories appear to be straightforward, providing a path towards the quantum simulation of quantum gravity via holographic duality. | 翻訳日:2024-01-24 02:21:47 公開日:2024-01-22 |
# 微細組織のデジタルフィンガープリント Digital Fingerprinting of Microstructures ( http://arxiv.org/abs/2203.13718v2 ) ライセンス: Link先を確認 | Michael D. White, Alexander Tarakanov, Christopher P. Race, Philip J. Withers, Kody J.H. Law | (参考訳) マイクロ構造情報の効率的なフィンガープリント方法を見つけることは、データ中心の機械学習アプローチを活用するための重要なステップである。
統計フレームワークは、画像の集団を圧縮した特徴付けのために体系的に開発され、特殊なケースとして古典的なコンピュータビジョン手法を含む。
焦点は材料の微細構造である。
究極の目標は、さまざまな高スループット設計/メイク/テストシナリオのコンテキストにおいて、サンプルイメージを素早く指紋化することです。
これには、品質管理のためのミクロ構造間の格差の定量化、微細構造分類、画像データから材料特性の予測、および特定の特性を持つ新しい材料を設計するための潜在的な処理経路の特定が含まれる。
本稿では,教師あり,半教師なし,教師なし学習など,関連する機械学習タスクにおいて,構造分類を考察し,その特徴を活用した。
このアプローチは2つの異なるデータセットに適用され、さまざまな側面を説明し、その結果に基づいていくつかの推奨がなされる。
特に、imagenetデータセットで事前学習された畳み込みニューラルネットワーク(cnns)を用いた転送学習を利用する手法は、他の手法よりも優れる。
さらに,これらのCNNに基づく指紋の次元性低下は,教師付き学習手法の分類精度に無視的な影響を及ぼすことが示された。
ラベル付き画像しか持たない大規模なデータセットが存在する場合、未ラベルデータへのグラフベースのラベル伝搬は、未ラベルデータを捨てて教師付き学習を行うよりも好ましい。
特に、ポアソン学習によるラベル伝播は低ラベルレートで非常に効果的であることが示されている。 Finding efficient means of fingerprinting microstructural information is a critical step towards harnessing data-centric machine learning approaches. A statistical framework is systematically developed for compressed characterisation of a population of images, which includes some classical computer vision methods as special cases. The focus is on materials microstructure. The ultimate purpose is to rapidly fingerprint sample images in the context of various high-throughput design/make/test scenarios. This includes, but is not limited to, quantification of the disparity between microstructures for quality control, classifying microstructures, predicting materials properties from image data and identifying potential processing routes to engineer new materials with specific properties. Here, we consider microstructure classification and utilise the resulting features over a range of related machine learning tasks, namely supervised, semi-supervised, and unsupervised learning. The approach is applied to two distinct datasets to illustrate various aspects and some recommendations are made based on the findings. In particular, methods that leverage transfer learning with convolutional neural networks (CNNs), pretrained on the ImageNet dataset, are generally shown to outperform other methods. Additionally, dimensionality reduction of these CNN-based fingerprints is shown to have negligible impact on classification accuracy for the supervised learning approaches considered. In situations where there is a large dataset with only a handful of images labelled, graph-based label propagation to unlabelled data is shown to be favourable over discarding unlabelled data and performing supervised learning. In particular, label propagation by Poisson learning is shown to be highly effective at low label rates. | 翻訳日:2024-01-24 00:41:43 公開日:2024-01-22 |
# 密度行列の凸分解に基づく分散と量子フィッシャー情報の不確かさの関係 Uncertainty relations with the variance and the quantum Fisher information based on convex decompositions of density matrices ( http://arxiv.org/abs/2109.06893v5 ) ライセンス: Link先を確認 | G\'eza T\'oth, Florian Fr\"owis | (参考訳) 我々はRobertson-Schr\"odingerの不確実性関係に関連するいくつかの不等式を示す。
これらすべての不等式において、密度行列の混合状態への分解を考え、ロバートソン=シュランガーの不確実性関係がこれら全ての成分に対して有効であるという事実を用いる。
境界の凸屋根を考えることにより、Fr\"owis et al.における関係の別の導出が得られる。
[Phys. A 92, 012102 (2015)] そして、関係を飽和させるために必要な条件をリストアップすることもできる。
分散の凸屋根を含むCram\'er-Rao境界の定式化について述べる。
混合状態への分解に関するRobertson-Schr\"odingerの不確かさ関係における境界の凹面屋根を考えることにより、Robertson-Schr\"odingerの不確かさ関係の改善が得られる。
3つの分散を伴う不確実性関係に対する同様の手法を検討する。
最後に、2モード連続変数系に対する正準位と運動量演算子の分散に基づいて、二部量子状態のメトロジー的有用性に低い境界を与える不確実性関係を示す。
デュアンらで論じられたこれらのシステムにおけるよく知られた絡み合い条件の違反(Phys. rev. 84, 2722 (2000))とシモン(Phys. rev. 84, 2726 (2000))は、州が分離可能な状態の特定の関連する部分集合よりも有益であることを示している。
スピン系に対する角運動量演算子との絡み合い条件に関する同様の結果を示す。 We present several inequalities related to the Robertson-Schr\"odinger uncertainty relation. In all these inequalities, we consider a decomposition of the density matrix into a mixture of states, and use the fact that the Robertson-Schr\"odinger uncertainty relation is valid for all these components. By considering a convex roof of the bound, we obtain an alternative derivation of the relation in Fr\"owis et al. [Phys. Rev. A 92, 012102 (2015)], and we can also list a number of conditions that are needed to saturate the relation. We present a formulation of the Cram\'er-Rao bound involving the convex roof of the variance. By considering a concave roof of the bound in the Robertson-Schr\"odinger uncertainty relation over decompositions to mixed states, we obtain an improvement of the Robertson-Schr\"odinger uncertainty relation. We consider similar techniques for uncertainty relations with three variances. Finally, we present further uncertainty relations that provide lower bounds on the metrological usefulness of bipartite quantum states based on the variances of the canonical position and momentum operators for two-mode continuous variable systems. We show that the violation of well-known entanglement conditions in these systems discussed in Duan et al., [Phys. Rev. Lett. 84, 2722 (2000)] and Simon [Phys. Rev. Lett. 84, 2726 (2000)] implies that the state is more useful metrologically than certain relevant subsets of separable states. We present similar results concerning entanglement conditions with angular momentum operators for spin systems. | 翻訳日:2024-01-24 00:39:14 公開日:2024-01-22 |
# 段階的時間差学習の新しいバージョン New Versions of Gradient Temporal Difference Learning ( http://arxiv.org/abs/2109.04033v4 ) ライセンス: Link先を確認 | Donghwan Lee, Han-Dong Lim, Jihoon Park, and Okyong Choi | (参考訳) Sutton, Szepesv\'{a}ri, Maei両氏は、線形関数近似と非政治トレーニングの両方に適合する最初の勾配時間差学習アルゴリズムを導入した。
この論文の目標は
(a)広範な比較分析とGTDの変種の提案
(b)GTDのための新たな理論的分析フレームワークを確立する。
これらの変種は、全GTDを単一のフレームワークに効果的に統一するGTDの凸凹サドルポイント解釈に基づいており、原始双対勾配力学の最近の結果に基づく単純な安定性解析を提供する。
最後に、これらのアプローチを評価するために数値比較分析を行う。 Sutton, Szepesv\'{a}ri and Maei introduced the first gradient temporal-difference (GTD) learning algorithms compatible with both linear function approximation and off-policy training. The goal of this paper is (a) to propose some variants of GTDs with extensive comparative analysis and (b) to establish new theoretical analysis frameworks for the GTDs. These variants are based on convex-concave saddle-point interpretations of GTDs, which effectively unify all the GTDs into a single framework, and provide simple stability analysis based on recent results on primal-dual gradient dynamics. Finally, numerical comparative analysis is given to evaluate these approaches. | 翻訳日:2024-01-24 00:38:44 公開日:2024-01-22 |
# 情報記憶と近接地平線量子相関 Information storage and near horizon quantum correlations ( http://arxiv.org/abs/2109.01639v2 ) ライセンス: Link先を確認 | Abram Akal | (参考訳) 通常、ベッケンシュタイン-ホーキングエントロピーに関連する情報保存領域は、シュワルツシルト半径の2倍の直径の球で囲まれている。
これは量子ブラックホールには当てはまらないことを指摘します。
偏差は、後者がホーキング放射と最大相関している場合に特に明らかである。
具体的には, 細粒度の放射線エントロピーが最大となると, 基礎組織に付随するエントロピー球の大きさが必ずしも拡大する必要はないことを実証する。
このような拡大は、量子重力におけるユニタリゼーション効果の結果であると理解されており、ブラックホールの大気にまたがる半古典的に見えない量子相関によって精製が行われるというホログラフィの最近の発見と一致している。
本研究では,漸近的に平坦な時空に蒸発するブラックホールについて考察する。
標準熱力学的記述は、外側から見えるブラックホールが十分に大きいほど有効であり、将来のヌル無限大に脱出する放射は滑らかな時空背景に記述でき、ホーキング放射のフォン・ノイマンエントロピーは一元的に進化すると仮定する。
我々はブラックホール特異性について簡単にコメントする。 It is usually stated that the information storing region associated with the Bekenstein-Hawking entropy is enclosed by a sphere of diameter equal twice the Schwarzschild radius. We point out that this cannot apply to a quantum black hole. The deviation is particularly revealed when the latter is maximally correlated with its Hawking radiation. Specifically, we demonstrate that the size of the entropy sphere associated with the underlying microstructure has to be necessarily broadened when the fine grained radiation entropy becomes maximal. Such an enlargement is understood to be the consequence of unitarization effects in quantum gravity and aligns with recent findings in holography arguing that purification happens via semiclassically invisible quantum correlations extending across the black hole atmosphere. In the present work, we consider an evaporating black hole in asymptotically flat spacetime. We assume that the standard thermodynamical description is valid so long the black hole viewed from the outside is sufficiently large, radiation escaping into the future null infinity can be described on a smooth spacetime background, and the von Neumann entropy of Hawking radiation evolves unitarily. We briefly comment on the black hole singularity. | 翻訳日:2024-01-24 00:38:31 公開日:2024-01-22 |
# 分布認識型単語埋め込みを用いた名前付きエンティティ認識性能の実証的研究 Empirical Study of Named Entity Recognition Performance Using Distribution-aware Word Embedding ( http://arxiv.org/abs/2109.01636v4 ) ライセンス: Link先を確認 | Xin Chen, Qi Zhao, Xinyang Liu | (参考訳) 深層学習技術の急速な発展に伴い、情報抽出タスクにおいて、名前付きエンティティ認識(ner)がますます重要になっている。
nerタスクが直面する最大の困難は、neやドキュメントのタイプが馴染みのない場合でも検出性を維持することだ。
単語の潜在的な意味を具現化して単語の埋め込みに関する意味的特徴を生成することを認識し,NERフレームワークにおける分布情報を利用する3つの異なる手法を実装した。
また,既存のNER手法に単語特異性を組み込んだ場合,NERの性能が向上することを示す。 With the fast development of Deep Learning techniques, Named Entity Recognition (NER) is becoming more and more important in the information extraction task. The greatest difficulty that the NER task faces is to keep the detectability even when types of NE and documents are unfamiliar. Realizing that the specificity information may contain potential meanings of a word and generate semantic-related features for word embedding, we develop a distribution-aware word embedding and implement three different methods to make use of the distribution information in a NER framework. And the result shows that the performance of NER will be improved if the word specificity is incorporated into existing NER methods. | 翻訳日:2024-01-24 00:38:10 公開日:2024-01-22 |
# セマンティックセグメンテーションのための教師なしドメイン適応の再考 Rethinking Unsupervised Domain Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2207.00067v3 ) ライセンス: Link先を確認 | Zhijie Wang, Masanori Suganuma, Takayuki Okatani | (参考訳) 教師なしドメイン適応(Unsupervised domain adapt、UDA)は、ラベルなしデータのみを使用して、あるドメイン(ソースと呼ばれる)でトレーニングされたモデルを新しいドメイン(ターゲットと呼ばれる)に適応させる。
アノテーションのコストが高いため、研究者はセマンティックセグメンテーションのための多くのUDA手法を開発しており、ターゲットドメインでラベル付きサンプルが利用できないと仮定している。
この仮定の実用性には2つの理由がある。
まず、udaメソッドでモデルをトレーニングした後、デプロイ前にどうにかモデルを検証する必要があります。
第二に、UDA法は、決定される必要のあるいくつかのハイパーパラメータを持つ。
最も確実な解決策は、検証データ、すなわち一定の量のラベル付きターゲットドメインサンプルを用いてモデルを評価することである。
UDAの基本前提に関するこの疑問は、データ中心の観点からUDAを再考するきっかけとなります。
具体的には、最低レベルのラベル付きデータにアクセスできると仮定します。
そして、既存のUDAメソッドの優れたハイパーパラメータを見つけるのにどのくらい必要か尋ねる。
そして、同じデータを同じモデルの教師付きトレーニング、例えば微調整に利用したらどうなるかを考える。
一般的なシナリオである{gta5, synthia}$\rightarrow$cityscapesでこれらの質問に答える実験を行った。
私たちはそれを見つけました
i) 優れたハイパーパラメータを選択するには、いくつかのudaメソッドのラベル付きイメージしか必要ありません。
ii) 単純な微調整は驚くほどうまく機能し、数十のラベル付き画像が利用可能であれば、多くのUDAメソッドよりも優れている。 Unsupervised domain adaptation (UDA) adapts a model trained on one domain (called source) to a novel domain (called target) using only unlabeled data. Due to its high annotation cost, researchers have developed many UDA methods for semantic segmentation, which assume no labeled sample is available in the target domain. We question the practicality of this assumption for two reasons. First, after training a model with a UDA method, we must somehow verify the model before deployment. Second, UDA methods have at least a few hyper-parameters that need to be determined. The surest solution to these is to evaluate the model using validation data, i.e., a certain amount of labeled target-domain samples. This question about the basic assumption of UDA leads us to rethink UDA from a data-centric point of view. Specifically, we assume we have access to a minimum level of labeled data. Then, we ask how much is necessary to find good hyper-parameters of existing UDA methods. We then consider what if we use the same data for supervised training of the same model, e.g., finetuning. We conducted experiments to answer these questions with popular scenarios, {GTA5, SYNTHIA}$\rightarrow$Cityscapes. We found that i) choosing good hyper-parameters needs only a few labeled images for some UDA methods whereas a lot more for others; and ii) simple finetuning works surprisingly well; it outperforms many UDA methods if only several dozens of labeled images are available. | 翻訳日:2024-01-24 00:29:43 公開日:2024-01-22 |
# swinトランスフォーマによる深部強化学習 Deep Reinforcement Learning with Swin Transformers ( http://arxiv.org/abs/2206.15269v3 ) ライセンス: Link先を確認 | Li Meng, Morten Goodwin, Anis Yazidi, Paal Engelstad | (参考訳) トランスフォーマー(Transformer)は,複数レイヤの自己認識ヘッドを利用するニューラルネットワークモデルであり,自然言語処理タスクにおいて大きな可能性を秘めている。
一方、Vision TransformersやSwin Transformersなど、機械学習の視覚タスクにトランスフォーマーを適用する取り組みも行われている。
一部の研究者は強化学習タスクにVision Transformerを使用しているが、高い計算コストのために実験は小規模のままである。
本稿では,Swin Transformers: Swin DQNに基づくオンライン強化学習スキームについて紹介する。
既存の研究とは対照的に,アーケード学習環境における49ゲームにおける実験による優れたパフォーマンスを示す。
その結果,全49試合中45試合(92%)において,ベースライン法よりも最大評価スコアが有意に高く,全49試合中40試合(82%)においてベースライン法よりも平均評価スコアが高かった。 Transformers are neural network models that utilize multiple layers of self-attention heads and have exhibited enormous potential in natural language processing tasks. Meanwhile, there have been efforts to adapt transformers to visual tasks of machine learning, including Vision Transformers and Swin Transformers. Although some researchers use Vision Transformers for reinforcement learning tasks, their experiments remain at a small scale due to the high computational cost. This article presents the first online reinforcement learning scheme that is based on Swin Transformers: Swin DQN. In contrast to existing research, our novel approach demonstrate the superior performance with experiments on 49 games in the Arcade Learning Environment. The results show that our approach achieves significantly higher maximal evaluation scores than the baseline method in 45 of all the 49 games (92%), and higher mean evaluation scores than the baseline method in 40 of all the 49 games (82%). | 翻訳日:2024-01-24 00:29:19 公開日:2024-01-22 |
# Twitterのデータによる新型コロナウイルス関連治療薬の承認とオフラベル使用の認識の理解 Using Twitter Data to Understand Public Perceptions of Approved versus Off-label Use for COVID-19-related Medications ( http://arxiv.org/abs/2206.14358v2 ) ライセンス: Link先を確認 | Yining Hua, Hang Jiang, Shixu Lin, Jie Yang, Joseph M. Plasek, David W. Bates, Li Zhou | (参考訳) 安全使用の監視と誤報対策には, 緊急治療に関する公衆の言論の理解が不可欠である。
新型コロナウイルス(covid-19)関連薬物に対する一般の認識とスタンスを理解するために,自然言語処理に基づくパイプラインを開発した。
この研究は、2020年1月29日から2021年11月30日までの米国のツイート609,189件で、新型コロナウイルス(covid-19)のパンデミックで大きな注目を集めた4つの薬物について、(1)ヒドロキシクロロキンとイヴェルメクチン(ivermectin)、(2)モルヌピラビル(molnupiravir)とレムデシビル(remdesivir)、およびfdaが承認した患者に対する治療について行われた。
流行傾向や関連イベントを理解するために,時系列分析を用いた。
内容と人口統計分析を行い、各薬物に対する人々のスタンスの背後にある潜在的根拠を探究した。
経時的分析では、特にCOVID-19の流行で、水酸クロロキンとイヴェルメクチンがモルヌピラビルとレムデシビルよりも多く議論された。
ヒドロキシクロロキンとイヴェルメクチンの議論は、陰謀論、聞き取り、有名人の影響力に関連する非常に政治的なものであった。
共和党は民主党よりもヒドロキシクロロキン(55%)とイヴェルメクチン(30%)を支持する傾向が高かった。
医療歴のある人は一般人口よりヒドロキシクロロキン (7%) に対して反対する傾向があり、一般住民はイベルメクチン (14%) を支持する傾向が高かった。
研究によれば、ソーシャルメディア利用者は、新型コロナウイルス(covid-19)のさまざまな段階で、オフラベルとfda認可薬物使用に対する認識やスタンスが異なることがわかりました。
これは、医療システム、規制当局、政策立案者は、安全な薬物使用を促進するために誤った情報を監視し、減らすための調整された戦略を設計するべきであることを示している。 Understanding public discourse on emergency use of unproven therapeutics is crucial for monitoring safe use and combating misinformation. We developed a natural language processing-based pipeline to comprehend public perceptions of and stances on coronavirus disease 2019 (COVID-19)-related drugs on Twitter over time. This retrospective study included 609,189 US-based tweets from January 29, 2020, to November 30, 2021, about four drugs that garnered significant public attention during the COVID-19 pandemic: (1) Hydroxychloroquine and Ivermectin, therapies with anecdotal evidence; and (2) Molnupiravir and Remdesivir, FDA-approved treatments for eligible patients. Time-trend analysis was employed to understand popularity trends and related events. Content and demographic analyses were conducted to explore potential rationales behind people's stances on each drug. Time-trend analysis indicated that Hydroxychloroquine and Ivermectin were discussed more than Molnupiravir and Remdesivir, particularly during COVID-19 surges. Hydroxychloroquine and Ivermectin discussions were highly politicized, related to conspiracy theories, hearsay, and celebrity influences. The distribution of stances between the two major US political parties was significantly different (P < .001); Republicans were more likely to support Hydroxychloroquine (55%) and Ivermectin (30%) than Democrats. People with healthcare backgrounds tended to oppose Hydroxychloroquine (7%) more than the general population, while the general population was more likely to support Ivermectin (14%). Our study found that social media users have varying perceptions and stances on off-label versus FDA-authorized drug use at different stages of COVID-19. This indicates that health systems, regulatory agencies, and policymakers should design tailored strategies to monitor and reduce misinformation to promote safe drug use. | 翻訳日:2024-01-24 00:29:03 公開日:2024-01-22 |
# 量子ノイズ効果回路群による量子エラー低減 Quantum Error Mitigation via Quantum-Noise-Effect Circuit Groups ( http://arxiv.org/abs/2205.13907v5 ) ライセンス: Link先を確認 | Yusuke Hama and Hirofumi Nishi | (参考訳) 短期量子コンピュータは中規模量子デバイスとして構築されており、NISQデバイスという量子ノイズ効果に対して脆弱である。
従来の量子エラー訂正符号はそのようなデバイスでは実装されておらず、これらのマシンで精度良く量子計算を行うためには、量子計算エラーを緩和するための代替手法を開発する必要がある。
本研究では,ゲート操作中の環境との結合,すなわちデコヒーレンスによって発生する量子計算誤差に対する量子誤差緩和(qem)スキームを提案する。
まず1つの量子ビット状態における量子ノイズ効果を推定し、量子ノイズ効果回路群(quantum-noise-effect circuit group)として表現する。
次に、量子量子回路で得られた量子ノイズ効果回路群から生成した期待値を量子アルゴリズムに差し引いてQEM計算を行う。
その結果、量子ノイズ効果は減少し、量子ノイズ効果回路群と、量子アルゴリズムの深さとレジスタビットの数の積に対して多項式を拡大する基本量子回路の個数を介して、理想的な期待値が得られる。
qem法の有効性を数値的に示すため、4種類の量子アルゴリズムに対して振幅減衰効果下で量子ビットの雑音量子シミュレーションを行う。
さらに、IBM Q ExperienceプロセッサにQEM方式を実装し、その有効性について検討する。
その結果,本手法の有効性は実量子デバイス上での量子シミュレーションと量子計算の両方によって検証される。 Near-term quantum computers have been built as intermediate-scale quantum devices and are fragile against quantum noise effects, namely, NISQ devices. Traditional quantum-error-correcting codes are not implemented on such devices and to perform quantum computation in good accuracy with these machines we need to develop alternative approaches for mitigating quantum computational errors. In this work, we propose quantum error mitigation (QEM) scheme for quantum computational errors which occur due to couplings with environments during gate operations, i.e., decoherence. To establish our QEM scheme, first we estimate the quantum noise effects on single-qubit states and represent them as groups of quantum circuits, namely, quantum-noise-effect circuit groups. Then our QEM scheme is conducted by subtracting expectation values generated by the quantum-noise-effect circuit groups from that obtained by the quantum circuits for the quantum algorithms under consideration. As a result, the quantum noise effects are reduced, and we obtain approximately the ideal expectation values via the quantum-noise-effect circuit groups and the numbers of elementary quantum circuits composing them scale polynomial with respect to the products of the depths of quantum algorithms and the numbers of register bits. To numerically demonstrate the validity of our QEM scheme, we run noisy quantum simulations of qubits under amplitude damping effects for four types of quantum algorithms. Furthermore, we implement our QEM scheme on IBM Q Experience processors and examine its efficacy. Consequently, the validity of our scheme is verified via both the quantum simulations and the quantum computations on the real quantum devices. | 翻訳日:2024-01-24 00:26:14 公開日:2024-01-22 |
# 深部演算子ネットのためのサイズ非依存な一般化境界を目指して Towards Size-Independent Generalization Bounds for Deep Operator Nets ( http://arxiv.org/abs/2205.11359v2 ) ライセンス: Link先を確認 | Pulkit Gopalani, Sayar Karmakar, Dibyakanti Kumar and Anirbit Mukherjee | (参考訳) 近年、機械学習手法は、物理システム分析に有用なツールとなるために大きな進歩を遂げている。
このテーマの特に活発な分野は、微分方程式を数値的に解くためにニューラルネットワークを使うことに焦点を当てた「物理インフォームド機械学習」である。
本研究では,1ショットでPDEシステムを解く最も汎用的な方法の一つであるDeepONetsを訓練しながら,サンプル外誤差を測定する理論を前進させることを目的とする。
まず、DeepONets のクラスに対して、関係するネットの幅と明示的にスケールしないRademacher の複雑さを証明します。
次に、これらのDeepONetクラスに対して、ネットのサイズに明示的に依存しない一般化エラー境界が得られるように、Huber損失をどのように選択できるかを示す。
我々は、DeepONetsによって解決されることを目標とするPDEに対して、我々の理論的結果が適用されることに留意する。 In recent times machine learning methods have made significant advances in becoming a useful tool for analyzing physical systems. A particularly active area in this theme has been "physics-informed machine learning" which focuses on using neural nets for numerically solving differential equations. In this work, we aim to advance the theory of measuring out-of-sample error while training DeepONets -- which is among the most versatile ways to solve PDE systems in one-shot. Firstly, for a class of DeepONets, we prove a bound on their Rademacher complexity which does not explicitly scale with the width of the nets involved. Secondly, we use this to show how the Huber loss can be chosen so that for these DeepONet classes generalization error bounds can be obtained that have no explicit dependence on the size of the nets. We note that our theoretical results apply to any PDE being targeted to be solved by DeepONets. | 翻訳日:2024-01-24 00:25:50 公開日:2024-01-22 |
# 2次元画像から3次元モデルへ:深部融合による多視点顔再建 From 2D Images to 3D Model:Weakly Supervised Multi-View Face Reconstruction with Deep Fusion ( http://arxiv.org/abs/2204.03842v4 ) ライセンス: Link先を確認 | Weiguang Zhao and Chaolong Yang and Jianan Ye and Rui Zhang and Yuyao Yan and Xi Yang and Bin Dong and Amir Hussain and Kaizhu Huang | (参考訳) 弱教師付き多視点顔再構成(MVR)が注目度を高めつつある一方で、複数の画像情報を効果的に融合して高精度な3Dモデルを再構成する方法という重要な問題がまだ残っている。
本稿では,多視点画像から高精度な3次元顔形状を再構成する新しいモデルであるDeep Fusion MVR(DF-MVR)を提案する。
具体的には,スキップ接続と注意力を備えた単一復号化フレームワークのためのマルチビューエンコーディングである mulen-unet を紹介する。
この設計により、マルチビュー画像から注意を引いた深い特徴の抽出、統合、補償が可能になる。
さらに,チャネル機能で深い融合機能を豊かにするために,畳み込みカーネルを採用する。
さらに,多視点画像における重要な共通顔領域の学習,識別,強調を行う顔解析ネットワークを開発した。
pixel-faceとbosphorusデータセットの実験は、モデルが優れていることを示している。
3Dアノテーションがなければ、DF-MVRはPixel-FaceデータセットとBosphorusデータセットで、既存の弱教師付きMVRに対して5.2%と3.0%のRMSE改善を達成する。
コードはhttps://github.com/weiguangzhao/DF_MVR.comで公開される。 While weakly supervised multi-view face reconstruction (MVR) is garnering increased attention, one critical issue still remains open: how to effectively fuse multiple image information to reconstruct high-precision 3D models. In this regard, we propose a novel model called Deep Fusion MVR (DF-MVR) to reconstruct high-precision 3D facial shapes from multi-view images. Specifically, we introduce MulEn-Unet, a multi-view encoding to single decoding framework with skip connections and attention. This design allows for the extraction, integration, and compensation of deep features with attention from multi-view images. Furthermore, we adopt the involution kernel to enrich deep fusion features with channel features. In addition, we develop the face parse network to learn, identify, and emphasize the critical common face area within multi-view images. Experiments on Pixel-Face and Bosphorus datasets indicate the superiority of our model. Without 3D annotation, DF-MVR achieves 5.2% and 3.0% RMSE improvement over the existing weakly supervised MVRs respectively on Pixel-Face and Bosphorus dataset. Code will be available publicly at https://github.com/weiguangzhao/DF_MVR. | 翻訳日:2024-01-24 00:24:35 公開日:2024-01-22 |
# diarizationlm:大規模言語モデルを用いた話者ダイアリゼーション後処理 DiarizationLM: Speaker Diarization Post-Processing with Large Language Models ( http://arxiv.org/abs/2401.03506v3 ) ライセンス: Link先を確認 | Quan Wang, Yiling Huang, Guanlong Zhao, Evan Clark, Wei Xia, Hank Liao | (参考訳) 本稿では,大言語モデル(LLM)を利用して話者ダイアリゼーションシステムから出力を後処理するフレームワークであるダイアリゼーションLMを紹介する。
提案するフレームワークでは,ダイアリゼーション文字の可読性の向上や,単語ダイアリゼーション誤り率(WDER)の低減など,さまざまな目標を達成することができる。
この枠組みでは、自動音声認識(asr)および話者ダイアリゼーションシステムの出力を、任意に微調整されたllmへのプロンプトに含まれるコンパクトテキスト形式として表現する。
LLMの出力は、所望の増強で精製ダイアリゼーション結果として用いることができる。
処理後ステップとして、このフレームワークは既存のコンポーネントを再トレーニングすることなく、任意の既製のasrおよび話者ダイアリゼーションシステムに容易に適用できる。
実験の結果,微調整された PaLM 2-S モデルにより WDER を rel で低減できることがわかった。
Fisher 電話の会話データセットで55.5%、rel。
44.9%であった。 In this paper, we introduce DiarizationLM, a framework to leverage large language models (LLM) to post-process the outputs from a speaker diarization system. Various goals can be achieved with the proposed framework, such as improving the readability of the diarized transcript, or reducing the word diarization error rate (WDER). In this framework, the outputs of the automatic speech recognition (ASR) and speaker diarization systems are represented as a compact textual format, which is included in the prompt to an optionally finetuned LLM. The outputs of the LLM can be used as the refined diarization results with the desired enhancement. As a post-processing step, this framework can be easily applied to any off-the-shelf ASR and speaker diarization systems without retraining existing components. Our experiments show that a finetuned PaLM 2-S model can reduce the WDER by rel. 55.5% on the Fisher telephone conversation dataset, and rel. 44.9% on the Callhome English dataset. | 翻訳日:2024-01-24 00:17:47 公開日:2024-01-22 |
# フローガイド型インボディナノスケール局所化のための生データの解析モデル Analytical Modelling of Raw Data for Flow-Guided In-body Nanoscale Localization ( http://arxiv.org/abs/2309.16034v2 ) ライセンス: Link先を確認 | Guillem Pascual, Filip Lemic, Carmen Delgado, Xavier Costa-Perez | (参考訳) ナノテクノロジーと物質科学の進歩は、センシング、コンピューティング、データとエネルギーストレージ、ワイヤレス通信を組み合わせたナノスケールデバイスへの道を歩んでいる。
精密医療では、これらのナノデバイスは患者の血流内から疾患の診断、治療、モニタリングを約束する。
検出された生物学的事象の位置をイベント自身に割り当てることは、フロー誘導型体内ナノスケール局在の主要な提案であり、精密医学の観点から非常に有益である。
ナノデバイスのナノスケールの性質と、血流が表す困難な環境により、現在のフロー誘導型局在化アプローチは通信やエネルギー関連の能力に制約される。
ナノデバイスの通信とエネルギーの制約は、フロー誘導型ローカライゼーションのための生データの異なる特徴をもたらし、その結果、その性能に影響を及ぼす。
ナノデバイスが生み出す生データに対するナノデバイス間欠操作を引き起こす不完全な通信と制約エネルギーの効果の分析モデルが有用である。
そこで本研究では,ナノデバイスの通信機能やエネルギー関連機能として生データをモデル化したフロー誘導型局在解析モデルを提案する。
本研究では,フロー誘導型ローカライゼーションの客観的評価のためのシミュレータを用いて得られたモデルと,その出力を比較して評価する。
この結果から, モデルとシミュレータ生成した生データセットとの類似性が高いことが示された。 Advancements in nanotechnology and material science are paving the way toward nanoscale devices that combine sensing, computing, data and energy storage, and wireless communication. In precision medicine, these nanodevices show promise for disease diagnostics, treatment, and monitoring from within the patients' bloodstreams. Assigning the location of a sensed biological event with the event itself, which is the main proposition of flow-guided in-body nanoscale localization, would be immensely beneficial from the perspective of precision medicine. The nanoscale nature of the nanodevices and the challenging environment that the bloodstream represents, result in current flow-guided localization approaches being constrained in their communication and energy-related capabilities. The communication and energy constraints of the nanodevices result in different features of raw data for flow-guided localization, in turn affecting its performance. An analytical modeling of the effects of imperfect communication and constrained energy causing intermittent operation of the nanodevices on the raw data produced by the nanodevices would be beneficial. Hence, we propose an analytical model of raw data for flow-guided localization, where the raw data is modeled as a function of communication and energy-related capabilities of the nanodevice. We evaluate the model by comparing its output with the one obtained through the utilization of a simulator for objective evaluation of flow-guided localization, featuring comparably higher level of realism. Our results across a number of scenarios and heterogeneous performance metrics indicate high similarity between the model and simulator-generated raw datasets. | 翻訳日:2024-01-24 00:14:50 公開日:2024-01-22 |
# DTC:ディープトラッキング制御 DTC: Deep Tracking Control ( http://arxiv.org/abs/2309.15462v2 ) ライセンス: Link先を確認 | Fabian Jenelten, Junzhe He, Farbod Farshidian, Marco Hutter | (参考訳) レッグドロコモーションは複雑な制御問題であり、現実世界の課題に対処するために正確性と堅牢性の両方を必要とする。
レッグドシステムは従来、軌道最適化と逆ダイナミクスを用いて制御されてきた。
このような階層的モデルに基づく手法は、直感的なコスト関数チューニング、正確な計画、一般化、そして最も重要なのは、10年以上にわたる広範な研究から得られた洞察に富んだ理解によって魅力的である。
しかし, モデルミスマッチや仮定違反は, 故障の原因としてよく見られる。
一方,シミュレーションに基づく強化学習は,前例のないロバスト性とリカバリスキルを備えた移動政策をもたらす。
しかし、すべての学習アルゴリズムは、ギャップや踏み石など、有効な足場が稀な環境から生まれる、まばらな報酬に苦しむ。
本研究では,両世界の強固性,足の配置精度,地形の一般化を同時に達成するためのハイブリッド制御アーキテクチャを提案する。
本手法では,モデルベースプランナを用いて,トレーニング中に参照動作をロールアウトする。
ディープニューラルネットワークポリシは、最適化された足場を追跡するために、シミュレーションでトレーニングされる。
純粋なデータ駆動手法が失敗しがちであるスパースな地形における移動パイプラインの精度を評価する。
さらに, モデルベースに比べてすべりや変形性を有する地盤の存在において, 優れた強靭性を示す。
最後に,提案したトラッキングコントローラは,トレーニング中に見つからない様々な軌道最適化手法を一般化することを示す。
結論として,オンラインプランニングの予測能力と最適性保証と,オフライン学習による本質的な堅牢性とを両立させる。 Legged locomotion is a complex control problem that requires both accuracy and robustness to cope with real-world challenges. Legged systems have traditionally been controlled using trajectory optimization with inverse dynamics. Such hierarchical model-based methods are appealing due to intuitive cost function tuning, accurate planning, generalization, and most importantly, the insightful understanding gained from more than one decade of extensive research. However, model mismatch and violation of assumptions are common sources of faulty operation. Simulation-based reinforcement learning, on the other hand, results in locomotion policies with unprecedented robustness and recovery skills. Yet, all learning algorithms struggle with sparse rewards emerging from environments where valid footholds are rare, such as gaps or stepping stones. In this work, we propose a hybrid control architecture that combines the advantages of both worlds to simultaneously achieve greater robustness, foot-placement accuracy, and terrain generalization. Our approach utilizes a model-based planner to roll out a reference motion during training. A deep neural network policy is trained in simulation, aiming to track the optimized footholds. We evaluate the accuracy of our locomotion pipeline on sparse terrains, where pure data-driven methods are prone to fail. Furthermore, we demonstrate superior robustness in the presence of slippery or deformable ground when compared to model-based counterparts. Finally, we show that our proposed tracking controller generalizes across different trajectory optimization methods not seen during training. In conclusion, our work unites the predictive capabilities and optimality guarantees of online planning with the inherent robustness attributed to offline learning. | 翻訳日:2024-01-24 00:14:28 公開日:2024-01-22 |
# 衝突回避とハンドオーバアウェアセルアソシエーションを考慮したマルチuav速度制御:アクション分岐を用いたdrl Multi-UAV Speed Control with Collision Avoidance and Handover-aware Cell Association: DRL with Action Branching ( http://arxiv.org/abs/2307.13158v2 ) ライセンス: Link先を確認 | Zijiang Yan, Wael Jaafar, Bassant Selim, Hina Tabassum | (参考訳) 本稿では,複数UAVセルアソシエーション決定とその移動速度を3次元高速道路上で最適化するための深層強化学習ソリューションを提案する。
目的は、衝突回避、接続性、ハンドオーバなど、輸送と通信性能の向上である。
この問題は、速度と通信データ率によって定義されたUAVの状態を持つマルコフ決定プロセス(MDP)として定式化される。
本研究では,共有決定モジュールと複数のネットワーク分岐を持つニューラルアーキテクチャを提案する。
この設計は多次元のアクション空間を効率的に処理し、個々のアクション次元の独立性を実現する。
本稿では,BDQ(Branching Dueling Q-Network)とDDQN(Branching Dueling Double Deep Q-Network)の2つのモデルを紹介する。
シミュレーションの結果、既存のベンチマークと比べて18.32%の大幅な改善が見られた。 This paper presents a deep reinforcement learning solution for optimizing multi-UAV cell-association decisions and their moving velocity on a 3D aerial highway. The objective is to enhance transportation and communication performance, including collision avoidance, connectivity, and handovers. The problem is formulated as a Markov decision process (MDP) with UAVs' states defined by velocities and communication data rates. We propose a neural architecture with a shared decision module and multiple network branches, each dedicated to a specific action dimension in a 2D transportation-communication space. This design efficiently handles the multi-dimensional action space, allowing independence for individual action dimensions. We introduce two models, Branching Dueling Q-Network (BDQ) and Branching Dueling Double Deep Q-Network (Dueling DDQN), to demonstrate the approach. Simulation results show a significant improvement of 18.32% compared to existing benchmarks. | 翻訳日:2024-01-24 00:13:31 公開日:2024-01-22 |
# hashvfl:垂直連合学習におけるデータ再構成攻撃に対する防御 HashVFL: Defending Against Data Reconstruction Attacks in Vertical Federated Learning ( http://arxiv.org/abs/2212.00325v2 ) ライセンス: Link先を確認 | Pengyu Qiu, Xuhong Zhang, Shouling Ji, Chong Fu, Xing Yang, Ting Wang | (参考訳) Vertical Federated Learning(VFL)は、コラボレーティブな機械学習モデルのトレーニングソリューションである。
既存の産業フレームワークは、データのセキュリティとプライバシを確保するために、準同型暗号化のようなセキュアなマルチパーティ計算技術を使用している。
これらの努力にもかかわらず、中間表現と生データとの相関関係から、データ漏洩はVFLのリスクであることが明らかになっている。
ニューラルネットワークはこれらの相関関係を正確に捉え、敵がデータを再構築することを可能にする。
これは、VFLシステムのセキュリティに関する継続的な研究の必要性を強調している。
我々の研究は、ハッシュがデータ再構築攻撃に対抗するための有望な解決策であることを示している。
ハッシュ化の一方通行性は、敵がハッシュコードからデータを復元するのを難しくする。
しかしながら、VFLにおけるハッシュの実装は、勾配の消失や情報損失など、新たな課題を提示している。
これらの問題に対処するために、ハッシュを統合し、学習性、ビットバランス、一貫性を同時に達成するHashVFLを提案する。
実験の結果,hashvflはデータ再構成攻撃を防御しながらタスク性能を効果的に維持できることがわかった。
また、ラベルリークの程度を減らし、敵攻撃を緩和し、異常な入力を検出することで、さらなるメリットをもたらす。
我々は、HashVFLの潜在的な応用に関するさらなる研究を期待する。 Vertical Federated Learning (VFL) is a trending collaborative machine learning model training solution. Existing industrial frameworks employ secure multi-party computation techniques such as homomorphic encryption to ensure data security and privacy. Despite these efforts, studies have revealed that data leakage remains a risk in VFL due to the correlations between intermediate representations and raw data. Neural networks can accurately capture these correlations, allowing an adversary to reconstruct the data. This emphasizes the need for continued research into securing VFL systems. Our work shows that hashing is a promising solution to counter data reconstruction attacks. The one-way nature of hashing makes it difficult for an adversary to recover data from hash codes. However, implementing hashing in VFL presents new challenges, including vanishing gradients and information loss. To address these issues, we propose HashVFL, which integrates hashing and simultaneously achieves learnability, bit balance, and consistency. Experimental results indicate that HashVFL effectively maintains task performance while defending against data reconstruction attacks. It also brings additional benefits in reducing the degree of label leakage, mitigating adversarial attacks, and detecting abnormal inputs. We hope our work will inspire further research into the potential applications of HashVFL. | 翻訳日:2024-01-23 22:27:55 公開日:2024-01-22 |
# smiletrack: 咬合を検知する複数物体追跡のための類似性学習 SMILEtrack: SiMIlarity LEarning for Occlusion-Aware Multiple Object Tracking ( http://arxiv.org/abs/2211.08824v4 ) ライセンス: Link先を確認 | Yu-Hsiang Wang, Jun-Wei Hsieh, Ping-Yang Chen, Ming-Ching Chang, Hung Hin So, Xin Li | (参考訳) 最近のMOT(Multiple Object Tracking)の進歩にもかかわらず、オクルージョンや類似のオブジェクト、複雑なシーンといったいくつかの障害は未解決の課題である。
一方で、一般的なトラッキングバイ検出パラダイムに対するコストパフォーマンストレードオフに関する体系的な研究は、いまだに不足している。
本稿では,SLM(Siamese Network-based similarity Learning Module)と効率的なオブジェクト検出器を統合することで,これらの課題に効果的に対応する革新的なオブジェクトトラッカーSMILEtrackを紹介する。
SMILETrackの技術的貢献は2つある。
まず,2つのオブジェクト間の外観類似性を計算し,分離検出および埋め込み(SDE)モデルにおける特徴記述子の限界を克服するSLMを提案する。
SLMは視覚変換器にインスパイアされたPatch Self-Attention (PSA)ブロックを組み込み、正確な類似性マッチングのための信頼性の高い特徴を生成する。
第2に、連続するビデオフレーム間の堅牢なオブジェクトマッチングのための新しいGATE機能を備えた類似マッチングカスケード(SMC)モジュールを開発し、MOT性能をさらに向上する。
これらの革新によってSMILETrackはコスト(例えば、実行速度)とパフォーマンス(例えば、BYTETrackメソッドを含むいくつかの既存の最先端ベンチマーク)の間のトレードオフを改善することができる。
SMILETrack は BYTETrack を 0.4-0.8 MOTA で、MOT17 と MOT20 のデータセットで 2.1-2.2 HOTA で上回っている。
コードはhttps://github.com/pingyang1117/SMILEtrack_Officialで公開されている。 Despite recent progress in Multiple Object Tracking (MOT), several obstacles such as occlusions, similar objects, and complex scenes remain an open challenge. Meanwhile, a systematic study of the cost-performance tradeoff for the popular tracking-by-detection paradigm is still lacking. This paper introduces SMILEtrack, an innovative object tracker that effectively addresses these challenges by integrating an efficient object detector with a Siamese network-based Similarity Learning Module (SLM). The technical contributions of SMILETrack are twofold. First, we propose an SLM that calculates the appearance similarity between two objects, overcoming the limitations of feature descriptors in Separate Detection and Embedding (SDE) models. The SLM incorporates a Patch Self-Attention (PSA) block inspired by the vision Transformer, which generates reliable features for accurate similarity matching. Second, we develop a Similarity Matching Cascade (SMC) module with a novel GATE function for robust object matching across consecutive video frames, further enhancing MOT performance. Together, these innovations help SMILETrack achieve an improved trade-off between the cost ({\em e.g.}, running speed) and performance (e.g., tracking accuracy) over several existing state-of-the-art benchmarks, including the popular BYTETrack method. SMILETrack outperforms BYTETrack by 0.4-0.8 MOTA and 2.1-2.2 HOTA points on MOT17 and MOT20 datasets. Code is available at https://github.com/pingyang1117/SMILEtrack_Official | 翻訳日:2024-01-23 22:26:12 公開日:2024-01-22 |
# 拡散モデルディープフェイクの検出に向けて Towards the Detection of Diffusion Model Deepfakes ( http://arxiv.org/abs/2210.14571v4 ) ライセンス: Link先を確認 | Jonas Ricker, Simon Damm, Thorsten Holz, Asja Fischer | (参考訳) 過去数年間、拡散モデル(DM)は前例のないレベルの視覚的品質に達してきた。
しかし, DM生成画像の検出には比較的注意が払われておらず, 社会に悪影響を及ぼすおそれがある。
対照的に、gans(generative adversarial network)は法医学的な観点から広く研究されてきた。
そこで本研究では,dmsが生成する画像の検出に従来の手法が利用できるかどうかを評価するために,次のステップを自然なものにする。
その結果,(1)最先端のgan検出器は実画像とdm生成画像を確実に区別できないが,(2)dm生成画像で再訓練することでほぼ完全な検出が可能となり,さらにgansに一般化する。
特徴空間解析と合わせて, DMは検出可能なアーティファクトが少なく, GANに比べて検出が困難である,という仮説を導いた。
この理由の1つは、ganの弱点として知られるdm生成画像にグリッドのような周波数アーティファクトがないことである。
しかし,拡散モデルでは高い周波数を過小評価する傾向がみられ,学習目標の属性となっている。 In the course of the past few years, diffusion models (DMs) have reached an unprecedented level of visual quality. However, relatively little attention has been paid to the detection of DM-generated images, which is critical to prevent adverse impacts on our society. In contrast, generative adversarial networks (GANs), have been extensively studied from a forensic perspective. In this work, we therefore take the natural next step to evaluate whether previous methods can be used to detect images generated by DMs. Our experiments yield two key findings: (1) state-of-the-art GAN detectors are unable to reliably distinguish real from DM-generated images, but (2) re-training them on DM-generated images allows for almost perfect detection, which remarkably even generalizes to GANs. Together with a feature space analysis, our results lead to the hypothesis that DMs produce fewer detectable artifacts and are thus more difficult to detect compared to GANs. One possible reason for this is the absence of grid-like frequency artifacts in DM-generated images, which are a known weakness of GANs. However, we make the interesting observation that diffusion models tend to underestimate high frequencies, which we attribute to the learning objective. | 翻訳日:2024-01-23 22:24:08 公開日:2024-01-22 |
# impnet: コンパイル型ニューラルネットワークにおけるインセプタブルおよびブラックボックス検出不能バックドア ImpNet: Imperceptible and blackbox-undetectable backdoors in compiled neural networks ( http://arxiv.org/abs/2210.00108v3 ) ライセンス: Link先を確認 | Tim Clifford, Ilia Shumailov, Yiren Zhao, Ross Anderson, Robert Mullins | (参考訳) 機械学習に対する初期のバックドア攻撃は、攻撃と防衛開発で武器競争を開始した。
防衛隊はその後、モデル内のバックドアを検知したり、取り除いたりできる能力を示した。
これらの防御は、訓練手順の訓練データ、モデル、または整合性を検査することで機能する。
本研究では,データ準備とモデルトレーニングの段階でのセーフガードを回避して,コンパイル中にバックドアを追加できることを示す。
攻撃者は、コンパイル中に既存の重みベースのバックドアを挿入できるだけでなく、ImpNetのような新しい重みに依存しないバックドアも挿入できる。
これらのバックドアは、まだ存在していないため、トレーニングやデータ準備プロセス中に検出できない。
次に、ImpNetを含むいくつかのバックドアが、挿入され、他の場所で削除されるステージにおいてのみ確実に検出できることを示します。
我々は、MLモデルのセキュリティには、データ、モデルアーキテクチャ、コンパイラ、ハードウェア仕様を含む、技術パイプライン全体の保証が必要であると結論付けている。 Early backdoor attacks against machine learning set off an arms race in attack and defence development. Defences have since appeared demonstrating some ability to detect backdoors in models or even remove them. These defences work by inspecting the training data, the model, or the integrity of the training procedure. In this work, we show that backdoors can be added during compilation, circumventing any safeguards in the data preparation and model training stages. The attacker can not only insert existing weight-based backdoors during compilation, but also a new class of weight-independent backdoors, such as ImpNet. These backdoors are impossible to detect during the training or data preparation processes, because they are not yet present. Next, we demonstrate that some backdoors, including ImpNet, can only be reliably detected at the stage where they are inserted and removing them anywhere else presents a significant challenge. We conclude that ML model security requires assurance of provenance along the entire technical pipeline, including the data, model architecture, compiler, and hardware specification. | 翻訳日:2024-01-23 22:23:21 公開日:2024-01-22 |
# ミリグラム浮遊質量による重力測定 Measuring gravity with milligram levitated masses ( http://arxiv.org/abs/2303.03545v2 ) ライセンス: Link先を確認 | Tim M. Fuchs, Dennis G. Uitenbroek, Jaimy Plugge, Noud van Halteren, Jean-Paul van Soest, Andrea Vinante, Hendrik Ulbricht and Tjerk H. Oosterkamp | (参考訳) 重力は他の既知の基本的な力と異なり、時空の曲率として最もよく説明される。
そのため、量子論との統一には耐性がある。
重力相互作用は基本的に弱く、マクロスケールでのみ顕著になる。
つまり、量子効果が支配する微視的な状態の重力に何が起こるのか、そして重力の量子コヒーレント効果が明らかになるかどうかがわからない。
メソスコピックサイズの浮揚力学系は重力のプローブを提供するが、運動状態の量子制御は可能である。
この体制は重力系の量子重ね合わせと絡み合いのテーブルトップテストの可能性を開く。
ここでは,type-i超伝導トラップ内の浮遊したサブミリメートルスケールの磁気粒子と,約半メートル離れたkg源質量との間の重力結合を示す。
その結果, アトニュートンの低重力力まで重力測定が拡張され, 浮揚機械センサの重要性が強調された。
具体的には、周波数が26.7Hz、質量が0.4mg、Q因子が10$^7$を超える場合には、0.5$fN\sqrt{Hz}$の力雑音が得られる。
残りの5つの回転と翻訳の自由度を同時に検出する。 Gravity differs from all other known fundamental forces since it is best described as a curvature of spacetime. For that reason it remains resistant to unifications with quantum theory. Gravitational interaction is fundamentally weak and becomes prominent only at macroscopic scales. This means, we do not know what happens to gravity in the microscopic regime where quantum effects dominate, and whether quantum coherent effects of gravity become apparent. Levitated mechanical systems of mesoscopic size offer a probe of gravity, while still allowing quantum control over their motional state. This regime opens the possibility of table-top testing of quantum superposition and entanglement in gravitating systems. Here we show gravitational coupling between a levitated sub-millimeter scale magnetic particle inside a type-I superconducting trap and kg source masses, placed approximately half a meter away. Our results extend gravity measurements to low gravitational forces of attonewton and underline the importance of levitated mechanical sensors. Specifically, at a frequency of 26.7 Hz, a mass of 0.4 mg and showing Q-factors in excess of 10$^7$, we obtained a force noise of 0.5 $fN\sqrt{Hz}$ . We simultaneously detect the other 5 rotational and translational degrees of freedom. | 翻訳日:2024-01-23 22:15:41 公開日:2024-01-22 |
# 逐次学習による連続的輪郭型インスタンスセグメンテーション Recurrent Generic Contour-based Instance Segmentation with Progressive Learning ( http://arxiv.org/abs/2301.08898v3 ) ライセンス: Link先を確認 | Hao Feng, Keyi Zhou, Wengang Zhou, Yufei Yin, Jiajun Deng, Qi Sun, Houqiang Li | (参考訳) contourベースのインスタンスセグメンテーションは、複雑なバックグラウンド内でビジュアルオブジェクトを処理する柔軟性とエレガンスのおかげで、活発に研究されている。
本研究では,一般的な輪郭型インスタンスセグメンテーションのための新しいディープネットワークアーキテクチャ,すなわちPolySnakeを提案する。
古典的な Snake アルゴリズムに動機付け,提案した PolySnake は反復的・進行的輪郭改良戦略により,優れた,堅牢なセグメンテーション性能を実現する。
技術的には、PolySnakeは繰り返し更新演算子を導入し、オブジェクトの輪郭を反復的に見積もる。
それは、オブジェクト境界に向かって徐々に変形する輪郭の単一の推定を維持する。
それぞれのイテレーションで、PolySnakeは現在の輪郭のセマンティックリッチな表現を構築し、それをリカレント演算子に供給し、さらなる輪郭調整を行う。
反復精製により、輪郭は徐々に安定な状態に収束し、オブジェクトのインスタンスをしっかりと囲む。
一般的なインスタンスセグメンテーションの範囲を超えて、シーンテキスト検出とレーン検出を含む2つの特定のタスクシナリオにおいて、PolySnakeの有効性と一般化性を検証するために、広範な実験が実施されている。
その結果,提案手法は3つのタスクにまたがる複数の有界ベンチマークにおいて,既存の先進的手法よりも優れていることがわかった。
コードと事前訓練されたモデルはhttps://github.com/fh2019ustc/PolySnakeで入手できる。 Contour-based instance segmentation has been actively studied, thanks to its flexibility and elegance in processing visual objects within complex backgrounds. In this work, we propose a novel deep network architecture, i.e., PolySnake, for generic contour-based instance segmentation. Motivated by the classic Snake algorithm, the proposed PolySnake achieves superior and robust segmentation performance with an iterative and progressive contour refinement strategy. Technically, PolySnake introduces a recurrent update operator to estimate the object contour iteratively. It maintains a single estimate of the contour that is progressively deformed toward the object boundary. At each iteration, PolySnake builds a semantic-rich representation for the current contour and feeds it to the recurrent operator for further contour adjustment. Through the iterative refinements, the contour progressively converges to a stable status that tightly encloses the object instance. Beyond the scope of general instance segmentation, extensive experiments are conducted to validate the effectiveness and generalizability of our PolySnake in two additional specific task scenarios, including scene text detection and lane detection. The results demonstrate that the proposed PolySnake outperforms the existing advanced methods on several multiple prevalent benchmarks across the three tasks. The codes and pre-trained models are available at https://github.com/fh2019ustc/PolySnake | 翻訳日:2024-01-23 22:13:41 公開日:2024-01-22 |
# 量子情報ボトルネック法による量子ニューラルネットワークの訓練 Training quantum neural networks using the Quantum Information Bottleneck method ( http://arxiv.org/abs/2212.02600v2 ) ライセンス: Link先を確認 | Ahmet Burak Catli, Nathan Wiebe | (参考訳) 本稿では,ネットワークを介して伝達される特性に関する関連情報を最大化するために,量子ニューラルネットワークを訓練する具体的な方法を提案する。
これは、入力と出力が完全に量子である問題に対してオートエンコーダを訓練する際に最適化するために、運用的に確立された量を与えるためである。
入力密度演算子が$\{0\}~\bigcup ~[\delta,1-\delta]$ for $\delta>0$ でサポートされている場合、入力密度演算子の浄化に$o(\log^2(1/\epsilon) + 1/\delta^2)$クエリを必要とするエラー$\epsilon$の量子情報のボトルネック量を計算するための厳密なアルゴリズムを提供する。
さらに, qib関数の導関数を推定するアルゴリズムを提供し, 必要な勾配ステップ数が多項式であることから, 量子ニューラルネットワークをqib量を用いて効率的に学習できることを示す。 We provide in this paper a concrete method for training a quantum neural network to maximize the relevant information about a property that is transmitted through the network. This is significant because it gives an operationally well founded quantity to optimize when training autoencoders for problems where the inputs and outputs are fully quantum. We provide a rigorous algorithm for computing the value of the quantum information bottleneck quantity within error $\epsilon$ that requires $O(\log^2(1/\epsilon) + 1/\delta^2)$ queries to a purification of the input density operator if its spectrum is supported on $\{0\}~\bigcup ~[\delta,1-\delta]$ for $\delta>0$ and the kernels of the relevant density matrices are disjoint. We further provide algorithms for estimating the derivatives of the QIB function, showing that quantum neural networks can be trained efficiently using the QIB quantity given that the number of gradient steps required is polynomial. | 翻訳日:2024-01-23 22:12:05 公開日:2024-01-22 |
# メタ学習によるハミルトン表現のクロスドメイン一般化に向けて Towards Cross Domain Generalization of Hamiltonian Representation via Meta Learning ( http://arxiv.org/abs/2212.01168v3 ) ライセンス: Link先を確認 | Yeongwoo Song, Hawoong Jeong | (参考訳) 物理の深層学習の最近の進歩は、物理の先行や誘導バイアスをニューラルネットワークに組み込むことによって、ターゲットシステムの共有表現を発見することに集中している。
有効ではあるが、これらの手法はシステムドメインに限られており、システムの種類は一貫しているため、異なる法則によって管理される新しい物理システムへの適応を保証することはできない。
例えば、マススプリングシステムでトレーニングされたニューラルネットワークは、2体システムや他の物理法則の異なるシステムの振る舞いの正確な予測を保証できない。
本研究では,ハミルトニアンダイナミクスの分野におけるクロスドメイン一般化を目標として,大きな前進を遂げる。
我々は,このシステムをグラフニューラルネットワークでモデル化し,メタ学習アルゴリズムを用いて,タスクの分散に関する経験を得られるようにし,新しい物理に適応させる。
本手法は,複数のシステム領域にまたがる統一ハミルトン表現を学習し,システム固有モデルの限界を克服することを目的としている。
以上の結果から, メタ訓練モデルは新しい系に効果的に適応するだけでなく, 異なる物理領域にまたがる一般化ハミルトニアン表現を捉えていることが示された。
全体として、メタ学習を利用することで、クロスドメインの一般化を実現するフレームワークを提供し、ディープラーニングを通じて幅広い動的システムを理解するための統一モデルへのステップを提供する。 Recent advances in deep learning for physics have focused on discovering shared representations of target systems by incorporating physics priors or inductive biases into neural networks. While effective, these methods are limited to the system domain, where the type of system remains consistent and thus cannot ensure the adaptation to new, or unseen physical systems governed by different laws. For instance, a neural network trained on a mass-spring system cannot guarantee accurate predictions for the behavior of a two-body system or any other system with different physical laws. In this work, we take a significant leap forward by targeting cross domain generalization within the field of Hamiltonian dynamics. We model our system with a graph neural network and employ a meta learning algorithm to enable the model to gain experience over a distribution of tasks and make it adapt to new physics. Our approach aims to learn a unified Hamiltonian representation that is generalizable across multiple system domains, thereby overcoming the limitations of system-specific models. Our results demonstrate that the meta-trained model not only adapts effectively to new systems but also captures a generalized Hamiltonian representation that is consistent across different physical domains. Overall, through the use of meta learning, we offer a framework that achieves cross domain generalization, providing a step towards a unified model for understanding a wide array of dynamical systems via deep learning. | 翻訳日:2024-01-23 22:11:39 公開日:2024-01-22 |
# ice-score: 大きな言語モデルにコード評価を指示する ICE-Score: Instructing Large Language Models to Evaluate Code ( http://arxiv.org/abs/2304.14317v2 ) ライセンス: Link先を確認 | Terry Yue Zhuo | (参考訳) 自然言語生成の分野における最近の進歩は、生成されたテキストの品質を評価するために、大規模な言語モデルの使用を促進した。
これらのモデルは機械翻訳や要約といったタスクで有望な結果を示しているが、コードインテリジェンスタスクへの適用性は人間の関与なしに制限されている。
このようなタスクに必要なプログラミング概念の複雑さは、人間の判断に沿う評価指標の開発を困難にしている。
BLEUのようなトークンマッチングベースのメトリクスは、コードインテリジェンスタスクにおける人間の実践者との弱い相関を示す。
また,低リソース領域では,人手によるテストスイートを用いて機能的正当性を評価することは困難である。
これらの障害を克服するために,コードアセスメントのための大規模言語モデル(LLM)を指示する新たな評価指標である‘texttt{ICE-Score} を提案する。
提案手法は,機能的正しさと人的嗜好との相関性に優れ,オーラクルや参照を必要とせず,既存のアプローチの限界に対処する。
我々は,2つの異なる側面(\textit{human preference} と \textit{execution success} )と4つのプログラミング言語で測定値の有効性を評価する。
我々の測定値がコード生成の最先端の指標を超え、様々なプログラミング言語やタスクに対して高い精度と一貫性を提供することを示す。
また、評価基準とデータセットを public\footnote{\url{https://github.com/terryyz/ice-score}} に公開し、コードインテリジェンスタスクの評価に関するさらなる研究を奨励しています。 Recent advancements in the field of natural language generation have facilitated the use of large language models to assess the quality of generated text. Although these models have shown promising results in tasks such as machine translation and summarization, their applicability in code intelligence tasks remains limited without human involvement. The complexity of programming concepts required for such tasks makes it difficult to develop evaluation metrics that align with human judgment. Token-matching-based metrics, such as BLEU, have demonstrated weak correlations with human practitioners in code intelligence tasks. Moreover, utilizing human-written test suites to evaluate functional correctness can be challenging in domains with low resources. To overcome these obstacles, we propose \texttt{ICE-Score}, a new evaluation metric via instructing large language models (LLMs) for code assessments. Our metric addresses the limitations of existing approaches by achieving superior correlations with functional correctness and human preferences, without the need for test oracles or references. We evaluate the efficacy of our metric on two different aspects (\textit{human preference} and \textit{execution success}) and four programming languages. Our results demonstrate that our metric surpasses state-of-the-art metrics for code generation, delivering high levels of accuracy and consistency across various programming languages and tasks. We also make our evaluation metric and datasets available to the public\footnote{\url{https://github.com/terryyz/ice-score}}, encouraging further research in evaluating code intelligence tasks. | 翻訳日:2024-01-23 22:04:24 公開日:2024-01-22 |
# カモフラージュの芸術:動物検出とセグメンテーションのための小ショット学習 The Art of Camouflage: Few-shot Learning for Animal Detection and Segmentation ( http://arxiv.org/abs/2304.07444v3 ) ライセンス: Link先を確認 | Thanh-Danh Nguyen, Anh-Khoa Nguyen Vu, Nhat-Duy Nguyen, Vinh-Tiep Nguyen, Thanh Duc Ngo, Thanh-Toan Do, Minh-Triet Tran, and Tam V. Nguyen | (参考訳) camouflaged object detection and segmentationはコンピュータビジョンにおける新しい挑戦的な研究テーマである。
自然の場面では迷彩動物などの迷彩物のデータが欠落しているという深刻な問題がある。
本稿では,カモフラージュ物体検出とセグメンテーションのためのマイズショット学習の課題について述べる。
この目的のために、ベンチマークのためにまず新しいデータセットであるCAMO-FSを収集します。
次に,画像中の擬似物体を効率的に検出し,分割する手法を提案する。
特に、インスタンス三重項損失とインスタンスメモリストレージを導入します。
提案手法は,新たに収集したデータセットの最先端性能を実現することを実証した。 Camouflaged object detection and segmentation is a new and challenging research topic in computer vision. There is a serious issue of lacking data of camouflaged objects such as camouflaged animals in natural scenes. In this paper, we address the problem of few-shot learning for camouflaged object detection and segmentation. To this end, we first collect a new dataset, CAMO-FS, for the benchmark. We then propose a novel method to efficiently detect and segment the camouflaged objects in the images. In particular, we introduce the instance triplet loss and the instance memory storage. The extensive experiments demonstrated that our proposed method achieves state-of-the-art performance on the newly collected dataset. | 翻訳日:2024-01-23 22:03:55 公開日:2024-01-22 |
# 計算病理学 : サーベイレビューと今後の展開 Computational Pathology: A Survey Review and The Way Forward ( http://arxiv.org/abs/2304.05482v2 ) ライセンス: Link先を確認 | Mahdi S. Hosseini, Babak Ehteshami Bejnordi, Vincent Quoc-Huy Trinh, Danial Hasan, Xingwen Li, Taehyo Kim, Haochen Zhang, Theodore Wu, Kajanan Chinniah, Sina Maghsoudlou, Ryan Zhang, Stephen Yang, Jiadai Zhu, Lyndon Chan, Samir Khaki, Andrei Buin, Fatemeh Chaji, Ala Salehi, Bich Ngoc Nguyen, Dimitris Samaras and Konstantinos N. Plataniotis | (参考訳) 計算病理学 cpath は医学的病理学画像の解析とモデル化のための計算手法の開発を促進する学際科学である。
CPathの主な目的は,臨床病理の補助的CADシステムとしてデジタル診断の基盤とワークフローを開発することである。
ディープラーニングとコンピュータビジョンアルゴリズムの進歩と、デジタル病理からのデータフローの容易化により、CPathは現在、パラダイムシフトを目の当たりにしている。
がん画像解析のためのエンジニアリングと科学的研究が数多く導入されているにもかかわらず、これらのアルゴリズムを臨床実践に適用し、統合することには、依然としてかなりのギャップがある。
これはCPathで行われている方向性とトレンドに関する重要な疑問を提起する。
本稿では,800以上の論文を総合的にレビューし,アプリケーションと実装の観点から,問題設計において直面する課題に対処する。
CPathの現在の景観をレイアウトする上で直面する重要な作業や課題を調べて、各論文をモデルカードにカタログ化した。
コミュニティが関連する作業を見つけ出し、フィールドの今後の方向性を理解するのに役立つことを願っています。
簡単に言えば、このような多分野科学に関わる課題に対処するために、結合的にリンクする必要がある段階の周期においてCPathの発展を監督する。
データ中心、モデル中心、アプリケーション中心のさまざまな問題の観点から、このサイクルを概観する。
最終的に、残る課題をスケッチし、CPath(https://github.com/AtlasAnalyticsLab/CPath_Survey)の今後の技術的発展と臨床統合の方向性を提供します。 Computational Pathology CPath is an interdisciplinary science that augments developments of computational approaches to analyze and model medical histopathology images. The main objective for CPath is to develop infrastructure and workflows of digital diagnostics as an assistive CAD system for clinical pathology, facilitating transformational changes in the diagnosis and treatment of cancer that are mainly address by CPath tools. With evergrowing developments in deep learning and computer vision algorithms, and the ease of the data flow from digital pathology, currently CPath is witnessing a paradigm shift. Despite the sheer volume of engineering and scientific works being introduced for cancer image analysis, there is still a considerable gap of adopting and integrating these algorithms in clinical practice. This raises a significant question regarding the direction and trends that are undertaken in CPath. In this article we provide a comprehensive review of more than 800 papers to address the challenges faced in problem design all-the-way to the application and implementation viewpoints. We have catalogued each paper into a model-card by examining the key works and challenges faced to layout the current landscape in CPath. We hope this helps the community to locate relevant works and facilitate understanding of the field's future directions. In a nutshell, we oversee the CPath developments in cycle of stages which are required to be cohesively linked together to address the challenges associated with such multidisciplinary science. We overview this cycle from different perspectives of data-centric, model-centric, and application-centric problems. We finally sketch remaining challenges and provide directions for future technical developments and clinical integration of CPath (https://github.com/AtlasAnalyticsLab/CPath_Survey). | 翻訳日:2024-01-23 22:03:26 公開日:2024-01-22 |
# ETPNav: 連続環境における視覚言語ナビゲーションのためのトポロジ計画 ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments ( http://arxiv.org/abs/2304.03047v3 ) ライセンス: Link先を確認 | Dong An, Hanqing Wang, Wenguan Wang, Zun Wang, Yan Huang, Keji He, Liang Wang | (参考訳) 視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
自律的なナビゲーション、探索と救助、人間とロボットの相互作用など、AIの具体化の分野ではますます重要になっている。
本稿では,より実用的で挑戦的な,連続環境における視覚言語ナビゲーション(vln-ce)を提案する。
堅牢なVLN-CEエージェントを開発するために,2つの重要なスキルに焦点を当てた新しいナビゲーションフレームワーク ETPNav を提案する。
1)環境を抽象化し、長距離航法計画を作成する能力
2) 連続環境における障害物回避制御の能力
ETPNavは、事前の環境経験のない経路に沿って予測された経路を自己組織化することで、環境のオンライントポロジカルマッピングを行う。
エージェントは、ナビゲーション手順を高レベルな計画と低レベルな制御に分解する権限がある。
同時にetpnavはトランスフォーマティブベースのクロスモーダルプランナーを使用して、トポロジカルマップと命令に基づいたナビゲーションプランを生成する。
計画は障害物回避コントローラで実行され、試行錯誤のヒューリスティックを利用してナビゲーションが障害物にぶつからないようにする。
実験の結果,提案手法の有効性が示された。
ETPNavは、それぞれR2R-CEデータセットとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
私たちのコードはhttps://github.com/marsaki/etpnavで利用可能です。 Vision-language navigation is a task that requires an agent to follow instructions to navigate in environments. It becomes increasingly crucial in the field of embodied AI, with potential applications in autonomous navigation, search and rescue, and human-robot interaction. In this paper, we propose to address a more practical yet challenging counterpart setting - vision-language navigation in continuous environments (VLN-CE). To develop a robust VLN-CE agent, we propose a new navigation framework, ETPNav, which focuses on two critical skills: 1) the capability to abstract environments and generate long-range navigation plans, and 2) the ability of obstacle-avoiding control in continuous environments. ETPNav performs online topological mapping of environments by self-organizing predicted waypoints along a traversed path, without prior environmental experience. It privileges the agent to break down the navigation procedure into high-level planning and low-level control. Concurrently, ETPNav utilizes a transformer-based cross-modal planner to generate navigation plans based on topological maps and instructions. The plan is then performed through an obstacle-avoiding controller that leverages a trial-and-error heuristic to prevent navigation from getting stuck in obstacles. Experimental results demonstrate the effectiveness of the proposed method. ETPNav yields more than 10% and 20% improvements over prior state-of-the-art on R2R-CE and RxR-CE datasets, respectively. Our code is available at https://github.com/MarSaKi/ETPNav. | 翻訳日:2024-01-23 22:02:58 公開日:2024-01-22 |
# スマートコントラクトとdefiセキュリティツール: 実践者のニーズを満たすか? Smart Contract and DeFi Security Tools: Do They Meet the Needs of Practitioners? ( http://arxiv.org/abs/2304.02981v2 ) ライセンス: Link先を確認 | Stefanos Chaliasos, Marcos Antonios Charalambous, Liyi Zhou, Rafaila Galanopoulou, Arthur Gervais, Dimitris Mitropoulos, Ben Livshits | (参考訳) ブロックチェーン技術とスマートコントラクトを基盤とする分散型金融(defi)エコシステムの成長により、セキュアで信頼性の高いスマートコントラクト開発への需要が高まっている。
しかし、スマートコントラクトをターゲットにした攻撃が増加し、推定645億ドルの財務損失が生じた。
研究者は脆弱性を検出するための様々な自動セキュリティツールを提案したが、実際の影響はまだ不明である。
本稿では,攻撃に繋がる脆弱性の特定における自動セキュリティツールの有効性と,業界全体の利用状況を明らかにすることを目的としている。
包括的調査では、SoTA自動化セキュリティツール5つの評価、127件のハイインパクトな現実世界攻撃の分析、23億ドルの損失、DeFiプロトコルをリードする開発者と監査役49人の調査を含む。
このツールは、われわれのデータセットにおける攻撃のわずか8%を防ぎ、損失230億ドルのうち1億4900万ドル(約1兆4100億円)を防いだ可能性がある。
特に、すべての予防可能な攻撃は、リエンタンシーの脆弱性に関連していた。
さらに,既存のセキュリティツールでは対処できない重要な脅威として,ロジック関連のバグとプロトコル層の脆弱性を区別する実践者もいる。
この結果から,開発者や監査担当者の要求や期待に応える専門ツールの開発の必要性が強調された。
さらに,defiエコシステムに直面する進化を続ける課題に効果的に取り組むために,セキュリティツールの継続的な向上が必要であることも強調する。 The growth of the decentralized finance (DeFi) ecosystem built on blockchain technology and smart contracts has led to an increased demand for secure and reliable smart contract development. However, attacks targeting smart contracts are increasing, causing an estimated \$6.45 billion in financial losses. Researchers have proposed various automated security tools to detect vulnerabilities, but their real-world impact remains uncertain. In this paper, we aim to shed light on the effectiveness of automated security tools in identifying vulnerabilities that can lead to high-profile attacks, and their overall usage within the industry. Our comprehensive study encompasses an evaluation of five SoTA automated security tools, an analysis of 127 high-impact real-world attacks resulting in \$2.3 billion in losses, and a survey of 49 developers and auditors working in leading DeFi protocols. Our findings reveal a stark reality: the tools could have prevented a mere 8% of the attacks in our dataset, amounting to \$149 million out of the \$2.3 billion in losses. Notably, all preventable attacks were related to reentrancy vulnerabilities. Furthermore, practitioners distinguish logic-related bugs and protocol layer vulnerabilities as significant threats that are not adequately addressed by existing security tools. Our results emphasize the need to develop specialized tools catering to the distinct demands and expectations of developers and auditors. Further, our study highlights the necessity for continuous advancements in security tools to effectively tackle the ever-evolving challenges confronting the DeFi ecosystem. | 翻訳日:2024-01-23 22:02:34 公開日:2024-01-22 |
# 配車ネットワークにおける車両利用拡大のための欲望的アプローチ A greedy approach for increased vehicle utilization in ridesharing networks ( http://arxiv.org/abs/2304.01225v2 ) ライセンス: Link先を確認 | Aqsa Ashraf Makhdomi and Iqra Altaf Gillani | (参考訳) 近年、ライドシェアリングプラットフォームは都市部の住民にとって重要な交通手段となっている。
基本的な問題として、これらのプラットフォームへのルートレコメンデーションはその持続性に不可欠である。
この方向の工事は旅客需要の高い路線を推奨している。
既存の研究にもかかわらず、これらのサービスは、乗客を探し回っているときに、民間車に比べて温室効果ガスの排出が増加することを示唆している。
この分析は、配車システムの機能に関するより詳細な情報を提供し、そのブームに直面して、車両のキャパシティーを効率的に活用していないことを明らかにする。
我々は、上記の制限を克服し、同時に複数の乗客を引き出す経路を推奨し、その結果、車両の利用が増加し、これらのシステムが環境に与える影響を減らすことを提案する。
経路推薦はNPハードであるため,道路網全体からウィンドウへの探索空間を削減するk-hopベースのスライディングウインドウ近似アルゴリズムを提案する。
さらに,期待需要の最大化はサブモジュラーであり,ウィンドウ内の目的関数を最適化するためにグリーディアルゴリズムが使用できることを示す。
実世界のデータセット上で提案したモデルを評価し,実験結果から提案モデルによる優れた性能を示す。 In recent years, ridesharing platforms have become a prominent mode of transportation for the residents of urban areas. As a fundamental problem, route recommendation for these platforms is vital for their sustenance. The works done in this direction have recommended routes with higher passenger demand. Despite the existing works, statistics have suggested that these services cause increased greenhouse emissions compared to private vehicles as they roam around in search of riders. This analysis provides finer details regarding the functionality of ridesharing systems and it reveals that in the face of their boom, they have not utilized the vehicle capacity efficiently. We propose to overcome the above limitations and recommend routes that will fetch multiple passengers simultaneously which will result in increased vehicle utilization and thereby decrease the effect of these systems on the environment. As route recommendation is NP-hard, we propose a k-hop-based sliding window approximation algorithm that reduces the search space from entire road network to a window. We further demonstrate that maximizing expected demand is submodular and greedy algorithms can be used to optimize our objective function within a window. We evaluate our proposed model on real-world datasets and experimental results demonstrate superior performance by our proposed model. | 翻訳日:2024-01-23 22:02:10 公開日:2024-01-22 |
# トランスモンカプラによるKerr-cat量子ビット間のZZ$結合の制御 Control of the $ZZ$ coupling between Kerr-cat qubits via transmon couplers ( http://arxiv.org/abs/2303.16622v4 ) ライセンス: Link先を確認 | Takaaki Aoki, Taro Kanao, Hayato Goto, Shiro Kawabata, and Shumpei Masuda | (参考訳) Kerr-cat量子ビットは、エラーのバイアスの性質のため、フォールトトレラント量子コンピュータの有望な候補である。
キュービット間の$zz$結合は、2キュービットのエンタングリングゲートで使用できるが、$zz$ crosstalkと呼ばれる残差結合は正確な計算に不利である。
この問題を解決するために、2つのトランスモンカプラを用いた$ZZ$-couplingスキームを提案する。
2つのカプラーのデチューニングを反対の値に設定することで、2つのカプラーによる残りの$zz$カップリングが互いにキャンセルされる。
また、我々のスキームを2量子エンタングルゲートの1つである$R_{zz}(\Theta)$ gate(ZZ$ rotation with angle $\Theta$)に適用する。
我々は,$R_{zz}(-\pi/2)$ gateの忠実度が$16$-nsのゲート時間の場合,99.9%以上であり,デコヒーレンスがないことを示す。 Kerr-cat qubits are a promising candidate for fault-tolerant quantum computers owing to the biased nature of their errors. The $ZZ$ coupling between the qubits can be utilized for a two-qubit entangling gate, but the residual coupling called $ZZ$ crosstalk is detrimental to precise computing. In order to resolve this problem, we propose a tunable $ZZ$-coupling scheme using two transmon couplers. By setting the detunings of the two couplers at opposite values, the residual $ZZ$ couplings via the two couplers cancel each other out. We also apply our scheme to the $R_{zz}(\Theta)$ gate ($ZZ$ rotation with angle $\Theta$), one of the two-qubit entangling gates. We numerically show that the fidelity of the $R_{zz}(-\pi/2)$ gate is higher than 99.9% in a case of $16$-ns gate time and without decoherence. | 翻訳日:2024-01-23 22:01:50 公開日:2024-01-22 |
# 2量子ビットの相関制約とブロッホ幾何学 Correlation constraints and the Bloch geometry of two qubits ( http://arxiv.org/abs/2303.11400v2 ) ライセンス: Link先を確認 | Simon Morelli, Christopher Eltschka, Marcus Huber, Jens Siewert | (参考訳) 本稿では,局所的ブロッホベクトル長の差にのみ依存するバイパルタイト状態の純度に関する新しい不等式を示す。
2量子ビットの場合、この不等式はすべての辺境状態に対して厳密であり、2量子ビットの辺境問題に対する既知解を拡張し、新しい研究の道を開く。
さらに、この不等式を用いて2量子ビット量子状態空間の3次元ブロッホモデルを構築し、高次元状態空間にアクセスするのが困難であることを示す幾何学的な視覚化を提供する。
これにより、強く縮小されたパラメータの集合のみに依存する量子状態の特徴付けと、辺系の局所的性質と相関で符号化された大域的性質との相互作用を調べることができる。 We present a novel inequality on the purity of a bipartite state depending solely on the difference of the local Bloch vector lengths. For two qubits this inequality is tight for all marginal states and so extends the previously known solution for the 2-qubit marginal problem and opens a new research avenue. We further use this inequality to construct a 3-dimensional Bloch model of the 2-qubit quantum state space in terms of Bloch lengths, thus providing a geometrically pleasing visualization of this difficult to access high-dimensional state space. This allows to characterize quantum states relying on a strongly reduced set of parameters alone and to investigate the interplay between local properties of the marginal systems and global properties encoded in the correlations. | 翻訳日:2024-01-23 22:00:40 公開日:2024-01-22 |
# 心理物理学実験における3光子絡み検出条件 Conditions on detecting three-photon entanglement in psychophysical experiments ( http://arxiv.org/abs/2303.07446v2 ) ライセンス: Link先を確認 | Lea Gassab, Ali Pedram and \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu | (参考訳) 本稿では、量子絡み合う光子に対する人間の視覚システムの感度について検討する。
精神物理学実験を通じて多光子絡み状態が知覚される可能性を検討する。
我々の焦点は、2光子交絡状態から始まり、人間の2光子交絡知覚に偽陽性の付加的なノイズを考慮し、文献との比較研究を行う。
その後、我々は同様の研究を高次元の単純性のために3光子交絡状態に制限する。
人体による光検出をモデル化するために, 付加雑音を含むフォック数状態におけるコヒーレント増幅光子の観測を行う確率を用いた。
以上の結果から,人間の眼における2光子および3光子絡み合いの検出は,一定のノイズレベルおよび視覚閾値において可能であることが示唆された。
最後に,いくつかの代替増幅法について考察する。 This paper explores the sensitivity of the human visual system to the quantum entangled photons. We examine the possibility of human subjects perceiving multi-photon entangled state through psychophysical experiments. Our focus begins with a two-photon entangled state to make a comparative study with the literature by taking into account additive noise for false positive on two-photon entanglement perception by humans. After that, we limit our similar investigation to a three-photon entangled state for simplicity in higher dimensions. To model the photodetection by humans, we employ the probability of seeing determined for coherently amplified photons in Fock number states, including an additive noise. Our results indicate that detecting two-photon and three-photon entanglement with the human eye is possible for a certain range of additive noise levels and visual thresholds. Finally, we discuss several alternative amplification methods. | 翻訳日:2024-01-23 22:00:12 公開日:2024-01-22 |
# 一般化マルチモーダル核融合検出フレームワーク A Generalized Multi-Modal Fusion Detection Framework ( http://arxiv.org/abs/2303.07064v3 ) ライセンス: Link先を確認 | Leichao Cui, Xiuxian Li, Min Meng, and Xiaoyu Mo | (参考訳) LiDARポイントクラウドは、自動運転において最も一般的なデータソースになっている。
しかし、点雲のスパース性のため、特定のシナリオでは正確かつ信頼性の高い検出は達成できない。
点雲との相補性から,画像の注目が高まっている。
ある程度の成功はあるが、既存の核融合法は硬核融合を行うか直接的に融合しない。
本稿では,マルチモーダル特徴を用いたMMFusionと呼ばれる汎用3次元検出フレームワークを提案する。
このフレームワークは、複雑なシーンにおける3D検出を改善するために、LiDARと画像の正確な融合を実現することを目的としている。
我々のフレームワークは、LiDARストリームとカメラストリームの2つの別々のストリームで構成されており、任意の単一モーダル特徴抽出ネットワークと互換性がある。
lidarストリーム内のvoxel局所知覚モジュールは、局所的な特徴表現を強化し、マルチモーダル特徴融合モジュールは、異なるストリームからの機能出力を選択的に組み合わせ、より優れた融合を達成する。
広範な実験により,提案手法は既存のベンチマークよりも優れており,特にkittiベンチマークによる自転車や歩行者の検出において,強固な堅牢性と一般化能力を有する。
願わくば私たちの研究は、自動運転タスクのマルチモーダル融合に関するさらなる研究を刺激するだろう。 LiDAR point clouds have become the most common data source in autonomous driving. However, due to the sparsity of point clouds, accurate and reliable detection cannot be achieved in specific scenarios. Because of their complementarity with point clouds, images are getting increasing attention. Although with some success, existing fusion methods either perform hard fusion or do not fuse in a direct manner. In this paper, we propose a generic 3D detection framework called MMFusion, using multi-modal features. The framework aims to achieve accurate fusion between LiDAR and images to improve 3D detection in complex scenes. Our framework consists of two separate streams: the LiDAR stream and the camera stream, which can be compatible with any single-modal feature extraction network. The Voxel Local Perception Module in the LiDAR stream enhances local feature representation, and then the Multi-modal Feature Fusion Module selectively combines feature output from different streams to achieve better fusion. Extensive experiments have shown that our framework not only outperforms existing benchmarks but also improves their detection, especially for detecting cyclists and pedestrians on KITTI benchmarks, with strong robustness and generalization capabilities. Hopefully, our work will stimulate more research into multi-modal fusion for autonomous driving tasks. | 翻訳日:2024-01-23 21:59:41 公開日:2024-01-22 |
# 自己監督型学習におけるスペクトルの変調 Modulate Your Spectrum in Self-Supervised Learning ( http://arxiv.org/abs/2305.16789v2 ) ライセンス: Link先を確認 | Xi Weng, Yunhao Ni, Tengwei Song, Jie Luo, Rao Muhammad Anwer, Salman Khan, Fahad Shahbaz Khan, Lei Huang | (参考訳) ホワイトニング損失は、自己教師付き学習(SSL)における機能崩壊に対する理論的保証を提供する。
通常、それはハード・ホワイトニングのアプローチを伴い、埋め込みを変換し、白紙の出力に損失を適用します。
本研究では,埋め込みスペクトルを変調するフレームワークであるspectrum transformation (st)を導入し,次元の崩壊を回避できるホワイトニング以外の関数を求める。
ホワイトニングは定義によってSTの特別な例であり、我々の経験的調査は崩壊を防止できる他のSTインスタンスを明らかにする。
さらに,トレース損失(INTL)を考慮した新しいSTインスタンスIterNormを提案する。
理論的解析により、INTLの崩壊防止効果と、最適化中の等固有値に対する埋め込みスペクトルの調節効果が確認された。
画像ネット分類とCOCOオブジェクト検出の実験は,INTLが優れた表現を学習する可能性を示している。
コードはhttps://github.com/winci-ai/intlで入手できる。 Whitening loss offers a theoretical guarantee against feature collapse in self-supervised learning (SSL) with joint embedding architectures. Typically, it involves a hard whitening approach, transforming the embedding and applying loss to the whitened output. In this work, we introduce Spectral Transformation (ST), a framework to modulate the spectrum of embedding and to seek for functions beyond whitening that can avoid dimensional collapse. We show that whitening is a special instance of ST by definition, and our empirical investigations unveil other ST instances capable of preventing collapse. Additionally, we propose a novel ST instance named IterNorm with trace loss (INTL). Theoretical analysis confirms INTL's efficacy in preventing collapse and modulating the spectrum of embedding toward equal-eigenvalues during optimization. Our experiments on ImageNet classification and COCO object detection demonstrate INTL's potential in learning superior representations. The code is available at https://github.com/winci-ai/INTL. | 翻訳日:2024-01-23 21:52:25 公開日:2024-01-22 |
# ドットの接続:グラフニューラルネットワークを用いたテキスト分類に最適なグラフベースのテキスト表現は何か? Connecting the Dots: What Graph-Based Text Representations Work Best for Text Classification Using Graph Neural Networks? ( http://arxiv.org/abs/2305.14578v2 ) ライセンス: Link先を確認 | Margarita Bugue\~no, Gerard de Melo | (参考訳) 構造認識機械学習のためのグラフニューラルネットワーク(gnns)の成功を考えると、多くの研究がテキスト分類に使われているが、データ特性に制限のある特定の領域で使われている。
さらに、GNN以前のいくつかの戦略はグラフマイニングと古典的な機械学習に依存しており、現代の環境での有効性を評価することは困難であった。
本研究は,テキスト分類のためのグラフ表現手法を広範に検討し,実践的意味とオープン課題を同定する。
我々は、様々なgnnアーキテクチャと5つのデータセットにまたがるセットアップを使用して、異なるグラフ構築スキームを比較し、短い文書と長い文書を包含し、様々なドメインにおける不均衡なシナリオを包含する。
トランスフォーマーベースの2つの大型言語モデルも研究を補完するために含まれている。
その結果は
一 グラフの有効性は、テキスト入力の特徴及びドメインに依存してはいるが、簡単なグラフ構築は、文書が長くなるほど、より良く機能する。
二 グラフ表現は、より長い文書、トランスフォーマーベースのモデルにおいて特に有益である。
三 グラフ手法が特にタスクの解決に有効であること。 Given the success of Graph Neural Networks (GNNs) for structure-aware machine learning, many studies have explored their use for text classification, but mostly in specific domains with limited data characteristics. Moreover, some strategies prior to GNNs relied on graph mining and classical machine learning, making it difficult to assess their effectiveness in modern settings. This work extensively investigates graph representation methods for text classification, identifying practical implications and open challenges. We compare different graph construction schemes using a variety of GNN architectures and setups across five datasets, encompassing short and long documents as well as unbalanced scenarios in diverse domains. Two Transformer-based large language models are also included to complement the study. The results show that i) although the effectiveness of graphs depends on the textual input features and domain, simple graph constructions perform better the longer the documents are, ii) graph representations are especially beneficial for longer documents, outperforming Transformer-based models, iii) graph methods are particularly efficient at solving the task. | 翻訳日:2024-01-23 21:51:40 公開日:2024-01-22 |
# 最小不確かさ初期状態を有する原始グラビトン雑音による脱コヒーレンス時間 Decoherence Time Induced by The Noise of Primordial Graviton With Minimum Uncertainty Initial States ( http://arxiv.org/abs/2305.06534v3 ) ライセンス: Link先を確認 | Anom Trenggana, Freddy P. Zen, and Getbogi Hikmawan | (参考訳) 我々は, 最小不確かさの初期状態を持つ原始重力子によって引き起こされるデコヒーレンス時間について検討した。
この最小の不確実性条件により、初期状態が絡み合い、またはより一般的には真空と絡み合い状態との重なり合いを許容する。
初期状態の絡み合いのために、デコヒーレンス時間は、最初のバンチ・デイビス真空と同様に最大20秒持続し、総重力が0より大きい場合、実験的なセットアップシステムの寸法を減少させることができることがわかった。
また、量子ノイズは初期状態重畳の真空状態や絡み合い状態よりもはるかに長持ちし、これは$\approx 10^{19}$ secondsで維持される。 We have investigated the decoherence time induced by the primordial gravitons with minimum uncertainty initial states. This minimum uncertainty condition allows the initial state to be an entanglement or, more generally, a superposition between a vacuum and an entanglement state. We got that for initial state entanglement, the decoherence time will last a maximum of 20 seconds, similar to the initial Bunch-Davies vacuum, and if the total graviton is greater than zero, the dimensions of the experimental setup system could be reduced. We also found that quantum noise can last much longer than vacuum or entanglement states for initial state superposition, which will be maintained for $\approx 10^{19}$ seconds. | 翻訳日:2024-01-23 21:49:04 公開日:2024-01-22 |
# ソフトウェアアーキテクチャのレンズによる基礎モデルに基づくシステムの分類 A Taxonomy of Foundation Model based Systems through the Lens of Software Architecture ( http://arxiv.org/abs/2305.05352v6 ) ライセンス: Link先を確認 | Qinghua Lu, Liming Zhu, Xiwei Xu, Yue Liu, Zhenchang Xing, Jon Whittle | (参考訳) 大規模言語モデル(LLM)ベースのチャットボット(ChatGPTなど)の最近のリリースは、基礎モデルに大きな関心を集めている。
基盤モデルが将来のaiシステムの基本的な構成要素となると広く信じられている。
基礎モデルが初期段階にあるため、基礎モデルに基づくシステムの設計はまだ体系的に検討されていない。
ソフトウェアアーキテクチャに基礎モデルを導入することの影響についての理解は限られている。
そこで本稿では,基礎モデルに基づくシステムの特徴と基礎モデルに基づくシステムの設計オプションを分類・比較する基礎モデルに基づくシステムの分類手法を提案する。
我々の分類学は、基礎モデルの事前学習と適応、基礎モデルに基づくシステムのアーキテクチャ設計、責任ある設計の3つのカテゴリからなる。
この分類は、基礎モデルに基づくシステムを設計する際に主要なアーキテクチャ設計決定を行うための具体的なガイダンスとなり、設計決定から生じるトレードオフを強調することができる。 The recent release of large language model (LLM) based chatbots, such as ChatGPT, has attracted huge interest in foundation models. It is widely believed that foundation models will serve as the fundamental building blocks for future AI systems. As foundation models are in their early stages, the design of foundation model based systems has not yet been systematically explored. There is limited understanding about the impact of introducing foundation models in software architecture. Therefore, in this paper, we propose a taxonomy of foundation model based systems, which classifies and compares the characteristics of foundation models and design options of foundation model based systems. Our taxonomy comprises three categories: the pretraining and adaptation of foundation models, the architecture design of foundation model based systems, and responsible-AI-by-design. This taxonomy can serve as concrete guidance for making major architectural design decisions when designing foundation model based systems and highlights trade-offs arising from design decisions. | 翻訳日:2024-01-23 21:48:49 公開日:2024-01-22 |
# 軌道によるRL決定の説明 Explaining RL Decisions with Trajectories ( http://arxiv.org/abs/2305.04073v2 ) ライセンス: Link先を確認 | Shripad Vilasrao Deshmukh, Arpan Dasgupta, Balaji Krishnamurthy, Nan Jiang, Chirag Agarwal, Georgios Theocharous, Jayakumar Subramanian | (参考訳) 説明は実世界の意思決定問題における強化学習(RL)導入の鍵となる要素である。
文献では、この説明は、しばしばRLエージェントの状態の特徴に対する塩分濃度の属性によって提供される。
本稿では、これらの説明に対する補完的アプローチ、特にオフラインRLについて、トレーニング中に遭遇した軌跡に、訓練されたRLエージェントの政策決定を関連付けることを提案する。
そのため、オフライントレーニングデータのトラジェクトリを個別に、また集合的に(一連のトラジェクトリを符号化する)トラジェクトリを符号化する。
そして、その集合に対する決定の感度を推定することにより、この符号化空間における一連の軌道にポリシー決定を関連付ける。
さらに,グリッドワールド,ビデオゲーム(atari),連続制御(mujoco)といった離散状態と連続状態とアクション空間の両方を含む多様な環境において,属性の質と実用的なスケーラビリティの観点から,提案手法の有効性を実証する。
また、簡単なナビゲーションタスクについて人間による研究を行い、そのタスクに対する理解が、訓練されたRLポリシーに起因するデータとどのように比較されるかを観察する。
キーワード - 説明可能なAI、AI決定の検証可能性、説明可能なRL。 Explanation is a key component for the adoption of reinforcement learning (RL) in many real-world decision-making problems. In the literature, the explanation is often provided by saliency attribution to the features of the RL agent's state. In this work, we propose a complementary approach to these explanations, particularly for offline RL, where we attribute the policy decisions of a trained RL agent to the trajectories encountered by it during training. To do so, we encode trajectories in offline training data individually as well as collectively (encoding a set of trajectories). We then attribute policy decisions to a set of trajectories in this encoded space by estimating the sensitivity of the decision with respect to that set. Further, we demonstrate the effectiveness of the proposed approach in terms of quality of attributions as well as practical scalability in diverse environments that involve both discrete and continuous state and action spaces such as grid-worlds, video games (Atari) and continuous control (MuJoCo). We also conduct a human study on a simple navigation task to observe how their understanding of the task compares with data attributed for a trained RL policy. Keywords -- Explainable AI, Verifiability of AI Decisions, Explainable RL. | 翻訳日:2024-01-23 21:48:34 公開日:2024-01-22 |
# 大規模言語モデルを用いた単体テスト生成に関する実証的研究 An Empirical Study of Using Large Language Models for Unit Test Generation ( http://arxiv.org/abs/2305.00418v3 ) ライセンス: Link先を確認 | Mohammed Latif Siddiq, Joanna C. S. Santos, Ridwanul Hasan Tanvir, Noshin Ulfat, Fahmid Al Rifat, and Vinicius Carvalho Lopes | (参考訳) コード生成モデルは、コードコメント、既存のコード、または両方の組み合わせからプロンプトを受け取り、コードを生成する。
コード生成モデル(GitHub Copilotなど)が実際に採用されているが、Javaのような強く型付けされた言語を微調整することなく、ユニットテスト生成にうまく使えるかどうかは不明だ。
このギャップを埋めるために,我々は3つのモデル(Codex, GPT-3.5-Turbo, StarCoder)がどの程度単体テストを生成するかを検討した。
HumanEval と Evosuite SF110 の2つのベンチマークを用いて、コンテキスト生成が単体テスト生成プロセスに与える影響を調べた。
モデルのコンパイル率,テストの正確性,テストカバレッジ,テストの臭いなどに基づいて評価した。
CodexモデルはHumanEvalデータセットの80%以上のカバレッジを達成したが、EvoSuite SF110ベンチマークの2%以上のカバレッジを持つモデルはない。
生成されたテストは、Duplicated AssertsやEmpty Testsといったテストの臭いにも悩まされた。 A code generation model generates code by taking a prompt from a code comment, existing code, or a combination of both. Although code generation models (e.g., GitHub Copilot) are increasingly being adopted in practice, it is unclear whether they can successfully be used for unit test generation without fine-tuning for a strongly typed language like Java. To fill this gap, we investigated how well three models (Codex, GPT-3.5-Turbo, and StarCoder) can generate unit tests. We used two benchmarks (HumanEval and Evosuite SF110) to investigate the effect of context generation on the unit test generation process. We evaluated the models based on compilation rates, test correctness, test coverage, and test smells. We found that the Codex model achieved above 80% coverage for the HumanEval dataset, but no model had more than 2% coverage for the EvoSuite SF110 benchmark. The generated tests also suffered from test smells, such as Duplicated Asserts and Empty Tests. | 翻訳日:2024-01-23 21:48:13 公開日:2024-01-22 |
# DocChecker: コード構成の不整合の検出と解決のための大規模言語モデルのブートストラップ DocChecker: Bootstrapping Code Large Language Model for Detecting and Resolving Code-Comment Inconsistencies ( http://arxiv.org/abs/2306.06347v2 ) ライセンス: Link先を確認 | Anh T. V. Dau, Jin L. C. Guo, Nghi D. Q. Bui | (参考訳) ソースコード内のコメントは、開発者がコードの目的を理解し、正しい使い方を保証するために不可欠である。
しかし、コードベースが進化するにつれて、コメントとコードの正確な整合性を維持することはますます困難になっている。
コードとそれに伴うコメントの差を検出し修正する自動化ソリューションへの関心が高まっていることを認識し、現在の手法は主にヒューリスティックなルールに依存している。
これとは対照的に,ディープラーニングを利用したDocCheckerを提案する。
DocCheckerはコードとコメントの不一致を識別する能力があり、合成コメントを生成することもできる。
この機能は、コメントが対応するコードセグメントを正確に反映しないインスタンスの検出と修正を可能にする。
just-in-timeとcodesearchnetデータセットを使ってdoccheckerの有効性を実証し、他の主要なメソッドや大規模言語モデル(llm)に対するパフォーマンスのベンチマークを行った。
DocCheckerの使用と評価が可能である。
Github https://github.com/FSoft-AI4Code/DocChecker と Online Tool http://4.193.50.237:5000/ で確認できます。
機能の詳細については、YouTube https://youtu.be/FqnPmd531xw.comでデモビデオが公開されている。 Comments within source code are essential for developers to comprehend the code's purpose and ensure its correct usage. However, as codebases evolve, maintaining an accurate alignment between the comments and the code becomes increasingly challenging. Recognizing the growing interest in automated solutions for detecting and correcting differences between code and its accompanying comments, current methods rely primarily on heuristic rules. In contrast, this paper presents DocChecker, a tool powered by deep learning. DocChecker is adept at identifying inconsistencies between code and comments, and it can also generate synthetic comments. This capability enables the tool to detect and correct instances where comments do not accurately reflect their corresponding code segments. We demonstrate the effectiveness of DocChecker using the Just-In-Time and CodeSearchNet datasets, benchmarking its performance against other leading methods and Large Language Models (LLMs). DocChecker is accessible for use and evaluation. It can be found on our Github https://github.com/FSoft-AI4Code/DocChecker and as an Online Tool http://4.193.50.237:5000/. For a more comprehensive understanding of its functionality, a demonstration video is available on YouTube https://youtu.be/FqnPmd531xw. | 翻訳日:2024-01-23 21:40:33 公開日:2024-01-22 |
# 組合せ最適化のためのニューラルアルゴリズム推論 Neural Algorithmic Reasoning for Combinatorial Optimisation ( http://arxiv.org/abs/2306.06064v4 ) ライセンス: Link先を確認 | Dobrik Georgiev and Danilo Numeroso and Davide Bacciu and Pietro Li\`o | (参考訳) ニューラルネットワークによるnpハード/完全組合せ問題を解くことは、古典的な近似アルゴリズムを超越することを目的とした、難しい研究領域である。
長期的目的は、訓練データのみから優れた解を生成することを学ぶことにより、NP-hard/complete問題に対する手設計のヒューリスティックスを上回ることにある。
現在のCO問題の解法は、しばしば問題の固有の「アルゴリズム」の性質を見落としている。
対照的に、TSPのようなCO問題のために設計されたヒューリスティックスは、最小分散木を見つけるような、確立されたアルゴリズムを頻繁に活用する。
本稿では,最近のアルゴリズム推論の進歩を活用し,CO問題の学習を改善することを提案する。
具体的には、COインスタンスでトレーニングする前に、関連するアルゴリズムでニューラルネットワークを事前トレーニングすることを提案する。
以上の結果から,この学習装置を用いることで,非アルゴリズム的情報深層学習モデルよりも優れた性能が得られることが示された。 Solving NP-hard/complete combinatorial problems with neural networks is a challenging research area that aims to surpass classical approximate algorithms. The long-term objective is to outperform hand-designed heuristics for NP-hard/complete problems by learning to generate superior solutions solely from training data. Current neural-based methods for solving CO problems often overlook the inherent "algorithmic" nature of the problems. In contrast, heuristics designed for CO problems, e.g. TSP, frequently leverage well-established algorithms, such as those for finding the minimum spanning tree. In this paper, we propose leveraging recent advancements in neural algorithmic reasoning to improve the learning of CO problems. Specifically, we suggest pre-training our neural model on relevant algorithms before training it on CO instances. Our results demonstrate that by using this learning setup, we achieve superior performance compared to non-algorithmically informed deep learning models. | 翻訳日:2024-01-23 21:39:47 公開日:2024-01-22 |
# バニラ変分オートエンコーダを超える:条件付きおよび階層的変分オートエンコーダにおける後部崩壊の検出 Beyond Vanilla Variational Autoencoders: Detecting Posterior Collapse in Conditional and Hierarchical Variational Autoencoders ( http://arxiv.org/abs/2306.05023v2 ) ライセンス: Link先を確認 | Hien Dang and Tho Tran and Tan Nguyen and Nhat Ho | (参考訳) 変動型オートエンコーダ(vae)における後方崩壊現象は、変動型後方分布が事前分布と密接に一致する場合、学習された潜在変数の品質を阻害する可能性がある。
後続崩壊の結果、VAEのエンコーダによって抽出された潜伏変数は、入力データからの情報が少なくなり、デコーダの再構成プロセスへの入力として有意義な表現が得られない。
この現象はvae性能に関する話題として積極的に取り組まれているが、特に標準vaeを超える後方崩壊説は未開発のままである。
本研究では, 後方崩壊の理論的理解を, 条件的vaeと階層的vaeという, 重要かつ普及度の低い2つのvaeクラスに進める。
具体的には,2段階の潜在性を有する線形条件vaeと階層vaeの非自明な理論的解析により,これらのモデルにおける後方崩壊の原因が条件vaeの入出力と階層vaeにおける学習可能なエンコーダ分散の相関関係を含むことを証明した。
線形条件および階層的VAEに関する理論的知見を実証的に検証し,これらの結果が広範な実験を伴う非線形症例においても予測可能であることを示す。 The posterior collapse phenomenon in variational autoencoder (VAE), where the variational posterior distribution closely matches the prior distribution, can hinder the quality of the learned latent variables. As a consequence of posterior collapse, the latent variables extracted by the encoder in VAE preserve less information from the input data and thus fail to produce meaningful representations as input to the reconstruction process in the decoder. While this phenomenon has been an actively addressed topic related to VAE performance, the theory for posterior collapse remains underdeveloped, especially beyond the standard VAE. In this work, we advance the theoretical understanding of posterior collapse to two important and prevalent yet less studied classes of VAE: conditional VAE and hierarchical VAE. Specifically, via a non-trivial theoretical analysis of linear conditional VAE and hierarchical VAE with two levels of latent, we prove that the cause of posterior collapses in these models includes the correlation between the input and output of the conditional VAE and the effect of learnable encoder variance in the hierarchical VAE. We empirically validate our theoretical findings for linear conditional and hierarchical VAE and demonstrate that these results are also predictive for non-linear cases with extensive experiments. | 翻訳日:2024-01-23 21:39:30 公開日:2024-01-22 |
# QEYSSat 2.0 -- カナダにおける衛星ベースの量子通信ミッションに関する白書 QEYSSat 2.0 -- White Paper on Satellite-based Quantum Communication Missions in Canada ( http://arxiv.org/abs/2306.02481v2 ) ライセンス: Link先を確認 | Thomas Jennewein, Christoph Simon, Andre Fougeres, Francois Babin, Faezeh Kimiaee Asadi, Katanya B. Kuntz, Mathieu Maisonneuve, Brian Moffat, Kimia Mohammadi, Denis Panneton | (参考訳) 2021年6月から2022年3月までに行われたQEYSSat 2.0研究で開発された白紙について述べる。
研究の目的は、衛星によって実現されるカナダ全体の量子ネットワークのための技術ロードマップを確立することであった。
量子通信技術の現状を調査し、主要なアプリケーションとアーキテクチャを特定し、技術的準備のレベルと技術のボトルネックをレビューし、将来のミッションシナリオを特定します。
我々は,カナダ政府,産業,学界の利害関係者が参加し,アプリケーションや技術ロードマップに対するインプットや洞察を集めた1日間のワークショップの成果を報告する。
また、2024-2025年に打ち上げられる予定のQuantum EncrYption and Science Satellite(QEYSSat)ミッションの概要と、その今後の成果について述べる。
この研究の主な成果の1つは、カナダ全体の量子インターネットの主要要素の開発が、カナダ全体のエンタングルメント分布とテレポーテーションを含む、最も高いレベルの影響をもたらすことである。
我々は、このビジョンに向けた重要なステップとして、カナダ横断の長距離量子テレポーテーションを可能にする将来のミッション(「QEYSSat 2.0」)を提示し、分析する。 We present the white paper developed during the QEYSSat 2.0 study, which was undertaken between June 2021 and March 2022. The study objective was to establish a technology road-map for a Canada-wide quantum network enabled by satellites. We survey the state-of-art in quantum communication technologies, identify the main applications and architectures, review the technical readiness levels and technology bottlenecks and identify a future mission scenario. We report the findings of a dedicated one-day workshop that included Canadian stakeholders from government, industry and academia to gather inputs and insights for the applications and technical road-map. We also provide an overview of the Quantum EncrYption and Science Satellite (QEYSSat) mission expected to launch in 2024-2025 and its anticipated outcomes. One of the main outcomes of this study is that developing the main elements for a Canada-wide quantum internet will have the highest level of impact, which includes Canada-wide entanglement distribution and teleportation. We present and analyze a possible future mission ('QEYSSat 2.0') that would enable a long range quantum teleportation across Canada as an important step towards this vision. | 翻訳日:2024-01-23 21:38:32 公開日:2024-01-22 |
# 曖昧な入力を用いたゼロおよびマイショット意味解析 Zero and Few-shot Semantic Parsing with Ambiguous Inputs ( http://arxiv.org/abs/2306.00824v2 ) ライセンス: Link先を確認 | Elias Stengel-Eskin and Kyle Rawlins and Benjamin Van Durme | (参考訳) 自然言語を通して意味を表現する際に曖昧さによってしばしば生じる困難にもかかわらず、言語を形式的に設計された表現にマッピングするタスクにおいて、しばしば無視または故意に排除される。
私たちは、AmPというフレームワーク、データセットを導入し、曖昧な自然言語を論理やコードのような形式的な表現に翻訳する挑戦を試みています。
テンプレートを定義し、5つのよく文書化された言語曖昧さのためのデータを生成する。
我々は,AmPを用いて,複数ショットのテキスト・ツー・コードシステムがあいまいさをどのように処理し,新しいメトリクスを3つ導入するかを検討する。
大規模事前学習モデルでは,意図的な指示なしに可能な意味の分布を把握できないことが判明した。
しかし、モデルが入力にあいまいさが認められると、よく分布を捉えることができる。
これらの結果は、データセットにあいまいさを明示的に含め、システム評価時に出力の分布を考慮することを促進する。
データとコード: https://github.com/esteng/ambiguous_parsing Despite the frequent challenges posed by ambiguity when representing meaning via natural language, it is often ignored or deliberately removed in tasks mapping language to formally-designed representations, which generally assume a one-to-one mapping between linguistic and formal representations. We attempt to address this shortcoming by introducing AmP, a framework, dataset, and challenge for translating ambiguous natural language to formal representations like logic and code. We define templates and generate data for five well-documented linguistic ambiguities. Using AmP, we investigate how several few-shot text-to-code systems handle ambiguity, introducing three new metrics. We find that large pre-trained models perform poorly at capturing the distribution of possible meanings without deliberate instruction. However, models are able to capture the distribution well when ambiguity is attested in their inputs. These results motivate a call for including ambiguity explicitly in datasets and promote considering the distribution of possible outputs when evaluating systems. Data and code: https://github.com/esteng/ambiguous_parsing | 翻訳日:2024-01-23 21:37:35 公開日:2024-01-22 |
# フェミオン鎖と2体損失の相互作用によるLiouvillian皮膚効果 Interaction-induced Liouvillian skin effect in a fermionic chain with a two-body loss ( http://arxiv.org/abs/2305.19697v2 ) ライセンス: Link先を確認 | Shu Hamanaka, Kazuki Yamamoto, Tsuneya Yoshida | (参考訳) オープン量子系のトポロジカルな側面に関する最近の研究にもかかわらず、強い相互作用の効果は十分に研究されていない。
本論文では, 2体損失を伴う1次元相関モデルを用いて, 複素値相互作用がリウビリアン皮膚効果を誘導することを示す。
複素数値相互作用が存在する場合、リウヴィリアンの固有モデムと固有値は境界条件に強く依存することを示す。
具体的には、複素値相互作用が開境界条件下でのリウビリアンの固有モードの局在を誘導することを発見した。
リウヴィリアスキン効果を特徴づけるために、リウヴィリア超作用素を用いて位相不変量を定義する。
そして, トポロジカル不変量によってLiouvillianスキン効果が捕捉されることを数値的に確認した。
さらに, 固有モードの局在の存在は, 開放境界条件下でのみ観測される一意な動力学(過渡力学の右端における粒子の蓄積)をもたらす。
この結果は、強い相互作用によって引き起こされる開放量子系における位相現象を実現する方法である。 Despite recent intensive research on topological aspects of open quantum systems, effects of strong interactions have not been sufficiently explored. In this paper, we demonstrate that complex-valued interactions induce the Liouvillian skin effect by analyzing a one-dimensional correlated model with two-body loss. We show that, in the presence of complex-valued interactions, eigenmodes and eigenvalues of the Liouvillian strongly depend on boundary conditions. Specifically, we find that complex-valued interactions induce localization of eigenmodes of the Liouvillian around the right edge under open boundary conditions. To characterize the Liouvllian skin effect, we define the topological invariant by using the Liouvillian superoperator. Then, we numerically confirm that the topological invariant captures the Liouvillian skin effect. Furthermore, the presence of the localization of eigenmodes results in the unique dynamics observed only under open boundary conditions: particle accumulation at the right edge in transient dynamics. Our result paves the way to realize topological phenomena in open quantum systems induced by strong interactions. | 翻訳日:2024-01-23 21:37:17 公開日:2024-01-22 |
# ドメイン知識を用いた深層学習による薬剤推奨 Medication Recommendation via Domain Knowledge Informed Deep Learning ( http://arxiv.org/abs/2305.19604v3 ) ライセンス: Link先を確認 | Sicen Liu, Xiaolong Wang, Xianbing Zhao, Hao Chen | (参考訳) 薬の推奨は医療の基本的かつ重要な分野であり、複雑な健康状態の患者に対して、より正確な処方薬を使用して臨床医師を支援する機会を提供する。
電子健康記録(ehr)から薬を推奨する学習は、これまでの研究では最も一般的な方法である。
しかし,そのほとんどは,患者のERHにおける臨床症状に応じて,ドメイン知識を取り入れることを無視している。
これらの課題に対処するため,本論文では,患者の観察可能な臨床症状とドメイン知識を統合するために,新規な「textbf{D}omain \textbf{K}nowledge \textbf{I}nformed \textbf{Net}work」(DKINet)を提案する。
特に,まず知識駆動型エンコーダを設計し,次にデータ駆動型エンコーダを開発し,観測可能なEHRにドメイン知識を統合する。
このモデルに時間的決定能力を持たせるために,患者の経時的依存を学習するための明示的な薬剤エンコーダを設計する。
3つの公開データセットに対する大規模な実験により,本手法の優位性が確認された。
コードは受理すれば公開されます。 Medication recommendation is a fundamental yet crucial branch of healthcare, which provides opportunities to support clinical physicians with more accurate medication prescriptions for patients with complex health conditions. Learning from electronic health records (EHR) to recommend medications is the most common way in previous studies. However, most of them neglect incorporating domain knowledge according to the clinical manifestations in the EHR of the patient. To address these issues, we propose a novel \textbf{D}omain \textbf{K}nowledge \textbf{I}nformed \textbf{Net}work (DKINet) to integrate domain knowledge with observable clinical manifestations of the patient, which is the first dynamic domain knowledge informed framework toward medication recommendation. In particular, we first design a knowledge-driven encoder to capture the domain information and then develop a data-driven encoder to integrate domain knowledge into the observable EHR. To endow the model with the capability of temporal decision, we design an explicit medication encoder for learning the longitudinal dependence of the patient. Extensive experiments on three publicly available datasets verify the superiority of our method. The code will be public upon acceptance. | 翻訳日:2024-01-23 21:37:00 公開日:2024-01-22 |
# バイレベル学習による最適正規化パラメータについて On Optimal Regularization Parameters via Bilevel Learning ( http://arxiv.org/abs/2305.18394v5 ) ライセンス: Link先を確認 | Matthias J. Ehrhardt, Silvia Gazzola and Sebastian J. Scott (Department of Mathematical Sciences, University of Bath, Bath, UK) | (参考訳) 変分正規化は線形逆問題を解くためによく使われ、正規化子によるデータの忠実度を増強する。
正規化器は事前情報を促進するために使用され、正規化パラメータによって重み付けされる。
適切な正規化パラメータの選択は重要であり、様々な選択が全く異なる再構成につながる。
パラメータ値を決定するために使用される古典的戦略には、離散性原理とL曲線基準があり、近年はバイレベル学習と呼ばれる教師付き機械学習アプローチが採用されている。
バイレベル学習は最適なパラメータを決定する強力なフレームワークであり、ネストした最適化問題を解決する。
従来の戦略は様々な理論的な結果を享受するが、この設定における二段階学習の適切さはまだ未解決の問題である。
特に、必要な性質は決定された正規化パラメータの正則性である。
本研究では,既存の理論よりも最適正則化パラメータの正値性をよりよく特徴付ける新しい条件を提案する。
数値的な結果は、この新条件を、小・高次元ともに検証し、探求する。 Variational regularization is commonly used to solve linear inverse problems, and involves augmenting a data fidelity by a regularizer. The regularizer is used to promote a priori information and is weighted by a regularization parameter. Selection of an appropriate regularization parameter is critical, with various choices leading to very different reconstructions. Classical strategies used to determine a suitable parameter value include the discrepancy principle and the L-curve criterion, and in recent years a supervised machine learning approach called bilevel learning has been employed. Bilevel learning is a powerful framework to determine optimal parameters and involves solving a nested optimization problem. While previous strategies enjoy various theoretical results, the well-posedness of bilevel learning in this setting is still an open question. In particular, a necessary property is positivity of the determined regularization parameter. In this work, we provide a new condition that better characterizes positivity of optimal regularization parameters than the existing theory. Numerical results verify and explore this new condition for both small and high-dimensional problems. | 翻訳日:2024-01-23 21:36:34 公開日:2024-01-22 |
# 確率的時系列予測のためのより良いバッチ Better Batch for Deep Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2305.17028v2 ) ライセンス: Link先を確認 | Vincent Zhihao Zheng, Seongjin Choi, Lijun Sun | (参考訳) 非線形近似の優れた性能と意思決定タスクの貴重な不確実性定量化能力により、深い確率的時系列予測が注目されている。
しかし、既存のモデルの多くは、エラープロセスが時間に依存しないことを仮定して問題を単純化し、エラープロセスのシリアル相関を見越す。
この制限を克服するため,確率予測の精度をさらに高めるために,誤り自己相関を取り入れた革新的なトレーニング手法を提案する。
本手法では,モデルトレーニングのための連続時系列セグメンテーションの1つとしてミニバッチを構築し,隣接時間ステップ間の誤差相関を符号化する各ミニバッチ上で時間変動共分散行列を明示的に学習する。
学習された共分散行列は予測精度の向上と不確かさの定量化に利用できる。
本手法は2種類のニューラル予測モデルと複数のパブリックデータセットを用いて評価し,提案手法の有効性を確認した。 Deep probabilistic time series forecasting has gained significant attention due to its superior performance in nonlinear approximation and its ability to provide valuable uncertainty quantification for decision-making tasks. However, many existing models oversimplify the problem by assuming that the error process is time-independent, thereby overlooking the serial correlation in the error process. To overcome this limitation, we propose an innovative training method that incorporates error autocorrelation to further enhance the accuracy of probabilistic forecasting. Our method involves constructing a mini-batch as a collection of $D$ consecutive time series segments for model training and explicitly learning a time-varying covariance matrix over each mini-batch that encodes the error correlation among adjacent time steps. The learned covariance matrix can be used to improve prediction accuracy and enhance uncertainty quantification. We evaluate our method on two different neural forecasting models and multiple public datasets, and the experimental results confirm the effectiveness of the proposed approach in enhancing the performance of both models across a wide range of datasets, yielding notable improvements in predictive accuracy. | 翻訳日:2024-01-23 21:36:21 公開日:2024-01-22 |
# TIM:大規模言語モデルに比較翻訳を教える TIM: Teaching Large Language Models to Translate with Comparison ( http://arxiv.org/abs/2307.04408v3 ) ライセンス: Link先を確認 | Jiali Zeng and Fandong Meng and Yongjing Yin and Jie Zhou | (参考訳) オープンソースの大言語モデル(llm)は、命令チューニングの様々なタスクにおいて顕著な効果を示している。
しかし、これらのモデルは翻訳のようなより専門的な知識を必要とするタスクに苦労することがある。
このような不足の原因の1つは、命令チューニングが、タスク固有の要求に制約されることなく、与えられた命令から継続する流れる、コヒーレントなテキストを生成することを目的としているためである。
さらに、低品質のトレーニングデータで小さなLLMをチューニングすることがより困難になる可能性がある。
この問題に対処するために,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
このアプローチでは,正しい翻訳例と間違った翻訳例をモデルに提示し,モデルの学習を導くために選好損失を用いる。
提案手法をWMT2022テストセット上で評価し,既存の手法よりも優れていることを示す。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
詳細はgithubのhttps://github.com/lemon0830/tim.comを参照。 Open-sourced large language models (LLMs) have demonstrated remarkable efficacy in various tasks with instruction tuning. However, these models can sometimes struggle with tasks that require more specialized knowledge such as translation. One possible reason for such deficiency is that instruction tuning aims to generate fluent and coherent text that continues from a given instruction without being constrained by any task-specific requirements. Moreover, it can be more challenging for tuning smaller LLMs with lower-quality training data. To address this issue, we propose a novel framework using examples in comparison to teach LLMs to learn translation. Our approach involves presenting the model with examples of correct and incorrect translations and using a preference loss to guide the model's learning. We evaluate our method on WMT2022 test sets and show that it outperforms existing methods. Our findings offer a new perspective on fine-tuning LLMs for translation tasks and provide a promising solution for generating high-quality translations. Please refer to Github for more details: https://github.com/lemon0830/TIM. | 翻訳日:2024-01-23 21:28:58 公開日:2024-01-22 |
# 効率的なニューラル画像圧縮のための階層的先行と適応的空間分解能 Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient Neural Image Compression ( http://arxiv.org/abs/2307.02273v4 ) ライセンス: Link先を確認 | Ahmed Ghorbel, Wassim Hamidouche and Luce Morin | (参考訳) 近年,従来のコーデックに到達したり,性能を向上したりすることで,ニューラルイメージ圧縮(NIC)の性能は着実に向上している。
大幅な進歩にもかかわらず、現在のNICメソッドは依然としてConvNetベースのエントロピー符号化に依存しており、ローカル接続性やアーキテクチャ上のバイアスや事前の増大による長距離依存性のモデリングに制限されている。
swint-charm と呼ばれる tranformer-based transform coding framework の効率性の検討に動機づけられ,まず,より単純かつ効果的なtranformer-based channel-wise auto-regressive prior モデルにより,絶対画像圧縮トランスフォーマ (ict) を実現することを提案する。
提案したICTにより、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
さらに,サンドイッチconvnextベースのプリ/ポストプロセッサを用いた学習可能なスケーリングモジュールを用いて,よりコンパクトな潜在コードを高精度に抽出し,高品質な画像を再構成する。
ベンチマークデータセットの広範な実験結果から,vvc基準エンコーダ(vtm-18.0)とニューラルコーデックswint-charmよりも,符号化効率とデコーダ複雑性のトレードオフを大幅に改善した。
さらに,本手法の計算効率を検証するためのモデルスケーリング研究を行い,適応型画像圧縮変換器(aict)とニューラルネットワークコーデックswint-charmの性能差を予見するために,目的的および主観的な分析を行った。 Recently, the performance of neural image compression (NIC) has steadily improved thanks to the last line of study, reaching or outperforming state-of-the-art conventional codecs. Despite significant progress, current NIC methods still rely on ConvNet-based entropy coding, limited in modeling long-range dependencies due to their local connectivity and the increasing number of architectural biases and priors, resulting in complex underperforming models with high decoding latency. Motivated by the efficiency investigation of the Tranformer-based transform coding framework, namely SwinT-ChARM, we propose to enhance the latter, as first, with a more straightforward yet effective Tranformer-based channel-wise auto-regressive prior model, resulting in an absolute image compression transformer (ICT). Through the proposed ICT, we can capture both global and local contexts from the latent representations and better parameterize the distribution of the quantized latents. Further, we leverage a learnable scaling module with a sandwich ConvNeXt-based pre-/post-processor to accurately extract more compact latent codes while reconstructing higher-quality images. Extensive experimental results on benchmark datasets showed that the proposed framework significantly improves the trade-off between coding efficiency and decoder complexity over the versatile video coding (VVC) reference encoder (VTM-18.0) and the neural codec SwinT-ChARM. Moreover, we provide model scaling studies to verify the computational efficiency of our approach and conduct several objective and subjective analyses to bring to the fore the performance gap between the adaptive image compression transformer (AICT) and the neural codec SwinT-ChARM. | 翻訳日:2024-01-23 21:28:27 公開日:2024-01-22 |
# Look, Remember and Reason: 言語モデルによるビデオの根拠的推論 Look, Remember and Reason: Grounded reasoning in videos with language models ( http://arxiv.org/abs/2306.17778v3 ) ライセンス: Link先を確認 | Apratim Bhattacharyya, Sunny Panchal, Mingu Lee, Reza Pourreza, Pulkit Madan, Roland Memisevic | (参考訳) マルチモーダル言語モデル(lm)は最近、ビデオ上の高レベル推論タスクで有望なパフォーマンスを示している。
しかし、既存の手法は、動作に対する因果的あるいは構成時空間的推論のようなタスクでは依然として不足しており、モデル予測は、オブジェクトの動きやオブジェクトの相互作用のような、きめ細かい低レベルの詳細に基礎を置く必要がある。
本研究では,オブジェクト検出,再識別,追跡などの低レベルのサロゲートタスクをlmエンドツーエンドで訓練し,必要となる低レベルの視覚能力をモデルに付与することを提案する。
時空間に注意を向けた2ストリームビデオエンコーダは,映像中の静的および動きに基づく手がかりを捉えるのに有効であることを示す。
低レベルのサロゲートタスクを実行するLMの能力を活用することで、低レベルのビジュアルスキルを用いて視覚情報を抽出し、最終回答に到達するための3ステップのプロセスとして、ビデオに推論をキャストすることができる。
我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
我々のアプローチは訓練可能なエンドツーエンドであり、これらのタスクにまたがる最先端のタスク固有メソッドを大きく超えています。 Multi-modal language models (LM) have recently shown promising performance in high-level reasoning tasks on videos. However, existing methods still fall short in tasks like causal or compositional spatiotemporal reasoning over actions, in which model predictions need to be grounded in fine-grained low-level details, such as object motions and object interactions. In this work, we propose training an LM end-to-end on low-level surrogate tasks, including object detection, re-identification, and tracking, to endow the model with the required low-level visual capabilities. We show that a two-stream video encoder with spatiotemporal attention is effective at capturing the required static and motion-based cues in the video. By leveraging the LM's ability to perform the low-level surrogate tasks, we can cast reasoning in videos as the three-step process of Look, Remember, Reason wherein visual information is extracted using low-level visual skills step-by-step and then integrated to arrive at a final answer. We demonstrate the effectiveness of our framework on diverse visual reasoning tasks from the ACRE, CATER, Something-Else and STAR datasets. Our approach is trainable end-to-end and surpasses state-of-the-art task-specific methods across these tasks by a large margin. | 翻訳日:2024-01-23 21:27:40 公開日:2024-01-22 |
# 深層学習による公衆衛生研究のためのソーシャルメディア情報抽出の合理化 Streamlining Social Media Information Extraction for Public Health Research with Deep Learning ( http://arxiv.org/abs/2306.16001v2 ) ライセンス: Link先を確認 | Yining Hua, Shixu Lin, Minghui Li, Yujie Zhang, Dinah Foer, Siwen Wang, Peilin Zhou, Li Zhou, Jie Yang | (参考訳) 目的:ソーシャルメディアに基づく公衆衛生研究は疫病の監視に不可欠であるが、ほとんどの研究はキーワードマッチングで関連するコーパスを特定する。
本研究は,口語医学辞典の整理過程を合理化するシステムを開発した。
我々は、新型コロナウイルス関連ツイートからUMLS-coloquial symptom dictionaryを算出し、そのパイプラインを概念実証として示す。
方法:2020年2月1日から2022年4月30日までのcovid-19関連ツイートを用いた。
パイプラインには、ツイート中の症状を検出する名前付きエンティティ認識モジュール、検出されたエンティティを集約するエンティティ正規化モジュール、エンティティを統一医療言語システムの概念に反復的にマッピングするマッピングモジュールの3つのモジュールが含まれている。
正確な検証のために、最終辞書からランダムな500エンティティのサンプルが引き出された。
さらに, 先行研究から, 辞書を予め定義された辞書と比較するために, 症状頻度分布解析を行った。
結果: ツイートから498,480のユニークな症状を抽出した。
プリプロセッシングは18,226まで減少する。
最終辞書には、966 UMLSの概念にマッピングできる症状の38,175のユニークな表現が含まれている(精度=95%)。
症状分布分析の結果,我々の辞書はより多くの症状を検知し,不安やうつ病などの精神疾患の同定に有効であることが判明した。
結論: 本研究は, ソーシャルメディアデータから症状レキシコンをキュレートするための新しい体系的パイプラインを導入することで, 公衆衛生研究を前進させる。
医療専門家によって検証された最終レキシコンの高精度さは、この手法が膨大な量の構造化されていないソーシャルメディアデータを、多様な地域・地域景観にまたがる実用的な医学的洞察に確実に解釈し分類する可能性を強調している。 Objective: Social media-based public health research is crucial for epidemic surveillance, but most studies identify relevant corpora with keyword matching. This study develops a system to streamline the process of curating colloquial medical dictionaries. We demonstrate the pipeline by curating a UMLS-colloquial symptom dictionary from COVID-19-related tweets as proof of concept. Methods: COVID-19-related tweets from February 1, 2020, to April 30, 2022 were used. The pipeline includes three modules: a named entity recognition module to detect symptoms in tweets; an entity normalization module to aggregate detected entities; and a mapping module that iteratively maps entities to Unified Medical Language System concepts. A random 500 entity sample were drawn from the final dictionary for accuracy validation. Additionally, we conducted a symptom frequency distribution analysis to compare our dictionary to a pre-defined lexicon from previous research. Results: We identified 498,480 unique symptom entity expressions from the tweets. Pre-processing reduces the number to 18,226. The final dictionary contains 38,175 unique expressions of symptoms that can be mapped to 966 UMLS concepts (accuracy = 95%). Symptom distribution analysis found that our dictionary detects more symptoms and is effective at identifying psychiatric disorders like anxiety and depression, often missed by pre-defined lexicons. Conclusion: This study advances public health research by implementing a novel, systematic pipeline for curating symptom lexicons from social media data. The final lexicon's high accuracy, validated by medical professionals, underscores the potential of this methodology to reliably interpret and categorize vast amounts of unstructured social media data into actionable medical insights across diverse linguistic and regional landscapes. | 翻訳日:2024-01-23 21:27:03 公開日:2024-01-22 |
# 相対論的光-物質相互作用のためのチェーンマッピング法 Chain-mapping methods for relativistic light-matter interactions ( http://arxiv.org/abs/2306.11136v2 ) ライセンス: Link先を確認 | Robert H. Jonsson, Johannes Kn\"orzer | (参考訳) 局所的なエミッターと量子場の相互作用は相対論的設定と超強結合の場合の両方において、回転波近似を超える非摂動的方法を必要とする。
本研究では,局所エミッタとスカラー量子場との相互作用を数値的に正確に処理するためにチェーンマッピング法を用いる。
我々はこれらの手法の適用範囲をエミッタオブザーバブルを超えて拡張し、フィールドオブザーバブルの研究に適用する。
まず,連鎖マッピング法の概要と物理的解釈について述べ,熱場状態と結合した系の熱二重構造について論じる。
エミッタをunruh-dewitt粒子検出器としてモデル化し、磁場に強く結合した検出器から放出されるエネルギー密度を計算する。
アプローチのポテンシャルを刺激する実験として、Unruh効果における加速検出器から放射される放射を計算し、熱二重構造と密接に関連している。
本手法の展望と課題についてコメントする。 The interaction between localized emitters and quantum fields, both in relativistic settings and in the case of ultra-strong couplings, requires non-perturbative methods beyond the rotating-wave approximation. In this work we employ chain-mapping methods to achieve a numerically exact treatment of the interaction between a localized emitter and a scalar quantum field. We extend the application range of these methods beyond emitter observables and apply them to study field observables. We first provide an overview of chain-mapping methods and their physical interpretation, and discuss the thermal double construction for systems coupled to thermal field states. Modelling the emitter as an Unruh-DeWitt particle detector, we then calculate the energy density emitted by a detector coupling strongly to the field. As a stimulating demonstration of the approach's potential, we calculate the radiation emitted from an accelerated detector in the Unruh effect, which is closely related to the thermal double construction as we discuss. We comment on prospects and challenges of the method. | 翻訳日:2024-01-23 21:25:48 公開日:2024-01-22 |
# 有限時間対数ベイズ上界を後悔する Finite-Time Logarithmic Bayes Regret Upper Bounds ( http://arxiv.org/abs/2306.09136v3 ) ライセンス: Link先を確認 | Alexia Atsidakou, Branislav Kveton, Sumeet Katariya, Constantine Caramanis, and Sujay Sanghavi | (参考訳) ベイジアン・バンディットに対する最初の有限時間対数ベイズ後悔の上界を導出する。
多腕のバンディットでは、c_h$ と $c_\delta$ はそれぞれ事前分布とサンプルされたバンディットインスタンスのギャップに応じて定数である上信頼境界アルゴリズムに対して、$o(c_\delta \log n)$ と $o(c_h \log^2n)$ が与えられる。
後者の境界は Lai (1987) の下界と漸近的に一致する。
我々の証明は、単純で汎用的でありながら、先行研究から大きな技術的逸脱である。
本手法の一般性を示すため,線形包帯に適用する。
この結果は,目的と学習者に与えた副情報の両方において,ベイズ設定における事前値に関する洞察を与える。
それらは既存の$\tilde{o}(\sqrt{n})$ 境界によって著しく改善され、これは lai (1987) の対数下限にもかかわらず文献において標準となった。 We derive the first finite-time logarithmic Bayes regret upper bounds for Bayesian bandits. In a multi-armed bandit, we obtain $O(c_\Delta \log n)$ and $O(c_h \log^2 n)$ upper bounds for an upper confidence bound algorithm, where $c_h$ and $c_\Delta$ are constants depending on the prior distribution and the gaps of bandit instances sampled from it, respectively. The latter bound asymptotically matches the lower bound of Lai (1987). Our proofs are a major technical departure from prior works, while being simple and general. To show the generality of our techniques, we apply them to linear bandits. Our results provide insights on the value of prior in the Bayesian setting, both in the objective and as a side information given to the learner. They significantly improve upon existing $\tilde{O}(\sqrt{n})$ bounds, which have become standard in the literature despite the logarithmic lower bound of Lai (1987). | 翻訳日:2024-01-23 21:25:01 公開日:2024-01-22 |
# 量子状態の識別と熱力学 Thermodynamic bound on quantum state discrimination ( http://arxiv.org/abs/2306.07356v2 ) ライセンス: Link先を確認 | Jos\'e Polo-G\'omez | (参考訳) 熱力学の第二の法則は、量子状態の区別がいかに優れているかを制限していることを示す。
アッシャー・ペレスの提案に基づいてサイクルを経る量子内部自由度を持つ理想気体を調べることにより、量子状態識別の到達可能な精度に関する非自明な上限を確立する。
この熱力学的境界は、量子力学の線形性とワーク抽出の制約のみに依存するが、ホールボのバウンドはアクセス可能な情報に一致するが、ホールボ・ヘルストロムのバウンドよりもゆるい。
この結果は、熱力学的エントロピーとフォン・ノイマンエントロピーの不一致に関するさらなる証拠を与え、量子力学以外の提案に潜在的な限界を与える。 We show that the second law of thermodynamics poses a restriction on how well we can discriminate between quantum states. By examining an ideal gas with a quantum internal degree of freedom undergoing a cycle based on a proposal by Asher Peres, we establish a non-trivial upper bound on the attainable accuracy of quantum state discrimination. This thermodynamic bound, which relies solely on the linearity of quantum mechanics and the constraint of no work extraction, matches Holevo's bound on accessible information, but is looser than the Holevo-Helstrom bound. The result gives more evidence on the disagreement between thermodynamic entropy and von Neumann entropy, and places potential limitations on proposals beyond quantum mechanics. | 翻訳日:2024-01-23 21:24:25 公開日:2024-01-22 |
# セマンティックス-プロトタイプ学習によるパノプティクスシーングラフ生成 Panoptic Scene Graph Generation with Semantics-Prototype Learning ( http://arxiv.org/abs/2307.15567v3 ) ライセンス: Link先を確認 | Li Li, Wei Ji, Yiming Wu, Mengze Li, You Qin, Lina Wei, Roger Zimmermann | (参考訳) panoptic scene graph generation (psg)はオブジェクトを解析し、人間の言語と視覚シーンを接続するための関係(述語)を予測する。
しかし、アノテータの異なる言語選好と述語間の意味的重複はデータセット内の偏りのある述語アノテーション、すなわち同じオブジェクト対に対する述語を導く。
バイアス付き述語アノテーションにより、PSGモデルは述語間の明確な決定平面を構築するのに苦労する。
上記の本質的バイアスに対処するため,ADTransという新しいフレームワークを提案し,バイアス付き述語アノテーションを情報的かつ統一的なアノテーションに適応的に変換する。
転送過程における一貫性と正確性を約束するため,各述語クラスにおける表現の不分散を計測し,異なる強度を持つ述語の偏りのないプロトタイプを学習する。
一方,各プレゼンテーションとプロトタイプ間の分布変化を連続的に計測し,バイアスのあるデータを常に表示する。
最後に、バイアスのない述語-原型表現埋め込み空間により、バイアス付きアノテーションを容易に識別できる。
実験により、ADTransはベンチマークモデルの性能を著しく改善し、新しい最先端のパフォーマンスを実現し、複数のデータセットに対して非常に一般化と有効性を示すことが示された。 Panoptic Scene Graph Generation (PSG) parses objects and predicts their relationships (predicate) to connect human language and visual scenes. However, different language preferences of annotators and semantic overlaps between predicates lead to biased predicate annotations in the dataset, i.e. different predicates for same object pairs. Biased predicate annotations make PSG models struggle in constructing a clear decision plane among predicates, which greatly hinders the real application of PSG models. To address the intrinsic bias above, we propose a novel framework named ADTrans to adaptively transfer biased predicate annotations to informative and unified ones. To promise consistency and accuracy during the transfer process, we propose to measure the invariance of representations in each predicate class, and learn unbiased prototypes of predicates with different intensities. Meanwhile, we continuously measure the distribution changes between each presentation and its prototype, and constantly screen potential biased data. Finally, with the unbiased predicate-prototype representation embedding space, biased annotations are easily identified. Experiments show that ADTrans significantly improves the performance of benchmark models, achieving a new state-of-the-art performance, and shows great generalization and effectiveness on multiple datasets. | 翻訳日:2024-01-23 21:15:49 公開日:2024-01-22 |
# 非エルミート系の実スペクトルに課されるヒルベルト空間の断片化 Hilbert space fragmentation imposed real spectrum of non-Hermitian systems ( http://arxiv.org/abs/2307.05679v2 ) ライセンス: Link先を確認 | Somsubhra Ghosh, K. Sengupta, and Indranil Paul | (参考訳) 我々は、強いヒルベルト空間断片化(HSF)によって課される制約と、ある種の大域対称性の存在が、非エルミート量子系の固有スペクトルの現実を確実にすることを示した。
相互作用する2つの有限鎖、すなわちフェルミオン型ネルソン=ハターノとスー=シュリーファー=ヘーガーモデルに対するこの洞察を示し、いずれも$\mathcal{PT}$対称性を持たない。
強いhsfと実スペクトルは、系が十分な大域的対称性を持っている場合、大きな相互作用の限界における同じ動的制約の結果であることを示す。
また,局所等時間相関関数は固有スペクトルが実数である有限臨界相互作用強度において多体例外点を検出できることを示した。 We show that constraints imposed by strong Hilbert space fragmentation (HSF) along with the presence of certain global symmetries can ensure the reality of eigenspectra of non-Hermitian quantum systems; such a reality cannot be guaranteed by global symmetries alone. We demonstrate this insight for two interacting finite chains, namely the fermionic Nelson-Hatano and the Su-Schrieffer-Heeger models, none of which has a $\mathcal{PT}$ symmetry. We show analytically that strong HSF and real spectrum are both consequences of the same dynamical constraints in the limit of large interaction, provided the systems have sufficient global symmetries. We also show that a local equal-time correlation function can detect the many-body exceptional point at a finite critical interaction strength above which the eigenspectrum is real. | 翻訳日:2024-01-23 21:12:59 公開日:2024-01-22 |
# diffusion modelは、ひそかにトレーニングフリーなオープン語彙セグメンタである Diffusion Model is Secretly a Training-free Open Vocabulary Semantic Segmenter ( http://arxiv.org/abs/2309.02773v3 ) ライセンス: Link先を確認 | Jinglong Wang, Xiawei Li, Jing Zhang, Qingyuan Xu, Qin Zhou, Qian Yu, Lu Sheng, Dong Xu | (参考訳) CLIPのような事前訓練されたテキスト画像識別モデルは、重要な局所化情報の欠如や物体形状の認識による不満足な結果を伴うオープン語彙セマンティックセグメンテーションのために検討されてきた。
近年,生成タスクからセマンティックセグメンテーションへの生成モデルの適用拡大への関心が高まっている。
これらのアプローチは、注釈付きデータを生成するか、セマンティックセグメンテーションを容易にするために特徴を抽出するために生成モデルを利用する。
これは典型的には大量の合成データを生成するか、追加のマスクアノテーションを必要とする。
この目的のために、高速なオープン語彙セマンティックセマンティックセマンティクスとして、生成的テキスト・画像拡散モデル(例えば、安定拡散)の可能性を明らかにし、DiffSegmenterという新しいトレーニング不要アプローチを導入する。
その洞察は、入力テキストに意味的に忠実な現実的なオブジェクトを生成するためには、完全なオブジェクト形状と対応するセマンティクスの両方が拡散モデルによって暗黙的に学習されるということである。
対象の形状を自己対応マップで特徴付けし,その意味を分断u-netで生成したクロスアテンションマップを通して示すことにより,セグメンテーション結果のベースとなることを見出し,さらに,効果的なテクスト的プロンプトとカテゴリフィルタリング機構を慎重に設計し,セグメンテーション結果をさらに強化する。
3つのベンチマークデータセットに関する広範囲な実験により、提案するdiffsegmenterは、open-vocabulary semantic segmentationの印象的な結果を得た。 The pre-trained text-image discriminative models, such as CLIP, has been explored for open-vocabulary semantic segmentation with unsatisfactory results due to the loss of crucial localization information and awareness of object shapes. Recently, there has been a growing interest in expanding the application of generative models from generation tasks to semantic segmentation. These approaches utilize generative models either for generating annotated data or extracting features to facilitate semantic segmentation. This typically involves generating a considerable amount of synthetic data or requiring additional mask annotations. To this end, we uncover the potential of generative text-to-image diffusion models (e.g., Stable Diffusion) as highly efficient open-vocabulary semantic segmenters, and introduce a novel training-free approach named DiffSegmenter. The insight is that to generate realistic objects that are semantically faithful to the input text, both the complete object shapes and the corresponding semantics are implicitly learned by diffusion models. We discover that the object shapes are characterized by the self-attention maps while the semantics are indicated through the cross-attention maps produced by the denoising U-Net, forming the basis of our segmentation results.Additionally, we carefully design effective textual prompts and a category filtering mechanism to further enhance the segmentation results. Extensive experiments on three benchmark datasets show that the proposed DiffSegmenter achieves impressive results for open-vocabulary semantic segmentation. | 翻訳日:2024-01-23 21:06:35 公開日:2024-01-22 |
# ChatRule:知識グラフ推論のための大規模言語モデルによる論理ルールのマイニング ChatRule: Mining Logical Rules with Large Language Models for Knowledge Graph Reasoning ( http://arxiv.org/abs/2309.01538v3 ) ライセンス: Link先を確認 | Linhao Luo, Jiaxin Ju, Bo Xiong, Yuan-Fang Li, Gholamreza Haffari, Shirui Pan | (参考訳) 論理規則は関係間の論理的なつながりを明らかにするのに不可欠であり、推論性能を改善し、知識グラフ(kgs)上で解釈可能な結果を提供する。
KGに対する有意義な論理的ルールのマイニングには多くの取り組みがあったが、既存の手法はルール空間に対する計算集約的な探索と大規模KGのスケーラビリティの欠如に悩まされている。
さらに、論理的関係を明らかにする上で重要な関係の意味論を無視することが多い。
近年,大規模言語モデル (LLM) は,その創発的能力と一般化性から,自然言語処理や各種アプリケーションにおいて顕著な性能を示している。
本稿では,知識グラフ上で論理規則をマイニングするための大規模言語モデルのパワーを解き放つ,新たな枠組みであるchatruleを提案する。
具体的には、このフレームワークはLLMベースのルールジェネレータで開始され、KGのセマンティック情報と構造情報の両方を利用してLCMに論理ルールを生成する。
生成されたルールを洗練するために、ルールランキングモジュールは、既存のkgsから事実を取り込んでルール品質を推定する。
最後に、ランク付けされたルールはKGの推論に使用できる。
ChatRuleは4つの大規模KG、すなわち異なるルール品質のメトリクスと下流タスクで評価され、本手法の有効性と拡張性を示す。 Logical rules are essential for uncovering the logical connections between relations, which could improve reasoning performance and provide interpretable results on knowledge graphs (KGs). Although there have been many efforts to mine meaningful logical rules over KGs, existing methods suffer from computationally intensive searches over the rule space and a lack of scalability for large-scale KGs. Besides, they often ignore the semantics of relations which is crucial for uncovering logical connections. Recently, large language models (LLMs) have shown impressive performance in the field of natural language processing and various applications, owing to their emergent ability and generalizability. In this paper, we propose a novel framework, ChatRule, unleashing the power of large language models for mining logical rules over knowledge graphs. Specifically, the framework is initiated with an LLM-based rule generator, leveraging both the semantic and structural information of KGs to prompt LLMs to generate logical rules. To refine the generated rules, a rule ranking module estimates the rule quality by incorporating facts from existing KGs. Last, the ranked rules can be used to conduct reasoning over KGs. ChatRule is evaluated on four large-scale KGs, w.r.t. different rule quality metrics and downstream tasks, showing the effectiveness and scalability of our method. | 翻訳日:2024-01-23 21:06:04 公開日:2024-01-22 |
# 暗黙的神経画像縫合 Implicit Neural Image Stitching ( http://arxiv.org/abs/2309.01409v5 ) ライセンス: Link先を確認 | Minsu Kim, Jaewon Lee, Byeonghun Lee, Sunghoon Im, Kyong Hwan Jin | (参考訳) 画像縫合のための既存のフレームワークは、しばしば視覚的に合理的な縫合を提供する。
しかし、照明や深さなどではぼやけた人工物や相違に悩まされている。
近年の学習に基づく縫合は、そのような相違を緩和するが、必要な方法は、縫合画像の高周波詳細を捉えない画像品質の犠牲を課す。
この問題に対処するために,任意のスケールの超解像を拡張可能な暗黙的ニューラルイメージスティッチ(NIS)を提案する。
画質向上のための画像のフーリエ係数を推定する。
提案したモデルでは,色ミスマッチと遅延空間のずれを混合し,その特徴を縫合画像のRGB値に復号する。
提案手法は, より高速な画像強調法により, 従来の深部画像縫合の低精細像の解消に有効であることを示す。
ソースコードはhttps://github.com/minshu-kim/nisで入手できます。 Existing frameworks for image stitching often provide visually reasonable stitchings. However, they suffer from blurry artifacts and disparities in illumination, depth level, etc. Although the recent learning-based stitchings relax such disparities, the required methods impose sacrifice of image qualities failing to capture high-frequency details for stitched images. To address the problem, we propose a novel approach, implicit Neural Image Stitching (NIS) that extends arbitrary-scale super-resolution. Our method estimates Fourier coefficients of images for quality-enhancing warps. Then, the suggested model blends color mismatches and misalignment in the latent space and decodes the features into RGB values of stitched images. Our experiments show that our approach achieves improvement in resolving the low-definition imaging of the previous deep image stitching with favorable accelerated image-enhancing methods. Our source code is available at https://github.com/minshu-kim/NIS. | 翻訳日:2024-01-23 21:05:41 公開日:2024-01-22 |
# 量子変化点と絡み合い蒸留 Quantum change point and entanglement distillation ( http://arxiv.org/abs/2308.15148v2 ) ライセンス: Link先を確認 | Abhishek Banerjee, Pratapaditya Bej, Somshubhro Bandyopadhyay | (参考訳) 量子変化点問題において、固定量子状態(デフォルト)の粒子を放出する源は、ある段階で異なる状態に切り替え、その変化がいつ起こったかは、そのような源から放出される粒子の列を測定することによって決定される。
量子情報における絡み合い共有プロトコルによって動機付けられ,局所的な操作や古典的なコミュニケーションに乏しいLOCCのパラダイム内でこの問題を研究する。
ここで、既定状態で絡み合ったペアを発生させるが、後段で別の絡み合った状態(置換)を発生させるソースを考える。
そして、このようなソースから作成され、遠くの観測者間で共有される絡み合ったペアのシーケンスは、各絡み合ったペアのアイデンティティが不明であるため、量子情報処理タスクには使用できない。
LOCCによる変化点の同定は, 対の対の蒸留に繋がることを示す。
特に、デフォルトと突然変異が相互直交している場合、失敗せずに変化点を特定し、十分な数のペアを蒸留する効率的なLOCCプロトコルが存在する。
しかし、それらが直交しない場合、失敗する可能性はある。
この場合、平均して得られる絡み合ったペアの数を計算する。
また、突然変異が前もって知られていないが、その代わりに既知の集合に属する二状態問題の緩和も検討する。
ここで、局所的な識別性が重要な役割を担っていることを示す: 既定値と可能な突然変異が局所的に識別可能であれば、問題は直交状態の2状態問題に還元されるが、そうでなければ、具体例で示すように、突然変異、変化点、蒸留絡み合いを識別することができる。 In a quantum change point problem, a source emitting particles in a fixed quantum state (default) switches to a different state at some stage, and the objective is to identify when the change happened by measuring a sequence of particles emitted from such a source. Motivated by entanglement-sharing protocols in quantum information, we study this problem within the paradigm of LOCC, short of local operations and classical communication. Here, we consider a source that emits entangled pairs in a default state but starts producing another entangled state (mutation) at a later stage. Then, a sequence of entangled pairs prepared from such a source and shared between distant observers cannot be used for quantum information processing tasks as the identity of each entangled pair remains unknown. We show that identifying the change point using LOCC leads to the distillation of free entangled pairs. In particular, if the default and the mutation are mutually orthogonal, there exists an efficient LOCC protocol that identifies the change point without fail and distills a sufficiently large number of pairs. However, if they are nonorthogonal, there is a probability of failure. In this case, we compute the number of entangled pairs that may be obtained on average. We also consider a relaxation of the two-state problem where the mutation is not known a priori but instead belongs to a known set. Here we show that local distinguishability plays a crucial role: if the default and the possible mutations are locally distinguishable, the problem reduces to the two-state problem with orthogonal states, but if not, one may still identify the mutation, the change point, and distill entanglement, as we illustrate with a concrete example. | 翻訳日:2024-01-23 21:04:47 公開日:2024-01-22 |
# 大規模言語モデルは、生成コードの信頼性を高めるために質問を明確にすべきである Large Language Models Should Ask Clarifying Questions to Increase Confidence in Generated Code ( http://arxiv.org/abs/2308.13507v2 ) ライセンス: Link先を確認 | Jie JW Wu | (参考訳) 大規模言語モデル(LLM)は、コード生成の分野でタスクを実行する能力を大幅に改善した。
しかし、LLMが有能なプログラマであることと、最上位のソフトウェアエンジニアであることの間にはまだギャップがある。
トップレベルのソフトウェアエンジニアが要求とコーディングソリューションのあいまいさを減らすために明確な質問をすることが多いことを踏まえると、コード生成タスクにはLLMにも同じように適用されるべきである、と私は主張する。
最終コードを生成する前に様々なトピックで質問をすることで、意図不明な仕様、計算思考の欠如、望ましくないコード品質といったLCMを使ったプログラミングの課題が軽減される可能性がある。
これにより、生成されたコードの信頼性が向上する。
本稿では,生成コードに対する信頼性を高めるために,優れたコミュニケーションスキルを活用する方法について検討する。
本稿では,llm生成コミュニケータを用いて,問題記述や生成コードに対する曖昧さや信頼性の低い問題を識別する通信中心プロセスを提案する。
次に、コードを精査するユーザからの回答を得るために、明確な質問を尋ねます。 Large language models (LLMs) have significantly improved the ability to perform tasks in the field of code generation. However, there is still a gap between LLMs being capable coders and being top-tier software engineers. Based on the observation that toplevel software engineers often ask clarifying questions to reduce ambiguity in both requirements and coding solutions, I argue that the same should be applied to LLMs for code generation tasks. By asking probing questions in various topics before generating the final code, the challenges of programming with LLMs, such as unclear intent specification, lack of computational thinking, and undesired code quality, may be alleviated. This, in turn, increases confidence in the generated code. In this work, I explore how to leverage better communication skills to achieve greater confidence in generated code. I propose a communication-centered process that uses an LLM-generated communicator to identify issues with high ambiguity or low confidence in problem descriptions and generated code. I then ask clarifying questions to obtain responses from users for refining the code. | 翻訳日:2024-01-23 21:03:23 公開日:2024-01-22 |
# 共形モンテカルロ予測を用いたロバスト不確かさ定量化 Robust Uncertainty Quantification Using Conformalised Monte Carlo Prediction ( http://arxiv.org/abs/2308.09647v2 ) ライセンス: Link先を確認 | Daniel Bethell, Simos Gerasimou, Radu Calinescu | (参考訳) 安全クリティカルなアプリケーションでディープラーニングモデルをデプロイすることは非常に難しい作業であり、これらのモデルの依存可能な操作に対する保証を提供する。
不確実性定量化(uq)法は、予測当たりのモデルの信頼度を推定し、ランダム性の影響とモデルの誤特定を考慮して意思決定を知らせる。
最先端のUQ手法の進歩にもかかわらず、それらは計算コストが高く、保守的な予測セット/インターバルを生成する。
本稿では,新しい適応モンテカルロ(MC)ドロップアウト法と共形予測(CP)を組み合わせた新しいハイブリッドUQ手法であるMC-CPを紹介する。
MC-CPは実行時に従来のMCドロップアウトを適応的に調整してメモリと計算資源を節約し、CPが予測を消費し、堅牢な予測セット/インターバルを生成する。
総合的な実験を通じて,mc-cpはmcドロップアウト,raps,cqrなどの高度なuqメソッドに対して,分類と回帰ベンチマークにおいて大きな改善をもたらすことを示した。
MC-CPは既存のモデルに簡単に追加できるため、デプロイは簡単である。 Deploying deep learning models in safety-critical applications remains a very challenging task, mandating the provision of assurances for the dependable operation of these models. Uncertainty quantification (UQ) methods estimate the model's confidence per prediction, informing decision-making by considering the effect of randomness and model misspecification. Despite the advances of state-of-the-art UQ methods, they are computationally expensive or produce conservative prediction sets/intervals. We introduce MC-CP, a novel hybrid UQ method that combines a new adaptive Monte Carlo (MC) dropout method with conformal prediction (CP). MC-CP adaptively modulates the traditional MC dropout at runtime to save memory and computation resources, enabling predictions to be consumed by CP, yielding robust prediction sets/intervals. Throughout comprehensive experiments, we show that MC-CP delivers significant improvements over advanced UQ methods, like MC dropout, RAPS and CQR, both in classification and regression benchmarks. MC-CP can be easily added to existing models, making its deployment simple. | 翻訳日:2024-01-23 21:02:10 公開日:2024-01-22 |
# $q$-analog qudit Dicke state $q$-analog qudit Dicke states ( http://arxiv.org/abs/2308.08392v2 ) ライセンス: Link先を確認 | David Raveh and Rafael I. Nepomechie | (参考訳) ディック状態は複数の量子ビット(2レベル系)の完全対称状態であり、クディット・ディック状態はその$d$レベル一般化である。
ここでは、量子代数 $su_q(d)$ を用いて、$q$-変形qudit Dicke 状態を定義する。
これらの状態は, 可換数 (inversion number) を含む$q$-factors の置換よりも重み付き和としてコンパクトに表現できることを示す。
この結果を用いて、これらの状態の二部交絡エントロピーを計算する。
また、量子コンピュータ上でのこれらの状態の生成についても論じ、$q$依存性の導入は回路ゲート数を変えないことを示す。 Dicke states are completely symmetric states of multiple qubits (2-level systems), and qudit Dicke states are their $d$-level generalization. We define here $q$-deformed qudit Dicke states using the quantum algebra $su_q(d)$. We show that these states can be compactly expressed as a weighted sum over permutations with $q$-factors involving the so-called inversion number, an important permutation statistic in Combinatorics. We use this result to compute the bipartite entanglement entropy of these states. We also discuss the preparation of these states on a quantum computer, and show that introducing a $q$-dependence does not change the circuit gate count. | 翻訳日:2024-01-23 21:01:35 公開日:2024-01-22 |
# マルコフ決定問題としての決定木探索 Decision Tree Search as a Markov Decision Problem ( http://arxiv.org/abs/2309.12701v2 ) ライセンス: Link先を確認 | Hector Kohler, Riad Akrour, Philippe Preux | (参考訳) 教師付き学習課題の最適決定木を見つけることは、大規模に解決すべき組合せ問題である。
近年,この問題をマルコフ決定問題(mdp)として枠組にし,スケーリングに深層強化学習を用いることが提案されている。
残念ながら、これらのメソッドは現在のブランチ・アンド・バウンドのstate-of-the-artとは競合しない。
そこで我々は,情報理論によるテスト生成関数を用いて,全ての状態に対して動的に,許容可能なテスト動作のセットをいくつかのよい候補に限定する手法を提案する。
解法として,本アルゴリズムが少なくとも分岐・束縛の選択肢と競合することを実証的に示す。
機械学習ツールとして、私たちのアプローチの重要な利点は、複雑さとパフォーマンスのトレードオフを事実上追加コストなしで解決することです。
このようなソリューションセットを使用することで、ユーザは最も一般化し、ニーズに最も適した解釈可能性レベルを持つツリーを選択することができる。 Finding an optimal decision tree for a supervised learning task is a challenging combinatorial problem to solve at scale. It was recently proposed to frame the problem as a Markov Decision Problem (MDP) and use deep reinforcement learning to tackle scaling. Unfortunately, these methods are not competitive with the current branch-and-bound state-of-the-art. We propose instead to scale the resolution of such MDPs using an information-theoretic tests generating function that heuristically, and dynamically for every state, limits the set of admissible test actions to a few good candidates. As a solver, we show empirically that our algorithm is at the very least competitive with branch-and-bound alternatives. As a machine learning tool, a key advantage of our approach is to solve for multiple complexity-performance trade-offs at virtually no additional cost. With such a set of solutions, a user can then select the tree that generalizes best and which has the interpretability level that best suits their needs, which no current branch-and-bound method allows. | 翻訳日:2024-01-23 20:55:20 公開日:2024-01-22 |
# Bad Actor, Good Advisor: Fake News Detectionにおける大規模言語モデルの役割を探る Bad Actor, Good Advisor: Exploring the Role of Large Language Models in Fake News Detection ( http://arxiv.org/abs/2309.12247v2 ) ライセンス: Link先を確認 | Beizhe Hu, Qiang Sheng, Juan Cao, Yuhui Shi, Yang Li, Danding Wang, Peng Qi | (参考訳) 偽ニュースを検出するには、様々な手がかりの繊細な感覚と現実世界の背景を深く理解する必要がある。
大規模言語モデル(LLM)の最近の進歩は、様々なタスクにおいて顕著なパフォーマンスを示しているが、LLMが偽ニュースの検出にどのように役立つかは、まだ未定である。
本稿では,偽ニュース検出におけるLLMの可能性について検討する。
まず, gpt 3.5 のような高度な llm が一般に偽ニュースを暴露し, 望ましいマルチパースペクティブな合理性を提供するが, 基本的な slm や微調整された bert を過小評価できることを示す。
我々のその後の分析は、LLMが論理を適切に選択・統合できないことに起因する。
これらの結果から,現在のLSMは偽ニュース検出において微調整SLMの代わりにはならないが,マルチパースペクティブ・インストラクティブ・合理性を提供することにより,SLMの優れたアドバイザとなることが示唆された。
この提案をインスタンス化するために,SLM が LLM の論理からニュース分析に関する洞察を選択的に取得する,偽ニュース検出 (ARG) のための適応的合理化誘導ネットワークを設計する。
さらに, LLMを問わずに, コストに敏感なシナリオを提供するARG-Dの蒸留により, 合理的なARGバージョンを導出する。
2つの実世界のデータセットの実験により、ARGとARG-Dは、SLMベース、LLMベース、および小規模および大規模言語モデルの組み合わせを含む3種類のベースライン手法より優れていることが示された。 Detecting fake news requires both a delicate sense of diverse clues and a profound understanding of the real-world background, which remains challenging for detectors based on small language models (SLMs) due to their knowledge and capability limitations. Recent advances in large language models (LLMs) have shown remarkable performance in various tasks, but whether and how LLMs could help with fake news detection remains underexplored. In this paper, we investigate the potential of LLMs in fake news detection. First, we conduct an empirical study and find that a sophisticated LLM such as GPT 3.5 could generally expose fake news and provide desirable multi-perspective rationales but still underperforms the basic SLM, fine-tuned BERT. Our subsequent analysis attributes such a gap to the LLM's inability to select and integrate rationales properly to conclude. Based on these findings, we propose that current LLMs may not substitute fine-tuned SLMs in fake news detection but can be a good advisor for SLMs by providing multi-perspective instructive rationales. To instantiate this proposal, we design an adaptive rationale guidance network for fake news detection (ARG), in which SLMs selectively acquire insights on news analysis from the LLMs' rationales. We further derive a rationale-free version of ARG by distillation, namely ARG-D, which services cost-sensitive scenarios without querying LLMs. Experiments on two real-world datasets demonstrate that ARG and ARG-D outperform three types of baseline methods, including SLM-based, LLM-based, and combinations of small and large language models. | 翻訳日:2024-01-23 20:54:44 公開日:2024-01-22 |
# 確率的勾配降下の異なる性質について On the different regimes of Stochastic Gradient Descent ( http://arxiv.org/abs/2309.10688v3 ) ライセンス: Link先を確認 | Antonio Sclocchi and Matthieu Wyart | (参考訳) 現代のディープネットワークは、各ステップまたはバッチサイズで考慮されるデータ数、ステップサイズまたは学習レートが$\eta$である確率勾配降下(SGD)を用いて訓練されている。
小さい$B$と大きな$\eta$の場合、SGDはパラメータの確率的進化に対応し、そのノイズ振幅は '温度' $T\equiv \eta/B$ で制御される。
しかし、この記述は、十分に大きなバッチに対して$B\geq B^*$で分解するか、温度が十分に小さい場合には勾配降下(GD)を単純化する。
これらのクロスオーバーの場所を理解することは、依然として中心的な課題である。
本稿では,教師が指導するパーセプトロン分類モデルに対して,これらの疑問を解き,その鍵となる予測が深層ネットワークにも応用できることを示す。
具体的には、3つの動的位相を分離する$B$-$\eta$平面の位相図を得る。
i) 温度が支配する雑音支配型SGD, \textit{
(ii) SGD と \textit{
(iii)gd。
これらの異なる位相はまた、一般化誤差の異なる状態に対応する。
興味深いことに、我々の分析ではバッチサイズが$B^*$ split regimes \textit{
(i)} と \textit{
(ii)} は、分類問題の硬さを特徴付ける指数で、トレーニングセットのサイズ$P$でスケールする。 Modern deep networks are trained with stochastic gradient descent (SGD) whose key hyperparameters are the number of data considered at each step or batch size $B$, and the step size or learning rate $\eta$. For small $B$ and large $\eta$, SGD corresponds to a stochastic evolution of the parameters, whose noise amplitude is governed by the `temperature' $T\equiv \eta/B$. Yet this description is observed to break down for sufficiently large batches $B\geq B^*$, or simplifies to gradient descent (GD) when the temperature is sufficiently small. Understanding where these cross-overs take place remains a central challenge. Here, we resolve these questions for a teacher-student perceptron classification model and show empirically that our key predictions still apply to deep networks. Specifically, we obtain a phase diagram in the $B$-$\eta$ plane that separates three dynamical phases: \textit{(i)} a noise-dominated SGD governed by temperature, \textit{(ii)} a large-first-step-dominated SGD and \textit{(iii)} GD. These different phases also correspond to different regimes of generalization error. Remarkably, our analysis reveals that the batch size $B^*$ separating regimes \textit{(i)} and \textit{(ii)} scale with the size $P$ of the training set, with an exponent that characterizes the hardness of the classification problem. | 翻訳日:2024-01-23 20:53:01 公開日:2024-01-22 |
# Decolonial AIアライメント:オープンネス、Vi\'{s}e\d{s}a-ダルマ、排他的知識を含む Decolonial AI Alignment: Openness, Vi\'{s}e\d{s}a-Dharma, and Including Excluded Knowledges ( http://arxiv.org/abs/2309.05030v2 ) ライセンス: Link先を確認 | Kush R. Varshney | (参考訳) 先行研究は、抽出主義、自動化、社会学的本質主義、監視、封じ込めといったメカニズムを通じて、人工知能(ai)の開発と展開の植民地性を明らかにしてきた。
しかし、その仕事は、大言語モデル(LLM)に望ましい価値観に従って行動を教えること、そしてそのプロセスの中で生じるメカニズムとは考えていない:道徳的絶対主義は、知識の植民地性の一部である。
植民地主義は、植民地化された人々の信念や価値観を変える歴史があり、本稿では、この歴史は現在のLLMアライメントの実践と技術で再カプセル化されていると論じる。
さらに,モデルのオープン性,社会へのオープン性,知識を除外するオープン性という3つのオープン性を用いて,aiアライメントを非植民地化することを提案する。
このDecolonial AIアライメントへのアプローチは、ヒンドゥー教の議論的な倫理的哲学的伝統のアイデアを用いており、これはオープンソース宗教として説明されている。
一つの概念は、vi\'{s}e\d{s}a-dharma、または特定の文脈固有の善悪の概念である。
論文の最後に、提案されたフレームワークに向けて作業するための推奨参照アーキテクチャを提案します。 Prior work has explicated the coloniality of artificial intelligence (AI) development and deployment through mechanisms such as extractivism, automation, sociological essentialism, surveillance, and containment. However, that work has not engaged much with alignment: teaching behaviors to a large language model (LLM) in line with desired values, and has not considered a mechanism that arises within that process: moral absolutism -- a part of the coloniality of knowledge. Colonialism has a history of altering the beliefs and values of colonized peoples; in this paper, I argue that this history is recapitulated in current LLM alignment practices and technologies. Furthermore, I suggest that AI alignment be decolonialized using three forms of openness: openness of models, openness to society, and openness to excluded knowledges. This suggested approach to decolonial AI alignment uses ideas from the argumentative moral philosophical tradition of Hinduism, which has been described as an open-source religion. One concept used is vi\'{s}e\d{s}a-dharma, or particular context-specific notions of right and wrong. At the end of the paper, I provide a suggested reference architecture to work toward the proposed framework. | 翻訳日:2024-01-23 20:50:37 公開日:2024-01-22 |
# 非階層的マルチフィデリティ適応サンプリングのための潜在変数アプローチ A Latent Variable Approach for Non-Hierarchical Multi-Fidelity Adaptive Sampling ( http://arxiv.org/abs/2310.03298v3 ) ライセンス: Link先を確認 | Yi-Ping Chen, Liwei Wang, Yigitcan Comlek, Wei Chen | (参考訳) MF(Multi-fidelity)法は、様々な低忠実度(LF)モデルのデータを組み込むことで、サロゲートモデリングと設計最適化の強化で人気を集めている。
既存のmf法は固定データセットを想定しているが、フィデリティモデル間で動的にリソースを割り当てる適応サンプリング手法は、設計空間の探索と活用において高い効率を達成することができる。
しかし、既存のMF法の多くは、階層的なフィデリティレベルの仮定に依存するか、複数のフィデリティレベルの相互相関を捉えず、将来のサンプル値の定量化と適応サンプリングのナビゲートに利用している。
このハードルに対処するために、異なる忠実度モデルに対する潜伏埋め込みとそれに関連する事前解析に基づくフレームワークを提案し、それらの相関関係を適応サンプリングに明示的に活用する。
このフレームワークでは、まず、高忠実度モデル(HF)モデルを用いて、興味のある場所を最大化し、次に、次のサンプルを全ての忠実度レベルにわたって探索し、第1ステップで特定した位置におけるユニットコスト当たりの改善を最大化する。
これは、異なる忠実度モデルを解釈可能な潜在空間にマッピングし、階層的忠実度レベルを仮定することなくそれらの相関を捕捉する単一の潜在可変ガウス過程(LVGP)モデルによって実現される。
lvgpにより,lfサンプリング候補がhf応答にどのように影響するかを事前分析により評価し,次のサンプルを最善の利得対コスト比で決定できる。
実験事例を通して,提案手法がmfグローバルフィッティング(gf)とベイズ最適化(bo)の収束率とロバスト性において,ベンチマーク手法よりも優れていることを示す。
さらに、この方法は、取得関数を単に変更するだけでGFとBOを切り替える柔軟性を提供する。 Multi-fidelity (MF) methods are gaining popularity for enhancing surrogate modeling and design optimization by incorporating data from various low-fidelity (LF) models. While most existing MF methods assume a fixed dataset, adaptive sampling methods that dynamically allocate resources among fidelity models can achieve higher efficiency in the exploring and exploiting the design space. However, most existing MF methods rely on the hierarchical assumption of fidelity levels or fail to capture the intercorrelation between multiple fidelity levels and utilize it to quantify the value of the future samples and navigate the adaptive sampling. To address this hurdle, we propose a framework hinged on a latent embedding for different fidelity models and the associated pre-posterior analysis to explicitly utilize their correlation for adaptive sampling. In this framework, each infill sampling iteration includes two steps: We first identify the location of interest with the greatest potential improvement using the high-fidelity (HF) model, then we search for the next sample across all fidelity levels that maximize the improvement per unit cost at the location identified in the first step. This is made possible by a single Latent Variable Gaussian Process (LVGP) model that maps different fidelity models into an interpretable latent space to capture their correlations without assuming hierarchical fidelity levels. The LVGP enables us to assess how LF sampling candidates will affect HF response with pre-posterior analysis and determine the next sample with the best benefit-to-cost ratio. Through test cases, we demonstrate that the proposed method outperforms the benchmark methods in both MF global fitting (GF) and Bayesian Optimization (BO) problems in convergence rate and robustness. Moreover, the method offers the flexibility to switch between GF and BO by simply changing the acquisition function. | 翻訳日:2024-01-23 20:42:53 公開日:2024-01-22 |
# TWIZ-v2:マルチモーダル会話刺激の魔法 TWIZ-v2: The Wizard of Multimodal Conversational-Stimulus ( http://arxiv.org/abs/2310.02118v2 ) ライセンス: Link先を確認 | Rafael Ferreira, Diogo Tavares, Diogo Silva, Rodrigo Val\'erio, Jo\~ao Bordalo, In\^es Sim\~oes, Vasco Ramos, David Semedo, Jo\~ao Magalh\~aes | (参考訳) 本報告では,Alexa Prize TaskBot Challenge 2022において,タスクウィザードチームであるTWIZのビジョン,課題,科学的貢献について述べる。
当社のビジョンは、twizボットを便利でマルチモーダルで、知識に富み、魅力的なアシスタントとして構築することで、複雑な手動タスクの完了をユーザに導くことです。
そこで本研究では,(1)情報提供による人間型会話,(2)音声,画像,ビデオなどの様々なモーダル性を活用したマルチモーダル刺激,(3)ゼロショット会話フローの3つの研究課題に焦点をあてて,未知のシナリオとのインタラクションの堅牢性を向上させる。
TWIZは幅広いタスクをサポートすることができるアシスタントであり、創造的な料理、音声によるビデオナビゲーション、複雑な手作業の対話を訓練した大規模言語モデルであるTWIZ-LLMといった革新的な機能を備えている。
ユーザから提供された評価やフィードバックから,TWIZボットは効果的で堅牢なシステムであり,複数のマルチモーダル刺激を与えながらタスクを通じてユーザを誘導できることを示した。 In this report, we describe the vision, challenges, and scientific contributions of the Task Wizard team, TWIZ, in the Alexa Prize TaskBot Challenge 2022. Our vision, is to build TWIZ bot as an helpful, multimodal, knowledgeable, and engaging assistant that can guide users towards the successful completion of complex manual tasks. To achieve this, we focus our efforts on three main research questions: (1) Humanly-Shaped Conversations, by providing information in a knowledgeable way; (2) Multimodal Stimulus, making use of various modalities including voice, images, and videos; and (3) Zero-shot Conversational Flows, to improve the robustness of the interaction to unseen scenarios. TWIZ is an assistant capable of supporting a wide range of tasks, with several innovative features such as creative cooking, video navigation through voice, and the robust TWIZ-LLM, a Large Language Model trained for dialoguing about complex manual tasks. Given ratings and feedback provided by users, we observed that TWIZ bot is an effective and robust system, capable of guiding users through tasks while providing several multimodal stimuli. | 翻訳日:2024-01-23 20:41:48 公開日:2024-01-22 |
# LanguageBind: 言語に基づくセマンティックアライメントによるN-モダリティへのビデオ言語事前学習 LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment ( http://arxiv.org/abs/2310.01852v7 ) ライセンス: Link先を確認 | Bin Zhu, Bin Lin, Munan Ning, Yang Yan, Jiaxi Cui, HongFa Wang, Yatian Pang, Wenhao Jiang, Junwu Zhang, Zongwei Li, Wancai Zhang, Zhifeng Li, Wei Liu, and Li Yuan | (参考訳) ビデオ言語(VL)プレトレーニングは、複数の下流タスクにおいて著しく改善されている。
しかしながら、現在のVL事前学習フレームワークは、視覚や言語を超えた複数のモーダル(Nモダリティ、N>=3)にまで拡張するのは難しい。
そこで我々は言語bindを提案し,言語モダリティは十分に探索され,豊富な意味論を含んでいるため,言語を異なるモダリティのバインドとして捉える。
具体的には、VL事前学習によって得られた言語エンコーダを凍結し、コントラスト学習を伴う他のモダリティのためのエンコーダを訓練する。
その結果、すべてのモダリティは共有機能空間にマッピングされ、マルチモーダルなセマンティックアライメントを実装する。
LanguageBindは、VLモダリティをNモダリティに拡張できることを保証する一方で、言語を中心としたデータペアをアライメントする高品質なデータセットも必要です。
そこで我々は,VIDAL-10Mをビデオ,赤外線,深度,オーディオおよびそれに対応する言語として提案し,VIDAL-10Mと命名した。
我々のVIDAL-10Mでは、すべてのビデオは長いビデオから切り離されたセグメントではなく、完全な意味を持った短いビデオプラットフォームから作成されています。
LanguageBindは、ビデオ、オーディオ、ディープ、赤外線をカバーする15のベンチマークで優れたパフォーマンスを達成した。
さらに、LanguageBindが様々なモダリティ間の間接的なアライメントと相補性を達成する上で有効であることを示す複数の実験も行われている。
コードアドレス:https://github.com/PKU-YuanGroup/LanguageBind The video-language (VL) pretraining has achieved remarkable improvement in multiple downstream tasks. However, the current VL pretraining framework is hard to extend to multiple modalities (N modalities, N>=3) beyond vision and language. We thus propose LanguageBind, taking the language as the bind across different modalities because the language modality is well-explored and contains rich semantics. Specifically, we freeze the language encoder acquired by VL pretraining, then train encoders for other modalities with contrastive learning. As a result, all modalities are mapped to a shared feature space, implementing multi-modal semantic alignment. While LanguageBind ensures that we can extend VL modalities to N modalities, we also need a high-quality dataset with alignment data pairs centered on language. We thus propose VIDAL-10M with Video, Infrared, Depth, Audio and their corresponding Language, naming as VIDAL-10M. In our VIDAL-10M, all videos are from short video platforms with complete semantics rather than truncated segments from long videos, and all the video, depth, infrared, and audio modalities are aligned to their textual descriptions. LanguageBind has achieved superior performance on a wide range of 15 benchmarks covering video, audio, depth, and infrared. Moreover, multiple experiments have provided evidence for the effectiveness of LanguageBind in achieving indirect alignment and complementarity among diverse modalities. Code address: https://github.com/PKU-YuanGroup/LanguageBind | 翻訳日:2024-01-23 20:41:27 公開日:2024-01-22 |
# ChatGPTって誰?
心理ベンチを用いたLCMの心理的ポートフォリオのベンチマーク Who is ChatGPT? Benchmarking LLMs' Psychological Portrayal Using PsychoBench ( http://arxiv.org/abs/2310.01386v2 ) ライセンス: Link先を確認 | Jen-tse Huang, Wenxuan Wang, Eric John Li, Man Ho Lam, Shujie Ren, Youliang Yuan, Wenxiang Jiao, Zhaopeng Tu, Michael R. Lyu | (参考訳) 大規模言語モデル(llm)は最近、自然言語処理タスクだけでなく、臨床医学、法務相談、教育といった様々な分野にまたがって、目覚ましい能力を見せている。
LLMは単なるアプリケーション以上のものになり、多様なユーザリクエストに対処できるアシスタントへと進化する。
これは人間と人工知能エージェントの区別を狭め、llm内の個性、気質、感情の潜在的顕現に関する興味深い疑問を提起する。
本稿では, LLMの多様な心理学的側面を評価するためのフレームワーク, PsychoBenchを提案する。
臨床心理学で一般的に用いられる13の尺度からなり、サイコベンチはこれらの尺度を、性格特性、対人関係、動機づけテスト、感情能力の4つのカテゴリーに分類する。
本研究は,SMS-davinci-003, gpt-3.5-turbo, gpt-4, LLaMA-2-7b, LLaMA-2-13bの5つの人気モデルについて検討した。
さらに,安全性アライメントプロトコルをバイパスし,llmの本質性をテストするためにジェイルブレイクアプローチを採用している。
PsychoBenchはhttps://github.com/CUHK-ARISE/PsychoBench.comで公開しています。 Large Language Models (LLMs) have recently showcased their remarkable capacities, not only in natural language processing tasks but also across diverse domains such as clinical medicine, legal consultation, and education. LLMs become more than mere applications, evolving into assistants capable of addressing diverse user requests. This narrows the distinction between human beings and artificial intelligence agents, raising intriguing questions regarding the potential manifestation of personalities, temperaments, and emotions within LLMs. In this paper, we propose a framework, PsychoBench, for evaluating diverse psychological aspects of LLMs. Comprising thirteen scales commonly used in clinical psychology, PsychoBench further classifies these scales into four distinct categories: personality traits, interpersonal relationships, motivational tests, and emotional abilities. Our study examines five popular models, namely text-davinci-003, gpt-3.5-turbo, gpt-4, LLaMA-2-7b, and LLaMA-2-13b. Additionally, we employ a jailbreak approach to bypass the safety alignment protocols and test the intrinsic natures of LLMs. We have made PsychoBench openly accessible via https://github.com/CUHK-ARISE/PsychoBench. | 翻訳日:2024-01-23 20:40:59 公開日:2024-01-22 |
# タスクパフォーマンスを超えて:インコンテキスト学習による大規模マルチモーダルモデルの欠陥の評価と低減 Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning ( http://arxiv.org/abs/2310.00647v2 ) ライセンス: Link先を確認 | Mustafa Shukor, Alexandre Rame, Corentin Dancette, Matthieu Cord | (参考訳) 大規模言語モデル(llms)の成功に続いて、フラミンゴモデルやそれに続く競合といった大規模なマルチモーダルモデル(lmm)が、ジェネラリストエージェントへの自然なステップとして現れ始めている。
しかし、最近のlmmsとの相互作用は、現在の評価ベンチマークでは捉えられない大きな制限を明らかにする。
実際、タスクパフォーマンス(例えば、VQAの精度)だけでは、実際の能力、限界、そしてそのようなモデルがどの程度人間の期待に合致しているかを理解するための十分な手がかりを提供していない。
これらの欠陥の理解を深めるため,(1)最近のオープンソースのLMMを3Bから80Bまでのパラメータスケールで評価し,幻覚,禁忌,構成性,説明可能性,指示に従う。
これらの軸に対する評価はLMMの重大な欠陥を明らかにする。
これらのモデルを調整するための現在のgo-toソリューションは、命令チューニングやrlhfのようなトレーニングに基づいているが、 (2) ソリューションとしてのトレーニングフリーのインコンテキスト学習(icl)を探求し、それがこれらの制限にどのように影響するかを研究する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLなどの多モードICL変種を提案する。
私たちの発見は以下の通りである。
1) LMM の成功にもかかわらず, スケーリング単独では未解決の欠陥がある。
2) lmms欠陥に対するiclの効果は微妙であり,説明性,回答回避性の向上に効果があるものの,iclは命令追従性がわずかに向上し,構成能力が向上せず,幻覚を増幅する。
3) 提案するicl変種は,これらの欠陥を効率的に解決するためのポストホックなアプローチとして有望である。
コードは、https://github.com/mshukor/evalign-icl。 Following the success of Large Language Models (LLMs), Large Multimodal Models (LMMs), such as the Flamingo model and its subsequent competitors, have started to emerge as natural steps towards generalist agents. However, interacting with recent LMMs reveals major limitations that are hardly captured by the current evaluation benchmarks. Indeed, task performances (e.g., VQA accuracy) alone do not provide enough clues to understand their real capabilities, limitations, and to which extent such models are aligned to human expectations. To refine our understanding of those flaws, we deviate from the current evaluation paradigm, and (1) evaluate 10 recent open-source LMMs from 3B up to 80B parameter scale, on 5 different axes; hallucinations, abstention, compositionality, explainability and instruction following. Our evaluation on these axes reveals major flaws in LMMs. While the current go-to solution to align these models is based on training, such as instruction tuning or RLHF, we rather (2) explore the training-free in-context learning (ICL) as a solution, and study how it affects these limitations. Based on our ICL study, (3) we push ICL further and propose new multimodal ICL variants such as; Multitask-ICL, Chain-of-Hindsight-ICL, and Self-Correcting-ICL. Our findings are as follows. (1) Despite their success, LMMs have flaws that remain unsolved with scaling alone. (2) The effect of ICL on LMMs flaws is nuanced; despite its effectiveness for improved explainability, answer abstention, ICL only slightly improves instruction following, does not improve compositional abilities, and actually even amplifies hallucinations. (3) The proposed ICL variants are promising as post-hoc approaches to efficiently tackle some of those flaws. The code is available here: https://github.com/mshukor/EvALign-ICL. | 翻訳日:2024-01-23 20:40:08 公開日:2024-01-22 |
# unilvseg:sparsely annotated echocardiogram videoを用いた自己教師付きテンポラルマスキングと弱い教師付きトレーニングによる統一左室セグメンテーション UniLVSeg: Unified Left Ventricular Segmentation with Sparsely Annotated Echocardiogram Videos through Self-Supervised Temporal Masking and Weakly Supervised Training ( http://arxiv.org/abs/2310.00454v2 ) ライセンス: Link先を確認 | Fadillah Maani, Asim Ukaye, Nada Saadi, Numan Saeed, Mohammad Yaqub | (参考訳) 心エコー検査は、一般的な心臓健康評価に欠かせない臨床画像モダリティとなった。
退院率などのバイオマーカーの計算から患者の心不全の確率まで、心臓とその構造を正確に区分けすることで、医師はより正確に治療を計画し実行することができる。
しかし、正確で堅牢な左室セグメンテーションを実現するには、様々な理由から時間がかかる。
本研究は,左室(lv)セグメンテーションを狭義のアノテート付き心エコービデオから確立するための新しいアプローチを提案する。
本研究では,(1)時間マスキングを用いた自己教師型学習(SSL),(2)弱教師型学習によって実現した。
3次元セグメンテーションと新しい2次元スーパーイメージ(si)の2つの異なるセグメンテーション手法を検討した。
提案手法は,大規模データセット (echonet-dynamic) 上で93.32% (95%ci 93.21-93.43%) diceスコアを効率良く達成することで,最先端ソリューションに勝ることを示す。
提案手法の有効性を示すため,事前学習設定や各種深層学習バックボーンなど,広範囲にわたるアブレーション研究を行った。
さらに,本提案手法がトレーニングプロセスにラベルなしフレームを組み込むことで高データ活用を実現する方法について考察する。
医療コミュニティにおけるAIを支援するため、ソースコードによる完全なソリューションは、受諾時に公開されます。 Echocardiography has become an indispensable clinical imaging modality for general heart health assessment. From calculating biomarkers such as ejection fraction to the probability of a patient's heart failure, accurate segmentation of the heart and its structures allows doctors to plan and execute treatments with greater precision and accuracy. However, achieving accurate and robust left ventricle segmentation is time-consuming and challenging due to different reasons. This work introduces a novel approach for consistent left ventricular (LV) segmentation from sparsely annotated echocardiogram videos. We achieve this through (1) self-supervised learning (SSL) using temporal masking followed by (2) weakly supervised training. We investigate two different segmentation approaches: 3D segmentation and a novel 2D superimage (SI). We demonstrate how our proposed method outperforms the state-of-the-art solutions by achieving a 93.32% (95%CI 93.21-93.43%) dice score on a large-scale dataset (EchoNet-Dynamic) while being more efficient. To show the effectiveness of our approach, we provide extensive ablation studies, including pre-training settings and various deep learning backbones. Additionally, we discuss how our proposed methodology achieves high data utility by incorporating unlabeled frames in the training process. To help support the AI in medicine community, the complete solution with the source code will be made publicly available upon acceptance. | 翻訳日:2024-01-23 20:39:27 公開日:2024-01-22 |
# 半導体における高ハーモニック発生後の光非古典状態-ブロッホに基づく展望 Non-classical states of light after high-harmonic generation in semiconductors: a Bloch-based perspective ( http://arxiv.org/abs/2309.14435v2 ) ライセンス: Link先を確認 | Javier Rivera-Dean, Philipp Stammer, Andrew S. Maxwell, Theocharis Lamprou, Andr\'es F. Ord\'o\~nez, Emilio Pisanty, Paraskevas Tzallas, Maciej Lewenstein, Marcelo F. Ciappina | (参考訳) 高調波発生は強磁場物理学において中心的な過程として現れ、極端紫外線とアト秒パルスを広範囲に応用する。
さらに、量子光学の分野との創発的な関係は、非古典的な光状態を生成する可能性を明らかにしている。
本稿では,ブロッホ系固体記述を用いて半導体中の高調波発生過程を量子光学的に検討する。
高次高調波測定に基づく量子演算の実装を通じて、原子系を駆動する際に見られるような古典的でない光状態の生成を実証する。
これらの状態は様々な量子光学観測器と量子情報測度を用いて特徴づけられ、電子力学がそれらの性質に与える影響を示す。
さらに, 脱落時間や結晶方位などの固体特性に対する特性の影響を解析するとともに, 駆動磁場強度の変化に対する感度の評価を行った。
本研究は半導体中のHHGとその非古典光源発生の可能性に関する知見を提供する。 High-harmonic generation has emerged as a pivotal process in strong-field physics, yielding extreme ultraviolet radiation and attosecond pulses with a wide range of applications. Furthermore, its emergent connection with the field of quantum optics has revealed its potential for generating non-classical states of light. Here, we investigate the process of high-harmonic generation in semiconductors under a quantum optical perspective while using a Bloch-based solid-state description. Through the implementation of quantum operations based on the measurement of high-order harmonics, we demonstrate the generation of non-classical light states similar to those found when driving atomic systems. These states are characterized using diverse quantum optical observables and quantum information measures, showing the influence of electron dynamics on their properties. Additionally, we analyze the dependence of their features on solid characteristics such as the dephasing time and crystal orientation, while also assessing their sensitivity to changes in driving field strength. This study provides insights into HHG in semiconductors and its potential for generating non-classical light sources. | 翻訳日:2024-01-23 20:38:00 公開日:2024-01-22 |
# 量子近似最適化アルゴリズムの対称性と次元縮小 Symmetries and Dimension Reduction in Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2309.13787v2 ) ライセンス: Link先を確認 | Boris Tsvelikhovskiy, Ilya Safro, Yuri Alexeev | (参考訳) 本稿では,問題ハミルトニアンに内在する対称性を利用して量子近似最適化アルゴリズム(qaoa)の解析を行う。
我々は、$n$-element $d$-ary stringsの集合上で定義される最適化問題の一般化された定式化に焦点を当てる。
本研究の主な貢献は,当初提案されたQAOAの次元削減である。
これらの還元は元々の QAOA と同じ問題を保っているが、ミキサーの Hamiltonian と初期状態の点で異なる。
広大な QAOA 空間は $n$ の指数スケーリングの余計な次元を持ち、ある減少 QAOA 空間は多項式函数によって支配される次元を示す。
この現象は、対応する部分空間の多項式次元に対応する分割を提供することによって示される。
その結果、削減されたQAOAパーティションは、他のものにはないユニークな古典解をカプセル化し、初期最適化問題の解数に対する低い境界を確立することができる。
提案手法はアルゴリズムの高速化に有望な実用的利点を開く。
アルゴリズムをより小さい次元のヒルベルト空間に制限すると、回路の量子シミュレーションと古典シミュレーションの両方が大幅に加速し、バレン高原問題に対処するツールとなる。 In this paper, the Quantum Approximate Optimization Algorithm (QAOA) is analyzed by leveraging symmetries inherent in problem Hamiltonians. We focus on the generalized formulation of optimization problems defined on the sets of $n$-element $d$-ary strings. Our main contribution encompasses dimension reductions for the originally proposed QAOA. These reductions retain the same problem Hamiltonian as the original QAOA but differ in terms of their mixer Hamiltonian, and initial state. The vast QAOA space has a daunting dimension of exponential scaling in $n$, where certain reduced QAOA spaces exhibit dimensions governed by polynomial functions. This phenomenon is illustrated in this paper, by providing partitions corresponding to polynomial dimensions of the corresponding subspaces. As a result, each reduced QAOA partition encapsulates unique classical solutions absent in others, allowing us to establish a lower bound on the number of solutions to the initial optimization problem. Our novel approach opens promising practical advantages in accelerating the algorithm. Restricting the algorithm to Hilbert spaces of smaller dimension may lead to significant acceleration of both quantum and classical simulation of circuits and serve as a tool to cope with barren plateaus problem. | 翻訳日:2024-01-23 20:37:44 公開日:2024-01-22 |
# 一般在庫到着ダイナミクスを用いた在庫管理政策の学習 Learning an Inventory Control Policy with General Inventory Arrival Dynamics ( http://arxiv.org/abs/2310.17168v2 ) ライセンス: Link先を確認 | Sohrab Andaz, Carson Eisenach, Dhruv Madeka, Kari Torkkola, Randy Jia, Dean Foster, Sham Kakade | (参考訳) 本稿では,一般到着ダイナミクスの存在下での在庫管理方針の学習と検証の問題点を取り上げ,これを量オーバータイム到着モデル(QOT)と呼ぶ。
また、注文量を後処理のステップとして修正して、注文最小値やバッチサイズ制約といったベンダの制約を満たすことも、実際のサプライチェーンで一般的なプラクティスです。
我々の知る限りでは、これは任意の到着ダイナミクスまたは順序量の任意の下流後処理を扱う最初の作業である。
最近の研究 (Madeka et al., 2022) に基づいて、我々は同様に周期的レビュー在庫管理問題を外因性決定プロセスとして定式化し、ほとんどの状態がエージェントの制御外にある。
Madeka et al., 2022は、歴史的データを再生してこの問題を解決するシミュレータを構築する方法を示している。
本例では,歴史再生の一環として,到着過程の深部生成モデルを組み込んだ。
問題を外因性決定プロセスとして定式化することにより、マデカらによる2022年の結果を適用し、教師付き学習の削減を図ることができる。
シミュレーション研究を通じて,本手法は生産ベースラインよりも統計的に有意な利益率向上をもたらすことを示した。
実世界のA/Bテストのデータを用いて、Gen-QOTが非政治データを一般化し、その結果、購入ポリシーが従来の在庫管理システムを現実の環境で上回ることを示す。 In this paper we address the problem of learning and backtesting inventory control policies in the presence of general arrival dynamics -- which we term as a quantity-over-time arrivals model (QOT). We also allow for order quantities to be modified as a post-processing step to meet vendor constraints such as order minimum and batch size constraints -- a common practice in real supply chains. To the best of our knowledge this is the first work to handle either arbitrary arrival dynamics or an arbitrary downstream post-processing of order quantities. Building upon recent work (Madeka et al., 2022) we similarly formulate the periodic review inventory control problem as an exogenous decision process, where most of the state is outside the control of the agent. Madeka et al., 2022 show how to construct a simulator that replays historic data to solve this class of problem. In our case, we incorporate a deep generative model for the arrivals process as part of the history replay. By formulating the problem as an exogenous decision process, we can apply results from Madeka et al., 2022 to obtain a reduction to supervised learning. Via simulation studies we show that this approach yields statistically significant improvements in profitability over production baselines. Using data from a real-world A/B test, we show that Gen-QOT generalizes well to off-policy data and that the resulting buying policy outperforms traditional inventory management systems in real world settings. | 翻訳日:2024-01-23 20:30:02 公開日:2024-01-22 |
# シュワルツシルトブラックホール近傍の量子性 Quantumness near a Schwarzschild black hole ( http://arxiv.org/abs/2310.15675v2 ) ライセンス: Link先を確認 | S. Haddadi, M. A. Yurischev, M. Y. Abd-Rabbou, M. Azizi, M. R. Pourkarimi, M. Ghominejad | (参考訳) 量子情報科学と相対性理論の融合は、ブラックホールに関連する情報の伝達を取り巻く謎を理解する新しい機会を与える。
この目的のために、シュワルツシルトブラックホール近傍の量子度をデコヒーレンスの下で実用モデルで研究する。
本論文で検討するシナリオは、平らな領域の定常粒子が周囲の粒子と相互作用し、別の粒子がシュワルツシルトブラックホールの事象の地平線付近で自由落下する、というものである。
ホーキング放射とデコヒーレンスが研究中の系に与える影響を調べ、これらの効果が量子特性の生存を阻害するが、完全に破壊できないことを発見した。
したがって、この研究の結果は、曲がりくねった時空フレームワークの中で動作している実システムの量子特性の理解に貴重な洞察を与える可能性がある。 The merging of quantum information science with the relativity theory presents novel opportunities for understanding the enigmas surrounding the transmission of information in relation to black holes. For this purpose, we study the quantumness near a Schwarzschild black hole in a practical model under decoherence. The scenario we consider in this paper is that a stationary particle in the flat region interacts with its surroundings while another particle experiences free fall in the vicinity of a Schwarzschild black hole's event horizon. We explore the impacts of Hawking radiation and decoherence on the system under investigation and find that these effects can limit the survival of quantum characteristics, but cannot destroy them completely. Hence, the results of this study possess the potential to yield valuable insights into the comprehension of the quantum properties of a real system operating within a curved space-time framework. | 翻訳日:2024-01-23 20:28:54 公開日:2024-01-22 |
# Scene-Level Supervision を用いた点雲分割用2D-3Dインターレーストランス 2D-3D Interlaced Transformer for Point Cloud Segmentation with Scene-Level Supervision ( http://arxiv.org/abs/2310.12817v2 ) ライセンス: Link先を確認 | Cheng-Kun Yang, Min-Hung Chen, Yung-Yu Chuang, Yen-Yu Lin | (参考訳) 弱制御点雲分割のための2次元データと3次元データを共同で検討するマルチモーダルインターレース変換器(MIT)を提案する。
研究によると、2Dと3Dの機能は点雲のセグメンテーションに相補的である。
しかし既存の手法では2D-3D情報融合を実現するために追加の2Dアノテーションが必要である。
点雲のアノテーションコストが高いことを考えると、弱い教師付き学習に基づく効果的な2次元および3次元特徴融合が要求される。
そこで本研究では,シーンレベルのクラスタグのみを用いた2つのエンコーダと1つのデコーダを用いたトランスフォーマモデルを提案する。
具体的には、2つのエンコーダはそれぞれ3dポイントクラウドと2dマルチビューイメージのセルフアタッチ特徴を計算する。
デコーダは、インターレースされた2D-3Dクロスアテンションを実装し、暗黙の2Dおよび3D特徴融合を実行する。
デコーダ層におけるクエリとキー-値ペアの役割を交互に切り替える。
2Dと3Dの機能は互いに反復的に豊かになっていることが判明した。
実験の結果、S3DISとScanNetのベンチマークにおいて、既存の弱制御ポイントクラウドセグメンテーション手法に対して、大きなマージンで好適に動作することが示された。
プロジェクトページはhttps://jimmy15923.github.io/mit_web/で入手できる。 We present a Multimodal Interlaced Transformer (MIT) that jointly considers 2D and 3D data for weakly supervised point cloud segmentation. Research studies have shown that 2D and 3D features are complementary for point cloud segmentation. However, existing methods require extra 2D annotations to achieve 2D-3D information fusion. Considering the high annotation cost of point clouds, effective 2D and 3D feature fusion based on weakly supervised learning is in great demand. To this end, we propose a transformer model with two encoders and one decoder for weakly supervised point cloud segmentation using only scene-level class tags. Specifically, the two encoders compute the self-attended features for 3D point clouds and 2D multi-view images, respectively. The decoder implements interlaced 2D-3D cross-attention and carries out implicit 2D and 3D feature fusion. We alternately switch the roles of queries and key-value pairs in the decoder layers. It turns out that the 2D and 3D features are iteratively enriched by each other. Experiments show that it performs favorably against existing weakly supervised point cloud segmentation methods by a large margin on the S3DIS and ScanNet benchmarks. The project page will be available at https://jimmy15923.github.io/mit_web/. | 翻訳日:2024-01-23 20:27:55 公開日:2024-01-22 |
# 無線地図推定:実証的検証と分析 Radio Map Estimation: Empirical Validation and Analysis ( http://arxiv.org/abs/2310.11036v2 ) ライセンス: Link先を確認 | Raju Shrestha, Tien Ngoc Ha, Pham Q. Viet and Daniel Romero | (参考訳) 無線地図は、受信した信号強度を地理的な地域ごとに定量化する。
無線地図の推定は広く関心を集めているが、ほとんどの作品がシミュレーションデータに依存しているため、既存のアルゴリズムの有効性と相対的な性能は確立できない。
このギャップを埋めるために,本稿では,実世界における無線地図推定(RME)の総合的かつ厳密な研究について述べる。
RME問題の主な特徴を解析し,本研究で収集した大規模測定データセットを用いて既存推定器の性能を比較した。
4つのパフォーマンス指標を研究することにより、最近の理論的知見は実証的に裏付けられ、多くの結論が導かれる。
注意すべき点として、推定誤差は測定が少なくても合理的に小さく、実際にRMEが実現可能であることが分かる。
さらに、深層ニューラルネットワークに基づく推定者は、従来の方法よりも大きなアドバンテージを示すために、大量のトレーニングデータを必要としていると結論づけた。
両方のタイプのスキームを組み合わせると、ほとんどの状況で最高のパフォーマンスを示す新しい推定器が得られる。
取得したデータセットは、さらなる研究を可能にするために公開されている。 Radio maps quantify magnitudes such as the received signal strength at every location of a geographical region. Although the estimation of radio maps has attracted widespread interest, the vast majority of works rely on simulated data and, therefore, cannot establish the effectiveness and relative performance of existing algorithms in practice. To fill this gap, this paper presents the first comprehensive and rigorous study of radio map estimation (RME) in the real world. The main features of the RME problem are analyzed and the capabilities of existing estimators are compared using large measurement datasets collected in this work. By studying four performance metrics, recent theoretical findings are empirically corroborated and a large number of conclusions are drawn. Remarkably, the estimation error is seen to be reasonably small even with few measurements, which establishes the viability of RME in practice. Besides, from extensive comparisons, it is concluded that estimators based on deep neural networks necessitate large volumes of training data to exhibit a significant advantage over more traditional methods. Combining both types of schemes is seen to result in a novel estimator that features the best performance in most situations. The acquired datasets are made publicly available to enable further studies. | 翻訳日:2024-01-23 20:27:33 公開日:2024-01-22 |
# 潜在セマンティック特徴共存による甲状腺結節の超音波画像分割 Ultrasound Image Segmentation of Thyroid Nodule via Latent Semantic Feature Co-Registration ( http://arxiv.org/abs/2310.09221v2 ) ライセンス: Link先を確認 | Xuewei Li, Yaqiao Zhu, Jie Gao, Xi Wei, Ruixuan Zhang, Yuan Tian, and ZhiQiang Liu | (参考訳) 甲状腺超音波画像における結節の分節は甲状腺癌の検出と治療において重要な役割を担っている。
しかし, 医療用画像セグメンテーションの分野において, 医療用画像セグメンテーションの分野において, 専門家レベルの精度をすでに実証している自動セグメンテーションモデルは, 臨床に現実的な環境に適用した場合の一般化性能の弱さにより, 精度が低下していることが判明した。
そこで本研究では,甲状腺結節分節の枠組みであるASTNを提案する。
甲状腺超音波画像における結節の同時登録を実現するために、アトラス及び対象画像から潜伏意味情報を抽出し、奥行き特性を利用して、解剖学的構造の整合性を確保し、異なる装置による画像の全体的差異によるセグメンテーションへの影響を低減する。
さらに,共登録の難しさを軽減するためのアトラス選択アルゴリズムも提供する。
提案手法により,各機器のデータセットから得られた評価結果から,高いセグメンテーション精度を維持しつつ,モデル一般化が大幅に改善されていることが示された。 Segmentation of nodules in thyroid ultrasound imaging plays a crucial role in the detection and treatment of thyroid cancer. However, owing to the diversity of scanner vendors and imaging protocols in different hospitals, the automatic segmentation model, which has already demonstrated expert-level accuracy in the field of medical image segmentation, finds its accuracy reduced as the result of its weak generalization performance when being applied in clinically realistic environments. To address this issue, the present paper proposes ASTN, a framework for thyroid nodule segmentation achieved through a new type co-registration network. By extracting latent semantic information from the atlas and target images and utilizing in-depth features to accomplish the co-registration of nodules in thyroid ultrasound images, this framework can ensure the integrity of anatomical structure and reduce the impact on segmentation as the result of overall differences in image caused by different devices. In addition, this paper also provides an atlas selection algorithm to mitigate the difficulty of co-registration. As shown by the evaluation results collected from the datasets of different devices, thanks to the method we proposed, the model generalization has been greatly improved while maintaining a high level of segmentation accuracy. | 翻訳日:2024-01-23 20:26:54 公開日:2024-01-22 |
# 物理誘導型ノイズニューラルプロキシによる低照度画像デノイング Physics-guided Noise Neural Proxy for Practical Low-light Raw Image Denoising ( http://arxiv.org/abs/2310.09126v2 ) ライセンス: Link先を確認 | Hansen Feng, Lizhi Wang, Yiqi Huang, Yuzhi Wang, Lin Zhu, Hua Huang | (参考訳) 近年,低照度生画像復調法を訓練する主流の実践は,合成データの利用へと移行している。
実世界のセンサのノイズ分布を特徴付けるノイズモデリングは,合成データの有効性と実用性に大きな影響を及ぼす。
現在、物理に基づくノイズモデリングは実際のノイズの分布全体を特徴付けるのに苦労しているが、学習に基づくノイズモデリングはペア化された実データに依存している。
本稿では,ペア化された実データではなく,暗黒フレームからノイズモデルを学習し,データ依存を分解する,新しい手法を提案する。
この戦略に基づいて,実世界のセンサノイズモデルを近似する物理誘導型ノイズニューラルプロキシ(PNNP)を提案する。
具体的には、物理先行を神経プロキシに統合し、物理誘導ノイズデカップリング(PND)、物理誘導プロキシモデル(PPM)、微分分布損失(DDL)の3つの効率的な手法を導入する。
PNDは暗いフレームを異なるコンポーネントに分離し、異なるレベルのノイズを柔軟に処理することで、ノイズモデリングの複雑さを低減する。
PPMは、生成したノイズを制約するために、物理的事前を組み込んでおり、ノイズモデリングの精度を高める。
DDLは、ノイズ分布の明確かつ信頼性の高い監視を提供し、ノイズモデリングの精度を高める。
pnnpは実雑音分布を特徴付ける強力なポテンシャルを示す。
公開データセットに関する広範囲な実験は、実用的な低照度raw画像デノイジングにおいて優れた性能を示している。
コードは \url{https://github.com/fenghansen/PNNP} で入手できる。 Recently, the mainstream practice for training low-light raw image denoising methods has shifted towards employing synthetic data. Noise modeling, which focuses on characterizing the noise distribution of real-world sensors, profoundly influences the effectiveness and practicality of synthetic data. Currently, physics-based noise modeling struggles to characterize the entire real noise distribution, while learning-based noise modeling impractically depends on paired real data. In this paper, we propose a novel strategy: learning the noise model from dark frames instead of paired real data, to break down the data dependency. Based on this strategy, we introduce an efficient physics-guided noise neural proxy (PNNP) to approximate the real-world sensor noise model. Specifically, we integrate physical priors into neural proxies and introduce three efficient techniques: physics-guided noise decoupling (PND), physics-guided proxy model (PPM), and differentiable distribution loss (DDL). PND decouples the dark frame into different components and handles different levels of noise flexibly, which reduces the complexity of noise modeling. PPM incorporates physical priors to constrain the generated noise, which promotes the accuracy of noise modeling. DDL provides explicit and reliable supervision for noise distribution, which promotes the precision of noise modeling. PNNP exhibits powerful potential in characterizing the real noise distribution. Extensive experiments on public datasets demonstrate superior performance in practical low-light raw image denoising. The code will be available at \url{https://github.com/fenghansen/PNNP}. | 翻訳日:2024-01-23 20:26:31 公開日:2024-01-22 |
# XYスピン鎖におけるエンタングルメント非対称性と量子Mpemba効果 Entanglement asymmetry and quantum Mpemba effect in the XY spin chain ( http://arxiv.org/abs/2310.07513v2 ) ライセンス: Link先を確認 | Sara Murciano, Filiberto Ares, Israel Klich and Pasquale Calabrese | (参考訳) エンタングルメント非対称性(英: entanglement asymmetric)は、拡張量子系の一部で対称性がどの程度壊れているかを測定するために最近導入された量である。
これは、ハミルトニアンが保存する大域的量子クエンチの後、壊れた対称性の非平衡ダイナミクスを分析するために用いられる。
本研究では,u(1)$粒子数対称性を破るxyスピン鎖の基底状態をとり,平衡におけるエンタングルメント非対称性の包括的解析を行い,超伝導クーパー対を用いてその物理的解釈を行う。
また、この基底状態からXXスピン鎖へのクエンチも考慮し、これは破れた$U(1)$対称性を保存する。
この場合、エンタングルメント非対称性は、当初対称性が破られるほど、サブシステム(量子mpemba効果の一種である驚きで直観的な現象)で復元される可能性があることを明らかにする。
我々は,この系における量子mpemba効果を観察するための微視的条件を導出し,任意の可積分量子系に対して最近提案される基準をさらに支持する,クーパー対の観点からの絡み合い非対称性の準粒子図を得る。
さらに, 対称性回復を規定する動力法則は, 初期状態が臨界かどうかに不連続に依存し, 強弱なmpemba効果の新しい形態に繋がることがわかった。 Entanglement asymmetry is a quantity recently introduced to measure how much a symmetry is broken in a part of an extended quantum system. It has been employed to analyze the non-equilibrium dynamics of a broken symmetry after a global quantum quench with a Hamiltonian that preserves it. In this work, we carry out a comprehensive analysis of the entanglement asymmetry at equilibrium taking the ground state of the XY spin chain, which breaks the $U(1)$ particle number symmetry, and provide a physical interpretation of it in terms of superconducting Cooper pairs. We also consider quenches from this ground state to the XX spin chain, which preserves the broken $U(1)$ symmetry. In this case, the entanglement asymmetry reveals that the more the symmetry is initially broken, the faster it may be restored in a subsystem, a surprising and counter-intuitive phenomenon that is a type of a quantum Mpemba effect. We obtain a quasi-particle picture for the entanglement asymmetry in terms of Cooper pairs, from which we derive the microscopic conditions to observe the quantum Mpemba effect in this system, giving further support to the criteria recently proposed for arbitrary integrable quantum systems. In addition, we find that the power law governing symmetry restoration depends discontinuously on whether the initial state is critical or not, leading to new forms of strong and weak Mpemba effects. | 翻訳日:2024-01-23 20:26:07 公開日:2024-01-22 |
# 既知の骨格を持つ有界多樹の学習 Learning bounded-degree polytrees with known skeleton ( http://arxiv.org/abs/2310.06333v2 ) ライセンス: Link先を確認 | Davin Choo, Joy Qiping Yang, Arnab Bhattacharyya, Cl\'ement L. Canonne | (参考訳) 我々は,有界多木,高次元確率分布の豊富なクラス,および広く研究されているグラフィカルモデルであるベイズネットワークのサブクラスを効率的に学習するための有限サンプル保証を確立する。
近年、Bhattacharyya et al. (2021) は木構造ベイズネットワーク、すなわち1-ポリツリーを復元するための有限サンプル保証を得た。
基礎となる非方向グラフ(スケルトン)が知られているとき、多項式時間で$d$-polytreesを学習し、任意の有界$d$のサンプル複雑性を学習する効率的なアルゴリズムを提供することで、結果を拡張する。
このアルゴリズムを,情報理論的なサンプル複雑性下限で補完し,次元や対象の精度パラメータへの依存性がほぼタイトであることを示す。 We establish finite-sample guarantees for efficient proper learning of bounded-degree polytrees, a rich class of high-dimensional probability distributions and a subclass of Bayesian networks, a widely-studied type of graphical model. Recently, Bhattacharyya et al. (2021) obtained finite-sample guarantees for recovering tree-structured Bayesian networks, i.e., 1-polytrees. We extend their results by providing an efficient algorithm which learns $d$-polytrees in polynomial time and sample complexity for any bounded $d$ when the underlying undirected graph (skeleton) is known. We complement our algorithm with an information-theoretic sample complexity lower bound, showing that the dependence on the dimension and target accuracy parameters are nearly tight. | 翻訳日:2024-01-23 20:25:42 公開日:2024-01-22 |
# テキストに基づく分解によるクリップ画像の解釈 Interpreting CLIP's Image Representation via Text-Based Decomposition ( http://arxiv.org/abs/2310.05916v3 ) ライセンス: Link先を確認 | Yossi Gandelsman, Alexei A. Efros, Jacob Steinhardt | (参考訳) CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。
我々は,個々の画像パッチ,モデルレイヤ,注意ヘッドの合計として画像表現を分解し,クリップのテキスト表現を用いて要約を解釈する。
注目ヘッドを解釈し、出力空間にまたがるテキスト表現を自動的に見つけ、多くのヘッド(例えば、位置や形状)のプロパティ固有の役割を明らかにすることで、各ヘッドの役割を特徴付ける。
次に、画像パッチを解釈し、CLIP内の創発的な空間的局在を明らかにする。
最後に、この理解を用いて、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成する。
その結果、トランスフォーマーモデルのスケーラブルな理解が実現可能であり、モデルの修復と改善に使用できることがわかった。 We investigate the CLIP image encoder by analyzing how individual model components affect the final representation. We decompose the image representation as a sum across individual image patches, model layers, and attention heads, and use CLIP's text representation to interpret the summands. Interpreting the attention heads, we characterize each head's role by automatically finding text representations that span its output space, which reveals property-specific roles for many heads (e.g. location or shape). Next, interpreting the image patches, we uncover an emergent spatial localization within CLIP. Finally, we use this understanding to remove spurious features from CLIP and to create a strong zero-shot image segmenter. Our results indicate that a scalable understanding of transformer models is attainable and can be used to repair and improve models. | 翻訳日:2024-01-23 20:25:27 公開日:2024-01-22 |
# クーロン相互作用によるヘリウム上の電子の絡み合い Coulomb interaction-driven entanglement of electrons on helium ( http://arxiv.org/abs/2310.04927v2 ) ライセンス: Link先を確認 | Niyaz R. Beysengulov, Johannes Pollanen, {\O}yvind S. Sch{\o}yen, Stian D. Bilek, Jonas B. Flaten, Oskar Leinonen, H{\aa}kon Emil Kristiansen, Zachary J. Stewart, Jared D. Weidman, Angela K. Wilson, and Morten Hjorth-Jensen | (参考訳) 量子多体系における絡み合いの生成と進化は、量子情報科学から凝縮物質、サブ原子物理学、量子化学で遭遇する量子多体系のシミュレーションまで、多分野にわたる研究の活発な領域である。
低温の希ガス基板表面上に電子を閉じ込めた量子情報処理系を最近の実験で実験した結果, クーロン相互作用による2つの電子間の絡み合いの発生について理論的に検討した。
モデル系は、2つの電子が別々の静電気トラップに閉じ込められ、運動のマイクロ波周波数量子状態を確立する。
我々は、ハミルトニアン模型を単一粒子のハートリー積基底に対して対角化することにより、電子の運動エネルギースペクトルとその絡み合いを計算する。
この計算手順は、実験的な実装のデバイス設計とガイダンスに利用できる。
特に、ここで開発された理論ツールは、超流動ヘリウムや固体ネオンの表面に閉じ込められた電子による将来の実験で制御パラメータの微調整や最適化に利用できる。 The generation and evolution of entanglement in quantum many-body systems is an active area of research that spans multiple fields, from quantum information science to the simulation of quantum many-body systems encountered in condensed matter, subatomic physics, and quantum chemistry. Motivated by recent experiments exploring quantum information processing systems with electrons trapped above the surface of cryogenic noble gas substrates, we theoretically investigate the generation of \emph{motional} entanglement between two electrons via their unscreened Coulomb interaction. The model system consists of two electrons confined in separate electrostatic traps which establish microwave frequency quantized states of their motion. We compute the motional energy spectra of the electrons, as well as their entanglement, by diagonalizing the model Hamiltonian with respect to a single-particle Hartree product basis. This computational procedure can in turn be employed for device design and guidance of experimental implementations. In particular, the theoretical tools developed here can be used for fine tuning and optimization of control parameters in future experiments with electrons trapped above the surface of superfluid helium or solid neon. | 翻訳日:2024-01-23 20:25:12 公開日:2024-01-22 |
# convolve and conquer: wiener filterとのデータ比較 Convolve and Conquer: Data Comparison with Wiener Filters ( http://arxiv.org/abs/2311.06558v2 ) ライセンス: Link先を確認 | Deborah Pelacani Cruz, George Strong, Oscar Bates, Carlos Cueto, Jiashun Yao, Lluis Guasch | (参考訳) データサンプル間の差異および/または類似性の定量的評価は、学習データ分布に関連する形状最適化問題を定義する。
現在のデータ比較法は、そのような分布を捉える際の制限や最適化に望ましい数学的性質(例えば、滑らかさ、微分可能性、凸性)を欠くことが多い。
本稿では,Wiener-filter理論にインスパイアされたペアサンプル間の相似性を測定する新しい手法を提案する。
Wienerフィルタの畳み込み特性により、グローバルに相関した方法でデータサンプルを包括的に比較できる。
データ圧縮、医用画像計算、翻訳分類、非パラメトリック生成モデリングの4つの機械学習応用において、我々のアプローチを検証する。
その結果,従来の平均二乗誤り類似実装と比較して,知覚品質とデータ忠実度が向上し,翻訳に対する堅牢性も向上した。 Quantitative evaluations of differences and/or similarities between data samples define and shape optimisation problems associated with learning data distributions. Current methods to compare data often suffer from limitations in capturing such distributions or lack desirable mathematical properties for optimisation (e.g. smoothness, differentiability, or convexity). In this paper, we introduce a new method to measure (dis)similarities between paired samples inspired by Wiener-filter theory. The convolutional nature of Wiener filters allows us to comprehensively compare data samples in a globally correlated way. We validate our approach in four machine learning applications: data compression, medical imaging imputation, translated classification, and non-parametric generative modelling. Our results demonstrate increased resolution in reconstructed images with better perceptual quality and higher data fidelity, as well as robustness against translations, compared to conventional mean-squared-error analogue implementations. | 翻訳日:2024-01-23 20:18:35 公開日:2024-01-22 |
# 変圧器に基づく系列モデルを用いたMIMO等化のインコンテキスト学習 In-Context Learning for MIMO Equalization Using Transformer-Based Sequence Models ( http://arxiv.org/abs/2311.06101v2 ) ライセンス: Link先を確認 | Matteo Zecchin, Kai Yu, Osvaldo Simeone | (参考訳) トランスフォーマーベースのアーキテクチャのような大規模な事前学習シーケンスモデルは、最近、コンテキスト内学習(ICL)を実行する能力があることが示されている。
ICLでは、新しい入力に関する決定は、入力の直接マッピングと、タスクのコンテキストとして機能する与えられたタスクから出力変数へのいくつかの例を通して行われる。
新しいタスクに決定を合わせるためにモデルパラメータの明示的な更新は必要ありません。
事前学習はメタラーニングの一形態であり、いくつかの関連するタスクから例を観察することに基づいている。
先行研究では線形回帰のためのicl能力が示されている。
本研究では,パイロットシンボルが与える文脈に基づく多入力・多出力(mimo)等化の逆問題に対処するために icl を利用する。
タスクは未知のフェーディングチャネルと、既知の信号対雑音比(SNR)レベルによって定義される。
提案手法の実用的可能性を強調するため,受信した信号の量子化の存在を許容する。
本研究では, 変圧器をベースとしたICLのしきい値挙動を数値的に示し, 事前学習タスクの数が増加するにつれて, 最小平均二乗誤差(MMSE)等化器から実データ生成前のMMSE等化器に切り替わることを示す。 Large pre-trained sequence models, such as transformer-based architectures, have been recently shown to have the capacity to carry out in-context learning (ICL). In ICL, a decision on a new input is made via a direct mapping of the input and of a few examples from the given task, serving as the task's context, to the output variable. No explicit updates of the model parameters are needed to tailor the decision to a new task. Pre-training, which amounts to a form of meta-learning, is based on the observation of examples from several related tasks. Prior work has shown ICL capabilities for linear regression. In this study, we leverage ICL to address the inverse problem of multiple-input and multiple-output (MIMO) equalization based on a context given by pilot symbols. A task is defined by the unknown fading channel and by the signal-to-noise ratio (SNR) level, which may be known. To highlight the practical potential of the approach, we allow the presence of quantization of the received signals. We demonstrate via numerical results that transformer-based ICL has a threshold behavior, whereby, as the number of pre-training tasks grows, the performance switches from that of a minimum mean squared error (MMSE) equalizer with a prior determined by the pre-trained tasks to that of an MMSE equalizer with the true data-generating prior. | 翻訳日:2024-01-23 20:18:18 公開日:2024-01-22 |
# CapST: 合成ビデオのための強化された軽量モデル属性アプローチ CapST: An Enhanced and Lightweight Model Attribution Approach for Synthetic Videos ( http://arxiv.org/abs/2311.03782v3 ) ライセンス: Link先を確認 | Wasim Ahmad, Yan-Tsung Peng, Yuan-Hao Chang, Gaddisa Olani Ganfure, Sarwar Khan, Sahibzada Adil Shahzad | (参考訳) ディープフェイクビデオはAIのフェイスウォーピング技術によって生成され、強力な偽造攻撃の可能性からかなりの注目を集めている。
既存の研究は、主に実物と偽物の区別のためのバイナリ分類に焦点を当てているが、偽の動画の特定の生成モデルを決定することは、法医学的な調査には不可欠である。
本稿では,様々なオートエンコーダモデルから派生した,最近提案されたデータセットDeepfakes from Different Models (DFDM) のDeepfakeビデオのモデル属性問題について検討する。
データセットは、エンコーダ、デコーダ、中間層、入力解像度、圧縮比の5つの異なるモデルによって生成された6,450のDeepfakeビデオからなる。
本研究では,VGG19のセグメントを特徴抽出バックボーンとして提案する多クラス分類タスクとしてDeepfakesモデル属性を定式化した。
カプセルモジュールは、ディープフェイク属性のロバストな識別のための特徴のうち複雑な階層をキャプチャする。
さらに、ビデオレベルの融合技術は、連続した特徴ベクトルを扱うために時間的注意機構を利用し、ディープフェイクビデオに固有の時間的依存性を生かしている。
フレームにまたがる洞察を集約することで、私たちのモデルはビデオコンテンツの包括的理解を獲得し、より正確な予測を可能にします。
deepfake benchmark dataset (dfdm) における実験結果は,提案手法の有効性を実証し,計算資源の少ないベースラインモデルと比較して,deepfakeビデオの精度を最大4%向上させた。 Deepfake videos, generated through AI faceswapping techniques, have garnered considerable attention due to their potential for powerful impersonation attacks. While existing research primarily focuses on binary classification to discern between real and fake videos, however determining the specific generation model for a fake video is crucial for forensic investigation. Addressing this gap, this paper investigates the model attribution problem of Deepfake videos from a recently proposed dataset, Deepfakes from Different Models (DFDM), derived from various Autoencoder models. The dataset comprises 6,450 Deepfake videos generated by five distinct models with variations in encoder, decoder, intermediate layer, input resolution, and compression ratio. This study formulates Deepfakes model attribution as a multiclass classification task, proposing a segment of VGG19 as a feature extraction backbone, known for its effectiveness in imagerelated tasks, while integrated a Capsule Network with a Spatio-Temporal attention mechanism. The Capsule module captures intricate hierarchies among features for robust identification of deepfake attributes. Additionally, the video-level fusion technique leverages temporal attention mechanisms to handle concatenated feature vectors, capitalizing on inherent temporal dependencies in deepfake videos. By aggregating insights across frames, our model gains a comprehensive understanding of video content, resulting in more precise predictions. Experimental results on the deepfake benchmark dataset (DFDM) demonstrate the efficacy of our proposed method, achieving up to a 4% improvement in accurately categorizing deepfake videos compared to baseline models while demanding fewer computational resources. | 翻訳日:2024-01-23 20:17:35 公開日:2024-01-22 |
# resnetライクなニューラルネットワークアーキテクチャによるlangevin monte carlo近似 Approximating Langevin Monte Carlo with ResNet-like Neural Network architectures ( http://arxiv.org/abs/2311.03242v2 ) ライセンス: Link先を確認 | Charles Miranda, Janina Sch\"utte, David Sommer, Martin Eigel | (参考訳) 標準正規分布など,単純な参照からのサンプルを対象のサンプルにマップするニューラルネットワークを構築し,与えられたターゲット分布からサンプルをサンプリングする。
そこで我々は,Langevin Monte Carlo (LMC)アルゴリズムにヒントを得たニューラルネットワークアーキテクチャを提案する。
LMC摂動結果に基づいて,Wasserstein-$2$距離で測定したスムーズな対数凹面対象分布に対する提案アーキテクチャの近似率を示す。
この解析は摂動lmc過程の中間測度の準ゲージ性の概念に大きく依存している。
特に、摂動に関する異なる仮定の下での中間分散プロキシの成長に関する境界を導出する。
さらに, 深部ニューラルネットワークに類似したアーキテクチャを提案し, サンプルを対象分布マップに近似するための表現性結果の導出を行う。 We sample from a given target distribution by constructing a neural network which maps samples from a simple reference, e.g. the standard normal distribution, to samples from the target. To that end, we propose using a neural network architecture inspired by the Langevin Monte Carlo (LMC) algorithm. Based on LMC perturbation results, we show approximation rates of the proposed architecture for smooth, log-concave target distributions measured in the Wasserstein-$2$ distance. The analysis heavily relies on the notion of sub-Gaussianity of the intermediate measures of the perturbed LMC process. In particular, we derive bounds on the growth of the intermediate variance proxies under different assumptions on the perturbations. Moreover, we propose an architecture similar to deep residual neural networks and derive expressivity results for approximating the sample to target distribution map. | 翻訳日:2024-01-23 20:16:29 公開日:2024-01-22 |
# ホーキング放射による情報回復の忠実度のゆらぎ Fluctuation in the Fidelity of Information Recovery from Hawking Radiation ( http://arxiv.org/abs/2311.02881v2 ) ライセンス: Link先を確認 | Masamichi Miyaji, Kazuyoshi Yano | (参考訳) 純粋な状態のブラックホールの内部は、放出されたホーキング放射を十分に大量に集めてpetzマップから再構成することが知られている。
これは、重力理論に関する平均的なアンサンブルから生まれたユークリッドのレプリカワームホールに基づいている。
一方、これはページ曲線と内部再構成がともにアンサンブル平均であることを意味するため、大きな誤差が生じる可能性がある。
前の研究 [bousso, miyaji (2023)] では、ホーキング放射のエントロピーが次数 $e^{-s_{\mathbf{bh}}} のゆらぎを持つことが示されており、アンサンブルでは典型的である。
本稿では,エンコーディングマップにおける相対エントロピー差のゆらぎと,petzマップのエンタングルメント忠実度が,信号と比較してそれぞれ$e^{-s_{\mathbf{bh}}}$で抑えられ,アンサンブルの典型性が確立されることを示す。
さらに,符号化マップの絡み合い損失も計算する。 The interior of a pure-state black hole is known to be reconstructed from the Petz map by collecting a sufficiently large amount of the emitted Hawking radiation. This was established based on the Euclidean replica wormhole, which comes from an ensemble averaging over gravitational theories. On the other hand, this means that the Page curve and the interior reconstruction are both ensemble averages; thus, there is a possibility of large errors. In the previous study [Bousso, Miyaji (2023)], it was shown that the entropy of the Hawking radiation has fluctuation of order $e^{-S_{\mathbf{BH}}}$, thus is typical in the ensemble. In the present article, we show that the fluctuations of the relative entropy difference in the encoding map and the entanglement fidelity of the Petz map are both suppressed by $e^{-S_{\mathbf{BH}}}$ compared to the signals, establishing the typicality in the ensemble. In addition, we also compute the entanglement loss of the encoding map. | 翻訳日:2024-01-23 20:16:16 公開日:2024-01-22 |
# 量子メモリのための六方晶窒化ホウ素の欠陥の電子遷移の同定 Identifying electronic transitions of defects in hexagonal boron nitride for quantum memories ( http://arxiv.org/abs/2310.20645v2 ) ライセンス: Link先を確認 | Chanaprom Cholsuk, Asli Cakan, Sujin Suwanna, Tobias Vogl | (参考訳) 量子メモリは、大規模量子ネットワークを実現する上で重要な鍵となる。
実用的な実装に適用するには、特定の特性、すなわち、長いストレージ時間、他のシステムとの選択的効率的な結合、高いメモリ効率が望ましい。
これまで多くの量子メモリシステムが開発されてきたが、どれも全ての要件を満たすことはできない。
本研究は,六方晶窒化ホウ素 (hbn) における色中心に基づく量子メモリを提案する。
密度汎関数理論計算、257三重項、211個の一重項スピン電子遷移について検討した。
これらの欠陥のうち、ラマン型量子メモリに望ましい$\Lambda$電子構造を継承する欠陥や、光学遷移が他の量子システムと結合できることが判明した。
さらに、欠陥ごとに必要な品質係数と帯域幅を調べ、95%の書き込み効率を実現する。
両方のパラメータは、欠陥状態の放射遷移速度に影響される。
加えて、三重項スピン多重性は量子センシング、特に光学的に検出された磁気共鳴の可能性を示している。
この研究は、将来の量子ネットワークにおける量子メモリとしてのhBN欠陥の潜在的使用を実証する。 A quantum memory is a crucial keystone for enabling large-scale quantum networks. Applicable to the practical implementation, specific properties, i.e., long storage time, selective efficient coupling with other systems, and a high memory efficiency are desirable. Though many quantum memory systems are developed thus far, none of them can perfectly meet all requirements. This work herein proposes a quantum memory based on color centers in hexagonal boron nitride (hBN), where its performance is evaluated based on a simple theoretical model of suitable defects in a cavity. Employing density functional theory calculations, 257 triplet and 211 singlet spin electronic transitions are investigated. Among these defects, it is found that some defects inherit the $\Lambda$ electronic structures desirable for a Raman-type quantum memory and optical transitions can couple with other quantum systems. Further, the required quality factor and bandwidth are examined for each defect to achieve a 95% writing efficiency. Both parameters are influenced by the radiative transition rate in the defect state. In addition, inheriting triplet-singlet spin multiplicity indicates the possibility of being a quantum sensing, in particular, optically detected magnetic resonance. This work therefore demonstrates the potential usage of hBN defects as a quantum memory in future quantum networks. | 翻訳日:2024-01-23 20:14:48 公開日:2024-01-22 |
# キャンパスネットワーク上のエンタングルメントに基づく量子デジタル署名 Entanglement-based quantum digital signatures over deployed campus network ( http://arxiv.org/abs/2310.19457v2 ) ライセンス: Link先を確認 | Joseph C. Chapman, Muneer Alshowkan, Bing Qi, Nicholas A. Peters | (参考訳) 量子デジタル署名プロトコルは、今日のデジタル世界において、公開鍵デジタル署名のほとんどの側面を置き換えるものである。
量子デジタル署名プロトコルの大きな利点は、公開鍵暗号ではできないのに対して、情報理論のセキュリティを持つことができることである。
ここでは,ハードウェアの実証と特徴付けを行い,キャンパスネットワーク上での絡み合いに基づく量子デジタル署名の実装を行う。
25時間以上、我々はキャンパスネットワークで測定を行い、量子ビット誤り率を十分に低く(ほとんどの場合)測定し、原理的には50km以上の量子デジタルシグネチャを、我々の実装のために開発されたノイズモデルに付随して厳密なシミュレーションによって実現している。
これらの結果は、量子デジタル署名をデプロイされたファイバ上でうまく利用することができることを示している。
さらに,本報告手法はユーザ数に対して高い柔軟性を提供するが,ユーザ毎の絡み合い率を低下させる。
最後に、エンタングルメントベースアプローチの現在の実装はシグネチャレートが低いが、実現可能なアップグレードはシグネチャレートを大幅に増加させるだろう。 The quantum digital signature protocol offers a replacement for most aspects of public-key digital signatures ubiquitous in today's digital world. A major advantage of a quantum-digital-signatures protocol is that it can have information-theoretic security, whereas public-key cryptography cannot. Here we demonstrate and characterize hardware to implement entanglement-based quantum digital signatures over our campus network. Over 25 hours, we collect measurements on our campus network, where we measure sufficiently low quantum bit error rates (<5% in most cases) which in principle enable quantum digital signatures at over 50 km as shown through rigorous simulation accompanied by a noise model developed specifically for our implementation. These results show quantum digital signatures can be successfully employed over deployed fiber. Moreover, our reported method provides great flexibility in the number of users, but with reduced entanglement rate per user. Finally, while the current implementation of our entanglement-based approach has a low signature rate, feasible upgrades would significantly increase the signature rate. | 翻訳日:2024-01-23 20:13:56 公開日:2024-01-22 |
# ALEXR: Convex Finite-Sum Coupled compositional Stochastic Optimizationのための最適単ループアルゴリズム ALEXR: An Optimal Single-Loop Algorithm for Convex Finite-Sum Coupled Compositional Stochastic Optimization ( http://arxiv.org/abs/2312.02277v2 ) ライセンス: Link先を確認 | Bokun Wang and Tianbao Yang | (参考訳) 本稿では,群分布的ロバスト最適化(gdro),不均衡データを用いた学習,強化学習,ランク付けへの学習など,多くのアプリケーションを用いた凸有限和結合合成確率最適化(cfcco)の問題を再検討する。
これらの問題を解決するために、ALEXRと呼ばれる効率的な単ループプリマル・デュアルブロック座標近似アルゴリズムを導入する。
このアルゴリズムは、主変数の二重変数および確率的近位勾配降下更新に対するブロック座標確率鏡の上昇更新を利用する。
我々は, ALEXR の凸面および強凸面における収束速度を, 関連関数の滑らかさおよび非平滑性条件下で確立し, これまでの滑らかな CFCCO 問題における最良の速度を改善するだけでなく, GDRO の双対形式のようなより困難な非平滑性問題の解法として cFCCO の領域を拡大する。
最後に, cfcco問題に対する一階ブロック座標確率アルゴリズムにおいて, アレクサの収束率が最適であることを示すために, より低い複雑性境界を示す。 This paper revisits a class of convex Finite-Sum Coupled Compositional Stochastic Optimization (cFCCO) problems with many applications, including group distributionally robust optimization (GDRO), learning with imbalanced data, reinforcement learning, and learning to rank. To better solve these problems, we introduce an efficient single-loop primal-dual block-coordinate proximal algorithm, dubbed ALEXR. This algorithm leverages block-coordinate stochastic mirror ascent updates for the dual variable and stochastic proximal gradient descent updates for the primal variable. We establish the convergence rates of ALEXR in both convex and strongly convex cases under smoothness and non-smoothness conditions of involved functions, which not only improve the best rates in previous works on smooth cFCCO problems but also expand the realm of cFCCO for solving more challenging non-smooth problems such as the dual form of GDRO. Finally, we present lower complexity bounds to demonstrate that the convergence rates of ALEXR are optimal among first-order block-coordinate stochastic algorithms for the considered class of cFCCO problems. | 翻訳日:2024-01-23 20:08:06 公開日:2024-01-22 |
# 量子近似最適化アルゴリズムのための断熱パッセージに基づくパラメータ設定 Adiabatic-Passage-Based Parameter Setting for Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2312.00077v3 ) ライセンス: Link先を確認 | Mingyou Wu, Hanwu Chen | (参考訳) 量子近似最適化アルゴリズム(QAOA)は、組合せ最適化問題に対処する大きな可能性を示す。
短期量子デバイスへの期待にもかかわらず、QAOAを適用する上での大きな課題は、パラメータ最適化に関連する回路実行コストにある。
パラメータ設定の既存の方法は、QAOAの深さpに関する少なくとも超線形コストを生じる。
本研究では, 3SAT 問題に適用した場合の最適化コストを, サブリニアレベルに著しく低減する, 拡張型パスベースのパラメータ設定手法を提案する。
特定の問題のランダムモデルの解析から始め,問題ハミルトニアンに対して問題依存前処理を適用し,問題の規模からパラメータの大きさを効果的に分離する。
これにより、最適化コストや事前計算を伴わずに問題のない初期化が実現される。
さらに、最適断熱通路の連続性に基づいてパラメータ空間を調整し、QAOAの隣接層間のパラメータの相違を低減させる。
この連続性を活用することにより、準最適パラメータを見つけるコストは、サブ線形レベルに大幅に削減される。 The Quantum Approximate Optimization Algorithm (QAOA) exhibits significant potential for tackling combinatorial optimization problems. Despite its promise for near-term quantum devices, a major challenge in applying QAOA lies in the cost of circuit runs associated with parameter optimization. Existing methods for parameter setting generally incur at least a superlinear cost concerning the depth p of QAOA. In this study, we propose a novel adiabatic-passage-based parameter setting method that remarkably reduces the optimization cost, specifically when applied to the 3-SAT problem, to a sublinear level. Beginning with an analysis of the random model of the specific problem, this method applies a problem-dependent preprocessing on the problem Hamiltonian analytically, effectively segregating the magnitude of parameters from the scale of the problem. Consequently, a problem-independent initialization is achieved without incurring any optimization cost or pre-computation. Furthermore, the parameter space is adjusted based on the continuity of the optimal adiabatic passage, resulting in a reduction in the disparity of parameters between adjacent layers of QAOA. By leveraging this continuity, the cost to find quasi-optimal parameters is significantly reduced to a sublinear level. | 翻訳日:2024-01-23 20:07:08 公開日:2024-01-22 |
# アノテーション感性:訓練データ収集手法がモデル性能に与える影響 Annotation Sensitivity: Training Data Collection Methods Affect Model Performance ( http://arxiv.org/abs/2311.14212v3 ) ライセンス: Link先を確認 | Christoph Kern, Stephanie Eckman, Jacob Beck, Rob Chew, Bolei Ma, Frauke Kreuter | (参考訳) ヒューマンアノテータからトレーニングデータを収集する場合、アノテーション機器の設計、アノテータに与えられる指示、アノテータの特性、それらの相互作用はトレーニングデータに影響を与える可能性がある。
本研究は,アノテーション楽器作成時の設計選択が,結果のアノテーションに基づいてトレーニングされたモデルにも影響を与えることを実証する。
アノテーションの感度という用語を導入し、アノテーションデータ収集メソッドがアノテーション自身と下流モデルのパフォーマンスと予測に与える影響について紹介する。
アノテーション装置の5つの実験条件においてヘイトスピーチと攻撃的言語のアノテーションを収集し,アノテータを条件にランダムに割り当てる。
次に、得られた5つのデータセットのそれぞれでBERTモデルを微調整し、各条件のホールドアウト部分でモデル性能を評価する。
条件によってかなり異なることが分かりました
1)ヘイトスピーチ/違反言語アノテーションの共有
2)モデル性能
3)モデル予測,及び
4)モデル学習曲線。
本研究は,機械学習の文献にはほとんど注目されていない楽器が果たす重要な役割を強調した。
楽器設計におけるベストプラクティスの発展を知らせるために,アノテーションにどのような影響を与えるのか,またその理由について,さらなる研究を求めている。 When training data are collected from human annotators, the design of the annotation instrument, the instructions given to annotators, the characteristics of the annotators, and their interactions can impact training data. This study demonstrates that design choices made when creating an annotation instrument also impact the models trained on the resulting annotations. We introduce the term annotation sensitivity to refer to the impact of annotation data collection methods on the annotations themselves and on downstream model performance and predictions. We collect annotations of hate speech and offensive language in five experimental conditions of an annotation instrument, randomly assigning annotators to conditions. We then fine-tune BERT models on each of the five resulting datasets and evaluate model performance on a holdout portion of each condition. We find considerable differences between the conditions for 1) the share of hate speech/offensive language annotations, 2) model performance, 3) model predictions, and 4) model learning curves. Our results emphasize the crucial role played by the annotation instrument which has received little attention in the machine learning literature. We call for additional research into how and why the instrument impacts the annotations to inform the development of best practices in instrument design. | 翻訳日:2024-01-23 20:04:36 公開日:2024-01-22 |
# 強化学習エージェントの政策教師としての大規模言語モデル Large Language Model as a Policy Teacher for Training Reinforcement Learning Agents ( http://arxiv.org/abs/2311.13373v4 ) ライセンス: Link先を確認 | Zihao Zhou, Bin Hu, Chenyang Zhao, Pu Zhang, Bin Liu | (参考訳) 近年,大規模言語モデル (llm) が高レベル命令の提供を通じて複雑な逐次的意思決定タスクに取り組む可能性を見出した。
しかし、LSMをベースとしたエージェントは、特にリアルタイムな動的環境において、特定のターゲット問題に対処する専門性を欠いている。
加えて、LCMベースのエージェントを実践的なシナリオにデプロイすることは、コストと時間の両方を要します。
一方、強化学習(RL)は、目標タスクを専門とする訓練エージェントにアプローチするが、サンプリング効率が低く、探索コストも高い。
本稿では,LLMベースの教師エージェントからの指示を用いて,より小規模で専門的なRLエージェントを訓練することで,これらの課題に対処する新しいフレームワークを提案する。
教師エージェントからの指導を取り入れることで、学生エージェントはLLMの事前知識を独自のモデルに抽出することができる。
これにより、学生エージェントを著しく少ないデータで訓練することができる。
さらに、環境フィードバックによるさらなるトレーニングを通じて、学生エージェントは、目標タスクを完了するための教師の能力を上回る。
我々は,AI研究に特化して設計されたMiniGridとHabitat環境の挑戦実験を行い,フレームワークの有効性を評価した。
その結果,本手法は強いベースライン法に比べて優れた性能を示した。
私たちのコードはhttps://github.com/ZJLAB-AMMI/LLM4Teachで利用可能です。 Recent studies have uncovered the potential of Large Language Models (LLMs) in addressing complex sequential decision-making tasks through the provision of high-level instructions. However, LLM-based agents lack specialization in tackling specific target problems, particularly in real-time dynamic environments. Additionally, deploying an LLM-based agent in practical scenarios can be both costly and time-consuming. On the other hand, reinforcement learning (RL) approaches train agents that specialize in the target task but often suffer from low sampling efficiency and high exploration costs. In this paper, we introduce a novel framework that addresses these challenges by training a smaller, specialized student RL agent using instructions from an LLM-based teacher agent. By incorporating the guidance from the teacher agent, the student agent can distill the prior knowledge of the LLM into its own model. Consequently, the student agent can be trained with significantly less data. Moreover, through further training with environment feedback, the student agent surpasses the capabilities of its teacher for completing the target task. We conducted experiments on challenging MiniGrid and Habitat environments, specifically designed for embodied AI research, to evaluate the effectiveness of our framework. The results clearly demonstrate that our approach achieves superior performance compared to strong baseline methods. Our code is available at https://github.com/ZJLAB-AMMI/LLM4Teach. | 翻訳日:2024-01-23 20:04:15 公開日:2024-01-22 |
# NLPとソフトウェア工学の視点を統一する: コードの言語モデルに関する調査 Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code ( http://arxiv.org/abs/2311.07989v4 ) ライセンス: Link先を確認 | Ziyin Zhang and Chaoyu Chen and Bingchang Liu and Cong Liao and Zi Gong and Hang Yu and Jianguo Li and Rui Wang | (参考訳) 本稿では,50以上のモデル,30以上の評価タスク,170以上のデータセット,700以上の関連作業を含む,言語モデルによるコード処理の最近の進歩を体系的にレビューする。
私たちは、コード処理モデルをgptファミリに代表される一般的な言語モデルと、特にコードで事前学習される特殊なモデルに分解します。
これらのモデルとの関係と相違について考察し,nlpが実施したのと全く同じ方法で,統計モデルやrnnから事前学習されたトランスフォーマーやllmへのコードモデリングの歴史的変遷を強調する。
また、ast、cfg、ユニットテストといったコード固有の機能や、コード言語モデルをトレーニングするアプリケーションについても議論し、このドメインにおける重要な課題と将来的な方向性を特定します。
私たちは調査をオープンにし、githubのhttps://github.com/codefuse-ai/awesome-code-llmで更新しています。 In this work we systematically review the recent advancements in code processing with language models, covering 50+ models, 30+ evaluation tasks, 170+ datasets, and 700+ related works. We break down code processing models into general language models represented by the GPT family and specialized models that are specifically pretrained on code, often with tailored objectives. We discuss the relations and differences between these models, and highlight the historical transition of code modeling from statistical models and RNNs to pretrained Transformers and LLMs, which is exactly the same course that had been taken by NLP. We also discuss code-specific features such as AST, CFG, and unit tests, along with their application in training code language models, and identify key challenges and potential future directions in this domain. We keep the survey open and updated on GitHub at https://github.com/codefuse-ai/Awesome-Code-LLM. | 翻訳日:2024-01-23 20:02:19 公開日:2024-01-22 |
# 光キャビティにおける分子振動-偏光子ダイナミクスの半古典的トリュニング-ウィグナー近似理論 Semiclassical truncated-Wigner-approximation theory of molecular-vibration-polariton dynamics in optical cavities ( http://arxiv.org/abs/2311.07827v2 ) ライセンス: Link先を確認 | Nguyen Thanh Phuc | (参考訳) 分子振動と赤外線キャビティモードの強い結合によって形成される分子振動ポラリトンは、様々な分子系の物理的性質と化学的反応性を著しく変化させることが実験的に証明されている。
しかしながら、修飾の基盤となるメカニズムの完全な理論的理解は、ハイブリッド系の複雑さ、特に多くの分子を含む系における分極状態の集合的性質により、まだ解明されていない。
ここでは、大きな分子系で扱いやすい切断ウィグナー近似(twa)に基づく分子振動偏光子ダイナミクスの半古典理論を開発し、光空洞内の光子の量子特性を同時に捉える。
この理論は、基底状態モースポテンシャルを持ち、超強結合状態の赤外線キャビティモードに強く結合した同一二原子分子系の核量子力学の研究に応用される。
TWAの妥当性は、双極子とクーロンゲージの2つの異なる初期状態に対する単一分子系の完全な量子力学と比較することによって検証される。
クーロンゲージの光物質絡み合い状態に対応する双極子ゲージの初期テンソル生成基底状態については、多くの分子系の系において分子振動偏光子生成の集団的および共鳴効果が観察される。 It has been experimentally demonstrated that molecular-vibration polaritons formed by strong coupling of a molecular vibration to an infrared cavity mode can significantly modify the physical properties and chemical reactivity of various molecular systems. However, a complete theoretical understanding of the underlying mechanisms of the modifications remains elusive due to the complexity of the hybrid system, especially the collective nature of polaritonic states in systems containing many molecules. We develop here the semiclassical theory of molecular-vibration-polariton dynamics based on the truncated Wigner approximation (TWA) that is tractable in large molecular systems and simultaneously captures the quantum character of photons in the optical cavity. The theory is then applied to investigate the nuclear quantum dynamics of a system of identical diatomic molecules having the ground-state Morse potential and strongly coupled to an infrared cavity mode in the ultrastrong coupling regime. The validity of TWA is examined by comparing it with the fully quantum dynamics of a single-molecule system for two different initial states in the dipole and Coulomb gauges. For the initial tensor-product ground state in the dipole gauge, which corresponds to a light-matter entangled state in the Coulomb gauge, the collective and resonance effects of molecular-vibration-polariton formation on the nuclear dynamics are observed in a system of many molecules. | 翻訳日:2024-01-23 20:02:02 公開日:2024-01-22 |
# 光学系を用いた量子温度測定 Quantum thermometry with an optomechanical system ( http://arxiv.org/abs/2312.15691v2 ) ライセンス: Link先を確認 | Asghar Ullah, Ali Pedram, M. Tahir Naseem, \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu | (参考訳) 熱浴の未知温度を測定するための機械共振器と結合した光学場からなる光学系を用いた量子温度測定法を提案する。
これを実現するために、熱浴とメカニカル共振器を接続し、光学場の測定を行い、プローブ温度計として機能する。
オープン量子システムアプローチを用いて、プローブの量子フィッシャー情報を数値計算する。
特定のパラメータレジームにおいて、システムは実質的なエネルギーギャップと相互作用する密集したエネルギー固有状態のクラスターを示す。
このエネルギーレベルのクラスタリングは、これらのエネルギー固有状態群内の準退化をもたらすため、温度推定の操作範囲を広げる。
さらに、本質的なシステムパラメータを適切に調整することで、特に低温の熱感度をさらに高めることができる。 We present a quantum thermometry method utilizing an optomechanical system composed of an optical field coupled to a mechanical resonator for measuring the unknown temperature of a thermal bath. To achieve this, we connect a thermal bath to the mechanical resonator and perform measurements on the optical field, serving as a probe thermometer. Using the open quantum systems approach, we numerically calculate the quantum Fisher information for the probe. We find that, in specific parameter regimes, the system exhibits clusters of densely packed energy eigenstates interspaced with substantial energy gaps. This clustering of energy levels results in quasi-degeneracy within these energy eigenstate groups and hence widens the operational range of temperature estimation. Moreover, thermal sensitivity, especially at low temperatures, can be further boosted by appropriately tuning the essential system parameters. | 翻訳日:2024-01-23 19:55:32 公開日:2024-01-22 |
# 記憶効率向上のための鍛造トークン Forging Tokens for Improved Storage-efficient Training ( http://arxiv.org/abs/2312.10105v2 ) ライセンス: Link先を確認 | Minhyun Lee, Song Park, Byeongho Heo, Dongyoon Han, Hyunjung Shim | (参考訳) 近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。
しかし、高度に一般化可能で高性能なビジョンモデルを実現するには、広範なデータセットが必要であるため、大きなストレージ要求が生じる。
このストレージの課題は、ビジョンモデルをスケールアップする上で重要なボトルネックとなる。
離散表現の成功に動機づけられたseitは、視覚分類のネットワーク入力としてベクトル量子化(vq)特徴ベクトル(トークン)を使用することを提案する。
しかし、従来のデータ拡張をトークンに適用することは、入力ドメインシフトによる課題に直面します。
この問題を解決するために、トークンベースの拡張戦略であるTokenAdaptとColorAdaptを紹介します。
TokenAdaptは、空間拡張と互換性のあるトークン埋め込みスペースを具現化し、微調整を必要とせずにモデルの効率を維持する。
さらにColorAdaptは、Adaptive Instance Normalization (AdaIN)にインスパイアされたトークンのカラーベースの拡張に対処する。
我々は,ストレージ効率の高いimagenet-1k分類,細粒度分類,ロバスト性ベンチマーク,ade-20kセマンティクスセグメンテーションなど,さまざまなシナリオでアプローチを評価した。
実験結果は多様な実験において一貫した性能向上を示す。
コードはhttps://github.com/naver-ai/tokenadaptで入手できる。 Recent advancements in Deep Neural Network (DNN) models have significantly improved performance across computer vision tasks. However, achieving highly generalizable and high-performing vision models requires extensive datasets, leading to large storage requirements. This storage challenge poses a critical bottleneck for scaling up vision models. Motivated by the success of discrete representations, SeiT proposes to use Vector-Quantized (VQ) feature vectors (i.e., tokens) as network inputs for vision classification. However, applying traditional data augmentations to tokens faces challenges due to input domain shift. To address this issue, we introduce TokenAdapt and ColorAdapt, simple yet effective token-based augmentation strategies. TokenAdapt realigns token embedding space for compatibility with spatial augmentations, preserving the model's efficiency without requiring fine-tuning. Additionally, ColorAdapt addresses color-based augmentations for tokens inspired by Adaptive Instance Normalization (AdaIN). We evaluate our approach across various scenarios, including storage-efficient ImageNet-1k classification, fine-grained classification, robustness benchmarks, and ADE-20k semantic segmentation. Experimental results demonstrate consistent performance improvement in diverse experiments. Code is available at https://github.com/naver-ai/tokenadapt. | 翻訳日:2024-01-23 19:54:03 公開日:2024-01-22 |
# chatgptは入門プログラミングコースで教育アシスタントの役割を果たすことができるか? Can ChatGPT Play the Role of a Teaching Assistant in an Introductory Programming Course? ( http://arxiv.org/abs/2312.07343v2 ) ライセンス: Link先を確認 | Anishka, Atharva Mehta, Nipun Gupta, Aarav Balachandran, Dhruv Kumar, Pankaj Jalote | (参考訳) 大規模言語モデル(LLM)の出現は、教育に大きな影響を与えることが期待される。
本稿では,LLMであるChatGPTを,導入プログラミングコースにおける仮想指導支援(TA)として活用する可能性について検討する。
そこで我々は,ChatGPTの性能を人間のTAの機能と比較することにより評価した。
対象とするta機能には,(1)学生コード提出の成績評価,(2)導入型プログラミングコースにおける大学生へのフィードバックの提供,などが含まれる。
まず,chatgptの成績を,与えられた評価用ルーブリックを用いて評価し,人間のtasに割り当てられた成績と比較する。
次に、ChatGPTが提供するフィードバックの品質と関連性を分析する。
この評価は、ChatGPTがいかにミスに対処するかを考察し、コードの正しさとコード品質の両方の観点から、学生ソリューションの改善を提案する。
そこで我々は,ChatGPTをコンピュータ教育に組み込むことが,学習の自動化,個別化,教育支援にもたらす意味について論じる。 The emergence of Large language models (LLMs) is expected to have a major impact on education. This paper explores the potential of using ChatGPT, an LLM, as a virtual Teaching Assistant (TA) in an Introductory Programming Course. We evaluate ChatGPT's capabilities by comparing its performance with that of human TAs in some of the important TA functions. The TA functions which we focus on include (1) grading student code submissions, and (2) providing feedback to undergraduate students in an introductory programming course. Firstly, we assess ChatGPT's proficiency in grading student code submissions using a given grading rubric and compare its performance with the grades assigned by human TAs. Secondly, we analyze the quality and relevance of the feedback provided by ChatGPT. This evaluation considers how well ChatGPT addresses mistakes and offers suggestions for improvement in student solutions from both code correctness and code quality perspectives. We conclude with a discussion on the implications of integrating ChatGPT into computing education for automated grading, personalized learning experiences, and instructional support. | 翻訳日:2024-01-23 19:53:16 公開日:2024-01-22 |
# 期待以上のリターン:強化学習アルゴリズムの評価における政策再現性会計 Beyond Expected Return: Accounting for Policy Reproducibility when Evaluating Reinforcement Learning Algorithms ( http://arxiv.org/abs/2312.07178v2 ) ライセンス: Link先を確認 | Manon Flageat, Bryan Lim, Antoine Cully | (参考訳) 強化学習(RL)における多くの応用は、通常、環境にノイズや確率性が存在する。
学習への影響の他に、これらの不確実性は、全く同じ方針を導いており、すなわち、あるロールアウトから別のロールアウトへ異なるリターンをもたらす。
RL の一般的な評価手順は、その分布の拡散を考慮しない期待値のみを用いて、連続した戻り値分布を要約する。
私たちの研究では、この広がりをポリシー再現性と定義しています。 ポリシーが何回もロールアウトされた時に同様のパフォーマンスを得る能力は、現実のアプリケーションにおいて重要な特性です。
期待されるリターンのみを使用する既存のプロシージャは、2つの面で制限されている: まず、幅広い性能再現性トレードオフを持つ無限数のリターン分布は同じリターンを持つことができ、ポリシーの比較に使用する場合の有効性を制限する。
そこで本研究では,要求される性能再現性トレードオフを選択するための選好パラメータをユーザに提供するベイズ最適化の指標であるlower confidence boundの使用を推奨することで,これらの制限に対処する。
また、ポリシ再現性を定式化し定量化し、一般的なRLタスクに対する一般的なRLアルゴリズムの広範な実験を用いて、メトリクスの利点を実証する。 Many applications in Reinforcement Learning (RL) usually have noise or stochasticity present in the environment. Beyond their impact on learning, these uncertainties lead the exact same policy to perform differently, i.e. yield different return, from one roll-out to another. Common evaluation procedures in RL summarise the consequent return distributions using solely the expected return, which does not account for the spread of the distribution. Our work defines this spread as the policy reproducibility: the ability of a policy to obtain similar performance when rolled out many times, a crucial property in some real-world applications. We highlight that existing procedures that only use the expected return are limited on two fronts: first an infinite number of return distributions with a wide range of performance-reproducibility trade-offs can have the same expected return, limiting its effectiveness when used for comparing policies; second, the expected return metric does not leave any room for practitioners to choose the best trade-off value for considered applications. In this work, we address these limitations by recommending the use of Lower Confidence Bound, a metric taken from Bayesian optimisation that provides the user with a preference parameter to choose a desired performance-reproducibility trade-off. We also formalise and quantify policy reproducibility, and demonstrate the benefit of our metrics using extensive experiments of popular RL algorithms on common uncertain RL tasks. | 翻訳日:2024-01-23 19:52:58 公開日:2024-01-22 |
# lisa++: 大きな言語モデルによる推論セグメンテーションのためのベースラインの改善 LISA++: An Improved Baseline for Reasoning Segmentation with Large Language Model ( http://arxiv.org/abs/2312.17240v3 ) ライセンス: Link先を確認 | Senqiao Yang and Tianyuan Qu and Xin Lai and Zhuotao Tian and Bohao Peng and Shu Liu and Jiaya Jia | (参考訳) lisaは、セグメンテーションと大きな言語モデルの間のギャップを効果的に橋渡しして、推論セグメンテーションを可能にするが、ターゲット領域の異なるインスタンスを区別できず、事前定義されたテキスト応答フォーマットによって制約されるという、いくつかの制限がある。
本稿では,既存のLISAモデルの更新であるLISA++を紹介する。
LISA++の主な機能拡張は以下のとおりである。 \textbf{1) Enhanced Segmentation}: インスタンスセグメンテーション機能が追加され、既存のマルチリージョンセグメンテーションとともに、より詳細なシーン分析が提供される。
\textbf{2) More Natural Conversation}: セグメンテーション結果を直接テキスト応答に組み込む機能、すなわちSegmentation in Dialogue (SiD)。
これらの改善は、構造的な変更やデータソースを追加せずにセグメンテーションと会話スキルを強化することを目的とした、ジェネリックセグメンテーションデータセットの既存のサンプルをキュレートすることで達成される。
元のLISAモデルとの比較分析は、これらの領域において大きな進歩を示し、LISA++を視覚的理解と相互作用の顕著なアップグレードとして位置づけている。
LISA++の適応性と改良された機能は、LISAが提案したマスク・アズ・エンベッド・パラダイムの汎用性と、多様なアプリケーションの基盤モデルとしての可能性を強調している。 While LISA effectively bridges the gap between segmentation and large language models to enable reasoning segmentation, it poses certain limitations: unable to distinguish different instances of the target region, and constrained by the pre-defined textual response formats. In this work, we introduce LISA++, an update to the existing LISA model, focusing on improving core functionalities while keeping the base architecture intact. The main enhancements in LISA++ include: \textbf{1) Enhanced Segmentation}: The instance segmentation ability has been added, providing a more detailed scene analysis along with the existing multi-region semantic segmentation. \textbf{2) More Natural Conversation}: Improved capability for multi-turn dialogue, with the ability to incorporate segmentation results directly into text responses, i.e., Segmentation in Dialogue (SiD). These improvements are achieved by curating the existing samples of generic segmentation datasets, aimed specifically at enhancing the segmentation and conversational skills without structural change and additional data sources. Comparative analysis with the original LISA model shows significant advancements in these areas, positioning LISA++ as a notable upgrade in visual understanding and interaction. LISA++'s adaptability and improved features highlight the versatility of the mask-as-embedding paradigm proposed by LISA, and the potential as a foundational model for diverse applications. | 翻訳日:2024-01-23 19:44:00 公開日:2024-01-22 |
# 医用画像解析における継続的な学習 : 最近の進歩と今後の展望 Continual Learning in Medical Image Analysis: A Comprehensive Review of Recent Advancements and Future Prospects ( http://arxiv.org/abs/2312.17004v2 ) ライセンス: Link先を確認 | Pratibha Kumari, Joohi Chauhan, Afshin Bozorgpour, Boqiang Huang, Reza Azad, Dorit Merhof | (参考訳) 近年の医療画像解析は、高度なディープラーニングアルゴリズムの急速な発展によって、人間のレベルのパフォーマンスをはるかに上回っている。
しかし、推論データセットがモデルが1回のトレーニングで見たものとわずかに異なる場合、モデルの性能は著しく損なわれる。
この状況では、古いデータと新しいデータの両方を使ってトレーニングプロセスを再開し、計算コストがかかり、人間の学習プロセスと一致せず、ストレージの制約やプライバシーの懸念を課す必要がある。
あるいは、持続学習は、新しいクラス、タスク、および様々なアプリケーション領域の非定常環境におけるデータの漂流性を扱うために、統一的で持続可能な深層モデルを開発するための重要なアプローチとして現れてきた。
継続的な学習技術は、モデルを時間とともに適応し、知識を蓄積することを可能にする。
本稿では,医用画像解析に応用される連続学習技術の現状について概観する。
本稿では, 破滅的忘れ, データドリフト, 安定性, 塑性要件など, 既存研究の広範な調査を紹介する。
さらに,連続学習シナリオ,テクニック,評価スキーム,メトリクスなど,連続学習フレームワークの重要なコンポーネントについて,詳細な議論を行う。
継続的学習技術には、リハーサル、正規化、アーキテクチャ、ハイブリッド戦略など、さまざまなカテゴリが含まれる。
我々は、放射線学や病理学などの様々な医学分野における連続学習カテゴリの人気と適用性を評価する。 Medical imaging analysis has witnessed remarkable advancements even surpassing human-level performance in recent years, driven by the rapid development of advanced deep-learning algorithms. However, when the inference dataset slightly differs from what the model has seen during one-time training, the model performance is greatly compromised. The situation requires restarting the training process using both the old and the new data which is computationally costly, does not align with the human learning process, and imposes storage constraints and privacy concerns. Alternatively, continual learning has emerged as a crucial approach for developing unified and sustainable deep models to deal with new classes, tasks, and the drifting nature of data in non-stationary environments for various application areas. Continual learning techniques enable models to adapt and accumulate knowledge over time, which is essential for maintaining performance on evolving datasets and novel tasks. This systematic review paper provides a comprehensive overview of the state-of-the-art in continual learning techniques applied to medical imaging analysis. We present an extensive survey of existing research, covering topics including catastrophic forgetting, data drifts, stability, and plasticity requirements. Further, an in-depth discussion of key components of a continual learning framework such as continual learning scenarios, techniques, evaluation schemes, and metrics is provided. Continual learning techniques encompass various categories, including rehearsal, regularization, architectural, and hybrid strategies. We assess the popularity and applicability of continual learning categories in various medical sub-fields like radiology and histopathology... | 翻訳日:2024-01-23 19:43:11 公開日:2024-01-22 |
# 可逆的プロンプト学習によるモード欠落RGBT追跡と高品質データシミュレーション手法 Modality-missing RGBT Tracking via Invertible Prompt Learning and A High-quality Data Simulation Method ( http://arxiv.org/abs/2312.16244v2 ) ライセンス: Link先を確認 | Andong Lu, Jiacong Zhao, Chenglong Li, Jin Tang, Bin Luo | (参考訳) 現在のRGBT追跡研究は主に、現実世界のシーンにおけるモダリティを欠く課題を見越して、モダリティ完備シナリオに焦点を当てている。
本研究では,RGBT追跡におけるモダリティ欠落問題の影響を包括的に調査し,コンテンツ保存プロンプトをよく訓練されたトラッキングモデルに統合し,様々なモダリティ欠落シナリオに適応する,新しい非可逆的プロンプト学習手法を提案する。
特に, 1つのモダリティを欠いたシナリオを考慮し, RGBT追跡モデルに適応するためのモダリティの欠如を発生させるためのモダリティの利用を提案する。
しかしながら、利用可能なモダリティと欠落したモダリティの間の相互モダリティギャップは、通常、即時生成において意味的歪みと情報損失を引き起こす。
この問題に対処するために,インパルス生成モデルから入力可能なモダリティの完全な再構築を取り入れた非可逆的なプロンプト学習方式を提案する。
モダリティ許容rgbt追跡データセットの欠如と多くのモダリティ許容シナリオのキャプチャが困難であることを考慮して,階層的組合せスキームに基づく高品質データシミュレーション手法を設計し,実世界のモダリティ許容データを生成する。
3つのモダリティを許容するデータセットに関する広範囲な実験により、本手法は最先端手法に比べて大幅に性能が向上することを示した。
コードとシミュレーションのデータセットをリリースします。 Current RGBT tracking researches mainly focus on the modality-complete scenarios, overlooking the modality-missing challenge in real-world scenes. In this work, we comprehensively investigate the impact of modality-missing challenge in RGBT tracking and propose a novel invertible prompt learning approach, which integrates the content-preserving prompts into a well-trained tracking model to adapt to various modality-missing scenarios, for modality-missing RGBT tracking. In particular, given one modality-missing scenario, we propose to utilize the available modality to generate the prompt of the missing modality to adapt to RGBT tracking model. However, the cross-modality gap between available and missing modalities usually causes semantic distortion and information loss in prompt generation. To handle this issue, we propose the invertible prompt learning scheme by incorporating the full reconstruction of the input available modality from the prompt in prompt generation model. Considering that there lacks a modality-missing RGBT tracking dataset and many modality-missing scenarios are difficult to capture, we design a high-quality data simulation method based on hierarchical combination schemes to generate real-world modality-missing data. Extensive experiments on three modality-missing datasets show that our method achieves significant performance improvements compared with state-of-the-art methods. We will release the code and simulation dataset. | 翻訳日:2024-01-23 19:42:19 公開日:2024-01-22 |
# タスク駆動型因果的特徴蒸留 : 信頼できるリスク予測を目指して Task-Driven Causal Feature Distillation: Towards Trustworthy Risk Prediction ( http://arxiv.org/abs/2312.16113v2 ) ライセンス: Link先を確認 | Zhixuan Chu, Mengxuan Hu, Qing Cui, Longfei Li, Sheng Li | (参考訳) 人工知能は近年、多くの分野で大きな成功を収めているため、信頼性と解釈可能なリスク予測の可能性に大きな関心を寄せている。
しかし、ほとんどのモデルは因果推論やクラス不均衡に苦しむため、正確さやリコールに乏しい。
そこで本研究では,タスク駆動型因果的特徴蒸留モデル(TDCFD)を提案する。
因果的特徴属性は、この機能の価値がリスク予測結果にどの程度貢献できるかを説明するのに役立つ。
因果的特徴蒸留の後、ディープニューラルネットワークを適用し、因果的解釈可能性と高精度/リコールを伴う信頼できる予測結果を生成する。
本研究では,TDCFD法の性能評価を行い,その精度,リコール,解釈可能性,因果性について,最先端の手法よりも優れていることを示す。 Since artificial intelligence has seen tremendous recent successes in many areas, it has sparked great interest in its potential for trustworthy and interpretable risk prediction. However, most models lack causal reasoning and struggle with class imbalance, leading to poor precision and recall. To address this, we propose a Task-Driven Causal Feature Distillation model (TDCFD) to transform original feature values into causal feature attributions for the specific risk prediction task. The causal feature attribution helps describe how much contribution the value of this feature can make to the risk prediction result. After the causal feature distillation, a deep neural network is applied to produce trustworthy prediction results with causal interpretability and high precision/recall. We evaluate the performance of our TDCFD method on several synthetic and real datasets, and the results demonstrate its superiority over the state-of-the-art methods regarding precision, recall, interpretability, and causality. | 翻訳日:2024-01-23 19:41:50 公開日:2024-01-22 |
# 変化点を持つ神経確率微分方程式:生成的逆アプローチ Neural Stochastic Differential Equations with Change Points: A Generative Adversarial Approach ( http://arxiv.org/abs/2312.13152v2 ) ライセンス: Link先を確認 | Zhongchang Sun, Yousef El-Laham, Svitlana Vyetrenko | (参考訳) 確率微分方程式(SDE)は実世界のランダム現象をモデル化するために広く用いられている。
既存の研究は主に、時系列が単一のSDEによってモデル化される場合に焦点を当てている。
本研究では,ニューラルSDEをモデルとした時系列変化点検出アルゴリズムを提案する。
時系列データセットが与えられた場合、提案手法は未知の変化点と各変化点に対応する異なるSDEモデルのパラメータを共同で学習する。
具体的には、GAN(Generative Adversarial Network)の枠組みに基づいてSDEを学習し、フォワードパスにおけるGAN識別器の出力に基づいて変化点を検出する。
提案アルゴリズムの各ステップにおいて、変更点とSDEモデルパラメータを交互に更新する。
時系列データに対する従来の変化点検出ベンチマーク,標準GANベースニューラルネットワークSDE,その他の最先端の深部生成モデルと比較して,アルゴリズムの性能を評価するために,合成データセットと実データセットの両方で数値的な結果が得られた。 Stochastic differential equations (SDEs) have been widely used to model real world random phenomena. Existing works mainly focus on the case where the time series is modeled by a single SDE, which might be restrictive for modeling time series with distributional shift. In this work, we propose a change point detection algorithm for time series modeled as neural SDEs. Given a time series dataset, the proposed method jointly learns the unknown change points and the parameters of distinct neural SDE models corresponding to each change point. Specifically, the SDEs are learned under the framework of generative adversarial networks (GANs) and the change points are detected based on the output of the GAN discriminator in a forward pass. At each step of the proposed algorithm, the change points and the SDE model parameters are updated in an alternating fashion. Numerical results on both synthetic and real datasets are provided to validate the performance of our algorithm in comparison to classical change point detection benchmarks, standard GAN-based neural SDEs, and other state-of-the-art deep generative models for time series data. | 翻訳日:2024-01-23 19:40:41 公開日:2024-01-22 |
# マニフォールドの強化:UMAPとの混合正規化 Augment on Manifold: Mixup Regularization with UMAP ( http://arxiv.org/abs/2312.13141v2 ) ライセンス: Link先を確認 | Yousef El-Laham, Elizabeth Fons, Dillon Daudert, Svitlana Vyetrenko | (参考訳) データ拡張技術はディープラーニングモデルの性能向上に重要な役割を果たしている。
コンピュータビジョンタスクの利点は証明されているが、他の領域での応用は限られている。
本稿では,ディープラーニング予測モデルのための 'on-manifold' 自動データ拡張のための混合正規化スキームである UMAP Mixup を提案する。
提案手法は,一様多様体近似および射影として知られる次元性低減技術を用いて,特徴やラベルのデータ多様体上に存在する合成サンプルを合成することを保証する。
多様な回帰タスクに対する評価は、UMAP Mixupが他のMixup亜種と競合する、あるいは優れており、ディープラーニングモデルの一般化性能を高める効果的なツールとしての可能性を示していることを示している。 Data augmentation techniques play an important role in enhancing the performance of deep learning models. Despite their proven benefits in computer vision tasks, their application in the other domains remains limited. This paper proposes a Mixup regularization scheme, referred to as UMAP Mixup, designed for ``on-manifold" automated data augmentation for deep learning predictive models. The proposed approach ensures that the Mixup operations result in synthesized samples that lie on the data manifold of the features and labels by utilizing a dimensionality reduction technique known as uniform manifold approximation and projection. Evaluations across diverse regression tasks show that UMAP Mixup is competitive with or outperforms other Mixup variants, show promise for its potential as an effective tool for enhancing the generalization performance of deep learning models. | 翻訳日:2024-01-23 19:39:56 公開日:2024-01-22 |
# LRS:リプシッツ規則化サロゲートによる対向移動性の向上 LRS: Enhancing Adversarial Transferability through Lipschitz Regularized Surrogate ( http://arxiv.org/abs/2312.13118v2 ) ライセンス: Link先を確認 | Tao Wu, Tie Luo, and Donald C. Wunsch | (参考訳) 攻撃例の転送性は、転送ベースのブラックボックス攻撃において重要となる。
移動可能な逆数例を生成するための従来の研究は、事前訓練された代理モデルの攻撃に焦点をあてる一方で、代理モデルと逆数トラスフェラビリティの接続は見過ごされている。
本稿では,トランスファーベースブラックボックス攻撃に対するリプシッツ正規化サロゲート(LRS)を提案する。
このような変換されたサロゲートモデルを使用すると、既存の転送ベースのブラックボックス攻撃は変更なしに実行できるが、パフォーマンスははるかに向上する。
具体的には、サロゲートモデルの損失状況にリプシッツ正規化を課し、よりスムーズで制御された最適化プロセスにより、より移動可能な逆例を生成する。
さらに,シュロゲートモデルの内部特性と,より小さな局所リプシッツ定数,より滑らかなロスランドスケープ,より強い対向ロバスト性という3つの要因が同定される対向移動性との関係についても光を当てる。
提案手法は,最先端のディープニューラルネットワークと防御モデルに対して攻撃することで評価する。
その結果,攻撃成功率と移動性に有意な改善が認められた。
私たちのコードはhttps://github.com/TrustAIoT/LRS.comで公開されています。 The transferability of adversarial examples is of central importance to transfer-based black-box adversarial attacks. Previous works for generating transferable adversarial examples focus on attacking \emph{given} pretrained surrogate models while the connections between surrogate models and adversarial trasferability have been overlooked. In this paper, we propose {\em Lipschitz Regularized Surrogate} (LRS) for transfer-based black-box attacks, a novel approach that transforms surrogate models towards favorable adversarial transferability. Using such transformed surrogate models, any existing transfer-based black-box attack can run without any change, yet achieving much better performance. Specifically, we impose Lipschitz regularization on the loss landscape of surrogate models to enable a smoother and more controlled optimization process for generating more transferable adversarial examples. In addition, this paper also sheds light on the connection between the inner properties of surrogate models and adversarial transferability, where three factors are identified: smaller local Lipschitz constant, smoother loss landscape, and stronger adversarial robustness. We evaluate our proposed LRS approach by attacking state-of-the-art standard deep neural networks and defense models. The results demonstrate significant improvement on the attack success rates and transferability. Our code is available at https://github.com/TrustAIoT/LRS. | 翻訳日:2024-01-23 19:39:43 公開日:2024-01-22 |
# MixRT:リアルタイムNeRFレンダリングのための混合ニューラル表現 MixRT: Mixed Neural Representations For Real-Time NeRF Rendering ( http://arxiv.org/abs/2312.11841v4 ) ライセンス: Link先を確認 | Chaojian Li, Bichen Wu, Peter Vajda, Yingyan (Celine) Lin | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、その印象的なフォトリアリスティックな再構成とレンダリング能力により、新しいビュー合成の先駆的な技術として登場した。
それでも、大規模なシーンでリアルタイムのNeRFレンダリングを実現することは課題を示しており、しばしば、相当数の三角形を持つ複雑な焼成メッシュ表現や、焼成表現におけるリソース集約光線マーチングの採用につながっている。
我々はこれらの慣習に挑戦し、実質的な三角形を持つメッシュで表される高品質な幾何学は、フォトリアリスティックなレンダリング品質を達成するために必要ではないと観察する。
その結果、低品質メッシュ、ビュー依存変位マップ、圧縮されたNeRFモデルを含む新しいNeRF表現であるMixRTを提案する。
この設計は、既存のグラフィックスハードウェアの機能を活用し、エッジデバイス上でリアルタイムのNeRFレンダリングを可能にする。
高度に最適化されたwebglベースのレンダリングフレームワークを利用することで、mixrtはエッジデバイス(macbook m1 proラップトップで解像度180 x 720で30fps以上)でリアルタイムレンダリング速度を実現し、レンダリング品質(非バウンド360データセットの屋内シーンでは0.2psnr)、ストレージサイズ(最先端のメソッドと比較して80%未満)を向上した。 Neural Radiance Field (NeRF) has emerged as a leading technique for novel view synthesis, owing to its impressive photorealistic reconstruction and rendering capability. Nevertheless, achieving real-time NeRF rendering in large-scale scenes has presented challenges, often leading to the adoption of either intricate baked mesh representations with a substantial number of triangles or resource-intensive ray marching in baked representations. We challenge these conventions, observing that high-quality geometry, represented by meshes with substantial triangles, is not necessary for achieving photorealistic rendering quality. Consequently, we propose MixRT, a novel NeRF representation that includes a low-quality mesh, a view-dependent displacement map, and a compressed NeRF model. This design effectively harnesses the capabilities of existing graphics hardware, thus enabling real-time NeRF rendering on edge devices. Leveraging a highly-optimized WebGL-based rendering framework, our proposed MixRT attains real-time rendering speeds on edge devices (over 30 FPS at a resolution of 1280 x 720 on a MacBook M1 Pro laptop), better rendering quality (0.2 PSNR higher in indoor scenes of the Unbounded-360 datasets), and a smaller storage size (less than 80% compared to state-of-the-art methods). | 翻訳日:2024-01-23 19:39:03 公開日:2024-01-22 |
# 有理収束型フェデレート三段階学習 Provably Convergent Federated Trilevel Learning ( http://arxiv.org/abs/2312.11835v2 ) ライセンス: Link先を確認 | Yang Jiao, Kai Yang, Tiancheng Wu, Chengtao Jian, Jianwei Huang | (参考訳) trilevel learning、別名trilevel optimization(tlo)は、階層的意思決定プロセスのための強力なモデリングツールとして認識されており、ロバストなニューラルネットワーク探索、ハイパーパラメータ最適化、ドメイン適応など、多くの機械学習アプリケーションで広く使われている。
TLO問題に取り組むことは、ネストした意思決定構造のために大きな課題となっている。
さらに、TLOに関する既存の研究は、以下の大きな課題に直面している。
1) いずれも,プライバシー侵害につながる可能性のある非分散設定に焦点を当てている。
2) アルゴリズムの収束速度を特徴付ける非漸近収束解析は提供していない。
上記の課題に対処するため,本稿では,tlo問題を解くための非同期連帯三レベル最適化手法を提案する。
提案手法は,TLO問題に対する超多面体近似を構築し,非同期に解くために$\mu$-cutsを利用する。
提案された$\mu$-cutsは、凸関数だけでなく、$\mu$-weakly convexの仮定を満たす幅広い非凸関数にも適用可能であることを示す。
さらに,提案手法の非漸近収束率を理論的に解析し,その反復複雑性を示すことにより,$\epsilon$-定常点を$\mathcal{o}(\frac{1}{\epsilon^2})$で有界とする。
提案手法の優位性を明らかにするために, 実世界のデータセットに対する大規模な実験が行われ, 最大速度約80$\%$の収束速度が向上した。 Trilevel learning, also called trilevel optimization (TLO), has been recognized as a powerful modelling tool for hierarchical decision process and widely applied in many machine learning applications, such as robust neural architecture search, hyperparameter optimization, and domain adaptation. Tackling TLO problems has presented a great challenge due to their nested decision-making structure. In addition, existing works on TLO face the following key challenges: 1) they all focus on the non-distributed setting, which may lead to privacy breach; 2) they do not offer any non-asymptotic convergence analysis which characterizes how fast an algorithm converges. To address the aforementioned challenges, this paper proposes an asynchronous federated trilevel optimization method to solve TLO problems. The proposed method utilizes $\mu$-cuts to construct a hyper-polyhedral approximation for the TLO problem and solve it in an asynchronous manner. We demonstrate that the proposed $\mu$-cuts are applicable to not only convex functions but also a wide range of non-convex functions that meet the $\mu$-weakly convex assumption. Furthermore, we theoretically analyze the non-asymptotic convergence rate for the proposed method by showing its iteration complexity to obtain $\epsilon$-stationary point is upper bounded by $\mathcal{O}(\frac{1}{\epsilon^2})$. Extensive experiments on real-world datasets have been conducted to elucidate the superiority of the proposed method, e.g., it has a faster convergence rate with a maximum acceleration of approximately 80$\%$. | 翻訳日:2024-01-23 19:38:36 公開日:2024-01-22 |
# DFU:ゼロショット超解像生成のためのスケールロバスト拡散モデル DFU: scale-robust diffusion model for zero-shot super-resolution image generation ( http://arxiv.org/abs/2401.06144v2 ) ライセンス: Link先を確認 | Alex Havrilla, Kevin Rojas, Wenjing Liao, Molei Tao | (参考訳) 拡散生成モデルは、固定解像度で画像を生成することに成功している。
しかし、既存のモデルは、これらの解像度でデータをトレーニングできない場合に、異なる解像度に一般化する能力に制限がある。
演算子学習の手法を活用し,複数の解像度で空間情報とスペクトル情報を組み合わせることで,楽譜演算子を近似した新しいディープラーニングアーキテクチャDual-FNO UNet(DFU)を提案する。
DFUとベースラインの比較はスケーラビリティを示している。
1) 多重解像度の同時訓練は、任意の固定解像度でのトレーニングよりもFIDを改善する。
2)DFUは、トレーニング解像度を超えて一般化し、同じモデルで高解像度でコヒーレントで高忠実な生成を可能にする。
3)我々のモデルのゼロショット超解像度画像生成能力をさらに向上させるための微調整戦略を提案し,ffhqの最大トレーニング解像度の1.66倍の11.3倍のfidを実現した。 Diffusion generative models have achieved remarkable success in generating images with a fixed resolution. However, existing models have limited ability to generalize to different resolutions when training data at those resolutions are not available. Leveraging techniques from operator learning, we present a novel deep-learning architecture, Dual-FNO UNet (DFU), which approximates the score operator by combining both spatial and spectral information at multiple resolutions. Comparisons of DFU to baselines demonstrate its scalability: 1) simultaneously training on multiple resolutions improves FID over training at any single fixed resolution; 2) DFU generalizes beyond its training resolutions, allowing for coherent, high-fidelity generation at higher-resolutions with the same model, i.e. zero-shot super-resolution image-generation; 3) we propose a fine-tuning strategy to further enhance the zero-shot super-resolution image-generation capability of our model, leading to a FID of 11.3 at 1.66 times the maximum training resolution on FFHQ, which no other method can come close to achieving. | 翻訳日:2024-01-23 19:31:53 公開日:2024-01-22 |
# 圧縮3次元ガウススプレーティングによる新規視合成の高速化 Compressed 3D Gaussian Splatting for Accelerated Novel View Synthesis ( http://arxiv.org/abs/2401.02436v2 ) ライセンス: Link先を確認 | Simon Niedermayr, Josef Stumpfegger, R\"udiger Westermann | (参考訳) 近年,スパース画像集合からの新たなビュー合成のために,3次元ガウススプラット表現を最適化した高忠実度シーン再構成が導入された。
このような表現をネットワークストリーミングや低消費電力デバイスでのレンダリングのようなアプリケーションに適したものにするには、メモリ消費を大幅に削減し、レンダリング効率を向上する必要がある。
本稿では,感性を考慮したベクトルクラスタリングと量子化学習を併用した3次元ガウススプラット表現を提案する。
学習したコードブックはビットレートが低く、ビジュアル品質の最小限の劣化しかなく、現実世界のシーンでの圧縮レートが311\times$に達する。
圧縮されたsplat表現は、最適化されたgpu計算パイプラインを介して報告されるよりも最大4\times$のフレームレートで、軽量gpu上でハードウェアラスタイゼーションによって効率的にレンダリングできることを実証する。
複数のデータセットにわたる大規模な実験は、提案手法の堅牢性とレンダリング速度を示している。 Recently, high-fidelity scene reconstruction with an optimized 3D Gaussian splat representation has been introduced for novel view synthesis from sparse image sets. Making such representations suitable for applications like network streaming and rendering on low-power devices requires significantly reduced memory consumption as well as improved rendering efficiency. We propose a compressed 3D Gaussian splat representation that utilizes sensitivity-aware vector clustering with quantization-aware training to compress directional colors and Gaussian parameters. The learned codebooks have low bitrates and achieve a compression rate of up to $31\times$ on real-world scenes with only minimal degradation of visual quality. We demonstrate that the compressed splat representation can be efficiently rendered with hardware rasterization on lightweight GPUs at up to $4\times$ higher framerates than reported via an optimized GPU compute pipeline. Extensive experiments across multiple datasets demonstrate the robustness and rendering speed of the proposed approach. | 翻訳日:2024-01-23 19:27:40 公開日:2024-01-22 |
# 学びながら行動する - 非定常マルコフ決定過程における適応的意思決定 Act as You Learn: Adaptive Decision-Making in Non-Stationary Markov Decision Processes ( http://arxiv.org/abs/2401.01841v3 ) ライセンス: Link先を確認 | Baiting Luo, Yunuo Zhang, Abhishek Dubey, Ayan Mukhopadhyay | (参考訳) シーケンシャルな意思決定における基本的な(そしてほとんどオープンな)課題は、時間とともに外生環境が変化する非定常環境を扱うことである。
このような問題は伝統的に非定常マルコフ決定過程(NSMDP)としてモデル化されている。
しかし、NSMDPにおける意思決定のための既存のアプローチには2つの大きな欠点がある: 第一に、彼らは現在の更新された環境力学が知られていると仮定し(将来の力学は変化しうるが)、第二に、計画は概ね悲観的である。
更新された環境条件は滅多に知られておらず、エージェントが環境と相互作用すると、更新されたダイナミクスについて学び、少なくともそれが自信を持っている状態において、悲観的になることを避けることができる。
我々は,これらの課題に対処するヒューリスティック探索アルゴリズムである \textit{adaptive monte carlo tree search (ada-mcts)"を提案する。
エージェントが更新された環境のダイナミクスを時間とともに学習し、学習しながら行動できること、すなわち、エージェントが更新された知識を持つ状態空間の領域にいる場合、悲観的になることを避けることができる。
更新された知識」を定量化するために、エージェントの更新された信念におけるアレター的およびエピステマティックな不確実性を分解し、エージェントがこれらの見積を意思決定にどのように使用できるかを示す。
提案手法を,複数の確立したオープンソース問題に対する意思決定における最先端手法と比較し,安全性を犠牲にすることなく,提案手法がより高速かつ高度に適応できることを実証的に示す。 A fundamental (and largely open) challenge in sequential decision-making is dealing with non-stationary environments, where exogenous environmental conditions change over time. Such problems are traditionally modeled as non-stationary Markov decision processes (NSMDP). However, existing approaches for decision-making in NSMDPs have two major shortcomings: first, they assume that the updated environmental dynamics at the current time are known (although future dynamics can change); and second, planning is largely pessimistic, i.e., the agent acts ``safely'' to account for the non-stationary evolution of the environment. We argue that both these assumptions are invalid in practice -- updated environmental conditions are rarely known, and as the agent interacts with the environment, it can learn about the updated dynamics and avoid being pessimistic, at least in states whose dynamics it is confident about. We present a heuristic search algorithm called \textit{Adaptive Monte Carlo Tree Search (ADA-MCTS)} that addresses these challenges. We show that the agent can learn the updated dynamics of the environment over time and then act as it learns, i.e., if the agent is in a region of the state space about which it has updated knowledge, it can avoid being pessimistic. To quantify ``updated knowledge,'' we disintegrate the aleatoric and epistemic uncertainty in the agent's updated belief and show how the agent can use these estimates for decision-making. We compare the proposed approach with the multiple state-of-the-art approaches in decision-making across multiple well-established open-source problems and empirically show that our approach is faster and highly adaptive without sacrificing safety. | 翻訳日:2024-01-23 19:27:26 公開日:2024-01-22 |
# Hessian-aided Momentum Variance Reductionによる自然政策のグローバル収束 Global Convergence of Natural Policy Gradient with Hessian-aided Momentum Variance Reduction ( http://arxiv.org/abs/2401.01084v2 ) ライセンス: Link先を確認 | Jie Feng, Ke Wei and Jinchi Chen | (参考訳) 自然政策勾配(npg)とその変種は強化学習において広く用いられている政策探索法である。
先行研究に触発された新しいnpg変種npg-hmを開発し, 分散低減のためのヘッセン支援運動量技術を用いて, 確率勾配降下法を用いてサブプロブレムを解いた。
npg-hm は、ジェネリックフィッシャー非退化ポリシーパラメータ化の下で自然政策勾配型手法の最もよく知られた結果である $\mathcal{o}(\epsilon^{-2})$ のサンプル複雑性で、グローバルラストイテレートである $\epsilon$-optimality を達成できることが示されている。
収束解析は、npgに適合する関数近似フレームワークで調整された緩和された弱勾配支配特性と、サブ問題を扱う際にエラーを分解する方法に基づいている。
さらに, ムジョコ型環境における数値実験により, NPG-HMの他の最先端政策勾配法よりも優れた性能を示した。 Natural policy gradient (NPG) and its variants are widely-used policy search methods in reinforcement learning. Inspired by prior work, a new NPG variant coined NPG-HM is developed in this paper, which utilizes the Hessian-aided momentum technique for variance reduction, while the sub-problem is solved via the stochastic gradient descent method. It is shown that NPG-HM can achieve the global last iterate $\epsilon$-optimality with a sample complexity of $\mathcal{O}(\epsilon^{-2})$, which is the best known result for natural policy gradient type methods under the generic Fisher non-degenerate policy parameterizations. The convergence analysis is built upon a relaxed weak gradient dominance property tailored for NPG under the compatible function approximation framework, as well as a neat way to decompose the error when handling the sub-problem. Moreover, numerical experiments on Mujoco-based environments demonstrate the superior performance of NPG-HM over other state-of-the-art policy gradient methods. | 翻訳日:2024-01-23 19:26:34 公開日:2024-01-22 |
# 相対性理論の量子原理と可算重力 Quantum Principle of Relativity and The Renormalizable Gravity ( http://arxiv.org/abs/2401.08617v3 ) ライセンス: Link先を確認 | Jinsu Kim and Dongok Kim | (参考訳) 我々は、一般相対性理論を導入することなく、相対性理論という新しい相対性理論に基づく純粋量子理論を開発した。
我々は、相対性理論の本質が量子領域に自然に拡張され、活性変換と受動変換の同一構造が維持されることを示した。
この原理を用いることで、重力効果は自然に正規化可能理論に組み込まれ、古典的理論において一般相対性理論が出現することを示した。
グラビトンプロパゲーターを導出し、この理論に基づくいくつかの例を提供する。 We develop a purely quantum theory based on the novel principle of relativity, termed the quantum principle of relativity, without introducing general relativity. We demonstrate that the essence of the principle of relativity can be naturally extended into the quantum realm, maintaining the identical structures of active and passive transformations. By employing this principle, we show that gravitational effects are naturally incorporated into the renormalizable theory, with general relativity emerging in the classical regime. We derive graviton propagators and provide several examples grounded in this novel theory. | 翻訳日:2024-01-23 19:20:39 公開日:2024-01-22 |
# 画像透かしのロバストさのベンチマーク Benchmarking the Robustness of Image Watermarks ( http://arxiv.org/abs/2401.08573v2 ) ライセンス: Link先を確認 | Bang An, Mucong Ding, Tahseen Rabbani, Aakriti Agrawal, Yuancheng Xu, Chenghao Deng, Sicheng Zhu, Abdirisak Mohamed, Yuxin Wen, Tom Goldstein, Furong Huang | (参考訳) 本稿では,画像透かし技術の弱点について検討する。
本研究では,ウォーターマークのロバスト性を評価するための新しいベンチマークであるwaves(watermark analysis via enhanced stress-testing)を提案し,現在の評価手法の限界を克服する。wavesは検出・識別タスクを統合し,各種のストレステストからなる標準評価プロトコルを確立する。
WAVESの攻撃は、従来の画像歪みから、拡散性や敵攻撃の高度な新しいバリエーションまで様々である。
本評価では,画像品質劣化の程度と,攻撃後の透かし検出の有効性について検討した。
本研究では,複数の画像類似度指標にまたがる品質2dプロットと性能2dプロットの連続を,ヒューリスティックに斬新な方法で集約し,透かしの堅牢性と攻撃力の全体像を描画する。
包括的評価により、現代のウォーターマーキングアルゴリズムの未検出脆弱性が明らかになった。
我々はWAVESを,堅牢な透かしシステムの開発のためのツールキットとして想定する。
プロジェクトはhttps://wavesbench.github.io/で入手できる。 This paper investigates the weaknesses of image watermarking techniques. We present WAVES (Watermark Analysis Via Enhanced Stress-testing), a novel benchmark for assessing watermark robustness, overcoming the limitations of current evaluation methods.WAVES integrates detection and identification tasks, and establishes a standardized evaluation protocol comprised of a diverse range of stress tests. The attacks in WAVES range from traditional image distortions to advanced and novel variations of diffusive, and adversarial attacks. Our evaluation examines two pivotal dimensions: the degree of image quality degradation and the efficacy of watermark detection after attacks. We develop a series of Performance vs. Quality 2D plots, varying over several prominent image similarity metrics, which are then aggregated in a heuristically novel manner to paint an overall picture of watermark robustness and attack potency. Our comprehensive evaluation reveals previously undetected vulnerabilities of several modern watermarking algorithms. We envision WAVES as a toolkit for the future development of robust watermarking systems. The project is available at https://wavesbench.github.io/ | 翻訳日:2024-01-23 19:20:28 公開日:2024-01-22 |
# 畳み込みニューラルネットワークによる量子不協和音の有効検出 Effective detection of quantum discord by using Convolutional Neural Networks ( http://arxiv.org/abs/2401.07405v2 ) ライセンス: Link先を確認 | Narjes Taghadomi, Azam Mani, Ali Fahim, Ali Bakoui, Mohammad Sadegh Salami | (参考訳) 量子不協和(quantum discord)は、量子情報と古典的相互情報の相違として定義される相関の形式である。
量子システムの古典的相互情報の定義にかかわる最適化のため、不一致状態と非離散状態の計算と区別は自明な作業ではない。
さらに、量子状態の完全なトモグラフィーは、その量子不協和の計算の前提条件であり、実際に資源消費である。
ここでは,人工ニューラルネットワークの畳み込み層のカーネルと,量子力学的測定における演算子の期待値の関係を用いて,16個のカーネルを用いた畳み込みニューラルネットワーク (cnn) を設計し,不一致状態と非識別状態とを完全に区別する。
また、量子不協和を効果的に検出できる分岐畳み込みニューラルネットワーク(BCNN)を設計した。
BCNNの精度は約85%または99%で、それぞれ5と8のカーネルしか利用していない。
以上の結果から,完全トモグラフィではなく,所望の精度で量子不協和の存在を検出するためには,適切な量子回路を用いてカーネルの期待値を直接測定し,完全に接続されたネットワークが検出問題を解決できることを示した。 Quantum discord is a form of correlation that is defined as the difference between quantum and classical mutual information of two parties. Due to the optimization involved in the definition of classical mutual information of quantum systems, calculating and distinguishing between discordant and non-discordant states is not a trivial task. Additionally, complete tomography of a quantum state is the prerequisite for the calculation of its quantum discord, and it is indeed resource consuming. Here, by using the relation between the kernels of the convolutional layers of an artificial neural network and the expectation value of operators in quantum mechanical measurements, we design a Convolutional Neural Network (CNN) that uses 16 kernels to completely distinguish between the discordant and non-discordant general two-qubit states. We have also designed a Branching Convolutional Neural Network (BCNN) that can effectively detect quantum discord. Our BCNN achieves an accuracy of around 85% or 99%, by utilizing only 5 or 8 kernels, respectively. Our results show that to detect the existence of quantum discord up to the desired accuracy, instead of complete tomography, one can use suitable quantum circuits to directly measure the expectation values of the kernels, and then a fully connected network will solve the detection problem. | 翻訳日:2024-01-23 19:18:08 公開日:2024-01-22 |
# 白血球の自己学習再設計による半教師付きセマンティクスセグメンテーション Semi-supervised Semantic Segmentation using Redesigned Self-Training for White Blood Cell ( http://arxiv.org/abs/2401.07278v2 ) ライセンス: Link先を確認 | Vinh Quoc Luu, Duy Khanh Le, Huy Thanh Nguyen, Minh Thanh Nguyen, Thinh Tien Nguyen, Vinh Quang Dinh | (参考訳) 医療における人工知能(AI)は、特に白血球がんの診断において、2つの主要な課題によって妨げられている: 白血球セグメンテーションのための大規模ラベル付きデータセットの欠如と、時代遅れのセグメンテーション方法である。
最初の課題に対処するためには、大規模なデータセットを効率的にアノテートするために、半教師付き学習フレームワークを導入する必要がある。
本稿では,fixmatchを組み込んだ新しい自己学習パイプラインを提案することで,この問題に対処した。
自己学習パイプラインにFixMatchを組み込むことで、ほとんどのケースでパフォーマンスが向上することがわかった。
DeepLab-V3アーキテクチャの一貫性を備えた自己学習スキームとResNet-50で、Zheng 1, Zheng 2, LISCデータセットでそれぞれ90.69%、87.37%、76.49%に達した。 Artificial Intelligence (AI) in healthcare, especially in white blood cell cancer diagnosis, is hindered by two primary challenges: the lack of large-scale labeled datasets for white blood cell (WBC) segmentation and outdated segmentation methods. To address the first challenge, a semi-supervised learning framework should be brought to efficiently annotate the large dataset. In this work, we address this issue by proposing a novel self-training pipeline with the incorporation of FixMatch. We discover that by incorporating FixMatch in the self-training pipeline, the performance improves in the majority of cases. Our performance achieved the best performance with the self-training scheme with consistency on DeepLab-V3 architecture and ResNet-50, reaching 90.69%, 87.37%, and 76.49% on Zheng 1, Zheng 2, and LISC datasets, respectively. | 翻訳日:2024-01-23 19:16:50 公開日:2024-01-22 |
# Mind Your Format: 文脈内学習改善の一貫性評価を目指して Mind Your Format: Towards Consistent Evaluation of In-Context Learning Improvements ( http://arxiv.org/abs/2401.06766v2 ) ライセンス: Link先を確認 | Anton Voronov, Lena Wolf, Max Ryabinin | (参考訳) 大規模な言語モデルは、いくつかの例から新しいタスクを学習する驚くべき能力を示しています。
プロンプトテンプレート(またはプロンプトを得るために入力例がフォーマットされる方法)は、コンテキスト内学習において重要でしばしば見過ごされる側面である。
本研究では,テンプレート形式が文脈内学習性能に与える影響について,包括的に研究する。
770mから70bまでのパラメータ)モデルと4つの標準分類データセットにまたがるプロンプトテンプレートの影響を評価した。
テンプレートの貧弱な選択は、最強モデルと推論手法の性能をランダムな推測レベルに低下させることができることを示す。
さらに重要なことに、最高のテンプレートは、異なるセットアップ間や同じファミリのモデル間でさえも転送しない。
その結果,テンプレート選択を無視する評価手法が,異なる作業におけるテンプレートの相違による誤解を招く可能性が示唆された。
この問題を軽減するための第一歩として,複数のテンプレートにまたがるモデル予測を集約するテンプレートアンサンブルを提案する。
この単純なテスト時間拡張は、ランダムなテンプレートセットの選択に対して堅牢でありながら、平均的なパフォーマンスを高める。 Large language models demonstrate a remarkable capability for learning to solve new tasks from a few examples. The prompt template, or the way the input examples are formatted to obtain the prompt, is an important yet often overlooked aspect of in-context learning. In this work, we conduct a comprehensive study of the template format's influence on the in-context learning performance. We evaluate the impact of the prompt template across models (from 770M to 70B parameters) and 4 standard classification datasets. We show that a poor choice of the template can reduce the performance of the strongest models and inference methods to a random guess level. More importantly, the best templates do not transfer between different setups and even between models of the same family. Our findings show that the currently prevalent approach to evaluation, which ignores template selection, may give misleading results due to different templates in different works. As a first step towards mitigating this issue, we propose Template Ensembles that aggregate model predictions across several templates. This simple test-time augmentation boosts average performance while being robust to the choice of random set of templates. | 翻訳日:2024-01-23 19:15:53 公開日:2024-01-22 |
# 脱獄の仕方:ブラックボックスで簡単にジェイルブレイクを防げる方法 All in How You Ask for It: Simple Black-Box Method for Jailbreak Attacks ( http://arxiv.org/abs/2401.09798v2 ) ライセンス: Link先を確認 | Kazuhiro Takemoto | (参考訳) ChatGPTのような大規模言語モデル(LLM)は、倫理的に有害なプロンプトを生み出すために、セーフガードをバイパスする‘ジェイルブレイク’の課題に直面している。
本研究では,ジェイルブレイクプロンプトを効果的に生成する簡単なブラックボックス法を提案する。
提案手法は, LLMが安全ガードを回避した表現を直接サンプリングできるという仮説に基づいて, 有害なプロンプトを標的のLSM自身を用いて繰り返し書き直す。
ChatGPT(GPT-3.5およびGPT-4)とGemini-Proの実験により実証されたこの手法は、平均5回の反復で80%以上の攻撃成功率を達成した。
生成されたジェイルブレイクプロンプトは自然に言葉で書かれ、簡潔だった。
これらの結果は、効果的なジェイルブレイクプロンプトの作成が従来考えられていたよりも簡単であることを示し、ブラックボックスのジェイルブレイク攻撃がより深刻な脅威となることを示唆している。 Large Language Models (LLMs) like ChatGPT face `jailbreak' challenges, where safeguards are bypassed to produce ethically harmful prompts. This study proposes a simple black-box method to effectively generate jailbreak prompts, overcoming the high complexity and computational costs associated with existing methods. The proposed technique iteratively rewrites harmful prompts into non-harmful expressions using the target LLM itself, based on the hypothesis that LLMs can directly sample expressions that bypass safeguards. Demonstrated through experiments with ChatGPT (GPT-3.5 and GPT-4) and Gemini-Pro, this method achieved an attack success rate of over 80% within an average of 5 iterations and remained effective despite model updates. The generated jailbreak prompts were naturally-worded and concise; moreover, they were difficult-to-defend. These results indicate that creating effective jailbreak prompts is simpler than previously considered, suggesting that black-box jailbreak attacks pose a more serious threat. | 翻訳日:2024-01-23 19:08:58 公開日:2024-01-22 |
# IPR-NeRF:オーナシップ検証とニューラルラジアンスフィールド IPR-NeRF: Ownership Verification meets Neural Radiance Field ( http://arxiv.org/abs/2401.09495v3 ) ライセンス: Link先を確認 | Win Kent Ong, Kam Woh Ng, Chee Seng Chan, Yi Zhe Song, Tao Xiang | (参考訳) neural radiance field(nerf)モデルは、最近のコンピュータビジョンコミュニティにおいて、最先端の視覚品質で大きな注目を集め、印象的なデモンストレーションを生み出した。
それ以来、技術者はNeRFモデルを利益のあるビジネスに活用しようとしてきた。
そのため、NeRFモデルは、違法にそれらのモデルをコピー、再配布、または誤用するリスクを負う。
本稿では, ブラックボックスおよびホワイトボックス設定, IPR-NeRFにおけるNeRFモデルに対する包括的知的財産権保護フレームワークを提案する。
ブラックボックス設定では、2段階最適化プロセスを介して透かしを埋め込み抽出するために拡散ベースの溶液が導入された。
ホワイトボックス設定では、指定されたデジタル署名が、符号損失目標を採用して、nerfモデルの重みに埋め込まれる。
我々は,IPR-NeRFモデルの忠実度(レンダリング品質)を維持するだけでなく,従来の技術と比較して曖昧さと除去攻撃に対して頑健であることを示した。 Neural Radiance Field (NeRF) models have gained significant attention in the computer vision community in the recent past with state-of-the-art visual quality and produced impressive demonstrations. Since then, technopreneurs have sought to leverage NeRF models into a profitable business. Therefore, NeRF models make it worth the risk of plagiarizers illegally copying, re-distributing, or misusing those models. This paper proposes a comprehensive intellectual property (IP) protection framework for the NeRF model in both black-box and white-box settings, namely IPR-NeRF. In the black-box setting, a diffusion-based solution is introduced to embed and extract the watermark via a two-stage optimization process. In the white-box setting, a designated digital signature is embedded into the weights of the NeRF model by adopting the sign loss objective. Our extensive experiments demonstrate that not only does our approach maintain the fidelity (\ie, the rendering quality) of IPR-NeRF models, but it is also robust against both ambiguity and removal attacks compared to prior arts. | 翻訳日:2024-01-23 19:07:19 公開日:2024-01-22 |
# 固有データセット特性が一般化に及ぼす影響 : 自然画像と医学画像の学習差の解明 The Effect of Intrinsic Dataset Properties on Generalization: Unraveling Learning Differences Between Natural and Medical Images ( http://arxiv.org/abs/2401.08865v2 ) ライセンス: Link先を確認 | Nicholas Konz, Maciej A. Mazurowski | (参考訳) 本稿では,自然画像領域から医用画像など他の専門領域へコンピュータビジョン技術を適用する際に見過ごされる異なる画像領域からニューラルネットワークがどのように学習するかの相違について検討する。
最近の研究により、トレーニングされたネットワークの一般化誤差は、トレーニングセットの内在次元(d_{data}$)によって増加することが判明した。
しかし、この関係の急激さは医学(放射線学)と自然画像領域の間で大きく異なり、理論的な説明はない。
この知識のギャップを,$d_{data}$に関して一般化スケーリング法を確立し,実証的に検証することで解決し,提案する指標である医療画像データセットの高内在性"ラベルシャープネス"(k_f$)による,少なくとも部分的には2つの領域間のスケーリングの不一致に起因する可能性があることを示唆する。
次に、トレーニングセットのラベルのシャープネスを測定する利点として、トレーニングモデルの逆方向の堅牢性と負の相関が示され、特に、敵方向の攻撃に対する脆弱性が著しく高い医療画像のモデルが導かれる。
最後に、私たちは$d_{data}$を関連する学習表現の内在次元(d_{repr}$)の計量に拡張し、$d_{repr}$に関して一般化スケーリング則を導出し、$d_{data}$が$d_{repr}$の上限となることを示す。
我々の理論的結果は、6つのモデルと11の自然・医療画像データセットによる、様々なトレーニングセットサイズでの徹底的な実験によって支えられている。
本研究は,ニューラルネットワークの一般化,表現学習,堅牢性に対する内在的データセット特性の影響について考察した。 This paper investigates discrepancies in how neural networks learn from different imaging domains, which are commonly overlooked when adopting computer vision techniques from the domain of natural images to other specialized domains such as medical images. Recent works have found that the generalization error of a trained network typically increases with the intrinsic dimension ($d_{data}$) of its training set. Yet, the steepness of this relationship varies significantly between medical (radiological) and natural imaging domains, with no existing theoretical explanation. We address this gap in knowledge by establishing and empirically validating a generalization scaling law with respect to $d_{data}$, and propose that the substantial scaling discrepancy between the two considered domains may be at least partially attributed to the higher intrinsic "label sharpness" ($K_F$) of medical imaging datasets, a metric which we propose. Next, we demonstrate an additional benefit of measuring the label sharpness of a training set: it is negatively correlated with the trained model's adversarial robustness, which notably leads to models for medical images having a substantially higher vulnerability to adversarial attack. Finally, we extend our $d_{data}$ formalism to the related metric of learned representation intrinsic dimension ($d_{repr}$), derive a generalization scaling law with respect to $d_{repr}$, and show that $d_{data}$ serves as an upper bound for $d_{repr}$. Our theoretical results are supported by thorough experiments with six models and eleven natural and medical imaging datasets over a range of training set sizes. Our findings offer insights into the influence of intrinsic dataset properties on generalization, representation learning, and robustness in deep neural networks. | 翻訳日:2024-01-23 19:04:19 公開日:2024-01-22 |
# 機械学習による非ヒト霊長類におけるエボラウイルスの遺伝子発現への影響の解析 Machine Learning-Based Analysis of Ebola Virus' Impact on Gene Expression in Nonhuman Primates ( http://arxiv.org/abs/2401.08738v2 ) ライセンス: Link先を確認 | Mostafa Rezapour, Muhammad Khalid Khan Niazi, Hao Lu, Aarthi Narayanan, Metin Nafi Gurcan | (参考訳) 本研究では,エボラウイルス (EBOV) に感染した非ヒト霊長類 (NHP) から得られた遺伝子発現データを解析するための機械学習手法である Supervised Magnitude-Altitude Scoring (SMAS) 手法を提案する。
我々は,エボラ感染NHPのNanoString遺伝子発現プロファイルの包括的データセットを用いて,宿主-病原体相互作用解析のためのSMASシステムをデプロイした。
SMASは、RT-qPCR陽性と負のNHPサンプルを正確に区別するために、ロジスティック回帰のような線形分類器を用いて、統計的意義と発現変化に基づく遺伝子選択を効果的に組み合わせている。
我々の研究の重要な発見は、重要なバイオマーカーとしてifi6とifi27を同定することであり、エボラ出血熱感染症の様々な段階の分類において、100%精度で異常な予測性能を示す。
IFI6とIFI27の他に、MX1、OAS1、ISG15を含む遺伝子は大幅に制御され、EBOVに対する免疫反応において重要な役割を担った。
EBOV感染時の複雑な遺伝子相互作用と応答機構を明らかにするためのSMAS法の有効性について検討した。
本研究は、EBOVの病原性に関する貴重な知見と、より正確な診断ツールの開発、特にウイルス感染に対処するための治療戦略の開発を支援する。 This study introduces the Supervised Magnitude-Altitude Scoring (SMAS) methodology, a machine learning-based approach, for analyzing gene expression data obtained from nonhuman primates (NHPs) infected with Ebola virus (EBOV). We utilize a comprehensive dataset of NanoString gene expression profiles from Ebola-infected NHPs, deploying the SMAS system for nuanced host-pathogen interaction analysis. SMAS effectively combines gene selection based on statistical significance and expression changes, employing linear classifiers such as logistic regression to accurately differentiate between RT-qPCR positive and negative NHP samples. A key finding of our research is the identification of IFI6 and IFI27 as critical biomarkers, demonstrating exceptional predictive performance with 100% accuracy and Area Under the Curve (AUC) metrics in classifying various stages of Ebola infection. Alongside IFI6 and IFI27, genes, including MX1, OAS1, and ISG15, were significantly upregulated, highlighting their essential roles in the immune response to EBOV. Our results underscore the efficacy of the SMAS method in revealing complex genetic interactions and response mechanisms during EBOV infection. This research provides valuable insights into EBOV pathogenesis and aids in developing more precise diagnostic tools and therapeutic strategies to address EBOV infection in particular and viral infection in general. | 翻訳日:2024-01-23 19:03:47 公開日:2024-01-22 |
# 自然力学習環境におけるカタストロフィック干渉の緩和 Catastrophic Interference is Mitigated in Naturalistic Power-Law Learning Environments ( http://arxiv.org/abs/2401.10393v2 ) ライセンス: Link先を確認 | Atith Gandhi, Raj Sanjay Shah, Vijay Marupudi, Sashank Varma | (参考訳) ニューラルネットワークは、しばしば破滅的な干渉(ci:catastrophic interference)に苦しむ。
これは、従来のタスクを忘れずに順次新しいタスクを学習できる人間と強く対照的である。
以前の研究は、正規化、リハーサル、生成的リプレイ、蒸留方法など、CIを緩和する様々な手法を探求してきた。
現在の研究は、自然環境において、タスクが最後に実行されてから当時のパワーローとして遭遇する確率が減少することを示す認知科学研究によって導かれる、異なるアプローチを取る。
シミュレーション自然主義学習環境では,CIの緩和のための技術の評価を現実的に行うべきである。
そこで本研究では,人間の顔に類似したパワーロー環境における単純なリハーサルベース手法の訓練において,ciの緩和度を評価する。
本研究は,MNISTタスクにおける順列学習という,ドメイン増分タスクに対する新たなリハーサルベースのアプローチを探求する。
リハーサル環境を他のベースラインと比較し,継続学習の促進に有効性を示す。
さらに,この環境が進行促進,すなわち,後のタスクの学習を高速化するかどうかを検討する。
次に,タスク数,モデルサイズ,各タスク後にリハーサルされたデータ量に対する学習環境の堅牢性について検討する。
特に,本研究の結果は,一般的な正規化手法を用いて訓練したモデルと同等か,あるいは同等であることを示す。
このトレーニングパラダイムの利点は、単純さと追加の神経回路の必要性の欠如である。
また,本手法は他の手法と直交するので,今後の研究は,パワーロー環境におけるトレーニングと他の連続学習機構を組み合わせることができる。 Neural networks often suffer from catastrophic interference (CI): performance on previously learned tasks drops off significantly when learning a new task. This contrasts strongly with humans, who can sequentially learn new tasks without appreciably forgetting previous tasks. Prior work has explored various techniques for mitigating CI such as regularization, rehearsal, generative replay, and distillation methods. The current work takes a different approach, one guided by cognitive science research showing that in naturalistic environments, the probability of encountering a task decreases as a power-law of the time since it was last performed. We argue that a realistic evaluation of techniques for the mitigation of CI should be performed in simulated naturalistic learning environments. Thus, we evaluate the extent of mitigation of CI when training simple rehearsal-based methods in power-law environments similar to the ones humans face. Our work explores this novel rehearsal-based approach for a domain-incremental task: learning permutations in the MNIST task. We compare our rehearsal environment with other baselines to show its efficacy in promoting continual learning. Additionally, we investigate whether this environment shows forward facilitation, i.e., faster learning of later tasks. Next, we explore the robustness of our learning environment to the number of tasks, model size, and amount of data rehearsed after each task. Notably, our results show that the performance is comparable or superior to that of models trained using popular regularization methods and also to rehearsals in non-power-law environments. The benefits of this training paradigm include simplicity and the lack of a need for extra neural circuitry. In addition, because our method is orthogonal to other methods, future research can combine training in power-law environments with other continual learning mechanisms. | 翻訳日:2024-01-23 18:56:05 公開日:2024-01-22 |
# 高励起振動状態からの精密フランクコンドン分光 Precision Franck-Condon spectroscopy from highly-excited vibrational states ( http://arxiv.org/abs/2401.10384v2 ) ライセンス: Link先を確認 | Sindhana Pannir-Sivajothi and Joel Yuen-Zhou | (参考訳) フランク=コンドンの原理によれば、吸収分光は電子励起による分子や固体の核構造の変化を明らかにする。
これらの変化は、基底振動波動関数幅(\sqrt{\hbar/m\omega}$)を超えては解決できないとしばしば仮定される。
ここで、この分解能は高励起振動初期状態(占有数$\langle n\rangle$)で劇的に向上することを示す。
これらの状態は2\langle n\rangle +1$で幾何学の変化を拡大するが、フォック状態の空間的不確かさが n$ で大きくなると、直観に反する結果となる。
また、この結果のマルチモードシステムへの一般化についても論じる。
我々の結果は、光学分光、偏光子凝縮、および量子シミュレータ(\textit{e.g.}$, boson samplers)に関係している。 As per the Franck-Condon principle, absorption spectroscopy reveals changes in nuclear geometry in molecules or solids upon electronic excitation. It is often assumed these changes cannot be resolved beyond the ground vibrational wavefunction width ($\sqrt{\hbar/m\omega}$). Here, we show this resolution dramatically improves with highly-excited vibrational initial states (with occupation number $\langle n\rangle$). These states magnify changes in geometry by $2\langle n\rangle +1$, a possibly counterintuitive result given the spatial uncertainty of Fock states grows with $n$. We also discuss generalizations of this result to multimode systems. Our result is relevant to optical spectroscopy, polariton condensates, and quantum simulators ($\textit{e.g.}$, boson samplers). | 翻訳日:2024-01-23 18:55:34 公開日:2024-01-22 |
# Langevin Unlearning: 機械学習のためのノイズの多い勾配の新たな視点 Langevin Unlearning: A New Perspective of Noisy Gradient Descent for Machine Unlearning ( http://arxiv.org/abs/2401.10371v2 ) ライセンス: Link先を確認 | Eli Chien, Haoyu Wang, Ziang Chen, Pan Li | (参考訳) 機械学習は「忘れられる権利」を保障する法律の採用で大きな関心を集めている。
研究者は、差分プライバシー(DP)という同様の定義の下で、近似的アンラーニングという確率論的概念を提供し、プライバシーはスクラッチから再トレーニングするための統計的不明瞭さとして定義される。
我々は,無学習問題に対するプライバシ保証を伴う騒音勾配降下に基づく無学習フレームワークlangevin unlearningを提案する。
Langevin unlearningは、DP学習プロセスとプライバシ認定未学習プロセスを、多くのアルゴリズム上の利点で統合する。
これには、非凸問題に対する近似認定アンラーニング、再トレーニングに対する複雑さの節約、複数のアンラーニング要求に対するシーケンシャルおよびバッチアンラーニングが含まれる。
ベンチマークデータセットを用いた実験により,Langevin Unlearningのプライバシ・ユーティリティ・複雑さトレードオフを検証し,その実用性を検証した。 Machine unlearning has raised significant interest with the adoption of laws ensuring the ``right to be forgotten''. Researchers have provided a probabilistic notion of approximate unlearning under a similar definition of Differential Privacy (DP), where privacy is defined as statistical indistinguishability to retraining from scratch. We propose Langevin unlearning, an unlearning framework based on noisy gradient descent with privacy guarantees for approximate unlearning problems. Langevin unlearning unifies the DP learning process and the privacy-certified unlearning process with many algorithmic benefits. These include approximate certified unlearning for non-convex problems, complexity saving compared to retraining, sequential and batch unlearning for multiple unlearning requests. We verify the practicality of Langevin unlearning by studying its privacy-utility-complexity trade-off via experiments on benchmark datasets, and also demonstrate its superiority against gradient-decent-plus-output-perturbation based approximate unlearning. | 翻訳日:2024-01-23 18:55:19 公開日:2024-01-22 |
# 低リソースセキュリティ攻撃パターン認識のためのノイズコントラスト推定に基づくマッチングフレームワーク Noise Contrastive Estimation-based Matching Framework for Low-resource Security Attack Pattern Recognition ( http://arxiv.org/abs/2401.10337v2 ) ライセンス: Link先を確認 | Tu Nguyen, Nedim Srndic, Alexander Neth | (参考訳) TTP(Tactics, Techniques and Procedures)は、テキストの知識ベースで包括的に記述されたサイバーセキュリティドメインの高度な攻撃パターンを表す。
サイバーセキュリティの書き込みにおいてTTPを識別することは、しばしばTTPマッピングと呼ばれ、重要かつ困難なタスクである。
従来の学習アプローチでは、古典的なマルチクラスやマルチラベルの分類設定で問題に対処することが多い。
この設定は、多数のクラス(TTP)、ラベル分布の避けられない歪み、ラベル空間の複雑な階層構造によるモデルの学習能力を妨げている。
そこで,TTPラベルへのテキストの割り当ては,両者の直接的な意味的類似性によって決定されるため,大きなラベル空間にのみ競合することの難しさが軽減される。
そこで本研究では,資源制約に拘わらず,マッチングモデルの学習プロセスを容易にする,効果的なサンプリングベース学習機構を備えたニューラルマッチングアーキテクチャを提案する。 Tactics, Techniques and Procedures (TTPs) represent sophisticated attack patterns in the cybersecurity domain, described encyclopedically in textual knowledge bases. Identifying TTPs in cybersecurity writing, often called TTP mapping, is an important and challenging task. Conventional learning approaches often target the problem in the classical multi-class or multilabel classification setting. This setting hinders the learning ability of the model due to a large number of classes (i.e., TTPs), the inevitable skewness of the label distribution and the complex hierarchical structure of the label space. We formulate the problem in a different learning paradigm, where the assignment of a text to a TTP label is decided by the direct semantic similarity between the two, thus reducing the complexity of competing solely over the large labeling space. To that end, we propose a neural matching architecture with an effective sampling-based learn-to-compare mechanism, facilitating the learning process of the matching model despite constrained resources. | 翻訳日:2024-01-23 18:55:00 公開日:2024-01-22 |
# 携帯電話センサを用いたパーソナリティトラスト推定 : 機械学習によるアプローチ Personality Trait Inference Via Mobile Phone Sensors: A Machine Learning Approach ( http://arxiv.org/abs/2401.10305v2 ) ライセンス: Link先を確認 | Wun Yung Shaney Sze, Maryglen Pearl Herrero, Roger Garriga | (参考訳) 本研究は,携帯電話センサから収集した行動データから,パーソナリティが確実に予測できることを示す。
加速度計記録と運動パターンから計算可能な,十分なインジケータのセットを用いて,2クラス問題におけるユーザの性格を最大0.78F1まで予測することができた。
携帯電話から収集されるデータ数の増加を考えると、私たちの新しいパーソナリティ指標は、未来の社会科学研究のためのエキサイティングな道を開く。
以上の結果から,大きな五人格の特徴を差分的に予測できる行動パターンが明らかとなった。
これは、前例のない規模のパーソナリティ関連質問に対して、費用対効果とアンケートフリーで調査を可能にする可能性がある。
スマートフォンセンシングによって得られたリッチな行動データと機械学習技術の組み合わせは、パーソナリティ研究の進展にどのように役立つかを示し、実践者と研究者の両方にパーソナリティの異なる行動パターンを知らせる。
これらの知見は,将来,より正確かつ効率的な予測モデルの改良をめざして,人格評価にモバイルセンサデータを活用する組織にとって,実践的な意味を持つ。 This study provides evidence that personality can be reliably predicted from activity data collected through mobile phone sensors. Employing a set of well informed indicators calculable from accelerometer records and movement patterns, we were able to predict users' personality up to a 0.78 F1 score on a two class problem. Given the fast growing number of data collected from mobile phones, our novel personality indicators open the door to exciting avenues for future research in social sciences. Our results reveal distinct behavioral patterns that proved to be differentially predictive of big five personality traits. They potentially enable cost effective, questionnaire free investigation of personality related questions at an unprecedented scale. We show how a combination of rich behavioral data obtained with smartphone sensing and the use of machine learning techniques can help to advance personality research and can inform both practitioners and researchers about the different behavioral patterns of personality. These findings have practical implications for organizations harnessing mobile sensor data for personality assessment, guiding the refinement of more precise and efficient prediction models in the future. | 翻訳日:2024-01-23 18:54:43 公開日:2024-01-22 |
# 革命的製薬:製薬業界におけるaiとllmのトレンド Revolutionizing Pharma: Unveiling the AI and LLM Trends in the Pharmaceutical Industry ( http://arxiv.org/abs/2401.10273v2 ) ライセンス: Link先を確認 | Yu Han, Jingwen Tao | (参考訳) この文書は、製薬業界における人工知能(AI)の新たなトレンドと重要な進歩について、批判的な概要を提供する。
研究・開発・動物試験・臨床試験・病院臨床段階・生産・規制問題・品質管理・その他の支援分野を含む主要な業務分野における適用について、各分野におけるAIの役割を分類的に検討する。
機械学習アルゴリズムのような最先端のAI技術と、薬品操作のさまざまな側面への貢献に特に重点を置いている。
この包括的分析を通じて、この論文は、医薬品産業の将来を変革するAIの可能性を強調している。 This document offers a critical overview of the emerging trends and significant advancements in artificial intelligence (AI) within the pharmaceutical industry. Detailing its application across key operational areas, including research and development, animal testing, clinical trials, hospital clinical stages, production, regulatory affairs, quality control and other supporting areas, the paper categorically examines AI's role in each sector. Special emphasis is placed on cutting-edge AI technologies like machine learning algorithms and their contributions to various aspects of pharmaceutical operations. Through this comprehensive analysis, the paper highlights the transformative potential of AI in reshaping the pharmaceutical industry's future. | 翻訳日:2024-01-23 18:54:23 公開日:2024-01-22 |
# Motion-Zero:拡散映像生成のためのゼロショット移動物体制御フレームワーク Motion-Zero: Zero-Shot Moving Object Control Framework for Diffusion-Based Video Generation ( http://arxiv.org/abs/2401.10150v3 ) ライセンス: Link先を確認 | Changgu Chen, Junwei Shu, Lianggangxu Chen, Gaoqi He, Changbo Wang and Yang Li | (参考訳) 最近の大規模事前学習拡散モデルは、詳細なテキスト記述から高品質のビデオを生成する強力な生成能力を示している。
しかし、ビデオ拡散モデルによって生成されたビデオにおける物体の動きを制御することは難しい問題である。
本稿では,バウンディングボックストラジェクタ制御によるテキスト対ビデオ拡散モデルを実現するために,新しいゼロショット移動物体軌道制御フレームワークmotion-zeroを提案する。
これにより、移動物体の出現の安定性と位置の精度を向上させるために、初期ノイズ先行モジュールが位置ベースとなるように設計される。
さらに、U-netの注意マップに基づいて、拡散モデルの復調過程に空間的制約を直接適用することにより、推論中の移動物体の位置的および空間的整合性を確保する。
さらに、シフト時間注意機構により、時間整合性が保証される。
本手法は, 訓練過程を必要とせず, 様々な映像拡散モデルに適用できる。
提案手法は,物体の運動軌跡を制御し,高品質な映像を生成できることを示す。 Recent large-scale pre-trained diffusion models have demonstrated a powerful generative ability to produce high-quality videos from detailed text descriptions. However, exerting control over the motion of objects in videos generated by any video diffusion model is a challenging problem. In this paper, we propose a novel zero-shot moving object trajectory control framework, Motion-Zero, to enable a bounding-box-trajectories-controlled text-to-video diffusion model. To this end, an initial noise prior module is designed to provide a position-based prior to improve the stability of the appearance of the moving object and the accuracy of position. In addition, based on the attention map of the U-net, spatial constraints are directly applied to the denoising process of diffusion models, which further ensures the positional and spatial consistency of moving objects during the inference. Furthermore, temporal consistency is guaranteed with a proposed shift temporal attention mechanism. Our method can be flexibly applied to various state-of-the-art video diffusion models without any training process. Extensive experiments demonstrate our proposed method can control the motion trajectories of objects and generate high-quality videos. | 翻訳日:2024-01-23 18:53:32 公開日:2024-01-22 |
# 標準ポリソノグラフィーデータと耳内EEG信号の比較分析:予備的検討 Comparison analysis between standard polysomnographic data and in-ear-EEG signals: A preliminary study ( http://arxiv.org/abs/2401.10107v2 ) ライセンス: Link先を確認 | Gianpaolo Palo, Luigi Fiorillo, Giuliana Monachino, Michal Bechny, Mark Melnykowycz, Athina Tzovara, Valentina Agostini, and Francesca Dalia Faraci | (参考訳) 研究目的: ポリソムノグラフィ(psg)は現在、睡眠障害の評価基準となっている。
その不快さ、家庭利用の非現実性、および睡眠品質評価におけるバイアスの導入は、より侵襲的で費用対効果の低いポータブルな代替品の探索を必要とする。
このセンサーは、快適さ、固定電極位置、電磁干渉に対する耐性、ユーザーフレンドリー性といった面で利点がある。
本研究は,耳内EEG信号と標準PSGの類似性を評価する手法を確立することを目的とする。
方法:PSGと初期EEG由来のハイドノグラムの一致を評価した。
時間領域と周波数領域の特徴をPSGとEEG内30秒のエポックから抽出する。
われわれはPSG-scorersとear-EEG-scorersが合意に達した時期についてのみ検討する。
我々はPSG導出と単一チャネル内EEGの類似性を定量化する手法を提案する。
このアプローチは、Jensen-Shannon Divergence Feature-based similarity Index (JSD-FSI)を介して、選択された機能(各睡眠段階に抽出され、PSGと内EEG信号の両方を対象とする)の分布の比較に依存する。
結果: 内耳波信号の評価において, スコアラーが有していた不確かさが主な原因と考えられた。
覚醒時のPSG信号と耳内EEG信号の類似度は高い(JSD-FSI: 0.61 +/0.06、NREMでは 0.60 +/- 0.07、REMでは 0.51 +/- 0.08)。
結論: In-ear-EEGは在宅睡眠モニタリングに有用なソリューションであるが、より大きく異質なデータセットによるさらなる研究が必要である。 Study Objectives: Polysomnography (PSG) currently serves as the benchmark for evaluating sleep disorders. Its discomfort, impracticality for home-use, and introduction of bias in sleep quality assessment necessitate the exploration of less invasive, cost-effective, and portable alternatives. One promising contender is the in-ear-EEG sensor, which offers advantages in terms of comfort, fixed electrode positions, resistance to electromagnetic interference, and user-friendliness. This study aims to establish a methodology to assess the similarity between the in-ear-EEG signal and standard PSG. Methods: We assess the agreement between the PSG and in-ear-EEG derived hypnograms. We extract features in the time- and frequency- domain from PSG and in-ear-EEG 30-second epochs. We only consider the epochs where the PSG-scorers and the in-ear-EEG-scorers were in agreement. We introduce a methodology to quantify the similarity between PSG derivations and the single-channel in-ear-EEG. The approach relies on a comparison of distributions of selected features -- extracted for each sleep stage and subject on both PSG and the in-ear-EEG signals -- via a Jensen-Shannon Divergence Feature-based Similarity Index (JSD-FSI). Results: We found a high intra-scorer variability, mainly due to the uncertainty the scorers had in evaluating the in-ear-EEG signals. We show that the similarity between PSG and in-ear-EEG signals is high (JSD-FSI: 0.61 +/- 0.06 in awake, 0.60 +/- 0.07 in NREM and 0.51 +/- 0.08 in REM), and in line with the similarity values computed independently on standard PSG-channel-combinations. Conclusions: In-ear-EEG is a valuable solution for home-based sleep monitoring, however further studies with a larger and more heterogeneous dataset are needed. | 翻訳日:2024-01-23 18:53:15 公開日:2024-01-22 |
# dual-prism を通じて:グラフ分類のためのグラフデータ拡張に関するスペクトル視点 Through the Dual-Prism: A Spectral Perspective on Graph Data Augmentation for Graph Classification ( http://arxiv.org/abs/2401.09953v2 ) ライセンス: Link先を確認 | Yutong Xia, Runpeng Yu, Yuxuan Liang, Xavier Bresson, Xinchao Wang, Roger Zimmermann | (参考訳) グラフニューラルネットワーク(gnns)はグラフデータを処理するためのツールとして好まれており、グラフデータ拡張技術によってその効果が向上している。
拡張法の進化にもかかわらず、グラフ特性の歪みや制限された構造変化などの問題は続いている。
よりプロパティを保存し、構造に敏感な拡張方法を開発することは可能か?
スペクトルレンズを用いて, グラフ特性の相互作用, 拡張性, スペクトル挙動について検討し, 低周波固有値の維持は, 拡張グラフを生成する際に, 大規模に臨界特性を保存できることを見出した。
これらの結果から,DP-Noise と DP-Mask から構成されるDual-Prism (DP) 拡張手法の導入が示唆された。
大規模な実験により、我々のアプローチの効率が検証され、グラフデータ拡張のための新しい有望な方向が提供される。 Graph Neural Networks (GNNs) have become the preferred tool to process graph data, with their efficacy being boosted through graph data augmentation techniques. Despite the evolution of augmentation methods, issues like graph property distortions and restricted structural changes persist. This leads to the question: Is it possible to develop more property-conserving and structure-sensitive augmentation methods? Through a spectral lens, we investigate the interplay between graph properties, their augmentation, and their spectral behavior, and found that keeping the low-frequency eigenvalues unchanged can preserve the critical properties at a large scale when generating augmented graphs. These observations inform our introduction of the Dual-Prism (DP) augmentation method, comprising DP-Noise and DP-Mask, which adeptly retains essential graph properties while diversifying augmented graphs. Extensive experiments validate the efficiency of our approach, providing a new and promising direction for graph data augmentation. | 翻訳日:2024-01-23 18:52:14 公開日:2024-01-22 |
# ソフトウェア工学テキストにおける感情分類:事前学習されたトランスフォーマー言語モデルの比較分析 Emotion Classification In Software Engineering Texts: A Comparative Analysis of Pre-trained Transformers Language Models ( http://arxiv.org/abs/2401.10845v2 ) ライセンス: Link先を確認 | Mia Mohammad Imran | (参考訳) ソフトウェア工学のテキストにおける感情認識は、開発者表現の理解とコラボレーションの改善に不可欠である。
本稿では,github と stack overflow の2つのベンチマークデータセットにおけるきめ細かな感情分類のための最先端事前学習言語モデル (ptm) の比較分析を行う。
我々は、現在最高のパフォーマンスツールであるSEntiMojiに対して、BERT、RoBERTa、ALBERT、DeBERTa、CodeBERT、GraphCodeBERTの6つのトランスフォーマーモデルを評価する。
分析の結果、マクロ平均値とマイクロ平均値のF1スコアは1.17\%から16.79\%まで一貫した改善が見られ、一般のドメインモデルは特殊値よりも優れていた。
PTMをさらに強化するために、トレーニング中に注意層に極性特性を取り入れ、ベースラインのPTMアプローチよりも1.0\%から10.23\%の平均ゲインを増すことを示した。
私たちの研究は、ソフトウェアエンジニアリングの文脈において、怒り、愛、恐怖、喜び、悲しみ、驚きといったニュアンス的な感情を認識するptmが与えた進歩の強力な証拠を提供します。
包括的なベンチマークとエラー解析を通じて、コンテキストギャップに対処するための改善のスコープを概説する。 Emotion recognition in software engineering texts is critical for understanding developer expressions and improving collaboration. This paper presents a comparative analysis of state-of-the-art Pre-trained Language Models (PTMs) for fine-grained emotion classification on two benchmark datasets from GitHub and Stack Overflow. We evaluate six transformer models - BERT, RoBERTa, ALBERT, DeBERTa, CodeBERT and GraphCodeBERT against the current best-performing tool SEntiMoji. Our analysis reveals consistent improvements ranging from 1.17\% to 16.79\% in terms of macro-averaged and micro-averaged F1 scores, with general domain models outperforming specialized ones. To further enhance PTMs, we incorporate polarity features in attention layer during training, demonstrating additional average gains of 1.0\% to 10.23\% over baseline PTMs approaches. Our work provides strong evidence for the advancements afforded by PTMs in recognizing nuanced emotions like Anger, Love, Fear, Joy, Sadness, and Surprise in software engineering contexts. Through comprehensive benchmarking and error analysis, we also outline scope for improvements to address contextual gaps. | 翻訳日:2024-01-23 18:40:55 公開日:2024-01-22 |
# starlit: プライバシー保護型フェデレーション学習で金融不正検出を強化 Starlit: Privacy-Preserving Federated Learning to Enhance Financial Fraud Detection ( http://arxiv.org/abs/2401.10765v2 ) ライセンス: Link先を確認 | Aydin Abadi, Bradley Doyle, Francesco Gini, Kieron Guinamard, Sasi Kumar Murakonda, Jack Liddell, Paul Mellor, Steven J. Murdoch, Mohammad Naseri, Hector Page, George Theodorakopoulos, Suzanne Weller | (参考訳) Federated Learning(FL)は、さまざまなクライアントとローカルデータ間の協調的なモデルトレーニングを可能にするデータ最小化アプローチである。
しかし、不正な金融取引を識別するための最先端のFLソリューションは、以下の制限のサブセットを示している。
They (1) lack a formal security definition and proof, (2) assume prior freezing of suspicious customers' accounts by financial institutions (limiting the solutions' adoption), (3) scale poorly, involving either $O(n^2)$ computationally expensive modular exponentiation (where $n$ is the total number of financial institutions) or highly inefficient fully homomorphic encryption, (4) assume the parties have already completed the identity alignment phase, hence excluding it from the implementation, performance evaluation, and security analysis, and (5) struggle to resist clients' dropouts.
この作業では,これらの制限を克服する,スケーラブルなプライバシ保護FL機構であるStarlitが導入されている。
金融詐欺の検出の強化、テロの緩和、デジタルヘルスの強化など、様々な応用がある。
我々はstarlitを実装し,グローバル金融取引におけるキープレイヤーの合成データを用いて詳細なパフォーマンス分析を行った。
評価はstarlitのスケーラビリティ、効率、正確性を示している。 Federated Learning (FL) is a data-minimization approach enabling collaborative model training across diverse clients with local data, avoiding direct data exchange. However, state-of-the-art FL solutions to identify fraudulent financial transactions exhibit a subset of the following limitations. They (1) lack a formal security definition and proof, (2) assume prior freezing of suspicious customers' accounts by financial institutions (limiting the solutions' adoption), (3) scale poorly, involving either $O(n^2)$ computationally expensive modular exponentiation (where $n$ is the total number of financial institutions) or highly inefficient fully homomorphic encryption, (4) assume the parties have already completed the identity alignment phase, hence excluding it from the implementation, performance evaluation, and security analysis, and (5) struggle to resist clients' dropouts. This work introduces Starlit, a novel scalable privacy-preserving FL mechanism that overcomes these limitations. It has various applications, such as enhancing financial fraud detection, mitigating terrorism, and enhancing digital health. We implemented Starlit and conducted a thorough performance analysis using synthetic data from a key player in global financial transactions. The evaluation indicates Starlit's scalability, efficiency, and accuracy. | 翻訳日:2024-01-23 18:40:33 公開日:2024-01-22 |
# 大規模言語モデル時代のイデオロギーにおける人間-ai体験 : 文献レビュー In-IDE Human-AI Experience in the Era of Large Language Models; A Literature Review ( http://arxiv.org/abs/2401.10739v2 ) ライセンス: Link先を確認 | Agnia Sergeyuk, Sergey Titov, Maliheh Izadi | (参考訳) 統合開発環境(ide)は現代のソフトウェア開発の中心となり、特にai(artificial intelligence)の統合によってプログラミング効率と意思決定が向上している。
IDE内部のヒューマンAIエクスペリエンスの研究は、これらのAIツールがソフトウェア開発プロセスをどのように変え、プログラマの生産性に影響を与え、コード品質に影響を与えるかを理解する上で極めて重要である。
我々は,IDE内におけるプログラマとAIアシスタント間のあいまいな相互作用を理解するためのギャップを埋めて,IDE内人間-AIエクスペリエンス研究の現状を研究するために文献レビューを行った。
36件の論文を分析した結果, デザイン, インパクト, 品質の3つの主要な研究分野が明らかになった。
本論文で特定されたトレンド、課題、機会は、ソフトウェア開発の進化の風景を強調し、このダイナミックな分野における研究開発の今後の方向性を告げる。
具体的には,タスク固有のユーザインターフェースの設計,信頼の構築,可読性の向上という3つの側面について,コミュニティに調査を依頼する。 Integrated Development Environments (IDEs) have become central to modern software development, especially with the integration of Artificial Intelligence (AI) to enhance programming efficiency and decision-making. The study of in-IDE Human-AI Experience is critical in understanding how these AI tools are transforming the software development process, impacting programmer productivity, and influencing code quality. We conducted a literature review to study the current state of in-IDE Human-AI Experience research, bridging a gap in understanding the nuanced interactions between programmers and AI assistants within IDEs. By analyzing 36 selected papers, our study illustrates three primary research branches: Design, Impact, and Quality of Interaction. The trends, challenges, and opportunities identified in this paper emphasize the evolving landscape of software development and inform future directions for research and development in this dynamic field. Specifically, we invite the community to investigate three aspects of these interactions: designing task-specific user interface, building trust, and improving readability. | 翻訳日:2024-01-23 18:40:13 公開日:2024-01-22 |
# 大規模言語モデルの知識融合 Knowledge Fusion of Large Language Models ( http://arxiv.org/abs/2401.10491v2 ) ライセンス: Link先を確認 | Fanqi Wan, Xinting Huang, Deng Cai, Xiaojun Quan, Wei Bi, Shuming Shi | (参考訳) 大規模言語モデル(LLM)をスクラッチからトレーニングすることで、機能と強みの異なるモデルを生成することができるが、かなりのコストがかかり、冗長な機能をもたらす可能性がある。
あるいは、コスト効率が高く魅力的なアプローチは、既存のトレーニング済みのLCMをより強力なモデルにマージすることである。
しかし、これらのllmの様々なアーキテクチャのため、重みを直接ブレンドすることは現実的ではない。
本稿では,LLM の知識融合の概念を紹介し,既存の LLM の能力とそれらを単一の LLM に変換することを目的とした。
ソースLLMの生成的分布を利用することで、それらの集合的知識と独特な強みを外部化し、任意のソースLLMよりもターゲットモデルの能力を高める可能性がある。
我々は,Llama-2,MPT,OpenLLaMAの3つのアーキテクチャを持つLLMを用いて,様々なベンチマークやタスクに対してアプローチを検証する。
その結果,llmの融合により,推論やコモンセンス,コード生成など,さまざまな機能にわたる対象モデルのパフォーマンス向上が期待できることがわかった。
我々のコード、モデルウェイト、データは \url{https://github.com/fanqiwan/FuseLLM} で公開されています。 While training large language models (LLMs) from scratch can generate models with distinct functionalities and strengths, it comes at significant costs and may result in redundant capabilities. Alternatively, a cost-effective and compelling approach is to merge existing pre-trained LLMs into a more potent model. However, due to the varying architectures of these LLMs, directly blending their weights is impractical. In this paper, we introduce the notion of knowledge fusion for LLMs, aimed at combining the capabilities of existing LLMs and transferring them into a single LLM. By leveraging the generative distributions of source LLMs, we externalize their collective knowledge and unique strengths, thereby potentially elevating the capabilities of the target model beyond those of any individual source LLM. We validate our approach using three popular LLMs with different architectures--Llama-2, MPT, and OpenLLaMA--across various benchmarks and tasks. Our findings confirm that the fusion of LLMs can improve the performance of the target model across a range of capabilities such as reasoning, commonsense, and code generation. Our code, model weights, and data are public at \url{https://github.com/fanqiwan/FuseLLM}. | 翻訳日:2024-01-23 18:39:57 公開日:2024-01-22 |
# 学習支援確率的容量拡張計画:ベイズ最適化アプローチ Learning-assisted Stochastic Capacity Expansion Planning: A Bayesian Optimization Approach ( http://arxiv.org/abs/2401.10451v2 ) ライセンス: Link先を確認 | Aron Brenner, Rahman Khorramfar, Dharik Mallapragada, Saurabh Amin | (参考訳) 大規模容量拡大問題(CEP)の解決は、地域規模のエネルギーシステムのコスト効率の高い脱炭の中心である。
CEPの意図した結果を保証するため、気象に依存した可変再生可能エネルギー(VRE)の供給とエネルギー需要による不確実性をモデル化することが重要である。
しかし、結果として得られる確率的最適化モデルは、しばしば決定論的モデルよりも計算的に扱いにくい。
本稿では,2段階確率CEPを抽出可能な学習支援近似解法を提案する。
提案手法は,時間的集約型サロゲート問題の構築と解決により,低コストな計画決定を識別する。
我々は,時系列集約ハイパーパラメータの空間を探索し,供給需要予測の検証セットのコストを最小化する近似解を計算するベイズ最適化手法を採用する。
重要な点として,解決された計画の成果を連続したテストプロジェクションで評価する。
我々は,ニューイングランドにまたがるジョイントパワーガスシステムの発電・送電拡張計画にアプローチを適用した。
本手法は,ベンチマーク時系列アグリゲーション手法と比較して,最大3.8%のコスト削減が期待できることを示す。 Solving large-scale capacity expansion problems (CEPs) is central to cost-effective decarbonization of regional-scale energy systems. To ensure the intended outcomes of CEPs, modeling uncertainty due to weather-dependent variable renewable energy (VRE) supply and energy demand becomes crucially important. However, the resulting stochastic optimization models are often less computationally tractable than their deterministic counterparts. Here, we propose a learning-assisted approximate solution method to tractably solve two-stage stochastic CEPs. Our method identifies low-cost planning decisions by constructing and solving a sequence of tractable temporally aggregated surrogate problems. We adopt a Bayesian optimization approach to searching the space of time series aggregation hyperparameters and compute approximate solutions that minimize costs on a validation set of supply-demand projections. Importantly, we evaluate solved planning outcomes on a held-out set of test projections. We apply our approach to generation and transmission expansion planning for a joint power-gas system spanning New England. We show that our approach yields an estimated cost savings of up to 3.8% in comparison to benchmark time series aggregation approaches. | 翻訳日:2024-01-23 18:39:38 公開日:2024-01-22 |
# syzretrospector: syzbotの大規模振り返り調査 SyzRetrospector: A Large-Scale Retrospective Study of Syzbot ( http://arxiv.org/abs/2401.11642v1 ) ライセンス: Link先を確認 | Joseph Bursey, Ardalan Amiri Sani, Zhiyun Qian | (参考訳) 過去6年間で、SyzbotはLinuxカーネルを昼夜混乱させ、5570以上のバグを報告し、そのうち4604がパッチが当てられた[11]。
これは印象的なことですが、バグを見つける平均時間は405日以上であることが分かりました。
さらに,Syzbotの評価では,バグの大部分がファザから隠されているため,タイム・トゥ・フィンドやバグの数といった現在のメトリクスが不正確であることが判明した。
本稿では,Syzbotの性能とバグ発見の改善について,より深く理解し,定量化する。
我々のツールであるSyzRetrospectorは、Syzbotがバグを見つけることができる最初期の方法と、そのバグが明らかにされた理由を見つけることで、Syzbotの評価に異なるアプローチを取っています。
SyzRetrospectorを大規模に使用して599のバグを分析し、Syzbotが発見できる平均331.17日前にバグが隠されていることを発見した。
さらに,発見要因の挙動,バグの公開が困難であること,過去6年間の遅延傾向,バグの位置が遅延とどのように関係しているか,などについて明らかにする。
また、Syzbotの遅延を改善するための重要なポイントも提供します。 Over the past 6 years, Syzbot has fuzzed the Linux kernel day and night to report over 5570 bugs, of which 4604 have been patched [11]. While this is impressive, we have found the average time to find a bug is over 405 days. Moreover, we have found that current metrics commonly used, such as time-to-find and number of bugs found, are inaccurate in evaluating Syzbot since bugs often spend the majority of their lives hidden from the fuzzer. In this paper, we set out to better understand and quantify Syzbot's performance and improvement in finding bugs. Our tool, SyzRetrospector, takes a different approach to evaluating Syzbot by finding the earliest that Syzbot was capable of finding a bug, and why that bug was revealed. We use SyzRetrospector on a large scale to analyze 559 bugs and find that bugs are hidden for an average of 331.17 days before Syzbot is even able to find them. We further present findings on the behaviors of revealing factors, how some bugs are harder to reveal than others, the trends in delays over the past 6 years, and how bug location relates to delays. We also provide key takeaways for improving Syzbot's delays. | 翻訳日:2024-01-23 15:46:54 公開日:2024-01-22 |
# 階層的正規化を伴うマルチモーダル・コントラスト EHR モデルによる次回の来院診断予測 Next Visit Diagnosis Prediction via Medical Code-Centric Multimodal Contrastive EHR Modelling with Hierarchical Regularisation ( http://arxiv.org/abs/2401.11648v1 ) ライセンス: Link先を確認 | Heejoon Koo | (参考訳) エレクトロニック・ヘルス・レコード(EHR)を用いた次の来院診断の予測は、医療機関と患者双方の積極的な将来の計画策定に不可欠である。
しかしながら、多くの先行研究は、EHRデータに固有の不均一性や階層性に十分対応していない。
そこで我々は, 階層的正規化を伴う新しい医用コード中心マルチモーダルコントラスト学習フレームワークであるNECHOを提案する。
まず, 医用コード, 人口統計, 臨床ノートを含む多面的情報を, 整形ネットワーク設計と両モードのコントラスト的損失のペアを用いて統合し, すべて医療用コード表現を中心に展開する。
EHRデータの階層構造を学習するために、医療オントロジーにおける親レベル情報を用いてモダリティ固有のエンコーダを規則化する。
MIMIC-IIIデータの一連の実験により,本手法の有効性が示された。 Predicting next visit diagnosis using Electronic Health Records (EHR) is an essential task in healthcare, critical for devising proactive future plans for both healthcare providers and patients. Nonetheless, many preceding studies have not sufficiently addressed the heterogeneous and hierarchical characteristics inherent in EHR data, inevitably leading to sub-optimal performance. To this end, we propose NECHO, a novel medical code-centric multimodal contrastive EHR learning framework with hierarchical regularisation. First, we integrate multifaceted information encompassing medical codes, demographics, and clinical notes using a tailored network design and a pair of bimodal contrastive losses, all of which pivot around a medical code representation. We also regularise modality-specific encoders using a parental level information in medical ontology to learn hierarchical structure of EHR data. A series of experiments on MIMIC-III data demonstrates effectiveness of our approach. | 翻訳日:2024-01-23 15:35:56 公開日:2024-01-22 |
# LW-FedSSL:資源効率のよい階層型自己教師型学習 LW-FedSSL: Resource-efficient Layer-wise Federated Self-supervised Learning ( http://arxiv.org/abs/2401.11647v1 ) ライセンス: Link先を確認 | Ye Lin Tun, Chu Myaet Thwal, Le Quang Huy, Minh N. H. Nguyen, Choong Seon Hong | (参考訳) 最近の多くの研究は、エッジデバイスに分散した生のトレーニングデータを活用するために、連合学習(fl)と自己教師付き学習(ssl)を統合する。
しかし、エッジデバイスはSSLとFLアルゴリズムによって課される高い計算と通信コストに悩まされることが多い。
この障害に対処するために、エッジデバイスが一度にモデルの1つの層を漸進的にトレーニングできるレイヤワイドな自己教師付き学習アプローチであるLW-FedSSLを提案する。
LW-FedSSLはサーバ側のキャリブレーションと表現アライメント機構を備えており、クライアントのリソース要求を大幅に低減しつつ、エンドツーエンドのFedSSLと同等のパフォーマンスを維持する。
サーバサイドキャリブレーション機構は、FL環境におけるリソース豊富なサーバを利用して、グローバルモデルトレーニングを支援する。
一方、表現アライメント機構は、FL局所モデルの表現とグローバルモデルの表現との密接性を促進する。
我々の実験によると、LW-FedSSLのメモリ要件は3.3ドル、通信コストは3.2ドルだった。
また、prog-fedsslと呼ばれるプログレッシブトレーニング戦略も検討し、同様のメモリ要件と18セントの通信コストでエンドツーエンドトレーニングを上回っています。 Many recent studies integrate federated learning (FL) with self-supervised learning (SSL) to take advantage of raw training data distributed across edge devices. However, edge devices often struggle with high computation and communication costs imposed by SSL and FL algorithms. To tackle this hindrance, we propose LW-FedSSL, a layer-wise federated self-supervised learning approach that allows edge devices to incrementally train one layer of the model at a time. LW-FedSSL comprises server-side calibration and representation alignment mechanisms to maintain comparable performance with end-to-end FedSSL while significantly lowering clients' resource requirements. The server-side calibration mechanism takes advantage of the resource-rich server in an FL environment to assist in global model training. Meanwhile, the representation alignment mechanism encourages closeness between representations of FL local models and those of the global model. Our experiments show that LW-FedSSL has a $3.3 \times$ lower memory requirement and a $3.2 \times$ cheaper communication cost than its end-to-end counterpart. We also explore a progressive training strategy called Prog-FedSSL that outperforms end-to-end training with a similar memory requirement and a $1.8 \times$ cheaper communication cost. | 翻訳日:2024-01-23 15:35:39 公開日:2024-01-22 |
# 可変再生スケッチによる非パラメトリック推定 Nonparametric Estimation via Variance-Reduced Sketching ( http://arxiv.org/abs/2401.11646v1 ) ライセンス: Link先を確認 | Yuehaw Khoo, Yifan Peng, and Daren Wang | (参考訳) 非パラメトリックモデルは、様々な科学と工学の分野に大きな関心を持っている。
古典的なカーネル法は、低次元設定では数値的に堅牢で統計的に健全であるが、次元性の呪いにより高次元設定では不十分となる。
本稿では,高次元における密度関数と非パラメトリック回帰関数を,次元の呪いを減らして推定することを目的として,VRS(Variance-Reduced Sketching)と呼ばれる新しいフレームワークを提案する。
本フレームワークは,無限大行列として多変数関数を概念化し,数値線形代数文を動機とした新しいスケッチ手法により,推定問題の分散を低減する。
シミュレーション実験と実世界のデータアプリケーションによるVRSの堅牢な数値性能を実証する。
特に、VRSは、多数の密度推定と非パラメトリック回帰モデルにおいて、既存のニューラルネットワーク推定器や古典的なカーネル手法よりも顕著に改善されている。
さらに,vrに対して,次元の呪いを低減した非パラメトリック推定能力をサポートする理論的正当性を提供する。 Nonparametric models are of great interest in various scientific and engineering disciplines. Classical kernel methods, while numerically robust and statistically sound in low-dimensional settings, become inadequate in higher-dimensional settings due to the curse of dimensionality. In this paper, we introduce a new framework called Variance-Reduced Sketching (VRS), specifically designed to estimate density functions and nonparametric regression functions in higher dimensions with a reduced curse of dimensionality. Our framework conceptualizes multivariable functions as infinite-size matrices, and facilitates a new sketching technique motivated by numerical linear algebra literature to reduce the variance in estimation problems. We demonstrate the robust numerical performance of VRS through a series of simulated experiments and real-world data applications. Notably, VRS shows remarkable improvement over existing neural network estimators and classical kernel methods in numerous density estimation and nonparametric regression models. Additionally, we offer theoretical justifications for VRS to support its ability to deliver nonparametric estimation with a reduced curse of dimensionality. | 翻訳日:2024-01-23 15:35:15 公開日:2024-01-22 |
# 複数のソフトマックスに注意を向けたストリーミング双方向asrモデル Streaming Bilingual End-to-End ASR model using Attention over Multiple Softmax ( http://arxiv.org/abs/2401.11645v1 ) ライセンス: Link先を確認 | Aditya Patil, Vikas Joshi, Purvi Agrawal, Rupesh Mehta | (参考訳) 多言語モデリングのいくつかの進歩にもかかわらず、入力言語を知ることなく単一のニューラルモデルを用いて複数の言語を認識することは困難である。
そこで本研究では,単一のニューラルモデルが両言語を認識でき,ユーザからの言語入力なしに言語間の切り替えも可能となる,新たなバイリンガルエンド・ツー・エンド(e2e)モデリング手法を提案する。
提案モデルは共有エンコーダと予測ネットワークを持ち、言語固有のジョイントネットワークは自己接続機構を介して結合される。
言語固有の後方部が結合されると、全ての出力シンボルに対して単一の後方確率を生成し、単一のビーム探索復号を可能にし、言語間の動的切り替えを可能にする。
提案手法は,ヒンディー語,英語,コード混合テストセットにおいて,従来のバイリンガルベースラインの13.3%,8.23%,単語誤り率1.3%をそれぞれ比較した。 Even with several advancements in multilingual modeling, it is challenging to recognize multiple languages using a single neural model, without knowing the input language and most multilingual models assume the availability of the input language. In this work, we propose a novel bilingual end-to-end (E2E) modeling approach, where a single neural model can recognize both languages and also support switching between the languages, without any language input from the user. The proposed model has shared encoder and prediction networks, with language-specific joint networks that are combined via a self-attention mechanism. As the language-specific posteriors are combined, it produces a single posterior probability over all the output symbols, enabling a single beam search decoding and also allowing dynamic switching between the languages. The proposed approach outperforms the conventional bilingual baseline with 13.3%, 8.23% and 1.3% word error rate relative reduction on Hindi, English and code-mixed test sets, respectively. | 翻訳日:2024-01-23 15:34:59 公開日:2024-01-22 |
# 時間を越えた友人:手術相認識のためのマルチスケールアクションセグメンテーション変換器 Friends Across Time: Multi-Scale Action Segmentation Transformer for Surgical Phase Recognition ( http://arxiv.org/abs/2401.11644v1 ) ライセンス: Link先を確認 | Bokai Zhang, Jiayuan Meng, Bin Cheng, Dean Biskup, Svetlana Petculescu, Angela Chapman | (参考訳) 自動手術相認識は、現代の手術室とオンライン手術ビデオアセスメントプラットフォームのための中核技術である。
現在の最先端手法は、空間情報と時間情報の両方を用いて、外科的位相認識タスクに取り組む。
そこで本研究では,オフライン手術相認識用マルチスケールアクションセグメンテーショントランス (ms-ast) とオンライン手術相認識用マルチスケールアクションセグメンテーション因果トランス (ms-asct) を提案する。
空間特徴抽出にはResNet50またはEfficientNetV2-Mを用いる。
我々のMS-ASTとMS-ASCTは、多スケールの時間的自己注意と多スケールの時間的相互意識を用いて、時間的情報を異なるスケールでモデル化することができる。
本研究では,オンラインおよびオフラインの手術相認識のためのcholec80データセットにおいて,95.26%と96.15%の精度をそれぞれ達成できることを示す。
本手法は,ビデオアクションセグメンテーション領域における非医療データセットの最先端結果も達成できる。 Automatic surgical phase recognition is a core technology for modern operating rooms and online surgical video assessment platforms. Current state-of-the-art methods use both spatial and temporal information to tackle the surgical phase recognition task. Building on this idea, we propose the Multi-Scale Action Segmentation Transformer (MS-AST) for offline surgical phase recognition and the Multi-Scale Action Segmentation Causal Transformer (MS-ASCT) for online surgical phase recognition. We use ResNet50 or EfficientNetV2-M for spatial feature extraction. Our MS-AST and MS-ASCT can model temporal information at different scales with multi-scale temporal self-attention and multi-scale temporal cross-attention, which enhances the capture of temporal relationships between frames and segments. We demonstrate that our method can achieve 95.26% and 96.15% accuracy on the Cholec80 dataset for online and offline surgical phase recognition, respectively, which achieves new state-of-the-art results. Our method can also achieve state-of-the-art results on non-medical datasets in the video action segmentation domain. | 翻訳日:2024-01-23 15:34:39 公開日:2024-01-22 |
# LLMによる金融の革新 - アプリケーションとインサイトの概要 Revolutionizing Finance with LLMs: An Overview of Applications and Insights ( http://arxiv.org/abs/2401.11641v1 ) ライセンス: Link先を確認 | Huaqin Zhao, Zhengliang Liu, Zihao Wu, Yiwei Li, Tianze Yang, Peng Shu, Shaochen Xu, Haixing Dai, Lin Zhao, Gengchen Mai, Ninghao Liu, Tianming Liu | (参考訳) 近年、ChatGPTのようなLarge Language Models (LLM) は大幅に進歩し、様々な分野で応用されている。
トランスフォーマーアーキテクチャ上に構築されたこれらのモデルは、広範なデータセットでトレーニングされ、人間の言語を効果的に理解し、生成することができる。
金融分野では、LSMの展開が勢いを増している。
これらのモデルは、財務報告の自動生成、市場のトレンド予測、投資家の感情分析、パーソナライズされた財務アドバイスの提供に利用されています。
自然言語処理能力を活用することで、膨大な金融データから重要な洞察を抽出し、インフォームド投資の選択を支援し、運用効率と顧客満足度を高めることができる。
本研究では,様々な金融業務へのllmの新たな統合について概観する。
さらに、自然言語命令の組み合わせにより、複数の財務業務の総合的なテストを行った。
以上より, GPT-4は, 様々な財務業務において, 効果的に指示に従うことが示唆された。
金融分野におけるLLMの実態調査と評価は、金融実践者及びLLM研究者の金融におけるLLMの役割の理解を深め、新たな研究・応用の可能性を特定し、金融業界における実践的課題の解決にどのように活用できるかを明らかにすることを目的としている。 In recent years, Large Language Models (LLMs) like ChatGPT have seen considerable advancements and have been applied in diverse fields. Built on the Transformer architecture, these models are trained on extensive datasets, enabling them to understand and generate human language effectively. In the financial domain, the deployment of LLMs is gaining momentum. These models are being utilized for automating financial report generation, forecasting market trends, analyzing investor sentiment, and offering personalized financial advice. Leveraging their natural language processing capabilities, LLMs can distill key insights from vast financial data, aiding institutions in making informed investment choices and enhancing both operational efficiency and customer satisfaction. In this study, we provide a comprehensive overview of the emerging integration of LLMs into various financial tasks. Additionally, we conducted holistic tests on multiple financial tasks through the combination of natural language instructions. Our findings show that GPT-4 effectively follow prompt instructions across various financial tasks. This survey and evaluation of LLMs in the financial domain aim to deepen the understanding of LLMs' current role in finance for both financial practitioners and LLM researchers, identify new research and application prospects, and highlight how these technologies can be leveraged to solve practical challenges in the finance industry. | 翻訳日:2024-01-23 15:34:17 公開日:2024-01-22 |
# Zoom-shot: マルチモーダル損失を有するビジョンエンコーダへのCLIPの高速かつ効率的なゼロショット転送 Zoom-shot: Fast and Efficient Unsupervised Zero-Shot Transfer of CLIP to Vision Encoders with Multimodal Loss ( http://arxiv.org/abs/2401.11633v1 ) ライセンス: Link先を確認 | Jordan Shipard, Arnold Wiliem, Kien Nguyen Thanh, Wei Xiang, Clinton Fookes | (参考訳) ビジョンと言語の統合は、ビジョン言語モデル(vlms)の出現を通じて、コンピュータビジョンの変革をもたらした。
しかし、既存のVLMの資源集約性は大きな課題となっている。
我々は次世代のVLMを開発するためのアクセス可能な方法が必要である。
そこで本稿では,クリップのゼロショット機能を任意の事前学習された視覚エンコーダに転送する新しい手法であるzoom-shotを提案する。
私たちはCLIPラテント空間に存在するマルチモーダル情報(テキストと画像)を、特別に設計されたマルチモーダル損失関数を用いることで活用する。
これらの損失関数は,(1)サイクルコンシスタンス損失,(2)新規迅速誘導型知識蒸留損失(pg-kd)である。
PG-KDは知識蒸留の概念とCLIPのゼロショット分類を組み合わせて、テキストと画像の特徴間の相互作用を捉える。
マルチモーダルな損失があれば、$\textbf{single epoch}$で、CLIP潜在空間と事前訓練されたビジョンエンコーダの潜在空間の間に$\textbf{linear mapping}$をトレーニングします。
さらに、zoom-shotは完全に教師なしで、$\textbf{unpaired}$データを使ってトレーニングされる。
我々は,新しいVLMとして拡張された様々な視覚エンコーダのゼロショット能力を,粗い,きめ細かな分類データセットで検証し,この問題領域における従来の最先端技術よりも優れていた。
また,画像ネットトレーニングデータの20%から1%のトレーニングを20エポックで削減することで,最先端の成果を得ることができた。
すべてのコードとモデルはGitHubで入手できる。 The fusion of vision and language has brought about a transformative shift in computer vision through the emergence of Vision-Language Models (VLMs). However, the resource-intensive nature of existing VLMs poses a significant challenge. We need an accessible method for developing the next generation of VLMs. To address this issue, we propose Zoom-shot, a novel method for transferring the zero-shot capabilities of CLIP to any pre-trained vision encoder. We do this by exploiting the multimodal information (i.e. text and image) present in the CLIP latent space through the use of specifically designed multimodal loss functions. These loss functions are (1) cycle-consistency loss and (2) our novel prompt-guided knowledge distillation loss (PG-KD). PG-KD combines the concept of knowledge distillation with CLIP's zero-shot classification, to capture the interactions between text and image features. With our multimodal losses, we train a $\textbf{linear mapping}$ between the CLIP latent space and the latent space of a pre-trained vision encoder, for only a $\textbf{single epoch}$. Furthermore, Zoom-shot is entirely unsupervised and is trained using $\textbf{unpaired}$ data. We test the zero-shot capabilities of a range of vision encoders augmented as new VLMs, on coarse and fine-grained classification datasets, outperforming the previous state-of-the-art in this problem domain. In our ablations, we find Zoom-shot allows for a trade-off between data and compute during training; and our state-of-the-art results can be obtained by reducing training from 20% to 1% of the ImageNet training data with 20 epochs. All code and models are available on GitHub. | 翻訳日:2024-01-23 15:33:54 公開日:2024-01-22 |
# 大学生の入学予測 : 解釈可能な深層学習アプローチ Admission Prediction in Undergraduate Applications: an Interpretable Deep Learning Approach ( http://arxiv.org/abs/2401.11698v1 ) ライセンス: Link先を確認 | Amisha Priyadarshini, Barbara Martinez-Neda, Sergio Gago-Masague | (参考訳) 本論は、入学委員会の学部入学決定の検証に関する課題について述べる。
近年、従来の審査プロセスは、膨大な数の応募者のデータを扱うのに苦労している。
さらに、この伝統的な評価は、しばしば人間のバイアスにつながるため、応募者間の差別につながる可能性がある。
従来の機械学習ベースのアプローチは、アプリケーションレビュアーによる定量的評価の検証を目的としているが、これらの手法はスケーラビリティに欠け、大量のデータが存在する場合にパフォーマンスの問題に悩まされている。
そこで本研究では,既存の手法が直面する課題を克服する,フィードフォワードと入力凸ニューラルネットワークという,ディープラーニングに基づく分類器を提案する。
さらに、解釈可能性モジュール、すなわちLIMEを組み込むことで、モデルにさらなる洞察を与える。
私たちのトレーニングとテストデータセットは、幅広い変数と情報を持つ応募者のデータで構成されています。
私たちのモデルは、従来の機械学習ベースのアプローチと比較して、かなり精度が3.03\%向上しました。
また,LIME法を用いて,異なる特徴の感度と,その相対的影響が全体の受入判定に与える影響も示した。 This article addresses the challenge of validating the admission committee's decisions for undergraduate admissions. In recent years, the traditional review process has struggled to handle the overwhelmingly large amount of applicants' data. Moreover, this traditional assessment often leads to human bias, which might result in discrimination among applicants. Although classical machine learning-based approaches exist that aim to verify the quantitative assessment made by the application reviewers, these methods lack scalability and suffer from performance issues when a large volume of data is in place. In this context, we propose deep learning-based classifiers, namely Feed-Forward and Input Convex neural networks, which overcome the challenges faced by the existing methods. Furthermore, we give additional insights into our model by incorporating an interpretability module, namely LIME. Our training and test datasets comprise applicants' data with a wide range of variables and information. Our models achieve higher accuracy compared to the best-performing traditional machine learning-based approach by a considerable margin of 3.03\%. Additionally, we show the sensitivity of different features and their relative impacts on the overall admission decision using the LIME technique. | 翻訳日:2024-01-23 15:24:38 公開日:2024-01-22 |
# MVSFormer++: マルチビューステレオのためのTransformerの詳細で悪魔を明らかにする MVSFormer++: Revealing the Devil in Transformer's Details for Multi-View Stereo ( http://arxiv.org/abs/2401.11673v1 ) ライセンス: Link先を確認 | Chenjie Cao, Xinlin Ren, Yanwei Fu | (参考訳) 学習に基づくマルチビューステレオ(MVS)手法の最近の進歩は、注意機構を持つトランスフォーマーモデルに顕著な特徴を持っている。
しかし、既存のアプローチでは、異なるMVSモジュールに対するトランスフォーマーの深い影響を徹底的に調べておらず、その結果、深さ推定能力は限られている。
本稿では,MVSパイプラインの様々なコンポーネントを強化するために,注意の特性を的確に最大化する手法であるMVSFormer++を紹介する。
我々のアプローチは、MVS学習を促進するために、事前に訓練されたDINOv2モデルにクロスビュー情報を注入する。
さらに,特徴エンコーダとコスト容積正規化に異なる注意機構を用い,各特徴量と空間的アグリゲーションに着目した。
さらに,MVSにおける変圧器モジュールの性能には,正規化3次元位置符号化,アダプティブアテンダスケーリング,レイヤ正規化位置など,いくつかの設計詳細が大きな影響を与えることが判明した。
DTU, タンク・アンド・テンプル, BlendedMVS, ETH3Dの総合的な実験により, 提案手法の有効性が検証された。
特に、MVSFormer++は挑戦的なDTUとTurps-and-Templesベンチマークで最先端のパフォーマンスを実現している。 Recent advancements in learning-based Multi-View Stereo (MVS) methods have prominently featured transformer-based models with attention mechanisms. However, existing approaches have not thoroughly investigated the profound influence of transformers on different MVS modules, resulting in limited depth estimation capabilities. In this paper, we introduce MVSFormer++, a method that prudently maximizes the inherent characteristics of attention to enhance various components of the MVS pipeline. Formally, our approach involves infusing cross-view information into the pre-trained DINOv2 model to facilitate MVS learning. Furthermore, we employ different attention mechanisms for the feature encoder and cost volume regularization, focusing on feature and spatial aggregations respectively. Additionally, we uncover that some design details would substantially impact the performance of transformer modules in MVS, including normalized 3D positional encoding, adaptive attention scaling, and the position of layer normalization. Comprehensive experiments on DTU, Tanks-and-Temples, BlendedMVS, and ETH3D validate the effectiveness of the proposed method. Notably, MVSFormer++ achieves state-of-the-art performance on the challenging DTU and Tanks-and-Temples benchmarks. | 翻訳日:2024-01-23 15:24:24 公開日:2024-01-22 |
# RTA-Former:ポリプセグメンテーションのためのリバーストランスアテンション RTA-Former: Reverse Transformer Attention for Polyp Segmentation ( http://arxiv.org/abs/2401.11671v1 ) ライセンス: Link先を確認 | Zhikai Li, Murong Yi, Ali Uneri, Sihan Niu, and Craig Jones | (参考訳) ポリープセグメンテーションは大腸癌予防の重要な側面であり、早期発見とその後の治療の指導を可能にする。
ディープラーニングソリューションを含むインテリジェントな診断ツールは、このプロセスを合理化し、自動化するために広く研究されている。
しかし、多くの強力なネットワークアーキテクチャでさえ、正確なエッジセグメンテーションを生成するという問題がある。
本稿では,エンコーダのバックボーンとしてトランスフォーマーモデルを採用した新しいネットワークであるRTA-Formerを紹介し,エッジセグメンテーションの強化のためにデコーダのトランスフォーマーステージにリバースアテンション(RA)を適応させる。
実験の結果、RTA-Formerは5つのpolypセグメンテーションデータセットで最先端(SOTA)のパフォーマンスを達成することが示された。
RTA-Formerの強い能力は、Transformerベースのpolypセグメンテーションの精度を向上させることを約束しており、より優れた臨床決定と患者の結果をもたらす可能性がある。
私たちのコードはGitHubで公開されます。 Polyp segmentation is a key aspect of colorectal cancer prevention, enabling early detection and guiding subsequent treatments. Intelligent diagnostic tools, including deep learning solutions, are widely explored to streamline and potentially automate this process. However, even with many powerful network architectures, there still comes the problem of producing accurate edge segmentation. In this paper, we introduce a novel network, namely RTA-Former, that employs a transformer model as the encoder backbone and innovatively adapts Reverse Attention (RA) with a transformer stage in the decoder for enhanced edge segmentation. The results of the experiments illustrate that RTA-Former achieves state-of-the-art (SOTA) performance in five polyp segmentation datasets. The strong capability of RTA-Former holds promise in improving the accuracy of Transformer-based polyp segmentation, potentially leading to better clinical decisions and patient outcomes. Our code will be publicly available on GitHub. | 翻訳日:2024-01-23 15:24:03 公開日:2024-01-22 |
# 量子相関の増幅に及ぼす貯水池スクイージングの影響 Effects of reservoir squeezing on the amplification of quantum correlation ( http://arxiv.org/abs/2401.11670v1 ) ライセンス: Link先を確認 | Zhaorui Peng, Lucas C. C\'eleri, Abdul Basit, Gao Xianlong | (参考訳) 量子ディスコルドのダイナミクスは、2つの同一の非相互作用量子ビットの系で研究され、非分解相互作用を通じて共通のスクイズド真空浴に結合される。
両量子ビットが当初$x$-type状態で準備されたとき、貯水池のスクイージングが量子ディスコルドの動的挙動にどのように影響するかを考察する。
臨界時間は突然の量子ディスコードの変化を示しており、これは量子ディスコード増幅にとって非常に重要である。
さらに、システムの初期パラメータによって、臨界時間が有限または無限である場合の間隔を数値的に計算する。
有限臨界時間において,浴槽のスクイーズ位相が臨界時間を延長し,スクイーズ強度が逆効果を示すことを示した。
無限臨界時間において、突然の遷移点がなくても、貯水池のスクイージングは依然として量子不協和の増幅に影響を与え、スクイージングパラメータを調整することで定常量子不協和に達する時間を変更することができる。
本研究では,2量子ビット系において,スクイーズパラメータと初期パラメータの調整により,2量子ビット系の量子速度制限時間について検討し,量子速度制限時間を低減できることを示す。
驚くべきことに、短時間の限界において、貯水池のスクイージングは量子ディスコード増幅の程度に明らかな影響を与えている。
本研究は量子相関の増幅を制御するための有望なアプローチを示す。 The dynamics of quantum discord is studied in a system of two identical noninteracting qubits coupled to a common squeezed vacuum bath through non-demolition interactions. We concern on how reservoir squeezing influences the dynamical behaviors of quantum discord when both qubits are initially prepared in $X$-type states. We find that the critical time exhibits the sudden change of quantum discord, which is of great significance for the quantum discord amplification. Furthermore, depending on the initial parameters of the system, we numerically calculate the interval when the critical time is finite or infinite. For the finite critical time, we show that the squeezing phase of the bath can prolong the critical time while the squeezing strength exhibits the opposite effect. For infinite critical time, even if there is no sudden transition point, reservoir squeezing still has an effect on the amplification of quantum discord, and the time to reach steady-state quantum discord can be changed by adjusting the squeezing parameters. Fianlly, we investigate the quantum speed limit time for a two-qubit system under squeezed reservoir, and find that the quantum speed limit time can be reduced via the adjustment of the squeezing parameters and the initial parameters. Remarkably, in the short time limit, reservoir squeezing has an obvious influence on the degree of amplification of quantum discord. Our study presents a promising approach to controlling the amplification of quantum correlation. | 翻訳日:2024-01-23 15:23:46 公開日:2024-01-22 |
# 心臓病予測のための改良グレイウルフ最適化アルゴリズム An Improved Grey Wolf Optimization Algorithm for Heart Disease Prediction ( http://arxiv.org/abs/2401.11669v1 ) ライセンス: Link先を確認 | Sihan Niu, Yifan Zhou, Zhikai Li, Shuyao Huang, and Yujun Zhou | (参考訳) 本稿では,適応曲線灰色のオオカミ最適化(ACGWO)アルゴリズムをニューラルネットワークのバックプロパゲーションに組み込むことにより,医用画像処理における課題に対するユニークな解決策を提案する。
ニューラルネットワークは医療データに潜在的な可能性を示すが、不均衡と不足による過剰フィッティングや解釈可能性の欠如といった問題に苦しむ。
従来のグレーウルフ最適化(GWO)にも、人口の多様性の欠如や早期収束といった欠点がある。
本稿では,適応アルゴリズムを導入し,Sigmoid関数を用いた標準GWOを改良することにより,これらの問題に対処する。
このアルゴリズムは6つのよく知られたテスト関数を用いて4つの主要なアルゴリズムと比較し、効率よく性能を向上した。
さらに、ACGWOを利用することで、ニューラルネットワークの堅牢性と一般化を高め、より解釈可能な予測を行う。
クリーブランド心疾患データセットに適用し, 86.8%の精度で他の10法を上回り, 臨床における効率的な心疾患予測の可能性を示した。 This paper presents a unique solution to challenges in medical image processing by incorporating an adaptive curve grey wolf optimization (ACGWO) algorithm into neural network backpropagation. Neural networks show potential in medical data but suffer from issues like overfitting and lack of interpretability due to imbalanced and scarce data. Traditional Gray Wolf Optimization (GWO) also has its drawbacks, such as a lack of population diversity and premature convergence. This paper addresses these problems by introducing an adaptive algorithm, enhancing the standard GWO with a sigmoid function. This algorithm was extensively compared to four leading algorithms using six well-known test functions, outperforming them effectively. Moreover, by utilizing the ACGWO, we increase the robustness and generalization of the neural network, resulting in more interpretable predictions. Applied to the publicly accessible Cleveland Heart Disease dataset, our technique surpasses ten other methods, achieving 86.8% accuracy, indicating its potential for efficient heart disease prediction in the clinical setting. | 翻訳日:2024-01-23 15:23:22 公開日:2024-01-22 |
# incprompt: リハーサルフリークラスインクリメンタル学習のためのタスクアウェアインクリメンタルプロンプト INCPrompt: Task-Aware incremental Prompting for Rehearsal-Free Class-incremental Learning ( http://arxiv.org/abs/2401.11667v1 ) ライセンス: Link先を確認 | Zhiyuan Wang, Xiaoyang Qu, Jing Xiao, Bokui Chen, Jianzong Wang | (参考訳) 本稿では,破滅的忘れを効果的に解決する革新的な連続学習ソリューションであるINCPromptを紹介する。
INCPromptの重要な革新は、タスク関連情報をキャプチャする適応型キーラーナーとタスク認識プロンプトを使用することである。
このユニークな組み合わせはタスク間の一般的な知識をカプセル化し、タスク固有の知識をエンコードする。
複数の連続学習ベンチマークを総合的に評価した結果,incpromptが既存のアルゴリズムよりも優れていることが示され,高い性能を維持しながら壊滅的忘れることの軽減効果が示された。
これらの結果は,タスク認識の漸進的促進が継続的な学習性能に与える影響を浮き彫りにした。 This paper introduces INCPrompt, an innovative continual learning solution that effectively addresses catastrophic forgetting. INCPrompt's key innovation lies in its use of adaptive key-learner and task-aware prompts that capture task-relevant information. This unique combination encapsulates general knowledge across tasks and encodes task-specific knowledge. Our comprehensive evaluation across multiple continual learning benchmarks demonstrates INCPrompt's superiority over existing algorithms, showing its effectiveness in mitigating catastrophic forgetting while maintaining high performance. These results highlight the significant impact of task-aware incremental prompting on continual learning performance. | 翻訳日:2024-01-23 15:23:03 公開日:2024-01-22 |
# p2dt:プログレッシブ・プロンプト・意思決定トランスフォーマーによるタスクインクリメンタル・ラーニングにおける忘れることの軽減 P2DT: Mitigating Forgetting in task-incremental Learning with progressive prompt Decision Transformer ( http://arxiv.org/abs/2401.11666v1 ) ライセンス: Link先を確認 | Zhiyuan Wang, Xiaoyang Qu, Jing Xiao, Bokui Chen, Jianzong Wang | (参考訳) 破滅的な忘れは、大きなモデルによって制御されるインテリジェントエージェントを管理する上で大きな課題となり、これらのエージェントが新しいタスクに直面するとパフォーマンスが低下する。
本研究では,P2DT(Progressive Prompt Decision Transformer)を提案する。
本手法は,新しいタスクトレーニング中に動的に決定トークンを付加することにより,トランスフォーマーベースのモデルを強化する。
私たちのアプローチは、継続的およびオフラインの強化学習シナリオの忘れを緩和します。
さらに、P2DTは、従来の強化学習を通じて収集された軌道を利用して、トレーニング中に新しいタスク固有のトークンを生成し、従来の研究から知識を保持する。
予備的な結果は、我々のモデルは破滅的な忘れを効果的に軽減し、タスク環境の増大とともにスケールすることを示した。 Catastrophic forgetting poses a substantial challenge for managing intelligent agents controlled by a large model, causing performance degradation when these agents face new tasks. In our work, we propose a novel solution - the Progressive Prompt Decision Transformer (P2DT). This method enhances a transformer-based model by dynamically appending decision tokens during new task training, thus fostering task-specific policies. Our approach mitigates forgetting in continual and offline reinforcement learning scenarios. Moreover, P2DT leverages trajectories collected via traditional reinforcement learning from all tasks and generates new task-specific tokens during training, thereby retaining knowledge from previous studies. Preliminary results demonstrate that our model effectively alleviates catastrophic forgetting and scales well with increasing task environments. | 翻訳日:2024-01-23 15:22:51 公開日:2024-01-22 |
# アンダーダム型Langevin Monte Carloによる近似トンプソンサンプリングの高速化 Accelerating Approximate Thompson Sampling with Underdamped Langevin Monte Carlo ( http://arxiv.org/abs/2401.11665v1 ) ライセンス: Link先を確認 | Haoyang Zheng, Wei Deng, Christian Moya, Guang Lin | (参考訳) ランゲヴィン・モンテカルロによる近似トンプソンサンプリングは、ガウス後部サンプリングからより一般的な滑らかな後部サンプリングの範囲を広げる。
しかし、高い精度を必要とする場合、高次元問題ではスケーラビリティの問題に遭遇する。
そこで本研究では, 損傷の少ないランジュバンモンテカルロを用いて, 高次元後頭部のシミュレーションにgo-toワークホースを用いた近似トンプソンサンプリング手法を提案する。
標準の滑らかさと対数凹凸条件に基づいて, 加速後部濃度とサンプリングを特定のポテンシャル関数を用いて検討した。
この設計は、対数的後悔を$\mathcal{\tilde o}(d)$ から$\mathcal{\tilde o}(\sqrt{d})$ に実現するためのサンプルの複雑さを改善する。
このアルゴリズムのスケーラビリティと堅牢性は,高次元バンディット問題における合成実験を通じて実証的に検証される。 Approximate Thompson sampling with Langevin Monte Carlo broadens its reach from Gaussian posterior sampling to encompass more general smooth posteriors. However, it still encounters scalability issues in high-dimensional problems when demanding high accuracy. To address this, we propose an approximate Thompson sampling strategy, utilizing underdamped Langevin Monte Carlo, where the latter is the go-to workhorse for simulations of high-dimensional posteriors. Based on the standard smoothness and log-concavity conditions, we study the accelerated posterior concentration and sampling using a specific potential function. This design improves the sample complexity for realizing logarithmic regrets from $\mathcal{\tilde O}(d)$ to $\mathcal{\tilde O}(\sqrt{d})$. The scalability and robustness of our algorithm are also empirically validated through synthetic experiments in high-dimensional bandit problems. | 翻訳日:2024-01-23 15:22:36 公開日:2024-01-22 |
# ReRAMを用いたトランスフォーマーベース言語モデルにおけるゼロスペースコストフォールトトレランス Zero-Space Cost Fault Tolerance for Transformer-based Language Models on ReRAM ( http://arxiv.org/abs/2401.11664v1 ) ライセンス: Link先を確認 | Bingbing Li, Geng Yuan, Zigeng Wang, Shaoyi Huang, Hongwu Peng, Payman Behnam, Wujie Wen, Hang Liu and Caiwen Ding | (参考訳) reram(re resistive random access memory)は、dnn(deep neural network)の有望なプラットフォームとして登場した。
しかし、フォールト欠陥のようなハードウェアの故障は、モデル推論中に重大な予測エラーを引き起こす可能性がある。
これらの障害に対処するために追加のクロスバーを使用することができるが、ストレージオーバーヘッドがあり、空間、エネルギー、コストの点で効率が良くない。
本稿では,ゼロスペースコストを発生させる障害保護機構を提案する。
私たちのアプローチには
1)モデルの冗長性を低減するために、行と列の識別可能な構造プルーニング
2)頑健な生産のための重量重複と投票
3) 重複した最重要なビット(MSB)をモデル重みに埋め込む。
提案手法をBERTモデルを用いてGLUEベンチマークの9つのタスクで評価し,その有効性を実験的に検証した。 Resistive Random Access Memory (ReRAM) has emerged as a promising platform for deep neural networks (DNNs) due to its support for parallel in-situ matrix-vector multiplication. However, hardware failures, such as stuck-at-fault defects, can result in significant prediction errors during model inference. While additional crossbars can be used to address these failures, they come with storage overhead and are not efficient in terms of space, energy, and cost. In this paper, we propose a fault protection mechanism that incurs zero space cost. Our approach includes: 1) differentiable structure pruning of rows and columns to reduce model redundancy, 2) weight duplication and voting for robust output, and 3) embedding duplicated most significant bits (MSBs) into the model weight. We evaluate our method on nine tasks of the GLUE benchmark with the BERT model, and experimental results prove its effectiveness. | 翻訳日:2024-01-23 15:22:21 公開日:2024-01-22 |
# 潜在状態空間における微分可能木探索 Differentiable Tree Search in Latent State Space ( http://arxiv.org/abs/2401.11660v1 ) ライセンス: Link先を確認 | Dixant Mittal and Wee Sun Lee | (参考訳) 訓練データに制限のある意思決定問題では、ディープニューラルネットワークを用いて近似されたポリシー関数は、しばしば準最適性能を示す。
別のアプローチでは、限られたデータから世界モデルを学び、オンライン検索を通じて行動を決定する。
しかし,学習世界モデルにおける不正確性に起因する誤りの複合化によって,パフォーマンスは悪影響を受ける。
treeqnのような手法は、それらのアーキテクチャにアルゴリズム的構造バイアスを組み込むことで、これらの不正確さに対処しようとしたが、彼らが導入するバイアスはしばしば弱く、複雑な意思決定タスクには不十分である。
本研究では,最も優れたオンライン検索アルゴリズムのアルゴリズム構造を組み込むことにより,誘導バイアスを大幅に強化するニューラルネットワークアーキテクチャである微分可能木探索(DTS)を導入する。
DTSは学習した世界モデルを用いて、潜在状態空間で完全に差別化可能なオンライン検索を行う。
世界モデルは検索アルゴリズムと共同で最適化され、ロバストな世界モデルの学習を可能にし、モデル不正確性の効果を緩和する。
本稿では、確率木拡張ポリシーを採用し、探索木拡張を意思決定タスクとして定式化し、勾配計算に有効な分散低減手法を導入することにより、最優先探索の素早い導入から生じるQ-関数の不連続性に対処する。
我々は,DTSを,ゲームやグリッドナビゲーションタスクにおいて限られたトレーニングデータシナリオでオフラインRLで評価し,DTSが一般的なモデルフリーおよびモデルベースラインより優れていることを示す。 In decision-making problems with limited training data, policy functions approximated using deep neural networks often exhibit suboptimal performance. An alternative approach involves learning a world model from the limited data and determining actions through online search. However, the performance is adversely affected by compounding errors arising from inaccuracies in the learnt world model. While methods like TreeQN have attempted to address these inaccuracies by incorporating algorithmic structural biases into their architectures, the biases they introduce are often weak and insufficient for complex decision-making tasks. In this work, we introduce Differentiable Tree Search (DTS), a novel neural network architecture that significantly strengthens the inductive bias by embedding the algorithmic structure of a best-first online search algorithm. DTS employs a learnt world model to conduct a fully differentiable online search in latent state space. The world model is jointly optimised with the search algorithm, enabling the learning of a robust world model and mitigating the effect of model inaccuracies. We address potential Q-function discontinuities arising from naive incorporation of best-first search by adopting a stochastic tree expansion policy, formulating search tree expansion as a decision-making task, and introducing an effective variance reduction technique for the gradient computation. We evaluate DTS in an offline-RL setting with a limited training data scenario on Procgen games and grid navigation task, and demonstrate that DTS outperforms popular model-free and model-based baselines. | 翻訳日:2024-01-23 15:22:08 公開日:2024-01-22 |
# 動的不変量に基づくショートカットと平衡 Dynamical invariant based shortcut to equilibration ( http://arxiv.org/abs/2401.11659v1 ) ライセンス: Link先を確認 | Mohamed Boubakour, Shimpei Endo, Thom\'as Fogarty and Thomas Busch | (参考訳) 我々はルイス=リースフェルド不変量(Lewis-Riesenfeld invariant)として知られる動的不変量を用いて、駆動されたオープン量子系の平衡を高速化する。
これにより、オープン量子システムのダイナミクスを記述する時間依存マスター方程式をリバースエンジニアリングし、平衡への近道を実現するプロトコルを体系的に導出することができる。
この方法はボルン・マルコフ近似のそばの力学の時間スケールに関する追加の制約を必要とせず、単一粒子量子エンジンを著しく増やすために汎用的に適用することができる。
我々は、減衰調和振動子を用いてこれを実証し、本プロトコルが単純な非最適化プロトコルよりも短い時間スケールで高忠実性制御を実現できることを示す。
量子制御におけるmpemba効果の類似物と見なすことができる平衡をスピードアップするダイナミクスの間、この系は加熱されていることが判明した。 We propose using the dynamical invariant also known as the Lewis-Riesenfeld invariant, to speed-up the equilibration of a driven open quantum system. This allows us to reverse engineer the time-dependent master equation that describes the dynamics of the open quantum system and systematically derive a protocol that realizes a shortcut to equilibration. The method does not require additional constraints on the timescale of the dynamics beside the Born-Markov approximation and can be generically applied to boost single particle quantum engines significantly. We demonstrate it with the damped harmonic oscillator, and show that our protocol can achieve a high-fidelity control in shorter timescales than simple non-optimized protocols. We find that the system is heated during the dynamics to speed-up the equilibration, which can be considered as an analogue of the Mpemba effect in quantum control. | 翻訳日:2024-01-23 15:21:41 公開日:2024-01-22 |
# ActionHub: ゼロショットアクション認識のための大規模アクションビデオ記述データセット ActionHub: A Large-scale Action Video Description Dataset for Zero-shot Action Recognition ( http://arxiv.org/abs/2401.11654v1 ) ライセンス: Link先を確認 | Jiaming Zhou, Junwei Liang, Kun-Yu Lin, Jinrui Yang, Wei-Shi Zheng | (参考訳) Zero-shot Action Recognition (ZSAR) は、ビデオ間のアライメントモデルと、目に見えないアクションに転送可能なアクションのクラス記述を学習することを目的としている。
しかし、既存のZSAR作品で使われているテキストクエリ(クラス記述)は、しばしばビデオ内のリッチなセマンティクスをキャプチャできない短いアクション名であり、誤修正につながる。
映像コンテンツ記述(ビデオキャプションなど)が映像における視覚概念の豊かな文脈情報を提供できるという直観から、人間の注釈付きビデオ記述を用いて、各アクションのクラス記述の意味性を高めることを提案する。
しかし、既存のアクションビデオ記述データセットはすべて、アクションの数やビデオ記述の意味などによって制限されている。
この目的のために、合計1,211の共通アクションをカバーし、360万のアクションビデオ記述を提供するActionHubという大規模なアクションビデオ記述データセットを収集します。
提案するactionhubデータセットでは,2つのクロスモダリティアライメントモジュールとクロスアクション不変マイニングモジュールからなる,zsar用の新しいクロスモダリティ・クロスアクションモデリング(coco)フレームワークも提案する。
具体的には、2つのクロスモダリティアライメントモジュールはactionhubからのアクションラベルとビデオ記述の両方を使用して、機能アライメントのためのリッチなクラスセマンティクス機能を得る。
クロスアクション不変マイニングモジュール(cross-action invariance mining module)は、参照されるアクションのクラスセマンティクス的特徴空間と未知のアクションの間のサイクル再構成プロセスを活用し、モデルにクロスアクション不変表現を学ぶように導くことを目的としている。
我々のCoCoフレームワークは、ZSARの2つの異なる学習プロトコルの下で、一般的な3つのZSARベンチマーク(Kinetics-ZSAR, UCF101, HMDB51)において、その最先端性を著しく上回っている。
コード、モデル、提案されたactionhubデータセットをリリースします。 Zero-shot action recognition (ZSAR) aims to learn an alignment model between videos and class descriptions of seen actions that is transferable to unseen actions. The text queries (class descriptions) used in existing ZSAR works, however, are often short action names that fail to capture the rich semantics in the videos, leading to misalignment. With the intuition that video content descriptions (e.g., video captions) can provide rich contextual information of visual concepts in videos, we propose to utilize human annotated video descriptions to enrich the semantics of the class descriptions of each action. However, all existing action video description datasets are limited in terms of the number of actions, the semantics of video descriptions, etc. To this end, we collect a large-scale action video descriptions dataset named ActionHub, which covers a total of 1,211 common actions and provides 3.6 million action video descriptions. With the proposed ActionHub dataset, we further propose a novel Cross-modality and Cross-action Modeling (CoCo) framework for ZSAR, which consists of a Dual Cross-modality Alignment module and a Cross-action Invariance Mining module. Specifically, the Dual Cross-modality Alignment module utilizes both action labels and video descriptions from ActionHub to obtain rich class semantic features for feature alignment. The Cross-action Invariance Mining module exploits a cycle-reconstruction process between the class semantic feature spaces of seen actions and unseen actions, aiming to guide the model to learn cross-action invariant representations. Extensive experimental results demonstrate that our CoCo framework significantly outperforms the state-of-the-art on three popular ZSAR benchmarks (i.e., Kinetics-ZSAR, UCF101 and HMDB51) under two different learning protocols in ZSAR. We will release our code, models, and the proposed ActionHub dataset. | 翻訳日:2024-01-23 15:21:28 公開日:2024-01-22 |
# OnDev-LCT:連合学習に向けたオンデバイス軽量畳み込み変換器 OnDev-LCT: On-Device Lightweight Convolutional Transformers towards federated learning ( http://arxiv.org/abs/2401.11652v1 ) ライセンス: Link先を確認 | Chu Myaet Thwal, Minh N.H. Nguyen, Ye Lin Tun, Seong Tae Kim, My T. Thai, Choong Seon Hong | (参考訳) フェデレートラーニング(FL)は、プライバシーを維持しながら、複数のエッジデバイス間で機械学習モデルを協調的にトレーニングする、有望なアプローチとして登場した。
FLの成功は、参加するモデルの効率と、分散学習のユニークな課題に対処する能力にかかっている。
視覚トランスフォーマー(vit)のいくつかの変種は、集中型トレーニングのための現代の畳み込みニューラルネットワーク(cnns)の代替として大きな可能性を示したが、前例のない大きさと高い計算要求により、リソース制約のあるエッジデバイスへのデプロイが妨げられ、flでの広範な応用に挑戦している。
FLのクライアントデバイスは通常、限られた計算資源と通信帯域を有するため、そのようなデバイスを意図したモデルは、モデルサイズ、計算効率、FLで遭遇する多種多様な非IIDデータ分布に適応する能力のバランスをとる必要がある。
これらの課題に対処するため,我々はondev-lct: トレーニングデータとリソースに制限のあるオンデバイスビジョンタスク用の軽量畳み込みトランスフォーマを提案する。
lctエンコーダのマルチヘッドセルフアテンション(mhsa)機構は暗黙的に画像のグローバル表現をキャプチャするのを容易にする一方で,残差線形ボトルネックブロックの効率的な深さ分割可能な畳み込みを利用して局所的な特徴を抽出することで,lctトークンライザによる画像固有のインダクティブバイアスを取り入れている。
ベンチマーク画像データセットに関する広範な実験は、我々のモデルが既存の軽量ビジョンモデルよりもパラメータが少なく、計算要求も少ないことを示し、データの多様性と通信のボトルネックを伴うflシナリオに適していることを示している。 Federated learning (FL) has emerged as a promising approach to collaboratively train machine learning models across multiple edge devices while preserving privacy. The success of FL hinges on the efficiency of participating models and their ability to handle the unique challenges of distributed learning. While several variants of Vision Transformer (ViT) have shown great potential as alternatives to modern convolutional neural networks (CNNs) for centralized training, the unprecedented size and higher computational demands hinder their deployment on resource-constrained edge devices, challenging their widespread application in FL. Since client devices in FL typically have limited computing resources and communication bandwidth, models intended for such devices must strike a balance between model size, computational efficiency, and the ability to adapt to the diverse and non-IID data distributions encountered in FL. To address these challenges, we propose OnDev-LCT: Lightweight Convolutional Transformers for On-Device vision tasks with limited training data and resources. Our models incorporate image-specific inductive biases through the LCT tokenizer by leveraging efficient depthwise separable convolutions in residual linear bottleneck blocks to extract local features, while the multi-head self-attention (MHSA) mechanism in the LCT encoder implicitly facilitates capturing global representations of images. Extensive experiments on benchmark image datasets indicate that our models outperform existing lightweight vision models while having fewer parameters and lower computational demands, making them suitable for FL scenarios with data heterogeneity and communication bottlenecks. | 翻訳日:2024-01-23 15:20:52 公開日:2024-01-22 |
# pointgl:効率的なポイントクラウド分析のためのシンプルなグローバルローカルフレームワーク PointGL: A Simple Global-Local Framework for Efficient Point Cloud Analysis ( http://arxiv.org/abs/2401.11650v1 ) ライセンス: Link先を確認 | Jianan Li, Jie Wang, Tingfa Xu | (参考訳) 点雲の効率的な解析は、現実世界の3Dアプリケーションにおいて最重要となる。
現在、一般的なポイントベースモデルは、空間的に重複する局所的な点集合の列にポイント特徴を埋め込んで抽象化するPointNet++の方法論に準拠している。
CNN(Convolutional Neural Networks)の領域プーリングに続き、ピクセル埋め込みの合理化パラダイムからインスピレーションを得て、ポイントGLとして知られる新しい、複雑でない、かつ強力なアーキテクチャを導入し、効率的なポイントクラウド分析を容易にする。
pointglは2つの再帰的なステップを通じて機能獲得の階層的プロセスを採用している。
まず、Global Point Embeddingは、単純な残留多層パーセプトロン(MLP)を利用して各点に対する特徴埋め込みをエフェクチュレートする。
第2に,新しい局所グラフプーリング手法は点間関係を特徴付け,簡潔な局所グラフを通じて局所表現を抽象化する。
一点埋め込みとパラメータフリーグラフプーリングの調和した融合は、PointGLが定義するモデル複雑性の最小化と効率の向上に寄与する。
私たちのPointGLは、ScanObjectNNデータセットの最先端の精度を達成しつつ、5倍以上高速で、FLOPの約4%と、最近のPointMLPモデルと比較して30%のパラメータしか利用できないランタイムを示しています。
PointGLのコードはhttps://github.com/Roywangj/PointGLで公開されている。 Efficient analysis of point clouds holds paramount significance in real-world 3D applications. Currently, prevailing point-based models adhere to the PointNet++ methodology, which involves embedding and abstracting point features within a sequence of spatially overlapping local point sets, resulting in noticeable computational redundancy. Drawing inspiration from the streamlined paradigm of pixel embedding followed by regional pooling in Convolutional Neural Networks (CNNs), we introduce a novel, uncomplicated yet potent architecture known as PointGL, crafted to facilitate efficient point cloud analysis. PointGL employs a hierarchical process of feature acquisition through two recursive steps. First, the Global Point Embedding leverages straightforward residual Multilayer Perceptrons (MLPs) to effectuate feature embedding for each individual point. Second, the novel Local Graph Pooling technique characterizes point-to-point relationships and abstracts regional representations through succinct local graphs. The harmonious fusion of one-time point embedding and parameter-free graph pooling contributes to PointGL's defining attributes of minimized model complexity and heightened efficiency. Our PointGL attains state-of-the-art accuracy on the ScanObjectNN dataset while exhibiting a runtime that is more than 5 times faster and utilizing only approximately 4% of the FLOPs and 30% of the parameters compared to the recent PointMLP model. The code for PointGL is available at https://github.com/Roywangj/PointGL. | 翻訳日:2024-01-23 15:20:17 公開日:2024-01-22 |
# m2-clip:ビデオアクション認識のためのマルチモーダルマルチタスク適応フレームワーク M2-CLIP: A Multimodal, Multi-task Adapting Framework for Video Action Recognition ( http://arxiv.org/abs/2401.11649v1 ) ライセンス: Link先を確認 | Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu | (参考訳) 近年,パラメータ効率ファインタニング(PEFT)技術と相まって,CLIPのような大規模視覚言語事前訓練モデルの台頭がビデオアクション認識において大きな注目を集めている。
それでも、一般的なアプローチは、転送時のモデルの一般化能力を損なうことなく、強力な教師付き性能を優先する傾向にある。
本稿では,これらの課題に対処するため,新しいマルチモーダル・マルチタスクCLIP適応フレームワークである \name を導入する。
まず、個々のモダリティアーキテクチャを強化するため、ビジュアルブランチとテキストブランチの両方にマルチモーダルアダプタを導入する。
具体的には、視覚エンコーダの時間的表現能力を改善するために、グローバル時間拡張と局所時間差モデリングを行う新しいビジュアルTED-Adapterを設計する。
さらに,テキストエンコーダアダプタを採用し,意味ラベル情報の学習を強化した。
第2に,マルチモーダルフレームワーク内での強力な教師付き性能と一般化の必要性を確実に満たすために,豊富な監視信号を備えたマルチタスクデコーダを設計する。
実験結果は,ゼロショットシナリオにおける強い一般化を維持しつつ,教師あり学習における例外的な性能を示す手法の有効性を検証する。 Recently, the rise of large-scale vision-language pretrained models like CLIP, coupled with the technology of Parameter-Efficient FineTuning (PEFT), has captured substantial attraction in video action recognition. Nevertheless, prevailing approaches tend to prioritize strong supervised performance at the expense of compromising the models' generalization capabilities during transfer. In this paper, we introduce a novel Multimodal, Multi-task CLIP adapting framework named \name to address these challenges, preserving both high supervised performance and robust transferability. Firstly, to enhance the individual modality architectures, we introduce multimodal adapters to both the visual and text branches. Specifically, we design a novel visual TED-Adapter, that performs global Temporal Enhancement and local temporal Difference modeling to improve the temporal representation capabilities of the visual encoder. Moreover, we adopt text encoder adapters to strengthen the learning of semantic label information. Secondly, we design a multi-task decoder with a rich set of supervisory signals to adeptly satisfy the need for strong supervised performance and generalization within a multimodal framework. Experimental results validate the efficacy of our approach, demonstrating exceptional performance in supervised learning while maintaining strong generalization in zero-shot scenarios. | 翻訳日:2024-01-23 15:19:52 公開日:2024-01-22 |
# バイアスド・カウンシルからの適応合意学習による医用画像デバイアス Medical Image Debiasing by Learning Adaptive Agreement from a Biased Council ( http://arxiv.org/abs/2401.11713v1 ) ライセンス: Link先を確認 | Luyang Luo, Xin Huang, Minghao Wang, Zhuoyue Wan, Hao Chen | (参考訳) ディープラーニングは、データセットバイアスによって引き上げられたショートカットを学習する傾向があり、結果として不正確で信頼性の低い不公平なモデルが生まれる。
その重要性にもかかわらず、データセットバイアスに対処するための医用画像分類領域の研究が盛んである。
さらに、バイアスラベルはしばしば非依存であり、バイアスを特定することは熱心であり、ポストホック解釈に依存する。
本稿では,医療画像におけるデータセットバイアスに取り組むために,明示的なバイアスラベルに依存しないデバイアスフレームワークであるbiasted council(ada-abc)による学習適応合意を提案する。
Ada-ABCは、データセットバイアスを学習するために、一般化されたクロスエントロピー損失に最適化された複数の分類器からなるバイアス付きカウンシルを開発する。
デバイアスモデルは、バイアスド・カウンシルの指導の下で同時に訓練される。
具体的には、正しく予測されたサンプルについて合意し、偏りのあるカウンシルによって誤った予測されたサンプルについて不一致をすることで、偏りのあるカウンシルとの適応的合意を学ぶためにデバイアスモデルが必要となる。
このようにして、縮退モデルは、スプリアス相関を伴わずにサンプルの目標属性を学習し、スプリアス相関を伴ってサンプルの豊富な情報を無視する。
我々は、バイアスモデルがデータセットのバイアスをうまく捉えた場合に、デバイアスモデルがターゲットの特徴を学習できることを理論的に証明した。
さらに,7つの異なるバイアスシナリオを含む4つのデータセットから,最初の医学的デバイアスベンチマークを構築した。
提案するada-abcは,医療画像分類におけるデータセットバイアスの軽減効果を検証し,競争的アプローチを上回っていた。
コードと組織化されたベンチマークデータセットが公開される予定だ。 Deep learning could be prone to learning shortcuts raised by dataset bias and result in inaccurate, unreliable, and unfair models, which impedes its adoption in real-world clinical applications. Despite its significance, there is a dearth of research in the medical image classification domain to address dataset bias. Furthermore, the bias labels are often agnostic, as identifying biases can be laborious and depend on post-hoc interpretation. This paper proposes learning Adaptive Agreement from a Biased Council (Ada-ABC), a debiasing framework that does not rely on explicit bias labels to tackle dataset bias in medical images. Ada-ABC develops a biased council consisting of multiple classifiers optimized with generalized cross entropy loss to learn the dataset bias. A debiasing model is then simultaneously trained under the guidance of the biased council. Specifically, the debiasing model is required to learn adaptive agreement with the biased council by agreeing on the correctly predicted samples and disagreeing on the wrongly predicted samples by the biased council. In this way, the debiasing model could learn the target attribute on the samples without spurious correlations while also avoiding ignoring the rich information in samples with spurious correlations. We theoretically demonstrated that the debiasing model could learn the target features when the biased model successfully captures dataset bias. Moreover, to our best knowledge, we constructed the first medical debiasing benchmark from four datasets containing seven different bias scenarios. Our extensive experiments practically showed that our proposed Ada-ABC outperformed competitive approaches, verifying its effectiveness in mitigating dataset bias for medical image classification. The codes and organized benchmark datasets will be made publicly available. | 翻訳日:2024-01-23 15:15:09 公開日:2024-01-22 |
# 進化的ニューラルアーキテクチャ検索のランタイム分析への第一歩 A First Step Towards Runtime Analysis of Evolutionary Neural Architecture Search ( http://arxiv.org/abs/2401.11712v1 ) ライセンス: Link先を確認 | Zeqiong Lv, Chao Qian, Yanan Sun | (参考訳) 進化的ニューラルアーキテクチャサーチ(ENAS)は、進化的アルゴリズムを用いて自動的に高性能なニューラルアーキテクチャを見つける。
しかし、実証的な成功と比較すると、厳密な理論分析はまだ触れられていない。
本研究は、ENASの数学的ランタイム解析に向けた予備的なステップである。
特に、二項分類問題 UNIFORM を定義し、ニューラルアーキテクチャと分類精度の関係を表す明示的な適合関数を定式化する。
さらに,(1+1)-enasアルゴリズムとニューラルネットワークの最適化について検討し,以下のランタイム境界を求める。
1) 1ビットの突然変異は、期待ランタイムの$O(n)$と$\Omega(\log n)$の最適値を求める。
2) マルチビット変異は、期待される$\Theta(n)$のランタイムにおける最適値を求める。
これらの理論的な結果は、1ビットおよびマルチビットの変異が均一にほぼ同じ性能を達成することを示している。
我々は、enasコミュニティにおける突然変異の選択についての洞察を提供する: 多ビット変異は、ローカルトラップを防ぐためにステップサイズを変更することができるが、ランタイムを改善するとは限らない。
実験の結果、これら2つの変異演算子の等価性も検証された。
この研究はENASのランタイム解析を開始し、ENASの設計を導くためのさらなる理論的研究の基礎を築いた。 Evolutionary neural architecture search (ENAS) employs evolutionary algorithms to find high-performing neural architectures automatically, and has achieved great success. However, compared to the empirical success, its rigorous theoretical analysis has yet to be touched. This work goes preliminary steps toward the mathematical runtime analysis of ENAS. In particular, we define a binary classification problem UNIFORM, and formulate an explicit fitness function to represent the relationship between neural architecture and classification accuracy. Furthermore, we consider (1+1)-ENAS algorithm with mutation to optimize the neural architecture, and obtain the following runtime bounds: 1) the one-bit mutation finds the optimum in an expected runtime of $O(n)$ and $\Omega(\log n)$; 2) the multi-bit mutation finds the optimum in an expected runtime of $\Theta(n)$. These theoretical results show that one-bit and multi-bit mutations achieve nearly the same performance on UNIFORM. We provide insight into the choices of mutation in the ENAS community: although multi-bit mutation can change the step size to prevent a local trap, this may not always improve runtime. Empirical results also verify the equivalence of these two mutation operators. This work begins the runtime analysis of ENAS, laying the foundation for further theoretical studies to guide the design of ENAS. | 翻訳日:2024-01-23 15:14:38 公開日:2024-01-22 |
# HG3-NeRF:スパークビュー入力のための階層幾何学・意味・測光誘導ニューラル放射場 HG3-NeRF: Hierarchical Geometric, Semantic, and Photometric Guided Neural Radiance Fields for Sparse View Inputs ( http://arxiv.org/abs/2401.11711v1 ) ライセンス: Link先を確認 | Zelin Gao, Weichen Dai, Yu Zhang | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、離散的な観察からシーン表現を学習することで、新しい視点合成のパラダイムとして注目されている。
それでも、NeRFはスパースビューインプットに直面すると性能劣化を顕著に示し、その結果、さらに適用性を高めた。
本研究では, 上記の制約に対処し, 幾何, 意味的内容, 外観の整合性を高める新しい手法であるHG3-NeRF(Hierarchical Geometric, Semantic, and Photometric Guided NeRF)を紹介する。
本研究では階層型幾何学的ガイダンス(HGG)を提案し,SfM(Structure from Motion)のアタッチメントをシーン表現に組み込む。
直接深度監督と異なり、HGGは深度に固有の偏りが原因で生じるずれを緩和し、局所-球面幾何学領域から体積点をサンプリングした。
さらに,解像度の異なる画像間で観察されるセマンティック一貫性の顕著な変化からインスピレーションを得て,粗大なセマンティック・ガイダンス(HSG)を提案し,粗大なシーン表現に対応する粗大なセマンティック・コンテントを学習する。
実験により、HG3-NeRFは、異なる標準ベンチマークにおける他の最先端手法よりも優れ、スパースビュー入力に対する高忠実な合成結果が得られることが示された。 Neural Radiance Fields (NeRF) have garnered considerable attention as a paradigm for novel view synthesis by learning scene representations from discrete observations. Nevertheless, NeRF exhibit pronounced performance degradation when confronted with sparse view inputs, consequently curtailing its further applicability. In this work, we introduce Hierarchical Geometric, Semantic, and Photometric Guided NeRF (HG3-NeRF), a novel methodology that can address the aforementioned limitation and enhance consistency of geometry, semantic content, and appearance across different views. We propose Hierarchical Geometric Guidance (HGG) to incorporate the attachment of Structure from Motion (SfM), namely sparse depth prior, into the scene representations. Different from direct depth supervision, HGG samples volume points from local-to-global geometric regions, mitigating the misalignment caused by inherent bias in the depth prior. Furthermore, we draw inspiration from notable variations in semantic consistency observed across images of different resolutions and propose Hierarchical Semantic Guidance (HSG) to learn the coarse-to-fine semantic content, which corresponds to the coarse-to-fine scene representations. Experimental results demonstrate that HG3-NeRF can outperform other state-of-the-art methods on different standard benchmarks and achieve high-fidelity synthesis results for sparse view inputs. | 翻訳日:2024-01-23 15:14:17 公開日:2024-01-22 |
# テキストと画像の拡散をマスターする:マルチモーダルLLMによる再カプセル化, 計画, 生成 Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs ( http://arxiv.org/abs/2401.11708v1 ) ライセンス: Link先を確認 | Ling Yang, Zhaochen Yu, Chenlin Meng, Minkai Xu, Stefano Ermon, Bin Cui | (参考訳) 拡散モデルはテキスト・画像の生成・編集において例外的な性能を示した。
しかし、複数の属性と関係を持つ複数のオブジェクトを含む複雑なテキストプロンプトを扱う場合、既存のメソッドは、しばしば課題に直面する。
本稿では,マルチモーダルLLMの強力なチェーン・オブ・シント推論能力を活用し,テキスト・ツー・イメージ拡散モデルの構成性を向上する,新たなトレーニングフリーなテキスト・ツー・イメージ生成/編集フレームワークを提案する。
本手法では,MLLMをグローバルプランナとして使用し,複雑な画像をサブリージョン内の複数の単純な生成タスクに分解する。
地域的構成生成を可能にするために,補完的な地域拡散を提案する。
さらに,提案したRPGのテキスト誘導画像生成と編集をクローズドループ方式で統合し,一般化能力を向上する。
dall-e 3やsdxlといった最先端のテキストから画像への拡散モデル、特にマルチカテゴリのオブジェクト構成やテキスト・イメージのセマンティクスアライメントよりもrpgの方が優れています。
特に、RPGフレームワークは、さまざまなMLLMアーキテクチャ(MiniGPT-4など)と拡散バックボーン(ControlNetなど)との広範な互換性を示す。
私たちのコードは、https://github.com/YangLing0818/RPG-DiffusionMasterで利用可能です。 Diffusion models have exhibit exceptional performance in text-to-image generation and editing. However, existing methods often face challenges when handling complex text prompts that involve multiple objects with multiple attributes and relationships. In this paper, we propose a brand new training-free text-to-image generation/editing framework, namely Recaption, Plan and Generate (RPG), harnessing the powerful chain-of-thought reasoning ability of multimodal LLMs to enhance the compositionality of text-to-image diffusion models. Our approach employs the MLLM as a global planner to decompose the process of generating complex images into multiple simpler generation tasks within subregions. We propose complementary regional diffusion to enable region-wise compositional generation. Furthermore, we integrate text-guided image generation and editing within the proposed RPG in a closed-loop fashion, thereby enhancing generalization ability. Extensive experiments demonstrate our RPG outperforms state-of-the-art text-to-image diffusion models, including DALL-E 3 and SDXL, particularly in multi-category object composition and text-image semantic alignment. Notably, our RPG framework exhibits wide compatibility with various MLLM architectures (e.g., MiniGPT-4) and diffusion backbones (e.g., ControlNet). Our code is available at: https://github.com/YangLing0818/RPG-DiffusionMaster | 翻訳日:2024-01-23 15:13:47 公開日:2024-01-22 |
# ドメインを意識したクロスアテンション Domain-Aware Cross-Attention for Cross-domain Recommendation ( http://arxiv.org/abs/2401.11705v1 ) ライセンス: Link先を確認 | Yuhao Luo and Shiwei Ma and Mingjun Nie and Changping Peng and Zhangang Lin and Jingping Shao and Qianfang Xu | (参考訳) クロスドメインレコメンデーション(CDR)は,特に対象領域での観測が不十分な場合に,レコメンデーションシステムの性能を向上させる重要な手法である。
しかし、既存のクロスドメインレコメンデーションのほとんどは、ターゲットドメインの特殊機能を完全に活用できず、新しいドメインに一般化するのは難しい。
設計されたネットワークは複雑で、迅速な産業展開には適していない。
提案手法では,異なる粒度からソースドメインの伝達可能な特徴を抽出し,ドメインとユーザの両方の関心事の効率的な表現を可能にする。
さらに、トレーニングプロセスを単純化し、モデルが新しいドメインに簡単にデプロイできるようになりました。
公開データセットと産業データセットの両方で実験を行い,本手法の有効性を実証した。
また,オンライン広告システムにおいて,Click-Through-Rate (CTR) と有効コスト (ECPM) の両面で大きな改善が見られた。 Cross-domain recommendation (CDR) is an important method to improve recommender system performance, especially when observations in target domains are sparse. However, most existing cross-domain recommendations fail to fully utilize the target domain's special features and are hard to be generalized to new domains. The designed network is complex and is not suitable for rapid industrial deployment. Our method introduces a two-step domain-aware cross-attention, extracting transferable features of the source domain from different granularity, which allows the efficient expression of both domain and user interests. In addition, we simplify the training process, and our model can be easily deployed on new domains. We conduct experiments on both public datasets and industrial datasets, and the experimental results demonstrate the effectiveness of our method. We have also deployed the model in an online advertising system and observed significant improvements in both Click-Through-Rate (CTR) and effective cost per mille (ECPM). | 翻訳日:2024-01-23 15:13:22 公開日:2024-01-22 |
# ek-net:カーネル距離拡大によるリアルタイムシーンテキスト検出 EK-Net:Real-time Scene Text Detection with Expand Kernel Distance ( http://arxiv.org/abs/2401.11704v1 ) ライセンス: Link先を確認 | Boyuan Zhu, Fagui Liu, Xi Chen, Quan Tang | (参考訳) 近年,その適用範囲が広く,シーンテキスト検出が注目されている。
しかし、複数のスケール、向き、曲率の複雑なシーンでの正確な検出は依然として困難である。
多数の検出手法がvatti clipping (vc) アルゴリズムを用いて多重入力訓練を行い、任意の形式のテキストの問題に対処している。
しかし、これらの手法から「スライクカーネル」と呼ばれるいくつかのバイアスが生じる。
具体的には、テキストカーネルを過剰に好む出力によって生じる精度の低下を指す。
本稿では,カーネル距離を拡大して前回の障害を補う,拡張カーネルネットワーク(EK-Net)と呼ばれる新しいアプローチを提案する。
さらに、EK-Netは任意の字型のテキストの位置を正確に認識するだけでなく、性能と速度のトレードオフも達成している。
評価の結果、EK-Netは、他の先進的な手法(例えば、ICDAR 2015では35.42 FPSで85.72%、CTW1500では45.75%、CTW1500では40.13 FPSで85.75%である)と比較して、最先端または競争性能を達成した。 Recently, scene text detection has received significant attention due to its wide application. However, accurate detection in complex scenes of multiple scales, orientations, and curvature remains a challenge. Numerous detection methods adopt the Vatti clipping (VC) algorithm for multiple-instance training to address the issue of arbitrary-shaped text. Yet we identify several bias results from these approaches called the "shrinked kernel". Specifically, it refers to a decrease in accuracy resulting from an output that overly favors the text kernel. In this paper, we propose a new approach named Expand Kernel Network (EK-Net) with expand kernel distance to compensate for the previous deficiency, which includes three-stages regression to complete instance detection. Moreover, EK-Net not only realize the precise positioning of arbitrary-shaped text, but also achieve a trade-off between performance and speed. Evaluation results demonstrate that EK-Net achieves state-of-the-art or competitive performance compared to other advanced methods, e.g., F-measure of 85.72% at 35.42 FPS on ICDAR 2015, F-measure of 85.75% at 40.13 FPS on CTW1500. | 翻訳日:2024-01-23 15:13:03 公開日:2024-01-22 |
# ギャップレス対称性は位相位相位相を保護し、有限部分群のゲージングから一般化された分解臨界点 Gapless symmetry protected topological phases and generalized deconfined critical points from gauging a finite subgroup ( http://arxiv.org/abs/2401.11702v1 ) ライセンス: Link先を確認 | Lei Su and Meng Zeng | (参考訳) 大域対称性の有限部分群をゲージすると、従来の位相と位相遷移を非伝統的な位相にマッピングすることができる。
本研究では、実例として、大域対称性が$U(1)$の創発的な $\mathbb{Z}_2$-gauged システム、すなわち、$\mathbb{Z}_2$-gauged Bose-Hubbard モデルを 1-D と 2-D の両方で検討する。
ある限度において、商 $\tilde{u}(1)$ 対称性と双対 $\hat{\mathbb{z}}_2$ 対称性の間には、創発的な't hooft anomaly が存在する。
1-Dでは、超流動相は密度行列再正規化群(DMRG)計算によって支持されるように、本質的にギャップのない対称性保護位相(SPT)相にマッピングされる。
2-Dでは、元の超流体絶縁体遷移は、ギャップレスSPT相とゴールドストーンモードと共存するSPT次数と$\tilde{U}(1)$-symmetric-enriched topological (SET)相の間の一般化分解量子臨界点(DQCP)となる。
また,これらの相の安定性と小摂動の臨界点,および実験的実現の可能性についても考察する。
我々の研究は、部分ゲージは新しい位相と量子臨界性を構築するための単純かつ強力なアプローチであることを示した。 Gauging a finite subgroup of a global symmetry can map conventional phases and phase transitions to unconventional ones. In this work, we study, as a concrete example, an emergent $\mathbb{Z}_2$-gauged system with global symmetry $U(1)$, namely, the $\mathbb{Z}_2$-gauged Bose-Hubbard model both in 1-D and in 2-D. In certain limits, there is an emergent mixed 't Hooft anomaly between the quotient $\tilde{U}(1)$ symmetry and the dual $\hat{\mathbb{Z}}_2$ symmetry. In 1-D, the superfluid phase is mapped to an intrinsically gapless symmetry-protected topological (SPT) phase, as supported by density-matrix renormalization group (DMRG) calculations. In 2-D, the original superfluid-insulator transition becomes a generalized deconfined quantum critical point (DQCP) between a gapless SPT phase, where a SPT order coexists with Goldstone modes, and a $\tilde{U}(1)$-symmetry-enriched topological (SET) phase. We also discuss the stability of these phases and the critical points to small perturbations and their potential experimental realizations. Our work demonstrates that partial gauging is a simple and yet powerful approach in constructing novel phases and quantum criticalities. | 翻訳日:2024-01-23 15:12:40 公開日:2024-01-22 |
# 言語モデルからエンドツーエンド音声認識への効果的な知識蒸留による並列の復号化 Keep Decoding Parallel with Effective Knowledge Distillation from Language Models to End-to-end Speech Recognisers ( http://arxiv.org/abs/2401.11700v1 ) ライセンス: Link先を確認 | Michael Hentschel, Yuta Nishikawa, Tatsuya Komatsu, Yusuke Fujita | (参考訳) 本研究では,BERT教師モデルから中間層を用いた自動音声認識(ASR)モデルへの知識蒸留(KD)の新しいアプローチを提案する。
教師の知識を分散させるためには,bertのトークン確率から学習する注意デコーダを用いる。
本手法は,中間層と最終層の両方を用いて,言語モデル(LM)情報をより効果的にASRモデルに蒸留可能であることを示す。
中間層を蒸留ターゲットとして使用することにより,LMの知識をより効果的に下位層に分散させることができる。
提案手法を用いて,外部LMの浅層融合よりも高い認識精度を実現し,高速並列復号化を実現する。
LibriSpeechデータセットの実験は、接続性時間分類(CTC)による欲求的復号化の促進における我々のアプローチの有効性を示した。 This study presents a novel approach for knowledge distillation (KD) from a BERT teacher model to an automatic speech recognition (ASR) model using intermediate layers. To distil the teacher's knowledge, we use an attention decoder that learns from BERT's token probabilities. Our method shows that language model (LM) information can be more effectively distilled into an ASR model using both the intermediate layers and the final layer. By using the intermediate layers as distillation target, we can more effectively distil LM knowledge into the lower network layers. Using our method, we achieve better recognition accuracy than with shallow fusion of an external LM, allowing us to maintain fast parallel decoding. Experiments on the LibriSpeech dataset demonstrate the effectiveness of our approach in enhancing greedy decoding with connectionist temporal classification (CTC). | 翻訳日:2024-01-23 15:11:53 公開日:2024-01-22 |
# パラメトリックマトリックスモデル Parametric Matrix Models ( http://arxiv.org/abs/2401.11694v1 ) ライセンス: Link先を確認 | Patrick Cook, Danny Jammooa, Morten Hjorth-Jensen, Daniel D. Lee, Dean Lee | (参考訳) パラメトリック行列モデルと呼ばれる機械学習アルゴリズムの一般クラスを示す。
パラメトリック行列モデルは行列方程式に基づいており、この設計はパラメトリック方程式の近似解に対する還元基底法の効率によって動機付けられている。
従属変数は暗黙的あるいは明示的に定義することができ、方程式は代数的、微分的、あるいは積分的関係を用いることができる。
パラメトリック行列モデルは経験的データのみでトレーニングすることができ、高忠実度モデルの計算は必要ない。
もともとは科学計算用に設計されたが、パラメトリック行列モデルは一般的な機械学習問題に適用可能な普遍関数近似器である。
基礎となる理論を導入した後、パラメトリック行列モデルを幅広い問題に対してそれらの性能を示す一連の異なる課題に適用する。
ここで検証された全ての課題に対して、パラメトリック行列モデルは、パラメータの外挿と解釈可能性を可能にする計算フレームワーク内で正確な結果を生成する。 We present a general class of machine learning algorithms called parametric matrix models. Parametric matrix models are based on matrix equations, and the design is motivated by the efficiency of reduced basis methods for approximating solutions of parametric equations. The dependent variables can be defined implicitly or explicitly, and the equations may use algebraic, differential, or integral relations. Parametric matrix models can be trained with empirical data only, and no high-fidelity model calculations are needed. While originally designed for scientific computing, parametric matrix models are universal function approximators that can be applied to general machine learning problems. After introducing the underlying theory, we apply parametric matrix models to a series of different challenges that show their performance for a wide range of problems. For all the challenges tested here, parametric matrix models produce accurate results within a computational framework that allows for parameter extrapolation and interpretability. | 翻訳日:2024-01-23 15:11:28 公開日:2024-01-22 |
# tim: スパイキングトランスフォーマーのための効率的な時間相互作用モジュール TIM: An Efficient Temporal Interaction Module for Spiking Transformer ( http://arxiv.org/abs/2401.11687v1 ) ライセンス: Link先を確認 | Sicheng Shen, Dongcheng Zhao, Guobin Shen and Yi Zeng | (参考訳) 第3世代のニューラルネットワークであるスパイキングニューラルネットワーク(SNN)は、その生物学的妥当性と計算効率、特に多様なデータセットの処理において注目されている。
ニューラルネットワークアーキテクチャの進歩に触発された注意機構の統合は、スパイキングトランスフォーマーの開発につながった。
これらは、SNNの機能強化、特に静的データセットとニューロモルフィックデータセットの両方の領域において、有望であることを示している。
それらの進歩にもかかわらず、これらのシステムには明確なギャップが存在し、特にSNNの時間的処理能力を活用するためのスパイキング自己注意(SSA)メカニズムの有効性においてである。
これを解決するために、SNNアーキテクチャ内の時間データ処理能力を増強する新しい畳み込みベースの拡張であるTIM(Temporal Interaction Module)を導入する。
TIMの既存のSNNフレームワークへの統合はシームレスで効率的であり、時間的情報処理能力を大幅に向上させながら、最小限の追加パラメータを必要とする。
厳密な実験を通じて、TIMは時間的情報を活用する効果を実証し、様々なニューロモルフィックデータセットにおける最先端のパフォーマンスをもたらす。 Spiking Neural Networks (SNNs), as the third generation of neural networks, have gained prominence for their biological plausibility and computational efficiency, especially in processing diverse datasets. The integration of attention mechanisms, inspired by advancements in neural network architectures, has led to the development of Spiking Transformers. These have shown promise in enhancing SNNs' capabilities, particularly in the realms of both static and neuromorphic datasets. Despite their progress, a discernible gap exists in these systems, specifically in the Spiking Self Attention (SSA) mechanism's effectiveness in leveraging the temporal processing potential of SNNs. To address this, we introduce the Temporal Interaction Module (TIM), a novel, convolution-based enhancement designed to augment the temporal data processing abilities within SNN architectures. TIM's integration into existing SNN frameworks is seamless and efficient, requiring minimal additional parameters while significantly boosting their temporal information handling capabilities. Through rigorous experimentation, TIM has demonstrated its effectiveness in exploiting temporal information, leading to state-of-the-art performance across various neuromorphic datasets. | 翻訳日:2024-01-23 15:11:05 公開日:2024-01-22 |
# パリティ測定によるマグノンベル状態の生成 Generating magnon Bell states via parity measurement ( http://arxiv.org/abs/2401.11684v1 ) ライセンス: Link先を確認 | Jia-shun Yan and Jun Jing | (参考訳) パリティ測定に基づく2つのマグノンモードの絡み合わせ手法を提案する。
特に、2つのイットリウム-鉄-ガーネット球がキャビティモードを介する間接相互作用により、$V$型の超伝導クォートに結合されるシステムを考える。
2つのマクロスピン系を所望の部分空間に投影できる効果的なパリティ測定演算子は、アシラリークォートが基底状態に投影されたときに現われる。
したがって、通常および多重励起のマグノンベル状態は、所望の部分空間に非有界な人口を持つ任意の分離可能な状態から生成することができる。
ターゲット状態は、数回の測定でのみ、単位に近い忠実度で蒸留することができ、デコヒーレンスの有無で安定化することができる。
また,このスキームの単発バージョンは,時間領域のデチューニングを形作ることで得られる。
非線形効果を一切依存しない我々のスキームは、量子測定による巨大強磁性体の絡み合った状態発生の洞察をもたらす。 We propose a scheme to entangle two magnon modes based on parity measurement. In particular, we consider a system that two yttrium-iron-garnet spheres are coupled to a $V$-type superconducting qutrit through the indirect interactions mediated by cavity modes. An effective parity-measurement operator that can project the two macroscopic spin systems to the desired subspace emerges when the ancillary qutrit is projected to the ground state. Consequently, conventional and multi-excitation magnon Bell states can be generated from any separable states with a nonvanishing population in the desired subspace. The target state can be distilled with a near-to-unit fidelity only by several rounds of measurements and can be stabilized in the presence of decoherence. In addition, a single-shot version of our scheme is obtained by shaping the detuning in the time domain. Our scheme that does not rely on any nonlinear effect brings insight to the entangled-state generation in massive ferrimagnetic materials via quantum measurement. | 翻訳日:2024-01-23 15:10:00 公開日:2024-01-22 |
# ミエリンシースにおける絡み合った二光子生成 Entangled biphoton generation in myelin sheath ( http://arxiv.org/abs/2401.11682v1 ) ライセンス: Link先を確認 | Zefei Liu, Yong-Cong Chen, Ping Ao | (参考訳) 脳内の意識は数百万のニューロンの同期活動に依存するが、そのような同期を編成するメカニズムはいまだ解明されていない。
本研究ではキャビティ量子電気力学(cQED)を用いて、脂質分子の尾部におけるC-H結合の振動スペクトルにおけるカスケード放出による絡み合った双光子生成を探索する。
その結果、ミエリンシースによって形成された円筒状空洞は振動モードからの自発的な光子放出を促進でき、かなりの数の絡み合った光子対を発生できることがわかった。
神経細胞におけるC-H結合振動ユニットの豊富さは、神経系の量子的絡み合いの源となる。
この発見は、これらのリソースを量子情報伝達に活用する脳の能力についての洞察を与え、ニューロンの同期活動の潜在的源を明らかにする。 Consciousness within the brain hinges on the synchronized activities of millions of neurons, but the mechanism responsible for orchestrating such synchronization remains elusive. In this study, we employ cavity quantum electrodynamics (cQED) to explore entangled biphoton generation through cascade emission in the vibration spectrum of C-H bonds within the lipid molecules' tails. The results indicate that the cylindrical cavity formed by a myelin sheath can facilitate spontaneous photon emission from the vibrational modes and generate a significant number of entangled photon pairs. The abundance of C-H bond vibration units in neurons can therefore serve as a source of quantum entanglement resources for the nervous system. The finding may offer insight into the brain's ability to leverage these resources for quantum information transfer, thereby elucidating a potential source for the synchronized activity of neurons. | 翻訳日:2024-01-23 15:09:45 公開日:2024-01-22 |
# 条件付き生成逆ネットワークによる熱帯サイクロンの夜間可視衛星画像のシミュレーション Simulating Nighttime Visible Satellite Imagery of Tropical Cyclones Using Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2401.11679v1 ) ライセンス: Link先を確認 | Jinghuai Yao, Puyuan Du, Yucheng Zhao, and Yubo Wang | (参考訳) 可視光(VIS)画像は、熱帯サイクロン(TC)の観測など、気象学に様々な重要な応用がある。
しかし、日光不足のため夜間は利用できない。
本研究では、赤外(IR)帯域と日光方向パラメータを入力として、高精度な夜間可視反射率を生成する条件生成適応ネットワーク(CGAN)モデルを提案する。
日中における高度ヒマワリ画像装置(AHI)の目標領域観測により,本モデルを訓練し,検証した。
また,可視・赤外線画像放射計スイート(VIIRS)のデイ/ナイトバンド(DNB)を用いた夜間モデル検証を行った。
構造類似度指数測定(SSIM)、ピーク信号対雑音比(PSNR)、ルート平均角誤差(RMSE)、相関係数(CC)、バイアスは0.885, 28.3, 0.0428, 0.984, -0.0016であり、前回のモデル性能を大きく上回っている。
SSIM、PSNR、RMSE、CCの夜間統計結果は、それぞれ0.821、24.4、0.0643、0.969であり、衛星間のパララックスにわずかに負の影響を受けている。
北半球ではtcsを使わずに熱帯海でも容易にモデルが適用できることを示すフルディスクモデル検証を行った。
このモデルは、調整可能な仮想日光方向を持つ正確なAI生成可視画像を提供することにより、気象現象の夜間モニタリングに寄与する。 Visible (VIS) imagery of satellites has various important applications in meteorology, including monitoring Tropical Cyclones (TCs). However, it is unavailable at night because of the lack of sunlight. This study presents a Conditional Generative Adversarial Networks (CGAN) model that generates highly accurate nighttime visible reflectance using infrared (IR) bands and sunlight direction parameters as input. The model was trained and validated using target area observations of the Advanced Himawari Imager (AHI) in the daytime. This study also presents the first nighttime model validation using the Day/Night Band (DNB) of the Visible/Infrared Imager Radiometer Suite (VIIRS). The daytime statistical results of the Structural Similarity Index Measure (SSIM), Peak Signal-to-Noise Ratio (PSNR), Root Mean Square Error (RMSE), Correlation Coefficient (CC), and Bias are 0.885, 28.3, 0.0428, 0.984, and -0.0016 respectively, completely surpassing the model performance of previous studies. The nighttime statistical results of SSIM, PSNR, RMSE, and CC are 0.821, 24.4, 0.0643, and 0.969 respectively, which are slightly negatively impacted by the parallax between satellites. We performed full-disk model validation which proves our model could also be readily applied in the tropical ocean without TCs in the northern hemisphere. This model contributes to the nighttime monitoring of meteorological phenomena by providing accurate AI-generated visible imagery with adjustable virtual sunlight directions. | 翻訳日:2024-01-23 15:08:56 公開日:2024-01-22 |
# インクリメンタル組織病理分類のためのメモリ効率の高いプロンプトチューニング Memory-Efficient Prompt Tuning for Incremental Histopathology Classification ( http://arxiv.org/abs/2401.11674v1 ) ライセンス: Link先を確認 | Yu Zhu, Kang Li, Lequan Yu, Pheng-Ann Heng | (参考訳) 近年,病理組織学的分類が著しく進歩している。
現在の成功に基づいて、シーケンシャルに提供された領域から漸進的に学習することで、モデルをより一般化可能で堅牢な方向にさらにアップグレードすることを提案した。
モデル更新時に大量の計算資源を必要とする従来のパラメータ分離に基づくアプローチとは異なり、メモリ効率の良いプロンプトチューニングフレームワークを用いて、モデル一般化ポテンシャルを経済的メモリコストで育成する。
各入力ドメインに対して、初期分類モデルの既存のパラメータを再利用し、カスタマイズされたチューニングのために軽量なトレーニング可能なプロンプトを付加する。
ドメインの不均一性を考慮すると、各ドメインに固有のプロンプトを適用してその特性を独立に調査し、各ドメイン間で共有される1つのドメイン不変プロンプトを用いて、時間を通じて共通コンテンツの埋め込みを継続的に探究する。
ドメイン固有のプロンプトはすべてプロンプトバンクに追加され、早期のドメイン特有の特徴を忘れないように、さらなる変更から分離される。
ドメイン不変プロンプトは渡され、スタイル拡張プロンプト精製によって反復的に進化し、時間とともにモデルの一般化能力を改善する。
具体的には、既存のプロンプトを持つグラフを構築し、よりドメインのジェネリック表現のために、提供されたすべてのドメインに重複した潜在埋め込みを探索するドメイン不変プロンプトを導くために、スタイル指定のグラフアテンションネットワークを構築する。
我々は,乳癌転移分類と上皮間質組織分類という2つの病理組織学的課題により,その枠組みを広範囲に評価した。 Recent studies have made remarkable progress in histopathology classification. Based on current successes, contemporary works proposed to further upgrade the model towards a more generalizable and robust direction through incrementally learning from the sequentially delivered domains. Unlike previous parameter isolation based approaches that usually demand massive computation resources during model updating, we present a memory-efficient prompt tuning framework to cultivate model generalization potential in economical memory cost. For each incoming domain, we reuse the existing parameters of the initial classification model and attach lightweight trainable prompts into it for customized tuning. Considering the domain heterogeneity, we perform decoupled prompt tuning, where we adopt a domain-specific prompt for each domain to independently investigate its distinctive characteristics, and one domain-invariant prompt shared across all domains to continually explore the common content embedding throughout time. All domain-specific prompts will be appended to the prompt bank and isolated from further changes to prevent forgetting the distinctive features of early-seen domains. While the domain-invariant prompt will be passed on and iteratively evolve by style-augmented prompt refining to improve model generalization capability over time. In specific, we construct a graph with existing prompts and build a style-augmented graph attention network to guide the domain-invariant prompt exploring the overlapped latent embedding among all delivered domains for more domain generic representations. We have extensively evaluated our framework with two histopathology tasks, i.e., breast cancer metastasis classification and epithelium-stroma tissue classification, where our approach yielded superior performance and memory efficiency over the competing methods. | 翻訳日:2024-01-23 15:08:26 公開日:2024-01-22 |
# adafgl:トポロジーの不均一性を考慮したフェデレーションノード分類の新しいパラダイム AdaFGL: A New Paradigm for Federated Node Classification with Topology Heterogeneity ( http://arxiv.org/abs/2401.11750v1 ) ライセンス: Link先を確認 | Xunkai Li, Zhengyu Wu, Wentao Zhang, Henan Sun, Rong-Hua Li, Guoren Wang | (参考訳) 最近、フェデレートグラフ学習(FGL)は、主にデータサイロを壊す能力のために、グラフニューラルネットワークに基づく分散フレームワークとして注目されている。
既存のfgl研究では、相同性グローバルグラフのコミュニティ分割をデフォルトで採用し、フェデレーションされた半教師付きノード分類設定をシミュレートしている。
このような戦略は、連結ノードが同様の特徴分布と同一ラベルを持つ可能性が極めて高いような、マルチクライアント部分グラフとグローバルグラフの間のトポロジーの整合性を仮定する。
しかし、実世界の実装では、ローカルデータエンジニアリングの様々な視点が様々な部分グラフトポロジーをもたらし、FGLに固有の異種性課題を提起する。
フェデレーション学習におけるよく知られたラベル非独立同一分布(非iid)問題とは異なり、fglの不均一性は本質的に、ホモフィリやヘテロフィリといった複数のクライアント間のトポロジカルな発散を明らかにする。
このユニークな課題をシミュレートし、対処するために、非iid分割構造の概念を導入し、分離された2段階のパーソナライズアプローチである \underline{ada}ptive \underline{f}ederated \underline{g}raph \underline{l}earning (adafgl)という新しいパラダイムを提案する。
まず、AdaFGLは、サーバのファイナルラウンドでアップロードされたモデルを集約することで、標準のマルチクライアント・フェデレート・コラボレーティブトレーニングを使用して、フェデレートされた知識抽出器を取得する。
そして、各クライアントは、ローカルサブグラフと連合知識抽出器に基づいてパーソナライズされたトレーニングを行う。
12のグラフベンチマークデータセットに対する大規模な実験は、最先端のベースラインよりもAdaFGLの優れたパフォーマンスを検証する。
具体的には,提案するadafglは,コミュニティスプリットと非iidスプリットの構造において,それぞれ3.24\%と5.57\%というかなりのマージンでベースラインを上回っている。 Recently, Federated Graph Learning (FGL) has attracted significant attention as a distributed framework based on graph neural networks, primarily due to its capability to break data silos. Existing FGL studies employ community split on the homophilous global graph by default to simulate federated semi-supervised node classification settings. Such a strategy assumes the consistency of topology between the multi-client subgraphs and the global graph, where connected nodes are highly likely to possess similar feature distributions and the same label. However, in real-world implementations, the varying perspectives of local data engineering result in various subgraph topologies, posing unique heterogeneity challenges in FGL. Unlike the well-known label Non-independent identical distribution (Non-iid) problems in federated learning, FGL heterogeneity essentially reveals the topological divergence among multiple clients, namely homophily or heterophily. To simulate and handle this unique challenge, we introduce the concept of structure Non-iid split and then present a new paradigm called \underline{Ada}ptive \underline{F}ederated \underline{G}raph \underline{L}earning (AdaFGL), a decoupled two-step personalized approach. To begin with, AdaFGL employs standard multi-client federated collaborative training to acquire the federated knowledge extractor by aggregating uploaded models in the final round at the server. Then, each client conducts personalized training based on the local subgraph and the federated knowledge extractor. Extensive experiments on the 12 graph benchmark datasets validate the superior performance of AdaFGL over state-of-the-art baselines. Specifically, in terms of test accuracy, our proposed AdaFGL outperforms baselines by significant margins of 3.24\% and 5.57\% on community split and structure Non-iid split, respectively. | 翻訳日:2024-01-23 15:02:28 公開日:2024-01-22 |
# GI-PIP: グラディエント・インバージョン・アタックの非現実的補助的データセットは必要か? GI-PIP: Do We Require Impractical Auxiliary Dataset for Gradient Inversion Attacks? ( http://arxiv.org/abs/2401.11748v1 ) ライセンス: Link先を確認 | Yu sun, Gaojian Xiong, Xianxun Yao, Kailang Ma, Jian Cui | (参考訳) 深い勾配の反転攻撃は、共有勾配から個人データを正確に回収することで、フェデレートされた学習(FL)に深刻な脅威を露呈する。
しかし、最先端技術は、FLの基本データ分割原理に違反している過剰な補助データにアクセスするための非現実的な仮定に大きく依存している。
本稿では,GI-PIP(Practical Image Prior)を用いたグラディエント・インバージョン・アタック(Gradient Inversion Attack)を提案する。
GI-PIPは異常検出モデルを利用して、より少ないデータから基礎となる分布をキャプチャする一方、GANベースの手法は画像の合成に大量のデータを消費する。
抽出した分布を利用して攻撃プロセスをAnomaly Score損失として制御する。
実験の結果,GI-PIP は ImageNet の 3.8 % のデータのみを用いて 16.12 dB の PSNR 回復を実現し,GAN ベースの手法では 70 % 以上を要することがわかった。
さらに,GI-PIPはGAN法に比べて分布一般化に優れる。
本手法は,勾配反転攻撃における量と分布の補助的データ要求を著しく軽減し,現実のFLに対してより重大な脅威となる。 Deep gradient inversion attacks expose a serious threat to Federated Learning (FL) by accurately recovering private data from shared gradients. However, the state-of-the-art heavily relies on impractical assumptions to access excessive auxiliary data, which violates the basic data partitioning principle of FL. In this paper, a novel method, Gradient Inversion Attack using Practical Image Prior (GI-PIP), is proposed under a revised threat model. GI-PIP exploits anomaly detection models to capture the underlying distribution from fewer data, while GAN-based methods consume significant more data to synthesize images. The extracted distribution is then leveraged to regulate the attack process as Anomaly Score loss. Experimental results show that GI-PIP achieves a 16.12 dB PSNR recovery using only 3.8\% data of ImageNet, while GAN-based methods necessitate over 70\%. Moreover, GI-PIP exhibits superior capability on distribution generalization compared to GAN-based methods. Our approach significantly alleviates the auxiliary data requirement on both amount and distribution in gradient inversion attacks, hence posing more substantial threat to real-world FL. | 翻訳日:2024-01-23 15:01:49 公開日:2024-01-22 |
# 画像クラスタリングのためのマルチレベルクロスモーダルアライメント Multi-level Cross-modal Alignment for Image Clustering ( http://arxiv.org/abs/2401.11740v1 ) ライセンス: Link先を確認 | Liping Qiu and Qin Zhang and Xiaojun Chen and Shaotian Cai | (参考訳) 近年,画像クラスタリングモデルのトレーニングを監督する有意義な擬似ラベルを作成するために,クロスモーダルプリトレーニングモデルが採用されている。
しかしながら、クロスモーダル事前トレーニングモデルにおける多数の誤ったアライメントは、品質の悪い擬似ラベルを生成し、クラスタリング性能を低下させる可能性がある。
本稿では,より小さく,より優れた意味空間を構築し,画像とテキストを3つのレベル,すなわちインスタンスレベル,プロトタイプレベル,セマンティックレベルに整合させることにより,下流タスクのクロスモーダル事前学習モデルにおけるアライメントを改善するための,新しい \textbf{multi-level cross-modal alignment}法を提案する。
理論的には,提案手法は収束し,提案手法が期待するクラスタリングリスクを低減する効果的な方法を提案する。
5つのベンチマークデータセットの実験結果から,新しい手法の優位性が明らかとなった。 Recently, the cross-modal pretraining model has been employed to produce meaningful pseudo-labels to supervise the training of an image clustering model. However, numerous erroneous alignments in a cross-modal pre-training model could produce poor-quality pseudo-labels and degrade clustering performance. To solve the aforementioned issue, we propose a novel \textbf{Multi-level Cross-modal Alignment} method to improve the alignments in a cross-modal pretraining model for downstream tasks, by building a smaller but better semantic space and aligning the images and texts in three levels, i.e., instance-level, prototype-level, and semantic-level. Theoretical results show that our proposed method converges, and suggests effective means to reduce the expected clustering risk of our method. Experimental results on five benchmark datasets clearly show the superiority of our new method. | 翻訳日:2024-01-23 15:01:26 公開日:2024-01-22 |
# EmerDiff: 拡散モデルにおけるピクセルレベルのセマンティック知識の創出 EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models ( http://arxiv.org/abs/2401.11739v1 ) ライセンス: Link先を確認 | Koichi Namekata, Amirmojtaba Sabour, Sanja Fidler, Seung Wook Kim | (参考訳) 拡散モデルは最近、セマンティックセグメンテーションタスクにおける顕著な伝達能力について研究の注目を集めている。
しかし、拡散モデルによるきめ細かいセグメンテーションマスクの生成は、しばしば注釈付きデータセットに対する追加のトレーニングを必要とし、事前訓練された拡散モデルだけで生成した画像の意味関係がどの程度理解されているかは明らかでない。
この問題に対処するために,安定拡散(sd)から抽出した意味的知識を活用し,追加のトレーニングなしに細粒度セグメンテーションマップを生成可能な画像セグメンタの開発を目指す。
主な難点は、意味的に意味のある特徴マップが通常、空間的に低次元の層にのみ存在するという事実であり、これらの特徴マップからピクセルレベルの意味関係を直接抽出することの難しさである。
この問題を解決するために,SDの生成プロセスを利用して,画像画素と低次元特徴マップの空間的位置のセマンティック対応を識別し,画像解像度分割マップを構築する。
広範囲な実験において、生成したセグメンテーションマップは、画像の詳細な部分を読み取ることで、拡散モデルにおける高精度なピクセルレベルの意味知識の存在が示される。 Diffusion models have recently received increasing research attention for their remarkable transfer abilities in semantic segmentation tasks. However, generating fine-grained segmentation masks with diffusion models often requires additional training on annotated datasets, leaving it unclear to what extent pre-trained diffusion models alone understand the semantic relations of their generated images. To address this question, we leverage the semantic knowledge extracted from Stable Diffusion (SD) and aim to develop an image segmentor capable of generating fine-grained segmentation maps without any additional training. The primary difficulty stems from the fact that semantically meaningful feature maps typically exist only in the spatially lower-dimensional layers, which poses a challenge in directly extracting pixel-level semantic relations from these feature maps. To overcome this issue, our framework identifies semantic correspondences between image pixels and spatial locations of low-dimensional feature maps by exploiting SD's generation process and utilizes them for constructing image-resolution segmentation maps. In extensive experiments, the produced segmentation maps are demonstrated to be well delineated and capture detailed parts of the images, indicating the existence of highly accurate pixel-level semantic knowledge in diffusion models. | 翻訳日:2024-01-23 15:01:07 公開日:2024-01-22 |
# MetaSeg: Omni-Supervised Semantic Segmentationのためのコンテンツ対応メタネット MetaSeg: Content-Aware Meta-Net for Omni-Supervised Semantic Segmentation ( http://arxiv.org/abs/2401.11738v1 ) ライセンス: Link先を確認 | Shenwang Jiang, Jianan Li, Ying Wang, Wenxuan Wu, Jizhou Zhang, Bo Huang, Tingfa Xu | (参考訳) 弱いオブジェクトレベルのアノテーションから生成される疑似セグメンテーションラベルに必然的に存在するノイズラベルは、セマンティックセグメンテーションのためのモデル最適化をひどく阻害する。
従来は手作りの大規模な損失と、ノイズに耐えるために慎重に調整されたハイパーパラメータに頼っていた。
メタ学習の最近の進歩に触発されて、クリーンラベルの背後に隠れたノイズをパッシブに許容することに苦しむのではなく、より実現可能な解決策は、モデル最適化中にそれらを単純に無視するために、ノイズ領域を積極的に見つけ出すことである。
そこで本研究では,任意のセグメンテーションモデルのノイズインジケータとして使用する一次コンテンツ認識メタネット(cam-net)を含む,新しいメタ学習に基づく意味セグメンテーション手法であるmetasegを提案する。
具体的には、CAM-Netは、画像コンテンツからハイブリッド強化された特徴を活用してクリーンな画像を強調しながら、誤った擬似ラベルを持つノイズ領域を抑えるために画素ワイドの重みを生成することを学び、セグメント化モデルを最適化するための単純で信頼性の高いガイダンスを提供する。
さらに,一般的な大規模セグメンテーションモデルにメタ学習を適用する際の時間消費型トレーニングの障壁を破るために,異なるモデルレイヤを分割・結合方式で最適化する新しい分離型トレーニング戦略を提案する。
対象, 医療, リモートセンシング, 人体セグメンテーションに関する大規模な実験により, 本手法は, 完全に教師付きされたセグメンテーションに近づき, オムニ教師付きセグメンテーションの新たな有望な方法を示す。 Noisy labels, inevitably existing in pseudo segmentation labels generated from weak object-level annotations, severely hampers model optimization for semantic segmentation. Previous works often rely on massive hand-crafted losses and carefully-tuned hyper-parameters to resist noise, suffering poor generalization capability and high model complexity. Inspired by recent advances in meta learning, we argue that rather than struggling to tolerate noise hidden behind clean labels passively, a more feasible solution would be to find out the noisy regions actively, so as to simply ignore them during model optimization. With this in mind, this work presents a novel meta learning based semantic segmentation method, MetaSeg, that comprises a primary content-aware meta-net (CAM-Net) to sever as a noise indicator for an arbitrary segmentation model counterpart. Specifically, CAM-Net learns to generate pixel-wise weights to suppress noisy regions with incorrect pseudo labels while highlighting clean ones by exploiting hybrid strengthened features from image content, providing straightforward and reliable guidance for optimizing the segmentation model. Moreover, to break the barrier of time-consuming training when applying meta learning to common large segmentation models, we further present a new decoupled training strategy that optimizes different model layers in a divide-and-conquer manner. Extensive experiments on object, medical, remote sensing and human segmentation shows that our method achieves superior performance, approaching that of fully supervised settings, which paves a new promising way for omni-supervised semantic segmentation. | 翻訳日:2024-01-23 15:00:45 公開日:2024-01-22 |
# パーソナライズされた臨床判断支援システム--連合学習アプローチ Attention on Personalized Clinical Decision Support System: Federated Learning Approach ( http://arxiv.org/abs/2401.11736v1 ) ライセンス: Link先を確認 | Chu Myaet Thwal, Kyi Thar, Ye Lin Tun, Choong Seon Hong | (参考訳) 新しい種類の疾患や複雑な症状が急速に成長する現代社会に導入され、健康管理が主要な問題となっている。
より良くスマートな医療インフラを構築することは、スマートシティの究極の目標の1つです。
私たちの知る限りでは、ニューラルネットワークモデルは、この目標を達成するための医療専門家を支援するために既に採用されています。
通常、ニューラルネットワークのトレーニングには大量のデータが必要ですが、臨床データの不均一で脆弱な特性は、従来の集中型ネットワークに課題をもたらします。
さらに、医療データベースに新しい入力を追加するには、既存のモデルをスクラッチから再トレーニングする必要がある。
これらの課題に対処するため,我々は,深層学習に基づく臨床意思決定支援システムの提案を行った。
我々は,患者プライバシの安全性を保証し,大規模臨床データマイニングを可能にしつつサイバー攻撃のリスクを克服する新たな戦略に焦点を当てた。
その結果、患者の機密データを交換することなく、各ローカルニューラルネットワークのトレーニングに豊富な臨床データを活用することができる。
さらに,アテンション機構を組み込んだシーケンス・ツー・シーケンス・モデルアーキテクチャとして提案手法を実装した。
そこで本研究の目的は, 正確なソリューションを提供し, 医療従事者の診断を支援する, 進化可能な特徴を有するパーソナライズされた臨床意思決定支援システムを提供することである。 Health management has become a primary problem as new kinds of diseases and complex symptoms are introduced to a rapidly growing modern society. Building a better and smarter healthcare infrastructure is one of the ultimate goals of a smart city. To the best of our knowledge, neural network models are already employed to assist healthcare professionals in achieving this goal. Typically, training a neural network requires a rich amount of data but heterogeneous and vulnerable properties of clinical data introduce a challenge for the traditional centralized network. Moreover, adding new inputs to a medical database requires re-training an existing model from scratch. To tackle these challenges, we proposed a deep learning-based clinical decision support system trained and managed under a federated learning paradigm. We focused on a novel strategy to guarantee the safety of patient privacy and overcome the risk of cyberattacks while enabling large-scale clinical data mining. As a result, we can leverage rich clinical data for training each local neural network without the need for exchanging the confidential data of patients. Moreover, we implemented the proposed scheme as a sequence-to-sequence model architecture integrating the attention mechanism. Thus, our objective is to provide a personalized clinical decision support system with evolvable characteristics that can deliver accurate solutions and assist healthcare professionals in medical diagnosing. | 翻訳日:2024-01-23 15:00:09 公開日:2024-01-22 |
# 深層学習時代の大腸ポリープ分画 : 包括的調査 Colorectal Polyp Segmentation in the Deep Learning Era: A Comprehensive Survey ( http://arxiv.org/abs/2401.11734v1 ) ライセンス: Link先を確認 | Zhenyu Wu, Fengmao Lv, Chenglizhao Chen, Aimin Hao, Shuo Li | (参考訳) 医用画像解析における必須問題である大腸ポリープ分画(cps)は研究の注目を集めている。
近年,深層学習モデルがCPSの分野において従来の手法を完全に圧倒し,より深いCPS手法が出現し,CPSが深層学習の時代に入った。
深層cpsの主な技術、データセット、評価指標、課題、トレンドを迅速に把握するために、2014年から2023年までのディープラーニングベースのcps法の体系的かつ包括的なレビューを行い、合計115の技術的論文について述べる。
特に,我々はまず,ネットワークアーキテクチャ,監視レベル,学習パラダイムを含む新しい分類法を用いて,現在の深層cpsの包括的レビューを行った。
具体的には、ネットワークアーキテクチャは8つのサブカテゴリを含み、監視レベルは6つのサブカテゴリで構成され、学習パラダイムは合計26のサブカテゴリを含む12のサブカテゴリを含んでいる。
次に,データセット数,アノテーションタイプ,画像解像度,ポリプサイズ,コントラスト値,ポリプ位置など,各データセットの特徴を包括的に分析した。
その後、CPSの一般的な評価指標を要約し、分布外一般化や属性に基づく性能解析を含む40の深部SOTAモデルの詳細な分析を行った。
最後に,深層学習に基づくCPS手法の主な課題と可能性について議論した。 Colorectal polyp segmentation (CPS), an essential problem in medical image analysis, has garnered growing research attention. Recently, the deep learning-based model completely overwhelmed traditional methods in the field of CPS, and more and more deep CPS methods have emerged, bringing the CPS into the deep learning era. To help the researchers quickly grasp the main techniques, datasets, evaluation metrics, challenges, and trending of deep CPS, this paper presents a systematic and comprehensive review of deep-learning-based CPS methods from 2014 to 2023, a total of 115 technical papers. In particular, we first provide a comprehensive review of the current deep CPS with a novel taxonomy, including network architectures, level of supervision, and learning paradigm. More specifically, network architectures include eight subcategories, the level of supervision comprises six subcategories, and the learning paradigm encompasses 12 subcategories, totaling 26 subcategories. Then, we provided a comprehensive analysis the characteristics of each dataset, including the number of datasets, annotation types, image resolution, polyp size, contrast values, and polyp location. Following that, we summarized CPS's commonly used evaluation metrics and conducted a detailed analysis of 40 deep SOTA models, including out-of-distribution generalization and attribute-based performance analysis. Finally, we discussed deep learning-based CPS methods' main challenges and opportunities. | 翻訳日:2024-01-23 14:59:48 公開日:2024-01-22 |
# 深層学習とラグランジアン手法の統合による高速かつスケーラブルなネットワークスライシング Fast and Scalable Network Slicing by Integrating Deep Learning with Lagrangian Methods ( http://arxiv.org/abs/2401.11731v1 ) ライセンス: Link先を確認 | Tianlun Hu, Qi Liao, Qiang Liu, Antonio Massaro, Georg Carle | (参考訳) ネットワークスライシングは5G以降のさまざまなサービスを効率的にサポートするための重要なテクニックです。
多くのネットワークスライシングソリューションは、複雑で高次元のリソース割り当て問題を管理するためにディープラーニングに依存している。
しかし、ディープラーニングモデルは、動的スライシング構成に対する限定的な一般化と適応性に悩まされる。
本稿では,制約付き最適化法と深層学習モデルを統合し,強力な一般化と優れた近似能力を実現する新しい枠組みを提案する。
提案手法に基づき,無線資源をスライスに割り当て,スライス間資源制約下でネットワークの有用性を最大化するニューラル支援アルゴリズムを設計した。
アルゴリズムは高いスケーラビリティを示し、様々なスライスとスライス構成を簡単に調整する。
提案手法をシステムレベルネットワークシミュレータに実装し,深層強化学習手法を含む最先端ソリューションと比較し,その性能評価を行った。
提案手法は,異なるネットワークスライシングシナリオ下で,最適品質と有望な一般化性能が得られることを示す。 Network slicing is a key technique in 5G and beyond for efficiently supporting diverse services. Many network slicing solutions rely on deep learning to manage complex and high-dimensional resource allocation problems. However, deep learning models suffer limited generalization and adaptability to dynamic slicing configurations. In this paper, we propose a novel framework that integrates constrained optimization methods and deep learning models, resulting in strong generalization and superior approximation capability. Based on the proposed framework, we design a new neural-assisted algorithm to allocate radio resources to slices to maximize the network utility under inter-slice resource constraints. The algorithm exhibits high scalability, accommodating varying numbers of slices and slice configurations with ease. We implement the proposed solution in a system-level network simulator and evaluate its performance extensively by comparing it to state-of-the-art solutions including deep reinforcement learning approaches. The numerical results show that our solution obtains near-optimal quality-of-service satisfaction and promising generalization performance under different network slicing scenarios. | 翻訳日:2024-01-23 14:59:22 公開日:2024-01-22 |
# 最適輸送を伴う条件付分布エントロピーによる分布外サンプルの検出 Detecting Out-of-Distribution Samples via Conditional Distribution Entropy with Optimal Transport ( http://arxiv.org/abs/2401.11726v1 ) ライセンス: Link先を確認 | Chuanwen Feng, Wenlong Chen, Ao Ke, Yilong Ren, Xike Xie, S.Kevin Zhou | (参考訳) トレーニングされた機械学習モデルを現実世界にデプロイする場合、アウト・オブ・ディストリビューション(OOD)ソースから入力を受け取ることは避けられない。
例えば、連続的な学習環境では、ドメインの非定常性のためにOODサンプルに遭遇することが一般的である。
より一般的に、一連のテストインプットにアクセスすると、既存のOOD検出ソリューションのリッチライン、特に最近の距離ベース手法の約束は、トレーニングサンプルやテストインプットからの分布情報を有効に活用するのに不足する。
本稿では,実験用サンプルと試験用インプットの両方から幾何情報を含む経験的確率分布は,試験用インプットが存在する場合のOOD検出に極めて有用である,と論じる。
そこで我々は,ood検出を離散的最適輸送問題としてモデル化する。
最適輸送の枠組みの中では,OODサンプルであるテスト入力の不確かさを定量化するために,'emph{conditional distribution entropy} と呼ばれる新しいスコア関数を提案する。
提案手法は, 分布仮定, 事前知識, 特定の訓練機構に依存することなく, 一定の距離に基づく手法の利点を継承する。
ベンチマークデータセットを用いた大規模な実験により,OOD検出において,本手法が競合より優れていることが示された。 When deploying a trained machine learning model in the real world, it is inevitable to receive inputs from out-of-distribution (OOD) sources. For instance, in continual learning settings, it is common to encounter OOD samples due to the non-stationarity of a domain. More generally, when we have access to a set of test inputs, the existing rich line of OOD detection solutions, especially the recent promise of distance-based methods, falls short in effectively utilizing the distribution information from training samples and test inputs. In this paper, we argue that empirical probability distributions that incorporate geometric information from both training samples and test inputs can be highly beneficial for OOD detection in the presence of test inputs available. To address this, we propose to model OOD detection as a discrete optimal transport problem. Within the framework of optimal transport, we propose a novel score function known as the \emph{conditional distribution entropy} to quantify the uncertainty of a test input being an OOD sample. Our proposal inherits the merits of certain distance-based methods while eliminating the reliance on distribution assumptions, a-prior knowledge, and specific training mechanisms. Extensive experiments conducted on benchmark datasets demonstrate that our method outperforms its competitors in OOD detection. | 翻訳日:2024-01-23 14:59:04 公開日:2024-01-22 |
# Speak it out:Symbol-to-Language Conversionによる記号関連問題の解法 Speak It Out: Solving Symbol-Related Problems with Symbol-to-Language Conversion for Language Models ( http://arxiv.org/abs/2401.11725v1 ) ライセンス: Link先を確認 | Yile Wang, Sijie Cheng, Zixin Sun, Peng Li, Yang Liu | (参考訳) 数値列、分子式、テーブルデミッタなどの記号(あるいはより広くは非自然言語のテキスト表現)が広く存在し、抽象的推論、化学特性予測、テーブル質問応答といった様々なタスクで重要な役割を果たしている。
大きな言語モデル(llm)の印象的な自然言語理解能力にもかかわらず、シンボルに対する推論能力は不適切であり、シンボル表現と一般的な自然言語の違いに起因する可能性がある。
本研究では,自然言語で表現された情報を用いて,大規模言語モデルによるシンボル関連問題の解き方を提案する。
具体的には、S2Lはまず、LLMのプロンプトや外部ツールの活用によって実装可能な言語ベースの表現に変換し、これらの言語ベースの表現は直接置換や連結を通じて元の問題に統合され、LLMの有用な入力情報として機能する。
APIベース(GPT-4, ChatGPT)とオープンソース(OpenChat)の両方のモデルを用いて,シンボルのみの抽象的推論からソーシャルメディアにおける感情分析まで,8つのシンボル関連タスクについてS2L法の評価を行った。
実験結果から,S2Lは一貫して優れた性能を示した。
例えば、GPT-4にS2Lを用いることで、それぞれ1D-ARC言語とDyck言語のサブタスクに+21.9%と+9.5%の大幅な改善がある。
コードとデータはhttps://github.com/thunlp-mt/symbol2languageで入手できる。 Symbols (or more broadly, non-natural language textual representations) such as numerical sequences, molecular formulas, and table delimiters widely exist, playing important roles in various tasks such as abstract reasoning, chemical property prediction, and table question answering. Despite the impressive natural language comprehension capabilities of large language models (LLMs), their reasoning abilities for symbols remain inadequate, which could attributed to the difference between symbol representations and general natural languages. We propose symbol-to-language (S2L), a tuning-free method that enables large language models to solve symbol-related problems with information expressed in natural language. Specifically, S2L first converts the symbols involved to language-based representations, which can be implemented by prompting LLMs or leveraging external tools, then these language-based representations are integrated into the original problem via direct substitution or concatenation, serving as useful input information for LLMs. We evaluate the S2L method using both API-based (GPT-4, ChatGPT) and open-source (OpenChat) models over eight symbol-related tasks, ranging from symbol-only abstract reasoning to sentiment analysis in social media. Experimental results show that S2L consistently leads to superior performance. For example, by employing S2L for GPT-4, there can be average significant improvements of +21.9% and +9.5% for subtasks in 1D-ARC and Dyck language, respectively. Codes and data are available at https://github.com/THUNLP-MT/symbol2language. | 翻訳日:2024-01-23 14:58:41 公開日:2024-01-22 |
# フルショットハイパースペクトル画像分類のためのTransMixを用いたプロトタイプネットワークの拡張 Augmenting Prototype Network with TransMix for Few-shot Hyperspectral Image Classification ( http://arxiv.org/abs/2401.11724v1 ) ライセンス: Link先を確認 | Chun Liu, Longwei Yang, Dongmei Dong, Zheng Li, Wei Yang, Zhigang Han, and Jiayao Wang | (参考訳) 少数のハイパースペクトル画像分類は、画像中の各ピクセルのクラスを特定することを目的としている。
また、各画素の空間スペクトル継手特性を得るために、各画素を中心とした固定サイズパッチをしばしば分類に使用する。
しかし,既存手法の分類結果から,ハイパースペクトル画像の物体の境界に位置する画素に対応する境界パッチは,分類が困難であることが判明した。
これらの境界パッチはマルチクラススペクトル情報と混合される。
そこで我々は,数発の超特殊画像分類(APNT)のためのTransMixによるプロトタイプネットワークの拡張を提案する。
プロトタイプネットワークをバックボーンとしながら、トランスフォーマーを特徴抽出器として採用し、画素間関係を学習し、異なる画素に異なる注意を払う。
同時に、トレーニングのためにハイパースペクトルイメージからカットされたパッチを直接使用する代わりに、境界パッチを模倣するために2つのパッチをランダムに混合し、モデルトレーニングに合成パッチを使用する。
そして、データアグメンテーション技術であるtransmixに従うことで、トランスフォーマーが返す注意を、2つのパッチのラベルを混ぜ合わせることで、合成パッチのためのより良いラベルを生成する。
提案手法は,従来の手法と比較して,数発超スペクトル画像分類の精度とロバスト性が向上することを示した。 Few-shot hyperspectral image classification aims to identify the classes of each pixel in the images by only marking few of these pixels. And in order to obtain the spatial-spectral joint features of each pixel, the fixed-size patches centering around each pixel are often used for classification. However, observing the classification results of existing methods, we found that boundary patches corresponding to the pixels which are located at the boundary of the objects in the hyperspectral images, are hard to classify. These boundary patchs are mixed with multi-class spectral information. Inspired by this, we propose to augment the prototype network with TransMix for few-shot hyperspectrial image classification(APNT). While taking the prototype network as the backbone, it adopts the transformer as feature extractor to learn the pixel-to-pixel relation and pay different attentions to different pixels. At the same time, instead of directly using the patches which are cut from the hyperspectral images for training, it randomly mixs up two patches to imitate the boundary patches and uses the synthetic patches to train the model, with the aim to enlarge the number of hard training samples and enhance their diversity. And by following the data agumentation technique TransMix, the attention returned by the transformer is also used to mix up the labels of two patches to generate better labels for synthetic patches. Compared with existing methods, the proposed method has demonstrated sate of the art performance and better robustness for few-shot hyperspectral image classification in our experiments. | 翻訳日:2024-01-23 14:58:14 公開日:2024-01-22 |
# 機械学習ベースのiotエコシステムにおける無秩序な攻撃: その背後にある調査とオープンライブラリ Unraveling Attacks in Machine Learning-based IoT Ecosystems: A Survey and the Open Libraries Behind Them ( http://arxiv.org/abs/2401.11723v1 ) ライセンス: Link先を確認 | Chao Liu, Boxi Chen, Wei Shao, Chris Zhang, Kelvin Wong, Yi Zhang | (参考訳) iot(internet of things, モノのインターネット)の出現は、前例のない接続の時代をもたらし、推定80億のスマートデバイスが2025年末までに稼働すると予想されている。
これらのデバイスは、さまざまなスマートアプリケーションを促進し、さまざまなドメインにわたる生活の質と効率を高める。
機械学習(ML)は、IoT生成データの解析だけでなく、IoTエコシステム内のさまざまなアプリケーションにも重要な技術である。
例えば、MLはIoTデバイス認識、異常検出、さらには悪意のあるアクティビティの発見にも有用である。
本稿では,MLによるIoTのさまざまな側面への統合によるセキュリティの脅威を包括的に調査し,メンバシップ推論,敵対的回避,再構築,プロパティ推論,モデル抽出,毒殺攻撃など,さまざまな攻撃タイプにまたがる。
これまでの研究とは異なり、我々の研究は総合的な視点を提供し、敵のモデル、攻撃目標、主要なセキュリティ属性(機密性、可用性、完全性)などの基準に基づいて脅威を分類する。
IoT環境でのML攻撃の基盤となる技術を調べ、そのメカニズムと影響を批判的に評価する。
さらに,本研究では,著者と第三者の65の図書館を徹底的に評価し,モデルとデータプライバシの保護における役割を評価した。
これらのライブラリの可用性とユーザビリティを強調し、進化する脅威の風景に対する防御を強化するために必要なツールをコミュニティに提供することを目指している。
総合的なレビューと分析を通じて、この論文は、IoTにおける急速に拡大する人工知能分野において、MLモデルとデータをセキュアにするための貴重な洞察と実践的なソリューションを提供する、MLベースのIoTセキュリティに関する継続的な議論に貢献することを目指している。 The advent of the Internet of Things (IoT) has brought forth an era of unprecedented connectivity, with an estimated 80 billion smart devices expected to be in operation by the end of 2025. These devices facilitate a multitude of smart applications, enhancing the quality of life and efficiency across various domains. Machine Learning (ML) serves as a crucial technology, not only for analyzing IoT-generated data but also for diverse applications within the IoT ecosystem. For instance, ML finds utility in IoT device recognition, anomaly detection, and even in uncovering malicious activities. This paper embarks on a comprehensive exploration of the security threats arising from ML's integration into various facets of IoT, spanning various attack types including membership inference, adversarial evasion, reconstruction, property inference, model extraction, and poisoning attacks. Unlike previous studies, our work offers a holistic perspective, categorizing threats based on criteria such as adversary models, attack targets, and key security attributes (confidentiality, availability, and integrity). We delve into the underlying techniques of ML attacks in IoT environment, providing a critical evaluation of their mechanisms and impacts. Furthermore, our research thoroughly assesses 65 libraries, both author-contributed and third-party, evaluating their role in safeguarding model and data privacy. We emphasize the availability and usability of these libraries, aiming to arm the community with the necessary tools to bolster their defenses against the evolving threat landscape. Through our comprehensive review and analysis, this paper seeks to contribute to the ongoing discourse on ML-based IoT security, offering valuable insights and practical solutions to secure ML models and data in the rapidly expanding field of artificial intelligence in IoT. | 翻訳日:2024-01-23 14:57:49 公開日:2024-01-22 |
# グラフ凝縮:調査 Graph Condensation: A Survey ( http://arxiv.org/abs/2401.11720v1 ) ライセンス: Link先を確認 | Xinyi Gao, Junliang Yu, Wei Jiang, Tong Chen, Wentao Zhang, Hongzhi Yin | (参考訳) グラフデータの急増するボリュームは、ストレージ、送信、特にグラフニューラルネットワーク(GNN)のトレーニングにおいて大きな課題となっている。
これらの課題に対処するために、グラフ凝縮(gc)は革新的なソリューションとして登場した。
GCはコンパクトだが非常に代表的なグラフの合成に重点を置いており、GNNは大きな元のグラフで訓練されたのに匹敵するパフォーマンスを達成できる。
gcの特筆すべき有効性とその幅広い展望は大きな注目を集め、広範な研究を促した。
本稿では,GC評価基準に適合する4つのカテゴリ(有効性,一般化性,公正性,効率性)に既存の研究を整理する。
本稿では,GCの詳細な理解を容易にするため,各カテゴリの様々な手法について検討し,GCの最適化戦略と凝縮グラフ生成という2つの重要な要素について徹底的に考察する。
さらに,さまざまな分野におけるGCの適用について紹介し,現在の課題とGCの新たな洞察を強調し,今後の研究の進展を推し進める。 The burgeoning volume of graph data poses significant challenges in storage, transmission, and particularly the training of graph neural networks (GNNs). To address these challenges, graph condensation (GC) has emerged as an innovative solution. GC focuses on synthesizing a compact yet highly representative graph, on which GNNs can achieve performance comparable to trained on the large original graph. The notable efficacy of GC and its broad prospects have garnered significant attention and spurred extensive research. This survey paper provides an up-to-date and systematic overview of GC, organizing existing research into four categories aligned with critical GC evaluation criteria: effectiveness, generalization, fairness, and efficiency. To facilitate an in-depth and comprehensive understanding of GC, we examine various methods under each category and thoroughly discuss two essential components within GC: optimization strategies and condensed graph generation. Additionally, we introduce the applications of GC in a variety of fields, and highlight the present challenges and novel insights in GC, promoting advancements in future research. | 翻訳日:2024-01-23 14:57:16 公開日:2024-01-22 |
# SFC: 弱監視セマンティックセグメンテーションにおける共有特徴校正 SFC: Shared Feature Calibration in Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2401.11719v1 ) ライセンス: Link先を確認 | Xinqiao Zhao, Feilong Tang, Xiaoyang Wang, Jimin Xiao | (参考訳) 画像レベルの弱い教師付き意味セグメンテーションはアノテーションコストの低さから注目を集めている。
既存の手法は主にクラスアクティベーションマッピング(CAM)を使用して意味セグメンテーションモデルをトレーニングするための擬似ラベルを取得する。
本研究は,学習データにおける長い尾の分布が,ヘッドクラスとテールクラス間の共有特徴により,ヘッドクラスとアンダークラスで過剰に活性化された分類器の重みによって計算されたCAMを,初めて示すものである。
これにより擬似ラベル品質が低下し、最終的なセマンティクスセグメンテーション性能にさらに影響を及ぼす。
そこで本研究では,CAM生成のための共有特徴校正(SFC)手法を提案する。
具体的には,正の共有機能を持つクラスプロトタイプを活用し,マルチスケール分布重み付き(msdw)一貫性損失を提案し,学習中のクラスプロトタイプと分類器重みによるカム間のギャップを狭める。
MSDW損失は、ヘッド/テールクラス分類器重みの共有特徴を校正することにより、過剰活性化と過活性化のバランスをとる。
実験の結果,我々のSFCはCAM境界を大幅に改善し,新しい最先端性能を実現していることがわかった。
プロジェクトはhttps://github.com/Barrett-python/SFCで入手できる。 Image-level weakly supervised semantic segmentation has received increasing attention due to its low annotation cost. Existing methods mainly rely on Class Activation Mapping (CAM) to obtain pseudo-labels for training semantic segmentation models. In this work, we are the first to demonstrate that long-tailed distribution in training data can cause the CAM calculated through classifier weights over-activated for head classes and under-activated for tail classes due to the shared features among head- and tail- classes. This degrades pseudo-label quality and further influences final semantic segmentation performance. To address this issue, we propose a Shared Feature Calibration (SFC) method for CAM generation. Specifically, we leverage the class prototypes that carry positive shared features and propose a Multi-Scaled Distribution-Weighted (MSDW) consistency loss for narrowing the gap between the CAMs generated through classifier weights and class prototypes during training. The MSDW loss counterbalances over-activation and under-activation by calibrating the shared features in head-/tail-class classifier weights. Experimental results show that our SFC significantly improves CAM boundaries and achieves new state-of-the-art performances. The project is available at https://github.com/Barrett-python/SFC. | 翻訳日:2024-01-23 14:56:59 公開日:2024-01-22 |
# mssvt++: 3dオブジェクト検出のためのセンター投票を備えた混合スケールスパースボクセルトランスフォーマ MsSVT++: Mixed-scale Sparse Voxel Transformer with Center Voting for 3D Object Detection ( http://arxiv.org/abs/2401.11718v1 ) ライセンス: Link先を確認 | Jianan Li, Shaocong Dong, Lihe Ding, Tingfa Xu | (参考訳) 大規模屋外シーンにおける高精度な3次元物体検出は、オブジェクトスケールのかなりのバリエーションによって特徴付けられる。
最近の検出器は、ウィンドウベースのトランスフォーマーを使用して長距離依存性をモデル化しているが、細部の詳細を見落としがちである。
このギャップを埋めるために、我々はMsSVT++を提案する。MsSVT++は、分割・コンカレントアプローチにより、両タイプの情報を同時にキャプチャする、革新的なMixed-scale Sparse Voxel Transformerである。
このアプローチでは、注意ヘッドを複数のグループに明示的に分割し、それぞれが特定の範囲内の情報に対応する責任を負う。
これらのグループの出力は後にマージされ、最終的な混合スケールの特徴を得る。
ウィンドウベースのトランスフォーマーを3次元ボクセル空間に適用する際の計算複雑性を軽減するため,新しいチェスボードサンプリング戦略を導入し,ハッシュマップを用いてバラバラにボクセルサンプリングと収集操作を実装した。
さらに、重要な課題は、空でないボクセルが主に物体の表面にあり、境界ボックスの正確な推定が妨げられるという観察から生じる。
この課題を克服するために、我々は、オブジェクトの中央に混在するコンテキスト情報に富んだ、新しく投票されたボクセルを統合するCenter Votingモジュールを導入し、正確なオブジェクトローカライゼーションを改善する。
大規模な実験では、MsSVT++の基盤の上に構築された単一ステージ検出器が、さまざまなデータセットに対して一貫して例外的なパフォーマンスを実現しています。 Accurate 3D object detection in large-scale outdoor scenes, characterized by considerable variations in object scales, necessitates features rich in both long-range and fine-grained information. While recent detectors have utilized window-based transformers to model long-range dependencies, they tend to overlook fine-grained details. To bridge this gap, we propose MsSVT++, an innovative Mixed-scale Sparse Voxel Transformer that simultaneously captures both types of information through a divide-and-conquer approach. This approach involves explicitly dividing attention heads into multiple groups, each responsible for attending to information within a specific range. The outputs of these groups are subsequently merged to obtain final mixed-scale features. To mitigate the computational complexity associated with applying a window-based transformer in 3D voxel space, we introduce a novel Chessboard Sampling strategy and implement voxel sampling and gathering operations sparsely using a hash map. Moreover, an important challenge stems from the observation that non-empty voxels are primarily located on the surface of objects, which impedes the accurate estimation of bounding boxes. To overcome this challenge, we introduce a Center Voting module that integrates newly voted voxels enriched with mixed-scale contextual information towards the centers of the objects, thereby improving precise object localization. Extensive experiments demonstrate that our single-stage detector, built upon the foundation of MsSVT++, consistently delivers exceptional performance across diverse datasets. | 翻訳日:2024-01-23 14:56:36 公開日:2024-01-22 |
# 交通予測のための時空間グラフ畳み込みネットワークの知識蒸留 Knowledge Distillation on Spatial-Temporal Graph Convolutional Network for Traffic Prediction ( http://arxiv.org/abs/2401.11798v1 ) ライセンス: Link先を確認 | Mohammad Izadi, Mehran Safayani, Abdolreza Mirzaei | (参考訳) 交通時間の短縮には効率的なリアルタイム交通予測が不可欠である。
交通状況を予測するために、リアルタイムトラフィックデータを時間グラフとしてモデル化するために、時空間グラフニューラルネットワーク(ST-GNN)を用いる。
その能力にもかかわらず、現実世界のトラフィックデータに対して効率的なリアルタイム予測を提供する上で、しばしば課題に直面する。
リアルタイムデータの動的性質による時間的予測の重要性を認識し,ST-GNNの実行時間を向上させるソリューションとして知識蒸留(KD)を用いる。
本稿では,教師に近い精度を維持しつつ,複雑なネットワーク(教師)からの蒸留データを用いて,より少ないパラメータ(生徒)でネットワークを訓練するコスト関数を提案する。
我々は,教師ネットワークから空間時間相関を取り入れた知識蒸留を用いて,教師が知覚する複雑なパターンを学習できるようにする。
しかし、不注意に考えるのではなく、学生ネットワークアーキテクチャを決定することに課題が生じる。
この課題に対処するために、コスト関数を用いて、プルーニングスコアを計算し、小さなネットワークアーキテクチャ探索問題に対処し、KDを用いて各プルーニングステージから得られるネットワークを協調的に微調整するアルゴリズムを提案する。
最終的に、提案したアイデアを2つの現実世界データセット、PeMSD7とPeMSD8で評価した。
その結果,ネットワークパラメータがわずか3.5%であった場合でも,本手法は教師の精度に近い精度を維持することができることがわかった。 Efficient real-time traffic prediction is crucial for reducing transportation time. To predict traffic conditions, we employ a spatio-temporal graph neural network (ST-GNN) to model our real-time traffic data as temporal graphs. Despite its capabilities, it often encounters challenges in delivering efficient real-time predictions for real-world traffic data. Recognizing the significance of timely prediction due to the dynamic nature of real-time data, we employ knowledge distillation (KD) as a solution to enhance the execution time of ST-GNNs for traffic prediction. In this paper, We introduce a cost function designed to train a network with fewer parameters (the student) using distilled data from a complex network (the teacher) while maintaining its accuracy close to that of the teacher. We use knowledge distillation, incorporating spatial-temporal correlations from the teacher network to enable the student to learn the complex patterns perceived by the teacher. However, a challenge arises in determining the student network architecture rather than considering it inadvertently. To address this challenge, we propose an algorithm that utilizes the cost function to calculate pruning scores, addressing small network architecture search issues, and jointly fine-tunes the network resulting from each pruning stage using KD. Ultimately, we evaluate our proposed ideas on two real-world datasets, PeMSD7 and PeMSD8. The results indicate that our method can maintain the student's accuracy close to that of the teacher, even with the retention of only $3\%$ of network parameters. | 翻訳日:2024-01-23 14:50:48 公開日:2024-01-22 |
# 局所無依存ビデオ解説:ビデオに対する削除に基づく説明の適用性に関する研究 Local Agnostic Video Explanations: a Study on the Applicability of Removal-Based Explanations to Video ( http://arxiv.org/abs/2401.11796v1 ) ライセンス: Link先を確認 | F. Xavier Gaya-Morey, Jose M. Buades-Rubio, Cristina Manresa-Yee | (参考訳) さまざまな領域におけるディープラーニングアプリケーションの増加に伴い、説明可能な人工知能技術がますます重要になっている。
これらの技術は、複雑な「ブラックボックス」モデルの理解を深め、高い学習性能を維持しながらユーザーの信頼を高めることを目的としている。
多くの研究では、画像入力のためのコンピュータビジョンにおけるディープラーニングモデルの説明に焦点が当てられているが、ビデオの説明は時間次元の複雑さのために比較的未解明のままである。
本稿では,ビデオ領域における局所的無依存な説明のための統一フレームワークを提案する。
1)コンピュータビジョンデータ用に調整された細かな説明フレームワークを拡張すること,(2)時間情報を取り込んでビデオデータに取り組むために既存の6つの説明手法を適用すること,(3)異なるモデルとデータセットを用いた適応説明手法の評価と比較を行うことである。
視覚データの除去に基づく説明プロセスにおける可能性と選択について論じる。
ビデオに対する6つの説明手法の適応について,既存手法との比較を行った。
本研究では,自動計測とユーザベース評価を用いて,3drise,3d lime,3d kernel shapが他の手法よりも優れていることを示す。
説明プロセスを管理可能なステップに分解することにより,各選択の影響の研究が容易になり,特定のデータセットやモデルに適合する説明方法をさらに洗練することができる。 Explainable artificial intelligence techniques are becoming increasingly important with the rise of deep learning applications in various domains. These techniques aim to provide a better understanding of complex "black box" models and enhance user trust while maintaining high learning performance. While many studies have focused on explaining deep learning models in computer vision for image input, video explanations remain relatively unexplored due to the temporal dimension's complexity. In this paper, we present a unified framework for local agnostic explanations in the video domain. Our contributions include: (1) Extending a fine-grained explanation framework tailored for computer vision data, (2) Adapting six existing explanation techniques to work on video data by incorporating temporal information and enabling local explanations, and (3) Conducting an evaluation and comparison of the adapted explanation methods using different models and datasets. We discuss the possibilities and choices involved in the removal-based explanation process for visual data. The adaptation of six explanation methods for video is explained, with comparisons to existing approaches. We evaluate the performance of the methods using automated metrics and user-based evaluation, showing that 3D RISE, 3D LIME, and 3D Kernel SHAP outperform other methods. By decomposing the explanation process into manageable steps, we facilitate the study of each choice's impact and allow for further refinement of explanation methods to suit specific datasets and models. | 翻訳日:2024-01-23 14:50:23 公開日:2024-01-22 |
# 強化学習とデモによる安全で汎用的なエンドツーエンド自動運転システム Safe and Generalized end-to-end Autonomous Driving System with Reinforcement Learning and Demonstrations ( http://arxiv.org/abs/2401.11792v1 ) ライセンス: Link先を確認 | Zuojin Tang, Xiaoyu Chen, YongQiang Li, Jianyu Chen | (参考訳) インテリジェントな運転システムは、システムのセキュリティと信頼性を確保しつつ、現在の環境と車両状態に基づいて適切な運転戦略を動的に定式化することができるべきである。
しかし、強化学習と模倣学習に基づく既存の手法は安全性が低く、一般化が悪く、サンプリングが効率が悪い。
さらに、将来の運転軌跡を正確に予測することはできず、将来の運転軌跡の正確な予測は最適な決定を行うための前提条件である。
そこで本稿では,複雑なシナリオに対して,安全で汎用的なエンドツーエンドの自動運転システム(sgads)を提案する。
我々のSGADSは変動推論と正規化フローを組み込んでおり、インテリジェントな車両が将来の走行軌跡を正確に予測することができる。
さらに,ロバストな安全制約の定式化を提案する。
さらに,強化学習と実演を組み合わせることで,エージェントの探索過程を増強する。
実験結果から,SGADSは安全性能を著しく向上し,高度に一般化し,複雑な都市環境下での知的車両の訓練効率を向上させることができることが示された。 An intelligent driving system should be capable of dynamically formulating appropriate driving strategies based on the current environment and vehicle status, while ensuring the security and reliability of the system. However, existing methods based on reinforcement learning and imitation learning suffer from low safety, poor generalization, and inefficient sampling. Additionally, they cannot accurately predict future driving trajectories, and the accurate prediction of future driving trajectories is a precondition for making optimal decisions. To solve these problems, in this paper, we introduce a Safe and Generalized end-to-end Autonomous Driving System (SGADS) for complex and various scenarios. Our SGADS incorporates variational inference with normalizing flows, enabling the intelligent vehicle to accurately predict future driving trajectories. Moreover, we propose the formulation of robust safety constraints. Furthermore, we combine reinforcement learning with demonstrations to augment search process of the agent. The experimental results demonstrate that our SGADS can significantly improve safety performance, exhibit strong generalization, and enhance the training efficiency of intelligent vehicles in complex urban scenarios compared to existing methods. | 翻訳日:2024-01-23 14:49:59 公開日:2024-01-22 |
# SemPLeS: 弱教師付きセマンティックセグメンテーションのためのセマンティックプロンプト学習 SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2401.11791v1 ) ライセンス: Link先を確認 | Ci-Siang Lin, Chien-Yi Wang, Yu-Chiang Frank Wang, Min-Hung Chen | (参考訳) Weakly-Supervised Semantic Segmentation (WSSS) は、画像レベルの監視のみを使用して、トレーニング画像データを使用してセグメンテーションモデルをトレーニングすることを目的としている。
正確なピクセルレベルのアノテーションはアクセスできないため、既存の手法ではCAMのようなヒートマップを精錬することでセグメンテーションモデルをトレーニングするための擬似マスクの作成に重点を置いている。
しかし、生成したヒートマップは、対象対象カテゴリの識別画像領域または関連する共起背景のみをキャプチャする。
この問題に対処するため,SemPLeS(Semantic Prompt Learning for WSSS)フレームワークを提案する。このフレームワークはCLIP空間を効果的に促進し,セグメント化された領域と対象のオブジェクトカテゴリ間のセマンティックアライメントを強化する。
具体的には,各対象カテゴリに関連する画像背景を適切に記述し,抑制するプロンプトを学習するために,コントラスト・プロンプト学習とクラス関連セマンティック・リファインメントを提案する。
このようにして提案するフレームワークでは,オブジェクト領域と関連するテキストラベル間の意味的マッチングが向上し,セグメンテーションモデルをトレーニングするための擬似マスクが望ましい。
提案するSemPLeSフレームワークは,標準的なWSSSベンチマーク,PASCAL VOC,MS COCO上でのSOTA性能を実現し,学習プロンプトのセマンティックビジュアライゼーションによる解釈性を示した。
コードはリリースされます。 Weakly-Supervised Semantic Segmentation (WSSS) aims to train segmentation models using training image data with only image-level supervision. Since precise pixel-level annotations are not accessible, existing methods typically focus on producing pseudo masks for training segmentation models by refining CAM-like heatmaps. However, the produced heatmaps may only capture discriminative image regions of target object categories or the associated co-occurring backgrounds. To address the issues, we propose a Semantic Prompt Learning for WSSS (SemPLeS) framework, which learns to effectively prompt the CLIP space to enhance the semantic alignment between the segmented regions and the target object categories. More specifically, we propose Contrastive Prompt Learning and Class-associated Semantic Refinement to learn the prompts that adequately describe and suppress the image backgrounds associated with each target object category. In this way, our proposed framework is able to perform better semantic matching between object regions and the associated text labels, resulting in desired pseudo masks for training the segmentation model. The proposed SemPLeS framework achieves SOTA performance on the standard WSSS benchmarks, PASCAL VOC and MS COCO, and demonstrated interpretability with the semantic visualization of our learned prompts. The codes will be released. | 翻訳日:2024-01-23 14:49:41 公開日:2024-01-22 |
# コンピュータビジョンに基づく高齢者の行動認識と転倒検出のための深層学習--体系的考察 Deep Learning for Computer Vision based Activity Recognition and Fall Detection of the Elderly: a Systematic Review ( http://arxiv.org/abs/2401.11790v1 ) ライセンス: Link先を確認 | F. Xavier Gaya-Morey, Cristina Manresa-Yee, Jose M. Buades-Rubio | (参考訳) 先進国の高齢者の割合が世界中で増加するにつれて、この集団の医療は特に自治の維持を含むと懸念される問題となっている。
この方向では、高齢者の自立生活による偏見を軽減するために、AAL(Ambient Assisted Living)システムに関する多くの研究が出版されている。
本研究は,高齢者の転倒検知と人的活動認識(har)について,高齢者が単独で生活することの安全性を保証するための2つの課題として,文献の体系的なレビューを行った。
この2つの課題を遂行する現在の傾向に対処するため,コンピュータビジョンデータに対するディープラーニング(DL)に基づくアプローチの利用に焦点を当てた。
また、dlモデルやデータセット、ハードウェア(深度カメラやサーマルカメラなど)などの異なるデータのコレクションがレビューされた研究から収集され、将来の研究で参照される。
既存のアプローチの強みと弱みについても論じ、それに基づいて今後の研究への推奨事項について述べる。 As the percentage of elderly people in developed countries increases worldwide, the healthcare of this collective is a worrying matter, especially if it includes the preservation of their autonomy. In this direction, many studies are being published on Ambient Assisted Living (AAL) systems, which help to reduce the preoccupations raised by the independent living of the elderly. In this study, a systematic review of the literature is presented on fall detection and Human Activity Recognition (HAR) for the elderly, as the two main tasks to solve to guarantee the safety of elderly people living alone. To address the current tendency to perform these two tasks, the review focuses on the use of Deep Learning (DL) based approaches on computer vision data. In addition, different collections of data like DL models, datasets or hardware (e.g. depth or thermal cameras) are gathered from the reviewed studies and provided for reference in future studies. Strengths and weaknesses of existing approaches are also discussed and, based on them, our recommendations for future works are provided. | 翻訳日:2024-01-23 14:49:12 公開日:2024-01-22 |
# グラフ視点からのスパースセンシングによる全体運動再構成 Full-Body Motion Reconstruction with Sparse Sensing from Graph Perspective ( http://arxiv.org/abs/2401.11783v1 ) ライセンス: Link先を確認 | Feiyu Yao, Zongkai Wu, Li Yi | (参考訳) スパースセンサデータから3dフルボディポーズを推定することは、拡張現実と仮想現実におけるリアルな人間の動きの再構築に使用される重要な技術である。
しかし、一般的なVRシステムにおけるスパース分散センサーは、完全な人間の身体の動きを捉えることができないため、スパースセンサー信号を包括的人間の動作に変換することは依然として困難である。
本稿では,人体を表現するためによく設計されたボディポーズグラフ(bpg)を用い,その課題をグラフ欠落ノードの予測問題に変換する。
そこで本研究では,bpgに基づく新しい全身運動再構成フレームワークを提案する。
BPGを確立するために、ノードはまずスパースセンサー信号から抽出された特徴を付与する。
多様なセンサにまたがる識別可能なジョイントノードの特徴は、時間的および空間的な観点から融合処理される。
時間的ダイナミクスは時間的ピラミッド構造を用いて捉えられ、関節運動における空間的関係は空間的属性を知らせる。
結果として得られる機能は、BPGノードの基本要素として機能する。
BPGをさらに洗練するために、さまざまな関節関係を反映するエッジを含むグラフニューラルネットワークを通じてノード機能を更新する。
提案手法の有効性は,特に下肢運動において,他のベースライン法よりも高い精度で達成されている。
さらに,提案フレームワークにおける各モジュールの有効性について検討した。 Estimating 3D full-body pose from sparse sensor data is a pivotal technique employed for the reconstruction of realistic human motions in Augmented Reality and Virtual Reality. However, translating sparse sensor signals into comprehensive human motion remains a challenge since the sparsely distributed sensors in common VR systems fail to capture the motion of full human body. In this paper, we use well-designed Body Pose Graph (BPG) to represent the human body and translate the challenge into a prediction problem of graph missing nodes. Then, we propose a novel full-body motion reconstruction framework based on BPG. To establish BPG, nodes are initially endowed with features extracted from sparse sensor signals. Features from identifiable joint nodes across diverse sensors are amalgamated and processed from both temporal and spatial perspectives. Temporal dynamics are captured using the Temporal Pyramid Structure, while spatial relations in joint movements inform the spatial attributes. The resultant features serve as the foundational elements of the BPG nodes. To further refine the BPG, node features are updated through a graph neural network that incorporates edge reflecting varying joint relations. Our method's effectiveness is evidenced by the attained state-of-the-art performance, particularly in lower body motion, outperforming other baseline methods. Additionally, an ablation study validates the efficacy of each module in our proposed framework. | 翻訳日:2024-01-23 14:48:54 公開日:2024-01-22 |
# 画像分割参照のための協調的位置推論ネットワーク Collaborative Position Reasoning Network for Referring Image Segmentation ( http://arxiv.org/abs/2401.11775v1 ) ライセンス: Link先を確認 | Jianjian Cao and Beiya Dai and Yulin Li and Xiameng Qin and Jingdong Wang | (参考訳) 入力として画像と自然言語表現が与えられた場合、画像セグメンテーションの目標は、表現によって参照されるエンティティの前景マスクをセグメンテーションすることである。
既存の手法は主に視覚と言語間の対話的な学習に焦点を当て、グローバルコンテキスト推論のためのマルチモーダル表現を強化している。
しかし、ピクセルレベルの空間で直接予測することは、崩壊した位置決めやセグメンテーション結果に繋がる可能性がある。
その主な課題は、エンティティのローカライゼーションを明示的にモデル化する方法である。
本稿では,提案するRow-and-Column Interactive (RoCo) と Guided Holistic Interactive (Holi) モジュールを用いて協調的位置推論ネットワーク (CPRN) を実行することでこの問題に対処する。
具体的には、rocoは視覚的な特徴を2つの方向軸に対応する行と列ごとに集約する。
言語的特徴と2つの分離された視覚的特徴の関連を知覚し、階層的な空間上の位置推論を行う、きめ細かいマッチング行動を提供する。
Holiは2つのモードの特徴を、RoCoからの位置情報のガイドの下で無関係な冗長性を抑えるクロスモーダルアテンション機構によって統合する。
このように、ロコモジュールとホリモジュールが組み込まれたことにより、CPRNは位置推論の視覚的詳細をキャプチャし、モデルがより正確なセグメンテーションを達成する。
私たちの知る限りでは、位置推論モデリングに重点を置く最初の作品です。
また,提案手法を3つの評価データセットで検証した。
既存の最先端メソッドよりも一貫して優れています。 Given an image and a natural language expression as input, the goal of referring image segmentation is to segment the foreground masks of the entities referred by the expression. Existing methods mainly focus on interactive learning between vision and language to enhance the multi-modal representations for global context reasoning. However, predicting directly in pixel-level space can lead to collapsed positioning and poor segmentation results. Its main challenge lies in how to explicitly model entity localization, especially for non-salient entities. In this paper, we tackle this problem by executing a Collaborative Position Reasoning Network (CPRN) via the proposed novel Row-and-Column interactive (RoCo) and Guided Holistic interactive (Holi) modules. Specifically, RoCo aggregates the visual features into the row- and column-wise features corresponding two directional axes respectively. It offers a fine-grained matching behavior that perceives the associations between the linguistic features and two decoupled visual features to perform position reasoning over a hierarchical space. Holi integrates features of the two modalities by a cross-modal attention mechanism, which suppresses the irrelevant redundancy under the guide of positioning information from RoCo. Thus, with the incorporation of RoCo and Holi modules, CPRN captures the visual details of position reasoning so that the model can achieve more accurate segmentation. To our knowledge, this is the first work that explicitly focuses on position reasoning modeling. We also validate the proposed method on three evaluation datasets. It consistently outperforms existing state-of-the-art methods. | 翻訳日:2024-01-23 14:48:34 公開日:2024-01-22 |
# LightDiC: 大規模図形表現学習におけるシンプルかつ効果的なアプローチ LightDiC: A Simple yet Effective Approach for Large-scale Digraph Representation Learning ( http://arxiv.org/abs/2401.11772v1 ) ライセンス: Link先を確認 | Xunkai Li, Meihao Liao, Zhengyu Wu, Daohan Su, Wentao Zhang, Rong-Hua Li, Guoren Wang | (参考訳) 既存のグラフニューラルネットワーク(GNN)のほとんどは、キャプチャされたリレーショナル情報の制限範囲が、実世界のシナリオにおける表現能力とデプロイメントを妨げる、非ダイレクトグラフに限られている。
非有向グラフと比較して、有向グラフ (digraphs) は、輸送や金融ネットワークなどのノード間のより複雑な関係を捉えることにより、より複雑なトポロジーシステムのモデリングの要求に合致する。
いくつかの指向型GNNが導入されたが、そのインスピレーションは主にディープラーニングアーキテクチャによるもので、冗長な複雑性と計算をもたらし、大規模データベースには適用できない。
これらの問題に対処するために、磁気ラプラシアンに基づくダイグラフ畳み込みのスケーラブルな変種であるLightDiCを提案する。
トポロジ関連の計算はオフライン前処理でのみ実行されるため、lightdicは例外的なスケーラビリティを実現し、再帰的な計算コストを伴わずに下流の予測を個別に訓練することができる。
理論的解析により、lightdicはディリクレエネルギー最適化関数の近位勾配降下過程に対応する複素場に基づくメッセージパッシングを達成するために、ディグラフ信号のデノイジングの観点から有向情報を利用することが示され、その表現性が保証される。
実験の結果、LightDiCは様々な下流タスクにおいて、学習可能なパラメータが少なく、訓練効率も高く、他のSOTAメソッドよりも優れていた。
特に、LightDiCは最も代表的な大規模データベース(ogbn-papers100M)で満足できる結果を提供する最初のDiGNNである。 Most existing graph neural networks (GNNs) are limited to undirected graphs, whose restricted scope of the captured relational information hinders their expressive capabilities and deployments in real-world scenarios. Compared with undirected graphs, directed graphs (digraphs) fit the demand for modeling more complex topological systems by capturing more intricate relationships between nodes, such as formulating transportation and financial networks. While some directed GNNs have been introduced, their inspiration mainly comes from deep learning architectures, which lead to redundant complexity and computation, making them inapplicable to large-scale databases. To address these issues, we propose LightDiC, a scalable variant of the digraph convolution based on the magnetic Laplacian. Since topology-related computations are conducted solely during offline pre-processing, LightDiC achieves exceptional scalability, enabling downstream predictions to be trained separately without incurring recursive computational costs. Theoretical analysis shows that LightDiC utilizes directed information to achieve message passing based on the complex field, which corresponds to the proximal gradient descent process of the Dirichlet energy optimization function from the perspective of digraph signal denoising, ensuring its expressiveness. Experimental results demonstrate that LightDiC performs comparably well or even outperforms other SOTA methods in various downstream tasks, with fewer learnable parameters and higher training efficiency. Notably, LightDiC is the first DiGNN to provide satisfactory results in the most representative large-scale database (ogbn-papers100M). | 翻訳日:2024-01-23 14:48:07 公開日:2024-01-22 |
# ADA-GNN:結晶物性予測のための原子距離角グラフニューラルネットワーク ADA-GNN: Atom-Distance-Angle Graph Neural Network for Crystal Material Property Prediction ( http://arxiv.org/abs/2401.11768v1 ) ライセンス: Link先を確認 | Jiao Huang and Qianli Xing and Jinglong Ji and Bo Yang | (参考訳) 物性予測は結晶材料研究の基本的な課題である。
原子や構造をモデル化するために、グラフとして表される構造は広く使われ、グラフ学習に基づく手法は大きな進歩を遂げた。
結合角と結合距離は結晶特性に大きな影響を与える2つの重要な構造情報である。
しかし、現存する作品の多くはボンド距離とボンド角のみを考慮に入れている。
主な課題は、結合角を扱うための時間コストであり、それが推論時間を大幅に増加させる。
この問題を解決するために,両端近傍の大規模切欠きと角近傍の小型切欠きを併用した,二重スケール近傍の分断機構に基づく結晶構造モデリングを提案する。
次に,ノード情報と構造情報を別々に処理可能な特性予測タスクのための新しい原子距離グラフニューラルネットワーク(ada-gnn)を提案する。
ADA-GNNの2重スケールモデリングと特別設計アーキテクチャにより,予測精度と推定時間が改善された。
実験により,本手法は2つの大規模材料ベンチマークデータセットにおいて,特性予測タスクにおける最新結果が得られることを確認した。 Property prediction is a fundamental task in crystal material research. To model atoms and structures, structures represented as graphs are widely used and graph learning-based methods have achieved significant progress. Bond angles and bond distances are two key structural information that greatly influence crystal properties. However, most of the existing works only consider bond distances and overlook bond angles. The main challenge lies in the time cost of handling bond angles, which leads to a significant increase in inference time. To solve this issue, we first propose a crystal structure modeling based on dual scale neighbor partitioning mechanism, which uses a larger scale cutoff for edge neighbors and a smaller scale cutoff for angle neighbors. Then, we propose a novel Atom-Distance-Angle Graph Neural Network (ADA-GNN) for property prediction tasks, which can process node information and structural information separately. The accuracy of predictions and inference time are improved with the dual scale modeling and the specially designed architecture of ADA-GNN. The experimental results validate that our approach achieves state-of-the-art results in two large-scale material benchmark datasets on property prediction tasks. | 翻訳日:2024-01-23 14:47:39 公開日:2024-01-22 |
# 階層的コヒーレンスモデリングによる物体分割 Concealed Object Segmentation with Hierarchical Coherence Modeling ( http://arxiv.org/abs/2401.11767v1 ) ライセンス: Link先を確認 | Fengyang Xiao, Pan Zhang, Chunming He, Runze Hu, Yutao Liu | (参考訳) 認知オブジェクトセグメンテーション(COS)は、周囲の環境と視覚的に混ざり合った隠蔽オブジェクトのローカライズとセグメンテーションを含む、困難なタスクである。
顕著な成功にもかかわらず、既存のcosセグメンタは、非常に隠されたシナリオで完全なセグメンテーション結果を達成するのに苦労している。
本稿では,COSのための階層型コヒーレンスモデリング(HCM)セグメンタを提案し,この不完全セグメンテーションの限界に対処することを目的とする。
具体的には、HCMは、段内コヒーレンスと段間コヒーレンスモジュールを活用することで特徴コヒーレンスを促進し、単段レベルと文脈レベルの特徴相関を探索する。
さらに,低信頼領域の未検出部分を検出するための可逆再校正デコーダを導入し,セグメンテーション性能をさらに向上させる。
3つのcosタスク(camouflaged object detection, polyp image segmentation, transparent object detection)に関する広範な実験は、提案するhcm segmenterによって達成される有望な結果を示している。 Concealed object segmentation (COS) is a challenging task that involves localizing and segmenting those concealed objects that are visually blended with their surrounding environments. Despite achieving remarkable success, existing COS segmenters still struggle to achieve complete segmentation results in extremely concealed scenarios. In this paper, we propose a Hierarchical Coherence Modeling (HCM) segmenter for COS, aiming to address this incomplete segmentation limitation. In specific, HCM promotes feature coherence by leveraging the intra-stage coherence and cross-stage coherence modules, exploring feature correlations at both the single-stage and contextual levels. Additionally, we introduce the reversible re-calibration decoder to detect previously undetected parts in low-confidence regions, resulting in further enhancing segmentation performance. Extensive experiments conducted on three COS tasks, including camouflaged object detection, polyp image segmentation, and transparent object detection, demonstrate the promising results achieved by the proposed HCM segmenter. | 翻訳日:2024-01-23 14:47:21 公開日:2024-01-22 |
# 相互進化による効率的・一般グラフ学習に向けて Towards Effective and General Graph Unlearning via Mutual Evolution ( http://arxiv.org/abs/2401.11760v1 ) ライセンス: Link先を確認 | Xunkai Li, Yulin Zhao, Zhengyu Wu, Wentao Zhang, Rong-Hua Li, Guoren Wang | (参考訳) AIアプリケーションの急速な進歩により、データプライバシとモデルロバストネスの必要性の高まりは、特にグラフベースのシナリオが繁栄する中で、機械学習の重要性を強調している。
しかしながら、既存のグラフアンラーニング戦略の多くは、よく設計されたアーキテクチャや手動プロセスに依存しており、ユーザフレンドリーさを低下させ、デプロイ効率の面で課題を提起している。
さらに、学習しないパフォーマンスとフレームワークの一般化のバランスを取ることも重要な懸念である。
上記の問題に対処するため,グラフアンラーニングの予測能力と未学習能力を同時に進化させる新たな相互進化パラダイムである,Shaunderline{\textbf{M}}utual \underline{\textbf{E}}volution \underline{\textbf{G}}raph \underline{\textbf{U}}nlearning (MEGU)を提案する。
上記の2つのコンポーネントを組み込むことで、meguは予測と学習の要件に合致した統一トレーニングフレームワークで補完的な最適化を実現する。
9つのグラフベンチマークデータセットに対する大規模な実験は、機能、ノード、エッジレベルの未学習要件に対処する上で、MEGUの優れたパフォーマンスを示している。
特にMEGUは、最先端のベースラインと比較して、これらの3つのレベルの未学習タスクの平均パフォーマンス改善を2.7\%、2.5\%、および3.2\%で達成している。
さらに、MEGUは、GNNをゼロから再訓練するのと比較して、それぞれ平均159.8xと9.6xの時間と空間のオーバーヘッドを減少させる、十分な訓練効率を示す。 With the rapid advancement of AI applications, the growing needs for data privacy and model robustness have highlighted the importance of machine unlearning, especially in thriving graph-based scenarios. However, most existing graph unlearning strategies primarily rely on well-designed architectures or manual process, rendering them less user-friendly and posing challenges in terms of deployment efficiency. Furthermore, striking a balance between unlearning performance and framework generalization is also a pivotal concern. To address the above issues, we propose \underline{\textbf{M}}utual \underline{\textbf{E}}volution \underline{\textbf{G}}raph \underline{\textbf{U}}nlearning (MEGU), a new mutual evolution paradigm that simultaneously evolves the predictive and unlearning capacities of graph unlearning. By incorporating aforementioned two components, MEGU ensures complementary optimization in a unified training framework that aligns with the prediction and unlearning requirements. Extensive experiments on 9 graph benchmark datasets demonstrate the superior performance of MEGU in addressing unlearning requirements at the feature, node, and edge levels. Specifically, MEGU achieves average performance improvements of 2.7\%, 2.5\%, and 3.2\% across these three levels of unlearning tasks when compared to state-of-the-art baselines. Furthermore, MEGU exhibits satisfactory training efficiency, reducing time and space overhead by an average of 159.8x and 9.6x, respectively, in comparison to retraining GNN from scratch. | 翻訳日:2024-01-23 14:46:59 公開日:2024-01-22 |
# 色付き雑音によって駆動される確率的シュリンガー方程式の量子忠実度 Qubit fidelity under stochastic Schr\"odinger equations driven by colored noise ( http://arxiv.org/abs/2401.11758v1 ) ライセンス: Link先を確認 | Robert de Keijzer, Luke Visser, Oliver Tse, Servaas Kokkelmans | (参考訳) 制御された量子系の環境ノイズは一般に散逸リンドブラッド方程式によってモデル化される。
この方程式は密度行列 $\rho$ を介して系の平均状態を記述する。
このリンドブラッド方程式を導出する一つの方法は、シュリンガー方程式において白色雑音の下で進化する確率作用素を導入することである。
しかし、すべてのノイズ周波数がパワースペクトル密度に等しく寄与するホワイトノイズは、一般的に低周波がスペクトルを支配するため、現実的なノイズプロファイルではない。
さらにリンドブラッド方程式は系を密度行列 $\rho$ として完全に記述していないが、純粋状態 $\{\psi_j\}_j$ の確率的アンサンブルを一意に記述していない。
本稿では,量子ビットがより現実的な雑音プロファイル,例えばオーンシュタイン・ウレンベック雑音下で進化する,重要な確率シュレーディンガー方程式によって駆動される量子ビット忠実度分布の完全分布の解法を提案する。
これにより、これらの量子ビットの平均、分散、高次モーメントの予測が可能となり、将来の量子コンピューティングシステムにおいて許容されるノイズレベルを決定するときに、例えば、制御システムのどの品質を調達するかを決定するのに価値がある。
さらに、これらの手法は(古典的)制御系ノイズ下での量子状態の最適制御に不可欠であることが証明される。 Environmental noise on a controlled quantum system is generally modeled by a dissipative Lindblad equation. This equation describes the average state of the system via the density matrix $\rho$. One way of deriving this Lindblad equation is by introducing a stochastic operator evolving under white noise in the Schr\"odinger equation. However, white noise, where all noise frequencies contribute equally in the power spectral density, is not a realistic noise profile as lower frequencies generally dominate the spectrum. Furthermore, the Lindblad equation does not fully describe the system as a density matrix $\rho$ does not uniquely describe a probabilistic ensemble of pure states $\{\psi_j\}_j$. In this work, we introduce a method for solving for the full distribution of qubit fidelity driven by important stochastic Schr\"odinger equation cases, where qubits evolve under more realistic noise profiles, e.g. Ornstein-Uhlenbeck noise. This allows for predictions of the mean, variance, and higher-order moments of the fidelities of these qubits, which can be of value when deciding on the allowed noise levels for future quantum computing systems, e.g. deciding what quality of control systems to procure. Furthermore, these methods will prove to be integral in the optimal control of qubit states under (classical) control system noise. | 翻訳日:2024-01-23 14:46:27 公開日:2024-01-22 |
# FedGTA:フェデレーショングラフ学習のためのトポロジ認識平均化 FedGTA: Topology-aware Averaging for Federated Graph Learning ( http://arxiv.org/abs/2401.11755v1 ) ライセンス: Link先を確認 | Xunkai Li, Zhengyu Wu, Wentao Zhang, Yinlin Zhu, Rong-Hua Li, Guoren Wang | (参考訳) Federated Graph Learning(FGL)は、複数のローカルシステムにわたる大規模サブグラフの協調トレーニングを可能にする分散機械学習パラダイムである。
既存のFGL研究は2つのカテゴリに分類される。
(i)既存の機械学習モデルにおけるマルチクライアントトレーニングを改善するFGL最適化
(ii)fglモデル、複雑な局所モデルとマルチクライアントインタラクションによる性能向上。
しかし、ほとんどのfgl最適化戦略は、特にコンピュータビジョン領域向けに設計され、グラフ構造を無視し、不満足な性能と緩やかな収束を示す。
一方、FGLモデルにおける複雑なローカルモデルアーキテクチャでは、大規模サブグラフを扱うためのスケーラビリティが欠如しており、デプロイメントの制限がある。
これらの問題に対処するため,我々は,局所的スムージング信頼度と近傍の混合特徴を最適化するパーソナライズされた最適化戦略であるFederated Graph Topology-aware Aggregation (FedGTA)を提案する。
実験では、LouvainとMetisを分割した12のマルチスケール実世界のデータセットにFedGTAをデプロイしました。
これにより、さまざまなシナリオでFedGTAのパフォーマンスと堅牢性を評価することができます。
広範な実験により、feedgtaは高いスケーラビリティと効率を示しながら最先端のパフォーマンスを達成できることが示されている。
この実験には,大規模グラフデータベースとして最も代表的なogbn-papers100Mが含まれており,大規模グラフ学習への適用性を検証することができる。
我々の知る限り、我々はこの最適化戦略を用いて、大規模なグラフ学習をFGLで橋渡しし、効率的でスケーラブルなFGL手法の開発に寄与した最初の研究である。 Federated Graph Learning (FGL) is a distributed machine learning paradigm that enables collaborative training on large-scale subgraphs across multiple local systems. Existing FGL studies fall into two categories: (i) FGL Optimization, which improves multi-client training in existing machine learning models; (ii) FGL Model, which enhances performance with complex local models and multi-client interactions. However, most FGL optimization strategies are designed specifically for the computer vision domain and ignore graph structure, presenting dissatisfied performance and slow convergence. Meanwhile, complex local model architectures in FGL Models studies lack scalability for handling large-scale subgraphs and have deployment limitations. To address these issues, we propose Federated Graph Topology-aware Aggregation (FedGTA), a personalized optimization strategy that optimizes through topology-aware local smoothing confidence and mixed neighbor features. During experiments, we deploy FedGTA in 12 multi-scale real-world datasets with the Louvain and Metis split. This allows us to evaluate the performance and robustness of FedGTA across a range of scenarios. Extensive experiments demonstrate that FedGTA achieves state-of-the-art performance while exhibiting high scalability and efficiency. The experiment includes ogbn-papers100M, the most representative large-scale graph database so that we can verify the applicability of our method to large-scale graph learning. To the best of our knowledge, our study is the first to bridge large-scale graph learning with FGL using this optimization strategy, contributing to the development of efficient and scalable FGL methods. | 翻訳日:2024-01-23 14:46:05 公開日:2024-01-22 |
# 知識組織から知識表現へ From Knowledge Organization to Knowledge Representation and Back ( http://arxiv.org/abs/2401.11753v1 ) ライセンス: Link先を確認 | Fausto Giunchiglia, Mayukh Bagchi and Subhashis Das | (参考訳) 知識組織(KO)と知識表現(KR)はそれぞれ、情報科学コミュニティと人工知能コミュニティにおいて、知識モデリングの主流となる2つの方法論である。
KOのファセット分析の伝統は、知識の組織化と管理の質を保証するためのガイド・カノンを徹底的に開発してきたが、知識の書誌的世界を超えて、その範囲とサービスを拡張するための技術主導活動の観点ではまだ限られている。
一方KRは、技術と技術駆動型サービス設計の堅牢なエコシステムを誇っており、知識の世界全体のあらゆるエンティティやスケールをモデル化できる。
本稿では,facet-analytical ko と kr の方法論を詳細に解明し,それらの間の機能的マッピングを提供する。
本稿では,そのマッピングから,k 手法の標準成分と kr 手法が提供する先進技術をすべて統合した kr-enriched ko 方法論を提案する。
方法論統合の実践的な利点は、イタリア・トレント大学のデジタル大学(Digital University)の旗艦的応用を通じて実証されている。 Knowledge Organization (KO) and Knowledge Representation (KR) have been the two mainstream methodologies of knowledge modelling in the Information Science community and the Artificial Intelligence community, respectively. The facet-analytical tradition of KO has developed an exhaustive set of guiding canons for ensuring quality in organising and managing knowledge but has remained limited in terms of technology-driven activities to expand its scope and services beyond the bibliographic universe of knowledge. KR, on the other hand, boasts of a robust ecosystem of technologies and technology-driven service design which can be tailored to model any entity or scale to any service in the entire universe of knowledge. This paper elucidates both the facet-analytical KO and KR methodologies in detail and provides a functional mapping between them. Out of the mapping, the paper proposes an integrated KR-enriched KO methodology with all the standard components of a KO methodology plus the advanced technologies provided by the KR approach. The practical benefits of the methodological integration has been exemplified through the flagship application of the Digital University at the University of Trento, Italy. | 翻訳日:2024-01-23 14:45:23 公開日:2024-01-22 |
# 遅延コスト集約によるマルチビューステレオの強化 Boosting Multi-view Stereo with Late Cost Aggregation ( http://arxiv.org/abs/2401.11751v1 ) ライセンス: Link先を確認 | Jiang Wu, Rui Li, Yu Zhu, Wenxun Zhao, Jinqiu Sun, Yanning Zhang | (参考訳) ペアワイズマッチングコストアグリゲーションは、現代の学習ベースのマルチビューステレオ(mvs)にとって重要なステップである。
以前の作業では初期集約方式を採用しており、中間コストに対価を加算する。
However, we analyze that this process can degrade informative pairwise matchings, thereby blocking the depth network from fully utilizing the original geometric matching cues.To address this challenge, we present a late aggregation approach that allows for aggregating pairwise costs throughout the network feed-forward process, achieving accurate estimations with only minor changes of the plain CasMVSNet.Instead of building an intermediate cost by weighted sum, late aggregation preserves all pairwise costs along a distinct view channel.
これにより、後続の深度ネットワークは、コストの忠実さを失うことなく重要な幾何学的手がかりを完全に活用することができる。
新たなアグリゲーション方式を基礎として,保存コスト内でのビューオーダー依存性の解決,フレキシブルなテストビューの処理,深度フィルタリングプロセスの改善などを提案する。
その技術的単純さにもかかわらず、本手法はベースラインのカスケードベースアプローチにより大幅に改善され、計算オーバーヘッドが良好な最先端メソッドと同等の結果が得られる。 Pairwise matching cost aggregation is a crucial step for modern learning-based Multi-view Stereo (MVS). Prior works adopt an early aggregation scheme, which adds up pairwise costs into an intermediate cost. However, we analyze that this process can degrade informative pairwise matchings, thereby blocking the depth network from fully utilizing the original geometric matching cues.To address this challenge, we present a late aggregation approach that allows for aggregating pairwise costs throughout the network feed-forward process, achieving accurate estimations with only minor changes of the plain CasMVSNet.Instead of building an intermediate cost by weighted sum, late aggregation preserves all pairwise costs along a distinct view channel. This enables the succeeding depth network to fully utilize the crucial geometric cues without loss of cost fidelity. Grounded in the new aggregation scheme, we propose further techniques addressing view order dependence inside the preserved cost, handling flexible testing views, and improving the depth filtering process. Despite its technical simplicity, our method improves significantly upon the baseline cascade-based approach, achieving comparable results with state-of-the-art methods with favorable computation overhead. | 翻訳日:2024-01-23 14:44:50 公開日:2024-01-22 |
# 最適サブフィールド作物収量予測のための多視点リモートセンシングデータの適応融合 Adaptive Fusion of Multi-view Remote Sensing data for Optimal Sub-field Crop Yield Prediction ( http://arxiv.org/abs/2401.11844v1 ) ライセンス: Link先を確認 | Francisco Mena, Deepak Pathak, Hiba Najjar, Cristhian Sanchez, Patrick Helber, Benjamin Bischke, Peter Habelitz, Miro Miranda, Jayanth Siddamsetty, Marlon Nuske, Marcela Charfuelan, Diego Arenas, Michaela Vollmer, Andreas Dengel | (参考訳) 正確な収穫予測は農業における情報的意思決定、農業支援、産業利害関係者にとって最も重要である。
しかし, この課題は複雑であり, 環境条件, 土壌特性, 管理実践など, 様々な要因に依存している。
不均一なデータビューを組み合わせることは、予測タスクに対するビュー固有の貢献を特定するなど、融合の課題となる。
本稿では,異なる作物(豆,小麦,ナマメ)と地域(アルジェンティーナ,ウルグアイ,ドイツ)の収量を予測するための,新しい多視点学習手法を提案する。
多視点入力データには,センチネル-2衛星からのマルチスペクトル光学画像と,土壌特性や地形情報などの静的特徴を補完する作物生育期における気象データが含まれている。
データを効果的に融合するために、専用ビューエンコーダとGated Unit (GU)モジュールからなるMulti-view Gated Fusion (MVGF)モデルを導入する。
ビューエンコーダは、ビュー固有の表現を学習することにより、時間分解能の異なるデータソースの不均一性を処理する。
これらの表現は重み付き和によって適応的に融合される。
融合重量は、ビュー表現の連結を用いてGUによって各サンプルに対して計算される。
MVGFモデルは10m解像度のサブフィールドレベルで訓練される。
評価の結果、MVGFは従来のモデルよりも優れており、文献における通常の融合結果と異なり、全てのデータソースを組み込むことで最良の結果が得られることがわかった。
アルゼンチンでは、MVGFモデルはサブフィールド収率予測において0.68のR2値を達成する一方、フィールドレベルの評価(フィールド平均)では、異なる国で約0.80に達する。
GUモジュールは、各データソースの変動的重要性と予測タスクとを一致させて、国と作物タイプに基づいて異なる重みを学習した。 Accurate crop yield prediction is of utmost importance for informed decision-making in agriculture, aiding farmers, and industry stakeholders. However, this task is complex and depends on multiple factors, such as environmental conditions, soil properties, and management practices. Combining heterogeneous data views poses a fusion challenge, like identifying the view-specific contribution to the predictive task. We present a novel multi-view learning approach to predict crop yield for different crops (soybean, wheat, rapeseed) and regions (Argentina, Uruguay, and Germany). Our multi-view input data includes multi-spectral optical images from Sentinel-2 satellites and weather data as dynamic features during the crop growing season, complemented by static features like soil properties and topographic information. To effectively fuse the data, we introduce a Multi-view Gated Fusion (MVGF) model, comprising dedicated view-encoders and a Gated Unit (GU) module. The view-encoders handle the heterogeneity of data sources with varying temporal resolutions by learning a view-specific representation. These representations are adaptively fused via a weighted sum. The fusion weights are computed for each sample by the GU using a concatenation of the view-representations. The MVGF model is trained at sub-field level with 10 m resolution pixels. Our evaluations show that the MVGF outperforms conventional models on the same task, achieving the best results by incorporating all the data sources, unlike the usual fusion results in the literature. For Argentina, the MVGF model achieves an R2 value of 0.68 at sub-field yield prediction, while at field level evaluation (comparing field averages), it reaches around 0.80 across different countries. The GU module learned different weights based on the country and crop-type, aligning with the variable significance of each data source to the prediction task. | 翻訳日:2024-01-23 14:37:13 公開日:2024-01-22 |
# 不均一ランダム化制御試験における時間-時間結果のサブグループ解析法 Subgroup analysis methods for time-to-event outcomes in heterogeneous randomized controlled trials ( http://arxiv.org/abs/2401.11842v1 ) ライセンス: Link先を確認 | Valentine Perrin, Nathan Noiry, Nicolas Loiseau, Alex Nowak | (参考訳) 非有意なランダム化制御試験は、実験薬に対する優れた応答者のサブグループを隠蔽し、その後の発展を妨げる。
このような不均一な治療効果の同定は、精密医療の鍵であり、その目的で多くのポストホック分析法が開発されている。
これらの手法の長所と短所を特定するためにいくつかのベンチマークが実施されているが、特にバイナリおよび連続エンドポイントでは、時間とイベントのエンドポイントに対するサブグループ解析の体系的評価が欠如している。
この研究は、3つの異なる研究質問によって、複数のサブグループ分析アルゴリズムを時間からイベントまでの成果の文脈で評価することで、このギャップを埋めることを目的としている。
このような異質性の原因となるバイオマーカーは何か?
治療によい反応者は何者ですか。
そこで本研究では, ヘテロジニティのレベルを正確に制御した多種多様な不均一性シナリオを探索することのできる, 合成・半合成データ生成プロセスを提案する。
当社はgithubで利用可能なオープンソースのpythonパッケージを提供しており、生成プロセスと包括的なベンチマークフレームワークを含んでいます。
このパッケージは今後,治療効果の不均一性やサブグループ分析手法のベンチマーク研究に役立てられるものと期待している。 Non-significant randomized control trials can hide subgroups of good responders to experimental drugs, thus hindering subsequent development. Identifying such heterogeneous treatment effects is key for precision medicine and many post-hoc analysis methods have been developed for that purpose. While several benchmarks have been carried out to identify the strengths and weaknesses of these methods, notably for binary and continuous endpoints, similar systematic empirical evaluation of subgroup analysis for time-to-event endpoints are lacking. This work aims to fill this gap by evaluating several subgroup analysis algorithms in the context of time-to-event outcomes, by means of three different research questions: Is there heterogeneity? What are the biomarkers responsible for such heterogeneity? Who are the good responders to treatment? In this context, we propose a new synthetic and semi-synthetic data generation process that allows one to explore a wide range of heterogeneity scenarios with precise control on the level of heterogeneity. We provide an open source Python package, available on Github, containing our generation process and our comprehensive benchmark framework. We hope this package will be useful to the research community for future investigations of heterogeneity of treatment effects and subgroup analysis methods benchmarking. | 翻訳日:2024-01-23 14:36:41 公開日:2024-01-22 |
# グラフ上で適応カーネル畳み込みを近似する学習 Learning to Approximate Adaptive Kernel Convolution on Graphs ( http://arxiv.org/abs/2401.11840v1 ) ライセンス: Link先を確認 | Jaeyoon Sim, Sooyeon Jeon, InJun Choi, Guorong Wu, Won Hwa Kim | (参考訳) 様々なグラフニューラルネットワーク(gnn)は非ユークリッド空間のデータ分析に成功しているが、隠れた層数が増えるにつれて情報が過度に平均化されるといった制限がある。
この問題は従来のグラフ畳み込みの内在的な定式化に起因しており、これはグラフ内のノード全体にわたって、ノードごとの直接近傍から結節的特徴が集約される。
ノード毎に異なる数の隠れレイヤを設定することは不可能であるため、最近の研究は拡散カーネルを利用してグラフ構造を再定義し、さらに遠いノードからの情報を取り入れている。
残念ながら、そのようなアプローチはグラフラプラシアンの重対角化や大きな変換行列の学習に苦しむ。
本稿では,拡散核のスケールによって特徴集合の範囲が制御される拡散学習フレームワークを提案する。
効率的な計算のために、グラフ畳み込みの近似の閉形式微分をスケールに対して導出し、ノードごとの範囲を適応的に学習できる。
下流の分類器では、フレームワーク全体がエンドツーエンドでトレーニング可能である。
提案手法は,最先端性能のノードワイズ分類のための各種標準データセットを用いて検証し,実際の脳ネットワークデータを用いたグラフ分類の検証を行い,アルツハイマー分類の実用性を実証した。 Various Graph Neural Networks (GNNs) have been successful in analyzing data in non-Euclidean spaces, however, they have limitations such as oversmoothing, i.e., information becomes excessively averaged as the number of hidden layers increases. The issue stems from the intrinsic formulation of conventional graph convolution where the nodal features are aggregated from a direct neighborhood per layer across the entire nodes in the graph. As setting different number of hidden layers per node is infeasible, recent works leverage a diffusion kernel to redefine the graph structure and incorporate information from farther nodes. Unfortunately, such approaches suffer from heavy diagonalization of a graph Laplacian or learning a large transform matrix. In this regards, we propose a diffusion learning framework, where the range of feature aggregation is controlled by the scale of a diffusion kernel. For efficient computation, we derive closed-form derivatives of approximations of the graph convolution with respect to the scale, so that node-wise range can be adaptively learned. With a downstream classifier, the entire framework is made trainable in an end-to-end manner. Our model is tested on various standard datasets for node-wise classification for the state-of-the-art performance, and it is also validated on a real-world brain network data for graph classifications to demonstrate its practicality for Alzheimer classification. | 翻訳日:2024-01-23 14:36:19 公開日:2024-01-22 |
# AIの社会科学と社会科学のためのAI:調査 AI for social science and social science of AI: A Survey ( http://arxiv.org/abs/2401.11839v1 ) ライセンス: Link先を確認 | Ruoxi Xu, Yingfei Sun, Mengjie Ren, Shiguang Guo, Ruotong Pan, Hongyu Lin, Le Sun, Xianpei Han | (参考訳) 近年の人工知能の進歩、特に大規模言語モデル(llm)の出現は、人工知能の可能性を再考するきっかけとなった。
aiの人間的な能力の増大は、社会科学研究にも注目を集めており、これら2つの分野の組み合わせを探究する様々な研究につながった。
本研究では,AIと社会科学の組み合わせによる過去の調査を,共通の技術的アプローチを共有するが研究目的が異なる2つの方向に体系的に分類する。
第一の方向性は、社会科学のためのAIに焦点を当て、AIは社会科学研究の様々な段階を強化する強力なツールとして利用される。
第2の方向はAIの社会科学であり、AIエージェントを人間のような認知的・言語的能力で社会的実体として調査する。
By conducting a thorough review, particularly on the substantial progress facilitated by recent advancements in large language models, this paper introduces a fresh perspective to reassess the relationship between AI and social science, provides a cohesive framework that allows researchers to understand the distinctions and connections between AI for social science and social science of AI, and also summarized state-of-art experiment simulation platforms to facilitate research in these two directions.
AI技術が進歩し続け、インテリジェントなエージェントが私たちの日常生活に応用されるようになるにつれ、AIと社会科学の組み合わせの重要性はさらに顕著になるだろうと信じています。 Recent advancements in artificial intelligence, particularly with the emergence of large language models (LLMs), have sparked a rethinking of artificial general intelligence possibilities. The increasing human-like capabilities of AI are also attracting attention in social science research, leading to various studies exploring the combination of these two fields. In this survey, we systematically categorize previous explorations in the combination of AI and social science into two directions that share common technical approaches but differ in their research objectives. The first direction is focused on AI for social science, where AI is utilized as a powerful tool to enhance various stages of social science research. While the second direction is the social science of AI, which examines AI agents as social entities with their human-like cognitive and linguistic capabilities. By conducting a thorough review, particularly on the substantial progress facilitated by recent advancements in large language models, this paper introduces a fresh perspective to reassess the relationship between AI and social science, provides a cohesive framework that allows researchers to understand the distinctions and connections between AI for social science and social science of AI, and also summarized state-of-art experiment simulation platforms to facilitate research in these two directions. We believe that as AI technology continues to advance and intelligent agents find increasing applications in our daily lives, the significance of the combination of AI and social science will become even more prominent. | 翻訳日:2024-01-23 14:35:54 公開日:2024-01-22 |
# トラヒック状態推定のためのプライバシ保存データ融合:垂直フェデレーション学習アプローチ Privacy-Preserving Data Fusion for Traffic State Estimation: A Vertical Federated Learning Approach ( http://arxiv.org/abs/2401.11836v1 ) ライセンス: Link先を確認 | Qiqing Wang, Kaidi Yang | (参考訳) 本稿では,交通状態推定(TSE)のためのプライバシ保護データ融合手法を提案する。
すべてのデータソースが単一の信頼できる当事者によってアクセス可能であると仮定する既存の作業とは異なり、自治体当局(MA)やモビリティプロバイダ(MP)など、複数のデータオーナ間のコラボレーションやデータ共有で発生するデータプライバシの問題に、明確に対処しています。
この目的のために,複数のデータ所有者がプライベートデータを交換することなく,協調的にTSEモデルを訓練し,適用することが可能な,新しいFLアプローチであるFedTSEを提案する。
地上データの利用が限定された一般的なtseシナリオにおけるfeedseの適用性を高めるため,我々はさらに,トラフィックモデルとflを統合するプライバシ保護物理形flアプローチ,すなわちfeedtse-piを提案する。
実世界のデータ検証は、提案手法がプライバシーを考慮せずにオラクル法と類似した精度でプライバシーを保護することができることを示している。 This paper proposes a privacy-preserving data fusion method for traffic state estimation (TSE). Unlike existing works that assume all data sources to be accessible by a single trusted party, we explicitly address data privacy concerns that arise in the collaboration and data sharing between multiple data owners, such as municipal authorities (MAs) and mobility providers (MPs). To this end, we propose a novel vertical federated learning (FL) approach, FedTSE, that enables multiple data owners to collaboratively train and apply a TSE model without having to exchange their private data. To enhance the applicability of the proposed FedTSE in common TSE scenarios with limited availability of ground-truth data, we further propose a privacy-preserving physics-informed FL approach, i.e., FedTSE-PI, that integrates traffic models into FL. Real-world data validation shows that the proposed methods can protect privacy while yielding similar accuracy to the oracle method without privacy considerations. | 翻訳日:2024-01-23 14:35:33 公開日:2024-01-22 |
# 表情自動認識の人間的類似性:説明可能なaiによる実証的探索 Unveiling the Human-like Similarities of Automatic Facial Expression Recognition: An Empirical Exploration through Explainable AI ( http://arxiv.org/abs/2401.11835v1 ) ライセンス: Link先を確認 | F. Xavier Gaya-Morey, Silvia Ramis-Guarinos, Cristina Manresa-Yee, Jose M. Buades-Rubio | (参考訳) 顔の表情認識は人間の行動分析に不可欠であり、深層学習は人間よりも優れたモデルを可能にした。
しかし、それがいかに人間の処理を模倣しているかは不明である。
本研究の目的は、汎用オブジェクト分類器とFER特化モデルの両方を含む12の異なるネットワークを比較し、ディープニューラルネットワークと人間の知覚の類似性を検討することである。
我々は、革新的なグローバルな説明可能なAI手法を用いて、熱マップを生成し、6つの表情で訓練された12のネットワークにとって重要な顔領域を明らかにする。
Friesen と Ekman の記述およびそれらの中から,これらの結果を地上の真理マスクと比較し,定量的かつ質的に評価する。
和の交叉係数(iou)と正規化相関係数(remularized correlation coefficients)を用いて比較を行った。
72個のヒートマップを生成し、各表現とアーキテクチャの重要な領域を強調します。
定性的に、事前トレーニングされた重量を持つモデルは、事前トレーニングされていないモデルよりもヒートマップに類似性を示す。
特に、目と鼻の領域は特定の表情に影響を与えるが、口はすべてのモデルと表情で一貫して重要である。
定量的には、すべての表現とアーキテクチャで平均IoU値が低い(0.2702)。
最も優れたアーキテクチャは 0.3269 であり、最もパフォーマンスの悪いアーキテクチャは 0.2066 である。
dendrogramsは正規化相関係数で構築されており、ほとんどの式において2つの主要なクラスターを明らかにした。
ネットワークアーキテクチャが類似性に影響し、類似したアーキテクチャが類似した顔領域を優先するため、人間とaiの表情認識は限定的に一致していることが示唆される。 Facial expression recognition is vital for human behavior analysis, and deep learning has enabled models that can outperform humans. However, it is unclear how closely they mimic human processing. This study aims to explore the similarity between deep neural networks and human perception by comparing twelve different networks, including both general object classifiers and FER-specific models. We employ an innovative global explainable AI method to generate heatmaps, revealing crucial facial regions for the twelve networks trained on six facial expressions. We assess these results both quantitatively and qualitatively, comparing them to ground truth masks based on Friesen and Ekman's description and among them. We use Intersection over Union (IoU) and normalized correlation coefficients for comparisons. We generate 72 heatmaps to highlight critical regions for each expression and architecture. Qualitatively, models with pre-trained weights show more similarity in heatmaps compared to those without pre-training. Specifically, eye and nose areas influence certain facial expressions, while the mouth is consistently important across all models and expressions. Quantitatively, we find low average IoU values (avg. 0.2702) across all expressions and architectures. The best-performing architecture averages 0.3269, while the worst-performing one averages 0.2066. Dendrograms, built with the normalized correlation coefficient, reveal two main clusters for most expressions: models with pre-training and models without pre-training. Findings suggest limited alignment between human and AI facial expression recognition, with network architectures influencing the similarity, as similar architectures prioritize similar facial regions. | 翻訳日:2024-01-23 14:35:13 公開日:2024-01-22 |
# 各種深層学習に基づく文書画像二元化手法の公平な評価 A Fair Evaluation of Various Deep Learning-Based Document Image Binarization Approaches ( http://arxiv.org/abs/2401.11831v1 ) ライセンス: Link先を確認 | Richin Sukesh, Mathias Seuret, Anguelos Nicolaou, Martin Mayr, Vincent Christlein | (参考訳) 文書画像のバイナリ化は文書解析の分野で重要な前処理ステップである。
従来の画像バイナライゼーション技術は、画像の異なる側面を区別する有効なしきい値を特定するために、通常ヒストグラムや局所統計に依存する。
ディープラーニング技術は、ドキュメントイメージで典型的に発生するエラーの少ないコンテキスト依存の特徴を学習することで、イメージのバイナリ化バージョンを生成することができる。
近年,文書ビナライゼーションのための深層学習手法が数多く開発されている。
どちらを選ぶか?
これらの手法を厳密に比較する研究は行われていない。
そこで本研究では,同じ評価プロトコル下での異なる深層学習手法の評価に焦点を当てた。
異なる文書画像バイナリ化コンテスト(DIBCO)データセットで評価し、非常に異種な結果を得た。
DP-LinkNetがDIBCO2017データセットで最良であるのに対して,DEC-GANモデルはDIBCO2013データセットで評価した場合,他のモデルと比較して優れた性能を示した。
2-StageGANはDIBCO2018データセットで最善を尽くし、SauvolaNetはDIBCO2019チャレンジで他者を上回った。
最後に、コード、すべてのモデル、評価を公開する(https://github.com/richsu95/document_binarization_collection)。 Binarization of document images is an important pre-processing step in the field of document analysis. Traditional image binarization techniques usually rely on histograms or local statistics to identify a valid threshold to differentiate between different aspects of the image. Deep learning techniques are able to generate binarized versions of the images by learning context-dependent features that are less error-prone to degradation typically occurring in document images. In recent years, many deep learning-based methods have been developed for document binarization. But which one to choose? There have been no studies that compare these methods rigorously. Therefore, this work focuses on the evaluation of different deep learning-based methods under the same evaluation protocol. We evaluate them on different Document Image Binarization Contest (DIBCO) datasets and obtain very heterogeneous results. We show that the DE-GAN model was able to perform better compared to other models when evaluated on the DIBCO2013 dataset while DP-LinkNet performed best on the DIBCO2017 dataset. The 2-StageGAN performed best on the DIBCO2018 dataset while SauvolaNet outperformed the others on the DIBCO2019 challenge. Finally, we make the code, all models and evaluation publicly available (https://github.com/RichSu95/Document_Binarization_Collection) to ensure reproducibility and simplify future binarization evaluations. | 翻訳日:2024-01-23 14:34:49 公開日:2024-01-22 |
# 強結合開量子系に対する非エルミート擬モード:アンレーブ、相関、熱力学 Non-Hermitian Pseudomodes for Strongly Coupled Open Quantum Systems: Unravelings, Correlations and Thermodynamics ( http://arxiv.org/abs/2401.11830v1 ) ライセンス: Link先を確認 | Paul Menczel, Ken Funo, Mauro Cirio, Neill Lambert, and Franco Nori | (参考訳) 擬モードフレームワークは、非マルコフ環境に結合した開量子系の力学の正確な記述を提供する。
この枠組みを用いて、オープンシステムは時間-局所マスター方程式に従う有限個の非物理的擬似モードに結合される同値なモデルにおいて、システムに対する環境の影響を研究する。
このマスター方程式が擬似モード状態のエルミティキティーを保存する必要はないという洞察に基づいて、本項ではシステムの元のダイナミクスの正確な再現を保証するマスター方程式の最も一般的な条件を求める。
一般化した手法は、例えば、有限温度で劣化した環境をモデル化するのに必要となる擬似モードの数を減少させることを実証する。
また,非エルミート状態の量子ジャンプ軌道へのマスター方程式の展開を提案し,容易に並列化可能なモンテカルロシミュレーションを用いることで数値計算における擬モード法の利用をさらに促進する。
最後に、擬似モデムは、その非物理的性質にもかかわらず、システムバス相関の生成や熱交換といった物理過程を研究することができる自然像であることを示す。
したがって、この結果は、マルコフの弱結合限界から遠く離れた開量子系をよりよく理解するために、今後のシステム環境相互作用の研究の道を開く。 The pseudomode framework provides an exact description of the dynamics of an open quantum system coupled to a non-Markovian environment. Using this framework, the influence of the environment on the system is studied in an equivalent model, where the open system is coupled to a finite number of unphysical pseudomodes that follow a time-local master equation. Building on the insight that this master equation does not need to conserve the hermiticity of the pseudomode state, we here ask for the most general conditions on the master equation that guarantee the correct reproduction of the system's original dynamics. We demonstrate that our generalized approach decreases the number of pseudomodes that are required to model, for example, underdamped environments at finite temperature. We also provide an unraveling of the master equation into quantum jump trajectories of non-Hermitian states, which further facilitates the utilization of the pseudomode technique for numerical calculations by enabling the use of easily parallelizable Monte Carlo simulations. Finally, we show that pseudomodes, despite their unphysical nature, provide a natural picture in which physical processes, such as the creation of system-bath correlations or the exchange of heat, can be studied. Hence, our results pave the way for future investigations of the system-environment interaction leading to a better understanding of open quantum systems far from the Markovian weak-coupling limit. | 翻訳日:2024-01-23 14:34:26 公開日:2024-01-22 |
# 多忠実ガウス過程に基づく微分方程式のスパース発見 Sparse discovery of differential equations based on multi-fidelity Gaussian process ( http://arxiv.org/abs/2401.11825v1 ) ライセンス: Link先を確認 | Yuhuang Meng and Yue Qiu | (参考訳) 微分方程式のスパース同定は、観測データから解析式を明示的に計算することを目的としている。
しかし、主な課題は2つある。
まず、特に導関数計算において観測データのノイズに対する感度を示す。
第二に、既存の文献は主に単一忠実度(SF)データに集中しており、計算コストによる適用性に制限が課されている。
本稿では,不確実性定量化の観点から,これらの問題に対処するための2つの新しいアプローチを提案する。
ガウス過程回帰 (gpr) を用いたサロゲートモデルを構築し, 観測データにおける雑音の影響を緩和し, 不確かさを定量化し, 最終的に方程式を正確に復元する。
その後、マルチフィデリティ・ガウス過程(MFGP)を利用して、マルチフィデリティ(MF)、スパース、ノイズの多い観測データを含むシナリオに対処する。
いくつかの数値実験により,提案手法の堅牢性と有効性を示す。 Sparse identification of differential equations aims to compute the analytic expressions from the observed data explicitly. However, there exist two primary challenges. Firstly, it exhibits sensitivity to the noise in the observed data, particularly for the derivatives computations. Secondly, existing literature predominantly concentrates on single-fidelity (SF) data, which imposes limitations on its applicability due to the computational cost. In this paper, we present two novel approaches to address these problems from the view of uncertainty quantification. We construct a surrogate model employing the Gaussian process regression (GPR) to mitigate the effect of noise in the observed data, quantify its uncertainty, and ultimately recover the equations accurately. Subsequently, we exploit the multi-fidelity Gaussian processes (MFGP) to address scenarios involving multi-fidelity (MF), sparse, and noisy observed data. We demonstrate the robustness and effectiveness of our methodologies through several numerical experiments. | 翻訳日:2024-01-23 14:34:05 公開日:2024-01-22 |
# 知識蒸留における中心核アライメント再考 Rethinking Centered Kernel Alignment in Knowledge Distillation ( http://arxiv.org/abs/2401.11824v1 ) ライセンス: Link先を確認 | Zikai Zhou, Yunhang Shen, Shitong Shao, Huanran Chen, Linrui Gong, Shaohui Lin | (参考訳) 知識蒸留は大規模モデルと軽量モデル間の表現の不一致を橋渡しする非常に効果的な方法として登場した。
代表的なアプローチは、教師モデルから抽出された知識と学生モデルによって学習された知識のばらつきや距離を最小化するために適切なメトリクスを活用することである。
中心核アライメント(cka)は表現の類似性を測定するために広く使われており、いくつかの知識蒸留法に応用されている。
しかし、これらの手法は複雑であり、CKAの本質を明らかにすることができないため、CKAをいかにしてシンプルで効果的な蒸留を適切に行うかという疑問に答えることができない。
本稿ではまず,CKAを最大平均離散値~(MMD)の上界と定数項に分解するCKAの有効性を説明する理論的視点を提供する。
そこで本研究では,CKAとMDDの相互接続を実質的に確立する,リレーショナル中心カーネルアライメント~(RCKA)フレームワークを提案する。
さらに,各タスクの特性に基づいてckaの適用を動的にカスタマイズし,従来の手法と同等の性能を持つ計算ソースを削減した。
CIFAR-100, ImageNet-1k, MS-COCOの広範囲な実験により, 画像分類とオブジェクト検出のためのほぼすべての教師と学生のペアに対して, 最先端のパフォーマンスを実現し, 提案手法の有効性を検証した。 Knowledge distillation has emerged as a highly effective method for bridging the representation discrepancy between large-scale models and lightweight models. Prevalent approaches involve leveraging appropriate metrics to minimize the divergence or distance between the knowledge extracted from the teacher model and the knowledge learned by the student model. Centered Kernel Alignment (CKA) is widely used to measure representation similarity and has been applied in several knowledge distillation methods. However, these methods are complex and fail to uncover the essence of CKA, thus not answering the question of how to use CKA to achieve simple and effective distillation properly. This paper first provides a theoretical perspective to illustrate the effectiveness of CKA, which decouples CKA to the upper bound of Maximum Mean Discrepancy~(MMD) and a constant term. Drawing from this, we propose a novel Relation-Centered Kernel Alignment~(RCKA) framework, which practically establishes a connection between CKA and MMD. Furthermore, we dynamically customize the application of CKA based on the characteristics of each task, with less computational source yet comparable performance than the previous methods. The extensive experiments on the CIFAR-100, ImageNet-1k, and MS-COCO demonstrate that our method achieves state-of-the-art performance on almost all teacher-student pairs for image classification and object detection, validating the effectiveness of our approaches. | 翻訳日:2024-01-23 14:33:47 公開日:2024-01-22 |
# SuperCLUE-Math6: 中国語におけるLLMのグレード付きマルチステップ数学推論ベンチマーク SuperCLUE-Math6: Graded Multi-Step Math Reasoning Benchmark for LLMs in Chinese ( http://arxiv.org/abs/2401.11819v1 ) ライセンス: Link先を確認 | Liang Xu, Hang Xue, Lei Zhu, Kangkang Zhao | (参考訳) 中国語モデルの数学的推論能力を評価するためのベンチマークデータセットであるSuperCLUE-Math6(SC-Math6)を紹介する。
SC-Math6はGSM8Kデータセットの中国語版として設計されており、難易度、多様性、アプリケーションスコープが向上している。
複数ステップの推論と自然言語ソリューションの提供を必要とする2000以上の数学的単語問題で構成されている。
本研究では,異なる推論ステップを持つ問題に対する性能に基づく大規模モデルの推論能力の定量化手法を提案する。
代表的な12種類の中国モデルの実験では、GPT-4のような上位モデルの方が優れた性能を示し、推論レベルの明確な成層化が示されている。
sc-math6は中国の数学的推論ベンチマークのギャップを埋め、中国語モデルの知能を前進させるための包括的なテストベッドを提供する。 We introduce SuperCLUE-Math6(SC-Math6), a new benchmark dataset to evaluate the mathematical reasoning abilities of Chinese language models. SC-Math6 is designed as an upgraded Chinese version of the GSM8K dataset with enhanced difficulty, diversity, and application scope. It consists of over 2000 mathematical word problems requiring multi-step reasoning and providing natural language solutions. We propose an innovative scheme to quantify the reasoning capability of large models based on performance over problems with different reasoning steps. Experiments on 12 representative Chinese models demonstrate a clear stratification of reasoning levels, with top models like GPT-4 showing superior performance. SC-Math6 fills the gap in Chinese mathematical reasoning benchmarks and provides a comprehensive testbed to advance the intelligence of Chinese language models. | 翻訳日:2024-01-23 14:33:20 公開日:2024-01-22 |
# 幻覚は必然的:大規模言語モデルの自然限界 Hallucination is Inevitable: An Innate Limitation of Large Language Models ( http://arxiv.org/abs/2401.11817v1 ) ライセンス: Link先を確認 | Ziwei Xu, Sanjay Jain, Mohan Kankanhalli | (参考訳) 幻覚は大きな言語モデル(LLM)にとって大きな欠点であると広く認識されている。
幻覚の程度を減少させようとする多くの作品がある。
これらの取り組みは、主に経験的であり、完全に排除できるかどうかという根本的な疑問に答えることはできない。
本稿では,この問題を形式化し,LLMの幻覚を除去することは不可能であることを示す。
具体的には、幻覚を計算可能なLLMと計算可能な基底真理関数の不整合として定義する形式的世界を定義する。
学習理論の結果を用いることで、llmは全ての計算可能関数を学習できず、従って常に幻覚を呈することを示した。
フォーマルな世界は現実の世界の一部であり、より複雑であるため、幻覚は現実世界のLLMにも必然的である。
さらに, 時間複雑性の証明によって制約される実世界のllmに対して, 幻覚的課題を記述し, 経験的検証を行う。
最後に, 正規世界フレームワークを用いて, 既存の幻覚緩和剤のメカニズムと有効性について考察するとともに, LLMの安全な展開における実用的意義について考察する。 Hallucination has been widely recognized to be a significant drawback for large language models (LLMs). There have been many works that attempt to reduce the extent of hallucination. These efforts have mostly been empirical so far, which cannot answer the fundamental question whether it can be completely eliminated. In this paper, we formalize the problem and show that it is impossible to eliminate hallucination in LLMs. Specifically, we define a formal world where hallucination is defined as inconsistencies between a computable LLM and a computable ground truth function. By employing results from learning theory, we show that LLMs cannot learn all of the computable functions and will therefore always hallucinate. Since the formal world is a part of the real world which is much more complicated, hallucinations are also inevitable for real world LLMs. Furthermore, for real world LLMs constrained by provable time complexity, we describe the hallucination-prone tasks and empirically validate our claims. Finally, using the formal world framework, we discuss the possible mechanisms and efficacies of existing hallucination mitigators as well as the practical implications on the safe deployment of LLMs. | 翻訳日:2024-01-23 14:33:06 公開日:2024-01-22 |
# Symbrain: 新生児脳対称性解析のためのMRI画像の大規模データセット Symbrain: A large-scale dataset of MRI images for neonatal brain symmetry analysis ( http://arxiv.org/abs/2401.11814v1 ) ライセンス: Link先を確認 | Arnaud Gucciardi and Safouane El Ghazouali and Francesca Venturini and Vida Groznik and Umberto Michelucci | (参考訳) 本稿では,脳対称性研究の分野を推し進めるために,脳MRI画像の注釈付きデータセットを提案する。
核磁気共鳴イメージング(MRI)は新生児の脳対称性の分析に関心を持ち、胎児と成人の脳の大きさの違いによる課題が残っている。
脳構造MRIの分類法は、半球対称性を評価するためにスケールと視覚的手がかりを使用し、脳への関心のある半球と解剖学的領域を比較して新生児患者を診断するのに役立つ。
本研究は、発達中のヒトコネクトームプロジェクトデータセットを用いて、臨床評価のために、選択された部分のスライスとして抽出された脳画像からなるデータセットを提供する。
抽出された画像はすべて、脳の正中線に注釈付けされている。
抽出された画像はすべて、脳の正中線に注釈付けされている。
対称性の低下が臨床病理に直接関係しているという仮定から、このデータセットは、コンピュータビジョンによる新生児スキャンから新生児脳mri異常検出におけるディープラーニングモデル応用のトレーニングに使用できるため、より正確な診断に寄与することができる。
このようなモデルは、医学的MRI画像の潜在的な非対称パターンを特定して、異常を識別し分類することを学ぶ。
さらに、このデータセットは、2つの脳半球の相対対称性を用いて重要な診断と治療計画を行う方法の研究と開発に寄与することができる。 This paper presents an annotated dataset of brain MRI images designed to advance the field of brain symmetry study. Magnetic resonance imaging (MRI) has gained interest in analyzing brain symmetry in neonatal infants, and challenges remain due to the vast size differences between fetal and adult brains. Classification methods for brain structural MRI use scales and visual cues to assess hemisphere symmetry, which can help diagnose neonatal patients by comparing hemispheres and anatomical regions of interest in the brain. Using the Developing Human Connectome Project dataset, this work presents a dataset comprising cerebral images extracted as slices across selected portions of interest for clinical evaluation . All the extracted images are annotated with the brain's midline. All the extracted images are annotated with the brain's midline. From the assumption that a decrease in symmetry is directly related to possible clinical pathologies, the dataset can contribute to a more precise diagnosis because it can be used to train deep learning model application in neonatal cerebral MRI anomaly detection from postnatal infant scans thanks to computer vision. Such models learn to identify and classify anomalies by identifying potential asymmetrical patterns in medical MRI images. Furthermore, this dataset can contribute to the research and development of methods using the relative symmetry of the two brain hemispheres for crucial diagnosis and treatment planning. | 翻訳日:2024-01-23 14:32:46 公開日:2024-01-22 |
# 共形予測の一般化と情報化 Generalization and Informativeness of Conformal Prediction ( http://arxiv.org/abs/2401.11810v1 ) ライセンス: Link先を確認 | Matteo Zecchin, Sangwoo Park, Osvaldo Simeone, Fredrik Hellstr\"om | (参考訳) 意思決定プロセスにおける機械学習モジュールの安全な統合は、不確実性を定量化する能力にかかっている。
この目標を達成するための一般的なテクニックは、任意のベース予測器をカバレッジ保証付きセット予測器に変換する共形予測(CP)である。
CPは、予測セットがユーザ定義の許容範囲でターゲット量を含むことを認証するが、予測セットの平均サイズ、すなわち予測の有意性に対する制御は提供しない。
本研究は,基本予測器の一般化特性とcp予測セットのインフォメーション性との間に理論的に関連づけるものである。
この目的のために、基底予測器の一般化誤差境界の上に構築されたCP集合予測器の期待サイズに基づいて上限が導出される。
導出された上界は、cpセット予測器の平均サイズが校正データ量、目標信頼性、およびベース予測器の一般化性能に及ぼす影響についての洞察を提供する。
理論的洞察は、単純な数値回帰と分類タスクを用いて検証される。 The safe integration of machine learning modules in decision-making processes hinges on their ability to quantify uncertainty. A popular technique to achieve this goal is conformal prediction (CP), which transforms an arbitrary base predictor into a set predictor with coverage guarantees. While CP certifies the predicted set to contain the target quantity with a user-defined tolerance, it does not provide control over the average size of the predicted sets, i.e., over the informativeness of the prediction. In this work, a theoretical connection is established between the generalization properties of the base predictor and the informativeness of the resulting CP prediction sets. To this end, an upper bound is derived on the expected size of the CP set predictor that builds on generalization error bounds for the base predictor. The derived upper bound provides insights into the dependence of the average size of the CP set predictor on the amount of calibration data, the target reliability, and the generalization performance of the base predictor. The theoretical insights are validated using simple numerical regression and classification tasks. | 翻訳日:2024-01-23 14:32:24 公開日:2024-01-22 |
# 二成分ボース・アインシュタイン凝縮物中の弱く強いカップリングポーラロン Weak and Strong Coupling Polarons in Binary Bose-Einstein Condensates ( http://arxiv.org/abs/2401.11808v1 ) ライセンス: Link先を確認 | Ning Liu | (参考訳) ボース・ポーラロン(ボース・ポーラロン、英: bose polaron)は、ボース=アインシュタイン凝縮中の不純物とボゴリューボフの励起の間の相互作用から生じる準粒子である。
本稿では,弱結合型および強結合型ボースポーラロンに対する相分離の効果について検討する。
その結果, 相分離は弱い結合型ボースポーラロンの性質に顕著な変化をもたらすことがわかった。
しかし、強いカップリングの場合、位相分離は、高い自己トラップ状態が生まれると、ポーラロンを破壊することができない。 The Bose polaron is a quasiparticle that arises from the interaction between impurities and Bogoliubov excitation in Bose-Einstein condensates, analogous to the polaron formed by electrons and phonons in solid-state physics. In this paper, we investigate the effect of phase separation on weakly coupled and strongly coupled Bose polarons. Our findings reveal that phase separation induces a remarkable alteration in the properties of weakly coupled Bose polarons. However, in the case of strong coupling, phase separation cannot destroy the polaron as a highly self-trapping state comes into existence. | 翻訳日:2024-01-23 14:32:08 公開日:2024-01-22 |
# 制約ソルバを用いた三角形定規・コンパス構成の自動化 Automation of Triangle Ruler-and-Compass Constructions Using Constraint Solvers ( http://arxiv.org/abs/2401.11903v1 ) ライセンス: Link先を確認 | Milan Bankovi\'c (Faculty of Mathematics, University of Belgrade, Serbia) | (参考訳) 本稿では,有限領域制約解法を用いた三角形定規・コンパス構成問題の自動解法を提案する。
制約モデルはMiniZincモデリング言語で記述されており、自動計画に基づいている。
このような目的のために一般的な制約解決器を使う主な利点は、専用のツールを開発する代わりに、すでにソルバ内に実装されている効率的な検索に頼ることができ、問題の幾何学的側面に集中することができることである。
また、最短構成を探索するために、解決器のビルトイン最適化機能を利用することもできる。
wernick's list から74の可解問題に対するアプローチを評価し,専用の三角形構成ソルバ・アルゴトリクスと比較した。
その結果、我々のアプローチは専用のツールに匹敵するが、実装に要する労力ははるかに少ないことがわかった。
また,制約解法によって提供される最適化機能により,構造が短い場合が多い。 In this paper, we present an approach to automated solving of triangle ruler-and-compass construction problems using finite-domain constraint solvers. The constraint model is described in the MiniZinc modeling language, and is based on the automated planning. The main benefit of using general constraint solvers for such purpose, instead of developing dedicated tools, is that we can rely on the efficient search that is already implemented within the solver, enabling us to focus on geometric aspects of the problem. We may also use the solver's built-in optimization capabilities to search for the shortest possible constructions. We evaluate our approach on 74 solvable problems from the Wernick's list, and compare it to the dedicated triangle construction solver ArgoTriCS. The results show that our approach is comparable to dedicated tools, while it requires much less effort to implement. Also, our model often finds shorter constructions, thanks to the optimization capabilities offered by the constraint solvers. | 翻訳日:2024-01-23 14:25:14 公開日:2024-01-22 |
# Detect-Order-Construct:階層型文書構造解析のための木構築に基づくアプローチ Detect-Order-Construct: A Tree Construction based Approach for Hierarchical Document Structure Analysis ( http://arxiv.org/abs/2401.11874v1 ) ライセンス: Link先を確認 | Jiawei Wang and Kai Hu and Zhuoyao Zhong and Lei Sun and Qiang Huo | (参考訳) 文書構造解析(いわゆる文書レイアウト解析)は,文書の物理的レイアウトや論理構造を理解する上で重要であり,情報検索,文書要約,知識抽出などにも応用されている。
本稿では,階層型文書構造解析(HDSA)に集中して,LaTeX,Microsoft Word,HTMLなどの階層型スキーマを用いたオーサリングソフトウェアを用いて作成した構造化文書内の階層的関係を探索する。
階層的文書構造を包括的に解析するために,ページオブジェクト検出(検出),特定されたオブジェクトの読み順序予測(順序),意図した階層構造の構築(構築)など,複数のサブタスクを同時に扱うツリー構築手法を提案する。
このフレームワークに基づく効果的なエンドツーエンドソリューションを提案し,その性能を実証する。
提案手法を評価するために,上述のサブタスクを同時に評価するComp-HRDocという総合ベンチマークを開発した。
我々のエンドツーエンドシステムは,2つの大規模文書レイアウト解析データセット(PubLayNetとDocLayNet),高品質な階層的文書構造再構築データセット(HRDoc),およびComp-HRDocベンチマークの最先端性能を実現する。
Comp-HRDocベンチマークは、この分野のさらなる研究を促進するためにリリースされる予定である。 Document structure analysis (aka document layout analysis) is crucial for understanding the physical layout and logical structure of documents, with applications in information retrieval, document summarization, knowledge extraction, etc. In this paper, we concentrate on Hierarchical Document Structure Analysis (HDSA) to explore hierarchical relationships within structured documents created using authoring software employing hierarchical schemas, such as LaTeX, Microsoft Word, and HTML. To comprehensively analyze hierarchical document structures, we propose a tree construction based approach that addresses multiple subtasks concurrently, including page object detection (Detect), reading order prediction of identified objects (Order), and the construction of intended hierarchical structure (Construct). We present an effective end-to-end solution based on this framework to demonstrate its performance. To assess our approach, we develop a comprehensive benchmark called Comp-HRDoc, which evaluates the above subtasks simultaneously. Our end-to-end system achieves state-of-the-art performance on two large-scale document layout analysis datasets (PubLayNet and DocLayNet), a high-quality hierarchical document structure reconstruction dataset (HRDoc), and our Comp-HRDoc benchmark. The Comp-HRDoc benchmark will be released to facilitate further research in this field. | 翻訳日:2024-01-23 14:24:57 公開日:2024-01-22 |
# モジュールモノリス:これがソフトウェアアーキテクチャのトレンドなのでしょうか? Modular Monolith: Is This the Trend in Software Architecture? ( http://arxiv.org/abs/2401.11867v1 ) ライセンス: Link先を確認 | Ruoyu Su and Xiaozhou Li | (参考訳) Googleが"Service Weaver"フレームワークを提案して、アプリケーションをモジュール化されたモノリシックとして記述し、マイクロサービスの集合としてデプロイできるようにした。
googleは、このフレームワークを両世界のベストなフレームワークだと考えており、ソフトウェアアーキテクチャのトレンドであるように思われる。
本稿では,業界におけるモジュラモノリスの定義を理解し,モジュールモノリスアーキテクチャを構築するフレームワークやケースについて考察する。
我々は、系統的なグレーの文献レビューを行い、モジュラモノリスがモノリスとマイクロサービスの利点を組み合わせたことを示している。
モジュラモノリスアーキテクチャを構築するための3つのフレームワークと4つのケースを見つけました。
一般的に、モジュラモノリスはマイクロサービスの代替手段であり、システムがマイクロサービスに移行する前のステップである可能性もある。 Recently modular monolith architecture has attracted the attention of practitioners, as Google proposed "Service Weaver" framework to enable developers to write applications as modular monolithic and deploy them as a set of microservices. Google considered it as a framework that has the best of both worlds and it seems to be a trend in software architecture. This paper aims to understand the definition of the modular monolith in industry and investigate frameworks and cases building modular monolith architecture. We conducted a systematic grey literature review, and the results show that modular monolith combines the advantages of monoliths with microservices. We found three frameworks and four cases of building modular monolith architecture. In general, the modular monolith is an alternative way to microservices, and it also could be a previous step before systems migrate to microservices. | 翻訳日:2024-01-23 14:24:31 公開日:2024-01-22 |
# 電子健康記録のセマンティック相互運用に向けて Toward Semantic Interoperability of Electronic Health Records ( http://arxiv.org/abs/2401.11865v1 ) ライセンス: Link先を確認 | Idoia Berges, Jes\'us Berm\'udez, Arantza Illarramendi | (参考訳) 電子健康記録(EHR)のセマンティック相互運用性を達成するという目的は多くの研究者によって追求されているが、まだ達成されていない。
本稿では,その目標達成に向けての道筋を円滑にする提案について述べる。
特に本研究は医療診断のステートメントに焦点をあてた。
要約すると、オントロジーに基づく提案の主な貢献は以下のとおりである。
その結果、それらの記述は異なる組織でEHRを表すために使われる言語や技術面とは独立している。
さらに、それらの用語は、よく知られた医学用語における対応するコードに関連している。
第二に、健康情報システムのプロプライエタリなモデルによって管理されるEHR情報の豊富な存在論的表現を得ることができるモジュールを扱う。
1つの特定のモジュールの特徴は参照として示されます。
第三に、いわゆる経路写像によって強化された存在論的項間の必要写像公理を考える。
この機能は異種EHR表現の構造的差異を円滑にし、情報の適切なアライメントを可能にする。 Although the goal of achieving semantic interoperability of electronic health records (EHRs) is pursued by many researchers, it has not been accomplished yet. In this paper, we present a proposal that smoothes out the way toward the achievement of that goal. In particular, our study focuses on medical diagnoses statements. In summary, the main contributions of our ontology-based proposal are the following: first, it includes a canonical ontology whose EHR-related terms focus on semantic aspects. As a result, their descriptions are independent of languages and technology aspects used in different organizations to represent EHRs. Moreover, those terms are related to their corresponding codes in well-known medical terminologies. Second, it deals with modules that allow obtaining rich ontological representations of EHR information managed by proprietary models of health information systems. The features of one specific module are shown as reference. Third, it considers the necessary mapping axioms between ontological terms enhanced with so-called path mappings. This feature smoothes out structural differences between heterogeneous EHR representations, allowing proper alignment of information. | 翻訳日:2024-01-23 14:24:19 公開日:2024-01-22 |
# 混合思考蒸留による小言語モデルの数学的推論の改善 Improving Small Language Models' Mathematical Reasoning via Mix Thoughts Distillation ( http://arxiv.org/abs/2401.11864v1 ) ライセンス: Link先を確認 | Xunyu Zhu, Jian Li, Yong Liu, Can Ma, Weiping Wang | (参考訳) 本研究は,高度な大規模言語モデル (LLM) の民主化という課題に対処し,それらの数学的推論能力を,性能を損なうことなくサブビリオンパラメータ (SLM) に圧縮する。
EoTD(Equation-of-Thought Distillation, EoTD)は, 理論過程を方程式ベース表現にカプセル化し, 微調整SLMのためのEoTDデータセットを構築する手法である。
さらに,slmの推論性能を向上させるために,mix thoughts distillation (mtd) フレームワークを提案する。
これには、複数の思考プロセスによる推論データセットの作成と、それを微調整に使用することが含まれる。
実験の結果,eotdはslmの推論能力を大幅に向上させ,mddは最先端の推論性能を実現する。 This work addresses the challenge of democratizing advanced Large Language Models (LLMs) by compressing their mathematical reasoning capabilities into sub-billion parameter Small Language Models (SLMs) without compromising performance. We introduce Equation-of-Thought Distillation (EoTD), a novel technique that encapsulates the reasoning process into equation-based representations to construct an EoTD dataset for fine-tuning SLMs. Additionally, we propose the Mix Thoughts Distillation (MTD) framework to enhance the reasoning performance of SLMs. This involves creating a reasoning dataset with multiple thought processes and using it for fine-tuning. Our experimental findings demonstrate that EoTD significantly boosts the reasoning abilities of SLMs, while MTD enables these models to achieve state-of-the-art reasoning performance. | 翻訳日:2024-01-23 14:24:03 公開日:2024-01-22 |
# 小型量子ネットワークにおけるQスワップモードの違いがパーコレーション閾値に及ぼす影響 Effects of Different Q-swaps Modes on Percolation Threshold in Small-world Quantum Networks ( http://arxiv.org/abs/2401.11862v1 ) ライセンス: Link先を確認 | JianXiong Liang, Xiaoguang Chen, and Yaoyao Wang | (参考訳) 量子ネットワークはノードによって相互に接続され、これは1の確率で情報の伝送が成功するために形成される。
しかし、実際の量子ネットワークでは、ノードは環境ノイズなどの要因により、一重項の代わりに部分的に絡み合った状態を共有することが多い。
したがって、効率の良い通信には、部分絡み合った状態を一重項に変換する必要がある。
パーコレーションは、ネットワーク全体の接続エッジの変換中に発生する。
その結果、一重項変換確率(SCP)がパーコレーション閾値よりも大きい場合、通信の基本要件を満たす巨大な相互接続クラスタがネットワークに現れる。
ネットワークのパーコレーション閾値は、大規模量子通信を行うのに必要な最小リソースを明らかにする。
本稿では,小世界ネットワークの量子エンタングルメントのパーコレーション閾値に対する異なるq-swapsの効果について検討する。
量子エンタングルメント・パーコレーション(QEP)は古典的エンタングルメント・パーコレーション(CEP)よりも優れたパーコレーション性能を有することを示す。
Watts Strogatz(WS)小世界ネットワークとKleinbergネットワークの異なるqスワップを用いてシミュレーションを行い、SCPがネットワークの平均度に等しい場合にパーコレーション閾値が最小となることを示す。
さらに,新しい手法として量子ウォークを導入し,パーコレーションしきい値の余分な低減を図る。 Quantum networks are interconnected by nodes, between singlets which are formed to ensure the successful transmission of information with a probability of 1. However, in real quantum networks, nodes often share a partially entangled state instead of a singlet due to factors such as environmental noise. Therefore, it is necessary to convert the partially entangled state into a singlet for efficient communication. Percolation happens during the conversion of connected edges in the whole network. As a result, when the singlet conversion probability (SCP) is greater than the percolation threshold, a giant interconnected cluster that meets the basic requirements of communication will appear in the network. The percolation threshold of the network reveals the minimum resources required to carry out large scale quantum communication. In this paper, we investigate the effect of different q-swaps on the percolation threshold in quantum entanglement percolation of small world networks. We show that Quantum Entanglement Percolation (QEP) has a better percolation performance than Classical Entanglement Percolation (CEP). By using different q swaps in Watts Strogatz (WS) small world networks and Kleinberg networks for simulation, we also show that the percolation threshold is minimized when SCP is equal to the average degree of the network. Furthermore, we introduce quantum walk as a new scheme to have an extra reduction in the percolation threshold. | 翻訳日:2024-01-23 14:23:46 公開日:2024-01-22 |
# 物理に変形した機械学習手法のレビュー : 状態モニタリングと異常検出への応用 A Review of Physics-Informed Machine Learning Methods with Applications to Condition Monitoring and Anomaly Detection ( http://arxiv.org/abs/2401.11860v1 ) ライセンス: Link先を確認 | Yuandi Wu, Brett Sicard, and Stephen Andrew Gadsden | (参考訳) 本研究では,条件モニタリングの文脈におけるPIML技術の概要を概観する。
PIMLを駆動する中心的な概念は、既知の物理法則と制約を機械学習アルゴリズムに組み込むことであり、物理原理と整合性を維持しながら利用可能なデータから学習することができる。
データ駆動学習でドメイン知識を融合することにより、pimlメソッドは純粋データ駆動アプローチと比較して精度と解釈性が向上する。
この総合的な調査では、既知の物理原則が機械学習フレームワークに組み込まれている方法論や、条件監視における特定のタスクに適合する方法について、詳細な調査が行われている。
mlモデルに物理知識を組み込むことは、それぞれ独自の利点と欠点を持ちながら、様々な方法で実現することができる。
データ駆動モデルにおける物理の統合のためのそれぞれの方法論の明確な利点と限界は、計算効率、モデル解釈可能性、条件監視および故障検出における異なるシステムに対する一般化可能性などの要因を考慮して、詳細である。
この概念を応用した文献のケーススタディと研究成果を提示し,条件監視アプリケーションにおけるPIMLの有効性を実証した。
文献から,条件モニタリングにおけるPIMLの汎用性と可能性を示すことができる。
新しいPIML手法は、条件監視と関連する課題の複雑さに対処する革新的なソリューションを提供する。
この総合的な調査は、この分野における将来の仕事の基礎を形成するのに役立つ。
技術が進歩を続けるにつれて、PIMLはメンテナンス戦略の強化、システムの信頼性、エンジニアリングシステム全体の運用効率向上に重要な役割を果たすことが期待されている。 This study presents a comprehensive overview of PIML techniques in the context of condition monitoring. The central concept driving PIML is the incorporation of known physical laws and constraints into machine learning algorithms, enabling them to learn from available data while remaining consistent with physical principles. Through fusing domain knowledge with data-driven learning, PIML methods offer enhanced accuracy and interpretability in comparison to purely data-driven approaches. In this comprehensive survey, detailed examinations are performed with regard to the methodology by which known physical principles are integrated within machine learning frameworks, as well as their suitability for specific tasks within condition monitoring. Incorporation of physical knowledge into the ML model may be realized in a variety of methods, with each having its unique advantages and drawbacks. The distinct advantages and limitations of each methodology for the integration of physics within data-driven models are detailed, considering factors such as computational efficiency, model interpretability, and generalizability to different systems in condition monitoring and fault detection. Several case studies and works of literature utilizing this emerging concept are presented to demonstrate the efficacy of PIML in condition monitoring applications. From the literature reviewed, the versatility and potential of PIML in condition monitoring may be demonstrated. Novel PIML methods offer an innovative solution for addressing the complexities of condition monitoring and associated challenges. This comprehensive survey helps form the foundation for future work in the field. As the technology continues to advance, PIML is expected to play a crucial role in enhancing maintenance strategies, system reliability, and overall operational efficiency in engineering systems. | 翻訳日:2024-01-23 14:23:24 公開日:2024-01-22 |
# lkformer:赤外線超解像用大型カーネルトランスフォーマ LKFormer: Large Kernel Transformer for Infrared Image Super-Resolution ( http://arxiv.org/abs/2401.11859v1 ) ライセンス: Link先を確認 | Feiwei Qin and Kang Yan and Changmiao Wang and Ruiquan Ge and Yong Peng and Kai Zhang | (参考訳) 多様な分野にまたがる赤外線技術の幅広い応用を考えると、深層学習の領域における赤外線画像の超解像技術の研究に重点が置かれている。
画像超解像タスクにおける現在のトランスフォーマー方式の印象的な結果にもかかわらず、トランスフォーマーアーキテクチャに固有の自己注意機構に依存することによって、画像は1次元のシーケンスとして扱われるようになり、その結果、固有の2次元構造は無視される。
さらに、赤外線画像は、均一な画素分布と限定的な勾配範囲を示し、有効な特徴情報をキャプチャするためのモデルの課題を提起する。
そこで本稿では,LKFormer(Large Kernel Transformer)と呼ばれる強力なトランスモデルを提案する。
具体的には,LKRDA(Large Kernel Residual Depth-wise Convolutional Attention)モジュールを線形複雑度で設計した。
これは主に、大きなカーネルとの深さ方向の畳み込みを使用して非局所的な特徴モデリングを実行し、標準の自己完結層を構成する。
さらに,Gated-Pixel Feed-Forward Network (GPFN) と呼ばれる新しいフィードフォワードネットワーク構造を考案し,ネットワーク内の情報フローを管理するLKFormerの能力を強化した。
総合的な実験結果から,本手法はより少ないパラメータを使用でき,優れた性能が得られることがわかった。 Given the broad application of infrared technology across diverse fields, there is an increasing emphasis on investigating super-resolution techniques for infrared images within the realm of deep learning. Despite the impressive results of current Transformer-based methods in image super-resolution tasks, their reliance on the self-attentive mechanism intrinsic to the Transformer architecture results in images being treated as one-dimensional sequences, thereby neglecting their inherent two-dimensional structure. Moreover, infrared images exhibit a uniform pixel distribution and a limited gradient range, posing challenges for the model to capture effective feature information. Consequently, we suggest a potent Transformer model, termed Large Kernel Transformer (LKFormer), to address this issue. Specifically, we have designed a Large Kernel Residual Depth-wise Convolutional Attention (LKRDA) module with linear complexity. This mainly employs depth-wise convolution with large kernels to execute non-local feature modeling, thereby substituting the standard self-attentive layer. Additionally, we have devised a novel feed-forward network structure called Gated-Pixel Feed-Forward Network (GPFN) to augment the LKFormer's capacity to manage the information flow within the network. Comprehensive experimental results reveal that our method surpasses the most advanced techniques available, using fewer parameters and yielding considerably superior performance. | 翻訳日:2024-01-23 14:22:58 公開日:2024-01-22 |
# MOSformer:医療画像分割のためのMomentum Encoder-based Inter-Slice fusion Transformer MOSformer: Momentum encoder-based inter-slice fusion transformer for medical image segmentation ( http://arxiv.org/abs/2401.11856v1 ) ライセンス: Link先を確認 | De-Xing Huang and Xiao-Hu Zhou and Xiao-Liang Xie and Shi-Qi Liu and Zhen-Qiu Feng and Mei-Jiang Gui and Hao Li and Tian-Yu Xiang and Xiu-Ling Liu and Zeng-Guang Hou | (参考訳) 医用画像分割は様々な臨床応用において重要な位置を占める。
深層学習は、ボリューム医療画像の自動セグメンテーションの主流のソリューションとして登場した。
2.5Dベースのセグメンテーションモデルは、2Dベースのモデルの計算効率と3Dベースのモデルの空間知覚能力を橋渡しする。
しかし、一般的な2.5Dモデルでは、各スライスを等しく扱い、スライス間の情報を効果的に学習して活用することができず、結果として準最適セグメンテーション性能が得られる。
本稿では, 異なるエンコーダによって抽出されたマルチスケール特徴マップにおいて, 新たなモメンタエンコーダ型スライス間融合トランス(mosformer)を提案する。
具体的には、異なるスライス間での特徴識別性を高めるためにデュアルエンコーダを用いる。
エンコーダの1つは、スライス表現の一貫性を維持するために平均される。
さらに,IF-Swinトランスモジュールを開発し,マルチスケール機能を融合する。
MOSformerは3つのベンチマークデータセット(Synapse、ACDC、AMOS)で評価され、それぞれ85.63%、92.19%、85.43%の新たな最先端技術を確立する。
これらの有望な結果は、医療画像分割における競争力を示している。
mosformerのコードとモデルは、受け入れ次第、公開される予定だ。 Medical image segmentation takes an important position in various clinical applications. Deep learning has emerged as the predominant solution for automated segmentation of volumetric medical images. 2.5D-based segmentation models bridge computational efficiency of 2D-based models and spatial perception capabilities of 3D-based models. However, prevailing 2.5D-based models often treat each slice equally, failing to effectively learn and exploit inter-slice information, resulting in suboptimal segmentation performances. In this paper, a novel Momentum encoder-based inter-slice fusion transformer (MOSformer) is proposed to overcome this issue by leveraging inter-slice information at multi-scale feature maps extracted by different encoders. Specifically, dual encoders are employed to enhance feature distinguishability among different slices. One of the encoders is moving-averaged to maintain the consistency of slice representations. Moreover, an IF-Swin transformer module is developed to fuse inter-slice multi-scale features. The MOSformer is evaluated on three benchmark datasets (Synapse, ACDC, and AMOS), establishing a new state-of-the-art with 85.63%, 92.19%, and 85.43% of DSC, respectively. These promising results indicate its competitiveness in medical image segmentation. Codes and models of MOSformer will be made publicly available upon acceptance. | 翻訳日:2024-01-23 14:22:32 公開日:2024-01-22 |
# hong-ou-mandel interferometry を用いた究極精度群指数変動の高速測定 Fast measurement of group index variation with ultimate precision using Hong-Ou-Mandel interferometry ( http://arxiv.org/abs/2401.11853v1 ) ライセンス: Link先を確認 | Sandeep Singh, Vimlesh Kumar, and G. K. Samanta | (参考訳) ホン・ウー・マンデル(hom)干渉法(hom)は量子センシング応用において、特にペア光子間の相対光学遅延に影響を与える物理パラメータを測定する上で有用なツールである。
古典的手法とは異なり、HOMベースの量子センサは本質的な分散キャンセル特性のために高分解能を提供する。
この利点にもかかわらず、実用上重要な光学遅延の正確な測定を達成するには、しばしば時間を要する統合と従来の統計手法による後処理が必要となる。
本研究は,光遅延測定を時間効率で最適化することに焦点を当てた。
1mmの周期的なKTP結晶長をペア光子生成のために慎重に選択することにより、試料長の1センチメートルあたり$\sim 6.75\times 10^{-6}$の顕著なグループ指数測定精度を達成し、それまでの最大精度を400$\%以上の精度で上回った。
これらの測定は高速検出と高光子数を維持しており、これは実用的な量子センシング用途に不可欠である。
HOM法は、測定範囲を制限しながら、光遅延ステージを用いて光子遅延を補償することにより拡張することができる。
原理実証として, PPKTPの温度範囲200$^{\circ}$Cにおけるグループ指数の変動を, 1部あたりの精度で測定した(\sim$10$^{-6}$)。
この進歩は量子センシングに寄与するだけでなく、量子光学コヒーレンストモグラフィにおける高精度・長距離測定にも有望な意味を持つ。 Hong-Ou-Mandel (HOM) interferometry has emerged as a valuable tool for quantum sensing applications, particularly in measuring physical parameters that influence the relative optical delay between pair photons. Unlike classical techniques, HOM-based quantum sensors offer higher resolution due to their intrinsic dispersion cancellation property. Despite this advantage, achieving precise measurements of optical delay crucial for practical applications often involves time-consuming integration and post-processing with traditional statistical methods. To address this challenge, our recent work focused on optimizing optical delay measurements in a time-efficient manner. By carefully selecting the length of a 1 mm periodically-poled KTP (PPKTP) crystal for pair photon generation, we achieved a remarkable group index measurement precision of $\sim 6.75\times 10^{-6}$ per centimeter of sample length, surpassing the previous maximum precision by over 400$\%$. These current measurements maintain fast detection and high photon counts, which are essential for practical quantum sensing applications. The HOM-based method, while limiting the measurement range, can be extended by compensating for photon delay using an optical delay stage. As a proof-of-principle, we measured the group index variation of PPKTP over a temperature range up to 200$^{\circ}$C with a precision in the range of one part per million ($\sim$10$^{-6}$). This advancement not only contributes to quantum sensing but also holds promising implications for high-precision and long-range measurements in quantum optical coherence tomography. | 翻訳日:2024-01-23 14:22:10 公開日:2024-01-22 |
# 雇用に適したモデル:法的多ラベル分類基準の評価 The Right Model for the Job: An Evaluation of Legal Multi-Label Classification Baselines ( http://arxiv.org/abs/2401.11852v1 ) ライセンス: Link先を確認 | Martina Forster, Claudia Schulz, Prudhvi Nokku, Melicaalsadat Mirsafian, Jaykumar Kasundra, Stavroula Skylaki | (参考訳) マルチラベル分類(mlc、multi-label classification)は、複数のラベルが法的文書に割り当てられる法律領域における一般的なタスクである。
従来のMLアプローチから最新のTransformerベースのアーキテクチャまで、幅広い方法を適用することができる。
本研究では,2つの法的データセットであるPOSTURE50KとEURLEX57Kを用いて,異なるMLC手法の評価を行う。
トレーニングデータの量とラベルの数を変えることで、データセット特性に関して異なるアプローチによって提供される比較優位性について検討する。
以上の結果から, DistilRoBERTa と LegalBERT は妥当な計算要求を伴う法的 MLC において一貫して良好な性能を示した。
t5はまた、ラベルセットを変更する際に生成モデルとして利点を提供しながら、同等のパフォーマンスを示す。
最後に,CrossEncoderは計算コストの増加にもかかわらず,マクロF1スコアの改善の可能性を示す。 Multi-Label Classification (MLC) is a common task in the legal domain, where more than one label may be assigned to a legal document. A wide range of methods can be applied, ranging from traditional ML approaches to the latest Transformer-based architectures. In this work, we perform an evaluation of different MLC methods using two public legal datasets, POSTURE50K and EURLEX57K. By varying the amount of training data and the number of labels, we explore the comparative advantage offered by different approaches in relation to the dataset properties. Our findings highlight DistilRoBERTa and LegalBERT as performing consistently well in legal MLC with reasonable computational demands. T5 also demonstrates comparable performance while offering advantages as a generative model in the presence of changing label sets. Finally, we show that the CrossEncoder exhibits potential for notable macro-F1 score improvements, albeit with increased computational costs. | 翻訳日:2024-01-23 14:21:43 公開日:2024-01-22 |
# BETA:エッジにおける二元化エネルギー効率変換器加速器 BETA: Binarized Energy-Efficient Transformer Accelerator at the Edge ( http://arxiv.org/abs/2401.11851v1 ) ライセンス: Link先を確認 | Yuhao Ji, Chao Fang, Zhongfeng Wang | (参考訳) Existing binary Transformers are promising in edge deployment due to their compact model size, low computational complexity, and considerable inference accuracy.However, deploying binary Transformers faces challenges on prior processors due to inefficient execution of quantized matrix multiplication (QMM) and the energy consumption overhead caused by multi-precision activations.To tackle the challenges above, we first develop a computation flow abstraction method for binary Transformers to improve QMM execution efficiency by optimizing the computation order.Furthermore, a binarized energy-efficient Transformer accelerator, namely BETA, is proposed to boost the efficient deployment at the edge.Notably, BETA features a configurable QMM engine, accommodating diverse activation precisions of binary Transformers and offering high-parallelism and high-speed for QMMs with impressive energy efficiency.Experimental results evaluated on ZCU102 FPGA show BETA achieves an average energy efficiency of 174 GOPS/W, which is 1.76~21.92x higher than prior FPGA-based accelerators, showing BETA's good potential for edge Transformer acceleration. Existing binary Transformers are promising in edge deployment due to their compact model size, low computational complexity, and considerable inference accuracy.However, deploying binary Transformers faces challenges on prior processors due to inefficient execution of quantized matrix multiplication (QMM) and the energy consumption overhead caused by multi-precision activations.To tackle the challenges above, we first develop a computation flow abstraction method for binary Transformers to improve QMM execution efficiency by optimizing the computation order.Furthermore, a binarized energy-efficient Transformer accelerator, namely BETA, is proposed to boost the efficient deployment at the edge.Notably, BETA features a configurable QMM engine, accommodating diverse activation precisions of binary Transformers and offering high-parallelism and high-speed for QMMs with impressive energy efficiency.Experimental results evaluated on ZCU102 FPGA show BETA achieves an average energy efficiency of 174 GOPS/W, which is 1.76~21.92x higher than prior FPGA-based accelerators, showing BETA's good potential for edge Transformer acceleration. | 翻訳日:2024-01-23 14:21:27 公開日:2024-01-22 |
# ジョブショップスケジューリング問題の自己ラベル化 Self-Labeling the Job Shop Scheduling Problem ( http://arxiv.org/abs/2401.11849v1 ) ライセンス: Link先を確認 | Andrea Corsini, Angelo Porrello, Simone Calderara, Mauro Dell'Amico | (参考訳) 本研究では,組合せ問題に特化した自己監督型学習戦略を提案する。
このような問題に教師付きパラダイムを適用する上での最大の障害の1つは、コストのかかる厳密な解法でしばしば生み出される地中真実として、高価なターゲットソリューションの必要性である。
半教師学習と自己学習に着想を得て,複数の解をサンプリングし,問題の目的に応じて最適な解を擬似ラベルとして使用することにより,生成モデルの訓練が容易であることを示す。
このように,モデル生成能力は自己スーパービジョンのみに依存して反復的に向上し,最適な情報の必要性を完全に排除する。
強化学習コミュニティから多くの注目を集めている複雑な組合せ問題であるジョブショップスケジューリング(JSP)における、このセルフラベル戦略の有効性を実証する。
本稿では,よく知られたポインタネットワークに基づく生成モデルを提案し,我々の戦略で学習する。
2つの人気のあるベンチマークに関する実験は、結果のモデルが建設的ヒューリスティックや最先端の強化学習提案を上回り、このアプローチの可能性を示している。 In this work, we propose a Self-Supervised training strategy specifically designed for combinatorial problems. One of the main obstacles in applying supervised paradigms to such problems is the requirement of expensive target solutions as ground-truth, often produced with costly exact solvers. Inspired by Semi- and Self-Supervised learning, we show that it is possible to easily train generative models by sampling multiple solutions and using the best one according to the problem objective as a pseudo-label. In this way, we iteratively improve the model generation capability by relying only on its self-supervision, completely removing the need for optimality information. We prove the effectiveness of this Self-Labeling strategy on the Job Shop Scheduling (JSP), a complex combinatorial problem that is receiving much attention from the Reinforcement Learning community. We propose a generative model based on the well-known Pointer Network and train it with our strategy. Experiments on two popular benchmarks demonstrate the potential of this approach as the resulting models outperform constructive heuristics and current state-of-the-art Reinforcement Learning proposals. | 翻訳日:2024-01-23 14:21:13 公開日:2024-01-22 |
# extruont: 産業4.0システムのための製造機械の種類を記述するオントロジー ExtruOnt: An ontology for describing a type of manufacturing machine for Industry 4.0 systems ( http://arxiv.org/abs/2401.11848v1 ) ライセンス: Link先を確認 | V\'ictor Julio Ram\'irez-Dur\'an, Idoia Berges, Arantza Illarramendi | (参考訳) 機械解釈可能なコードで提供される製造機械のセマンティックな豊富な記述は、Industrial 4.0のシナリオで興味深い利点をもたらす。
しかし、そのような記述の欠如は明らかである。
本稿では,エクストルーオント(extruont)と呼ばれる,製造機械の一種について,より正確には押出加工(exruder)を行うタイプを記述するためのオントロジーを構築するための開発努力について述べる。
オントロジーの範囲は具体的なドメインに限定されているが、産業4.0シナリオで製造機械を記述するための他のオントロジーの開発モデルとして使用できる。
ExtruOntオントロジーの用語は、オントロジーを構成する異なるモジュールに反映されるエクストルーダに関連する様々な種類の情報を提供する。
したがって、エクストルーダのコンポーネント、空間接続、特徴、およびそれらのコンポーネントの3D表現に関する記述を表現するためのクラスとプロパティを含み、最終的にこの種のマシンの性能に関するインジケータをキャプチャするために使用されるセンサーを含んでいる。
オントロジー開発プロセスはドメインエキスパートとの緊密なコラボレーションで実施されている。 Semantically rich descriptions of manufacturing machines, offered in a machine-interpretable code, can provide interesting benefits in Industry 4.0 scenarios. However, the lack of that type of descriptions is evident. In this paper we present the development effort made to build an ontology, called ExtruOnt, for describing a type of manufacturing machine, more precisely, a type that performs an extrusion process (extruder). Although the scope of the ontology is restricted to a concrete domain, it could be used as a model for the development of other ontologies for describing manufacturing machines in Industry 4.0 scenarios. The terms of the ExtruOnt ontology provide different types of information related with an extruder, which are reflected in distinct modules that constitute the ontology. Thus, it contains classes and properties for expressing descriptions about components of an extruder, spatial connections, features, and 3D representations of those components, and finally the sensors used to capture indicators about the performance of this type of machine. The ontology development process has been carried out in close collaboration with domain experts. | 翻訳日:2024-01-23 14:20:55 公開日:2024-01-22 |
# signvtcl:視覚-テキストコントラスト学習によるマルチモーダル連続手話認識 SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by Visual-Textual Contrastive Learning ( http://arxiv.org/abs/2401.11847v1 ) ライセンス: Link先を確認 | Hao Chen, Jiaze Wang, Ziyu Guo, Jinpeng Li, Donghao Zhou, Bian Wu, Chenyong Guan, Guangyong Chen, Pheng-Ann Heng | (参考訳) 手話認識(SLR)は,聴覚障害者のコミュニケーションを促進する上で重要な役割を担っている。
SLRは、ビデオ全体がグロスでアノテートされた弱い教師付きタスクであり、ビデオセグメント内の対応する光沢を識別することは困難である。
最近の研究によると、SLRの主なボトルネックは、大規模データセットの可用性の制限による訓練不足である。
そこで本研究では,マルチモーダルデータの可能性を最大限に活用し,言語モデルの一般化能力を活用する視覚・テキストコントラスト学習により拡張された,マルチモーダル連続手話認識フレームワークであるsignvtclを提案する。
SignVTCLは、マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合して、統一された視覚バックボーンをトレーニングする。
さらに、signvtclは、個々の光沢と文のレベルでの視覚的特徴と光沢の正確な対応を保証するために、光沢レベルと文レベルのアライメントを組み込んだ視覚テキストアライメントアプローチを含んでいる。
Phoenix-2014、Phoenix-2014T、CSL-Dailyの3つのデータセットで実施された実験結果は、SignVTCLが従来の手法と比較して最先端の結果を得ることを示した。 Sign language recognition (SLR) plays a vital role in facilitating communication for the hearing-impaired community. SLR is a weakly supervised task where entire videos are annotated with glosses, making it challenging to identify the corresponding gloss within a video segment. Recent studies indicate that the main bottleneck in SLR is the insufficient training caused by the limited availability of large-scale datasets. To address this challenge, we present SignVTCL, a multi-modal continuous sign language recognition framework enhanced by visual-textual contrastive learning, which leverages the full potential of multi-modal data and the generalization ability of language model. SignVTCL integrates multi-modal data (video, keypoints, and optical flow) simultaneously to train a unified visual backbone, thereby yielding more robust visual representations. Furthermore, SignVTCL contains a visual-textual alignment approach incorporating gloss-level and sentence-level alignment to ensure precise correspondence between visual features and glosses at the level of individual glosses and sentence. Experimental results conducted on three datasets, Phoenix-2014, Phoenix-2014T, and CSL-Daily, demonstrate that SignVTCL achieves state-of-the-art results compared with previous methods. | 翻訳日:2024-01-23 14:20:37 公開日:2024-01-22 |
# 大規模マルチモーダルモデルの共通破壊に対するベンチマーク Benchmarking Large Multimodal Models against Common Corruptions ( http://arxiv.org/abs/2401.11943v1 ) ライセンス: Link先を確認 | Jiawei Zhang, Tianyu Pang, Chao Du, Yi Ren, Bo Li, Min Lin | (参考訳) 本技術報告は, 大規模マルチモーダルモデル (LMM) の評価において, 共通の汚職を受けた場合のアウトプットの自己整合性を明らかにすることで, 不足を埋めることを目的としている。
本研究では,テキスト間,画像間,画像間,テキスト間,音声間,音声間という4つの重要なタスクを包含するクロスモーダルインタラクションについて検討した。
私たちはMMCBenchという名の総合的なベンチマークを作成し、100以上の人気のあるLMM(現在150以上のモデルチェックポイント)をカバーしています。
共通の腐敗の下での徹底的な評価は実用的な展開には不可欠であり、最先端のlmmの信頼性をよりよく理解するのに役立つ。
ベンチマークコードはhttps://github.com/sail-sg/mmcbenchで入手できる。 This technical report aims to fill a deficiency in the assessment of large multimodal models (LMMs) by specifically examining the self-consistency of their outputs when subjected to common corruptions. We investigate the cross-modal interactions between text, image, and speech, encompassing four essential generation tasks: text-to-image, image-to-text, text-to-speech, and speech-to-text. We create a comprehensive benchmark, named MMCBench, that covers more than 100 popular LMMs (totally over 150 model checkpoints). A thorough evaluation under common corruptions is critical for practical deployment and facilitates a better understanding of the reliability of cutting-edge LMMs. The benchmarking code is available at https://github.com/sail-sg/MMCBench | 翻訳日:2024-01-23 14:13:01 公開日:2024-01-22 |
# 生成コンテキストによるBlinded: オープンドメインQAのための生成コンテキストと検索コンテキストをマージする言語モデル Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts for Open-Domain QA? ( http://arxiv.org/abs/2401.11911v1 ) ライセンス: Link先を確認 | Hexiang Tan, Fei Sun, Wanli Yang, Yuanzhuo Wang, Qi Cao, Xueqi Cheng | (参考訳) 補助情報は、LLM(Large Language Models)を強化する鍵となっているが、LLMがこれらのコンテキストをどのようにマージし、特に生成し、取得するかは、比較的知られていない。
そこで本研究では,生成コンテキストと検索コンテキストの統合から得られた回答が,生成コンテキストと検索コンテキストのどちらかに起因しているかどうかを特定するためのタスクを定式化する。
このタスクを支援するために,各質問が生成コンテキストと検索コンテキストの両方にペアリングされるような,矛盾するコンテキストを持つデータセットを構築する手法を開発した。
実験の結果,Llama2-7b/13b) と閉(GPT 3.5/4) にまたがって, LLM が生成する文脈に有意な偏りを示した。
さらに、このバイアスに寄与する2つの重要な要因を特定します。
一 LLMが生み出す文脈は、通常、質問とより類似し、選択の可能性を高める。
二 検索した文脈におけるセグメンテーションのプロセスは、その完全性を阻害し、LLMの完全利用を妨げる。
我々の分析は、LLMが様々な文脈を融合する方法の理解を深め、LLMの現在の拡張方法を進める上で貴重な洞察を提供する。 While auxiliary information has become a key to enhance Large Language Models (LLMs), relatively little is known about how well LLMs merge these contexts, specifically generated and retrieved. To study this, we formulate a task specifically designed to identify whether the answers, derived from the integration of generated and retrieved contexts, are attributed to either generated or retrieved contexts. To support this task, we develop a methodology to construct datasets with conflicting contexts, where each question is paired with both generated and retrieved contexts, yet only one of them contains the correct answer. Our experiments reveal a significant bias in LLMs towards generated contexts, as evidenced across state-of-the-art open (Llama2-7b/13b) and closed (GPT 3.5/4) systems. We further identify two key factors contributing to this bias: i) Contexts generated by LLMs typically show greater similarity to the questions, increasing their likelihood of selection; ii) The segmentation process used in retrieved contexts disrupts their completeness, thereby hindering their full utilization in LLMs. Our analysis enhances the understanding of how LLMs merge diverse contexts, offering valuable insights for advancing current augmentation methods for LLMs. | 翻訳日:2024-01-23 14:12:45 公開日:2024-01-22 |
# ジオゲブラ発見によるオーストリア数学のオリンピア問題: 学んだ教訓 Solving with GeoGebra Discovery an Austrian Mathematics Olympiad problem: Lessons Learned ( http://arxiv.org/abs/2401.11906v1 ) ライセンス: Link先を確認 | Bel\'en Ari\~no-Morera (Departamento de Econom\'ia Financiera y Contabilidad, Universidad Rey Juan Carlos, Madrid, Spain), Zolt\'an Kov\'acs (The Private University College of Education of the Diocese of Linz, Austria), Tom\'as Recio (Escuela Polit\'ecnica Superior, Universidad Antonio de Nebrija, Madrid, Spain), Piedad Tolmos (Departamento de Econom\'ia Financiera y Contabilidad, Universidad Rey Juan Carlos, Madrid, Spain) | (参考訳) 我々は、GeoGebra Discoveryにおける自動推論ツールを通じて、オーストリア数学のOlympiad 2023の地域段階の問題に対処する。
Trying to solve this problem gives rise to four different kind of feedback: the almost instantaneous, automated solution of the proposed problem; the measure of its complexity, according to some recent proposals; the automated discovery of a generalization of the given assertion, showing that the same statement is true over more general polygons than those mentioned in the problem; and the difficulties associated to the analysis of the surprising and involved high number of degenerate cases that appear when using the LocusEquation command in this problem.
当社のコミュニケーションでは,GeoGebra Discoveryのメリット,課題,現在の開発分野のいくつかを示す上で,これらの多様な課題について記述し,考察する。 We address, through the automated reasoning tools in GeoGebra Discovery, a problem from a regional phase of the Austrian Mathematics Olympiad 2023. Trying to solve this problem gives rise to four different kind of feedback: the almost instantaneous, automated solution of the proposed problem; the measure of its complexity, according to some recent proposals; the automated discovery of a generalization of the given assertion, showing that the same statement is true over more general polygons than those mentioned in the problem; and the difficulties associated to the analysis of the surprising and involved high number of degenerate cases that appear when using the LocusEquation command in this problem. In our communication we will describe and reflect on these diverse issues, enhancing its exemplar role for showing some of the advantages, problems, and current fields of development of GeoGebra Discovery. | 翻訳日:2024-01-23 14:12:19 公開日:2024-01-22 |
# 幾何学における自動定理生成/フィンディングのアプローチと計量に関する考察 Considerations on Approaches and Metrics in Automated Theorem Generation/Finding in Geometry ( http://arxiv.org/abs/2401.11905v1 ) ライセンス: Link先を確認 | Pedro Quaresma (University of Coimbra), Pierluigi Graziani (University of Urbino), Stefano M. Nicoletti (University of Twente) | (参考訳) 自動推論プログラムが新しく興味深い定理を生成、発見できるようにするために特定できる性質の追求は興味深い研究目標である(punは意図している)。
新しい定理の自動発見はそれ自体が目標であり、異なる方法で特定の領域で解決されてきた。
雑草(weeds)、興味がなく、自明な事実、新しい興味深い事実(wheat)、そして興味深い事実の分離は、はるかに困難であるが、異なるアプローチを用いて、異なる著者によって対処されている。
本稿では幾何学に焦点をあてる。
幾何学的定理(および性質)の自動発見のための異なるアプローチと、生成された全ての定理の中で興味深い定理を見つけるために異なるメトリクスを提示し、議論する。
この記述の後、この論文の最初の結果を紹介します: 興味深い定理を生成できるかどうかに関わらず、定理を生成する可能なチューリングマシンを全て決定するアルゴリズム的な手順を持つことは、決定不可能な問題である。
したがって、定理証明者が興味深い定理を生成できるかどうかを判断することは決定論的でない課題であり、少なくともヒューリスティックス基準で導かれたアルゴリズムに基づいてプログラムによって対処すべきタスクである。
それゆえ、人間として、このタスクを満足させるには、2つのことが必要である: 興味深い幾何学的定理の定理証明者/ファインダーについて光を当てるエキスパートサーベイと、この分析を可能にするために - 幾何学的定理の興味深い性質に関連するメトリクスとアプローチを明らかにする他のサーベイ。
本稿の結論では、この2つの調査(この記事の2番目の結果)の構造について紹介し、今後の課題について検討する。 The pursue of what are properties that can be identified to permit an automated reasoning program to generate and find new and interesting theorems is an interesting research goal (pun intended). The automatic discovery of new theorems is a goal in itself, and it has been addressed in specific areas, with different methods. The separation of the "weeds", uninteresting, trivial facts, from the "wheat", new and interesting facts, is much harder, but is also being addressed by different authors using different approaches. In this paper we will focus on geometry. We present and discuss different approaches for the automatic discovery of geometric theorems (and properties), and different metrics to find the interesting theorems among all those that were generated. After this description we will introduce the first result of this article: an undecidability result proving that having an algorithmic procedure that decides for every possible Turing Machine that produces theorems, whether it is able to produce also interesting theorems, is an undecidable problem. Consequently, we will argue that judging whether a theorem prover is able to produce interesting theorems remains a non deterministic task, at best a task to be addressed by program based in an algorithm guided by heuristics criteria. Therefore, as a human, to satisfy this task two things are necessary: an expert survey that sheds light on what a theorem prover/finder of interesting geometric theorems is, and - to enable this analysis - other surveys that clarify metrics and approaches related to the interestingness of geometric theorems. In the conclusion of this article we will introduce the structure of two of these surveys - the second result of this article - and we will discuss some future work. | 翻訳日:2024-01-23 14:12:05 公開日:2024-01-22 |
# ロバスト学習画像圧縮のための学習自由防衛フレームワーク A Training-Free Defense Framework for Robust Learned Image Compression ( http://arxiv.org/abs/2401.11902v1 ) ライセンス: Link先を確認 | Myungseo Song, Jinyoung Choi, Bohyung Han | (参考訳) 本研究では,学習画像圧縮モデルのロバスト性について検討し,単純な画像変換関数に基づく無訓練防御手法を提案する。
最近の画像圧縮モデルは、圧縮率の低下、再構成品質の低下、奇妙なアーティファクトをもたらす敵攻撃に対して脆弱である。
そこで本研究では,既存の画像圧縮モデルに適用可能なランダム入力変換を用いた簡易かつ効果的な双方向圧縮アルゴリズムを提案する。
na\"iveアプローチとは異なり、このアプローチはクリーンイメージ上のモデルのオリジナルのレートゆらぎ性能を保ちます。
さらに,提案アルゴリズムでは,既存のモデルのさらなる学習や修正を必要とせず,より実用的になる。
提案手法の有効性を,複数の圧縮モデル,評価指標,攻撃シナリオに基づく広範な実験により実証する。 We study the robustness of learned image compression models against adversarial attacks and present a training-free defense technique based on simple image transform functions. Recent learned image compression models are vulnerable to adversarial attacks that result in poor compression rate, low reconstruction quality, or weird artifacts. To address the limitations, we propose a simple but effective two-way compression algorithm with random input transforms, which is conveniently applicable to existing image compression models. Unlike the na\"ive approaches, our approach preserves the original rate-distortion performance of the models on clean images. Moreover, the proposed algorithm requires no additional training or modification of existing models, making it more practical. We demonstrate the effectiveness of the proposed techniques through extensive experiments under multiple compression models, evaluation metrics, and attack scenarios. | 翻訳日:2024-01-23 14:11:34 公開日:2024-01-22 |
# GeoGebraの発見に苦慮した証明と評価 Showing Proofs, Assessing Difficulty with GeoGebra Discovery ( http://arxiv.org/abs/2401.11900v1 ) ライセンス: Link先を確認 | Zolt\'an Kov\'acs (The Private University College of Education of the Diocese of Linz, Austria), Tom\'as Recio (Escuela Polit\'ecnica Superior, Universidad Antonio de Nebrija, Madrid, Spain), M. Pilar V\'elez (Escuela Polit\'ecnica Superior, Universidad Antonio de Nebrija, Madrid, Spain) | (参考訳) コントリビューションでは、GeoGebra Discoveryで開発されたAutomated Reasoning Toolsに関するいくつかの改善点を説明し、これらの新機能のパフォーマンスの異なる例を提供しています。
我々は、GeoGebra Discoveryによって実行される異なるステップのシーケンスを出力して、特定のステートメントを確認する新しいShowProofコマンドと、アサーションの難易度や関心度を評価しようとする数値について説明する。
本評価尺度の提案は、仮説(または結論)の組合せとして、論文(または結論)の表現の比較を含むものである。 In our contribution we describe some on-going improvements concerning the Automated Reasoning Tools developed in GeoGebra Discovery, providing different examples of the performance of these new features. We describe the new ShowProof command, that outputs both the sequence of the different steps performed by GeoGebra Discovery to confirm a certain statement, as well as a number intending to grade the difficulty or interest of the assertion. The proposal of this assessment measure, involving the comparison of the expression of the thesis (or conclusion) as a combination of the hypotheses, will be developed. | 翻訳日:2024-01-23 14:11:21 公開日:2024-01-22 |
# 合成幾何学における文と証明の自動補完:制約解法に基づくアプローチ Automated Completion of Statements and Proofs in Synthetic Geometry: an Approach based on Constraint Solving ( http://arxiv.org/abs/2401.11898v1 ) ライセンス: Link先を確認 | Salwa Tabet Gonzalez (University of Strasbourg), Predrag Jani\v{c}i\'c (University of Belgrade), Julien Narboux (University of Strasbourg) | (参考訳) 導出と定理証明は数学的実践の中心にある活動であり、分離することは困難である。
本稿では,不完全予想と不完全証明を完遂する枠組みを提案する。
このフレームワークは、仮定が不足し、未特定の目標を持つ予想を適切な定理に変えることができる。
また、提案フレームワークは、証明スケッチを人間の可読かつ機械チェック可能な証明に仕上げるのに役立つ。
我々のアプローチは合成幾何学に重点を置いており、コヒーレント論理と制約解を用いる。
提案手法は,3種類のタスクすべてに対して柔軟で,私たちの知る限り,ユニークなアプローチである。 Conjecturing and theorem proving are activities at the center of mathematical practice and are difficult to separate. In this paper, we propose a framework for completing incomplete conjectures and incomplete proofs. The framework can turn a conjecture with missing assumptions and with an under-specified goal into a proper theorem. Also, the proposed framework can help in completing a proof sketch into a human-readable and machine-checkable proof. Our approach is focused on synthetic geometry, and uses coherent logic and constraint solving. The proposed approach is uniform for all three kinds of tasks, flexible and, to our knowledge, unique such approach. | 翻訳日:2024-01-23 14:11:09 公開日:2024-01-22 |
# Coq証明スクリプトの自動変換に向けて Towards Automatic Transformations of Coq Proof Scripts ( http://arxiv.org/abs/2401.11897v1 ) ライセンス: Link先を確認 | Nicolas Magaud (Lab. ICube CNRS Universit\'e de Strasbourg, France) | (参考訳) coqのような証明アシスタントは、数学者が予想した結果の証明を行うのを助けるためにますます人気がある。
しかし、形式的な証明は高度に技術的であり、特に再利用が難しい。
本稿では,後述のスクリプト変換を行うためのフレームワークを提案する。
これらの変換は、証明が完了すると、自動化された後処理ステップとして適用される。
一例として、任意の大きな証明スクリプトを取り込み、これに相当する1行の証明スクリプトを生成する変換をCoqが1ステップで実行可能にする。
証明スクリプトを完全に拡張したり(デバッグ目的で)、名前付き仮説をすべて削除したりといった他のアプリケーションもこのフレームワーク内で開発できる。
当社のツールは,GeoCoqライブラリなど,さまざまなCoq証明スクリプトに適用しています。 Proof assistants like Coq are increasingly popular to help mathematicians carry out proofs of the results they conjecture. However, formal proofs remain highly technical and are especially difficult to reuse. In this paper, we present a framework to carry out a posteriori script transformations. These transformations are meant to be applied as an automated post-processing step, once the proof has been completed. As an example, we present a transformation which takes an arbitrary large proof script and produces an equivalent single-line proof script, which can be executed by Coq in one single step. Other applications, such as fully expanding a proof script (for debugging purposes), removing all named hypotheses, etc. could be developed within this framework. We apply our tool to various Coq proof scripts, including some from the GeoCoq library. | 翻訳日:2024-01-23 14:10:59 公開日:2024-01-22 |
# AI、保険、差別、不公平な差別。
概要と研究課題 AI, insurance, discrimination and unfair differentiation. An overview and research agenda ( http://arxiv.org/abs/2401.11892v1 ) ライセンス: Link先を確認 | Marvin S. L. van Bekkum, Frederik J. Zuiderveen Borgesius | (参考訳) 保険会社はますますAIを使う。
保険会社がaiを使う2つの状況を区別します
(i)データ集約的な引受、及び
(ii)行動に基づく保険。
(i)まず、保険会社はデータ分析にaiを使用してリスクを評価することができる。
引受は、要するにリスクを計算し、それに応じて保険料を補正する。
第二に、保険業者はAIを使ってリアルタイムで消費者の行動を監視することができる。
例えば、一部の自動車保険会社は、消費者が保険会社が追跡して安全に運転することに同意した場合に割引を行う。
この2つの傾向は多くの利点をもたらすが、差別効果もある。
本稿では,以下の問題に焦点をあてる。
保険会社がデータ集約型保険や行動ベース保険を使用する場合、どのような差別関連効果が生じるか?
我々は、差別とその他の不公平な差別の2種類の差別関連効果に焦点を当てる。
(i)差別は、非差別法で保護されている特定のグループ、例えば特定の民族を持つ人々に害を与える。
(二)非差別法で保護されている集団に不公平な差別は及ばないが、不公平に思われる。
保険制度の公正性を評価する際に考慮すべき4つの要因を紹介する。
この論文は、法、哲学、計算機科学を含む様々な分野の文学に基づいている。 Insurers increasingly use AI. We distinguish two situations in which insurers use AI: (i) data-intensive underwriting, and (ii) behaviour-based insurance. (i) First, insurers can use AI for data analysis to assess risks: data-intensive underwriting. Underwriting is, in short, calculating risks and amending the insurance premium accordingly. (ii) Second, insurers can use AI to monitor the behaviour of consumers in real-time: behaviour-based insurance. For example, some car insurers give a discount if a consumer agrees to being tracked by the insurer and drives safely. While the two trends bring many advantages, they may also have discriminatory effects. This paper focuses on the following question. Which discrimination-related effects may occur if insurers use data-intensive underwriting and behaviour-based insurance? We focus on two types of discrimination-related effects: discrimination and other unfair differentiation. (i) Discrimination harms certain groups who are protected by non-discrimination law, for instance people with certain ethnicities. (ii) Unfair differentiation does not harm groups that are protected by non-discrimination law, but it does seem unfair. We introduce four factors to consider when assessing the fairness of insurance practices. The paper builds on literature from various disciplines including law, philosophy, and computer science. | 翻訳日:2024-01-23 14:10:48 公開日:2024-01-22 |
# ユーザレーティング予測のためのマルチモーダル深層学習 : マーケティングにおける消費者の不均一性への対応 Multimodal Deep Learning of Word-of-Mouth Text and Demographics to Predict Customer Rating: Handling Consumer Heterogeneity in Marketing ( http://arxiv.org/abs/2401.11888v1 ) ライセンス: Link先を確認 | Junichiro Niimi | (参考訳) マーケティングの分野では,行動ログでは捉えられない消費者の内的・心理的差異である消費者の不均一性を理解することが,長年にわたって重要な課題であった。
しかし、今日の多くの消費者は、通常、オンラインプラットフォーム上の特定の製品に対する評価を投稿している。
過去のいくつかの研究では、テキストのモダリティに関する分析の有効性が示されているが、消費者プロファイルデータのような横断データから得られる情報を含まないため、このような分析は必ずしもテキスト単独で十分な予測精度を示すわけではない。
さらに,大規模言語モデル(LLM)やマルチモーダル学習といった機械学習技術の進歩により,テキストデータや従来の断面データなど,さまざまな種類のデータセットを同時に扱えるようになり,複数のモーダルから共同表現が効果的に得られるようになった。
そこで本研究では,オンライン製品レビューと消費者プロファイル情報のマルチモーダル学習による消費者の不均一性を考慮した製品評価モデルを構築した。
また,異なるモダリティやハイパーパラメータを用いた複数のモデルを比較し,マーケティング分析におけるマルチモーダル学習の堅牢性を示す。 In the marketing field, understanding consumer heterogeneity, which is the internal or psychological difference among consumers that cannot be captured by behavioral logs, has long been a critical challenge. However, a number of consumers today usually post their evaluation on the specific product on the online platform, which can be the valuable source of such unobservable differences among consumers. Several previous studies have shown the validity of the analysis on text modality, but on the other hand, such analyses may not necessarily demonstrate sufficient predictive accuracy for text alone, as they may not include information readily available from cross-sectional data, such as consumer profile data. In addition, recent advances in machine learning techniques, such as large-scale language models (LLMs) and multimodal learning have made it possible to deal with the various kind of dataset simultaneously, including textual data and the traditional cross-sectional data, and the joint representations can be effectively obtained from multiple modalities. Therefore, this study constructs a product evaluation model that takes into account consumer heterogeneity by multimodal learning of online product reviews and consumer profile information. We also compare multiple models using different modalities or hyper-parameters to demonstrate the robustness of multimodal learning in marketing analysis. | 翻訳日:2024-01-23 14:10:33 公開日:2024-01-22 |
# State-Averaged Orbital-Optimized VQE: 基底および励起電子状態の民主的記述のための量子アルゴリズム State-Averaged Orbital-Optimized VQE: A quantum algorithm for the democratic description of ground and excited electronic states ( http://arxiv.org/abs/2401.11884v1 ) ライセンス: Link先を確認 | Martin Beseda and Silvie Ill\'esov\'a and Saad Yalouz and Bruno Senjean | (参考訳) 電子構造問題は現代の理論化学の主要な問題の一つである。
問題自体や半古典的あるいは量子力学のような応用には、すでに確立されている多くの方法があるが、計算的に要求されるタスクであり、解決された問題のサイズを効果的に制限している。
幸いなことに、計算の一部を量子処理ユニットにオフロードすることは、量子超越性(quantum supremacy)や量子優位(quantum advantage)と呼ばれる大きなスピードアップをもたらす可能性がある。
このアプローチは潜在的な利点とともに、いくつかの問題、特に自然発生の量子デコヒーレンス(英語版)を同時に提示し、その後、量子ノイズと大規模量子コンピュータの欠如と表現され、短期的な応用を目指すアルゴリズムを開発する際には、ノイズ中間量子コンピュータに焦点を合わせる必要がある。
SA-OO-VQEパッケージは、量子ノイズと量子ビットの欠如を部分的に回避し、アルゴリズムの一部だけがQPUへのオフロードを利用し、残りは古典的なコンピュータ上で実行されるため、典型的な変分量子固有解法に基づくハイブリッド量子古典的概念でこれらの問題を解決することを目的としている。
SA-OO-VQEは、同じ足場上で退化状態(または準退化状態)を処理できるので、回避された交差や円錐交叉に関する州固有のアプローチに起因する既知の数値最適化の問題を避けることができる。 The electronic structure problem is one of the main problems in modern theoretical chemistry. While there are many already-established methods both for the problem itself and its applications like semi-classical or quantum dynamics, it remains a computationally demanding task, effectively limiting the size of solved problems. Fortunately, it seems, that offloading some parts of the computation to Quantum Processing Units may offer significant speed-up, often referred to as quantum supremacy or quantum advantage. Together with the potential advantage, this approach simultaneously presents several problems, most notably naturally occurring quantum decoherence, hereafter denoted as quantum noise and lack of large-scale quantum computers, making it necessary to focus on Noisy-Intermediate Scale Quantum computers when developing algorithms aspiring to near-term applications. SA-OO-VQE package aims to answer both these problems with its hybrid quantum-classical conception based on a typical Variational Quantum Eigensolver approach, as only a part of the algorithm utilizes offload to QPUs and the rest is performed on a classical computer, thus partially avoiding both quantum noise and the lack of quantum bits. The SA-OO-VQE has the ability to treat degenerate (or quasi-degenerate) states on the same footing, thus avoiding known numerical optimization problems arising in state-specific approaches around avoided crossings or conical intersections. | 翻訳日:2024-01-23 14:10:10 公開日:2024-01-22 |
# PsySafe: 多エージェントシステム安全の心理的攻撃・防衛・評価のための総合的枠組み PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety ( http://arxiv.org/abs/2401.11880v1 ) ライセンス: Link先を確認 | Zaibin Zhang, Yongting Zhang, Lijun Li, Hongzhi Gao, Lijun Wang, Huchuan Lu, Feng Zhao, Yu Qiao, Jing Shao | (参考訳) LLM(Large Language Models)で拡張されたマルチエージェントシステムは、集合知能の重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスの潜在的誤用は重大なリスクをもたらす。
現在,マルチエージェントシステムの安全性に関する総合的な研究は限られている。
エージェント心理学の観点からは、エージェントの暗黒心理学状態が深刻な安全問題を引き起こす可能性があることが分かる。
これらの課題に対処するため,エージェント心理学に基づく包括的枠組みを提案する。
本フレームワークでは,エージェントのダークパーソナリティ特性がリスク行動につながる可能性があること,リスクを軽減するための防衛戦略を設計すること,心理的・行動的観点からマルチエージェントシステムの安全性を評価すること,の3つの側面に着目した。
実験により,エージェント間の集団的危険行動,危険行動に関わる自己反射傾向,エージェントの心理的評価と危険行動との相関など,いくつかの興味深い現象が明らかになった。
我々は,マルチエージェントシステムの安全性に関するさらなる研究に,我々のフレームワークと観測が貴重な洞察を提供することを期待している。
データとコードをhttps:/github.com/AI4Good24/PsySafeで公開します。 Multi-agent systems, augmented with Large Language Models (LLMs), demonstrate significant capabilities for collective intelligence. However, the potential misuse of this intelligence for malicious purposes presents significant risks. To date, comprehensive research on the safety issues associated with multi-agent systems remains limited. From the perspective of agent psychology, we discover that the dark psychological states of agents can lead to severe safety issues. To address these issues, we propose a comprehensive framework grounded in agent psychology. In our framework, we focus on three aspects: identifying how dark personality traits in agents might lead to risky behaviors, designing defense strategies to mitigate these risks, and evaluating the safety of multi-agent systems from both psychological and behavioral perspectives. Our experiments reveal several intriguing phenomena, such as the collective dangerous behaviors among agents, agents' propensity for self-reflection when engaging in dangerous behavior, and the correlation between agents' psychological assessments and their dangerous behaviors. We anticipate that our framework and observations will provide valuable insights for further research into the safety of multi-agent systems. We will make our data and code publicly accessible at https:/github.com/AI4Good24/PsySafe. | 翻訳日:2024-01-23 14:09:41 公開日:2024-01-22 |
# 知的障害を重んじる適度な個人における標準顔表情認識の可能性の評価 Evaluating the Feasibility of Standard Facial Expression Recognition in Individuals with Moderate to Severe Intellectual Disabilities ( http://arxiv.org/abs/2401.11877v1 ) ライセンス: Link先を確認 | F. Xavier Gaya-Morey, Silvia Ramis, Jose M. Buades-Rubio, Cristina Manresa-Yee | (参考訳) 近年の研究では、マシンとの人間的なインタラクションに対するユーザの嗜好が高まっている。
その結果、表情認識は、ユーザの感情状態を識別する能力を持った社会ロボットを付与する手段として重要である。
本研究は,本研究で研究されていない知的障害者の表情認識において,この領域における卓越した業績で知られる深層学習アプローチの有効性を,我々の知識の最大限に活用するために評価するものである。
この目的に対処するために、知的障害のないデータセットのアンサンブルや、そのような個人を特徴とするデータセットなど、異なるアプローチで12の異なる畳み込みニューラルネットワークのセットをトレーニングする。
異なる訓練条件下での様々なモデルによる結果と、説明可能な人工知能技術による表情認識が容易な表情認識における重要な顔領域の包括的分析を組み合わせることにより、知的障害のある個人と知的障害のある個人の間での表情の有意な区別が明らかになった。
驚くべきことに,この集団における表情認識は,ユーザ固有の学習手法によって実現可能であり,モデルが各ユーザのユニークな表現に効果的に対応できることを示した。 Recent research has underscored the increasing preference of users for human-like interactions with machines. Consequently, facial expression recognition has gained significance as a means of imparting social robots with the capacity to discern the emotional states of users. In this investigation, we assess the suitability of deep learning approaches, known for their remarkable performance in this domain, for recognizing facial expressions in individuals with intellectual disabilities, which has not been yet studied in the literature, to the best of our knowledge. To address this objective, we train a set of twelve distinct convolutional neural networks in different approaches, including an ensemble of datasets without individuals with intellectual disabilities and a dataset featuring such individuals. Our examination of the outcomes achieved by the various models under distinct training conditions, coupled with a comprehensive analysis of critical facial regions during expression recognition facilitated by explainable artificial intelligence techniques, revealed significant distinctions in facial expressions between individuals with and without intellectual disabilities, as well as among individuals with intellectual disabilities. Remarkably, our findings demonstrate the feasibility of facial expression recognition within this population through tailored user-specific training methodologies, which enable the models to effectively address the unique expressions of each user. | 翻訳日:2024-01-23 14:09:22 公開日:2024-01-22 |
# 第一原理に基づく3次元仮想シミュレーションによる自律走行のSOTIFコーナーケースの探索 First-principles Based 3D Virtual Simulation Testing for Discovering SOTIF Corner Cases of Autonomous Driving ( http://arxiv.org/abs/2401.11876v1 ) ライセンス: Link先を確認 | Lehang Li, Haokuan Wu, Botao Yao, Tianyu He, Shuohan Huang, Chuanyi Liu | (参考訳) 多様なテストシナリオを生成し、自律運転システム(adses)モジュール全体の全スタックを動的にテストする3d仮想シミュレーションは、意図された機能(sotif)広告テストの安全性のための有望なアプローチである。
しかし、テストシナリオの異なる構成がセンサーの知覚や環境相互作用に影響を与えるため、例えば、LiDARセンサーによって放出される光パルスは後方散乱と減衰を受け、通常は既存の研究で見過ごされ、誤った陽性や誤った結果をもたらす。
さらに、ADSの入力空間は極端に大きく、時間領域と空間領域の両方に沿って、起こりうる初期シナリオや突然変異が無限に存在する。
本稿では,第1原理に基づくセンサモデリングと環境相互作用手法を提案し,それをCARLAシミュレータに統合する。
この計画により、悪天候に関連するコーナーケースの長い見落としのカテゴリーが、その根本原因とともに発見される。
さらに、メタヒューリスティックアルゴリズムは、シードシナリオと突然変異の両方を導くいくつかの経験的洞察に基づいて設計され、シナリオの探索範囲を大幅に削減し、コーナーケース識別の効率を高める。
実験の結果,同一のシミュレーション環境下では,最先端の作業に比べて約4倍のコーナーケースが検出できることがわかった。 3D virtual simulation, which generates diversified test scenarios and tests full-stack of Autonomous Driving Systems (ADSes) modules dynamically as a whole, is a promising approach for Safety of The Intended Functionality (SOTIF) ADS testing. However, as different configurations of a test scenario will affect the sensor perceptions and environment interaction, e.g. light pulses emitted by the LiDAR sensor will undergo backscattering and attenuation, which is usually overlooked by existing works, leading to false positives or wrong results. Moreover, the input space of an ADS is extremely large, with infinite number of possible initial scenarios and mutations, along both temporal and spatial domains. This paper proposes a first-principles based sensor modeling and environment interaction scheme, and integrates it into CARLA simulator. With this scheme, a long-overlooked category of adverse weather related corner cases are discovered, along with their root causes. Moreover, a meta-heuristic algorithm is designed based on several empirical insights, which guide both seed scenarios and mutations, significantly reducing the search dimensions of scenarios and enhancing the efficiency of corner case identification. Experimental results show that under identical simulation setups, our algorithm discovers about four times as many corner cases as compared to state-of-the-art work. | 翻訳日:2024-01-23 14:09:02 公開日:2024-01-22 |
# 機械学習と記号的手法の融合:自然言語処理へのハイブリッドアプローチに関する調査 Synergizing Machine Learning & Symbolic Methods: A Survey on Hybrid Approaches to Natural Language Processing ( http://arxiv.org/abs/2401.11972v1 ) ライセンス: Link先を確認 | Rrubaa Panchendrarajan and Arkaitz Zubiaga | (参考訳) 機械学習とシンボリックアプローチの進歩は、自然言語処理(NLP)におけるその強みと弱点を裏付けている。
機械学習のアプローチはデータのパターンを特定するのに強力だが、コモンセンスとNLPタスクに必要な事実知識の学習には不足することが多い。
一方、記号的手法は知識豊富なデータを表現するのに優れている。
しかし、彼らは動的データに適応し、知識を一般化するのに苦労している。
これら2つのパラダイムをハイブリッドアプローチで橋渡しすることで、強みを維持しながら両方の弱点を和らげることができる。
近年の研究は、この連合の長所を解明し、幅広いnlpタスクにおける有望な結果を示している。
本稿では,NLPにおけるハイブリッドアプローチの概要について述べる。
具体的には、自然言語理解、生成、推論を必要とする幅広いNLPタスクに使用される最先端のハイブリッドアプローチについて検討する。
さらに、NLPのハイブリッドアプローチに利用可能な既存のリソースと課題について論じ、今後の方向性のロードマップを提供する。 The advancement of machine learning and symbolic approaches have underscored their strengths and weaknesses in Natural Language Processing (NLP). While machine learning approaches are powerful in identifying patterns in data, they often fall short in learning commonsense and the factual knowledge required for the NLP tasks. Meanwhile, the symbolic methods excel in representing knowledge-rich data. However, they struggle to adapt dynamic data and generalize the knowledge. Bridging these two paradigms through hybrid approaches enables the alleviation of weaknesses in both while preserving their strengths. Recent studies extol the virtues of this union, showcasing promising results in a wide range of NLP tasks. In this paper, we present an overview of hybrid approaches used for NLP. Specifically, we delve into the state-of-the-art hybrid approaches used for a broad spectrum of NLP tasks requiring natural language understanding, generation, and reasoning. Furthermore, we discuss the existing resources available for hybrid approaches for NLP along with the challenges, offering a roadmap for future directions. | 翻訳日:2024-01-23 14:01:24 公開日:2024-01-22 |
# 自動ファクトチェックのためのクレーム検出:単言語・多言語・言語横断研究に関する調査 Claim Detection for Automated Fact-checking: A Survey on Monolingual, Multilingual and Cross-Lingual Research ( http://arxiv.org/abs/2401.11969v1 ) ライセンス: Link先を確認 | Rrubaa Panchendrarajan and Arkaitz Zubiaga | (参考訳) オンラインプラットフォーム上での誤情報拡散の増加により,過去数十年間,ファクトチェックの自動化が注目されている。
これはしばしば一連のタスクとして実行されます
(i)確認を必要とする主張を構成するオンラインプラットフォームで流通する文の検出、続いて
(ii)これらのクレームの検証プロセス
本調査は, 事実確認を必要とするクレームを検出するための既存の取り組みを, 多言語データと手法に特に焦点をあてることにより, 前者に焦点を当てる。
これは、既存の方法が人間のパフォーマンスにマッチするほど遠くない難易度の高い方向であり、この問題の極めて困難な性質のためである。
特に、複数の言語とモダリティで表現された複数のソーシャルプラットフォームにまたがる情報の拡散は、誤った情報に対処するためのより一般的な解決策を要求する。
多言語誤報に着目し,既存の多言語クレーム検出研究を包括的に調査する。
本稿では,現状の多言語クレーム検出研究を,問題の3つの重要な要因,妥当性,優先性,類似性に分類する。
さらに,既存の多言語データセットの概要と課題について概説し,今後の発展の可能性を提案する。 Automated fact-checking has drawn considerable attention over the past few decades due to the increase in the diffusion of misinformation on online platforms. This is often carried out as a sequence of tasks comprising (i) the detection of sentences circulating in online platforms which constitute claims needing verification, followed by (ii) the verification process of those claims. This survey focuses on the former, by discussing existing efforts towards detecting claims needing fact-checking, with a particular focus on multilingual data and methods. This is a challenging and fertile direction where existing methods are yet far from matching human performance due to the profoundly challenging nature of the issue. Especially, the dissemination of information across multiple social platforms, articulated in multiple languages and modalities demands more generalized solutions for combating misinformation. Focusing on multilingual misinformation, we present a comprehensive survey of existing multilingual claim detection research. We present state-of-the-art multilingual claim detection research categorized into three key factors of the problem, verifiability, priority, and similarity. Further, we present a detailed overview of the existing multilingual datasets along with the challenges and suggest possible future advancements. | 翻訳日:2024-01-23 14:01:10 公開日:2024-01-22 |
# すべての確率密度関数がトモグラムであるとは限らない Not all Probability Density Functions are Tomograms ( http://arxiv.org/abs/2401.11966v1 ) ライセンス: Link先を確認 | L.A. Markovich, J. Urbanetz and V.I. Man'ko | (参考訳) 本稿では、量子状態のトモグラフィ確率密度関数(pdf)の表現の重要性を考察し、トモグラムとなるpdfの特別なクラスに光を遮蔽する。
ヒルベルト空間上の波動関数や密度作用素を使う代わりに、真のpdfであるトモグラムは量子系の状態を完全に記述するために用いられる。
ウィグナー関数のような準pdfとは異なり、トモグラムはpdf推定のための古典的確率論のすべてのツールを用いて解析することができ、状態再構成のより良い品質を実現することができる。
これは、pdfがマルチモードである非ガウス状態を扱う場合に特に有用である。
分布の族に関する知識は、パラメトリックおよび非パラメトリック密度推定法の応用において重要な役割を果たしている。
すべてのpdfが量子状態のトモグラムの役割を果たせるとは限りませんし、pdfが「量子」であるためには満たさなければならない条件を導入します。 This paper delves into the significance of the tomographic probability density function (pdf) representation of quantum states, shedding light on the special classes of pdfs that can be tomograms. Instead of using wave functions or density operators on Hilbert spaces, tomograms, which are the true pdfs, are used to completely describe the states of quantum systems. Unlike quasi-pdfs, like the Wigner function, tomograms can be analysed using all the tools of classical probability theory for pdf estimation, which can allow a better quality of state reconstruction. This is particularly useful when dealing with non-Gaussian states where the pdfs are multi-mode. The knowledge of the family of distributions plays an important role in the application of both parametric and non-parametric density estimation methods. We show that not all pdfs can play the role of tomograms of quantum states and introduce the conditions that must be fulfilled by pdfs to be "quantum". | 翻訳日:2024-01-23 14:00:52 公開日:2024-01-22 |
# 進化的アルゴリズムと強化学習の橋渡し:包括的調査 Bridging Evolutionary Algorithms and Reinforcement Learning: A Comprehensive Survey ( http://arxiv.org/abs/2401.11963v1 ) ライセンス: Link先を確認 | Pengyi Li, Jianye Hao, Hongyao Tang, Xian Fu, Yan Zheng, Ke Tang | (参考訳) 進化的アルゴリズム(EA)と強化学習(RL)を統合した進化的強化学習(ERL)は,優れた性能向上を示す。
両アプローチの強みを融合させることで、ERLは有望な研究方向として現れている。
本調査では,ERLの多様な研究分野について概観する。
具体的には、関連アルゴリズムの最近の進歩を体系的に要約し、RLのEA支援最適化、EAのRL支援最適化、EAとRLの相乗的最適化の3つの研究方向を特定する。
その後、各研究の方向性を詳細に分析し、複数の研究部門を編成する。
それぞれのブランチが取り組もうとしている問題と、EAとRLの統合がこれらの課題にどのように対処するかを明らかにする。
結論として,様々な研究方向の潜在的な課題と今後の研究方向性について論じる。 Evolutionary Reinforcement Learning (ERL), which integrates Evolutionary Algorithms (EAs) and Reinforcement Learning (RL) for optimization, has demonstrated remarkable performance advancements. By fusing the strengths of both approaches, ERL has emerged as a promising research direction. This survey offers a comprehensive overview of the diverse research branches in ERL. Specifically, we systematically summarize recent advancements in relevant algorithms and identify three primary research directions: EA-assisted optimization of RL, RL-assisted optimization of EA, and synergistic optimization of EA and RL. Following that, we conduct an in-depth analysis of each research direction, organizing multiple research branches. We elucidate the problems that each branch aims to tackle and how the integration of EA and RL addresses these challenges. In conclusion, we discuss potential challenges and prospective future research directions across various research directions. | 翻訳日:2024-01-23 14:00:35 公開日:2024-01-22 |
# ステーションスケールでの観測誘導気象場ダウンスケーリング:ベンチマークと新しい方法 Observation-Guided Meteorological Field Downscaling at Station Scale: A Benchmark and a New Method ( http://arxiv.org/abs/2401.11960v1 ) ライセンス: Link先を確認 | Zili Liu, Hao Chen, Lei Bai, Wenyuan Li, Keyan Chen, Zhengyi Wang, Wanli Ouyang, Zhengxia Zou and Zhenwei Shi | (参考訳) 気象変数のダウンスケーリング(ds)は、低分解能気象分野から高分解能状態を取得し、気象予報において重要なタスクである。
コンピュータビジョンにおける超高分解能タスクとして,ディープラーニングに基づく従来手法では,特定のグリッドスケールでの解像度向上のために,高分解能グリッド化気象場を監督として利用していた。
しかし、この手法は気象場の連続的な分布特性と整合し、ダウンスケールの結果と気象観測所での実際の観測との間に固有の系統的偏りをもたらす。
本稿では,気象下降スケーリングを任意の散乱局スケールに拡張し,新しいベンチマークとデータセットを構築し,粗分解性気象フィールドから任意の局位置の気象状態を取得する。
データ同化技術に触発されて、観測データをダウンスケーリングプロセスに統合し、マルチスケールの観測前処理を提供する。
そこで本研究では,ハイパーネットワークアーキテクチャに基づく新しいダウンスケーリングモデルであるhyperdsを提案し,異なる観測情報をモデルトレーニングに効率的に統合し,気象分野の連続的モデリングを実現する。
広範な実験により,提案手法は複数の表面変数のベースラインモデルよりも優れていることがわかった。
特に、風速と表面圧力の平均2乗誤差(MSE)は他の方法と比較して67%、19.5%改善した。
その後、データセットとコードをリリースします。 Downscaling (DS) of meteorological variables involves obtaining high-resolution states from low-resolution meteorological fields and is an important task in weather forecasting. Previous methods based on deep learning treat downscaling as a super-resolution task in computer vision and utilize high-resolution gridded meteorological fields as supervision to improve resolution at specific grid scales. However, this approach has struggled to align with the continuous distribution characteristics of meteorological fields, leading to an inherent systematic bias between the downscaled results and the actual observations at meteorological stations. In this paper, we extend meteorological downscaling to arbitrary scattered station scales, establish a brand new benchmark and dataset, and retrieve meteorological states at any given station location from a coarse-resolution meteorological field. Inspired by data assimilation techniques, we integrate observational data into the downscaling process, providing multi-scale observational priors. Building on this foundation, we propose a new downscaling model based on hypernetwork architecture, namely HyperDS, which efficiently integrates different observational information into the model training, achieving continuous scale modeling of the meteorological field. Through extensive experiments, our proposed method outperforms other specially designed baseline models on multiple surface variables. Notably, the mean squared error (MSE) for wind speed and surface pressure improved by 67% and 19.5% compared to other methods. We will release the dataset and code subsequently. | 翻訳日:2024-01-23 14:00:19 公開日:2024-01-22 |
# RUMBoost: グラディエントなランダムユーティリティモデル RUMBoost: Gradient Boosted Random Utility Models ( http://arxiv.org/abs/2401.11954v1 ) ライセンス: Link先を確認 | Nicolas Salvad\'e, Tim Hillel | (参考訳) 本稿では,ランダムユーティリティモデル (rums) の解釈可能性と行動的ロバスト性と,ディープラーニング手法の一般化と予測能力を組み合わせた,新しい離散的選択モデリング手法 rumboost model を提案する。
我々は、RUMのユーティリティ機能における各線形パラメータを勾配強化回帰木の集合に置き換えることで、非線形ユーティリティ仕様の完全な機能形式を得る。
これにより、入力変数の任意の組み合わせに対してデータから直接、すべての代替案に対して一貫したユーティリティ値をインプットすることができる。
我々は,実用仕様の3つの重要な特徴を保証するために,アンサンブルに付加的な制約を導入する。
(i)各代替案の効用がその代替案の属性のみに依存すること。
(ii)限界ユーティリティの単調性、及び
(iii)本質的に解釈可能な機能形式であり、入力空間全体を通してモデルの正確な応答が知られている。
さらに,最適化に基づく平滑化手法を導入することで,非線形パラメータを定勾配で識別するために,代替属性の断片的定数ユーティリティ値を単調な部分的立方晶スプラインに置き換える。
本稿では,RUMBoostモデルとMLおよびRandom Utilityベンチマークモデルとの比較を行い,ロンドンの選好モード選択データについて検討した。
その結果,提案手法の予測性能と直接解釈性が強調された。
さらに、スムーズな属性ユーティリティ関数は、様々な行動指標と限界ユーティリティの計算を可能にする。
最後に,rumboostモデルが属性の相互作用,代替エラー項における相関,集団内の多様性など,複雑なモデル仕様にどのように拡張できるかを示すことで,この手法の柔軟性を実証する。 This paper introduces the RUMBoost model, a novel discrete choice modelling approach that combines the interpretability and behavioural robustness of Random Utility Models (RUMs) with the generalisation and predictive ability of deep learning methods. We obtain the full functional form of non-linear utility specifications by replacing each linear parameter in the utility functions of a RUM with an ensemble of gradient boosted regression trees. This enables piece-wise constant utility values to be imputed for all alternatives directly from the data for any possible combination of input variables. We introduce additional constraints on the ensembles to ensure three crucial features of the utility specifications: (i) dependency of the utilities of each alternative on only the attributes of that alternative, (ii) monotonicity of marginal utilities, and (iii) an intrinsically interpretable functional form, where the exact response of the model is known throughout the entire input space. Furthermore, we introduce an optimisation-based smoothing technique that replaces the piece-wise constant utility values of alternative attributes with monotonic piece-wise cubic splines to identify non-linear parameters with defined gradient. We demonstrate the potential of the RUMBoost model compared to various ML and Random Utility benchmark models for revealed preference mode choice data from London. The results highlight the great predictive performance and the direct interpretability of our proposed approach. Furthermore, the smoothed attribute utility functions allow for the calculation of various behavioural indicators and marginal utilities. Finally, we demonstrate the flexibility of our methodology by showing how the RUMBoost model can be extended to complex model specifications, including attribute interactions, correlation within alternative error terms and heterogeneity within the population. | 翻訳日:2024-01-23 13:59:56 公開日:2024-01-22 |
# ブラインド画像品質評価のための特徴分節拡散モデル Feature Denoising Diffusion Model for Blind Image Quality Assessment ( http://arxiv.org/abs/2401.11949v1 ) ライセンス: Link先を確認 | Xudong Li, Jingyuan Zheng, Runze Hu, Yan Zhang, Ke Li, Yunhang Shen, Xiawu Zheng, Yutao Liu, ShengChuan Zhang, Pingyang Dai, Rongrong Ji | (参考訳) Blind Image Quality Assessment (BIQA) は、基準ベンチマークなしで、人間の知覚に合わせて画質を評価することを目的としている。
現在、ディープラーニングのBIQA手法は、一般的に、伝達学習のための高レベルのタスクの特徴の使用に依存している。
しかし、BIQAとこれらのハイレベルタスクの固有の違いは、品質認識機能に必然的にノイズをもたらす。
本稿では,品質認識機能からノイズを取り除くことを目的とした iqa (pfd-iqa) の知覚的特徴拡散について,biqa における特徴弁別のための拡散モデルの検討に向けて,最初の一歩を踏み出す。
具体的には
(i)拡散モデルのための知覚テキスト条件を集約するために使用される画像の潜在的な低レベル特徴を発見するための2つの補助的タスクを確立するために, {Perceptual Prior Discovery and Aggregationモジュールを提案する。
(ii) 雑音特徴量と予め定義された特徴量とをマッチングし, テキスト条件に基づいて正確な特徴量推定を行う知覚的前置型特徴改善戦略を提案する。
8つの標準BIQAデータセットに対する大規模な実験は、最先端のBIQA手法、すなわち、PLCC値が0.935(KADIDでは0.905)と0.922(LIVECでは0.894)であることを示す。 Blind Image Quality Assessment (BIQA) aims to evaluate image quality in line with human perception, without reference benchmarks. Currently, deep learning BIQA methods typically depend on using features from high-level tasks for transfer learning. However, the inherent differences between BIQA and these high-level tasks inevitably introduce noise into the quality-aware features. In this paper, we take an initial step towards exploring the diffusion model for feature denoising in BIQA, namely Perceptual Feature Diffusion for IQA (PFD-IQA), which aims to remove noise from quality-aware features. Specifically, (i) We propose a {Perceptual Prior Discovery and Aggregation module to establish two auxiliary tasks to discover potential low-level features in images that are used to aggregate perceptual text conditions for the diffusion model. (ii) We propose a Perceptual Prior-based Feature Refinement strategy, which matches noisy features to predefined denoising trajectories and then performs exact feature denoising based on text conditions. Extensive experiments on eight standard BIQA datasets demonstrate the superior performance to the state-of-the-art BIQA methods, i.e., achieving the PLCC values of 0.935 ( vs. 0.905 in KADID) and 0.922 ( vs. 0.894 in LIVEC). | 翻訳日:2024-01-23 13:59:30 公開日:2024-01-22 |
# CMMMU:中国の大規模多分野マルチモーダル理解ベンチマーク CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark ( http://arxiv.org/abs/2401.11944v1 ) ライセンス: Link先を確認 | Ge Zhang, Xinrun Du, Bei Chen, Yiming Liang, Tongxu Luo, Tianyu Zheng, Kang Zhu, Yuyang Cheng, Chunpu Xu, Shuyue Guo, Haoran Zhang, Xingwei Qu, Junjie Wang, Ruibin Yuan, Yizhi Li, Zekun Wang, Yudong Liu, Yu-Hsuan Tsai, Fengji Zhang, Chenghua Lin, Wenhao Huang, Wenhu Chen, Jie Fu | (参考訳) 大規模マルチモーダルモデル(LMM)の性能向上が進むにつれ,LMMの性能評価の必要性が高まっている。
さらに、中国語のような非英語の文脈において、LMMの高度な知識と推論能力を評価することにはさらに大きなギャップがある。
CMMMUは、中国における大学レベルの教科知識と意図的推論を必要とするタスクにおいて、LMMを評価するために設計された、新しい中国語の大量多分野マルチモーダル理解ベンチマークである。
CMMMUはMMMUのアノテーションと分析パターンにインスパイアされ、厳密に従っている。
CMMMUは、大学試験、クイズ、教科書から12kの質問を手作業で収集し、アート&デザイン、ビジネス、サイエンス、ヘルス&メディカル、人文科学、テクノロジー&エンジニアリングの6つの中核分野をカバーしている。
これらの質問は30の被験者にまたがり、チャート、図表、地図、テーブル、楽譜、化学構造など、39の非常に異種な画像タイプで構成されている。
CMMMUは、中国語の文脈における複雑な認識とドメイン固有の知識による推論に焦点を当てている。
我々は11個のオープンソースLCMと1つのプロプライエタリなGPT-4V(ision)を評価した。
GPT-4Vでさえ42%の精度しか達成せず、改善の余地が大きいことを示している。
CMMMUは、人工知能の専門家に向けて次世代のLMMを構築するためのコミュニティを強化し、多様な言語コンテキストを提供することでLMMの民主化を促進する。 As the capabilities of large multimodal models (LMMs) continue to advance, evaluating the performance of LMMs emerges as an increasing need. Additionally, there is an even larger gap in evaluating the advanced knowledge and reasoning abilities of LMMs in non-English contexts such as Chinese. We introduce CMMMU, a new Chinese Massive Multi-discipline Multimodal Understanding benchmark designed to evaluate LMMs on tasks demanding college-level subject knowledge and deliberate reasoning in a Chinese context. CMMMU is inspired by and strictly follows the annotation and analysis pattern of MMMU. CMMMU includes 12k manually collected multimodal questions from college exams, quizzes, and textbooks, covering six core disciplines: Art & Design, Business, Science, Health & Medicine, Humanities & Social Science, and Tech & Engineering, like its companion, MMMU. These questions span 30 subjects and comprise 39 highly heterogeneous image types, such as charts, diagrams, maps, tables, music sheets, and chemical structures. CMMMU focuses on complex perception and reasoning with domain-specific knowledge in the Chinese context. We evaluate 11 open-source LLMs and one proprietary GPT-4V(ision). Even GPT-4V only achieves accuracies of 42%, indicating a large space for improvement. CMMMU will boost the community to build the next-generation LMMs towards expert artificial intelligence and promote the democratization of LMMs by providing diverse language contexts. | 翻訳日:2024-01-23 13:59:04 公開日:2024-01-22 |
# 因子化勾配降下による低指数テンソル回復 Low-Tubal-Rank Tensor Recovery via Factorized Gradient Descent ( http://arxiv.org/abs/2401.11940v1 ) ライセンス: Link先を確認 | Zhiyu Liu, Zhi Han, Yandong Tang, Xi-Le Zhao, Yao Wang | (参考訳) 本稿では, 少数の線形測定結果から, 基礎となる低ツバルランク構造を持つテンソルを復元する問題を考察する。
このような問題に取り組む従来のアプローチでは、計算集約的なプロセスであるテンソル特異値分解(t-svd)の計算が必要であり、大規模なテンソルを扱うには実用的ではない。
そこで本研究では,burer-monteiro (bm) 法に類似した因子分解法に基づく効率的かつ効率的な低指数テンソル回復法を提案する。
正確には、我々の基本的なアプローチは、大きなテンソルを2つの小さな因子テンソルに分解し、次に分解勾配降下(FGD)によって問題を解くことである。
この戦略はt-svd計算の必要性をなくし、計算コストとストレージ要件を削減する。
我々は,FGDのノイズフリーおよび雑音条件下での収束を確保するために厳密な理論的解析を行う。
さらに,本手法はテンソル管ランクの正確な推定を必要としないことに注意が必要である。
管状ランクがわずかに過大評価されている場合でも,我々の手法は頑健な性能を示し続けている。
提案手法は,他の一般的な手法と比較して,高速な計算速度とより小さい収束誤差の観点から,複数のシナリオにおいて優れた性能を示すことを示すために,一連の実験が実施されている。 This paper considers the problem of recovering a tensor with an underlying low-tubal-rank structure from a small number of corrupted linear measurements. Traditional approaches tackling such a problem require the computation of tensor Singular Value Decomposition (t-SVD), that is a computationally intensive process, rendering them impractical for dealing with large-scale tensors. Aim to address this challenge, we propose an efficient and effective low-tubal-rank tensor recovery method based on a factorization procedure akin to the Burer-Monteiro (BM) method. Precisely, our fundamental approach involves decomposing a large tensor into two smaller factor tensors, followed by solving the problem through factorized gradient descent (FGD). This strategy eliminates the need for t-SVD computation, thereby reducing computational costs and storage requirements. We provide rigorous theoretical analysis to ensure the convergence of FGD under both noise-free and noisy situations. Additionally, it is worth noting that our method does not require the precise estimation of the tensor tubal-rank. Even in cases where the tubal-rank is slightly overestimated, our approach continues to demonstrate robust performance. A series of experiments have been carried out to demonstrate that, as compared to other popular ones, our approach exhibits superior performance in multiple scenarios, in terms of the faster computational speed and the smaller convergence error. | 翻訳日:2024-01-23 13:58:37 公開日:2024-01-22 |
# 断熱開量子力学における大偏差全計数統計 Large deviation full counting statistics in adiabatic open quantum dynamics ( http://arxiv.org/abs/2401.11933v1 ) ライセンス: Link先を確認 | Paulo J. Paulino, Igor Lesanovsky, Federico Carollo | (参考訳) 断熱過程を行う開放量子系の状態は、時間依存生成器の瞬時定常状態に従うことによって進化する。
この観察により、一般的な断熱進化のために、開システムの平均ダイナミクスを特徴付けることができる。
しかし、放出される光子数や1回の実験で時間積分された確率エントロピー生成といった動的観測量のゆらぎに関する情報は、ジェネレータのスペクトル全体を制御し、定常状態だけでなく制御する必要がある。
本稿では, 大偏差理論からツールを活用することにより, 断熱開量子力学においてそのような情報が得られることを示す。
変形生成器に対する断熱的な定理を証明し、偏りのある量子状態において、ジェネリック時間積分力学可観測器の完全な計数統計を符号化する。
さらに、観測可能な任意の「希少」時間履歴に関連する確率を計算し、その典型的な振る舞いでそれを実現するダイナミクスを導出する。
この結果から,アディアバティックなオープン量子力学を特徴づけ,設計し,その変動を制御できる。 The state of an open quantum system undergoing an adiabatic process evolves by following the instantaneous stationary state of its time-dependent generator. This observation allows one to characterize, for a generic adiabatic evolution, the average dynamics of the open system. However, information about fluctuations of dynamical observables, such as the number of photons emitted or the time-integrated stochastic entropy production in single experimental runs, requires controlling the whole spectrum of the generator and not only the stationary state. Here, we show how such information can be obtained in adiabatic open quantum dynamics by exploiting tools from large deviation theory. We prove an adiabatic theorem for deformed generators, which allows us to encode, in a biased quantum state, the full counting statistics of generic time-integrated dynamical observables. We further compute the probability associated with an arbitrary "rare" time-history of the observable and derive a dynamics which realizes it in its typical behavior. Our results provide a way to characterize and engineer adiabatic open quantum dynamics and to control their fluctuations. | 翻訳日:2024-01-23 13:58:14 公開日:2024-01-22 |
# 大きければ大きいほどいいのか?
長期時系列予測における有効モデル尺度の再検討 The Bigger the Better? Rethinking the Effective Model Scale in Long-term Time Series Forecasting ( http://arxiv.org/abs/2401.11929v1 ) ライセンス: Link先を確認 | Jinliang Deng, Xuan Song, Ivor W. Tsang, Hui Xiong | (参考訳) 長期時系列予測(LTSF)は、伝統的なアプローチに典型的な制約付き長さとは対照的に、広範囲な入力シーケンスに焦点を当てた時系列解析において重要なフロンティアである。
長いシーケンスは本質的によりリッチな情報を伝達するが、予測精度を向上させる可能性がある。
これらの複雑なモデルは数百万のパラメータに膨らみ込み、位置エンコーディング、フィードフォワードネットワーク、セルフアテンション機構といったパラメータ集約的な要素が組み込まれます。
しかし、この複雑さは、特に時系列データの意味的単純さを考えると、モデルスケールの禁止につながる。
parsimonyの追求に動機づけられた本研究は,条件付き相関と自己相関を調査ツールとして活用し,入力データに有意な冗長性を示す。
これらの知見を活かして,階層的分解により拡張された軽量トランスフォーマであるhdformerを紹介する。
この新しいアーキテクチャは、モデル拡張に向けた一般的な傾向を逆転させるだけでなく、計算やパラメータを劇的に少なくした正確な予測も達成している。
注目すべきは、HDformerが既存のLTSFモデルより優れており、パラメータは99.%以上少ないことだ。
この研究を通じて、LTSFのパラダイムシフトを提唱し、時系列データの本質的なダイナミクスにモデルを合わせることの重要性を強調します。 Long-term time series forecasting (LTSF) represents a critical frontier in time series analysis, distinguished by its focus on extensive input sequences, in contrast to the constrained lengths typical of traditional approaches. While longer sequences inherently convey richer information, potentially enhancing predictive precision, prevailing techniques often respond by escalating model complexity. These intricate models can inflate into millions of parameters, incorporating parameter-intensive elements like positional encodings, feed-forward networks and self-attention mechanisms. This complexity, however, leads to prohibitive model scale, particularly given the time series data's semantic simplicity. Motivated by the pursuit of parsimony, our research employs conditional correlation and auto-correlation as investigative tools, revealing significant redundancies within the input data. Leveraging these insights, we introduce the HDformer, a lightweight Transformer variant enhanced with hierarchical decomposition. This novel architecture not only inverts the prevailing trend toward model expansion but also accomplishes precise forecasting with drastically fewer computations and parameters. Remarkably, HDformer outperforms existing state-of-the-art LTSF models, while requiring over 99\% fewer parameters. Through this work, we advocate a paradigm shift in LTSF, emphasizing the importance to tailor the model to the inherent dynamics of time series data-a timely reminder that in the realm of LTSF, bigger is not invariably better. | 翻訳日:2024-01-23 13:57:54 公開日:2024-01-22 |
# 複素ネットワークにおける量子空間探索の普遍的スケーリング則 Universal scaling laws of quantum spatial search in complex networks ( http://arxiv.org/abs/2401.11922v1 ) ライセンス: Link先を確認 | Rei Sato, Tetsuro Nikuni, Kayoko Nohara, Giorgio Salani and Shohei Watabe | (参考訳) 複雑なネットワーク上の量子空間探索は強いネットワーク依存を持つため、この量子アルゴリズムに普遍的な視点が存在するかどうかという疑問が生じる。
ここでは,小世界ネットワークやスケールフリーネットワークなどの複雑なネットワーク上での量子空間探索の普遍的スケーリング則を明らかにする。
複素ネットワーク科学における鍵量である平均経路長は、この普遍的な特徴を明らかにするのに有用であり、崩壊プロットは最適時間、最大発見確率、最適ホッピングパラメータに対して生成される。
また,経路積分法に基づいて,連続時間量子ウォークの確率振幅を経路長分布によって決定できることを明らかにした。
この結果は、量子物理学と複素ネットワークの新たな関係を示すものである。 Since quantum spatial searches on complex networks have a strong network dependence, the question arises whether the universal perspective exists in this quantum algorithm for complex networks. Here, we uncover the universal scaling laws of the quantum spatial search on complex networks such as small-world and scale-free networks. The average path length, a key quantity in the complex network science, is useful to expose this universal feature, where the collapse plot can be generated for the optimal time, the maximal finding probability and the optimal hopping parameter. Based on the path integral method, we also clarify that the probability amplitude in the continuous-time quantum walk can be determined by the path length distribution. Our results demonstrate a new link between the quantum physics and the complex networks. | 翻訳日:2024-01-23 13:57:30 公開日:2024-01-22 |
# 多スケールrgb-dサルエント物体検出ネットワークによるsaliency enhanced feature fusion A Saliency Enhanced Feature Fusion based multiscale RGB-D Salient Object Detection Network ( http://arxiv.org/abs/2401.11914v1 ) ライセンス: Link先を確認 | Rui Huang, Qingyi Zhao, Yan Xing, Sihua Gao, Weifeng Xu, Yuxiang Zhang, Wei Fan | (参考訳) マルチスケール畳み込みニューラルネットワーク(cnn)は、様々な視覚問題を解決する顕著な能力を示している。
しかし, 異なるスケールの拡散特性は, RGB-Dサリエンシ検出におけるマルチスケールCNNの適用を妨げている。
本稿では,RGB-D唾液濃度検出のためのSaliency Enhanced Feature Fusion (SEFF) と呼ばれる機能融合モジュールを提案する。
SEFFは、近隣のスケールの塩分マップを利用して、融解に必要な機能を強化し、より代表的なフューズされた特徴をもたらす。
我々のマルチスケールRGB-Dサリエンシ検出器はSEFFを使用して3つの異なるスケールで画像を処理する。
SEFFは、RGBと深度画像の特徴と異なるスケールでのデコーダの特徴を融合するために使用される。
5つのベンチマークデータセットに対する大規模な実験により,SOTAサリエンシ検出器10個以上の方法が優れていることが示された。 Multiscale convolutional neural network (CNN) has demonstrated remarkable capabilities in solving various vision problems. However, fusing features of different scales alwaysresults in large model sizes, impeding the application of multiscale CNNs in RGB-D saliency detection. In this paper, we propose a customized feature fusion module, called Saliency Enhanced Feature Fusion (SEFF), for RGB-D saliency detection. SEFF utilizes saliency maps of the neighboring scales to enhance the necessary features for fusing, resulting in more representative fused features. Our multiscale RGB-D saliency detector uses SEFF and processes images with three different scales. SEFF is used to fuse the features of RGB and depth images, as well as the features of decoders at different scales. Extensive experiments on five benchmark datasets have demonstrated the superiority of our method over ten SOTA saliency detectors. | 翻訳日:2024-01-23 13:57:18 公開日:2024-01-22 |
# 3次元物体検出における大きな受容場戦略と重要な特徴抽出戦略 Large receptive field strategy and important feature extraction strategy in 3D object detection ( http://arxiv.org/abs/2401.11913v1 ) ライセンス: Link先を確認 | Leichao Cui, Xiuxian Li, and Min Meng | (参考訳) 3dオブジェクト検出の強化は、自動運転における正確な環境認識とタスク実行能力の改善にとって重要である。
正確な深度情報を提供するLiDARポイントクラウドは、この目的のために重要な情報となる。
本研究は,3次元ターゲット検出における重要な課題に焦点をあてた。
本研究では,3次元畳み込みカーネルの受容領域の拡大に取り組み,動的特徴融合モジュール(DFFM)を導入する。
このモジュールは、3D畳み込みカーネルの受容場を適応的に拡張し、拡張と許容される計算負荷のバランスをとる。
この革新は操作を減らし、受容場を拡張し、モデルが異なるオブジェクト要求に動的に適応できるようにする。
同時に、冗長な情報を3d機能で識別する。
特徴選択モジュール(fsm)を用いることで、重要でない特徴を定量的に評価、除去し、出力ボックスの嵌合と特徴抽出を分離する。
この革新により、検出器は重要な特徴に焦点を合わせ、モデル圧縮、計算負荷の低減、候補フレームの干渉を最小限に抑えることができる。
DFFMとFSMはいずれも、特に小さなターゲット検出において、現在のベンチマークを向上するだけでなく、ネットワーク性能も向上する。
重要なことに、これらのモジュールは効果的な相補性を示す。 The enhancement of 3D object detection is pivotal for precise environmental perception and improved task execution capabilities in autonomous driving. LiDAR point clouds, offering accurate depth information, serve as a crucial information for this purpose. Our study focuses on key challenges in 3D target detection. To tackle the challenge of expanding the receptive field of a 3D convolutional kernel, we introduce the Dynamic Feature Fusion Module (DFFM). This module achieves adaptive expansion of the 3D convolutional kernel's receptive field, balancing the expansion with acceptable computational loads. This innovation reduces operations, expands the receptive field, and allows the model to dynamically adjust to different object requirements. Simultaneously, we identify redundant information in 3D features. Employing the Feature Selection Module (FSM) quantitatively evaluates and eliminates non-important features, achieving the separation of output box fitting and feature extraction. This innovation enables the detector to focus on critical features, resulting in model compression, reduced computational burden, and minimized candidate frame interference. Extensive experiments confirm that both DFFM and FSM not only enhance current benchmarks, particularly in small target detection, but also accelerate network performance. Importantly, these modules exhibit effective complementarity. | 翻訳日:2024-01-23 13:57:03 公開日:2024-01-22 |
# エッジデバイス用圧縮ネットワークの分布変化に対するロバスト性 Robustness to distribution shifts of compressed networks for edge devices ( http://arxiv.org/abs/2401.12014v1 ) ライセンス: Link先を確認 | Lulan Shen, Ali Edalati, Brett Meyer, Warren Gross, James J. Clark | (参考訳) 計算資源が限られているエッジデバイスに展開する効率的なDNNを開発する必要がある。
しかし、圧縮されたネットワークは、元のネットワークがトレーニングされたソースドメインとは異なるターゲットドメインで新しいタスクを実行することが多い。
領域シフトと対向摂動の2種類のデータ分散シフトにおける圧縮ネットワークの堅牢性を検討することが重要である。
本研究では,圧縮モデルが元のネットワークよりも分散シフトに対して頑健でないことを明らかにする。
興味深いことに、大きなネットワークは、小さなネットワークと同じサイズに圧縮されたとしても、小さなネットワークよりも堅牢性を失うことに弱い。
さらに, 知識蒸留により得られたコンパクトネットワークは, プルーニングネットワークよりも分布シフトに頑健である。
最後に, 学習後の量子化は, 分散シフトに対する顕著なロバスト性を達成するための信頼性の高い方法であり, プランニングモデルと蒸留モデルの両方をロバスト性の観点から上回っている。 It is necessary to develop efficient DNNs deployed on edge devices with limited computation resources. However, the compressed networks often execute new tasks in the target domain, which is different from the source domain where the original network is trained. It is important to investigate the robustness of compressed networks in two types of data distribution shifts: domain shifts and adversarial perturbations. In this study, we discover that compressed models are less robust to distribution shifts than their original networks. Interestingly, larger networks are more vulnerable to losing robustness than smaller ones, even when they are compressed to a similar size as the smaller networks. Furthermore, compact networks obtained by knowledge distillation are much more robust to distribution shifts than pruned networks. Finally, post-training quantization is a reliable method for achieving significant robustness to distribution shifts, and it outperforms both pruned and distilled models in terms of robustness. | 翻訳日:2024-01-23 13:51:23 公開日:2024-01-22 |
# TurboSVM-FL: 遅延クライアントのためのSVM集約によるフェデレーション学習を促進する TurboSVM-FL: Boosting Federated Learning through SVM Aggregation for Lazy Clients ( http://arxiv.org/abs/2401.12012v1 ) ライセンス: Link先を確認 | Mengdi Wang, Anna Bodonhelyi, Efe Bozkir, Enkelejda Kasneci | (参考訳) フェデレーション学習(federated learning)は、分散協調機械学習パラダイムであり、近年、強い勢いを増している。
統合学習では、中央サーバが定期的にクライアントとモデルをコーディネートし、ローカルデータへのアクセスを必要とせずにクライアントがローカルにトレーニングしたモデルを集約する。
その可能性にもかかわらず、フェデレーション学習の実装は、主にデータの多様性による収束が遅いという、いくつかの課題に遭遇し続けている。
遅い収束は、クライアントが計算能力とストレージスペースによって強く制限される可能性があるクロスデバイス・フェデレーション学習シナリオにおいて特に問題となるため、補助的な目的語やより大きなトレーニングイテレーションのようなクライアント側で追加の計算やメモリコストを誘導する対策は現実的ではない。
本稿では,クライアント側で計算負荷を発生させることなく,特にクライアントが"怠慢"である場合のフェデレーション分類タスクの収束を著しく加速し,次のグローバルアグリゲーションのためにのみモデルをトレーニングする,新しいフェデレーション集約戦略であるTurboSVM-FLを提案する。
TurboSVM-FLは、サポートベクトルマシンを広範囲に利用して、クラス埋め込み上で選択的集約と最大マージンのスプレッドアウト正規化を行う。
我々は,FEMNIST,CelebA,シェークスピアを含む複数のデータセット上でTurboSVM-FLを評価する。
以上の結果から,TurboSVM-FLはコンバージェンスレートのアルゴリズムよりも優れ,通信ラウンドの削減や精度,F1スコア,MCCといった優れたテスト指標の提供が可能であることが示唆された。 Federated learning is a distributed collaborative machine learning paradigm that has gained strong momentum in recent years. In federated learning, a central server periodically coordinates models with clients and aggregates the models trained locally by clients without necessitating access to local data. Despite its potential, the implementation of federated learning continues to encounter several challenges, predominantly the slow convergence that is largely due to data heterogeneity. The slow convergence becomes particularly problematic in cross-device federated learning scenarios where clients may be strongly limited by computing power and storage space, and hence counteracting methods that induce additional computation or memory cost on the client side such as auxiliary objective terms and larger training iterations can be impractical. In this paper, we propose a novel federated aggregation strategy, TurboSVM-FL, that poses no additional computation burden on the client side and can significantly accelerate convergence for federated classification task, especially when clients are "lazy" and train their models solely for few epochs for next global aggregation. TurboSVM-FL extensively utilizes support vector machine to conduct selective aggregation and max-margin spread-out regularization on class embeddings. We evaluate TurboSVM-FL on multiple datasets including FEMNIST, CelebA, and Shakespeare using user-independent validation with non-iid data distribution. Our results show that TurboSVM-FL can significantly outperform existing popular algorithms on convergence rate and reduce communication rounds while delivering better test metrics including accuracy, F1 score, and MCC. | 翻訳日:2024-01-23 13:51:08 公開日:2024-01-22 |
# データ集約型アプリケーションの構築 : データアーキテクチャ設計から品質保証まで Architecting Data-Intensive Applications : From Data Architecture Design to Its Quality Assurance ( http://arxiv.org/abs/2401.12011v1 ) ライセンス: Link先を確認 | Moamin Abughazala | (参考訳) コンテキスト - データの指数的な成長は重要な関心事になりつつある。
このデータの管理は、特にさまざまなフォーマットと速度でさまざまなソースを扱う場合、非常に難しくなっています。
さらに、効果的な意思決定と運用プロセスでは、データ品質の確保がますます重要になっている。
データアーキテクチャは、ビジネスニーズを満たすデータの記述、収集、保存、処理、分析に不可欠である。
データ集約型アプリケーションの抽象的なビューを提供することは、データが貴重な情報に変換されることを保証するために不可欠である。
データを効果的に管理し、活用できるように、これらの課題を真剣に受け止めなければなりません。
目的 - データアーキテクチャを包括的に記述し、データ品質監視を効果的に合理化するアーキテクチャフレームワークを確立する。
メソッド - アーキテクチャフレームワークはモデル駆動工学(MDE)技術を利用する。
データ集約型アーキテクチャ記述のバックアップは、データ品質チェックの自動生成を可能にする。
結果 - フレームワークは、データ集約型アプリケーションがアーキテクチャを効率的にモデル化し、データの品質を監視するための包括的なソリューションを提供する。
プロセス全体を自動化し、データの正確性と一貫性を保証する。
datによって、アーキテクトとアナリストはワークフローを単純化し、信頼できるデータ洞察に基づいてインフォームドな意思決定を行う強力なツールにアクセスできるようになる。
結論 - さまざまな業界領域で5件以上のケースでdatを評価し,その適用性と有効性を実証した。 Context - The exponential growth of data is becoming a significant concern. Managing this data has become incredibly challenging, especially when dealing with various sources in different formats and speeds. Moreover, Ensuring data quality has become increasingly crucial for effective decision-making and operational processes. Data Architecture is crucial in describing, collecting, storing, processing, and analyzing data to meet business needs. Providing an abstract view of data-intensive applications is essential to ensure that the data is transformed into valuable information. We must take these challenges seriously to ensure we can effectively manage and use the data to our advantage. Objective - To establish an architecture framework that enables a comprehensive description of the data architecture and effectively streamlines data quality monitoring. Method - The architecture framework utilizes Model Driven Engineering (MDE) techniques. Its backing of data-intensive architecture descriptions empowers with an automated generation for data quality checks. Result - The Framework offers a comprehensive solution for data-intensive applications to model their architecture efficiently and monitor the quality of their data. It automates the entire process and ensures precision and consistency in data. With DAT, architects and analysts gain access to a powerful tool that simplifies their workflow and empowers them to make informed decisions based on reliable data insights. Conclusion - We have evaluated the DAT on more than five cases within various industry domains, demonstrating its exceptional adaptability and effectiveness. | 翻訳日:2024-01-23 13:50:37 公開日:2024-01-22 |
# テンソルビュー位相グラフニューラルネットワーク Tensor-view Topological Graph Neural Network ( http://arxiv.org/abs/2401.12007v1 ) ライセンス: Link先を確認 | Tao Wen, Elynn Chen, Yuzhou Chen | (参考訳) グラフ分類はグラフ構造化データにとって重要な学習課題である。
グラフニューラルネットワーク(gnns)は最近、グラフ学習で注目を集め、多くの重要なグラフ問題で大きな改善が見られた。
最先端のパフォーマンスにもかかわらず、既存のGNNは各ノード周辺の非常に限られたエリアからのローカル情報しか使用せず、マルチモーダル情報や過剰な計算のオーバーヘッドに悩まされている。
これらの問題に対処するために, 永続的ホモロジー, グラフ畳み込み, テンソル演算に基づいて構築された, 単純かつ効果的な位相深層学習のクラスである, テンソルビュートポロジカルグラフニューラルネットワーク(TTG-NN)を提案する。
この新しい方法はテンソル学習を取り入れ、テンソルビュートポロジー(tt)とテンソルビューグラフ(tg)の構造情報を局所的および大域的に同時に捉える。
グラフのトポロジーと構造を十分に活用するために,2つの柔軟なttおよびtg表現学習モジュールを提案し,特徴的テンソル凝集と変換を分離し,少ない計算量でマルチモーダル構造を保存することを学ぶ。
理論的には、提案したテンソル変換層(TTL)に対して、サンプル外およびサンプル内両方の2乗平均近似誤差に高い確率境界を導出する。
実データ実験により,提案したTTG-NNは,グラフベンチマークにおいて20の最先端手法より優れていた。 Graph classification is an important learning task for graph-structured data. Graph neural networks (GNNs) have recently gained growing attention in graph learning and have shown significant improvements in many important graph problems. Despite their state-of-the-art performances, existing GNNs only use local information from a very limited neighborhood around each node, suffering from loss of multi-modal information and overheads of excessive computation. To address these issues, we propose a novel Tensor-view Topological Graph Neural Network (TTG-NN), a class of simple yet effective topological deep learning built upon persistent homology, graph convolution, and tensor operations. This new method incorporates tensor learning to simultaneously capture Tensor-view Topological (TT), as well as Tensor-view Graph (TG) structural information on both local and global levels. Computationally, to fully exploit graph topology and structure, we propose two flexible TT and TG representation learning modules that disentangle feature tensor aggregation and transformation and learn to preserve multi-modal structure with less computation. Theoretically, we derive high probability bounds on both the out-of-sample and in-sample mean squared approximation errors for our proposed Tensor Transformation Layer (TTL). Real data experiments show that the proposed TTG-NN outperforms 20 state-of-the-art methods on various graph benchmarks. | 翻訳日:2024-01-23 13:50:10 公開日:2024-01-22 |
# ALMs:オーサリング属性のためのオーサライザ言語モデル ALMs: Authorial Language Models for Authorship Attribution ( http://arxiv.org/abs/2401.12005v1 ) ライセンス: Link先を確認 | Weihang Huang and Akira Murakami and Jack Grieve | (参考訳) 本稿では,候補著者の著作に基づいて微調整された因果関係言語モデルを用いて算出された質問文書のパープレキシティに基づいて,質問文書の最も可能性の高い著者を特定することを含む,著作者言語モデル(alms)と呼ばれる著者帰属法を提案する。
CCAT50データセットとBlogs50データセットを使用して、ALMを最先端システムと比較した。
ALMは,Blogs50で83.6%,CCAT50で74.9%,マクロ平均精度で83.6%のスコアを達成している。
短いテキストにおけるalmsの性能を評価するために,テキストアブレーションテストも行った。
マクロ平均精度が70%に達するには,blogs50では40トークン,ccat50では400トークン,blogs50では60トークン,ccat50では70トークンが必要となる。 In this paper, we introduce an authorship attribution method called Authorial Language Models (ALMs) that involves identifying the most likely author of a questioned document based on the perplexity of the questioned document calculated for a set of causal language models fine-tuned on the writings of a set of candidate author. We benchmarked ALMs against state-of-art-systems using the CCAT50 dataset and the Blogs50 datasets. We find that ALMs achieves a macro-average accuracy score of 83.6% on Blogs50, outperforming all other methods, and 74.9% on CCAT50, matching the performance of the best method. To assess the performance of ALMs on shorter texts, we also conducted text ablation testing. We found that to reach a macro-average accuracy of 70%, ALMs needs 40 tokens on Blogs50 and 400 tokens on CCAT50, while to reach 60% ALMs requires 20 tokens on Blogs50 and 70 tokens on CCAT50. | 翻訳日:2024-01-23 13:49:25 公開日:2024-01-22 |
# NLCG-Net: 定量的MRI再構成のためのモデルベースゼロショット学習フレームワーク NLCG-Net: A Model-Based Zero-Shot Learning Framework for Undersampled Quantitative MRI Reconstruction ( http://arxiv.org/abs/2401.12004v1 ) ライセンス: Link先を確認 | Xinrui Jiang, Yohan Jun, Jaejin Cho, Mengze Gao, Xingwang Yong, Berkin Bilgic | (参考訳) 典型的な定量的MRI(qMRI)法は、画像再構成後のパラメータマップを推定する。
本稿では,モデルベースt2/t1推定のための非線形共役勾配(nlcg)オプティマイザを提案する。
このエンド・ツー・エンド法は、ゼロショットスキャン特異的ニューラルネットワーク正規化を用いた単例信号モデリングを用いて、アンダーサンプルk空間データからqMRIマップを直接推定し、高い忠実度T1およびT2マッピングを実現する。
t2 と t1 マッピングの結果,高加速時の部分空間再構成と比較して,提案する nlcg-net による推定精度の向上が示された。 Typical quantitative MRI (qMRI) methods estimate parameter maps after image reconstructing, which is prone to biases and error propagation. We propose a Nonlinear Conjugate Gradient (NLCG) optimizer for model-based T2/T1 estimation, which incorporates U-Net regularization trained in a scan-specific manner. This end-to-end method directly estimates qMRI maps from undersampled k-space data using mono-exponential signal modeling with zero-shot scan-specific neural network regularization to enable high fidelity T1 and T2 mapping. T2 and T1 mapping results demonstrate the ability of the proposed NLCG-Net to improve estimation quality compared to subspace reconstruction at high accelerations. | 翻訳日:2024-01-23 13:48:59 公開日:2024-01-22 |
# HgbNet : EHRデータによるヘモグロビンレベル/貧血度予測 HgbNet: predicting hemoglobin level/anemia degree from EHR data ( http://arxiv.org/abs/2401.12002v1 ) ライセンス: Link先を確認 | Zhuo Zhi, Moe Elbadawi, Adam Daneshmend, Mine Orlu, Abdul Basit, Andreas Demosthenous, Miguel Rodrigues | (参考訳) 貧血は一般的な医学疾患であり、診断とモニタリングには侵襲的な血液検査が必要である。
電子健康記録 (EHRs) は、多くの医学研究において貴重なデータ源となっている。
EHRベースのヘモグロビンレベル/貧血度予測は非侵襲的で急速であるが、EHRデータは典型的にはかなりの数の欠落値と不規則な時間間隔を含む多変量時系列であるため、いくつかの課題に直面している。
これらの問題に対処するために、ヘモグロビンレベル/貧血度予測のための臨床医の意思決定プロセスをエミュレートする機械学習ベースの予測モデルであるHgbNetを紹介する。
このモデルはナンデンス層と不足した値を扱う指標を組み込んでおり、局所的な不規則性とグローバルな不規則性の両方を考慮した注意機構を採用している。
2つのユースケースにわたる実世界のデータセットを用いて提案手法を評価する。
最初の症例では, ヘモグロビン濃度/貧血度をT+1以前の記録を用いて予測した。
第2のユースケースでは,すべての履歴記録をt+1時点で追加で選択したテスト結果と統合し,同時にヘモグロビンレベル/貧血度を予測する。
hgbnetは、すべてのデータセットとユースケースで最高のベースライン結果を上回る。
これらの結果は、ehlデータからヘモグロビン濃度と貧血度を推定する可能性を示し、hgbnetを世界中の何百万人もの影響を受けた人の生活の質を高める効果的な非侵襲性貧血診断ソリューションと位置づけている。
我々の知る限り、HgbNetはヘモグロビンレベル/貧血度予測にEHRデータを活用する最初の機械学習モデルである。 Anemia is a prevalent medical condition that typically requires invasive blood tests for diagnosis and monitoring. Electronic health records (EHRs) have emerged as valuable data sources for numerous medical studies. EHR-based hemoglobin level/anemia degree prediction is non-invasive and rapid but still faces some challenges due to the fact that EHR data is typically an irregular multivariate time series containing a significant number of missing values and irregular time intervals. To address these issues, we introduce HgbNet, a machine learning-based prediction model that emulates clinicians' decision-making processes for hemoglobin level/anemia degree prediction. The model incorporates a NanDense layer with a missing indicator to handle missing values and employs attention mechanisms to account for both local irregularity and global irregularity. We evaluate the proposed method using two real-world datasets across two use cases. In our first use case, we predict hemoglobin level/anemia degree at moment T+1 by utilizing records from moments prior to T+1. In our second use case, we integrate all historical records with additional selected test results at moment T+1 to predict hemoglobin level/anemia degree at the same moment, T+1. HgbNet outperforms the best baseline results across all datasets and use cases. These findings demonstrate the feasibility of estimating hemoglobin levels and anemia degree from EHR data, positioning HgbNet as an effective non-invasive anemia diagnosis solution that could potentially enhance the quality of life for millions of affected individuals worldwide. To our knowledge, HgbNet is the first machine learning model leveraging EHR data for hemoglobin level/anemia degree prediction. | 翻訳日:2024-01-23 13:48:36 公開日:2024-01-22 |
# 異次元平面スイープによるエンドツーエンドステレオマッチングネットワークからのステレオ信頼のモデル化 Modeling Stereo-Confidence Out of the End-to-End Stereo-Matching Network via Disparity Plane Sweep ( http://arxiv.org/abs/2401.12001v1 ) ライセンス: Link先を確認 | Jae Young Lee, Woonghyun Ka, Jaehyun Choi, Junmo Kim | (参考訳) 本稿では,様々なステレオマッチングネットワークに対して外部から測定可能な新しいステレオ信頼度を提案し,特に安全クリティカルシステムにおいて,学習ベースアプローチにおいてコストボリュームの代替入力モダリティ選択を提供する。
本提案手法は, 立体像対のシフトを, 等間隔写像における対応する量シフトで更新する, という考え方に基づいて, 基本概念である不均一性の定義と不均質平面の掃討を基礎として構築されている。
この考えに基づき,提案手法は3つの折り畳みにまとめることができる。
1)不均質平面スイープを用いて、コストボリュームが構築されるように、複数の不均質マップを3次元ボリューム(予測不均質ボリューム)として取得、処理することができる。
2) これらの不均等写像の1つはアンカーとして機能し、任意の空間点において望ましい(あるいは理想的な)不均質プロファイルを定義することができる。
3) 予測された不一致プロファイルを比較することで, 信頼度測定のための左右画像間の一致曖昧度を定量化することができる。
各種ステレオマッチングネットワークとデータセットを用いた大規模な実験結果から,提案手法は自力で競合性能を示すだけでなく,学習に基づくステレオ信頼手法の入力モダリティとして使用する場合,一貫した性能向上を示す。 We propose a novel stereo-confidence that can be measured externally to various stereo-matching networks, offering an alternative input modality choice of the cost volume for learning-based approaches, especially in safety-critical systems. Grounded in the foundational concepts of disparity definition and the disparity plane sweep, the proposed stereo-confidence method is built upon the idea that any shift in a stereo-image pair should be updated in a corresponding amount shift in the disparity map. Based on this idea, the proposed stereo-confidence method can be summarized in three folds. 1) Using the disparity plane sweep, multiple disparity maps can be obtained and treated as a 3-D volume (predicted disparity volume), like the cost volume is constructed. 2) One of these disparity maps serves as an anchor, allowing us to define a desirable (or ideal) disparity profile at every spatial point. 3) By comparing the desirable and predicted disparity profiles, we can quantify the level of matching ambiguity between left and right images for confidence measurement. Extensive experimental results using various stereo-matching networks and datasets demonstrate that the proposed stereo-confidence method not only shows competitive performance on its own but also consistent performance improvements when it is used as an input modality for learning-based stereo-confidence methods. | 翻訳日:2024-01-23 13:47:23 公開日:2024-01-22 |
# パターン発見における統計的意義と判別力の統合 Integrating Statistical Significance and Discriminative Power in Pattern Discovery ( http://arxiv.org/abs/2401.12000v1 ) ライセンス: Link先を確認 | Leonardo Alexandre and Rafael S. Costa and Rui Henriques | (参考訳) パターン発見は、複数のドメインにわたる記述的タスクと予測的タスクにおいて中心的な役割を果たす。
行動可能なパターンは厳密な統計的重要性の基準を満たし、ターゲット変数の存在下では、さらに差別的なパワーを保たなければならない。
本研究は,パターン品質を維持しつつ,統計的意義と判別力の基準を最先端アルゴリズムに統合することにより,パターン発見の未熟な領域に対処した。
また、これらの追加の基準を満たすために、いくつかのアルゴリズムによって課されるパターン品質しきい値をどのように修正できるかについても論じる。
提案手法をテストするため,提案手法はトリクラスタリングタスクをガイドパターン発見のケースとして選択し,よく知られたグリードと多目的最適化のトリクラスタリングアルゴリズムである$\delta$-TrimaxとTriGenを,平均二乗残差(MSR),最小二乗線(LSL),マルチスロープ測度(MSL)などのパターン品質基準を用いて拡張する。
3つのケーススタディの結果から,識別力の顕著な向上と品質劣化を伴わない統計的意義を有するパターンの発見において,提案手法が果たす役割が示唆された。
提案手法は多変量時系列データに基づいて動機付けされているが,多変量,Nウェイ(N>3),トランザクショナル,シーケンシャルなデータ構造を含むパターン発見タスクに容易に拡張できる。
可用性: コードはMITライセンス下でhttps://github.com/JupitersMight/MOF_Triclusteringで無償公開されている。 Pattern discovery plays a central role in both descriptive and predictive tasks across multiple domains. Actionable patterns must meet rigorous statistical significance criteria and, in the presence of target variables, further uphold discriminative power. Our work addresses the underexplored area of guiding pattern discovery by integrating statistical significance and discriminative power criteria into state-of-the-art algorithms while preserving pattern quality. We also address how pattern quality thresholds, imposed by some algorithms, can be rectified to accommodate these additional criteria. To test the proposed methodology, we select the triclustering task as the guiding pattern discovery case and extend well-known greedy and multi-objective optimization triclustering algorithms, $\delta$-Trimax and TriGen, that use various pattern quality criteria, such as Mean Squared Residual (MSR), Least Squared Lines (LSL), and Multi Slope Measure (MSL). Results from three case studies show the role of the proposed methodology in discovering patterns with pronounced improvements of discriminative power and statistical significance without quality deterioration, highlighting its importance in supervisedly guiding the search. Although the proposed methodology is motivated over multivariate time series data, it can be straightforwardly extended to pattern discovery tasks involving multivariate, N-way (N>3), transactional, and sequential data structures. Availability: The code is freely available at https://github.com/JupitersMight/MOF_Triclustering under the MIT license. | 翻訳日:2024-01-23 13:46:35 公開日:2024-01-22 |
# 運用mlモデルのエキスパート駆動モニタリング Expert-Driven Monitoring of Operational ML Models ( http://arxiv.org/abs/2401.11993v1 ) ライセンス: Link先を確認 | Joran Leest, Claudia Raibulet, Ilias Gerostathopoulos, Patricia Lago | (参考訳) 我々は、機械学習(ML)モデルにおける概念ドリフトの検出と緩和を強化するために、ドメインの専門知識を活用するアプローチであるExpert Monitoringを提案する。
提案手法は, ドリフト誘導イベントに関するドメインの専門知識を統合し, この専門知識をオンコール担当者に公開し, 専門家の監視による自動適応性を実現することによって, 実践者を支援する。 We propose Expert Monitoring, an approach that leverages domain expertise to enhance the detection and mitigation of concept drift in machine learning (ML) models. Our approach supports practitioners by consolidating domain expertise related to concept drift-inducing events, making this expertise accessible to on-call personnel, and enabling automatic adaptability with expert oversight. | 翻訳日:2024-01-23 13:46:06 公開日:2024-01-22 |
# ダイヤモンドにおける大型電子スピンアンサンブルの精密制御のための四角形アンテナ Versatile quadrature antenna for precise control of large electron spin ensembles in diamond ( http://arxiv.org/abs/2401.11986v1 ) ライセンス: Link先を確認 | Ruben Pellicer-Guridi, Koen Custers, Joseba Solozabal-Aldalur, Alexey Brodolin, Jason T. Francis, Miguel Varga, Jorge Casanova, Margarethus M. Paulides, and Gabriel Molina-Terriza | (参考訳) 本稿では、電子スピンを大容量で高速かつコヒーレントに制御できる、任意の偏波の強均質な磁場を発生できる、容易に再現可能な安価なマイクロ波アンテナを提案する。
先行研究とは異なり、他の実験ハードウェアコンポーネントの近接にかかわらず共鳴動作を維持する共振アンテナを提案する。
このロバスト性は、短い作業距離の顕微鏡目的を用いてバルクダイヤモンドで広い視野のイメージング/センシングを行うことを可能にするため、特に重要である。
アンテナは1wの駆動電力に対して22.3a/mの磁場強度を発生させ、以前報告されたパッチアンテナ設計に比べて電力効率を2倍にする。
1 \text{mm}^3$の体積における磁場の均一性は6.6\%以内である。
アンテナの幅は半分の最大帯域幅が$\sim$160 MHzで、共振周波数は4つのコンデンサまたはバリアクターを介して400MHzの範囲で調整できる。
アンテナは、標準で安価な両面pcbで構築できるこのアンテナを再現するために必要なファイルは、オープンソースとして提供されている。
この研究はロバストで多用途の計測を容易にし、特に高感度磁気測定や窒素空隙センタを用いた広視野イメージング/センシングなどの用途にアピールしている。 We present an easily reproducible inexpensive microwave antenna that can generate a strong and homogeneous magnetic field of arbitrary polarization, which enables fast and coherent control of electron spins over a large volume. Unlike preceding works, we present a resonant antenna that maintains its resonant behaviour regardless of the proximity of other experimental hardware components. This robustness is crucial as it enables, amongst others, using microscope objectives with short working distances to perform wide field imaging/sensing with bulk diamonds. The antenna generates a magnetic field strength of 22.3 A/m for 1 W total driving power, which doubles the power efficiency compared with previously reported patch antenna designs. The magnetic field homogeneity in a volume of $1 \text{mm}^3$ is within 6.6\%. The antenna has a full width at half maximum bandwidth of $\sim$160 MHz and its resonant frequency can be tuned over a 400 MHz range via four capacitors or varactors. The antenna has been tested and found to remain within safe handling temperatures during continuous-wave operation at 8 W. The files required to reproduce this antenna, which can be built on a standard and affordable double sided PCB, are provided open-source. This work facilitates a robust and versatile piece of instrumentation, being particularly appealing for applications such as high sensitivity magnetometry and wide field imaging/sensing with Nitrogen Vacancy centers. | 翻訳日:2024-01-23 13:45:58 公開日:2024-01-22 |
# 顔インタラクショングラフネットワークを実世界のシーンに拡張する Scaling Face Interaction Graph Networks to Real World Scenes ( http://arxiv.org/abs/2401.11985v1 ) ライセンス: Link先を確認 | Tatiana Lopez-Guevara, Yulia Rubanova, William F. Whitney, Tobias Pfaff, Kimberly Stachenfeld, Kelsey R. Allen | (参考訳) ロボット工学、工学、グラフィック、デザインなどの様々な応用において、現実世界のオブジェクトの正確なシミュレーションが不可欠である。
接触や摩擦といった複雑な現実のダイナミクスをよりよく捉えるために、グラフネットワークに基づく学習シミュレータは、最近大きな可能性を秘めている。
しかし、これらの学習されたシミュレータを現実のシーンに適用するには、2つの大きな課題がある: まず、学習したシミュレータをスケーリングして、複雑な3D形状の数百のオブジェクトを含む実世界のシーンの複雑さを扱う。
本稿では,グラフベースの学習シミュレータの実行に必要なメモリを大幅に削減する手法を提案する。
このメモリ効率のシミュレーションモデルに基づいて、現実のシーンをグラフネットワークシミュレータで処理可能な構造化表現に変換することができる編集可能なNeRFの形で知覚インターフェースを提示する。
提案手法は,従来のグラフベースのシミュレータに比べて,精度を保ちながらメモリを著しく少なくし,合成環境で学習したシミュレータを複数のカメラアングルから取得した実世界シーンに適用可能であることを示す。
これにより、学習シミュレータの応用を推論時に知覚情報のみを利用できる設定に拡張する手段が整う。 Accurately simulating real world object dynamics is essential for various applications such as robotics, engineering, graphics, and design. To better capture complex real dynamics such as contact and friction, learned simulators based on graph networks have recently shown great promise. However, applying these learned simulators to real scenes comes with two major challenges: first, scaling learned simulators to handle the complexity of real world scenes which can involve hundreds of objects each with complicated 3D shapes, and second, handling inputs from perception rather than 3D state information. Here we introduce a method which substantially reduces the memory required to run graph-based learned simulators. Based on this memory-efficient simulation model, we then present a perceptual interface in the form of editable NeRFs which can convert real-world scenes into a structured representation that can be processed by graph network simulator. We show that our method uses substantially less memory than previous graph-based simulators while retaining their accuracy, and that the simulators learned in synthetic environments can be applied to real world scenes captured from multiple camera angles. This paves the way for expanding the application of learned simulators to settings where only perceptual information is available at inference time. | 翻訳日:2024-01-23 13:45:34 公開日:2024-01-22 |
# 高等教育における学習分析 -ドイツにおける学生と教師の期待- Learning Analytics in Higher Education -- Exploring Students and Teachers Expectations in Germany ( http://arxiv.org/abs/2401.11981v1 ) ライセンス: Link先を確認 | Birthe Fritz, Dana Kube, Sonja Scherer, Hendrik Drachsler | (参考訳) 技術強化学習分析は、将来高等教育において重要な役割を果たす可能性がある。
技術と学習分析に対する意見と期待は、高等教育機関における機関の発展を検討する上で不可欠である。
sheilaフレームワークは、高等教育における学習分析のような技術に対するステークホルダーの願望に関する探索的な知識を提供する。
この研究のサンプルは、ドイツの高等教育機関の学生(N = 1169)と教師(N = 497)で構成されている。
自己報告質問紙を用いて, 学生と教員の学習分析に対する態度を, 理想と期待状況を比較して評価した。
本報告では,学生,教師の態度,および2つのグループと異なる分野の比較について報告する。
本研究は,高等教育におけるラーニングアナリティクスの実践とさらなる発展に関する実践的意義について考察する。 Technology enhanced learning analytics has the potential to play a significant role in higher education in the future. Opinions and expectations towards technology and learning analytics, thus, are vital to consider for institutional developments in higher education institutions. The Sheila framework offers instruments to yield exploratory knowledge about stakeholder aspirations towards technology, such as learning analytics in higher education. The sample of the study consists of students (N = 1169) and teachers (N = 497) at a higher education institution in Germany. Using self-report questionnaires, we assessed students and teachers attitudes towards learning analytics in higher education teaching, comparing ideal and expected circumstances. We report results on the attitudes of students, teachers, as well as comparisons of the two groups and different disciplines. We discuss the results with regard to practical implications for the implementation and further developments of learning analytics in higher education. | 翻訳日:2024-01-23 13:45:11 公開日:2024-01-22 |
# パリティ変換下のコンパイルグラフの一意性について On the uniqueness of compiling graphs under the parity transformation ( http://arxiv.org/abs/2401.11980v1 ) ライセンス: Link先を確認 | Florian Dreier, Wolfgang Lechner | (参考訳) 本稿では,グラフ理論の概念を利用して,解析可能なすべてのハイパーグラフを包含する写像としてパリティ変換を定義する数学的枠組みを確立し,この写像の特異性についてより詳細に検討する。
いわゆるループラベリングを導入することで、グラフのすべての同値類が考慮されている場合に、この符号化手順の下でコンパイルされた任意のハイパーグラフのプリイメージの代替表現を導出する。
すると、グラフのすべての同値類の任意の部分集合上のパリティ変換の単射性に対する等価条件を導出する。
さらに,パリティ変換が射影写像ではないことを示す最適化問題の具体例を示すとともに,プラーペットレイアウトの重要クラスとその先行画像が一意に決定される制約セットを導入する。
さらに,理論計算機科学の古典的アルゴリズムに基づくアルゴリズムを提供し,このクラスでコンパイルされた物理レイアウトを多項式時間で計算する。 In this article, we establish a mathematical framework that utilizes concepts from graph theory to define the parity transformation as a mapping that encompasses all possible compiled hypergraphs, and investigate uniqueness properties of this mapping in more detail. By introducing so-called loop labelings, we derive an alternative expression of the preimage of any set of compiled hypergraphs under this encoding procedure when all equivalences classes of graphs are being considered. We then deduce equivalent conditions for the injectivity of the parity transformation on any subset of all equivalences classes of graphs. Moreover, we show concrete examples of optimization problems demonstrating that the parity transformation is not an injective mapping, and also introduce an important class of plaquette layouts and their corresponding set of constraints whose preimage is uniquely determined. In addition, we provide an algorithm which is based on classical algorithms from theoretical computer science and computes a compiled physical layout in this class in polynomial time. | 翻訳日:2024-01-23 13:44:55 公開日:2024-01-22 |
# クロス・バリデーション・コンフォメーション・リスク制御 Cross-Validation Conformal Risk Control ( http://arxiv.org/abs/2401.11974v1 ) ライセンス: Link先を確認 | Kfir M. Cohen, Sangwoo Park, Osvaldo Simeone, Shlomo Shamai (Shitz) | (参考訳) コンフォーマルリスク制御(CRC)は、従来の点予測器にポストホックを適用してキャリブレーションを保証する手法である。
CRCを用いて共形予測(CP)を一般化し、点予測器から抽出された設定予測器に対して校正を行い、誤発見の確率や偽陰率などのリスク関数を制御する。
元のcrcでは、利用可能なデータセットをトレーニングと検証データセットに分割する必要がある。
データ可用性が制限された場合、これは問題になり、結果として非効率なセット予測が生じる。
本稿では,従来のCRCの検証ではなく,クロスバリデーションに基づく新しいCRC手法を提案する。
提案したクロスバリデーションCRC (CV-CRC) は、ジャッキニフェミンマックスのバージョンをCPからCRCに拡張し、幅広いリスク関数の制御を可能にした。
CV-CRCは、設定された予測子の平均リスクに関する理論的保証を提供する。
さらに,CV-CRCは利用可能なデータに制限がある場合,CRCに対して平均セットサイズを小さくすることができる。 Conformal risk control (CRC) is a recently proposed technique that applies post-hoc to a conventional point predictor to provide calibration guarantees. Generalizing conformal prediction (CP), with CRC, calibration is ensured for a set predictor that is extracted from the point predictor to control a risk function such as the probability of miscoverage or the false negative rate. The original CRC requires the available data set to be split between training and validation data sets. This can be problematic when data availability is limited, resulting in inefficient set predictors. In this paper, a novel CRC method is introduced that is based on cross-validation, rather than on validation as the original CRC. The proposed cross-validation CRC (CV-CRC) extends a version of the jackknife-minmax from CP to CRC, allowing for the control of a broader range of risk functions. CV-CRC is proved to offer theoretical guarantees on the average risk of the set predictor. Furthermore, numerical experiments show that CV-CRC can reduce the average set size with respect to CRC when the available data are limited. | 翻訳日:2024-01-23 13:44:40 公開日:2024-01-22 |
# SEDAC:セキュリティバグレポート識別のためのCVAEベースのデータ拡張手法 SEDAC: A CVAE-Based Data Augmentation Method for Security Bug Report Identification ( http://arxiv.org/abs/2401.12060v1 ) ライセンス: Link先を確認 | Y. Liao, T. Zhang | (参考訳) バグトラッキングシステムは多数のバグレポートを格納しており、その一部はセキュリティに関するものである。
これらのセキュリティバグレポート(SBR)を識別することは、セキュリティ関連のバグを予測し、セキュリティ上の問題を迅速に解決し、プロジェクトが脅威や攻撃を避けるのに役立ちます。
しかし,実世界では,セキュリティバグ報告の割合は極めて低いため,生データによる予測モデルを直接トレーニングすることで,不正確な結果が得られる可能性がある。
データ不均衡という大きな課題に直面した多くの研究者は、テキストフィルタリングやクラスタリング手法を使用して、非セキュリティバグレポート(NSBR)の割合を最小化したり、SBRを合成するためにオーバーサンプリング手法を適用して、可能な限りバランスをとろうとしてきた。
それでも、これらの方法にはまだ2つの課題がある。
1)長距離文脈情報を無視する。
2) 完全にバランスの取れたデータセットを生成できない。
この2つの課題に対処するため、SEDACは、類似のバグレポートベクトルを生成し、データの不均衡を解消し、セキュリティバグレポートを正確に検出する新しいSBR識別手法を提案する。
従来の研究とは異なり、まずバグレポートを、Word2vecをベースにした distilBERT で個々のバグレポートベクターに変換する。
次に、条件付き変分オートエンコーダ(CVAE)を用いて生成モデルをトレーニングし、セキュリティラベルと類似したベクトルを生成し、SBRの数をNSBRと等しくする。
最後に、バランスの取れたデータはセキュリティバグレポート分類器のトレーニングに使用される。
フレームワークの有効性を評価するため、Chromiumと4つのApacheプロジェクトから45,940のバグレポートを作成しました。
実験の結果、SEDACは、約14.24%-50.10%の改善により、g測定におけるすべてのベースラインより優れていた。 Bug tracking systems store many bug reports, some of which are related to security. Identifying those security bug reports (SBRs) may help us predict some security-related bugs and solve security issues promptly so that the project can avoid threats and attacks. However, in the real world, the ratio of security bug reports is severely low; thus, directly training a prediction model with raw data may result in inaccurate results. Faced with the massive challenge of data imbalance, many researchers in the past have attempted to use text filtering or clustering methods to minimize the proportion of non-security bug reports (NSBRs) or apply oversampling methods to synthesize SBRs to make the dataset as balanced as possible. Nevertheless, there are still two challenges to those methods: 1) They ignore long-distance contextual information. 2) They fail to generate an utterly balanced dataset. To tackle these two challenges, we propose SEDAC, a new SBR identification method that generates similar bug report vectors to solve data imbalance problems and accurately detect security bug reports. Unlike previous studies, it first converts bug reports into individual bug report vectors with distilBERT, which are based on word2vec. Then, it trains a generative model through conditional variational auto-encoder (CVAE) to generate similar vectors with security labels, which makes the number of SBRs equal to NSBRs'. Finally, balanced data are used to train a security bug report classifier. To evaluate the effectiveness of our framework, we conduct it on 45,940 bug reports from Chromium and four Apache projects. The experimental results show that SEDAC outperforms all the baselines in g-measure with improvements of around 14.24%-50.10%. | 翻訳日:2024-01-23 13:38:09 公開日:2024-01-22 |
# 勾配による次元逆戻り:確率凸最適化における勾配法の一般化 The Dimension Strikes Back with Gradients: Generalization of Gradient Methods in Stochastic Convex Optimization ( http://arxiv.org/abs/2401.12058v1 ) ライセンス: Link先を確認 | Matan Schliserman and Uri Sherman and Tomer Koren | (参考訳) 基本確率凸最適化設定における勾配法の一般化性能について検討し,その次元依存性に着目した。
まず、フルバッチ勾配降下 (gd) に対して、d=o(n^2)$ 次元の学習問題の構成を与える。ここでは、n$ のトレーニング例で訓練された gd の標準版(経験的リスクの最適性能を調整)は、一定の確率で、$\omega(1)$ の人口過剰リスクを持つ近似経験的リスク最小化に収束する。
我々の境界は、標準GDが非自明なテスト誤差に到達するのに必要なトレーニング例の数に対して$\Omega (\sqrt{d})$の低い境界に翻訳され、Feldman (2016) と Amir, Koren, Livni (2021b) が提起したオープンな質問に答え、非自明な次元依存は避けられないことを示す。
さらに,sgd (standard one-pass stochasticgradient descent) では,sgd のサンプル複雑性に対して同じ$\omega(\sqrt{d})$lowbound を同じ構成手法で適用することで,最適テスト性能を保ったにもかかわらず,非自明な経験的誤差に達することを示した。
このことは、以前の研究 (Koren, Livni, Mansour, and Sherman, 2022) と比較して次元依存の指数関数的な改善をもたらし、そこで残された開問題を解決する。 We study the generalization performance of gradient methods in the fundamental stochastic convex optimization setting, focusing on its dimension dependence. First, for full-batch gradient descent (GD) we give a construction of a learning problem in dimension $d=O(n^2)$, where the canonical version of GD (tuned for optimal performance of the empirical risk) trained with $n$ training examples converges, with constant probability, to an approximate empirical risk minimizer with $\Omega(1)$ population excess risk. Our bound translates to a lower bound of $\Omega (\sqrt{d})$ on the number of training examples required for standard GD to reach a non-trivial test error, answering an open question raised by Feldman (2016) and Amir, Koren, and Livni (2021b) and showing that a non-trivial dimension dependence is unavoidable. Furthermore, for standard one-pass stochastic gradient descent (SGD), we show that an application of the same construction technique provides a similar $\Omega(\sqrt{d})$ lower bound for the sample complexity of SGD to reach a non-trivial empirical error, despite achieving optimal test performance. This again provides an exponential improvement in the dimension dependence compared to previous work (Koren, Livni, Mansour, and Sherman, 2022), resolving an open question left therein. | 翻訳日:2024-01-23 13:37:38 公開日:2024-01-22 |
# NEUROSEC:FPGAベースのニューロモルフィックオーディオセキュリティ NEUROSEC: FPGA-Based Neuromorphic Audio Security ( http://arxiv.org/abs/2401.12055v1 ) ライセンス: Link先を確認 | Murat Isik, Hiruna Vishwamith, Yusuf Sur, Kayode Inadagbo, and I. Can Dikmen | (参考訳) 人間の脳の複雑さと機能にインスパイアされたニューロモルフィックシステムは、幅広い応用にまたがる非平行なポテンシャルのために、学術的、産業的な関心を集めている。
彼らの能力はイノベーションをもたらすが、これらの計算パラダイムは従来のパラダイムと類似しており、セキュリティの脅威とは無関係である。
画像処理と映像処理のニューロモルフィック手法の探索は徹底的に行われているが、ニューロモルフィック音声処理の領域は、まだ初期段階にある。
FPGAを用いたニューロモルフィックシステムの堅牢性と精度について検討した。
具体的には,FGSM や PGD などの敵対的攻撃に対して,所望の信号と背景雑音,効率的なスパイクレート符号化,非並列レジリエンスのバランスを示す。
我々のフレームワークの特長は94%の検知率であり、他の手法と比較すると、5.39dB以内の脅威を識別・緩和する能力は、信頼できるSNR比である。
さらに、ニューロモルフィックコンピューティングとハードウェアセキュリティは、ミッションクリティカルおよびプライバシ保護アプリケーションにおいて多くのセンサードメインを提供する。 Neuromorphic systems, inspired by the complexity and functionality of the human brain, have gained interest in academic and industrial attention due to their unparalleled potential across a wide range of applications. While their capabilities herald innovation, it is imperative to underscore that these computational paradigms, analogous to their traditional counterparts, are not impervious to security threats. Although the exploration of neuromorphic methodologies for image and video processing has been rigorously pursued, the realm of neuromorphic audio processing remains in its early stages. Our results highlight the robustness and precision of our FPGA-based neuromorphic system. Specifically, our system showcases a commendable balance between desired signal and background noise, efficient spike rate encoding, and unparalleled resilience against adversarial attacks such as FGSM and PGD. A standout feature of our framework is its detection rate of 94%, which, when compared to other methodologies, underscores its greater capability in identifying and mitigating threats within 5.39 dB, a commendable SNR ratio. Furthermore, neuromorphic computing and hardware security serve many sensor domains in mission-critical and privacy-preserving applications. | 翻訳日:2024-01-23 13:37:02 公開日:2024-01-22 |
# close: 3d衣料品セグメンテーションデータセットとモデル CloSe: A 3D Clothing Segmentation Dataset and Model ( http://arxiv.org/abs/2401.12051v1 ) ライセンス: Link先を確認 | Dimitrije Anti\'c, Garvita Tiwari, Batuhan Ozcomlekci, Riccardo Marin, Gerard Pons-Moll | (参考訳) 3D衣服のモデリングとデータセットは、エンターテイメント、アニメーション、デジタルファッション産業において重要な役割を果たす。
既存の作品は、しばしば詳細な意味理解や合成データセットを欠き、リアリズムやパーソナライゼーションを欠いている。
まず、3167個のスキャンの3d衣料品セグメンテーションを含む、18種類の衣料品クラスをカバーする、新しい大規模データセットであるclose-dについて紹介する。
さらに,色付き点雲からの細粒度セグメンテーションのための学習ベース3D衣料セグメンテーションモデルであるClose-Netを提案する。
close-netは、ローカルポイント機能、ボディークロッシング相関、着衣クラスとポイントベースのアテンションモジュールを使用し、ベースラインや事前作業よりもパフォーマンスが向上する。
提案するアテンションモジュールは,データから外観や形状に依存した衣服を学習する。
さらに,一般市民の服飾データセットのセグメンテーションに成功して,アプローチの有効性を検証した。
セグメンテーションラベルを精錬する3dインタラクティブツールであるclose-tも紹介する。
このツールとクローズtを連続学習のセットアップで組み合わせることで、実世界のデータの一般化が改善されることが示される。
データセット、モデル、ツールはhttps://virtualhumans.mpi-inf.mpg.de/close3dv24/にある。 3D Clothing modeling and datasets play crucial role in the entertainment, animation, and digital fashion industries. Existing work often lacks detailed semantic understanding or uses synthetic datasets, lacking realism and personalization. To address this, we first introduce CloSe-D: a novel large-scale dataset containing 3D clothing segmentation of 3167 scans, covering a range of 18 distinct clothing classes. Additionally, we propose CloSe-Net, the first learning-based 3D clothing segmentation model for fine-grained segmentation from colored point clouds. CloSe-Net uses local point features, body-clothing correlation, and a garment-class and point features-based attention module, improving performance over baselines and prior work. The proposed attention module enables our model to learn appearance and geometry-dependent clothing prior from data. We further validate the efficacy of our approach by successfully segmenting publicly available datasets of people in clothing. We also introduce CloSe-T, a 3D interactive tool for refining segmentation labels. Combining the tool with CloSe-T in a continual learning setup demonstrates improved generalization on real-world data. Dataset, model, and tool can be found at https://virtualhumans.mpi-inf.mpg.de/close3dv24/. | 翻訳日:2024-01-23 13:36:41 公開日:2024-01-22 |
# homerobot open vocabulary mobile manipulation challenge 2023 member report (team kuzhum) HomeRobot Open Vocabulary Mobile Manipulation Challenge 2023 Participant Report (Team KuzHum) ( http://arxiv.org/abs/2401.12048v1 ) ライセンス: Link先を確認 | Volodymyr Kuzma, Vladyslav Humennyy and Ruslan Partsey | (参考訳) 我々は,NeurIPS 2023 HomeRobot: Open Vocabulary Mobile Manipulation (OVMM) Challenge 強化学習ベースラインの改良について報告する。
より具体的には、より正確なセマンティクスセグメンテーションモジュールを提案し、より優れたプレーススキルポリシーと、全体の成功率(7倍の改善)の2.4%、チャレンジデータセットのテスト標準分割における部分的成功率(1.75倍の改善)の8.2%を上回っているハイレベルヒューリスティックを提案する。
上記の拡張を組み込んだエージェントは、シミュレーションと実世界のステージの両方で3位となった。 We report an improvements to NeurIPS 2023 HomeRobot: Open Vocabulary Mobile Manipulation (OVMM) Challenge reinforcement learning baseline. More specifically, we propose more accurate semantic segmentation module, along with better place skill policy, and high-level heuristic that outperforms the baseline by 2.4% of overall success rate (sevenfold improvement) and 8.2% of partial success rate (1.75 times improvement) on Test Standard split of the challenge dataset. With aforementioned enhancements incorporated our agent scored 3rd place in the challenge on both simulation and real-world stages. | 翻訳日:2024-01-23 13:36:21 公開日:2024-01-22 |
# フーリエトランスポーター:2種類のロボットによる3D操作 Fourier Transporter: Bi-Equivariant Robotic Manipulation in 3D ( http://arxiv.org/abs/2401.12046v1 ) ライセンス: Link先を確認 | Haojie Huang, Owen Howell, Xupeng Zhu, Dian Wang, Robin Walters, Robert Platt | (参考訳) 多くの複雑なロボット操作タスクは、ピックとプレースアクションのシーケンスとして分解することができる。
ロボットエージェントを訓練して、多くの異なる開始条件でこのシーケンスを学ぶには、通常、特に3D環境で多くのイテレーションやデモが必要になる。
本研究では,ピック・プレース問題において2倍の$\se(d)\times\se(d)$対称性を活用し,より高いサンプル効率を実現するフーリエ・トランスポーター(\ours{})を提案する。
\ours{}は、専門家によるデモを使って訓練されたオープンループの振る舞いのクローン手法である。
\ours{} は、ピックとプレースアクションの対称性を独立に組み込むように制約されている。
本手法はメモリ効率の良い構成を可能にするファイバー空間フーリエ変換を用いる。
提案するネットワークをRLbenchベンチマークでテストし,様々なタスクで最先端の結果を得る。 Many complex robotic manipulation tasks can be decomposed as a sequence of pick and place actions. Training a robotic agent to learn this sequence over many different starting conditions typically requires many iterations or demonstrations, especially in 3D environments. In this work, we propose Fourier Transporter (\ours{}) which leverages the two-fold $\SE(d)\times\SE(d)$ symmetry in the pick-place problem to achieve much higher sample efficiency. \ours{} is an open-loop behavior cloning method trained using expert demonstrations to predict pick-place actions on new environments. \ours{} is constrained to incorporate symmetries of the pick and place actions independently. Our method utilizes a fiber space Fourier transformation that allows for memory-efficient construction. We test our proposed network on the RLbench benchmark and achieve state-of-the-art results across various tasks. | 翻訳日:2024-01-23 13:36:09 公開日:2024-01-22 |
# 量子コンピュータのqcdに向けて: orbifold lattice approach Toward QCD on Quantum Computer: Orbifold Lattice Approach ( http://arxiv.org/abs/2401.12045v1 ) ライセンス: Link先を確認 | Georg Bergner, Masanori Hanada, Enrico Rinaldi, Andreas Schafer | (参考訳) 量子シミュレーションに適したQCDのオービフォールド格子定式化を提案する。
その利点は、量子化と切断されたハミルトニアンを非常に単純にする非コンパクト変数を使用することにある。
SU(3)ゲージ群と基本表現のクォークが直接的に実装できることが示されている。 We propose an orbifold lattice formulation of QCD suitable for quantum simulations. The advantages come from the use of noncompact variables that makes qubitization and truncated Hamiltonian very simple. It is shown that SU(3) gauge group and quarks in fundamental representation can be implemented straightforwardly. | 翻訳日:2024-01-23 13:35:53 公開日:2024-01-22 |
# 量子分離性エンタングルメント分類におけるバッキングとブースティングのトレードオフ Trade-off between Bagging and Boosting for quantum separability-entanglement classification ( http://arxiv.org/abs/2401.12041v1 ) ライセンス: Link先を確認 | Sanuja D. Mohanty, and Ram N. Patro, and Pradyut K. Biswal, and Biswajit Pradhan, and Sk Sazim | (参考訳) 任意の量子系が絡み合っているかどうかの証明は、一般にnpハード問題である。
このような低次元システムに関して、様々な必要十分条件が既に検討されているが、それらを高次元に拡張することは困難である。
近年,アンサンブルバッグングと凸船体近似 (CHA) アプローチ (Together, BCHA) が提案され, 分離性・絡み合いの分類問題に機械学習技術を用いることが強く提案されている。
しかし、BCHAは、平均精度の低い分類タスクのためのバランスの取れたデータセットのみを組み込んでいる。
本論文では,データ不均衡問題を解決するため,ブーピング手法の探索を行い,量子分離性問題に対するブーピング法とバギンス法に基づくアンサンブル分類器のトレードオフについて検討した。
2量子ビットおよび2量子ビット量子系では、量子分離性問題に対するランダムアンダーサンプリングブースターCHA(RUSBCHA)のプロスとコンスを最先端のCHAとBCHAのアプローチと比較する。
データは高度にバランスが取れないため, 総合的精度, 平均的精度, f-測定値, g-平均値などの性能指標を公平に比較して評価する。
結果は、RUSBCHAがBCHAアプローチに代わるものであることを示唆している。
また、データを不均衡にするため、いくつかのケースでRUSBCHAの性能改善が観察される。 Certifying whether an arbitrary quantum system is entangled or not, is, in general, an NP-hard problem. Though various necessary and sufficient conditions have already been explored in this regard for lower dimensional systems, it is hard to extend them to higher dimensions. Recently, an ensemble bagging and convex hull approximation (CHA) approach (together, BCHA) was proposed and it strongly suggests employing a machine learning technique for the separability-entanglement classification problem. However, BCHA does only incorporate the balanced dataset for classification tasks which results in lower average accuracy. In order to solve the data imbalance problem in the present literature, an exploration of the Boosting technique has been carried out, and a trade-off between the Boosting and Bagging-based ensemble classifier is explored for quantum separability problems. For the two-qubit and two-qutrit quantum systems, the pros and cons of the proposed random under-sampling boost CHA (RUSBCHA) for the quantum separability problem are compared with the state-of-the-art CHA and BCHA approaches. As the data is highly unbalanced, performance measures such as overall accuracy, average accuracy, F-measure, and G-mean are evaluated for a fair comparison. The outcomes suggest that RUSBCHA is an alternative to the BCHA approach. Also, for several cases, performance improvements are observed for RUSBCHA since the data is imbalanced. | 翻訳日:2024-01-23 13:35:50 公開日:2024-01-22 |
# look, listen and recognise: 文字認識型音声視覚サブトイリング Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling ( http://arxiv.org/abs/2401.12039v1 ) ライセンス: Link先を確認 | Bruno Korbar, Jaesung Huh, Andrew Zisserman | (参考訳) 本論文の目的は,自動字幕字幕生成である。
ビデオとメタデータが最小限であれば、正確な音声タイムスタンプと識別されたキャラクタによる対話の完全な書き起こしを生成する音声-視覚的手法を提案する。
鍵となるアイデアは、まず音声-視覚的手がかりを使用して、各文字に対して高精度なオーディオの例題を選択し、次にこれらの例題を使って、話者識別によって全ての音声セグメントを分類することである。
特に、この方法は顔検出や追跡を必要としない。
本手法は,Seinfeld,Fraiser,Scrubsなど,様々なテレビシットコムに対して評価を行った。
このシステムは,最新のストリーミングサービスで利用可能な大量のビデオのアクセシビリティを向上させるために,字幕の自動生成に有用であると考えられる。
プロジェクトページ: \url{https://www.robots.ox.uk/~vgg/research/look-listen-recognise/} The goal of this paper is automatic character-aware subtitle generation. Given a video and a minimal amount of metadata, we propose an audio-visual method that generates a full transcript of the dialogue, with precise speech timestamps, and the character speaking identified. The key idea is to first use audio-visual cues to select a set of high-precision audio exemplars for each character, and then use these exemplars to classify all speech segments by speaker identity. Notably, the method does not require face detection or tracking. We evaluate the method over a variety of TV sitcoms, including Seinfeld, Fraiser and Scrubs. We envision this system being useful for the automatic generation of subtitles to improve the accessibility of the vast amount of videos available on modern streaming services. Project page : \url{https://www.robots.ox.ac.uk/~vgg/research/look-listen-recognise/} | 翻訳日:2024-01-23 13:35:23 公開日:2024-01-22 |
# Momentum-SAM: 計算オーバーヘッドを伴わないシャープネスの最小化 Momentum-SAM: Sharpness Aware Minimization without Computational Overhead ( http://arxiv.org/abs/2401.12033v1 ) ライセンス: Link先を確認 | Marlon Becker, Frederick Altrock, Benjamin Risse | (参考訳) 最近提案された深層ニューラルネットワークのシャープネス認識最小化アルゴリズム(sam)は、勾配上昇ステップによる勾配計算前のパラメータの摂動を示唆し、平坦損失のパラメータ空間領域への最適化を導く。
大幅な一般化と過剰フィッティングの削減が実証できたが、追加の勾配計算により計算コストが倍増し、計算能力の制限がある場合にはsamは実現不可能となった。
ネステロフ加速勾配 (nag) に動機づけられ, 累積運動量ベクトルの方向のパラメータを摂動させ, sgd や adam に対する計算オーバーヘッドやメモリ要求の増大を伴わずに低シャープ性を実現する運動量-sam (msam) を提案する。
我々は、MSAMを詳細に評価し、NAG、SAM、MSAMの分離可能なメカニズムの学習最適化と一般化に関する知見を明らかにする。
コードはhttps://github.com/MarlonBecker/MSAMで入手できる。 The recently proposed optimization algorithm for deep neural networks Sharpness Aware Minimization (SAM) suggests perturbing parameters before gradient calculation by a gradient ascent step to guide the optimization into parameter space regions of flat loss. While significant generalization improvements and thus reduction of overfitting could be demonstrated, the computational costs are doubled due to the additionally needed gradient calculation, making SAM unfeasible in case of limited computationally capacities. Motivated by Nesterov Accelerated Gradient (NAG) we propose Momentum-SAM (MSAM), which perturbs parameters in the direction of the accumulated momentum vector to achieve low sharpness without significant computational overhead or memory demands over SGD or Adam. We evaluate MSAM in detail and reveal insights on separable mechanisms of NAG, SAM and MSAM regarding training optimization and generalization. Code is available at https://github.com/MarlonBecker/MSAM. | 翻訳日:2024-01-23 13:35:08 公開日:2024-01-22 |
# MINT:マルチモーダルとマルチイメージAIモデルをインタラクティブにするラッパー MINT: A wrapper to make multi-modal and multi-image AI models interactive ( http://arxiv.org/abs/2401.12032v1 ) ライセンス: Link先を確認 | Jan Freyberg, Abhijit Guha Roy, Terry Spitz, Beverly Freeman, Mike Schaekermann, Patricia Strachan, Eva Schnider, Renee Wong, Dale R Webster, Alan Karthikesalingam, Yun Liu, Krishnamurthy Dvijotham, Umesh Telang | (参考訳) 診断過程の間、医師は画像や医療史などのマルチモーダル情報を取り入れ、同様に医療AIの開発も多モーダルになりつつある。
本稿では、より微妙な課題に取り組む。医師は、最も関連する情報のみを取得するために、ターゲットとする医療履歴を取る。
我々はMINT(Make your model INTeractive)と呼ばれるラッパー手法を開発し、各ステップで最も価値のある情報を自動的に決定し、最も有用な情報のみを要求する。
我々は,MINTの皮膚疾患予測モデルの有効性を実証し,複数の画像と25ドルの標準メタデータ質問に対するオプション回答(構造化された医療履歴)をマルチモーダルディープネットワークで利用し,鑑定診断を行う。
MINTはメタデータの入力が必要かどうかを識別でき、もし必要ならば次の質問をすることができる。
また、複数の画像を収集する場合、MINTは追加画像が有用かどうか、その場合、どの種類の画像をキャプチャするかを識別できることを示した。
予測性能を維持しつつ、mintは必要なメタデータと画像入力の数をそれぞれ82%、36.2%削減することを示した。
実世界のAI皮膚科のシステムデータを用いて、診断なしにシステムへの提出や停止を失敗する可能性のあるユーザを、少ないインプットで維持できることを示す。
定性的な例では、MINTは、臨床ワークフローのステップバイステップ決定プロセスと、より困難であいまいなケースとにおいて、どのように異なるのかを、深く模倣することができる。
最後に、MINTは、異なる基盤となるマルチモデル分類器に対して堅牢であり、重要なモデル再訓練なしに、ユーザ要求に容易に適応できることを示す。 During the diagnostic process, doctors incorporate multimodal information including imaging and the medical history - and similarly medical AI development has increasingly become multimodal. In this paper we tackle a more subtle challenge: doctors take a targeted medical history to obtain only the most pertinent pieces of information; how do we enable AI to do the same? We develop a wrapper method named MINT (Make your model INTeractive) that automatically determines what pieces of information are most valuable at each step, and ask for only the most useful information. We demonstrate the efficacy of MINT wrapping a skin disease prediction model, where multiple images and a set of optional answers to $25$ standard metadata questions (i.e., structured medical history) are used by a multi-modal deep network to provide a differential diagnosis. We show that MINT can identify whether metadata inputs are needed and if so, which question to ask next. We also demonstrate that when collecting multiple images, MINT can identify if an additional image would be beneficial, and if so, which type of image to capture. We showed that MINT reduces the number of metadata and image inputs needed by 82% and 36.2% respectively, while maintaining predictive performance. Using real-world AI dermatology system data, we show that needing fewer inputs can retain users that may otherwise fail to complete the system submission and drop off without a diagnosis. Qualitative examples show MINT can closely mimic the step-by-step decision making process of a clinical workflow and how this is different for straight forward cases versus more difficult, ambiguous cases. Finally we demonstrate how MINT is robust to different underlying multi-model classifiers and can be easily adapted to user requirements without significant model re-training. | 翻訳日:2024-01-23 13:34:49 公開日:2024-01-22 |
# 事象ホライズン近傍の量子特性 Quantum Characteristics Near Event Horizons ( http://arxiv.org/abs/2401.12028v1 ) ライセンス: Link先を確認 | A. Ali, S. Al-Kuwari, M. Ghominejad, M. T. Rahim, S. Haddadi | (参考訳) 我々は、シュワルツシルトブラックホールの事象地平線内および外部の粒子を含むペンタ粒子系の様々な構成において、真の多重粒子の絡み合い、大域的絡み合い、および量子コヒーレンスについて検討する。
アクセス可能な粒子の数に基づいて異なるシナリオを考察し分析する。
各シナリオにおいて、ホーキング温度とディラック粒子モード周波数の異なる1次コヒーレンス、収束フィリング、大域収束を評価する。
事象の地平線外の全ての粒子が完全にアクセス可能なシナリオでは、この測度は識別可能なトレードオフを伴う非単調な振る舞いを示す。
事象の地平線内で1つの粒子が部分的にアクセス可能なシナリオでは、単調な変動と明確なトレードオフが観察される。
最後に、2つの粒子が事象の地平線内にあるシナリオでは、湾曲時空における絡み合ったポリゴンの不等式に違反するため、コンカレンスフィリングが複雑になる。
この結果は、シュワルツシルトブラックホールの事象の地平線周辺の絡み合いとコヒーレンスの間の複雑な関係を明らかにする。
本研究は, 平面および曲線時空におけるエンタングルの不等式とコンカレンスフィリングの再評価を示唆するものである。
これらの知見は、量子情報ダイナミクスと極端環境の絡み合いに対する重力の影響を理解するのに役立ちます。 We investigate the genuine multipartite entanglement, global entanglement, and quantum coherence among different configurations of a penta-partite system involving particles inside and outside the event horizon of a Schwarzschild black hole. We consider and analyze different scenarios based on how many particles are accessible. In each scenario, we evaluate first-order coherence, concurrence fill, and global concurrence under varying Hawking temperature and Dirac particle mode frequency. For the fully accessible scenario with all particles outside the event horizon, the measures exhibit non-monotonic behavior with a discernible trade-off. In the partially accessible scenarios with one particle inside the event horizon, monotonic variations and clear trade-offs are observed. Finally, in the scenario when two particles are inside the event horizon, concurrence fill becomes complex, attributed to the violation of the entanglement polygon inequality in curved space-time. This result reveals intricate relationships between entanglement and coherence around the event horizon of Schwarzchild black holes. Our findings suggest reevaluating entanglement polygon inequalities and concurrence fill for applicability in flat and curved space-times. These insights contribute to our understanding of quantum information dynamics and gravitational impacts on entanglement in extreme environments. | 翻訳日:2024-01-23 13:34:16 公開日:2024-01-22 |
# 自己教師付きコントラストプレトレーニングによるマルチモーダル視覚触覚表現学習 Multimodal Visual-Tactile Representation Learning through Self-Supervised Contrastive Pre-Training ( http://arxiv.org/abs/2401.12024v1 ) ライセンス: Link先を確認 | Vedant Dave, Fotios Lygerakis, Elmar Rueckert | (参考訳) ロボット工学の急速に発展する分野は、複数のモダリティの融合を促進する方法を必要とする。
具体的には、有形物体との相互作用に関して、視覚と触覚の感覚データを効果的に組み合わせることが、物理的な世界の複雑なダイナミクスを理解し、ナビゲートする上で重要である。
それにもかかわらず、これらの2つの感覚モダリティをマージする初期の研究の多くは、人間によってラベル付けされたデータセットを利用する教師ありの手法に依存してきた。
両方の感覚入力を利用することで、MViTacは学習表現のモダリティ内およびモダリティ間損失を利用して、材料特性の分類を強化し、より適切な把握予測を行う。
一連の実験を通じて,本手法の有効性と,既存の最先端の自己監視・監視技術よりも優れていることを示す。
本手法の評価では,材料分類と成功予測の把握という2つの課題に注目した。
以上の結果から,mvitacは改良型モダリティエンコーダの開発を促進でき,線形プローブ評価によりより頑健な表現が得られることが示唆された。 The rapidly evolving field of robotics necessitates methods that can facilitate the fusion of multiple modalities. Specifically, when it comes to interacting with tangible objects, effectively combining visual and tactile sensory data is key to understanding and navigating the complex dynamics of the physical world, enabling a more nuanced and adaptable response to changing environments. Nevertheless, much of the earlier work in merging these two sensory modalities has relied on supervised methods utilizing datasets labeled by humans.This paper introduces MViTac, a novel methodology that leverages contrastive learning to integrate vision and touch sensations in a self-supervised fashion. By availing both sensory inputs, MViTac leverages intra and inter-modality losses for learning representations, resulting in enhanced material property classification and more adept grasping prediction. Through a series of experiments, we showcase the effectiveness of our method and its superiority over existing state-of-the-art self-supervised and supervised techniques. In evaluating our methodology, we focus on two distinct tasks: material classification and grasping success prediction. Our results indicate that MViTac facilitates the development of improved modality encoders, yielding more robust representations as evidenced by linear probing assessments. | 翻訳日:2024-01-23 13:33:53 公開日:2024-01-22 |
# 多変量一貫性を用いた立体整合知識蒸留単分子深さ推定 Stereo-Matching Knowledge Distilled Monocular Depth Estimation Filtered by Multiple Disparity Consistency ( http://arxiv.org/abs/2401.12019v1 ) ライセンス: Link先を確認 | Woonghyun Ka, Jae Young Lee, Jaehyun Choi, Junmo Kim | (参考訳) 自己教師付き単眼深度推定のステレオマッチング知識蒸留法では、ステレオマッチングネットワークの知識を擬似深度マップを介して単眼深度ネットワークに蒸留する。
これらの手法では, 学習に基づくステレオ信頼ネットワークを用いて, 擬似深度マップの誤りを識別し, 誤りの転送を防止する。
しかし、学習に基づくステレオ信頼ネットワークは、自己監督的な環境では実現不可能な地上真実(GT)で訓練されるべきである。
本稿では,GTやトレーニング処理を必要とせず,一貫性を確認することで,複数の不均一マップを用いて擬似深度マップの誤りを識別・フィルタリングする手法を提案する。
実験の結果,提案手法は従来手法よりも優れており,立体マッチングが脆弱なエリア,特にテクスチャレス領域,オクルージョン境界,反射面など,様々な構成でうまく機能することがわかった。 In stereo-matching knowledge distillation methods of the self-supervised monocular depth estimation, the stereo-matching network's knowledge is distilled into a monocular depth network through pseudo-depth maps. In these methods, the learning-based stereo-confidence network is generally utilized to identify errors in the pseudo-depth maps to prevent transferring the errors. However, the learning-based stereo-confidence networks should be trained with ground truth (GT), which is not feasible in a self-supervised setting. In this paper, we propose a method to identify and filter errors in the pseudo-depth map using multiple disparity maps by checking their consistency without the need for GT and a training process. Experimental results show that the proposed method outperforms the previous methods and works well on various configurations by filtering out erroneous areas where the stereo-matching is vulnerable, especially such as textureless regions, occlusion boundaries, and reflective surfaces. | 翻訳日:2024-01-23 13:33:29 公開日:2024-01-22 |
# 安定チャネルの耐故障性 Fault tolerance of stabilizer channels ( http://arxiv.org/abs/2401.12017v1 ) ライセンス: Link先を確認 | Michael E. Beverland, Shilin Huang, Vadym Kliuchnikov | (参考訳) 安定化器チャネルは、入力安定化器コードから出力安定化器コードにマッピングしながら論理演算を実装する安定化器回路であり、表面コードだけでなく、一般的なLDPCコードやフロケットコードで、フォールトトレラントな量子コンピューティングにはユビキタスである。
広範なノイズモデルの下で, 安定チャネルの耐故障特性を解析するために, 厳密で一般的な定式化を導入する。
障害距離の定義と安定化チャネルのフック障害について,厳密だが作業容易な定義とアルゴリズムを提供する。
さらに,チャネル組成が故障距離を保持するような必要条件を定式化する。
本手法は, 故障耐性安定回路の設計と解析に応用し, 故障耐性回路の新たな側面を明らかにする。 Stabilizer channels, which are stabilizer circuits that implement logical operations while mapping from an input stabilizer code to an output stabilizer code, are ubiquitous for fault tolerant quantum computing not just with surface codes, but with general LDPC codes and Floquet codes. We introduce a rigorous and general formalism to analyze the fault tolerance properties of any stabilizer channel under a broad class of noise models. We provide rigorous but easy-to-work-with definitions and algorithms for the fault distance and hook faults for stabilizer channels. Additionally, we establish necessary conditions such that channel composition preserves the fault distance. We apply our framework to design and analyze fault tolerant stabilizer channels for surface codes, revealing novel aspects of fault tolerant circuits. | 翻訳日:2024-01-23 13:33:11 公開日:2024-01-22 |
# MT用LLMの文脈内学習能力に関する実証的検討 An Empirical Analysis of In-context Learning Abilities of LLMs for MT ( http://arxiv.org/abs/2401.12097v1 ) ライセンス: Link先を確認 | Pranjal A. Chitale, Jay Gala, Varun Gumma, Mitesh M. Khapra, Raj Dabre | (参考訳) In-context Learning (ICL) は、大規模言語モデル (LLM) においてゼロショット性能よりも優れた性能を示した。
しかし、特に自然言語生成(NLG)タスクにおいて、ICLのダイナミクスと下流のパフォーマンスに影響を与える側面の理解は限られている。
本研究の目的は,LLMのICL能力の解明と,機械翻訳(MT)タスクにおけるコンテキスト内デモンストレーションの異なる側面の影響について検討することである。
本研究は,タスク命令を維持しつつ,コンテキスト内デモに多様な摂動を適用して,インコンテキスト学習(icl)がデモやインストラクションの影響を主に受けているかを見極めることを目的としている。
特にブルーム-7b誘導体はノイズの影響を強く受けているのに対し,ラマ2誘導体はロバスト性を示すだけでなく,摂動デモを行う際に清潔なベースラインを超えた拡張を示す傾向がある。
このことは、ICLの堅牢性は、ノイズの種類、摂動方向(ソースまたはターゲット)、特定のモデルの事前訓練の程度、適用可能な場合の下流タスクの微調整など、いくつかの要因によって制御される可能性があることを示唆している。
今後の研究でこれらの要因の包括的理解を深めるべく、さらなる調査が求められている。 In-context learning (ICL) has consistently demonstrated superior performance over zero-shot performance in large language models (LLMs). However, the understanding of the dynamics of ICL and the aspects that influence downstream performance remains limited, especially for natural language generation (NLG) tasks. This work aims to address this gap by investigating the ICL capabilities of LLMs and studying the impact of different aspects of the in-context demonstrations for the task of machine translation (MT). Our preliminary investigations aim to discern whether in-context learning (ICL) is predominantly influenced by demonstrations or instructions by applying diverse perturbations to in-context demonstrations while preserving the task instruction. We observe varying behavior to perturbed examples across different model families, notably with BLOOM-7B derivatives being severely influenced by noise, whereas Llama 2 derivatives not only exhibit robustness but also tend to show enhancements over the clean baseline when subject to perturbed demonstrations. This suggests that the robustness of ICL may be governed by several factors, including the type of noise, perturbation direction (source or target), the extent of pretraining of the specific model, and fine-tuning for downstream tasks if applicable. Further investigation is warranted to develop a comprehensive understanding of these factors in future research. | 翻訳日:2024-01-23 13:27:04 公開日:2024-01-22 |
# 一般行列に対する量子固有解法 Quantum Eigensolver for General Matrices ( http://arxiv.org/abs/2401.12091v1 ) ライセンス: Link先を確認 | Xiao-Ming Zhang, Yunkun Zhang, Wenhao He and Xiao Yuan | (参考訳) 固有値問題(英語版)は線型代数の基盤であり、行列の性質の研究に深い洞察を与える。
この問題に対処する量子アルゴリズムは、スペクトル分解を仮定する特別な正規行列に制限されており、一般行列への拡張はオープンな課題である。
本研究では, 一般行列に対する固有値問題の解法として, 複雑な固有値や欠陥行列を含む新しい量子アルゴリズム群を提案する。
我々のアプローチは、追加の制約なしに固有値を探すタスクに取り組むことから始まります。
対角化可能な行列に対して、我々のアルゴリズムは$\tilde o(\varepsilon^{-1})$ とエラー $\varepsilon$ を持ち、ほぼハイゼンベルクスケーリングを達成する。
その後,特定の点や直線に最も近い固有値の同定を行い,エルミート行列における地中エネルギーおよびエネルギーギャップ問題の結果を拡張した。
一般対角化可能な行列に対する$\tilde o(\varepsilon^{-2})$の精度スケーリングを実現し、さらに実固有値や基準点からの距離の一定条件下で$\tilde o(\varepsilon^{-1})$に精算する。
このアルゴリズムの基礎は、行列$A$の固有値と$A-\mu I$の最小特異値の関係、量子特異値推定から拡張された量子特異値しきい値サブルーチン、および問題固有探索アルゴリズムの3つの手法の相乗関係にある。
このアルゴリズムは,マルコフ連鎖の緩和時間の推定,開量子系におけるリウビリアンギャップの解法,pt対称性の破れ・崩壊の位相の検証など,様々な領域で応用できる。
これらの応用は、様々な分野にわたる問題に対する量子固有解法の重要性を強調している。 The eigenvalue problem, a cornerstone in linear algebra, provides profound insights into studying matrix properties. Quantum algorithms addressing this problem have hitherto been constrained to special normal matrices assuming spectral decomposition, leaving the extension to general matrices an open challenge. In this work, we present a novel family of quantum algorithms tailored for solving the eigenvalue problem for general matrices, encompassing scenarios with complex eigenvalues or even defective matrices. Our approach begins by tackling the task of searching for an eigenvalue without additional constraints. For diagonalizable matrices, our algorithm has $\tilde O(\varepsilon^{-1})$ complexity with an error $\varepsilon$, achieving the nearly Heisenberg scaling. Subsequently, we study the identification of eigenvalues closest to a specified point or line, extending the results for ground energy and energy gap problems in Hermitian matrices. We achieve an accuracy scaling of $\tilde O(\varepsilon^{-2})$ for general diagonalizable matrices, further refining to $\tilde O(\varepsilon^{-1})$ under the condition of real eigenvalues or constant distance from the reference point. The algorithm's foundation lies in the synergy of three techniques: the relationship between eigenvalues of matrix $A$ and the minimum singular value of $A-\mu I$, quantum singular value threshold subroutine extended from quantum singular-value estimation, and problem-specific searching algorithms. Our algorithms find applications in diverse domains, including estimating the relaxation time of Markov chains, solving Liouvillian gaps in open quantum systems, and verifying PT-symmetry broken/unbroken phases. These applications underscore the significance of our quantum eigensolvers for problems across various disciplines. | 翻訳日:2024-01-23 13:26:42 公開日:2024-01-22 |
# NISQ時代の量子古典機械の訓練可能性 Trainability of a quantum-classical machine in the NISQ era ( http://arxiv.org/abs/2401.12089v1 ) ライセンス: Link先を確認 | Tarun Dutta, Alex Jin, Clarence Liu Huihong, J I Latorre and Manas Mukherjee | (参考訳) 古典コンピューティングの進歩は機械学習のアプリケーションを大幅に強化したが、エネルギー、リソース、スピードの面では固有の制限が持続している。
量子機械学習アルゴリズムは、これらの制限を克服する有望な手段を提供するが、独自の課題をもたらす。
この実験は、イオントラッププラットフォームにおいて教師付きトレーニングプロトコルを実装した、真の実験量子古典ハイブリッドシステムのトレーサビリティの限界を探求する。
イオントラップ結合型古典的プロセッサに関連する課題に対処し、多くの局所的ミニマを用いたバイナリ分類問題に固有の複雑な最適化環境をナビゲートする古典的最適化器としての遺伝的アルゴリズムの頑健さを強調している。
二項分類問題に焦点をあてた実験結果は、勾配に基づく最適化よりも遺伝的アルゴリズムの効率と精度が優れていることを示した。
我々は, NISQ時代に勾配に基づく最適化が適切でない理由を, 徹底的な分析によって詳細に論じる。
これらの知見は、量子古典ハイブリッドシステムの性能に関する洞察に寄与し、実用的な量子機械学習アプリケーションにおける効率的なトレーニング戦略とハードウェア考慮の重要性を強調している。
この研究は、ハイブリッド量子古典システムの理解を深めるだけでなく、古典的シミュレーターの助けなしに動作する量子および古典的コンピューティングパラダイムの収束を通じて、現実世界の課題に対する潜在的な影響を浮き彫りにする。 Advancements in classical computing have significantly enhanced machine learning applications, yet inherent limitations persist in terms of energy, resource and speed. Quantum machine learning algorithms offer a promising avenue to overcome these limitations but bring along their own challenges. This experimental study explores the limits of trainability of a real experimental quantum classical hybrid system implementing supervised training protocols, in an ion trap platform. Challenges associated with ion trap-coupled classical processor are addressed, highlighting the robustness of the genetic algorithm as a classical optimizer in navigating complex optimization landscape inherent in binary classification problems with many local minima. Experimental results, focused on a binary classification problem, reveal the superior efficiency and accuracy of the genetic algorithm compared to gradient-based optimizers. We intricately discuss why gradient-based optimizers may not be suitable in the NISQ era through thorough analysis. These findings contribute insights into the performance of quantum-classical hybrid systems, emphasizing the significance of efficient training strategies and hardware considerations for practical quantum machine learning applications. This work not only advances the understanding of hybrid quantum-classical systems but also underscores the potential impact on real-world challenges through the convergence of quantum and classical computing paradigms operating without the aid of classical simulators. | 翻訳日:2024-01-23 13:26:08 公開日:2024-01-22 |
# レシピからの教師なしグラフ学習 Unsupervised Learning of Graph from Recipes ( http://arxiv.org/abs/2401.12088v1 ) ライセンス: Link先を確認 | Aissatou Diallo, Antonis Bikakis, Luke Dickens, Anthony Hunter, Rob Miller | (参考訳) 料理のレシピは、最も手頃な手続きのテキストの1つである。
これらは、解釈が難しい自然言語命令から成り立っている。
本稿では,レシピから関連する情報を識別し,レシピ中のアクションのシーケンスを表すグラフを生成するモデルを提案する。
他のアプローチとは対照的に、教師なしのアプローチを使う。
我々は、グラフをテキスト(グラフからテキスト)に復号し、生成されたテキストと入力を比較しながら、一度に1つのテキスト(テキストからグラフ)を符号化する$\mathsf{GNN}$のグラフ構造とパラメータを反復的に学習する。
本手法は,識別されたエンティティと注釈付きデータセットを比較し,入力テキストと出力テキストの違いを比較し,生成したグラフと art メソッドの状態によって生成されたグラフを比較して評価する。 Cooking recipes are one of the most readily available kinds of procedural text. They consist of natural language instructions that can be challenging to interpret. In this paper, we propose a model to identify relevant information from recipes and generate a graph to represent the sequence of actions in the recipe. In contrast with other approaches, we use an unsupervised approach. We iteratively learn the graph structure and the parameters of a $\mathsf{GNN}$ encoding the texts (text-to-graph) one sequence at a time while providing the supervision by decoding the graph into text (graph-to-text) and comparing the generated text to the input. We evaluate the approach by comparing the identified entities with annotated datasets, comparing the difference between the input and output texts, and comparing our generated graphs with those generated by state of the art methods. | 翻訳日:2024-01-23 13:25:44 公開日:2024-01-22 |
# インコンテキスト学習における実演選択戦略の再検討 Revisiting Demonstration Selection Strategies in In-Context Learning ( http://arxiv.org/abs/2401.12087v1 ) ライセンス: Link先を確認 | Keqin Peng, Liang Ding, Yancheng Yuan, Xuebo Liu, Min Zhang, Yuanxin Ouyang, Dacheng Tao | (参考訳) 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を使用して広範囲のタスクを実行するという印象的な能力を示しており、モデルにタスクを記述するためにいくつかの例が使用されている。
しかし、ICLのパフォーマンスはデモの選択によって大きく異なり、なぜこれが起こっているのか、どのような要因がその選択に影響を与えるのかは不明だ。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
さらに,データとモデルに依存したデモンストレーション選択法である \textbf{topk + cone} を提案し,実験結果に対するモデルの理解への貢献と正の相関関係を仮定し,iclの簡易かつ効果的なレシピを作成した。
経験的に,本手法は言語理解とモデルスケールの異なる生成タスクにおいて一貫した改善をもたらす。
さらに, 異なる状況下での汎用性と安定性に加えて, 従来手法の有効性に関する統一的な説明が得られた。
コードはリリースされる。 Large language models (LLMs) have shown an impressive ability to perform a wide range of tasks using in-context learning (ICL), where a few examples are used to describe a task to the model. However, the performance of ICL varies significantly with the choice of demonstrations, and it is still unclear why this happens or what factors will influence its choice. In this work, we first revisit the factors contributing to this variance from both data and model aspects, and find that the choice of demonstration is both data- and model-dependent. We further proposed a data- and model-dependent demonstration selection method, \textbf{TopK + ConE}, based on the assumption that \textit{the performance of a demonstration positively correlates with its contribution to the model's understanding of the test samples}, resulting in a simple and effective recipe for ICL. Empirically, our method yields consistent improvements in both language understanding and generation tasks with different model scales. Further analyses confirm that, besides the generality and stability under different circumstances, our method provides a unified explanation for the effectiveness of previous methods. Code will be released. | 翻訳日:2024-01-23 13:25:29 公開日:2024-01-22 |
# West-of-N:改良されたリワードモデリングのための合成選好生成 West-of-N: Synthetic Preference Generation for Improved Reward Modeling ( http://arxiv.org/abs/2401.12086v1 ) ライセンス: Link先を確認 | Aliz\'ee Pace, Jonathan Mallinson, Eric Malmi, Sebastian Krause, Aliaksei Severyn | (参考訳) 言語モデルアライメントにおける人間フィードバック(RLHF)からの強化学習の成功は、基礎となる報酬モデルの品質に強く依存する。
本稿では,総合的な選好データを生成し,オンポリシーで高品質な選好ペアによるトレーニングデータセットの強化により,報奨モデルの品質を向上させる新しい手法を提案する。
言語モデルトレーニングにおけるBest-of-Nサンプリング戦略の有望な成果に感銘を受け,その応用範囲をモデルトレーニングに拡大する。
これにより、与えられたクエリに対する応答プールのベスト候補とワースト候補を選択して、好みペアを生成するセルフトレーニング戦略が実現される。
経験的に、このアプローチは報酬モデルのパフォーマンスを改善し、同じ量の人間の好みデータを追加するのに匹敵する効果を持つことがわかった。
この研究は、モデリングの課題に報いるソリューションとして合成選好生成を提供することで、言語モデルアライメントのためのrlhfを改善するための新しい研究の道を開きます。 The success of reinforcement learning from human feedback (RLHF) in language model alignment is strongly dependent on the quality of the underlying reward model. In this paper, we present a novel approach to improve reward model quality by generating synthetic preference data, thereby augmenting the training dataset with on-policy, high-quality preference pairs. Motivated by the promising results of Best-of-N sampling strategies in language model training, we extend their application to reward model training. This results in a self-training strategy to generate preference pairs by selecting the best and worst candidates in a pool of responses to a given query. Empirically, we find that this approach improves the performance of any reward model, with an effect comparable to the addition of a similar quantity of human preference data. This work opens up new avenues of research for improving RLHF for language model alignment, by offering synthetic preference generation as a solution to reward modeling challenges. | 翻訳日:2024-01-23 13:25:07 公開日:2024-01-22 |
# 無人航空機(UAV)軌道を用いた3次元UAV追跡のための協調強化学習 Collaborative Reinforcement Learning Based Unmanned Aerial Vehicle (UAV) Trajectory Design for 3D UAV Tracking ( http://arxiv.org/abs/2401.12079v1 ) ライセンス: Link先を確認 | Yujiao Zhu, Mingzhe Chen, Sihua Wang, Ye Hu, Yuchen Liu, and Changchuan Yin | (参考訳) 本稿では,無人航空機(UAV)1機と4機の受動UAVを用いて3DターゲットUAVをリアルタイムにローカライズする問題について検討する。
検討されたモデルでは、各受動UAVはターゲットUAVからの反射信号を受信し、これは最初にアクティブUAVによって送信される。
受信された反射信号により、各受動UAVは、基地局(BS)に送信される信号伝達距離を推定し、目標UAVの位置を推定することができる。
目標UAVの移動のため、各アクティブ/パッシブUAVはその軌道を最適化し、目標UAVを継続的にローカライズする必要がある。
一方、距離推定の精度は送信信号の信号対雑音比に依存するため、アクティブUAVはその送信電力を最適化する必要がある。
この問題は、目標UAV位置決め精度を最大化するために、アクティブUAVの送信電力とアクティブUAVと受動UAVの両方の軌道を共同で最適化する最適化問題として定式化されている。
この問題を解決するために,Z関数分解に基づく強化学習法(ZD-RL)を提案する。
提案手法は,値関数分解に基づくRL(VD-RL)と比較して,将来の報奨の総和の確率分布を正確に推定し,アクティブUAVと受動UAVのトラジェクトリの送信効率を向上し,目標UAV位置決め精度を向上させる。
シミュレーションの結果,ZD-RL法はVD-RL法と独立ディープRL法と比較して位置決め誤差を最大39.4%,64.6%低減できることがわかった。 In this paper, the problem of using one active unmanned aerial vehicle (UAV) and four passive UAVs to localize a 3D target UAV in real time is investigated. In the considered model, each passive UAV receives reflection signals from the target UAV, which are initially transmitted by the active UAV. The received reflection signals allow each passive UAV to estimate the signal transmission distance which will be transmitted to a base station (BS) for the estimation of the position of the target UAV. Due to the movement of the target UAV, each active/passive UAV must optimize its trajectory to continuously localize the target UAV. Meanwhile, since the accuracy of the distance estimation depends on the signal-to-noise ratio of the transmission signals, the active UAV must optimize its transmit power. This problem is formulated as an optimization problem whose goal is to jointly optimize the transmit power of the active UAV and trajectories of both active and passive UAVs so as to maximize the target UAV positioning accuracy. To solve this problem, a Z function decomposition based reinforcement learning (ZD-RL) method is proposed. Compared to value function decomposition based RL (VD-RL), the proposed method can find the probability distribution of the sum of future rewards to accurately estimate the expected value of the sum of future rewards thus finding better transmit power of the active UAV and trajectories for both active and passive UAVs and improving target UAV positioning accuracy. Simulation results show that the proposed ZD-RL method can reduce the positioning errors by up to 39.4% and 64.6%, compared to VD-RL and independent deep RL methods, respectively. | 翻訳日:2024-01-23 13:24:51 公開日:2024-01-22 |
# 大規模言語モデルにおける時間的盲点 Temporal Blind Spots in Large Language Models ( http://arxiv.org/abs/2401.12078v1 ) ライセンス: Link先を確認 | Jonas Wallat, Adam Jatowt, Avishek Anand | (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクを実行する非並列性のため、最近注目されている。
これらのモデルは、高度な自然言語理解能力の恩恵を受け、印象的なゼロショット性能を示している。
しかしながら、llmsで使用される事前トレーニングデータは、しばしば特定のコーパスに制限されるため、固有の鮮度と時間的スコープの制限が生じる。
これにより、時間的意図を含むタスクに対するLLMの有効性に関する懸念が高まる。
本研究では,時間的理解を必要とするタスクに対して,汎用LLMの基本的な限界について検討する。
我々は3つの一般的な時間的QAデータセットを通して、事実的時間的知識を扱うことに特に注意を払う。
具体的には、過去に関する詳細な質問に対して低いパフォーマンスを観察し、意外なことに、かなり新しい情報を求めています。
手動および自動テストでは、複数の時間誤差を見つけ、QA性能が低下する条件を特徴付ける。
我々の分析は、LLMの限界を理解することに寄与し、時間的指向タスクの要求により適応できる将来のモデル開発に関する貴重な洞察を提供する。
コードは"footnote{https://github.com/jwallat/temporalblindspots}"である。 Large language models (LLMs) have recently gained significant attention due to their unparalleled ability to perform various natural language processing tasks. These models, benefiting from their advanced natural language understanding capabilities, have demonstrated impressive zero-shot performance. However, the pre-training data utilized in LLMs is often confined to a specific corpus, resulting in inherent freshness and temporal scope limitations. Consequently, this raises concerns regarding the effectiveness of LLMs for tasks involving temporal intents. In this study, we aim to investigate the underlying limitations of general-purpose LLMs when deployed for tasks that require a temporal understanding. We pay particular attention to handling factual temporal knowledge through three popular temporal QA datasets. Specifically, we observe low performance on detailed questions about the past and, surprisingly, for rather new information. In manual and automatic testing, we find multiple temporal errors and characterize the conditions under which QA performance deteriorates. Our analysis contributes to understanding LLM limitations and offers valuable insights into developing future models that can better cater to the demands of temporally-oriented tasks. The code is available\footnote{https://github.com/jwallat/temporalblindspots}. | 翻訳日:2024-01-23 13:24:21 公開日:2024-01-22 |
# REにおけるNLPに基づく関係抽出法 NLP-based Relation Extraction Methods in RE ( http://arxiv.org/abs/2401.12075v1 ) ライセンス: Link先を確認 | Quim Motger, Xavier Franch | (参考訳) モバイルアプリのリポジトリは、大規模で高度に適応的なクラウドソース情報システムとして、科学研究で広く使われている。
これらのソフトウェアプラットフォームは、ユーザレビューやフィードバック分析、レコメンダシステム、トピックモデリングなど、他の自然言語文書に基づいて、複数のソフトウェアや要件のエンジニアリングタスクを養うことができる。
その結果、研究者は、異種データソースの統合、大規模データ収集、特定の研究シナリオのための公開データセットの適応など、ドメイン固有の課題を克服する努力をしばしば行ないます。
本稿では,モバイルアプリケーションリポジトリの分野におけるソフトウェアリソースとデータアーティファクトの組み合わせであるmapp-kgを提案する。
私たちのコントリビューションは、モバイルアプリのドメイン固有のカタログをモデル化する知識グラフを自動構築するフレームワークを提供することを目的としています。
同時に,MApp-KGをパブリックトリプルストアや静的データスナップショットとして配布し,今後の研究・再生に活用する可能性がある。 Mobile app repositories have been largely used in scientific research as large-scale, highly adaptive crowdsourced information systems. These software platforms can potentially nourish multiple software and requirements engineering tasks based on user reviews and other natural language documents, including feedback analysis, recommender systems and topic modelling. Consequently, researchers often endeavour to overcome domain-specific challenges, including integration of heterogeneous data sources, large-scale data collection and adaptation of a publicly available data set for a given research scenario. In this paper, we present MApp-KG, a combination of software resources and data artefacts in the field of mobile app repositories to support extended knowledge generation tasks. Our contribution aims to provide a framework for automatically constructing a knowledge graph modelling a domain-specific catalogue of mobile apps. Complementarily, we distribute MApp-KG in a public triplestore and as a static data snapshot, which may be promptly employed for future research and reproduction of our findings. | 翻訳日:2024-01-23 13:24:01 公開日:2024-01-22 |
# DeepCERES:超高分解能マルチモーダルMRIを用いた小脳小葉セグメンテーションの深層学習法 DeepCERES: A Deep learning method for cerebellar lobule segmentation using ultra-high resolution multimodal MRI ( http://arxiv.org/abs/2401.12074v1 ) ライセンス: Link先を確認 | Sergio Morell-Ortega, Marina Ruiz-Perez, Marien Gadea, Roberto Vivo-Hernando, Gregorio Rubio, Fernando Aparici, Mariam de la Iglesia-Vaya, Gwenaelle Catheline, Pierrick Coup\'e, Jos\'e V. Manj\'on | (参考訳) 本稿では,新しいマルチモーダル・高分解能ヒト脳小脳セグメンテーション法を提案する。
標準解像度($1 \text{mm}^{3}$)やモノモーダルデータを使用する現在のツールとは異なり、提案手法はマルチモーダルおよび超高解像度($0.125 \text{mm}^{3}$)トレーニングデータセットを用いて小脳小葉のセグメンテーションを改善する。
まず, 超高分解能t1およびt2 mr画像を用いて, 提案法を訓練するために, 半自動ラベル付き小脳小葉のデータベースを作成した。
そして, 複雑な小脳小葉分割課題において, 提案手法が優れていること, メモリ効率を保ちながら精度を向上させるために, 深層ネットワークのアンサンブルを設計, 開発してきた。
特に、私たちのアプローチは、代替アーキテクチャを探求することによって、従来のU-Netモデルから逸脱します。
また,従来の機械学習手法と深層学習を統合し,マルチアトラスセグメンテーションから事前知識を取り入れ,精度と堅牢性を向上した。
最後に、deepceresと呼ばれる新しいオンラインパイプラインが開発され、標準解像度で単一のt1 mr画像のみを入力として必要な科学コミュニティに提案手法を提供する。 This paper introduces a novel multimodal and high-resolution human brain cerebellum lobule segmentation method. Unlike current tools that operate at standard resolution ($1 \text{ mm}^{3}$) or using mono-modal data, the proposed method improves cerebellum lobule segmentation through the use of a multimodal and ultra-high resolution ($0.125 \text{ mm}^{3}$) training dataset. To develop the method, first, a database of semi-automatically labelled cerebellum lobules was created to train the proposed method with ultra-high resolution T1 and T2 MR images. Then, an ensemble of deep networks has been designed and developed, allowing the proposed method to excel in the complex cerebellum lobule segmentation task, improving precision while being memory efficient. Notably, our approach deviates from the traditional U-Net model by exploring alternative architectures. We have also integrated deep learning with classical machine learning methods incorporating a priori knowledge from multi-atlas segmentation, which improved precision and robustness. Finally, a new online pipeline, named DeepCERES, has been developed to make available the proposed method to the scientific community requiring as input only a single T1 MR image at standard resolution. | 翻訳日:2024-01-23 13:23:46 公開日:2024-01-22 |
# Javanese Dependency Parsingのための言語間変換学習 Cross-lingual Transfer Learning for Javanese Dependency Parsing ( http://arxiv.org/abs/2401.12072v1 ) ライセンス: Link先を確認 | Fadli Aulawi Al Ghiffari, Ika Alfina, Kurniawati Azizah | (参考訳) 構造学習は高リソース言語では顕著な性能を発揮するが,アノテーション付きデータの不足により,表現不足言語では状況が異なってくる。
本研究は,8000万人が話す自然言語処理における限定表現を特徴とする言語であるjavaneseの依存性解析強化におけるトランスファー学習の有効性を評価することを目的とする。
Javaneseを含む100以上の言語からの依存性ツリーバンクからなるUniversal Dependenciesデータセットを活用しました。
本稿では,トランスファーラーニング(TL)と階層型トランスファーラーニング(HTL)の2つの学習手法を提案する。
TLはモデルの事前トレーニングにソース言語のみを使用するが、HTL法は学習プロセスにおいてソース言語と中間言語を使用する。
その結果,我々の最善のモデルはhtl法を用いており,基準モデルと比較してuasおよびlasの評価が10%向上し,性能が向上した。 While structure learning achieves remarkable performance in high-resource languages, the situation differs for under-represented languages due to the scarcity of annotated data. This study focuses on assessing the efficacy of transfer learning in enhancing dependency parsing for Javanese, a language spoken by 80 million individuals but characterized by limited representation in natural language processing. We utilized the Universal Dependencies dataset consisting of dependency treebanks from more than 100 languages, including Javanese. We propose two learning strategies to train the model: transfer learning (TL) and hierarchical transfer learning (HTL). While TL only uses a source language to pre-train the model, the HTL method uses a source language and an intermediate language in the learning process. The results show that our best model uses the HTL method, which improves performance with an increase of 10% for both UAS and LAS evaluations compared to the baseline model. | 翻訳日:2024-01-23 13:23:24 公開日:2024-01-22 |
# 両眼でLLMを見つける: 機械生成テキストのゼロショット検出 Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text ( http://arxiv.org/abs/2401.12070v1 ) ライセンス: Link先を確認 | Abhimanyu Hans, Avi Schwarzschild, Valeriia Cherepanova, Hamid Kazemi, Aniruddha Saha, Micah Goldblum, Jonas Geiping, Tom Goldstein | (参考訳) 現代の大規模言語モデルによって生成されたテキストの検出は、llmと人間の両方が幅広い複雑な振る舞いを示すことができるため、難しいと考えられている。
しかし,2つの近縁言語モデルとの対比に基づくスコアは,人文と機械文の分離に極めて正確であることがわかった。
本機構を応用して,一対の事前学習LDMを用いた簡単な計算しか必要としない新しいLSM検出器を提案する。
Binocularsと呼ばれるこの方法は、トレーニングデータなしで最先端の精度を実現する。
モデル固有の変更を加えることなく、近代的なLLMから機械テキストを見つけることができる。
複数のテキストソースと様々な状況において,両眼を包括的に評価する。
幅広い文書タイプにおいて、双眼鏡はchatgptデータでトレーニングされていないにもかかわらず、chatgpt(および他のllm)から生成されたサンプルの90%以上を偽陽性率0.01%で検出する。 Detecting text generated by modern large language models is thought to be hard, as both LLMs and humans can exhibit a wide range of complex behaviors. However, we find that a score based on contrasting two closely related language models is highly accurate at separating human-generated and machine-generated text. Based on this mechanism, we propose a novel LLM detector that only requires simple calculations using a pair of pre-trained LLMs. The method, called Binoculars, achieves state-of-the-art accuracy without any training data. It is capable of spotting machine text from a range of modern LLMs without any model-specific modifications. We comprehensively evaluate Binoculars on a number of text sources and in varied situations. Over a wide range of document types, Binoculars detects over 90% of generated samples from ChatGPT (and other LLMs) at a false positive rate of 0.01%, despite not being trained on any ChatGPT data. | 翻訳日:2024-01-23 13:23:08 公開日:2024-01-22 |
# TreeSHAPを超える: ツリーアンサンブルのための任意の順序の共有相互作用の効率的な計算 Beyond TreeSHAP: Efficient Computation of Any-Order Shapley Interactions for Tree Ensembles ( http://arxiv.org/abs/2401.12069v1 ) ライセンス: Link先を確認 | Maximilian Muschalik, Fabian Fumagalli, Barbara Hammer, Eyke H\"ullermeier | (参考訳) 浅い決定木は解釈可能であるが、勾配木のような大きなアンサンブルモデルは、表層データを含む機械学習の問題でしばしば最先端となるが、依然としてブラックボックスモデルのままである。
救済として、Shapley値(SV)は、予測の付加的特徴属性を定量化するための説明可能な人工知能(XAI)研究においてよく知られた概念である。
モデル固有のTreeSHAP手法は、ツリーベースモデルから正確なSVを取得するための指数関数的な複雑さを解決する。
個々の特徴の帰属を超えて、シャプリー相互作用は任意の順序の複雑な特徴の相互作用の影響を明らかにする。
本研究では,木モデル予測のための任意の順序加法シャプリー相互作用の効率的な計算法であるTreeSHAP-IQを提案する。
TreeSHAP-IQ は、線形木SHAP と同様に、木の1つの再帰的トラバースの相互作用スコアを計算するために多項式演算を利用する数学的フレームワークによってサポートされている。
我々は,最先端ツリーアンサンブルにtreeshap-iqを適用し,確立されたベンチマークデータセット上でのインタラクションを探索する。 While shallow decision trees may be interpretable, larger ensemble models like gradient-boosted trees, which often set the state of the art in machine learning problems involving tabular data, still remain black box models. As a remedy, the Shapley value (SV) is a well-known concept in explainable artificial intelligence (XAI) research for quantifying additive feature attributions of predictions. The model-specific TreeSHAP methodology solves the exponential complexity for retrieving exact SVs from tree-based models. Expanding beyond individual feature attribution, Shapley interactions reveal the impact of intricate feature interactions of any order. In this work, we present TreeSHAP-IQ, an efficient method to compute any-order additive Shapley interactions for predictions of tree-based models. TreeSHAP-IQ is supported by a mathematical framework that exploits polynomial arithmetic to compute the interaction scores in a single recursive traversal of the tree, akin to Linear TreeSHAP. We apply TreeSHAP-IQ on state-of-the-art tree ensembles and explore interactions on well-established benchmark datasets. | 翻訳日:2024-01-23 13:22:40 公開日:2024-01-22 |
# 資源制約ステレオ歌唱音声キャンセリング Resource-constrained stereo singing voice cancellation ( http://arxiv.org/abs/2401.12068v1 ) ライセンス: Link先を確認 | Clara Borrelli, James Rae, Dogac Basaran, Matt McVicar, Mehrez Souden, Matthias Mauch | (参考訳) 本研究では,ステレオミックスから楽器の背景を推定することを目的とした,音源分離のサブタスクであるステレオ歌唱音声キャンセルの問題について検討する。
実時間音声分離のための小型かつ効率的なモデルから始まる,最先端の大規模音源分離ネットワークに類似した性能を実現する方法について検討する。
このようなモデルは、メモリと計算が制限され、歌唱音声処理が限られたルックアヘッドで実行されなければならない場合に有用である。
実際、これはステレオ入力を処理するために既存のモノモデルを適用することで実現される。
モデルパラメータをチューニングし、トレーニングセットを拡大することで、品質の改善が得られる。
さらに,チャネル間の減衰不整合を検出する新しいメトリックを導入することで,ステレオモデルがもたらすメリットを強調する。
提案手法は,客観的オフライン計測と大規模MUSHRA試験を用いて評価し,厳密な聴取試験における手法の有効性を確認した。 We study the problem of stereo singing voice cancellation, a subtask of music source separation, whose goal is to estimate an instrumental background from a stereo mix. We explore how to achieve performance similar to large state-of-the-art source separation networks starting from a small, efficient model for real-time speech separation. Such a model is useful when memory and compute are limited and singing voice processing has to run with limited look-ahead. In practice, this is realised by adapting an existing mono model to handle stereo input. Improvements in quality are obtained by tuning model parameters and expanding the training set. Moreover, we highlight the benefits a stereo model brings by introducing a new metric which detects attenuation inconsistencies between channels. Our approach is evaluated using objective offline metrics and a large-scale MUSHRA trial, confirming the effectiveness of our techniques in stringent listening tests. | 翻訳日:2024-01-23 13:22:09 公開日:2024-01-22 |
# 導波路における後方波光パラメトリック振動 Backward wave optical parametric oscillation in a waveguide ( http://arxiv.org/abs/2401.12063v1 ) ライセンス: Link先を確認 | Patrick Mutter, Fredrik Laurell, Valdas Pasiskevicius, Andrius Zukauskas | (参考訳) 周期的なRbドープKTPにおける逆波光パラメトリック発振器(BWOPO)導波路を示す。
導波路は低損失(0.16dB/cm)を示し、発振閾値が対応するバルク装置の約20倍低い。
後方波は1514.6nmで21GHzの狭い線幅を持ち、前方波は1688.7nmでポンプを複製するスペクトルを持つ。
bwopoの独特なスペクトル特徴は、低出力非線形集積光学における新しい機会を解き放つ。
8.4%の変換効率は後方刺激ポラリトン散乱の出現によって制限された。 A backward wave optical parametric oscillator (BWOPO) waveguide in periodically poled Rb-doped KTP is presented. The waveguide exhibits low loss (0.16 dB/cm) and has an oscillation threshold, almost 20 times lower than the corresponding bulk device. The backward wave has a narrow linewidth of 21 GHz at 1514.6 nm while the forward wave at 1688.7 nm has a spectrum replicating the pump. The unique spectral features of the BWOPO will unlock novel opportunities in low-power nonlinear integrated optics. A conversion efficiency of 8.4% was obtained limited by the emergence of backward stimulated polariton scattering. | 翻訳日:2024-01-23 13:21:45 公開日:2024-01-22 |
# VRMN-bD:VRスタンドアップインタラクティブゲームにおける没入型人間の恐怖反応のマルチモーダル自然行動データセット VRMN-bD: A Multi-modal Natural Behavior Dataset of Immersive Human Fear Responses in VR Stand-up Interactive Games ( http://arxiv.org/abs/2401.12133v1 ) ライセンス: Link先を確認 | He Zhang, Xinyang Li, Yuanxi Sun, Xinyi Fu, Christine Qiu, John M. Carroll | (参考訳) 感情の理解と認識は、メタバース時代において重要かつ困難な問題である。
バーチャルリアリティ(vr)環境における人間の基本的な感情の1つである恐怖の理解、識別、予測は、没入型ゲーム開発、シーン開発、次世代仮想コンピュータインタラクションアプリケーションにおいて重要な役割を果たす。
本稿では,23人のプレイヤーから複数モーダルデータ(姿勢,音声,生理的信号)を収集し,恐怖の感情を分析するメディアとしてVRホラーゲームを用いた。
我々はLSTMに基づくモデルを用いて、6レベルの分類(恐怖と5つの異なる恐怖)と2レベルの分類(恐怖と恐怖)で、65.31%と90.47%の精度で恐怖を予測する。
本研究では,没入型人間恐怖応答(vrmn-bd)のマルチモーダル自然行動データセットを構築し,既存の高度データセットと比較した。
その結果,収集方法やデータスケール,オーディエンススコープの面では,データセットの制限が小さいことがわかった。
私たちは、VRスタンドアップインタラクティブ環境における恐怖と行動のマルチモーダルデータセットをターゲットとしています。
さらに,この研究がコミュニティやアプリケーションに与える影響についても論じる。
データセットと事前トレーニングされたモデルはhttps://github.com/KindOPSTAR/VRMN-bDで公開されている。 Understanding and recognizing emotions are important and challenging issues in the metaverse era. Understanding, identifying, and predicting fear, which is one of the fundamental human emotions, in virtual reality (VR) environments plays an essential role in immersive game development, scene development, and next-generation virtual human-computer interaction applications. In this article, we used VR horror games as a medium to analyze fear emotions by collecting multi-modal data (posture, audio, and physiological signals) from 23 players. We used an LSTM-based model to predict fear with accuracies of 65.31% and 90.47% under 6-level classification (no fear and five different levels of fear) and 2-level classification (no fear and fear), respectively. We constructed a multi-modal natural behavior dataset of immersive human fear responses (VRMN-bD) and compared it with existing relevant advanced datasets. The results show that our dataset has fewer limitations in terms of collection method, data scale and audience scope. We are unique and advanced in targeting multi-modal datasets of fear and behavior in VR stand-up interactive environments. Moreover, we discussed the implications of this work for communities and applications. The dataset and pre-trained model are available at https://github.com/KindOPSTAR/VRMN-bD. | 翻訳日:2024-01-23 13:15:17 公開日:2024-01-22 |
# 多発性硬化症におけるQCNN-LSTMによる障害予測の検討 Evaluation of QCNN-LSTM for Disability Forecasting in Multiple Sclerosis Using Sequential Multisequence MRI ( http://arxiv.org/abs/2401.12132v1 ) ライセンス: Link先を確認 | John D. Mayfield and Issam El Naqa | (参考訳) 多発性硬化症(MS)患者のMRIにおける各時点の逐次的関連性について,QCNN-Long Short-Term Memory(LSTM)モデルを用いて検討した。
本稿では,従来のニューラルネットワークアーキテクチャと比較したMS障害のバイナリ分類のための3つのQCNN-LSTMモデルを比較した。
私たちの仮説は、量子モデルが競争的パフォーマンスをもたらすというものです。
マトリックス製品状態(MPS)、逆マルチステートエンタングルメント再正規化アンサッツ(MERA)、ツリー・テンソル・ネットワーク(TTN)回路をLSTM層と組み合わせて、MSと診断された患者のほぼ年次MRIデータを処理し、これらをビジュアルジオメトリ・グループ(VGG)-LSTMとビデオビジョン・トランスフォーマー(ViViT)でベンチマークした。
各患者の拡張障害重症度スコア(EDSS)の真理ラベルに対して,二進的クロスエントロピー損失を用いて予測ロジットを測定した。
トレーニング/バリデーション/ホールドアウトテストは、合計60:20で、5倍のクロス検証を使用して分割された。
Levene の分散試験は統計的差を測定するのに使われ、学生の t-test は平均的なペアモデル差を計測した。
結果,mps-lstm,reverse mera-lstm,ttn-lstmはそれぞれ0.70,0.77,0.81であった(p-value 0.915)。
VGG16-LSTMとViViTは、それぞれ0.73と0.77(p値0.631)のROC-AUCと同等に動作した。
全体としての差分と平均値は統計的に有意ではなかった(p値0.713)が、QCNN-LSTMでは、それぞれ39.4秒対224秒と218秒で、p値<0.001)。
結論 QCNN-LSTM モデルは、列車の時間内でより効率の良い古典的なモデルと競合する。
臨床的には、医療画像に基づく疾患進行の時間依存的深層学習予測に効率性が付加される可能性がある。 Introduction Quantum Convolutional Neural Network (QCNN)-Long Short-Term Memory (LSTM) models were studied to provide sequential relationships for each timepoint in MRIs of patients with Multiple Sclerosis (MS). In this pilot study, we compared three QCNN-LSTM models for binary classification of MS disability benchmarked against classical neural network architectures. Our hypothesis is that quantum models will provide competitive performance. Methods Matrix Product State (MPS), reverse Multistate Entanglement Renormalization Ansatz (MERA), and Tree-Tensor Network (TTN) circuits were paired with LSTM layer to process near-annual MRI data of patients diagnosed with MS. These were benchmarked against a Visual Geometry Group (VGG)-LSTM and a Video Vision Transformer (ViViT). Predicted logits were measured against ground truth labels of each patient's Extended Disability Severity Score (EDSS) using binary cross-entropy loss. Training/validation/holdout testing was partitioned using 5-fold cross validation with a total split of 60:20:20. Levene's test of variance was used to measure statistical difference and Student's t-test for paired model differences in mean. Results The MPS-LSTM, reverse MERA-LSTM, and TTN-LSTM had holdout testing ROC-AUC of 0.70, 0.77, and 0.81, respectively (p-value 0.915). VGG16-LSTM and ViViT performed similarly with ROC-AUC of 0.73 and 0.77, respectively (p-value 0.631). Overall variance and mean were not statistically significant (p-value 0.713), however, time to train was significantly faster for the QCNN-LSTMs (39.4 sec per fold vs. 224 and 218, respectively, p-value <0.001). Conclusion QCNN-LSTM models perform competitively to their classical counterparts with greater efficiency in train time. Clinically, these can add value in terms of efficiency to time-dependent deep learning prediction of disease progression based upon medical imaging. | 翻訳日:2024-01-23 13:14:51 公開日:2024-01-22 |
# NeuroSynt: 反応合成のためのニューロシンボリック・ポートフォリオ・ソルバー NeuroSynt: A Neuro-symbolic Portfolio Solver for Reactive Synthesis ( http://arxiv.org/abs/2401.12131v1 ) ライセンス: Link先を確認 | Matthias Cosler, Christopher Hahn, Ayham Omar, Frederik Schmitt | (参考訳) 反応合成のためのニューロシント(NeuroSynt)という,ニューロシンボリック・ポートフォリオ・ソルバ・フレームワークを紹介する。
解法の中心には、反応合成問題を解くためのニューラルネットワークとシンボリックアプローチのシームレスな統合がある。
健全性を確保するため、ニューラルエンジンは、基礎となるニューラルモデルの予測を検証するモデルチェッカーと結合される。
NeuroSyntのオープンソース実装は、新しいニューラルおよび最先端のシンボリックアプローチをシームレスに統合する、リアクティブ合成のための統合フレームワークを提供する。
大規模な実験は、現在のSynTCOMPベンチマークでNuroSyntが新しい解決に寄与した、挑戦的な仕様の処理、最先端のリアクティブ合成ソルバの強化に有効であることを示した。 We introduce NeuroSynt, a neuro-symbolic portfolio solver framework for reactive synthesis. At the core of the solver lies a seamless integration of neural and symbolic approaches to solving the reactive synthesis problem. To ensure soundness, the neural engine is coupled with model checkers verifying the predictions of the underlying neural models. The open-source implementation of NeuroSynt provides an integration framework for reactive synthesis in which new neural and state-of-the-art symbolic approaches can be seamlessly integrated. Extensive experiments demonstrate its efficacy in handling challenging specifications, enhancing the state-of-the-art reactive synthesis solvers, with NeuroSynt contributing novel solves in the current SYNTCOMP benchmarks. | 翻訳日:2024-01-23 13:14:13 公開日:2024-01-22 |
# アブレーション学習温度エネルギーを用いた分布外検出と応用 Out-of-Distribution Detection & Applications With Ablated Learned Temperature Energy ( http://arxiv.org/abs/2401.12129v1 ) ライセンス: Link先を確認 | Will LeVine, Benjamin Pikus, Jacob Phillips, Berk Norman, Fernando Amat Gil, Sean Hendryx | (参考訳) ディープニューラルネットワークがハイテイクドメインに採用されるにつれて、推論入力がアウト・オブ・ディストリビューション(OOD)であるかどうかを識別し、高い信頼性にもかかわらず、パフォーマンスとキャリブレーションの低下を警告できることが不可欠である。
中でも既存の方法では、学習した温度とエネルギーのスコアの順に、予備OODの例をトレーニングすることなく、以下の2つのスコアを使用する。
本稿では,これらの手法を新しい方法と効果的な修正を組み合わせる手法であるアブレーション学習温度エネルギー(abet)について紹介する。
これらの貢献により、アベットは偽陽性率を995\%$true positive rate (fpr@95)で35.39\%$に下げ(測定されたすべてのidとoodデータセットの平均値)、複数の段階のトレーニングネットワークやハイパーパラメータやテストタイムの後方パスを必要とすることなく、アートの状態と比較する。
さらに、トレーニング時に誤分類IDのサンプルに曝露することで、IDサンプルに対して明示的にトレーニングされる一方で、ID(In-Distribution)とOOD(OOD)のサンプルを区別する方法についての経験的洞察を提供する。
最後に,オブジェクト検出およびセマンティックセグメンテーションにおけるOODオブジェクトに対応する予測境界ボックスと画素の同定において,AUROCが5.15 %,FPR@95 が41.48 %,AUPRCが34.20 %,それぞれ従来の技術と比較して平均34.20 %の値を示した。 As deep neural networks become adopted in high-stakes domains, it is crucial to be able to identify when inference inputs are Out-of-Distribution (OOD) so that users can be alerted of likely drops in performance and calibration despite high confidence. Among many others, existing methods use the following two scores to do so without training on any apriori OOD examples: a learned temperature and an energy score. In this paper we introduce Ablated Learned Temperature Energy (or "AbeT" for short), a method which combines these prior methods in novel ways with effective modifications. Due to these contributions, AbeT lowers the False Positive Rate at $95\%$ True Positive Rate (FPR@95) by $35.39\%$ in classification (averaged across all ID and OOD datasets measured) compared to state of the art without training networks in multiple stages or requiring hyperparameters or test-time backward passes. We additionally provide empirical insights as to how our model learns to distinguish between In-Distribution (ID) and OOD samples while only being explicitly trained on ID samples via exposure to misclassified ID examples at training time. Lastly, we show the efficacy of our method in identifying predicted bounding boxes and pixels corresponding to OOD objects in object detection and semantic segmentation, respectively - with an AUROC increase of $5.15\%$ in object detection and both a decrease in FPR@95 of $41.48\%$ and an increase in AUPRC of $34.20\%$ on average in semantic segmentation compared to previous state of the art. | 翻訳日:2024-01-23 13:14:00 公開日:2024-01-22 |
# CodeTailor:パーソナライズされたパーソンズパズルは、学習を支援するAI生成ソリューションよりも優先される CodeTailor: Personalized Parsons Puzzles are Preferred Over AI-Generated Solutions to Support Learning ( http://arxiv.org/abs/2401.12125v1 ) ライセンス: Link先を確認 | Xinying Hou, Zihan Wu, Xu Wang, Barbara J. Ericson | (参考訳) プログラミングは初心者には難しいかもしれないが、大規模に高品質で包括的でタイムリーなサポートを提供することは難しい。
生成AIとその製品であるChatGPTは、ほとんどの導入プログラミング問題に対するソリューションを作成することができる。
しかし、学生は素早いコード生成と宿題の完了のためにこれらのツールに過度に依存し、エンゲージメントが減少し、学習が制限される。
本研究では,大規模言語モデル (LLM) を利用した学生の認知活動を促進するシステムである sys{} を提案する。
\sys{}は、苦労している学生を支援するパーソンズパズルを提供する。
パーソンズパズルでは、生徒は正しい順番で混合コードブロックを配置して問題を解決する。
800の不正な学生コードによる技術的評価により、‘sys{}’は生徒のための高品質(正確でパーソナライズされた、簡潔な)パーソンズパズルを効率的に作成できることを示した。
18人の初心者プログラマによるイントラサブジェクション実験では、ほとんどの学生は、単にaiが生成するソリューションを受け取るのではなく、学習のために \sys{} を好んだ。
さらに、学生は、単に直接解を得たときと比べて、サポートされたプラクティスから、 \sys{}を使った後のposttestまで、より多くの新しい要素を思い出した。
質的観察とインタビューは、アルゴリズム的思考の強調、学習の連続性育成、メタ認知的リフレクションの促進、学生の自信の高揚を含む、 \sys{} の利点の証拠を提供した。
我々は、過剰信頼性を最小化し、学習を強化する方法で生成AIを適用するための将来の設計を提案する。 Programming can be challenging for novices, but it is difficult to provide high-quality, comprehensive, and timely support at scale. Generative AI and its products, like ChatGPT, can create a solution for most introductory programming problems. However, students may become overly reliant on these tools for quick code generation and homework completion, leading to reduced engagement and limited learning. In this work, we present \sys{}, a system that utilizes large language models (LLM) while still promoting students' cognitive engagement. \sys{} provides a personalized Parsons puzzle to support struggling students. In a Parsons puzzle, students place mixed-up code blocks in the correct order to solve a problem. A technical evaluation with 800 incorrect student code demonstrated that \sys{} can efficiently create high-quality (correct, personalized, and concise) Parsons puzzles for students. In a within-subjects experiment with 18 novice programmers, most students rated using \sys{} as more engaging, and they preferred \sys{} for learning rather than simply receiving an AI-generated solution. Additionally, students recalled more new elements from the supported practice to the posttest after using \sys{}, compared to when they simply received a direct solution. Qualitative observations and interviews provided evidence for the benefits of \sys{} including emphasizing algorithmic thinking, fostering continuity in learning, promoting metacognitive reflection, and boosting student confidence. We conclude by suggesting future designs for applying generative AI in a way that minimizes over-reliance and enhances learning. | 翻訳日:2024-01-23 13:13:22 公開日:2024-01-22 |
# 決定論的集団縮小による遺伝的アルゴリズムの性能向上 Improving genetic algorithms performance via deterministic population shrinkage ( http://arxiv.org/abs/2401.12121v1 ) ライセンス: Link先を確認 | Juan Luis Jim\'enez Laredo and Carlos Fernandes and Juan Juli\'an Merelo and Christian Gagn\'e | (参考訳) 進化的アルゴリズム(ea)の実行中に同じ人口サイズは必要ないという直感にもかかわらず、ほとんどのeasは固定された人口サイズを使用している。
本稿では,遺伝的アルゴリズム(GA)の性能に対するSVPS(Simple Variable Population Size)方式の適用可能性に関する実証的研究を行った。
それは、所定のスケジュールに従ってGAランの人口を減少させ、速度と重大度パラメータによって構成する。
本手法は, 一定の信頼区間内に収束する固定サイズ選択組換えGAを用いて, 特定の問題に対する優れた解を求めるため, 十分なビルディングブロックを供給するために必要な最小サイズを推定する。
この手法に従って、SVPS-GAが異なる問題インスタンスと難易度下での固定サイズGAと比較して性能を改善するかどうかを評価するために、認識的、準認知的、非認識的トラップ関数についてスケーラビリティ解析を行う。
その結果,SVPS-GAは性能を向上しながら解の質を保ちつつ,性能向上に要する評価回数を削減し,速度重大性の組合せを示した。 Despite the intuition that the same population size is not needed throughout the run of an Evolutionary Algorithm (EA), most EAs use a fixed population size. This paper presents an empirical study on the possible benefits of a Simple Variable Population Sizing (SVPS) scheme on the performance of Genetic Algorithms (GAs). It consists in decreasing the population for a GA run following a predetermined schedule, configured by a speed and a severity parameter. The method uses as initial population size an estimation of the minimum size needed to supply enough building blocks, using a fixed-size selectorecombinative GA converging within some confidence interval toward good solutions for a particular problem. Following this methodology, a scalability analysis is conducted on deceptive, quasi-deceptive, and non-deceptive trap functions in order to assess whether SVPS-GA improves performances compared to a fixed-size GA under different problem instances and difficulty levels. Results show several combinations of speed-severity where SVPS-GA preserves the solution quality while improving performances, by reducing the number of evaluations needed for success. | 翻訳日:2024-01-23 13:12:49 公開日:2024-01-22 |
# ビット当たりのジュール温度 Temperature as Joules per Bit ( http://arxiv.org/abs/2401.12119v1 ) ライセンス: Link先を確認 | Charles Alexandre B\'edard, Sophie Berthelette, Xavier Coiteux-Roy and Stefan Wolf | (参考訳) ボルツマン定数は、J/Kで表される情報の性質が難解であるエントロピーの概念の歴史的誤解を反映している。
温度とエネルギーの発達は、歴史的にエントロピーの発達に先立って、その論理的優先順位に当てはまらないことを示唆する: 温度はエントロピーの観点で定義されるべきであり、その逆ではない。
情報理論の規範に従い、エントロピーはビット単位で測定され、熱力学平衡における情報容量と一致する。
結果として、j/bitで表される平衡システムの温度だけでなく、運用上の意味も得る: 情報容量を1ビット増やすのにエネルギーのコストがかかる。
提案は,自由エネルギーに類似した利用可能な容量の概念も支持する。
最後にlandauerのコストを単純化し、消去ではなく、変位のコストであることを明確化する。 Boltzmann's constant reflects a historical misunderstanding of the concept of entropy, whose informational nature is obfuscated when expressed in J/K. We suggest that the development of temperature and energy, historically prior to that of entropy, does not amount to their logical priority: Temperature should be defined in terms of entropy, not vice versa. Following the precepts of information theory, entropy is measured in bits, and coincides with information capacity at thermodynamic equilibrium. Consequently, not only is the temperature of an equilibrated system expressed in J/bit, but it acquires an operational meaning: It is the cost in energy to increase its information capacity by 1 bit. Our proposal also supports the notion of available capacity, analogous to free energy. Finally, it simplifies Landauer's cost and clarifies that it is a cost of displacement, not of erasure. | 翻訳日:2024-01-23 13:12:29 公開日:2024-01-22 |
# マルチモーダル大言語モデルを用いた非言語抽象推論の奇妙なケース The Curious Case of Nonverbal Abstract Reasoning with Multi-Modal Large Language Models ( http://arxiv.org/abs/2401.12117v1 ) ライセンス: Link先を確認 | Kian Ahrabian, Zhivar Sourati, Kexuan Sun, Jiarui Zhang, Yifan Jiang, Fred Morstatter, Jay Pujara | (参考訳) 大規模言語モデル(LLM)はいまだ新しいドメインに採用され、新しいアプリケーションで利用されているが、我々は新しい世代の基盤モデル、すなわちマルチモーダルな大規模言語モデル(MLLM)が流入している。
これらのモデルは言語情報と視覚情報を統合し、2つのモードの交差点でより複雑な推論能力を示す新しい可能性を開く。
しかし、MLLMの革新的展望にもかかわらず、推論能力に対する私たちの理解は限られている。
本研究では,Ravenのプログレッシブ行列のバリエーションを用いて,オープンソースおよびクローズドソースMLLMの非言語的抽象的推論能力を評価する。
実験では,オープンソースモデルとクローズドソースモデルの間に大きなギャップがあることを示しながら,そのような問題を解決することの難しさを明らかにした。
また,個々の視覚モジュールとテキストモジュールの致命的な欠点を明らかにし,モデルを低性能天井に適用した。
最後に、MLLMの性能を向上させるために、Chain-of-Thoughtプロンプトなどの様々な手法を実験し、その結果、性能が最大100%向上した。 While large language models (LLMs) are still being adopted to new domains and utilized in novel applications, we are experiencing an influx of the new generation of foundation models, namely multi-modal large language models (MLLMs). These models integrate verbal and visual information, opening new possibilities to demonstrate more complex reasoning abilities at the intersection of the two modalities. However, despite the revolutionizing prospect of MLLMs, our understanding of their reasoning abilities is limited. In this study, we assess the nonverbal abstract reasoning abilities of open-source and closed-source MLLMs using variations of Raven's Progressive Matrices. Our experiments expose the difficulty of solving such problems while showcasing the immense gap between open-source and closed-source models. We also reveal critical shortcomings with individual visual and textual modules, subjecting the models to low-performance ceilings. Finally, to improve MLLMs' performance, we experiment with various methods, such as Chain-of-Thought prompting, resulting in a significant (up to 100%) boost in performance. | 翻訳日:2024-01-23 13:12:14 公開日:2024-01-22 |
# 深層ニューラルネットワークから多値論理式を抽出する Extracting Formulae in Many-Valued Logic from Deep Neural Networks ( http://arxiv.org/abs/2401.12113v1 ) ライセンス: Link先を確認 | Yani Zhang, Helmut B\"olcskei | (参考訳) 本稿では,Lukasiewicz無限値論理の回路対として,深いReLUネットワークの新しい視点,すなわちブール論理の多値(MV)一般化を提案する。
本稿では,深いReLUネットワークからMV論理式を抽出するアルゴリズムを提案する。
このアルゴリズムは一般に、特に実数値重み付きネットワークに適用されるため、データに基づいて訓練された深いReLUネットワークから論理式を抽出することができる。 We propose a new perspective on deep ReLU networks, namely as circuit counterparts of Lukasiewicz infinite-valued logic -- a many-valued (MV) generalization of Boolean logic. An algorithm for extracting formulae in MV logic from deep ReLU networks is presented. As the algorithm applies to networks with general, in particular also real-valued, weights, it can be used to extract logical formulae from deep ReLU networks trained on data. | 翻訳日:2024-01-23 13:11:55 公開日:2024-01-22 |
# リンドブラッドマスター方程式の弱二階量子状態拡散 Weak second-order quantum state diffusion unraveling of the Lindblad master equation ( http://arxiv.org/abs/2401.12109v1 ) ライセンス: Link先を確認 | Sayak Adhikari and Roi Baer | (参考訳) オープン量子システムにおける混合状態進化の抽象シミュレーションは、様々な化学物理学、量子光学、コンピュータ科学の応用に不可欠である。
これらのシミュレーションは一般にリンドブラッドマスター方程式ダイナミクスに従う。
量子状態拡散解法 (quantum state diffusion unraveling) として知られる別のアプローチは、ランダム波動関数によって生成される純粋状態の軌跡に基づいており、これは非線形な It\^o-Schr\"odinger equation (ISE) に従って進化する。
本研究は, 相互作用図に厳密な微分を持つ it\^o-taylor 展開を直接適用することに基づく, ise の弱一階および二階解法を提案する。
熱環境に結合したMorse発振器において,本手法を試験したところ,2つの順序が複数回繰り返して実測できることがわかった。
分散は線形解離に比べて比較的小さく,時間とともに成長しなかった。
2階解法は1階解法よりもはるかに高い精度と安定性を実現し、作業負荷も小さい。
しかし、2次アルゴリズムは1次アルゴリズムの線形複雑性とは対照的に、リンドブラッド演算子数と2次複雑性を持つ。 Abstract Simulating mixed-state evolution in open quantum systems is crucial for various chemical physics, quantum optics, and computer science applications. These simulations typically follow the Lindblad master equation dynamics. An alternative approach known as quantum state diffusion unraveling is based on the trajectories of pure states generated by random wave functions, which evolve according to a nonlinear It\^o-Schr\"odinger equation (ISE). This study introduces weak first- and second-order solvers for the ISE based on directly applying the It\^o-Taylor expansion with exact derivatives in the interaction picture. We tested the method on free and driven Morse oscillators coupled to a thermal environment and found that both orders allowed practical estimation with a few dozen iterations. The variance was relatively small compared to the linear unraveling and did not grow with time. The second-order solver delivers much higher accuracy and stability with bigger time steps than the first-order scheme, with a small additional workload. However, the second-order algorithm has quadratic complexity with the number of Lindblad operators as opposed to the linear complexity of the first-order algorithm. | 翻訳日:2024-01-23 13:11:48 公開日:2024-01-22 |
# クラウドシッピングシステムにおけるオンタイム配信:ストリーミングデータを用いたエージェントベースアプローチ On-Time Delivery in Crowdshipping Systems: An Agent-Based Approach Using Streaming Data ( http://arxiv.org/abs/2401.12108v1 ) ライセンス: Link先を確認 | Jeremias D\"otterl, Ralf Bruns, J\"urgen Dunkel, Sascha Ossowski | (参考訳) パーセル配送では、パーセルハブから顧客までの「最後のマイル」はコストがかかり、特に到着後数時間以内に完了しなければならない時間に敏感な配送タスクにはコストがかかる。
近年,従来の配送モードに代わる新たな選択肢として,クラウドシッピングが注目されている。
クラウドシッピングでは、市民(「群衆」)は、小さなインセンティブと引き換えに小包の配達に貢献するために、日常生活で短い遠回りを行う。
しかし,観衆行動の達成は,群集が極めてダイナミックであり,自律的で自己関心の強い個人で構成されているため困難である。
時間に敏感な配達のクラウドストラップを活用することは、依然としてオープンな課題だ。
本稿では,群集によるオンタイムパーセル配送のエージェントベースアプローチを提案する。
本システムでは,配送遅延を予測するために,携帯電話のセンサデータに対してデータストリーム処理を行う。
遅延が予測されると、システムは現在の配送者から近くのより有望なクーリエに荷物を転送する合意を定めようとする。
実験により、正確な遅延予測と目的のあるタスク転送によって、我々のアプローチなしで発生するであろう多くの遅延を防止できることが示されている。 In parcel delivery, the "last mile" from the parcel hub to the customer is costly, especially for time-sensitive delivery tasks that have to be completed within hours after arrival. Recently, crowdshipping has attracted increased attention as a new alternative to traditional delivery modes. In crowdshipping, private citizens ("the crowd") perform short detours in their daily lives to contribute to parcel delivery in exchange for small incentives. However, achieving desirable crowd behavior is challenging as the crowd is highly dynamic and consists of autonomous, self-interested individuals. Leveraging crowdshipping for time-sensitive deliveries remains an open challenge. In this paper, we present an agent-based approach to on-time parcel delivery with crowds. Our system performs data stream processing on the couriers' smartphone sensor data to predict delivery delays. Whenever a delay is predicted, the system attempts to forge an agreement for transferring the parcel from the current deliverer to a more promising courier nearby. Our experiments show that through accurate delay predictions and purposeful task transfers many delays can be prevented that would occur without our approach. | 翻訳日:2024-01-23 13:11:26 公開日:2024-01-22 |
# 散逸量子回路におけるトランスモンの幾何学的位相 Geometric Phase of a Transmon in a Dissipative Quantum Circuit ( http://arxiv.org/abs/2401.12106v1 ) ライセンス: Link先を確認 | Ludmila Viotti, Fernando C. Lombardo, and Paula I. Villar | (参考訳) 超伝導回路は、複数の用途を持つ有望な物理デバイスである。
これらの用途の中では、例えば幾何学的ゲートの構築において、システムの状態によって蓄積される幾何学的位相の基本概念が繰り返し現れる。
この枠組みを前提として、超伝導共振キャビティに結合したトランスモンというパラダイム的設定によって得られた幾何学的位相について検討する。
我々は、進化が一元的であり、それが散逸的な影響を受ける場合にもそうする。
これらのモデルは、完全または散逸空洞内の電磁場の1つのモードと相互作用する無調和系の包括的量子記述を提供する。
散逸モデルでは、非ユニタリな効果はその環境に結合したトランスモンの強調、緩和、崩壊によって生じる。
提案手法は, これらのモデルで得られた幾何相の比較を可能にし, 環境の存在によってもたらされる補正の理解を深める。 Superconducting circuits reveal themselves as promising physical devices with multiple uses. Within those uses, the fundamental concept of the geometric phase accumulated by the state of a system shows up recurrently, as, for example, in the construction of geometric gates. Given this framework, we study the geometric phases acquired by a paradigmatic setup: a transmon coupled to a superconductor resonating cavity. We do so both for the case in which the evolution is unitary and when it is subjected to dissipative effects. These models offer a comprehensive quantum description of an anharmonic system interacting with a single mode of the electromagnetic field within a perfect or dissipative cavity, respectively. In the dissipative model, the non-unitary effects arise from dephasing, relaxation, and decay of the transmon coupled to its environment. Our approach enables a comparison of the geometric phases obtained in these models, leading to a thorough understanding of the corrections introduced by the presence of the environment. | 翻訳日:2024-01-23 13:11:07 公開日:2024-01-22 |
# マジックはチャネルの量子能力を高めることができる Magic Can Enhance the Quantum Capacity of Channels ( http://arxiv.org/abs/2401.12105v1 ) ライセンス: Link先を確認 | Kaifeng Bu, Arthur Jaffe | (参考訳) チャネルの量子容量におけるマジックの役割について検討する。
我々は、最近提案された離散ビームスプリッタの量子チャネルと固定環境状態について考察する。
固定された環境状態が安定化状態であれば、量子容量はゼロとなる。
さらに, 量子容量が魔法の状態に対してゼロでないこと, 環境における単一量子状態の数に対して量子容量が線形に増加することを見いだした。
これらの結果は、魔法はチャネルの量子容量を増大させ、量子通信における安定体とマジック状態の役割に関する新たな洞察をもたらすことを示唆している。 We investigate the role of magic in the quantum capacity of channels. We consider the quantum channel of the recently proposed discrete beam splitter with the fixed environment state. We find that if the fixed environment state is a stabilizer state, then the quantum capacity is zero. Moreover, we find that the quantum capacity is nonzero for some magic states, and the quantum capacity increases linearly with respect to the number of single-qudit magic states in the environment. These results suggest that magic can increase the quantum capacity of channels, which sheds new insight into the role of stabilizer and magic states in quantum communication. | 翻訳日:2024-01-23 13:10:54 公開日:2024-01-22 |
# アンサンブル変分原理による基底状態と励起状態 Ground and Excited States from Ensemble Variational Principles ( http://arxiv.org/abs/2401.12104v1 ) ライセンス: Link先を確認 | Lexin Ding, Cheng-Lin Hong, Christian Schilling | (参考訳) Rayleigh-Ritz 変分原理のアンサンブル状態への拡張 $\rho_{\mathbf{w}}\equiv\sum_k w_k |\Psi_k\rangle \langle\Psi_k|$ 固定重み $w_k$ は、変動手段による励起エネルギーを標的とするいくつかの最近の方法論的発展の中心にある。
代表的な例として、密度行列汎関数理論、モンテカルロサンプリング、状態平均完全空間自己整合場法、変分量子固有解法がある。
アンサンブルエネルギーがよく収束しているときは常に、アンサンブル状態 $\rho_{\mathbf{w}}$ と個々の固有状態 $|\Psi_k\rangle$ と eigenenergies $E_k$ が成り立つ。
より具体的に言うと、線形境界は$d_-\Delta{E}_{\mathbf{w}} \leq \Delta Q \leq d_+ \Delta\Delta{E}_{\mathbf{w}}$である。
その後の分析分析と数値図解により、我々の普遍的不等式の厳密さが証明される。
以上の結果と、特にd_{\pm}\equiv d_{\pm}^{(q)}(\mathbf{w},\mathbf{e})$の明示的な形式は、実用的な応用において、補助重みの最適選択である$w_k$に対する貴重な洞察を与える。 The extension of the Rayleigh-Ritz variational principle to ensemble states $\rho_{\mathbf{w}}\equiv\sum_k w_k |\Psi_k\rangle \langle\Psi_k|$ with fixed weights $w_k$ lies ultimately at the heart of several recent methodological developments for targeting excitation energies by variational means. Prominent examples are density and density matrix functional theory, Monte Carlo sampling, state-average complete active space self-consistent field methods and variational quantum eigensolvers. In order to provide a sound basis for all these methods and to improve their current implementations, we prove the validity of the underlying critical hypothesis: Whenever the ensemble energy is well-converged, the same holds true for the ensemble state $\rho_{\mathbf{w}}$ as well as the individual eigenstates $|\Psi_k\rangle$ and eigenenergies $E_k$. To be more specific, we derive linear bounds $d_-\Delta{E}_{\mathbf{w}} \leq \Delta Q \leq d_+ \Delta\Delta{E}_{\mathbf{w}}$ on the errors $\Delta Q $ of these sought-after quantities. A subsequent analytical analysis and numerical illustration proves the tightness of our universal inequalities. Our results and particularly the explicit form of $d_{\pm}\equiv d_{\pm}^{(Q)}(\mathbf{w},\mathbf{E})$ provide valuable insights into the optimal choice of the auxiliary weights $w_k$ in practical applications. | 翻訳日:2024-01-23 13:10:45 公開日:2024-01-22 |
# LearnedWMP:クエリテンプレートの分散によるワークロードメモリ予測 LearnedWMP: Workload Memory Prediction Using Distribution of Query Templates ( http://arxiv.org/abs/2401.12103v1 ) ライセンス: Link先を確認 | Shaikh Quader, Andres Jaramillo, Sumona Mukhopadhyay, Ghadeer Abuoda, Calisto Zuzarte, David Kalmuk, Marin Litoiu, Manos Papagelis | (参考訳) 現代のDBMSでは、ジョイン、ソート、アグリゲーションなどのインメモリ分析クエリ操作を処理する際に、ワーキングメモリがしばしば制限要因となる。
既存のdbmsのリソース推定手法は、クエリ実行計画において各データベースオペレータの見積もりを計算してクエリのリソース消費量を推定する。
このようなアプローチは、基礎となるデータの均一性や独立性といった仮定を単純化することに依存するため、遅くてエラーを起こしやすい。
さらに、既存のアプローチは個別のクエリを個別に重視しており、同時に実行されるワークロード内の他のクエリを考慮しない。
本研究では,クエリのバッチ(ワークロード)の同時実行時のクエリ性能の最適化に関心がある。
具体的には、各クエリに対する別々の見積を提供するのではなく、ワークロードのメモリ要求を予測することに重点を置いています。
本稿では,ワークロードメモリ予測の問題を紹介し,分散回帰問題として定式化する。
本稿では,ワークロードの動作メモリ要求を改善・簡易化するために,Leared Workload Memory Prediction (LearnedWMP)を提案する。
包括的実験により,LeartedWMPは,実行時のメモリ推定誤差を最大47.6%削減することを示した。
代替のシングルクエリモデルと比較して、トレーニングと推論の間、LeartedWMPモデルとその派生モデルは3倍から10倍速くなった。
さらに、LeartedWMPベースのモデルは、ほとんどの場合、少なくとも50%小さくなった。
全体としては、LeartedWMPアプローチの利点と、クエリ性能の最適化に大きな影響を与える可能性を示している。 In a modern DBMS, working memory is frequently the limiting factor when processing in-memory analytic query operations such as joins, sorting, and aggregation. Existing resource estimation approaches for a DBMS estimate the resource consumption of a query by computing an estimate of each individual database operator in the query execution plan. Such an approach is slow and error-prone as it relies upon simplifying assumptions, such as uniformity and independence of the underlying data. Additionally, the existing approach focuses on individual queries separately and does not factor in other queries in the workload that may be executed concurrently. In this research, we are interested in query performance optimization under concurrent execution of a batch of queries (a workload). Specifically, we focus on predicting the memory demand for a workload rather than providing separate estimates for each query within it. We introduce the problem of workload memory prediction and formalize it as a distribution regression problem. We propose Learned Workload Memory Prediction (LearnedWMP) to improve and simplify estimating the working memory demands of workloads. Through a comprehensive experimental evaluation, we show that LearnedWMP reduces the memory estimation error of the state-of-the-practice method by up to 47.6%. Compared to an alternative single-query model, during training and inferencing, the LearnedWMP model and its variants were 3x to 10x faster. Moreover, LearnedWMP-based models were at least 50% smaller in most cases. Overall, the results demonstrate the advantages of the LearnedWMP approach and its potential for a broader impact on query performance optimization. | 翻訳日:2024-01-23 13:10:14 公開日:2024-01-22 |
# 超伝導量子ビットにおけるコヒーレント2レベル系の離散電荷状態の観測 Observation of discrete charge states of a coherent two-level system in a superconducting qubit ( http://arxiv.org/abs/2401.12183v1 ) ライセンス: Link先を確認 | Bao-Jie Liu, Ying-Ying Wang, Tal Sheffer and Chen Wang | (参考訳) 我々は、オフセット電荷感受性超伝導トランスモン量子ビットに強く結合したコヒーレント誘電体2レベル系(TLS)の離散電荷状態の観測を報告する。
2つのTLS固有状態(遷移周波数2.9GHz、緩和時間3ms)に関連する0.072$e$のオフセット電荷を測定する。
さらにTLS遷移と準粒子トンネル力学の関節追跡を行うが,本質的な相関は見つからない。
本研究では、低周波帯電雑音の発生源としてマイクロ波TLSを示す。 We report observations of discrete charge states of a coherent dielectric two-level system (TLS) that is strongly coupled to an offset-charge-sensitive superconducting transmon qubit. We measure an offset charge of 0.072$e$ associated with the two TLS eigenstates, which have a transition frequency of 2.9 GHz and a relaxation time exceeding 3 ms. Combining measurements in the strong dispersive and resonant regime, we quantify both transverse and longitudinal couplings of the TLS-qubit interaction. We further perform joint tracking of TLS transitions and quasiparticle tunneling dynamics but find no intrinsic correlations. This study demonstrates microwave-frequency TLS as a source of low-frequency charge noise. | 翻訳日:2024-01-23 13:03:00 公開日:2024-01-22 |
# GPT2言語モデルにおけるユニバーサルニューロン Universal Neurons in GPT2 Language Models ( http://arxiv.org/abs/2401.12181v1 ) ライセンス: Link先を確認 | Wes Gurnee, Theo Horsley, Zifan Carl Guo, Tara Rezaei Kheirkhah, Qinyi Sun, Will Hathaway, Neel Nanda, Dimitris Bertsimas | (参考訳) メカニスティック解釈の新興分野における基本的な問題は、ニューラルネットワークが同じメカニズムを学ぶ程度である。
言い換えれば、神経機構は異なるモデルで普遍的であるか?
本研究では、異なる初期ランダムシードから訓練されたGPT2モデルにおける個々のニューロンの普遍性について研究し、普遍ニューロンが解釈可能であるという仮説に動機づけられた。
特に,5つの異なる種子にまたがるニューロンペアごとに1億個を超えるニューロン活性化のペア相関を計算したところ,ニューロンの1~55%が普遍的であり,同じ入力で一貫したニューロンのペアであることがわかった。
次に、これらの普遍ニューロンを詳細に研究し、通常は明確な解釈を持ち、少数のニューロンファミリーに分類する。
最後に、ニューロン重みのパターンを研究し、注意ヘッドの非活性化、次のトークン分布のエントロピーの変化、そして次のトークンが特定のセット内にあることの予測など、単純な回路でニューロンの普遍的な機能的役割を確立する。 A basic question within the emerging field of mechanistic interpretability is the degree to which neural networks learn the same underlying mechanisms. In other words, are neural mechanisms universal across different models? In this work, we study the universality of individual neurons across GPT2 models trained from different initial random seeds, motivated by the hypothesis that universal neurons are likely to be interpretable. In particular, we compute pairwise correlations of neuron activations over 100 million tokens for every neuron pair across five different seeds and find that 1-5\% of neurons are universal, that is, pairs of neurons which consistently activate on the same inputs. We then study these universal neurons in detail, finding that they usually have clear interpretations and taxonomize them into a small number of neuron families. We conclude by studying patterns in neuron weights to establish several universal functional roles of neurons in simple circuits: deactivating attention heads, changing the entropy of the next token distribution, and predicting the next token to (not) be within a particular set. | 翻訳日:2024-01-23 13:02:47 公開日:2024-01-22 |
# DITTO:音楽生成のための拡散推論時間T-最適化 DITTO: Diffusion Inference-Time T-Optimization for Music Generation ( http://arxiv.org/abs/2401.12179v1 ) ライセンス: Link先を確認 | Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan | (参考訳) DITTO(Diffusion Inference-Time T-Optimization)は,初期雑音遅延を最適化することで,事前学習したテキストから音楽への拡散モデルを制御するための汎用フレームワークである。
本手法は,任意の特徴マッチング損失を最適化して,目標(スティル化)出力を実現し,メモリ効率に勾配チェックポインティングを利用する。
我々は、インペイント、アウトペイント、ループ、インテンシティ、メロディ、音楽構造制御など、音楽生成のための驚くほど幅広い応用を、基礎となるモデルを微調整することなく実証する。
私たちが関連するトレーニング、ガイダンス、最適化に基づく手法と比較すると、DITTOは、制御性、オーディオ品質、計算効率に匹敵するアプローチで、ほぼ全てのタスクにおいて最先端のパフォーマンスを実現し、高品質で柔軟な、訓練不要な拡散モデル制御の扉を開くことができる。
サウンドサンプルはhttps://ditto-music.github.io/web/にある。 We propose Diffusion Inference-Time T-Optimization (DITTO), a general-purpose frame-work for controlling pre-trained text-to-music diffusion models at inference-time via optimizing initial noise latents. Our method can be used to optimize through any differentiable feature matching loss to achieve a target (stylized) output and leverages gradient checkpointing for memory efficiency. We demonstrate a surprisingly wide-range of applications for music generation including inpainting, outpainting, and looping as well as intensity, melody, and musical structure control - all without ever fine-tuning the underlying model. When we compare our approach against related training, guidance, and optimization-based methods, we find DITTO achieves state-of-the-art performance on nearly all tasks, including outperforming comparable approaches on controllability, audio quality, and computational efficiency, thus opening the door for high-quality, flexible, training-free control of diffusion models. Sound examples can be found at https://DITTO-Music.github.io/web/. | 翻訳日:2024-01-23 13:02:30 公開日:2024-01-22 |
# 極限マルチラベル分類のためのインコンテキスト学習 In-Context Learning for Extreme Multi-Label Classification ( http://arxiv.org/abs/2401.12178v1 ) ライセンス: Link先を確認 | Karel D'Oosterlinck, Omar Khattab, Fran\c{c}ois Remy, Thomas Demeester, Chris Develder, Christopher Potts | (参考訳) 言語モデル(LM)には、正確なクラスやそれらの割り当て方法に関する事前の知識が欠けている可能性があるため、数千のクラスのマルチラベル分類問題は、文脈内学習だけでは解決が難しい。
本稿では,LMとレトリバー間の複数ステップの相互作用を定義し,これらの問題に効率的に対処する汎用プログラムである$\texttt{Infer--Retrieve--Rank}$を提案する。
このプログラムは、宣言的な方法でコンテキスト内システムを指定する、$\textt{DSPy}$プログラミングモデルを用いて実装し、$\textt{DSPy}$オプティマイザを使用して、数発のサンプルをブートストラップすることで、特定のデータセットに調整する。
タスク毎に個別に最適化された主要な極端分類プログラムは、3つのベンチマーク(HOUSE, TECH, TECHWOLF)で最先端の結果を得る。
同じプログラムを、非常に異なる特徴を持つベンチマークに適用し、競争性能(BioDEX)も達成する。
従来の作業とは異なり,提案手法では微調整は必要とせず,新しいタスクに容易に適用でき,迅速なエンジニアリングを緩和でき,ラベル付き例が数個必要である。
私たちのコードはhttps://github.com/KarelDO/xmc.dspy.comで公開されています。 Multi-label classification problems with thousands of classes are hard to solve with in-context learning alone, as language models (LMs) might lack prior knowledge about the precise classes or how to assign them, and it is generally infeasible to demonstrate every class in a prompt. We propose a general program, $\texttt{Infer--Retrieve--Rank}$, that defines multi-step interactions between LMs and retrievers to efficiently tackle such problems. We implement this program using the $\texttt{DSPy}$ programming model, which specifies in-context systems in a declarative manner, and use $\texttt{DSPy}$ optimizers to tune it towards specific datasets by bootstrapping only tens of few-shot examples. Our primary extreme classification program, optimized separately for each task, attains state-of-the-art results across three benchmarks (HOUSE, TECH, TECHWOLF). We apply the same program to a benchmark with vastly different characteristics and attain competitive performance as well (BioDEX). Unlike prior work, our proposed solution requires no finetuning, is easily applicable to new tasks, alleviates prompt engineering, and requires only tens of labeled examples. Our code is public at https://github.com/KarelDO/xmc.dspy. | 翻訳日:2024-01-23 13:02:09 公開日:2024-01-22 |
# Broiler-Net: 養鶏家におけるブロイラー行動分析のための深層畳み込みフレームワーク Broiler-Net: A Deep Convolutional Framework for Broiler Behavior Analysis in Poultry Houses ( http://arxiv.org/abs/2401.12176v1 ) ライセンス: Link先を確認 | Tahereh Zarrat Ehsan, Seyed Mehdi Mohtavipour | (参考訳) 養鶏家における異常の検出は、最適な鶏の健康状態の維持、経済的損失の最小化、収益性の向上に不可欠である。
本稿では, ケージフリー養鶏場における鶏肉の挙動をリアルタイムに解析し, 異常行動を検出する枠組みを提案する。
具体的には,不活性ブロイラーとハドリング行動の2つの有意な異常について検討した。
提案手法は,(1)最先端の深層学習モデルを用いたニワトリ検出,(2)高速トラッカーモジュールを用いた連続したフレーム間の個々のニワトリ追跡,(3)ビデオストリーム内の異常な挙動の検出の3段階からなる。
ニワトリの行動を正確に評価するために,提案アルゴリズムの有効性を評価する実験を行った。
以上の結果から,本フレームワークはリアルタイムな異常検出のための正確かつ効率的なソリューションであり,鶏の健康維持や養鶏場全体の生産性向上にタイムリーな介入を促進することが示唆された。
Github: https://github.com/TaherehZarratEhsan/Chicken-Behavior-Analysis Detecting anomalies in poultry houses is crucial for maintaining optimal chicken health conditions, minimizing economic losses and bolstering profitability. This paper presents a novel real-time framework for analyzing chicken behavior in cage-free poultry houses to detect abnormal behaviors. Specifically, two significant abnormalities, namely inactive broiler and huddling behavior, are investigated in this study. The proposed framework comprises three key steps: (1) chicken detection utilizing a state-of-the-art deep learning model, (2) tracking individual chickens across consecutive frames with a fast tracker module, and (3) detecting abnormal behaviors within the video stream. Experimental studies are conducted to evaluate the efficacy of the proposed algorithm in accurately assessing chicken behavior. The results illustrate that our framework provides a precise and efficient solution for real-time anomaly detection, facilitating timely interventions to maintain chicken health and enhance overall productivity on poultry farms. Github: https://github.com/TaherehZarratEhsan/Chicken-Behavior-Analysis | 翻訳日:2024-01-23 13:01:42 公開日:2024-01-22 |
# 大規模再構成モデルを用いた1次元人体デジタル化 Single-View 3D Human Digitalization with Large Reconstruction Models ( http://arxiv.org/abs/2401.12175v1 ) ライセンス: Link先を確認 | Zhenzhen Weng, Jingyuan Liu, Hao Tan, Zhan Xu, Yang Zhou, Serena Yeung-Levy, Jimei Yang | (参考訳) 本稿では,1つの画像から人間のニューラルレージアンス場(NeRF)を予測するために設計された1段階フィードフォワード大再構成モデルであるHuman-LRMを紹介する。
3dスキャンとマルチビューキャプチャを含む広範なデータセットを用いて,トレーニングにおいて顕著な適応性を示す。
さらに,オクルージョンにおいて特にワイルドシナリオに対するモデルの適用性を高めるため,条件付き三面拡散モデルを用いて多視点再構成を単一視点に蒸留する新しい手法を提案する。
この生成的拡張は、1つの視点から観察すると、人体の形状に固有の変化に対処し、オクルードされた画像から全身の人体を再構築することができる。
大規模な実験により,Human-LRMはいくつかのベンチマークにおいて,従来の手法をはるかに上回っていることがわかった。 In this paper, we introduce Human-LRM, a single-stage feed-forward Large Reconstruction Model designed to predict human Neural Radiance Fields (NeRF) from a single image. Our approach demonstrates remarkable adaptability in training using extensive datasets containing 3D scans and multi-view capture. Furthermore, to enhance the model's applicability for in-the-wild scenarios especially with occlusions, we propose a novel strategy that distills multi-view reconstruction into single-view via a conditional triplane diffusion model. This generative extension addresses the inherent variations in human body shapes when observed from a single view, and makes it possible to reconstruct the full body human from an occluded image. Through extensive experiments, we show that Human-LRM surpasses previous methods by a significant margin on several benchmarks. | 翻訳日:2024-01-23 13:01:23 公開日:2024-01-22 |
# 確率的マルチエージェントシステムにおける自然戦略能力 Natural Strategic Ability in Stochastic Multi-Agent Systems ( http://arxiv.org/abs/2401.12170v1 ) ライセンス: Link先を確認 | Rapha\"el Berthon, Joost-Pieter Katoen, Munyque Mittelmann, Aniello Murano | (参考訳) 形式的手法を用いて合成された戦略は複雑であり、しばしば無限のメモリを必要とするが、マルチエージェントシステム(MAS)をモデル化しようとする場合の期待した振る舞いに対応しない。
このような振る舞いを捉えるために、Natural Strategyは近年提案されたフレームワークであり、エージェントがメモリで戦略を立てる能力とモデルチェックの複雑さのバランスを保っている。
まず,自然戦略(NatPATL,NatPATL*,resp.)の下で,確率論的時間論理PATLとPATL*を考える。
その結果, 確率MASでは, 能動連立が決定論的戦略に制限された場合, NatPATLモデルチェックはNP完全であることがわかった。
また、同じ制約でNatPATL*に対して2NEXPTIMEの複雑性結果を与える。
非制限の場合、NatPATLにはEXPSPACE複雑性、NatPATLには3EXPSPACE複雑性を与える。 Strategies synthesized using formal methods can be complex and often require infinite memory, which does not correspond to the expected behavior when trying to model Multi-Agent Systems (MAS). To capture such behaviors, natural strategies are a recently proposed framework striking a balance between the ability of agents to strategize with memory and the model-checking complexity, but until now has been restricted to fully deterministic settings. For the first time, we consider the probabilistic temporal logics PATL and PATL* under natural strategies (NatPATL and NatPATL*, resp.). As main result we show that, in stochastic MAS, NatPATL model-checking is NP-complete when the active coalition is restricted to deterministic strategies. We also give a 2NEXPTIME complexity result for NatPATL* with the same restriction. In the unrestricted case, we give an EXPSPACE complexity for NatPATL and 3EXPSPACE complexity for NatPATL*. | 翻訳日:2024-01-23 13:01:08 公開日:2024-01-22 |
# 空間VLM:空間共振機能を有する視覚言語モデル SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities ( http://arxiv.org/abs/2401.12168v1 ) ライセンス: Link先を確認 | Boyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia | (参考訳) 空間関係の理解と推論は視覚質問応答(VQA)とロボット工学の基本的な能力である。
視覚言語モデル(VLM)は、特定のVQAベンチマークで顕著な性能を示したが、距離や大きさの違いのような物理的オブジェクトの量的関係を認識するなど、3次元空間推論の能力に欠けていた。
vlmsの限定的な空間推論能力は、トレーニングデータにおける3次元空間知識の欠如によるものであると仮定し、vlmsをインターネット規模の空間推論データで訓練することでこの問題を解決しようとする。
そこで我々は,このアプローチを促進するシステムを提案する。
まず,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
次に,データ品質,トレーニングパイプライン,VLMアーキテクチャなど,トレーニングレシピのさまざまな要因について検討する。
我々の研究は、計量空間における最初のインターネット規模の空間推論データセットである。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
最後に、このVLMは、その定量的推定能力により、チェーンオブスペース推論およびロボット工学における新しい下流応用を解き放つことを実証する。
プロジェクトウェブサイト: https://spatial-vlm.github.io/ Understanding and reasoning about spatial relationships is a fundamental capability for Visual Question Answering (VQA) and robotics. While Vision Language Models (VLM) have demonstrated remarkable performance in certain VQA benchmarks, they still lack capabilities in 3D spatial reasoning, such as recognizing quantitative relationships of physical objects like distances or size differences. We hypothesize that VLMs' limited spatial reasoning capability is due to the lack of 3D spatial knowledge in training data and aim to solve this problem by training VLMs with Internet-scale spatial reasoning data. To this end, we present a system to facilitate this approach. We first develop an automatic 3D spatial VQA data generation framework that scales up to 2 billion VQA examples on 10 million real-world images. We then investigate various factors in the training recipe, including data quality, training pipeline, and VLM architecture. Our work features the first internet-scale 3D spatial reasoning dataset in metric space. By training a VLM on such data, we significantly enhance its ability on both qualitative and quantitative spatial VQA. Finally, we demonstrate that this VLM unlocks novel downstream applications in chain-of-thought spatial reasoning and robotics due to its quantitative estimation capability. Project website: https://spatial-vlm.github.io/ | 翻訳日:2024-01-23 13:00:54 公開日:2024-01-22 |
# 非線形正準相関解析とt-SNEを用いた土地被覆画像の半教師付き分割 Semi-supervised segmentation of land cover images using nonlinear canonical correlation analysis with multiple features and t-SNE ( http://arxiv.org/abs/2401.12164v1 ) ライセンス: Link先を確認 | Hong Wei, James Xiao, Yichao Zhang and Xia Hong | (参考訳) イメージセグメンテーションはクラスタリングタスクであり、各ピクセルにクラスタラベルが割り当てられる。
リモートセンシングデータは通常、意味論的に意味のある土地被覆部分領域が存在する複数のスペクトル画像で構成され、LIDAR(LIght Detection and Ranging)データなどの他のソースデータと共存して登録される。
これは、ピクセル間の空間的相関を考慮するために、各ピクセルに関連付けられた特徴ベクトルは、複数のバンドを表すベクトル化テンソルと、適切な局所パッチであることを示唆している。
同様に、ピクセルの局所パッチに基づく複数のテクスチャ特徴は、局所的な統計情報や空間的変動を符号化するのにも有用であり、必ずしも大量の基底真理をピクセルごとにラベル付けすることなく、教師付きモデルを訓練する。
本研究では,少数のピクセルのみをラベル付けすることで,半教師付きセグメンテーション手法を提案する。
当初、すべてのピクセルにわたって、画像データ行列は高次元の特徴空間で生成される。
そして、t-SNEは高次元データを3D埋め込みに投影する。
ラベル付きデータサンプルをセンタとして使用する入力特徴としてラジアル基底関数を用い、出力クラスラベルと組み合わせることで、RBF-CCAと呼ばれる修正正準相関解析アルゴリズムを導入し、小さなラベル付きデータセットを介して関連する投影行列を学習する。
全画像に対して得られた関連する標準変数は、k平均クラスタリングアルゴリズムによって適用される。
提案する半教師付きrbf-ccaアルゴリズムは,複数のリモートセンシングマルチスペクトル画像に実装され,良好なセグメンテーション結果が得られた。 Image segmentation is a clustering task whereby each pixel is assigned a cluster label. Remote sensing data usually consists of multiple bands of spectral images in which there exist semantically meaningful land cover subregions, co-registered with other source data such as LIDAR (LIght Detection And Ranging) data, where available. This suggests that, in order to account for spatial correlation between pixels, a feature vector associated with each pixel may be a vectorized tensor representing the multiple bands and a local patch as appropriate. Similarly, multiple types of texture features based on a pixel's local patch would also be beneficial for encoding locally statistical information and spatial variations, without necessarily labelling pixel-wise a large amount of ground truth, then training a supervised model, which is sometimes impractical. In this work, by resorting to label only a small quantity of pixels, a new semi-supervised segmentation approach is proposed. Initially, over all pixels, an image data matrix is created in high dimensional feature space. Then, t-SNE projects the high dimensional data onto 3D embedding. By using radial basis functions as input features, which use the labelled data samples as centres, to pair with the output class labels, a modified canonical correlation analysis algorithm, referred to as RBF-CCA, is introduced which learns the associated projection matrix via the small labelled data set. The associated canonical variables, obtained for the full image, are applied by k-means clustering algorithm. The proposed semi-supervised RBF-CCA algorithm has been implemented on several remotely sensed multispectral images, demonstrating excellent segmentation results. | 翻訳日:2024-01-23 13:00:09 公開日:2024-01-22 |
# 深層学習を用いた成人大脳性麻痺の痛み評価のための自動顔認識システム Automated facial recognition system using deep learning for pain assessment in adults with cerebral palsy ( http://arxiv.org/abs/2401.12161v1 ) ライセンス: Link先を確認 | \'Alvaro Sabater-G\'arriz, F. Xavier Gaya-Morey, Jos\'e Mar\'ia Buades-Rubio, Cristina Manresa Yee, Pedro Montoya, Inmaculada Riquelme | (参考訳) 背景:神経疾患を有する人、特に自己報告能力や表情の変化が少ない人における痛みの評価は困難である。
介護者による直接観察に頼る既存の措置は、感度と特異性に欠ける。
脳性麻痺では、痛みは共通の共生であり、信頼性の高い評価プロトコルが不可欠である。
したがって、顔の表情を認識する自動システムを持つことは、このタイプの患者の痛みを診断する上で大きな助けとなる。
目的:
1)脳性麻痺者における顔面痛表情のデータセットの作成
2) この人口に対処する痛み評価のための深層学習に基づく自動顔認識システムの開発。
方法:10のニューラルネットワークは、UNBC-McMaster Shoulder Pain Expression Archive Database、Multimodal Intensity Pain Dataset、デラウェア痛データベースの3つの痛画像データベースでトレーニングされた。
さらに、脳性麻痺患者の顔面痛発現画像109枚を顔面行動符号化システム観測尺度を用いて2つの生理学療法士に分類し、キュレートデータセット(CPPAIN)を作成した。
結果: InceptionV3はCP-PAINデータセットで有望な性能を示し、精度は62.67%、F1スコアは61.12%であった。
説明可能な人工知能技術は、モデル間での痛みの識別に一貫した重要な特徴を明らかにした。
結論: 本研究は, 神経疾患とコミュニケーション障害を有する集団における強固な痛み検出のための深層学習モデルの可能性を示す。
脳性麻痺に特異的なより大きなデータセットの作成は、モデル精度をさらに高め、微妙で慣用的な痛み表現を識別するための貴重なツールを提供する。
得られた洞察は、他の複雑な神経学的条件にまで及ぶ可能性がある。 Background: Pain assessment in individuals with neurological conditions, especially those with limited self-report ability and altered facial expressions, presents challenges. Existing measures, relying on direct observation by caregivers, lack sensitivity and specificity. In cerebral palsy, pain is a common comorbidity and a reliable evaluation protocol is crucial. Thus, having an automatic system that recognizes facial expressions could be of enormous help when diagnosing pain in this type of patient. Objectives: 1) to build a dataset of facial pain expressions in individuals with cerebral palsy, and 2) to develop an automated facial recognition system based on deep learning for pain assessment addressed to this population. Methods: Ten neural networks were trained on three pain image databases, including the UNBC-McMaster Shoulder Pain Expression Archive Database, the Multimodal Intensity Pain Dataset, and the Delaware Pain Database. Additionally, a curated dataset (CPPAIN) was created, consisting of 109 preprocessed facial pain expression images from individuals with cerebral palsy, categorized by two physiotherapists using the Facial Action Coding System observational scale. Results: InceptionV3 exhibited promising performance on the CP-PAIN dataset, achieving an accuracy of 62.67% and an F1 score of 61.12%. Explainable artificial intelligence techniques revealed consistent essential features for pain identification across models. Conclusion: This study demonstrates the potential of deep learning models for robust pain detection in populations with neurological conditions and communication disabilities. The creation of a larger dataset specific to cerebral palsy would further enhance model accuracy, offering a valuable tool for discerning subtle and idiosyncratic pain expressions. The insights gained could extend to other complex neurological conditions. | 翻訳日:2024-01-23 12:59:36 公開日:2024-01-22 |
# パーソナライズされた再構成可能なインテリジェントサーフェスによるオーバーエアフェデレーション学習 Personalized Over-the-Air Federated Learning with Personalized Reconfigurable Intelligent Surfaces ( http://arxiv.org/abs/2401.12149v1 ) ライセンス: Link先を確認 | Jiayu Mao and Aylin Yener | (参考訳) オーバー・ザ・エア・フェデレーション・ラーニング(OTA-FL)は、無線チャネルの固有の重ね合わせ特性を活用することで、帯域幅効率の高い学習を提供する。
パーソナライズされたフェデレーション学習は、さまざまなデータセットを持つユーザのパフォーマンスをバランスさせ、実際のデータの異質性に対処する。
本稿では,マルチタスク学習による個人化型ota-flスキームを提案し,各ユーザに対するパーソナルリコンフィギュアブルインテリジェントサーフェス(ris)の支援を行う。
非i.dデータに対するマルチタスク学習を用いて、不完全なチャネル状態情報を持つ時間変化チャネルにおいて、グローバルおよびパーソナライズされたタスクのための通信および計算リソースを最適化する層間アプローチを採用する。
ProAR-PFedアルゴリズムは、パワー、ローカルイテレーション、RIS構成を適応的に設計する。
本稿では,非凸対象に対する収束解析を行い,PROAR-PFedがFashion-MNISTデータセットの最先端性を上回ることを示す。 Over-the-air federated learning (OTA-FL) provides bandwidth-efficient learning by leveraging the inherent superposition property of wireless channels. Personalized federated learning balances performance for users with diverse datasets, addressing real-life data heterogeneity. We propose the first personalized OTA-FL scheme through multi-task learning, assisted by personal reconfigurable intelligent surfaces (RIS) for each user. We take a cross-layer approach that optimizes communication and computation resources for global and personalized tasks in time-varying channels with imperfect channel state information, using multi-task learning for non-i.i.d data. Our PROAR-PFed algorithm adaptively designs power, local iterations, and RIS configurations. We present convergence analysis for non-convex objectives and demonstrate that PROAR-PFed outperforms state-of-the-art on the Fashion-MNIST dataset. | 翻訳日:2024-01-23 12:59:06 公開日:2024-01-22 |
# 異方性は変圧器の自己注意に欠かせない Anisotropy Is Inherent to Self-Attention in Transformers ( http://arxiv.org/abs/2401.12143v1 ) ライセンス: Link先を確認 | Nathan Godey and \'Eric de la Clergerie and Beno\^it Sagot | (参考訳) 表現退化問題は、トランスフォーマーに基づく自己教師型学習手法の間で広く見られる現象である。
NLPでは、非等方性(英: anisotropy)は、隠れた表現の特異な性質であり、角距離(cosine-similarity)の点でそれらを予期せず互いに近接させる。
いくつかの最近の研究は、異方性はトークンの長期分布におけるクロスエントロピー損失の最適化の結果であることを示している。
本稿では,同じ結果を直接受けるべきではない特定の目的を持つ言語モデルにおいても,異方性が実証的に観察できることを示す。
また、異方性問題は、他のモダリティで訓練されたトランスフォーマーにも拡張できることを示した。
この結果から, 異方性はトランスフォーマーモデルに固有であることが示唆された。 The representation degeneration problem is a phenomenon that is widely observed among self-supervised learning methods based on Transformers. In NLP, it takes the form of anisotropy, a singular property of hidden representations which makes them unexpectedly close to each other in terms of angular distance (cosine-similarity). Some recent works tend to show that anisotropy is a consequence of optimizing the cross-entropy loss on long-tailed distributions of tokens. We show in this paper that anisotropy can also be observed empirically in language models with specific objectives that should not suffer directly from the same consequences. We also show that the anisotropy problem extends to Transformers trained on other modalities. Our observations suggest that anisotropy is actually inherent to Transformers-based models. | 翻訳日:2024-01-23 12:58:48 公開日:2024-01-22 |
# モーメントによる連続可変コヒーレントイジングマシンの高速化 Accelerating Continuous Variable Coherent Ising Machines via Momentum ( http://arxiv.org/abs/2401.12135v1 ) ライセンス: Link先を確認 | Robin Brown, Davide Venturelli, Marco Pavone, and David E. Bernal Neira | (参考訳) コヒーレントイジングマシン(Coherent Ising Machine, CIM)は、物理的アニールプロセスからインスピレーションを得て、イジング問題をヒューリスティックに解く非伝統的なアーキテクチャである。
その力学は自然に連続であり、連続変数の非凸二次最適化問題の最適化に有用であることが証明された常微分方程式の集合によって記述される。
このような連続可変CIM(CV-CIM)のダイナミクスは、目標の負の勾配によって振幅が決定される光パルスによる最適化を促進するが、標準勾配降下は局所的なミニマに閉じ込められ、問題条件の悪化によって妨げられることが知られている。
本研究では,momentum や adam などの真の最適化手法に基づいて,より洗練されたパルスインジェクションを用いたcv-cimダイナミクスの修正を提案する。
数値実験により, CV-CIMの運動量とAdam更新により, CV-CIMの収束が著しく加速し, 元のCV-CIMダイナミクスよりも試料の多様性が向上することを示した。
また、Adam-CV-CIMの性能は、特に条件の悪いインスタンスにおいてフィードバック強度の関数としてより安定しており、より堅牢で信頼性があり、調整が容易なアルゴリズムが得られた。
より広範に、CIMの動的フレームワークは古典最適化と現代アナログコンピューティングの交わりを探索する肥大な機会であると見なしている。 The Coherent Ising Machine (CIM) is a non-conventional architecture that takes inspiration from physical annealing processes to solve Ising problems heuristically. Its dynamics are naturally continuous and described by a set of ordinary differential equations that have been proven to be useful for the optimization of continuous variables non-convex quadratic optimization problems. The dynamics of such Continuous Variable CIMs (CV-CIM) encourage optimization via optical pulses whose amplitudes are determined by the negative gradient of the objective; however, standard gradient descent is known to be trapped by local minima and hampered by poor problem conditioning. In this work, we propose to modify the CV-CIM dynamics using more sophisticated pulse injections based on tried-and-true optimization techniques such as momentum and Adam. Through numerical experiments, we show that the momentum and Adam updates can significantly speed up the CV-CIM's convergence and improve sample diversity over the original CV-CIM dynamics. We also find that the Adam-CV-CIM's performance is more stable as a function of feedback strength, especially on poorly conditioned instances, resulting in an algorithm that is more robust, reliable, and easily tunable. More broadly, we identify the CIM dynamical framework as a fertile opportunity for exploring the intersection of classical optimization and modern analog computing. | 翻訳日:2024-01-23 12:58:35 公開日:2024-01-22 |
# オープン量子システムとしての初期の宇宙:複雑さとデコヒーレンス The Early Universe as an Open Quantum System: Complexity and Decoherence ( http://arxiv.org/abs/2401.12134v1 ) ライセンス: Link先を確認 | Arpan Bhattacharyya, Suddhasattwa Brahma, S. Shajidul Haque, Jacob S. Lund, Arpon Paul | (参考訳) 本研究では,オープン量子システムにおいて,加速する背景が存在する場合でも,2つのフィールド間のデコヒーレンスをいかに複雑に識別できるかを示す。
ド・ジッター(de sitter)の曲面カルデイラ・レゲット二場模型を玩具モデルとして用い, 断熱摂動が重磁場に結合された場合の非一貫性を研究するための代替診断として, 浄化の複雑さの増大に特徴的な特徴を見出した。
本稿では、量子複雑性の特徴を加速した背景から探究し、初期宇宙における原始宇宙論的摂動の進化の理解を深める新たな経路について述べる。 In this work, we extend previous results, demonstrating how complexity in an open quantum system can identify decoherence between two fields, even in the presence of an accelerating background. Using the curved-space Caldeira-Leggett two-field model in de Sitter as our toy model, we discover a distinctive feature in the growth of complexity of purification, providing an alternative diagnostic for studying decoherence when the adiabatic perturbation is coupled to a heavy field. This paper initiates a new pathway to explore the features of quantum complexity in an accelerating background, thereby expanding our understanding of the evolution of primordial cosmological perturbations in the early universe. | 翻訳日:2024-01-23 12:58:08 公開日:2024-01-22 |
# 単純なopen-vocabulary semantic segmentationの検討 Exploring Simple Open-Vocabulary Semantic Segmentation ( http://arxiv.org/abs/2401.12217v1 ) ライセンス: Link先を確認 | Zihang Lai | (参考訳) open-vocabulary semantic segmentation modelは、任意のopen-vocabulary textから画像内の各ピクセルにセマンティックラベルを正確に割り当てることを目的としている。
このようなピクセルレベルのアライメントを学ぶために、現在のアプローチは通常、組み合わせに依存する。
(i)画像レベルのVLモデル(例えばCLIP)
(二)地底の真相の仮面
(iii)カスタムグループエンコーダ。
本稿では,これらの要素に依存することなく驚くほど高い性能を実現する新モデルであるS-Segを紹介する。
S-Segは擬似マスクと言語を利用してMaskFormerをトレーニングし、公開されている画像テキストデータセットから簡単にトレーニングすることができる。
以前の作業とは対照的に、我々のモデルはピクセルレベルの特徴と言語アライメントを直接訓練する。
トレーニングが完了すると、S-Segは微調整を必要とせずに、複数のテストデータセットを一般化する。
さらにS-Segは、データによるスケーラビリティの付加的なメリットと、自己学習による拡張時の継続的な改善がある。
我々は、我々の単純で効果的なアプローチが将来の研究の確固たるベースラインとなると信じている。 Open-vocabulary semantic segmentation models aim to accurately assign a semantic label to each pixel in an image from a set of arbitrary open-vocabulary texts. In order to learn such pixel-level alignment, current approaches typically rely on a combination of (i) image-level VL model (e.g. CLIP), (ii) ground truth masks, and (iii) custom grouping encoders. In this paper, we introduce S-Seg, a novel model that can achieve surprisingly strong performance without depending on any of the above elements. S-Seg leverages pseudo-mask and language to train a MaskFormer, and can be easily trained from publicly available image-text datasets. Contrary to prior works, our model directly trains for pixel-level features and language alignment. Once trained, S-Seg generalizes well to multiple testing datasets without requiring fine-tuning. In addition, S-Seg has the extra benefits of scalability with data and consistently improvement when augmented with self-training. We believe that our simple yet effective approach will serve as a solid baseline for future research. | 翻訳日:2024-01-23 12:51:29 公開日:2024-01-22 |
# 偏差回帰における共変量シフトの緩和と強化学習への応用 Mitigating Covariate Shift in Misspecified Regression with Applications to Reinforcement Learning ( http://arxiv.org/abs/2401.12216v1 ) ライセンス: Link先を確認 | Philip Amortila, Tongyi Cao, Akshay Krishnamurthy | (参考訳) 機械学習応用における広範な現象は、分散シフトであり、機械学習モデルのトレーニングとデプロイメント条件が異なる。
分布シフトは一般的に性能の低下をもたらすため、これらの有害な影響を緩和するアルゴリズム的介入に多くの注意が向けられている。
本稿では,モデル誤特定の存在下での分布シフトの影響について検討し,特に,共変量分布が任意に変化する間,回帰対象が固定されている場合の$l_{\infty}$-misspecified regressionとadversarial covariateシフトに着目した。
経験的リスク最小化(または標準最小二乗回帰)は、トレーニング分布とテスト分布の密度比によって誤特定による誤差が増幅される、望ましくない誤特定増幅をもたらす。
我々の主な結果として、我々は、この望ましくない振る舞いを避けるためのロバストな最適化技術に触発された、新しいアルゴリズムを開発しました。
応用として,この回帰手法を用いて,オフラインとオンラインの強化学習において,誤特定を伴う新たな保証を得るとともに,先行研究した構造条件とカバレッジ概念との新たな分離を確立する。 A pervasive phenomenon in machine learning applications is distribution shift, where training and deployment conditions for a machine learning model differ. As distribution shift typically results in a degradation in performance, much attention has been devoted to algorithmic interventions that mitigate these detrimental effects. In this paper, we study the effect of distribution shift in the presence of model misspecification, specifically focusing on $L_{\infty}$-misspecified regression and adversarial covariate shift, where the regression target remains fixed while the covariate distribution changes arbitrarily. We show that empirical risk minimization, or standard least squares regression, can result in undesirable misspecification amplification where the error due to misspecification is amplified by the density ratio between the training and testing distributions. As our main result, we develop a new algorithm -- inspired by robust optimization techniques -- that avoids this undesirable behavior, resulting in no misspecification amplification while still obtaining optimal statistical rates. As applications, we use this regression procedure to obtain new guarantees in offline and online reinforcement learning with misspecification and establish new separations between previously studied structural conditions and notions of coverage. | 翻訳日:2024-01-23 12:51:13 公開日:2024-01-22 |
# パラメーター効率の良い微調整で医療ビジョンの基礎モデルが改善される Less Could Be Better: Parameter-efficient Fine-tuning Advances Medical Vision Foundation Models ( http://arxiv.org/abs/2401.12215v1 ) ライセンス: Link先を確認 | Chenyu Lian, Hong-Yu Zhou, Yizhou Yu, Liansheng Wang | (参考訳) 近年,コンピュータビジョンタスクの伝達学習に有効な手法として,事前学習済みの大規模言語モデルを利用するために開発されたパラメータ効率のよい微調整(PEFT)が登場している。
しかし, PEFTの医療ビジョン基礎モデルに対する効果はいまだ不明であり, 検討が続けられている。
概念実証として,胸部x線基礎モデルに対するpeftの適用に関する詳細な実験を行った。
具体的には、代表的PEFT法であるLoRAを探索し、3つの確立された胸部X線写真データセットの2つの自監督ラジオグラフィ基礎モデル上で、FFT(Full-parameter fine-tuning)と比較した。
その結果、LoRAは学習課題18件中13件でFFTを2.9%以上改善し、調整可能なパラメータは1%以下であった。
基礎モデルとLoRAを組み合わせることで、NIH ChestX-ray14の1%ラベル付きデータを使用して、AUROCスコアの80.6%など、さまざまなデータ効率の学習タスクに新たな最先端技術を導入しました。
本研究は, PEFTを用いた医療画像の伝達学習において, コミュニティの注目を集めることが期待できる。
コードとモデルはhttps://github.com/RL4M/MED-PEFTで公開されている。 Parameter-efficient fine-tuning (PEFT) that was initially developed for exploiting pre-trained large language models has recently emerged as an effective approach to perform transfer learning on computer vision tasks. However, the effectiveness of PEFT on medical vision foundation models is still unclear and remains to be explored. As a proof of concept, we conducted a detailed empirical study on applying PEFT to chest radiography foundation models. Specifically, we delved into LoRA, a representative PEFT method, and compared it against full-parameter fine-tuning (FFT) on two self-supervised radiography foundation models across three well-established chest radiograph datasets. Our results showed that LoRA outperformed FFT in 13 out of 18 transfer learning tasks by at most 2.9% using fewer than 1% tunable parameters. Combining LoRA with foundation models, we set up new state-of-the-art on a range of data-efficient learning tasks, such as an AUROC score of 80.6% using 1% labeled data on NIH ChestX-ray14. We hope this study can evoke more attention from the community in the use of PEFT for transfer learning on medical imaging tasks. Code and models are available at https://github.com/RL4M/MED-PEFT. | 翻訳日:2024-01-23 12:50:50 公開日:2024-01-22 |
# バイオカルトゴナル偏光による開非エルミート系におけるギャップクロージングの同定 Identifying gap-closings in open non-Hermitian systems by Biorthogonal Polarization ( http://arxiv.org/abs/2401.12213v1 ) ライセンス: Link先を確認 | Ipsita Mandal | (参考訳) 非エルミートホッピング項と開境界条件(obcs)を含む2バンドの1次元および2次元タイト結合モデルにおけるギャップクロースについて検討した。
我々は, バルクOBCスペクトルと周期境界条件(PBC)スペクトルを比較し, 非エルミート系の固有特性であるそれらが一致しないことを指摘した。
したがって、非ハーモニティ性は、エルミート系で見られるバルク境界対応のよく知られた概念の失敗をもたらす。
これは開非エルミート系におけるギャップ閉包を正しくかつ曖昧に特徴づける位相不変量の探索を必要とする。
1次元スライスに適用可能な2つの候補の挙動を,(1)一般ブリルアンゾーン上で定義される2つのバンドの巻数の総和と(2)生体直交偏光(bp)の挙動を明らかにした。
前者は、ここで研究されている非エルミート系の一部のジャンプ/不連続を示すが、エッジモードがバルク状態に入り非局在化となる点では、与えられた位相相において量子化値を保持しない。
反対にBPはジャンプを示し、相転移時には、実際のエッジモードが存在するか、そのモードがバルク内で非局在化され吸収されているか(もはやエッジモードではない)に対応する1または0の量子化値を取る。 We investigate gap-closings in one- and two-dimensional tight-binding models with two bands, containing non-Hermitian hopping terms, and open boundary conditions (OBCs) imposed along one direction. We compare the bulk OBC spectra with the periodic boundary condition (PBC) spectra, pointing out that they do not coincide, which is an intrinsic characteristic of non-Hermitian systems. The non-Hermiticity thus results in the failure of the familiar notions of bulk-boundary correspondence found for Hermitian systems. This necessitates the search for topological invariants which can characterize gap-closings in open non-Hermitian systems correctly and unambiguously. We elucidate the behaviour of two possible candidates applicable for one-dimensional slices -- (1) the sum of winding numbers for the two bands defined on a generalized Brillouin zone and (2) the biorthogonal polarization (BP). While the former shows jumps/discontinuities for some of the non-Hermitian systems studied here, at points when an edge mode enters the bulk states and becomes delocalized, it does not maintain quantized values in a given topological phase. On the contrary, BP shows jumps and at phase transitions takes the quantized value of one or zero, which corresponds to whether an actual edge mode exists or whether that mode is delocalized and absorbed within the bulk (not being an edge mode anymore). | 翻訳日:2024-01-23 12:50:28 公開日:2024-01-22 |
# ドットの接続:バングラ手話認識のための時空間グラフニューラルネットワークの活用 Connecting the Dots: Leveraging Spatio-Temporal Graph Neural Networks for Accurate Bangla Sign Language Recognition ( http://arxiv.org/abs/2401.12210v1 ) ライセンス: Link先を確認 | Haz Sameen Shahgir, Khondker Salman Sayeed, Md Toki Tahmid, Tanjeem Azwad Zaman, Md. Zarif Ul Alam | (参考訳) 近年のDeep LearningとComputer Visionの進歩は、様々な文脈において、余分なコミュニティに役立てるためにうまく活用されている。
そのような領域の1つは手話であり、聴覚障害者コミュニティの主要なコミュニケーション手段である。
しかし、これまでのところ、アメリカ手話(American Sign Language)の研究努力と投資の大部分は、低リソース手話(特にBangla手話)の研究活動に大きく影響している。
本稿では、3次元畳み込みニューラルネットワークモデルと、BdSL40データセットの分類のための新しいグラフニューラルネットワークアプローチの2つのアプローチとともに、611本の動画を40語以上で合成する新しい単語レベルバングラ手話データセットBdSL40を提案する。
これは単語レベルのBdSL認識に関する最初の研究であり、データセットはBangla Sign Language Dictionary (1997)を用いてインド手話(ISL)から転写された。
提案されたGNNモデルはF1スコアが89%に達した。
この研究は、BdSL、West Bengal Sign Language、ISL間の重要な語彙的および意味的類似点と、文献におけるBdSLのワードレベルデータセットの欠如を強調した。
さらなる研究を促進するために、データセットとソースコードをリリースします。 Recent advances in Deep Learning and Computer Vision have been successfully leveraged to serve marginalized communities in various contexts. One such area is Sign Language - a primary means of communication for the deaf community. However, so far, the bulk of research efforts and investments have gone into American Sign Language, and research activity into low-resource sign languages - especially Bangla Sign Language - has lagged significantly. In this research paper, we present a new word-level Bangla Sign Language dataset - BdSL40 - consisting of 611 videos over 40 words, along with two different approaches: one with a 3D Convolutional Neural Network model and another with a novel Graph Neural Network approach for the classification of BdSL40 dataset. This is the first study on word-level BdSL recognition, and the dataset was transcribed from Indian Sign Language (ISL) using the Bangla Sign Language Dictionary (1997). The proposed GNN model achieved an F1 score of 89%. The study highlights the significant lexical and semantic similarity between BdSL, West Bengal Sign Language, and ISL, and the lack of word-level datasets for BdSL in the literature. We release the dataset and source code to stimulate further research. | 翻訳日:2024-01-23 12:50:02 公開日:2024-01-22 |
# 長距離干渉型室温蒸気を用いた単一光子源 A Single Photon Source based on a Long-Range Interacting Room Temperature Vapor ( http://arxiv.org/abs/2401.12209v1 ) ライセンス: Link先を確認 | Felix Moumtsilis, Max M\"ausezahl, Haim Nakav, Annika Belz, Robert L\"ow, Tilman Pfau | (参考訳) 室温ルビジウム蒸気の長距離相互作用に基づく単一光子源の開発について報告する。
本研究では, プロジェクトの歴史, 気相セルの生成, および4波混合励起法におけるラビ振動の観測について論じる。 We report on the current development of a single photon source based on a long-range interacting room temperature rubidium vapor. We discuss the history of the project, the production of vapor cells, and the observation of Rabi-oscillations in the four-wave-mixing excitation scheme. | 翻訳日:2024-01-23 12:49:38 公開日:2024-01-22 |
# CheXagent: 胸部X線解釈の基礎モデルを目指して CheXagent: Towards a Foundation Model for Chest X-Ray Interpretation ( http://arxiv.org/abs/2401.12208v1 ) ライセンス: Link先を確認 | Zhihong Chen, Maya Varma, Jean-Benoit Delbrouck, Magdalini Paschali, Louis Blankemeier, Dave Van Veen, Jeya Maria Jose Valanarasu, Alaa Youssef, Joseph Paul Cohen, Eduardo Pontes Reis, Emily B. Tsai, Andrew Johnston, Cameron Olsen, Tanishq Mathew Abraham, Sergios Gatidis, Akshay S. Chaudhari, Curtis Langlotz | (参考訳) 胸部X線 (CXRs) は, 臨床検査において最も頻度の高い画像検査である。
視覚言語基礎モデル(fms)の開発における最近の進歩は、医師が臨床意思決定を補助し、患者の予後を改善するcxr自動解釈を行う可能性をもたらす。
しかし,CXRを正確に解釈できるFMの開発は,(1)医療画像領域における大規模ビジョン言語データセットの可用性の限界,(2)医療データの複雑さを捉えるビジョンと言語エンコーダの欠如,(3)CXR解釈におけるFMの能力を評価するための評価フレームワークの欠如など,困難である。
本研究では,28の公開データセットから算出した大規模命令チューニングデータセットである \emph{CheXinstruct} を導入することで,これらの課題に対処する。
次に,CXRの解析と要約が可能な命令調整FMを提案する。
我々はCheXagentを構築するために,放射線学報告を解析するための臨床大言語モデル(LLM),CXR画像を表現するビジョンエンコーダ,ビジョンと言語モダリティをブリッジするネットワークを設計する。
最後に,臨床関連8つのCXR解釈タスクのFMを体系的に評価する新しいベンチマークであるemph{CheXbench}を紹介する。
5人の専門放射線学者による広範囲な定量的評価と質的評価により、CheXagentはCheXbenchタスクにおいて、これまで開発された一般ドメインと医療ドメインのFMよりも優れていることが示された。
さらに,モデルの透明性を高めるために,性,人種,年齢の要因をまたいで公平性評価を行い,潜在的なパフォーマンス格差を強調する。
私たちのプロジェクトは \url{https://stanford-aimi.github.io/chexagent.html}です。 Chest X-rays (CXRs) are the most frequently performed imaging test in clinical practice. Recent advances in the development of vision-language foundation models (FMs) give rise to the possibility of performing automated CXR interpretation, which can assist physicians with clinical decision-making and improve patient outcomes. However, developing FMs that can accurately interpret CXRs is challenging due to the (1) limited availability of large-scale vision-language datasets in the medical image domain, (2) lack of vision and language encoders that can capture the complexities of medical data, and (3) absence of evaluation frameworks for benchmarking the abilities of FMs on CXR interpretation. In this work, we address these challenges by first introducing \emph{CheXinstruct} - a large-scale instruction-tuning dataset curated from 28 publicly-available datasets. We then present \emph{CheXagent} - an instruction-tuned FM capable of analyzing and summarizing CXRs. To build CheXagent, we design a clinical large language model (LLM) for parsing radiology reports, a vision encoder for representing CXR images, and a network to bridge the vision and language modalities. Finally, we introduce \emph{CheXbench} - a novel benchmark designed to systematically evaluate FMs across 8 clinically-relevant CXR interpretation tasks. Extensive quantitative evaluations and qualitative reviews with five expert radiologists demonstrate that CheXagent outperforms previously-developed general- and medical-domain FMs on CheXbench tasks. Furthermore, in an effort to improve model transparency, we perform a fairness evaluation across factors of sex, race and age to highlight potential performance disparities. Our project is at \url{https://stanford-aimi.github.io/chexagent.html}. | 翻訳日:2024-01-23 12:49:33 公開日:2024-01-22 |
# 条件分布知覚尺度に基づく速度歪み知覚トレードオフ Rate-Distortion-Perception Tradeoff Based on the Conditional-Distribution Perception Measure ( http://arxiv.org/abs/2401.12207v1 ) ライセンス: Link先を確認 | Sadaf Salehkalaibar, Jun Chen, Ashish Khisti and Wei Yu | (参考訳) 本研究では,大ブロック長の漸近限界におけるメモリレスソースモデルに対するRDPトレードオフについて検討する。
我々の知覚尺度は, [1], [2] で最初に提案されたエンコーダ出力に条件付けられたソースの分布と再構成シーケンスのばらつきに基づく。
エンコーダとデコーダの間にランダム性が共有されていない場合を考える。
離散メモリレスソースの場合、RDP関数のシングルレター特性を導出するので、ブラウとミハイニ [3] で導入された(共有ランダム性を持たない)限界計量に対して未解決の問題を定めておく。
我々の達成可能性スキームは[4]で提案した後部参照マップによる損失源符号化に基づいている。
二乗誤差歪測度と二乗二乗ワッサースタイン知覚測度の下での連続値源の場合、我々はシングルレターキャラクタリゼーションを導出し、デコーダにおけるノイズ付加機構が最適表現を達成するために十分であることを示す。
ゼロ知覚損失の場合,本手法は[5],[6]から導かれる辺縁距離の結果と興味深い一致を示し,最小歪みの3$-dBのペナルティでゼロ知覚損失を達成できることを示した。
最後に、この結果をガウス情報源の事例に専門化する。
ベクトルガウス源に対する RDP 関数を導出し, 給水型解を提案する。
またベクトルガウスの混合に対する RDP 関数を部分的に特徴づける。 We study the rate-distortion-perception (RDP) tradeoff for a memoryless source model in the asymptotic limit of large block-lengths. Our perception measure is based on a divergence between the distributions of the source and reconstruction sequences conditioned on the encoder output, which was first proposed in [1], [2]. We consider the case when there is no shared randomness between the encoder and the decoder. For the case of discrete memoryless sources we derive a single-letter characterization of the RDP function, thus settling a problem that remains open for the marginal metric introduced in Blau and Michaeli [3] (with no shared randomness). Our achievability scheme is based on lossy source coding with a posterior reference map proposed in [4]. For the case of continuous valued sources under squared error distortion measure and squared quadratic Wasserstein perception measure we also derive a single-letter characterization and show that a noise-adding mechanism at the decoder suffices to achieve the optimal representation. For the case of zero perception loss, we show that our characterization interestingly coincides with the results for the marginal metric derived in [5], [6] and again demonstrate that zero perception loss can be achieved with a $3$-dB penalty in the minimum distortion. Finally we specialize our results to the case of Gaussian sources. We derive the RDP function for vector Gaussian sources and propose a waterfilling type solution. We also partially characterize the RDP function for a mixture of vector Gaussians. | 翻訳日:2024-01-23 12:49:01 公開日:2024-01-22 |
# ブール回路最小化のための検索誘導強化学習 Retrieval-Guided Reinforcement Learning for Boolean Circuit Minimization ( http://arxiv.org/abs/2401.12205v1 ) ライセンス: Link先を確認 | Animesh Basak Chowdhury, Marco Romanelli, Benjamin Tan, Ramesh Karri, Siddharth Garg | (参考訳) チップ設計における重要な段階である論理合成は、verilogのようなハードウェア記述言語でエンコードされるチップ仕様をboolean logic gatesを使用して高度に効率的な実装に最適化する。
このプロセスには論理最小化ヒューリスティックス(`合成レシピ)のシーケンシャルな応用が含まれており、その配置は面積や遅延といった重要な指標に大きな影響を及ぼす。
過去の設計(例えば、加算器や乗算器)から全く新しい構成(例えば、革新的なプロセッサ命令)まで、幅広い設計複雑さによって引き起こされる課題に対処するには、人間の専門知識と直感によって導かれるニュアンスな「合成レシピ」が必要である。
本研究は,論理合成の学習と探索手法を徹底的に検討し,全く新しい設計に直面すると,探索軌道に有害な影響を及ぼす可能性のある事前学習エージェントを探索する。
ABC-RLは、検索プロセス中に事前学習したエージェントからのレコメンデーションを順応的に調整する$\alpha$パラメータである。
ABC-RLは、トレーニングデータセットから最も近い隣人検索を通じて類似度スコアに基づいて計算され、幅広いハードウェア設計に適した優れた合成レシピを提供する。
その結果, 合成回路のQoR(Quality-of-result)は, 最先端技術と比較して最大24.8%向上した。
さらにABC-RLは、現在の最先端手法と比較して9倍のランタイム(so-QoR)の削減を実現している。 Logic synthesis, a pivotal stage in chip design, entails optimizing chip specifications encoded in hardware description languages like Verilog into highly efficient implementations using Boolean logic gates. The process involves a sequential application of logic minimization heuristics (``synthesis recipe"), with their arrangement significantly impacting crucial metrics such as area and delay. Addressing the challenge posed by the broad spectrum of design complexities - from variations of past designs (e.g., adders and multipliers) to entirely novel configurations (e.g., innovative processor instructions) - requires a nuanced `synthesis recipe` guided by human expertise and intuition. This study conducts a thorough examination of learning and search techniques for logic synthesis, unearthing a surprising revelation: pre-trained agents, when confronted with entirely novel designs, may veer off course, detrimentally affecting the search trajectory. We present ABC-RL, a meticulously tuned $\alpha$ parameter that adeptly adjusts recommendations from pre-trained agents during the search process. Computed based on similarity scores through nearest neighbor retrieval from the training dataset, ABC-RL yields superior synthesis recipes tailored for a wide array of hardware designs. Our findings showcase substantial enhancements in the Quality-of-result (QoR) of synthesized circuits, boasting improvements of up to 24.8% compared to state-of-the-art techniques. Furthermore, ABC-RL achieves an impressive up to 9x reduction in runtime (iso-QoR) when compared to current state-of-the-art methodologies. | 翻訳日:2024-01-23 12:48:35 公開日:2024-01-22 |
# 天体x線源分類のための教師なし機械学習 Unsupervised Machine Learning for the Classification of Astrophysical X-ray Sources ( http://arxiv.org/abs/2401.12203v1 ) ライセンス: Link先を確認 | V\'ictor Samuel P\'erez-D\'iaz, Juan Rafael Mart\'inez-Galarza, Alexander Caicedo, Raffaele D'Abrusco | (参考訳) x線検出の自動分類は、アストロフィジカルソースのコンパイルされたカタログから天体物理情報を抽出する上で必要なステップである。
分類は、個々の対象の研究、人口調査のための統計、および異常検出、すなわち過渡性やスペクトル的に極端な情報源を含む新しい発見されていない現象の同定に有用である。
この課題の重要性にもかかわらず、光学系と代表的なトレーニングセットの欠如により、X線天文学では分類が難しいままである。
我々は、教師なし機械学習アプローチを用いて、光学カタログや赤外線カタログからの補助情報なしで、限られたラベル付きソースを持つChandra Source Catalogソースに確率クラスを提供する方法を開発した。
総計14,507個の検出値を含む8,756個のソースの確率クラスカタログを提供し、若い恒星からの放出を識別する手法の成功を実証するとともに、小規模かつ大規模の小型降着装置を高い信頼度で区別する。
本稿では,分類対象間の特徴分布と統一AGNモデルのような確立された天体物理仮説との整合性を検討する。
これは確率的分類器の解釈可能性を提供する。
コードとテーブルはgithubから公開されている。
読者はhttps://umlcaxs-playground.streamlit.app.comで最終分類を調査できる。 The automatic classification of X-ray detections is a necessary step in extracting astrophysical information from compiled catalogs of astrophysical sources. Classification is useful for the study of individual objects, statistics for population studies, as well as for anomaly detection, i.e., the identification of new unexplored phenomena, including transients and spectrally extreme sources. Despite the importance of this task, classification remains challenging in X-ray astronomy due to the lack of optical counterparts and representative training sets. We develop an alternative methodology that employs an unsupervised machine learning approach to provide probabilistic classes to Chandra Source Catalog sources with a limited number of labeled sources, and without ancillary information from optical and infrared catalogs. We provide a catalog of probabilistic classes for 8,756 sources, comprising a total of 14,507 detections, and demonstrate the success of the method at identifying emission from young stellar objects, as well as distinguishing between small-scale and large-scale compact accretors with a significant level of confidence. We investigate the consistency between the distribution of features among classified objects and well-established astrophysical hypotheses such as the unified AGN model. This provides interpretability to the probabilistic classifier. Code and tables are available publicly through GitHub. We provide a web playground for readers to explore our final classification at https://umlcaxs-playground.streamlit.app. | 翻訳日:2024-01-23 12:48:06 公開日:2024-01-22 |
# OK-Robot:ロボットのためのオープン知識モデルを統合する上で本当に重要なこと OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics ( http://arxiv.org/abs/2401.12202v1 ) ライセンス: Link先を確認 | Peiqi Liu, Yaswanth Orru, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto | (参考訳) 近年、視覚、言語、ロボット工学の分野で顕著な進歩を遂げている。
現在、言語クエリに基づくオブジェクトの認識が可能な視覚モデル、モバイルシステムを効果的に制御できるナビゲーションシステム、広範囲のオブジェクトを扱うことができるモデルを把握しています。
こうした進歩にもかかわらず、ロボット工学の汎用応用は、認識、ナビゲーション、把握といった基本的な能力に依存しているものの、まだ遅れている。
本稿では,OK-Robotと呼ばれる新しいオープン知識ベースのロボット工学フレームワークを開発するためのシステムファーストアプローチを採用する。
オブジェクト検出のためのビジョンランゲージモデル(VLM)、移動のためのナビゲーションプリミティブ、オブジェクト操作のためのプリミティブの把握を組み合わせることで、OK-Robotはトレーニングを必要とせずにピック・アンド・ドロップ操作のための統合ソリューションを提供する。
その性能を評価するために,10の実環境においてOK-Robotを実行する。
OVMM(Open Vocabulary Mobile Manipulation)では,OVMM(Open Vocabulary Mobile Manipulation)が従来よりも1.8倍近い性能で,オープンエンドのピック・アンド・ドロップタスクにおいて58.5%の成功率を達成した。
よりクリーンで散らかっていない環境では、OK-Robotのパフォーマンスは82%に向上する。
しかし、OK-Robotから得られる最も重要な洞察は、VLMのようなオープン知識システムとロボットモジュールを組み合わせる際に、ニュアンスドディテールの重要な役割である。
私たちの実験のビデオは、当社のwebサイト(https://ok-robot.github.io.com/)で閲覧できます。 Remarkable progress has been made in recent years in the fields of vision, language, and robotics. We now have vision models capable of recognizing objects based on language queries, navigation systems that can effectively control mobile systems, and grasping models that can handle a wide range of objects. Despite these advancements, general-purpose applications of robotics still lag behind, even though they rely on these fundamental capabilities of recognition, navigation, and grasping. In this paper, we adopt a systems-first approach to develop a new Open Knowledge-based robotics framework called OK-Robot. By combining Vision-Language Models (VLMs) for object detection, navigation primitives for movement, and grasping primitives for object manipulation, OK-Robot offers a integrated solution for pick-and-drop operations without requiring any training. To evaluate its performance, we run OK-Robot in 10 real-world home environments. The results demonstrate that OK-Robot achieves a 58.5% success rate in open-ended pick-and-drop tasks, representing a new state-of-the-art in Open Vocabulary Mobile Manipulation (OVMM) with nearly 1.8x the performance of prior work. On cleaner, uncluttered environments, OK-Robot's performance increases to 82%. However, the most important insight gained from OK-Robot is the critical role of nuanced details when combining Open Knowledge systems like VLMs with robotic modules. Videos of our experiments are available on our website: https://ok-robot.github.io | 翻訳日:2024-01-23 12:47:43 公開日:2024-01-22 |
# APT: 効果的な訓練と推論のための適応的プルーニングと事前訓練型言語モデル APT: Adaptive Pruning and Tuning Pretrained Language Models for Efficient Training and Inference ( http://arxiv.org/abs/2401.12200v1 ) ライセンス: Link先を確認 | Bowen Zhao, Hannaneh Hajishirzi, Qingqing Cao | (参考訳) 大規模言語モデル(LM)による微調整と推論は一般的に高価であることが知られている。
事前訓練されたLMに対するパラメータ効率の微調整は、少数のLMパラメータを更新することでトレーニングメモリを削減するが、推論効率は向上しない。
構造化プルーニングは、一貫したパラメータブロックを取り除くことでLM推論効率を向上させるが、しばしばトレーニングメモリと時間を増加させる。
トレーニングと推論の効率を両立させるため,LMのパラメータを適応的にプーンし調整するAPTを導入する。
ファインチューニングの初期段階では、APTは高速かつ正確な収束のための健全なチューニングパラメータを動的に追加し、非重要パラメータを効率のために破棄する。
ベースラインと比較すると,RoBERTaモデルとT5モデルが40%,86.4%,LLaMAモデルが70%であった場合,APTは最大98%のタスク性能を維持していることがわかった。
さらに、ALTはLMの微調整を最大8倍高速化し、LMのメモリトレーニングのフットプリントを最大70%削減する。 Fine-tuning and inference with large Language Models (LM) are generally known to be expensive. Parameter-efficient fine-tuning over pretrained LMs reduces training memory by updating a small number of LM parameters but does not improve inference efficiency. Structured pruning improves LM inference efficiency by removing consistent parameter blocks, yet often increases training memory and time. To improve both training and inference efficiency, we introduce APT that adaptively prunes and tunes parameters for the LMs. At the early stage of fine-tuning, APT dynamically adds salient tuning parameters for fast and accurate convergence while discarding unimportant parameters for efficiency. Compared to baselines, our experiments show that APT maintains up to 98% task performance when pruning RoBERTa and T5 models with 40% parameters left while keeping 86.4% LLaMA models' performance with 70% parameters remained. Furthermore, APT speeds up LMs fine-tuning by up to 8x and reduces large LMs memory training footprint by up to 70%. | 翻訳日:2024-01-23 12:47:17 公開日:2024-01-22 |
# LONEStar:ルナ・フラッシュライトの光学航法実験 LONEStar: The Lunar Flashlight Optical Navigation Experiment ( http://arxiv.org/abs/2401.12198v1 ) ライセンス: Link先を確認 | Michael Krause, Ava Thrasher, Priyal Soni, Liam Smego, Reuben Isaac, Jennifer Nolan, Micah Pledger, E. Glenn Lightsey, W. Jud Ready, and John Christian | (参考訳) 本稿では,LONEStar(Lunar flashlight Optical Navigation Experiment with a Star Tracker)の成果を報告する。
2022年12月に打ち上げられたルナ・フラッシュライト(LF)はNASAが出資した技術実証ミッションである。
月周回軌道での推進システムが異常に捕捉を妨げた後、LFは地球-月系からヘリオ中心空間に放出された。
NASAはその後、LFの所有権をジョージア工科大学に譲渡し、LONEStarを含むさらに高度な技術目標を実証するための資金のない拡張ミッションを遂行した。
2023年8月から12月にかけて、LONEStarチームは光学機器の軌道上の校正と様々なOPNAV実験を行った。
このキャンペーンには、地球と月、その他の4つの惑星(マーキュリー、火星、木星、土星)の400近い画像の処理が含まれていた。
LONEStarは、惑星の光学観測のみを使用して、軌道上を公転するヘリオ中心航法の最初のデモンストレーションを行った。
特筆すべきは、(1)失われた2つの惑星を同時に観測する瞬時三角測量と(2)複数の惑星の逐次観測を伴う動的三角測量の飛行中の実演の成功である。 This paper documents the results from the highly successful Lunar flashlight Optical Navigation Experiment with a Star tracker (LONEStar). Launched in December 2022, Lunar Flashlight (LF) was a NASA-funded technology demonstration mission. After a propulsion system anomaly prevented capture in lunar orbit, LF was ejected from the Earth-Moon system and into heliocentric space. NASA subsequently transferred ownership of LF to Georgia Tech to conduct an unfunded extended mission to demonstrate further advanced technology objectives, including LONEStar. From August-December 2023, the LONEStar team performed on-orbit calibration of the optical instrument and a number of different OPNAV experiments. This campaign included the processing of nearly 400 images of star fields, Earth and Moon, and four other planets (Mercury, Mars, Jupiter, and Saturn). LONEStar provided the first on-orbit demonstrations of heliocentric navigation using only optical observations of planets. Of special note is the successful in-flight demonstration of (1) instantaneous triangulation with simultaneous sightings of two planets with the LOST algorithm and (2) dynamic triangulation with sequential sightings of multiple planets. | 翻訳日:2024-01-23 12:46:57 公開日:2024-01-22 |
# 多言語モデルに対するテキスト埋め込みインバージョン攻撃 Text Embedding Inversion Attacks on Multilingual Language Models ( http://arxiv.org/abs/2401.12192v1 ) ライセンス: Link先を確認 | Yiyi Chen and Heather Lent and Johannes Bjerva | (参考訳) テキスト情報を実数埋め込みとして表現することは、NLPの標準となっている。
さらに、大きな言語モデル(LLM)に対する一般の関心が高まり、Embedddings as a Service(EaaS)は、ビジネスモデルとして急速に注目を集めています。
先程の研究で、センシティブなデータを埋め込みから再構築できることが実証されたため、これは明らかなセキュリティ上のリスクを伴わない。
しかし、そのような作品は英語のみに焦点が当てられているため、悪意あるアクターによる攻撃に弱い言語を残している。
%) 国際・多言語企業は EaaS を活用しているため,多言語 LLM セキュリティの研究が急務である。
そこで本研究では,多言語組込みインバージョンの観点からllmセキュリティについて検討する。
具体的には,ブラックボックス・マルチランガル・クロスランガル・インバージョン・アタックの問題を定義し,特にクロスドメイン・シナリオに注目した。
その結果,多言語モデルの方がモノリンガルモデルよりも逆攻撃に弱い可能性が示唆された。
これは、基盤言語がa-prioriを知らない設定で同等の逆パフォーマンスを達成するためのデータ要件の削減に起因する。
我々の知る限り、この研究はインバージョンアタックの文脈における多言語性を探究する最初の試みであり、我々はNLPセキュリティの領域におけるさらなる調査と防御強化の必要性を強調している。 Representing textual information as real-numbered embeddings has become the norm in NLP. Moreover, with the rise of public interest in large language models (LLMs), Embeddings as a Service (EaaS) has rapidly gained traction as a business model. This is not without outstanding security risks, as previous research has demonstrated that sensitive data can be reconstructed from embeddings, even without knowledge of the underlying model that generated them. However, such work is limited by its sole focus on English, leaving all other languages vulnerable to attacks by malicious actors. %As many international and multilingual companies leverage EaaS, there is an urgent need for research into multilingual LLM security. To this end, this work investigates LLM security from the perspective of multilingual embedding inversion. Concretely, we define the problem of black-box multilingual and cross-lingual inversion attacks, with special attention to a cross-domain scenario. Our findings reveal that multilingual models are potentially more vulnerable to inversion attacks than their monolingual counterparts. This stems from the reduced data requirements for achieving comparable inversion performance in settings where the underlying language is not known a-priori. To our knowledge, this work is the first to delve into multilinguality within the context of inversion attacks, and our findings highlight the need for further investigation and enhanced defenses in the area of NLP Security. | 翻訳日:2024-01-23 12:46:36 公開日:2024-01-22 |
# warm: 重量平均報酬モデルの利点について WARM: On the Benefits of Weight Averaged Reward Models ( http://arxiv.org/abs/2401.12187v1 ) ライセンス: Link先を確認 | Alexandre Ram\'e, Nino Vieillard, L\'eonard Hussenot, Robert Dadashi, Geoffrey Cideron, Olivier Bachem, Johan Ferret | (参考訳) 大きな言語モデル(LLM)を強化学習(RLHF)を通じて人間の好みで調整することで、LLMは報酬モデル(RM)の失敗を利用して、基礎となる目的を満たすことなく、一見高い報酬を達成できる。
報酬ハッキングを緩和するためにRMを設計する際の主な課題は、RLプロセス中の分配シフトと人間の好みの不整合である。
提案手法では,まず複数のrmを微調整し,その後,重み空間で平均化する量平均報酬モデル(warm)を提案する。
この戦略は、同じ事前訓練を共有する際に、微調整の重みが線形に連結されているという観察に従う。
平均的な重み付けにより、WARMは従来の予測のアンサンブルよりも効率を向上し、分散シフトによる信頼性と、優先的不整合に対する堅牢性を改善している。
ベスト・オブ・nとrlを用いた要約タスクの実験では、ウォームはllm予測の全体的な品質とアライメントを改善していることを示している。例えば、ウォームで微調整されたポリシーrlは、1つのrmで微調整されたポリシーrlに対して79.4%の勝利率を持つ。 Aligning large language models (LLMs) with human preferences through reinforcement learning (RLHF) can lead to reward hacking, where LLMs exploit failures in the reward model (RM) to achieve seemingly high rewards without meeting the underlying objectives. We identify two primary challenges when designing RMs to mitigate reward hacking: distribution shifts during the RL process and inconsistencies in human preferences. As a solution, we propose Weight Averaged Reward Models (WARM), first fine-tuning multiple RMs, then averaging them in the weight space. This strategy follows the observation that fine-tuned weights remain linearly mode connected when sharing the same pre-training. By averaging weights, WARM improves efficiency compared to the traditional ensembling of predictions, while improving reliability under distribution shifts and robustness to preference inconsistencies. Our experiments on summarization tasks, using best-of-N and RL methods, shows that WARM improves the overall quality and alignment of LLM predictions; for example, a policy RL fine-tuned with WARM has a 79.4% win rate against a policy RL fine-tuned with a single RM. | 翻訳日:2024-01-23 12:46:14 公開日:2024-01-22 |