このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20231117となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# DP-starJ:分析スタージョインクエリのための微分プライベートスキーム
DP-starJ: A Differential Private Scheme towards Analytical Star-Join Queries ( http://arxiv.org/abs/2310.04711v3 ) ライセンス: Link先を確認 | Congcong Fu, Hui Li, Jian Lou, Jiangtao Cui, | (参考訳) Star-joinクエリはデータウェアハウスの基本的なタスクであり、オンライン分析処理(OLAP)のシナリオに幅広い応用がある。
外部キー制約の多さと、近隣の事象と次元表の間の非対称効果のため、スタージョインクエリに直接適用されるような結合を特別に設計した最新のDPの取り組みでさえ、非常に大きな推定誤差と高価な計算コストに悩まされる。
そこで本研究では,DP-starJを提案する。
DP-starJは、スタージョイントの特定の特徴に合わせた一連の戦略から構成される。
1) 近隣のデータベースインスタンスに対する事実と次元表の異なる影響を明らかにし, スタージョイントの異なるケースに合わせた定義を再考する。
2) 結果の代わりに述語摂動を利用して結合手順に雑音を注入する述語機構(PM)を提案する。
3)ロバストな性能をさらに向上するために,PMに基づく様々なスタージョイントタスクに対するDP準拠のスタージョイントアルゴリズムを提案する。
提案手法の精度,効率,スケーラビリティの両面から,提案手法が最先端のソリューションよりも優れていることを示す理論的解析と実証的研究の両方を提供する。
Star-join query is the fundamental task in data warehouse and has wide applications in On-line Analytical Processing (OLAP) scenarios. Due to the large number of foreign key constraints and the asymmetric effect in the neighboring instance between the fact and dimension tables, even those latest DP efforts specifically designed for join, if directly applied to star-join query, will suffer from extremely large estimation errors and expensive computational cost. In this paper, we are thus motivated to propose DP-starJ, a novel Differentially Private framework for star-Join queries. DP-starJ consists of a series of strategies tailored to specific features of star-join, including 1) we unveil the different effect of fact and dimension tables on the neighboring database instances, and accordingly revisit the definitions tailored to different cases of star-join; 2) we propose Predicate Mechanism (PM), which utilizes predicate perturbation to inject noise into the join procedure instead of the results; 3) to further boost the robust performance, we propose a DP-compliant star-join algorithm for various types of star-join tasks based on PM. We provide both theoretical analysis and empirical study, which demonstrate the superiority of the proposed methods over the state-of-the-art solutions in terms of accuracy, efficiency, and scalability. | 翻訳日:2024-03-19 03:02:24 公開日:2023-11-17 |
# Laccolith: 抗検出によるハイパーバイザベースの逆エミュレーション
Laccolith: Hypervisor-Based Adversary Emulation with Anti-Detection ( http://arxiv.org/abs/2311.08274v2 ) ライセンス: Link先を確認 | Vittorio Orbinato, Marco Carlo Feliciano, Domenico Cotroneo, Roberto Natella, | (参考訳) 先進的永続脅威(Advanced Persistent Threats、APT)は、現在最も危険な攻撃形態である。
敵エミュレーション(Adversary Emulation)は、これらの攻撃に備える積極的なアプローチである。
しかし、敵エミュレーションツールはAPTの抗検出能力に欠けていた。
本稿では,このギャップを埋めるために,対向エミュレーションとアンチ検出を併用したハイパーバイザベースのソリューションであるLaccolithを紹介する。
また,敵エミュレーションの最先端ソリューションであるMITRE CALDERAとLaccolithの比較実験を行った。
CALDERAは、最先端のアンチ検出フレームワークと組み合わせても、エミュレートされた攻撃の現実性を制限することができず、検出を回避できないことがわかった。
実験の結果,Laccolithは全抗ウイルス製品から活性を隠蔽し,現実的なエミュレーションに適応できることがわかった。
Advanced Persistent Threats (APTs) represent the most threatening form of attack nowadays since they can stay undetected for a long time. Adversary emulation is a proactive approach for preparing against these attacks. However, adversary emulation tools lack the anti-detection abilities of APTs. We introduce Laccolith, a hypervisor-based solution for adversary emulation with anti-detection to fill this gap. We also present an experimental study to compare Laccolith with MITRE CALDERA, a state-of-the-art solution for adversary emulation, against five popular anti-virus products. We found that CALDERA cannot evade detection, limiting the realism of emulated attacks, even when combined with a state-of-the-art anti-detection framework. Our experiments show that Laccolith can hide its activities from all the tested anti-virus products, thus making it suitable for realistic emulations. | 翻訳日:2024-03-18 23:22:19 公開日:2023-11-17 |
# 量子セキュアデジタル署名のための同相ポリノミアル公開鍵暗号
Homomorphic Polynomial Public Key Cryptography for Quantum-secure Digital Signature ( http://arxiv.org/abs/2311.08967v2 ) ライセンス: Link先を確認 | Randy Kuang, Maria Perepechaenko, Mahmoud Sayed, Dafu Lou, | (参考訳) 2022年の研究でKuangらは、量子セーフな公開鍵システムにおける乗算と除算の逆関係を利用した多変数ポリノミアル公開鍵(MPPK)暗号を導入した。
彼らはMPPKをホモモルフィックなポリノミアル公開鍵(HPPK)に拡張し、大きな隠蔽リング操作に同型暗号化を適用した。
当初、鍵カプセル化(KEM)のために設計されたHPPKのセキュリティは、公開多項式の同型暗号化に依存している。
本稿では,HPPK KEMをデジタル署名方式に拡張する。
HPPK KEMをデジタルシグネチャに適応させるために、Barrett還元アルゴリズムの拡張を導入し、モジュラ乗算を素体上の検証方程式の分割に変換する。
拡張アルゴリズムは、署名を公開多項式係数に非線形に埋め込み、初期のMPPK DSスキームの脆弱性に対処する。
セキュリティ分析は、プライマリフィールドサイズの2倍のリングビット長を考慮して、プライベートキーリカバリと偽シグネチャ攻撃の指数関数的複雑性を示す。
In their 2022 study, Kuang et al. introduced Multivariable Polynomial Public Key (MPPK) cryptography, leveraging the inversion relationship between multiplication and division for quantum-safe public key systems. They extended MPPK into Homomorphic Polynomial Public Key (HPPK), employing homomorphic encryption for large hidden ring operations. Originally designed for key encapsulation (KEM), HPPK's security relies on homomorphic encryption of public polynomials. This paper expands HPPK KEM to a digital signature scheme, facing challenges due to the distinct nature of verification compared to decryption. To adapt HPPK KEM to digital signatures, the authors introduce an extension of the Barrett reduction algorithm, transforming modular multiplications into divisions in the verification equation over a prime field. The extended algorithm non-linearly embeds the signature into public polynomial coefficients, addressing vulnerabilities in earlier MPPK DS schemes. Security analysis demonstrates exponential complexity for private key recovery and forged signature attacks, considering ring bit length twice that of the prime field size. | 翻訳日:2024-03-18 23:12:35 公開日:2023-11-17 |
# FunctionMarker:知識注入による透かし言語データセット
FunctionMarker: Watermarking Language Datasets via Knowledge Injection ( http://arxiv.org/abs/2311.09535v2 ) ライセンス: Link先を確認 | Shuai Li, Kejiang Chen, Kunsheng Tang, Wen Huang, Jie Zhang, Weiming Zhang, Nenghai Yu, | (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて優れた性能を示している。
一方、彼らは広範なトレーニングデータを必要とし、データセットの著作権保護に関する懸念を提起する。
バックドアベースの透かしは、分類データセットの著作権を保護するための実行可能なアプローチである。
しかし、これらの手法は、攻撃者による透かし付きLLMに悪意ある誤分類挙動を導入し、透かし付きテキストのセマンティック情報に影響を及ぼす可能性がある。
これらの問題に対処するため,知識注入による言語データセットの著作権保護手法であるFunctionMarkerを提案する。
FunctionMarkerは、透かし付きデータセットを微調整することで、LLMが特定の知識を学習できるようにし、特定の知識関連クエリに対するLLMの応答を取得することで、埋め込みされた透かしを抽出する。
透かし能力とステルス性を考慮すると、LLMが透かしを学習して埋め込むための特定の知識としてカスタマイズ可能な関数を選択する。
さらに、FunctionMarkerは、元のセマンティック情報を保存しながらマルチビットの透かしを埋め込むことができ、それによってアダプティブアタックの難しさが増大する。
本稿では,FunctionMarkerの有効性を評価するために数学的関数を例に挙げ,本手法の有効性を検証した結果,透かしテキストの0.3%が90%の透かし抽出精度を実現していることがわかった。
Large Language Models (LLMs) have demonstrated superior performance in various natural language processing tasks. Meanwhile, they require extensive training data, raising concerns related to dataset copyright protection. Backdoor-based watermarking is a viable approach to protect the copyright of classification datasets. However, these methods may introduce malicious misclassification behaviors into watermarked LLMs by attackers and also affect the semantic information of the watermarked text. To address these issues, we propose FunctionMarker, a novel copyright protection method for language datasets via knowledge injection. FunctionMarker enables LLMs to learn specific knowledge through fine-tuning on watermarked datasets, and we can extract the embedded watermark by obtaining the responses of LLMs to specific knowledge-related queries. Considering watermark capacity and stealthness, we select customizable functions as specific knowledge for LLMs to learn and embed the watermark into them. Moreover, FunctionMarker can embed multi-bit watermarks while preserving the original semantic information, thereby increasing the difficulty of adaptive attacks. We take mathematical functions as an instance to evaluate the effectiveness of FunctionMarker, and experiments show that only 0.3% of watermarked text achieves a 90% watermark extraction accuracy in most cases, validating our method's effectiveness. | 翻訳日:2024-03-18 23:12:35 公開日:2023-11-17 |
# スケーラブルで適応的にセキュアな分散キー生成とオールハンドチェックポイント
Scalable and Adaptively Secure Any-Trust Distributed Key Generation and All-hands Checkpointing ( http://arxiv.org/abs/2311.09592v2 ) ライセンス: Link先を確認 | Hanwen Feng, Tiancheng Mai, Qiang Tang, | (参考訳) 古典的な分散キー生成プロトコル(DKG)は、ブロックチェーンに広く応用されているため、復活している。
DKG通信を改善する努力が続けられているが、ブロードキャストチャネルのスケーラビリティや最悪の不平相といった様々な課題のため、実用的な大規模展開はまだ行われていない。
本稿では,DLベースの暗号システムにおいて,公開台帳とビーコンの助けを借りて,参加者当たり(準)線形計算/通信コストのみを伴い,実用的なDKGを提案する。
さらに,本プロトコルは適応型セキュリティを満足する。
改善の鍵は、最もコストのかかるオペレーションをAny-Trustグループに委譲することにあります。
このグループはランダムにサンプル化され、少数の個人から構成される。
人口はグループ内の少なくとも1人のメンバーが正直であるとのみ信じており、どのメンバーかは分かっていない。
さらに、ブロックチェーンとデータ分散ネットワーク(IPFSなど)に基づいた拡張ブロードキャストチャンネルを導入し、一定のサイズのブロックチェーンストレージを犠牲にして、任意のサイズのメッセージの信頼性の高いブロードキャストを可能にする。
我々のDKGは、Filecoinのチェックポイント機構を完全に実現し、ブロックカヒンのすべてのバリケータが定期的にDKGとしきい値署名を実行し、Bitcoin上でチェックポイントを作成することにより、PoSチェーンのセキュリティを向上します。
Babylon(オークランド、2023年)の別のチェックポイントアプローチと比較すると、当社はBitcoin取引手数料の目覚ましい少額の金銭的コストを享受しています。
バリデータを持つPoSチェーンの場合、私たちのコストはバビロンのアプローチによって引き起こされるものの0.6 %に過ぎません。
The classical distributed key generation protocols (DKG) are resurging due to their widespread applications in blockchain. While efforts have been made to improve DKG communication, practical large scale deployments are still yet to come, due to various challenges including broadcast channel scalability and worst-case complaint phase. In this paper, we propose a practical DKG for DL-based cryptosystems, with only (quasi-)linear computation/communication cost per participant, with the help of a public ledger, and beacon; Notably, our DKG only incurs constant-size blockchain storage cost for broadcast, even in the face of worst-case complaints. Moreover, our protocol satisfies adaptive security. The key to our improvements lies in delegating the most costly operations to an Any-Trust group. This group is randomly sampled and consists of a small number of individuals. The population only trusts that at least one member in the group is honest, without knowing which one. Additionally, we introduce an extended broadcast channel based on a blockchain and data dispersal network (such as IPFS), enabling reliable broadcasting of arbitrary-size messages at the cost of constant-size blockchain storage, which may be of independent interest. Our DKG leads to a fully practical instantiation of Filecoin's checkpointing mechanism, in which all validators of a Proof-of-Stake (PoS) blockcahin periodically run DKG and threshold signing to create checkpoints on Bitcoin, thereby enhancing the security of the PoS chain. In comparison with another checkpointing approach of Babylon (Oakland, 2023), ours enjoys a significally smaller monetary cost of Bitcoin transaction fees. For a PoS chain with $2^{12}$ validators, our cost is merely 0.6\% of that incurred by Babylon's approach. | 翻訳日:2024-03-18 23:12:35 公開日:2023-11-17 |
# より強力なブロックチェーンを目指す - フロントランニング攻撃に対するセキュリティ
Towards Stronger Blockchains: Security Against Front-Running Attacks ( http://arxiv.org/abs/2311.10253v1 ) ライセンス: Link先を確認 | Anshuman Misra, Ajay D. Kshemkalyani, | (参考訳) ブロックチェーンは、ブロックに含まれるトランザクションセットのコンセンサスに到達することで、分散共有台帳にトランザクションを追加する。
これにより、グローバルトランザクションのセットの完全な順序付けが可能になる。
しかし、全体順序付けは、ビザンティン断層モデルの下でのアプリケーションセマンティクスを満たすには不十分である。
これは、悪質なマイナとクライアントが、アプリケーションレベルと経済的優位性を得るために、正しいクライアントのトランザクションの前に独自のトランザクションを追加するために協力できるという事実による。
これらの攻撃は前部攻撃の傘の下に置かれる。
したがって、全体的な順序付けはアプリケーションのセマンティクスを保存するのに十分ではない。
本稿では,本問題の解法として全順序を保つ因果性を提案する。
結果として生じるブロックチェーンは、従来のコンセンサスベースのブロックチェーンよりも強く、Byzantine設定で適切なアプリケーションセマンティクスを保証するためのセキュリティが強化される。
Blockchains add transactions to a distributed shared ledger by arriving at consensus on sets of transactions contained in blocks. This provides a total ordering on a set of global transactions. However, total ordering is not enough to satisfy application semantics under the Byzantine fault model. This is due to the fact that malicious miners and clients can collaborate to add their own transactions ahead of correct clients' transactions in order to gain application level and financial advantages. These attacks fall under the umbrella of front-running attacks. Therefore, total ordering is not strong enough to preserve application semantics. In this paper, we propose causality preserving total order as a solution to this problem. The resulting Blockchains will be stronger than traditional consensus based blockchains and will provide enhanced security ensuring correct application semantics in a Byzantine setting. | 翻訳日:2024-03-18 23:02:51 公開日:2023-11-17 |
# RISC-Vのためのセキュアインストラクションとデータレベル情報フロー追跡モデル
Secure Instruction and Data-Level Information Flow Tracking Model for RISC-V ( http://arxiv.org/abs/2311.10283v1 ) ライセンス: Link先を確認 | Geraldine Shirley Nicholas, Dhruvakumar Vikas Aklekar, Bhavin Thakar, Fareena Saqib, | (参考訳) デバイス使用の増加と半導体へのサードパーティのIP統合は、セキュリティ上の懸念を提起する。
不正アクセス、障害注入、およびプライバシー侵害は、信頼できないアクターによる潜在的な脅威である。
潜在的な脆弱性からデバイスを保護するためのレジリエンスを提供するために、さまざまなセキュリティ技術が提案されている。
本研究では,信頼できない通信チャネルからのデータの流れを追跡することによって,実行時セキュリティがシステム完全性を保護するための統合情報フロー追跡(IFT)手法を提案する。
既存のハードウェアベースのIFTスキームは、リソース集約型か粗い粒度のモデルで、最小の精度の論理を持ち、制御フローまたはデータフローの整合性を提供する。
現在のセキュリティモデルは、柔軟性とハードウェアのオーバーヘッドを同時にバランスさせることが難しいため、複数の粒度を提供するものはありません。
本研究では,ハードウェアベース IFT 技術とゲートレベル IFT (GLIFT) 技術を統合した多層粒度 IFT モデルを提案する。
命令レベルからデータレベルへの変換は、偽の保守フローのない正確な情報フロー動作のためのセキュリティクリティカルなデータによるモジュールインスタンス化に基づいている。
シミュレーションベースのIFTモデルを実証し、アーキテクチャ固有の拡張をツールチェーン拡張によるコンパイラ固有のシミュレーションモデルに変換して、セキュリティ拡張を検証する。
このアプローチは、タグ付きメカニズムを1ビットタグで拡張し、セキュリティクリティカルなモジュールのみのデータを追跡することで、領域オーバーヘッドを排除する最適化されたシャドウロジックを実装することにより、より正確なロジックを提供する。
Rising device use and third-party IP integration in semiconductors raise security concerns. Unauthorized access, fault injection, and privacy invasion are potential threats from untrusted actors. Different security techniques have been proposed to provide resilience to secure devices from potential vulnerabilities; however, no one technique can be applied as an overarching solution. We propose an integrated Information Flow Tracking (IFT) technique to enable runtime security to protect system integrity by tracking the flow of data from untrusted communication channels. Existing hardware-based IFT schemes are either fine-, which are resource-intensive, or coarse-grained models, which have minimal precision logic, providing either control flow or data-flow integrity. No current security model provides multi-granularity due to the difficulty in balancing both the flexibility and hardware overheads at the same time. This study proposes a multi-level granularity IFT model that integrates a hardware-based IFT technique with a gate-level-based IFT (GLIFT) technique, along with flexibility, for better precision and assessments. Translation from the instruction level to the data level is based on module instantiation with security-critical data for accurate information flow behaviors without any false conservative flows. A simulation-based IFT model is demonstrated, which translates the architecture-specific extensions into a compiler-specific simulation model with toolchain extensions for Reduced Instruction Set Architecture (RISC-V) to verify the security extensions. This approach provides better precision logic by enhancing the tagged mechanism with 1-bit tags and implementing an optimized shadow logic that eliminates the area overhead by tracking the data for only security-critical modules. | 翻訳日:2024-03-18 23:02:51 公開日:2023-11-17 |
# オフチェーンネットワークに関する調査 - フレームワーク,テクノロジ,ソリューション,課題
A Survey on Off-chain Networks: Frameworks, Technologies, Solutions and Challenges ( http://arxiv.org/abs/2311.10298v1 ) ライセンス: Link先を確認 | Xiaojie Wang, Hanxue Li, Ling Yi, Zhaolong Ning, Song Guo, Yan Zhang, | (参考訳) ブロックチェーンは学術と産業で注目を集めている。
しかし、トランザクションボリュームの増大とオンチェーンストレージの制限は、ブロックチェーンの普及を妨げる重要な課題として、スケーラビリティを強調している。
幸いなことに、ブロックチェーン以外のトランザクションを可能にするオフチェーンネットワークは、スケーラビリティの課題を軽減する有望な可能性を秘めている。
支払いチャネルネットワークのようなブロックチェーンのスケーラビリティハードルに対処するオフチェーンソリューションは、セキュアで高速なオフチェーントランザクションを可能にし、メインチェーンの歪みを軽減します。
この記事では、オフチェーンネットワークの重要な技術、ソリューション、課題について、包括的なレビューを行います。
まず、設計モチベーション、フレームワーク、概要、アプリケーションシナリオを含むオフチェーンネットワークの背景を紹介します。
次に、オフチェーンネットワークに関連する重要な問題と技術についてレビューします。
続いて、対応する主要な問題に対する主要な解決策を要約する。
最後に、この分野におけるいくつかの研究課題とオープンな課題について論じる。
Blockchain has received increasing attention in academia and industry. However, the increasing transaction volumes and limited on-chain storage underscore scalability as a key challenge hindering the widespread adoption of blockchain. Fortunately, off-chain networks that enable transactions outside the blockchain show promising potential to mitigate the scalability challenge. Off-chain solutions that address blockchain scalability hurdles, such as payment channel networks, facilitate secure and fast off-chain transactions, thus relieving the main chain's strain. In this article, we provide a comprehensive review of key technologies, solutions, and challenges of off-chain networks. First, we introduce the background of off-chain networks encompassing design motivation, framework, overview, and application scenarios. We then review the key issues and technologies associated with off-chain networks. Subsequently, we summarize the mainstream solutions for the corresponding key issues. Finally, we discuss some research challenges and open issues in this area. | 翻訳日:2024-03-18 23:02:51 公開日:2023-11-17 |
# UA-Radar: Webにおけるユーザエージェントの影響を探る
UA-Radar: Exploring the Impact of User Agents on the Web ( http://arxiv.org/abs/2311.10420v1 ) ライセンス: Link先を確認 | Jean Luc Intumwayase, Imane Fouad, Pierre Laperdrix, Romain Rouvoy, | (参考訳) 初期のWebでは、異なるブラウザに同じWebページを与えると、非常に異なる結果が得られる。
各ブラウザの背後にあるレンダリングエンジンが異なるため、ページのいくつかの要素が壊れたり、間違った場所に配置されたりする可能性がある。
当時、ユーザーエージェント(UA)文字列はコンテンツネゴシエーションのために導入された。
サーバに接続するブラウザを知っていれば、開発者は特定のブラウザに適したWebページを提供して、ユーザビリティの問題を取り除くことができる。
過去30年間、UA文字列はブラウザによって露呈されてきたが、現在の有用性は議論されている。
ブラウザは、まったく同じ標準を採用し、同じ言語を使ってユーザーに同じコンテンツを表示できるようになった。
さらに、Webを閲覧する手段の多様性が非常に大きくなり、UA文字列はブラウザのフィンガープリント分野におけるユーザ追跡の最大のコントリビュータの1つとなり、それを非推奨にする切迫感をもたらしている。
本稿では,UAがWebに与える影響と,このレガシ文字列がユーザに提供するコンテンツに積極的に適用されているかを理解することを目的とする。
UA-RadarはWebページの類似度測定ツールで、コード内の2ページを実際のレンダリングと比較し、類似点をハイライトする。
3つの異なるブラウザと2つの異なるUA文字列を使って11,252のドメインから270,048のWebページをクロールして、JavaScriptが実行される前にWebページの100%が似ていることを観察しました。
また,ブラウザに依存しないコードを更新することで,ほとんどのケースで修正できるUA情報の欠如によって,ごく少数のWebサイトが影響を受けることがわかった。
我々の研究は、UA文字列のページを現在のWebブラウザから削除する時が来たことを証明しています。
In the early days of the web, giving the same web page to different browsers could provide very different results. As the rendering engine behind each browser would differ, some elements of a page could break or be positioned in the wrong location. At that time, the User Agent (UA) string was introduced for content negotiation. By knowing the browser used to connect to the server, a developer could provide a web page that was tailored for that specific browser to remove any usability problems. Over the past three decades, the UA string remained exposed by browsers, but its current usefulness is being debated. Browsers now adopt the exact same standards and use the same languages to display the same content to users, bringing the question if the content of the UA string is still relevant today, or if it is a relic of the past. Moreover, the diversity of means to browse the web has become so large that the UA string is one of the top contributors to tracking users in the field of browser fingerprinting, bringing a sense of urgency to deprecate it. In this paper, our goal is to understand the impact of the UA on the web and if this legacy string is still actively used to adapt the content served to users. We introduce UA-Radar, a web page similarity measurement tool that compares in-depth two web pages from the code to their actual rendering, and highlights the similarities it finds. We crawled 270, 048 web pages from 11, 252 domains using 3 different browsers and 2 different UA strings to observe that 100% of the web pages were similar before any JavaScript was executed, demonstrating the absence of differential serving. Our experiments also show that only a very small number of websites are affected by the lack of UA information, which can be fixed in most cases by updating code to become browser-agnostic. Our study brings some proof that it may be time to turn the page on the UA string and retire it from current web browsers. | 翻訳日:2024-03-18 23:02:51 公開日:2023-11-17 |
# 新しいVAPTアルゴリズム: WebアプリケーションセキュリティトラフOWASPトップ10最適化
A Novel VAPT Algorithm: Enhancing Web Application Security Trough OWASP top 10 Optimization ( http://arxiv.org/abs/2311.10450v1 ) ライセンス: Link先を確認 | Rui Ventura, Daniel Jose Franco, Omar Khasro Akram, | (参考訳) 本研究は, サイバーセキュリティ監査に基づいて, 脆弱性評価・浸透試験(VAPT)プロセスを用いたWebアプリケーション(WA)セキュリティ監査のための Open Web Application Security Project (OWASP) Top 10 アルゴリズムの最適化について検討する。
この研究は、OWASPアルゴリズムを最適化することでVAPTプロセスの強化に特に重点を置いている。
これを達成するために、この研究は机文書を利用して、WAサイバーセキュリティ監査とその関連ツールの知識を得る。
また、VAPTプロセスを探究し、VAPT自動化のための技術、方法、ツールを識別するアーカイブも開発している。
さらに, OWASP Top 10 アルゴリズムを用いて, VAPT の2つのステップを最適化するプロトタイプを提案する。
結果は,データ取得と解析の主要な手段としてブラックボックステスト手法を用いた仮想環境内で得られる。
この実験では、OWASPアルゴリズムは印象的な精度を示し、90%を超える精度を達成する。
すべての調査対象の脆弱性を効果的にカバーし、最適化を正当化する。
この研究はOWASPアルゴリズムの強化に大きく貢献し、攻撃的なセキュリティコミュニティに利益をもたらす。
セキュリティとソフトウェア開発の分野における専門家とアナリストのコンプライアンスプロセスを確実にする上で、これは重要な役割を担います。
This research study is built upon cybersecurity audits and investigates the optimization of an Open Web Application Security Project (OWASP) Top 10 algorithm for Web Applications (WA) security audits using Vulnerability Assessment and Penetration Testing (VAPT) processes. The study places particular emphasis on enhancing the VAPT process by optimizing the OWASP algorithm. To achieve this, the research utilizes desk documents to gain knowledge of WA cybersecurity audits and their associated tools. It also delves into archives to explore VAPT processes and identify techniques, methods, and tools for VAPT automation. Furthermore, the research proposes a prototype optimization that streamlines the two steps of VAPT using the OWASP Top 10 algorithm through an experimental procedure. The results are obtained within a virtual environment, which employs black box testing methods as the primary means of data acquisition and analysis. In this experimental setting, the OWASP algorithm demonstrates an impressive level of precision, achieving a precision rate exceeding 90%. It effectively covers all researched vulnerabilities, thus justifying its optimization. This research contributes significantly to the enhancement of the OWASP algorithm and benefits the offensive security community. It plays a crucial role in ensuring compliance processes for professionals and analysts in the security and software development fields. | 翻訳日:2024-03-18 23:02:51 公開日:2023-11-17 |
# AndroidにおけるTEEベースの機能の普及と利用に関する大規模研究
A Large-Scale Study on the Prevalence and Usage of TEE-based Features on Android ( http://arxiv.org/abs/2311.10511v1 ) ライセンス: Link先を確認 | Davide Bove, | (参考訳) OSベースの保護が堅牢な攻撃者に対して不十分であることが証明されたモバイルセキュリティの分野では、Trusted Execution Environments (TEEs) がハードウェアベースのセキュリティ技術として登場した。
業界がTEE技術の進歩にこだわっているにもかかわらず、エンドユーザーや開発者への影響はほとんど未解明のままである。
本研究は,AndroidアプリケーションにおけるTEE活用の大規模分析を行い,暗号,デジタル著作権管理,生体認証,セキュアなダイアログといった重要な領域に注目し,このギャップに対処する。
広範囲な分析を容易にするために,大規模アプリテストに適したフレームワークであるMobsec Analytikaを紹介した。
170,550の人気のAndroidアプリの分析を通じて、私たちの分析は、TEE関連の機能の実装とそのコンテキスト使用法を照らす。
調査の結果,TEE機能はサードパーティ製ライブラリを通じて間接的に利用されており,APIを直接呼び出すアプリは6.7%に過ぎなかった。
さらに、この研究は、最近のTEEベースのUI機能Protected Confirmationの未利用を明らかにしている。
In the realm of mobile security, where OS-based protections have proven insufficient against robust attackers, Trusted Execution Environments (TEEs) have emerged as a hardware-based security technology. Despite the industry's persistence in advancing TEE technology, the impact on end users and developers remains largely unexplored. This study addresses this gap by conducting a large-scale analysis of TEE utilization in Android applications, focusing on the key areas of cryptography, digital rights management, biometric authentication, and secure dialogs. To facilitate our extensive analysis, we introduce Mobsec Analytika, a framework tailored for large-scale app examinations, which we make available to the research community. Through the analysis of 170,550 popular Android apps, our analysis illuminates the implementation of TEE-related features and their contextual usage. Our findings reveal that TEE features are predominantly utilized indirectly through third-party libraries, with only 6.7% of apps directly invoking the APIs. Moreover, the study reveals the underutilization of the recent TEE-based UI feature Protected Confirmation. | 翻訳日:2024-03-18 23:02:51 公開日:2023-11-17 |
# Pudding: 匿名ネットワークにおけるプライベートユーザディスカバリ
Pudding: Private User Discovery in Anonymity Networks ( http://arxiv.org/abs/2311.10825v1 ) ライセンス: Link先を確認 | Ceren Kocaoğullar, Daniel Hugenroth, Martin Kleppmann, Alastair R. Beresford, | (参考訳) 匿名ネットワークは、メタデータのプライバシによるメッセージングを可能にし、一般的な暗号化メッセージングアプリケーションよりも優れたプライバシを提供する。
しかしながら、現在匿名ネットワーク上でユーザと接触するには、公開鍵や同様の高エントロピー情報を知る必要がある。
これまでの研究では、これが広く普及する障壁であることを示唆している。
本稿では,ユーザのメールアドレスのみを知る匿名ネットワーク上でユーザと連絡をとることのできる,新しいプライベートユーザ発見プロトコルであるPuddingを提案する。
本プロトコルは,ユーザ間の接触関係を隠蔽し,不正行為を防止し,ネットワーク上でどのユーザ名を登録しているかを隠蔽する。
Puddingはビザンティンのフォールトトレラントで、サーバの3分の1がクラッシュ、無効、あるいは悪意を持っていない限り、可用性と安全性が保たれる。
基盤となる匿名ネットワークプロトコルを変更することなく、LoopixとNymにデプロイでき、断続的なネットワーク接続を持つモバイルデバイスをサポートする。
我々は,Nym匿名ネットワークを用いたプロトタイプによるプディングの実用性を示す。
また、プロトコルのセキュリティとプライバシの目標を正式に定義し、それらの定義に対するコンプライアンスを評価するための徹底的な分析を行います。
Anonymity networks allow messaging with metadata privacy, providing better privacy than popular encrypted messaging applications. However, contacting a user on an anonymity network currently requires knowing their public key or similar high-entropy information, as these systems lack a privacy-preserving mechanism for contacting a user via a short, human-readable username. Previous research suggests that this is a barrier to widespread adoption. In this paper we propose Pudding, a novel private user discovery protocol that allows a user to be contacted on an anonymity network knowing only their email address. Our protocol hides contact relationships between users, prevents impersonation, and conceals which usernames are registered on the network. Pudding is Byzantine fault tolerant, remaining available and secure as long as less than one third of servers are crashed, unavailable, or malicious. It can be deployed on Loopix and Nym without changes to the underlying anonymity network protocol, and it supports mobile devices with intermittent network connectivity. We demonstrate the practicality of Pudding with a prototype using the Nym anonymity network. We also formally define the security and privacy goals of our protocol and conduct a thorough analysis to assess its compliance with these definitions. | 翻訳日:2024-03-18 23:02:51 公開日:2023-11-17 |
# コンピュータビジョンによる細切紙幣の138,000ドル製造の可能性 The possibility of making \$138,000 from shredded banknote pieces using computer vision ( http://arxiv.org/abs/2401.06133v1 ) ライセンス: Link先を確認 | Chung To Kong | (参考訳) どの国も古い紙幣を処分しなければならない。
香港通貨庁のビジターセンターでは、切削された紙幣でいっぱいの太いお土産が購入できる。
細断された紙幣は、コンピュータビジョンを用いて小さいが、紙幣全体をジグソーパズルのように再構築することができる。
各紙の土産価格は100HKDで、128ドル相当の細断された紙幣を含んでいると主張されている。
理論上、$138,000 HKDはコンピュータビジョンによって回収できる。
本稿では,細工した紙幣を収集し,コンピュータビジョンプログラムを適用する手法について論じる。 Every country must dispose of old banknotes. At the Hong Kong Monetary Authority visitor center, visitors can buy a paperweight souvenir full of shredded banknotes. Even though the shredded banknotes are small, by using computer vision, it is possible to reconstruct the whole banknote like a jigsaw puzzle. Each paperweight souvenir costs \$100 HKD, and it is claimed to contain shredded banknotes equivalent to 138 complete \$1000 HKD banknotes. In theory, \$138,000 HKD can be recovered by using computer vision. This paper discusses the technique of collecting shredded banknote pieces and applying a computer vision program. | 翻訳日:2024-01-22 13:02:03 公開日:2023-11-17 |
# 深層学習ツールを用いた植物葉における水系農薬の被覆面積の自動測定 Automatic measurement of coverage area of water-based pesticides-surfactant formulation on plant leaves using deep learning tools ( http://arxiv.org/abs/2401.08593v1 ) ライセンス: Link先を確認 | Fabio Grazioso, Anzhelika A. Atsapina, Gardoon L. O. Obaeed, Natalia A. Ivanova | (参考訳) 植物葉上の水溶液中での殺虫剤配合物の提供を効率的かつ定量的に行う方法を提案する。
接触角を測定する代わりに、葉の湿った領域の表面をキーパラメータとして用いる。
この目的のために、キュウリの葉に水に濡れた領域の表面を自動的に測定し、ビデオ映像のフレームを処理する深層学習モデルが訓練され、テストされている。
我々は既存のディープラーニングモデルを分割し、他のアプリケーションのために文献で報告し、この異なるタスクに適用した。
本稿では,測定手法,深層学習モデルの詳細,訓練手順,画像分割性能について述べる。
最後に, 農薬溶液中の界面活性剤濃度の関数として, 湿地表面測定の結果について報告する。 A method to efficiently and quantitatively study the delivery of a pesticide-surfactant formulation in water solution over plants leaves is presented. Instead of measuring the contact angle, the surface of the leaves wet area is used as key parameter. To this goal, a deep learning model has been trained and tested, to automatically measure the surface of area wet with water solution over cucumber leaves, processing the frames of video footage. We have individuated an existing deep learning model, reported in literature for other applications, and we have applied it to this different task. We present the measurement technique, some details of the deep learning model, its training procedure and its image segmentation performance. Finally, we report the results of the wet areas surface measurement as a function of the concentration of a surfactant in the pesticide solution. | 翻訳日:2024-01-22 10:03:54 公開日:2023-11-17 |
# モデルベース強化学習を用いたランギングセンサを用いた自動ポートナビゲーション Autonomous Port Navigation With Ranging Sensors Using Model-Based Reinforcement Learning ( http://arxiv.org/abs/2312.05257v1 ) ライセンス: Link先を確認 | Siemen Herremans, Ali Anwar, Arne Troch, Ian Ravijts, Maarten Vangeneugden, Siegfried Mercelis, Peter Hellinckx | (参考訳) 自律輸送は最近、研究コミュニティに多くの関心を集めている。
しかし、これはベルギーやオランダのような国によって持続可能な未来に向けた重要なステップとして認識されているものの、内陸と港の航行に関する研究はほとんどない。
これらの環境は、小さな船、カヤック、ブイなどの場所を放送しないダイナミックな障害物を含むことができるため、固有の課題を生んでいる。
そこで本研究では,広範囲なセンサを用いて複雑な港湾シナリオで内陸の船舶を航行し,環境を観察するナビゲーションアルゴリズムを提案する。
提案手法は、最近さまざまな領域でベンチマーク結果を設定した機械学習アプローチに基づいており、モデルベース強化学習である。
トレーニング中にポート環境をランダムにすることで、トレーニングされたモデルは、トレーニング中に遭遇しなかったシナリオをナビゲートすることができる。
さらに,本手法は,一般的な動的ウィンドウ手法とベンチマークモデルフリー強化学習アルゴリズムよりも優れていることを示す。
したがって、この作業は複雑なポートシナリオで自律的に航行できる船への重要なステップである。 Autonomous shipping has recently gained much interest in the research community. However, little research focuses on inland - and port navigation, even though this is identified by countries such as Belgium and the Netherlands as an essential step towards a sustainable future. These environments pose unique challenges, since they can contain dynamic obstacles that do not broadcast their location, such as small vessels, kayaks or buoys. Therefore, this research proposes a navigational algorithm which can navigate an inland vessel in a wide variety of complex port scenarios using ranging sensors to observe the environment. The proposed methodology is based on a machine learning approach that has recently set benchmark results in various domains: model-based reinforcement learning. By randomizing the port environments during training, the trained model can navigate in scenarios that it never encountered during training. Furthermore, results show that our approach outperforms the commonly used dynamic window approach and a benchmark model-free reinforcement learning algorithm. This work is therefore a significant step towards vessels that can navigate autonomously in complex port scenarios. | 翻訳日:2024-01-15 15:00:29 公開日:2023-11-17 |
# 多形結晶構造を用いたstoichiometry表現学習 Stoichiometry Representation Learning with Polymorphic Crystal Structures ( http://arxiv.org/abs/2312.13289v1 ) ライセンス: Link先を確認 | Namkyeong Lee, Heewoong Noh, Gyoung S. Na, Tianfan Fu, Jimeng Sun, Chanyoung Park | (参考訳) 最近の材料科学における機械学習(ML)の成功にもかかわらず、その成功は結晶の構造的記述に大きく依存している。
ストイチオメトリディスクリプタは、構造情報なしで特定の化合物を形成するのに必要な要素間の比率を明らかにする別のアプローチである。
しかし、多型 (polymorphism) と呼ばれる物質科学の性質から、一種類の確率論が原子配置の柔軟性によって複数の構造形式に存在し、表現の不確実性を引き起こすため、確率論の表現を学ぶことは簡単ではない。
そこで本論文では,不確実性が確率論の多形構造を明らかにする構造情報を用いて,確率論の確率論的表現を学習するポリsrlを提案する。
16のデータセットに対する大規模な実験は、PolySRLの優位性を示し、実世界の物質発見におけるPolySRLの適用性に光を当てた不確実性の分析である。
polysrlのソースコードはhttps://github.com/namkyeong/polysrl_ai4scienceで入手できる。 Despite the recent success of machine learning (ML) in materials science, its success heavily relies on the structural description of crystal, which is itself computationally demanding and occasionally unattainable. Stoichiometry descriptors can be an alternative approach, which reveals the ratio between elements involved to form a certain compound without any structural information. However, it is not trivial to learn the representations of stoichiometry due to the nature of materials science called polymorphism, i.e., a single stoichiometry can exist in multiple structural forms due to the flexibility of atomic arrangements, inducing uncertainties in representation. To this end, we propose PolySRL, which learns the probabilistic representation of stoichiometry by utilizing the readily available structural information, whose uncertainty reveals the polymorphic structures of stoichiometry. Extensive experiments on sixteen datasets demonstrate the superiority of PolySRL, and analysis of uncertainties shed light on the applicability of PolySRL in real-world material discovery. The source code for PolySRL is available at https://github.com/Namkyeong/PolySRL_AI4Science. | 翻訳日:2024-01-15 13:13:05 公開日:2023-11-17 |
# ニューラルネットにおけるランダム重み付けニューロ変調は、マニフォールド共通タスクの学習を促進する Randomly Weighted Neuromodulation in Neural Networks Facilitates Learning of Manifolds Common Across Tasks ( http://arxiv.org/abs/2401.02437v1 ) ライセンス: Link先を確認 | Jinyung Hong, Theodore P. Pavlic | (参考訳) 幾何センシティブハッシュ関数(gemetry sensitive hashing function)は、教師付き学習でクラス固有の多様体幾何学を学ぶニューラルネットワークモデルである。
しかし,教師付き学習タスクの組を考えると,各タスクを表現できる多様体ジオメトリの理解や,それに基づくタスク間の関係性が注目されていない。
神経調節系を持つ脳様モデルにおいて、各タスクが高次元多様体に関連付けられている生成過程を考慮し、この問題の形式化を考察する。
この定式化に従い、 \emph{task-specific geometric sensitive hashing~(t-gsh)} を定義し、神経変調系を持つランダム重み付きニューラルネットワークがこの関数を実現できることを示す。 Geometric Sensitive Hashing functions, a family of Local Sensitive Hashing functions, are neural network models that learn class-specific manifold geometry in supervised learning. However, given a set of supervised learning tasks, understanding the manifold geometries that can represent each task and the kinds of relationships between the tasks based on them has received little attention. We explore a formalization of this question by considering a generative process where each task is associated with a high-dimensional manifold, which can be done in brain-like models with neuromodulatory systems. Following this formulation, we define \emph{Task-specific Geometric Sensitive Hashing~(T-GSH)} and show that a randomly weighted neural network with a neuromodulation system can realize this function. | 翻訳日:2024-01-15 09:43:22 公開日:2023-11-17 |
# 圧縮3次元ガウススプレーティングによる新規視合成の高速化 Compressed 3D Gaussian Splatting for Accelerated Novel View Synthesis ( http://arxiv.org/abs/2401.02436v1 ) ライセンス: Link先を確認 | Simon Niedermayr, Josef Stumpfegger, R\"udiger Westermann | (参考訳) 近年,スパース画像集合からの新たなビュー合成のために,3次元ガウススプラット表現を最適化した高忠実度シーン再構成が導入された。
このような表現をネットワークストリーミングや低消費電力デバイスでのレンダリングのようなアプリケーションに適したものにするには、メモリ消費を大幅に削減し、レンダリング効率を向上する必要がある。
本稿では,感性を考慮したベクトルクラスタリングと量子化学習を併用した3次元ガウススプラット表現を提案する。
学習したコードブックはビットレートが低く、ビジュアル品質の最小限の劣化しかなく、現実世界のシーンでの圧縮レートが311\times$に達する。
圧縮されたsplat表現は、最適化されたgpu計算パイプラインを介して報告されるよりも最大4\times$のフレームレートで、軽量gpu上でハードウェアラスタイゼーションによって効率的にレンダリングできることを実証する。
複数のデータセットにわたる大規模な実験は、提案手法の堅牢性とレンダリング速度を示している。 Recently, high-fidelity scene reconstruction with an optimized 3D Gaussian splat representation has been introduced for novel view synthesis from sparse image sets. Making such representations suitable for applications like network streaming and rendering on low-power devices requires significantly reduced memory consumption as well as improved rendering efficiency. We propose a compressed 3D Gaussian splat representation that utilizes sensitivity-aware vector clustering with quantization-aware training to compress directional colors and Gaussian parameters. The learned codebooks have low bitrates and achieve a compression rate of up to $31\times$ on real-world scenes with only minimal degradation of visual quality. We demonstrate that the compressed splat representation can be efficiently rendered with hardware rasterization on lightweight GPUs at up to $4\times$ higher framerates than reported via an optimized GPU compute pipeline. Extensive experiments across multiple datasets demonstrate the robustness and rendering speed of the proposed approach. | 翻訳日:2024-01-15 09:43:05 公開日:2023-11-17 |
# 形状認識スライシングと最適化による任意形状画像照合 Image Collage on Arbitrary Shape via Shape-Aware Slicing and Optimization ( http://arxiv.org/abs/2401.02435v1 ) ライセンス: Link先を確認 | Dong-Yi Wu, Thi-Ngoc-Hanh Le, Sheng-Yi Yao, Yun-Chen Lin, and Tong-Yee Lee | (参考訳) イメージコラージュは、画像コレクションを視覚化するのに非常に有用なツールです。
画像コラージュを生成するための既存の方法や商用用途のほとんどは、矩形や円形のレイアウトのような単純な形状で設計されている。
これは、芸術的、創造的な設定におけるイメージコラージュの使用を大幅に制限する。
不規則な形状のイメージコラージュを生成する方法もあるが、重度の画像重なりと過度の空白空間に苦しむことが多い。
これにより、このような方法は効果的な情報通信ツールにならない。
本稿では,任意の形状のイメージコラージュを,入力形状と画像コレクションが与えられた情報的かつ視覚的に表現できる形状スライシングアルゴリズムと最適化手法を提案する。
不規則な形状の課題を克服するため,メディア軸とバイナリスライシングツリーに基づいて入力形状をセルに分割するShape-Aware Slicingというアルゴリズムを提案する。
形状認識スライシング(shape-aware slicing)は、不規則な形状のために特別に設計されており、人間の知覚と形状構造を考慮して視覚的に心地よいパーティションを生成する。
そして、画像の全サルエント領域を最大化することを目的として入力画像を解析することによりレイアウトを最適化する。
提案手法を評価するために,広範な実験を行い,過去の研究と比較した。
提案手法は,不規則な形状に画像コレクションを効率的に配置し,従来の作業や既存の商用ツールよりも視覚的に優れた結果が得られることを示す。 Image collage is a very useful tool for visualizing an image collection. Most of the existing methods and commercial applications for generating image collages are designed on simple shapes, such as rectangular and circular layouts. This greatly limits the use of image collages in some artistic and creative settings. Although there are some methods that can generate irregularly-shaped image collages, they often suffer from severe image overlapping and excessive blank space. This prevents such methods from being effective information communication tools. In this paper, we present a shape slicing algorithm and an optimization scheme that can create image collages of arbitrary shapes in an informative and visually pleasing manner given an input shape and an image collection. To overcome the challenge of irregular shapes, we propose a novel algorithm, called Shape-Aware Slicing, which partitions the input shape into cells based on medial axis and binary slicing tree. Shape-Aware Slicing, which is designed specifically for irregular shapes, takes human perception and shape structure into account to generate visually pleasing partitions. Then, the layout is optimized by analyzing input images with the goal of maximizing the total salient regions of the images. To evaluate our method, we conduct extensive experiments and compare our results against previous work. The evaluations show that our proposed algorithm can efficiently arrange image collections on irregular shapes and create visually superior results than prior work and existing commercial tools. | 翻訳日:2024-01-15 09:42:52 公開日:2023-11-17 |
# 持続的垂直農業における人工知能 Artificial Intelligence in Sustainable Vertical Farming ( http://arxiv.org/abs/2312.00030v1 ) ライセンス: Link先を確認 | Hribhu Chowdhury, Debo Brata Paul Argha, Md Ashik Ahmed | (参考訳) 人口増加、気候変動、資源不足の世界的な課題が増大するにつれ、農業の景観は危機的状況にある。
持続可能な垂直農業は、制御された環境下での収穫量を最大化することにより、これらの課題に対処するための変革的な解決策として現れる。
このパラダイムシフトは最先端技術と人工知能(AI)を最前線で統合する必要がある。
この論文は、持続可能な垂直農業におけるAIの役割を包括的に探求し、その可能性、課題、そして機会について調査する。
このレビューでは、機械学習、コンピュータビジョン、IoT(Internet of Things)、ロボティクスを含むAIアプリケーションの現状を合成し、リソース使用の最適化、タスクの自動化、意思決定の強化について論じている。
研究のギャップを特定し、最適化されたAIモデルの必要性、学際的なコラボレーション、農業における説明可能なAIの開発を強調している。
この影響は、経済の存続可能性、環境影響の低減、食料安全保障の向上など、効率の向上を超えて広がる。
この論文は、ステークホルダーに洞察を提供し、将来の研究への道筋を提案し、持続可能な垂直農業におけるAI技術の統合を、農業の弾力的で持続可能な未来に向けて導くことを目的としている。 As global challenges of population growth, climate change, and resource scarcity intensify, the agricultural landscape is at a critical juncture. Sustainable vertical farming emerges as a transformative solution to address these challenges by maximizing crop yields in controlled environments. This paradigm shift necessitates the integration of cutting-edge technologies, with Artificial Intelligence (AI) at the forefront. The paper provides a comprehensive exploration of the role of AI in sustainable vertical farming, investigating its potential, challenges, and opportunities. The review synthesizes the current state of AI applications, encompassing machine learning, computer vision, the Internet of Things (IoT), and robotics, in optimizing resource usage, automating tasks, and enhancing decision-making. It identifies gaps in research, emphasizing the need for optimized AI models, interdisciplinary collaboration, and the development of explainable AI in agriculture. The implications extend beyond efficiency gains, considering economic viability, reduced environmental impact, and increased food security. The paper concludes by offering insights for stakeholders and suggesting avenues for future research, aiming to guide the integration of AI technologies in sustainable vertical farming for a resilient and sustainable future in agriculture. | 翻訳日:2023-12-11 03:53:27 公開日:2023-11-17 |
# Talent-Interview: Webクライアントによるオンラインエクササイズ検出 Talent-Interview: Web-Client Cheating Detection for Online Exams ( http://arxiv.org/abs/2312.00795v1 ) ライセンス: Link先を確認 | Mert Ege and Mustafa Ceyhan | (参考訳) 新型コロナウイルスのパンデミック以降、オンライン試験は魅力的だ。
また、募集の際にはオンライン試験が用いられる。
しかし、オンライン試験にはもっと不正な可能性がある。
試験ごとにプロークターを割り当てるとコストが上がる。
この時点で、自動プロクターシステムは不正な状態を検出する。
本稿では、オンライン・プロクタリングのより良い結果を得るために、エンドツーエンドシステムとサブモジュールを提案する。
本システムでは,物体検出,顔認識,人間の音声検出,セグメンテーションが用いられている。
さらに,提案モデルはユーザのpc上で動作し,クライアントベースのシステムである。
そのため、サーバコストは削減される。
私たちの知る限りでは、クライアントベースのオンラインプロクターシステムが採用に使用されるのはこれが初めてです。
新型コロナウイルスのパンデミック以降、オンライン試験は魅力的だ。
また、募集の際にはオンライン試験が用いられる。
しかし、オンライン試験にはもっと不正な可能性がある。
試験ごとにプロークターを割り当てるとコストが上がる。
この時点で、自動プロクターシステムは不正な状態を検出する。
本稿では、オンライン・プロクタリングのより良い結果を得るために、エンドツーエンドシステムとサブモジュールを提案する。
本システムでは,物体検出,顔認識,人間の音声検出,セグメンテーションが用いられている。
さらに,提案モデルはユーザのpc上で動作し,クライアントベースのシステムである。
そのため、サーバコストは削減される。
私たちの知る限りでは、クライアントベースのオンラインプロクターシステムが採用に使用されるのはこれが初めてです。
さらに、この不正行為システムはhttps://www.talent-interview.com/tr/で動作する。 Online exams are more attractive after the Covid-19 pandemic. Furthermore, during recruitment, online exams are used. However, there are more cheating possibilities for online exams. Assigning a proctor for each exam increases cost. At this point, automatic proctor systems detect possible cheating status. This article proposes an end-to-end system and submodules to get better results for online proctoring. Object detection, face recognition, human voice detection, and segmentation are used in our system. Furthermore, our proposed model works on the PCs of users, meaning a client-based system. So, server cost is eliminated. As far as we know, it is the first time the client-based online proctoring system has been used for recruitment. Online exams are more attractive after the Covid-19 pandemic. Furthermore, during recruitment, online exams are used. However, there are more cheating possibilities for online exams. Assigning a proctor for each exam increases cost. At this point, automatic proctor systems detect possible cheating status. This article proposes an end-to-end system and submodules to get better results for online proctoring. Object detection, face recognition, human voice detection, and segmentation are used in our system. Furthermore, our proposed model works on the PCs of users, meaning a client-based system. So, server cost is eliminated. As far as we know, it is the first time the client-based online proctoring system has been used for recruitment. Furthermore, this cheating system works at https://www.talent-interview.com/tr/. | 翻訳日:2023-12-11 03:44:44 公開日:2023-11-17 |
# インフォーマティブ・プレファレンスがマルチモーダルな臨床データ分類の信頼性を向上させる Informative Priors Improve the Reliability of Multimodal Clinical Data Classification ( http://arxiv.org/abs/2312.00794v1 ) ライセンス: Link先を確認 | L. Julian Lechuga Lopez and Tim G. J. Rudner and Farah E. Shamout | (参考訳) 機械学習による臨床判断支援は、患者のケアを大幅に改善する可能性がある。
しかし、この領域における不確実性の原理的定量化のための既存の取り組みは、信頼性を一貫して改善しないアドホックなソリューションの適用に限られている。
本研究では,確率的ニューラルネットワークを考察し,ネットワークパラメータ上でのマルチモーダルデータ駆動(m2d2)を事前分布として設計する。
我々は、単純でスケーラブルなガウス平均場変動推定を用いて、M2D2を用いてベイズニューラルネットワークをトレーニングする。
本研究は,MIMIC-IVにおける臨床時系列データと,MIMIC-CXRにおける胸部X線画像を用いて,急性疾患の分類のためのアプローチを訓練し,評価する。
実験の結果,提案手法は決定論的およびベイズ的ニューラルネットワークベースラインと比較して信頼性の高い予測モデルを生成することがわかった。 Machine learning-aided clinical decision support has the potential to significantly improve patient care. However, existing efforts in this domain for principled quantification of uncertainty have largely been limited to applications of ad-hoc solutions that do not consistently improve reliability. In this work, we consider stochastic neural networks and design a tailor-made multimodal data-driven (M2D2) prior distribution over network parameters. We use simple and scalable Gaussian mean-field variational inference to train a Bayesian neural network using the M2D2 prior. We train and evaluate the proposed approach using clinical time-series data in MIMIC-IV and corresponding chest X-ray images in MIMIC-CXR for the classification of acute care conditions. Our empirical results show that the proposed method produces a more reliable predictive model compared to deterministic and Bayesian neural network baselines. | 翻訳日:2023-12-11 03:44:26 公開日:2023-11-17 |
# コントラスト学習はどのようにイメージを整理するか? How does Contrastive Learning Organize Images? ( http://arxiv.org/abs/2305.10229v2 ) ライセンス: Link先を確認 | Yunzhe Zhang, Yao Lu, Qi Xuan | (参考訳) 支配的な自己教師技術であるコントラスト学習は、同一入力の強化と異なる入力に対する相似性の表現における相似性を強調している。
低コントラスト損失はしばしば高い分類精度と相関するが、近年の研究はこの直接的な関係に挑戦し、帰納バイアスの重要な役割を浮き彫りにしている。
対照的な学習は局所的に密集したクラスタを形成し、教師付き学習からグローバルに密集したクラスタとは対照的である。
この相違を捉えるために,RLD(Relative Local Density)メトリックを導入する。
このクラスタ特性は線形分類の精度を妨げる可能性があるが、グラフ畳み込みネットワーク(GCN)ベースの分類器がこれを緩和し、精度を高め、パラメータ要求を減らす。
コードは \href{https://github.com/xsgxlz/How-does-Contrastive-Learning-Organize-Images/tree/main}{here} で入手できる。 Contrastive learning, a dominant self-supervised technique, emphasizes similarity in representations between augmentations of the same input and dissimilarity for different ones. Although low contrastive loss often correlates with high classification accuracy, recent studies challenge this direct relationship, spotlighting the crucial role of inductive biases. We delve into these biases from a clustering viewpoint, noting that contrastive learning creates locally dense clusters, contrasting the globally dense clusters from supervised learning. To capture this discrepancy, we introduce the "RLD (Relative Local Density)" metric. While this cluster property can hinder linear classification accuracy, leveraging a Graph Convolutional Network (GCN) based classifier mitigates this, boosting accuracy and reducing parameter requirements. The code is available \href{https://github.com/xsgxlz/How-does-Contrastive-Learning-Organize-Images/tree/main}{here}. | 翻訳日:2023-11-23 05:13:35 公開日:2023-11-17 |
# deepfoolアルゴリズムを用いたクラス操作のためのディープニューラルネットワークの敵意攻撃の調整 Tailoring Adversarial Attacks on Deep Neural Networks for Targeted Class Manipulation Using DeepFool Algorithm ( http://arxiv.org/abs/2310.13019v3 ) ライセンス: Link先を確認 | S. M. Fazle Rabby Labib, Joyanta Jyoti Mondal, Meem Arafat Manab | (参考訳) ディープニューラルネットワーク(DNN)は、様々なドメインを著しく進化させたが、敵の攻撃に対する脆弱性は深刻な懸念を引き起こす。
これらの脆弱性を理解し、効果的な防御メカニズムを開発することは重要です。
Moosavi-Dezfooli et al. (2016)によって提案されたアルゴリズムであるDeepFoolは、入力画像を誤分類するために最小限の摂動を求める。
しかし、DeepFoolにはターゲットのアプローチがないため、特定の攻撃シナリオでは効果が低い。
また、以前の関連作品では、画像がどれだけ歪められているか、画像の品質の完全性、誤分類に対する自信レベルを考慮して、研究者は主に成功に焦点を当てている。
そこで本稿では,DeepFoolの拡張バージョンであるEnhanced Targeted DeepFoolを提案する。
実験では,画像の整合性と摂動率を極力低く保ちながら,異なる深層ニューラルネットワークアーキテクチャにおける提案手法の有効性と効率を実証した。
提案手法を用いることで,GajjarらによるTargeted DeepFool(2022)のような他のDeepFool派生作品と異なり,ターゲットクラスと関連する信頼スコアの両方を指定できるため,摂動画像を用いてモデル動作を任意に操作することができる。
その結果、深層畳み込みニューラルネットワークアーキテクチャの1つであるAlexNetと、最先端のモデルであるVision Transformerの1つは、騙されやすいことを示す。
本手法は画像認識モデルのロバスト性を明らかにするため,信頼性レベルの調整に大きく影響する可能性がある。
私たちのコードは論文の受理時に公表される。 Deep neural networks (DNNs) have significantly advanced various domains, but their vulnerability to adversarial attacks poses serious concerns. Understanding these vulnerabilities and developing effective defense mechanisms is crucial. DeepFool, an algorithm proposed by Moosavi-Dezfooli et al. (2016), finds minimal perturbations to misclassify input images. However, DeepFool lacks a targeted approach, making it less effective in specific attack scenarios. Also, in previous related works, researchers primarily focus on success, not considering how much an image is getting distorted; the integrity of the image quality, and the confidence level to misclassifying. So, in this paper, we propose Enhanced Targeted DeepFool, an augmented version of DeepFool that allows targeting specific classes for misclassification and also introduce a minimum confidence score requirement hyperparameter to enhance flexibility. Our experiments demonstrate the effectiveness and efficiency of the proposed method across different deep neural network architectures while preserving image integrity as much and perturbation rate as less as possible. By using our approach, the behavior of models can be manipulated arbitrarily using the perturbed images, as we can specify both the target class and the associated confidence score, unlike other DeepFool-derivative works, such as Targeted DeepFool by Gajjar et al. (2022). Results show that one of the deep convolutional neural network architectures, AlexNet, and one of the state-of-the-art model Vision Transformer exhibit high robustness to getting fooled. This approach can have larger implication, as our tuning of confidence level can expose the robustness of image recognition models. Our code will be made public upon acceptance of the paper. | 翻訳日:2023-11-23 04:24:24 公開日:2023-11-17 |
# 3次元乳幼児ポーズ推定のための生成前処理による効率的な領域適応 Efficient Domain Adaptation via Generative Prior for 3D Infant Pose Estimation ( http://arxiv.org/abs/2311.12043v1 ) ライセンス: Link先を確認 | Zhuoran Zhou, Zhongyu Jiang, Wenhao Chai, Cheng-Yen Yang, Lei Li, Jenq-Neng Hwang | (参考訳) 近年、人間の3Dポーズ推定は目覚ましい発展を遂げているが、骨の長さが異なり、データも限られている幼児に焦点を当てる研究はごくわずかである。
直接大人のポーズ推定モデルを適用すると、典型的には乳児領域での低パフォーマンスを達成し、分散の問題に苦しむ。
さらに、幼児のポーズデータ収集の制限は、学習に基づくモデルの効率を3Dに引き上げることにも大きく制約する。
小さなデータセットの問題に対処するために、ドメイン適応とデータ拡張は一般的に使用されるテクニックである。
このパラダイムに従い,大規模なトレーニングデータを必要としない2次元キーポイントからの3次元幼児キーポイントの予測に生成前処理を用いる最適化ベースの手法を活用した。
さらに,乳幼児のポーズに3次元のポーズを適応させ,小さなデータセットを補完する誘導拡散モデルを適用した。
また,本手法のZeDO-iは,少数のデータしか与えられなくても,効率的なドメイン適応が可能であることも証明した。
定量的には,SyRIPデータセットでは43.6mm,MINI-RGBDデータセットでは21.2mmのMPJPE性能が得られた。 Although 3D human pose estimation has gained impressive development in recent years, only a few works focus on infants, that have different bone lengths and also have limited data. Directly applying adult pose estimation models typically achieves low performance in the infant domain and suffers from out-of-distribution issues. Moreover, the limitation of infant pose data collection also heavily constrains the efficiency of learning-based models to lift 2D poses to 3D. To deal with the issues of small datasets, domain adaptation and data augmentation are commonly used techniques. Following this paradigm, we take advantage of an optimization-based method that utilizes generative priors to predict 3D infant keypoints from 2D keypoints without the need of large training data. We further apply a guided diffusion model to domain adapt 3D adult pose to infant pose to supplement small datasets. Besides, we also prove that our method, ZeDO-i, could attain efficient domain adaptation, even if only a small number of data is given. Quantitatively, we claim that our model attains state-of-the-art MPJPE performance of 43.6 mm on the SyRIP dataset and 21.2 mm on the MINI-RGBD dataset. | 翻訳日:2023-11-23 04:05:06 公開日:2023-11-17 |
# h-si(100)2x1表面におけるシリコンダングリング結合論理の原子欠陥認識物理設計 Atomic Defect-Aware Physical Design of Silicon Dangling Bond Logic on the H-Si(100)2x1 Surface ( http://arxiv.org/abs/2311.12042v1 ) ライセンス: Link先を確認 | Marcel Walter, Jeremiah Croshaw, Samuel Sze Hang Ng, Konrad Walus, Robert Wolkow, Robert Wille | (参考訳) 近年、シリコンダングリング結合の製造能力は、手作業による実験室作業から自動化製造へと急速に進歩しているが、原子精度の必要性から、サブナノメータの基板欠陥は依然として製造を妨げている。
本質的には、不動あるいは欠落した表面原子、汚染物質、構造変形は、製造された論理を妨害するか、その実現を完全に阻止する。
さらに、この領域の設計自動化技術は、現在の障害を回避するための欠陥認識の動作をまだ採用していない。
本稿では,設計自動化のための表面欠陥モデルについて,より堅牢な設計を実現するため,確立されたゲートライブラリの感度を識別するために,実験的に検証された欠陥タイプから導出する。
さらに,物理実験から得られた走査型トンネル顕微鏡データを考慮して,原子表面欠陥の存在に対して弾力性のあるドット精度回路を配置する自動配置・ルーティングアルゴリズムを提案する。
このことは、様々な欠陥率の表面データを総合的に評価することで、そのような欠陥の深刻度を定量化することができる。
荷電欠陥を完全に除去できる場合, あるいは 0.1 % 以下であれば, 製造能力は 0.1 % の欠陥率を達成する必要があると予測する。
この実現により、将来この有望な回路技術を拡大する取り組みのペースが決まる。 Although fabrication capabilities of Silicon Dangling Bonds have rapidly advanced from manual labor-driven laboratory work to automated manufacturing in just recent years, sub-nanometer substrate defects still pose a hindrance to production due to the need for atomic precision. In essence, unpassivated or missing surface atoms, contaminants, and structural deformations disturb the fabricated logic or prevent its realization altogether. Moreover, design automation techniques in this domain have not yet adopted any defect-aware behavior to circumvent the present obstacles. In this paper, we derive a surface defect model for design automation from experimentally verified defect types that we apply to identify sensitivities in an established gate library in an effort to generate more robust designs. Furthermore, we present an automatic placement and routing algorithm that considers scanning tunneling microscope data obtained from physical experiments to lay out dot-accurate circuitry that is resilient against the presence of atomic surface defects. This culminates in a holistic evaluation on surface data of varying defect rates that enables us to quantify the severity of such defects. We project that fabrication capabilities must achieve defect rates of around 0.1 %, if charged defects can be completely eliminated, or < 0.1 %, otherwise. This realization sets the pace for future efforts to scale up this promising circuit technology. | 翻訳日:2023-11-23 03:49:13 公開日:2023-11-17 |
# 低品質X線ラジオグラフィー, シミュレーションによる合成X線データ拡張, 機械学習によるアルミニウムダイカスト材料および繊維系積層板の隠れ損傷と不純物の自動検出 Automated Detection of hidden Damages and Impurities in Aluminum Die Casting Materials and Fibre-Metal Laminates using Low-quality X-ray Radiography, Synthetic X-ray Data Augmentation by Simulation, and Machine Learning ( http://arxiv.org/abs/2311.12041v1 ) ライセンス: Link先を確認 | Stefan Bosse and Dirk Lehmhus | (参考訳) ファイブ積層体(例えば、繊維金属積層体(FML))やアルミニウムダイカスト材料(例えば、アルミニウムダイカスト材料)などのモノリシック材料において、隠れた欠陥、不純物、損傷の検出と評価は依然として課題である。
本研究では,X線単射画像と多射像画像を用いた自動損傷・欠陥検出データ駆動モデリングの手法と課題について述べる。
データと機能の分散、データ特徴ラベリング(教師付き機械学習のための)、そして、欠けている基礎的真実である。
データのシミュレーションだけが、真実のデータセットと正確なラベリングを提供できることが示される。
ノイズは特徴検出に大きな影響を与え、議論される。
データ駆動型特徴検出器は、セマンティックピクセルまたはz顕著な畳み込みニューラルネットワークとLSTMオートエンコーダで実装されている。
データは、低品質かつ低コスト(低q)、中間および高品質(マイクロct、中/高q)の3つのデバイスで測定される。
本研究の目的は,合成データを用いたロバストで一般化された特徴検出器の訓練と,高レベルおよび中型実験室計測技術から現場利用技術および手法への移行である。 Detection and characterization of hidden defects, impurities, and damages in layered composites like Fibre laminates, e.g., Fibre Metal Laminates (FML), as well as in monolithic materials, e.g., aluminum die casting materials, is still a challenge. This work discusses methods and challenges in data-driven modeling of automated damage and defect detectors using X-ray single- and multi-projection (CT) images. Three main issues are identified: Data and feature variance, data feature labeling (for supervised machine learning), and the missing ground truth. It will be shown that only simulation of data can deliver a ground truth data set and accurate labeling. Noise has significant impact on the feature detection and will be discussed. Data-driven feature detectors are implemented with semantic pixel- or z-profile Convolutional Neural Networks and LSTM Auto-encoders. Data is measured with three different devices: A low-quality and low-cost (Low-Q), a mid- and a high-quality (micro-CT, Mid-/High-Q) device. The goals of this work are the training of robust and generalized feature detectors with synthetic data and the transition from High- and Mid-Q laboratory measuring technologies towards in-field usable technologies and methods. | 翻訳日:2023-11-23 03:48:50 公開日:2023-11-17 |
# TransCDR: 薬物表現のためのトランスファーラーニングとマルチモーダルデータ融合によるがん薬物応答予測の一般化性向上のためのディープラーニングモデル TransCDR: a deep learning model for enhancing the generalizability of cancer drug response prediction through transfer learning and multimodal data fusion for drug representation ( http://arxiv.org/abs/2311.12040v1 ) ライセンス: Link先を確認 | Xiaoqiong Xia, Chaoyu Zhu, Yuqi Shan, Fan Zhong, and Lei Liu | (参考訳) 正確かつ堅牢な薬物反応予測は、精密医療において最も重要である。
がん薬物応答(CDR)の予測に薬物や癌細胞株の表現を利用するために多くのモデルが開発されているが、その性能は、データモダリティの不足、準最適融合アルゴリズム、新規薬物や細胞株の一般化性の低下といった問題に対処することで改善することができる。
薬物表現の学習にトランスファーラーニング(TransCDR)を導入し,薬物および細胞株の多様性の特徴を自己認識機構により融合させ,IC50値や感受性状態を細胞株上で予測する。
我々は,CDR予測モデルの新規な複合足場および細胞株クラスタへの一般化を体系的に評価した最初の人物である。
TransCDRは8つの最先端モデルよりも優れた一般化性を示している。
TransCDRは、様々なシナリオで薬物エンコーダ(RNNやAttentiveFP)をスクラッチから訓練する5つのバリエーションより優れている。
複数の薬物表記法とオミスプロファイルの最も重要な貢献者は、拡張された接続性指紋と遺伝子変異である。
さらに、注目ベースの融合モジュールは、TransCDRの予測性能をさらに向上させる。
GDSCデータセットに基づいてトレーニングされたTransCDRは、外部テストセットCCLEに対して強力な予測性能を示す。
また、GDSC上で欠落したCDRを予測するためにも使用される。
さらに,TGA患者7,675人を薬剤感受性群,薬剤耐性群に分類し,薬物応答の基盤となる生物学的メカニズムについて検討した。
TransCDRは、薬物反応予測に大きな可能性を持つ強力なツールとして出現する。
ソースコードとデータはhttps://github.com/XiaoqiongXia/TransCDRでアクセスできる。 Accurate and robust drug response prediction is of utmost importance in precision medicine. Although many models have been developed to utilize the representations of drugs and cancer cell lines for predicting cancer drug responses (CDR), their performances can be improved by addressing issues such as insufficient data modality, suboptimal fusion algorithms, and poor generalizability for novel drugs or cell lines. We introduce TransCDR, which uses transfer learning to learn drug representations and fuses multi-modality features of drugs and cell lines by a self-attention mechanism, to predict the IC50 values or sensitive states of drugs on cell lines. We are the first to systematically evaluate the generalization of the CDR prediction model to novel (i.e., never-before-seen) compound scaffolds and cell line clusters. TransCDR shows better generalizability than 8 state-of-the-art models. TransCDR outperforms its 5 variants that train drug encoders (i.e., RNN and AttentiveFP) from scratch under various scenarios. The most critical contributors among multiple drug notations and omics profiles are Extended Connectivity Fingerprint and genetic mutation. Additionally, the attention-based fusion module further enhances the predictive performance of TransCDR. TransCDR, trained on the GDSC dataset, demonstrates strong predictive performance on the external testing set CCLE. It is also utilized to predict missing CDRs on GDSC. Moreover, we investigate the biological mechanisms underlying drug response by classifying 7,675 patients from TCGA into drug-sensitive or drug-resistant groups, followed by a Gene Set Enrichment Analysis. TransCDR emerges as a potent tool with significant potential in drug response prediction. The source code and data can be accessed at https://github.com/XiaoqiongXia/TransCDR. | 翻訳日:2023-11-23 03:48:26 公開日:2023-11-17 |
# 軌道の非教師的埋め込みは科学的移動の潜在構造を捉える Unsupervised embedding of trajectories captures the latent structure of scientific migration ( http://arxiv.org/abs/2012.02785v3 ) ライセンス: Link先を確認 | Dakota Murray, Jisung Yoon, Sadamori Kojaku, Rodrigo Costas, Woo-Sung Jung, Sta\v{s}a Milojevi\'c, Yong-Yeol Ahn | (参考訳) 人類の移住と移動は、疫病、経済、イノベーション、アイデアの拡散など、社会的な現象を引き起こす。
人類の移動と移住は歴史を通じて地理的距離によって厳しく制限されてきたが、進歩とグローバリゼーションは言語や文化などの他の要素をますます重要にしている。
元々自然言語用に設計されたニューラル埋め込みモデルの進歩は、この複雑さをテームし、移行の研究のための新しい道を開く機会を提供する。
本稿では,モデル word2vec が移動軌跡から離散的位置間のニュアンス関係をエンコードし,精度,高密度,連続的,有意義なベクトル空間表現を生成する能力を示す。
結果として得られる表現は、ロケーション間の機能的な距離と、分散、再使用、およびそれ自体が、マイグレーションのさまざまな次元を理解するために尋問されるデジタルダブルを提供する。
移動パターンをエンコードするword2vecのユニークな力は、移動の重力モデルと数学的に同値であることを示している。
科学的な移動の事例に焦点を当てて、word2vec を出版記録に記載されたアフィリエイトから派生した科学者の300万の移動軌跡のデータベースに適用する。
セマンティック構造を利用する手法を用いて, 埋め込みは, 文化的, 言語的, 権威的な関係を, さまざまなレベルの粒度で学習することができることを示す。
本研究は, 科学内外の移動を表現・理解するために, ニューラルネットワークを用いた理論的基礎と方法論的枠組みを提供する。 Human migration and mobility drives major societal phenomena including epidemics, economies, innovation, and the diffusion of ideas. Although human mobility and migration have been heavily constrained by geographic distance throughout the history, advances and globalization are making other factors such as language and culture increasingly more important. Advances in neural embedding models, originally designed for natural language, provide an opportunity to tame this complexity and open new avenues for the study of migration. Here, we demonstrate the ability of the model word2vec to encode nuanced relationships between discrete locations from migration trajectories, producing an accurate, dense, continuous, and meaningful vector-space representation. The resulting representation provides a functional distance between locations, as well as a digital double that can be distributed, re-used, and itself interrogated to understand the many dimensions of migration. We show that the unique power of word2vec to encode migration patterns stems from its mathematical equivalence with the gravity model of mobility. Focusing on the case of scientific migration, we apply word2vec to a database of three million migration trajectories of scientists derived from the affiliations listed on their publication records. Using techniques that leverage its semantic structure, we demonstrate that embeddings can learn the rich structure that underpins scientific migration, such as cultural, linguistic, and prestige relationships at multiple levels of granularity. Our results provide a theoretical foundation and methodological framework for using neural embeddings to represent and understand migration both within and beyond science. | 翻訳日:2023-11-22 21:37:11 公開日:2023-11-17 |
# 共同創設者数を分散させたニューラルネットワークを用いた一般治療効果の因果的推論 Causal Inference of General Treatment Effects using Neural Networks with A Diverging Number of Confounders ( http://arxiv.org/abs/2009.07055v7 ) ライセンス: Link先を確認 | Xiaohong Chen, Ying Liu, Shujie Ma, Zheng Zhang | (参考訳) 量的治療効果を含む様々な多値因果効果の半パラメトリックな効率的な推定は、経済、生物医学、その他の社会科学において重要である。
不確定性条件下では、共同設立者の調整には、非パラメトリックに共同設立者に対する結果または治療に関連する迷惑機能の推定が必要である。
本稿では,ニューラルネットワーク(ANN)を用いた一般的な治療効果の効率的な評価のための一般化された最適化手法について考察する。
本研究では, anns の混合平滑性クラスに属するニュアサンス関数に対する新しい近似誤差を,既知のスパルシリティ構造を伴わずに確立する。
この状況下で、ANNは「次元の曲線」を緩和できることを示す。
提案した一般処理効果推定器のルート$n$整合性と漸近正規性を確立し,重み付きブートストラップ法を適用して推論を行う。
提案手法はシミュレーション研究と実データ応用によって示される。 Semiparametric efficient estimation of various multi-valued causal effects, including quantile treatment effects, is important in economic, biomedical, and other social sciences. Under the unconfoundedness condition, adjustment for confounders requires estimating the nuisance functions relating outcome or treatment to confounders nonparametrically. This paper considers a generalized optimization framework for efficient estimation of general treatment effects using artificial neural networks (ANNs) to approximate the unknown nuisance function of growing-dimensional confounders. We establish a new approximation error bound for the ANNs to the nuisance function belonging to a mixed smoothness class without a known sparsity structure. We show that the ANNs can alleviate the "curse of dimensionality" under this circumstance. We establish the root-$n$ consistency and asymptotic normality of the proposed general treatment effects estimators, and apply a weighted bootstrap procedure for conducting inference. The proposed methods are illustrated via simulation studies and a real data application. | 翻訳日:2023-11-22 21:36:08 公開日:2023-11-17 |
# リッジ関数推定のための良性過剰フィッティング現象の有限サンプル解析 A finite sample analysis of the benign overfitting phenomenon for ridge function estimation ( http://arxiv.org/abs/2007.12882v4 ) ライセンス: Link先を確認 | Emmanuel Caron and Stephane Chretien | (参考訳) 近年、機械学習における大規模な数値実験により、サンプルサイズとモデルのパラメータ数との比の関数として、非常に直観的な位相遷移が明らかになった。
パラメータ数$p$がサンプルサイズ$n$に近づくと、一般化エラーは増加するが、驚くべきことに、閾値$p=n$を越えて再び減少し始める。
This phenomenon, brought to the theoretical community attention in \cite{belkin2019reconciling}, has been thoroughly investigated lately, more specifically for simpler models than deep neural networks, such as the linear model when the parameter is taken to be the minimum norm solution to the least-squares problem, firstly in the asymptotic regime when $p$ and $n$ tend to infinity, see e.g. \cite{hastie2019surprises}, and recently in the finite dimensional regime and more specifically for linear models \cite{bartlett2020benign}, \cite{tsigler2020benign}, \cite{lecue2022geometrical}.
そこで,本論文では,2重降下現象の「textit{overparametrised regime}」と「textit{prediction}」の両問題に対する「textit{overparametrised regime}」の非線形モデルの有限サンプル解析を提案する。
この結果は、真パラメータから最適推定器の距離を正確に解析し、また、近年の \cite{bartlett2020benign} と \cite{chinot2020benign} を補完する一般化境界を与える。
我々の分析は、連続ニュートン法であるcite{neuberger2007continuous} と、最小$$\ell_2$-normの解の予測における性能の精密な定量的解析に基づく。 Recent extensive numerical experiments in high scale machine learning have allowed to uncover a quite counterintuitive phase transition, as a function of the ratio between the sample size and the number of parameters in the model. As the number of parameters $p$ approaches the sample size $n$, the generalisation error increases, but surprisingly, it starts decreasing again past the threshold $p=n$. This phenomenon, brought to the theoretical community attention in \cite{belkin2019reconciling}, has been thoroughly investigated lately, more specifically for simpler models than deep neural networks, such as the linear model when the parameter is taken to be the minimum norm solution to the least-squares problem, firstly in the asymptotic regime when $p$ and $n$ tend to infinity, see e.g. \cite{hastie2019surprises}, and recently in the finite dimensional regime and more specifically for linear models \cite{bartlett2020benign}, \cite{tsigler2020benign}, \cite{lecue2022geometrical}. In the present paper, we propose a finite sample analysis of non-linear models of \textit{ridge} type, where we investigate the \textit{overparametrised regime} of the double descent phenomenon for both the \textit{estimation problem} and the \textit{prediction} problem. Our results provide a precise analysis of the distance of the best estimator from the true parameter as well as a generalisation bound which complements recent works of \cite{bartlett2020benign} and \cite{chinot2020benign}. Our analysis is based on tools closely related to the continuous Newton method \cite{neuberger2007continuous} and a refined quantitative analysis of the performance in prediction of the minimum $\ell_2$-norm solution. | 翻訳日:2023-11-22 21:35:53 公開日:2023-11-17 |
# パルス駆動バイブロニック多体絡み合わせによるN$成分ナノシステムのエネルギー移動 Energy transfer in $N$-component nanosystems enhanced by pulse-driven vibronic many-body entanglement ( http://arxiv.org/abs/1708.03624v2 ) ライセンス: Link先を確認 | Fernando J. G\'omez-Ruiz, Oscar L. Acevedo, Ferney J. Rodr\'iguez, Luis Quiroga and Neil F. Johnson | (参考訳) 移動と再分配によるエネルギーの処理は、力学系の進化に重要な役割を果たしている。
超小型で超高速のナノシステムでは、量子コヒーレンスも原理的に重要な役割を果たし、多くのパルス駆動ナノシステム(量子ドットや顕微鏡的光ハーヴェスティング複合体II(LHC-II)集合体)で報告されている。
典型的な理論解析は、これらの一般的なn$コンポーネントナノシステムを記述するために容易にスケールできない;パルスを動的に扱うのではなく、メモリ効果を近似する。
ここで、我々の目標は、これらの近似を超えて新しい物理学がどうなるかを明らかにすることである。
我々は、パルスの時間依存性がハミルトニアンに明示的に含まれるように、意図的に最小限のモデルを採用する。
この単純なモデルは複雑なダイナミクスを生成する:具体的には、中間周期のパルスは、複数の励起子、すなわちエネルギーを最大に系内に拡散する高度に絡み合った振動子状態を生成する。
その後のパルスはそのような絡み合った状態に作用し、エネルギー捕獲を効率的に行う。
パルス生成ビブロニックの絡み合いは、N$が増加するにつれて強度とロバスト性を増加させる。 The processing of energy by transfer and redistribution plays a key role in the evolution of dynamical systems. At the ultrasmall and ultrafast scale of nanosystems, quantum coherence could in principle also play a role and has been reported in many pulse-driven nanosystems (e.g. quantum dots and even the microscopic Light-Harvesting Complex II (LHC-II) aggregate). Typical theoretical analyses cannot easily be scaled to describe these general $N$-component nanosystems; they do not treat the pulse dynamically; and they approximate memory effects. Here our aim is to shed light on what new physics might arise beyond these approximations. We adopt a purposely minimal model such that the time-dependence of the pulse is included explicitly in the Hamiltonian. This simple model generates complex dynamics: specifically, pulses of intermediate duration generate highly entangled vibronic (i.e. electronic-vibrational) states that spread multiple excitons -- and hence energy -- maximally within the system. Subsequent pulses can then act on such entangled states to efficiently channel subsequent energy capture. The underlying pulse-generated vibronic entanglement increases in strength and robustness as $N$ increases. | 翻訳日:2023-11-22 21:35:11 公開日:2023-11-17 |
# 構造化予測問題アーカイブ Structured Prediction Problem Archive ( http://arxiv.org/abs/2202.03574v5 ) ライセンス: Link先を確認 | Paul Swoboda, Bjoern Andres, Andrea Hornakova, Florian Bernard, Jannik Irmai, Paul Roetzer, Bogdan Savchynskyy, David Stein, Ahmed Abbas | (参考訳) 構造化予測問題は、機械学習の基本的なツールの1つである。
数値解のアルゴリズム開発を容易にするために,多数のデータセットを多種多様な問題クラスに対して読みやすい形式で一箇所に集める。
データセットへのアーカイブリンク、考慮された問題と問題フォーマットの説明、サイズ、インスタンス数などの問題特性の簡単な要約を提供する。
参考までに、論文で提案されているアルゴリズムの非排他的選択も提案する。
この中央リポジトリによって、確立した作業に対するベンチマークや比較がより簡単になることを期待しています。
アーカイブに含まれる興味深い新しいデータセットとアルゴリズムの提出を歓迎します。 Structured prediction problems are one of the fundamental tools in machine learning. In order to facilitate algorithm development for their numerical solution, we collect in one place a large number of datasets in easy to read formats for a diverse set of problem classes. We provide archival links to datasets, description of the considered problems and problem formats, and a short summary of problem characteristics including size, number of instances etc. For reference we also give a non-exhaustive selection of algorithms proposed in the literature for their solution. We hope that this central repository will make benchmarking and comparison to established works easier. We welcome submission of interesting new datasets and algorithms for inclusion in our archive. | 翻訳日:2023-11-22 21:28:28 公開日:2023-11-17 |
# 言語のダークサイド:ダークネットで事前訓練されたトランスフォーマー The Dark Side of the Language: Pre-trained Transformers in the DarkNet ( http://arxiv.org/abs/2201.05613v3 ) ライセンス: Link先を確認 | Leonardo Ranaldi, Aria Nourbakhsh, Arianna Patrizi, Elena Sofia Ruzzetti, Dario Onorati, Francesca Fallucchi, Fabio Massimo Zanzotto | (参考訳) 事前訓練されたトランスフォーマーは多くのNLPタスクにおいて人間のパフォーマンスに挑戦する。
事前トレーニングに使用される膨大なデータセットは、既存のタスクの成功の鍵であるようだ。
本稿では,DarkNetコーパス上の分類タスクによって提供される不明瞭な文に対して,事前学習した自然言語理解モデルがどのように機能するかを検討する。
驚くべきことに、構文的および語彙的ニューラルネットワークは、微調整後も事前訓練されたトランスフォーマーと同等の性能を発揮する。
つまり、すべての新しいコーパスにおいて、マスク付き言語モデルタスクで再トレーニングすることで、事前トレーニングされたトランスフォーマーは、標準の高い結果を得ることができます。
これは、大量の事前学習コーパスがトランスフォーマーに予期せぬ助けを与える可能性があることを示唆している。 Pre-trained Transformers are challenging human performances in many NLP tasks. The massive datasets used for pre-training seem to be the key to their success on existing tasks. In this paper, we explore how a range of pre-trained Natural Language Understanding models perform on definitely unseen sentences provided by classification tasks over a DarkNet corpus. Surprisingly, results show that syntactic and lexical neural networks perform on par with pre-trained Transformers even after fine-tuning. Only after what we call extreme domain adaptation, that is, retraining with the masked language model task on all the novel corpus, pre-trained Transformers reach their standard high results. This suggests that huge pre-training corpora may give Transformers unexpected help since they are exposed to many of the possible sentences. | 翻訳日:2023-11-22 21:27:58 公開日:2023-11-17 |
# zero-constraint 違反によるconcaveユーティリティ強化学習 Concave Utility Reinforcement Learning with Zero-Constraint Violations ( http://arxiv.org/abs/2109.05439v3 ) ライセンス: Link先を確認 | Mridul Agarwal, Qinbo Bai, Vaneet Aggarwal | (参考訳) 凸制約付きCURL(Tabular infinite horizon concave utility reinforcement Learning)の問題点を考察する。
そこで本研究では,制約違反ゼロを実現するモデルベース学習アルゴリズムを提案する。
凸目標と凸制約が、実現可能な職業措置のセットの内部に解を持つと仮定すると、不正確なモデル知識とモデル確率性にもかかわらず、制約が決して破られないように、より厳密な最適化問題を解く。
我々は、確率的ポリシーを解析できる表形式の無限水平設定にベルマン誤差に基づく解析を用いる。
ベルマン誤差に基づく解析とより厳密な最適化方程式を組み合わせることで、環境との相互作用を$T$とすることで、他の要因を除いて$\Tilde{O}(1/\sqrt{T})$として成長する目的に対する高い確率的後悔保証が得られる。
提案手法は, 楽観的アルゴリズムに適用して高い確率的後悔境界を得ることができ, 後方サンプリングアルゴリズムではゆるいベイズ的後悔境界を得ることができるが, 計算複雑性は大幅に向上する。 We consider the problem of tabular infinite horizon concave utility reinforcement learning (CURL) with convex constraints. For this, we propose a model-based learning algorithm that also achieves zero constraint violations. Assuming that the concave objective and the convex constraints have a solution interior to the set of feasible occupation measures, we solve a tighter optimization problem to ensure that the constraints are never violated despite the imprecise model knowledge and model stochasticity. We use Bellman error-based analysis for tabular infinite-horizon setups which allows analyzing stochastic policies. Combining the Bellman error-based analysis and tighter optimization equation, for $T$ interactions with the environment, we obtain a high-probability regret guarantee for objective which grows as $\Tilde{O}(1/\sqrt{T})$, excluding other factors. The proposed method can be applied for optimistic algorithms to obtain high-probability regret bounds and also be used for posterior sampling algorithms to obtain a loose Bayesian regret bounds but with significant improvement in computational complexity. | 翻訳日:2023-11-22 21:26:03 公開日:2023-11-17 |
# ブール比 Boolean proportions ( http://arxiv.org/abs/2109.00388v5 ) ライセンス: Link先を確認 | Christian Anti\'c | (参考訳) 著者は最近、普遍代数学の一般設定の中で類比例の抽象的代数的枠組みを導入した。
本稿では,2つの元素0と1からなるブール領域の類似比について検討する。
私たちのブール比例の概念は、異なる設定の文学の2つの顕著なモデルと一致することがわかりました。
これは、数学的に魅力的であり、その堅牢性と適用性に関するさらなる証拠を提供する単一のフレームワーク内で、ブール比の2つの別々のモデリングをキャプチャできることを意味する。 The author has recently introduced an abstract algebraic framework of analogical proportions within the general setting of universal algebra. This paper studies analogical proportions in the boolean domain consisting of two elements 0 and 1 within his framework. It turns out that our notion of boolean proportions coincides with two prominent models from the literature in different settings. This means that we can capture two separate modellings of boolean proportions within a single framework which is mathematically appealing and provides further evidence for its robustness and applicability. | 翻訳日:2023-11-22 21:25:40 公開日:2023-11-17 |
# テストケースの多様化と故障確率推定を用いたテストケース優先順位付け Test case prioritization using test case diversification and fault-proneness estimations ( http://arxiv.org/abs/2106.10524v3 ) ライセンス: Link先を確認 | Mostafa Mahdieh, Seyed-Hassan Mirian-Hosseinabadi, Mohsen Mahdieh | (参考訳) 回帰テスト活動は、ソフトウェアリリースの不具合のリスクを大幅に低減します。
しかし、テストスイートのサイズは開発プロセス全体を通して増加し、結果としてテストスイートの実行に時間がかかり、ソフトウェア開発チームへのフィードバックが遅れます。
これにより、限られたリソースの場合により良い結果を得るために、テストケース優先順位付け(TCP)やテストスイート削減といったアプローチの必要性が高まっている。
この点に関して、バグ履歴のような補助的なデータソースを使用するアプローチの提案は興味深い。
本稿では,テストケースカバレッジデータ,バグ履歴,テストケースの多様化を考慮したTCPのアプローチを提案する。
このアプローチを評価するために,実世界のオープンソースプロジェクトのパフォーマンスについて検討する。
バグ履歴は、ソースコード領域の欠点を推定するために使われる。
クラスタリングに基づくアプローチスキームにフォールト・プレネネスを組み込むことにより,テストケースの多様化が維持される。
提案手法は,357バージョンを含む5つの実世界のプロジェクトの開発履歴から収集したデータセットに基づいて評価する。
実験の結果,提案手法はカバレッジに基づくTCP方式よりも優れていることがわかった。
提案手法は,多変量化とフォールト・プロネネスの併用により,カバレッジベースとフォールト・プロネネスに基づく手法の改善が可能であることを示す。 Regression testing activities greatly reduce the risk of faulty software release. However, the size of the test suites grows throughout the development process, resulting in time-consuming execution of the test suite and delayed feedback to the software development team. This has urged the need for approaches such as test case prioritization (TCP) and test-suite reduction to reach better results in case of limited resources. In this regard, proposing approaches that use auxiliary sources of data such as bug history can be interesting. We aim to propose an approach for TCP that takes into account test case coverage data, bug history, and test case diversification. To evaluate this approach we study its performance on real-world open-source projects. The bug history is used to estimate the fault-proneness of source code areas. The diversification of test cases is preserved by incorporating fault-proneness on a clustering-based approach scheme. The proposed methods are evaluated on datasets collected from the development history of five real-world projects including 357 versions in total. The experiments show that the proposed methods are superior to coverage-based TCP methods. The proposed approach shows that improvement of coverage-based and fault-proneness-based methods is possible by using a combination of diversification and fault-proneness incorporation. | 翻訳日:2023-11-22 21:24:41 公開日:2023-11-17 |
# 低誤差拡散特性を持つ普遍量子計算法 An universal quantum computation scheme with low error diffusion property ( http://arxiv.org/abs/2105.07133v7 ) ライセンス: Link先を確認 | Chen Lin, Guowu Yang, Xiaoyu Song, Marek. A. Perkowski, Xiaoyu Li | (参考訳) 量子結合コードはフォールトトレラントなユニバーサル量子コンピューティングを実現する効果的な方法である。
それでも、ローエンコーディングレベルには多くの非フォールトトレラントな論理的位置があり、これによりエラー乗算の確率が増加し、そのようなコードが高忠実なユニバーサルゲートライブラリを実現する能力を制限する。
本研究では,セグメント化されたフォールトトレラント量子回路のデコーダ設計のための機械学習技術に基づく汎用フレームワークを提案する。
そして、この設計原則に従って、ニューラルネットワークアルゴリズムを採用し、その回路に最適化されたデコーダを与える。
新たなデコーダの有効性を評価するため,Steane 7-qubit論理量子ビットとReed-Muller 15-qubit論理量子ビットからなるテンソルに作用するセグメント化フォールトトレラント論理制御NOTゲートに適用した。
減極雑音環境下でこれらのゲートをシミュレートし、最小ウェイトデコーダと比較してゲート誤差閾値を比較する。
最後に,33ビットの非一様連結符号に基づく耐故障ユニバーサルゲートライブラリを提供する。
さらに、この符号上に非クリフォードゲートを構築するために、最適化されたデコーダを備えたレベル-1セグメントの耐故障性ロケーションをいくつか提供します。
一方,本コードの普遍的スキームの疑似スレッショルドを解析した。 Quantum concatenation code is an effective way to realize fault-tolerant universal quantum computing. Still, there are many non-fault-tolerant logical locations at its low encoding level, which thereby increases the probability of error multiplication and limits the ability that such code to realize a high-fidelity universal gate library. In this work, we propose a general framework based on machine learning technology for the decoder design of a segmented fault-tolerant quantum circuit. Then following this design principle, we adopt the neural network algorithm to give an optimized decoder for the such circuit. To assess the effectiveness of our new decoder, we apply it to the segmented fault-tolerant logical controlled-NOT gates, which act on the tensor composed of the Steane 7-qubit logical qubit and the Reed-Muller 15-qubit logical qubit. We simulate these gates under depolarizing noise environment and compare the gate error thresholds in contrast to the minimal-weight decoder. Finally, we provide a fault-tolerant universal gate library based on a 33-qubit non-uniform concatenated code. Furthermore, we offer several level-1 segmented fault-tolerant locations with optimized decoders to construct a non-Clifford gate on this code, which has less circuit depth than our existing work. Meanwhile, we analyze the pseudo-threshold of the universal scheme of this code. | 翻訳日:2023-11-22 21:24:22 公開日:2023-11-17 |
# 読者の推測:Commonsense Reasoningによる自動ストーリー生成の指導 Inferring the Reader: Guiding Automated Story Generation with Commonsense Reasoning ( http://arxiv.org/abs/2105.01311v3 ) ライセンス: Link先を確認 | Xiangyu Peng, Siyan Li, Sarah Wiegreffe, Mark Riedl | (参考訳) トランスフォーマティブな言語モデルによる自動ストーリー生成アプローチは現在、最先端の結果を提供している。
しかし、物語を時間とともに生み出す際にもプロットの不整合に悩まされ、基本的な常識的推論が欠如している。
さらに、既存のメソッドは一般的にシングルキャラクタストーリーにのみフォーカスするか、文字の追跡に失敗する。
生成した物語のコヒーレンスを改善し,キャラクタ中心の物語生成の範囲を広げるために,複数のキャラクタ間の相互作用をモデル化するオプションを備えた,コモンセンス推論強化ニューラルストーリーテリング(CAST)を導入する。
我々のCAST手法は3つのストーリーテリング領域における1文字と2文字の両方の既存のモデルよりも、一貫性があり、オントピー的、楽しむことができる。 Transformer-based language model approaches to automated story generation currently provide state-of-the-art results. However, they still suffer from plot incoherence when generating narratives over time, and critically lack basic commonsense reasoning. Furthermore, existing methods generally focus only on single-character stories, or fail to track characters at all. To improve the coherence of generated narratives and to expand the scope of character-centric narrative generation, we introduce Commonsense-inference Augmented neural StoryTelling (CAST), a framework for introducing commonsense reasoning into the generation process with the option to model the interaction between multiple characters. We find that our CAST method produces significantly more coherent, on-topic, enjoyable and fluent stories than existing models in both the single-character and two-character settings in three storytelling domains. | 翻訳日:2023-11-22 21:24:00 公開日:2023-11-17 |
# 広帯域音声波形評価ネットワーク : 効率的・高精度な音声品質推定 Wideband Audio Waveform Evaluation Networks: Efficient, Accurate Estimation of Speech Qualities ( http://arxiv.org/abs/2206.13272v2 ) ライセンス: Link先を確認 | Andrew Catellier and Stephen Voran | (参考訳) 広帯域オーディオ波形評価ネットワーク (wawenets) は、広帯域オーディオ波形を直接操作し、それらの波形の評価を生成する畳み込みニューラルネットワークである。
本研究では,これらの評価により,電気通信音声の品質(例えば,ノイズ,不明瞭性,全体的な音声品質)が提供される。
WAWEnetは、評価する波形の ''reference' (オリジナルまたは非歪)' バージョンを必要としないため、参照ネットワークではない。
我々の最初のWAWEnetは4つのWAWEnetを導入し、それぞれが確立された完全参照音声品質またはインテリジェンス推定アルゴリズムの出力をエミュレートした。
我々はWAWEnetアーキテクチャをより効率的かつ効果的に更新した。
ここでは、7つの異なる品質とインテリジェンス値を密に追跡する単一のWAWEnetを示す。
4つの主観的音声品質の次元を追跡する第2のネットワークを構築する。
私たちは、主観的品質スコアのみに焦点を当て、非常に高いレベルの合意を達成する第3のネットワークを提供します。
この研究は13言語で334時間のスピーチ、200万以上の完全な参照目標値、93,000以上の主観的平均評価スコアを活用している。
また、WAWEnetの動作を解釈し、信号処理の言語を用いてその動作の鍵を識別する:ReLUは、スペクトル情報をDC成分からDC成分へ戦略的に移動させる。
96の出力信号の直流値は96-Dの潜在空間におけるベクトルを定義し、このベクトルを入力波形の品質または可視値にマッピングする。 Wideband Audio Waveform Evaluation Networks (WAWEnets) are convolutional neural networks that operate directly on wideband audio waveforms in order to produce evaluations of those waveforms. In the present work these evaluations give qualities of telecommunications speech (e.g., noisiness, intelligibility, overall speech quality). WAWEnets are no-reference networks because they do not require ``reference'' (original or undistorted) versions of the waveforms they evaluate. Our initial WAWEnet publication introduced four WAWEnets and each emulated the output of an established full-reference speech quality or intelligibility estimation algorithm. We have updated the WAWEnet architecture to be more efficient and effective. Here we present a single WAWEnet that closely tracks seven different quality and intelligibility values. We create a second network that additionally tracks four subjective speech quality dimensions. We offer a third network that focuses on just subjective quality scores and achieves very high levels of agreement. This work has leveraged 334 hours of speech in 13 languages, over two million full-reference target values and over 93,000 subjective mean opinion scores. We also interpret the operation of WAWEnets and identify the key to their operation using the language of signal processing: ReLUs strategically move spectral information from non-DC components into the DC component. The DC values of 96 output signals define a vector in a 96-D latent space and this vector is then mapped to a quality or intelligibility value for the input waveform. | 翻訳日:2023-11-22 21:16:41 公開日:2023-11-17 |
# 離散選択のためのグラフベース手法 Graph-Based Methods for Discrete Choice ( http://arxiv.org/abs/2205.11365v2 ) ライセンス: Link先を確認 | Kiran Tomlinson and Austin R. Benson | (参考訳) 個人による選択は、例えば、投票する政治候補者を選ぶか、共有するソーシャルメディア投稿を選ぶか、購入するブランドを選ぶか、など、幅広い影響を与える。
離散選択モデルは、そのようなデータから個人の好みを学ぶための重要なツールである。
さらに、適合性や伝染などの社会的要因は個人の選択に影響を及ぼす。
これらの要素を選択モデルに組み込む伝統的な方法は、ソーシャルネットワーク全体を考慮せず、手作りの機能を必要とする。
これらの制限を克服するために、ネットワーク化されたコンテキストにおける選択を研究するためにグラフ学習を使う。
グラフ学習手法を離散的選択に使用できる3つの方法を明らかにする: 学習選択者表現、選択モデルパラメータの規則化、ネットワークから直接予測を構築する。
それぞれのカテゴリでメソッドを設計し、実際の選択データセットでそれらをテストします。
ソーシャルネットワーク構造を組み込むことで、標準的な計量的選択モデルであるマルチノミアルロジットの予測を改善することができることを示す。
アプリのインストールはソーシャルなコンテキストに影響されているという証拠を提供するが、同じ参加者の間でアプリの利用にそのような影響はない。
選挙データでは、典型的なアプローチである分類や回帰よりも、個別選択フレームワークが提供する追加の洞察を強調する。
合成データでは,選択モデルでソーシャル情報を利用する場合の複雑さの利点を示す。 Choices made by individuals have widespread impacts--for instance, people choose between political candidates to vote for, between social media posts to share, and between brands to purchase--moreover, data on these choices are increasingly abundant. Discrete choice models are a key tool for learning individual preferences from such data. Additionally, social factors like conformity and contagion influence individual choice. Traditional methods for incorporating these factors into choice models do not account for the entire social network and require hand-crafted features. To overcome these limitations, we use graph learning to study choice in networked contexts. We identify three ways in which graph learning techniques can be used for discrete choice: learning chooser representations, regularizing choice model parameters, and directly constructing predictions from a network. We design methods in each category and test them on real-world choice datasets, including county-level 2016 US election results and Android app installation and usage data. We show that incorporating social network structure can improve the predictions of the standard econometric choice model, the multinomial logit. We provide evidence that app installations are influenced by social context, but we find no such effect on app usage among the same participants, which instead is habit-driven. In the election data, we highlight the additional insights a discrete choice framework provides over classification or regression, the typical approaches. On synthetic data, we demonstrate the sample complexity benefit of using social information in choice models. | 翻訳日:2023-11-22 21:14:41 公開日:2023-11-17 |
# 2ケロンサプライチェーンにおける深層強化学習アルゴリズムの比較 Comparing Deep Reinforcement Learning Algorithms in Two-Echelon Supply Chains ( http://arxiv.org/abs/2204.09603v3 ) ライセンス: Link先を確認 | Francesco Stranieri and Fabio Stella | (参考訳) 本研究では,サプライチェーン在庫管理問題を解決するための最先端深層強化学習アルゴリズムの性能を分析し,比較する。
この複雑なシーケンシャルな意思決定問題は、所定の時間軸で異なる倉庫で生産・出荷される製品の最適な量を決定することである。
特に,確率的および季節的な需要を伴う2ケロンサプライチェーン環境を数学的に定式化し,任意の数の倉庫や製品の種類を管理する。
数値実験により,様々なサプライチェーン構造,トポロジ,要求,能力,コストの異なる深層強化学習アルゴリズムの性能を比較した。
実験計画の結果は, 静的 (s, Q) 政治など従来の在庫管理戦略よりも深い強化学習アルゴリズムが優れていることを示している。
さらに,多種多様なデータ駆動アプローチを用いてサプライチェーン在庫管理問題を解決するためのカスタマイズ可能な環境を提供する,オープンソースソフトウェアライブラリの設計と開発に関する詳細な知見を提供する。 In this study, we analyze and compare the performance of state-of-the-art deep reinforcement learning algorithms for solving the supply chain inventory management problem. This complex sequential decision-making problem consists of determining the optimal quantity of products to be produced and shipped across different warehouses over a given time horizon. In particular, we present a mathematical formulation of a two-echelon supply chain environment with stochastic and seasonal demand, which allows managing an arbitrary number of warehouses and product types. Through a rich set of numerical experiments, we compare the performance of different deep reinforcement learning algorithms under various supply chain structures, topologies, demands, capacities, and costs. The results of the experimental plan indicate that deep reinforcement learning algorithms outperform traditional inventory management strategies, such as the static (s, Q)-policy. Furthermore, this study provides detailed insight into the design and development of an open-source software library that provides a customizable environment for solving the supply chain inventory management problem using a wide range of data-driven approaches. | 翻訳日:2023-11-22 21:13:27 公開日:2023-11-17 |
# クエリ理解のためのグラフ強化BERT Graph Enhanced BERT for Query Understanding ( http://arxiv.org/abs/2204.06522v2 ) ライセンス: Link先を確認 | Juanhui Li, Yao Ma, Wei Zeng, Suqi Cheng, Jiliang Tang, Shuaiqiang Wang, Dawei Yin | (参考訳) クエリ理解は、ユーザの検索意図を探求し、ユーザが最も望ましい情報を見つけるのを促進する上で、重要な役割を果たす。
しかし、短大であいまいなクエリから意味情報を取り込む必要があり、タスク固有のラベル付きデータを必要とすることが多いため、本質的に困難である。
近年,PLM(Pre-trained Language Model)は,大規模コーパスから一般的な意味情報を抽出できるため,様々な自然言語処理タスクを進歩させている。
したがって、問合せ理解に PLM を採用する前例のない機会がある。
しかし、クエリ理解の目的と既存の事前学習戦略との間にはギャップがある - クエリ理解の目標は検索性能の向上であり、既存の戦略はこの目標をほとんど考慮しない。
したがって、クエリ理解に直接適用することは最適ではない。
一方、検索ログには、クエリ間のユーザークリックと、コンテンツを超えたクエリに関するリッチなユーザの検索行動情報を提供するurlが含まれている。
そこで本稿では,検索ログを探索することで,このギャップを埋めることを目的とする。
特に,検索ログを事前学習に組み込むために,まずノードがクエリであるクエリグラフを構築し,同じURLをクリックした場合に2つのクエリが接続される。
次に,クエリコンテンツとクエリグラフの両方を活用可能な,グラフ強化事前学習フレームワークGE-BERTを提案する。
言い換えれば、GE-BERTはクエリのセマンティック情報とユーザの行動情報の両方をキャプチャできる。
様々な問合せ理解タスクに関する大規模な実験により,提案手法の有効性が示された。 Query understanding plays a key role in exploring users' search intents and facilitating users to locate their most desired information. However, it is inherently challenging since it needs to capture semantic information from short and ambiguous queries and often requires massive task-specific labeled data. In recent years, pre-trained language models (PLMs) have advanced various natural language processing tasks because they can extract general semantic information from large-scale corpora. Therefore, there are unprecedented opportunities to adopt PLMs for query understanding. However, there is a gap between the goal of query understanding and existing pre-training strategies -- the goal of query understanding is to boost search performance while existing strategies rarely consider this goal. Thus, directly applying them to query understanding is sub-optimal. On the other hand, search logs contain user clicks between queries and urls that provide rich users' search behavioral information on queries beyond their content. Therefore, in this paper, we aim to fill this gap by exploring search logs. In particular, to incorporate search logs into pre-training, we first construct a query graph where nodes are queries and two queries are connected if they lead to clicks on the same urls. Then we propose a novel graph-enhanced pre-training framework, GE-BERT, which can leverage both query content and the query graph. In other words, GE-BERT can capture both the semantic information and the users' search behavioral information of queries. Extensive experiments on various query understanding tasks have demonstrated the effectiveness of the proposed framework. | 翻訳日:2023-11-22 21:12:21 公開日:2023-11-17 |
# 知らないことを言うな - ビームサーチの制約による抽象的な要約の一貫性の向上 Don't Say What You Don't Know: Improving the Consistency of Abstractive Summarization by Constraining Beam Search ( http://arxiv.org/abs/2203.08436v2 ) ライセンス: Link先を確認 | Daniel King, Zejiang Shen, Nishant Subramani, Daniel S. Weld, Iz Beltagy, Doug Downey | (参考訳) 抽象的要約システムは、今日では、フルーエントで関連する出力を生成するが、しばしばソーステキストでサポートされていないステートメントを「幻覚」する。
本研究は,幻覚とトレーニングデータの関連性を解析し,学習対象の要約を学習した結果,モデルが幻覚する証拠を見出した。
そこで本研究では,ビーム探索を制約して幻覚を回避し,トランスベース抽象要約器の一貫性を向上させる新しい復号法であるpinocchioを提案する。
モデル状態と出力が与えられたステップで与えられた場合、PINOCCHIOはソーステキストへの様々な帰属度に基づいてモデル幻覚を検出する。
PINOCCHIOは、より一貫性のある出力を見つけるためにバックトラックを作成し、一貫性のある生成が見つからない場合、サマリをまったく生成しない。
実験の結果、PINOCCHIOは2つの抽象的な要約データセットに対して平均67%の差で生成の整合性(F1)を向上させることがわかった。 Abstractive summarization systems today produce fluent and relevant output, but often "hallucinate" statements not supported by the source text. We analyze the connection between hallucinations and training data, and find evidence that models hallucinate because they train on target summaries that are unsupported by the source. Based on our findings, we present PINOCCHIO, a new decoding method that improves the consistency of a transformer-based abstractive summarizer by constraining beam search to avoid hallucinations. Given the model states and outputs at a given step, PINOCCHIO detects likely model hallucinations based on various measures of attribution to the source text. PINOCCHIO backtracks to find more consistent output, and can opt to produce no summary at all when no consistent generation can be found. In experiments, we find that PINOCCHIO improves the consistency of generation (in terms of F1) by an average of~67% on two abstractive summarization datasets. | 翻訳日:2023-11-22 21:11:56 公開日:2023-11-17 |
# マルチスケール非定常因果構造学習 Learning Multiscale Non-stationary Causal Structures ( http://arxiv.org/abs/2208.14989v2 ) ライセンス: Link先を確認 | Gabriele D'Acunto, Gianmarco De Francisci Morales, Paolo Bajardi and Francesco Bonchi | (参考訳) 本稿では, 時間とともに進化し, 異なる時間スケールで発生する因果関係をモデル化するためのソリューションを提供することにより, 技術の現状におけるギャップについて述べる。
具体的には,多変量時系列データをモデル化するフレームワークであるマルチスケール非定常有向非巡回グラフ(MN-DAG)を紹介する。
私たちの貢献は2倍です。
まず,スペクトルと因果性理論の結果を利用して確率論的生成モデルを明らかにする。
本モデルでは, 因果グラフの時間依存性とマルチスケール特性に基づいて, MN-DAGをサンプリングすることができる。
次に,確率的変動推定を用いてMN-DAGを推定するマルチスケール非定常因果構造学習器(MN-CASTLE)を提案する。
この方法は、時間分解能の異なる時系列間の局所的な部分相関からの情報も活用する。
MN-DAGから生成されたデータは、ボラティリティクラスタリングやシリアル相関など、さまざまな領域における時系列の特徴を再現する。
さらに,MN-CASTLEをベースラインモデルと比較して,マルチスケールおよび非定常特性の異なる合成データに対して優れた性能を示す。
最後に,米国市場における天然ガス価格の変動要因を特定するためにMN-CASTLEを適用した。
因果関係は、新型コロナウイルス(covid-19)の流行とロシアによるウクライナ侵攻の間に強化されている。
MN-CASTLEは、季節的要因、経済の不確実性、原油価格、ガス貯蔵逸脱などの天然ガス価格に対する重要な経済要因の因果的影響を明らかにしている。 This paper addresses a gap in the current state of the art by providing a solution for modeling causal relationships that evolve over time and occur at different time scales. Specifically, we introduce the multiscale non-stationary directed acyclic graph (MN-DAG), a framework for modeling multivariate time series data. Our contribution is twofold. Firstly, we expose a probabilistic generative model by leveraging results from spectral and causality theories. Our model allows sampling an MN-DAG according to user-specified priors on the time-dependence and multiscale properties of the causal graph. Secondly, we devise a Bayesian method named Multiscale Non-stationary Causal Structure Learner (MN-CASTLE) that uses stochastic variational inference to estimate MN-DAGs. The method also exploits information from the local partial correlation between time series over different time resolutions. The data generated from an MN-DAG reproduces well-known features of time series in different domains, such as volatility clustering and serial correlation. Additionally, we show the superior performance of MN-CASTLE on synthetic data with different multiscale and non-stationary properties compared to baseline models. Finally, we apply MN-CASTLE to identify the drivers of the natural gas prices in the US market. Causal relationships have strengthened during the COVID-19 outbreak and the Russian invasion of Ukraine, a fact that baseline methods fail to capture. MN-CASTLE identifies the causal impact of critical economic drivers on natural gas prices, such as seasonal factors, economic uncertainty, oil prices, and gas storage deviations. | 翻訳日:2023-11-22 21:03:09 公開日:2023-11-17 |
# 信頼できるレコメンデーションシステム Trustworthy Recommender Systems ( http://arxiv.org/abs/2208.06265v3 ) ライセンス: Link先を確認 | Shoujin Wang, Xiuzhen Zhang, Yan Wang, Huan Liu, Francesco Ricci | (参考訳) recommender systems(rss)は、ユーザーが大きなカタログから興味のあるアイテムを効果的に取り出すのを支援する。
長い間、研究者や実践者は正確なrssの開発に注力してきた。
近年、rssに対する脅威が増加しており、攻撃、システム、ユーザー生成ノイズ、システムバイアスが原因となっている。
その結果,rs精度への厳密な注力が制限され,信頼性など他の重要な要因も検討する必要があることが明らかとなった。
エンドユーザーにとって、信頼できるRS(TRS)は正確であるだけでなく、透明で偏りがなく公正であり、ノイズや攻撃に対して堅牢であるべきである。
これらの観測は、精度指向のRSからRSへのRSの研究のパラダイムシフトにつながった。
しかし、研究者はtrssのこの新奇で急速な発展分野における文学の体系的な概要と議論を欠いている。
そこで本稿では,trssの動機と基本的な概念,trss構築における課題の提示,この分野の今後の方向性に関する展望など,trssの概要について述べる。
TRSの構築を支援するための新しい概念的枠組みも提供する。 Recommender systems (RSs) aim to help users to effectively retrieve items of their interests from a large catalogue. For a quite long period of time, researchers and practitioners have been focusing on developing accurate RSs. Recent years have witnessed an increasing number of threats to RSs, coming from attacks, system and user generated noise, system bias. As a result, it has become clear that a strict focus on RS accuracy is limited and the research must consider other important factors, e.g., trustworthiness. For end users, a trustworthy RS (TRS) should not only be accurate, but also transparent, unbiased and fair as well as robust to noise or attacks. These observations actually led to a paradigm shift of the research on RSs: from accuracy-oriented RSs to TRSs. However, researchers lack a systematic overview and discussion of the literature in this novel and fast developing field of TRSs. To this end, in this paper, we provide an overview of TRSs, including a discussion of the motivation and basic concepts of TRSs, a presentation of the challenges in building TRSs, and a perspective on the future directions in this area. We also provide a novel conceptual framework to support the construction of TRSs. | 翻訳日:2023-11-22 21:00:33 公開日:2023-11-17 |
# 時間反転対称性の破れによる境界変動と長距離フラストレーションを伴う異常臨界 Anomalous criticality with bounded fluctuations and long-range frustration induced by broken time-reversal symmetry ( http://arxiv.org/abs/2208.02268v2 ) ライセンス: Link先を確認 | Jinchen Zhao, Myung-Joong Hwang | (参考訳) 複素光子ホッピング振幅を持つ1次元ディック格子を考察し、合成磁場による時間反転対称性の破れの影響について検討する。
格子の総束スレッディングを周期的境界条件で調整することにより、SPT(Superradiant phase transition)の普遍性クラスが平均場完全連結系から異常臨界現象を特徴とするものへと変化することを示す。
異常SPTは、遷移の両側に異なる臨界指数を持つエネルギーギャップの閉じ、二階相転移であるにもかかわらず相関と変動の不連続を示す。
異常正規位相では、閉エネルギーギャップと非分散変動と相関に対する非平均場臨界指数が出現し、非対称分散関係を特徴づける。
さらに, 最近傍の複素ホッピングは, フラストレーションの程度が変化する超ラジアント相間の1次相転移を競合に導くキャビティ場の2次位置に対する有効長距離相互作用を誘導することを示した。
結果として生じる多重臨界点は、遷移の両側に2つの共存する臨界スケーリングのような異常な特徴を示す。
我々の研究は、崩壊した時間反転対称性とボソニック格子系のフラストレーションの間の相互作用が、フェルミオン、スピン、時間反転対称量子光学系に相反しない異常な臨界現象を引き起こすことを示した。 We consider a one-dimensional Dicke lattice with complex photon hopping amplitudes and investigate the influence of time-reversal symmetry breaking due to synthetic magnetic fields. We show that, by tuning the total flux threading the lattice with a periodic boundary condition, the universality class of superradiant phase transition (SPT) changes from that of the mean-field fully connected systems to one that features anomalous critical phenomena. The anomalous SPT exhibits a closing of the energy gap with different critical exponents on both sides of transition and a discontinuity of correlations and fluctuation despite it being a second-order phase transition. In the anomalous normal phase, we find that a non-mean-field critical exponent for the closing energy gap and nondivergent fluctuations and correlations appear, which we attribute to the asymmetric dispersion relation. Moreover, we show that the nearest neighborhood complex hopping induces effective long-range interactions for position quadratures of the cavity fields, whose competition leads to a series of first-order phase transitions among superradiant phases with varying degrees of frustration. The resulting multicritical points also show anomalous features such as two coexisting critical scalings on both sides of the transition. Our work shows that the interplay between the broken time-reversal symmetry and frustration on bosonic lattice systems can give rise to anomalous critical phenomena that have no counterpart in fermionic, spin, or time-reversal symmetric quantum optical systems. | 翻訳日:2023-11-22 21:00:16 公開日:2023-11-17 |
# 新型コロナウイルスワクチンに関する物語の分類 Classifying COVID-19 vaccine narratives ( http://arxiv.org/abs/2207.08522v2 ) ライセンス: Link先を確認 | Yue Li, Carolina Scarton, Xingyi Song, Kalina Bontcheva (University of Sheffield) | (参考訳) 政府の情報キャンペーンや世界保健機関(WHO)の努力にもかかわらず、ワクチンの行き詰まりは広く行われている。
ワクチン関連ナラティブのトピックを分類することは、議論で示される関心事を理解し、ワクチンのヒューシタンシーに寄与する特定の問題を特定するのに不可欠である。
本稿では、新型コロナウイルスの主張を7つのカテゴリに分類した新しいワクチンナラティブ分類タスクを導入することで、オンラインのワクチンナラティブの監視と分析の必要性について論じる。
データ拡張アプローチに従って、まず、マイノリティクラスに焦点を当てた、この新しい分類タスクのための新しいデータセットを構築します。
また、ファクトチェックアノテートデータも利用しています。
また,クロスバリデーション下での精度を84%に向上する神経ワクチン物語分類器を提案する。
この分類器は研究者やジャーナリストに公開されている。 Vaccine hesitancy is widespread, despite the government's information campaigns and the efforts of the World Health Organisation (WHO). Categorising the topics within vaccine-related narratives is crucial to understand the concerns expressed in discussions and identify the specific issues that contribute to vaccine hesitancy. This paper addresses the need for monitoring and analysing vaccine narratives online by introducing a novel vaccine narrative classification task, which categorises COVID-19 vaccine claims into one of seven categories. Following a data augmentation approach, we first construct a novel dataset for this new classification task, focusing on the minority classes. We also make use of fact-checker annotated data. The paper also presents a neural vaccine narrative classifier that achieves an accuracy of 84% under cross-validation. The classifier is publicly available for researchers and journalists. | 翻訳日:2023-11-22 20:59:47 公開日:2023-11-17 |
# 衣服交換者再識別のための意味認識と視覚遮蔽ネットワーク A Semantic-aware Attention and Visual Shielding Network for Cloth-changing Person Re-identification ( http://arxiv.org/abs/2207.08387v2 ) ライセンス: Link先を確認 | Zan Gao, Hongwei Wei, Weili Guan, Jie Nie, Meng Wang, Shenyong Chen | (参考訳) 着替え者の身元確認(reid)は、着替えられた歩行者を検索することを目的とした新たな研究テーマである。
異なる服装の人間の外見は大きなバリエーションを示すため、差別的かつ堅牢な特徴表現を抽出する既存のアプローチは非常に困難である。
現在の作品は主に体型や輪郭のスケッチに焦点が当てられているが、着替え前後の人間の意味情報や歩行者の特徴の潜在的な一貫性は十分に検討されていないか無視されている。
これらの課題を解決するために, 衣服の外観に関する手がかりを遮蔽し, 視線・姿勢の変化に敏感でない視覚的意味情報にのみ焦点をあてる, 布を交換するReID(SAVS)の新たな意味認識・視覚的遮蔽ネットワークを提案する。
具体的には、まず、人間の意味セマンティクスセグメンテーション情報に基づいて、人体および衣服領域の特定にビジュアルセマンティクスエンコーダを用いる。
そして、人間の意味情報を強調し、視覚特徴マップを再重み付けするために、ヒューマンセマンティックアテンションモジュール(HSA)を提案する。
さらに、衣服領域をカバーし、衣服とは無関係な視覚的意味情報にモデルを集中させることにより、衣服変更作業のためのより堅牢な特徴表現を抽出する視覚的衣服遮蔽モジュール(VCS)も設計されている。
最も重要なことは、これらの2つのモジュールはエンドツーエンドの統一フレームワークで共同で探索されることです。
広範な実験により,提案手法は最先端の手法を著しく上回ることができ,布交換者に対してより堅牢な特徴を抽出できることが示された。
FSAM (CVPR 2021) と比較すると、この手法はmAP (rank-1) でそれぞれ LTCC と PRCC のデータセットで 32.7% (16.5%) と 14.9% (-) の改善を達成できる。 Cloth-changing person reidentification (ReID) is a newly emerging research topic that aims to retrieve pedestrians whose clothes are changed. Since the human appearance with different clothes exhibits large variations, it is very difficult for existing approaches to extract discriminative and robust feature representations. Current works mainly focus on body shape or contour sketches, but the human semantic information and the potential consistency of pedestrian features before and after changing clothes are not fully explored or are ignored. To solve these issues, in this work, a novel semantic-aware attention and visual shielding network for cloth-changing person ReID (abbreviated as SAVS) is proposed where the key idea is to shield clues related to the appearance of clothes and only focus on visual semantic information that is not sensitive to view/posture changes. Specifically, a visual semantic encoder is first employed to locate the human body and clothing regions based on human semantic segmentation information. Then, a human semantic attention module (HSA) is proposed to highlight the human semantic information and reweight the visual feature map. In addition, a visual clothes shielding module (VCS) is also designed to extract a more robust feature representation for the cloth-changing task by covering the clothing regions and focusing the model on the visual semantic information unrelated to the clothes. Most importantly, these two modules are jointly explored in an end-to-end unified framework. Extensive experiments demonstrate that the proposed method can significantly outperform state-of-the-art methods, and more robust features can be extracted for cloth-changing persons. Compared with FSAM (published in CVPR 2021), this method can achieve improvements of 32.7% (16.5%) and 14.9% (-) on the LTCC and PRCC datasets in terms of mAP (rank-1), respectively. | 翻訳日:2023-11-22 20:59:33 公開日:2023-11-17 |
# アナログ量子シミュレータにおける創発的状態設計からのシャドウトモグラフィー Shadow tomography from emergent state designs in analog quantum simulators ( http://arxiv.org/abs/2212.02543v2 ) ライセンス: Link先を確認 | Max McGinley, Michele Fava | (参考訳) 本稿では,自由度に対する大域的な制御のみを用いて,r\'enyiエントロピーなどの非線形関数を含む量子状態の多くの性質を推定する手法を提案する。
このプロトコルでは、興味のある状態は、射影測定を行う前に、まず、固定されたグローバルなユニタリの下で一連のアンシラと絡み合わされる。
我々は、ユニタリが十分に絡み合っているとき、状態の測定結果の統計と状態の性質の普遍的な関係が出現し、カオス系における創発的量子状態設計の最近発見された現象に結びつくことを示した。
この関係により、任意の観測可能なものは、古典的なシャドウトモグラフィー(Huang et al., Nat. Phys. 16, 1050 (2020)))で必要とされる同じ数の実験的な繰り返しを使って再構成することができる。
従来のシャドウトモグラフィー法とは異なり、このプロトコルは量子ビット選択論理ゲートとは対照的に大域的な操作だけで実装できるため、光学格子中の超低温原子やライドバーグ原子の配列を含むアナログ量子シミュレータに特に適している。 We introduce a method that allows one to infer many properties of a quantum state -- including nonlinear functions such as R\'enyi entropies -- using only global control over the constituent degrees of freedom. In this protocol, the state of interest is first entangled with a set of ancillas under a fixed global unitary, before projective measurements are made. We show that when the unitary is sufficiently entangling, a universal relationship between the statistics of the measurement outcomes and properties of the state emerges, which can be connected to the recently discovered phenomenon of emergent quantum state designs in chaotic systems. Thanks to this relationship, arbitrary observables can be reconstructed using the same number of experimental repetitions that would be required in classical shadow tomography [Huang et al., Nat. Phys. 16, 1050 (2020)]. Unlike previous approaches to shadow tomography, our protocol can be implemented using only global operations, as opposed to qubit-selective logic gates, which makes it particularly well-suited to analog quantum simulators, including ultracold atoms in optical lattices and arrays of Rydberg atoms. | 翻訳日:2023-11-22 20:52:27 公開日:2023-11-17 |
# インテリジェント音楽生成システムの現状と展望 A Review of Intelligent Music Generation Systems ( http://arxiv.org/abs/2211.09124v3 ) ライセンス: Link先を確認 | Lei Wang, Ziyi Zhao, Hanwei Liu, Junwei Pang, Yi Qin, and Qidi Wu | (参考訳) ChatGPTの導入により、AIGC(AIGC)に対する大衆の認識が再形成され始めている。
人工知能は、クリエイティブな取り組みにおける非プロフェッショナルの参入障壁を著しく減らし、コンテンツ作成の効率性を高めた。
近年の進歩はシンボリック・ミュージック・ジェネレーションの質が大幅に向上しており、ルール制約やコーパスに基づいた音楽に暗黙のパターンを抽出するために現代の生成アルゴリズムを用いることによって実現されている。
それにもかかわらず、既存の文献レビューは、将来の開発軌跡に関する従来的かつ保守的な視点を示し、生成モデルの徹底的なベンチマークが欠如している。
本稿では,近年のインテリジェント音楽生成技術に関する調査と分析を行い,それぞれの特徴を概説し,既存の評価手法について議論する。
さらに,東・西方における音楽生成技術の諸特性を比較し,その発展の展望を分析した。 With the introduction of ChatGPT, the public's perception of AI-generated content (AIGC) has begun to reshape. Artificial intelligence has significantly reduced the barrier to entry for non-professionals in creative endeavors, enhancing the efficiency of content creation. Recent advancements have seen significant improvements in the quality of symbolic music generation, which is enabled by the use of modern generative algorithms to extract patterns implicit in a piece of music based on rule constraints or a musical corpus. Nevertheless, existing literature reviews tend to present a conventional and conservative perspective on future development trajectories, with a notable absence of thorough benchmarking of generative models. This paper provides a survey and analysis of recent intelligent music generation techniques, outlining their respective characteristics and discussing existing methods for evaluation. Additionally, the paper compares the different characteristics of music generation techniques in the East and West as well as analysing the field's development prospects. | 翻訳日:2023-11-22 20:50:50 公開日:2023-11-17 |
# gcondnet: 小型高次元表データを用いたニューラルネットワークの改良法 GCondNet: A Novel Method for Improving Neural Networks on Small High-Dimensional Tabular Data ( http://arxiv.org/abs/2211.06302v3 ) ライセンス: Link先を確認 | Andrei Margeloiu, Nikola Simidjievski, Pietro Lio, Mateja Jamnik | (参考訳) ニューラルネットワークモデルは、しばしば高次元だが小さなサンプルサイズの表層データセットと競合する。
一つの理由は、現在の重み初期化手法が重みの間の独立性を仮定しているためであり、モデルのパラメータを正確に推定するサンプルが不足している場合に問題となる。
このような小さなデータシナリオでは、追加構造を利用することで、モデルのパフォーマンスとトレーニングの安定性が向上します。
そこで本稿では,グラフデータに存在する暗黙構造を利用してニューラルネットワークを拡張できるGCondNetを提案する。
各データ次元のサンプル間のグラフを作成し、この暗黙の構造を抽出し、基礎となる予測ネットワークの第1層のパラメータを条件付けするためにグラフニューラルネットワーク(gnns)を利用する。
多くの小さなグラフを作成することで、gcondnetはデータの高次元を活用し、基礎となる予測ネットワークの性能を向上させる。
我々は,GCondNetが15の標準および最先端の手法より優れている実世界の9つのデータセットに対して,本手法の有効性を実証する。
その結果,GCondNetは多種多様なニューラルネットワークにグラフ正規化を注入するための汎用的なフレームワークであることがわかった。 Neural network models often struggle with high-dimensional but small sample-size tabular datasets. One reason is that current weight initialisation methods assume independence between weights, which can be problematic when there are insufficient samples to estimate the model's parameters accurately. In such small data scenarios, leveraging additional structures can improve the model's performance and training stability. To address this, we propose GCondNet, a general approach to enhance neural networks by leveraging implicit structures present in tabular data. We create a graph between samples for each data dimension, and utilise Graph Neural Networks (GNNs) for extracting this implicit structure, and for conditioning the parameters of the first layer of an underlying predictor network. By creating many small graphs, GCondNet exploits the data's high-dimensionality, and thus improves the performance of an underlying predictor network. We demonstrate the effectiveness of our method on 9 real-world datasets, where GCondNet outperforms 15 standard and state-of-the-art methods. The results show that GCondNet is a versatile framework for injecting graph-regularisation into various types of neural networks, including MLPs and tabular Transformers. | 翻訳日:2023-11-22 20:49:43 公開日:2023-11-17 |
# PopArt: 効率的なスパース回帰と最適スパース線形帯域の実験的設計 PopArt: Efficient Sparse Regression and Experimental Design for Optimal Sparse Linear Bandits ( http://arxiv.org/abs/2210.15345v3 ) ライセンス: Link先を確認 | Kyoungseok Jang, Chicheng Zhang, Kwang-Sung Jun | (参考訳) 疎線形帯域では、学習エージェントが順次アクションを選択し、報酬フィードバックを受け取り、報酬関数はアクションの共変量の数座標に線形に依存する。
これは多くの現実世界のシーケンシャルな意思決定問題に適用できる。
本稿では,多くの問題に対するlasso(tibshirani, 1996)と比較して,より厳密な$\ell_1$リカバリ保証を享受するpopartと呼ばれる簡易かつ計算効率のよいスパース線形推定法を提案する。
我々の境界は自然に凸であり、計算的に解ける実験的な設計基準を動機付けている。
新たな推定法と設計基準に基づき, 与えられたアクションセットの幾何について, 芸術的状態(Hao et al., 2020)の残酷な上界の改善を享受する, 疎線形バンディットアルゴリズムを導出する。
最後に, 前処理における上下境界のギャップを埋めるデータポーア方式において, 疎線形包帯に対して, 一致した下界を証明した。 In sparse linear bandits, a learning agent sequentially selects an action and receive reward feedback, and the reward function depends linearly on a few coordinates of the covariates of the actions. This has applications in many real-world sequential decision making problems. In this paper, we propose a simple and computationally efficient sparse linear estimation method called PopArt that enjoys a tighter $\ell_1$ recovery guarantee compared to Lasso (Tibshirani, 1996) in many problems. Our bound naturally motivates an experimental design criterion that is convex and thus computationally efficient to solve. Based on our novel estimator and design criterion, we derive sparse linear bandit algorithms that enjoy improved regret upper bounds upon the state of the art (Hao et al., 2020), especially w.r.t. the geometry of the given action set. Finally, we prove a matching lower bound for sparse linear bandits in the data-poor regime, which closes the gap between upper and lower bounds in prior work. | 翻訳日:2023-11-22 20:48:30 公開日:2023-11-17 |
# 加速度磁気共鳴イメージングのための忠実深部感度推定法 A Faithful Deep Sensitivity Estimation for Accelerated Magnetic Resonance Imaging ( http://arxiv.org/abs/2210.12723v2 ) ライセンス: Link先を確認 | Zi Wang, Haoming Fang, Chen Qian, Boxuan Shi, Lijun Bao, Liuhong Zhu, Jianjun Zhou, Wenping Wei, Jianzhong Lin, Di Guo, Xiaobo Qu | (参考訳) 磁気共鳴イメージング(MRI)は、長期間のスキャンに苦しむ重要な診断ツールである。
この制限を緩和するため、高度な高速MRI技術は幅広い研究の関心を集めている。
最近のディープラーニングは、画像の品質と再構築速度を改善する大きな可能性を示している。
MRI再建にはコイル感度推定が不可欠である。
しかし、多くの深層学習手法は、まだ事前推定された感度マップに依存しており、それらの不正確さを無視しているため、再構成画像の大幅な品質劣化が生じる。
本研究では,JDSIと呼ばれる統合深度感性推定と画像再構成ネットワークを提案する。
画像アーティファクト除去の間、より忠実な感度マップと高周波情報を徐々に提供し、画像再構成の改善に繋がる。
ネットワークの動作を理解するため、ネットワーク中間結果の可視化により、感度推定と画像再構成の相互促進を明らかにする。
生体内データセットとラジオロジスト読影器を用いて, キャリブレーションベースとキャリブレーションレス再構築の両方において, 提案したJDSIは, 特にアクセラレーション係数が高い場合に, 視覚的かつ定量的に, 最先端の性能を達成することを示した。
さらに、JDSIは患者と自己校正信号に優れた堅牢性を持っている。 Magnetic resonance imaging (MRI) is an essential diagnostic tool that suffers from prolonged scan time. To alleviate this limitation, advanced fast MRI technology attracts extensive research interests. Recent deep learning has shown its great potential in improving image quality and reconstruction speed. Faithful coil sensitivity estimation is vital for MRI reconstruction. However, most deep learning methods still rely on pre-estimated sensitivity maps and ignore their inaccuracy, resulting in the significant quality degradation of reconstructed images. In this work, we propose a Joint Deep Sensitivity estimation and Image reconstruction network, called JDSI. During the image artifacts removal, it gradually provides more faithful sensitivity maps with high-frequency information, leading to improved image reconstructions. To understand the behavior of the network, the mutual promotion of sensitivity estimation and image reconstruction is revealed through the visualization of network intermediate results. Results on in vivo datasets and radiologist reader study demonstrate that, for both calibration-based and calibrationless reconstruction, the proposed JDSI achieves the state-of-the-art performance visually and quantitatively, especially when the acceleration factor is high. Additionally, JDSI owns nice robustness to patients and autocalibration signals. | 翻訳日:2023-11-22 20:48:01 公開日:2023-11-17 |
# 自動プロセス発見のためのラベルなしイベントログの重要な属性の特定 Identifying the Key Attributes in an Unlabeled Event Log for Automated Process Discovery ( http://arxiv.org/abs/2301.12829v2 ) ライセンス: Link先を確認 | Kentaroh Toyoda, Rachel Gan Kai Ying, Allan NengSheng Zhang, Tan Puay Siew | (参考訳) プロセスマイニングは、履歴イベントログからプロセスモデルを発見し、分析する。
以前のアートメソッドでは、イベントログに隠されたケースID、アクティビティ、タイムスタンプのキー属性を、プロセスモデルを見つける手がかりとして使用しています。
しかし、ユーザはそれらを手動で指定する必要がある。
本稿では,このような手作業による調査を避けるために,二段階鍵属性同定手法を提案する。
難しいタスクの1つは、組合せ爆発による徹底的な計算を避ける方法である。
このため、第1段階で教師付き機械学習を用いて各キー属性の候補を絞り込み、プロセスモデルを発見して第2ステージで評価することで、キー属性の最適な組み合わせを識別する。
計算の複雑さは $\mathcal{o}(n^3)$ から $\mathcal{o}(k^3)$ に減らされ、ここで $n$ と $k$ はそれぞれ最初の段階で保持する列数と候補数であり、通常 $k$ は $n$ よりはるかに小さい。
提案手法を14個のオープンデータセットで評価し,多くのデータセットに対して約20秒間$k = 2$でもキー属性を識別可能であることを示した。 Process mining discovers and analyzes a process model from historical event logs. The prior art methods use the key attributes of case-id, activity, and timestamp hidden in an event log as clues to discover a process model. However, a user needs to specify them manually, and this can be an exhaustive task. In this paper, we propose a two-stage key attribute identification method to avoid such a manual investigation, and thus this is a step toward fully automated process discovery. One of the challenging tasks is how to avoid exhaustive computation due to combinatorial explosion. For this, we narrow down candidates for each key attribute by using supervised machine learning in the first stage and identify the best combination of the key attributes by discovering process models and evaluating them in the second stage. Our computational complexity can be reduced from $\mathcal{O}(N^3)$ to $\mathcal{O}(k^3)$ where $N$ and $k$ are the numbers of columns and candidates we keep in the first stage, respectively, and usually $k$ is much smaller than $N$. We evaluated our method with 14 open datasets and showed that our method could identify the key attributes even with $k = 2$ for about 20 seconds for many datasets. | 翻訳日:2023-11-22 20:38:49 公開日:2023-11-17 |
# ランダム深さ量子振幅推定 Random-depth Quantum Amplitude Estimation ( http://arxiv.org/abs/2301.00528v4 ) ライセンス: Link先を確認 | Xi Lu and Hongwei Lin | (参考訳) 最大振幅推定アルゴリズム(MLAE)は、ハイゼンベルク極限誤差収束を用いた量子振幅推定問題の実用的な解である。
我々は,いわゆる臨界点を避けるためにランダムな深さを用いてMLAEを改良し,我々のアルゴリズムが元のMLAEと比較してほぼ偏りがないことを示す数値実験を行い,ハイゼンベルク限界にアプローチする。 The maximum likelihood amplitude estimation algorithm (MLAE) is a practical solution to the quantum amplitude estimation problem with Heisenberg limit error convergence. We improve MLAE by using random depths to avoid the so-called critical points, and do numerical experiments to show that our algorithm is approximately unbiased compared to the original MLAE and approaches the Heisenberg limit better. | 翻訳日:2023-11-22 20:37:31 公開日:2023-11-17 |
# 対称量子センサの量子誤差補正 Quantum error correction on symmetric quantum sensors ( http://arxiv.org/abs/2212.06285v2 ) ライセンス: Link先を確認 | Yingkai Ouyang and Gavin K. Brennen | (参考訳) 集合角運動量の対称状態は、準備が容易で、個々のアドレナビリティを必要とせずに制御できるため、量子センサーのマルチキュービットプローブ状態のよい候補である。
ここでは,古典場の大きさを対称プローブ状態を用いて推定するための量子誤差補正プロトコルを提案する。
これを達成するために、まず対称部分空間上の量子誤差補正の一般理論を考案する。
この理論は対称群の表現論に基づいて、任意の置換不変コード上の修正可能な誤りを訂正できる効率的なアルゴリズムを構築することができる。
これらのアルゴリズムは、全角運動量、量子シュール変換または論理状態テレポーテーション、幾何学パルスゲートの測定を含む。
削除誤差に対しては,幾何学的パルスゲートに基づく単純な量子誤差補正アルゴリズムを提案する。
第2に、除去誤差の線形率にもかかわらず機能する対称プローブ状態に対する簡単な量子センシング手法を考案し、その漸近的性能を解析する。
提案手法では,信号が蓄積している間,プローブ状態をコード空間に繰り返し投影する。
信号の蓄積に要する時間が一定であれば,ノイズのない設定で可能な限り近い精度で位相推定を行うことができる。
第3に,アルゴリズムの短期的実装を行う。 Symmetric states of collective angular momentum are good candidates for multi-qubit probe states in quantum sensors because they are easy to prepare and can be controlled without requiring individual addressability. Here, we give quantum error correction protocols for estimating the magnitude of classical fields using symmetric probe states. To achieve this, we first develop a general theory for quantum error correction on the symmetric subspace. This theory, based on the representation theory of the symmetric group, allows us to construct efficient algorithms that can correct any correctible error on any permutation-invariant code. These algorithms involve measurements of total angular momentum, quantum Schur transforms or logical state teleportations, and geometric pulse gates. For deletion errors, we give a simpler quantum error correction algorithm based on primarily on geometric pulse gates. Second, we devise a simple quantum sensing scheme on symmetric probe states that works in spite of a linear rate of deletion errors, and analyze its asymptotic performance. In our scheme, we repeatedly project the probe state onto the codespace while the signal accumulates. When the time spent to accumulate the signal is constant, our scheme can do phase estimation with precision that approaches the best possible in the noiseless setting. Third, we give near-term implementations of our algorithms. | 翻訳日:2023-11-22 20:35:40 公開日:2023-11-17 |
# ガウス状態の光子数モーメントと累積 Photon-number moments and cumulants of Gaussian states ( http://arxiv.org/abs/2212.06067v4 ) ライセンス: Link先を確認 | Yanic Cardin, Nicol\'as Quesada | (参考訳) 光子数に基づく場合,ガウス状態のモーメントと累積に対する閉形式表現を開発する。
ガウス状態の光子数モーメントをループハフニアンで表現し、グラフの隣接を表す$(0,1)$-行列に適用すると、その完全マッチングの数を数える。
同様に、(0,1)$-行列に適用されたとき、そのグラフのハミルトニアンサイクルの数をカウントする新しく導入された行列関数であるモントリオールアーの言葉で光子数累積を表現する。
これらのグラフ理論接続に基づいて、光子数モーメントと累積の計算が#P$-hardであることを示す。
さらに、ハフニアンのよく知られた結果と一致するモントリオールの時間(すなわち累積)を計算する指数時間アルゴリズムを提供する。
次に、一様損失の干渉計が、ゼロ変位を持つ同一の単一モードガウス状態を持つ全ての入力で供給されると、奇数次累積は、すべてゼロであることが示される。
最後に,K$同一状態が$$\ell$モード干渉計に供給されるガウスボソンサンプリング装置において,累積の分布を4次まで異なる入力状態に対して研究するために導出した式を用いる。
本研究では, 入力状態のタイプ, 圧縮状態, 損失値, スクラッシュ状態, 熱状態, および非真空入力数の関数として, 累積物の依存性を解析した。
熱状態は他の古典的状態(例えばスカッシュ状態)よりも、損失状態や無損失状態の光子数累積状態の模倣においてずっと悪い結果をもたらすことが判明した。 We develop closed-form expressions for the moments and cumulants of Gaussian states when measured in the photon-number basis. We express the photon-number moments of a Gaussian state in terms of the loop Hafnian, a function that when applied to a $(0,1)$-matrix representing the adjacency of a graph, counts the number of its perfect matchings. Similarly, we express the photon-number cumulants in terms of the Montrealer, a newly introduced matrix function that when applied to a $(0,1)$-matrix counts the number of Hamiltonian cycles of that graph. Based on these graph-theoretic connections, we show that the calculation of photon-number moments and cumulants are $#P$-hard. Moreover, we provide an exponential time algorithm to calculate Montrealers (and thus cumulants), matching well-known results for Hafnians. We then demonstrate that when a uniformly lossy interferometer is fed in every input with identical single-mode Gaussian states with zero displacement, all the odd-order cumulants but the first one are zero. Finally, we employ the expressions we derive to study the distribution of cumulants up to the fourth order for different input states in a Gaussian boson sampling setup where $K$ identical states are fed into an $\ell$-mode interferometer. We analyze the dependence of the cumulants as a function of the type of input state, squeezed, lossy squeezed, squashed, or thermal, and as a function of the number of non-vacuum inputs. We find that thermal states perform much worse than other classical states, such as squashed states, at mimicking the photon-number cumulants of lossy or lossless squeezed states. | 翻訳日:2023-11-22 20:35:20 公開日:2023-11-17 |
# トランスモン量子ビットの直接励起による隠蔽光子暗黒物質の検出 Detection of hidden photon dark matter using the direct excitation of transmon qubits ( http://arxiv.org/abs/2212.03884v2 ) ライセンス: Link先を確認 | Shion Chen, Hajime Fukuda, Toshiaki Inada, Takeo Moroi, Tatsumi Nitta, Thanaporn Sichanugrist | (参考訳) 超伝導量子ビットの励起を利用した新しいダークマター検出法を提案する。
O(10)\ \mu{\rm eV}$の質量の隠れた光子暗黒物質を仮定すると、古典的な波動マター振動は通常の光子との小さな運動的混合を通して有効な交流電場を誘導する。
これは量子ビットが共振しているときにコヒーレントな駆動場となり、基底状態から最初の励起状態へと発展する。
本研究は,光子暗黒物質の探索感度とともに,その進化速度と観測可能な励起率を評価した。
選択された質量に対して、1つの標準トランスモンキュービットで$\epsilon \sim 10^{-12}-10^{-14}$(ここで$\epsilon$は隠れた光子の運動混合パラメータ)に達することができる。
周波数調整可能なSQUIDベースのトランスモンの単純な拡張により、マススキャンは4-40\ \mu{\rm eV}$(1-10$ GHz)の範囲を適切な実行時間内にカバーできる。
量子ビット数に沿った感度のスケーラビリティは、超伝導量子コンピュータ技術の急速な進化にともなって、有望なプラットフォームとなる。 We propose a novel dark matter detection method utilizing the excitation of superconducting transmon qubits. Assuming the hidden photon dark matter of a mass of $O(10)\ \mu{\rm eV}$, the classical wave-matter oscillation induces an effective ac electric field via the small kinetic mixing with the ordinary photon. This serves as a coherent drive field for a qubit when it is resonant, evolving it from the ground state towards the first-excited state. We evaluate the rate of such evolution and observable excitations in the measurements, as well as the search sensitivity to the hidden photon dark matter. For a selected mass, one can reach $\epsilon \sim 10^{-12}-10^{-14}$ (where $\epsilon$ is the kinetic mixing parameter of the hidden photon) with a single standard transmon qubit. A simple extension to the frequency-tunable SQUID-based transmon enables the mass scan to cover the whole $4-40\ \mu{\rm eV}$ ($1-10$ GHz) range within a reasonable length of run time. The sensitivity scalability along the number of the qubits also makes it a promising platform in accord to the rapid evolution of the superconducting quantum computer technology. | 翻訳日:2023-11-22 20:34:23 公開日:2023-11-17 |
# プログラム生成のための言語モデルの信頼性と説明可能性について On the Reliability and Explainability of Language Models for Program Generation ( http://arxiv.org/abs/2302.09587v2 ) ライセンス: Link先を確認 | Yue Liu, Chakkrit Tantithamthavorn, Yonghui Liu, Li Li | (参考訳) 近年の研究では、コード生成、修復、翻訳といった自動プログラム生成タスクに、CodeT5やCodeGPTといった事前訓練された言語モデルが採用されている。
多くの言語モデルに基づくアプローチが提案され、様々なベンチマークデータセットで評価され、有望な性能を示す。
しかし、これらのモデルの信頼性、特にコードシーケンスを一貫して変換する現実的な能力についてはまだ不確実性がある。
これらのテクニックは、プログラムの自動生成に十分な信頼性がありますか?
したがって、モデル論理を理解し、信頼性と説明可能性を評価するためのさらなる研究が必要である。
これらの研究ギャップを埋めるため、5つの代表的なデータセット上で8つのポピュラー言語モデルを徹底的に実験し、自動プログラム生成手法の能力と限界を決定する。
さらに、コード変換に大きく貢献するトークンを強調するために、高度な説明可能なAIアプローチを採用しています。
現状のアプローチは、重度のデータ重複に起因する不適切な性能評価に悩まされ、過度な最適化結果をもたらすことが判明した。
説明可能性分析の結果,様々な実験シナリオにおいて,言語モデルはコード文法や構造情報を認識できるが,入力シーケンスの変化に対して限定的な頑健性を示すことが明らかになった。
全体として、より厳密な評価手法とベンチマークは、自動プログラム生成の信頼性と説明可能性を高めるために重要である。
我々の発見は、この目標に重要なガイドラインを提供する。 Recent studies have adopted pre-trained language models, such as CodeT5 and CodeGPT, for automated program generation tasks like code generation, repair, and translation. Numerous language model-based approaches have been proposed and evaluated on various benchmark datasets, demonstrating promising performance. However, there is still uncertainty about the reliability of these models, particularly their realistic ability to consistently transform code sequences. This raises the question: are these techniques sufficiently trustworthy for automated program generation? Consequently, Further research is needed to understand model logic and assess reliability and explainability. To bridge these research gaps, we conduct a thorough empirical study of eight popular language models on five representative datasets to determine the capabilities and limitations of automated program generation approaches. We further employ advanced explainable AI approaches to highlight the tokens that significantly contribute to the code transformation. We discover that state-of-the-art approaches suffer from inappropriate performance evaluation stemming from severe data duplication, causing over-optimistic results. Our explainability analysis reveals that, in various experimental scenarios, language models can recognize code grammar and structural information, but they exhibit limited robustness to changes in input sequences. Overall, more rigorous evaluation approaches and benchmarks are critical to enhance the reliability and explainability of automated program generation moving forward. Our findings provide important guidelines for this goal. | 翻訳日:2023-11-22 20:25:13 公開日:2023-11-17 |
# ベイズ学習による量子ビット読み出しの強化 Enhancing qubit readout with Bayesian Learning ( http://arxiv.org/abs/2302.07725v3 ) ライセンス: Link先を確認 | F. Cosco and N. Lo Gullo | (参考訳) シングルキュービット状態とマルチキュービット状態に対する効率的かつ正確な読み出し量測定手法を提案する。
提案手法は,検出応答関数の参照特性に基づいて,各キュービット状態の割り当て確率分布を構築するためにベイズ推定を用いる。
これにより、計算基礎の割り当てにおけるシステムの不完全さと熱雑音を考慮できる。
5つの超伝導量子ビットを持つ量子デバイス上でのプロトコルのベンチマーク、単一および2量子ビット状態の初期状態準備のテスト、および5つの量子ビット上で実行されるbernstein-vaziraniアルゴリズムの適用。
本手法は,読み出し誤差を大幅に低減し,短期および将来の量子デバイスに対する利点を約束する。 We introduce an efficient and accurate readout measurement scheme for single and multi-qubit states. Our method uses Bayesian inference to build an assignment probability distribution for each qubit state based on a reference characterization of the detector response functions. This allows us to account for system imperfections and thermal noise within the assignment of the computational basis. We benchmark our protocol on a quantum device with five superconducting qubits, testing initial state preparation for single and two-qubit states and an application of the Bernstein-Vazirani algorithm executed on five qubits. Our method shows a substantial reduction of the readout error and promises advantages for near-term and future quantum devices. | 翻訳日:2023-11-22 20:24:30 公開日:2023-11-17 |
# 対話型テキスト環境のための指数型言語決定変換器 Language Decision Transformers with Exponential Tilt for Interactive Text Environments ( http://arxiv.org/abs/2302.05507v2 ) ライセンス: Link先を確認 | Nicolas Gontier, Pau Rodriguez, Issam Laradji, David Vazquez, Christopher Pal | (参考訳) エージェントはテキストの長いシーケンスを処理し、テキストを使って構成アクションを実行し、スパース報酬から学ぶ必要があるため、テキストベースのゲーム環境は困難である。
本稿では,変換言語モデルと決定変換器(DT)に基づくフレームワークであるLanguage Decision Transformer (LDT)を提案することで,これらの課題に対処する。
LDTはDTを3つの要素で拡張する: 1) エージェントを高い目標に向けて誘導するための指数的傾き、(2) 従来のリターン・ツー・ゴーよりも優れた結果をもたらす新しいゴール条件付け手法、(3) エージェント性能を向上させる将来の観測モデル。
LDTは、これらの挑戦的なゲームでDTを使って、オフラインのRLに最初に対処する。
実験の結果,Enchanter など,最も難易度の高いJericho ゲームにおいて,様々なエージェントの中から LDT が最も高いスコアを得られることがわかった。 Text-based game environments are challenging because agents must deal with long sequences of text, execute compositional actions using text and learn from sparse rewards. We address these challenges by proposing Language Decision Transformers (LDTs), a framework that is based on transformer language models and decision transformers (DTs). Our LDTs extend DTs with 3 components: (1) exponential tilt to guide the agent towards high obtainable goals, (2) novel goal conditioning methods yielding better results than the traditional return-to-go (sum of all future rewards), and (3) a model of future observations that improves agent performance. LDTs are the first to address offline RL with DTs on these challenging games. Our experiments show that LDTs achieve the highest scores among many different types of agents on some of the most challenging Jericho games, such as Enchanter. | 翻訳日:2023-11-22 20:22:51 公開日:2023-11-17 |
# 孤立した想像力を持つモデルベース強化学習 Model-Based Reinforcement Learning with Isolated Imaginations ( http://arxiv.org/abs/2303.14889v2 ) ライセンス: Link先を確認 | Minting Pan and Xiangming Zhu and Yitao Zheng and Yunbo Wang and Xiaokang Yang | (参考訳) 世界モデルは、視覚に基づく対話システムにおける行動の結果を学ぶ。
しかし、自律運転のような現実的なシナリオでは、独立性や活動信号にわずかに依存する制御不能なダイナミクスがしばしば存在し、効果的な世界モデルを学ぶことは困難である。
この問題に対処するため,我々は,モデルに基づく強化学習アプローチであるiso-dream++を提案する。
まず, 環境の混合時空間変動から制御可能な状態遷移を分離するよう, 世界モデルに促す逆ダイナミクスを最適化する。
第2に,非制御可能な状態を未来に展開し,現在の制御可能な状態と適応的に関連付ける,疎結合な潜在的想像力に基づくポリシ最適化を行う。
これにより、ロングホリゾンのバイスモータ制御タスクは、他の車両の動きを予測できる自動運転車のような野生の混合動力源を分離することで、潜在的なリスクを回避することができる。
これまでの研究に加えて,制御可能状態と非制御可能状態の間の疎結合について検討し,状態分離のトレーニング崩壊問題に対処し,トランスファー学習セットアップにおける我々のアプローチを検証する。
Iso-Dream++はCARLAやDeepMind Controlで既存の強化学習モデルよりも優れています。 World models learn the consequences of actions in vision-based interactive systems. However, in practical scenarios like autonomous driving, noncontrollable dynamics that are independent or sparsely dependent on action signals often exist, making it challenging to learn effective world models. To address this issue, we propose Iso-Dream++, a model-based reinforcement learning approach that has two main contributions. First, we optimize the inverse dynamics to encourage the world model to isolate controllable state transitions from the mixed spatiotemporal variations of the environment. Second, we perform policy optimization based on the decoupled latent imaginations, where we roll out noncontrollable states into the future and adaptively associate them with the current controllable state. This enables long-horizon visuomotor control tasks to benefit from isolating mixed dynamics sources in the wild, such as self-driving cars that can anticipate the movement of other vehicles, thereby avoiding potential risks. On top of our previous work, we further consider the sparse dependencies between controllable and noncontrollable states, address the training collapse problem of state decoupling, and validate our approach in transfer learning setups. Our empirical study demonstrates that Iso-Dream++ outperforms existing reinforcement learning models significantly on CARLA and DeepMind Control. | 翻訳日:2023-11-22 20:15:28 公開日:2023-11-17 |
# BigSmall: 異なる空間的・時間的生理的計測のための効率的なマルチタスク学習 BigSmall: Efficient Multi-Task Learning for Disparate Spatial and Temporal Physiological Measurements ( http://arxiv.org/abs/2303.11573v2 ) ライセンス: Link先を確認 | Girish Narayanswamy, Yujia Liu, Yuzhe Yang, Chengqian Ma, Xin Liu, Daniel McDuff, Shwetak Patel | (参考訳) 人間の視覚知覚を理解することは、歴史的にコンピュータビジョンアーキテクチャの設計に影響を与えた。
例えば、知覚は空間的にも時間的にも異なるスケールで起こり、様々なスケールで特定の特徴に注意を向けることで、突出した視覚情報の抽出をより効果的にできることを示唆している。
生理的過程による身体の視覚的変化は、異なるスケールとモダリティ特有の特性で起こる。
これに触発されて,生理的および行動的計測のための効率的なアーキテクチャであるbig smallを提案する。
本稿では,最初のジョイントカメラを用いた顔面動作,心臓および肺計測モデルを提案する。
本稿では,時間シフトモジュールをラップしたマルチブランチネットワークを提案する。
我々は,低レベル特徴の活用は低最適性能につながるが,高レベル特徴の活用は精度を損なうことなく効率の向上を可能にすることを観察する。
実験の結果,BigSmallは計算コストを大幅に削減することがわかった。
さらに、既存のタスク固有のモデルと比較して、bigsmallは、統一モデルと同時に複数の生理的測定タスクで同等またはより良い結果を得る。 Understanding of human visual perception has historically inspired the design of computer vision architectures. As an example, perception occurs at different scales both spatially and temporally, suggesting that the extraction of salient visual information may be made more effective by paying attention to specific features at varying scales. Visual changes in the body due to physiological processes also occur at different scales and with modality-specific characteristic properties. Inspired by this, we present BigSmall, an efficient architecture for physiological and behavioral measurement. We present the first joint camera-based facial action, cardiac, and pulmonary measurement model. We propose a multi-branch network with wrapping temporal shift modules that yields both accuracy and efficiency gains. We observe that fusing low-level features leads to suboptimal performance, but that fusing high level features enables efficiency gains with negligible loss in accuracy. Experimental results demonstrate that BigSmall significantly reduces the computational costs. Furthermore, compared to existing task-specific models, BigSmall achieves comparable or better results on multiple physiological measurement tasks simultaneously with a unified model. | 翻訳日:2023-11-22 20:14:54 公開日:2023-11-17 |
# 自律運転における3次元動作推定のための簡易フレームワーク A Simple Framework for 3D Occupancy Estimation in Autonomous Driving ( http://arxiv.org/abs/2303.10076v5 ) ライセンス: Link先を確認 | Wanshui Gan, Ningkai Mo, Hongbin Xu, Naoto Yokoya | (参考訳) 周囲の画像から3D占有率を推定するタスクは、Bird's Eye View (BEV) の認識の成功に続いて、自動運転分野におけるエキサイティングな発展である。
このタスクは、運転環境の重要な3D特性を提供し、周囲空間の全体的な理解と認識を高める。
本研究では,ネットワーク設計や最適化,評価などの3D占有率推定の重要要素を明らかにするために,CNNベースのフレームワークである3D占有率推定のためのシンプルなフレームワークを提案する。
さらに, 自律運転における3次元知覚研究を推進しうる, 単眼深度推定や3次元再構成など, 3次元占有推定と他の関連課題との関係について検討した。
評価のために,現在の公開データセットに柔軟である占有評価基準を定義するための簡単なサンプリング戦略を提案する。
さらに,提案手法とddadおよびnuscenesデータセットの単眼深度推定法を比較し,競合性能を達成するために,深度推定メトリックの観点からベンチマークを確立した。
関連するコードはhttps://github.com/GANWANSHUI/SimpleOccupancyで更新される。 The task of estimating 3D occupancy from surrounding-view images is an exciting development in the field of autonomous driving, following the success of Bird's Eye View (BEV) perception. This task provides crucial 3D attributes of the driving environment, enhancing the overall understanding and perception of the surrounding space. In this work, we present a simple framework for 3D occupancy estimation, which is a CNN-based framework designed to reveal several key factors for 3D occupancy estimation, such as network design, optimization, and evaluation. In addition, we explore the relationship between 3D occupancy estimation and other related tasks, such as monocular depth estimation and 3D reconstruction, which could advance the study of 3D perception in autonomous driving. For evaluation, we propose a simple sampling strategy to define the metric for occupancy evaluation, which is flexible for current public datasets. Moreover, we establish the benchmark in terms of the depth estimation metric, where we compare our proposed method with monocular depth estimation methods on the DDAD and Nuscenes datasets and achieve competitive performance. The relevant code will be updated in https://github.com/GANWANSHUI/SimpleOccupancy. | 翻訳日:2023-11-22 20:14:41 公開日:2023-11-17 |
# Edit-A-Video:Object-Aware Consistencyによるシングルビデオ編集 Edit-A-Video: Single Video Editing with Object-Aware Consistency ( http://arxiv.org/abs/2303.07945v4 ) ライセンス: Link先を確認 | Chaehun Shin, Heeseung Kim, Che Hyun Lee, Sang-gil Lee, Sungroh Yoon | (参考訳) 近年,テキスト・ツー・ビデオ(TTV)モデルが顕著な成功を収めているにもかかわらず,ビデオ編集の拡張に対するTTVへのアプローチはほとんどない。
拡散に基づくテキスト・ツー・イメージ(tti)モデルに適応したttvモデルのアプローチに動機づけられ,事前学習されたttiモデルと<text, video>ペアのみを与えられた映像編集フレームワークを提案する。
このフレームワークは、(1)時間的モジュールを付加して2dモデルを3dモデルに拡張し、ソースビデオにチューニングする(2)ソースビデオをノイズに反転させ、ターゲットテキストプロンプトとアテンションマップインジェクションで編集する2段階からなる。
各ステージは、ソースビデオの意味的属性の時間的モデリングと保存を可能にする。
ビデオ編集における重要な課題の1つは、編集に含まれない領域が望ましくない時間変化に悩まされる背景の不整合の問題である。
この問題を軽減するため,sparse-causal blending (sc blending) と呼ばれる新しいマスクブレンディング法を提案する。
従来のマスクブレンディング法を改良して時間的一貫性を反映し,編集対象領域のスムーズな遷移と,未編集領域の時空間的一貫性を実現する。
提案手法は,様々な種類のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,映像編集品質の面でのベースラインと比較し,提案手法の優位性を示す。 Despite the fact that text-to-video (TTV) model has recently achieved remarkable success, there have been few approaches on TTV for its extension to video editing. Motivated by approaches on TTV models adapting from diffusion-based text-to-image (TTI) models, we suggest the video editing framework given only a pretrained TTI model and a single <text, video> pair, which we term Edit-A-Video. The framework consists of two stages: (1) inflating the 2D model into the 3D model by appending temporal modules and tuning on the source video (2) inverting the source video into the noise and editing with target text prompt and attention map injection. Each stage enables the temporal modeling and preservation of semantic attributes of the source video. One of the key challenges for video editing include a background inconsistency problem, where the regions not included for the edit suffer from undesirable and inconsistent temporal alterations. To mitigate this issue, we also introduce a novel mask blending method, termed as sparse-causal blending (SC Blending). We improve previous mask blending methods to reflect the temporal consistency so that the area where the editing is applied exhibits smooth transition while also achieving spatio-temporal consistency of the unedited regions. We present extensive experimental results over various types of text and videos, and demonstrate the superiority of the proposed method compared to baselines in terms of background consistency, text alignment, and video editing quality. | 翻訳日:2023-11-22 20:14:21 公開日:2023-11-17 |
# 量子エンハンス型 greedy combinatorial optimization solver Quantum-Enhanced Greedy Combinatorial Optimization Solver ( http://arxiv.org/abs/2303.05509v2 ) ライセンス: Link先を確認 | Maxime Dupont, Bram Evert, Mark J. Hodson, Bhuvanesh Sundar, Stephen Jeffrey, Yuki Yamaguchi, Dennis Feng, Filip B. Maciejewski, Stuart Hadfield, M. Sohaib Alam, Zhihui Wang, Shon Grabbe, P. Aaron Lott, Eleanor G. Rieffel, Davide Venturelli, Matthew J. Reagor | (参考訳) 組合せ最適化は潜在的な量子アドバンテージにとって広く魅力的な分野だが、量子アルゴリズムがまだ飛躍を遂げていない。
量子ハードウェアのノイズは依然として課題であり、より洗練された量子古典アルゴリズムは性能を向上させるために必要である。
本稿では,組合せ最適化問題を解くための反復的量子ヒューリスティック最適化アルゴリズムを提案する。
量子アルゴリズムは、強い雑音の存在下で古典的なグリーディアルゴリズムに還元される。
72量子ビットまでの量子ビットを用いたプログラム可能な超伝導量子システム上で量子アルゴリズムを実装し、シェリントン・カークパトリックのスピンガラス問題を解く。
量子アルゴリズムは古典的な欲求よりも体系的に優れており、量子エンハンスメントのシグナルとなる。
さらに,最先端の半定値プログラミング手法に匹敵する絶対性能を観測する。
このアルゴリズムの古典的なシミュレーションは、量子優位に達するための重要な課題が量子デバイス特性の改善であることを示している。 Combinatorial optimization is a broadly attractive area for potential quantum advantage, but no quantum algorithm has yet made the leap. Noise in quantum hardware remains a challenge, and more sophisticated quantum-classical algorithms are required to bolster their performance. Here, we introduce an iterative quantum heuristic optimization algorithm to solve combinatorial optimization problems. The quantum algorithm reduces to a classical greedy algorithm in the presence of strong noise. We implement the quantum algorithm on a programmable superconducting quantum system using up to 72 qubits for solving paradigmatic Sherrington-Kirkpatrick Ising spin glass problems. We find the quantum algorithm systematically outperforms its classical greedy counterpart, signaling a quantum enhancement. Moreover, we observe an absolute performance comparable with a state-of-the-art semidefinite programming method. Classical simulations of the algorithm illustrate that a key challenge to reaching quantum advantage remains improving the quantum device characteristics. | 翻訳日:2023-11-22 20:13:07 公開日:2023-11-17 |
# フェデレーション学習を用いた映画推薦のためのプライバシー保護システム A Privacy Preserving System for Movie Recommendations Using Federated Learning ( http://arxiv.org/abs/2303.04689v2 ) ライセンス: Link先を確認 | David Neumann, Andreas Lutz, Karsten M\"uller, Wojciech Samek | (参考訳) 過去数年間、レコメンダシステムはユビキタスになってきた。
多くのユーザーが直面する選択の専横を解消し、多くのオンラインビジネスがエンゲージメントと販売を促進するために利用している。
ソーシャルネットワーク内でフィルターバブルを作成するなど、他の批判に加えて、レコメンダシステムは大量の個人データを集めるためにしばしば証明される。
しかし、レコメンデーションをパーソナライズするには、個人情報が不可欠である。
フェデレートラーニング(Federated Learning)と呼ばれる最近の分散学習方式により,集中的な収集なしに個人データから学習できるようになった。
第一に、第一に、フェデレーション学習を用いてトレーニングされており、その性質上、プライバシーを保護しつつ、ユーザはグローバルな洞察から恩恵を受けられるようにしています。
さらに、FedQと呼ばれる新しいフェデレーション学習方式が採用され、非i-d-nessや小さなローカルデータセットの問題に対処するだけでなく、クライアント更新を早期に集約することで入力データ再構成攻撃を防止する。
最後に、通信オーバーヘッドを低減するために圧縮を適用し、交換されたニューラルネットワークのパラメータ化を元のサイズのごく一部に大幅に圧縮する。
量子化の欠如によってデータのプライバシも向上する可能性があると推測する。 Recommender systems have become ubiquitous in the past years. They solve the tyranny of choice problem faced by many users, and are utilized by many online businesses to drive engagement and sales. Besides other criticisms, like creating filter bubbles within social networks, recommender systems are often reproved for collecting considerable amounts of personal data. However, to personalize recommendations, personal information is fundamentally required. A recent distributed learning scheme called federated learning has made it possible to learn from personal user data without its central collection. Consequently, we present a recommender system for movie recommendations, which provides privacy and thus trustworthiness on multiple levels: First and foremost, it is trained using federated learning and thus, by its very nature, privacy-preserving, while still enabling users to benefit from global insights. Furthermore, a novel federated learning scheme, called FedQ, is employed, which not only addresses the problem of non-i.i.d.-ness and small local datasets, but also prevents input data reconstruction attacks by aggregating client updates early. Finally, to reduce the communication overhead, compression is applied, which significantly compresses the exchanged neural network parametrizations to a fraction of their original size. We conjecture that this may also improve data privacy through its lossy quantization stage. | 翻訳日:2023-11-22 20:12:53 公開日:2023-11-17 |
# Bespoke: 低コストデプロイメントのためのブロックレベルニューラルネットワーク最適化フレームワーク Bespoke: A Block-Level Neural Network Optimization Framework for Low-Cost Deployment ( http://arxiv.org/abs/2303.01913v2 ) ライセンス: Link先を確認 | Jong-Ryul Lee and Yong-Hyuk Moon | (参考訳) ディープラーニングモデルが普及するにつれて、さまざまなデバイス環境にデプロイする必要がある。
ニューラルネットワークを各環境向けに開発・最適化するのは費用がかかるため、複数のターゲット環境に対して効率的にニューラルネットワークを探索するための一連の研究がある。
しかし、このような状況に対する既存の作業は、多くのgpuと高価なコストを必要とする。
そこで我々は,低コストデプロイメントのための新しいニューラルネットワーク最適化フレームワークBespokeを提案する。
私たちのフレームワークは、トレーニング済みのニューラルネットワークまたはオリジナルのモデルから得られる、ランダムに選択された代替品に元のモデルの一部を置き換えることで、軽量なモデルを検索します。
実用的な意味では、bespokeには2つの大きなメリットがある。
ひとつは、ニューラルネットワークの検索空間を設計するのに、ほぼゼロコストを必要とすることだ。
もう1つのメリットは、公開事前訓練されたニューラルネットワークのサブネットワークを利用することだ。
我々はbespokeのメリットを探求する実験を行い,その結果,複数のターゲットに対する効率的なモデルを見出すことができた。 As deep learning models become popular, there is a lot of need for deploying them to diverse device environments. Because it is costly to develop and optimize a neural network for every single environment, there is a line of research to search neural networks for multiple target environments efficiently. However, existing works for such a situation still suffer from requiring many GPUs and expensive costs. Motivated by this, we propose a novel neural network optimization framework named Bespoke for low-cost deployment. Our framework searches for a lightweight model by replacing parts of an original model with randomly selected alternatives, each of which comes from a pretrained neural network or the original model. In the practical sense, Bespoke has two significant merits. One is that it requires near zero cost for designing the search space of neural networks. The other merit is that it exploits the sub-networks of public pretrained neural networks, so the total cost is minimal compared to the existing works. We conduct experiments exploring Bespoke's the merits, and the results show that it finds efficient models for multiple targets with meager cost. | 翻訳日:2023-11-22 20:10:38 公開日:2023-11-17 |
# 衣服交換者再識別のためのアイデンティティガイド型協調学習 Identity-Guided Collaborative Learning for Cloth-Changing Person Reidentification ( http://arxiv.org/abs/2304.04400v2 ) ライセンス: Link先を確認 | Zan Gao, Shenxun Wei, Weili Guan, Lei Zhu, Meng Wang, Shenyong Chen | (参考訳) 衣服交換者再識別(ReID)は,布地や歩行者の視界・場所の変化による大きな特徴変化の問題に対処することを目的とした,新たな研究課題である。
余分な情報(例えば、人間の輪郭スケッチ情報、人体キーポイント、および3D人体情報)を導入することで大きな進歩を遂げてきたが、印象的な歩行者表現のため、着替え人ReIDは依然として困難である。
また、人間の意味情報や歩行者の身元情報も十分に検討されていない。
これらの課題を解決するために,人間のセマンティクスを十分に活用し,そのアイデンティティを変更不能にし,協調学習をガイドする,新しいID誘導型協調学習手法(IGCL)を提案する。
まず,衣服の注意と中級協調学習を取り入れた衣服情報による干渉を合理的に低減するために,新しい衣服注意劣化ストリームを設計する。
第2に,人間の意味情報を強調し,同一人物の異なるポーズをシミュレートするヒューマンセマンティクス・アテンションとボディ・ジグソート・ストリームを提案する。
このようにして、抽出機能は、背景と無関係な人間の意味情報だけでなく、歩行者のポーズのバリエーションにも適している。
さらに、歩行者のアイデンティティ強化ストリームを提案し、アイデンティティの重要性を高め、より好ましいアイデンティティロバストな特徴を抽出する。
最も重要なことは、これらのストリームはすべてエンドツーエンドの統一フレームワークで共同で探索され、そのIDを使用して最適化を導くことである。
5人の一般衣料者のReIDデータセットに対する大規模な実験により、提案したIGCLはSOTA法を著しく上回り、抽出された特徴はより堅牢で、差別的で、衣服に無関係であることが示された。 Cloth-changing person reidentification (ReID) is a newly emerging research topic that is aimed at addressing the issues of large feature variations due to cloth-changing and pedestrian view/pose changes. Although significant progress has been achieved by introducing extra information (e.g., human contour sketching information, human body keypoints, and 3D human information), cloth-changing person ReID is still challenging due to impressionable pedestrian representations. Moreover, human semantic information and pedestrian identity information are not fully explored. To solve these issues, we propose a novel identity-guided collaborative learning scheme (IGCL) for cloth-changing person ReID, where the human semantic is fully utilized and the identity is unchangeable to guide collaborative learning. First, we design a novel clothing attention degradation stream to reasonably reduce the interference caused by clothing information where clothing attention and mid-level collaborative learning are employed. Second, we propose a human semantic attention and body jigsaw stream to highlight the human semantic information and simulate different poses of the same identity. In this way, the extraction features not only focus on human semantic information that is unrelated to the background but also are suitable for pedestrian pose variations. Moreover, a pedestrian identity enhancement stream is further proposed to enhance the identity importance and extract more favorable identity robust features. Most importantly, all these streams are jointly explored in an end-to-end unified framework, and the identity is utilized to guide the optimization. Extensive experiments on five public clothing person ReID datasets demonstrate that the proposed IGCL significantly outperforms SOTA methods and that the extracted feature is more robust, discriminative, and clothing-irrelevant. | 翻訳日:2023-11-22 20:02:27 公開日:2023-11-17 |
# 文献レビューのための階層的カタログ生成:ベンチマーク Hierarchical Catalogue Generation for Literature Review: A Benchmark ( http://arxiv.org/abs/2304.03512v3 ) ライセンス: Link先を確認 | Kun Zhu, Xiaocheng Feng, Xiachong Feng, Yingsheng Wu and Bing Qin | (参考訳) 科学文献レビュー生成は、豊富な参考論文の収集から重要な情報を抽出し整理することを目的としており、明確で論理的な階層性に欠けながら対応するレビューを作成する。
高品質なカタログ誘導生成プロセスは,この問題を効果的に解消することができる。
そこで本稿では,レビュー論文の階層的カタログを作成することを目的とした,レビュー作成のための第1ステップとして,階層的カタログ生成(hierarchical Catalogue Generation for Literature Review)という原子的かつ困難なタスクを提案する。
7.6kの文献レビューカタログと389kの参考論文からなる,新しい英語階層的文献レビューカタログを構築した。
モデル性能を正確に評価するために,セマンティクスと構造から根拠真理と類似性を判断するための2つの評価指標を設計・評価し,データセットの高品質と評価指標の有効性を検証する。
さらに、BARTのような最先端の要約モデルとChatGPTのような大規模言語モデルに関する様々な実験をベンチマークして、その能力を評価する。
この課題が今後の研究を動機づける可能性についてさらに議論する。 Scientific literature review generation aims to extract and organize important information from an abundant collection of reference papers and produces corresponding reviews while lacking a clear and logical hierarchy. We observe that a high-quality catalogue-guided generation process can effectively alleviate this problem. Therefore, we present an atomic and challenging task named Hierarchical Catalogue Generation for Literature Review as the first step for review generation, which aims to produce a hierarchical catalogue of a review paper given various references. We construct a novel English Hierarchical Catalogues of Literature Reviews Dataset with 7.6k literature review catalogues and 389k reference papers. To accurately assess the model performance, we design two evaluation metrics for informativeness and similarity to ground truth from semantics and structure.Our extensive analyses verify the high quality of our dataset and the effectiveness of our evaluation metrics. We further benchmark diverse experiments on state-of-the-art summarization models like BART and large language models like ChatGPT to evaluate their capabilities. We further discuss potential directions for this task to motivate future research. | 翻訳日:2023-11-22 20:01:55 公開日:2023-11-17 |
# ワンウェイ関数によるタンパ耐性公開鍵を用いた量子公開鍵暗号 Quantum Public-Key Encryption with Tamper-Resilient Public Keys from One-Way Functions ( http://arxiv.org/abs/2304.01800v3 ) ライセンス: Link先を確認 | Fuyuki Kitagawa, Tomoyuki Morimae, Ryo Nishimaki, Takashi Yamakawa | (参考訳) 量子公開鍵暗号を一方向関数から構築する。
私たちの構成では、公開鍵は量子ですが、暗号文は古典的です。
ワンウェイ関数(または擬似ランダム関数のような弱いプリミティブ)からの量子公開鍵暗号も近年の著作(森前-山川, eprint:2022/1336, Coladangelo, eprint:2023/282, Barooti-Grilo-Malavolta-Sattath-Vu-Walter, eprint:2023/877)で提案されている。
しかし、それらには大きな欠点がある: 量子公開鍵が送信者(暗号化アルゴリズムを実行する)に送信され、相手に邪魔されることなく、セキュアな量子チャネルのような不満足な物理設定の仮定を必要とする場合にのみ、安全である。
たとえ認証されていない量子チャネルのみを仮定しても、暗号化されたメッセージの秘密を保証します。
したがって、暗号化は敵対的に改ざんされた量子公開鍵で行われる。
我々の構築は、一方向関数のみに基づいて、安全でないチャネル上でセキュアな通信を確立するという、古典的な公開鍵暗号の目標を達成する最初の量子公開鍵暗号である。
さらに,選択された平文攻撃(CPAセキュリティ)に対するセキュリティを,一方の関数のみを用いた選択暗号攻撃(CCAセキュリティ)に対するセキュリティにアップグレードする汎用コンパイラを示す。
その結果,一方の関数のみに基づくCCAセキュアな量子公開鍵暗号が得られた。 We construct quantum public-key encryption from one-way functions. In our construction, public keys are quantum, but ciphertexts are classical. Quantum public-key encryption from one-way functions (or weaker primitives such as pseudorandom function-like states) are also proposed in some recent works [Morimae-Yamakawa, eprint:2022/1336; Coladangelo, eprint:2023/282; Barooti-Grilo-Malavolta-Sattath-Vu-Walter, eprint:2023/877]. However, they have a huge drawback: they are secure only when quantum public keys can be transmitted to the sender (who runs the encryption algorithm) without being tampered with by the adversary, which seems to require unsatisfactory physical setup assumptions such as secure quantum channels. Our construction is free from such a drawback: it guarantees the secrecy of the encrypted messages even if we assume only unauthenticated quantum channels. Thus, the encryption is done with adversarially tampered quantum public keys. Our construction is the first quantum public-key encryption that achieves the goal of classical public-key encryption, namely, to establish secure communication over insecure channels, based only on one-way functions. Moreover, we show a generic compiler to upgrade security against chosen plaintext attacks (CPA security) into security against chosen ciphertext attacks (CCA security) only using one-way functions. As a result, we obtain CCA secure quantum public-key encryption based only on one-way functions. | 翻訳日:2023-11-22 20:01:38 公開日:2023-11-17 |
# GPT-4は韓国の医師免許試験に合格できる GPT-4 can pass the Korean National Licensing Examination for Korean Medicine Doctors ( http://arxiv.org/abs/2303.17807v2 ) ライセンス: Link先を確認 | Dongyeop Jang, Tae-Rim Yun, Choong-Yeol Lee, Young-Kyu Kwon, Chang-Eop Kim | (参考訳) 伝統朝鮮医学(tkm)は個別診断と治療を強調する。
このユニークさは、限られたデータと暗黙のプロセスのために、AIモデリングを難しくする。
大規模言語モデル(LLM)は、医学的テキストの高度な訓練がなくても、印象的な医学的推論を示す。
本研究は,韓国医学会(K-NLEKMD)をベンチマークとして,TKMにおけるGPT-4の能力を評価した。
国家機関によって管理されているK-NLEKMDは、TKMの主要な12の被験者を含んでいる。
我々は,中国語の長期アノテーション,質問と指導のための英語翻訳,試験最適化指導,自己整合性を最適化した。
最適化されたプロンプトを持つGPT-4は66.18%の精度を達成し、各被験者の平均パスマークが60%、最低40%を上回った。
言語関連プロンプトの段階的な導入とプロンプト技術により、精度は51.82%から最大精度まで向上した。
gpt-4は,韓国でローカライズされた公衆衛生・医療関連法,内科的医療(2),tkmなどにおいて低い精度を示した。
このモデルの精度は、TKM特化知識を必要とする質問に対して低かった。
診断に基づく質問とリコールに基づく質問は,介入に基づく質問よりも高い精度を示した。
gpt-4の応答の一貫性と精度との間には正の相関が認められた。
本研究では,TLMをTKMに適用する可能性と課題を明らかにする。
これらの発見は、gpt-4のようなllmの文化的適応医療、特にtkmにおける臨床支援、医学教育、研究における可能性を示すものである。
しかし、彼らはまた、大きな言語モデルに固有の文化的バイアスを緩和し、実際の臨床環境での有効性を検証する方法の開発の必要性も指摘している。 Traditional Korean medicine (TKM) emphasizes individualized diagnosis and treatment. This uniqueness makes AI modeling difficult due to limited data and implicit processes. Large language models (LLMs) have demonstrated impressive medical inference, even without advanced training in medical texts. This study assessed the capabilities of GPT-4 in TKM, using the Korean National Licensing Examination for Korean Medicine Doctors (K-NLEKMD) as a benchmark. The K-NLEKMD, administered by a national organization, encompasses 12 major subjects in TKM. We optimized prompts with Chinese-term annotation, English translation for questions and instruction, exam-optimized instruction, and self-consistency. GPT-4 with optimized prompts achieved 66.18% accuracy, surpassing both the examination's average pass mark of 60% and the 40% minimum for each subject. The gradual introduction of language-related prompts and prompting techniques enhanced the accuracy from 51.82% to its maximum accuracy. GPT-4 showed low accuracy in subjects including public health & medicine-related law, internal medicine (2) which are localized in Korea and TKM. The model's accuracy was lower for questions requiring TKM-specialized knowledge. It exhibited higher accuracy in diagnosis-based and recall-based questions than in intervention-based questions. A positive correlation was observed between the consistency and accuracy of GPT-4's responses. This study unveils both the potential and challenges of applying LLMs to TKM. These findings underline the potential of LLMs like GPT-4 in culturally adapted medicine, especially TKM, for tasks such as clinical assistance, medical education, and research. But they also point towards the necessity for the development of methods to mitigate cultural bias inherent in large language models and validate their efficacy in real-world clinical settings. | 翻訳日:2023-11-22 20:01:06 公開日:2023-11-17 |
# 実用的マルチビューシナリオにおける自己教師付きクラスタリングアルゴリズムに対するノイズビューの副作用の調査と軽減 Investigating and Mitigating the Side Effects of Noisy Views for Self-Supervised Clustering Algorithms in Practical Multi-View Scenarios ( http://arxiv.org/abs/2303.17245v3 ) ライセンス: Link先を確認 | Jie Xu, Yazhou Ren, Xiaolong Wang, Lei Feng, Zheng Zhang, Gang Niu, Xiaofeng Zhu | (参考訳) マルチビュークラスタリング(MVC)は,マルチビューデータのカテゴリ構造を自己管理的に探索することを目的としている。
複数のビューは単一のビューよりも多くの情報を提供するので、既存のmvcメソッドは十分なパフォーマンスを実現できます。
しかし、実際のマルチビューシナリオでは、ビューが騒がしい場合、パフォーマンスが著しく低下する可能性がある。
本稿ではまず,まずノイズの多いビューの欠点を正式に検討し,その問題に対処するための理論的に基礎を成したディープMVC法(MVAN)を提案する。
具体的には,複数のビューにまたがる非共有パラメータと一貫性のないクラスタリング予測を可能にし,ノイズの多いビューの副作用を低減する新しいmvcの目的を提案する。
さらに、2段階のマルチビュー反復最適化は、個々のビューの表現学習を洗練するための堅牢な学習目標を生成するように設計されている。
理論的解析により、mvcanはマルチビュー一貫性、相補性、ノイズロバスト性を達成することで機能する。
最後に、大規模な公開データセットの実験により、MVCANは最先端のメソッドよりも優れており、ノイズの多いビューの存在に対して堅牢であることが示された。 Multi-view clustering (MVC) aims at exploring category structures among multi-view data in self-supervised manners. Multiple views provide more information than single views and thus existing MVC methods can achieve satisfactory performance. However, their performance might seriously degenerate when the views are noisy in practical multi-view scenarios. In this paper, we first formally investigate the drawback of noisy views and then propose a theoretically grounded deep MVC method (namely MVCAN) to address this issue. Specifically, we propose a novel MVC objective that enables un-shared parameters and inconsistent clustering predictions across multiple views to reduce the side effects of noisy views. Furthermore, a two-level multi-view iterative optimization is designed to generate robust learning targets for refining individual views' representation learning. Theoretical analysis reveals that MVCAN works by achieving the multi-view consistency, complementarity, and noise robustness. Finally, experiments on extensive public datasets demonstrate that MVCAN outperforms state-of-the-art methods and is robust against the existence of noisy views. | 翻訳日:2023-11-22 19:59:55 公開日:2023-11-17 |
# いつクリティカルになるの?
ニューラルイジング剤の各種系における性能と進化性 When to be critical? Performance and evolvability in different regimes of neural Ising agents ( http://arxiv.org/abs/2303.16195v3 ) ライセンス: Link先を確認 | Sina Khajehabdollahi, Jan Prosi, Emmanouil Giannakakis, Georg Martius, Anna Levina | (参考訳) 臨界状態に近い状態での運用は、自然、人工、進化システムにとって有益である、という仮説が長い間立てられてきた。
我々はこの仮説を、進化を通してエージェントの動的状態に適応できるニューラルネットワークによって制御される進化的捕食エージェントのシステムでテストする。
驚くべきことに、ソリューションを発見するすべての人口は、亜臨界状態へと進化する。
レジリエンス分析により、重要な体制で進化を始める利点がまだ残っていることが分かる。
すなわち、初期の臨界剤は環境の変化(例えば寿命)下での適合度を維持し、ゲノムが乱れたときに優雅に分解する。
同時に、初期の亜臨界物質は、同じ適合性へと進化しても、しばしば寿命の変化に耐えられず、遺伝的摂動によって破滅的に劣化する。
さらに、臨界度に対する最適距離は、タスクの複雑さに依存する。
ハードタスクの場合、エージェントは臨界に近い方向に進化しますが、単純なタスクにはもっとサブクリティカルなソリューションが見られます。
その結果, 遺伝的アルゴリズムと進化戦略の2つのアプローチを用いて, 選択した進化機構から独立していることを確認した。
結論として,単純なタスクにおける最適動作はサブクリティカルな方法では得られるが,未知の複雑性を持つ新しいタスクの最適解を見つける上では,臨界に近い初期化が効率的であることが示唆された。 It has long been hypothesized that operating close to the critical state is beneficial for natural, artificial and their evolutionary systems. We put this hypothesis to test in a system of evolving foraging agents controlled by neural networks that can adapt agents' dynamical regime throughout evolution. Surprisingly, we find that all populations that discover solutions, evolve to be subcritical. By a resilience analysis, we find that there are still benefits of starting the evolution in the critical regime. Namely, initially critical agents maintain their fitness level under environmental changes (for example, in the lifespan) and degrade gracefully when their genome is perturbed. At the same time, initially subcritical agents, even when evolved to the same fitness, are often inadequate to withstand the changes in the lifespan and degrade catastrophically with genetic perturbations. Furthermore, we find the optimal distance to criticality depends on the task complexity. To test it we introduce a hard and simple task: for the hard task, agents evolve closer to criticality whereas more subcritical solutions are found for the simple task. We verify that our results are independent of the selected evolutionary mechanisms by testing them on two principally different approaches: a genetic algorithm and an evolutionary strategy. In summary, our study suggests that although optimal behaviour in the simple task is obtained in a subcritical regime, initializing near criticality is important to be efficient at finding optimal solutions for new tasks of unknown complexity. | 翻訳日:2023-11-22 19:59:08 公開日:2023-11-17 |
# 良いスパース一般化付加モデルによる探索と相互作用 Exploring and Interacting with the Set of Good Sparse Generalized Additive Models ( http://arxiv.org/abs/2303.16047v3 ) ライセンス: Link先を確認 | Chudi Zhong, Zhi Chen, Jiachang Liu, Margo Seltzer, Cynthia Rudin | (参考訳) 実際のアプリケーションでは、機械学習モデルとドメインエキスパートの相互作用が重要であるが、通常は単一のモデルのみを生成する古典的な機械学習パラダイムはそのような相互作用を促進するものではない。
ラショモン集合の近似と探索、すなわちすべての近似最適化モデルの集合は、ドメインの専門家が選択できる多様なモデルの集合を含む検索可能な空間をユーザに提供することで、この実用的な課題に対処できる。
固定支持集合にエリプソイドを付加したスパース・一般化加法モデルを効率よく精度よく近似し、これらのエリプソイドを用いて多数の異なる支持集合にラショウモン集合を近似するアルゴリズムを提案する。
近似ラショモン集合は,(1)モデルクラスにおける変数重要度の研究,(2)ユーザ指定制約(単調性,直接編集)下でのモデルの発見,(3)突然の形状関数の変化など,実用上の課題を解決するための基礎となる。
近似ラショモン集合の忠実性とその実用的課題解決効果を実証する実験を行った。 In real applications, interaction between machine learning models and domain experts is critical; however, the classical machine learning paradigm that usually produces only a single model does not facilitate such interaction. Approximating and exploring the Rashomon set, i.e., the set of all near-optimal models, addresses this practical challenge by providing the user with a searchable space containing a diverse set of models from which domain experts can choose. We present algorithms to efficiently and accurately approximate the Rashomon set of sparse, generalized additive models with ellipsoids for fixed support sets and use these ellipsoids to approximate Rashomon sets for many different support sets. The approximated Rashomon set serves as a cornerstone to solve practical challenges such as (1) studying the variable importance for the model class; (2) finding models under user-specified constraints (monotonicity, direct editing); and (3) investigating sudden changes in the shape functions. Experiments demonstrate the fidelity of the approximated Rashomon set and its effectiveness in solving practical challenges. | 翻訳日:2023-11-22 19:58:22 公開日:2023-11-17 |
# スペシャリストの原理の証明 A Proof of Specker's Principle ( http://arxiv.org/abs/2305.07917v2 ) ライセンス: Link先を確認 | Guido Bacciagaluppi | (参考訳) スペクターの原理、対の直交命題は共同直交でなければならないという条件は、量子力学を特徴づける物理原理を見つけるプログラムの中で、近年広く研究されている。
しかし、透明な正当性が欠けていることがほとんどである。
本稿では,最大エンタングルメントの存在,非最大測定の存在,および符号付けの3つの仮定から,スペクトルの原理を導出する。
これら3つの仮定について議論し、2つの命題を満たす非Specker集合の正準例を記述する。
これらの例は、量子力学の解釈における様々なアプローチ、特にレトロカウセーションに基づく類似性を示す。
また、ポープスクやローリッヒの作品との関係についても論じる。
証明の核心(そして、署名の禁止に違反する主な例)は、私が紙を開く『ニーネヴェのシーザー』というスペクターの物語の変種によって説明されている。 Specker's principle, the condition that pairwise orthogonal propositions must be jointly orthogonal, has been much investigated recently within the programme of finding physical principles to characterise quantum mechanics. It largely appears, however, to lack a transparent justification. In this paper, I provide a derivation of Specker's principle from three assumptions (made suitably precise): the existence of maximal entanglement, the existence of non-maximal measurements, and no-signalling. I discuss these three assumptions and describe canonical examples of non-Specker sets of propositions satisfying any two of them. These examples display analogies with various approaches in the interpretation of quantum mechanics, notably ones based on retrocausation. I also discuss connections with the work of Popescu and Rohrlich. The core of the proof (and the main example violating no-signalling) is illustrated by a variant of Specker's tale of the seer of Nineveh, with which I open the paper. | 翻訳日:2023-11-22 19:50:50 公開日:2023-11-17 |
# 量子アウェアトランスによる構造計測からの量子状態のトモグラフィー Tomography of Quantum States from Structured Measurements via quantum-aware transformer ( http://arxiv.org/abs/2305.05433v2 ) ライセンス: Link先を確認 | Hailan Ma, Zhenhong Sun, Daoyi Dong, Chunlin Chen, Herschel Rabitz | (参考訳) 量子状態トモグラフィ(quantum state tomography, QST)とは、量子系の状態(数学的に密度行列と呼ばれる)を一連の異なる測定によって再構成する過程であり、パラメータ化関数を学習して、実験的に測定された統計データを物理密度行列に変換することで解決できる。
しかし、量子状態の特徴付けのための量子測定の特定の構造は、以前の研究では無視されている。
本稿では,自然言語における高構造化文と,qstにおける本質的構造化文の類似性について検討する。
QSTの固有量子特性をフル活用するために、測定周波数と密度行列の複雑な関係を捉える量子認識変換器(QAT)モデルを設計する。
特に、量子データの情報表現を容易にするため、アーキテクチャ内の量子演算子にクエリし、バーズ距離を損失関数に統合して量子状態の忠実性を評価することにより、高忠実度で測定されたデータから量子状態の再構成を可能にする。
大規模なシミュレーションと実験(IBM量子コンピュータ)は、実験ノイズに対する良好な堅牢性を持つ量子状態の再構成におけるQATの優位性を実証している。 Quantum state tomography (QST) is the process of reconstructing the state of a quantum system (mathematically described as a density matrix) through a series of different measurements, which can be solved by learning a parameterized function to translate experimentally measured statistics into physical density matrices. However, the specific structure of quantum measurements for characterizing a quantum state has been neglected in previous work. In this paper, we explore the similarity between highly structured sentences in natural language and intrinsically structured measurements in QST. To fully leverage the intrinsic quantum characteristics involved in QST, we design a quantum-aware transformer (QAT) model to capture the complex relationship between measured frequencies and density matrices. In particular, we query quantum operators in the architecture to facilitate informative representations of quantum data and integrate the Bures distance into the loss function to evaluate quantum state fidelity, thereby enabling the reconstruction of quantum states from measured data with high fidelity. Extensive simulations and experiments (on IBM quantum computers) demonstrate the superiority of the QAT in reconstructing quantum states with favorable robustness against experimental noise. | 翻訳日:2023-11-22 19:50:16 公開日:2023-11-17 |
# MSVQ: 複数のサンプルビューとキューによる自己監督型学習 MSVQ: Self-Supervised Learning with Multiple Sample Views and Queues ( http://arxiv.org/abs/2305.05370v2 ) ライセンス: Link先を確認 | Chen Peng and Xianzhong Long and Yun Li | (参考訳) 対照的な学習に基づく自己指導手法は、教師なし視覚表現学習において大きな成功を収めた。
しかし、このフレームワークのほとんどのメソッドは偽陰性のサンプルの問題に苦しんでいる。
自己教師型学習における平均シフトに着想を得て,複数サンプルビューとキュー(MSVQ)という,新しいシンプルなフレームワークを提案する。
我々は,2つの相補的および対称的アプローチ,つまり,複数の拡張正のビューと2つの運動量エンコーダを併用して3つのソフトラベルをオンザフライで構築する。
2つの教師ネットワークは、負のサンプルで類似度関係の計算を行い、その知識を学生ネットワークに転送する。
学生ネットワークは、サンプル間の類似性関係を模倣するので、学生ネットワークはデータセット内の偽陰性サンプルをより柔軟に識別できる。
4つのベンチマーク画像データセットの分類結果から,従来の手法と比較して高い有効性と効率を示す。
ソースコードと事前トレーニングされたモデルは、 \href{https://github.com/pc-cp/msvq}{here} で利用可能である。 Self-supervised methods based on contrastive learning have achieved great success in unsupervised visual representation learning. However, most methods under this framework suffer from the problem of false negative samples. Inspired by the mean shift for self-supervised learning, we propose a new simple framework, namely Multiple Sample Views and Queues (MSVQ). We jointly construct three soft labels on-the-fly by utilizing two complementary and symmetric approaches: multiple augmented positive views and two momentum encoders that generate various semantic features for negative samples. Two teacher networks perform similarity relationship calculations with negative samples and then transfer this knowledge to the student network. Let the student network mimic the similarity relationships between the samples, thus giving the student network a more flexible ability to identify false negative samples in the dataset. The classification results on four benchmark image datasets demonstrate the high effectiveness and efficiency of our approach compared to some classical methods. Source code and pretrained models are available \href{https://github.com/pc-cp/MSVQ}{here}. | 翻訳日:2023-11-22 19:49:54 公開日:2023-11-17 |
# 高次Annealed Langevin拡散を用いた線形逆問題の解法 Solving Linear Inverse Problems using Higher-Order Annealed Langevin Diffusion ( http://arxiv.org/abs/2305.05014v2 ) ライセンス: Link先を確認 | Nicolas Zilberstein, Ashutosh Sabharwal, Santiago Segarra | (参考訳) 我々は高次ランゲヴィン拡散に基づく線形逆問題に対する解を提案する。
より正確には、未知の変数の後続分布から確実にサンプリングできる事前条件付き二階および三階ランゲヴィン力学を提案し、その計算効率は、その第一条件と両方の力学の非条件バージョンよりも高い。
さらに, 事前条件付きダイナミクスはどちらも well-defined であり, 非条件付きの場合と同じ一意な不変分布を持つことを証明した。
また,アルゴリズムの収束をさらに加速し,未知変数が離散的な場合に対応するという2つの利点を持つアニーリング手順も取り入れた。
通信における2つの異なるタスク(MIMOシンボルの検出とチャネル推定)と画像に対する3つのタスクの数値実験は、我々の手法の汎用性を示し、計算複雑性を同等あるいは低めながら、競合するアプローチ(学習ベースを含む)と比較して高い性能を示す。 We propose a solution for linear inverse problems based on higher-order Langevin diffusion. More precisely, we propose pre-conditioned second-order and third-order Langevin dynamics that provably sample from the posterior distribution of our unknown variables of interest while being computationally more efficient than their first-order counterpart and the non-conditioned versions of both dynamics. Moreover, we prove that both pre-conditioned dynamics are well-defined and have the same unique invariant distributions as the non-conditioned cases. We also incorporate an annealing procedure that has the double benefit of further accelerating the convergence of the algorithm and allowing us to accommodate the case where the unknown variables are discrete. Numerical experiments in two different tasks in communications (MIMO symbol detection and channel estimation) and in three tasks for images showcase the generality of our method and illustrate the high performance achieved relative to competing approaches (including learning-based ones) while having comparable or lower computational complexity. | 翻訳日:2023-11-22 19:49:38 公開日:2023-11-17 |
# 不確定多変量系の予測モーメント Inferential Moments of Uncertain Multivariable Systems ( http://arxiv.org/abs/2305.01841v2 ) ライセンス: Link先を確認 | Kevin Vanslette | (参考訳) 本稿ではベイズ推論の枠組みを拡張し、情報理論でよく扱われる推論タスクにアプローチするための直接確率的手法を提供する。
我々はベイズ確率の更新をランダムなプロセスとして扱い、推論モーメントと呼ばれる結合確率分布の固有量的特徴を明らかにする。
予測モーメント(inferential moments)は、未取得の情報に応答して、事前分布がどのように更新されるかの形状情報を定量化する。
さらに、統計的モーメントが問題となる推論モーメントであるユニークな確率分布を定量化する。
情報理論の要素と推論理論の関連性を示す推論モーメントの観点から,相互情報の時系列展開を求める。
特に興味深いのは推論偏差であり、これはある変数が他の変数の推論更新に応じて確率の変化を期待するものである。
ベイズネットワークの偏差を解析して意思決定を改善する2つのアプリケーションについて検討する。
提案手法は,認識確率推定値と推定する基底真理確率との間の根平均2乗誤差の点で,類似の欲求情報アルゴリズムを概ね上回っている推論偏差を用いてセンサタスクを探索する単純な欲求アルゴリズムを実装した。 This article expands the framework of Bayesian inference and provides direct probabilistic methods for approaching inference tasks that are typically handled with information theory. We treat Bayesian probability updating as a random process and uncover intrinsic quantitative features of joint probability distributions called inferential moments. Inferential moments quantify shape information about how a prior distribution is expected to update in response to yet to be obtained information. Further, we quantify the unique probability distribution whose statistical moments are the inferential moments in question. We find a power series expansion of the mutual information in terms of inferential moments, which implies a connection between inferential theoretic logic and elements of information theory. Of particular interest is the inferential deviation, which is the expected variation of the probability of one variable in response to an inferential update of another. We explore two applications that analyze the inferential deviations of a Bayesian network to improve decision-making. We implement simple greedy algorithms for exploring sensor tasking using inferential deviations that generally outperform similar greedy mutual information algorithms in terms of root mean squared error between epistemic probability estimates and the ground truth probabilities they are estimating. | 翻訳日:2023-11-22 19:48:24 公開日:2023-11-17 |
# 高精度サロゲートシミュレータと有望候補を用いた逆問題解の拡張 Enhancing Inverse Problem Solutions with Accurate Surrogate Simulators and Promising Candidates ( http://arxiv.org/abs/2304.13860v2 ) ライセンス: Link先を確認 | Akihiro Fujii, Hideki Tsunashima, Yoshihiro Fukuhara, Koji Shimizu, Satoshi Watanabe | (参考訳) 近年,ディープラーニングの逆テクニックが注目されている。
その中でも,ニューラルネットワークサロゲートシミュレータを用いたニューラルアジョイント(na)法は,人工電磁材料(aem)の設計タスクにおいて印象的な性能を示している。
しかし,サロゲートシミュレータの精度がNA法における解に与える影響は未だ不明である。
さらに,サロゲートシミュレータが大きく,計算資源が限られている場合には,十分な最適化を実現することが困難になる。
さらに、工学的観点からの重要性にもかかわらず、制約の下での行動は研究されていない。
本研究では,サロゲートシミュレータの精度が解に与える影響について検討し,サロゲートシミュレータがより正確になればなるほど,解がより良くなることを示した。
そこで我々は,十分な数の解候補を効率的に最適化できるニューラルラグランジアン法(NeuLag)というNA法の拡張法を開発した。
そこで我々はNeuLag法が,大規模かつ高精度なサロゲートシミュレータを用いることで,十分な候補の処理が難しい場合でも最適解を見つけることができることを示した。
NeuLag法のシミュレーション誤差は約1/50であった。
最後に,NAとNeuLagを用いた制約下での最適化を行い,ソフト制約やハード制約による最適化の可能性を確認した。
我々は,大規模かつ高精度なサロゲートシミュレータを必要とする領域において,本手法がポテンシャルを持つと考えている。 Deep-learning inverse techniques have attracted significant attention in recent years. Among them, the neural adjoint (NA) method, which employs a neural network surrogate simulator, has demonstrated impressive performance in the design tasks of artificial electromagnetic materials (AEM). However, the impact of the surrogate simulators' accuracy on the solutions in the NA method remains uncertain. Furthermore, achieving sufficient optimization becomes challenging in this method when the surrogate simulator is large, and computational resources are limited. Additionally, the behavior under constraints has not been studied, despite its importance from the engineering perspective. In this study, we investigated the impact of surrogate simulators' accuracy on the solutions and discovered that the more accurate the surrogate simulator is, the better the solutions become. We then developed an extension of the NA method, named Neural Lagrangian (NeuLag) method, capable of efficiently optimizing a sufficient number of solution candidates. We then demonstrated that the NeuLag method can find optimal solutions even when handling sufficient candidates is difficult due to the use of a large and accurate surrogate simulator. The resimulation errors of the NeuLag method were approximately 1/50 compared to previous methods for three AEM tasks. Finally, we performed optimization under constraint using NA and NeuLag, and confirmed their potential in optimization with soft or hard constraints. We believe our method holds potential in areas that require large and accurate surrogate simulators. | 翻訳日:2023-11-22 19:47:21 公開日:2023-11-17 |
# 複雑な形状の計算流体力学をシミュレートするハイブリッド量子物理学インフォームドニューラルネットワーク Hybrid quantum physics-informed neural networks for simulating computational fluid dynamics in complex shapes ( http://arxiv.org/abs/2304.11247v2 ) ライセンス: Link先を確認 | Alexandr Sedykh, Maninadh Podapaka, Asel Sagingalieva, Karan Pinto, Markus Pflitsch, Alexey Melnikov | (参考訳) 流体の速度と圧力の分布(ナビエ・ストークス方程式の解法によって)を見つけることは、化学、エネルギー、薬品産業、機械工学、パイプラインシステムの設計において主要な仕事である。
OpenFOAMやAnsysのような既存の解法では、複雑な測地における流体力学のシミュレーションは計算コストが高く、幾何学的パラメータや初期条件や境界条件が変更されるたびに再シミュレーションが必要となる。
物理インフォームドニューラルネットワークは複雑な幾何学における流体の流れをシミュレートするための有望なツールであり、幾何やメッシュの定義の変化に適応し、異なる形状の一般化を可能にする。
本稿では3次元Y字ミキサー内の層流をシミュレーションするハイブリッド量子物理学インフォームドニューラルネットワークを提案する。
提案手法では,量子モデルの表現力と物理に変形したニューラルネットワークの柔軟性を組み合わせることで,従来のニューラルネットワークよりも21%高い精度を実現する。
計算流体力学における複雑な形状最適化タスクのための機械学習アプローチ,特にハイブリッド量子物理学インフォームドニューラルネットワークの可能性を明らかにする。
複雑な幾何学における流体シミュレーションの精度を向上させることで、ハイブリッド量子モデルを用いた研究はより効率的で信頼性の高い流体力学解法の開発に寄与する。 Finding the distribution of the velocities and pressures of a fluid (by solving the Navier-Stokes equations) is a principal task in the chemical, energy, and pharmaceutical industries, as well as in mechanical engineering and the design of pipeline systems. With existing solvers, such as OpenFOAM and Ansys, simulations of fluid dynamics in intricate geometries are computationally expensive and require re-simulation whenever the geometric parameters or the initial and boundary conditions are altered. Physics-informed neural networks are a promising tool for simulating fluid flows in complex geometries, as they can adapt to changes in the geometry and mesh definitions, allowing for generalization across different shapes. We present a hybrid quantum physics-informed neural network that simulates laminar fluid flows in 3D Y-shaped mixers. Our approach combines the expressive power of a quantum model with the flexibility of a physics-informed neural network, resulting in a 21% higher accuracy compared to a purely classical neural network. Our findings highlight the potential of machine learning approaches, and in particular hybrid quantum physics-informed neural network, for complex shape optimization tasks in computational fluid dynamics. By improving the accuracy of fluid simulations in complex geometries, our research using hybrid quantum models contributes to the development of more efficient and reliable fluid dynamics solvers. | 翻訳日:2023-11-22 19:45:50 公開日:2023-11-17 |
# 既存のエンド・ツー・エンドのエンティティリンクシステムの公平かつ詳細な評価 A Fair and In-Depth Evaluation of Existing End-to-End Entity Linking Systems ( http://arxiv.org/abs/2305.14937v2 ) ライセンス: Link先を確認 | Hannah Bast and Matthias Hertel and Natalie Prange | (参考訳) 既存のエンティティリンクシステムの評価では、システムが特定のアプリケーションに対してどのように機能するかはほとんど語られません。
これには2つの根本的な理由がある。
ひとつは、多くの評価では(精度、リコール、F1スコアなどの)集計測度のみを使用しており、詳細なエラー分析や結果の綿密な確認は行いません。
もうひとつは、広く使用されているベンチマークのすべてが強いバイアスとアーティファクト、特に名前付きエンティティへの強いフォーカス、他のエンティティの言及として数えられるものの不明または欠落した仕様、あいまいさの扱いの貧弱、特定の種類のエンティティの過剰または不足表現である。
我々は、既存の様々なエンド・ツー・エンドのエンティティリンカをより有意義で公平に評価する。
我々は,その強みと弱みを特徴付け,再現性について報告する。
評価の結果はhttps://elevant.cs.uni-freiburg.de/emnlp2023 で確認できる。
評価は, 上記の問題に対処する2つの新しいベンチマークと同様に, 上記の問題を様々な程度に示す, 広く利用されているベンチマークに基づいて行われる。
新しいベンチマークはhttps://github.com/ad-freiburg/fair-entity-linking-benchmarksで見ることができる。 Existing evaluations of entity linking systems often say little about how the system is going to perform for a particular application. There are two fundamental reasons for this. One is that many evaluations only use aggregate measures (like precision, recall, and F1 score), without a detailed error analysis or a closer look at the results. The other is that all of the widely used benchmarks have strong biases and artifacts, in particular: a strong focus on named entities, an unclear or missing specification of what else counts as an entity mention, poor handling of ambiguities, and an over- or underrepresentation of certain kinds of entities. We provide a more meaningful and fair in-depth evaluation of a variety of existing end-to-end entity linkers. We characterize their strengths and weaknesses and also report on reproducibility aspects. The detailed results of our evaluation can be inspected under https://elevant.cs.uni-freiburg.de/emnlp2023 . Our evaluation is based on several widely used benchmarks, which exhibit the problems mentioned above to various degrees, as well as on two new benchmarks, which address the problems mentioned above. The new benchmarks can be found under https://github.com/ad-freiburg/fair-entity-linking-benchmarks . | 翻訳日:2023-11-22 19:38:57 公開日:2023-11-17 |
# interactiveie:情報抽出性能向上における人間-aiコラボレーションの強み評価に向けて InteractiveIE: Towards Assessing the Strength of Human-AI Collaboration in Improving the Performance of Information Extraction ( http://arxiv.org/abs/2305.14659v2 ) ライセンス: Link先を確認 | Ishani Mondal, Michelle Yuan, Anandhavelu N, Aparna Garimella, Francis Ferraro, Andrew Blair-Stanek, Benjamin Van Durme, Jordan Boyd-Graber | (参考訳) 文書からテンプレートベースの情報抽出を学習することは極めて難しい作業である。
以前のテンプレートベースのIEアプローチでは、ドメインテンプレートの事前認識を前提としていましたが、現実のIEは事前に定義されたスキーマを持っていません。
テンプレートを現実世界の設定で迅速にブートストラップするには、ゼロまたは最小限の監督でドキュメントからテンプレートスロットを誘導する必要がある。
質問応答は情報抽出の目的と交差するため,文書からテンプレートスロットをインジェクトするために自動質問生成を用い,対話IE(InteractiveIE)と呼ばれるプロキシのごく一部が,パフォーマンスをさらに向上させる方法について検討する。
トレーニングデータの取得が高価であるバイオメディカルおよび法的な文書に関する広範な実験は、aiのみのベースラインよりもinteractiveieを使ったパフォーマンス改善の傾向を奨励している。 Learning template based information extraction from documents is a crucial yet difficult task. Prior template-based IE approaches assume foreknowledge of the domain templates; however, real-world IE do not have pre-defined schemas and it is a figure-out-as you go phenomena. To quickly bootstrap templates in a real-world setting, we need to induce template slots from documents with zero or minimal supervision. Since the purpose of question answering intersect with the goal of information extraction, we use automatic question generation to induce template slots from the documents and investigate how a tiny amount of a proxy human-supervision on-the-fly (termed as InteractiveIE) can further boost the performance. Extensive experiments on biomedical and legal documents, where obtaining training data is expensive, reveal encouraging trends of performance improvement using InteractiveIE over AI-only baseline. | 翻訳日:2023-11-22 19:38:12 公開日:2023-11-17 |
# PDP:パラメータフリーで微分可能なプルーニング PDP: Parameter-free Differentiable Pruning is All You Need ( http://arxiv.org/abs/2305.11203v3 ) ライセンス: Link先を確認 | Minsik Cho, Saurabh Adya, Devang Naik | (参考訳) DNNプルーニングは、モデルのサイズを小さくし、推論遅延を改善し、DNNアクセラレータの消費電力を最小化する一般的な方法である。
しかし、既存のアプローチは複雑すぎる、高価すぎる、あるいは不効率すぎるため、様々な視覚/言語タスク、DNNアーキテクチャ、構造化プルーニング制約に対処できない。
本稿では, モデルサイズ, 精度, トレーニングコストの最先端性を提供する, 効率的かつ効果的な列車時プルーニング手法であるパラメータフリー微分可能プルーニング(PDP)を提案する。
PDPはトレーニング中に重量の動的関数を使用して、所定のプルーニング対象に対してパラメータフリーな方法で重量の軟式プルーニングマスクを生成する。
微分可能ではあるが、PDPの単純さと効率性により、様々な視覚や自然言語のタスクに対して最先端のランダム/構造化/チャネルプルーニング結果を提供することができる。
例えば、MobileNet-v1では、PDPは86.6%の間隔で68.2%のトップ-1 ImageNet1kの精度を達成できる。
また、PDPはマルチジェネラル言語推論において83.1%以上の精度が得られ、BERTでは90%の精度が得られたが、既存の手法では81.5%の精度が得られた。
さらに、PDPはN:Mプルーニングやチャネルプルーニングなどの構造化プルーニングにも適用できる。
ResNet18の1:4構造化プルーニングでは、PDPは最先端のImageNet1kの精度を3.6%以上改善した。
ResNet50のチャネルプルーニングでは、PDPは最先端のImageNet1kの精度を0.6%削減した。 DNN pruning is a popular way to reduce the size of a model, improve the inference latency, and minimize the power consumption on DNN accelerators. However, existing approaches might be too complex, expensive or ineffective to apply to a variety of vision/language tasks, DNN architectures and to honor structured pruning constraints. In this paper, we propose an efficient yet effective train-time pruning scheme, Parameter-free Differentiable Pruning (PDP), which offers state-of-the-art qualities in model size, accuracy, and training cost. PDP uses a dynamic function of weights during training to generate soft pruning masks for the weights in a parameter-free manner for a given pruning target. While differentiable, the simplicity and efficiency of PDP make it universal enough to deliver state-of-the-art random/structured/channel pruning results on various vision and natural language tasks. For example, for MobileNet-v1, PDP can achieve 68.2% top-1 ImageNet1k accuracy at 86.6% sparsity, which is 1.7% higher accuracy than those from the state-of-the-art algorithms. Also, PDP yields over 83.1% accuracy on Multi-Genre Natural Language Inference with 90% sparsity for BERT, while the next best from the existing techniques shows 81.5% accuracy. In addition, PDP can be applied to structured pruning, such as N:M pruning and channel pruning. For 1:4 structured pruning of ResNet18, PDP improved the top-1 ImageNet1k accuracy by over 3.6% over the state-of-the-art. For channel pruning of ResNet50, PDP reduced the top-1 ImageNet1k accuracy by 0.6% from the state-of-the-art. | 翻訳日:2023-11-22 19:36:49 公開日:2023-11-17 |
# 拡張短絡による内部ボソニックジョセフソン接合部のスピンスクイーズ Spin squeezing in internal bosonic Josephson junctions via enhanced shortcuts to adiabaticity ( http://arxiv.org/abs/2305.20032v3 ) ライセンス: Link先を確認 | Manuel Odelli, Vladimir M. Stojanovic, Andreas Ruschhaupt | (参考訳) 2つの異なる超微細構造を持つ原子間の時間依存非線形結合強度を持つ内部ボソニックジョセフソン接合において、スピン配列状態の時間効率とロバストな合成について検討した。
本稿では,最近提案された量子制御プロトコルを,拡張STA(eSTA)法として解析的に修正した。
本稿では,コヒーレントスピンスキーズパラメータと数スキーズパラメータの時間依存性と目標状態忠実度を評価することにより,状態準備過程を特徴付ける。
また,eSTA法を用いて得られた状態準備時間は,従来提案されていた手法と比較した。
また、eSTAアプローチのロバスト性(STAアプローチと比較して)の増加は、ボソニックジョセフソン接合における強スピンスキーズ状態の実験的実現のさらなる利点をもたらすことを示した。 We investigate a time-efficient and robust preparation of spin-squeezed states -- a class of states of interest for quantum-enhanced metrology -- in internal bosonic Josephson junctions with a time-dependent nonlinear coupling strength between atoms in two different hyperfine states. We treat this state-preparation problem, which had previously been addressed using shortcuts to adiabaticity (STA), using the recently proposed analytical modification of this class of quantum-control protocols that became known as the enhanced STA (eSTA) method. We characterize the state-preparation process by evaluating the time dependence of the coherent spin-squeezing and number-squeezing parameters and the target-state fidelity. We show that the state-preparation times obtained using the eSTA method compare favourably to those found in previously proposed approaches. We also demonstrate that the increased robustness of the eSTA approach -- compared to its STA counterpart -- leads to additional advantages for potential experimental realizations of strongly spin-squeezed states in bosonic Josephson junctions. | 翻訳日:2023-11-22 19:25:24 公開日:2023-11-17 |
# 量子カオスとコヒーレンス:ランダムパラメトリック量子チャネル Quantum Chaos and Coherence: Random Parametric Quantum Channels ( http://arxiv.org/abs/2305.19326v2 ) ライセンス: Link先を確認 | Apollonas S. Matsoukas-Roubeas, Toma\v{z} Prosen and Adolfo del Campo | (参考訳) 初期コヒーレントギブス状態(CGS)の生存確率は、開量子系へのスペクトル形成因子(SFF)の自然な拡張である。
量子カオスとデコヒーレンスの間の相互作用を半古典的極限から定量化するために、この一般化されたSFFと対応する$l_1$-normのコヒーレンスとの関係を検討する。
実例としてParametric Quantum Channels (PQC) を紹介する。これは、測定や環境との過渡的相互作用によって周期的に中断されるユニタリ進化の離散時間モデルである。
エネルギーDephasing (ED) のダイナミクスはマルコフ極限の特定の場合として現れる。
我々は一連のランダム行列モデルで結果を示す。 The survival probability of an initial Coherent Gibbs State (CGS) is a natural extension of the Spectral Form Factor (SFF) to open quantum systems. To quantify the interplay between quantum chaos and decoherence away from the semi-classical limit, we investigate the relation of this generalized SFF with the corresponding $l_1$-norm of coherence. As a working example, we introduce Parametric Quantum Channels (PQC), a discrete-time model of unitary evolution periodically interrupted by the effects of measurements or transient interactions with an environment. The Energy Dephasing (ED) dynamics arises as a specific case in the Markovian limit. We demonstrate our results in a series of random matrix models. | 翻訳日:2023-11-22 19:24:48 公開日:2023-11-17 |
# 初期化時の等尺埋め込み獲得における活性化と正規化の影響について On the impact of activation and normalization in obtaining isometric embeddings at initialization ( http://arxiv.org/abs/2305.18399v3 ) ライセンス: Link先を確認 | Amir Joudaki, Hadi Daneshmand, Francis Bach | (参考訳) 本稿では,入力のバッチに対応する出力のペアワイズ内積を含むディープニューラルネットワークにおけるペナルティメートグラム行列の構造について検討する。
いくつかのアーキテクチャでは、このグラム行列は初期化の深さで縮退し、トレーニングが劇的に遅くなることが観察されている。
バッチやレイヤの正規化といった正規化層は、ランクの崩壊を防止する上で重要な役割を果たす。
有望な進歩にもかかわらず、既存の理論的な結果はトランスフォーマーで広く使われている層正規化に及ばず、非線形活性化の役割を定量的に特徴づけることができない。
このギャップを埋めるために、活性化層と共に層正規化が、初期化の深さが指数関数的速度で同一性行列に向かって多層パーセプトロンのグラム行列を偏らせることを証明した。
活性化関数のHermite展開を用いて、この速度を定量化する。 In this paper, we explore the structure of the penultimate Gram matrix in deep neural networks, which contains the pairwise inner products of outputs corresponding to a batch of inputs. In several architectures it has been observed that this Gram matrix becomes degenerate with depth at initialization, which dramatically slows training. Normalization layers, such as batch or layer normalization, play a pivotal role in preventing the rank collapse issue. Despite promising advances, the existing theoretical results do not extend to layer normalization, which is widely used in transformers, and can not quantitatively characterize the role of non-linear activations. To bridge this gap, we prove that layer normalization, in conjunction with activation layers, biases the Gram matrix of a multilayer perceptron towards the identity matrix at an exponential rate with depth at initialization. We quantify this rate using the Hermite expansion of the activation function. | 翻訳日:2023-11-22 19:24:18 公開日:2023-11-17 |
# 誰がこのコードを書いたのか?
コード生成のための透かし Who Wrote this Code? Watermarking for Code Generation ( http://arxiv.org/abs/2305.15060v2 ) ライセンス: Link先を確認 | Taehyun Lee, Seokhee Hong, Jaewoo Ahn, Ilgee Hong, Hwaran Lee, Sangdoo Yun, Jamin Shin, Gunhee Kim | (参考訳) 大きな言語モデルの顕著な世代パフォーマンスにより、盗作や著作権問題など、それらの使用に関する倫理的および法的懸念が高まっている。
このような問題に対して,LLM生成テキストを透かし,検出するためのいくつかのアプローチが提案されている。
しかし,コードの構文的・意味的特性から,従来の手法がコード生成タスクと適切に機能しないことがわかった。
そこで本稿では,<kirchenbauer2023watermark>に基づいて,生成時のトークン分布のエントロピーが高い位置においてのみ「緑」トークンを促進するエントロピーしきい値(sweet)による選択的透かし法を提案する。
透かし付きコードは、エントロピー情報に基づいて統計テストとZスコアにより検出される。
HumanEvalとMBPPの実験により,SWEETはコード精度と透かし検出性能の間にパレートフロンティアを著しく改善することが示された。
また, このタスクでは, 注目すべきポストホック検出手法(例: detectiongpt)がうまく動作しないことを示す。
最後に,適切なエントロピーしきい値の設定は,あまり課題ではないことを示す。
コードはhttps://github.com/hongcheki/sweet-watermarkで入手できる。 With the remarkable generation performance of large language models, ethical and legal concerns about using them have been raised, such as plagiarism and copyright issues. For such concerns, several approaches to watermark and detect LLM-generated text have been proposed very recently. However, we discover that the previous methods fail to function appropriately with code generation tasks because of the syntactic and semantic characteristics of code. Based on \citet{Kirchenbauer2023watermark}, we propose a new watermarking method, Selective WatErmarking via Entropy Thresholding (SWEET), that promotes "green" tokens only at the position with high entropy of the token distribution during generation, thereby preserving the correctness of the generated code. The watermarked code is detected by the statistical test and Z-score based on the entropy information. Our experiments on HumanEval and MBPP show that SWEET significantly improves the Pareto Frontier between the code correctness and watermark detection performance. We also show that notable post-hoc detection methods (e.g. DetectGPT) fail to work well in this task. Finally, we show that setting a reasonable entropy threshold is not much of a challenge. Code is available at https://github.com/hongcheki/sweet-watermark. | 翻訳日:2023-11-22 19:20:56 公開日:2023-11-17 |
# 微調整は視覚言語モデルの分布外検出にどのように影響するか? How Does Fine-Tuning Impact Out-of-Distribution Detection for Vision-Language Models? ( http://arxiv.org/abs/2306.06048v2 ) ライセンス: Link先を確認 | Yifei Ming, Yixuan Li | (参考訳) 最近のCLIPのような大規模視覚言語モデルでは、OoD(out-of-distribution)の検出と一般化性能が顕著である。
しかしながら、そのゼロショットインディストリビューション(ID)精度は、ダウンストリームデータセットに制限されることが多い。
最近のCLIPに基づくインシデントラーニングのような微調整手法は、OODラベルが利用可能なID分類やOOD一般化において、大幅に改善されている。
それでも、OODラベルなしではセマンティックシフトに信頼性があるかどうかは不明だ。
本稿では,このギャップを埋めることを目的として,数発の下流タスクに対するOOD検出の微調整の影響について,総合的研究を行う。
OOD検出をマルチモーダルな概念マッチングとしてフレーミングすることにより、微調整法と様々なOODスコアとの接続を確立する。
以上の結果から,OODスコアの適切な選択はCLIPに基づく微調整に不可欠であることが示唆された。
特に、最大概念マッチング(MCM)スコアは、常に有望な解を提供する。
また, 即時学習は, ゼロショットに対して最先端のOOD検出性能を示すことを示す。 Recent large vision-language models such as CLIP have shown remarkable out-of-distribution (OOD) detection and generalization performance. However, their zero-shot in-distribution (ID) accuracy is often limited for downstream datasets. Recent CLIP-based fine-tuning methods such as prompt learning have demonstrated significant improvements in ID classification and OOD generalization where OOD labels are available. Nonetheless, it remains unclear whether the model is reliable to semantic shifts without OOD labels. In this paper, we aim to bridge the gap and present a comprehensive study to understand how fine-tuning impact OOD detection for few-shot downstream tasks. By framing OOD detection as multi-modal concept matching, we establish a connection between fine-tuning methods and various OOD scores. Our results suggest that a proper choice of OOD scores is essential for CLIP-based fine-tuning. In particular, the maximum concept matching (MCM) score provides a promising solution consistently. We also show that prompt learning demonstrates the state-of-the-art OOD detection performance over the zero-shot counterpart. | 翻訳日:2023-11-22 19:11:35 公開日:2023-11-17 |
# 正規化レイヤーはシャープな最小化に必要なもの Normalization Layers Are All That Sharpness-Aware Minimization Needs ( http://arxiv.org/abs/2306.04226v2 ) ライセンス: Link先を確認 | Maximilian Mueller, Tiffany Vlaar, David Rolnick, Matthias Hein | (参考訳) シャープネス認識最小化(SAM)は,最小値のシャープさを低減するために提案され,様々な設定で一般化性能を向上させることが示されている。
本研究は,samの逆行ステップにおけるアフィン正規化パラメータ(典型的には総パラメータの0.1%)のみを摂動させることで,すべてのパラメータを摂動させることができることを示し,sam の異なる変種と resnet (batch normalization) と vision transformer (layer normalization) アーキテクチャの両方に一般化する。
このような極端に疎度なレベルにおいて同様の性能向上を達成できておらず、この挙動は正規化層に特有のものであることを示す。
本研究は,SAMの一般化性能向上効果を再確認するものであるが,これは単にシャープネスの低下によるものであるかどうかに疑問を投げかけた。 Sharpness-aware minimization (SAM) was proposed to reduce sharpness of minima and has been shown to enhance generalization performance in various settings. In this work we show that perturbing only the affine normalization parameters (typically comprising 0.1% of the total parameters) in the adversarial step of SAM can outperform perturbing all of the parameters.This finding generalizes to different SAM variants and both ResNet (Batch Normalization) and Vision Transformer (Layer Normalization) architectures. We consider alternative sparse perturbation approaches and find that these do not achieve similar performance enhancement at such extreme sparsity levels, showing that this behaviour is unique to the normalization layers. Although our findings reaffirm the effectiveness of SAM in improving generalization performance, they cast doubt on whether this is solely caused by reduced sharpness. | 翻訳日:2023-11-22 19:10:20 公開日:2023-11-17 |
# DUET: 2次元構造とほぼ同変表現 DUET: 2D Structured and Approximately Equivariant Representations ( http://arxiv.org/abs/2306.16058v3 ) ライセンス: Link先を確認 | Xavier Suau, Federico Danieli, T. Anderson Keller, Arno Blaas, Chen Huang, Jason Ramapuram, Dan Busbridge, Luca Zappella | (参考訳) MSSL(Multiview Self-Supervised Learning)は、入力変換の集合に関する学習不変性に基づいている。
しかし、不変性は変換に関連する情報を表現から部分的にあるいは完全に取り除き、そのような情報を必要とする特定の下流タスクのパフォーマンスを損なう可能性がある。
本稿では,行列構造に整理された2次元表現である2DstrUcturedおよびEquivarianT表現(Coined DUET)を提案し,入力データに作用する変換について同変する。
DUET表現は、意味的に表現されたまま、入力変換に関する情報を保持する。
SimCLR (Chen et al., 2020) や ESSL (Dangovski et al., 2022) と比較すると、DUET 表現の構造的および同変性は、再構成エラーの少ない制御生成を可能にし、SimCLR や ESSL では制御不可能である。
DUETは複数の識別タスクに対して高い精度を実現し、転送学習を改善する。 Multiview Self-Supervised Learning (MSSL) is based on learning invariances with respect to a set of input transformations. However, invariance partially or totally removes transformation-related information from the representations, which might harm performance for specific downstream tasks that require such information. We propose 2D strUctured and EquivarianT representations (coined DUET), which are 2d representations organized in a matrix structure, and equivariant with respect to transformations acting on the input data. DUET representations maintain information about an input transformation, while remaining semantically expressive. Compared to SimCLR (Chen et al., 2020) (unstructured and invariant) and ESSL (Dangovski et al., 2022) (unstructured and equivariant), the structured and equivariant nature of DUET representations enables controlled generation with lower reconstruction error, while controllability is not possible with SimCLR or ESSL. DUET also achieves higher accuracy for several discriminative tasks, and improves transfer learning. | 翻訳日:2023-11-22 19:01:16 公開日:2023-11-17 |
# 磁歪による同期 Synchronization by Magnetostriction ( http://arxiv.org/abs/2306.13942v2 ) ライセンス: Link先を確認 | Jiong Cheng, Wenlin Li, Jie Li | (参考訳) キャビティマグノメカニカルシステムにおける2つの機械振動モードの同期化に磁歪を利用する方法を示す。
分散磁歪相互作用は同期を達成するために必要な非線形性を与える。
2つのメカニカル発振器間の強相相関が確立でき、熱雑音に対する同期性が得られる。
定常極限サイクルの制約条件を解いて同期を解析するための理論的枠組みを開発した。
強いキャビティとマグノンの線形結合は同期の強化と制御を可能にし、同期を変調する新しい経路を提供する。
この研究は、同期の達成と変調のための新しいメカニズムを明らかにし、キャビティマグノメカニカルシステムは豊富な同期現象を探求するための理想的なプラットフォームであることを示す。 We show how to utilize magnetostriction to synchronize two mechanical vibration modes in a cavity magnomechanical system. The dispersive magnetostrictive interaction provides necessary nonlinearity required for achieving synchronization. Strong phase correlation between two mechanical oscillators can be established, leading to the synchronization robust against thermal noise. We develop a theoretical framework to analyze the synchronization by solving the constraint conditions of steady-state limit cycles. We determine that the strong cavity-magnon linear coupling can enhance and regulate the synchronization, which offers a new path to modulate synchronization. The work reveals a new mechanism for achieving and modulating synchronization and indicates that cavity magnomechanical systems can be an ideal platform to explore rich synchronization phenomena. | 翻訳日:2023-11-22 19:00:40 公開日:2023-11-17 |
# 前方モデルとの拡散:直接スーパービジョンのない確率的逆問題の解法 Diffusion with Forward Models: Solving Stochastic Inverse Problems Without Direct Supervision ( http://arxiv.org/abs/2306.11719v2 ) ライセンス: Link先を確認 | Ayush Tewari, Tianwei Yin, George Cazenavette, Semon Rezchikov, Joshua B. Tenenbaum, Fr\'edo Durand, William T. Freeman, Vincent Sitzmann | (参考訳) デノイジング拡散モデルは実世界の信号の複雑な分布を捉えるために使用される強力な生成モデルである。
しかし、それらの適用性はトレーニングサンプルが容易に利用できるシナリオに限られており、実際のアプリケーションでは必ずしもそうではない。
例えば、逆グラフィックスでは、与えられた画像と一致する3dシーンの分布からサンプルを生成することが目標だが、地上の3dシーンは使用できず、2dイメージのみがアクセス可能である。
この制限に対処するために, 直接観測されない信号の分布からサンプルを収集することを学ぶ, 分散確率モデルの新しいクラスを提案する。
代わりに、これらの信号は、未知の信号の部分的な観測を生成する既知の微分可能前方モデルを通して間接的に測定される。
我々のアプローチは、フォワードモデルをデノイジングプロセスに直接統合することです。
この統合は、観測の生成モデルと基礎となる信号の生成モデルとを効果的に結びつけ、信号上の条件付き生成モデルのエンドツーエンドトレーニングを可能にする。
推測中,本手法は,所定の部分観測値と一致した基礎信号の分布からのサンプリングを可能にする。
3つのコンピュータビジョン課題に対する提案手法の有効性を実証する。
例えば、逆グラフィックスの文脈では、このモデルは1つの2d入力画像に一致する3dシーンの分布から直接サンプリングすることができる。 Denoising diffusion models are a powerful type of generative models used to capture complex distributions of real-world signals. However, their applicability is limited to scenarios where training samples are readily available, which is not always the case in real-world applications. For example, in inverse graphics, the goal is to generate samples from a distribution of 3D scenes that align with a given image, but ground-truth 3D scenes are unavailable and only 2D images are accessible. To address this limitation, we propose a novel class of denoising diffusion probabilistic models that learn to sample from distributions of signals that are never directly observed. Instead, these signals are measured indirectly through a known differentiable forward model, which produces partial observations of the unknown signal. Our approach involves integrating the forward model directly into the denoising process. This integration effectively connects the generative modeling of observations with the generative modeling of the underlying signals, allowing for end-to-end training of a conditional generative model over signals. During inference, our approach enables sampling from the distribution of underlying signals that are consistent with a given partial observation. We demonstrate the effectiveness of our method on three challenging computer vision tasks. For instance, in the context of inverse graphics, our model enables direct sampling from the distribution of 3D scenes that align with a single 2D input image. | 翻訳日:2023-11-22 18:58:09 公開日:2023-11-17 |
# ワンタイム測定スキームからの詳細な揺らぎ定理 Detailed fluctuation theorem from the one-time measurement scheme ( http://arxiv.org/abs/2306.09578v3 ) ライセンス: Link先を確認 | Kenji Maeda and Tharon Holdsworth and Sebastian Deffner and Akira Sone | (参考訳) 本研究では, 量子揺らぎ定理を, 後向きプロセスの作業分布が不足している1時間計測(OTM)方式で検討し, 二次元計測(TTM)方式よりも有益と考えられる。
OTM スキームは量子非退化 TTM スキームであり、最終状態は第1の測定結果にハミルトニアンが条件付けされた第2の測定値のポインタ状態である。
そして,OTMスキームの後方作業分布を明らかにすることにより,前方作業分布と後方作業分布の特徴関数に関するOTMスキームの詳細なゆらぎ定理を導出し,不可逆性に関する詳細な情報を捕捉し,量子温度測定に適用する。
また,IBMの量子コンピュータを用いて概念的発見を検証した。
その結果、ナノスケールの熱力学の法則は測定の選択に依存しており、量子コヒーレンスと相関性を保護することによってナノスケールにおける熱力学の法則を探求するための具体的な戦略を実験家に提供することができる。 We study the quantum fluctuation theorem in the one-time measurement (OTM) scheme, where the work distribution of the backward process has been lacking and which is considered to be more informative than the two-time measurement (TTM) scheme. We find that the OTM scheme is the quantum nondemolition TTM scheme, in which the final state is a pointer state of the second measurement whose Hamiltonian is conditioned on the first measurement outcome. Then, by clarifying the backward work distribution in the OTM scheme, we derive the detailed fluctuation theorem in the OTM scheme for the characteristic functions of the forward and backward work distributions, which captures the detailed information about the irreversibility and can be applied to quantum thermometry. We also verified our conceptual findings with the IBM quantum computer. Our result clarifies that the laws of thermodynamics at the nanoscale are dependent on the choice of the measurement and may provide experimentalists with a concrete strategy to explore laws of thermodynamics at the nanoscale by protecting quantum coherence and correlations. | 翻訳日:2023-11-22 18:57:09 公開日:2023-11-17 |
# 樹木変分オートエンコーダ Tree Variational Autoencoders ( http://arxiv.org/abs/2306.08984v3 ) ライセンス: Link先を確認 | Laura Manduchi, Moritz Vandenhirtz, Alain Ryser, Julia Vogt | (参考訳) 本稿では,木をベースとした線形クラスタリングモデルであるTreeVAE(TreeVAE)を提案する。
TreeVAEは、本質的な特徴に従ってサンプルを階層的に分割し、データ内の隠れた構造に光を遮る。
アーキテクチャを適用して、潜伏変数間の依存関係を符号化する最適なツリーを発見する。
提案する木ベースの生成アーキテクチャは, 軽量条件付き推論を可能にし, リーフデコーダの特殊化により生成性能を向上させる。
TreeVAEはデータの基盤となるクラスタを明らかにし、実世界の画像データを含むさまざまなデータセット上で異なるグループ間の有意義な階層関係を見出す。
TreeVAEは、シーケンシャルなものよりも、より競争力のあるログライクな低バウンドを提供する。
最後に、その生成的性質から、treevaeは条件付きサンプリングによって検出されたクラスタから新しいサンプルを生成することができる。 We propose Tree Variational Autoencoder (TreeVAE), a new generative hierarchical clustering model that learns a flexible tree-based posterior distribution over latent variables. TreeVAE hierarchically divides samples according to their intrinsic characteristics, shedding light on hidden structures in the data. It adapts its architecture to discover the optimal tree for encoding dependencies between latent variables. The proposed tree-based generative architecture enables lightweight conditional inference and improves generative performance by utilizing specialized leaf decoders. We show that TreeVAE uncovers underlying clusters in the data and finds meaningful hierarchical relations between the different groups on a variety of datasets, including real-world imaging data. We present empirically that TreeVAE provides a more competitive log-likelihood lower bound than the sequential counterparts. Finally, due to its generative nature, TreeVAE is able to generate new samples from the discovered clusters via conditional sampling. | 翻訳日:2023-11-22 18:56:49 公開日:2023-11-17 |
# 動的メタ埋め込みに基づく腫瘍分類のためのデュアルクエリ多重インスタンス学習 Dual-Query Multiple Instance Learning for Dynamic Meta-Embedding based Tumor Classification ( http://arxiv.org/abs/2307.07482v2 ) ライセンス: Link先を確認 | Simon Holdenried-Krafft and Peter Somers and Ivonne A. Montes-Majarro and Diana Silimon and Cristina Tar\'in and Falko Fend and Hendrik P. A. Lensch | (参考訳) 全スライド画像(WSI)の評価は、がんの診断と治療計画において困難かつ重要なステップである。
WSIは細胞内分析を容易にするために高い倍率を必要とする。
ギガピクセルwsisのコンテキストにおけるパッチやピクセルレベルの分類の正確なアノテーションは、ドメインの専門家の獲得と要求が面倒です。
一方、粒度の粗いラベルは簡単にアクセスでき、wsi分類は複数インスタンス学習(mil)の理想的なユースケースとなる。
本稿では,新しい組込み型Dual-Query MILパイプライン(DQ-MIL)を提案する。
私たちは埋め込みと集約の両方のステップに貢献します。
汎用的な視覚的特徴表現はまだ利用できないため、埋め込みモデルは一般化性の観点から制限されている。
本研究では,MILの文脈における最先端の自己教師付き事前学習モデルに基づく動的メタ埋め込みの可能性を探る。
さらに,MILアテンションと相関自己アテンションを組み合わせた新しいMILアーキテクチャを提案する。
提案手法のDual-Query Perceiver設計により、自己蒸留の概念を活用でき、低データ構造における小さなモデルの利点とより大きなモデルのリッチな特徴表現を組み合わせることができる。
我々は3つの病理組織学的データセットに対するアプローチの優れた性能を示し、最先端のアプローチよりも最大10%改善したことを示す。 Whole slide image (WSI) assessment is a challenging and crucial step in cancer diagnosis and treatment planning. WSIs require high magnifications to facilitate sub-cellular analysis. Precise annotations for patch- or even pixel-level classifications in the context of gigapixel WSIs are tedious to acquire and require domain experts. Coarse-grained labels, on the other hand, are easily accessible, which makes WSI classification an ideal use case for multiple instance learning (MIL). In our work, we propose a novel embedding-based Dual-Query MIL pipeline (DQ-MIL). We contribute to both the embedding and aggregation steps. Since all-purpose visual feature representations are not yet available, embedding models are currently limited in terms of generalizability. With our work, we explore the potential of dynamic meta-embedding based on cutting-edge self-supervised pre-trained models in the context of MIL. Moreover, we propose a new MIL architecture capable of combining MIL-attention with correlated self-attention. The Dual-Query Perceiver design of our approach allows us to leverage the concept of self-distillation and to combine the advantages of a small model in the context of a low data regime with the rich feature representation of a larger model. We demonstrate the superior performance of our approach on three histopathological datasets, where we show improvement of up to 10% over state-of-the-art approaches. | 翻訳日:2023-11-22 18:48:50 公開日:2023-11-17 |
# ビューの袋:3次元再構築のための次回のベストビュー計画への外観ベースアプローチ Bag of Views: An Appearance-based Approach to Next-Best-View Planning for 3D Reconstruction ( http://arxiv.org/abs/2307.05832v3 ) ライセンス: Link先を確認 | Sara Hatami Gazani, Matthew Tucsok, Iraj Mantegh, Homayoun Najjaran | (参考訳) インフラストラクチャの3次元再構築とモニタリングのためのUAVベースのインテリジェントなデータ取得は、画像処理とディープラーニングベースの技術の進歩により、関心が高まりつつある。
ビュー計画(view planning)は、情報収集戦略を決定し、取得したデータから生成された3dモデルの品質に大きく影響する、このタスクの重要な部分である。
近年の手法では、目標の事前知識や部分的な再構築を用いて、アクティブな再構築のためのビュープランニングを実現している。
本稿では,オフラインデータセットの改良とオンライン次善ビュー(nbv)計画アプリケーションの3次元再構築を目標とした,キャプチャしたビューにユーティリティを割り当てるための,完全な外観ベースモデルであるbag-of-views(bov)を提案する。
この貢献により、機械学習ベースのビュープランニングフレームワークのトレーニングとテストのための軽量パッケージであるview planning toolbox(vpt)、任意の3dシーンのカスタムビューデータセット生成、および3d再構成も開発しました。
本稿では,BVベースの強化学習モデルとVPTを組み合わせた実験により,データセットの洗練とNBV計画における高品質な再構築に必要なビュー数を削減できることを示す。 UAV-based intelligent data acquisition for 3D reconstruction and monitoring of infrastructure has experienced an increasing surge of interest due to recent advancements in image processing and deep learning-based techniques. View planning is an essential part of this task that dictates the information capture strategy and heavily impacts the quality of the 3D model generated from the captured data. Recent methods have used prior knowledge or partial reconstruction of the target to accomplish view planning for active reconstruction; the former approach poses a challenge for complex or newly identified targets while the latter is computationally expensive. In this work, we present Bag-of-Views (BoV), a fully appearance-based model used to assign utility to the captured views for both offline dataset refinement and online next-best-view (NBV) planning applications targeting the task of 3D reconstruction. With this contribution, we also developed the View Planning Toolbox (VPT), a lightweight package for training and testing machine learning-based view planning frameworks, custom view dataset generation of arbitrary 3D scenes, and 3D reconstruction. Through experiments which pair a BoV-based reinforcement learning model with VPT, we demonstrate the efficacy of our model in reducing the number of required views for high-quality reconstructions in dataset refinement and NBV planning. | 翻訳日:2023-11-22 18:48:30 公開日:2023-11-17 |
# 一般化量子化による量子振幅推定 Quantum Amplitude Estimation by Generalized Qubitization ( http://arxiv.org/abs/2306.16695v4 ) ライセンス: Link先を確認 | Xi Lu, Hongwei Lin | (参考訳) 本稿では,量子シミュレーションや量子機械学習などの様々な問題において,基本的な手法である量子振幅推定(qae)のための一般化量子化手法を提案する。
振幅に関する事前情報がないと、クエリの数を$\frac{\pi}{\sqrt{6}\epsilon}\approx 1.28\epsilon^{-1}$に最適化する。
また、フォン・ノイマンエントロピーのような量子期待値推定と量子非線形量推定の性能改善についても考察した。 We propose a generalized qubitization technique for quantum amplitude estimation (QAE), which is a fundamental technique used in various problems like quantum simulation and quantum machine learning. Without prior information on the amplitude, we optimize the number of queries to $\frac{\pi}{\sqrt{6}\epsilon}\approx 1.28\epsilon^{-1}$, which is exactly a half compared to the quantum phase estimation based algorithm. We also discuss how our result improves the performance of quantum expectation value estimation and quantum nonlinear quantity estimation like the von Neumann entropy. | 翻訳日:2023-11-22 18:44:49 公開日:2023-11-17 |
# 離散化誤差のないディジタル量子コンピュータの連続ハミルトンダイナミクス Continuous Hamiltonian dynamics on digital quantum computers without discretization error ( http://arxiv.org/abs/2308.03694v2 ) ライセンス: Link先を確認 | Etienne Granet and Henrik Dreyer | (参考訳) ディジタル量子コンピュータ上でハミルトニアンダイナミクスを計算するアルゴリズムを導入し、任意の精度に達するのに有限回路深度のみを必要とするアルゴリズム、すなわち有限深さでゼロ離散化誤差を達成する。
この有限個のゲートは、既知の振幅で測定された期待値の減衰を犠牲にし、回路毎により多くのショットを必要とする。
時間のシミュレーションのゲートカウントは$t$で$O(t^2\mu^2)$で$\mu$はハミルトニアンの1ドルノームであり、その結果に望まれる精度に依存せず、以前のアルゴリズムよりも大幅に改善されている。
ノルムへの唯一の依存は、非スパースハミルトニアンに特に適応させる。
このアルゴリズムは時間依存ハミルトニアンに一般化され、例えば断熱的状態準備に現れる。
これらの特性は、中程度深さの回路のみをサポートする現在の比較的ノイズの多いハードウェアに特に適している。 We introduce an algorithm to compute Hamiltonian dynamics on digital quantum computers that requires only a finite circuit depth to reach an arbitrary precision, i.e. achieves zero discretization error with finite depth. This finite number of gates comes at the cost of an attenuation of the measured expectation value by a known amplitude, requiring more shots per circuit. The gate count for simulation up to time $t$ is $O(t^2\mu^2)$ with $\mu$ the $1$-norm of the Hamiltonian, without dependence on the precision desired on the result, providing a significant improvement over previous algorithms. The only dependence in the norm makes it particularly adapted to non-sparse Hamiltonians. The algorithm generalizes to time-dependent Hamiltonians, appearing for example in adiabatic state preparation. These properties make it particularly suitable for present-day relatively noisy hardware that supports only circuits with moderate depth. | 翻訳日:2023-11-22 18:36:41 公開日:2023-11-17 |
# 対称および因子群不変関数に対する普遍的アーキテクチャによるワッサーシュタイン距離のニューラル近似 Neural approximation of Wasserstein distance via a universal architecture for symmetric and factorwise group invariant functions ( http://arxiv.org/abs/2308.00273v2 ) ライセンス: Link先を確認 | Samantha Chen, Yusu Wang | (参考訳) 複雑なオブジェクト間の距離関数(wasserstein距離など)を学習することは、機械学習アプリケーションにおいて共通の目標である。
しかし、そのような複素対象(例えば点集合やグラフ)上の函数は、しばしば、置換や剛変換のような様々な群作用に不変であることが求められる。
したがって、そのような複素対象上の連続かつ対称な積函数(例えば距離函数)もそのような群作用の積に不変でなければならない。
これらの関数を対称的および因子的群不変量(あるいは略して SFGI 関数)と呼ぶ。
本稿ではまず,SFGI関数を近似する汎用ニューラルネットワークアーキテクチャを提案する。
本論文の主な貢献は、この一般的なニューラルネットワークとスケッチのアイデアを組み合わせることで、ポイントセット間の$p$-th wasserstein距離を近似できる特定かつ効率的なニューラルネットワークを開発することである。
非常に重要なことに、必要となるモデルの複雑さは入力点集合のサイズに依存しない。
理論的には、我々の知る限りでは、これはモデル複雑性の有界なワッサースタイン距離を近似する能力を持つニューラルネットワークが存在することを示す最初の結果である。
本研究は対称関数の普遍近似を用いた幾何学問題に対するスケッチアイデアの興味深い統合を提供する。
実験的な面から、我々は新たに提案したニューラルネットワークアーキテクチャが他のモデル(SOTA Siamese Autoencoderベースのアプローチを含む)よりも比較的高い性能を示すことを示す。
特に、私たちのニューラルネットワークは、SOTA Siamese AEよりもはるかに高速で一般化し、訓練を行ないます。
最後に、この一連の調査は、幅広い幾何学的最適化問題(例えば、計量空間における$k$-means)を解決する効果的なニューラルネットワーク設計の探求に有用である。 Learning distance functions between complex objects, such as the Wasserstein distance to compare point sets, is a common goal in machine learning applications. However, functions on such complex objects (e.g., point sets and graphs) are often required to be invariant to a wide variety of group actions e.g. permutation or rigid transformation. Therefore, continuous and symmetric product functions (such as distance functions) on such complex objects must also be invariant to the product of such group actions. We call these functions symmetric and factor-wise group invariant (or SFGI functions in short). In this paper, we first present a general neural network architecture for approximating SFGI functions. The main contribution of this paper combines this general neural network with a sketching idea to develop a specific and efficient neural network which can approximate the $p$-th Wasserstein distance between point sets. Very importantly, the required model complexity is independent of the sizes of input point sets. On the theoretical front, to the best of our knowledge, this is the first result showing that there exists a neural network with the capacity to approximate Wasserstein distance with bounded model complexity. Our work provides an interesting integration of sketching ideas for geometric problems with universal approximation of symmetric functions. On the empirical front, we present a range of results showing that our newly proposed neural network architecture performs comparatively or better than other models (including a SOTA Siamese Autoencoder based approach). In particular, our neural network generalizes significantly better and trains much faster than the SOTA Siamese AE. Finally, this line of investigation could be useful in exploring effective neural network design for solving a broad range of geometric optimization problems (e.g., $k$-means in a metric space). | 翻訳日:2023-11-22 18:35:58 公開日:2023-11-17 |
# 脆弱性とライブラリのテキスト記述から脆弱なサードパーティjavaライブラリを特定する Identifying Vulnerable Third-Party Java Libraries from Textual Descriptions of Vulnerabilities and Libraries ( http://arxiv.org/abs/2307.08206v3 ) ライセンス: Link先を確認 | Tianyu Chen, Lin Li, Bingjie Shan, Guangtai Liang, Ding Li, Qianxiang Wang, Tao Xie | (参考訳) サードパーティライブラリから発生するセキュリティ脆弱性に対処するため、セキュリティ研究者はデータベースの監視と脆弱性レポートのキュレーションを行う。
アプリケーション開発者は、データベースに使用するライブラリを直接クエリすることで、脆弱なライブラリを識別できる。
しかしながら,脆弱性レポートの不完全性から,脆弱なライブラリのクエリ結果は信頼性に欠ける。
したがって、現在のアプローチは、脆弱なライブラリを名前付き認識(NER)タスクまたは極端なマルチラベル学習(XML)タスクとして識別するタスクをモデル化している。
これらのアプローチは、複雑で類似した名前の弱いライブラリ、例えばJavaライブラリを識別する、非常に不正確な結果に悩まされている。
本稿では、脆弱性とライブラリの両方のテキスト記述から脆弱性のあるライブラリを最初に識別するVulLibMinerと、影響を受けるライブラリのJava脆弱性データセットであるVulLibを提案する。
VulLibMinerはTF-IDFマーカで、少数の候補ライブラリを効率的にスクリーニングし、BERT-FNNモデルでこれらの候補ライブラリを効果的に識別する。
verajava という名のデータセットと vullib データセットの両方で脆弱なライブラリを識別する 4 つの最先端/プラクティスアプローチを用いて vullibminer を評価した。
評価の結果,VulLibMinerは平均F1スコア0.657の脆弱なライブラリを効果的に識別できることがわかった。 To address security vulnerabilities arising from third-party libraries, security researchers maintain databases monitoring and curating vulnerability reports. Application developers can identify vulnerable libraries by directly querying the databases with their used libraries. However, the querying results of vulnerable libraries are not reliable due to the incompleteness of vulnerability reports. Thus, current approaches model the task of identifying vulnerable libraries as a named-entity-recognition (NER) task or an extreme multi-label learning (XML) task. These approaches suffer from highly inaccurate results in identifying vulnerable libraries with complex and similar names, e.g., Java libraries. To address these limitations, in this paper, we propose VulLibMiner, the first to identify vulnerable libraries from textual descriptions of both vulnerabilities and libraries, together with VulLib, a Java vulnerability dataset with their affected libraries. VulLibMiner consists of a TF-IDF matcher to efficiently screen out a small set of candidate libraries and a BERT-FNN model to identify vulnerable libraries from these candidates effectively. We evaluate VulLibMiner using four state-of-the-art/practice approaches of identifying vulnerable libraries on both their dataset named VeraJava and our VulLib dataset. Our evaluation results show that VulLibMiner can effectively identify vulnerable libraries with an average F1 score of 0.657 while the state-of-the-art/practice approaches achieve only 0.521. | 翻訳日:2023-11-22 18:31:48 公開日:2023-11-17 |
# shamsul: system holistic analysis による胸部x線病理予測のための深層学習における局所的解釈可能性を用いた医学的意義の検討 SHAMSUL: Systematic Holistic Analysis to investigate Medical Significance Utilizing Local interpretability methods in deep learning for chest radiography pathology prediction ( http://arxiv.org/abs/2307.08003v2 ) ライセンス: Link先を確認 | Mahbub Ul Alam, Jaakko Hollm\'en, J\'on R\'unar Baldvinsson, Rahim Rahmani | (参考訳) ディープニューラルネットワークの解釈可能性は、医療分野や医療分野において大きな関心を集めている。
この注意は、透明性、法的および倫理的考察、およびこれらのディープニューラルネットワークが臨床意思決定支援システムで生み出す予測の医学的意義に関する懸念から来ている。
そこで本研究では, 局所解釈型モデル非依存説明法 (LIME) , シェープ付加拡張法 (SHAP) , グラディエント重み付きクラス活性化マッピング (Grad-CAM) , レイヤーワイド関連伝搬法 (LRP) の4つの方法について検討した。
マルチラベル・マルチクラスの胸部X線撮影データセットを用いたトランスファーラーニングのアプローチを応用し,特定の病理学クラスに関連する予測を解釈することを目的とする。
本分析では, 単一ラベルと多ラベルの予測を両方含み, 定量的および定性的な調査を通じて包括的かつ不偏な評価を行う。
特に、grad-camは定量的評価において最も好ましい性能を示し、lime heatmapスコアのセグメンテーション可視化は医学的重要性の最高レベルを示す。
本研究は,これらの解釈可能性の評価に採用される総合的アプローチの成果と課題を両立させ,胸部X線画像以外の多様な情報ソースを取り入れたマルチモーダルアプローチが,医療領域における解釈可能性の向上にさらなる洞察を与える可能性を示唆している。 The interpretability of deep neural networks has become a subject of great interest within the medical and healthcare domain. This attention stems from concerns regarding transparency, legal and ethical considerations, and the medical significance of predictions generated by these deep neural networks in clinical decision support systems. To address this matter, our study delves into the application of four well-established interpretability methods: Local Interpretable Model-agnostic Explanations (LIME), Shapley Additive exPlanations (SHAP), Gradient-weighted Class Activation Mapping (Grad-CAM), and Layer-wise Relevance Propagation (LRP). Leveraging the approach of transfer learning with a multi-label-multi-class chest radiography dataset, we aim to interpret predictions pertaining to specific pathology classes. Our analysis encompasses both single-label and multi-label predictions, providing a comprehensive and unbiased assessment through quantitative and qualitative investigations, which are compared against human expert annotation. Notably, Grad-CAM demonstrates the most favorable performance in quantitative evaluation, while the LIME heatmap score segmentation visualization exhibits the highest level of medical significance. Our research underscores both the outcomes and the challenges faced in the holistic approach adopted for assessing these interpretability methods and suggests that a multimodal-based approach, incorporating diverse sources of information beyond chest radiography images, could offer additional insights for enhancing interpretability in the medical domain. | 翻訳日:2023-11-22 18:31:21 公開日:2023-11-17 |
# 衣服交換者再識別のための意味認識一貫性ネットワーク Semantic-aware Consistency Network for Cloth-changing Person Re-Identification ( http://arxiv.org/abs/2308.14113v3 ) ライセンス: Link先を確認 | Peini Guo, Hong Liu, Jianbing Wu, Guoquan Wang and Tao Wang | (参考訳) 服を交換する人物再識別(cc-reid)は、衣服が変わった場合、複数の監視カメラでターゲットの人物を検索することを目的としている。
CC-ReIDの最近の進歩にもかかわらず、既存のアプローチは、衣服関連領域に一貫して焦点を合わせるための効果的な制約がないため、服のバリエーションの干渉によって妨げられている。
この問題に対処するために,効率的な一貫性制約を提案することで,識別関連セマンティック・コンシステンシー・ネットワーク(SCNet)を提案する。
具体的には,衣服領域の画素を消去することにより,衣料変動からの干渉を明示的に緩和する黒衣画像を生成する。
また、この細粒度識別情報を十分に活用するために、提案する部分的マッチング損失を利用して頭部情報を強調してソフトアテンションマップを学習するヘッドエンハンスメントモジュールを導入する。
さらに,高レベルのアイデンティティ関連セマンティックな特徴の学習を容易にするために,セマンティックな一貫性の喪失を設計し,セマンティックに一貫性のない布の無関係な領域にモデルを集中させる。
整合性制約を用いることで,提案モデルでは,ブラッククロース画像の生成や,推論段階でのヘッド領域の特定に補助的なセグメンテーションモジュールを必要としない。
布を交換する4つのRe-IDデータセット(LTCC、PRCC、Vc-Clothes、DeepChange)の大規模な実験により、提案したSCNetは、最先端のアプローチよりも大幅に改善されていることが示された。
私たちのコードは、https://github.com/Gpn-star/SCNet.comで利用可能です。 Cloth-changing Person Re-Identification (CC-ReID) is a challenging task that aims to retrieve the target person across multiple surveillance cameras when clothing changes might happen. Despite recent progress in CC-ReID, existing approaches are still hindered by the interference of clothing variations since they lack effective constraints to keep the model consistently focused on clothing-irrelevant regions. To address this issue, we present a Semantic-aware Consistency Network (SCNet) to learn identity-related semantic features by proposing effective consistency constraints. Specifically, we generate the black-clothing image by erasing pixels in the clothing area, which explicitly mitigates the interference from clothing variations. In addition, to fully exploit the fine-grained identity information, a head-enhanced attention module is introduced, which learns soft attention maps by utilizing the proposed part-based matching loss to highlight head information. We further design a semantic consistency loss to facilitate the learning of high-level identity-related semantic features, forcing the model to focus on semantically consistent cloth-irrelevant regions. By using the consistency constraint, our model does not require any extra auxiliary segmentation module to generate the black-clothing image or locate the head region during the inference stage. Extensive experiments on four cloth-changing person Re-ID datasets (LTCC, PRCC, Vc-Clothes, and DeepChange) demonstrate that our proposed SCNet makes significant improvements over prior state-of-the-art approaches. Our code is available at: https://github.com/Gpn-star/SCNet. | 翻訳日:2023-11-22 18:24:14 公開日:2023-11-17 |
# 位置:フロー誘導グラフカットと自己学習による自己教師付きオブジェクト発見 LOCATE: Self-supervised Object Discovery via Flow-guided Graph-cut and Bootstrapped Self-training ( http://arxiv.org/abs/2308.11239v2 ) ライセンス: Link先を確認 | Silky Singh and Shripad Deshmukh and Mausoom Sarkar and Balaji Krishnamurthy | (参考訳) 人間の監督なしに画像とビデオのデータセットでオブジェクトセグメンテーションを学ぶことは難しい問題である。
人間は、共通の運命のゲシュタルト原理を用いて、動画中の動くサルエント物体を容易に識別し、一緒に動くものが一緒に存在することを示唆する。
このアイデアに基づいて、動作情報と外観情報を利用して高品質な物体分割マスクを生成する自己教師対象発見手法を提案する。
具体的には、画像上の従来のグラフカットを再設計し、動き情報と外観情報とを線形に組み合わせてエッジウェイトを生成する。
驚くべきことに、このステップは複数のベンチマークで現在の最先端に匹敵するオブジェクトセグメンテーションマスクを生成する。
さらに,これらの予備マスク上で訓練されたセグメンテーションネットワークを擬似地下真理としてブートストラップし,自己学習を通じて自身の出力から学習する。
我々は,複数の標準映像オブジェクトのセグメンテーション,イメージ・サリエンシ検出,オブジェクトのセグメンテーション・ベンチマークにおいて,LOCATEと呼ばれるアプローチの有効性を実証する。
In-the-wild画像の質的研究を通じて,新しい領域へのアプローチの伝達可能性を示す。
さらに,設計選択を支援するために広範囲なアブレーション分析を行い,提案手法の各コンポーネントの貢献を強調した。 Learning object segmentation in image and video datasets without human supervision is a challenging problem. Humans easily identify moving salient objects in videos using the gestalt principle of common fate, which suggests that what moves together belongs together. Building upon this idea, we propose a self-supervised object discovery approach that leverages motion and appearance information to produce high-quality object segmentation masks. Specifically, we redesign the traditional graph cut on images to include motion information in a linear combination with appearance information to produce edge weights. Remarkably, this step produces object segmentation masks comparable to the current state-of-the-art on multiple benchmarks. To further improve performance, we bootstrap a segmentation network trained on these preliminary masks as pseudo-ground truths to learn from its own outputs via self-training. We demonstrate the effectiveness of our approach, named LOCATE, on multiple standard video object segmentation, image saliency detection, and object segmentation benchmarks, achieving results on par with and, in many cases surpassing state-of-the-art methods. We also demonstrate the transferability of our approach to novel domains through a qualitative study on in-the-wild images. Additionally, we present extensive ablation analysis to support our design choices and highlight the contribution of each component of our proposed method. | 翻訳日:2023-11-22 18:21:50 公開日:2023-11-17 |
# 近似等変グラフネットワーク Approximately Equivariant Graph Networks ( http://arxiv.org/abs/2308.10436v3 ) ライセンス: Link先を確認 | Ningyuan Huang, Ron Levie, Soledad Villar | (参考訳) グラフニューラルネットワーク(GNN)は一般的に、グラフ内のノードレバーベリングに対する置換同変として記述される。
GNNのこの対称性はユークリッド畳み込みニューラルネットワーク(CNN)の翻訳等価性と比較されることが多い。
しかし、これらの2つの対称性は根本的に異なる: cnnの変換同分散は画像信号に作用する固定領域の対称性(しばしばアクティブ対称性と呼ばれる)に対応し、gnnでは任意の置換がグラフ信号とグラフ領域の両方に作用する(受動対称性と呼ばれることもある)。
本研究では,GNNのアクティブな対称性に着目し,信号が固定されたグラフ上でサポートされる学習環境を検討する。
この場合、GNNの自然な対称性はグラフの自己同型である。
実世界のグラフは非対称である傾向があるので、グラフの粗化によって近似対称性を形式化することで対称性の概念を緩和する。
選択した対称性群に応じて,表現率の損失と学習推定器の正則性の利得とのトレードオフを定量化するバイアス分散式を提案する。
提案手法を説明するために, 画像の塗り絵, 交通流予測, および, 対称性の異なる人間のポーズ推定に関する広範な実験を行った。
グラフ自己同型よりも好ましく、置換群よりも小さい群を選択することにより、最適一般化性能が達成できることを理論的かつ実証的に示す。 Graph neural networks (GNNs) are commonly described as being permutation equivariant with respect to node relabeling in the graph. This symmetry of GNNs is often compared to the translation equivariance of Euclidean convolution neural networks (CNNs). However, these two symmetries are fundamentally different: The translation equivariance of CNNs corresponds to symmetries of the fixed domain acting on the image signals (sometimes known as active symmetries), whereas in GNNs any permutation acts on both the graph signals and the graph domain (sometimes described as passive symmetries). In this work, we focus on the active symmetries of GNNs, by considering a learning setting where signals are supported on a fixed graph. In this case, the natural symmetries of GNNs are the automorphisms of the graph. Since real-world graphs tend to be asymmetric, we relax the notion of symmetries by formalizing approximate symmetries via graph coarsening. We present a bias-variance formula that quantifies the tradeoff between the loss in expressivity and the gain in the regularity of the learned estimator, depending on the chosen symmetry group. To illustrate our approach, we conduct extensive experiments on image inpainting, traffic flow prediction, and human pose estimation with different choices of symmetries. We show theoretically and empirically that the best generalization performance can be achieved by choosing a suitably larger group than the graph automorphism, but smaller than the permutation group. | 翻訳日:2023-11-22 18:20:57 公開日:2023-11-17 |
# VisIT-Bench: 実世界利用に触発された視覚言語教育のベンチマーク VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use ( http://arxiv.org/abs/2308.06595v3 ) ライセンス: Link先を確認 | Yonatan Bitton, Hritik Bansal, Jack Hessel, Rulin Shao, Wanrong Zhu, Anas Awadalla, Josh Gardner, Rohan Taori, Ludwig Schmidt | (参考訳) 実世界における視覚モデルの評価のためのベンチマークであるVisIT-Bench(Visual InsTruction Benchmark)を紹介する。
我々の出発点は、チューニングされた視覚言語モデルに対処できるはずの指導を想定する70の「インストラクションファミリー」をキュレーションすることである。
VQAv2やCOCOのような評価を超えて、タスクは基本的な認識からゲームプレイ、クリエイティブ生成まで幅広い。
キュレーションの後、データセットは592のテストクエリで構成され、それぞれに人間による命令条件付きキャプションがあります。
これらの説明は、例えば車椅子利用者のための店舗のアクセシビリティを尋ねる指示のために、表面的な命令固有の要素を記述し、命令条件付きキャプションはランプ/電位障害を記述している。
これらの説明は
1)各インスタンスのヒューマン検証された参照出力の収集,及び
2) テキストのみのLLMによる候補マルチモーダル世代の自動評価は, 人間の判断と一致した。
人的評価と自動評価の両方を用いて、モデルと参照間の品質ギャップを定量化する。例えば、トップパフォーマンスの命令追従モデルがGPT-4参照に対して、比較のわずか27%で勝利する。
VisIT-Benchは動的に参加でき、実践者は自身のモデルのレスポンスをプロジェクトのWebサイトに投稿するだけでよい。 We introduce VisIT-Bench (Visual InsTruction Benchmark), a benchmark for evaluation of instruction-following vision-language models for real-world use. Our starting point is curating 70 'instruction families' that we envision instruction tuned vision-language models should be able to address. Extending beyond evaluations like VQAv2 and COCO, tasks range from basic recognition to game playing and creative generation. Following curation, our dataset comprises 592 test queries, each with a human-authored instruction-conditioned caption. These descriptions surface instruction-specific factors, e.g., for an instruction asking about the accessibility of a storefront for wheelchair users, the instruction-conditioned caption describes ramps/potential obstacles. These descriptions enable 1) collecting human-verified reference outputs for each instance; and 2) automatic evaluation of candidate multimodal generations using a text-only LLM, aligning with human judgment. We quantify quality gaps between models and references using both human and automatic evaluations; e.g., the top-performing instruction-following model wins against the GPT-4 reference in just 27% of the comparison. VisIT-Bench is dynamic to participate, practitioners simply submit their model's response on the project website; Data, code and leaderboard is available at visit-bench.github.io. | 翻訳日:2023-11-22 18:19:59 公開日:2023-11-17 |
# CATS v2: 堅牢な医療セグメント化のためのハイブリッドエンコーダ CATS v2: Hybrid encoders for robust medical segmentation ( http://arxiv.org/abs/2308.06377v2 ) ライセンス: Link先を確認 | Hao Li, Han Liu, Dewei Hu, Xing Yao, Jiacheng Wang, Ipek Oguz | (参考訳) 畳み込みニューラルネットワーク(CNN)は、エッジやテクスチャといった高レベルな(ローカルな)情報をキャプチャすることで、医用画像セグメンテーションタスクにおいて強力なパフォーマンスを示した。
しかし、畳み込みカーネルの視野が限られているため、CNNがグローバル情報を完全に表現することは困難である。
近年,医療画像のセグメンテーションにおいて,長距離依存関係をモデル化する能力により,トランスフォーマーの性能が向上している。
それでもトランスフォーマーはcnnのような高レベルな空間的特徴を効果的に捉えるのに苦労している。
優れたセグメンテーションモデルは、ローカル機能とグローバル機能の両方が正確かつセマンティックに正確であるように、より良い表現を学ぶべきです。
本稿では,トランスエンコーダを付加したU字型セグメンテーションネットワークであるCATSを提案する。
本研究では,このモデルをさらに拡張し,ハイブリッドエンコーダを用いたCATS v2を提案する。
特に、ハイブリッドエンコーダは、CNNベースのエンコーダパスからなり、シフトウィンドウを持つトランスフォーマーパスに平行して、ローカル情報とグローバル情報の両方を利用して、堅牢な3次元医用画像セグメンテーションを生成する。
我々は、異なる解像度のスキップ接続で畳み込みエンコーダとトランスから情報を融合し、最終的なセグメンテーションを形成する。
提案手法は,CrossMoDA (CrossMoDA) とMSD-5 (Medical Segmentation Decathlon) のタスク5 (タスク5) の2つの公的な課題データセットを用いて,前庭神経腫 (VS) と前立腺腫 (prestate) を区分する。
提案手法は最先端の手法と比較して高いDiceスコアの点で優れた性能を示す。 Convolutional Neural Networks (CNNs) have exhibited strong performance in medical image segmentation tasks by capturing high-level (local) information, such as edges and textures. However, due to the limited field of view of convolution kernel, it is hard for CNNs to fully represent global information. Recently, transformers have shown good performance for medical image segmentation due to their ability to better model long-range dependencies. Nevertheless, transformers struggle to capture high-level spatial features as effectively as CNNs. A good segmentation model should learn a better representation from local and global features to be both precise and semantically accurate. In our previous work, we proposed CATS, which is a U-shaped segmentation network augmented with transformer encoder. In this work, we further extend this model and propose CATS v2 with hybrid encoders. Specifically, hybrid encoders consist of a CNN-based encoder path paralleled to a transformer path with a shifted window, which better leverage both local and global information to produce robust 3D medical image segmentation. We fuse the information from the convolutional encoder and the transformer at the skip connections of different resolutions to form the final segmentation. The proposed method is evaluated on two public challenge datasets: Cross-Modality Domain Adaptation (CrossMoDA) and task 5 of Medical Segmentation Decathlon (MSD-5), to segment vestibular schwannoma (VS) and prostate, respectively. Compared with the state-of-the-art methods, our approach demonstrates superior performance in terms of higher Dice scores. | 翻訳日:2023-11-22 18:19:36 公開日:2023-11-17 |
# 混合量子古典写像法における詳細バランス Detailed balance in mixed quantum-classical mapping approaches ( http://arxiv.org/abs/2309.04686v3 ) ライセンス: Link先を確認 | Graziano Amati, Jonathan R. Mannouch, and Jeremy O. Richardson | (参考訳) 詳細なバランス違反は、非断熱力学をシミュレートする現在の準古典的手法の大部分に深刻な問題を引き起こす。
この問題の深刻度を分析するために, 古典エルゴード理論の議論を応用し, 様々な準古典的マッピングアプローチにより, 電子集団の長期的限界を予測した。
分析の結果,エレンフェスト近似を超越するために多くのマッピング手法が導入する負の集団に対応する写像空間の領域が,適切な熱化挙動を再現する上で最も深刻な問題であることがわかった。
これは、負の電子集団が核に侵入して生じる逆ポテンシャルが、非物理的に無限に加速する軌道に繋がるからである。
最近開発された表面ホッピング(MASH)へのマッピングアプローチは、ダイナミクスの正確な記述を維持しながら、逆ポテンシャルを避ける簡単な方法を提供する。
他の準古典的アプローチとは異なり、MASHは全ての量子$\unicode{x2013}$classical systemの正確な熱化挙動を記述することが保証されており、実凝縮相系における非断熱力学をシミュレートする最も有望な方法の1つである。 The violation of detailed balance poses a serious problem for the majority of current quasiclassical methods for simulating nonadiabatic dynamics. In order to analyze the severity of the problem, we predict the long-time limits of the electronic populations according to various quasiclassical mapping approaches, by applying arguments from classical ergodic theory. Our analysis confirms that regions of the mapping space that correspond to negative populations, which most mapping approaches introduce in order to go beyond the Ehrenfest approximation, pose the most serious issue for reproducing the correct thermalization behaviour. This is because inverted potentials, which arise from negative electronic populations entering into the nuclear force, can result in trajectories unphysically accelerating off to infinity. The recently developed mapping approach to surface hopping (MASH) provides a simple way of avoiding inverted potentials, while retaining an accurate description of the dynamics. We prove that MASH, unlike any other quasiclassical approach, is guaranteed to describe the exact thermalization behaviour of all quantum$\unicode{x2013}$classical systems, confirming it as one of the most promising methods for simulating nonadiabatic dynamics in real condensed-phase systems. | 翻訳日:2023-11-22 18:11:07 公開日:2023-11-17 |
# INTAGS:インタラクティブエージェントガイドシミュレーション INTAGS: Interactive Agent-Guided Simulation ( http://arxiv.org/abs/2309.01784v3 ) ライセンス: Link先を確認 | Song Wei, Andrea Coletta, Svitlana Vyetrenko, Tucker Balch | (参考訳) マルチエージェントシステム(mas)を含む多くのアプリケーションでは、実世界の予期せぬ損失を避けるために、実運用への展開前に高忠実度シミュレータで実験的な(exp)自律エージェントをテストすることが不可欠である。
このようなシミュレータは、エージェントベースシミュレータ(abs)と呼ばれる環境背景(bg)エージェントとして働き、複雑な実masを再現することを目指している。
しかし、現実的なABSの開発は、主にそのようなシステムのシーケンシャルでダイナミックな性質のため、依然として困難である。
本研究では,このギャップを埋めるために,expエージェントとbgエージェント間のライブインタラクションを通じて評価し,システムのシーケンシャルな性質を明示的に考慮した,実システムと合成マルチエージェントシステムを区別するメトリクスを提案する。
具体的には,環境状態変化に対するbgエージェントの応答列の効果を解析し,mas距離メトリックとしてその効果の差異を考慮し,環境進化と先行する環境状態とを結合した因果推論問題として効果推定をキャストする。
本稿では,対話型エージェント誘導シミュレーション(INTAGS)フレームワークを提案する。
対話型逐次意思決定エージェントで任意の環境に適応するために、INTAGSは、強化学習における確率的ポリシーとしてシミュレータを定式化する。
さらに、INTAGSはポリシー勾配更新を利用して、提案したメトリックの差別化を回避し、マルチエージェント環境の非微分可能な操作をサポートできるようにしている。
広範な実験を通じて、株式市場シミュレーションの例において、INTAGSの有効性を実証する。
InTAGSを用いてシミュレータのキャリブレーションを行い、現状のWasserstein Generative Adversarial Networkアプローチと比較して、より現実的な市場データを生成することを示す。 In many applications involving multi-agent system (MAS), it is imperative to test an experimental (Exp) autonomous agent in a high-fidelity simulator prior to its deployment to production, to avoid unexpected losses in the real-world. Such a simulator acts as the environmental background (BG) agent(s), called agent-based simulator (ABS), aiming to replicate the complex real MAS. However, developing realistic ABS remains challenging, mainly due to the sequential and dynamic nature of such systems. To fill this gap, we propose a metric to distinguish between real and synthetic multi-agent systems, which is evaluated through the live interaction between the Exp and BG agents to explicitly account for the systems' sequential nature. Specifically, we characterize the system/environment by studying the effect of a sequence of BG agents' responses to the environment state evolution and take such effects' differences as MAS distance metric; The effect estimation is cast as a causal inference problem since the environment evolution is confounded with the previous environment state. Importantly, we propose the Interactive Agent-Guided Simulation (INTAGS) framework to build a realistic ABS by optimizing over this novel metric. To adapt to any environment with interactive sequential decision making agents, INTAGS formulates the simulator as a stochastic policy in reinforcement learning. Moreover, INTAGS utilizes the policy gradient update to bypass differentiating the proposed metric such that it can support non-differentiable operations of multi-agent environments. Through extensive experiments, we demonstrate the effectiveness of INTAGS on an equity stock market simulation example. We show that using INTAGS to calibrate the simulator can generate more realistic market data compared to the state-of-the-art conditional Wasserstein Generative Adversarial Network approach. | 翻訳日:2023-11-22 18:09:40 公開日:2023-11-17 |
# 3レベルボウティーモデルにおける散逸的ランダウ・ツェナー遷移:ダヴィドフ多重D2アンザッツによる正確な力学 Dissipative Landau-Zener transitions in a three-level bow-tie model: accurate dynamics with the Davydov multi-D2 Ansatz ( http://arxiv.org/abs/2309.01580v3 ) ライセンス: Link先を確認 | Lixing Zhang, Maxim F. Gelin and Yang Zhao | (参考訳) 複数のダヴィドフD2アンサツェの数値的精度を用いて,3レベルボウタイモデル(3L-BTM)におけるランダウ-ツェナー(LZ)遷移について検討した。
まず, 1つの調和モードに結合した3L-TBMについて検討し, モデルパラメータの選択値に対する遷移確率の進化について検討し, エネルギー図法による解析を行った。
次に3L-TBMをボソン浴で探索した。
シミュレーションにより,3L-BTMの動態にはサブオーミック,オーミック,スーパーオーミックのボソン浴が著しく異なる影響があることが示され,標準的なマルコフの単一レート記述では把握できない。
また, 2レベルLZシステムに欠如する新しい入浴現象についても述べる。 We investigate Landau-Zener (LZ) transitions in the three-level bow-tie model (3L-BTM) in a dissipative environment by using the numerically accurate method of multiple Davydov D2 Ansatze. We first consider the 3L-TBM coupled to a single harmonic mode, study evolutions of the transition probabilities for selected values of the model parameters, and interpret the obtained results with the aid of the energy diagram method. We then explore the 3L-TBM coupled to a boson bath. Our simulations demonstrate that sub-Ohmic, Ohmic and super-Ohmic boson baths have substantially different influences on the 3L-BTM dynamics, which cannot be grasped by the standard phenomenological Markovian single-rate descriptions. We also describe novel bath-induced phenomena which are absent in two-level LZ systems. | 翻訳日:2023-11-22 18:09:00 公開日:2023-11-17 |
# 比較トピックモデリングアプローチに基づく黄斑変性の栄養学的予防への視点 Insights Into the Nutritional Prevention of Macular Degeneration based on a Comparative Topic Modeling Approach ( http://arxiv.org/abs/2309.00312v4 ) ライセンス: Link先を確認 | Lucas Cassiel Jacaruso | (参考訳) トピックモデリングとテキストマイニングは、自然言語処理(NLP)のサブセットであり、メタ分析(MA)と体系的レビュー(SR)の実施に関係している。
証拠合成では、従来のNLP法は、SRとMAの必須フェーズを自動化するために、トピック固有の文献検索やレポートからの値抽出に用いられている。
そこで本研究では,同じ一般研究質問に対する矛盾した結果の報告を分析するための,比較トピックモデリング手法を提案する。
具体的には、有意な影響の報告(および分布の整合性)に比例して分類することで、利害関係に有意な結果をもたらすトピックを識別することを目的とする。
本手法は, 補充栄養成分が黄斑変性(MD)に有益であるか否かを, 広視野で検討した。
これらのうち4つは, 続いて文献による検証(オメガ-3脂肪酸, 銅, ゼアキサンチン, 硝酸塩)を行った。
追従文献検索(ナイアシンとモリブデン)で支持されていない2つの指標は,提案したスコアシステムの下では最低範囲のスコアを有しており,提案手法のスコアは,興味ある結果と関連する程度に有効であり,潜在的因果関係の探索に有効である可能性が示唆された。
これらの結果から,提案手法は,広視野報告書の効果の理解に特異性を加え,今後の研究の課題を解明し,体系的かつスケーラブルな手法でエビデンス合成を導出する可能性が示唆された。
これら全てはMDの予防に関する貴重な洞察を与えながら達成される。 Topic modeling and text mining are subsets of Natural Language Processing (NLP) with relevance for conducting meta-analysis (MA) and systematic review (SR). For evidence synthesis, the above NLP methods are conventionally used for topic-specific literature searches or extracting values from reports to automate essential phases of SR and MA. Instead, this work proposes a comparative topic modeling approach to analyze reports of contradictory results on the same general research question. Specifically, the objective is to identify topics exhibiting distinct associations with significant results for an outcome of interest by ranking them according to their proportional occurrence in (and consistency of distribution across) reports of significant effects. The proposed method was tested on broad-scope studies addressing whether supplemental nutritional compounds significantly benefit macular degeneration (MD). Four of these were further supported in terms of effectiveness upon conducting a follow-up literature search for validation (omega-3 fatty acids, copper, zeaxanthin, and nitrates). The two not supported by the follow-up literature search (niacin and molybdenum) also had scores in the lowest range under the proposed scoring system, suggesting that the proposed methods score for a given topic may be a viable proxy for its degree of association with the outcome of interest and can be helpful in the search for potentially causal relationships. These results underpin the proposed methods potential to add specificity in understanding effects from broad-scope reports, elucidate topics of interest for future research, and guide evidence synthesis in a systematic and scalable way. All of this is accomplished while yielding valuable insights into the prevention of MD. | 翻訳日:2023-11-22 18:08:33 公開日:2023-11-17 |
# 量子チャネルフィデリティ爆発対称性の効率的な近似 Efficient Approximation of Quantum Channel Fidelity Exploiting Symmetry ( http://arxiv.org/abs/2308.15884v2 ) ライセンス: Link先を確認 | Yeow Meng Chee, Hoang Ta, and Van Khu Vu | (参考訳) 雑音量子チャネル上の量子情報伝達の最適忠実性を決定することは、量子情報理論における中心的な問題の一つである。
近年, [Berta-Borderi-Fawzi-Scholz, Mathematical Programming, 2021] は, この量に対する外界の半定値プログラミング階層を漸近的に収束させた。
しかし、半定値プログラム(SDP)のサイズは階層のレベルに対して指数関数的に大きくなるため、計算はスケールできない。
本研究では、SDPの対称性を利用して、与えられた量子チャネルの固定入力および出力次元に対して、階層のレベルの観点から多項式時間でSDPを計算することができることを示す。
この結果の直接の結果として、最適忠実度は1/\epsilon$の多項式である時間で$\epsilon$の精度で近似することができる。 Determining the optimal fidelity for the transmission of quantum information over noisy quantum channels is one of the central problems in quantum information theory. Recently, [Berta-Borderi-Fawzi-Scholz, Mathematical Programming, 2021] introduced an asymptotically converging semidefinite programming hierarchy of outer bounds for this quantity. However, the size of the semidefinite programs (SDPs) grows exponentially with respect to the level of the hierarchy, thus making their computation unscalable. In this work, by exploiting the symmetries in the SDP, we show that, for fixed input and output dimensions of the given quantum channel, we can compute the SDP in polynomial time in terms of the level of the hierarchy. As a direct consequence of our result, the optimal fidelity can be approximated with an accuracy of $\epsilon$ in a time that is polynomial in $1/\epsilon$. | 翻訳日:2023-11-22 18:08:02 公開日:2023-11-17 |
# 確率的運転環境における不確実性認識決定変圧器 Uncertainty-Aware Decision Transformer for Stochastic Driving Environments ( http://arxiv.org/abs/2309.16397v2 ) ライセンス: Link先を確認 | Zenan Li, Fan Nie, Qiao Sun, Fang Da, Hang Zhao | (参考訳) オフライン強化学習(RL)は、アクティブな相互作用なしにポリシーを学ぶための有望なフレームワークとして現れ、特に自律運転タスクにアピールしている。
トランスフォーマーの最近の成功は、オフラインRLをシーケンスモデリングとして刺激し、長い水平タスクでうまく機能する。
しかし、同じ目標が同一の行動によって一貫して達成できるという誤った仮定を持つ確率的環境では、非常に楽観的である。
本稿では,確率駆動環境において,新たな遷移モデルや複雑な生成モデルを導入することなく計画するためのUNREST(Uncertainty-aware deciSion Transformer)を提案する。
具体的には、UNRESTは遷移と返却の間の条件付き相互情報によって状態の不確実性を推定し、それに従ってセグメントシーケンスを出力する。
UNRESTは、駆動環境の'不確実性蓄積'と'時間的局所性'の性質を発見し、環境遷移よりもエージェントアクションの真の結果から学ぶために、決定トランスフォーマーのグローバルリターンを、不確実な未解決のリターンに置き換える。
また、慎重な計画を立てる際の環境不確実性を動的に評価する。
広範囲な実験結果は、様々な運転シナリオにおけるunrestの優れた性能と、不確実性推定戦略のパワーを示している。 Offline Reinforcement Learning (RL) has emerged as a promising framework for learning policies without active interactions, making it especially appealing for autonomous driving tasks. Recent successes of Transformers inspire casting offline RL as sequence modeling, which performs well in long-horizon tasks. However, they are overly optimistic in stochastic environments with incorrect assumptions that the same goal can be consistently achieved by identical actions. In this paper, we introduce an UNcertainty-awaRE deciSion Transformer (UNREST) for planning in stochastic driving environments without introducing additional transition or complex generative models. Specifically, UNREST estimates state uncertainties by the conditional mutual information between transitions and returns, and segments sequences accordingly. Discovering the `uncertainty accumulation' and `temporal locality' properties of driving environments, UNREST replaces the global returns in decision transformers with less uncertain truncated returns, to learn from true outcomes of agent actions rather than environment transitions. We also dynamically evaluate environmental uncertainty during inference for cautious planning. Extensive experimental results demonstrate UNREST's superior performance in various driving scenarios and the power of our uncertainty estimation strategy. | 翻訳日:2023-11-22 17:58:22 公開日:2023-11-17 |
# 画像データ拡張による基本スキルキャプションの堅牢性の向上 Targeted Image Data Augmentation Increases Basic Skills Captioning Robustness ( http://arxiv.org/abs/2309.15991v2 ) ライセンス: Link先を確認 | Valentin Barriere, Felipe del Rio, Andres Carvallo De Ferari, Carlos Aspillaga, Eugenio Herrera-Berg, Cristian Buc Calderon | (参考訳) ニューラルネットワークは通常、文脈外例に一般化するのに苦労する。
この制限の1つの理由は、世界の潜在的な相関構造に関する部分的な情報のみを含むデータセットを持つことである。
本研究では,テキスト対画像生成モデルを用いた相関構造ギャップを埋めることにより,モデルの人間的能力(例えば性別認識)を向上させることに焦点を当てたデータ拡張手法であるtida(targeted image-editing data augmentation)を提案する。
より具体的には、titaは、画像を記述するキャプション(例えば、画像中の特定の性別の存在)の特定のスキルを特定し、キャプションを変更(例えば、「女性」から「男性」)し、テキストから画像へのモデルを使用して、新しいキャプションにマッチする画像の編集を行う(例えば、文脈を同一に保ちながら、女性を男性に変更する)。
Flickr30Kのベンチマークから, 性別, 色, カウント能力に関連するTIDA強化データセットは, 元のデータセットと比較すると, 画像キャプションの指標において, 性能が向上することを示した。
さらに、古典的なブレウ計量に依存することに加えて、異なる方法でベースラインに対するモデルの改善に関するきめ細かな分析を行う。
テキスト対画像生成モデルを比較し,画像キャプションモデルにおける視覚的符号化とテキスト復号の異なる振る舞いを見出した。 Artificial neural networks typically struggle in generalizing to out-of-context examples. One reason for this limitation is caused by having datasets that incorporate only partial information regarding the potential correlational structure of the world. In this work, we propose TIDA (Targeted Image-editing Data Augmentation), a targeted data augmentation method focused on improving models' human-like abilities (e.g., gender recognition) by filling the correlational structure gap using a text-to-image generative model. More specifically, TIDA identifies specific skills in captions describing images (e.g., the presence of a specific gender in the image), changes the caption (e.g., "woman" to "man"), and then uses a text-to-image model to edit the image in order to match the novel caption (e.g., uniquely changing a woman to a man while maintaining the context identical). Based on the Flickr30K benchmark, we show that, compared with the original data set, a TIDA-enhanced dataset related to gender, color, and counting abilities induces better performance in several image captioning metrics. Furthermore, on top of relying on the classical BLEU metric, we conduct a fine-grained analysis of the improvements of our models against the baseline in different ways. We compared text-to-image generative models and found different behaviors of the image captioning models in terms of encoding visual encoding and textual decoding. | 翻訳日:2023-11-22 17:58:02 公開日:2023-11-17 |
# 階層的潜在能力を有する自律走行のためのオフライン強化学習の強化 Boosting Offline Reinforcement Learning for Autonomous Driving with Hierarchical Latent Skills ( http://arxiv.org/abs/2309.13614v2 ) ライセンス: Link先を確認 | Zenan Li, Fan Nie, Qiao Sun, Fang Da, Hang Zhao | (参考訳) 多様な運転シミュレータや大規模運転データセットが出現し、学習に基づく車両計画が注目を集めている。
オフライン強化学習(RL)はこれらの安全クリティカルなタスクに適しているが、それでも長期にわたる計画に苦慮している。
本研究では,長距離車両計画の課題を克服するために,オフラインRLを向上するスキルベースフレームワークを提案する。
具体的には、オフラインデモからスキルを学ぶための変分オートエンコーダ(VAE)を設計する。
共通のvaesの後方崩壊を緩和するために, 離散的なオプションと複雑な運転スキルの連続的な変動を捉えるために, 2分岐シーケンスエンコーダを導入する。
最終方針は、学習したスキルをアクションとして扱い、市販のオフラインRLアルゴリズムでトレーニングすることができる。
これにより、ステップ毎のアクションからテンポラリな拡張スキルへのフォーカスのシフトが容易になり、長期的な推論を未来に導くことができる。
CARLAの大規模な結果は、トレーニングと新しいシナリオの両方において、我々のモデルは一貫して強力なベースラインを上回ります。
さらなる可視化と実験は、抽出されたスキルの解釈可能性と伝達可能性を示している。 Learning-based vehicle planning is receiving increasing attention with the emergence of diverse driving simulators and large-scale driving datasets. While offline reinforcement learning (RL) is well suited for these safety-critical tasks, it still struggles to plan over extended periods. In this work, we present a skill-based framework that enhances offline RL to overcome the long-horizon vehicle planning challenge. Specifically, we design a variational autoencoder (VAE) to learn skills from offline demonstrations. To mitigate posterior collapse of common VAEs, we introduce a two-branch sequence encoder to capture both discrete options and continuous variations of the complex driving skills. The final policy treats learned skills as actions and can be trained by any off-the-shelf offline RL algorithms. This facilitates a shift in focus from per-step actions to temporally extended skills, thereby enabling long-term reasoning into the future. Extensive results on CARLA prove that our model consistently outperforms strong baselines at both training and new scenarios. Additional visualizations and experiments demonstrate the interpretability and transferability of extracted skills. | 翻訳日:2023-11-22 17:57:35 公開日:2023-11-17 |
# 効率的な計算可能なランダムネス測定における量子ランダムネスと擬ランダムネスの区別可能性 Indistinguishability between quantum randomness and pseudo-randomness under efficiently calculable randomness measures ( http://arxiv.org/abs/2309.11117v3 ) ライセンス: Link先を確認 | Toyohiro Tsurumaru, Tsubasa Ichikawa, Yosuke Takubo, Toshihiko Sasaki, Jaeha Lee, Izumi Tsutsui | (参考訳) 量子乱数(量子力学的に生成した乱数)と疑似乱数(アルゴリズムによって生成される乱数)の区別性に対するno-go定理を提案する。
この定理は、量子乱数は古典的に効率的にシミュレート可能であり、区別に使用されるランダムネス測度が効率的に計算可能であれば、これらの2種類の乱数を区別することはできないと述べる。
この定理は,暗号分野に存在すると考えられる暗号擬似乱数生成器の特性を用いて導出する。
この定理は、IBM量子が生成する量子乱数の実データの解析と、ベル試験のInnsbruck実験で得られたデータと一致し、これらの2組の量子乱数のランダム性の度合いは、対応する擬似ランダム数と本質的に区別できないことが判明した。
また, 量子乱数のアルゴリズム的ランダム性についても, 定理やデータ解析の観点から考察し, 再解釈を行った。 We present a no-go theorem for the distinguishability between quantum random numbers (i.e., random numbers generated quantum mechanically) and pseudo-random numbers (i.e., random numbers generated algorithmically). The theorem states that one cannot distinguish these two types of random numbers if the quantum random numbers are efficiently classically simulatable and the randomness measure used for the distinction is efficiently computable. We derive this theorem by using the properties of cryptographic pseudo-random number generators, which are believed to exist in the field of cryptography. Our theorem is found to be consistent with the analyses on the actual data of quantum random numbers generated by the IBM Quantum and also those obtained in the Innsbruck experiment for the Bell test, where the degrees of randomness of these two set of quantum random numbers turn out to be essentially indistinguishable from those of the corresponding pseudo-random numbers. Previous observations on the algorithmic randomness of quantum random numbers are also discussed and reinterpreted in terms of our theorems and data analyses. | 翻訳日:2023-11-22 17:56:46 公開日:2023-11-17 |
# フェルミオンおよびボソニックガウス状態のクリロフ複雑性 Krylov Complexity of Fermionic and Bosonic Gaussian States ( http://arxiv.org/abs/2309.10382v2 ) ライセンス: Link先を確認 | Kiran Adhikari, Adwait Rijal, Ashok Kumar Aryal, Mausam Ghimire, Rajeev Singh, Christian Deppe | (参考訳) \emph{complexity} の概念は、量子情報を含む複数の分野において重要となり、量子状態のカオス的進化を観測するための代替の計量となる。
本稿では,量子複雑性の特殊な形式である \emph{krylov complexity} に着目し,すべての可能な直交基底上での量子状態の拡散を曖昧かつ本質的に有意義に評価する。
我々の研究はガウス量子状態の文脈にあり、ボソニック系とフェルミオン系の両方の基本であり、共分散行列によって完全に説明できる。
共分散行列は必須であるが, 相対位相情報の欠如により, クリロフ複雑性を計算するには不十分であることを示す。
以上より, 相対共分散行列はガウス量子状態のクリロフ複雑性の上限となることが示唆された。
また、熱場二重状態(TFD)とディラック場に対するクリロフ複雑性の計算によるホログラフィック双対性の候補として複雑性を提唱する理論に対するクリロフ複雑性の影響についても検討する。 The concept of \emph{complexity} has become pivotal in multiple disciplines, including quantum information, where it serves as an alternative metric for gauging the chaotic evolution of a quantum state. This paper focuses on \emph{Krylov complexity}, a specialized form of quantum complexity that offers an unambiguous and intrinsically meaningful assessment of the spread of a quantum state over all possible orthogonal bases. Our study is situated in the context of Gaussian quantum states, which are fundamental to both Bosonic and Fermionic systems and can be fully described by a covariance matrix. We show that while the covariance matrix is essential, it is insufficient alone for calculating Krylov complexity due to its lack of relative phase information. Our findings suggest that the relative covariance matrix can provide an upper bound for Krylov complexity for Gaussian quantum states. We also explore the implications of Krylov complexity for theories proposing complexity as a candidate for holographic duality by computing Krylov complexity for the thermofield double States (TFD) and Dirac field. | 翻訳日:2023-11-22 17:56:27 公開日:2023-11-17 |
# ロボットに大きな言語モデルで歩くように促す Prompt a Robot to Walk with Large Language Models ( http://arxiv.org/abs/2309.09969v2 ) ライセンス: Link先を確認 | Yen-Jen Wang, Bike Zhang, Jianyu Chen, Koushil Sreenath | (参考訳) 巨大な言語モデル(LLM)は、大規模なインターネットスケールのデータに基づいて事前訓練されている。
近年,ファウンデーションモデルのパワーを現実の環境で活用することを目的とした,ロボット工学用LLMの展開への関心が高まっている。
しかし、このアプローチは、特に物理世界でこれらのモデルを接地し、動的なロボットの動きを生成する際に、重大な課題に直面している。
これらの問題に対処するために,我々は物理環境から収集した少数ショットプロンプトを用いて,タスク固有の微調整を行わずにロボットの低レベル制御コマンドを自動生成する新しいパラダイムを提案する。
様々なロボットや環境における実験により、我々の手法がロボットに歩行を促すことができることが検証された。
そこで本稿では,LLMが高次元ロボットシステムにおいても,ダイナミックモーション制御のための低レベルフィードバックコントローラとして機能する方法について述べる。
プロジェクトのwebサイトとソースコードは、https://prompt2walk.github.io/にある。 Large language models (LLMs) pre-trained on vast internet-scale data have showcased remarkable capabilities across diverse domains. Recently, there has been escalating interest in deploying LLMs for robotics, aiming to harness the power of foundation models in real-world settings. However, this approach faces significant challenges, particularly in grounding these models in the physical world and in generating dynamic robot motions. To address these issues, we introduce a novel paradigm in which we use few-shot prompts collected from the physical environment, enabling the LLM to autoregressively generate low-level control commands for robots without task-specific fine-tuning. Experiments across various robots and environments validate that our method can effectively prompt a robot to walk. We thus illustrate how LLMs can proficiently function as low-level feedback controllers for dynamic motion control even in high-dimensional robotic systems. The project website and source code can be found at: https://prompt2walk.github.io/ . | 翻訳日:2023-11-22 17:55:42 公開日:2023-11-17 |
# ディファレンシャルニューロモルフィックコンピューティングによる非構造環境におけるインテリジェントマシンの動作 Intelligent machines work in unstructured environments by differential neuromorphic computing ( http://arxiv.org/abs/2309.08835v3 ) ライセンス: Link先を確認 | Shengbo Wang, Shuo Gao, Chenyu Tang, Edoardo Occhipinti, Cong Li, Shurui Wang, Jiaqi Wang, Hubin Zhao, Guohua Hu, Arokia Nathan, Ravinder Dahiya, Luigi Occhipinti | (参考訳) 現実世界におけるインテリジェントマシンの効率的な運用には、人間と同様に、構造化されていない環境が提示する不確実性を理解し予測するための方法が必要である。
現在の手法は、作業環境の動的信号特性から継続的に学習する代わりに、事前訓練されたネットワークに依存しており、データハングリープロシージャや限定的な一般化機能といった固有の制限に悩まされている。
本稿では,メムリスタに基づく微分ニューロモルフィック計算,知覚信号処理,インテリジェントマシンの学習方法を提案する。
メカニカル刺激の増幅(>720%)や適応(>50%)といった環境情報の主な特徴を抽出し、非構造環境における人間様処理を得る。
提案手法は,メムリスタの本質的な多状態特性を活用し,オブジェクトの把握と自律運転という2つの異なるアプリケーションシナリオにおける検証によって確認された,優れたスケーラビリティと一般化を示す。
前者では、ロボットハンドは、単一のメムリスタで未知の物体の特徴(例えば、鋭い角と滑らかな表面)を高速学習(約1ms)により安全かつ安定した把握を実現する。
後者では、自動運転における10の非構造化環境(例えば、乗用車、歩行者)の意思決定情報を、40*25 memristorアレイで正確に(94%)抽出する。
本稿では,人間の低レベル知覚機構の本質的な性質を模倣することにより,多種多様なセンシング技術に適応し,知能マシンが現実世界でスマートな高レベルな決定を下す可能性を示す。 Efficient operation of intelligent machines in the real world requires methods that allow them to understand and predict the uncertainties presented by the unstructured environments with good accuracy, scalability and generalization, similar to humans. Current methods rely on pretrained networks instead of continuously learning from the dynamic signal properties of working environments and suffer inherent limitations, such as data-hungry procedures, and limited generalization capabilities. Herein, we present a memristor-based differential neuromorphic computing, perceptual signal processing and learning method for intelligent machines. The main features of environmental information such as amplification (>720%) and adaptation (<50%) of mechanical stimuli encoded in memristors, are extracted to obtain human-like processing in unstructured environments. The developed method takes advantage of the intrinsic multi-state property of memristors and exhibits good scalability and generalization, as confirmed by validation in two different application scenarios: object grasping and autonomous driving. In the former, a robot hand experimentally realizes safe and stable grasping through fast learning (in ~1 ms) the unknown object features (e.g., sharp corner and smooth surface) with a single memristor. In the latter, the decision-making information of 10 unstructured environments in autonomous driving (e.g., overtaking cars, pedestrians) is accurately (94%) extracted with a 40*25 memristor array. By mimicking the intrinsic nature of human low-level perception mechanisms, the electronic memristive neuromorphic circuit-based method, presented here shows the potential for adapting to diverse sensing technologies and helping intelligent machines generate smart high-level decisions in the real world. | 翻訳日:2023-11-22 17:55:27 公開日:2023-11-17 |
# 微分インダクションを用いた効率的なグラフィクス表現 Efficient Graphics Representation with Differentiable Indirection ( http://arxiv.org/abs/2309.08387v2 ) ライセンス: Link先を確認 | Sayantan Datta, Carl Marshall, Derek Nowrouzezahrai, Zhao Dong, Zhengqin Li | (参考訳) これは、グラフィクスパイプライン全体にわたる従来の計算およびデータ操作の効果的な代用として、差別化可能なマルチスケールルックアップテーブルを使用する、新しい学習プリミティブです。
我々は,幾何および画像表現,テクスチャマッピング,シェーディング,放射場表現など,多くのグラフィックタスクにおいて柔軟性を示す。
あらゆる場合において、微分可能な間接は既存のアーキテクチャにシームレスに統合され、迅速に訓練され、多目的かつ効率的な結果をもたらす。 We introduce differentiable indirection -- a novel learned primitive that employs differentiable multi-scale lookup tables as an effective substitute for traditional compute and data operations across the graphics pipeline. We demonstrate its flexibility on a number of graphics tasks, i.e., geometric and image representation, texture mapping, shading, and radiance field representation. In all cases, differentiable indirection seamlessly integrates into existing architectures, trains rapidly, and yields both versatile and efficient results. | 翻訳日:2023-11-22 17:54:34 公開日:2023-11-17 |
# 量子古典ハイブリッド系のマルコフマスター方程式 Markovian master equations for quantum-classical hybrid systems ( http://arxiv.org/abs/2310.02006v2 ) ライセンス: Link先を確認 | Alberto Barchielli | (参考訳) 一貫した量子古典的ハイブリッドダイナミクスを構築する問題は、分離可能なヒルベルト空間内の量子成分と連続的な有限次元の古典成分の場合に与えられる。
マルコフの場合、問題はハイブリッド力学半群の概念によって形式化される。
古典成分は系を摂動することなく観測でき、量子古典相互作用により量子成分に関する情報を抽出することができる。
この点は、ハイブリッド力学半群と適合する正の作用素値測度と演算を導入する方法を示すことによって定式化され、この方法ではハイブリッド力学の概念は連続時間における量子測定と結び付いている。
そして、最も一般的な準自由発生器の事例を提示し、様々な量子-古典的相互作用項を議論する。
ハイゼンベルクの記述では、ハイゼンベルクはハイブリッドワイル作用素をワイル作用素の多重に送信し、準自由半群の構造に関する結果がarxiv:2307.02611で証明された。
純粋量子の場合でさえ、準自由半群はガウス構造のみを持つことに制限されず、ジャンプ型項も許される。
重要な結果として、量子成分から古典成分への情報のフローを生成する相互作用を持つためには、生成器に適切な散逸項が存在する必要がある。
最後に、準自由ケースを超える可能性について議論する。 The problem of constructing a consistent quantum-classical hybrid dynamics is afforded in the case of a quantum component in a separable Hilbert space and a continuous, finite-dimensional classical component. In the Markovian case, the problem is formalized by the notion of hybrid dynamical semigroup. A classical component can be observed without perturbing the system and information on the quantum component can be extracted, thanks to the quantum-classical interaction. This point is formalized by showing how to introduce positive operator valued measures and operations compatible with the hybrid dynamical semigroup; in this way the notion of hybrid dynamics is connected to quantum measurements in continuous time. Then, the case of the most general quasi-free generator is presented and the various quantum-classical interaction terms are discussed. To bee quasi-free means to send, in the Heisenberg description, hybrid Weyl operators into multiples of Weyl operators; the results on the structure of quasi-free semigroups were proved in the article arXiv:2307.02611. Even in the pure quantum case, a quasi-free semigroup is not restricted to have only a Gaussian structure, but also jump-type terms are allowed. An important result is that, to have interactions producing a flow of information from the quantum component to the classical one, suitable dissipative terms must be present in the generator. Finally, some possibilities are discussed to go beyond the quasi-free case. | 翻訳日:2023-11-22 17:44:41 公開日:2023-11-17 |
# CtxMIM:リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding ( http://arxiv.org/abs/2310.00022v2 ) ライセンス: Link先を確認 | Mingming Zhang, Qingjie Liu, and Yunhong Wang | (参考訳) ラベルなしデータの自己スーパービジョンによる表現の学習は、多様な画像を理解するのに非常に効果的であることが証明されている。
しかし、リモートセンシング画像はしばしば複雑で人口密度の高いシーンを持ち、複数の陸地オブジェクトと明確な前景オブジェクトがない。
この本質的な性質は高いオブジェクト密度を生成し、自己教師付き学習において偽陽性ペアや文脈情報の欠如をもたらす。
これらの問題に対処するために,リモートセンシング画像理解のための簡易かつ効率的なMIMに基づく自己教師型学習であるコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
コンテクストのコンテクスト整合性制約を通じてコンテキスト情報を提供するために、コンテクスト強化ジェネレーションブランチが導入された。
単純でエレガントな設計により、CtxMIMは、特定の時間的制約や地理的制約なしに、大規模データセットでオブジェクトレベルまたはピクセルレベルの特徴を学習する事前学習モデルを奨励する。
最後に、CtxMIMが学習した特徴は、土地被覆分類、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーションなど、様々な下流タスクにおいて、完全に教師付きかつ最先端の自己教師付き学習手法よりも優れていることを示す。
これらの結果から,CtxMIMは高一般化と伝達性を有する印象的なリモートセンシング表現を学習することを示した。
コードとデータは公開される予定だ。 Learning representations through self-supervision on unlabeled data has proven highly effective for understanding diverse images. However, remote sensing images often have complex and densely populated scenes with multiple land objects and no clear foreground objects. This intrinsic property generates high object density, resulting in false positive pairs or missing contextual information in self-supervised learning. To address these problems, we propose a context-enhanced masked image modeling method (CtxMIM), a simple yet efficient MIM-based self-supervised learning for remote sensing image understanding. CtxMIM formulates original image patches as a reconstructive template and employs a Siamese framework to operate on two sets of image patches. A context-enhanced generative branch is introduced to provide contextual information through context consistency constraints in the reconstruction. With the simple and elegant design, CtxMIM encourages the pre-training model to learn object-level or pixel-level features on a large-scale dataset without specific temporal or geographical constraints. Finally, extensive experiments show that features learned by CtxMIM outperform fully supervised and state-of-the-art self-supervised learning methods on various downstream tasks, including land cover classification, semantic segmentation, object detection, and instance segmentation. These results demonstrate that CtxMIM learns impressive remote sensing representations with high generalization and transferability. Code and data will be made public available. | 翻訳日:2023-11-22 17:43:08 公開日:2023-11-17 |
# 分散メモリ探索における生成拡散モデルは連想記憶ネットワークである In search of dispersed memories: Generative diffusion models are associative memory networks ( http://arxiv.org/abs/2309.17290v2 ) ライセンス: Link先を確認 | Luca Ambrogioni | (参考訳) 長期記憶のメカニズムを明らかにすることは、神経科学と人工知能の最も興味深い問題のひとつだ。
人工連想記憶ネットワークは生物記憶の重要な側面を形式化するために用いられてきた。
生成拡散モデル(generative diffusion model)は、多くのタスクで優れたパフォーマンスを示す生成機械学習技術の一種である。
連想記憶系と同様に、これらのネットワークは対象状態の集合に収束する力学系を定義する。
本研究では,生成拡散モデルをエネルギーベースモデルとして解釈し,離散的パターンで学習すると,そのエネルギー関数は(漸近的に)現代のホップフィールドネットワークと同一であることを示す。
この等価性により、深層ニューラルネットワークの重み構造における現代のホップフィールドネットワークの連想力学を符号化するシナプス学習プロセスとして拡散モデルの教師付きトレーニングを解釈することができる。
この接続を利用して、創造的生成と記憶再生を統一連続体の一部と見なすことができる長期記憶の形成を理解するための一般化された枠組みを定式化する。 Uncovering the mechanisms behind long-term memory is one of the most fascinating open problems in neuroscience and artificial intelligence. Artificial associative memory networks have been used to formalize important aspects of biological memory. Generative diffusion models are a type of generative machine learning techniques that have shown great performance in many tasks. Like associative memory systems, these networks define a dynamical system that converges to a set of target states. In this work we show that generative diffusion models can be interpreted as energy-based models and that, when trained on discrete patterns, their energy function is (asymptotically) identical to that of modern Hopfield networks. This equivalence allows us to interpret the supervised training of diffusion models as a synaptic learning process that encodes the associative dynamics of a modern Hopfield network in the weight structure of a deep neural network. Leveraging this connection, we formulate a generalized framework for understanding the formation of long-term memory, where creative generation and memory recall can be seen as parts of a unified continuum. | 翻訳日:2023-11-22 17:42:42 公開日:2023-11-17 |
# 電荷パリティスイッチング効果とトランスモン量子ビット設計パラメータの最適化 Charge-parity switching effects and optimisation of transmon-qubit design parameters ( http://arxiv.org/abs/2309.17168v2 ) ライセンス: Link先を確認 | Miha Papi\v{c}, Jani Tuorila, Adrian Auer, In\'es de Vega, Amin Hosseinkhani | (参考訳) ノイズの多い量子プロセッサの性能向上には、エラーメカニズムの理解と克服方法の改善が必要です。
正確な誤差モデルによって導かれる量子ビット設計パラメータの偏見的な選択は、量子プロセッサの性能向上に重要な役割を果たす。
本研究では,包括的雑音モデルに基づく量子ビット設計パラメータの最適範囲を同定する。
この目的のために, 準粒子による電荷パリティスイッチによるディアバティックな2量子ビットゲートの摂動が可能な, 従来未検討の誤差機構を解析し始める。
これらの電荷パリティスイッチングは、2つのキュービット間の制御zゲートにおいて支配的な準粒子関連エラー源となり得る。
さらに、制御不能な電荷パリティスイッチを生じる準粒子のダイナミクスが、チューナブルカップラー回路におけるキュービット間の残留長周期相互作用を誘導することを示した。
最適設計パラメータの解析は、回路内の単一および2量子ビットゲートの出現の忠実性と周波数を考慮に入れた量子回路実行性能指標に基づいている。
この性能指標と詳細なノイズモデルにより、量子ビット設計パラメータの最適範囲を求めることができる。
数値シミュレーションにより, 量子チップを最適パラメータ範囲内に構築することで, 性能指標を増大させるだけでなく, 個々の量子ビットコヒーレンス特性の強化による改良を継続できることを確認した。
逆に、最適パラメータ範囲からの傾きは、性能指標の飽和につながる可能性がある。
我々の系統分析は洞察を与え、次世代のトランスモンベースの量子プロセッサの開発のための指針となる。 Enhancing the performance of noisy quantum processors requires improving our understanding of error mechanisms and the ways to overcome them. A judicious selection of qubit design parameters, guided by an accurate error model, plays a pivotal role in improving the performance of quantum processors. In this study, we identify optimal ranges for qubit design parameters, grounded in comprehensive noise modeling. To this end, we commence by analyzing a previously unexplored error mechanism that can perturb diabatic two-qubit gates due to charge-parity switches caused by quasiparticles. We show that such charge-parity switching can be the dominant quasiparticle-related error source in a controlled-Z gate between two qubits. Moreover, we also demonstrate that quasiparticle dynamics, resulting in uncontrolled charge-parity switches, induce a residual longitudinal interaction between qubits in a tunable-coupler circuit. Our analysis of optimal design parameters is based on a performance metric for quantum circuit execution that takes into account the fidelity and frequencies of the appearance of both single and two-qubit gates in the circuit. This performance metric together with a detailed noise model enables us to find an optimal range for the qubit design parameters. Substantiating our findings through exact numerical simulations, we establish that fabricating quantum chips within this optimal parameter range not only augments the performance metric but also ensures its continued improvement with the enhancement of individual qubit coherence properties. Conversely, straying from the optimal parameter range can lead to the saturation of the performance metric. Our systematic analysis offers insights and serves as a guiding framework for the development of the next generation of transmon-based quantum processors. | 翻訳日:2023-11-22 17:42:26 公開日:2023-11-17 |
# ELIP:低ビジョントークンによる効率的な言語画像事前学習 ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens ( http://arxiv.org/abs/2309.16738v2 ) ライセンス: Link先を確認 | Yangyang Guo and Haoyu Zhang and Yongkang Wong and Liqiang Nie and Mohan Kankanhalli | (参考訳) 汎用言語イメージモデルを学ぶことは、限られた計算予算の下では計算が禁じられている。
本稿では,計算コストとフットプリントの削減の重要性にもかかわらず,比較的注目されていない領域である \emph{ efficient language-image pre-training} について述べる。
そこで本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
提案手法は,計算効率,メモリ効率,トレーニング可能なパラメータフリーなど,いくつかの長所を伴って設計されており,従来の視覚のみのトークンプルーニング手法とタスク目標との整合性で区別されている。
本手法は,複数の逐次ブロックを用いて漸進的プルーニング方式で実装する。
一般化性能を評価するために, ELIPを3つの一般的な言語画像事前学習モデルに適用し, 4M画像を用いた公開画像キャプチャペアを用いて事前学習を行う。
実験により,12ViT層にわたる30$\%のビジョントークンの除去により,ELIPは,クロスモーダル検索,VQA,画像キャプション,\emph{etc} など,さまざまな下流タスクに対して,ベースライン(平均値0.32の精度低下)と同等の性能を維持した。
さらに、ELIPによるスペアGPUリソースにより、より大きなバッチサイズでスケールアップすることが可能になり、モデル事前トレーニングが加速し、場合によってはダウンストリームモデルのパフォーマンスが向上します。 Learning a versatile language-image model is computationally prohibitive under a limited computing budget. This paper delves into the \emph{efficient language-image pre-training}, an area that has received relatively little attention despite its importance in reducing computational cost and footprint. To that end, we propose a vision token pruning and merging method ELIP, to remove less influential tokens based on the supervision of language outputs. Our method is designed with several strengths, such as being computation-efficient, memory-efficient, and trainable-parameter-free, and is distinguished from previous vision-only token pruning approaches by its alignment with task objectives. We implement this method in a progressively pruning manner using several sequential blocks. To evaluate its generalization performance, we apply ELIP to three commonly used language-image pre-training models and utilize public image-caption pairs with 4M images for pre-training. Our experiments demonstrate that with the removal of ~30$\%$ vision tokens across 12 ViT layers, ELIP maintains significantly comparable performance with baselines ($\sim$0.32 accuracy drop on average) over various downstream tasks including cross-modal retrieval, VQA, image captioning, \emph{etc}. In addition, the spared GPU resources by our ELIP allow us to scale up with larger batch sizes, thereby accelerating model pre-training and even sometimes enhancing downstream model performance. | 翻訳日:2023-11-22 17:41:45 公開日:2023-11-17 |
# PELA:低ランク近似を用いたパラメータ効率学習モデル PELA: Learning Parameter-Efficient Models with Low-Rank Approximation ( http://arxiv.org/abs/2310.10700v2 ) ライセンス: Link先を確認 | Yangyang Guo and Guangzhi Wang and Mohan Kankanhalli | (参考訳) リソース制約のある条件下では、ダウンストリームタスクに事前訓練された大きなモデルを適用することは禁止される。
最近の効率問題に対する支配的なアプローチは、固定バックボーンモデルにいくつかの学習可能なパラメータを追加することである。
しかし、この戦略は、限られたリソースで下流の微調整のために大きなモデルをロードする際のさらなる課題をもたらす。
本稿では,中間プリトレーニングステージを導入することにより,事前学習モデルのパラメータ効率を向上させる新しい手法を提案する。
この目的のために、我々はまず最初に低ランク近似を用いて元の大模型を圧縮し、次に特徴蒸留モジュールと重み摂動正規化モジュールを考案した。
これらのモジュールは低ランクモデルを強化するように設計されている。
特に、トレーニング前のバックボーンパラメータを凍結しながら、低ランクモデルのみを更新する。
これにより、下流の微調整タスクにローランクモデルの直接的かつ効率的な利用が可能になる。
提案手法は,バックボーンアーキテクチャに最小限の変更を加えながら,要求パラメータと計算時間の両方の効率性を実現する。
具体的には、3つの視覚のみおよび1つの視覚言語トランスフォーマーモデルに適用すると、元のパラメータサイズを1/3から2/3に減らしながら、性能がわずか$\sim$0.6の低下を示すことがしばしばある。 Applying a pre-trained large model to downstream tasks is prohibitive under resource-constrained conditions. Recent dominant approaches for addressing efficiency issues involve adding a few learnable parameters to the fixed backbone model. This strategy, however, leads to more challenges in loading large models for downstream fine-tuning with limited resources. In this paper, we propose a novel method for increasing the parameter efficiency of pre-trained models by introducing an intermediate pre-training stage. To this end, we first employ low-rank approximation to compress the original large model and then devise a feature distillation module and a weight perturbation regularization module. These modules are specifically designed to enhance the low-rank model. In particular, we update only the low-rank model while freezing the backbone parameters during pre-training. This allows for direct and efficient utilization of the low-rank model for downstream fine-tuning tasks. The proposed method achieves both efficiencies in terms of required parameters and computation time while maintaining comparable results with minimal modifications to the backbone architecture. Specifically, when applied to three vision-only and one vision-language Transformer models, our approach often demonstrates a merely $\sim$0.6 point decrease in performance while reducing the original parameter size by 1/3 to 2/3. | 翻訳日:2023-11-22 17:34:02 公開日:2023-11-17 |
# 脆弱性検出のための因果的ディープラーニング Towards Causal Deep Learning for Vulnerability Detection ( http://arxiv.org/abs/2310.07958v3 ) ライセンス: Link先を確認 | Md Mahbubur Rahman, Ira Ceka, Chengzhi Mao, Saikat Chakraborty, Baishakhi Ray, and Wei Le | (参考訳) ディープラーニングの脆弱性検出は近年、有望な結果を示している。
しかし、実際に非常に有用であることを妨げる重要な課題は、モデルが摂動下では堅牢ではなく、例えば実世界の未確認プロジェクトにトレーニングされたモデルを適用するなど、アウト・オブ・ディストリビューション(OOD)データに対してうまく一般化できないことである。
これは、このモデルがラベルとの相関が高まるような非ロバスト特徴(変数名など)を学習したためだと仮定する。
perturbedとoodデータセットがもはや同じスプリアス機能を持っていない場合、モデル予測は失敗する。
本稿では,この課題に対処するため,ディープラーニングの脆弱性検出に因果性を導入した。
我々のアプローチは2つのフェーズからなる。
まず,モデルが予測に使用するスプリアスな特徴を発見するために,新しい摂動をデザインした。
第2に,既存のディープラーニングモデルに加えて,因果学習アルゴリズム,特にdo-calculusを適用し,スプリアス特徴の利用を体系的に排除し,因果に基づく予測を促進する。
その結果、CausalVulは、実験したすべての最先端モデルとデータセットに対して、モデル精度、堅牢性、OOD性能を一貫して改善した。
私たちの知る限りでは、これは計算に基づく因果学習をソフトウェア工学モデルに導入した最初の作品であり、モデル精度、堅牢性、一般化を改善するのに本当に有用であることを示している。
私たちのレプリケーションパッケージはhttps://figshare.com/s/0ffda320dcb96c249ef2にあります。 Deep learning vulnerability detection has shown promising results in recent years. However, an important challenge that still blocks it from being very useful in practice is that the model is not robust under perturbation and it cannot generalize well over the out-of-distribution (OOD) data, e.g., applying a trained model to unseen projects in real world. We hypothesize that this is because the model learned non-robust features, e.g., variable names, that have spurious correlations with labels. When the perturbed and OOD datasets no longer have the same spurious features, the model prediction fails. To address the challenge, in this paper, we introduced causality into deep learning vulnerability detection. Our approach CausalVul consists of two phases. First, we designed novel perturbations to discover spurious features that the model may use to make predictions. Second, we applied the causal learning algorithms, specifically, do-calculus, on top of existing deep learning models to systematically remove the use of spurious features and thus promote causal based prediction. Our results show that CausalVul consistently improved the model accuracy, robustness and OOD performance for all the state-of-the-art models and datasets we experimented. To the best of our knowledge, this is the first work that introduces do calculus based causal learning to software engineering models and shows it's indeed useful for improving the model accuracy, robustness and generalization. Our replication package is located at https://figshare.com/s/0ffda320dcb96c249ef2. | 翻訳日:2023-11-22 17:30:17 公開日:2023-11-17 |
# FD-Align:Few-Shot Learningにおける微調整事前学習モデルの特徴識別アライメント FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained Models in Few-Shot Learning ( http://arxiv.org/abs/2310.15105v4 ) ライセンス: Link先を確認 | Kun Song, Huimin Ma, Bochao Zou, Huishuai Zhang, Weiran Huang | (参考訳) データの可用性が限られているため、スクラッチからトレーニングされた既存の少数ショット学習方法は、十分なパフォーマンスを達成できていない。
対照的に、CLIPのような大規模で事前訓練されたモデルでは、目覚ましい少数ショットとゼロショットの機能を示している。
下流タスクのための事前学習モデルの性能を高めるためには、下流データ上でモデルを微調整する必要があることが多い。
しかしながら、事前学習されたモデルの微調整は分布シフトの存在下での一般化可能性の低下を招き、一方、少数ショット学習ではサンプル数が限られているため、過度に適合しやすいモデルとなる。
その結果,既存の微調整学習手法は主にモデルの分類ヘッドの微調整や追加構造の導入に重点を置いている。
本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。
本手法は, 微調整プロセスにおける突発的特徴の一貫性を保ち, モデルの一般化可能性を高めることを目的とする。
広範囲な実験により, ID および OOD タスクに対するアプローチの有効性が検証された。
微調整をすれば、モデルが既存のメソッドとシームレスに統合できるため、パフォーマンスが向上する。
私たちのコードはhttps://github.com/skingorz/FD-Align.orgにある。 Due to the limited availability of data, existing few-shot learning methods trained from scratch fail to achieve satisfactory performance. In contrast, large-scale pre-trained models such as CLIP demonstrate remarkable few-shot and zero-shot capabilities. To enhance the performance of pre-trained models for downstream tasks, fine-tuning the model on downstream data is frequently necessary. However, fine-tuning the pre-trained model leads to a decrease in its generalizability in the presence of distribution shift, while the limited number of samples in few-shot learning makes the model highly susceptible to overfitting. Consequently, existing methods for fine-tuning few-shot learning primarily focus on fine-tuning the model's classification head or introducing additional structure. In this paper, we introduce a fine-tuning approach termed Feature Discrimination Alignment (FD-Align). Our method aims to bolster the model's generalizability by preserving the consistency of spurious features across the fine-tuning process. Extensive experimental results validate the efficacy of our approach for both ID and OOD tasks. Once fine-tuned, the model can seamlessly integrate with existing methods, leading to performance improvements. Our code can be found in https://github.com/skingorz/FD-Align. | 翻訳日:2023-11-22 17:21:06 公開日:2023-11-17 |
# 動的重み付け型k-means Dynamically Weighted Federated k-Means ( http://arxiv.org/abs/2310.14858v2 ) ライセンス: Link先を確認 | Patrick Holzer, Tania Jacob, Shubham Kavane | (参考訳) フェデレーションクラスタリング(Federated Clustering)は、フェデレーション機械学習の不可欠な側面であり、複数のデータソースが協力してデータをクラスタリングし、分散化とプライバシの保護を維持できる。
本稿では,分散データソースとヘテロジニアスデータに関連する課題に対処するために,lloydのk-meansクラスタリング法に基づく動的重み付きフェデレートk-means (dwf k-means) と呼ばれる新しいフェデレートクラスタリングアルゴリズムを提案する。
提案アルゴリズムは,従来のクラスタリング手法の利点と,フェデレート学習によるプライバシとスケーラビリティのメリットを組み合わせる。
このアルゴリズムは、複数のデータオーナ間の協調的なクラスタリングを促進し、中央コーディネータと最小限の情報交換をしながら、ローカルデータを集合的にクラスタリングする。
このアルゴリズムはクラスタ割り当てとセントロイドを各データソースから適応的に集約することでクラスタリングプロセスを最適化し,フェデレートされたネットワーク全体の集合的知識を反映したグローバルクラスタリングソリューションを学習する。
我々は、連合クラスタリングの文脈で一般的に発生する空のクラスタの問題に対処する。
本研究では,複数のデータセットとデータ分散設定について実験を行い,クラスタリングスコア,精度,v-measureの観点からアルゴリズムの性能評価を行った。
その結果,本手法は,従来のk-meansベースラインの性能と一致し,k-FEDのような既存のクラスタリング手法を現実的なシナリオで上回ることを示す。 Federated clustering, an integral aspect of federated machine learning, enables multiple data sources to collaboratively cluster their data, maintaining decentralization and preserving privacy. In this paper, we introduce a novel federated clustering algorithm named Dynamically Weighted Federated k-means (DWF k-means) based on Lloyd's method for k-means clustering, to address the challenges associated with distributed data sources and heterogeneous data. Our proposed algorithm combines the benefits of traditional clustering techniques with the privacy and scalability benefits offered by federated learning. The algorithm facilitates collaborative clustering among multiple data owners, allowing them to cluster their local data collectively while exchanging minimal information with the central coordinator. The algorithm optimizes the clustering process by adaptively aggregating cluster assignments and centroids from each data source, thereby learning a global clustering solution that reflects the collective knowledge of the entire federated network. We address the issue of empty clusters, which commonly arises in the context of federated clustering. We conduct experiments on multiple datasets and data distribution settings to evaluate the performance of our algorithm in terms of clustering score, accuracy, and v-measure. The results demonstrate that our approach can match the performance of the centralized classical k-means baseline, and outperform existing federated clustering methods like k-FED in realistic scenarios. | 翻訳日:2023-11-22 17:20:12 公開日:2023-11-17 |
# 高次元低サンプルサイズ分類のためのランダムフォレストカーネル Random Forest Kernel for High-Dimension Low Sample Size Classification ( http://arxiv.org/abs/2310.14710v2 ) ライセンス: Link先を確認 | Lucca Portes Cavalheiro, Simon Bernard, Jean Paul Barddal, Laurent Heutte | (参考訳) 高次元, 低サンプルサイズ (HDLSS) 問題は, 機械学習の現実的な応用に多い。
医療画像からテキスト処理まで、従来の機械学習アルゴリズムは、そのようなデータから可能な最善の概念を学ぶのに失敗した。
前報では,多視点分類のための相似性に基づくアプローチであるランダム森林相似性(Random Forest Dissimilarity,RFD)を提案した。
本研究では、RF類似度尺度を学習前計算SVMカーネル(RFSVM)として使用することにより、HDLSS分類問題を解決するためのこのアプローチの中核となる原理を変換する。
このような学習的類似度尺度は, この分類文脈に特に適しており, 正確であることを示す。
厳密な統計分析によって支援された40の公的なHDLSS分類データセットによる実験により、RFSVM法はHDLSS問題の大部分において既存の手法よりも優れており、低あるいは非HDLSS問題に対して非常に競争力のあるままであることが示された。 High dimension, low sample size (HDLSS) problems are numerous among real-world applications of machine learning. From medical images to text processing, traditional machine learning algorithms are usually unsuccessful in learning the best possible concept from such data. In a previous work, we proposed a dissimilarity-based approach for multi-view classification, the Random Forest Dissimilarity (RFD), that perfoms state-of-the-art results for such problems. In this work, we transpose the core principle of this approach to solving HDLSS classification problems, by using the RF similarity measure as a learned precomputed SVM kernel (RFSVM). We show that such a learned similarity measure is particularly suited and accurate for this classification context. Experiments conducted on 40 public HDLSS classification datasets, supported by rigorous statistical analyses, show that the RFSVM method outperforms existing methods for the majority of HDLSS problems and remains at the same time very competitive for low or non-HDLSS problems. | 翻訳日:2023-11-22 17:19:34 公開日:2023-11-17 |
# CrossCodeEval:クロスファイルコード補完のための多言語ベンチマーク CrossCodeEval: A Diverse and Multilingual Benchmark for Cross-File Code Completion ( http://arxiv.org/abs/2310.11248v2 ) ライセンス: Link先を確認 | Yangruibo Ding, Zijian Wang, Wasi Uddin Ahmad, Hantian Ding, Ming Tan, Nihal Jain, Murali Krishna Ramanathan, Ramesh Nallapati, Parminder Bhatia, Dan Roth, Bing Xiang | (参考訳) 近年、コード補完モデルは大幅に進歩しているが、HumanEvalやMBPPといった一般的な評価データセットは、主に単一のファイル内のコード補完タスクに焦点を当てている。
この単純化された設定は、多数のクロスファイル依存関係を持つ複数のファイルにレポジトリがまたがる実際のソフトウェア開発シナリオを表現するものではありません。
このギャップを埋めるために、我々はCrossCodeEvalを提案する。CrossCodeEvalは多種多様な多言語コード補完ベンチマークで、正確にコードを完成させるために、詳細なクロスファイルのコンテキスト理解を必要とする。
CrossCodeEvalは、Python、Java、TypeScript、C#という4つの人気のあるプログラミング言語で、さまざまな現実世界、オープンソース、パーミッシブライセンスのリポジトリ上に構築されている。
正確な完了のためにクロスファイルコンテキストを厳密に要求する例を作成するために、我々は、現在のファイル内でクロスファイルコンテキストの使用をピンポイントする、単純かつ効率的な静的分析に基づくアプローチを提案する。
CodeGenやStarCoderのような最先端のコード言語モデルに関する大規模な実験では、関連するクロスファイルコンテキストが欠如している場合、CrossCodeEvalは非常に難しいことが示されています。
しかしながら、このような改善にもかかわらず、最高性能のモデルでさえ、パフォーマンスの頂点は明らかに未完成であり、CrossCodeEvalは、コード補完を改善するために広範囲なコンテキストを活用するモデルの能力も評価できることを示している。
最後に、クロスファイルコンテキストの検索において様々なメソッドをベンチマークし、コード検索の能力を測定するためにCrossCodeEvalを使用できることを示す。 Code completion models have made significant progress in recent years, yet current popular evaluation datasets, such as HumanEval and MBPP, predominantly focus on code completion tasks within a single file. This over-simplified setting falls short of representing the real-world software development scenario where repositories span multiple files with numerous cross-file dependencies, and accessing and understanding cross-file context is often required to complete the code correctly. To fill in this gap, we propose CrossCodeEval, a diverse and multilingual code completion benchmark that necessitates an in-depth cross-file contextual understanding to complete the code accurately. CrossCodeEval is built on a diverse set of real-world, open-sourced, permissively-licensed repositories in four popular programming languages: Python, Java, TypeScript, and C#. To create examples that strictly require cross-file context for accurate completion, we propose a straightforward yet efficient static-analysis-based approach to pinpoint the use of cross-file context within the current file. Extensive experiments on state-of-the-art code language models like CodeGen and StarCoder demonstrate that CrossCodeEval is extremely challenging when the relevant cross-file context is absent, and we see clear improvements when adding these context into the prompt. However, despite such improvements, the pinnacle of performance remains notably unattained even with the highest-performing model, indicating that CrossCodeEval is also capable of assessing model's capability in leveraging extensive context to make better code completion. Finally, we benchmarked various methods in retrieving cross-file context, and show that CrossCodeEval can also be used to measure the capability of code retrievers. | 翻訳日:2023-11-22 17:16:38 公開日:2023-11-17 |
# 深層学習に基づく人間と機械のための圧縮ドメインマルチメディア:分類とポイントクラウド分類への応用 Deep Learning-based Compressed Domain Multimedia for Man and Machine: A Taxonomy and Application to Point Cloud Classification ( http://arxiv.org/abs/2310.18849v2 ) ライセンス: Link先を確認 | Abdelrahman Seleem (1, 2, 4), Andr\'e F. R. Guarda (2), Nuno M. M. Rodrigues (2, 3), Fernando Pereira (1, 2) ((1) Instituto Superior T\'ecnico - Universidade de Lisboa, Lisbon, Portugal, (2) Instituto de Telecomunica\c{c}\~oes, Portugal, (3) ESTG, Polit\'ecnico de Leiria, Leiria, Portugal, (4) Faculty of Computers and Information, South Valley University, Qena, Egypt) | (参考訳) 現在のマルチメディアの黄金時代において、人間の可視化はもはや唯一のターゲットではなく、最終的な消費者はしばしば処理やコンピュータビジョンタスクを実行する機械である。
いずれの場合も、ディープラーニングはマルチメディア表現データから特徴を抽出するのに役立ち、通常は潜在表現と呼ばれる圧縮表現を生成する。
幅広いマルチメディアアプリケーションにおけるディープラーニングベースのソリューションの開発と導入の増加により、人間と機械の両方に共通の圧縮マルチメディア表現が使用される、エキサイティングな新しいビジョンが開かれた。
このビジョンの主な利点は2つあります。
一 符号化工芸品の効果を緩和するため、コンピュータビジョンのタスクの性能を向上させること。
二 事前復号が不要であるため、計算複雑性の低減。
本稿では,圧縮ドメイン型コンピュータビジョンソリューションの設計のための最初の分類法を提案し,時空間型コンピュータビジョンプロセッサのアーキテクチャと重み付け互換性について述べる。
JPEG Pleno Point Cloud Coding標準を用いて新しい圧縮ドメインプロセッサを設計し、PointGrid分類器の開発と適応を行うことにより、ポイントクラウド分類の特定事例に対して、提案手法の可能性を示す。
実験結果から, 圧縮された領域点クラウド分類ソリューションは, 圧縮されたデータに適用した場合の時空間領域分類ベンチマークを著しく上回り, 圧縮されていないデータに適用した場合の処理性能を上回り得ることがわかった。 In the current golden age of multimedia, human visualization is no longer the single main target, with the final consumer often being a machine which performs some processing or computer vision tasks. In both cases, deep learning plays a undamental role in extracting features from the multimedia representation data, usually producing a compressed representation referred to as latent representation. The increasing development and adoption of deep learning-based solutions in a wide area of multimedia applications have opened an exciting new vision where a common compressed multimedia representation is used for both man and machine. The main benefits of this vision are two-fold: i) improved performance for the computer vision tasks, since the effects of coding artifacts are mitigated; and ii) reduced computational complexity, since prior decoding is not required. This paper proposes the first taxonomy for designing compressed domain computer vision solutions driven by the architecture and weights compatibility with an available spatio-temporal computer vision processor. The potential of the proposed taxonomy is demonstrated for the specific case of point cloud classification by designing novel compressed domain processors using the JPEG Pleno Point Cloud Coding standard under development and adaptations of the PointGrid classifier. Experimental results show that the designed compressed domain point cloud classification solutions can significantly outperform the spatial-temporal domain classification benchmarks when applied to the decompressed data, containing coding artifacts, and even surpass their performance when applied to the original uncompressed data. | 翻訳日:2023-11-22 17:09:31 公開日:2023-11-17 |
# duma: 速い思考と遅い思考を持つデュアルマインド会話エージェント DUMA: a Dual-Mind Conversational Agent with Fast and Slow Thinking ( http://arxiv.org/abs/2310.18075v3 ) ライセンス: Link先を確認 | Xiaoyu Tian, Liangyu Chen, Na Liu, Yaxuan Liu, Wei Zou, Kaijiang Chen, Ming Cui | (参考訳) 人間の認知の二重プロセス理論に着想を得て,2つの生成的大言語モデル(LLM)をそれぞれ高速・低速な思考に用い,二重マシン機構を具現化した対話エージェントフレームワークであるDUMAを導入する。
高速思考モデルは、外的相互作用と初期応答生成の主要なインターフェースとして機能し、完全な応答の複雑さに基づいて、遅い思考モデルに取り組む必要性を評価する。
起動すると、遅い思考モデルが会話を引き継ぎ、綿密な計画、推論、ツール利用に取り組み、よく分析された応答を提供する。
このデュアルミンド構成は、直感的な応答と状況に基づいた意図的な問題解決プロセスのシームレスな遷移を可能にする。
我々は,不動産業界のオンライン調査を扱う対話エージェントを構築した。
実験は,本手法が有効性と効率のバランスをとることを証明し,ベースラインと比較して著しく改善した。 Inspired by the dual-process theory of human cognition, we introduce DUMA, a novel conversational agent framework that embodies a dual-mind mechanism through the utilization of two generative Large Language Models (LLMs) dedicated to fast and slow thinking respectively. The fast thinking model serves as the primary interface for external interactions and initial response generation, evaluating the necessity for engaging the slow thinking model based on the complexity of the complete response. When invoked, the slow thinking model takes over the conversation, engaging in meticulous planning, reasoning, and tool utilization to provide a well-analyzed response. This dual-mind configuration allows for a seamless transition between intuitive responses and deliberate problem-solving processes based on the situation. We have constructed a conversational agent to handle online inquiries in the real estate industry. The experiment proves that our method balances effectiveness and efficiency, and has a significant improvement compared to the baseline. | 翻訳日:2023-11-22 17:07:46 公開日:2023-11-17 |
# 薄肉金属添加物製造におけるオンライン二段階熱履歴予測法 Online Two-stage Thermal History Prediction Method for Metal Additive Manufacturing of Thin Walls ( http://arxiv.org/abs/2310.16125v2 ) ライセンス: Link先を確認 | Yifan Tang, M. Rahmani Dehaghani, Pouyan Sajadi, Shahriar Bakrani Balani, Akshay Dhalpe, Suraj Panicker, Di Wu, Eric Coatanea, G. Gary Wang | (参考訳) 本稿では,性能制御のための金属AMプロセスに統合可能なオンライン二段階熱履歴予測手法を提案する。
提案手法の第一段階は,2つの連続した層間の温度曲線(一点の温度分布の曲率)の類似性に基づいて,予め印刷した層上の特定の点の温度から,まだ印刷されていない層の温度曲線を推定する層間予測モデルを設計した。
2段目は、同一層上の複数の点の温度プロファイルを測定・予測し、同一層上のすべての点の温度プロファイルを分解し構成するための縮小順序モデル(rom)を提案する。
ROMのトレーニングは、計算効率を高めるための極端な学習機械(ELM)を用いて行われる。
15本のワイヤアークAM実験と9つのシミュレーションは、各層の固定長と一方向印刷の薄い壁のために設計されている。
実験結果から, 提案手法は, 低コストデスクトップコンピュータ上で0.1秒以内で, 未印刷層の温度履歴を構築できることが示唆された。
一方,本手法は,低層から高層までのほとんどの場合において,一つのシミュレーションから異なるAMプロセスパラメータの新たなシミュレーションまで,同じシミュレーションにおいて許容される一般化能力を有する。
さらに,提案手法を限定実験データで微調整した後,新しい実験における予測温度プロファイルの相対誤差は0.09未満となり,金属AMのオンライン応用における2段階熱履歴予測法の適用性と一般化が示された。 This paper aims to propose an online two-stage thermal history prediction method, which could be integrated into a metal AM process for performance control. Based on the similarity of temperature curves (curve segments of a temperature profile of one point) between any two successive layers, the first stage of the proposed method designs a layer-to-layer prediction model to estimate the temperature curves of the yet-to-print layer from measured temperatures of certain points on the previously printed layer. With measured/predicted temperature profiles of several points on the same layer, the second stage proposes a reduced order model (ROM) (intra-layer prediction model) to decompose and construct the temperature profiles of all points on the same layer, which could be used to build the temperature field of the entire layer. The training of ROM is performed with an extreme learning machine (ELM) for computational efficiency. Fifteen wire arc AM experiments and nine simulations are designed for thin walls with a fixed length and unidirectional printing of each layer. The test results indicate that the proposed prediction method could construct the thermal history of a yet-to-print layer within 0.1 seconds on a low-cost desktop computer. Meanwhile, the method has acceptable generalization capability in most cases from lower layers to higher layers in the same simulation, as well as from one simulation to a new simulation on different AM process parameters. More importantly, after fine-tuning the proposed method with limited experimental data, the relative errors of all predicted temperature profiles on a new experiment are smaller than 0.09, which demonstrates the applicability and generalization of the proposed two-stage thermal history prediction method in online applications for metal AM. | 翻訳日:2023-11-22 17:06:20 公開日:2023-11-17 |
# AutoDiff: 表データ合成のためのオートエンコーダと拡散モデルを組み合わせる AutoDiff: combining Auto-encoder and Diffusion model for tabular data synthesizing ( http://arxiv.org/abs/2310.15479v2 ) ライセンス: Link先を確認 | Namjoon Suh, Xiaofeng Lin, Din-Yin Hsieh, Merhdad Honarkhah, Guang Cheng | (参考訳) 拡散モデルは、コンピュータビジョン、言語モデル、音声合成を含む現代の機械学習の多くのサブフィールドにおいて、合成データ生成の主要なパラダイムとなっている。
本稿では,合成表データを生成するために拡散モデルのパワーを利用する。
表データの異質な特徴は表データ合成における主な障害であり,オートエンコーダアーキテクチャを用いてこの問題に対処している。
最先端の表型シンセサイザーと比較すると,本モデルから得られた合成表は,実データに対する優れた統計量を示し,機械学習ユーティリティの下流タスクにおいて良好に機能する。
公開データセットを15ドル以上で実験しました。
特に,本モデルでは,表層データ合成における長年の課題である特徴間の相関関係を良好に捉えている。
私たちのコードはhttps://github.com/UCLA-Trustworthy-AI-Lab/AutoDiffusionで利用可能です。 Diffusion model has become a main paradigm for synthetic data generation in many subfields of modern machine learning, including computer vision, language model, or speech synthesis. In this paper, we leverage the power of diffusion model for generating synthetic tabular data. The heterogeneous features in tabular data have been main obstacles in tabular data synthesis, and we tackle this problem by employing the auto-encoder architecture. When compared with the state-of-the-art tabular synthesizers, the resulting synthetic tables from our model show nice statistical fidelities to the real data, and perform well in downstream tasks for machine learning utilities. We conducted the experiments over $15$ publicly available datasets. Notably, our model adeptly captures the correlations among features, which has been a long-standing challenge in tabular data synthesis. Our code is available at https://github.com/UCLA-Trustworthy-AI-Lab/AutoDiffusion. | 翻訳日:2023-11-22 17:04:23 公開日:2023-11-17 |
# 4Dフォーマー:マルチモーダル4Dパノプティカルセグメンテーション 4D-Former: Multimodal 4D Panoptic Segmentation ( http://arxiv.org/abs/2311.01520v2 ) ライセンス: Link先を確認 | Ali Athar, Enxu Li, Sergio Casas, Raquel Urtasun | (参考訳) 4Dパノプティックセグメンテーションは、意味クラスラベルに割り当てられるLiDARポイントクラウドシーケンスのすべてのポイントと、時間とともにセグメント化され、追跡される個々のオブジェクトを必要とする、困難だが実用的なタスクである。
既存のアプローチでは、ポイント間隔のある領域で限られた情報を伝えるLiDAR入力のみを使用する。
しかし、この問題は、幾何学に基づくLiDAR機能を強化する外観情報を提供するRGBカメラ画像を利用することで緩和することができる。
そこで本研究では4D-Formerを提案する。LiDARと画像モダリティを両立させ,セマンティックマスクと時間的に一貫したオブジェクトマスクを入力ポイントクラウドシーケンスに対して予測する4D-Formerを提案する。
両データモダリティの特徴情報を吸収する一連の簡潔なクエリを用いて,セマンティッククラスとオブジェクトをエンコードする。
さらに,物体の軌跡を時間とともに関連付ける学習機構を提案する。
4D-FormerをnuScenesおよびSemanticKITTIデータセットに適用し、最先端の結果を得る。 4D panoptic segmentation is a challenging but practically useful task that requires every point in a LiDAR point-cloud sequence to be assigned a semantic class label, and individual objects to be segmented and tracked over time. Existing approaches utilize only LiDAR inputs which convey limited information in regions with point sparsity. This problem can, however, be mitigated by utilizing RGB camera images which offer appearance-based information that can reinforce the geometry-based LiDAR features. Motivated by this, we propose 4D-Former: a novel method for 4D panoptic segmentation which leverages both LiDAR and image modalities, and predicts semantic masks as well as temporally consistent object masks for the input point-cloud sequence. We encode semantic classes and objects using a set of concise queries which absorb feature information from both data modalities. Additionally, we propose a learned mechanism to associate object tracks over time which reasons over both appearance and spatial location. We apply 4D-Former to the nuScenes and SemanticKITTI datasets where it achieves state-of-the-art results. | 翻訳日:2023-11-22 16:56:58 公開日:2023-11-17 |
# 線形制御ニューラルネットワークによる最適輸送マップの近似としての正規化フロー Normalizing flows as approximations of optimal transport maps via linear-control neural ODEs ( http://arxiv.org/abs/2311.01404v2 ) ライセンス: Link先を確認 | Alessandro Scagliotti, Sara Farinelli | (参考訳) Normalizing Flows"という用語は、深層ニューラルネットワークを用いて確率測度間の可逆輸送マップを構築するタスクに関連している。
本稿では,絶対連続測度$\mu,\nu\in\mathcal{p}(\mathbb{r}^n)$を線形制御神経odeの流れとして,w_2$-optimal transport map $t$を回復する問題を考える。
まず,$\mu,\nu$ と制御ベクトル場上の適切な仮定の下で,最適輸送写像が系が生成する流れの $c^0_c$-closure に含まれることを示す。
元の測度 $\mu,\nu$ の離散近似 $\mu_N,\nu_N$ が利用できると仮定すると、最適制御問題を定義するために離散最適結合 $\gamma_N$ を用いる。
$\Gamma$-収束論において、その解が最適輸送写像 $T$ を近似するフローに対応することを証明している。
最後に、ポントリャーギン極大原理を利用して、最適制御問題の解の反復的数値スキームを提案し、近似された最適輸送写像の実用的な計算法を提案する。 The term "Normalizing Flows" is related to the task of constructing invertible transport maps between probability measures by means of deep neural networks. In this paper, we consider the problem of recovering the $W_2$-optimal transport map $T$ between absolutely continuous measures $\mu,\nu\in\mathcal{P}(\mathbb{R}^n)$ as the flow of a linear-control neural ODE. We first show that, under suitable assumptions on $\mu,\nu$ and on the controlled vector fields, the optimal transport map is contained in the $C^0_c$-closure of the flows generated by the system. Assuming that discrete approximations $\mu_N,\nu_N$ of the original measures $\mu,\nu$ are available, we use a discrete optimal coupling $\gamma_N$ to define an optimal control problem. With a $\Gamma$-convergence argument, we prove that its solutions correspond to flows that approximate the optimal transport map $T$. Finally, taking advantage of the Pontryagin Maximum Principle, we propose an iterative numerical scheme for the resolution of the optimal control problem, resulting in an algorithm for the practical computation of the approximated optimal transport map. | 翻訳日:2023-11-22 16:56:36 公開日:2023-11-17 |
# ビジュアル分析の過程におけるユーザ行動の違いは何か? What User Behaviors Make the Differences During the Process of Visual Analytics? ( http://arxiv.org/abs/2311.00690v2 ) ライセンス: Link先を確認 | Shahin Doroudian, Zekun Wu, Aidong Lu | (参考訳) ビジュアル分析プロセスの理解は、ビジュアルデザインの改善や高度なインタラクション機能の開発など、さまざまな側面から可視化研究者に利益をもたらす。
しかし、ユーザ行動のログファイルは、センスメイキングの複雑さと、関連するユーザ行動に関する知識の欠如のため、依然として分析が難しい。
本研究では,ユーザ行動の包括的データ収集と時系列分類手法を用いた分析手法を提案する。
従来の可視化アプリケーションであるcovid-19 data analysisを選択し,地理空間,時系列,複数属性を対象とした共通分析タスクを行った。
ユーザ調査は,デスクトップと没入型ビジュアライゼーションの2つのシステムを用いて,多様なビジュアライゼーションタスクでユーザ動作を収集する。
3つの時系列機械学習アルゴリズムを2つのスケールで分類し,行動特徴の影響について検討する。
この結果から,視覚分析の過程でユーザ行動の区別が可能であり,ユーザの身体行動と視覚的タスクの関連性が強い可能性が示唆された。
また,ビジュアルアナリティクスのオープンセッションを解釈することにより,手作業の面倒なアノテーションを使わずにセンスメイキングを自動学習する手法を提案する。 The understanding of visual analytics process can benefit visualization researchers from multiple aspects, including improving visual designs and developing advanced interaction functions. However, the log files of user behaviors are still hard to analyze due to the complexity of sensemaking and our lack of knowledge on the related user behaviors. This work presents a study on a comprehensive data collection of user behaviors, and our analysis approach with time-series classification methods. We have chosen a classical visualization application, Covid-19 data analysis, with common analysis tasks covering geo-spatial, time-series and multi-attributes. Our user study collects user behaviors on a diverse set of visualization tasks with two comparable systems, desktop and immersive visualizations. We summarize the classification results with three time-series machine learning algorithms at two scales, and explore the influences of behavior features. Our results reveal that user behaviors can be distinguished during the process of visual analytics and there is a potentially strong association between the physical behaviors of users and the visualization tasks they perform. We also demonstrate the usage of our models by interpreting open sessions of visual analytics, which provides an automatic way to study sensemaking without tedious manual annotations. | 翻訳日:2023-11-22 16:54:54 公開日:2023-11-17 |
# 深層強化学習における第一原理解釈,記憶,一般化のケーススタディとしてのクローズド・ドラフト Closed Drafting as a Case Study for First-Principle Interpretability, Memory, and Generalizability in Deep Reinforcement Learning ( http://arxiv.org/abs/2310.20654v3 ) ライセンス: Link先を確認 | Ryan Rezai and Jason Wang | (参考訳) クローズド・ドラフト」または「ピック・アンド・パス」は、各ラウンドプレーヤーが手からカードや他のプレイ可能な要素を選択し、残りを次のプレイヤーに渡す人気ゲームメカニックである。
本稿では,クローズドドラフトゲームを行うディープqネットワーク(dqn)モデルの解釈性,一般化性,記憶性を研究するための第一原理手法を確立する。
特に、最先端の演技を行う「寿司囲碁会」という、クローズドな起草ゲームの人気ファミリを用いている。
我々は、訓練されたDRLエージェントの意思決定戦略を、異なるタイプの人間のプレイヤーのランク設定と比較することにより解釈する決定ルールに適合する。
遊びのカードセットを基にしたゲームセットとして表現できるため、様々なカードセットで訓練されたdrlモデルの一般化性を定量化し、環境に不慣れな機能としてエージェントのパフォーマンスをベンチマークする方法を確立した。
クローズドドラフトゲームにおいて,他のプレイヤーの手の明示的に計算可能なメモリを用いて,DRLモデルのメモリ学習能力を測定する。 Closed drafting or "pick and pass" is a popular game mechanic where each round players select a card or other playable element from their hand and pass the rest to the next player. In this paper, we establish first-principle methods for studying the interpretability, generalizability, and memory of Deep Q-Network (DQN) models playing closed drafting games. In particular, we use a popular family of closed drafting games called "Sushi Go Party", in which we achieve state-of-the-art performance. We fit decision rules to interpret the decision-making strategy of trained DRL agents by comparing them to the ranking preferences of different types of human players. As Sushi Go Party can be expressed as a set of closely-related games based on the set of cards in play, we quantify the generalizability of DRL models trained on various sets of cards, establishing a method to benchmark agent performance as a function of environment unfamiliarity. Using the explicitly calculable memory of other player's hands in closed drafting games, we create measures of the ability of DRL models to learn memory. | 翻訳日:2023-11-22 16:53:55 公開日:2023-11-17 |
# ダブルポスト超電導キャビティに符号化されたデュアルレール量子ビットの消去検出 Erasure detection of a dual-rail qubit encoded in a double-post superconducting cavity ( http://arxiv.org/abs/2311.04423v2 ) ライセンス: Link先を確認 | Akshay Koottandavida, Ioannis Tsioutsios, Aikaterini Kargioti, Cassady R. Smith, Vidul R. Joshi, Wei Dai, James D. Teoh, Jacob C. Curtis, Luigi Frunzio, Robert J. Schoelkopf, Michel H. Devoret | (参考訳) 主に消去誤差を持つ量子ビットは、量子エラー補正(QEC)とフォールトトレラント量子コンピューティングの顕著な利点を示す。
消去検出を利用するデュアルレール符号化に基づく論理量子ビットは、最近超伝導回路アーキテクチャにおいて、結合トランスモンまたはキャビティで提案されている。
ここでは、コンパクトな2ポスト超伝導キャビティに符号化されたデュアルレール量子ビットを実装した。
補助トランスモンを用いて二重レール部分空間の消去検出を行う。
共同ウィグナートモグラフィーを行う新しい手法により,コード空間の挙動を特徴付ける。
これはキャビティモードとトランスモン間のクロスカー相互作用の修正に基づいている。
我々は,3.981+/-0.003(ms)-1の消去率と,符号空間内における残差の最大0.17(ms)-1を測定する。
このエラーレートの強い階層と、この新アーキテクチャのコンパクトでハードウェア効率のよい性質は、しきい値の強化とスケーリングの改善によるqecスキームの実現を約束している。 Qubits with predominantly erasure errors present distinctive advantages for quantum error correction(QEC) and fault tolerant quantum computing. Logical qubits based on dual-rail encoding that exploit erasure detection have been recently proposed in superconducting circuit architectures, either with coupled transmons or cavities. Here, we implement a dual-rail qubit encoded in a compact, double-post superconducting cavity. Using an auxiliary transmon, we perform erasure detection on the dual-rail subspace. We characterize the behaviour of the codespace by a novel method to perform joint-Wigner tomography. This is based on modifying the cross-Kerr interaction between the cavity modes and the transmon. We measure an erasure rate of 3.981 +/- 0.003 (ms)-1 and a residual dephasing error rate up to 0.17 (ms)-1 within the codespace. This strong hierarchy of error rates, together with the compact and hardware-efficient nature of this novel architecture, hold promise in realising QEC schemes with enhanced thresholds and improved scaling. | 翻訳日:2023-11-22 16:43:32 公開日:2023-11-17 |
# 回路プローブを用いた変圧器の中間変数の解明 Uncovering Intermediate Variables in Transformers using Circuit Probing ( http://arxiv.org/abs/2311.04354v2 ) ライセンス: Link先を確認 | Michael A. Lepori, Thomas Serre, Ellie Pavlick | (参考訳) ニューラルネットワークモデルは、さまざまな複雑なタスクで高いパフォーマンスを達成しているが、それらが実装するアルゴリズムは、解釈が難しいことで悪名高い。
これらのアルゴリズムを理解するためには、ネットワークの計算に関わる中間変数を仮定する必要がある。
例えば、言語モデルは文を生成する際に特定の構文特性に依存しますか?
しかし,既存の解析ツールでは,このような仮説の検証が困難である。
我々は,仮説の中間変数を計算する低レベル回路を自動的に解明する新しい解析手法 -- 回路探索 -- を提案する。
これにより、モデルパラメータのレベルでのターゲットアブレーションによる因果解析が可能になる。
本手法を単純な算術タスクで学習したモデルに適用し,(1)モデルが学習したアルゴリズムの解法,(2)モデル内のモジュラー構造を明らかにすること,(3)トレーニングによる回路開発を追跡することの有効性を実証する。
これら3つの実験で回路探索法を他の手法と比較し,既存の解析法と同等かそれ以上の有効性を見いだした。
最後に,GPT2-SmallおよびMediumにおける主観的収束と反射性アナフォラの原因となる回路を明らかにする。 Neural network models have achieved high performance on a wide variety of complex tasks, but the algorithms that they implement are notoriously difficult to interpret. In order to understand these algorithms, it is often necessary to hypothesize intermediate variables involved in the network's computation. For example, does a language model depend on particular syntactic properties when generating a sentence? However, existing analysis tools make it difficult to test hypotheses of this type. We propose a new analysis technique -- circuit probing -- that automatically uncovers low-level circuits that compute hypothesized intermediate variables. This enables causal analysis through targeted ablation at the level of model parameters. We apply this method to models trained on simple arithmetic tasks, demonstrating its effectiveness at (1) deciphering the algorithms that models have learned, (2) revealing modular structure within a model, and (3) tracking the development of circuits over training. We compare circuit probing to other methods across these three experiments, and find it on par or more effective than existing analysis methods. Finally, we demonstrate circuit probing on a real-world use case, uncovering circuits that are responsible for subject-verb agreement and reflexive anaphora in GPT2-Small and Medium. | 翻訳日:2023-11-22 16:43:14 公開日:2023-11-17 |
# 信号処理とSGD: モーメントからフィルタへ Signal Processing Meets SGD: From Momentum to Filter ( http://arxiv.org/abs/2311.02818v2 ) ライセンス: Link先を確認 | Zhipeng Yao, Guisong Chang, Jiaqi Zhang, Qi Zhang, Yu Zhang, Dazhou Li | (参考訳) ディープラーニングの分野では、SGD(Stochastic Gradient Descent)とその運動量に基づく変種が最適化アルゴリズムの主要な選択肢である。
それにもかかわらず、これらの運動量戦略は、固定された$\beta$ハイパーパラメータを用いて最適化処理を円滑にすることで歴史的勾配を蓄積し、しばしば現在の勾配推定に対する歴史的勾配の分散の影響を無視する。
トレーニング中の勾配分散では、ゆらぎは目的関数が常にリプシッツ連続性条件を満たしていないことを示すため、厄介な最適化問題を引き起こす。
本研究の目的は, 歴史的勾配のばらつきを低減し, 最適化器を平坦な解に収束させる可能性を探ることである。
さらに,分散の低減に基づく新しい最適化手法を提案する。
我々は,ワイナーフィルタ理論を用いてsgdの最初のモーメント推定,特にオプティマイザへの適応重みを導入した。
特に、適応重みは、ディープラーニングモデルトレーニング中の勾配変動の時間的変動とともに動的に変化する。
提案する適応ウェイトオプティマイザであるsgdf(stochasticgradient descent with filter)は,最先端のオプティマイザと比較して良好な性能が得られることを示した。 In the field of deep learning, Stochastic Gradient Descent (SGD) and its momentum-based variants are the predominant choices for optimization algorithms. Despite all that, these momentum strategies, which accumulate historical gradients by using a fixed $\beta$ hyperparameter to smooth the optimization processing, often neglect the potential impact of the variance of historical gradients on the current gradient estimation. In the gradient variance during training, fluctuation indicates the objective function does not meet the Lipschitz continuity condition at all time, which raises the troublesome optimization problem. This paper aims to explore the potential benefits of reducing the variance of historical gradients to make optimizer converge to flat solutions. Moreover, we proposed a new optimization method based on reducing the variance. We employed the Wiener filter theory to enhance the first moment estimation of SGD, notably introducing an adaptive weight to optimizer. Specifically, the adaptive weight dynamically changes along with temporal fluctuation of gradient variance during deep learning model training. Experimental results demonstrated our proposed adaptive weight optimizer, SGDF (Stochastic Gradient Descent With Filter), can achieve satisfactory performance compared with state-of-the-art optimizers. | 翻訳日:2023-11-22 16:41:59 公開日:2023-11-17 |
# 極性超低温反応:空洞制御分子光解離 Polaritonic ultracold reactions: cavity controlled molecular photoassociation ( http://arxiv.org/abs/2311.02497v2 ) ライセンス: Link先を確認 | Vasil Rokaj, Simeon I. Mistakidis, and H. R. Sadeghpour | (参考訳) ルビジウム二量体とテラヘルツ空洞との共振振動強い結合を考慮した超低温光化学のキャビティ分極制御のための原型モデルを提案する。
振動励起と真空光子吸収の交差を避けるために、分子と光子の間の分極状態は、分子振動のフランク・コンドン(FC)因子を効率的に制御できることを示した。
光と物質の絡み合いにより、FC因子は1つの極性分岐から別の極性分岐に移動され、実質的に強化されたFC因子を持つ偏光子となる。
この偏光子状態を利用して光解離し、超低温分子の形成が促進される。
この研究は、キャビティ真空場と光結合を制御する道筋を示唆し、極性超低温化学の新たなサブフィールドの基盤を築いている。 We introduce a prototypical model for cavity polaritonic control of ultracold photochemistry by considering the resonant vibrational strong coupling of a rubidium dimer to a terahertz cavity. We demonstrate that at avoided crossings between a vibrational excitation and the vacuum photon absorption, the resulting polaritonic states between the molecule and photons can efficiently control the molecular vibrational Franck-Condon (FC) factors. Due to the entanglement between light and matter, FC factor is transferred from one polaritonic branch to other, leading to a polariton with a substantially enhanced FC factor. Utilizing this polariton state for photoassociation results in the enhanced formation of ultracold molecules. This work suggests a path to controlling photoassociation with cavity vacuum fields, and lays the ground for the emerging subfield of polaritonic ultracold chemistry. | 翻訳日:2023-11-22 16:41:01 公開日:2023-11-17 |
# 論理意味的識別に基づく油漏れ領域の画像認識 Image Recognition of Oil Leakage Area Based on Logical Semantic Discrimination ( http://arxiv.org/abs/2311.02256v2 ) ライセンス: Link先を確認 | Weiying Lin, Che Liu, Xin Zhang, Zhen Wei, Sizhe Li, Xun Ma | (参考訳) 画像解析によるピーク負荷装置の油漏れの正確な検出は、検査品質を大幅に向上させ、システムの安全性と信頼性を確保する。
しかし, 油彩領域の形状の変化, 背景雑音, 変動する照明条件などの課題は, 検出過程を複雑にしている。
これを解決するために,論理規則に基づく識別と画像認識の統合が提案されている。
このアプローチでは,Mask RCNNネットワークを用いて,オブジェクト間の空間的関係を認識し,石油流出のイメージを意味的に分割する。
このプロセスは、原画像を強化するためにヒストグラムの等化から始まり、続いてMask RCNNを使用して石油タンク、地上および潜在的な石油汚染領域の予備的な位置と概要を特定する。
その結果,これらの物体間の空間的関係を解析した。
論理規則は、疑わしい地域が実際に原油流出であるかどうかを確認するために適用される。
この手法の有効性は、現場のピーク電力機器から撮影した画像で確認されている。
以上の結果から,このアプローチは油汚染地域を特定する際の課題を適切に解決できる可能性が示唆され,既存の手法に比べて精度が大幅に向上した。 Implementing precise detection of oil leaks in peak load equipment through image analysis can significantly enhance inspection quality and ensure the system's safety and reliability. However, challenges such as varying shapes of oil-stained regions, background noise, and fluctuating lighting conditions complicate the detection process. To address this, the integration of logical rule-based discrimination into image recognition has been proposed. This approach involves recognizing the spatial relationships among objects to semantically segment images of oil spills using a Mask RCNN network. The process begins with histogram equalization to enhance the original image, followed by the use of Mask RCNN to identify the preliminary positions and outlines of oil tanks, the ground, and areas of potential oil contamination. Subsequent to this identification, the spatial relationships between these objects are analyzed. Logical rules are then applied to ascertain whether the suspected areas are indeed oil spills. This method's effectiveness has been confirmed by testing on images captured from peak power equipment in the field. The results indicate that this approach can adeptly tackle the challenges in identifying oil-contaminated areas, showing a substantial improvement in accuracy compared to existing methods. | 翻訳日:2023-11-22 16:40:21 公開日:2023-11-17 |
# LOTUS:教師なしスキル発見によるロボットマニピュレーションのための継続的な模倣学習 LOTUS: Continual Imitation Learning for Robot Manipulation Through Unsupervised Skill Discovery ( http://arxiv.org/abs/2311.02058v2 ) ライセンス: Link先を確認 | Weikang Wan, Yifeng Zhu, Rutav Shah, Yuke Zhu | (参考訳) LOTUSは,ロボットが生涯を通して,新しい操作タスクを継続的に,効率的に学習することを可能にする,連続的な模倣学習アルゴリズムである。
lotusの中核となるアイデアは、少数の人間のデモで新しいタスクの連続から成長を続けるスキルライブラリを構築することだ。
LOTUSは、オープンボキャブラリビジョンモデルを使用して継続的なスキル発見プロセスから始まり、未解決のデモンストレーションで提示される繰り返しパターンとしてスキルを抽出する。
継続的なスキル発見は、過去のタスクが壊滅的に忘れ去られるのを避けるために既存のスキルを更新し、新しいタスクを解決する新しいスキルを追加する。
LOTUSはメタコントローラを訓練し、生涯学習プロセスにおいて視覚ベースの操作タスクに取り組むために様々なスキルを柔軟に構成する。
総合実験の結果,ロータスは最先端ベースラインを11%以上の成功率で上回っており,従来の方法よりも優れた知識伝達能力を示している。
さらなる結果とビデオはプロジェクトのWebサイト(https://ut-austin-rpl.github.io/Lotus/)で見ることができる。 We introduce LOTUS, a continual imitation learning algorithm that empowers a physical robot to continuously and efficiently learn to solve new manipulation tasks throughout its lifespan. The core idea behind LOTUS is constructing an ever-growing skill library from a sequence of new tasks with a small number of human demonstrations. LOTUS starts with a continual skill discovery process using an open-vocabulary vision model, which extracts skills as recurring patterns presented in unsegmented demonstrations. Continual skill discovery updates existing skills to avoid catastrophic forgetting of previous tasks and adds new skills to solve novel tasks. LOTUS trains a meta-controller that flexibly composes various skills to tackle vision-based manipulation tasks in the lifelong learning process. Our comprehensive experiments show that LOTUS outperforms state-of-the-art baselines by over 11% in success rate, showing its superior knowledge transfer ability compared to prior methods. More results and videos can be found on the project website: https://ut-austin-rpl.github.io/Lotus/. | 翻訳日:2023-11-22 16:40:02 公開日:2023-11-17 |
# ヒルベルト空間におけるベル非局所性の量子資源理論 Quantum resource theory of Bell nonlocality in Hilbert space ( http://arxiv.org/abs/2311.01941v2 ) ライセンス: Link先を確認 | Gennaro Zanfardino, Wojciech Roga, Masahiro Takeoka and Fabrizio Illuminati | (参考訳) ヒルベルト空間に基づくベル非局所性の資源理論を導入し、検討中の量子状態の内在的性質にのみ依存する量子非局所性のボナ・フェイド測度を提供する。
我々は、局所的(あるいは自由な)状態の集合、すなわち、クレーター=ホルン=シモニー=ホルト不等式に違反しない状態、すなわち局所的操作と共有ランダム性を含む非局所性資源を作らない変換の集合、および局所的状態の集合に関して幾何学的距離または相対エントロピーに基づいて非局所性の適切な測度を定義することによって、理論を構築する。
ベル非局所性の有意義なキャラクタリゼーションと定量化に必要な基本的な公理的構造を議論し、2量子ビットヴェルナー状態、ベル対角状態、ベル対角状態といった量子状態の特定のクラスに適用して開発された一般資源理論を説明する。 We introduce a Hilbert space based resource theory of Bell nonlocality with the aim of providing bona fide measures of quantum nonlocality depending only on the intrinsic properties of the quantum states being considered. We construct our theory by defining the set of local (or free) states, i.e., the states that do not violate the Clauser-Horne-Shimony-Holt inequality; the set of free operations, i.e., the transformations that do not create the nonlocality resource, which includes local operations and shared randomness; and suitable measures of nonlocality based either on geometric distances or relative entropies with respect to the set of local states. We discuss the basic axiomatic structure that is needed for a meaningful characterization and quantification of Bell nonlocality and we illustrate the general resource theory so developed by applying it to specific classes of quantum states, including two-qubit Werner states, Bell-diagonal states, and Bell-diagonal states at fixed convexity. | 翻訳日:2023-11-22 16:39:45 公開日:2023-11-17 |
# GNNにおけるオーバーカッシング問題に関する解説:現状, ベンチマーク, 課題 Exposition on over-squashing problem on GNNs: Current Methods, Benchmarks and Challenges ( http://arxiv.org/abs/2311.07073v2 ) ライセンス: Link先を確認 | Dai Shi, Andi Han, Lequan Lin, Yi Guo, Junbin Gao | (参考訳) グラフベースのメッセージパッシングニューラルネットワーク(mpnn)は、ノードとグラフレベルの学習タスクの両方で顕著な成功を収めている。
しかし、Over-Smoothing (OSM)、限定的な表現力、Over-Squashing (OSQ) といったいくつかの問題はまだMPNNの性能を制限している。
特にOSQは,グラフノード間の長距離依存関係が必要な場合,MPNNが学習精度を徐々に低下させる,最新の問題として機能する。
本研究は,OSQ問題に対処する3つのアプローチカテゴリとともに,現在の文献からOSQの異なる定式化を要約することによって,OSQ問題に関する解説を行う。
また,OSQと表現力の整合性,OSQとOSMのトレードオフについても論じる。
さらに,既存の研究から活用した経験的手法を概説し,osq緩和手法の効率性を検証するとともに,計算の複雑さを例示する。
最後に、我々は、我々の知識の最良の方向とともに、osq問題をさらに探究するために関心のあるいくつかの公開質問をリストアップします。 Graph-based message-passing neural networks (MPNNs) have achieved remarkable success in both node and graph-level learning tasks. However, several identified problems, including over-smoothing (OSM), limited expressive power, and over-squashing (OSQ), still limit the performance of MPNNs. In particular, OSQ serves as the latest identified problem, where MPNNs gradually lose their learning accuracy when long-range dependencies between graph nodes are required. In this work, we provide an exposition on the OSQ problem by summarizing different formulations of OSQ from current literature, as well as the three different categories of approaches for addressing the OSQ problem. In addition, we also discuss the alignment between OSQ and expressive power and the trade-off between OSQ and OSM. Furthermore, we summarize the empirical methods leveraged from existing works to verify the efficiency of OSQ mitigation approaches, with illustrations of their computational complexities. Lastly, we list some open questions that are of interest for further exploration of the OSQ problem along with potential directions from the best of our knowledge. | 翻訳日:2023-11-22 16:31:55 公開日:2023-11-17 |
# docgen: pythonで詳細なパラメータdocstringを生成する DocGen: Generating Detailed Parameter Docstrings in Python ( http://arxiv.org/abs/2311.06453v3 ) ライセンス: Link先を確認 | Vatsal Venkatkrishna, Durga Shree Nagabushanam, Emmanuel Iko-Ojo Simon, Melina Vidoni | (参考訳) ドキュメンテーションの負債は、オープンソースソフトウェアの効果的な利用を妨げる。
コード要約ツールは開発者にとって有用だが、ほとんどの場合、高レベルの要約ではなく、関数内の各パラメータの詳細な説明を好む。
しかしながら、このような要約の生成は、高品質なトレーニングデータがないため、単一の生成モデルが確実に生成するには複雑すぎる。
そこで本稿では,docstringの特定の部分を生成する複数のタスク固有モデルを組み合わせたマルチステップアプローチを提案する。
これらのモデルの組み合わせは、最終的な docstring に各セクションを含めることを保証する。
提案手法を,自動測定と人中心評価の両方を用いて既存の生成モデルと比較し,既存の手法よりもアプローチの方が優れていることを示す。 Documentation debt hinders the effective utilization of open-source software. Although code summarization tools have been helpful for developers, most would prefer a detailed account of each parameter in a function rather than a high-level summary. However, generating such a summary is too intricate for a single generative model to produce reliably due to the lack of high-quality training data. Thus, we propose a multi-step approach that combines multiple task-specific models, each adept at producing a specific section of a docstring. The combination of these models ensures the inclusion of each section in the final docstring. We compared the results from our approach with existing generative models using both automatic metrics and a human-centred evaluation with 17 participating developers, which proves the superiority of our approach over existing methods. | 翻訳日:2023-11-22 16:30:59 公開日:2023-11-17 |
# 関数空間上の条件最適輸送 Conditional Optimal Transport on Function Spaces ( http://arxiv.org/abs/2311.05672v2 ) ライセンス: Link先を確認 | Bamdad Hosseini, Alexander W. Hsu, Amirhossein Taghvaei | (参考訳) 本稿では, 最適輸送の観点からの関数空間における条件付き三角輸送マップの体系的研究と, 償却ベイズ推定の観点から述べる。
より具体的には、条件測度とそのカントロヴィチ緩和を特徴付けるブロック三角モンジュ写像を記述する制約付き最適輸送問題の理論を開発する。
これは、一般的なコスト関数を持つ分離可能な無限次元函数空間への最適三角輸送の理論を一般化する。
さらに,ベイズ推定問題の場合には,結果をさらに調整し,前者から後者まで条件付け写像の正則性推定を得る。
最後に,機能パラメータのアモートおよび可能性のない推論に対する理論的結果の計算的適用性を示す数値実験について述べる。 We present a systematic study of conditional triangular transport maps in function spaces from the perspective of optimal transportation and with a view towards amortized Bayesian inference. More specifically, we develop a theory of constrained optimal transport problems that describe block-triangular Monge maps that characterize conditional measures along with their Kantorovich relaxations. This generalizes the theory of optimal triangular transport to separable infinite-dimensional function spaces with general cost functions. We further tailor our results to the case of Bayesian inference problems and obtain regularity estimates on the conditioning maps from the prior to the posterior. Finally, we present numerical experiments that demonstrate the computational applicability of our theoretical results for amortized and likelihood-free inference of functional parameters. | 翻訳日:2023-11-22 16:28:17 公開日:2023-11-17 |
# セットレベルラベルを用いたインスタンスレベル画像分類の強化 Enhancing Instance-Level Image Classification with Set-Level Labels ( http://arxiv.org/abs/2311.05659v2 ) ライセンス: Link先を確認 | Renyu Zhang, Aly A. Khan, Yuxin Chen, Robert L. Grossman | (参考訳) インスタンスレベルの画像分類タスクは、伝統的にシングルインスタンスラベルに頼ってモデルのトレーニングを行っている。
しかし、インスタンス間の関係をキャプチャする集合レベルの粗粒度ラベルは、現実世界のシナリオでよりリッチな情報を提供できる。
本稿では,セットレベルラベルを活用し,インスタンスレベルの画像分類を強化する新しい手法を提案する。
本稿では, 提案手法の理論的解析を行い, 提案手法の理論的基礎に光を当てる高速過大リスク率の認識条件について述べる。
自然画像データセットと病理画像データセットの2つの異なるカテゴリについて実験を行った。
提案手法の有効性を実証し,従来のラベルベース手法と比較して分類性能が向上したことを示す。
特に, 病理組織学的画像分類ベンチマークの基準値と比較して, 分類精度が13%向上した。
以上より,提案手法のロバスト性と信頼性を補強し,理論解析に適合した実験結果を得た。
この作業は、インスタンスレベルの画像分類とセットレベルの画像分類のギャップを橋渡しし、設定レベルの粗粒度ラベルによる画像分類モデルの能力向上に有望な手段を提供する。 Instance-level image classification tasks have traditionally relied on single-instance labels to train models, e.g., few-shot learning and transfer learning. However, set-level coarse-grained labels that capture relationships among instances can provide richer information in real-world scenarios. In this paper, we present a novel approach to enhance instance-level image classification by leveraging set-level labels. We provide a theoretical analysis of the proposed method, including recognition conditions for fast excess risk rate, shedding light on the theoretical foundations of our approach. We conducted experiments on two distinct categories of datasets: natural image datasets and histopathology image datasets. Our experimental results demonstrate the effectiveness of our approach, showcasing improved classification performance compared to traditional single-instance label-based methods. Notably, our algorithm achieves 13% improvement in classification accuracy compared to the strongest baseline on the histopathology image classification benchmarks. Importantly, our experimental findings align with the theoretical analysis, reinforcing the robustness and reliability of our proposed method. This work bridges the gap between instance-level and set-level image classification, offering a promising avenue for advancing the capabilities of image classification models with set-level coarse-grained labels. | 翻訳日:2023-11-22 16:28:04 公開日:2023-11-17 |
# RDF知識グラフと文類似性によるチャットGPTファクトの検証 Validating ChatGPT Facts through RDF Knowledge Graphs and Sentence Similarity ( http://arxiv.org/abs/2311.04524v2 ) ライセンス: Link先を確認 | Michalis Mountantonakis and Yannis Tzitzikas | (参考訳) 本稿では,ChatGPTの応答をRDFで検索し,1つ以上のRDF知識グラフ(KGs)を用いてChatGPTの事実を検証しようとする新しいパイプラインを提案する。
この目的のために、DBpediaとLODsyndesis(多くのドメインの400のRDF KGから20億のトリプルを含む集約された知識グラフ)と短い文の埋め込みを活用し、その証明と信頼スコアを伴うより関連するトリプル(s)を返すアルゴリズムを導入する。
これにより、ChatGPT応答の検証と、正当化と証明による強化が可能になる。
このサービス(一般にこのようなサービス)を評価するために、2000のChatGPT事実、特に有名なギリシャ人の1000の事実、人気のあるギリシャの場所の500の事実、ギリシャ関連のイベントの500の事実を含む評価ベンチマークを作成します。
事実は手作業でラベル付けされた(ChatGPTの事実の約73%が正しく、事実の27%が間違っていた)。
結果は有望であり、ベンチマーク全体では、ChatGPTの正しい事実の85.3%を検証し、誤ったChatGPTの事実の58%に対して正しい答えを見つけることができた。 Since ChatGPT offers detailed responses without justifications, and erroneous facts even for popular persons, events and places, in this paper we present a novel pipeline that retrieves the response of ChatGPT in RDF and tries to validate the ChatGPT facts using one or more RDF Knowledge Graphs (KGs). To this end we leverage DBpedia and LODsyndesis (an aggregated Knowledge Graph that contains 2 billion triples from 400 RDF KGs of many domains) and short sentence embeddings, and introduce an algorithm that returns the more relevant triple(s) accompanied by their provenance and a confidence score. This enables the validation of ChatGPT responses and their enrichment with justifications and provenance. To evaluate this service (such services in general), we create an evaluation benchmark that includes 2,000 ChatGPT facts; specifically 1,000 facts for famous Greek Persons, 500 facts for popular Greek Places, and 500 facts for Events related to Greece. The facts were manually labelled (approximately 73% of ChatGPT facts were correct and 27% of facts were erroneous). The results are promising; indicatively for the whole benchmark, we managed to verify the 85.3% of the correct facts of ChatGPT and to find the correct answer for the 58% of the erroneous ChatGPT facts. | 翻訳日:2023-11-22 16:27:04 公開日:2023-11-17 |
# 半監督潜在過程を用いた深部生成モデルを用いた複雑疾患軌跡のモデル化 Modeling Complex Disease Trajectories using Deep Generative Models with Semi-Supervised Latent Processes ( http://arxiv.org/abs/2311.08149v2 ) ライセンス: Link先を確認 | C\'ecile Trottet, Manuel Sch\"urch, Ahmed Allam, Imon Barua, Liubov Petelytska, Oliver Distler, Anna-Maria Hoffmann-Vold, Michael Krauthammer, the EUSTAR collaborators | (参考訳) 本稿では,複雑な疾患の軌跡をモデル化・全体解析するために,潜時過程を用いた深部生成時系列手法を提案する。
我々は、観察された疾患の軌跡を解釈可能かつ包括的に説明する、根底にある生成過程の有意義な時間的潜在表現を見つけることを目的としている。
これらの潜時過程の解釈性を高めるために,確立された医学概念を用いて潜時空間を分離する半教師ありアプローチを開発した。
生成的アプローチと医療知識を組み合わせることで、医療概念をモデルに統合しながら、疾患の新たな側面を発見する能力を活用する。
本研究は, 同様の症例の発見や新たなサブタイプへのクラスタリングを含む, さらなるデータ分析および臨床仮説テストに, 学習時潜伏過程を活用できることを示唆する。
さらに,不確実性定量化を含む多変量時系列のパーソナライズされたオンラインモニタリングと予測を可能にする。
我々は,全身性硬化症をモデル化し,複雑な疾患の軌跡を捉え,新たな医学的知識を得るための機械学習モデルの可能性を示す。 In this paper, we propose a deep generative time series approach using latent temporal processes for modeling and holistically analyzing complex disease trajectories. We aim to find meaningful temporal latent representations of an underlying generative process that explain the observed disease trajectories in an interpretable and comprehensive way. To enhance the interpretability of these latent temporal processes, we develop a semi-supervised approach for disentangling the latent space using established medical concepts. By combining the generative approach with medical knowledge, we leverage the ability to discover novel aspects of the disease while integrating medical concepts into the model. We show that the learned temporal latent processes can be utilized for further data analysis and clinical hypothesis testing, including finding similar patients and clustering the disease into new sub-types. Moreover, our method enables personalized online monitoring and prediction of multivariate time series including uncertainty quantification. We demonstrate the effectiveness of our approach in modeling systemic sclerosis, showcasing the potential of our machine learning model to capture complex disease trajectories and acquire new medical knowledge. | 翻訳日:2023-11-22 16:19:34 公開日:2023-11-17 |
# parrotが訓練した逆行例: 話者認識モデルに対するブラックボックス音声攻撃の実用性を推進する Parrot-Trained Adversarial Examples: Pushing the Practicality of Black-Box Audio Attacks against Speaker Recognition Models ( http://arxiv.org/abs/2311.07780v2 ) ライセンス: Link先を確認 | Rui Duan, Zhe Qu, Leah Ding, Yao Liu, Zhuo Lu | (参考訳) aes(audio adversarial examples)は、現実世界の話者認識システムに重大なセキュリティ上の課題をもたらした。
ほとんどのブラックボックス攻撃は、話者認識モデルからの特定の情報が必要である(例えば、調査を続け、類似度スコアの知識を必要とする)。
本研究の目的は、ターゲット話者認識モデルに関する攻撃者の知識を最小限に抑え、ブラックボックス攻撃の実用性を高めることである。
攻撃者が完全にゼロの知識を持って成功することは不可能であるが、攻撃者はターゲットスピーカーの短い(あるいは数秒)音声サンプルしか知らないと仮定する。
ターゲットモデルに関するさらなる知識を得るための調査がなければ、parrot trainingと呼ばれる新しいメカニズムを提案し、ターゲットモデルに対してaesを生成する。
近年の音声変換 (vc) の進歩に動機づけられ, 1つの短文知識を用いて,parrot speech という合成音声サンプルを生成することを提案する。
次に、これらのオウム音声サンプルを用いて攻撃者に対するオウム訓練(PT)代理モデルを訓練する。
本研究では,PTモデル(PT-AEs)上でのAEの生成方法について検討し,PT-AEsが人間の知覚的品質の高いブラックボックスターゲットモデルに高い伝達性で生成可能であることを確認した。
実世界の実験によると、PT-AEはデジタルラインシナリオのオープンソースモデルに対して45.8%から80.8%、Apple HomePod(Siri)、Amazon Echo、Google Homeなどのスマートデバイスに対して47.9%から58.3%の攻撃成功率を達成した。 Audio adversarial examples (AEs) have posed significant security challenges to real-world speaker recognition systems. Most black-box attacks still require certain information from the speaker recognition model to be effective (e.g., keeping probing and requiring the knowledge of similarity scores). This work aims to push the practicality of the black-box attacks by minimizing the attacker's knowledge about a target speaker recognition model. Although it is not feasible for an attacker to succeed with completely zero knowledge, we assume that the attacker only knows a short (or a few seconds) speech sample of a target speaker. Without any probing to gain further knowledge about the target model, we propose a new mechanism, called parrot training, to generate AEs against the target model. Motivated by recent advancements in voice conversion (VC), we propose to use the one short sentence knowledge to generate more synthetic speech samples that sound like the target speaker, called parrot speech. Then, we use these parrot speech samples to train a parrot-trained(PT) surrogate model for the attacker. Under a joint transferability and perception framework, we investigate different ways to generate AEs on the PT model (called PT-AEs) to ensure the PT-AEs can be generated with high transferability to a black-box target model with good human perceptual quality. Real-world experiments show that the resultant PT-AEs achieve the attack success rates of 45.8% - 80.8% against the open-source models in the digital-line scenario and 47.9% - 58.3% against smart devices, including Apple HomePod (Siri), Amazon Echo, and Google Home, in the over-the-air scenario. | 翻訳日:2023-11-22 16:18:01 公開日:2023-11-17 |
# ローターおよび発振器のクリフォード演算とホモロジー符号 Clifford operations and homological codes for rotors and oscillators ( http://arxiv.org/abs/2311.07679v2 ) ライセンス: Link先を確認 | Yijia Xu, Yixu Wang, and Victor V. Albert | (参考訳) 本研究では,円上の粒子の状態空間である平面ローターの量子情報処理プリミティブを開発する。
ロータ波動関数を周期的に同定された高調波発振器の波動関数として解釈することにより、ロータが継承するボゾンガウス演算のグループを決定する。
この$n$-rotor Clifford group, $\text{U}(1)^{n(n+1)/2} \rtimes \text{GL}_n(\mathbb{Z})$, は連続な$\text{U}(1)$ gates で表される。
我々は、クリフォード演算の等価性に基づいて、ホモロジーロータ誤り訂正符号(arXiv:2303.13723)と様々なロータ状態の分類を行う。
逆方向では、非負角運動量のロータ状態として占有数状態を解釈することにより、ホモロジーロータ符号とロータクリフォード演算を振動子にマッピングする。
これにより、新しいマルチモードホモロジーボソニック符号が、対応するエンコーディングとデコード回路とともに、占有数や変化に対する防御を行う。
特に,条件付き職業数加算とポスト選択を用いて振動子位相を非破壊的に測定する方法を示す。
また,gkp安定化符号 [arxiv:1903.12615] の複数のロータと発振器について概説する。 We develop quantum information processing primitives for the planar rotor, the state space of a particle on a circle. By interpreting rotor wavefunctions as periodically identified wavefunctions of a harmonic oscillator, we determine the group of bosonic Gaussian operations inherited by the rotor. This $n$-rotor Clifford group, $\text{U}(1)^{n(n+1)/2} \rtimes \text{GL}_n(\mathbb{Z})$, is represented by continuous $\text{U}(1)$ gates generated by polynomials quadratic in angular momenta, as well as discrete $\text{GL}_n(\mathbb Z)$ momentum sign-flip and sum gates. We classify homological rotor error-correcting codes [arXiv:2303.13723] and various rotor states based on equivalence under Clifford operations. Reversing direction, we map homological rotor codes and rotor Clifford operations back into oscillators by interpreting occupation-number states as rotor states of non-negative angular momentum. This yields new multimode homological bosonic codes protecting against dephasing and changes in occupation number, along with their corresponding encoding and decoding circuits. In particular, we show how to non-destructively measure the oscillator phase using conditional occupation-number addition and post selection. We also outline several rotor and oscillator varieties of the GKP-stabilizer codes [arXiv:1903.12615]. | 翻訳日:2023-11-22 16:16:27 公開日:2023-11-17 |
# 第21回国際オーバーチャーワークショップ参加報告 Proceedings of the 21st International Overture Workshop ( http://arxiv.org/abs/2311.07120v2 ) ライセンス: Link先を確認 | Hugo Daniel Macedo and Ken Pierce | (参考訳) この本は2023年3月10日に開催された第21回国際オーバーチャーワークショップで発表された論文を含んでいる。
このイベントは、オープンソースのプロジェクト Overture と関連するツールとフォーマリズムである Vienna Development Method (VDM) に関する一連のワークショップの最新のものとなった。
VDMは、システム開発のための最も長い公式な方法の1つである。
研究者や実践者の活発なコミュニティがアカデミックで成長し、業界はモデリング言語(VDM-SL、VDM++、VDM-RT、CML)とツール(VDMTools、Overture、Crescendo、Symphony、INTO-CPSチェーン、EenenTalk)を中心に成長してきた。
これらは共に、静的および動的解析、テスト生成、実行サポート、モデルチェックを含むモデリングおよび分析技術に取り組むためのプラットフォームを提供する。
このワークショップは、コラボレーションインフラストラクチャ、協調モデリング、サイバー物理システムのための共シミュレーションを含む、VDM/Overtureの新しい技術のアップデートを提供した。 This volume contains the papers presented at the 21st International Overture Workshop, held on the 10th of March 2023. This event was the latest in a series of workshops around the Vienna Development Method (VDM), the open-source project Overture, and related tools and formalisms. VDM is one of the longest established formal methods for systems development. A lively community of researchers and practitioners has grown up in academia and industry has grown around the modelling languages (VDM-SL, VDM++, VDM-RT, CML) and tools (VDMTools, Overture, Crescendo, Symphony, the INTO-CPS chain, and ViennaTalk). Together, these provide a platform for work on modelling and analysis technology that includes static and dynamic analysis, test generation, execution support, and model checking. This workshop provided updates on the emerging technology of VDM/Overture, including collaboration infrastructure, collaborative modelling and co-simulation for Cyber-Physical Systems. | 翻訳日:2023-11-22 16:14:14 公開日:2023-11-17 |
# 信頼できる大規模ビジョンモデル:サーベイ Trustworthy Large Models in Vision: A Survey ( http://arxiv.org/abs/2311.09680v2 ) ライセンス: Link先を確認 | Ziyan Guo and Jun Liu | (参考訳) 大規模モデル(LM)の急速な進歩は、最近、自然言語処理(NLP)からコンピュータビジョン(CV)まで、様々な分野の深層学習に革命をもたらした。
しかし、LMは強力な性能を持つが信頼できない行動のため、学界や業界によってますます批判され、信頼性の高い方法によって緊急に緩和される必要がある。
NLPにおける信頼できるLMに関する文献が豊富にあるにもかかわらず、CVにおけるLMの信頼性を特に調査する体系的な調査はいまだに残っていない。
このギャップを緩和するために,本調査におけるlmsの視点における信頼に値する利用を妨げる4つの懸念を要約する。
1)人間の誤用。
2)脆弱性。
3)本質的な問題
4) 解釈可能。
それぞれの課題、対策、議論を強調することにより、この調査が読者のこの分野に対する理解を促進し、LMと人間の期待との整合を促進し、人類社会の災害というよりは、信頼できるLMを福祉として機能させることを期待する。 The rapid progress of Large Models (LMs) has recently revolutionized various fields of deep learning with remarkable grades, ranging from Natural Language Processing (NLP) to Computer Vision (CV). However, LMs are increasingly challenged and criticized by academia and industry due to their powerful performance but untrustworthy behavior, which urgently needs to be alleviated by reliable methods. Despite the abundance of literature on trustworthy LMs in NLP, a systematic survey specifically delving into the trustworthiness of LMs in CV remains absent. In order to mitigate this gap, we summarize four relevant concerns that obstruct the trustworthy usage in vision of LMs in this survey, including 1) human misuse, 2) vulnerability, 3) inherent issue and 4) interpretability. By highlighting corresponding challenge, countermeasures, and discussion in each topic, we hope this survey will facilitate readers' understanding of this field, promote alignment of LMs with human expectations and enable trustworthy LMs to serve as welfare rather than disaster for human society. | 翻訳日:2023-11-22 16:05:32 公開日:2023-11-17 |
# UFOGen:Diffusion GANを使った大規模テキスト・画像生成 UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs ( http://arxiv.org/abs/2311.09257v2 ) ライセンス: Link先を確認 | Yanwu Xu, Yang Zhao, Zhisheng Xiao, Tingbo Hou | (参考訳) テキストから画像への拡散モデルは、テキストのプロンプトをコヒーレントな画像に変換する顕著な能力を示しているが、その推論の計算コストはいまだに持続的な課題である。
そこで本稿では,超高速・ワンステップ画像合成のための新しい生成モデルであるufogenを提案する。
拡散モデルの改良や蒸留技術の導入に重点を置く従来の手法とは対照的に、UFOGenは拡散モデルとGANの目的を統合するハイブリッド手法を採用している。
新しく導入された拡散GANの目的と事前訓練された拡散モデルの初期化を利用して、UFOGenはテキスト記述に条件付けられた高品質な画像を1ステップで効率的に生成する。
従来のテキスト・画像生成以外にも、UFOGenはアプリケーションに汎用性を示す。
特にUFOGenは、ワンステップのテキスト・ツー・イメージ生成と多様な下流タスクを可能にする先駆的なモデルの一つであり、効率的な生成モデルの展望において大きな進歩を示している。 Text-to-image diffusion models have demonstrated remarkable capabilities in transforming textual prompts into coherent images, yet the computational cost of their inference remains a persistent challenge. To address this issue, we present UFOGen, a novel generative model designed for ultra-fast, one-step text-to-image synthesis. In contrast to conventional approaches that focus on improving samplers or employing distillation techniques for diffusion models, UFOGen adopts a hybrid methodology, integrating diffusion models with a GAN objective. Leveraging a newly introduced diffusion-GAN objective and initialization with pre-trained diffusion models, UFOGen excels in efficiently generating high-quality images conditioned on textual descriptions in a single step. Beyond traditional text-to-image generation, UFOGen showcases versatility in applications. Notably, UFOGen stands among the pioneering models enabling one-step text-to-image generation and diverse downstream tasks, presenting a significant advancement in the landscape of efficient generative models. | 翻訳日:2023-11-22 16:03:29 公開日:2023-11-17 |
# Nuclei Segmentation のための2段階共同学習と誘導学習 Two-stage Joint Transductive and Inductive learning for Nuclei Segmentation ( http://arxiv.org/abs/2311.08774v2 ) ライセンス: Link先を確認 | Hesham Ali, Idriss Tondji, Mennatullah Siam | (参考訳) 病理組織像におけるAIによる核分割は、癌疾患の診断と治療において重要な課題である。
手動による顕微鏡組織像のスクリーニングに必要な時間を短縮し、診断中の病理医間の衝突を解決することができる。
ディープラーニングはそのようなタスクで有効であることが証明されている。
しかし、ラベル付きデータの欠如は、ディープラーニングベースのアプローチにとって重要な障壁である。
本研究では, 利用可能なラベル付きおよび非ラベル付きデータを活用する, 核セグメンテーションへの新しいアプローチを提案する。
提案手法は,従来個別に試みてきたトランスダクティブ学習とインダクティブ学習の両方の強みを1つの枠組みに統合するものである。
インダクティブ・ラーニングは、一般関数を近似し、未発見のテストデータに一般化することを目的としているが、トランスダクティブ・ラーニングは、ラベルなしのテストデータを利用して分類を改善する可能性を秘めている。
本研究は, 医用画像セグメンテーションのためのハイブリッドアプローチを提案する最初の研究である。
さらに, 新たな2段階トランスダクティブ推論スキームを提案する。
提案手法の有効性と可能性を実証するために,MoNuSegベンチマークに対するアプローチを評価した。 AI-assisted nuclei segmentation in histopathological images is a crucial task in the diagnosis and treatment of cancer diseases. It decreases the time required to manually screen microscopic tissue images and can resolve the conflict between pathologists during diagnosis. Deep Learning has proven useful in such a task. However, lack of labeled data is a significant barrier for deep learning-based approaches. In this study, we propose a novel approach to nuclei segmentation that leverages the available labelled and unlabelled data. The proposed method combines the strengths of both transductive and inductive learning, which have been previously attempted separately, into a single framework. Inductive learning aims at approximating the general function and generalizing to unseen test data, while transductive learning has the potential of leveraging the unlabelled test data to improve the classification. To the best of our knowledge, this is the first study to propose such a hybrid approach for medical image segmentation. Moreover, we propose a novel two-stage transductive inference scheme. We evaluate our approach on MoNuSeg benchmark to demonstrate the efficacy and potential of our method. | 翻訳日:2023-11-22 16:01:57 公開日:2023-11-17 |
# 制約付き変分量子固有解法(VQEC):VQEによる制約付き最適化問題の解法 Variational Quantum Eigensolver with Constraints (VQEC): Solving Constrained Optimization Problems via VQE ( http://arxiv.org/abs/2311.08502v2 ) ライセンス: Link先を確認 | Thinh Viet Le and Vassilis Kekatos | (参考訳) 変分量子アプローチは、計算に挑戦するタスクの最適に近い解を見つけることに非常に有望である。
それでも、規律的な方法で制約を強制することは、ほとんど探索されていない。
このギャップに対処するため、この研究はVQECと呼ばれるハイブリッド量子古典的アルゴリズムパラダイムを提案し、有名なVQEを拡張して制約による最適化を扱う。
標準VQEと同様に、最適化変数のベクトルは変分量子回路(VQC)の状態によって取得される。
制約に対処するため、VQECは古典的にVQCパラメータと制約に関連する双対変数の両方に対してラグランジュ関数を最適化する。
量子設定に従うために、変数はパラメータシフト規則を利用した摂動原始双対法によって更新される。
応用範囲が広い中で、VQEC が2次制約付きバイナリ最適化 (QCBO) 問題を大まかに解き、平均および確率の2次制約を満たす確率的バイナリポリシーを見つけ、確率的単純性に対して大規模線形プログラム (LP) を解く方法を示す。
任意の確率質量関数(pmf)を近似するvqcの誤差の仮定の下で、vqcによって達成される最適性ギャップの境界を与える。
量子シミュレータの数値実験は、VQECが高品質な解を生成できるような様々なパラメータの効果と相関性を調べる。 Variational quantum approaches have shown great promise in finding near-optimal solutions to computationally challenging tasks. Nonetheless, enforcing constraints in a disciplined fashion has been largely unexplored. To address this gap, this work proposes a hybrid quantum-classical algorithmic paradigm termed VQEC that extends the celebrated VQE to handle optimization with constraints. As with the standard VQE, the vector of optimization variables is captured by the state of a variational quantum circuit (VQC). To deal with constraints, VQEC optimizes a Lagrangian function classically over both the VQC parameters as well as the dual variables associated with constraints. To comply with the quantum setup, variables are updated via a perturbed primal-dual method leveraging the parameter shift rule. Among a wide gamut of potential applications, we showcase how VQEC can approximately solve quadratically-constrained binary optimization (QCBO) problems, find stochastic binary policies satisfying quadratic constraints on the average and in probability, and solve large-scale linear programs (LP) over the probability simplex. Under an assumption on the error for the VQC to approximate an arbitrary probability mass function (PMF), we provide bounds on the optimality gap attained by a VQC. Numerical tests on a quantum simulator investigate the effect of various parameters and corroborate that VQEC can generate high-quality solutions. | 翻訳日:2023-11-22 16:01:40 公開日:2023-11-17 |
# surprisal driven $k$-nn によるロバストで解釈可能な非パラメトリック学習 Surprisal Driven $k$-NN for Robust and Interpretable Nonparametric Learning ( http://arxiv.org/abs/2311.10246v1 ) ライセンス: Link先を確認 | Amartya Banerjee, Christopher J. Hazard, Jacob Beel, Cade Mack, Jack Xia, Michael Resnick, Will Goddin | (参考訳) 非パラメトリック学習は、基礎となるデータ分布について強い仮定をすることなく、データの複雑なパターンや関係をキャプチャすることを目的とした機械学習の基本的な概念である。
単純さと精通性から、このパラダイムで最もよく知られているアルゴリズムの1つは、$k$-nearest neighbors(k$-NN)アルゴリズムである。
本研究は,安全クリティカルなアプリケーションにおける機械学習の利用により,情報理論の観点から,従来の近接近傍アルゴリズムに新たな光を当て,単一モデルを用いた分類,回帰,異常検出などのタスクに対して頑健で解釈可能なフレームワークを提案する。
拡張と文脈化が必要な従来の距離測度を使う代わりに、新しい定式化「textit{surprisal}」(観測結果と予測結果の差を説明するのに必要な情報の量)を用いる。
最後に,データと予測を特徴付ける新たな概念を提供することにより,解釈性が向上した単一モデルを用いて,分類,回帰,異常検出タスクの最先端以上でこのアーキテクチャを実行できることを示す。 Nonparametric learning is a fundamental concept in machine learning that aims to capture complex patterns and relationships in data without making strong assumptions about the underlying data distribution. Owing to simplicity and familiarity, one of the most well-known algorithms under this paradigm is the $k$-nearest neighbors ($k$-NN) algorithm. Driven by the usage of machine learning in safety-critical applications, in this work, we shed new light on the traditional nearest neighbors algorithm from the perspective of information theory and propose a robust and interpretable framework for tasks such as classification, regression, and anomaly detection using a single model. Instead of using a traditional distance measure which needs to be scaled and contextualized, we use a novel formulation of \textit{surprisal} (amount of information required to explain the difference between the observed and expected result). Finally, we demonstrate this architecture's capability to perform at-par or above the state-of-the-art on classification, regression, and anomaly detection tasks using a single model with enhanced interpretability by providing novel concepts for characterizing data and predictions. | 翻訳日:2023-11-22 15:28:37 公開日:2023-11-17 |
# 欠陥検出におけるセグメンテーション Segment Anything in Defect Detection ( http://arxiv.org/abs/2311.10245v1 ) ライセンス: Link先を確認 | Bozhen Hu, Bin Gao, Cheng Tan, Tongle Wu, Stan Z. Li | (参考訳) 欠陥検出は赤外線非破壊検査システムにおいて重要な役割を担い、非接触で安全で効率的な検査機能を提供する。
しかし、赤外線熱画像における低解像度、高ノイズ、不均一加熱などの課題は、包括的かつ正確な欠陥検出を妨げる。
本研究では,広く採用されているSegment Anything(SAM)モデルに基づいて,ノイズの多い熱画像に欠陥を分割する新しい手法であるDefectSAMを提案する。
労働集約的なラボ実験と経験豊富な専門家による貴重なプロンプトによって生成された細心の注意深いデータセットのパワーを活用することで、欠陥サムは、既存の最先端のセグメンテーションアルゴリズムを上回り、欠陥検出率を大幅に改善した。
特に、DefectSAMは、複雑で不規則な表面上のより弱く小さな欠陥を検出し、ミス検出の発生を低減し、より正確な欠陥サイズ推定を提供する。
各種材料を用いた実験により, 欠陥検出ツールの進化を早める可能性があり, 検査能力の向上と欠陥同定精度の向上が期待できる欠陥検出法の有効性が検証された。 Defect detection plays a crucial role in infrared non-destructive testing systems, offering non-contact, safe, and efficient inspection capabilities. However, challenges such as low resolution, high noise, and uneven heating in infrared thermal images hinder comprehensive and accurate defect detection. In this study, we propose DefectSAM, a novel approach for segmenting defects on highly noisy thermal images based on the widely adopted model, Segment Anything (SAM)\cite{kirillov2023segany}. Harnessing the power of a meticulously curated dataset generated through labor-intensive lab experiments and valuable prompts from experienced experts, DefectSAM surpasses existing state-of-the-art segmentation algorithms and achieves significant improvements in defect detection rates. Notably, DefectSAM excels in detecting weaker and smaller defects on complex and irregular surfaces, reducing the occurrence of missed detections and providing more accurate defect size estimations. Experimental studies conducted on various materials have validated the effectiveness of our solutions in defect detection, which hold significant potential to expedite the evolution of defect detection tools, enabling enhanced inspection capabilities and accuracy in defect identification. | 翻訳日:2023-11-22 15:28:19 公開日:2023-11-17 |
# jedicode -- 競争力のあるコーディングへのゲームフィッティングアプローチ JediCode -- A Gamefied Approach to Competitive Coding ( http://arxiv.org/abs/2311.10244v1 ) ライセンス: Link先を確認 | Ayush Mishra, Sitanshu Pokalwar | (参考訳) JediCode(スター・ウォーズからインスパイアされた名前)は、ゲーミフィケーションされた要素に挑戦することで、競争力のあるコーディングへの変革的なアプローチを開拓した。
このプラットフォームはコーディングの競争を再現し、リアルタイムのリーダーボード、同期された課題、ランダムなマッチメイキングを統合し、エンゲージメント、ダイナミック、フレンドリーな雰囲気を作り出す。
本稿では,jedicodeの革新的な機能とアーキテクチャについて検討し,ユーザ中心の設計と強力な実行サービスについて考察する。
ゲーミフィケーションを導入することで、jedicodeはコーディングの課題のスリルを高めるだけでなく、コミュニティの感覚を育み、プログラマにプロセスを楽しみながら卓越させる。 JediCode (name inspired from Star Wars) pioneers a transformative approach to competitive coding by infusing the challenge with gamified elements. This platform reimagines coding competitions, integrating real-time leaderboards, synchronized challenges, and random matchmaking, creating an engaging, dynamic, and friendly atmosphere. This paper explores JediCode's innovative features and architecture, shedding light on its user-centric design and powerful execution service. By embracing gamification, JediCode not only elevates the thrill of coding challenges but also fosters a sense of community, inspiring programmers to excel while enjoying the process. | 翻訳日:2023-11-22 15:27:58 公開日:2023-11-17 |
# 生成AIの進歩: GAN、GPT、オートエンコーダ、拡散モデル、トランスフォーマーの総合的なレビュー Advancements in Generative AI: A Comprehensive Review of GANs, GPT, Autoencoders, Diffusion Model, and Transformers ( http://arxiv.org/abs/2311.10242v1 ) ライセンス: Link先を確認 | Staphord Bengesi, Hoda El-Sayed, Md Kamruzzaman Sarker, Yao Houkpati, John Irungu, Timothy Oladunni | (参考訳) ChatGPTのローンチは世界的な注目を集め、生成人工知能分野における重要なマイルストーンとなった。
Generative AIはこの10年間有効だったが、ChatGPTの導入によって、AI分野における新たな研究とイノベーションの波が浮かび上がった。
この関心の高まりは、Bard、Stable Diffusion、DALL-E、Make-A-Video、Runway ML、Jukeboxなど、数多くの最先端ツールの開発とリリースにつながっている。
これらのツールには、テキスト生成や音楽合成、画像生成、ビデオ生成、コード生成、科学的な作業など、優れた機能がある。
安定拡散(Stable Diffusion)、GPT-3(最近のGPT-4)のようなトランスフォーマーモデル、変分オートエンコーダ、生成的敵ネットワークなど、様々な最先端モデルに基づいている。
このジェネレーティブAIの進歩は、多くのエキサイティングな機会と、同時に前例のない挑戦をもたらす。
本稿では,これらの最先端のモデル,達成可能なタスクの多種多様さ,課題,人工知能の将来への期待について検討した。 The launch of ChatGPT has garnered global attention, marking a significant milestone in the field of Generative Artificial Intelligence. While Generative AI has been in effect for the past decade, the introduction of ChatGPT has ignited a new wave of research and innovation in the AI domain. This surge in interest has led to the development and release of numerous cutting-edge tools, such as Bard, Stable Diffusion, DALL-E, Make-A-Video, Runway ML, and Jukebox, among others. These tools exhibit remarkable capabilities, encompassing tasks ranging from text generation and music composition, image creation, video production, code generation, and even scientific work. They are built upon various state-of-the-art models, including Stable Diffusion, transformer models like GPT-3 (recent GPT-4), variational autoencoders, and generative adversarial networks. This advancement in Generative AI presents a wealth of exciting opportunities and, simultaneously, unprecedented challenges. Throughout this paper, we have explored these state-of-the-art models, the diverse array of tasks they can accomplish, the challenges they pose, and the promising future of Generative Artificial Intelligence. | 翻訳日:2023-11-22 15:27:45 公開日:2023-11-17 |
# 高精度原子干渉計の最適スクイーズ Optimal squeezing for high-precision atom interferometers ( http://arxiv.org/abs/2311.10241v1 ) ライセンス: Link先を確認 | Polina Feldmann, Fabian Anders, Alexander Idel, Christian Schubert, Dennis Schlippert, Luis Santos, Ernst M. Rasel, and Carsten Klempt | (参考訳) 超低温相互作用物質の空間的分離に基づく干渉計にとってスクイージングが重要な資源であることを示す。
原子間相互作用は、これらの原子干渉計の精度の一般的な制限につながり、より大きな原子数や通常の位相やスクイーズ数では超えられない。
しかし、調整された収縮状態は、相互作用から生じる大きな有害効果を予測することによって、この感度を克服することができる。
我々は,将来の高精度差動体波干渉計,特にgradiometers,例えば重力波検出への応用を考察する。 We show that squeezing is a crucial resource for interferometers based on the spatial separation of ultra-cold interacting matter. Atomic interactions lead to a general limitation for the precision of these atom interferometers, which can neither be surpassed by larger atom numbers nor by conventional phase or number squeezing. However, tailored squeezed states allow to overcome this sensitivity bound by anticipating the major detrimental effect that arises from the interactions. We envisage applications in future high-precision differential matter-wave interferometers, in particular gradiometers, e.g., for gravitational-wave detection. | 翻訳日:2023-11-22 15:27:21 公開日:2023-11-17 |
# 光表面インプリントのための物理強化多忠実学習 Physics-Enhanced Multi-fidelity Learning for Optical Surface Imprint ( http://arxiv.org/abs/2311.10278v1 ) ライセンス: Link先を確認 | Yongchao Chen | (参考訳) 人間の指紋は、それぞれの人物に独特で強力な特徴であり、警官はそのアイデンティティを認識できる。
人間と同様、多くの自然体や固有の機械的特性も表面特性から一意に識別できる。
1つの材料の弾塑性特性を測定するために、1つの正式に鋭いインデンターを一定の力で測定体に押し込み、取り外し、数マイクロメートルからナノメートルまでの微小サイズのユニークな残像を残す。
しかし、1つの大きな課題は、この残留インプリントの光学像を実際の所望の力学特性、すなわち引張力曲線にどのようにマッピングするかである。
本稿では,この逆問題を解決するためにMFNN(Multi-fidelity Neural Network)を用いた新しい手法を提案する。
まず、純粋なシミュレーションデータを用いてNNモデルを積極的に訓練し、次にトランスファーラーニングによりsim-to-realギャップをブリッジする。
最も革新的なのは、NNを使って未知の物理を掘り起こし、既知の物理を転写学習フレームワークに埋め込むことで、モデルの安定性を向上し、データ要求を低減できるということです。
この研究は、特にデータ制限と忠実度分散の制約の下で、機械学習を実際の実験研究に適用する優れた例である。 Human fingerprints serve as one unique and powerful characteristic for each person, from which policemen can recognize the identity. Similar to humans, many natural bodies and intrinsic mechanical qualities can also be uniquely identified from surface characteristics. To measure the elasto-plastic properties of one material, one formally sharp indenter is pushed into the measured body under constant force and retracted, leaving a unique residual imprint of the minute size from several micrometers to nanometers. However, one great challenge is how to map the optical image of this residual imprint into the real wanted mechanical properties, i.e., the tensile force curve. In this paper, we propose a novel method to use multi-fidelity neural networks (MFNN) to solve this inverse problem. We first actively train the NN model via pure simulation data, and then bridge the sim-to-real gap via transfer learning. The most innovative part is that we use NN to dig out the unknown physics and also implant the known physics into the transfer learning framework, thus highly improving the model stability and decreasing the data requirement. This work serves as one great example of applying machine learning into the real experimental research, especially under the constraints of data limitation and fidelity variance. | 翻訳日:2023-11-22 15:17:46 公開日:2023-11-17 |
# ハードウェア効率のよいベクトルシンボリックアーキテクチャのためのsobolシーケンス最適化 Sobol Sequence Optimization for Hardware-Efficient Vector Symbolic Architectures ( http://arxiv.org/abs/2311.10277v1 ) ライセンス: Link先を確認 | Sercan Aygun, M. Hassan Najafi | (参考訳) 超次元コンピューティング(HDC)は、効率的で堅牢な学習を約束する新しいコンピューティングパラダイムである。
HDCでは、オブジェクトはハイパーベクトルと呼ばれる高次元ベクトル記号列で符号化される。
分布と独立性によって定義されるハイパーベクターの品質は、HDCシステムの性能に直接影響を及ぼす。
HDCシステムの処理部分には多大な労力が掛かっているが、データエンコーディングやハイパーベクターの品質にはほとんど注意が払われていない。
多くの先行研究は、MATLAB`sやPythonのランダム関数のような固有のランダム関数を使ってハイパーベクターを生成する。
本研究では,準ランダム列を用いてハイパーベクトルを生成する最適化手法を提案する。
これらのシーケンスは、確率計算システムにおいて、正確で低分散のデータエンコーディングを実現する効果を最近実証している。
本研究は,hdcシステムにおいて高品質な超ベクトルを生成するためにsobolシーケンスを利用するための最適化手順について概説する。
特にシンボル指向アーキテクチャに関連するアプリケーションにおいて、最小相関ハイパーベクトルを生成するのに最適なsobolシーケンスを選択するための最適化アルゴリズムを提案する。
提案手法の性能を,線形フィードバックシフトレジスタとMATLABランダム関数に基づく2種類のハイパーベクタ生成手法と比較して評価した。
評価は2つの応用に対して行われる。
(i)言語・言語
(ii) 見出しの分類。
実験結果は,ベクトルサイズに応じて最大10.79%の精度向上を示す。
さらに,提案する符号化ハードウェアは,省エネ化と面積分解性に優れた製品である。 Hyperdimensional computing (HDC) is an emerging computing paradigm with significant promise for efficient and robust learning. In HDC, objects are encoded with high-dimensional vector symbolic sequences called hypervectors. The quality of hypervectors, defined by their distribution and independence, directly impacts the performance of HDC systems. Despite a large body of work on the processing parts of HDC systems, little to no attention has been paid to data encoding and the quality of hypervectors. Most prior studies have generated hypervectors using inherent random functions, such as MATLAB`s or Python`s random function. This work introduces an optimization technique for generating hypervectors by employing quasi-random sequences. These sequences have recently demonstrated their effectiveness in achieving accurate and low-discrepancy data encoding in stochastic computing systems. The study outlines the optimization steps for utilizing Sobol sequences to produce high-quality hypervectors in HDC systems. An optimization algorithm is proposed to select the most suitable Sobol sequences for generating minimally correlated hypervectors, particularly in applications related to symbol-oriented architectures. The performance of the proposed technique is evaluated in comparison to two traditional approaches of generating hypervectors based on linear-feedback shift registers and MATLAB random function. The evaluation is conducted for two applications: (i) language and (ii) headline classification. Our experimental results demonstrate accuracy improvements of up to 10.79%, depending on the vector size. Additionally, the proposed encoding hardware exhibits reduced energy consumption and a superior area-delay product. | 翻訳日:2023-11-22 15:17:24 公開日:2023-11-17 |
# 対話状態追跡のためのプロンプトプール型クラスインクリメンタル連続学習 Prompt Pool based Class-Incremental Continual Learning for Dialog State Tracking ( http://arxiv.org/abs/2311.10271v1 ) ライセンス: Link先を確認 | Hong Liu, Yucheng Cai, Yuan Zhou, Zhijian Ou, Yi Huang, Junlan Feng | (参考訳) 対話システムにおける対話状態追跡(DST)には,新たな機能に対するユーザからの要求が頻繁に発生するため,継続的な学習が不可欠である。
しかし、dstの既存の連続学習方法はテスト中にタスクのアイデンティティを必要とするため、現実のアプリケーションでは厳しい制限となる。
本稿では,DSTの継続学習をクラス増進シナリオ(つまり,テストにおいてタスクの同一性は未知)で行うことを目的とする。
対話システムでよく機能する最近登場したプロンプトチューニング手法に触発されて,提案手法では,対話履歴とプロンプトキーの距離に応じて,キーと値のペアリングされたプロンプトのプールを維持し,プールからプロンプトを選択する。
提案手法はタスクを自動的に識別し,テスト中に適切なプロンプトを選択する。
実世界の対話アプリケーションから収集したスキーマガイドダイアログデータセット(SGD)と他のデータセットについて実験を行った。
実験の結果,プロンプトプール法はベースラインよりもはるかに高いジョイント目標精度が得られることがわかった。
リハーサルバッファと組み合わせることで、さらにモデル性能を向上させることができる。 Continual learning is crucial for dialog state tracking (DST) in dialog systems, since requirements from users for new functionalities are often encountered. However, most of existing continual learning methods for DST require task identities during testing, which is a severe limit in real-world applications. In this paper, we aim to address continual learning of DST in the class-incremental scenario (namely the task identity is unknown in testing). Inspired by the recently emerging prompt tuning method that performs well on dialog systems, we propose to use the prompt pool method, where we maintain a pool of key-value paired prompts and select prompts from the pool according to the distance between the dialog history and the prompt keys. The proposed method can automatically identify tasks and select appropriate prompts during testing. We conduct experiments on Schema-Guided Dialog dataset (SGD) and another dataset collected from a real-world dialog application. Experiment results show that the prompt pool method achieves much higher joint goal accuracy than the baseline. After combining with a rehearsal buffer, the model performance can be further improved. | 翻訳日:2023-11-22 15:17:01 公開日:2023-11-17 |
# データ解析のためのマルチスケールホッジ散乱ネットワーク Multiscale Hodge Scattering Networks for Data Analysis ( http://arxiv.org/abs/2311.10270v1 ) ライセンス: Link先を確認 | Naoki Saito and Stefan C. Schonsheck and Eugene Shvarts | (参考訳) 単体錯体上で測定された信号に対する新しい散乱ネットワークを提案し,これを「MHSNs(Multiscale Hodge Scattering Networks)」と呼ぶ。
我々の構成は、ノードベース一般化ハール・ウォルシュ変換 (GHWT) と階層グラフラプラシアン固有変換 (HGLET) を一般化することにより、与えられた単純複体における次元$\kappa \in \N$ の単純化のために最近開発した$\kappa$-GHWT と $\kappa$-HGLET の多スケール基底辞書に基づいている。
$\kappa$-GHWT と $\kk$-HGLET は共に、多重スケール基底ベクトルの冗長集合(辞書)と、与えられた信号の対応する拡張係数を形成する。
我々のMHSNは、畳み込みニューラルネットワーク(CNN)に類似した階層構造を用いて、辞書係数の係数の係数のモーメントをカスケードする。
結果として得られる特徴は、単純化(すなわち、基礎となるグラフのノード置換)の並べ替えに不変である。
重要な点として,MHSN におけるマルチスケールベース辞書の使用は,CNN における局所プールと同様の自然なプール操作を認めており,局所的あるいは局所的に実施することができる。
これらのプーリング操作は、モーレットウェーブレットに基づく従来の散乱ネットワークと拡散ウェーブレットに基づく幾何散乱ネットワークの両方で定義するのが困難である。
その結果、非常に単純な機械学習手法(ロジスティック回帰やサポートベクターマシンなど)とともに使用可能な、豊富な記述的かつ堅牢な特徴を抽出して、最新のグラフニューラルネットワークよりもトレーニングするパラメータがはるかに少ない高精度な分類システムを実現することができる。
最後に,信号分類,領域(グラフ/単純)分類,分子動力学予測の3種類の問題において,mhsnsの有用性を示す。 We propose new scattering networks for signals measured on simplicial complexes, which we call \emph{Multiscale Hodge Scattering Networks} (MHSNs). Our construction is based on multiscale basis dictionaries on simplicial complexes, i.e., the $\kappa$-GHWT and $\kappa$-HGLET, which we recently developed for simplices of dimension $\kappa \in \N$ in a given simplicial complex by generalizing the node-based Generalized Haar-Walsh Transform (GHWT) and Hierarchical Graph Laplacian Eigen Transform (HGLET). The $\kappa$-GHWT and the $\kk$-HGLET both form redundant sets (i.e., dictionaries) of multiscale basis vectors and the corresponding expansion coefficients of a given signal. Our MHSNs use a layered structure analogous to a convolutional neural network (CNN) to cascade the moments of the modulus of the dictionary coefficients. The resulting features are invariant to reordering of the simplices (i.e., node permutation of the underlying graphs). Importantly, the use of multiscale basis dictionaries in our MHSNs admits a natural pooling operation that is akin to local pooling in CNNs, and which may be performed either locally or per-scale. These pooling operations are harder to define in both traditional scattering networks based on Morlet wavelets, and geometric scattering networks based on Diffusion Wavelets. As a result, we are able to extract a rich set of descriptive yet robust features that can be used along with very simple machine learning methods (i.e., logistic regression or support vector machines) to achieve high-accuracy classification systems with far fewer parameters to train than most modern graph neural networks. Finally, we demonstrate the usefulness of our MHSNs in three distinct types of problems: signal classification, domain (i.e., graph/simplex) classification, and molecular dynamics prediction. | 翻訳日:2023-11-22 15:16:42 公開日:2023-11-17 |
# 子宮頸癌検診における pap smear cell representation の検討 Interpretable pap smear cell representation for cervical cancer screening ( http://arxiv.org/abs/2311.10269v1 ) ライセンス: Link先を確認 | Yu Ando and Nora Jee-Young Park and, Gun Oh Chong and Seokhwan Ko and Donghyeon Lee and Junghwan Cho and Hyungsoo Han | (参考訳) 検診は頸部がんの予防と早期発見に重要であるが、時間と労力を要する。
papスメアスクリーニングを自動化するために教師付き深層畳み込みニューラルネットワークが開発されており、結果は有望である。
しかし、通常のサンプルのみを使用してディープニューラルネットワークをトレーニングすることへの関心は、クラス不均衡の問題と、医療で広く見られる高いラベルコストのために高まっている。
本研究では, 変分オートエンコーダを用いた1クラス分類に基づいて, 乳頭スミア細胞診画像の深部頸部細胞表現を学習する手法を提案する。
実験結果から, 凝集クラスタリングにおけるクロスエントロピーの絶対差に基づく新しい指標を用いて, 異常サンプルのトレーニングモデルを用いずに, 細胞異常のスコアを算出し, 結果の局所化を図った。
正常細胞から扁平上皮癌 (SCC) を鑑別する最良のモデルは, 手術特性曲線 (AUC) 下の0.908+-0.003領域と, 高次上皮性病変 (HSIL) 0.920+-0.002 AUCを鑑別する。
他のクラスタリング法と比較して, v-measure を増大させ, 高い均質性スコアが得られるため, 異なる異常領域をより効果的に分離し, 結果の解釈に寄与する。
内部および追加のオープンデータセットを用いた評価では,深層モデルのトレーニングを必要とせず,異常を判別できることが示された。 Screening is critical for prevention and early detection of cervical cancer but it is time-consuming and laborious. Supervised deep convolutional neural networks have been developed to automate pap smear screening and the results are promising. However, the interest in using only normal samples to train deep neural networks has increased owing to class imbalance problems and high-labeling costs that are both prevalent in healthcare. In this study, we introduce a method to learn explainable deep cervical cell representations for pap smear cytology images based on one class classification using variational autoencoders. Findings demonstrate that a score can be calculated for cell abnormality without training models with abnormal samples and localize abnormality to interpret our results with a novel metric based on absolute difference in cross entropy in agglomerative clustering. The best model that discriminates squamous cell carcinoma (SCC) from normals gives 0.908 +- 0.003 area under operating characteristic curve (AUC) and one that discriminates high-grade epithelial lesion (HSIL) 0.920 +- 0.002 AUC. Compared to other clustering methods, our method enhances the V-measure and yields higher homogeneity scores, which more effectively isolate different abnormality regions, aiding in the interpretation of our results. Evaluation using in-house and additional open dataset show that our model can discriminate abnormality without the need of additional training of deep models. | 翻訳日:2023-11-22 15:16:01 公開日:2023-11-17 |
# 微調整BERTのエネルギーと炭素の考察 Energy and Carbon Considerations of Fine-Tuning BERT ( http://arxiv.org/abs/2311.10267v1 ) ライセンス: Link先を確認 | Xiaorong Wang, Clara Na, Emma Strubell, Sorelle Friedler, Sasha Luccioni | (参考訳) nlpコミュニティにおける"pre-train then fine-tune"パラダイムの人気にもかかわらず、既存の作業はエネルギーコストと関連する二酸化炭素排出量を定量化する。
単発のプレトレーニングランは微調整よりもエネルギーをかなり多く引き出すが、より多くの個別のアクターによって微調整が頻繁に行われるため、NLPのエネルギーと炭素フットプリントを考慮する際には考慮しなければならない。
NLPにおけるエネルギー・炭素排出量の展望における微調整の役割をより正確に評価するために,タスク,データセット,ハードウェアインフラストラクチャ,測定モダリティをまたいだ微調整の計算コストについて,慎重に検討した。
実験結果から, 微調整エネルギーと炭素コストを事前学習と推定の観点から考察し, 微調整エネルギー効率の向上を望むNLP研究者や実践者への推奨事項を概説した。 Despite the popularity of the `pre-train then fine-tune' paradigm in the NLP community, existing work quantifying energy costs and associated carbon emissions has largely focused on language model pre-training. Although a single pre-training run draws substantially more energy than fine-tuning, fine-tuning is performed more frequently by many more individual actors, and thus must be accounted for when considering the energy and carbon footprint of NLP. In order to better characterize the role of fine-tuning in the landscape of energy and carbon emissions in NLP, we perform a careful empirical study of the computational costs of fine-tuning across tasks, datasets, hardware infrastructure and measurement modalities. Our experimental results allow us to place fine-tuning energy and carbon costs into perspective with respect to pre-training and inference, and outline recommendations to NLP researchers and practitioners who wish to improve their fine-tuning energy efficiency. | 翻訳日:2023-11-22 15:15:34 公開日:2023-11-17 |
# gpt2におけるコーパスに基づく政治的偏見と侮辱の診断と抑止 Diagnosing and Debiasing Corpus-Based Political Bias and Insults in GPT2 ( http://arxiv.org/abs/2311.10266v1 ) ライセンス: Link先を確認 | Ambri Ma, Arnav Kumar, Brett Zeligson | (参考訳) 大規模な言語モデル (LLMs) のトレーニングは、インターネットから流出した広範囲でフィルタされていないコーパスで行われている。
その結果、LSMは暴力的、攻撃的、有害な言語を含む様々な種類のバイアスを学習し、不注意に再現した。
しかし、近年の研究では、生成前訓練トランスフォーマー(gpt)言語モデルが、自己のバイアスを認識し、生成したコンテンツの毒性を検出できることが示されている。
これに対し、研究者はLSMが自己退化を許容する復号アルゴリズムを開発し、有害なテキストを生成する可能性を減らす。
本研究は、侮辱と政治的偏見の2つの追加的なバイアスを緩和する診断・偏見的アプローチの有効性について検討した。
これらのバイアスは、潜在的に異なる意味的および構文的性質を示すにもかかわらず、会話において交換的に使用されることが多い。
我々は,人間とAIの相互作用の倫理的・社会的含意を調査するための継続的な取り組みに貢献することを目的とする。 The training of large language models (LLMs) on extensive, unfiltered corpora sourced from the internet is a common and advantageous practice. Consequently, LLMs have learned and inadvertently reproduced various types of biases, including violent, offensive, and toxic language. However, recent research shows that generative pretrained transformer (GPT) language models can recognize their own biases and detect toxicity in generated content, a process referred to as self-diagnosis. In response, researchers have developed a decoding algorithm that allows LLMs to self-debias, or reduce their likelihood of generating harmful text. This study investigates the efficacy of the diagnosing-debiasing approach in mitigating two additional types of biases: insults and political bias. These biases are often used interchangeably in discourse, despite exhibiting potentially dissimilar semantic and syntactic properties. We aim to contribute to the ongoing effort of investigating the ethical and social implications of human-AI interaction. | 翻訳日:2023-11-22 15:15:16 公開日:2023-11-17 |
# 安定な微分可能な因果発見 Stable Differentiable Causal Discovery ( http://arxiv.org/abs/2311.10263v1 ) ライセンス: Link先を確認 | Achille Nazaret, Justin Hong, Elham Azizi, David Blei | (参考訳) 有向非巡回グラフ(DAG)として因果関係を推定することは重要であるが難しい問題である。
微分因果発見(DCD)は、連続的な最適化として探索をフレーミングする、この問題に対する有望なアプローチである。
しかし、既存のDCD法は数値的に不安定であり、性能は数十変数を超えている。
本稿では,従来のDCD法を2つの方法で改善する新しい手法である安定微分因数探索法(SDCD:Stable Differentiable Causal Discovery)を提案する。
(2)実世界のシナリオでよく見られるスパース因果グラフ用に調整されたトレーニング手順を使用する。
まずSDCDを導出し,その安定性と正確性を証明する。
次に、観察データと介入データと、小規模・大規模の両方で評価する。
SDCDは収束速度と精度の両方で既存の手法より優れており、数千の変数に拡張可能である。 Inferring causal relationships as directed acyclic graphs (DAGs) is an important but challenging problem. Differentiable Causal Discovery (DCD) is a promising approach to this problem, framing the search as a continuous optimization. But existing DCD methods are numerically unstable, with poor performance beyond tens of variables. In this paper, we propose Stable Differentiable Causal Discovery (SDCD), a new method that improves previous DCD methods in two ways: (1) It employs an alternative constraint for acyclicity; this constraint is more stable, both theoretically and empirically, and fast to compute. (2) It uses a training procedure tailored for sparse causal graphs, which are common in real-world scenarios. We first derive SDCD and prove its stability and correctness. We then evaluate it with both observational and interventional data and on both small-scale and large-scale settings. We find that SDCD outperforms existing methods in both convergence speed and accuracy and can scale to thousands of variables. | 翻訳日:2023-11-22 15:15:00 公開日:2023-11-17 |
# vision meets mmwave radar: 自動運転のための3dオブジェクト知覚ベンチマーク Vision meets mmWave Radar: 3D Object Perception Benchmark for Autonomous Driving ( http://arxiv.org/abs/2311.10261v1 ) ライセンス: Link先を確認 | Yizhou Wang, Jen-Hao Cheng, Jui-Te Huang, Sheng-Yao Kuan, Qiqian Fu, Chiming Ni, Shengyu Hao, Gaoang Wang, Guanbin Xing, Hui Liu, Jenq-Neng Hwang | (参考訳) センサー融合は、自動運転車の正確で堅牢な認識システムにとって不可欠である。
既存のデータセットと知覚ソリューションのほとんどは、カメラとLiDARの融合に焦点を当てている。
しかし、カメラとレーダーの連携は著しく過小評価されている。
カメラからのリッチなセマンティック情報とレーダからの信頼できる3D情報は、3Dオブジェクト認識タスクのための効率的で安価でポータブルなソリューションを実現する可能性がある。
また、mmWaveレーダーの能力のため、様々な照明や全天候の運転シナリオにも耐えられる。
本稿では,様々な運転シナリオにおいて,66kの同期と高度に調整されたカメラ,レーダー,ライダーフレームを含むcruw3dデータセットを紹介する。
他の大規模自動運転データセットとは異なり、我々のレーダーデータは3d位置情報だけでなく時空間的意味情報を含む無線周波数テンソル(rf)形式である。
この種のレーダフォーマットは、カメラとレーダ間の情報や特徴を対話し、融合した後、機械学習モデルにより信頼性の高いオブジェクト知覚結果を生成することができる。 Sensor fusion is crucial for an accurate and robust perception system on autonomous vehicles. Most existing datasets and perception solutions focus on fusing cameras and LiDAR. However, the collaboration between camera and radar is significantly under-exploited. The incorporation of rich semantic information from the camera, and reliable 3D information from the radar can potentially achieve an efficient, cheap, and portable solution for 3D object perception tasks. It can also be robust to different lighting or all-weather driving scenarios due to the capability of mmWave radars. In this paper, we introduce the CRUW3D dataset, including 66K synchronized and well-calibrated camera, radar, and LiDAR frames in various driving scenarios. Unlike other large-scale autonomous driving datasets, our radar data is in the format of radio frequency (RF) tensors that contain not only 3D location information but also spatio-temporal semantic information. This kind of radar format can enable machine learning models to generate more reliable object perception results after interacting and fusing the information or features between the camera and radar. | 翻訳日:2023-11-22 15:14:46 公開日:2023-11-17 |
# FREE:環境生態系のモデリングのための基礎的意味認識 FREE: The Foundational Semantic Recognition for Modeling Environmental Ecosystems ( http://arxiv.org/abs/2311.10255v1 ) ライセンス: Link先を確認 | Shiyuan Luo, Juntong Ni, Shengyu Chen, Runlong Yu, Yiqun Xie, Licheng Liu, Zhenong Jin, Huaxiu Yao, Xiaowei Jia | (参考訳) 環境生態系のモデリングは、我々の惑星の持続可能性にとって重要であるが、多くの物理変数間の相互作用によって引き起こされる複雑なプロセスのため、非常に困難である。
多くの変数は大規模な測定が難しいため、既存の作品は観測可能な特徴とローカルに利用可能な測定値やモデル化された値の組み合わせを、特定の研究領域や期間のモデルを構築するための入力として利用することが多い。
これは、環境生態系のモデリングを進める上で、基本的な疑問を提起する:空間と時間に関する様々な環境データ間の複雑な関係をモデリングするための一般的なフレームワークを構築するには、どうすればよいのか?
本稿では,利用可能な環境データをテキスト空間にマッピングし,環境科学における従来の予測モデリングタスクを意味認識問題に変換する新しいフレームワークfreeを提案する。
提案したFREEフレームワークは、Large Language Models(LLM)の最近の進歩を活用して、元々の入力機能を自然言語記述で補う。
これにより、データセマンティクスのキャプチャが容易になり、入力機能の不規則性を活用することができる。
長期予測に使用する場合、FREEは将来予測を強化するために新たに収集した観測を組み込む柔軟性を持つ。
FREEの有効性は、2つの社会的に重要な実世界の応用の文脈で評価され、デラウェア川流域の河川水温を予測し、イリノイ州とアイオワ州で毎年トウモロコシの収量を予測する。
複数のベースライン法よりも優れた予測性能に加えて、FREEは物理モデルで生成されたシミュレーションデータに基づいて事前学習できるため、よりデータ効率と計算効率がよい。 Modeling environmental ecosystems is critical for the sustainability of our planet, but is extremely challenging due to the complex underlying processes driven by interactions amongst a large number of physical variables. As many variables are difficult to measure at large scales, existing works often utilize a combination of observable features and locally available measurements or modeled values as input to build models for a specific study region and time period. This raises a fundamental question in advancing the modeling of environmental ecosystems: how to build a general framework for modeling the complex relationships amongst various environmental data over space and time? In this paper, we introduce a new framework, FREE, which maps available environmental data into a text space and then converts the traditional predictive modeling task in environmental science to the semantic recognition problem. The proposed FREE framework leverages recent advances in Large Language Models (LLMs) to supplement the original input features with natural language descriptions. This facilitates capturing the data semantics and also allows harnessing the irregularities of input features. When used for long-term prediction, FREE has the flexibility to incorporate newly collected observations to enhance future prediction. The efficacy of FREE is evaluated in the context of two societally important real-world applications, predicting stream water temperature in the Delaware River Basin and predicting annual corn yield in Illinois and Iowa. Beyond the superior predictive performance over multiple baseline methods, FREE is shown to be more data- and computation-efficient as it can be pre-trained on simulated data generated by physics-based models. | 翻訳日:2023-11-22 15:14:33 公開日:2023-11-17 |
# 非恒等状態による効率的多部絡み合い浄化 Efficient multipartite entanglement purification with non-identical states ( http://arxiv.org/abs/2311.10250v1 ) ライセンス: Link先を確認 | Hao Qin, Ming-Ming Du, Xi-Yun Li, Wei Zhong, Lan Zhou, Yu-Bo Sheng | (参考訳) グリーンバーガー・ホルン・ザイリンガー状態(GHZ)におけるN-光子系に対する高効率で汎用的なマルチパーティント・アンタングル化プロトコル(MEPP)を提案する。
絡み合いの浄化の分岐として、精製が成功した場合の他に、MEPPは、通常失敗と見なされる再利用可能な廃棄品を実際に持っている。
本プロトコルはビットフリップ誤り訂正のための2つの部分を含む。
ひとつは従来の mepp で,成功したケースに対応している。
第2の方法は, 廃品を活用可能なエンタングルメントリンクによるリサイクル浄化と, 直接的残留エンタングルメント浄化の2つの効率的な方法である。
また、2つのアプローチを比較します。
どの方法を使うかは初期入力状態に依存するが、ほとんどの場合、直接的残留浄化のアプローチが最適であり、より高い忠実な絡み合った状態を得るだけでなく、追加の高度なリンクも必要としない。
さらに、フェーズ・フリップエラーの場合、廃棄されたアイテムは、異なる入力状態の場合、依然として残差の絡み合いがある。
これらのアプローチにより、このMEPPは従来のすべてのMEPPよりも効率が高く、将来の長距離量子通信やネットワークに潜在的な応用をもたらす可能性がある。 We present an efficient and general multipartite entanglement purification protocol (MEPP) for N-photon systems in Greenberger-Horne-Zeilinger (GHZ) states with non-identical input states. As a branch of entanglement purification, besides the cases of successful purification, the recurrence MEPP actually has the reusable discarded items which are usually regarded as a failure. Our protocol contains two parts for bit-flip error correction. The first one is the conventional MEPP, corresponding successful cases. The second one includes two efficient approaches, recycling purification with entanglement link and direct residual entanglement purification, that can utilize discarded items. We also make a comparison between two approaches. Which method to use depends on initial input states, and in most cases the approach of direct residual purification is optimal for it not only may obtain a higher fidelity entangled state but also it does not require additional sophisticated links. In addition, for phase-flip errors, the discarded items still have available residual entanglement in the case of different input states. With these approaches, this MEPP has a higher efficiency than all previous MEPPs and it may have potential applications in the future long-distance quantum communications and networks. | 翻訳日:2023-11-22 15:13:00 公開日:2023-11-17 |
# 非対称ラビモデルにおける幾何量と隠れ対称性の共鳴 Resonance of Geometric Quantities and Hidden Symmetry in the Asymmetric Rabi Model ( http://arxiv.org/abs/2311.10249v1 ) ライセンス: Link先を確認 | Qinjing Yu and Zhiguo L\"u | (参考訳) Aharonov-Anandan(AA)相と時間エネルギーの不確実性という2種類の幾何学量の興味深い共鳴を示し、非対称ラビモデルにおける共鳴と隠れ対称性の関係を数値的および解析的手法により明らかにする。
逆回転ハイブリダイズ回転波法と時間依存摂動理論を組み合わせることで,時間発展作用素を体系的に解き,ラビモデルの幾何学的位相を得る。
数値的に正確な解と比較して、解析結果が広いパラメータ空間における幾何量を正確に記述していることが分かる。
我々は, バイアスが幾何量の共鳴に与える影響, 1) バイアスの存在下でのラビ周波数のシフトに起因するすべての調和共鳴の位置, (2) バイアスによる偶数次調和共鳴の発生を明らかにする。
駆動周波数がバイアスのサブハーモニックスと等しい場合、奇な高次高調波共鳴は消滅する。
最後に、隠れ対称性はバイアスを持つ量子ラビモデルに類似しており、準エネルギースペクトルは後者のエネルギースペクトルに類似していることを示している。 We present the interesting resonance of two kinds of geometric quantities, namely the Aharonov-Anandan (AA) phase and the time-energy uncertainty, and reveal the relation between resonance and the hidden symmetry in the asymmetric Rabi model by numerical and analytical methods. By combining the counter-rotating hybridized rotating-wave method with time-dependent perturbation theory, we solve systematically the time evolution operator and then obtain the geometric phase of the Rabi model. In comparison with the numerically exact solutions, we find that the analytical results accurately describe the geometric quantities in a wide parameter space. We unveil the effect of the bias on the resonance of geometric quantities, (1) the positions of all harmonic resonances stemming from the shift of the Rabi frequency at the presence of the bias; (2) the occurrence of even order harmonic resonance due to the bias. When the driving frequency is equal to the subharmonics of the bias, the odd higher-order harmonic resonances disappear. Finally, the hidden symmetry has a resemblance to that of the quantum Rabi model with bias, which indicates the quasienergy spectra are similar to the energy spectra of the latter. | 翻訳日:2023-11-22 15:12:27 公開日:2023-11-17 |
# FedTruth: Byzantine-Robustとバックドアレジリエントなフェデレーションラーニングフレームワーク FedTruth: Byzantine-Robust and Backdoor-Resilient Federated Learning Framework ( http://arxiv.org/abs/2311.10248v1 ) ライセンス: Link先を確認 | Sheldon C. Ebron Jr. and Kan Yang | (参考訳) フェデレーション学習(fl)は、生データを共有することなく、複数のパーティ間で協調的な機械学習モデルトレーニングを可能にする。
しかし、flの分散性により、悪意のあるクライアントは、誤ったモデル更新を使用して、ビザンチンまたはバックドア攻撃によるモデルのトレーニングに影響を与えることができる。
既存の防衛策は、各更新のずれを「地平モデル更新」から計測する。
彼らはしばしばサーバ上の良質なルートデータセットに依存するか、クリッピングにトリミング平均または中央値を使用する。
我々はFLにおけるモデル中毒に対する堅牢な防御であるFedTruthを紹介する。
FedTruthは特定のデータ分散を前提とせず、良質なルートデータセットも必要としない。
全クライアントからのコントリビューションを考慮して、動的集約重み付きグローバルモデル更新を推定する。
実証的な研究は、ビザンチンとバックドアの両方の攻撃による有毒な更新の影響を緩和するフェドルートの効果を示している。 Federated Learning (FL) enables collaborative machine learning model training across multiple parties without sharing raw data. However, FL's distributed nature allows malicious clients to impact model training through Byzantine or backdoor attacks, using erroneous model updates. Existing defenses measure the deviation of each update from a 'ground-truth model update.' They often rely on a benign root dataset on the server or use trimmed mean or median for clipping, both methods having limitations. We introduce FedTruth, a robust defense against model poisoning in FL. FedTruth doesn't assume specific data distributions nor requires a benign root dataset. It estimates a global model update with dynamic aggregation weights, considering contributions from all benign clients. Empirical studies demonstrate FedTruth's efficacy in mitigating the impacts of poisoned updates from both Byzantine and backdoor attacks. | 翻訳日:2023-11-22 15:11:31 公開日:2023-11-17 |
# 複数学習者に対するノンパラメトリック教育 Nonparametric Teaching for Multiple Learners ( http://arxiv.org/abs/2311.10318v1 ) ライセンス: Link先を確認 | Chen Zhang, Xiaofeng Cao, Weiyang Liu, Ivor Tsang, James Kwok | (参考訳) 本研究では,教師が目標概念の獲得を加速するための事例を反復的に提示するノンパラメトリック反復学習環境において,複数の学習者を同時に教えるという課題について検討する。
この問題は、現在の独学の指導環境と、教師が複数の生徒に知識を与えるような、人間の指導の現実のシナリオとのギャップに動機づけられている。
本稿では,新しい問題定式化手法であるマルチリーナー非パラメトリック教育(mint)を提案する。
MINTでは、教師は複数の学習者を指導することを目的としており、各学習者はスカラー値のターゲットモデルを学習することに集中している。
これを実現するために、ベクトル値のターゲットモデルを教え、ターゲットモデル空間を単一階層シナリオで使用されるスカラー値の再生カーネルヒルベルト空間からベクトル値の空間に拡張する。
さらに,複数の学習者が相互にコミュニケーション可能な場合において,mintは単学学習の繰り返しよりも指導速度が向上することを示す。
最後に,MINTの実用性と効率性を検証するため,広範囲な実験を行った。 We study the problem of teaching multiple learners simultaneously in the nonparametric iterative teaching setting, where the teacher iteratively provides examples to the learner for accelerating the acquisition of a target concept. This problem is motivated by the gap between current single-learner teaching setting and the real-world scenario of human instruction where a teacher typically imparts knowledge to multiple students. Under the new problem formulation, we introduce a novel framework -- Multi-learner Nonparametric Teaching (MINT). In MINT, the teacher aims to instruct multiple learners, with each learner focusing on learning a scalar-valued target model. To achieve this, we frame the problem as teaching a vector-valued target model and extend the target model space from a scalar-valued reproducing kernel Hilbert space used in single-learner scenarios to a vector-valued space. Furthermore, we demonstrate that MINT offers significant teaching speed-up over repeated single-learner teaching, particularly when the multiple learners can communicate with each other. Lastly, we conduct extensive experiments to validate the practicality and efficiency of MINT. | 翻訳日:2023-11-22 15:04:13 公開日:2023-11-17 |
# ニューラルネットワークを用いたモンテカルロ木探索によるグラフスパーシフィケーション Graph Sparsifications using Neural Network Assisted Monte Carlo Tree Search ( http://arxiv.org/abs/2311.10316v1 ) ライセンス: Link先を確認 | Alvin Chiu, Mithun Ghosh, Reyan Ahmed, Kwang-Sung Jun, Stephen Kobourov, Michael T. Goodrich | (参考訳) グラフニューラルネットワークは、機械学習だけでなく、サブグラフ同型問題やトラベルセールスマン問題といった組合せ問題やグラフ問題にも成功している。
本稿では,グラフニューラルネットワークとモンテカルロ木探索を組み合わせたグラフスパーシファイザ計算手法について述べる。
まず,部分解を入力とするグラフニューラルネットワークを訓練し,新たなノードを出力として追加することを提案する。
このニューラルネットワークはモンテカルロ探索でスパルサファイヤを計算するために使用される。
提案手法は,様々なグラフの標準近似アルゴリズムを一貫して上回っており,最適解を求めることが多い。 Graph neural networks have been successful for machine learning, as well as for combinatorial and graph problems such as the Subgraph Isomorphism Problem and the Traveling Salesman Problem. We describe an approach for computing graph sparsifiers by combining a graph neural network and Monte Carlo Tree Search. We first train a graph neural network that takes as input a partial solution and proposes a new node to be added as output. This neural network is then used in a Monte Carlo search to compute a sparsifier. The proposed method consistently outperforms several standard approximation algorithms on different types of graphs and often finds the optimal solution. | 翻訳日:2023-11-22 15:03:56 公開日:2023-11-17 |
# cycle consistence learning を用いた新規薬物に対する単細胞摂動反応の解釈可能なモデリング Interpretable Modeling of Single-cell perturbation Responses to Novel Drugs Using Cycle Consistence Learning ( http://arxiv.org/abs/2311.10315v1 ) ライセンス: Link先を確認 | Wei Huang, Aichun Zhu, Hui Liu | (参考訳) フェノタイプによるスクリーニングは細胞活性化合物の同定に多くの注目を集めている。
細胞集団または単一細胞の転写およびプロテオミクスプロファイルは、摂動に対する細胞応答の情報的表現型尺度である。
本稿では,初期セル状態を潜在空間にマッピングするエンコーダ・デコーダアーキテクチャに基づく深層学習フレームワークを提案する。
次に, 薬物摂動を受ける初期細胞状態が摂動細胞応答を生じさせ, 逆に摂動細胞状態からの薬物摂動の除去が初期細胞状態を回復させるように, サイクル一貫性制約を導入した。
潜在空間におけるサイクル一貫性の制約と線形モデリングは、解釈可能かつ伝達可能な薬物摂動表現を学習し、このモデルが未発見の薬物に対する細胞応答を予測できるようにする。
薬物摂動に対するバルク転写応答,バルクプロテオミクス応答,単一細胞転写応答を含む3種類のデータセットを用いて本モデルを検証した。
実験の結果,既存の最先端手法よりも優れた性能が得られた。 Phenotype-based screening has attracted much attention for identifying cell-active compounds. Transcriptional and proteomic profiles of cell population or single cells are informative phenotypic measures of cellular responses to perturbations. In this paper, we proposed a deep learning framework based on encoder-decoder architecture that maps the initial cellular states to a latent space, in which we assume the effects of drug perturbation on cellular states follow linear additivity. Next, we introduced the cycle consistency constraints to enforce that initial cellular state subjected to drug perturbations would produce the perturbed cellular responses, and, conversely, removal of drug perturbation from the perturbed cellular states would restore the initial cellular states. The cycle consistency constraints and linear modeling in latent space enable to learn interpretable and transferable drug perturbation representations, so that our model can predict cellular response to unseen drugs. We validated our model on three different types of datasets, including bulk transcriptional responses, bulk proteomic responses, and single-cell transcriptional responses to drug perturbations. The experimental results show that our model achieves better performance than existing state-of-the-art methods. | 翻訳日:2023-11-22 15:03:46 公開日:2023-11-17 |
# 都市環境における安全かつインタラクティブな自動運転のための想像力提示階層強化学習 Imagination-augmented Hierarchical Reinforcement Learning for Safe and Interactive Autonomous Driving in Urban Environments ( http://arxiv.org/abs/2311.10309v1 ) ライセンス: Link先を確認 | Sang-Hyun Lee, Yoonjae Jung, Seung-Woo Seo | (参考訳) 階層的強化学習(HRL)は様々な分野で顕著な成果をもたらした。
しかし、既存のHRLアルゴリズムは現実世界のナビゲーションタスクには適用できない。
これらのタスクは、エージェントが安全認識動作を実行し、動的環境で周囲のオブジェクトと対話する必要がある。
さらに、これらのタスクのエージェントは、長いホリゾンであり、さまざまなオブジェクトとタスク固有のルールを持つ複雑な構造を持つため、一貫性のある構造化された探索を行う必要がある。
これらの課題を現実のナビゲーションタスクで処理できるHRLエージェントを設計することは、オープンな問題である。
本稿では,エージェントが現実世界のナビゲーションタスクで安全かつインタラクティブな動作を学習できる,新しい汎用的なナビゲーションアルゴリズムであるimagination-augmented hrl (iahrl)を提案する。
私たちのキーとなる考え方は、高レベルのポリシーが低レベルのポリシーで想像される振る舞いを解釈することによって相互作用を推論する階層的なエージェントを訓練することです。
特に、ハイレベルポリシーは、どの低レベルポリシーが最もインタラクティブな振る舞いを生成するかを決定するための置換不変注意機構で設計され、低レベルポリシーは、タスク固有のルールに従って安全で構造化された振る舞いを生成する最適化ベースの行動プランナーによって実装される。
提案アルゴリズムを評価するために,都市部における複雑な運転タスクを5つ導入した。
実験の結果, 階層エージェントは安全認識行動を実行し, 周囲の車両と適切に相互作用し, 都市走行タスクのベースラインよりも高い成功率と低い平均エピソードステップを達成することが示唆された。 Hierarchical reinforcement learning (HRL) has led to remarkable achievements in diverse fields. However, existing HRL algorithms still cannot be applied to real-world navigation tasks. These tasks require an agent to perform safety-aware behaviors and interact with surrounding objects in dynamic environments. In addition, an agent in these tasks should perform consistent and structured exploration as they are long-horizon and have complex structures with diverse objects and task-specific rules. Designing HRL agents that can handle these challenges in real-world navigation tasks is an open problem. In this paper, we propose imagination-augmented HRL (IAHRL), a new and general navigation algorithm that allows an agent to learn safe and interactive behaviors in real-world navigation tasks. Our key idea is to train a hierarchical agent in which a high-level policy infers interactions by interpreting behaviors imagined with low-level policies. Specifically, the high-level policy is designed with a permutation-invariant attention mechanism to determine which low-level policy generates the most interactive behavior, and the low-level policies are implemented with an optimization-based behavior planner to generate safe and structured behaviors following task-specific rules. To evaluate our algorithm, we introduce five complex urban driving tasks, which are among the most challenging real-world navigation tasks. The experimental results indicate that our hierarchical agent performs safety-aware behaviors and properly interacts with surrounding vehicles, achieving higher success rates and lower average episode steps than baselines in urban driving tasks. | 翻訳日:2023-11-22 15:03:27 公開日:2023-11-17 |
# 置換不変状態におけるコヘルネスは置換非対称性を高める Cohernece in permutation-invariant state enhances permutation-asymmetry ( http://arxiv.org/abs/2311.10307v1 ) ライセンス: Link先を確認 | Masahito Hayashi | (参考訳) ディック状態とそのデコヒード状態は置換に対して不変である。
しかし、それぞれの量子ビット状態がアタッチされると、状態全体が置換に対して不変ではなく、置換に対する一定の非対称性を持つ。
非対称性の量は群作用下の識別可能な状態の数や相互情報によって測定することができる。
本稿では,ディック状態のコヒーレンスが非対称性の量に与える影響について検討する。
この問題を漸近的に解くために,超幾何関数に関する数式を用いて,新たな中心極限定理を導入する。
ディッキン状態の場合の非対称性の量は、その極限の特定のタイプのデコヒーテッド状態よりも厳密に大きい次数であることが分かる。 A Dicke state and its decohered state are invariant for permutation. However, when another qubits state to each of them is attached, the whole state is not invariant for permutation, and has a certain asymmetry for permutation. The amount of asymmetry can be measured by the number of distinguishable states under the group action or the mutual information. This paper investigates how the coherence of a Dicke state affects the amount of asymmetry. To address this problem asymptotically, we introduce a new type of central limit theorem by using several formulas on hypergeometric functions. We reveal that the amount of the asymmetry in the case with a Dicke state has a strictly larger order than that with the decohered state in a specific type of the limit. | 翻訳日:2023-11-22 15:02:59 公開日:2023-11-17 |
# MPSeg : 冠動脈解離に対する多相戦略 MPSeg : Multi-Phase strategy for coronary artery Segmentation ( http://arxiv.org/abs/2311.10306v1 ) ライセンス: Link先を確認 | Jonghoe Ku, Yong-Hee Lee, Junsup Shin, In Kyu Lee, Hyun-Woo Kim | (参考訳) 冠動脈の正確なセグメンテーションは、心臓血管疾患を評価する上で重要なプロセスである。
しかし、心血管系の複雑な構造は、特にSynTAXスコアのような、詳細な構造情報に基づいて正確なリスク階層化を行う手法を利用する場合、自動セグメンテーションに重大な課題をもたらす。
これらの困難に対処し,このニーズに対応するために,冠状動脈の分画を想定した革新的な多相戦略であるmpsegを提案する。
本手法はこれらの構造的複雑度に特化しており,SynTAXスコアの原理に準拠している。
左冠状動脈 (LCA) と右冠状動脈 (RCA) の2つの形態的特徴から血管を分離した。
特殊なアンサンブルモデルが各カテゴリにデプロイされ、挑戦的なセグメンテーションタスクを実行する。
LCAの複雑さがRCAよりも高くなるため、分節領域の初期クラス予測を精査し修正するために改良モデルが用いられる。
特に, miccai 2023 における x-ray angiography image (arcade) segmentation detection algorithm challenge を用いて, 冠動脈疾患自動診断において極めて有効であった。 Accurate segmentation of coronary arteries is a pivotal process in assessing cardiovascular diseases. However, the intricate structure of the cardiovascular system presents significant challenges for automatic segmentation, especially when utilizing methodologies like the SYNTAX Score, which relies extensively on detailed structural information for precise risk stratification. To address these difficulties and cater to this need, we present MPSeg, an innovative multi-phase strategy designed for coronary artery segmentation. Our approach specifically accommodates these structural complexities and adheres to the principles of the SYNTAX Score. Initially, our method segregates vessels into two categories based on their unique morphological characteristics: Left Coronary Artery (LCA) and Right Coronary Artery (RCA). Specialized ensemble models are then deployed for each category to execute the challenging segmentation task. Due to LCA's higher complexity over RCA, a refinement model is utilized to scrutinize and correct initial class predictions on segmented areas. Notably, our approach demonstrated exceptional effectiveness when evaluated in the Automatic Region-based Coronary Artery Disease diagnostics using x-ray angiography imagEs (ARCADE) Segmentation Detection Algorithm challenge at MICCAI 2023. | 翻訳日:2023-11-22 15:02:49 公開日:2023-11-17 |
# 大腸癌肝転移生存予測のためのスタイル移行正規化型vit知識蒸留ネットワーク Semi-supervised ViT knowledge distillation network with style transfer normalization for colorectal liver metastases survival prediction ( http://arxiv.org/abs/2311.10305v1 ) ライセンス: Link先を確認 | Mohamed El Amine Elforaici, Emmanuel Montagnon, Francisco Perdigon Romero, William Trung Le, Feryel Azzi, Dominique Trudel, Bich Nguyen, Simon Turcotte, An Tang, Samuel Kadoury | (参考訳) 大腸癌肝転移(CLM)は大腸癌患者に大きく影響し,全身化学療法反応に基づいて生存に影響を与える。
診断のための腫瘍グレーティングスコア(例:腫瘍退縮度 - TRG)のような従来の方法は、主観性、時間的制約、専門的要求に悩まされている。
現在の機械学習のアプローチは、しばしば放射線データに焦点を当てているが、組織学的画像が生存予測に関連し、複雑な腫瘍の微小環境特性を捉えることが認識されている。
これらの制約に対処するため,H&EおよびHPSで染色した組織学的スライスを用いた自動予後予測のためのエンドツーエンドアプローチを提案する。
まず,slide正規化にgenerative adversarial network(gan)を用い,染色の変動を低減し,予測パイプラインへの入力として使用される画像の全体的な品質を向上させる。
スパースアノテーションから組織分類を行い,特徴マップを作成する半教師付きモデルを提案する。
我々は,最終分類結果の作成において,異なるスライド領域の重要性を重んじる注意に基づくアプローチを用いる。
転移性結節および周囲組織から抽出した特徴を利用して予後モデルを訓練した。
並行してヴィジュアルトランスフォーマ(vit)を知識蒸留フレームワークで訓練し,予後予測の性能を再現し,向上させる。
臨床データ258例について,OSは0.804(0.014),TTRは0.733(0.014)と優れた成績を示した。
3クラスtrg分類タスクで86.9%から90.3%の精度を達成し,78.5%から82.1%の精度を得た。
提案するパイプラインは,病理医や腫瘍学者に自動予後を提供することができ,CLM患者管理における精密医療の進歩を大いに促進することができる。 Colorectal liver metastases (CLM) significantly impact colon cancer patients, influencing survival based on systemic chemotherapy response. Traditional methods like tumor grading scores (e.g., tumor regression grade - TRG) for prognosis suffer from subjectivity, time constraints, and expertise demands. Current machine learning approaches often focus on radiological data, yet the relevance of histological images for survival predictions, capturing intricate tumor microenvironment characteristics, is gaining recognition. To address these limitations, we propose an end-to-end approach for automated prognosis prediction using histology slides stained with H&E and HPS. We first employ a Generative Adversarial Network (GAN) for slide normalization to reduce staining variations and improve the overall quality of the images that are used as input to our prediction pipeline. We propose a semi-supervised model to perform tissue classification from sparse annotations, producing feature maps. We use an attention-based approach that weighs the importance of different slide regions in producing the final classification results. We exploit the extracted features for the metastatic nodules and surrounding tissue to train a prognosis model. In parallel, we train a vision Transformer (ViT) in a knowledge distillation framework to replicate and enhance the performance of the prognosis prediction. In our evaluation on a clinical dataset of 258 patients, our approach demonstrates superior performance with c-indexes of 0.804 (0.014) for OS and 0.733 (0.014) for TTR. Achieving 86.9% to 90.3% accuracy in predicting TRG dichotomization and 78.5% to 82.1% accuracy for the 3-class TRG classification task, our approach outperforms comparative methods. Our proposed pipeline can provide automated prognosis for pathologists and oncologists, and can greatly promote precision medicine progress in managing CLM patients. | 翻訳日:2023-11-22 15:02:29 公開日:2023-11-17 |
# 弱散逸限界における開量子多体系のLiouvillian-gap解析 Liouvillian-gap analysis of open quantum many-body systems in the weak dissipation limit ( http://arxiv.org/abs/2311.10304v1 ) ライセンス: Link先を確認 | Takashi Mori | (参考訳) 最近の実験では、相互作用と散逸の相互作用により、オープン量子多体系に新しい物理学が出現し、多体リンドブラッド方程式の理論的研究が促進された。
強い放散体制はこの文脈にかなりの関心を寄せているが、この研究は弱い放散に焦点を当てている。
多体リンドブラッド発生器のスペクトル特性を調べることで、そのスペクトルギャップは熱力学的限界が先にとられたとき、弱散逸限界における特異性を示すことが分かる。
このような特異な振る舞いは、孤立系の熱化の時間スケールを決定するカオス理論におけるルエル・ポリコット共鳴の概念と関連している。
したがって、弱散逸状態における多体リンドブラッド方程式は量子多体系の固有性質に関する非自明な情報を含んでいる。 Recent experiments have reported that novel physics emerge in open quantum many-body systems due to an interplay of interactions and dissipation, which stimulate theoretical studies of the many-body Lindblad equation. Although the strong dissipation regime receives considerable interest in this context, this work focuses on the weak bulk dissipation. By examining the spectral property of the many-body Lindblad generator, we find that its spectral gap generically shows singularity in the weak dissipation limit when the thermodynamic limit is taken first. Such singular behavior is related to the concept of the Ruelle-Pollicott resonance in chaos theory, which determines the timescale of thermalization of an isolated system. Thus, the many-body Lindblad equation in the weak dissipation regime contains nontrivial information on intrinsic properties of a quantum many-body system. | 翻訳日:2023-11-22 15:01:55 公開日:2023-11-17 |
# 社会的孤立と重度精神障害 : 文脈認識型モバイル介入の役割 Social Isolation and Serious Mental Illness: The Role of Context-Aware Mobile Interventions ( http://arxiv.org/abs/2311.10302v1 ) ライセンス: Link先を確認 | Subigya Nepal, Arvind Pillai, Emma M. Parrish, Jason Holden, Colin Depp, Andrew T. Campbell, Eric Granholm | (参考訳) 社会的孤立は重度の精神疾患患者(smi)が直面する一般的な問題であり、現在の介入アプローチは効果が限られている。
本稿では,重症心身障害者の社会的孤立に対処するため,mSITE(Mobile Social Interaction Therapy by Exposure)と呼ばれる複合的介入手法を提案する。
このアプローチは、短時間の対人認知行動療法(CBT)と、モバイルセンシングデータを用いてパーソナライズされたコンテキストトリガーされたモバイルCBT介入を組み合わせる。
我々のアプローチは社会的行動をターゲットにしており、重度の精神疾患における社会的成果を改善するための最初の文脈認識介入である。 Social isolation is a common problem faced by individuals with serious mental illness (SMI), and current intervention approaches have limited effectiveness. This paper presents a blended intervention approach, called mobile Social Interaction Therapy by Exposure (mSITE), to address social isolation in individuals with serious mental illness. The approach combines brief in-person cognitive-behavioral therapy (CBT) with context-triggered mobile CBT interventions that are personalized using mobile sensing data. Our approach targets social behavior and is the first context-aware intervention for improving social outcomes in serious mental illness. | 翻訳日:2023-11-22 15:01:41 公開日:2023-11-17 |
# 教師付き構造学習 Supervised structure learning ( http://arxiv.org/abs/2311.10300v1 ) ライセンス: Link先を確認 | Karl J. Friston, Lancelot Da Costa, Alexander Tschantz, Alex Kiefer, Tommaso Salvatori, Victorita Neacsu, Magnus Koudahl, Conor Heins, Noor Sajid, Dimitrije Markovic, Thomas Parr, Tim Verbelen, Christopher L Buckley | (参考訳) 本稿では,構造学習や離散生成モデルの発見について述べる。
ベイズモデルの選択とトレーニングデータやコンテンツの同化に重点を置いており、特にデータが取り込まれる順序に重点を置いている。
続く計画において重要な動きは、期待された自由エネルギーに基づいてモデルの選択に先行することである。
この設定では、期待された自由エネルギーは制約された相互情報に還元され、そこでは制約は結果(すなわち望ましい結果)よりも先に受け継がれる。
このスキームはまずMNISTデータセット上で画像分類を行い、次に単純なスプライトベースの視覚的ゆがみパラダイムとハノイ塔(世界のブロック)問題を用いて、動的にモデルを発見するというより難しい問題について検証する。
これらの例では、生成モデルは自己双対的に構築され、潜在状態の因子構造とその特性経路またはダイナミクスを回復する(すなわち、不連続)。 This paper concerns structure learning or discovery of discrete generative models. It focuses on Bayesian model selection and the assimilation of training data or content, with a special emphasis on the order in which data are ingested. A key move - in the ensuing schemes - is to place priors on the selection of models, based upon expected free energy. In this setting, expected free energy reduces to a constrained mutual information, where the constraints inherit from priors over outcomes (i.e., preferred outcomes). The resulting scheme is first used to perform image classification on the MNIST dataset to illustrate the basic idea, and then tested on a more challenging problem of discovering models with dynamics, using a simple sprite-based visual disentanglement paradigm and the Tower of Hanoi (cf., blocks world) problem. In these examples, generative models are constructed autodidactically to recover (i.e., disentangle) the factorial structure of latent states - and their characteristic paths or dynamics. | 翻訳日:2023-11-22 15:01:31 公開日:2023-11-17 |
# BiHRNet:人間の姿勢推定のためのバイナリ高解像度ネットワーク BiHRNet: A Binary high-resolution network for Human Pose Estimation ( http://arxiv.org/abs/2311.10296v1 ) ライセンス: Link先を確認 | Zhicheng Zhang, Xueyao Sun, Yonghao Dang, Jianqin Yin | (参考訳) HPE(Human Pose Estimation)は、コンピュータビジョンアプリケーションにおいて重要な役割を果たす。
しかし,ネットワークの計算コストが高いため,リゾス制限されたデバイスに最先端のモデルをデプロイすることは困難である。
本研究では、BiHRNet(Binary HRNet)と呼ばれる2値の人間のポーズ推定器を提案し、その重みとアクティベーションは$\pm$1と表現される。
BiHRNetはHRNetのキーポイント抽出能力を保ち、バイナリニューラルネットワーク(BNN)を適用することで、少ないコンピューティングリソースを使用する。
ネットワークバイナライゼーションによる精度低下を低減するため,本研究では2種類の手法が提案されている。
そこで本研究では,2元ポーズ推定器の学習プロセスを最適化するために,kl分岐損失とアウイング損失を組み合わせた新たな損失関数を提案する。
よりバイナライズフレンドリーな構造を設計するために、IR Bottleneckと呼ばれる新しい情報再構成ボトルネックを提案し、ネットワークの初期段階でより多くの情報を保持する。
また,情報保持のためのMS-Blockと呼ばれるマルチスケールの基本ブロックを提案する。
私たちの作業は計算コストが少なく、精度も低くなります。
実験の結果、bihrnet は mpii データセット上で 87.9 の pckh を達成し、すべてのバイナリポーズ推定ネットワークを上回った。
COCOデータセットの課題に対して,提案手法は,従来のテストされた軽量全精度ネットワークよりも優れた70.8 mAPを実現する。 Human Pose Estimation (HPE) plays a crucial role in computer vision applications. However, it is difficult to deploy state-of-the-art models on resouce-limited devices due to the high computational costs of the networks. In this work, a binary human pose estimator named BiHRNet(Binary HRNet) is proposed, whose weights and activations are expressed as $\pm$1. BiHRNet retains the keypoint extraction ability of HRNet, while using fewer computing resources by adapting binary neural network (BNN). In order to reduce the accuracy drop caused by network binarization, two categories of techniques are proposed in this work. For optimizing the training process for binary pose estimator, we propose a new loss function combining KL divergence loss with AWing loss, which makes the binary network obtain more comprehensive output distribution from its real-valued counterpart to reduce information loss caused by binarization. For designing more binarization-friendly structures, we propose a new information reconstruction bottleneck called IR Bottleneck to retain more information in the initial stage of the network. In addition, we also propose a multi-scale basic block called MS-Block for information retention. Our work has less computation cost with few precision drop. Experimental results demonstrate that BiHRNet achieves a PCKh of 87.9 on the MPII dataset, which outperforms all binary pose estimation networks. On the challenging of COCO dataset, the proposed method enables the binary neural network to achieve 70.8 mAP, which is better than most tested lightweight full-precision networks. | 翻訳日:2023-11-22 15:01:14 公開日:2023-11-17 |
# 焦点多様性を有する深層アンサンブルの階層的プルーニング Hierarchical Pruning of Deep Ensembles with Focal Diversity ( http://arxiv.org/abs/2311.10293v1 ) ライセンス: Link先を確認 | Yanzhao Wu, Ka-Ho Chow, Wenqi Wei, Ling Liu | (参考訳) ディープニューラルネットワークのアンサンブルは、複数のディープニューラルネットワークの知恵を組み合わせて、個々のネットワークに対する一般化性と堅牢性を改善する。
ディープラーニングコミュニティで深層アンサンブル技術を学ぶための人気が高まっている。
いくつかのミッションクリティカルな応用は、多くのディープニューラルネットワークを使用して、所望の精度とレジリエンスを達成するためにディープアンサンブルを形成し、アンサンブルの実行に高い時間と空間コストをもたらす。
しかし、ディープアンサンブル全体の小さなサブセットが同じかより良い一般化可能性を達成できるか、そしてアンサンブルの実行の空間と時間効率を改善するためにこれらの小さなディープアンサンブルを効果的に識別するかは依然として重要な課題である。
本稿では,より小さな深層アンサンブルを効率よく同定し,多数のネットワークの深部アンサンブル全体よりも高いアンサンブル精度を実現する,新しいディープアンサンブル・プルーニング手法を提案する。
当社の階層型アンサンブル刈り込み手法(hq)は,3つの新しいアンサンブル刈り込み手法を活用する。
まず,アンサンブル・プルーニングを導出するアンサンブルのメンバーネットワークの補完的容量を,焦点多様性の指標によって正確に把握できることを示す。
第2に,局所的多様性に基づく階層的刈り込み手法を考案し,低コストかつ高精度な高品質な深層アンサンブルを反復的に発見する。
第3に,複数の局所的多様性指標を統合し,より小さな深層アンサンブルを効果的に同定し,高精度,高ロバスト性,高効率を実現する焦点多様性コンセンサス手法を開発した。
一般的なベンチマークデータセットを用いて評価し,提案手法により,より時間と空間効率が向上しつつ,より高品質な深層アンサンブルを効果的に識別できることを実証した。 Deep neural network ensembles combine the wisdom of multiple deep neural networks to improve the generalizability and robustness over individual networks. It has gained increasing popularity to study deep ensemble techniques in the deep learning community. Some mission-critical applications utilize a large number of deep neural networks to form deep ensembles to achieve desired accuracy and resilience, which introduces high time and space costs for ensemble execution. However, it still remains a critical challenge whether a small subset of the entire deep ensemble can achieve the same or better generalizability and how to effectively identify these small deep ensembles for improving the space and time efficiency of ensemble execution. This paper presents a novel deep ensemble pruning approach, which can efficiently identify smaller deep ensembles and provide higher ensemble accuracy than the entire deep ensemble of a large number of member networks. Our hierarchical ensemble pruning approach (HQ) leverages three novel ensemble pruning techniques. First, we show that the focal diversity metrics can accurately capture the complementary capacity of the member networks of an ensemble, which can guide ensemble pruning. Second, we design a focal diversity based hierarchical pruning approach, which will iteratively find high quality deep ensembles with low cost and high accuracy. Third, we develop a focal diversity consensus method to integrate multiple focal diversity metrics to refine ensemble pruning results, where smaller deep ensembles can be effectively identified to offer high accuracy, high robustness and high efficiency. Evaluated using popular benchmark datasets, we demonstrate that the proposed hierarchical ensemble pruning approach can effectively identify high quality deep ensembles with better generalizability while being more time and space efficient in ensemble decision making. | 翻訳日:2023-11-22 15:00:48 公開日:2023-11-17 |
# 過剰量子ビット操作によるプログラム可能な多目的フォトニック量子メモリの実現 Realization of a programmable multi-purpose photonic quantum memory with over-thousand qubit manipulations ( http://arxiv.org/abs/2311.10292v1 ) ライセンス: Link先を確認 | Sheng Zhang, Jixuan Shi, Zhaibin Cui, Ye Wang, Yukai Wu, Luming Duan, Yunfei Pu | (参考訳) 量子ネットワークにおける最も重要なビルディングブロックの1つは、通信チャネルと局所関数ユニットの間のインターフェースとして機能するフォトニック量子メモリである。
空飛ぶ量子ビットの大規模なストリームを処理し、量子ネットワーク内の複数のコア関数の要求を満たすプログラム可能な量子メモリは、まだ実現されていない。
本稿では、72個の光量子ビットを同時に記憶し、ランダムアクセス方式で最大1000回の連続演算をサポートする高性能量子メモリについて述べる。
この量子メモリは、量子キュー、スタック、バッファの実装や、量子リピータの実現と量子ネットワークの効率的なルーティングに必須の要件である確率的絡み合い源からの4つの絡み合った光子対の同期と再構成にオンデマンドで適用することもできる。 One of the most important building blocks for a quantum network is a photonic quantum memory which serves as the interface between the communication channel and the local functional unit. A programmable quantum memory which can process a large stream of flying qubits and fulfill the requirements of multiple core functions in a quantum network is still to-be-realized. Here we report a high-performance quantum memory which can simultaneously store 72 optical qubits and support up to 1000 consecutive operations in a random access way. This quantum memory can also be adapted on-demand for implementing quantum queue, stack, and buffer, as well as the synchronization and reshuffle of 4 entangled photon pairs from a probabilistic entanglement source, which is an essential requirement for the realization of quantum repeaters and efficient routing in quantum networks. | 翻訳日:2023-11-22 15:00:14 公開日:2023-11-17 |
# 大規模学習における関数空間アグリゲーションの活用 Leveraging Function Space Aggregation for Federated Learning at Scale ( http://arxiv.org/abs/2311.10291v1 ) ライセンス: Link先を確認 | Nikita Dhawan, Nicole Mitchell, Zachary Charles, Zachary Garrett, Gintare Karolina Dziugaite | (参考訳) フェデレーション学習パラダイムは、クライアントデータを共有することなく、複数のクライアント更新をグローバルサーバモデルに集約する手法の開発を動機付けた。
fedavg(canonical federated averaging)を含む多くのフェデレーション学習アルゴリズムは、分散最適化の結果によって動機付けられた、クライアントパラメータのアップデートの直接的な(おそらく重み付けされた)平均を取る。
本研究では,関数空間の視点を採用し,フィッシャー情報に基づく推定値を用いて,クライアントが学習した関数に局所近似を集約する新しいアルゴリズムfeedfishを提案する。
我々はFedFishを、現実的で大規模なクロスデバイスベンチマークで評価する。
FedAvgのパフォーマンスは、クライアントモデルがさらに離れていくにつれて悪化する可能性があるが、FedFishはより長いローカルトレーニングよりも堅牢であることを示す。
画像および言語ベンチマークのいくつかの設定で評価したところ、FedFishはローカルトレーニングのエポックが増加するにつれてFedAvgよりも優れています。
さらに、FedFishは、同じまたはシフトしたデータ分布上の局所的な微調整によって、より効率的なパーソナライズを行うことができるグローバルネットワークに結果をもたらす。
例えば、C4データセット上でのフェデレーション事前トレーニング、続いてStack Overflowでのパーソナライゼーションは、FedAvgよりもFedFishによる次のトーケン予測を7%改善する。 The federated learning paradigm has motivated the development of methods for aggregating multiple client updates into a global server model, without sharing client data. Many federated learning algorithms, including the canonical Federated Averaging (FedAvg), take a direct (possibly weighted) average of the client parameter updates, motivated by results in distributed optimization. In this work, we adopt a function space perspective and propose a new algorithm, FedFish, that aggregates local approximations to the functions learned by clients, using an estimate based on their Fisher information. We evaluate FedFish on realistic, large-scale cross-device benchmarks. While the performance of FedAvg can suffer as client models drift further apart, we demonstrate that FedFish is more robust to longer local training. Our evaluation across several settings in image and language benchmarks shows that FedFish outperforms FedAvg as local training epochs increase. Further, FedFish results in global networks that are more amenable to efficient personalization via local fine-tuning on the same or shifted data distributions. For instance, federated pretraining on the C4 dataset, followed by few-shot personalization on Stack Overflow, results in a 7% improvement in next-token prediction by FedFish over FedAvg. | 翻訳日:2023-11-22 14:59:58 公開日:2023-11-17 |
# SSASS: 狭窄分節に対する半監督的アプローチ SSASS: Semi-Supervised Approach for Stenosis Segmentation ( http://arxiv.org/abs/2311.10281v1 ) ライセンス: Link先を確認 | In Kyu Lee, Junsup Shin, Yong-Hee Lee, Jonghoe Ku, Hyun-Woo Kim | (参考訳) 冠動脈狭窄は重篤な健康リスクであり、冠動脈造影(CAG)における正確な診断は、患者の症状の重症度を正確に評価する医療従事者に役立つ。
冠状動脈構造の複雑さとX線像の固有ノイズは,この課題に対して大きな課題となる。
これらの障害に対処するために,心血管狭窄分節に対する半監督的アプローチを導入する。
我々の戦略は、特に冠状動脈の構造的特徴を再現するために、データ拡張から始まります。
次に,拡張処理によって生成されたデータを活用した擬似ラベル型半教師付き学習手法を適用する。
x-ray angiography image (arcade) 狭窄検出アルゴリズムを用いた冠動脈疾患自動診断において,複数のモデルのアンサンブルに頼るのではなく,単一のモデルを使用することで,極めて優れた性能を示した。
この成功は,医用画像データから狭窄度を正確に評価する自動化ソリューションを提供することにおける,本手法の能力と効率を強調する。 Coronary artery stenosis is a critical health risk, and its precise identification in Coronary Angiography (CAG) can significantly aid medical practitioners in accurately evaluating the severity of a patient's condition. The complexity of coronary artery structures combined with the inherent noise in X-ray images poses a considerable challenge to this task. To tackle these obstacles, we introduce a semi-supervised approach for cardiovascular stenosis segmentation. Our strategy begins with data augmentation, specifically tailored to replicate the structural characteristics of coronary arteries. We then apply a pseudo-label-based semi-supervised learning technique that leverages the data generated through our augmentation process. Impressively, our approach demonstrated an exceptional performance in the Automatic Region-based Coronary Artery Disease diagnostics using x-ray angiography imagEs (ARCADE) Stenosis Detection Algorithm challenge by utilizing a single model instead of relying on an ensemble of multiple models. This success emphasizes our method's capability and efficiency in providing an automated solution for accurately assessing stenosis severity from medical imaging data. | 翻訳日:2023-11-22 14:59:33 公開日:2023-11-17 |
# 半教師付き医用画像セグメンテーションにおける擬似ラベル誘導データ融合と出力一貫性 Pseudo Label-Guided Data Fusion and Output Consistency for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2311.10349v1 ) ライセンス: Link先を確認 | Tao Wang, Yuanbin Chen, Xinlin Zhang, Yuanbo Zhou, Junlin Lan, Bizhe Bai, Tao Tan, Min Du, Qinquan Gao, Tong Tong | (参考訳) 畳み込みニューラルネットワークに基づく教師あり学習アルゴリズムは医用画像分割タスクのベンチマークとなっているが、その効果は大量のラベル付きデータに大きく依存している。
しかし、医用画像データセットの注釈付けは手間と時間を要するプロセスである。
ラベル付きデータとラベルなしデータの両方をトレーニングに用いる半教師付きアルゴリズムに着想を得て,より少ないアノテーションで医用画像のセグメンテーションを行うための平均教師ネットワークを構築したPLGDFフレームワークを提案する。
本稿では,ラベル付きデータとラベルなしデータを組み合わせた新しい擬似ラベル利用方式を提案する。
さらに,セグメンテーションネットワークのデコーダモジュールにおいて,異なるスケール間の整合性を強制し,その整合性を評価するのに適した損失関数を提案する。
さらに,予測結果にシャープニング操作を取り入れ,セグメンテーションの精度をさらに向上させる。
3つの公開データセットに対する大規模な実験は、ラベルのないデータを組み込むことで、PLGDFフレームワークがパフォーマンスを大幅に改善できることを示している。
一方,本フレームワークは,最先端の6つの半教師あり学習手法と比較して優れた性能を発揮する。
この研究のコードはhttps://github.com/ortonwang/plgdfで入手できる。 Supervised learning algorithms based on Convolutional Neural Networks have become the benchmark for medical image segmentation tasks, but their effectiveness heavily relies on a large amount of labeled data. However, annotating medical image datasets is a laborious and time-consuming process. Inspired by semi-supervised algorithms that use both labeled and unlabeled data for training, we propose the PLGDF framework, which builds upon the mean teacher network for segmenting medical images with less annotation. We propose a novel pseudo-label utilization scheme, which combines labeled and unlabeled data to augment the dataset effectively. Additionally, we enforce the consistency between different scales in the decoder module of the segmentation network and propose a loss function suitable for evaluating the consistency. Moreover, we incorporate a sharpening operation on the predicted results, further enhancing the accuracy of the segmentation. Extensive experiments on three publicly available datasets demonstrate that the PLGDF framework can largely improve performance by incorporating the unlabeled data. Meanwhile, our framework yields superior performance compared to six state-of-the-art semi-supervised learning methods. The codes of this study are available at https://github.com/ortonwang/PLGDF. | 翻訳日:2023-11-22 14:52:00 公開日:2023-11-17 |
# 独立オブザーバ対による連続的な観察的絡み合い Sequentially witnessing entanglement by independent observer pairs ( http://arxiv.org/abs/2311.10347v1 ) ライセンス: Link先を確認 | Mao-Sheng Li and Yan-Ling Wang | (参考訳) 本研究では,複数のアリスとボブのペアが独立して絡み合った状態を逐次観察するシナリオにおける測定戦略について検討する。
その目的は、絡み合いを目撃できる観察者のペア(a_k,b_l)$の数を最大化することである。
以前の研究では、任意のペア$(A_k, B_k)$$$(k\leq n$)がすべての純粋な絡み合い状態と混合絡み合い状態の特定のクラス[Phys. Rev. A 106 032419 (2022)]で絡み合いを観測できることが示されている。
しかし、他のペア$(a_k, b_l)$ と $(k\neq l \leq n)$ は、同じ戦略で絡み合いを観測しない。
さらに、新規な戦略が提示され、任意の数のアリスとボブのペアが、ベル状態である初期状態や混合絡み合い状態の特定のクラスに関わらず、絡み合いを目撃することができる。
これらの知見は,様々な文脈における絡み合い観測の最大化のための測定戦略の理解に寄与する。 This study investigates measurement strategies in a scenario where multiple pairs of Alices and Bobs independently and sequentially observe entangled states. The aim is to maximize the number of observer pairs $(A_k,B_l)$ that can witness entanglement. Prior research has demonstrated that arbitrary pairs $(A_k, B_k)$ ($k\leq n$) can observe entanglement in all pure entangled states and a specific class of mixed entangled states [Phys. Rev. A 106 032419 (2022)]. However, it should be noted that other pairs $(A_k, B_l)$ with $(k\neq l \leq n)$ may not observe entanglement using the same strategy. Moreover, a novel strategy is presented, enabling every pair of arbitrarily many Alices and Bobs to witness entanglement regardless of the initial state being a Bell state or a particular class of mixed entangled states. These findings contribute to understanding measurement strategies for maximizing entanglement observation in various contexts. | 翻訳日:2023-11-22 14:51:39 公開日:2023-11-17 |
# 推論におけるチャットGPTとヒューマンリーダーの補完的利点:英文読解からの検討 Complementary Advantages of ChatGPTs and Human Readers in Reasoning: Evidence from English Text Reading Comprehension ( http://arxiv.org/abs/2311.10344v1 ) ライセンス: Link先を確認 | Tongquan Zhou, Yao Zhang, Siyi Cao, Yulu Li, Tao Wang | (参考訳) ChatGPTはテキスト処理において大きな力を示しており、テキスト読み込みからの推論能力を含んでいる。
しかし,テキスト読解に関する推論能力について,人間読者とChatGPTの直接比較は行われていない。
本研究は,ESL学習者のChatGPT(ChatGPTおよびChatGPT Plus)と中国の高校生が,英語の物語テキストからの推論能力について検討した。
さらに,2つのChatGPTを,コマンドを詳細に更新した際の推論性能と比較した。
研究全体は、コモンセンス推論のためのテスト1、感情推論のためのテスト2、因果推論のためのテスト3の3つの推論テストで構成された。
その結果,テスト1では,2つのChatGPTバージョンを地域文化関連推論では上回ったが,日常推論ではチャットボットよりも悪い成績を示した。
テスト2ではChatGPT Plusが優れていたが、ChatGPTは正確さで遅れていた。
正答率と正答率の両面で, 生徒は2つのチャットボットに劣っていた。
肯定的感情におけるChatGPTsの優れたパフォーマンスと比較すると,学生は否定的感情の推測において優位性を示した。
テスト3では、両方のチャットボットよりも優れた論理分析を示した。
コマンド条件の更新では、ChatGPT Plusは適切な因果推論能力を示し、ChatGPTはそのままであった。
本研究は, テキスト読解から推論を抽出し, テキストベース推論における補完的関係を解き明かす上で, 人間の読み手とChatGPTは, それぞれに長所と短所があることを明らかにする。 ChatGPT has shown its great power in text processing, including its reasoning ability from text reading. However, there has not been any direct comparison between human readers and ChatGPT in reasoning ability related to text reading. This study was undertaken to investigate how ChatGPTs (i.e., ChatGPT and ChatGPT Plus) and Chinese senior school students as ESL learners exhibited their reasoning ability from English narrative texts. Additionally, we compared the two ChatGPTs in the reasoning performances when commands were updated elaborately. The whole study was composed of three reasoning tests: Test 1 for commonsense inference, Test 2 for emotional inference, and Test 3 for causal inference. The results showed that in Test 1, the students outdid the two ChatGPT versions in local-culture-related inferences but performed worse than the chatbots in daily-life inferences. In Test 2, ChatGPT Plus excelled whereas ChatGPT lagged behind in accuracy. In association with both accuracy and frequency of correct responses, the students were inferior to the two chatbots. Compared with ChatGPTs' better performance in positive emotions, the students showed their superiority in inferring negative emotions. In Test 3, the students demonstrated better logical analysis, outdoing both chatbots. In updating command condition, ChatGPT Plus displayed good causal reasoning ability while ChatGPT kept unchanged. Our study reveals that human readers and ChatGPTs have their respective advantages and disadvantages in drawing inferences from text reading comprehension, unlocking a complementary relationship in text-based reasoning. | 翻訳日:2023-11-22 14:51:15 公開日:2023-11-17 |
# ディープラーニングを用いた表情分析と複雑な感情認識によるオンライン学習における学生エンゲージメント向上 Enhancing Student Engagement in Online Learning through Facial Expression Analysis and Complex Emotion Recognition using Deep Learning ( http://arxiv.org/abs/2311.10343v1 ) ライセンス: Link先を確認 | Rekha R Nair, Tina Babu, Pavithra K | (参考訳) 新型コロナウイルス(covid-19)のパンデミックを受けて、従来の物理教室はオンライン環境に移行し、学生のエンゲージメントを確保する効果的な戦略を必要としている。
オンライン教育における重要な課題は、教師からのリアルタイムフィードバックがないことである。
本稿では,オンライン学習セッションにおける学生のエンゲージメントレベルを評価するために,表情に基づく深層学習技術を用いた新しいアプローチを提案する。
人間の感情は、怒り、嫌悪感、恐怖、喜び、悲しみ、驚き、中立といった基本的な感情のみを用いて学生が適切に伝達することはできない。
この課題に対処するために、基本的な感情を組み合わせることで、混乱、満足度、失望、フラストレーションなどの4つの複雑な感情の生成を提案した。
これらの複雑な感情は、学習セッション中に学生が同時に経験することが多い。
これらの感情を動的に表現するためには、離散画像の代わりに連続した画像フレームストリームを利用する。
提案手法は畳み込みニューラルネットワーク(CNN)モデルを用いて学習者の基本的な感情状態を正確に分類する。
提案したCNNモデルは,学習者の感情の正確な分類において95%の精度で高い性能を示す。 In response to the COVID-19 pandemic, traditional physical classrooms have transitioned to online environments, necessitating effective strategies to ensure sustained student engagement. A significant challenge in online teaching is the absence of real-time feedback from teachers on students learning progress. This paper introduces a novel approach employing deep learning techniques based on facial expressions to assess students engagement levels during online learning sessions. Human emotions cannot be adequately conveyed by a student using only the basic emotions, including anger, disgust, fear, joy, sadness, surprise, and neutrality. To address this challenge, proposed a generation of four complex emotions such as confusion, satisfaction, disappointment, and frustration by combining the basic emotions. These complex emotions are often experienced simultaneously by students during the learning session. To depict these emotions dynamically,utilized a continuous stream of image frames instead of discrete images. The proposed work utilized a Convolutional Neural Network (CNN) model to categorize the fundamental emotional states of learners accurately. The proposed CNN model demonstrates strong performance, achieving a 95% accuracy in precise categorization of learner emotions. | 翻訳日:2023-11-22 14:50:50 公開日:2023-11-17 |
# 潜在埋め込み共有とテンソル因子化による知識グラフのフェデレーション Federated Knowledge Graph Completion via Latent Embedding Sharing and Tensor Factorization ( http://arxiv.org/abs/2311.10341v1 ) ライセンス: Link先を確認 | Maolin Wang, Dun Zeng, Zenglin Xu, Ruocheng Guo, Xiangyu Zhao | (参考訳) 三重項からなる知識グラフ(kgs)は本質的に不完全であり、欠落三重項を予測するために常に完了手続きを必要とする。
現実のシナリオでは、KGはクライアント間で分散され、プライバシー制限のために完了タスクが複雑になる。
多くのフレームワークが、連合知識グラフ補完の問題に対処するために提案されている。
しかしながら、FedE、FedR、FEKGを含む既存のフレームワークには、一定の制限がある。
FKGEは計算コストとモード崩壊の問題に悩まされている。
これらの問題に対処するため、我々は、フェデレートテンソル因子化(FLEST)と呼ばれる新しい手法を提案し、これは、フェデレートテンソル因子化(Federated tensor factorization)をKG完了に用いた新しいアプローチである。
FLESTは埋め込み行列を分解し、潜伏辞書の埋め込みを共有することでプライバシーリスクを下げる。
実証的な結果はFLESTの有効性と効率を示し、パフォーマンスとプライバシのバランスのとれたソリューションを提供する。
FLESTは、KG完了タスクにおけるフェデレーションテンソル分解の適用を拡大する。 Knowledge graphs (KGs), which consist of triples, are inherently incomplete and always require completion procedure to predict missing triples. In real-world scenarios, KGs are distributed across clients, complicating completion tasks due to privacy restrictions. Many frameworks have been proposed to address the issue of federated knowledge graph completion. However, the existing frameworks, including FedE, FedR, and FEKG, have certain limitations. = FedE poses a risk of information leakage, FedR's optimization efficacy diminishes when there is minimal overlap among relations, and FKGE suffers from computational costs and mode collapse issues. To address these issues, we propose a novel method, i.e., Federated Latent Embedding Sharing Tensor factorization (FLEST), which is a novel approach using federated tensor factorization for KG completion. FLEST decompose the embedding matrix and enables sharing of latent dictionary embeddings to lower privacy risks. Empirical results demonstrate FLEST's effectiveness and efficiency, offering a balanced solution between performance and privacy. FLEST expands the application of federated tensor factorization in KG completion tasks. | 翻訳日:2023-11-22 14:50:31 公開日:2023-11-17 |
# A2XP: プライベートドメインの一般化に向けて A2XP: Towards Private Domain Generalization ( http://arxiv.org/abs/2311.10339v1 ) ライセンス: Link先を確認 | Geunhyeok Yu, Hyoseok Hwang | (参考訳) ディープニューラルネットワーク(dnn)は、様々な分野、特にコンピュータビジョンにおいて重要となり、従来の手法を上回っている。
デプロイメントにおける重要な課題は、イメージスタイルや環境条件など、さまざまな領域にまたがるデータに固有のバイアスが、ドメインのギャップにつながることだ。
この手法は、偏りのある訓練データから一般表現を学習する技術を必要とする。
本稿では,ネットワークアーキテクチャのプライバシと整合性を維持するドメイン一般化の新しいアプローチである,eXpert Prompts (A2XP)について述べる。
A2XPはExpert AdaptationとDomain Generalizationの2つのフェーズで構成されている。
第1フェーズでは、各ソースドメインに対するプロンプトが最適化され、モデルを最適な方向へ導く。
第2フェーズでは、2つの埋め込みネットワークがトレーニングされ、これらのエキスパートプロンプトを効果的にアマルゲイトし、最適な出力を目指している。
我々は,A2XPが既存の非プライベート領域一般化法よりも最先端の結果が得られることを示した。
実験結果は,提案手法がDNNの領域一般化問題に対処するだけでなく,コンピュータビジョンの幅広い分野に対して,プライバシ保護と効率的なソリューションを提供することを示した。 Deep Neural Networks (DNNs) have become pivotal in various fields, especially in computer vision, outperforming previous methodologies. A critical challenge in their deployment is the bias inherent in data across different domains, such as image style, and environmental conditions, leading to domain gaps. This necessitates techniques for learning general representations from biased training data, known as domain generalization. This paper presents Attend to eXpert Prompts (A2XP), a novel approach for domain generalization that preserves the privacy and integrity of the network architecture. A2XP consists of two phases: Expert Adaptation and Domain Generalization. In the first phase, prompts for each source domain are optimized to guide the model towards the optimal direction. In the second phase, two embedder networks are trained to effectively amalgamate these expert prompts, aiming for an optimal output. Our extensive experiments demonstrate that A2XP achieves state-of-the-art results over existing non-private domain generalization methods. The experimental results validate that the proposed approach not only tackles the domain generalization challenge in DNNs but also offers a privacy-preserving, efficient solution to the broader field of computer vision. | 翻訳日:2023-11-22 14:50:12 公開日:2023-11-17 |
# 学習型V2V通信による協調認識 Cooperative Perception with Learning-Based V2V communications ( http://arxiv.org/abs/2311.10336v1 ) ライセンス: Link先を確認 | Chenguang Liu, Yunfei Chen, Jianjun Chen, Ryan Payton, Michael Riley and Shuang-Hua Yang | (参考訳) 自律運転における協調認識は、単一自動車両知覚の固有の制限を緩和するために広く使われている。
協調を実現するには、車両間通信(V2V)が不可欠である。
本研究は,コミュニケーションチャネル障害に対する協調認識会計の性能を解析する。
異なる核融合法とチャネル障害が評価される。
中間特性のロバスト性を活用するために,新しいレイトフュージョン方式を提案する。
協調によって生じるデータサイズを圧縮するために、畳み込みニューラルネットワークベースのオートエンコーダを採用する。
数値計算の結果,SNRが0dB以上である場合,中間核融合は早期核融合や後期核融合よりもチャネル障害に対して堅牢であることが示された。
また,提案手法は,検出出力を用いた従来のレイトフュージョンよりも優れており,オートエンコーダは検出精度と帯域幅使用率のバランスが良い。 Cooperative perception has been widely used in autonomous driving to alleviate the inherent limitation of single automated vehicle perception. To enable cooperation, vehicle-to-vehicle (V2V) communication plays an indispensable role. This work analyzes the performance of cooperative perception accounting for communications channel impairments. Different fusion methods and channel impairments are evaluated. A new late fusion scheme is proposed to leverage the robustness of intermediate features. In order to compress the data size incurred by cooperation, a convolution neural network-based autoencoder is adopted. Numerical results demonstrate that intermediate fusion is more robust to channel impairments than early fusion and late fusion, when the SNR is greater than 0 dB. Also, the proposed fusion scheme outperforms the conventional late fusion using detection outputs, and autoencoder provides a good compromise between detection accuracy and bandwidth usage. | 翻訳日:2023-11-22 14:49:49 公開日:2023-11-17 |
# 断熱量子プロセスにおけるトンネル発生時のクリープ-超クリープギャップのトポロジカル判別 Topological Discrimination of Steep to Supersteep Gap to Emergence of Tunneling in Adiabatic Quantum Processes ( http://arxiv.org/abs/2311.10333v1 ) ライセンス: Link先を確認 | Edmond Jonckheere | (参考訳) 量子アニール過程の速度を制限するギャップは、次の3つの顕著な形態を取ることができる。
(i)地面と第一の励起固有エネルギーレベル曲線が位相的に関連した近傍の反射点の対を持ち、最大値と最小値の両方が急な面を与える超格子ギャップ。
(II)第1の励起アイジェネギーレベル曲線のみが最低限の急な面を与える一対の反射点を持つような急な隙間であって、地上レベルの最大は屈折点を示さないこと。
(iii)関連反射点のない軽度の隙間。
帰納点によって裏切られた様々な特異点の分類は、行列 h0+ih1 の二次数値範囲マッピングの臨界値曲線に依存しており、ここで h0 は横磁場ハミルトニアン、h1 は問題ハミルトニアンである。
地平線は数値範囲の一般的な滑らかな境界線にマッピングされ、第1の励起線は内面の非滑らかな臨界値曲線にマッピングされる。
主な結果として、下肢尾部の位置が境界に比例し、上肢と急激な識別が可能であるのに対し、下肢尾部境界相互作用の欠如は軽度のギャップを特徴づける。
特異点解析の系として、グロバー探索の高度に構造化された初期および最終ハミルトニアンは不安定な特異点を生成し、不安定な特異点の周囲で計算されたギャップスケーリング推定を無効にする。
大域的な観点からの全ての安定特異点の分類は、エネルギー準位曲線が接触空間のレジェンド結び目となるレジェンド的アプローチを必要とする。
最後に、supersteep swallow tailがトンネルをプレビューしていることが示される。 It is shown that the gap that limits the speed of a quantum annealing process can take three salient morphologies: (i) the supersteep gap where both the ground and the first excited eigenenergy level curves have topologically related pairs of nearby inflection points giving both the maximum and the minimum a steep aspect, (ii) the steep gap where only the first excited eigenenergy level curve has a pair of inflection points giving its minimum a steep aspect while the maximum of the ground level does not exhibit inflection points, and (iii) the mild gap that has no related inflection points. Classification of the various singularities betrayed by the inflection points relies on the critical value curves of the quadratic numerical range mapping of the matrix H0+iH1, where H0 is the transverse field Hamiltonian and H1 the problem Hamiltonian. It is shown that the ground level is mapped to the generically smooth boundary of the numerical range, while the first excited level is mapped to an interior non-smooth critical value curve exhibiting swallow tails. The major result is that the position of the swallow tails relative to the boundary allows the supersteep versus steep discrimination, while the absence of swallow tail-boundary interaction characterizes the mild gap. As a corollary of the singularity analysis, the highly structured initial and final Hamiltonians of the Grover search create unstable singularities that break into stable swallow tails under perturbation, with the consequence of invalidating the gap scaling estimates computed around the unstable singularity. Classification of all stable singularities from a global viewpoint requires the Legendrian approach where the energy level curves become Legendrian knots in the contact space. Last but not least, it will be shown that a supersteep swallow tail previews tunneling. | 翻訳日:2023-11-22 14:49:36 公開日:2023-11-17 |
# 超広汎OCTAにおけるマルチモーダル核融合法による多発網膜疾患の診断 Leveraging Multimodal Fusion for Enhanced Diagnosis of Multiple Retinal Diseases in Ultra-wide OCTA ( http://arxiv.org/abs/2311.10331v1 ) ライセンス: Link先を確認 | Hao Wei, Peilun Shi, Guitao Bai, Minqing Zhang, Shuangle Li and Wu Yuan | (参考訳) Ultra-wide optical coherence tomography angiography (UW-OCTA) は、網膜の前部と後部の両方をカバーする24 x 20 $mm^{2}$の走査範囲を提供することにより、従来のOCTAに対して大きな優位性をもたらす新興画像技術である。
しかし、現在アクセス可能なuw-octaデータセットは、包括的な階層情報と対応する病気アノテーションに苦しむ。
この制限に対処するために、先駆的なm3octaデータセットをキュレートしました。これは、最初のマルチモーダル(つまり、多層)、マルチダイザス、そして最も広い視野のuw-octaデータセットです。
さらにUW-OCTAからの多層超広視野血管情報の有効利用も未開発である。
そこで本研究では,複数の疾患の診断にマルチモーダル情報を活用するクロスモーダル融合フレームワークを提案する。
オープンに利用可能なm3octaデータセット上で行った広範囲な実験を通じて,本手法の有効性と優れた性能を示す。
複数の疾患を含む最初のマルチモーダルOCTAデータセットであるM3OCTAデータセットの構築は、眼科画像分析コミュニティにおける研究を進めることを目的としている。 Ultra-wide optical coherence tomography angiography (UW-OCTA) is an emerging imaging technique that offers significant advantages over traditional OCTA by providing an exceptionally wide scanning range of up to 24 x 20 $mm^{2}$, covering both the anterior and posterior regions of the retina. However, the currently accessible UW-OCTA datasets suffer from limited comprehensive hierarchical information and corresponding disease annotations. To address this limitation, we have curated the pioneering M3OCTA dataset, which is the first multimodal (i.e., multilayer), multi-disease, and widest field-of-view UW-OCTA dataset. Furthermore, the effective utilization of multi-layer ultra-wide ocular vasculature information from UW-OCTA remains underdeveloped. To tackle this challenge, we propose the first cross-modal fusion framework that leverages multi-modal information for diagnosing multiple diseases. Through extensive experiments conducted on our openly available M3OCTA dataset, we demonstrate the effectiveness and superior performance of our method, both in fixed and varying modalities settings. The construction of the M3OCTA dataset, the first multimodal OCTA dataset encompassing multiple diseases, aims to advance research in the ophthalmic image analysis community. | 翻訳日:2023-11-22 14:49:03 公開日:2023-11-17 |
# 高忠実な人物中心の主題から画像への合成 High-fidelity Person-centric Subject-to-Image Synthesis ( http://arxiv.org/abs/2311.10329v1 ) ライセンス: Link先を確認 | Yibin Wang and Weizhong Zhang and Jianwei Zheng and Cheng Jin | (参考訳) 現在の被写体駆動画像生成手法は、人中心画像生成において重大な課題に遭遇する。
その理由は、事前訓練された共通拡散を微調整することで、意味的シーンと個人生成を学習するからである。
正確には、現実的な人物を生成するためには、事前訓練されたモデルを十分に調整する必要がある。
さらに, 十分な微調整を施しても, 現場と人物の同時学習が品質の妥協につながるため, 高忠実な人物を生成できない。
本稿では,上記の学習不均衡と品質の妥協を解消する効果的な協調生成パイプラインであるface-diffuserを提案する。
具体的には,まずテキスト駆動拡散モデル (TDM) と主観拡張拡散モデル (SDM) の2つの専門的な事前学習拡散モデルを開発し,シーン生成と人物生成を行う。
サンプリングプロセスは, セマンティックシーン構築, テーマシーン融合, テーマエンハンスメントの3段階に分けられる。
第1段と第2段はそれぞれTDMとSDMによって行われる。
課題・シーン融合段階は,新規かつ高効率なメカニズムであるsnf(saliency-adaptive noise fusion)によって達成された協調である。
具体的には, 分類器なしの誘導応答と生成画像の塩分率との間には, 強固な関係があることを示す。
各時間ステップにおいて、SNFは各モデルの特異な強度を活用し、両方のモデルから予測されたノイズを、正当性を考慮した方法で自動的に空間ブレンディングすることができる。
広範な実験により、フェイスディフューザの有効性とロバスト性が実証された。 Current subject-driven image generation methods encounter significant challenges in person-centric image generation. The reason is that they learn the semantic scene and person generation by fine-tuning a common pre-trained diffusion, which involves an irreconcilable training imbalance. Precisely, to generate realistic persons, they need to sufficiently tune the pre-trained model, which inevitably causes the model to forget the rich semantic scene prior and makes scene generation over-fit to the training data. Moreover, even with sufficient fine-tuning, these methods can still not generate high-fidelity persons since joint learning of the scene and person generation also lead to quality compromise. In this paper, we propose Face-diffuser, an effective collaborative generation pipeline to eliminate the above training imbalance and quality compromise. Specifically, we first develop two specialized pre-trained diffusion models, i.e., Text-driven Diffusion Model (TDM) and Subject-augmented Diffusion Model (SDM), for scene and person generation, respectively. The sampling process is divided into three sequential stages, i.e., semantic scene construction, subject-scene fusion, and subject enhancement. The first and last stages are performed by TDM and SDM respectively. The subject-scene fusion stage, that is the collaboration achieved through a novel and highly effective mechanism, Saliency-adaptive Noise Fusion (SNF). Specifically, it is based on our key observation that there exists a robust link between classifier-free guidance responses and the saliency of generated images. In each time step, SNF leverages the unique strengths of each model and allows for the spatial blending of predicted noises from both models automatically in a saliency-aware manner. Extensive experiments confirm the impressive effectiveness and robustness of the Face-diffuser. | 翻訳日:2023-11-22 14:48:40 公開日:2023-11-17 |
# transonet: deep learning を用いたct血管造影図における血管切片の自動解析 TransONet: Automatic Segmentation of Vasculature in Computed Tomographic Angiograms Using Deep Learning ( http://arxiv.org/abs/2311.10328v1 ) ライセンス: Link先を確認 | Alireza Bagheri Rajeoni, Breanna Pederson, Ali Firooz, Hamed Abdollahi, Andrew K. Smith, Daniel G. Clair, Susan M. Lessner, Homayoun Valafar | (参考訳) ヒト血管系の病理学的変化は動脈硬化や動脈瘤などの多くの慢性疾患を治療する。
しかし,CT(Computed tomographic angiograms)などの血管系の診断画像を手動で解析することは,時間と手間のかかるプロセスである。
そこで本研究では,末梢動脈疾患(PAD)手術中の患者のCTA画像に血管系を分類する深層学習モデルを提案する。
本研究は,(1)下行胸部大動脈から腸骨分岐部,(2)下行胸部大動脈からCTA画像の膝までを深層学習技術を用いて正確に分類することに焦点を当てた。
本研究は,(1) と (2) のテストデータセットにおける平均 dice accuracies 93.5% と 80.64% をそれぞれ達成し,その精度と臨床的有用性を強調した。
これらの知見は, 医療従事者が血管系の健康を効率的に正確に解析するための貴重なツールとして, 深層学習技術を用いることを実証するものである。
本論文のgithubページはhttps://github.com/pip-alireza/transonet.com/でどうぞ。 Pathological alterations in the human vascular system underlie many chronic diseases, such as atherosclerosis and aneurysms. However, manually analyzing diagnostic images of the vascular system, such as computed tomographic angiograms (CTAs) is a time-consuming and tedious process. To address this issue, we propose a deep learning model to segment the vascular system in CTA images of patients undergoing surgery for peripheral arterial disease (PAD). Our study focused on accurately segmenting the vascular system (1) from the descending thoracic aorta to the iliac bifurcation and (2) from the descending thoracic aorta to the knees in CTA images using deep learning techniques. Our approach achieved average Dice accuracies of 93.5% and 80.64% in test dataset for (1) and (2), respectively, highlighting its high accuracy and potential clinical utility. These findings demonstrate the use of deep learning techniques as a valuable tool for medical professionals to analyze the health of the vascular system efficiently and accurately. Please visit the GitHub page for this paper at https://github.com/pip-alireza/TransOnet. | 翻訳日:2023-11-22 14:48:12 公開日:2023-11-17 |
# 安定線形力学系のクラスタリング技術とハードディスクドライブへの応用 Clustering Techniques for Stable Linear Dynamical Systems with applications to Hard Disk Drives ( http://arxiv.org/abs/2311.10322v1 ) ライセンス: Link先を確認 | Nikhil Potu Surya Prakash, Joohwan Seo, Jongeun Choi and Roberto Horowitz | (参考訳) ロバスト制御とデータ駆動ロバスト制御設計手法では、複数のプラント転送機能または転送関数のファミリーが考慮され、このファミリーに入るすべてのプラントが安定化するように共通のコントローラが設計される。
植物は安定しているが、植物の変化が大きい場合、制御器は各植物に準最適であるかもしれない。
本稿では,各クラスタに安定な線形力学系をクラスタ化して,各クラスタに最適となるロバストコントローラを設計する手法を提案する。
まず、ハードクラスタリングのためのk-メロイドアルゴリズムを安定線形時間不変量(LTI)システムに適用し、その後、ハードディスクドライブプラントに共通する特殊なLTIシステムのガウス混合モデル(GMM)クラスタリングを行う。 In Robust Control and Data Driven Robust Control design methodologies, multiple plant transfer functions or a family of transfer functions are considered and a common controller is designed such that all the plants that fall into this family are stabilized. Though the plants are stabilized, the controller might be sub-optimal for each of the plants when the variations in the plants are large. This paper presents a way of clustering stable linear dynamical systems for the design of robust controllers within each of the clusters such that the controllers are optimal for each of the clusters. First a k-medoids algorithm for hard clustering will be presented for stable Linear Time Invariant (LTI) systems and then a Gaussian Mixture Models (GMM) clustering for a special class of LTI systems, common for Hard Disk Drive plants, will be presented. | 翻訳日:2023-11-22 14:47:51 公開日:2023-11-17 |
# 機械学習による脳腫瘍切除のための定量的ハイパースペクトル画像指導 Towards Machine Learning-based Quantitative Hyperspectral Image Guidance for Brain Tumor Resection ( http://arxiv.org/abs/2311.10321v1 ) ライセンス: Link先を確認 | David Black, Declan Byrne, Anna Walke, Sidong Liu, Antonio Di leva, Sadahiro Kaneko, Walter Stummer, Septimiu Salcudean, Eric Suero Molina | (参考訳) 悪性グリオーマの完全切除は浸潤領域における腫瘍細胞の鑑別が困難である。
5-ALAによる蛍光誘導がこの目標を達成する。
ハイパースペクトルイメージングを用いて、以前の研究ではヒト脳腫瘍の5つのフルオロフォアの放射スペクトルを特徴付ける。
本研究は,低位(n=30),高次グリオーマ(n=115),非グリア性一次脳腫瘍(n=19),放射線壊死(n=2),無菌(n=10),転移(n=8)を有する184例の腫瘍および組織分類タスクにおいて,これらの5つのスペクトルの有効性を検討した。
4つの機械学習モデルを用いて腫瘍タイプ, グレード, グリオーママージン, idh変異を分類した。
ランダム森林と多層受容器を用いて, 平均検定精度は74-82%, 79%, 81%, 93%であった。
5つのフルオロフォアの存在度は腫瘍マージン型と腫瘍グレード (p < 0.01) で異なっていた。
組織型では,5種のフルオロフォア中の少なくとも4種は,全クラス間で有意差(p<0.01)が認められた。
以上の結果から, 異なる組織群において, フルオロフォアが多量に存在すること, 光バイオマーカーとしての5種類のフルオロフォアの価値が示され, 蛍光ガイド下神経外科手術における術中分類システムに新たな機会が開けた。 Complete resection of malignant gliomas is hampered by the difficulty in distinguishing tumor cells at the infiltration zone. Fluorescence guidance with 5-ALA assists in reaching this goal. Using hyperspectral imaging, previous work characterized five fluorophores' emission spectra in most human brain tumors. In this paper, the effectiveness of these five spectra was explored for different tumor and tissue classification tasks in 184 patients (891 hyperspectral measurements) harboring low- (n=30) and high-grade gliomas (n=115), non-glial primary brain tumors (n=19), radiation necrosis (n=2), miscellaneous (n=10) and metastases (n=8). Four machine learning models were trained to classify tumor type, grade, glioma margins and IDH mutation. Using random forests and multi-layer perceptrons, the classifiers achieved average test accuracies of 74-82%, 79%, 81%, and 93% respectively. All five fluorophore abundances varied between tumor margin types and tumor grades (p < 0.01). For tissue type, at least four of the five fluorophore abundances were found to be significantly different (p < 0.01) between all classes. These results demonstrate the fluorophores' differing abundances in different tissue classes, as well as the value of the five fluorophores as potential optical biomarkers, opening new opportunities for intraoperative classification systems in fluorescence-guided neurosurgery. | 翻訳日:2023-11-22 14:47:34 公開日:2023-11-17 |
# ハイパースペクトル画像とLiDARデータのマルチモーダル融合分類のための学習トランスフォーマーに基づく不均一なグラフ表現 Learning transformer-based heterogeneously salient graph representation for multimodal fusion classification of hyperspectral image and LiDAR data ( http://arxiv.org/abs/2311.10320v1 ) ライセンス: Link先を確認 | Jiaqi Yang, Bo Du, Liangpei Zhang | (参考訳) 異なるモダリティによって収集されたデータは、豊富なスペクトル空間特性を提供するハイパースペクトル画像(hsi)、地球表面の構造情報を提供する合成開口レーダー(sar)、地上高度に関する高度情報をカバーする光検出・測位(lidar)など、多くの補完的情報を提供することができる。
したがって、自然な考え方は、洗練され正確な土地被覆解釈のためのマルチモーダル画像を組み合わせることである。
マルチソースリモートセンシング画像分類の実現に多くの取り組みが試みられているが、以下の3つの課題がある。
1) 様相の不均一性を十分に考慮しない不特定特徴表現
2)長距離依存関係のモデリングに関連する豊富な特徴と複雑な計算
3) わずかにラベル付けされた試料による過剰適合現象。
本稿では,上記の障壁を克服するために,変圧器を用いた不均質グラフ表現(thsgr)手法を提案する。
まず、多モード不均一グラフエンコーダを用いて、非ユークリッド構造の特徴を異種データから符号化する。
そして, 自己注意のないマルチ畳み込み変調器を, 効果的かつ効率的な長期依存性モデリングのために設計する。
最後に、過度な適合を避けるために、平均的な前進を行う。
上記の構造に基づいて,本モデルでは,少数のトレーニングサンプルであっても,差分グラフ表現を競合時間で得られるように,モーダルギャップを突破することができる。
様々な最先端(SOTA)手法を用いた3つのベンチマークデータセットの実験と解析は,提案手法の性能を示す。 Data collected by different modalities can provide a wealth of complementary information, such as hyperspectral image (HSI) to offer rich spectral-spatial properties, synthetic aperture radar (SAR) to provide structural information about the Earth's surface, and light detection and ranging (LiDAR) to cover altitude information about ground elevation. Therefore, a natural idea is to combine multimodal images for refined and accurate land-cover interpretation. Although many efforts have been attempted to achieve multi-source remote sensing image classification, there are still three issues as follows: 1) indiscriminate feature representation without sufficiently considering modal heterogeneity, 2) abundant features and complex computations associated with modeling long-range dependencies, and 3) overfitting phenomenon caused by sparsely labeled samples. To overcome the above barriers, a transformer-based heterogeneously salient graph representation (THSGR) approach is proposed in this paper. First, a multimodal heterogeneous graph encoder is presented to encode distinctively non-Euclidean structural features from heterogeneous data. Then, a self-attention-free multi-convolutional modulator is designed for effective and efficient long-term dependency modeling. Finally, a mean forward is put forward in order to avoid overfitting. Based on the above structures, the proposed model is able to break through modal gaps to obtain differentiated graph representation with competitive time cost, even for a small fraction of training samples. Experiments and analyses on three benchmark datasets with various state-of-the-art (SOTA) methods show the performance of the proposed approach. | 翻訳日:2023-11-22 14:47:05 公開日:2023-11-17 |
# 機械監督へのシフト : 自動医用画像分割・分類のためのアノテーション効率の高いセミ・セルフ教師付き学習 Shifting to Machine Supervision: Annotation-Efficient Semi and Self-Supervised Learning for Automatic Medical Image Segmentation and Classification ( http://arxiv.org/abs/2311.10319v1 ) ライセンス: Link先を確認 | Pranav Singh, Raviteja Chukkapalli, Shravan Chaudhari, Luoyao Chen, Mei Chen, Jinqian Pan, Craig Smuda and Jacopo Cirrone | (参考訳) 臨床治療と研究の進歩は、大量の注釈付きデータに依存する教師あり学習技術によって制限されている。
本稿では,自己教師付き学習と半教師付き学習の併用を提案する。
これらのテクニックはラベルなしの補助タスクを実行し、マシンスーパービジョンのスケールアップは、完全に教師ありのテクニックと比較して容易である。
本稿では,S4MI(Self-Supervision and Semi-Supervision for Medical Imaging)を提案する。
分類とセグメンテーションの有効性を3つの医用画像データセットで評価した。
この10%アノテーションによる自己教師型学習の進歩は、ほとんどのデータセットの分類において100%アノテーションよりも優れていた。
半教師付きアプローチはセグメンテーションに好適な結果をもたらし、全3つのデータセットのラベルを50%減らして完全に教師付きアプローチを上回った。 Advancements in clinical treatment and research are limited by supervised learning techniques that rely on large amounts of annotated data, an expensive task requiring many hours of clinical specialists' time. In this paper, we propose using self-supervised and semi-supervised learning. These techniques perform an auxiliary task that is label-free, scaling up machine-supervision is easier compared with fully-supervised techniques. This paper proposes S4MI (Self-Supervision and Semi-Supervision for Medical Imaging), our pipeline to leverage advances in self and semi-supervision learning. We benchmark them on three medical imaging datasets to analyze their efficacy for classification and segmentation. This advancement in self-supervised learning with 10% annotation performed better than 100% annotation for the classification of most datasets. The semi-supervised approach yielded favorable outcomes for segmentation, outperforming the fully-supervised approach by using 50% fewer labels in all three datasets. | 翻訳日:2023-11-22 14:46:39 公開日:2023-11-17 |
# 幾何測度による部分空間の絡み合いの定量化 Quantifying Subspace Entanglement with Geometric Measures ( http://arxiv.org/abs/2311.10353v1 ) ライセンス: Link先を確認 | Xuanran Zhu, Chao Zhang, and Bei Zeng | (参考訳) 量子部分空間が絡み合ってその絡み合いレベルを定量化するかどうかを決定することは、量子情報科学における根本的な課題である。
本稿では、与えられた部分空間に対して、r$-bounded rank の幾何測度 $e_r(s)$ を導入する。
この測度は確立された幾何的絡み合いの測度から導かれ、S$内の絡み合いを評価するために調整される。
エンタングルメントレベルを定量化するベンチマークを提供するだけでなく、そのようなエンタングルメントを保存するサブスペースの能力にも光を当てる。
機械学習の領域から非凸最適化手法を用いることで,様々なシナリオでE_r(S)$を効果的に計算する。
従来の階層的・PPT緩和技術と比較して高い性能を示し,その精度,計算効率,適用範囲の広さに注目する。
この多用途で効果的なツールは、量子情報科学における多くの新しい応用への道を開く。
双分点系における高度に絡み合った部分空間の検証、多分点状態の境界ランクの決定、真あるいは完全に絡み合った部分空間の特定に特に有用である。
我々のアプローチは、量子絡みの複雑な構造に光を放ちながら、絡みの定量化に新たな視点を提供する。 Determining whether a quantum subspace is entangled and quantifying its entanglement level remains a fundamental challenge in quantum information science. This paper introduces a geometric measure of $r$-bounded rank, $E_r(S)$, for a given subspace $S$. This measure, derived from the established geometric measure of entanglement, is tailored to assess the entanglement within $S$. It not only provides a benchmark for quantifying the entanglement level but also sheds light on the subspace's ability to preserve such entanglement. Utilizing non-convex optimization techniques from the domain of machine learning, our method effectively calculates $E_r(S)$ in various scenarios. Showcasing strong performance in comparison to existing hierarchical and PPT relaxation techniques, our approach is notable for its accuracy, computational efficiency, and wide-ranging applicability. This versatile and effective tool paves the way for numerous new applications in quantum information science. It is particularly useful in validating highly entangled subspaces in bipartite systems, determining the border rank of multipartite states, and identifying genuinely or completely entangled subspaces. Our approach offers a fresh perspective for quantifying entanglement, while also shedding light on the intricate structure of quantum entanglement. | 翻訳日:2023-11-22 14:34:51 公開日:2023-11-17 |
# 分子特性予測のための多パラメータ持続ホモロジー Multiparameter Persistent Homology for Molecular Property Prediction ( http://arxiv.org/abs/2311.10808v1 ) ライセンス: Link先を確認 | Andac Demir and Bulent Kiziltan | (参考訳) 本研究では,多パラメータ持続的ホモロジーに基づく新しい分子指紋生成法を提案する。
このアプローチは分子幾何学における潜伏構造と関係を明らかにし、原子質量、部分電荷、結合タイプなどの複数のパラメータに沿って複数のスケールで持続性を示す位相的特徴を検出し、電離エネルギー、電子親和性、キラリティ、軌道ハイブリッド化などの追加パラメータを組み込むことでさらに拡張することができる。
提案手法は, 単一パラメータや単一スケール解析から容易に識別できない分子構造について, 新たな視点を提供する。
さらに、従来のグラフニューラルネットワークと比較して、マルチパラメータ永続ホモロジーは、分子データのトポロジのより包括的で解釈可能な特徴を提供するという利点がある。
我々は,多パラメータ持続ホモロジーの理論的安定性保証を確立し,その分子特性予測の有効性を示すために,リポフィリシティ,フリーソルブ,ESOLデータセットに関する広範な実験を行った。 In this study, we present a novel molecular fingerprint generation method based on multiparameter persistent homology. This approach reveals the latent structures and relationships within molecular geometry, and detects topological features that exhibit persistence across multiple scales along multiple parameters, such as atomic mass, partial charge, and bond type, and can be further enhanced by incorporating additional parameters like ionization energy, electron affinity, chirality and orbital hybridization. The proposed fingerprinting method provides fresh perspectives on molecular structure that are not easily discernible from single-parameter or single-scale analysis. Besides, in comparison with traditional graph neural networks, multiparameter persistent homology has the advantage of providing a more comprehensive and interpretable characterization of the topology of the molecular data. We have established theoretical stability guarantees for multiparameter persistent homology, and have conducted extensive experiments on the Lipophilicity, FreeSolv, and ESOL datasets to demonstrate its effectiveness in predicting molecular properties. | 翻訳日:2023-11-22 14:27:29 公開日:2023-11-17 |
# 次の700 ml対応コンパイラ最適化 The Next 700 ML-Enabled Compiler Optimizations ( http://arxiv.org/abs/2311.10800v1 ) ライセンス: Link先を確認 | S. VenkataKeerthy, Siddharth Jain, Umesh Kalvakuntla, Pranav Sai Gorantla, Rajiv Shailesh Chitale, Eugene Brevdo, Albert Cohen, Mircea Trofin, Ramakrishna Upadrasta | (参考訳) MLモデルによるコンパイラ最適化の強化への関心が高まっているが、コンパイラとMLフレームワーク間の相互作用は依然として難しい。
いくつかの最適化では、厳密な結合モデルとコンパイラ内部を必要とし、モジュール化、パフォーマンス、フレームワークの独立性に関する問題を提起する。
実用的なデプロイとエンドユーザの透明性も重要な懸念事項です。
我々は、最適化コンパイラとエンドツーエンドの統合を可能かつ効率的にしながら、従来のpythonフレームワーク内でmlモデル開発を可能にするml-compiler-bridgeを提案する。
我々は、複数の最適化問題、複数のコンパイラとそのバージョン、ジムインフラストラクチャーについて、研究と運用の両方のユースケース、トレーニングと推論の両方で評価する。 There is a growing interest in enhancing compiler optimizations with ML models, yet interactions between compilers and ML frameworks remain challenging. Some optimizations require tightly coupled models and compiler internals,raising issues with modularity, performance and framework independence. Practical deployment and transparency for the end-user are also important concerns. We propose ML-Compiler-Bridge to enable ML model development within a traditional Python framework while making end-to-end integration with an optimizing compiler possible and efficient. We evaluate it on both research and production use cases, for training and inference, over several optimization problems, multiple compilers and its versions, and gym infrastructures. | 翻訳日:2023-11-22 14:26:37 公開日:2023-11-17 |
# Row-Type Dependent Predictive Analysis (RTDPA):銀行部門における信用リスク分析のための機械学習モデル設計のためのフレームワーク Adaptive Modelling Approach for Row-Type Dependent Predictive Analysis (RTDPA): A Framework for Designing Machine Learning Models for Credit Risk Analysis in Banking Sector ( http://arxiv.org/abs/2311.10799v1 ) ライセンス: Link先を確認 | Minati Rath, Hema Date | (参考訳) 多くの現実世界のデータセットでは、行は異なる特性を持ち、正確な予測のために異なるモデリングアプローチを必要とする。
本稿では,行型依存予測解析(rtdpa)のための適応的モデリング手法を提案する。
我々のフレームワークは、単一のデータセット内で多様な行タイプを効果的に処理できるモデルの開発を可能にする。
xxx bankのデータセットには、個人ローンと農業ローンの2つのリスクカテゴリが含まれています。
それぞれが4つのクラス標準、サブスタンダード、疑わしい、損失に分類される。
我々は,データ前処理と機能工学を異なる行タイプに調整した。
従来の機械学習予測モデルと高度なアンサンブル手法を選択した。
以上の結果から, 予測手法の精度は90%以下であることが示唆された。
rtdpaでは、各行タイプに対してアルゴリズムが別々に適用され、モデルが各行タイプの特定のパターンと特性をキャプチャできる。
このアプローチは行タイプに基づいたターゲット予測を可能にし、与えられたデータセットのより正確で調整された分類を提供するとともに、提案されたモデルは、銀行部門において本質的に戦略的である決定要因を常に有意義かつ持続的な洞察を提供する。 In many real-world datasets, rows may have distinct characteristics and require different modeling approaches for accurate predictions. In this paper, we propose an adaptive modeling approach for row-type dependent predictive analysis(RTDPA). Our framework enables the development of models that can effectively handle diverse row types within a single dataset. Our dataset from XXX bank contains two different risk categories, personal loan and agriculture loan. each of them are categorised into four classes standard, sub-standard, doubtful and loss. We performed tailored data pre processing and feature engineering to different row types. We selected traditional machine learning predictive models and advanced ensemble techniques. Our findings indicate that all predictive approaches consistently achieve a precision rate of no less than 90%. For RTDPA, the algorithms are applied separately for each row type, allowing the models to capture the specific patterns and characteristics of each row type. This approach enables targeted predictions based on the row type, providing a more accurate and tailored classification for the given dataset.Additionally, the suggested model consistently offers decision makers valuable and enduring insights that are strategic in nature in banking sector. | 翻訳日:2023-11-22 14:26:26 公開日:2023-11-17 |
# INSPECT : 肺塞栓症診断と予後のためのマルチモーダルデータセット INSPECT: A Multimodal Dataset for Pulmonary Embolism Diagnosis and Prognosis ( http://arxiv.org/abs/2311.10798v1 ) ライセンス: Link先を確認 | Shih-Cheng Huang, Zepeng Huo, Ethan Steinberg, Chia-Chun Chiang, Matthew P. Lungren, Curtis P. Langlotz, Serena Yeung, Nigam H. Shah, Jason A. Fries | (参考訳) 複数のデータソースから情報を合成することは、現代医学の実践において重要な役割を果たす。
医学における人工知能の現在の応用は、一般に利用可能なマルチモーダルな医療データセットが欠如しているため、しばしばシングルモダリティデータに焦点を当てている。
この制限に対処するために,肺塞栓症(PE)のリスクを負う患者の大コホートから非同定長大な記録と,複数の結果の真実ラベルを含むINSPECTを導入する。
INSPECTは、CT画像、放射線医学報告印象セクション、構造化電子健康記録(EHR)データ(人口統計、診断、手順、バイタル、医薬品)を含む19,402人の患者のデータを含んでいる。
inspectを用いて、様々な重要なpe関連タスクにおける複数のベースラインモデリングアプローチを評価するベンチマークを開発し、リリースする。
画像のみ, EHRのみ, マルチモーダル融合モデルの評価を行った。
トレーニングされたモデルと非識別データセットは、データ使用契約の下で非商用で利用可能である。
我々の知る限り、INSPECTは再現可能な手法の評価と研究のための3D医療画像とHRを統合した最大のマルチモーダルデータセットである。 Synthesizing information from multiple data sources plays a crucial role in the practice of modern medicine. Current applications of artificial intelligence in medicine often focus on single-modality data due to a lack of publicly available, multimodal medical datasets. To address this limitation, we introduce INSPECT, which contains de-identified longitudinal records from a large cohort of patients at risk for pulmonary embolism (PE), along with ground truth labels for multiple outcomes. INSPECT contains data from 19,402 patients, including CT images, radiology report impression sections, and structured electronic health record (EHR) data (i.e. demographics, diagnoses, procedures, vitals, and medications). Using INSPECT, we develop and release a benchmark for evaluating several baseline modeling approaches on a variety of important PE related tasks. We evaluate image-only, EHR-only, and multimodal fusion models. Trained models and the de-identified dataset are made available for non-commercial use under a data use agreement. To the best of our knowledge, INSPECT is the largest multimodal dataset integrating 3D medical imaging and EHR for reproducible methods evaluation and research. | 翻訳日:2023-11-22 14:26:07 公開日:2023-11-17 |
# TaCo:LLMにおける低リソース言語への翻訳支援連鎖プロセスによる言語間変換の強化 TaCo: Enhancing Cross-Lingual Transfer for Low-Resource Languages in LLMs through Translation-Assisted Chain-of-Thought Processes ( http://arxiv.org/abs/2311.10797v1 ) ライセンス: Link先を確認 | Bibek Upadhayay and Vahid Behzadan | (参考訳) ChatGPTやPaLMといったLLMは、新しい言語のトレーニングや低リソース言語の再活性化に利用することができる。
しかし、明らかに、新しい言語を採用するために pr fine-tune LLM を事前訓練するのは非常にコストがかかる。
もうひとつの課題は、ベンチマークデータセットの制限と、マルチ言語設定でモデルのパフォーマンスを測定するために使用されるメトリクスだ。
本稿では,上記2つの課題に対する費用対効果の高い解決法を提案する。
本稿では132言語でAlpaca-52K, Dolly-15K, Vicuna Benchmarkを翻訳した多言語インストラクション・チューニングデータセット(MITS)を紹介する。
また,カリキュラム学習プロセスを通じて,新たな言語上でLLMを指導・チューニングするためのチェーン・オブ・シント・プロセスにおける翻訳を利用する「emph{TaCo: Translation-Assisted Cross-Linguality」という新しい手法を提案する。
概念実証として,命令調整型Guanaco-33Bモデルを用いて実験を行い,3つの低リソース言語と1つの高リソース言語でTaCo法を用いてさらに命令チューニングを行った。
提案手法は,Vicuna Benchmark データセットの低リソース言語に対して 82% で GPT-4 を圧縮し,命令チューニングのみの性能に対して 2 倍の性能向上を図っている。
この結果から,TaCoは低リソース言語でも多言語LLMを作成するための有望な手法であることがわかった。
我々は、データセットとモデルアダプタをリリースし、研究コミュニティに、これらのリソースを多言語llmの開発に活用するよう促した。 LLMs such as ChatGPT and PaLM can be utilized to train on a new language and revitalize low-resource languages. However, it is evidently very costly to pretrain pr fine-tune LLMs to adopt new languages. Another challenge is the limitation of benchmark datasets and the metrics used to measure the performance of models in multilingual settings. This paper proposes cost-effective solutions to both of the aforementioned challenges. We introduce the Multilingual Instruction-Tuning Dataset (MITS), which is comprised of the translation of Alpaca-52K, Dolly-15K, and Vicuna Benchmark in 132 languages. Also, we propose a new method called \emph{TaCo: Translation-Assisted Cross-Linguality}, which make uses of translation in a chain-of-thought process to instruction-tune LLMs on a new languages through a curriculum learning process. As a proof of concept, we experimented with the instruction-tuned Guanaco-33B model and performed further instruction tuning using the TaCo method in three low-resource languages and one high-resource language. Our results show that the TaCo method impresses the GPT-4 with 82% for a low-resource language in the Vicuna Benchmark dataset, and boosts performance by double in contrast to the performance of instruction tuning only. Our results show that TaCo is a promising method for creating multilingual LLMs, even for low-resource languages. We have released our datasets and the model adapters, and encourage the research community to make use of these resources towards advancing work on multilingual LLMs. | 翻訳日:2023-11-22 14:25:47 公開日:2023-11-17 |
# Emotion-Aware Music Recommendation System:リアルタイム感情コンテキストによるユーザエクスペリエンス向上 Emotion-Aware Music Recommendation System: Enhancing User Experience Through Real-Time Emotional Context ( http://arxiv.org/abs/2311.10796v1 ) ライセンス: Link先を確認 | Tina Babu, Rekha R Nair and Geetha A | (参考訳) 本研究では,従来の音楽レコメンデーションシステムの欠如を,ユーザの音楽選択を形作る上での感情の重要性に着目して解決する。
これらのシステムは、しばしば感情的文脈を無視し、主に過去の聴取行動に依存し、ユーザーの感情的好みの動的で進化的な性質を考慮しない。
このギャップはいくつかの制限につながります。
ユーザーは現在の気分に合わないレコメンデーションを受け取ることができるため、音楽体験の質は低下する。
さらに、感情を考慮せずに、システムはユーザーに深い感情的影響を与える未発見の曲やあまり知られていない曲を見落としてしまうかもしれない。
これらの制限に対処するために,情緒的文脈を楽曲推薦プロセスに組み込んだAIモデルを導入する。
リアルタイムの感情を正確に検出することで、モデルはユーザーの感情状態に合わせてパーソナライズされた歌のレコメンデーションを生成することができる。
このアプローチは、現在の気分に共鳴する音楽を提供し、望ましい感情を誘発し、より没入的で有意義なリスニングエクスペリエンスを生み出すことによって、ユーザエクスペリエンスの向上を目指している。
楽曲レコメンデーションプロセスにおける感情的文脈を考慮することで、提案モデルはよりパーソナライズされ、感情的に共鳴する音楽旅行の機会を提供する。 This study addresses the deficiency in conventional music recommendation systems by focusing on the vital role of emotions in shaping users music choices. These systems often disregard the emotional context, relying predominantly on past listening behavior and failing to consider the dynamic and evolving nature of users emotional preferences. This gap leads to several limitations. Users may receive recommendations that do not match their current mood, which diminishes the quality of their music experience. Furthermore, without accounting for emotions, the systems might overlook undiscovered or lesser-known songs that have a profound emotional impact on users. To combat these limitations, this research introduces an AI model that incorporates emotional context into the song recommendation process. By accurately detecting users real-time emotions, the model can generate personalized song recommendations that align with the users emotional state. This approach aims to enhance the user experience by offering music that resonates with their current mood, elicits the desired emotions, and creates a more immersive and meaningful listening experience. By considering emotional context in the song recommendation process, the proposed model offers an opportunity for a more personalized and emotionally resonant musical journey. | 翻訳日:2023-11-22 14:25:03 公開日:2023-11-17 |
# 電気化学における機械学習モデルに対するFalseデータの影響 How False Data Affects Machine Learning Models in Electrochemistry? ( http://arxiv.org/abs/2311.10795v1 ) ライセンス: Link先を確認 | Krittapong Deshsorna, Luckhana Lawtrakul, Pawin Iamprasertkun | (参考訳) 近年,データ分布のみに基づく機械学習モデルの選択が,データのノイズを考慮せずに行われている。
本研究は,ノイズのあるデータに対して,どのモデルが正常に動作しているかを識別することを目的としている。
電気化学データは12のスタンドアロンモデルと積み重ねモデルで試験された。
これにはXGB、LGBM、RF、GB、ADA、NN、ELAS、LASS、RIDGE、SVM、KNN、DT、スタックモデルが含まれる。
線形モデルは、100%の雑音に対して平均誤差(傾斜)から1.75Fg-1まで、ノイズをうまく処理するが、0%の雑音で最小誤差で60.19Fg-1を推定すると予測精度が低下する。
木ベースのモデルはノイズハンドリングで失敗する(平均勾配は55.24 f g-1で100%ノイズ)が、線形よりも高い予測精度(最低誤差は23.9 f g-1)を提供できる。
予測精度とエラーハンドリングの論争に対処するため、スタックモデルは高い精度(25.03 f g-1のインセプション)を示すだけでなく、優れたノイズハンドリング(43.58 f g-1のスロー)を示し、スタックモデルは比較的リスクが低く、初心者や電気化学の経験豊富な機械学習研究にとって有効な選択肢となっている。
ニューラルネットワーク(NN)は電気化学分野で人気を博している。
しかし, nnは電気化学データには適さないこと, ノイズの影響を受けやすいモデルとなる不適切な調律であることがわかった。
したがって、STACKモデルは、修正されていないベースモデルであっても、正確で耐雑音性のあるモデルを実現することができる、より良い利点を提供するべきである。
全体として、この研究は電気化学データの機械学習モデル選択に関する洞察を与え、化学の文脈におけるデータ科学の理解に役立つだろう。 Recently, the selection of machine learning model based on only the data distribution without concerning the noise of the data. This study aims to distinguish, which models perform well under noisy data, and establish whether stacking machine learning models actually provide robustness to otherwise weak-to-noise models. The electrochemical data were tested with 12 standalone models and stacking model. This includes XGB, LGBM, RF, GB, ADA, NN, ELAS, LASS, RIDGE, SVM, KNN, DT, and the stacking model. It is found that linear models handle noise well with the average error of (slope) to 1.75 F g-1 up to error per 100% percent noise added; but it suffers from prediction accuracy due to having an average of 60.19 F g-1 estimated at minimal error at 0% noise added. Tree-based models fail in terms of noise handling (average slope is 55.24 F g-1 at 100% percent noise), but it can provide higher prediction accuracy (lowest error of 23.9 F g-1) than that of linear. To address the controversial between prediction accuracy and error handling, the stacking model was constructed, which is not only show high accuracy (intercept of 25.03 F g-1), but it also exhibits good noise handling (slope of 43.58 F g-1), making stacking models a relatively low risk and viable choice for beginner and experienced machine learning research in electrochemistry. Even though neural networks (NN) are gaining popularity in the electrochemistry field. However, this study presents that NN is not suitable for electrochemical data, and improper tuning resulting in a model that is susceptible to noise. Thus, STACK models should provide better benefits in that even with untuned base models, they can achieve an accurate and noise-tolerant model. Overall, this work provides insight into machine learning model selection for electrochemical data, which should aid the understanding of data science in chemistry context. | 翻訳日:2023-11-22 14:24:44 公開日:2023-11-17 |
# Text-to-Sticker:人間の表現のためのスタイルテーラーラテント拡散モデル Text-to-Sticker: Style Tailoring Latent Diffusion Models for Human Expression ( http://arxiv.org/abs/2311.10794v1 ) ライセンス: Link先を確認 | Animesh Sinha, Bo Sun, Anmol Kalia, Arantxa Casanova, Elliot Blanchard, David Yan, Winnie Zhang, Tony Nelli, Jiahui Chen, Hardik Shah, Licheng Yu, Mitesh Kumar Singh, Ankit Ramchandani, Maziar Sanjabi, Sonal Gupta, Amy Bearman, Dhruv Mahajan | (参考訳) 視覚的品質,アライメントの迅速化,シーンの多様性の両面において,LDM(Latent Diffusion Models)を微調整するためのレシピであるStyle Tailoringを紹介する。
対象領域としてステッカー画像生成を選択するが,大規模ldmで生成するフォトリアリスティックなサンプルとは大きく異なる。
emuのような有能なテキストから画像へのモデルから始めると、ステッカーを生成するためのフォトリアリスティックなモデルによるプロンプトエンジニアリングが、迅速なアライメントとシーンの多様性を損なうことを示します。
これらの欠点を克服するため、私たちはまず、多様性を引き出すために弱い監督法を用いて収集された何百万ものステッカーのような画像をEmuに精査した。
次に,モデル世代からヒューマン・イン・ザ・ループ(hitl)アライメントとスタイルデータセットをキュレートし,プロンプトアライメントとスタイルアライメントを改善する。
これらのデータセットの逐次微調整は、より良いスタイルアライメントと迅速なアライメントゲインのトレードオフをもたらす。
このトレードオフに対処するために,コンテンツとスタイルの分布を協調的に適合させ,最良のトレードオフを実現するスタイルタイラー方式を提案する。
評価の結果,ステッカー生成のための基本Emuモデルよりも視品質が14%向上し,アライメントが16.2%,シーンの多様性が15.3%向上した。 We introduce Style Tailoring, a recipe to finetune Latent Diffusion Models (LDMs) in a distinct domain with high visual quality, prompt alignment and scene diversity. We choose sticker image generation as the target domain, as the images significantly differ from photorealistic samples typically generated by large-scale LDMs. We start with a competent text-to-image model, like Emu, and show that relying on prompt engineering with a photorealistic model to generate stickers leads to poor prompt alignment and scene diversity. To overcome these drawbacks, we first finetune Emu on millions of sticker-like images collected using weak supervision to elicit diversity. Next, we curate human-in-the-loop (HITL) Alignment and Style datasets from model generations, and finetune to improve prompt alignment and style alignment respectively. Sequential finetuning on these datasets poses a tradeoff between better style alignment and prompt alignment gains. To address this tradeoff, we propose a novel fine-tuning method called Style Tailoring, which jointly fits the content and style distribution and achieves best tradeoff. Evaluation results show our method improves visual quality by 14%, prompt alignment by 16.2% and scene diversity by 15.3%, compared to prompt engineering the base Emu model for stickers generation. | 翻訳日:2023-11-22 14:24:07 公開日:2023-11-17 |
# 道路シーンにおける交通信号の解釈 Traffic Sign Interpretation in Real Road Scene ( http://arxiv.org/abs/2311.10793v1 ) ライセンス: Link先を確認 | Chuang Yang, Kai Zhuang, Mulin Chen, Haozhao Ma, Xu Han, Tao Han, Changxing Guo, Han Han, Bingxuan Zhao, and Qi Wang | (参考訳) 既存の交通標識関連作業の多くは、信号機間のグローバルなセマンティックロジックの分析に失敗し、不正確な交通指示を伝達する可能性のある交通標識の一部を個別に検出し、認識することを目的としている。
上記の課題に倣って,グローバルな意味的相互関連交通標識(例えば,運転指示関連テキスト,シンボル,ガイドパネル)を自然言語に解釈し,自律運転やアシスタント運転に正確な指導支援を提供することを目的とした交通標識解釈(TSI)タスクを提案する。
一方,TSIのためのマルチタスク学習アーキテクチャを設計し,様々な交通標識を検出して認識し,それを人間のような自然言語に解釈する。
さらに、パブリックなTSIデータセットがないため、トラフィックサイン解釈データセット、すなわちTSI-CNを構築する必要がある。
このデータセットは実際の道路シーンの画像で構成されており、道路や中国の都市部からドライバーの視点から捉えられている。
テキスト、シンボル、ガイドパネルの豊富な位置ラベルと、対応する自然言語記述ラベルが含まれている。
TSI-CNの実験は、TSIタスクが達成可能であることを示し、TSIアーキテクチャは、記号間に複雑なセマンティックロジックがあっても、シーンからのトラフィックサインをうまく解釈できることを示した。
TSI-CNデータセットとTSIアーキテクチャのソースコードは、修正プロセス後に公開される。 Most existing traffic sign-related works are dedicated to detecting and recognizing part of traffic signs individually, which fails to analyze the global semantic logic among signs and may convey inaccurate traffic instruction. Following the above issues, we propose a traffic sign interpretation (TSI) task, which aims to interpret global semantic interrelated traffic signs (e.g.,~driving instruction-related texts, symbols, and guide panels) into a natural language for providing accurate instruction support to autonomous or assistant driving. Meanwhile, we design a multi-task learning architecture for TSI, which is responsible for detecting and recognizing various traffic signs and interpreting them into a natural language like a human. Furthermore, the absence of a public TSI available dataset prompts us to build a traffic sign interpretation dataset, namely TSI-CN. The dataset consists of real road scene images, which are captured from the highway and the urban way in China from a driver's perspective. It contains rich location labels of texts, symbols, and guide panels, and the corresponding natural language description labels. Experiments on TSI-CN demonstrate that the TSI task is achievable and the TSI architecture can interpret traffic signs from scenes successfully even if there is a complex semantic logic among signs. The TSI-CN dataset and the source code of the TSI architecture will be publicly available after the revision process. | 翻訳日:2023-11-22 14:23:41 公開日:2023-11-17 |
# リチウムイオン電池寿命予測の注意機構:時間的・周期的注意 Attention Mechanism for Lithium-Ion Battery Lifespan Prediction: Temporal and Cyclic Attention ( http://arxiv.org/abs/2311.10792v1 ) ライセンス: Link先を確認 | Jaewook Lee, Seongmin Heo, Jay H. Lee | (参考訳) リチウムイオン電池(libs)の寿命を正確に予測することは、使用の最適化と事故防止に重要である。
予測モデルを構築する以前の研究は、リアルタイム操作で測定するのが難しい入力に依存し、サイクル内データパターンやサイクル間データパターン、正確な予測に不可欠な特徴を包括的に捉えられなかった。
本研究では,電圧,電流,温度,容量データなどの測定可能な入力を用いて,lib寿命を予測するためのデータ駆動モデルを開発するために注意機構(am)を用いる。
開発したモデルでは,リカレントニューラルネットワーク (rnn) と畳み込みニューラルネットワーク (cnn) を統合し,時間的注意 (ta) と循環的注意 (ca) の2種類の注意機構を特徴とする。
TAの内包は、RNNの隠れ状態を評価することによって各サイクルにおける重要な時間ステップを特定することを目的としており、CAは自己注意(SA)を通じてサイクル間相関の重要な特徴を捉えようとしている。
これによりモデル精度が向上し、入力データの重要な特徴が解明される。
提案手法を検証するために,3つのサイクリングモードからなる公に入手可能なサイクリングデータに適用する。
算出されたTAスコアは、各バッチ間でLIBデータを区別するキー特性として残りの位相をハイライトする。
さらに、CAスコアは、バッチ間でのサイクルの重要性のバリエーションを明らかにします。
CAスコアを活用することで、入力データのサイクル数を削減できる可能性を探る。
シングルヘッドとマルチヘッドのアテンションにより,入力次元をそれぞれ100サイクルから50サイクル,30サイクルに短縮できる。 Accurately predicting the lifespan of lithium-ion batteries (LIBs) is pivotal for optimizing usage and preventing accidents. Previous studies in constructing prediction models often relied on inputs challenging to measure in real-time operations and failed to capture intra-cycle and inter-cycle data patterns, essential features for accurate predictions, comprehensively. In this study, we employ attention mechanisms (AM) to develop data-driven models for predicting LIB lifespan using easily measurable inputs such as voltage, current, temperature, and capacity data. The developed model integrates recurrent neural network (RNN) and convolutional neural network (CNN) components, featuring two types of attention mechanisms: temporal attention (TA) and cyclic attention (CA). The inclusion of TA aims to identify important time steps within each cycle by scoring the hidden states of the RNN, whereas CA strives to capture key features of inter-cycle correlations through self-attention (SA). This enhances model accuracy and elucidates critical features in the input data. To validate our method, we apply it to publicly available cycling data consisting of three batches of cycling modes. The calculated TA scores highlight the rest phase as a key characteristic distinguishing LIB data among different batches. Additionally, CA scores reveal variations in the importance of cycles across batches. By leveraging CA scores, we explore the potential to reduce the number of cycles in the input data. The single-head and multi-head attentions enable us to decrease the input dimension from 100 to 50 and 30 cycles, respectively. | 翻訳日:2023-11-22 14:23:17 公開日:2023-11-17 |
# 高次元低次多項式回帰へのMaternカーネルによるカーネル回帰のデジェネレーション Degeneration of kernel regression with Matern kernels into low-order polynomial regression in high dimension ( http://arxiv.org/abs/2311.10790v1 ) ライセンス: Link先を確認 | Sergei Manzhos, Manabu Ihara | (参考訳) 核リッジ回帰やガウス過程回帰のような核法は、特に、ポテンシャルエネルギー曲面(pes)と密度汎関数、および材料情報学に適合するために、ますます使われてきた。
特徴空間の次元が高ければ、これらの手法は必ずしもスパースなデータで使用される。
この方法では、母子型カーネルの最適長さパラメータがあまりに大きくなり、メソッドは効果的に低次多項式回帰に退化するため、そのような回帰に対する利点が失われる。
これは理論上も数値上も6次元および15次元の分子PESの2乗指数と単純な指数核の例で示される。
その結果、中型分子に対するPIPなどの多項式近似の成功や、Matern型カーネルによるカーネルメソッドの利点の保存や、物理的に動機づけられた(再生)カーネルの使用に対する整合モデルの重要性にさらに光を当てた。 Kernel methods such as kernel ridge regression and Gaussian process regressions with Matern type kernels have been increasingly used, in particular, to fit potential energy surfaces (PES) and density functionals, and for materials informatics. When the dimensionality of the feature space is high, these methods are used with necessarily sparse data. In this regime, the optimal length parameter of a Matern-type kernel tends to become so large that the method effectively degenerates into a low-order polynomial regression and therefore loses any advantage over such regression. This is demonstrated theoretically as well as numerically on the examples of six- and fifteen-dimensional molecular PES using squared exponential and simple exponential kernels. The results shed additional light on the success of polynomial approximations such as PIP for medium size molecules and on the importance of orders-of-coupling based models for preserving the advantages of kernel methods with Matern type kernels or on the use of physically-motivated (reproducing) kernels. | 翻訳日:2023-11-22 14:22:51 公開日:2023-11-17 |
# 不均一データのための成層NMF Stratified-NMF for Heterogeneous Data ( http://arxiv.org/abs/2311.10789v1 ) ライセンス: Link先を確認 | James Chapman, Yotam Yaniv, Deanna Needell | (参考訳) 非負行列分解(NMF)はデータセットの低次元表現を得るための重要な手法である。
しかし、古典的なNMFは異なる時間または異なる場所で収集されるデータを考慮しておらず、不均一性を示す可能性がある。
本研究では,階層依存統計量と共有トピック行列を同時に学習する修正NMF目標であるStratified-NMFを解くことで,この問題を解決する。
我々は,この新たな目的に対する乗法的更新ルールを開発し,目的の収束を証明する。
そこで,本手法の効率と精度を示すために,合成データについて実験を行った。
最後に,本手法を実世界の3つのデータセットに適用し,それらの特徴を実証的に検討する。 Non-negative matrix factorization (NMF) is an important technique for obtaining low dimensional representations of datasets. However, classical NMF does not take into account data that is collected at different times or in different locations, which may exhibit heterogeneity. We resolve this problem by solving a modified NMF objective, Stratified-NMF, that simultaneously learns strata-dependent statistics and a shared topics matrix. We develop multiplicative update rules for this novel objective and prove convergence of the objective. Then, we experiment on synthetic data to demonstrate the efficiency and accuracy of the method. Lastly, we apply our method to three real world datasets and empirically investigate their learned features. | 翻訳日:2023-11-22 14:22:33 公開日:2023-11-17 |
# H.264を用いた時間的深度検出の効率化
動きベクトル Efficient Temporally-Aware DeepFake Detection using H.264 Motion Vectors ( http://arxiv.org/abs/2311.10788v1 ) ライセンス: Link先を確認 | Peter Gr\"onquist, Yufan Ren, Qingyi He, Alessio Verardo, Sabine S\"usstrunk | (参考訳) Video DeepFakesはDeep Learning(DL)で作成された偽のメディアで、人の表情やアイデンティティを操作する。
現在のDeepFake検出手法のほとんどは、フレーム間の不整合や不自然な動きを無視して、各フレームを独立して解析する。
より新しい手法では、この時間的側面を捉えるために光フローモデルを用いるが、計算的に高価である。
対照的に,H.264ビデオコーデックの動作ベクトル(MV)と情報マスク(IM)を用いて,DeepFakeの時間的不整合を検出することを提案する。
実験の結果,本手法は実効性が高く,計算コストが最小であることがわかった。
これは、ビデオ通話とストリーミングのための、時間的に認識された新しいDeepFake検出方法につながる可能性がある。 Video DeepFakes are fake media created with Deep Learning (DL) that manipulate a person's expression or identity. Most current DeepFake detection methods analyze each frame independently, ignoring inconsistencies and unnatural movements between frames. Some newer methods employ optical flow models to capture this temporal aspect, but they are computationally expensive. In contrast, we propose using the related but often ignored Motion Vectors (MVs) and Information Masks (IMs) from the H.264 video codec, to detect temporal inconsistencies in DeepFakes. Our experiments show that this approach is effective and has minimal computational costs, compared with per-frame RGB-only methods. This could lead to new, real-time temporally-aware DeepFake detection methods for video calls and streaming. | 翻訳日:2023-11-22 14:22:22 公開日:2023-11-17 |
# 量子再負荷モデルの勾配と周波数プロファイル Gradients and frequency profiles of quantum re-uploading models ( http://arxiv.org/abs/2311.10822v1 ) ライセンス: Link先を確認 | Alice Barthe, Adri\'an P\'erez-Salinas | (参考訳) 量子再ロードモデルは、変動量子アルゴリズムの文脈における機械学習の一形態として広く研究されている。
トレーニング性と表現性はまだ完全には理解されておらず、パフォーマンスに批判的です。
本研究では,コスト関数の勾配の大きさのレンズを通して学習可能性に対処する。
我々は、より詳細なデータレスパラメータ化量子回路の勾配と再アップロードモデルとの差の境界を証明した。
このような違いを定量化するために、"sl absorption witness"という概念を考案する。
表現性について、量子再ロードモデルが高周波数成分とデータに対する上界微分を消し去る関数を出力することを証明した。
その結果、これらの関数は細部への感度が制限され、オーバーフィッティングから保護される。
理論結果をよりゆるやかで現実的な条件に拡張する数値実験を行った。
全体として、量子再アップロードモデルの将来の設計は、吸収証人の解明と高周波数の消失によってもたらされる強化された知識の恩恵を受けるだろう。 Quantum re-uploading models have been extensively investigated as a form of machine learning within the context of variational quantum algorithms. Their trainability and expressivity are not yet fully understood and are critical to their performance. In this work, we address trainability through the lens of the magnitude of the gradients of the cost function. We prove bounds for the differences between gradients of the better-studied data-less parameterized quantum circuits and re-uploading models. We coin the concept of {\sl absorption witness} to quantify such difference. For the expressivity, we prove that quantum re-uploading models output functions with vanishing high-frequency components and upper-bounded derivatives with respect to data. As a consequence, such functions present limited sensitivity to fine details, which protects against overfitting. We performed numerical experiments extending the theoretical results to more relaxed and realistic conditions. Overall, future designs of quantum re-uploading models will benefit from the strengthened knowledge delivered by the uncovering of absorption witnesses and vanishing high frequencies. | 翻訳日:2023-11-22 14:14:34 公開日:2023-11-17 |
# 積分可能なスピン-\texorpdfstring{$\frac{1}{2}$}{1/2} XYZモデルにおける固有状態エントロピー Eigenstate entanglement entropy in the integrable spin-\texorpdfstring{$\frac{1}{2}$}{1/2} XYZ model ( http://arxiv.org/abs/2311.10819v1 ) ライセンス: Link先を確認 | Rafa{\l} \'Swi\k{e}tek, Maksymilian Kliczkowski, Lev Vidmar and Marcos Rigol | (参考訳) 我々は、積分可能な相互作用スピン-$$\frac{1}{2}$ XYZ鎖の高励起固有状態の絡み合いエントロピーの平均と標準偏差を、$U(1)$対称性と超対称性を持つ特別な直線から遠ざかる。
平均固有状態絡み合いエントロピーは量子カオス相互作用モデルよりも小さい体積-法則係数を示す。
超対称点において、縮退が計算平均に及ぼす影響を解消する。
さらに、固有状態エンタングルメントエントロピーの正規化標準偏差はシステムサイズの増加とともに多項式的に減衰し、量子カオス相互作用モデルにおける指数減衰とは対照的である。
この結果から,スピン=$\frac{1}{2}$鎖における積分性は,量子カオス相互作用モデルと比較して,高励起エネルギー固有状態の絡み合いエントロピーの標準偏差を減少させ,標準偏差を増大させることを示す。 We study the average and the standard deviation of the entanglement entropy of highly excited eigenstates of the integrable interacting spin-$\frac{1}{2}$ XYZ chain away from and at special lines with $U(1)$ symmetry and supersymmetry. We universally find that the average eigenstate entanglement entropy exhibits a volume-law coefficient that is smaller than that of quantum-chaotic interacting models. At the supersymmetric point, we resolve the effect that degeneracies have on the computed averages. We further find that the normalized standard deviation of the eigenstate entanglement entropy decays polynomially with increasing system size, which we contrast to the exponential decay in quantum-chaotic interacting models. Our results provide state-of-the art numerical evidence that integrability in spin-$\frac{1}{2}$ chains reduces the average, and increases the standard deviation, of the entanglement entropy of highly excited energy eigenstates when compared to those in quantum-chaotic interacting models. | 翻訳日:2023-11-22 14:14:21 公開日:2023-11-17 |
# 自律運転のための言語エージェント A Language Agent for Autonomous Driving ( http://arxiv.org/abs/2311.10813v1 ) ライセンス: Link先を確認 | Jiageng Mao and Junjie Ye and Yuxi Qian and Marco Pavone and Yue Wang | (参考訳) 人間レベルの運転は、自動運転の究極の目標である。
従来のアプローチでは、認識予測計画の枠組みとして自律運転を定式化しているが、そのシステムは人間の固有の推論能力や経験的知識に乗じていない。
本稿では,人間のような知性を自律運転システムに統合する認知エージェントとして,Large Language Models (LLMs) を利用した現行のパイプラインからの基本パラダイムシフトを提案する。
agent-driverと呼ばれるこのアプローチは、関数呼び出しを通じてアクセス可能な汎用ツールライブラリ、意思決定のための常識と経験的知識の認知記憶、思考の連鎖推論、タスク計画、動き計画、自己回帰が可能な推論エンジンを導入することで、従来の自動運転パイプラインを変換します。
LLMによって駆動されるエージェントドライブには直感的な常識と頑健な推論能力が備わっており、自動運転に対する人間的なアプローチをより微妙に実現しています。
我々は,大規模なnuscenesベンチマークのアプローチを評価し,エージェントドライバが最先端の運転方法を大きく上回っていることを示す実験を行った。
また,本手法は,これらの手法に対して,優れた解釈可能性と少ない学習能力を示す。
プロジェクトページ: \href{https://github.com/USC-GVL/Agent-Driver/blob/main/index.html}{here}。 Human-level driving is an ultimate goal of autonomous driving. Conventional approaches formulate autonomous driving as a perception-prediction-planning framework, yet their systems do not capitalize on the inherent reasoning ability and experiential knowledge of humans. In this paper, we propose a fundamental paradigm shift from current pipelines, exploiting Large Language Models (LLMs) as a cognitive agent to integrate human-like intelligence into autonomous driving systems. Our approach, termed Agent-Driver, transforms the traditional autonomous driving pipeline by introducing a versatile tool library accessible via function calls, a cognitive memory of common sense and experiential knowledge for decision-making, and a reasoning engine capable of chain-of-thought reasoning, task planning, motion planning, and self-reflection. Powered by LLMs, our Agent-Driver is endowed with intuitive common sense and robust reasoning capabilities, thus enabling a more nuanced, human-like approach to autonomous driving. We evaluate our approach on the large-scale nuScenes benchmark, and extensive experiments substantiate that our Agent-Driver significantly outperforms the state-of-the-art driving methods by a large margin. Our approach also demonstrates superior interpretability and few-shot learning ability to these methods. Project page: \href{https://github.com/USC-GVL/Agent-Driver/blob/main/index.html}{here}. | 翻訳日:2023-11-22 14:13:58 公開日:2023-11-17 |
# SplatArmor:モノクロのRGBビデオから人間をアニマタブルにするガウシアンスプラッティング SplatArmor: Articulated Gaussian splatting for animatable humans from monocular RGB videos ( http://arxiv.org/abs/2311.10812v1 ) ライセンス: Link先を確認 | Rohit Jena, Ganesh Subramanian Iyer, Siddharth Choudhary, Brandon Smith, Pratik Chaudhari, James Gee | (参考訳) SplatArmorは,3次元ガウスモデルを用いたパラメータ化ボディモデル「アーモリング」により,詳細な人体モデルを復元する新しい手法である。
このアプローチは、人間を正準空間内の3次元ガウス群として表現し、その調音は、基礎となるsmpl幾何のスキニングを正準空間の任意の位置に拡張することで定義される。
ポーズ依存効果を考慮したse(3)フィールドを導入することで,ガウス群の位置と異方性の両方を捉えることができる。
さらに,これらのガウスの正確な位置決めのための色規則化と3次元監視を行うために,神経色場を用いることを提案する。
そこで,gaussian splattingはラスタライズプリミティブをレベリングすることで,そのようなアプローチで一般的に直面する非微分可能性や最適化の課題に直面することなく,ニューラルネットワークのレンダリングベースの手法に対して興味深い代替手段を提供する。
ラスタ化パラダイムは、前方スキンの活用を可能にし、逆スキンやワープに関連する曖昧さに悩まされない。
zju mocap と people snapshot datasets について説得力のある結果を示し,制御可能なヒト合成法の有効性を検証した。 We propose SplatArmor, a novel approach for recovering detailed and animatable human models by `armoring' a parameterized body model with 3D Gaussians. Our approach represents the human as a set of 3D Gaussians within a canonical space, whose articulation is defined by extending the skinning of the underlying SMPL geometry to arbitrary locations in the canonical space. To account for pose-dependent effects, we introduce a SE(3) field, which allows us to capture both the location and anisotropy of the Gaussians. Furthermore, we propose the use of a neural color field to provide color regularization and 3D supervision for the precise positioning of these Gaussians. We show that Gaussian splatting provides an interesting alternative to neural rendering based methods by leverging a rasterization primitive without facing any of the non-differentiability and optimization challenges typically faced in such approaches. The rasterization paradigms allows us to leverage forward skinning, and does not suffer from the ambiguities associated with inverse skinning and warping. We show compelling results on the ZJU MoCap and People Snapshot datasets, which underscore the effectiveness of our method for controllable human synthesis. | 翻訳日:2023-11-22 14:13:32 公開日:2023-11-17 |
# 新しいポストホックな説明比較指標とその応用 A novel post-hoc explanation comparison metric and applications ( http://arxiv.org/abs/2311.10811v1 ) ライセンス: Link先を確認 | Shreyan Mitra and Leilani Gilpin | (参考訳) 説明システムは、機械学習モデルの振る舞いをより透明にするが、しばしば矛盾する。
説明システム間の差異を定量化するために,このようなシステムによって生成される特徴重要度リストの重み付け差に基づく新しい指標であるシュレヤン距離を提案する。
本稿では,Shreyan Distanceを用いて2つの説明システム,SHAPとLIMEを比較し,回帰学習と分類学習を行った。
平均シュレーヤン距離は,これら2つの課題間で大きく異なるため,説明者間の一貫性は説明者自身の本質的性質だけでなく,学習課題の種類にも依存していると結論づけた。
本稿では,Shreyan距離アルゴリズムを機械学習パイプラインに統合したXAISuiteライブラリについて述べる。 Explanatory systems make the behavior of machine learning models more transparent, but are often inconsistent. To quantify the differences between explanatory systems, this paper presents the Shreyan Distance, a novel metric based on the weighted difference between ranked feature importance lists produced by such systems. This paper uses the Shreyan Distance to compare two explanatory systems, SHAP and LIME, for both regression and classification learning tasks. Because we find that the average Shreyan Distance varies significantly between these two tasks, we conclude that consistency between explainers not only depends on inherent properties of the explainers themselves, but also the type of learning task. This paper further contributes the XAISuite library, which integrates the Shreyan distance algorithm into machine learning pipelines. | 翻訳日:2023-11-22 14:13:08 公開日:2023-11-17 |
# 電子歯科記録からの歯周診断の抽出におけるRoBERTaを用いたGPT-Jプロンプト生成のNERモデルへの応用 Use GPT-J Prompt Generation with RoBERTa for NER Models on Diagnosis Extraction of Periodontal Diagnosis from Electronic Dental Records ( http://arxiv.org/abs/2311.10810v1 ) ライセンス: Link先を確認 | Yao-Shun Chuang, Xiaoqian Jiang, Chun-Teh Lee, Ryan Brandon, Duong Tran, Oluwabunmi Tokede, Muhammad F. Walji | (参考訳) 本研究では、名前付きエンティティ認識(NER)タスクにおけるプロンプト生成のユーザビリティと、プロンプトの異なる設定におけるパフォーマンスについて検討した。
GPT-Jモデルによる即時生成は、金標準を直接テストし、種を生成し、さらにpaCyパッケージでRoBERTaモデルに供給するために利用された。
直接テストでは,実例数の多い負例の割合が低く,f1スコアが0.72で最良の結果を得た。
この結果、F1スコアは0.92-0.97と、RoBERTaモデルのトレーニング後の全ての設定で整合性を示した。
この研究は、NERモデルの供給量よりも種子品質の重要性を強調した。
この研究は、歯周診断のための臨床メモを効率よく正確に抽出する方法を報告し、研究者が素早い生成アプローチで簡単に迅速にNERモデルを構築することを可能にする。 This study explored the usability of prompt generation on named entity recognition (NER) tasks and the performance in different settings of the prompt. The prompt generation by GPT-J models was utilized to directly test the gold standard as well as to generate the seed and further fed to the RoBERTa model with the spaCy package. In the direct test, a lower ratio of negative examples with higher numbers of examples in prompt achieved the best results with a F1 score of 0.72. The performance revealed consistency, 0.92-0.97 in the F1 score, in all settings after training with the RoBERTa model. The study highlighted the importance of seed quality rather than quantity in feeding NER models. This research reports on an efficient and accurate way to mine clinical notes for periodontal diagnoses, allowing researchers to easily and quickly build a NER model with the prompt generation approach. | 翻訳日:2023-11-22 14:12:52 公開日:2023-11-17 |
# 臨床ノートによる歯周炎診断のロバータによる抽出と正規発現 Extracting periodontitis diagnosis in clinical notes with RoBERTa and regular expression ( http://arxiv.org/abs/2311.10809v1 ) ライセンス: Link先を確認 | Yao-Shun Chuang, Chun-Teh Lee, Ryan Brandon, Trung Duong Tran, Oluwabunmi Tokede, Muhammad F. Walji, Xiaoqian Jiang | (参考訳) 本研究の目的は、テキスト処理と自然言語処理(NLP)モデルを用いて歯周炎診断のための臨床ノートをマイニングし、異なる正規表現(RE)法を用いて名前付きエンティティ認識(NER)モデルの性能を評価することである。
トレーニングデータの抽出と生成には,RE法の2つの複雑さレベルが用いられた。
SpaCyパッケージとRoBERTaトランスフォーマーモデルは、NERモデルの構築と手作業によるゴールド標準による性能評価に使用された。
RE法と金標準法を比較すると、REアルゴリズムの複雑さが増大すると、F1スコアは0.3-0.4から0.9に増加した。
NERモデルは評価基準で0.84-0.92を示す単純なRE法と、評価で0.95-0.99を示す高度なRE法と組み合わせRE法で優れた予測を示した。
本研究では,NER法とNLPモデルを組み合わせることで,自由テキストから構造化データへ対象情報を抽出し,非構造化ノートから欠損診断を行う必要性を満たす。 This study aimed to utilize text processing and natural language processing (NLP) models to mine clinical notes for the diagnosis of periodontitis and to evaluate the performance of a named entity recognition (NER) model on different regular expression (RE) methods. Two complexity levels of RE methods were used to extract and generate the training data. The SpaCy package and RoBERTa transformer models were used to build the NER model and evaluate its performance with the manual-labeled gold standards. The comparison of the RE methods with the gold standard showed that as the complexity increased in the RE algorithms, the F1 score increased from 0.3-0.4 to around 0.9. The NER models demonstrated excellent predictions, with the simple RE method showing 0.84-0.92 in the evaluation metrics, and the advanced and combined RE method demonstrating 0.95-0.99 in the evaluation. This study provided an example of the benefit of combining NER methods and NLP models in extracting target information from free-text to structured data and fulfilling the need for missing diagnoses from unstructured notes. | 翻訳日:2023-11-22 14:12:35 公開日:2023-11-17 |
# SENetV2: チャネルワイドおよびグローバル表現のための集積層 SENetV2: Aggregated dense layer for channelwise and global representations ( http://arxiv.org/abs/2311.10807v1 ) ライセンス: Link先を確認 | Mahendran Narayanan | (参考訳) 畳み込みニューラルネットワーク(CNN)は、空間的特徴を抽出し、視覚ベースのタスクにおける最先端の精度を実現することにより、画像分類に革命をもたらした。
提案するswish and excitation networkモジュールは、入力のチャネル毎の表現を収集する。
多層パーセプトロン(MLP)は、データからグローバル表現を学習し、ほとんどの画像分類モデルで画像の特徴を学習する。
本稿では,既存のアーキテクチャの性能を超えるように設計されたSqueeze励起残余モジュール内に,多分岐密度層である集積多層パーセプトロンを導入する。
提案手法は, 圧縮励振ネットワークモジュールと高密度層の組み合わせを利用する。
この融合は、ネットワークがチャネル毎のパターンをキャプチャし、グローバルな知識を持つ能力を高め、より優れた特徴表現をもたらす。
このモデルではsenetと比較してパラメータが無視できない増加を示す。
ベンチマークデータセットの広範な実験を行い、モデルを検証し、確立したアーキテクチャと比較する。
実験の結果,提案モデルの分類精度は著しく向上した。 Convolutional Neural Networks (CNNs) have revolutionized image classification by extracting spatial features and enabling state-of-the-art accuracy in vision-based tasks. The squeeze and excitation network proposed module gathers channelwise representations of the input. Multilayer perceptrons (MLP) learn global representation from the data and in most image classification models used to learn extracted features of the image. In this paper, we introduce a novel aggregated multilayer perceptron, a multi-branch dense layer, within the Squeeze excitation residual module designed to surpass the performance of existing architectures. Our approach leverages a combination of squeeze excitation network module with dense layers. This fusion enhances the network's ability to capture channel-wise patterns and have global knowledge, leading to a better feature representation. This proposed model has a negligible increase in parameters when compared to SENet. We conduct extensive experiments on benchmark datasets to validate the model and compare them with established architectures. Experimental results demonstrate a remarkable increase in the classification accuracy of the proposed model. | 翻訳日:2023-11-22 14:12:15 公開日:2023-11-17 |
# SEA++:多変量時系列教師なしドメイン適応のためのマルチグラフに基づく高次センサアライメント SEA++: Multi-Graph-based High-Order Sensor Alignment for Multivariate Time-Series Unsupervised Domain Adaptation ( http://arxiv.org/abs/2311.10806v1 ) ライセンス: Link先を確認 | Yucheng Wang, Yuecong Xu, Jianfei Yang, Min Wu, Xiaoli Li, Lihua Xie, Zhenghua Chen | (参考訳) Unsupervised Domain Adaptation (UDA) はラベル付きソースドメインとラベル付きターゲットドメインとのドメイン差を最小限にすることで、ラベル依存を減らすことに成功した。
しかし,これらの手法は多変量時系列(MTS)データを扱う際に問題となる。
MTSデータは通常複数のセンサーで構成され、それぞれ独自の分布を持つ。
この特徴は,センサレベルでの分布の相違を克服しつつ,グローバルな特徴の整合性を重視した既存のUDA手法を適応させることが困難である。
この問題に対処するために、実用的なドメイン適応シナリオを多変量時間系列無教師付きドメイン適応(MTS-UDA)として定式化する。
本稿では,MSS-UDAにおけるSEA(Sensor Alignment)を提案する。
局所的なセンサレベルでは,センサの特徴と領域間の相関を整合させる機能アライメントをデザインする。
グローバルセンサレベルでのドメイン差を低減するため,グローバルセンサ機能の制約を強制する機能アライメントを設計する。
さらに、機能アライメントの強化により、seaをsea++に拡張します。
特に,センサの特徴と相関性にマルチグラフに基づく高次アライメントを取り入れた。
MTS-UDAの公開MSSデータセット上で,SEAとSEA++の最先端性能が実証された。 Unsupervised Domain Adaptation (UDA) methods have been successful in reducing label dependency by minimizing the domain discrepancy between a labeled source domain and an unlabeled target domain. However, these methods face challenges when dealing with Multivariate Time-Series (MTS) data. MTS data typically consist of multiple sensors, each with its own unique distribution. This characteristic makes it hard to adapt existing UDA methods, which mainly focus on aligning global features while overlooking the distribution discrepancies at the sensor level, to reduce domain discrepancies for MTS data. To address this issue, a practical domain adaptation scenario is formulated as Multivariate Time-Series Unsupervised Domain Adaptation (MTS-UDA). In this paper, we propose SEnsor Alignment (SEA) for MTS-UDA, aiming to reduce domain discrepancy at both the local and global sensor levels. At the local sensor level, we design endo-feature alignment, which aligns sensor features and their correlations across domains. To reduce domain discrepancy at the global sensor level, we design exo-feature alignment that enforces restrictions on global sensor features. We further extend SEA to SEA++ by enhancing the endo-feature alignment. Particularly, we incorporate multi-graph-based high-order alignment for both sensor features and their correlations. Extensive empirical results have demonstrated the state-of-the-art performance of our SEA and SEA++ on public MTS datasets for MTS-UDA. | 翻訳日:2023-11-22 14:11:57 公開日:2023-11-17 |
# aamコンティンジェンシー管理のための強化学習フレームワークの標準化に向けて Towards a Standardized Reinforcement Learning Framework for AAM Contingency Management ( http://arxiv.org/abs/2311.10805v1 ) ライセンス: Link先を確認 | Luis E. Alvarez, Marc W. Brittain, Kara Breeden | (参考訳) アドバンスト・エア・モビリティ(advanced air mobility, aam)は次世代の航空輸送であり、電動垂直離着陸機(evtol)、自律飛行の強化、小型のuasパッケージの配送などの新しい参入者を含む。
これらの新しい車両と運用コンセプトにより、都市部周辺で現在起きていることを超えて密度を高め、新しいバッテリー技術を活用し、より自律的に操縦する航空機に移行したいという願望がもたらされる。
これらの目標を達成するためには、複雑な危険範囲にまたがって進化していくリスクを迅速に評価し、必要であれば飛行中の監督や自動意思決定によって適切な事態を犯すことでリスクを軽減できる、新たな安全管理システム機能の導入が不可欠となる。
近年、強化学習は、並行性管理を含む様々なアプリケーションにおいてリアルタイム意思決定を約束している。
本研究では,マルコフ決定過程(MDP)として並列性管理問題を定式化し,並列性管理のMDPをAAM-Gymシミュレーションフレームワークに統合する。
これにより強化学習アルゴリズムの迅速なプロトタイピングと既存システムの評価が可能になり、将来のアルゴリズム開発のためのコミュニティベンチマークを提供する。
我々は,環境に関するベースライン統計情報を報告し,性能指標を例示する。 Advanced Air Mobility (AAM) is the next generation of air transportation that includes new entrants such as electric vertical takeoff and landing (eVTOL) aircraft, increasingly autonomous flight operations, and small UAS package delivery. With these new vehicles and operational concepts comes a desire to increase densities far beyond what occurs today in and around urban areas, to utilize new battery technology, and to move toward more autonomously-piloted aircraft. To achieve these goals, it becomes essential to introduce new safety management system capabilities that can rapidly assess risk as it evolves across a span of complex hazards and, if necessary, mitigate risk by executing appropriate contingencies via supervised or automated decision-making during flights. Recently, reinforcement learning has shown promise for real-time decision making across a wide variety of applications including contingency management. In this work, we formulate the contingency management problem as a Markov Decision Process (MDP) and integrate the contingency management MDP into the AAM-Gym simulation framework. This enables rapid prototyping of reinforcement learning algorithms and evaluation of existing systems, thus providing a community benchmark for future algorithm development. We report baseline statistical information for the environment and provide example performance metrics. | 翻訳日:2023-11-22 14:11:34 公開日:2023-11-17 |
# 表現性向上のための音声モデルへの事前学習テキストの潜時空間変更に関する検討 A Study on Altering the Latent Space of Pretrained Text to Speech Models for Improved Expressiveness ( http://arxiv.org/abs/2311.10804v1 ) ライセンス: Link先を確認 | Mathias Vogel | (参考訳) 本報告では, 統合意味音声/テキスト埋め込みを前提とした拡散モデルを用いて, 凍結事前学習モデルの拡張により, テキスト音声(TTS)モデルの表現性制御を向上する課題について検討する。
本稿では,VAE ベースの TTS モデルで作業する場合の課題を特定し,潜時音声の特徴を変化させるための画像と画像の異なる手法を評価する。
この結果から,ttsシステムへの表現力制御の追加の複雑さや,今後の研究への道筋が示唆された。 This report explores the challenge of enhancing expressiveness control in Text-to-Speech (TTS) models by augmenting a frozen pretrained model with a Diffusion Model that is conditioned on joint semantic audio/text embeddings. The paper identifies the challenges encountered when working with a VAE-based TTS model and evaluates different image-to-image methods for altering latent speech features. Our results offer valuable insights into the complexities of adding expressiveness control to TTS systems and open avenues for future research in this direction. | 翻訳日:2023-11-22 14:11:11 公開日:2023-11-17 |
# アルファ安定トレーニングノイズを用いたニューラルネットワークのロバスト性向上 Robustness Enhancement in Neural Networks with Alpha-Stable Training Noise ( http://arxiv.org/abs/2311.10803v1 ) ライセンス: Link先を確認 | Xueqiong Yuan, Jipeng Li, Ercan Engin Kuruo\u{g}lu | (参考訳) 非完全センサや非完全環境のデータに対するディープラーニングの利用の増加に伴い、ディープラーニングシステムの堅牢性は重要な問題となっている。
ノイズに対する堅牢性を得るための一般的なアプローチは、ガウス雑音を付加したデータを用いたディープラーニングシステムの訓練である。
本研究では,ガウス雑音の一般的な選択に挑戦し,非ガウス雑音,特にアルファ安定雑音に対する強靭性の可能性を探る。
一般中央極限理論によって正当化され、様々な応用領域での観測によって証明されたアルファ安定雑音は自然界に広く存在している。
ガウス雑音とアルファ安定雑音で訓練したモデルの試験精度を比較することにより、ガウス雑音よりもアルファ安定雑音で訓練した方が、特にインパルス雑音でデータセットが破損した場合に有効であることが判明し、モデルの堅牢性が改善される。
この結論の一般性は、画像および時系列データセットを含むさまざまなディープラーニングモデルおよび他のベンチマーク破損データセットで実施された実験によって検証される。
そこで本研究では,学習データに典型的に付加されるガウス雑音をアルファ安定雑音に置き換える新しいデータ拡張法を提案する。 With the increasing use of deep learning on data collected by non-perfect sensors and in non-perfect environments, the robustness of deep learning systems has become an important issue. A common approach for obtaining robustness to noise has been to train deep learning systems with data augmented with Gaussian noise. In this work, we challenge the common choice of Gaussian noise and explore the possibility of stronger robustness for non-Gaussian impulsive noise, specifically alpha-stable noise. Justified by the Generalized Central Limit Theorem and evidenced by observations in various application areas, alpha-stable noise is widely present in nature. By comparing the testing accuracy of models trained with Gaussian noise and alpha-stable noise on data corrupted by different noise, we find that training with alpha-stable noise is more effective than Gaussian noise, especially when the dataset is corrupted by impulsive noise, thus improving the robustness of the model. The generality of this conclusion is validated through experiments conducted on various deep learning models with image and time series datasets, and other benchmark corrupted datasets. Consequently, we propose a novel data augmentation method that replaces Gaussian noise, which is typically added to the training data, with alpha-stable noise. | 翻訳日:2023-11-22 14:10:59 公開日:2023-11-17 |
# 従来のSNNは本当に効率的か?
ネットワーク量子化の展望 Is Conventional SNN Really Efficient? A Perspective from Network Quantization ( http://arxiv.org/abs/2311.10802v1 ) ライセンス: Link先を確認 | Guobin Shen, Dongcheng Zhao, Tenglong Li, Jindong Li, Yi Zeng | (参考訳) スパイキングニューラルネットワーク(SNN)はその高エネルギー効率と膨大なポテンシャルで広く称賛されている。
しかしながら、SNNと量子化ニューラルネットワーク(ANN)を批判的に対比し関連付ける包括的な研究は、しばしばANNに対する公正さに欠ける歪んだ比較につながる。
本稿では、SNNにおける時間ステップとアクティベーション値の量子化ビット幅が類似表現であることを示す統一的な視点を紹介する。
これに基づいて,SNNのエネルギー消費を推定するための,より実用的で合理的なアプローチを提案する。
従来のシナプス操作(SynOps)から切り離され、我々は"Bit Budget"の概念を擁護します。
この概念は、厳密なハードウェア制約の下で、重み、アクティベーション値、時間的ステップの間の計算資源とストレージリソースを戦略的に割り当てることに関する複雑な議論を可能にする。
ビット予算パラダイムに導かれ、スパイクパターンや重み量子化への取り組みが、時間的属性よりもむしろモデルパフォーマンスに重大な影響を及ぼすことを認識している。
SNNの全体設計を考慮したBit Budgetの利用により、静的画像とニューロモルフィックデータセットを含む、さまざまなデータタイプにわたるモデルパフォーマンスが向上する。
我々の発見は、SNNと量子化されたANNの理論的因果関係を橋渡しし、エネルギー効率のよいニューラル計算における将来の取り組みのための実用的な軌道を照らす。 Spiking Neural Networks (SNNs) have been widely praised for their high energy efficiency and immense potential. However, comprehensive research that critically contrasts and correlates SNNs with quantized Artificial Neural Networks (ANNs) remains scant, often leading to skewed comparisons lacking fairness towards ANNs. This paper introduces a unified perspective, illustrating that the time steps in SNNs and quantized bit-widths of activation values present analogous representations. Building on this, we present a more pragmatic and rational approach to estimating the energy consumption of SNNs. Diverging from the conventional Synaptic Operations (SynOps), we champion the "Bit Budget" concept. This notion permits an intricate discourse on strategically allocating computational and storage resources between weights, activation values, and temporal steps under stringent hardware constraints. Guided by the Bit Budget paradigm, we discern that pivoting efforts towards spike patterns and weight quantization, rather than temporal attributes, elicits profound implications for model performance. Utilizing the Bit Budget for holistic design consideration of SNNs elevates model performance across diverse data types, encompassing static imagery and neuromorphic datasets. Our revelations bridge the theoretical chasm between SNNs and quantized ANNs and illuminate a pragmatic trajectory for future endeavors in energy-efficient neural computations. | 翻訳日:2023-11-22 14:10:35 公開日:2023-11-17 |
# 自然言語の固有次元評価のための形式的概念分析 Formal concept analysis for evaluating intrinsic dimension of a natural language ( http://arxiv.org/abs/2311.10862v1 ) ライセンス: Link先を確認 | Sergei O. Kuznetsov, Vasilii A. Gromov, Nikita S. Borodin, and Andrei M. Divavin | (参考訳) ベンガル語とロシア語の言語多様体の固有次元を決定するための計算実験の結果について述べる。
同時に、これらの言語における単語のセットとビッグラムのセットは別々に検討された。
この問題の解法は形式的概念解析アルゴリズムに基づいていた。
これらの言語の固有次元は、自然言語処理において一般的なニューラルネットワークモデルで使用される次元よりもかなり小さいことが判明した。 Some results of a computational experiment for determining the intrinsic dimension of linguistic varieties for the Bengali and Russian languages are presented. At the same time, both sets of words and sets of bigrams in these languages were considered separately. The method used to solve this problem was based on formal concept analysis algorithms. It was found that the intrinsic dimensions of these languages are significantly less than the dimensions used in popular neural network models in natural language processing. | 翻訳日:2023-11-22 14:01:14 公開日:2023-11-17 |
# 量子ゼロサムゲームにおけるナッシュ平衡の擬似高速化 A Quadratic Speedup in Finding Nash Equilibria of Quantum Zero-Sum Games ( http://arxiv.org/abs/2311.10859v1 ) ライセンス: Link先を確認 | Francisca Vasconcelos, Emmanouil-Vasileios Vlatakis-Gkaragkounis, Panayotis Mertikopoulos, Georgios Piliouras, Michael I. Jordan | (参考訳) 非局所ゲーム、量子インタラクティブ証明、量子生成敵ネットワークなどの領域における最近の発展は、量子ゲーム理論、特に量子ゼロサムゲームに新たな関心を抱いている。
古典的なゲーム理論の中心はナッシュ平衡の効率的なアルゴリズム計算であり、両者の最適戦略を表している。
2008年、Jain と Watrous は Matrix Multiplicative Weight Updates (MMWU) 法を用いて量子ゼロサムゲームにおける平衡を計算するための最初の古典的アルゴリズムを提案し、$$\mathcal{O}(d/\epsilon^2)$ iterations to $\epsilon$-Nash equilibria in the four^d$-dimensional spectraplex とした。
本研究では,超勾配機構を用いてmmwuを一般化する量子最適化アルゴリズムの階層を提案する。
この階層内では、最適化行列乗算重み更新(OMMWU)アルゴリズムを導入し、平均収束複雑性を$\mathcal{O}(d/\epsilon)$ iterations to $\epsilon$-Nash equilibriaとして確立する。
このジャイナとワトラスのアルゴリズムに対する二次的なスピードアップは、量子ゼロサムゲームにおける$\epsilon$-Nash平衡の計算のための新しいベンチマークを設定する。 Recent developments in domains such as non-local games, quantum interactive proofs, and quantum generative adversarial networks have renewed interest in quantum game theory and, specifically, quantum zero-sum games. Central to classical game theory is the efficient algorithmic computation of Nash equilibria, which represent optimal strategies for both players. In 2008, Jain and Watrous proposed the first classical algorithm for computing equilibria in quantum zero-sum games using the Matrix Multiplicative Weight Updates (MMWU) method to achieve a convergence rate of $\mathcal{O}(d/\epsilon^2)$ iterations to $\epsilon$-Nash equilibria in the $4^d$-dimensional spectraplex. In this work, we propose a hierarchy of quantum optimization algorithms that generalize MMWU via an extra-gradient mechanism. Notably, within this proposed hierarchy, we introduce the Optimistic Matrix Multiplicative Weights Update (OMMWU) algorithm and establish its average-iterate convergence complexity as $\mathcal{O}(d/\epsilon)$ iterations to $\epsilon$-Nash equilibria. This quadratic speed-up relative to Jain and Watrous' original algorithm sets a new benchmark for computing $\epsilon$-Nash equilibria in quantum zero-sum games. | 翻訳日:2023-11-22 14:01:09 公開日:2023-11-17 |
# WATUNet: ボリュームスウィープイメージング超音波のセグメント化のためのディープニューラルネットワーク WATUNet: A Deep Neural Network for Segmentation of Volumetric Sweep Imaging Ultrasound ( http://arxiv.org/abs/2311.10857v1 ) ライセンス: Link先を確認 | Donya Khaledyan, Thomas J. Marini, Avice OConnell, Steven Meng, Jonah Kan, Galen Brennan, Yu Zhao, Timothy M.Baran, Kevin J. Parker | (参考訳) 目的。
世界中の乳がん診断に限られたアクセスは、治療の遅れにつながる。
超音波(Ultrasound)は、効果的だが未使用の手法であり、ソノグラフィーの専門的な訓練を必要とするため、広く使われることを妨げている。
アプローチ。
ボリュームスイープイメージング(vsi)は、訓練されていないオペレータが高品質な超音波画像を撮影できる革新的なアプローチである。
convolutional neural networks(cnns)のようなディープラーニングと組み合わせることで、乳癌の診断を変換し、精度を高め、時間とコストを節約し、患者の予後を改善することができる。
医用画像のセグメンテーションで広く使われているUNetアーキテクチャは、勾配の消失やマルチスケールの特徴抽出の欠如、選択的領域の注意力といった制限がある。
本研究では,Wavelet_Attention_UNet(WATUNet)と呼ばれる新しいセグメンテーションモデルを提案する。
本モデルでは、簡単な接続ではなく、ウェーブレットゲート(WG)とアテンションゲート(AG)をエンコーダとデコーダに組み込むことにより、モデル性能を向上させる。
主な結果。
分析には2つのデータセットが使用される。
パブリックな「Breast Ultrasound Images」(BUSI)データセットは780枚、VSIデータセットは3818枚である。
いずれのデータセットも無腫瘤,良性腫瘤,悪性腫瘤の3種類に分類された。
セグメンテーションの結果は,他のディープネットワークと比較して優れた性能を示した。
提案アルゴリズムは,VSIデータセットではDice係数0.94,F1スコア0.94,公開データセットでは0.93,0.94を得た。 Objective. Limited access to breast cancer diagnosis globally leads to delayed treatment. Ultrasound, an effective yet underutilized method, requires specialized training for sonographers, which hinders its widespread use. Approach. Volume sweep imaging (VSI) is an innovative approach that enables untrained operators to capture high-quality ultrasound images. Combined with deep learning, like convolutional neural networks (CNNs), it can potentially transform breast cancer diagnosis, enhancing accuracy, saving time and costs, and improving patient outcomes. The widely used UNet architecture, known for medical image segmentation, has limitations, such as vanishing gradients and a lack of multi-scale feature extraction and selective region attention. In this study, we present a novel segmentation model known as Wavelet_Attention_UNet (WATUNet). In this model, we incorporate wavelet gates (WGs) and attention gates (AGs) between the encoder and decoder instead of a simple connection to overcome the limitations mentioned, thereby improving model performance. Main results. Two datasets are utilized for the analysis. The public "Breast Ultrasound Images" (BUSI) dataset of 780 images and a VSI dataset of 3818 images. Both datasets contained segmented lesions categorized into three types: no mass, benign mass, and malignant mass. Our segmentation results show superior performance compared to other deep networks. The proposed algorithm attained a Dice coefficient of 0.94 and an F1 score of 0.94 on the VSI dataset and scored 0.93 and 0.94 on the public dataset, respectively. | 翻訳日:2023-11-22 14:00:42 公開日:2023-11-17 |
# 病院外来文字からのフリーテキスト診断のマニュアル・自動コーディングにおける一貫性・品質・課題の検討 Exploring the Consistency, Quality and Challenges in Manual and Automated Coding of Free-text Diagnoses from Hospital Outpatient Letters ( http://arxiv.org/abs/2311.10856v1 ) ライセンス: Link先を確認 | Warren Del-Pinto, George Demetriou, Meghna Jani, Rikesh Patel, Leanne Gray, Alex Bulcock, Niels Peek, Andrew S. Kanter, William G Dixon, Goran Nenadic | (参考訳) 相互運用可能な構造化データを生成するための構造化されていない自由テキストの符号化は、直接ケアの改善、臨床コミュニケーションの支援、臨床研究の実現に不可欠である。
本研究は, 病院外来での診断における手作業と自動臨床診断の質と一貫性を評価する。
ランダムに選択された100文字を用いて、2人のヒト臨床医がSNOMED CTに診断リストの符号化を行った。
IMOのConcept Taggerを使った自動コーディングも行われた。
金の基準は、注釈付き診断のサブセットから臨床医のパネルによって構築された。
本研究は,(1)距離に基づく距離計測,SNOMED CTのグラフ化,(2)臨床医のパネルで合意された定性的測定による手動・自動符号化の品質と整合性を評価するために用いられた。
また,両指標の相関も評価した。
人やコンピュータが生成したコードと金の標準を比較した結果、自由テキスト記述に1つの診断しか含まれていない場合に、人間はわずかにパフォーマンスが向上した。
自動コーディングは、約90%の症例で臨床医のパネルで受け入れられた。 Coding of unstructured clinical free-text to produce interoperable structured data is essential to improve direct care, support clinical communication and to enable clinical research.However, manual clinical coding is difficult and time consuming, which motivates the development and use of natural language processing for automated coding. This work evaluates the quality and consistency of both manual and automated clinical coding of diagnoses from hospital outpatient letters. Using 100 randomly selected letters, two human clinicians performed coding of diagnosis lists to SNOMED CT. Automated coding was also performed using IMO's Concept Tagger. A gold standard was constructed by a panel of clinicians from a subset of the annotated diagnoses. This was used to evaluate the quality and consistency of both manual and automated coding via (1) a distance-based metric, treating SNOMED CT as a graph, and (2) a qualitative metric agreed upon by the panel of clinicians. Correlation between the two metrics was also evaluated. Comparing human and computer-generated codes to the gold standard, the results indicate that humans slightly out-performed automated coding, while both performed notably better when there was only a single diagnosis contained in the free-text description. Automated coding was considered acceptable by the panel of clinicians in approximately 90% of cases. | 翻訳日:2023-11-22 14:00:12 公開日:2023-11-17 |
# 不純物からの2次元常磁性半導体の波動関数伝播 Wave function propagation in a two-dimensional paramagnetic semiconductor from an impurity ( http://arxiv.org/abs/2311.10853v1 ) ライセンス: Link先を確認 | Josh Wanninger and Gonzalo Ordonez | (参考訳) 半BHZモデル(QWZモデルとしても知られる)と呼ばれる2次元常磁性半導体モデルへの修正をシミュレートし、時間反転ペアを導入した修正フルBHZモデルをシミュレートした。
モデルの変更には、格子に接続された1つまたは複数の不純物の追加や、時間反転対間の接続が含まれる。
私たちはJuliaプログラミング言語を使って、時間進化の計算を高速化する方法を示しました。
時間変化をシミュレートすることで、これらの修正の効果の違いを観察することができる。
シミュレーションにより,無限qwzモデルトポロジカル状態に伴う散乱挙動の存在が示された。
さらに,不純物およびハミルトンの虚成分の対称性や反対称性のパラメータや配置に関する散乱・吸収挙動も観察した。
これらのツールと初期の成果は、モデルのユニークな散乱と吸収の挙動を使い、より複雑で物理的に正確なモデル修正を探求する電子機器の開発の基礎を築いた。 We simulated modifications to a model of a two-dimensional paramagnetic semiconductor called the half-BHZ model, also known as the QWZ model, and simulated a modified full BHZ model, where a time reversal pair is introduced. Our modifications to the models include adding single and multiple impurities connected to the lattices or as a connection between the time-reversal pairs. We employed the Julia programming language to show how to speed up calculations for time evolutions. By simulating the time evolutions, we could observe the differences in the effects of these modifications. Our simulations showed the presence of scattering behavior associated with the infinite QWZ model topological states. Moreover, we observed scattering and absorption behavior related to the parameters and placements of impurities and Hamiltonian imaginary component's symmetry or anti-symmetry. These tools and early results lay the foundations for developing electronic devices that use the models' unique scattering and absorption behaviors and explore more complex and physically accurate modifications to the models. | 翻訳日:2023-11-22 13:59:45 公開日:2023-11-17 |
# 下流タスク一般化のためのLoRAアダプタのトークンレベル適応 Token-level Adaptation of LoRA Adapters for Downstream Task Generalization ( http://arxiv.org/abs/2311.10847v1 ) ライセンス: Link先を確認 | Joshua Belofsky | (参考訳) 本稿では,小規模言語モデルにおけるLoRAアダプタを任意のダウンストリームタスクに適応させる手法を提案する。
従来の混在型アーキテクチャとは異なり,本手法では,トレーニングや推論の計算要求を増大させることなく,専門家の重み付けされた組み合わせを選択するために勾配のないルーティング関数を用いる。
その結果,LoRAアダプタのトークンレベル適応は,数学(GSM8K),科学(ARC-Challenge),読書理解(SQuAD),コーディング(CodeAlpaca-20k)タスクにおいて,基礎となるLlama-2-7bモデルよりも優れていた。
さらに、トークンレベルの適応の平均性能は、各タスクごとに微調整された個々のモデルよりも優れており、推論中に各トークンの適応で観察される最高のパフォーマンスが示される。
本研究のコードは,パブリックリポジトリを通じて公開されている。 This paper introduces a method for adapting LoRA adapters in smaller-sized language models to arbitrary downstream tasks. Unlike standard mixture-of-expert architectures, our method employs a gradient-free routing function to choose a weighted combination of experts without increasing the compute requirements for training or inference. The results show that token-level adaptation of LoRA adapters outperforms the base Llama-2-7b model across mathematical (GSM8K), scientific (ARC-Challenge), reading comprehension (SQuAD), and coding (CodeAlpaca-20k) tasks. Further evaluations also show that the average performance of token-level adaptation outperforms individual models fine-tuned for each of the tasks with the best performance observed in adaptation of every-other token during inference. The code for this study is made available through a public repository. | 翻訳日:2023-11-22 13:59:29 公開日:2023-11-17 |
# 密度サンプリングによる3次元物体検出の領域一般化 Domain Generalization of 3D Object Detection by Density-Resampling ( http://arxiv.org/abs/2311.10845v1 ) ライセンス: Link先を確認 | Shuangzhi Li, Lei Ma, and Xingyu Li | (参考訳) ポイントクラウドベースの3Dオブジェクト検出は、新しいドメインギャップを持つデータに遭遇する際のパフォーマンス劣化に悩まされる。
これに対処するため、sdg(single-domain generalization)は、限定された単一ソースドメインでトレーニングされた検出モデルを一般化し、未探索領域で堅牢に実行することを目的としている。
本稿では,3次元物体検出のターゲット領域への一般化性を向上させるためのSDG手法を提案する。
データ拡張にのみ焦点をあてた3Dオブジェクト検出のための従来のSDG処理とは異なり、本研究では新しいデータ拡張手法を導入し、方法論に新しいマルチタスク学習戦略を貢献する。
具体的には,データ拡張の観点から,多種多様な点密度から生じる性能損失を軽減するため,汎用的な物理認識密度ベースデータ拡張法(pdda)を考案する。
学習方法論の観点から、3Dオブジェクト検出のためのマルチタスク学習を開発する。ソーストレーニング中は、メインの標準検出タスクに加えて、補助的な自己監督型3Dシーン復元タスクを活用し、背景および前景におけるエンコーダの理解を高め、オブジェクトの認識と検出を改善する。
さらに,補助的な自己監視タスクに基づいて,エンコーダのパラメータを効率的に調整して被検出領域に適応させ,さらに領域ギャップを橋渡しする3次元物体検出の領域一般化のためのテスト時間適応法を提案する。
カー」,「ペデストリアン」,「サイクリスト」検出を網羅した大規模なクロスデータセット実験により,我々の手法は最先端のSDG法よりも優れており,場合によっては教師なしドメイン適応法を超越することもある。
コードは公開される予定だ。 Point-cloud-based 3D object detection suffers from performance degradation when encountering data with novel domain gaps. To tackle it, the single-domain generalization (SDG) aims to generalize the detection model trained in a limited single source domain to perform robustly on unexplored domains. In this paper, we propose an SDG method to improve the generalizability of 3D object detection to unseen target domains. Unlike prior SDG works for 3D object detection solely focusing on data augmentation, our work introduces a novel data augmentation method and contributes a new multi-task learning strategy in the methodology. Specifically, from the perspective of data augmentation, we design a universal physical-aware density-based data augmentation (PDDA) method to mitigate the performance loss stemming from diverse point densities. From the learning methodology viewpoint, we develop a multi-task learning for 3D object detection: during source training, besides the main standard detection task, we leverage an auxiliary self-supervised 3D scene restoration task to enhance the comprehension of the encoder on background and foreground details for better recognition and detection of objects. Furthermore, based on the auxiliary self-supervised task, we propose the first test-time adaptation method for domain generalization of 3D object detection, which efficiently adjusts the encoder's parameters to adapt to unseen target domains during testing time, to further bridge domain gaps. Extensive cross-dataset experiments covering "Car", "Pedestrian", and "Cyclist" detections, demonstrate our method outperforms state-of-the-art SDG methods and even overpass unsupervised domain adaptation methods under some circumstances. The code will be made publicly available. | 翻訳日:2023-11-22 13:59:12 公開日:2023-11-17 |
# 胎児静止状態機能mri脳分節における人工知能 : 3次元unet,vnet,highres-netモデルの比較検討 Artificial Intelligence in Fetal Resting-State Functional MRI Brain Segmentation: A Comparative Analysis of 3D UNet, VNet, and HighRes-Net Models ( http://arxiv.org/abs/2311.10844v1 ) ライセンス: Link先を確認 | Farzan Vahedifard, Xuchu Liu, Mehmet Kocak, H. Asher Ai, Mark Supanich, Christopher Sica., Kranthi K Marathu, Seth Adler, Maysam Orouskhani, Sharon Byrd | (参考訳) はじめに:胎児の安静時機能的磁気共鳴画像(rs-fmri)は、出生前に脳の発達に関する貴重な洞察を提供する、急速に発展する分野である。
非定常3次元脳体積における胎児の脳の正確な分画は、この領域において重要な課題である。
現在のツールの精度は 0.15 である。
Aim: 本研究は胎児脳fMRI, 磁気共鳴画像(fMRI)における自動脳セグメント化のための人工知能(AI)の新たな応用を紹介した。
オープンデータセットを使用して、AIモデルをトレーニングし、パフォーマンスを評価し、胎児脳のfMRIセグメンテーションに関連する特定の課題に対処する能力と制限を分析する。
方法:160例(参考:胎児-fMRI - OpenNeuro)からなるオープンソースの胎児機能MRI(fMRI)データセットを使用した。
5倍のクロスバリデーション手法を用いてfMRIセグメンテーションのためのAIモデルを開発した。
3D UNet、VNet、HighResNetの3つのAIモデルが採用された。
自動ハイパーパラメータチューニングツールであるOpsunaは、これらのモデルの最適化に使用された。
結果と考察:3つのAIモデル(VNet, UNet, HighRes-net)のDiceスコアを比較した。
以上の結果から,胎児の安静時fMRI脳セグメンテーションにおける各種AIモデルの性能が明らかになった。
vnetモデルは、このアプリケーションで有望であるが、highres-netモデルを含む各モデルの可能性と限界を完全に探求するために、さらなる調査が必要である。
この研究は、胎児脳のfMRIセグメンテーションにおけるAIの応用に関するさらなる研究の基礎となる。 Introduction: Fetal resting-state functional magnetic resonance imaging (rs-fMRI) is a rapidly evolving field that provides valuable insight into brain development before birth. Accurate segmentation of the fetal brain from the surrounding tissue in nonstationary 3D brain volumes poses a significant challenge in this domain. Current available tools have 0.15 accuracy. Aim: This study introduced a novel application of artificial intelligence (AI) for automated brain segmentation in fetal brain fMRI, magnetic resonance imaging (fMRI). Open datasets were employed to train AI models, assess their performance, and analyze their capabilities and limitations in addressing the specific challenges associated with fetal brain fMRI segmentation. Method: We utilized an open-source fetal functional MRI (fMRI) dataset consisting of 160 cases (reference: fetal-fMRI - OpenNeuro). An AI model for fMRI segmentation was developed using a 5-fold cross-validation methodology. Three AI models were employed: 3D UNet, VNet, and HighResNet. Optuna, an automated hyperparameter-tuning tool, was used to optimize these models. Results and Discussion: The Dice scores of the three AI models (VNet, UNet, and HighRes-net) were compared, including a comparison between manually tuned and automatically tuned models using Optuna. Our findings shed light on the performance of different AI models for fetal resting-state fMRI brain segmentation. Although the VNet model showed promise in this application, further investigation is required to fully explore the potential and limitations of each model, including the HighRes-net model. This study serves as a foundation for further extensive research into the applications of AI in fetal brain fMRI segmentation. | 翻訳日:2023-11-22 13:58:41 公開日:2023-11-17 |
# スマートルーティングルールとワークフロー管理を備えたAIアルゴリズムデプロイメントの統合と実装戦略 Integration and Implementation Strategies for AI Algorithm Deployment with Smart Routing Rules and Workflow Management ( http://arxiv.org/abs/2311.10840v1 ) ライセンス: Link先を確認 | Barbaros Selnur Erdal, Vikash Gupta, Mutlu Demirer, Kim H. Fair, Richard D. White, Jeff Blair, Barbara Deichert, Laurie Lafleur, Ming Melvin Qin, David Bericat, Brad Genereaux | (参考訳) 本稿では、医療産業における人工知能(AI)ソリューションの普及を妨げている課題について、医療画像のコンピュータビジョンアプリケーションに焦点をあて、相互運用性とエンタープライズグレードのスケーラビリティがこれらの課題にどう対処できるかを考察する。
医療ワークフローの複雑な性質、大規模でセキュアな医療画像データ管理の複雑さ、ai開発のための標準化されたフレームワークの欠如は、大きな障壁をもたらし、それらに対処するための新しいパラダイムを必要とする。
本稿では、医療ワークフローにおける異種アプリケーションを接続するための重要な要素として、相互運用性の役割について考察する。
DICOM、Health Level 7 HL7、Integrated the Healthcare Enterprise (IHE)といった標準は、一般的な画像ワークフローの基礎として強調されている。
特定の焦点はDICOMゲートウェイの役割であり、ローレルブリッジはこの領域における変革の取り組みをリードしている。
エンタープライズのスケーラビリティを促進するには、新しいツールが必要です。
2019年に設立されたMonAIプロジェクトは、医療AIアプリケーションの開発を再定義するためのイニシアチブとして紹介されている。
Project MONAIのコンポーネントであるMONAI Deploy App SDKは、パッケージングとデプロイメントプロセスを簡素化し、AIアプリケーションの反復可能でスケーラブルで標準化されたデプロイメントパターンを可能にする重要なツールとして特定されている。
この抽象概念は、医療におけるAIの採用の成功による潜在的影響を強調し、救命と省エネの両方の洞察と、放射線科のワークフローにおける効率の促進を提供する。
NVIDIAやLaurel Bridgeといった組織とのコラボレーションによって実証された、学術と産業の協力活動は、医療AIソリューションの採用を促進する上で不可欠であると強調されている。 This paper reviews the challenges hindering the widespread adoption of artificial intelligence (AI) solutions in the healthcare industry, focusing on computer vision applications for medical imaging, and how interoperability and enterprise-grade scalability can be used to address these challenges. The complex nature of healthcare workflows, intricacies in managing large and secure medical imaging data, and the absence of standardized frameworks for AI development pose significant barriers and require a new paradigm to address them. The role of interoperability is examined in this paper as a crucial factor in connecting disparate applications within healthcare workflows. Standards such as DICOM, Health Level 7 HL7, and Integrating the Healthcare Enterprise (IHE) are highlighted as foundational for common imaging workflows. A specific focus is placed on the role of DICOM gateways, with Laurel Bridge leading transformational efforts in this area. To drive enterprise scalability, new tools are needed. Project MONAI, established in 2019, is introduced as an initiative aiming to redefine the development of medical AI applications. The MONAI Deploy App SDK, a component of Project MONAI, is identified as a key tool in simplifying the packaging and deployment process, enabling repeatable, scalable, and standardized deployment patterns for AI applications. The abstract underscores the potential impact of successful AI adoption in healthcare, offering physicians both life-saving and time-saving insights and driving efficiencies in radiology department workflows. The collaborative efforts between academia and industry, exemplified by collaborations with organizations like NVIDIA and Laurel Bridge, are emphasized as essential for advancing the adoption of healthcare AI solutions. | 翻訳日:2023-11-22 13:58:16 公開日:2023-11-17 |
# 統合ベンダ分解学習によるl型2段確率scucの高速化 Accelerating L-shaped Two-stage Stochastic SCUC with Learning Integrated Benders Decomposition ( http://arxiv.org/abs/2311.10835v1 ) ライセンス: Link先を確認 | Fouad Hasan, Amin Kargarian | (参考訳) ベンダー分解は大きな混合整数問題を解くために広く使われている。
本稿では、機械学習を活用し、二段階確率的セキュリティ制約単位コミットメント(SCUC)を解決するためのBenders分解の強化版を提案する。
この問題はマスター問題と負荷シナリオに対応するサブプロブレムに分解される。
目標は、ベンダー分解の計算コストとメモリ使用量を削減し、よりタイトなカットを作成し、マスター問題のサイズを減らすことである。
回帰ベンダ,分類ベンダ,回帰分類ベンダの3つのアプローチが提案されている。
regressorはロードプロファイルシナリオを読み、サブproblemのobjective function proxy変数を予測し、マスター問題のより厳密なカットを形成する。
基準は、低い限界改善への貢献に関するカットの有用性のレベルを測定するために定義される。
実現可能な領域を形成するために必要な情報を含む有用なカットを、分類学習者と無関係に識別する。
マスター問題に対して有用なカットを反復的に追加し、不要なカットを破棄して各ベンダーイテレーションの計算負担を軽減する。
複数の試験系におけるシミュレーション研究により,従来のマルチカットベンダ分解に比べて2段階scucに対する学習支援ベンダ分解の有効性が示された。 Benders decomposition is widely used to solve large mixed-integer problems. This paper takes advantage of machine learning and proposes enhanced variants of Benders decomposition for solving two-stage stochastic security-constrained unit commitment (SCUC). The problem is decomposed into a master problem and subproblems corresponding to a load scenario. The goal is to reduce the computational costs and memory usage of Benders decomposition by creating tighter cuts and reducing the size of the master problem. Three approaches are proposed, namely regression Benders, classification Benders, and regression-classification Benders. A regressor reads load profile scenarios and predicts subproblem objective function proxy variables to form tighter cuts for the master problem. A criterion is defined to measure the level of usefulness of cuts with respect to their contribution to lower bound improvement. Useful cuts that contain the necessary information to form the feasible region are identified with and without a classification learner. Useful cuts are iteratively added to the master problem, and non-useful cuts are discarded to reduce the computational burden of each Benders iteration. Simulation studies on multiple test systems show the effectiveness of the proposed learning-aided Benders decomposition for solving two-stage SCUC as compared to conventional multi-cut Benders decomposition. | 翻訳日:2023-11-22 13:57:50 公開日:2023-11-17 |
# 生成AIが計算社会科学の障壁を減らした Generative AI has lowered the barriers to computational social sciences ( http://arxiv.org/abs/2311.10833v1 ) ライセンス: Link先を確認 | Yongjun Zhang | (参考訳) 生成的人工知能(AI)は、計算社会科学の分野に革命をもたらし、特に広範なプログラミングの専門知識を持たない学者にとって、マルチモーダルデータを解析する新たな可能性を生み出した。
このブレークスルーは社会科学の領域に深い影響をもたらす。
まず、生成AIは、コードの生成、アノテーション、デバッグを自動化することで、社会科学者の生産性を大幅に向上させることができる。
第2に、プロンプトエンジニアリングの革新的利用を通じて、研究者たちが高度なデータ分析を掘り下げることを可能にする。
最後に、計算社会科学の教育分野は、学習者のための複雑なコードに注釈を付け、解明し、学習プロセスを簡素化し、テクノロジーをよりアクセスしやすくする能力を考えると、これらのツールから大きな恩恵を受けることになる。 Generative artificial intelligence (AI) has revolutionized the field of computational social science, unleashing new possibilities for analyzing multimodal data, especially for scholars who may not have extensive programming expertise. This breakthrough carries profound implications for the realm of social sciences. Firstly, generative AI can significantly enhance the productivity of social scientists by automating the generation, annotation, and debugging of code. Secondly, it empowers researchers to delve into sophisticated data analysis through the innovative use of prompt engineering. Lastly, the educational sphere of computational social science stands to benefit immensely from these tools, given their exceptional ability to annotate and elucidate complex codes for learners, thereby simplifying the learning process and making the technology more accessible. | 翻訳日:2023-11-22 13:57:32 公開日:2023-11-17 |
# 連合学習のための機械学習モデルの検討:アプローチ、パフォーマンス、限界のレビュー Exploring Machine Learning Models for Federated Learning: A Review of Approaches, Performance, and Limitations ( http://arxiv.org/abs/2311.10832v1 ) ライセンス: Link先を確認 | Elaheh Jafarigol, Theodore Trafalis, Talayeh Razzaghi, Mona Zamankhani | (参考訳) 人工知能の世界では、フェデレーション学習は個人のデータのプライバシーを守るために強化された分散学習フレームワークである。
フェデレーション学習は、データに敏感な分野における共同研究の基盤となる。
連合学習は現実世界の問題にいくつかの意味を持つ。
危機時には、リアルタイムな意思決定が重要である場合、フェデレーション学習は、機密データを共有することなく、複数のエンティティが集団で作業できるようにする。
この分散アプローチにより、複数のソースからの情報を活用し、より多様な洞察を得ることができます。
本稿では,過去数年間におけるプライバシ保全機械学習に関する文献の系統的レビューを行い,体系的レビューとメタ分析(prisma)ガイドラインの推奨報告項目について述べる。
具体的には、フェデレートラーニングのフレームワークで使用される教師あり教師なし機械学習アルゴリズム、アンサンブル手法、メタヒューリスティックアプローチ、ブロックチェーン技術、強化学習の広範なレビューと、フェデレーションラーニングアプリケーションの概要を紹介する。
本稿では,過去数年間における連合学習の構成要素とその応用に関する文献をレビューする。
本研究の主な目的は,機械学習の観点からの連合学習の包括的概要を研究者や実践者に提供することである。
連合学習におけるオープン問題と今後の研究方向性についても考察する。 In the growing world of artificial intelligence, federated learning is a distributed learning framework enhanced to preserve the privacy of individuals' data. Federated learning lays the groundwork for collaborative research in areas where the data is sensitive. Federated learning has several implications for real-world problems. In times of crisis, when real-time decision-making is critical, federated learning allows multiple entities to work collectively without sharing sensitive data. This distributed approach enables us to leverage information from multiple sources and gain more diverse insights. This paper is a systematic review of the literature on privacy-preserving machine learning in the last few years based on the Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) guidelines. Specifically, we have presented an extensive review of supervised/unsupervised machine learning algorithms, ensemble methods, meta-heuristic approaches, blockchain technology, and reinforcement learning used in the framework of federated learning, in addition to an overview of federated learning applications. This paper reviews the literature on the components of federated learning and its applications in the last few years. The main purpose of this work is to provide researchers and practitioners with a comprehensive overview of federated learning from the machine learning point of view. A discussion of some open problems and future research directions in federated learning is also provided. | 翻訳日:2023-11-22 13:57:16 公開日:2023-11-17 |
# 拡張駆動原子配列における定常超放射能の破壊 Breakdown of steady-state superradiance in extended driven atomic arrays ( http://arxiv.org/abs/2311.10824v1 ) ライセンス: Link先を確認 | Stefan Ostermann, Oriol Rubies-Bigorda, Victoria Zhang, Susanne F. Yelin | (参考訳) 自由空間における個々の原子の密集配列をよく制御する最近の進歩は、これらの系の拡張された性質が超放射現象にどのように影響するかを理解することに関心を惹いている。
本稿では、双極子-双極子相互作用によって引き起こされる空間依存的な光シフトと減衰速度が、コヒーレント駆動型量子エミッタアレイの定常特性をどのように変化させるかに関する詳細な解析を行う。
我々は定常状態の位相図を特徴づけ、特に定常状態の放射特性に焦点をあてる。
興味深いことに、平等なオール・ツー・オール相互作用の確立されたディッケパラダイムから逸脱すると、放出特性が著しく変化する。
特に、定常状態の粒子数を持つ放射光強度の顕著な2次スケーリング(定常状態のディッケ超放射のホールマーク)は完全に抑制され、粒子数を持つ線形スケーリングのみとなる。
この定常超放射能の崩壊は、超放射能状態だけでなく、亜放射能状態にも出現する追加の散逸チャネルの出現によるものである。
ダイナミックスにおけるサブラジアント暗黒状態のさらなる寄与は、定常状態を達成するのに必要な時間スケールのばらつきにつながる。
これに基づいて、拡張原子アンサンブルの有限時間における測定により、理想化されたディッケのシナリオによく似た性質が明らかにされる。 Recent advances in generating well controlled dense arrangements of individual atoms in free space have generated interest in understanding how the extended nature of these systems influences superradiance phenomena. Here, we provide an in-depth analysis on how space-dependent light-shifts and decay rates induced by dipole-dipole interactions modify the steady-state properties of coherently driven arrays of quantum emitters. We characterize the steady-state phase diagram, with particular focus on the radiative properties in the steady-state. Interestingly, we find that diverging from the well-established Dicke paradigm of equal all-to-all interactions significantly modifies the emission properties. In particular, the prominent quadratic scaling of the radiated light intensity with particle number in the steady state - a hallmark of steady-state Dicke superradiance - is entirely suppressed, resulting in only linear scaling with particle number. We show that this breakdown of steady-state superradiance occurs due to the emergence of additional dissipation channels that populate not only superradiant states but also subradiant ones. The additional contribution of subradiant dark states in the dynamics leads to a divergence in the time scales needed to achieve steady states. Building on this, we further show that measurements taken at finite times for extended atom ensembles reveal properties closely mirroring the idealized Dicke scenario. | 翻訳日:2023-11-22 13:56:54 公開日:2023-11-17 |
# 正の依存下での複数検定に対する強力なランクベース補正 A powerful rank-based correction to multiple testing under positive dependency ( http://arxiv.org/abs/2311.10900v1 ) ライセンス: Link先を確認 | Alexander Timans, Christoph-Nikolas Straehle, Kaspar Sakmann, Eric Nalisnick | (参考訳) 本研究では, 統計的に相関する確率的仮説テスト間の正の依存関係を効率的に活用するFWER制御を用いた新しい多重仮説検定法を開発した。
提案アルゴリズムである$\texttt{max-rank}$ は,計算されたテスト統計のランク領域における$\max$-operator の使用に依拠して,概念上はストレートフォワードである。
ボニフェロニ補正に対する我々のアプローチと比較し、既存の正の依存の場合のボニフェロニの優位性とその同値性について理論的および実証的に証明する。
ボンフェロニに対する我々の優位性は、テストの数が増えるにつれて増大し、FWER制御を確保しながら高い統計力を維持する。
複雑な予測環境における不確かさを定量化する手法として,共形予測を主応用するシナリオとして,並列置換テストの文脈でアルゴリズムを具体的に構成する。 We develop a novel multiple hypothesis testing correction with family-wise error rate (FWER) control that efficiently exploits positive dependencies between potentially correlated statistical hypothesis tests. Our proposed algorithm $\texttt{max-rank}$ is conceptually straight-forward, relying on the use of a $\max$-operator in the rank domain of computed test statistics. We compare our approach to the frequently employed Bonferroni correction, theoretically and empirically demonstrating its superiority over Bonferroni in the case of existing positive dependency, and its equivalence otherwise. Our advantage over Bonferroni increases as the number of tests rises, and we maintain high statistical power whilst ensuring FWER control. We specifically frame our algorithm in the context of parallel permutation testing, a scenario that arises in our primary application of conformal prediction, a recently popularized approach for quantifying uncertainty in complex predictive settings. | 翻訳日:2023-11-22 13:49:44 公開日:2023-11-17 |
# 深層ニューラルネットワークの機能的活性化について On Functional Activations in Deep Neural Networks ( http://arxiv.org/abs/2311.10898v1 ) ライセンス: Link先を確認 | Andrew S. Nencka, L. Tugan Muftuler, Peter LaViolette, Kevin M. Koch | (参考訳) 背景:ディープニューラルネットワークは、モデリング、予測、生成のための強力な計算ツールであることが証明されている。
しかし、これらのモデルの動作は一般に不透明である。
近年の研究では、モデル内の接続の重なり合う関数ネットワークによって、いくつかのモデルの性能が変調されることが示されている。
ここでは、機能的ニューロイメージングの技法を模範的な大言語モデルに適用し、その機能構造を探索する。
メソッド: Facebook Galactica-125Mモデルを探索するために、一連のブロック設計タスクベースのプロンプトシーケンスが生成される。
タスクには、政治科学、医用画像、古生物学、考古学、病理学、ランダムストリングに関するプロンプトと、他のランダムなトピックに関するプロンプトが含まれている。
各出力トークンの生成には、すべてのレイヤ出力値を保存し、効果的な時系列を生成する。
一般的な線形モデルは、タスクでアクティブな層出力値を特定するためにデータに適合した。
結果: 各タスクに個別に重なり合うネットワークが同定された。
医用画像と病理組織ネットワークの重なりが最も多かった。
これらのネットワークは、関連するタスクの繰り返しのパフォーマンスに対して繰り返し可能であり、特定された機能的ネットワークの対応と、機能的ネットワークを定義しないタスクのアクティベーションは、提示されたタスクを正確に識別する。
結論: 機能的ニューロイメージングの手法は,深層ニューラルネットワークに対して,その動作を調べる手段として応用することができる。
特定された機能ネットワークは、モデルアライメント、モデル出力の変調、微調整におけるターゲットへの重み付けに使われる可能性を持っている。 Background: Deep neural networks have proven to be powerful computational tools for modeling, prediction, and generation. However, the workings of these models have generally been opaque. Recent work has shown that the performance of some models are modulated by overlapping functional networks of connections within the models. Here the techniques of functional neuroimaging are applied to an exemplary large language model to probe its functional structure. Methods: A series of block-designed task-based prompt sequences were generated to probe the Facebook Galactica-125M model. Tasks included prompts relating to political science, medical imaging, paleontology, archeology, pathology, and random strings presented in an off/on/off pattern with prompts about other random topics. For the generation of each output token, all layer output values were saved to create an effective time series. General linear models were fit to the data to identify layer output values which were active with the tasks. Results: Distinct, overlapping networks were identified with each task. Most overlap was observed between medical imaging and pathology networks. These networks were repeatable across repeated performance of related tasks, and correspondence of identified functional networks and activation in tasks not used to define the functional networks was shown to accurately identify the presented task. Conclusion: The techniques of functional neuroimaging can be applied to deep neural networks as a means to probe their workings. Identified functional networks hold the potential for use in model alignment, modulation of model output, and identifying weights to target in fine-tuning. | 翻訳日:2023-11-22 13:48:29 公開日:2023-11-17 |
# スコアモデルにおける隠れ線形構造とその応用 The Hidden Linear Structure in Score-Based Models and its Application ( http://arxiv.org/abs/2311.10892v1 ) ライセンス: Link先を確認 | Binxu Wang, John J. Vastola | (参考訳) スコアベースモデルは多くの領域の生成モデリングにおいて顕著な結果を得た。
滑らかなデータ分布の勾配を学習することで、自然画像などの複雑な分布からサンプルを反復的に生成することができる。
しかし、任意のニューラルネットワークによって最終的に学習される勾配場に普遍的な構造はあるだろうか?
ここでは、スコア関数の規範的解析を通してそのような構造を求める。
まず、ガウススコアを用いたスコアベースモデルに閉形式解を導出した。
我々は, よく訓練された拡散モデルでは, 高雑音スケールでの学習スコアはガウスの線形スコアによく近似していると主張した。
本研究では、事前学習画像拡散モデルの実証検証とスコア関数の理論解析によりこれを実証した。
これにより,解析解を用いて初期拡散軌道を正確に予測し,画像品質を犠牲にすることなく初期位相をスキップすることで,画像サンプリングを15~30%高速化できる。
スコアベースモデルにおける線形構造の発見は,モデル設計とデータ前処理の改善に寄与する。 Score-based models have achieved remarkable results in the generative modeling of many domains. By learning the gradient of smoothed data distribution, they can iteratively generate samples from complex distribution e.g. natural images. However, is there any universal structure in the gradient field that will eventually be learned by any neural network? Here, we aim to find such structures through a normative analysis of the score function. First, we derived the closed-form solution to the scored-based model with a Gaussian score. We claimed that for well-trained diffusion models, the learned score at a high noise scale is well approximated by the linear score of Gaussian. We demonstrated this through empirical validation of pre-trained images diffusion model and theoretical analysis of the score function. This finding enabled us to precisely predict the initial diffusion trajectory using the analytical solution and to accelerate image sampling by 15-30\% by skipping the initial phase without sacrificing image quality. Our finding of the linear structure in the score-based model has implications for better model design and data pre-processing. | 翻訳日:2023-11-22 13:47:46 公開日:2023-11-17 |
# 3D-マルチビューマスクオートエンコーダによるポイントクラウド自己教師型学習 Point Cloud Self-supervised Learning via 3D to Multi-view Masked Autoencoder ( http://arxiv.org/abs/2311.10887v1 ) ライセンス: Link先を確認 | Zhimin Chen, Yingwei Li, Longlong Jing, Liang Yang, Bing Li | (参考訳) 近年,3次元自己教師付き学習の分野は著しい進歩を遂げており,事前学習のために2次元画像と3次元点雲を利用するマルチモダリティマスク自動エンコーダ(mae)手法が出現している。
しかし、これらのアプローチの顕著な制限は、3次元点雲に固有のマルチビュー特性を完全に活用していないことである。
この知見に基づいて、3次元から多視点のマスク付きオートエンコーダを用いて、3次元点雲のマルチモーダル特性をフル活用する手法を提案する。
具体的には、3次元マスクされた点雲から符号化されたトークンを用いて、様々なポーズにまたがる原点雲と多視点深度画像を生成する。
このアプローチは、モデルが幾何学構造を理解できるだけでなく、点雲の固有の多重モード特性も活用する。
本実験は,提案手法の異なるタスクおよび異なる設定下での有効性を示す。
顕著なことに,本手法は,3次元オブジェクト分類,少数ショット学習,部分分割,3次元オブジェクト検出など,さまざまな下流タスクにおいて,最先端のタスクよりも優れた性能を示す。
コードは以下の通り。 https://github.com/Zhimin-C/Multiview-MAE In recent years, the field of 3D self-supervised learning has witnessed significant progress, resulting in the emergence of Multi-Modality Masked AutoEncoders (MAE) methods that leverage both 2D images and 3D point clouds for pre-training. However, a notable limitation of these approaches is that they do not fully utilize the multi-view attributes inherent in 3D point clouds, which is crucial for a deeper understanding of 3D structures. Building upon this insight, we introduce a novel approach employing a 3D to multi-view masked autoencoder to fully harness the multi-modal attributes of 3D point clouds. To be specific, our method uses the encoded tokens from 3D masked point clouds to generate original point clouds and multi-view depth images across various poses. This approach not only enriches the model's comprehension of geometric structures but also leverages the inherent multi-modal properties of point clouds. Our experiments illustrate the effectiveness of the proposed method for different tasks and under different settings. Remarkably, our method outperforms state-of-the-art counterparts by a large margin in a variety of downstream tasks, including 3D object classification, few-shot learning, part segmentation, and 3D object detection. Code will be available at: https://github.com/Zhimin-C/Multiview-MAE | 翻訳日:2023-11-22 13:47:33 公開日:2023-11-17 |
# 全く新しい球技:行列ゲームのための基本加速度法と滑らかな関数の最大最小化 A Whole New Ball Game: A Primal Accelerated Method for Matrix Games and Minimizing the Maximum of Smooth Functions ( http://arxiv.org/abs/2311.10886v1 ) ライセンス: Link先を確認 | Yair Carmon, Arun Jambulapati, Yujia Jin, Aaron Sidford | (参考訳) 我々は、$d$次元ユークリッドあるいはsimplexドメイン上で$\max_{i\in[n]} f_i(x)$を最小化するアルゴリズムを設計する。
f_i$ が $1$-Lipschitz と $1$-smooth のとき、我々のメソッドは $\widetilde{O}(n \epsilon^{-1/3} + \epsilon^{-2})$ 勾配と関数評価、$\widetilde{O}(n \epsilon^{-4/3})$ 追加ランタイムを使って $\epsilon$-approximate ソリューションを計算する。
大きな$n$の場合、評価の複雑さは多対数因子まで最適です。
それぞれの$f_i$ が線型である特別な場合 -- 行列ゲームにおける準最適原始戦略の発見に対応する -- では、実行時に $\epsilon$-approximate solution が $\widetilde{O}(n (d/\epsilon)^{2/3} + nd + d\epsilon^{-2})$ となる。
$n>d$と$\epsilon=1/\sqrt{n}$の場合、これは既存のすべての一階法よりも改善される。
さらに$d = \omega(n^{8/11})$のランタイムは、既知のすべてのインテリアポイントメソッドを改善します。
提案アルゴリズムは,(1)小さな$\ell_2$または$\ell_1$の球において,効率的な確率勾配推定を可能にする動的データ構造である。
(2)これらのボール上の目的を最小化するオラクルを実装するデータ構造に合わせたミラー降下アルゴリズム。
(3) 非ユークリッド幾何学に適した単純な球オラクル加速フレームワーク。 We design algorithms for minimizing $\max_{i\in[n]} f_i(x)$ over a $d$-dimensional Euclidean or simplex domain. When each $f_i$ is $1$-Lipschitz and $1$-smooth, our method computes an $\epsilon$-approximate solution using $\widetilde{O}(n \epsilon^{-1/3} + \epsilon^{-2})$ gradient and function evaluations, and $\widetilde{O}(n \epsilon^{-4/3})$ additional runtime. For large $n$, our evaluation complexity is optimal up to polylogarithmic factors. In the special case where each $f_i$ is linear -- which corresponds to finding a near-optimal primal strategy in a matrix game -- our method finds an $\epsilon$-approximate solution in runtime $\widetilde{O}(n (d/\epsilon)^{2/3} + nd + d\epsilon^{-2})$. For $n>d$ and $\epsilon=1/\sqrt{n}$ this improves over all existing first-order methods. When additionally $d = \omega(n^{8/11})$ our runtime also improves over all known interior point methods. Our algorithm combines three novel primitives: (1) A dynamic data structure which enables efficient stochastic gradient estimation in small $\ell_2$ or $\ell_1$ balls. (2) A mirror descent algorithm tailored to our data structure implementing an oracle which minimizes the objective over these balls. (3) A simple ball oracle acceleration framework suitable for non-Euclidean geometry. | 翻訳日:2023-11-22 13:47:08 公開日:2023-11-17 |
# ビデオによる農業における人間のピッカーの行動分類 A Video-Based Activity Classification of Human Pickers in Agriculture ( http://arxiv.org/abs/2311.10885v1 ) ライセンス: Link先を確認 | Abhishesh Pal, Antonio C. Leite, Jon G. O. Gjevestad, P{\aa}l J. From | (参考訳) 農業システムでは、収穫作業は退屈で、時間と資源を消費する作業である。
これに基づいて、農家と一緒に働くために自律ロボット群を配置することは、生産性とロジスティクスに大きな恩恵をもたらす可能性がある。
そして、インテリジェントなロボットシステムは、人間の行動を監視し、進行中の活動を特定し、労働者のニーズを予測すべきである。
本研究の主な貢献は,ビデオベースのピッカー検出のためのベンチマークモデルを作成し,異なる農業シナリオの収穫作業においてその活動の分類を行うことである。
提案手法では,Mask領域をベースとした畳み込みニューラルネットワーク(Mask R-CNN)をオブジェクト検出に利用し,動き推定のための光フローと,相関感性(CS)と呼ばれる新たなフロー運動記述子の統計的属性を用いた。
分類基準はKDE分析とK平均クラスタリングアルゴリズムに基づいて定義され、イチゴのポリタンヌルやリンゴの果樹園などの異なる作物畑から収集したデータセットに実装されている。
提案手法は, 感度, 特異性, 正確性を用いて定量的に分析し, 照明変動, ぼかし, 咬合などの様々な課題に対して良好な結果を示す。 In farming systems, harvesting operations are tedious, time- and resource-consuming tasks. Based on this, deploying a fleet of autonomous robots to work alongside farmworkers may provide vast productivity and logistics benefits. Then, an intelligent robotic system should monitor human behavior, identify the ongoing activities and anticipate the worker's needs. In this work, the main contribution consists of creating a benchmark model for video-based human pickers detection, classifying their activities to serve in harvesting operations for different agricultural scenarios. Our solution uses the combination of a Mask Region-based Convolutional Neural Network (Mask R-CNN) for object detection and optical flow for motion estimation with newly added statistical attributes of flow motion descriptors, named as Correlation Sensitivity (CS). A classification criterion is defined based on the Kernel Density Estimation (KDE) analysis and K-means clustering algorithm, which are implemented upon in-house collected dataset from different crop fields like strawberry polytunnels and apple tree orchards. The proposed framework is quantitatively analyzed using sensitivity, specificity, and accuracy measures and shows satisfactory results amidst various dataset challenges such as lighting variation, blur, and occlusions. | 翻訳日:2023-11-22 13:46:31 公開日:2023-11-17 |
# 非励起原子と例外点によるパーセル効果の制御 Control of the Purcell effect via unexcited atoms and exceptional points ( http://arxiv.org/abs/2311.10884v1 ) ライセンス: Link先を確認 | G. S. Agarwal | (参考訳) キャビティ量子電磁力学におけるパーセル効果の制御の可能性を検討する。
本研究では,不活性原子の存在が,不活性原子とキャビティモードとの結合の強さによってPurcell崩壊を著しく変化させることを示した。
これは、2つの原子系の絡み合った状態である一重項状態の非放射的性質とは異なる。
減衰の2つのポラリトンチャネル間の干渉による抑制の物理的解釈を示す。
非励起原子とキャビティモードが2次例外点を生成することができるため、キャビティqedシステムの例外点と接続する。
さらに、2つの非励起原子が、パーセル効果の阻害につながる3階の例外点を生成できることを示す。
また、パーセル効果が強化された場合についても論じる。 We examine the possible control of the celebrated Purcell effect in cavity quantum electrodynamics. We demonstrate that the presence of an unexcited atom can significantly alter the Purcell decay depending on the strength of coupling of the unexcited atom with the cavity mode though the excited atom has to be weakly coupled for it to be in the Purcell regime. This is distinct from the nonradiative nature of the singlet state which is an entangled state of the two atom system. We present physical interpretation for inhibition as due to interference between two polariton channels of decay. We bring out connection to exceptional points in the cavity QED system as the unexcited atom and cavity mode can produce a second order exceptional point. We further show how two unexcited atoms can create a third order exceptional point leading to inhibition of Purcell effect. We also discuss the case when the Purcell effect can be enhanced. | 翻訳日:2023-11-22 13:46:08 公開日:2023-11-17 |
# 外部知覚モデルの融合による屋内シーンのラベル付け Labeling Indoor Scenes with Fusion of Out-of-the-Box Perception Models ( http://arxiv.org/abs/2311.10883v1 ) ライセンス: Link先を確認 | Yimeng Li, Navid Rajabi, Sulabh Shrestha, Md Alimoor Reza, and Jana Kosecka | (参考訳) 画像アノテーションの段階は、オブジェクト検出とセマンティックセグメンテーションモデルのトレーニングと評価に必要な最も時間を要する部分である。
既存のモデルを新しい環境にデプロイするには、トレーニングデータに存在しない新しいセマンティクスクラスを検出する必要がある。
さらに屋内シーンには、トレーニングされた知覚モデルで適切に扱う必要がある重要な視点変化が含まれている。
本稿では,ボトムアップセグメンテーション(SAM)やオブジェクト検出(Detic),セマンティックセグメンテーション(MaskFormer)といった,大規模データセットで訓練された最先端モデルの最近の進歩を活用することを提案する。
本研究の目的は,屋内環境におけるセマンティックセグメンテーションとオブジェクトインスタンス検出のための擬似ラベルを得るためのコスト効率の高いラベリング手法を開発することである。
また、シーンの複数のビューが利用できる設定を考慮し、単一ビューの不整合の特定と修正に使用できるマルチビューラベリング融合ステージを提案する。
提案手法の有効性を,Active VisionデータセットとADE20Kデータセットに示す。
人間のアノテーションと比較することにより,ラベル付けプロセスの品質を評価する。
また,対象目標ナビゲーションや部分探索などの下流タスクにおいて,得られたラベルの有効性を示す。
オブジェクトゴールナビゲーションの文脈では、この融合アプローチによる性能向上を、大規模なモノリシック視覚言語事前学習モデルを用いたゼロショットベースラインと比較する。 The image annotation stage is a critical and often the most time-consuming part required for training and evaluating object detection and semantic segmentation models. Deployment of the existing models in novel environments often requires detecting novel semantic classes not present in the training data. Furthermore, indoor scenes contain significant viewpoint variations, which need to be handled properly by trained perception models. We propose to leverage the recent advancements in state-of-the-art models for bottom-up segmentation (SAM), object detection (Detic), and semantic segmentation (MaskFormer), all trained on large-scale datasets. We aim to develop a cost-effective labeling approach to obtain pseudo-labels for semantic segmentation and object instance detection in indoor environments, with the ultimate goal of facilitating the training of lightweight models for various downstream tasks. We also propose a multi-view labeling fusion stage, which considers the setting where multiple views of the scenes are available and can be used to identify and rectify single-view inconsistencies. We demonstrate the effectiveness of the proposed approach on the Active Vision dataset and the ADE20K dataset. We evaluate the quality of our labeling process by comparing it with human annotations. Also, we demonstrate the effectiveness of the obtained labels in downstream tasks such as object goal navigation and part discovery. In the context of object goal navigation, we depict enhanced performance using this fusion approach compared to a zero-shot baseline that utilizes large monolithic vision-language pre-trained models. | 翻訳日:2023-11-22 13:45:53 公開日:2023-11-17 |
# 造影乳房mriによる腫瘍分画の術前・術後合成 Pre- to Post-Contrast Breast MRI Synthesis for Enhanced Tumour Segmentation ( http://arxiv.org/abs/2311.10879v1 ) ライセンス: Link先を確認 | Richard Osuala, Smriti Joshi, Apostolia Tsirikoglou, Lidia Garrucho, Walter H. L. Pinaya, Oliver Diaz, and Karim Lekadir | (参考訳) 腫瘍の検出と治療の利点にもかかわらず、ダイナミックコントラスト造影MRI(DCE-MRI)における造影剤の投与は、その侵襲性、生体蓄積、腎原性全身線維症のリスクなど、様々な問題と関連している。
本研究は, GAN(Generative Adversarial Network)の機能を利用して, コントラスト前T1強調脂肪飽和乳房MRIを対応する第1のDCE-MRIシーケンスに翻訳することにより, 合成コントラストの増強を実現する可能性を検討した。
さらに,合成データの質を原理的に定量的に評価し,最適な生成モデルを選択するための基礎となるスケールド・アグリゲート・測度(same)を提案する。
定量的な画像品質指標を用いて生成したDCE-MRIデータを評価し、3D乳房切片の下流タスクに適用する。
以上の結果から, 造影後DCE-MRI合成が乳房のセグメンテーションモデルの堅牢性向上に寄与する可能性が示唆された。
私たちのコードはhttps://github.com/richardobi/pre_post_ synthesisで利用可能です。 Despite its benefits for tumour detection and treatment, the administration of contrast agents in dynamic contrast-enhanced MRI (DCE-MRI) is associated with a range of issues, including their invasiveness, bioaccumulation, and a risk of nephrogenic systemic fibrosis. This study explores the feasibility of producing synthetic contrast enhancements by translating pre-contrast T1-weighted fat-saturated breast MRI to their corresponding first DCE-MRI sequence leveraging the capabilities of a generative adversarial network (GAN). Additionally, we introduce a Scaled Aggregate Measure (SAMe) designed for quantitatively evaluating the quality of synthetic data in a principled manner and serving as a basis for selecting the optimal generative model. We assess the generated DCE-MRI data using quantitative image quality metrics and apply them to the downstream task of 3D breast tumour segmentation. Our results highlight the potential of post-contrast DCE-MRI synthesis in enhancing the robustness of breast tumour segmentation models via data augmentation. Our code is available at https://github.com/RichardObi/pre_post_synthesis. | 翻訳日:2023-11-22 13:45:29 公開日:2023-11-17 |
# 微粒化映像表現学習のためのマルチエンタリティビデオ変換器 Multi-entity Video Transformers for Fine-Grained Video Representation Learning ( http://arxiv.org/abs/2311.10873v1 ) ライセンス: Link先を確認 | Matthew Walmer, Rose Kanjirathinkal, Kai Sheng Tai, Keyur Muzumdar, Taipeng Tian, Abhinav Shrivastava | (参考訳) 時間的にきめ細かいビデオ表現学習の領域は、時間的に密度の高いタスクのためのフレーム単位の表現を生成することを目的としている。
本研究では,映像表現学習のためのトランスフォーマーアーキテクチャの設計を再検討することにより,この分野の最先端を推し進める。
我々の自己監督手法の健全な側面は、フレーム毎に複数のエンティティを表現することによって、時間的パイプラインにおける空間情報の統合の改善である。
先行研究では、フレームを1次元ベクトルに縮小するレイト・フュージョン・アーキテクチャを用い、クロスフレーム情報を共有する前に、各フレームをエンティティやトークンのグループとして表現する。
我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
MV-Formerは、自己監督型ViTの画像機能を活用し、抽出した機能の有効性を最大化すると同時に、複雑なViTバックボーンの微調整を回避するために、いくつかの戦略を採用している。
この中にはLearnerable Space Token Pooling戦略が含まれており、フレーム毎に複数の有能な領域の機能を識別し抽出するために使用される。
実験の結果,MV-Formerは従来の自己監督手法に勝るだけでなく,追加の監督やトレーニングデータを使用する先行研究よりも優れていることがわかった。
kinetics-400のさらなる事前トレーニングデータと組み合わせると、mv-formerはさらなるパフォーマンス向上を達成する。
mv-formerのコードはhttps://github.com/facebookresearch/video_rep_learningで入手できる。 The area of temporally fine-grained video representation learning aims to generate frame-by-frame representations for temporally dense tasks. In this work, we advance the state-of-the-art for this area by re-examining the design of transformer architectures for video representation learning. A salient aspect of our self-supervised method is the improved integration of spatial information in the temporal pipeline by representing multiple entities per frame. Prior works use late fusion architectures that reduce frames to a single dimensional vector before any cross-frame information is shared, while our method represents each frame as a group of entities or tokens. Our Multi-entity Video Transformer (MV-Former) architecture achieves state-of-the-art results on multiple fine-grained video benchmarks. MV-Former leverages image features from self-supervised ViTs, and employs several strategies to maximize the utility of the extracted features while also avoiding the need to fine-tune the complex ViT backbone. This includes a Learnable Spatial Token Pooling strategy, which is used to identify and extract features for multiple salient regions per frame. Our experiments show that MV-Former not only outperforms previous self-supervised methods, but also surpasses some prior works that use additional supervision or training data. When combined with additional pre-training data from Kinetics-400, MV-Former achieves a further performance boost. The code for MV-Former is available at https://github.com/facebookresearch/video_rep_learning. | 翻訳日:2023-11-22 13:45:13 公開日:2023-11-17 |
# 微調整セグメンテーションモデルによるゼロショットデジタルロック画像分割 Zero-Shot Digital Rock Image Segmentation with a Fine-Tuned Segment Anything Model ( http://arxiv.org/abs/2311.10865v1 ) ライセンス: Link先を確認 | Zhaoyang Ma, Xupeng He, Shuyu Sun, Bicheng Yan, Hyung Kwak, Jun Gao | (参考訳) 正確な画像セグメンテーションは貯水池のモデリングおよび材料特性評価において重要であり, 詳細な貯水池モデルによる石油・ガス抽出効率の向上に寄与する。
この精度は、岩石の性質に関する洞察を与え、デジタルロック物理学の理解を深める。
しかし,複雑なCT画像やSEM画像に対してピクセルレベルのアノテーションを作成することは,そのサイズやコントラストが低く,解析時間が長くなるため困難である。
これは、デジタルロック画像解析における高度な半監督的・教師なしセグメンテーション技術への関心を喚起し、より効率的で正確で労働集約的な手法を約束している。
Meta AIのSegment Anything Model(SAM)は2023年にイメージセグメンテーションに革命をもたらし、ゼロショット機能を備えたインタラクティブで自動化されたセグメンテーションを提供する。
その高度な特徴にもかかわらず、SAMはトレーニングセットの欠如とグレースケール画像の低コントラスト性のために、ロックCT/SEM画像に苦慮している。
本研究では,岩盤ct/sem画像の分割,パラメータの最適化,大規模画像の処理,精度向上のためにsamを微調整する。
岩盤CTおよびSEM画像の実験により,微調整によりSAMの性能が著しく向上し,デジタル岩盤画像解析における高品質マスク生成が可能となった。
岩盤画像に対する細調整SAMモデル(RockSAM)の有効性と有効性を示し,広範なトレーニングや複雑なラベル付けを伴わないセグメンテーションを行った。 Accurate image segmentation is crucial in reservoir modelling and material characterization, enhancing oil and gas extraction efficiency through detailed reservoir models. This precision offers insights into rock properties, advancing digital rock physics understanding. However, creating pixel-level annotations for complex CT and SEM rock images is challenging due to their size and low contrast, lengthening analysis time. This has spurred interest in advanced semi-supervised and unsupervised segmentation techniques in digital rock image analysis, promising more efficient, accurate, and less labour-intensive methods. Meta AI's Segment Anything Model (SAM) revolutionized image segmentation in 2023, offering interactive and automated segmentation with zero-shot capabilities, essential for digital rock physics with limited training data and complex image features. Despite its advanced features, SAM struggles with rock CT/SEM images due to their absence in its training set and the low-contrast nature of grayscale images. Our research fine-tunes SAM for rock CT/SEM image segmentation, optimizing parameters and handling large-scale images to improve accuracy. Experiments on rock CT and SEM images show that fine-tuning significantly enhances SAM's performance, enabling high-quality mask generation in digital rock image analysis. Our results demonstrate the feasibility and effectiveness of the fine-tuned SAM model (RockSAM) for rock images, offering segmentation without extensive training or complex labelling. | 翻訳日:2023-11-22 13:43:47 公開日:2023-11-17 |
# 図形畳み込みを用いた同変ニューラル演算子学習 Equivariant Neural Operator Learning with Graphon Convolution ( http://arxiv.org/abs/2311.10908v1 ) ライセンス: Link先を確認 | Chaoran Cheng, Jian Peng | (参考訳) 3次元ユークリッド空間における連続関数間の写像を学習するために,係数学習スキームと残留演算子層を組み合わせた一般アーキテクチャを提案する。
提案モデルでは,SE(3)-等分散を設計により達成することが保証されている。
グラフスペクトルの観点からは、この手法はinfgcnと呼ぶグラフオン(無限個のノードを持つデンスグラフ)の畳み込みとして解釈できる。
連続グラフ構造と入力データの離散グラフ構造の両方を利用することで,等価性を維持しつつ,幾何学的情報を効果的に捉えることができる。
大規模電子密度データセットに関する広範な実験を通じて、我々のモデルが現在の最先端アーキテクチャを著しく上回っていることを観察した。
提案アーキテクチャの有効性を示すために,複数のアブレーション実験を行った。 We propose a general architecture that combines the coefficient learning scheme with a residual operator layer for learning mappings between continuous functions in the 3D Euclidean space. Our proposed model is guaranteed to achieve SE(3)-equivariance by design. From the graph spectrum view, our method can be interpreted as convolution on graphons (dense graphs with infinitely many nodes), which we term InfGCN. By leveraging both the continuous graphon structure and the discrete graph structure of the input data, our model can effectively capture the geometric information while preserving equivariance. Through extensive experiments on large-scale electron density datasets, we observed that our model significantly outperformed the current state-of-the-art architectures. Multiple ablation studies were also carried out to demonstrate the effectiveness of the proposed architecture. | 翻訳日:2023-11-22 13:31:29 公開日:2023-11-17 |
# 自然言語モデル編集による柔軟なモデル解釈 Flexible Model Interpretability through Natural Language Model Editing ( http://arxiv.org/abs/2311.10905v1 ) ライセンス: Link先を確認 | Karel D'Oosterlinck, Thomas Demeester, Chris Develder, Christopher Potts | (参考訳) モデル解釈性とモデル編集は、大きな言語モデルの時代における重要な目標である。
興味深いことに、この2つの目標の間には関連がある: 人間の関心概念に関するモデル動作を体系的に編集できるメソッドがあれば、このエディター手法は、関連する表現を指してそれらを体系的に操作することによって、内部表現をより解釈しやすくするのに役立つ。 Model interpretability and model editing are crucial goals in the age of large language models. Interestingly, there exists a link between these two goals: if a method is able to systematically edit model behavior with regard to a human concept of interest, this editor method can help make internal representations more interpretable by pointing towards relevant representations and systematically manipulating them. | 翻訳日:2023-11-22 13:31:15 公開日:2023-11-17 |
# MuyGPySを用いた近接空間オブジェクト分類 Closely-Spaced Object Classification Using MuyGPyS ( http://arxiv.org/abs/2311.10904v1 ) ライセンス: Link先を確認 | Kerianne Pruett, Nathan McNaughton, and Michael Schneider | (参考訳) 空間領域におけるオブジェクトの振舞いを理解するためには、正確なランデブーと近接操作(RPO)が不可欠である。
しかし,2つの物体が直視線に沿って近接している場合,光学系のPSF(point-spread function)内に1つの物体として混在しているため,光学空間領域認識(SDA)アルゴリズムではCSO検出が困難である。
従来の機械学習手法は特異物体と密接な空間を持つ物体を区別するのに有用であるが、多くの手法ではサンプルサイズや高い信号対雑音条件を必要とする。
現実的なデータの品質と量によって、それらの不適切なデータを扱うのに適するため、確率的分類手法はより優れたアプローチとなる。
ガウス過程pythonパッケージであるmuygpysを用いてcso分類結果を示し,角分離関数としての分類精度とシミュレーション衛星間の大きさ差を検討した。
この軌道に依存しない分析は、CSOの現実的な地上型商用(COTS)光学センサ観測をエミュレートする高精度なSDA画像に基づいて行われる。
muygpysは、特に難しい状況下で、従来の機械学習手法よりも優れています。 Accurately detecting rendezvous and proximity operations (RPO) is crucial for understanding how objects are behaving in the space domain. However, detecting closely-spaced objects (CSO) is challenging for ground-based optical space domain awareness (SDA) algorithms as two objects close together along the line-of-sight can appear blended as a single object within the point-spread function (PSF) of the optical system. Traditional machine learning methods can be useful for differentiating between singular objects and closely-spaced objects, but many methods require large training sample sizes or high signal-to-noise conditions. The quality and quantity of realistic data make probabilistic classification methods a superior approach, as they are better suited to handle these data inadequacies. We present CSO classification results using the Gaussian process python package, MuyGPyS, and examine classification accuracy as a function of angular separation and magnitude difference between the simulated satellites. This orbit-independent analysis is done on highly accurate simulated SDA images that emulate realistic ground-based commercial-of-the-shelf (COTS) optical sensor observations of CSOs. We find that MuyGPyS outperforms traditional machine learning methods, especially under more challenging circumstances. | 翻訳日:2023-11-22 13:31:06 公開日:2023-11-17 |
# OCT2 Confocal: 3D CycleGANによる網膜OCT画像の共焦点顕微鏡への変換 OCT2Confocal: 3D CycleGAN based Translation of Retinal OCT Images to Confocal Microscopy ( http://arxiv.org/abs/2311.10902v1 ) ライセンス: Link先を確認 | Xin Tian, Nantheera Anantrasirichai, Lindsay Nicholson, Alin Achim | (参考訳) 光コヒーレンス断層撮影(oct)と共焦点顕微鏡は網膜イメージングにおいて重要な役割を果たす。
in vivo octは高速で非侵襲的なイメージングを提供するが、明快な問題やモーションアーティファクトによって妨げられる。
生体内共焦点顕微鏡は高解像度の細胞色像を提供するが、侵襲的であり、倫理的懸念と潜在的な組織損傷をもたらす。
これらのモダリティを橋渡しするために,生体共焦点顕微鏡画像へのOCTの教師なし翻訳のための3D CycleGANフレームワークを開発した。
OCT2Confocalのデータセットに適用すると、このフレームワークは3Dの医療データドメイン間で効果的に翻訳され、血管、テクスチャ、細胞の詳細を精度良くキャプチャする。
これは、octの固有の3d情報を活用し、共焦点顕微鏡のリッチで詳細な色領域に変換する最初の試みである。
3D CycleGANフレームワークは、量的および質的なメトリクスを通じて評価され、圧縮可能な画像の忠実さと品質を示し、制限されたデータの制約にもかかわらず既存の手法より優れている。
この非侵襲的な網膜共焦点画像の生成は、眼科における診断とモニタリング機能をさらに強化する可能性がある。 Optical coherence tomography (OCT) and confocal microscopy are pivotal in retinal imaging, each presenting unique benefits and limitations. In vivo OCT offers rapid, non-invasive imaging but can be hampered by clarity issues and motion artifacts. Ex vivo confocal microscopy provides high-resolution, cellular detailed color images but is invasive and poses ethical concerns and potential tissue damage. To bridge these modalities, we developed a 3D CycleGAN framework for unsupervised translation of in vivo OCT to ex vivo confocal microscopy images. Applied to our OCT2Confocal dataset, this framework effectively translates between 3D medical data domains, capturing vascular, textural, and cellular details with precision. This marks the first attempt to exploit the inherent 3D information of OCT and translate it into the rich, detailed color domain of confocal microscopy. Assessed through quantitative and qualitative metrics, the 3D CycleGAN framework demonstrates commendable image fidelity and quality, outperforming existing methods despite the constraints of limited data. This non-invasive generation of retinal confocal images has the potential to further enhance diagnostic and monitoring capabilities in ophthalmology. | 翻訳日:2023-11-22 13:30:47 公開日:2023-11-17 |
# 大規模言語モデルによるスマートコントラクトの自動コメント生成と文脈内学習 Automatic Smart Contract Comment Generation via Large Language Models and In-Context Learning ( http://arxiv.org/abs/2311.10388v1 ) ライセンス: Link先を確認 | Junjie Zhao and Xiang Chen and Guang Yang and Yiheng Shen | (参考訳) これまでのスマートコントラクトコードコメント(SCC)生成アプローチは、微調整パラダイムベースのアプローチと情報検索ベースのアプローチの2つのカテゴリに分けられる。
しかしながら、微調整パラダイムに基づくアプローチでは、ダウンストリームタスクのために収集されたデータセットの品質によってパフォーマンスが制限される可能性がある。
情報検索に基づくアプローチでは、履歴リポジトリに類似のコードが存在しない場合、高品質なコメントを生成することは困難である。
そこで我々は,大規模言語モデル(LLM)におけるSCC生成に関するドメイン知識を活用して,これらの2種類のアプローチの欠点を軽減する。
本研究では,LLMと文脈内学習に基づくSCCLLMのアプローチを提案する。
具体的には、デモ選択フェーズにおいて、scllmは構文、意味論、語彙情報を考慮して履歴コーパスからトップkコードスニペットを取得する。
コンテキスト内学習の段階では、SCCLLMは検索したコードスニペットをデモとして利用し、このタスクに関連する知識を活用するのに役立つ。
スマートコントラクトコミュニティであるEtherscan.ioの大規模なコーパスを実験対象として選択する。
SCCLLMは, 自動評価および人的評価において, ベースラインと比較して有効であった。 The previous smart contract code comment (SCC) generation approaches can be divided into two categories: fine-tuning paradigm-based approaches and information retrieval-based approaches. However, for the fine-tuning paradigm-based approaches, the performance may be limited by the quality of the gathered dataset for the downstream task and they may have knowledge-forgetting issues. While for the information retrieval-based approaches, it is difficult for them to generate high-quality comments if similar code does not exist in the historical repository. Therefore we want to utilize the domain knowledge related to SCC generation in large language models (LLMs) to alleviate the disadvantages of these two types of approaches. In this study, we propose an approach SCCLLM based on LLMs and in-context learning. Specifically, in the demonstration selection phase, SCCLLM retrieves the top-k code snippets from the historical corpus by considering syntax, semantics, and lexical information. In the in-context learning phase, SCCLLM utilizes the retrieved code snippets as demonstrations, which can help to utilize the related knowledge for this task. We select a large corpus from a smart contract community Etherscan.io as our experimental subject. Extensive experimental results show the effectiveness of SCCLLM when compared with baselines in automatic evaluation and human evaluation. | 翻訳日:2023-11-21 17:31:07 公開日:2023-11-17 |
# 時間的一貫性を破る:画像モデルを用いたビデオユニバーサル逆転摂動の生成 Breaking Temporal Consistency: Generating Video Universal Adversarial Perturbations Using Image Models ( http://arxiv.org/abs/2311.10366v1 ) ライセンス: Link先を確認 | Hee-Seon Kim, Minji Son, Minbeom Kim, Myung-Joon Kwon, Changick Kim | (参考訳) ディープラーニングモデルを用いたビデオ分析が普及するにつれ、このようなモデルの敵対的攻撃に対する脆弱性が懸念されている。
特に、Universal Adversarial Perturbation (UAP)は、単一の摂動がデータセット全体のディープラーニングモデルを誤解させる可能性があるため、重大な脅威となる。
画像データと画像モデルを用いた新しいビデオUAPを提案する。
これにより、ビデオアプリケーションで利用可能なリッチな画像データと画像モデルに基づく研究を活用できる。
しかし、ビデオの時間的側面を分析する能力は画像モデルに限られており、これはビデオ攻撃の成功に不可欠である。
この課題に対処するために,画像モデルを用いた映像攻撃に時間的情報を組み込む最初の試みであるbtc(breaking temporal consistency)法を提案する。
私たちは、オリジナルと逆のパターンを持つ敵の動画を制作することを目指している。
具体的には、BTC-UAPはビデオ内の隣り合うフレーム間の特徴的類似性を最小化する。
我々のアプローチは単純だが、見えないビデオモデルを攻撃するのに効果的である。
さらに、長さが変化し、時間シフトに不変なビデオにも適用できる。
提案手法は,imagenet,utf-101,kinetics-400など,各種データセットの有効性の観点から既存の手法を上回っている。 As video analysis using deep learning models becomes more widespread, the vulnerability of such models to adversarial attacks is becoming a pressing concern. In particular, Universal Adversarial Perturbation (UAP) poses a significant threat, as a single perturbation can mislead deep learning models on entire datasets. We propose a novel video UAP using image data and image model. This enables us to take advantage of the rich image data and image model-based studies available for video applications. However, there is a challenge that image models are limited in their ability to analyze the temporal aspects of videos, which is crucial for a successful video attack. To address this challenge, we introduce the Breaking Temporal Consistency (BTC) method, which is the first attempt to incorporate temporal information into video attacks using image models. We aim to generate adversarial videos that have opposite patterns to the original. Specifically, BTC-UAP minimizes the feature similarity between neighboring frames in videos. Our approach is simple but effective at attacking unseen video models. Additionally, it is applicable to videos of varying lengths and invariant to temporal shifts. Our approach surpasses existing methods in terms of effectiveness on various datasets, including ImageNet, UCF-101, and Kinetics-400. | 翻訳日:2023-11-21 17:30:48 公開日:2023-11-17 |
# 機械学習を用いた果実病の認識 Dates Fruit Disease Recognition using Machine Learning ( http://arxiv.org/abs/2311.10365v1 ) ライセンス: Link先を確認 | Ghassen Ben Brahim, Jaafar Alghazo, Ghazanfar Latif, Khalid Alnujaidi | (参考訳) サウジアラビア、モロッコ、チュニジアなど多くの国がヤシの果実の輸出国であり、消費者である。
日付果実生産は日付果実輸出国の経済において重要な役割を担っている。
日付の果物はどんな果物と同じように病気に罹患し、早期発見と介入は農産物を救える。
しかし、広大な農地では、農夫が早期の病原性検出に頻繁に日付木を観察することはほぼ不可能である。
さらに、人間の観察によっても、プロセスはヒューマンエラーを起こしやすく、日付の果実コストを増加させる。
最近のコンピュータビジョン、機械学習、ドローン技術、その他の技術の進歩により、日付果実病の自動検出のための統合ソリューションが提案されている。
本稿では, 標準分類器を用いたハイブリッド特徴に基づく手法として, l*a*b色特徴, 統計的特徴, 離散ウェーブレット変換(dwt)テクスチャ特徴の抽出法を提案する。
この研究のためにデータセットが開発されたのは851の画像で、健康な日付、病気の初期段階、栄養不良、寄生虫が感染した。
抽出された特徴は、ランダムフォレスト(RF)、多層パーセプトロン(MLP)、Na\"ive Bayes(NB)、ファジィ決定木(FDT)などの共通分類器に入力された。
最も高い平均精度は、L*a*b、統計、DWT特徴を組み合わせることで達成された。 Many countries such as Saudi Arabia, Morocco and Tunisia are among the top exporters and consumers of palm date fruits. Date fruit production plays a major role in the economies of the date fruit exporting countries. Date fruits are susceptible to disease just like any fruit and early detection and intervention can end up saving the produce. However, with the vast farming lands, it is nearly impossible for farmers to observe date trees on a frequent basis for early disease detection. In addition, even with human observation the process is prone to human error and increases the date fruit cost. With the recent advances in computer vision, machine learning, drone technology, and other technologies; an integrated solution can be proposed for the automatic detection of date fruit disease. In this paper, a hybrid features based method with the standard classifiers is proposed based on the extraction of L*a*b color features, statistical features, and Discrete Wavelet Transform (DWT) texture features for the early detection and classification of date fruit disease. A dataset was developed for this work consisting of 871 images divided into the following classes; Healthy date, Initial stage of disease, Malnourished date, and Parasite infected. The extracted features were input to common classifiers such as the Random Forest (RF), Multilayer Perceptron (MLP), Na\"ive Bayes (NB), and Fuzzy Decision Trees (FDT). The highest average accuracy was achieved when combining the L*a*b, Statistical, and DWT Features. | 翻訳日:2023-11-21 17:30:27 公開日:2023-11-17 |
# 量子支援シミュレーション:量子コンピューティング領域における機械学習モデル設計のためのフレームワーク Quantum-Assisted Simulation: A Framework for Designing Machine Learning Models in the Quantum Computing Domain ( http://arxiv.org/abs/2311.10363v1 ) ライセンス: Link先を確認 | Minati Rath, Hema Date | (参考訳) 機械学習(ML)モデルは、履歴データを使用してトレーニングされ、新しい、目に見えないデータを分類する。
しかしながら、従来のコンピューティングリソースは、妥当な時間枠内で、ビッグデータとして知られる膨大な量のデータを扱うのに苦労することが多い。
量子コンピューティング(QC)は情報処理に対する新しいアプローチを提供する。
量子アルゴリズムは古典計算よりも指数関数的に高速に古典データを処理することができる。
量子機械学習(QML)アルゴリズムを量子力学領域にマッピングすることにより、データ処理速度、リソース要求の削減、精度と効率の向上を指数関数的に向上させることができる。
この記事では、QCとMLの両方の分野を掘り下げ、それら間のアイデアの相互作用と、ハードウェアの現在の機能と限界を探求します。
本稿では,量子コンピューティングの歴史を調査し,既存のQMLアルゴリズムを検証し,QMLアルゴリズムのシミュレーションを作成するための簡易な手順を提案する。
さらに,機械学習と量子機械学習の両方を用いて,データセット上でシミュレーションを行った。
その後,量子シミュレータを用いて各性能の比較を行った。 Machine learning (ML) models are trained using historical data to classify new, unseen data. However, traditional computing resources often struggle to handle the immense amount of data, commonly known as Big Data, within a reasonable timeframe. Quantum computing (QC) provides a novel approach to information processing. Quantum algorithms have the potential to process classical data exponentially faster than classical computing. By mapping quantum machine learning (QML) algorithms into the quantum mechanical domain, we can potentially achieve exponential improvements in data processing speed, reduced resource requirements, and enhanced accuracy and efficiency. In this article, we delve into both the QC and ML fields, exploring the interplay of ideas between them, as well as the current capabilities and limitations of hardware. We investigate the history of quantum computing, examine existing QML algorithms, and aim to present a simplified procedure for setting up simulations of QML algorithms, making it accessible and understandable for readers. Furthermore, we conducted simulations on a dataset using both machine learning and quantum machine learning approaches. We then proceeded to compare their respective performances by utilizing a quantum simulator. | 翻訳日:2023-11-21 17:30:00 公開日:2023-11-17 |
# サッカー場登録のためのビデオベース連続ベイズホログラフィー推定 Video-based Sequential Bayesian Homography Estimation for Soccer Field Registration ( http://arxiv.org/abs/2311.10361v1 ) ライセンス: Link先を確認 | Paul J. Claasen and J.P. de Villiers | (参考訳) キーポイントの不確かさを明示的にモデル化しながら,アフィン変換により映像フレームのホモグラフィーを次へと明示的に関連付ける新しいベイズフレームワークを提案する。
この文献は以前、後のフレーム間の微分ホモグラフィを使用していたが、ベイズの設定では使用しなかった。
ベイズ法を適用した場合、カメラの動きを適切にモデル化せず、キーポイントを決定論的に扱う。
提案手法である追跡鍵点(bhitk)からのベイズホモグラフィ推定は2段階カルマンフィルタを用い、既存の手法を大幅に改善する。
既存のキーポイント検出方法はBHITKで容易に拡張できる。
これにより、高度で計算コストの低い手法が、ほとんどのホモグラフィ評価指標において最先端の手法より優れている。
さらに、WorldCupとTS-WorldCupデータセットのホモグラフィアノテーションは、公開用にリリースされたカスタムホモグラフィアノテーションツールを使用して洗練されている。
洗練されたデータセットは統合され、統合されたWorldCup(CARWC)データセットとしてリリースされる。 A novel Bayesian framework is proposed, which explicitly relates the homography of one video frame to the next through an affine transformation while explicitly modelling keypoint uncertainty. The literature has previously used differential homography between subsequent frames, but not in a Bayesian setting. In cases where Bayesian methods have been applied, camera motion is not adequately modelled, and keypoints are treated as deterministic. The proposed method, Bayesian Homography Inference from Tracked Keypoints (BHITK), employs a two-stage Kalman filter and significantly improves existing methods. Existing keypoint detection methods may be easily augmented with BHITK. It enables less sophisticated and less computationally expensive methods to outperform the state-of-the-art approaches in most homography evaluation metrics. Furthermore, the homography annotations of the WorldCup and TS-WorldCup datasets have been refined using a custom homography annotation tool released for public use. The refined datasets are consolidated and released as the consolidated and refined WorldCup (CARWC) dataset. | 翻訳日:2023-11-21 17:29:44 公開日:2023-11-17 |
# FIKIT:カーネル同定による優先度に基づくリアルタイムGPUマルチタスクスケジューリング FIKIT: Priority-Based Real-time GPU Multi-tasking Scheduling with Kernel Identification ( http://arxiv.org/abs/2311.10359v1 ) ライセンス: Link先を確認 | Wenqing Wu | (参考訳) 機械学習トレーニングや推論、一般的なHPCタスクといった高度な並列処理は、GPUデバイスを使用して大幅に高速化される。
クラウドコンピューティングクラスタでは、マルチタスク共有を通じてgpuの計算能力を提供するには、利用可能なgpuの数よりもタスク要求が常に多いため、非常に要求される。
既存のGPU共有ソリューションでは、単一のGPUで競合する複数のジョブのタスクレベルの待ち時間やタスクレベルの切り替えコストの削減に重点を置いている。
非停止計算要求は、異なる優先順位を持ち、gpuデバイスを共有するためにqosに非対称な影響を与える。
既存の作業はこの設定によってもたらされたカーネルレベルの最適化の機会を逃した。
そこで本研究では, FIKIT: Filling Inter-kernel Idle Timeというカーネルレベルのスケジューリング手法を提案する。
FIKITはタスクレベルの優先度情報、きめ細かいカーネル識別、カーネル計測を組み込んでおり、優先度の高いタスクのカーネル間アイドル時間内での優先度の低いタスクの実行を可能にする。
これにより、GPUのデバイスランタイムを完全に満たし、クラウドサービスに対する全体的なGPU共有の影響を低減することができる。
一連のMLモデル全体で、FIKITベースの推論システムは、GPU共有モードのJCTに比べて優先度の高いタスクを1.33倍から14.87倍に加速し、ケースの半数以上が3.5倍以上加速した。
あるいは、プリエンプティブ共有の下では、低優先度タスクはデフォルトのGPU共有モード JCTと同等で、0.84から1倍である。
さらにカーネル計測と実行時の細粒度カーネルスケジューリングのオーバーヘッドを10%未満に制限した。 Highly parallelized workloads like machine learning training, inferences and general HPC tasks are greatly accelerated using GPU devices. In a cloud computing cluster, serving a GPU's computation power through multi-tasks sharing is highly demanded since there are always more task requests than the number of GPU available. Existing GPU sharing solutions focus on reducing task-level waiting time or task-level switching costs when multiple jobs competing for a single GPU. Non-stopped computation requests come with different priorities, having non-symmetric impact on QoS for sharing a GPU device. Existing work missed the kernel-level optimization opportunity brought by this setting. To address this problem, we present a novel kernel-level scheduling strategy called FIKIT: Filling Inter-kernel Idle Time. FIKIT incorporates task-level priority information, fine-grained kernel identification, and kernel measurement, allowing low priorities task's execution during high priority task's inter-kernel idle time. Thereby, filling the GPU's device runtime fully, and reduce overall GPU sharing impact to cloud services. Across a set of ML models, the FIKIT based inference system accelerated high priority tasks by 1.33 to 14.87 times compared to the JCT in GPU sharing mode, and more than half of the cases are accelerated by more than 3.5 times. Alternatively, under preemptive sharing, the low-priority tasks have a comparable to default GPU sharing mode JCT, with a 0.84 to 1 times ratio. We further limit the kernel measurement and runtime fine-grained kernel scheduling overhead to less than 10%. | 翻訳日:2023-11-21 17:29:28 公開日:2023-11-17 |
# 安定化器状態とクリフォードゲートの古典的仕様に対する高速アルゴリズム Fast algorithms for classical specifications of stabiliser states and Clifford gates ( http://arxiv.org/abs/2311.10357v1 ) ライセンス: Link先を確認 | Nadish de Silva, Wilfred Salmon, Ming Yin | (参考訳) 安定化器形式は、量子コンピューティング、エラー修正、フォールトトレランスにおいて中心的な役割を果たす。
安定化状態は量子データを符号化するために使用される。
クリフォードゲートは、最も一般的な誤り訂正スキームでフォールトトレラントに実行できるものである。
その数学的性質は重要な研究対象となっている。
数値実験は、スタビリザー形式を含む予想の定式化と検証に不可欠である。
本稿では,ベクトルが安定化状態であることを検証し,その仕様を振幅,二次形式,チェック行列として相互変換する高速な方法を提案する。
与えられたユニタリ行列がクリフォードゲートであるかどうかを迅速に確認し、クリフォードゲートの行列とそのコンパクトな仕様を安定化テーブルーとして変換する。
量子ビット数で指数関数的な漸近的改善を施して,最もよく知られたブルートフォース法をある程度のオーダーで上回るアルゴリズムをPythonで実装する。 The stabiliser formalism plays a central role in quantum computing, error correction, and fault-tolerance. Stabiliser states are used to encode quantum data. Clifford gates are those which can be easily performed fault-tolerantly in the most common error correction schemes. Their mathematical properties are the subject of significant research interest. Numerical experiments are critical to formulating and testing conjectures involving the stabiliser formalism. In this note, we provide fast methods for verifying that a vector is a stabiliser state, and interconverting between its specification as amplitudes, a quadratic form, and a check matrix. We use these to rapidly check if a given unitary matrix is a Clifford gate and to convert between the matrix of a Clifford gate and its compact specification as a stabiliser tableau. We provide implementations of our algorithms in Python that outperform the best-known brute force methods by some orders of magnitude with asymptotic improvements that are exponential in the number of qubits. | 翻訳日:2023-11-21 17:29:01 公開日:2023-11-17 |
# 形状と変形を優先したガーメント回収 Garment Recovery with Shape and Deformation Priors ( http://arxiv.org/abs/2311.10356v1 ) ライセンス: Link先を確認 | Ren Li, Corentin Dumery, Beno\^it Guillard, Pascal Fua | (参考訳) タイトフィットの服を着ている人をモデル化することは近年大きな進歩を遂げている一方、ゆるやかなフィット服は依然として課題である。
本研究では,実際の画像からリアルな衣料品モデルを提供する手法を提案する。
そこで本研究では, 合成データから得られた形状および変形先行情報を用いて, 衣服の形状や変形を正確に把握するフィッティング手法を提案する。
我々のアプローチは服の幾何学を正しく復元するだけでなく、アニメーションやシミュレーションのような下流アプリケーションで直接使用できるモデルも生み出す。 While modeling people wearing tight-fitting clothing has made great strides in recent years, loose-fitting clothing remains a challenge. We propose a method that delivers realistic garment models from real-world images, regardless of garment shape or deformation. To this end, we introduce a fitting approach that utilizes shape and deformation priors learned from synthetic data to accurately capture garment shapes and deformations, including large ones. Not only does our approach recover the garment geometry accurately, it also yields models that can be directly used by downstream applications such as animation and simulation. | 翻訳日:2023-11-21 17:28:47 公開日:2023-11-17 |
# 画像認識を用いたLLM制御コード生成 LLM-based Control Code Generation using Image Recognition ( http://arxiv.org/abs/2311.10401v1 ) ライセンス: Link先を確認 | Heiko Koziolek, Anne Koziolek | (参考訳) LLMベースのコード生成は、制御エンジニアが高度な生産プロセスのために手動で制御ロジックを作成する産業自動化における重要な手作業を救う可能性がある。
以前の制御ロジックコード生成の試みでは、プロセスエンジニアによる図面の解釈方法がなかった。
最近のLLMは、画像認識、訓練済みのドメイン知識、コーディングスキルを組み合わせている。
画像認識を用いたP&ID(Piping-and-Instrumentation Diagram)からIEC 61131-3構造テキスト制御ロジックのソースコードを生成するLLMベースの新しいコード生成手法を提案する。
本手法を産業用P&IDを用いた3つのケーススタディで評価し,画像認識における経験以外に,このようなコード生成の可能性に関する最初の証拠を提供する。 LLM-based code generation could save significant manual efforts in industrial automation, where control engineers manually produce control logic for sophisticated production processes. Previous attempts in control logic code generation lacked methods to interpret schematic drawings from process engineers. Recent LLMs now combine image recognition, trained domain knowledge, and coding skills. We propose a novel LLM-based code generation method that generates IEC 61131-3 Structure Text control logic source code from Piping-and-Instrumentation Diagrams (P&IDs) using image recognition. We have evaluated the method in three case study with industrial P&IDs and provide first evidence on the feasibility of such a code generation besides experiences on image recognition glitches. | 翻訳日:2023-11-20 15:25:08 公開日:2023-11-17 |
# AUV海底画像解析のための最適化深層学習モデル Optimized Deep Learning Models for AUV Seabed Image Analysis ( http://arxiv.org/abs/2311.10399v1 ) ライセンス: Link先を確認 | Rajesh Sharma R, Akey Sungheetha, Chinnaiyan R | (参考訳) 自律型水中車両(AUV)は、海底からのデータ収集方法を完全に変えた。
auvのイノベーションは、精度が高く効率的な海底マッピングの必要性が高まっているため、特に画像分析において著しく進歩した。
この記事では、AUV海底画像処理の最新技術の概要と比較について紹介する。
私たちは海底技術の世界に入り、コンピューターやアルゴリズムの進歩を通じて、センサーやカメラの進歩を網羅する。
このページを最後に読むと、AUVを使って海底写真を処理するための最新の技術とツールが理解でき、海底の理解をさらに深めることができる。 Using autonomous underwater vehicles, or AUVs, has completely changed how we gather data from the ocean floor. AUV innovation has advanced significantly, especially in the analysis of images, due to the increasing need for accurate and efficient seafloor mapping. This blog post provides a detailed summary and comparison of the most current advancements in AUV seafloor image processing. We will go into the realm of undersea technology, covering everything through computer and algorithmic advancements to advances in sensors and cameras. After reading this page through to the end, you will have a solid understanding of the most up-to-date techniques and tools for using AUVs to process seabed photos and how they could further our comprehension of the ocean floor | 翻訳日:2023-11-20 15:24:33 公開日:2023-11-17 |
# バイアスaヘッド?
変圧器型言語モデル注意ヘッドのバイアス解析 Bias A-head? Analyzing Bias in Transformer-Based Language Model Attention Heads ( http://arxiv.org/abs/2311.10395v1 ) ライセンス: Link先を確認 | Yi Yang, Hanyu Duan, Ahmed Abbasi, John P. Lalor, Kar Yan Tam | (参考訳) BERTやGPTのようなトランスフォーマーベースで事前訓練された大規模言語モデル(PLM)は、NLPタスクにおいて顕著な成功を収めた。
しかし、PLMはステレオタイプバイアスを符号化する傾向がある。
ジェンダーの偏りや人種的ステレオティピングといった PLM の定型的偏見緩和に関する文献が出現しているが、そのような偏見が PLM の内部でどのように現れ、どのように振る舞うかは明らかになっていない。
内部ステレオタイプ機構を理解することで、モデルフェアネスのより良い評価が可能になり、効果的な緩和戦略の開発を導くことができる。
本研究では,トランスフォーマーアーキテクチャの主要コンポーネントであるアテンションヘッドに着目し,plmのステレオタイプバイアスに寄与する小さなバイアスヘッドを探索し,同定するためのバイアス分析フレームワークを提案する。
偏りのある頭の存在を検証し、どのように振る舞うかをよりよく理解するために、広範な実験を行う。
本稿では,トランスフォーマーをベースとした2種類のPLM(エンコーダベースBERTモデル)とデコーダベース自己回帰GPTモデル(デコーダベースGPTモデル)において,英語の性差と人種バイアスについて検討する。
全体として、結果は事前訓練された言語モデルのバイアスの振る舞いを理解することに光を当てた。 Transformer-based pretrained large language models (PLM) such as BERT and GPT have achieved remarkable success in NLP tasks. However, PLMs are prone to encoding stereotypical biases. Although a burgeoning literature has emerged on stereotypical bias mitigation in PLMs, such as work on debiasing gender and racial stereotyping, how such biases manifest and behave internally within PLMs remains largely unknown. Understanding the internal stereotyping mechanisms may allow better assessment of model fairness and guide the development of effective mitigation strategies. In this work, we focus on attention heads, a major component of the Transformer architecture, and propose a bias analysis framework to explore and identify a small set of biased heads that are found to contribute to a PLM's stereotypical bias. We conduct extensive experiments to validate the existence of these biased heads and to better understand how they behave. We investigate gender and racial bias in the English language in two types of Transformer-based PLMs: the encoder-based BERT model and the decoder-based autoregressive GPT model. Overall, the results shed light on understanding the bias behavior in pretrained language models. | 翻訳日:2023-11-20 15:24:18 公開日:2023-11-17 |
# 高次高調波「ツインビーム」の相対強度スクイーズ Relative-intensity squeezing of high-order harmonic "twin beams" ( http://arxiv.org/abs/2311.10390v1 ) ライセンス: Link先を確認 | Shicheng Jiang, Konstantin Dorfman | (参考訳) ショットノイズ限界を超える高精度測定を行う上で,RIS(relative intensity squeezing)が期待できる技術として浮上している。
RISを可視・赤外線範囲で生成する一般的な方法は、弱いレーザービームで原子共鳴を駆動することで4波長の混合を通じて相関した「ツインビーム」を生成することである。
本稿では,高次高調波「ツインビーム」の相対強度列を生成するための全光学的強場スキームを提案する。
高調波発生の性質から、「ツインビーム」の周波数は幅広い光子エネルギーをカバーすることができる。
提案手法は,非古典的xuv源と高精細分光器の強磁場環境における開発への道を開くものである。 Relative intensity squeezing (RIS) is emerging as a promising technique for performing high-precision measurements beyond the shot-noise limit. A commonly used way to produce RIS in visible/IR range is generating correlated "twin beams" through four-wave mixing by driving atomic resonances with weak laser beams. Here, we propose an all-optical strong-field scheme to produce a series of relative-intensity squeezed high-order harmonic "twin beams". Due to the nature of high harmonics generation the frequencies of the "twin beams" can cover a broad range of photon energy. Our proposal paves the way for the development of nonclassical XUV sources and high precision spectroscopy tools in strong-field regime. | 翻訳日:2023-11-20 15:23:42 公開日:2023-11-17 |
# Puppet攻撃定義のための行動パターンに基づく2要素認証手法 Two-Factor Authentication Approach Based on Behavior Patterns for Defeating Puppet Attacks ( http://arxiv.org/abs/2311.10389v1 ) ライセンス: Link先を確認 | Wenhao Wang, Guyue Li, Zhiming Chu, Haobo Li and Daniele Faccio | (参考訳) 指紋の特徴は、その特異な性質とセキュリティ上の利点によって広く認識されている。
広く使われているにもかかわらず、指紋機能は人形の攻撃に対して脆弱であり、攻撃者は不愉快だが本物のユーザーを操って認証プロセスを完了させる。
このような攻撃に対する防御は、正当性と不正な意図の共存によって困難である。
本稿では,人形の攻撃を防ぐためのソリューションであるPUPGUARDを提案する。
本手法は, ユーザの行動パターンに基づいており, 特に, 認証処理中に異なる指で2回連続してキャプチャ装置を押圧する必要がある。
PUPGUARDは指紋の特徴と押圧間隔のタイミング特性の両方を利用して2要素認証を確立する。
具体的には、画像特徴とタイミング特性を抽出し、画像特徴に対して特徴選択を行い、PUPGUARDはこれら2つの特徴を1次元特徴ベクトルに融合させ、それを1クラス分類器に入力して分類結果を得る。
この2要素認証方式は、認証プロセス中の動的動作パターンを強調し、人形攻撃に対する安全性を高める。
PUPGUARDの有効性を評価するために、画像の特徴やタイミング特性を含む31の被験者から収集したデータセットについて実験を行った。
実験の結果,PUPGUARDの精度は97.87%,偽陽性率(FPR)は1.89%であった。
さらに, PUPGUARD内における画像特徴とタイミング特性を組み合わせることにより, 人形攻撃に対する抵抗性を高めるための比較実験を行った。 Fingerprint traits are widely recognized for their unique qualities and security benefits. Despite their extensive use, fingerprint features can be vulnerable to puppet attacks, where attackers manipulate a reluctant but genuine user into completing the authentication process. Defending against such attacks is challenging due to the coexistence of a legitimate identity and an illegitimate intent. In this paper, we propose PUPGUARD, a solution designed to guard against puppet attacks. This method is based on user behavioral patterns, specifically, the user needs to press the capture device twice successively with different fingers during the authentication process. PUPGUARD leverages both the image features of fingerprints and the timing characteristics of the pressing intervals to establish two-factor authentication. More specifically, after extracting image features and timing characteristics, and performing feature selection on the image features, PUPGUARD fuses these two features into a one-dimensional feature vector, and feeds it into a one-class classifier to obtain the classification result. This two-factor authentication method emphasizes dynamic behavioral patterns during the authentication process, thereby enhancing security against puppet attacks. To assess PUPGUARD's effectiveness, we conducted experiments on datasets collected from 31 subjects, including image features and timing characteristics. Our experimental results demonstrate that PUPGUARD achieves an impressive accuracy rate of 97.87% and a remarkably low false positive rate (FPR) of 1.89%. Furthermore, we conducted comparative experiments to validate the superiority of combining image features and timing characteristics within PUPGUARD for enhancing resistance against puppet attacks. | 翻訳日:2023-11-20 15:23:29 公開日:2023-11-17 |
# 動的システムと機械学習の橋渡し:工学的正規微分方程式を分類アルゴリズム(EODECA)として A Bridge between Dynamical Systems and Machine Learning: Engineered Ordinary Differential Equations as Classification Algorithm (EODECA) ( http://arxiv.org/abs/2311.10387v1 ) ライセンス: Link先を確認 | Raffaele Marino, Lorenzo Giambagli, Lorenzo Chicchi, Lorenzo Buffoni, Duccio Fanelli | (参考訳) 機械学習にますます依存する世界では、これらのモデルの解釈性は依然として大きな課題であり、多くの人は機能を謎めいたブラックボックスと同一視している。
本研究では,機械学習と動的システムを橋渡しする。
密度の強いニューラルネットワークと力学系、特に非線形性や連続的な変換の光の深い並列性を認識した本写本では、工学的正規微分方程式を分類アルゴリズム(EODECA)として導入する。
連続常微分方程式を基盤とするニューラルネットワークとして設計されたEODECAは、力学系のよく確立されたツールキットを活用することを目的としている。
しばしば不透明感に悩まされる従来のディープラーニングモデルとは異なり、EODECAは高い分類性能と本質的な解釈性の両方を約束する。
それらは自然に可逆的であり、彼らに対して理解と透明性の最先端を与える。
これらのドメインをブリッジすることで、データプロセスの真の理解が予測能力を補完する、機械学習モデルの新たな時代を開拓したいと考えています。 In a world increasingly reliant on machine learning, the interpretability of these models remains a substantial challenge, with many equating their functionality to an enigmatic black box. This study seeks to bridge machine learning and dynamical systems. Recognizing the deep parallels between dense neural networks and dynamical systems, particularly in the light of non-linearities and successive transformations, this manuscript introduces the Engineered Ordinary Differential Equations as Classification Algorithms (EODECAs). Uniquely designed as neural networks underpinned by continuous ordinary differential equations, EODECAs aim to capitalize on the well-established toolkit of dynamical systems. Unlike traditional deep learning models, which often suffer from opacity, EODECAs promise both high classification performance and intrinsic interpretability. They are naturally invertible, granting them an edge in understanding and transparency over their counterparts. By bridging these domains, we hope to usher in a new era of machine learning models where genuine comprehension of data processes complements predictive prowess. | 翻訳日:2023-11-20 15:23:02 公開日:2023-11-17 |
# delete my account: 機械学習分類器におけるデータ削除の影響 Delete My Account: Impact of Data Deletion on Machine Learning Classifiers ( http://arxiv.org/abs/2311.10385v1 ) ライセンス: Link先を確認 | Tobias Dam and Maximilian Henzl and Lukas Daniel Klausner | (参考訳) セキュリティ侵害や、近年のプライベートで機密性の高いデータの漏洩に関する報告のおかげで、ユーザは自身のデータの重要性をこれまで以上に認識している。
さらに、GDPRは欧州連合(EU)で3年以上有効であり、多くの人々が何らかの形でその影響に遭遇している。
その結果、ますます多くのユーザーが個人情報を積極的に保護している。
この方法の1つは、GDPRで保証されている消去の権利を付与することであり、これは、ビッグデータや機械学習など、さまざまな分野に潜在的に影響を及ぼす可能性がある。
本稿では,機械学習モデルの性能が分類課題に与える影響に関する詳細な分析を行う。
異なるデータセットと異なる機械学習アルゴリズムを用いて様々な実験を行い、様々な削除行動シナリオを分析した。
実際のユーザの行動に関する信頼できるデータがないため、さまざまな削除モードやバイアスに対して合理的な仮定を行い、さまざまな可能性の高いシナリオがマシンラーニングのデータ品質に与える影響について洞察を与えます。
以上の結果から,削除したデータ量,データセットの特徴,削除とユーザ行動の仮定に強く依存することが示された。 Users are more aware than ever of the importance of their own data, thanks to reports about security breaches and leaks of private, often sensitive data in recent years. Additionally, the GDPR has been in effect in the European Union for over three years and many people have encountered its effects in one way or another. Consequently, more and more users are actively protecting their personal data. One way to do this is to make of the right to erasure guaranteed in the GDPR, which has potential implications for a number of different fields, such as big data and machine learning. Our paper presents an in-depth analysis about the impact of the use of the right to erasure on the performance of machine learning models on classification tasks. We conduct various experiments utilising different datasets as well as different machine learning algorithms to analyse a variety of deletion behaviour scenarios. Due to the lack of credible data on actual user behaviour, we make reasonable assumptions for various deletion modes and biases and provide insight into the effects of different plausible scenarios for right to erasure usage on data quality of machine learning. Our results show that the impact depends strongly on the amount of data deleted, the particular characteristics of the dataset and the bias chosen for deletion and assumptions on user behaviour. | 翻訳日:2023-11-20 15:22:43 公開日:2023-11-17 |
# 複数物体追跡のためのシングルショット・マルチショット特徴学習 Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking ( http://arxiv.org/abs/2311.10382v1 ) ライセンス: Link先を確認 | Yizhe Li, Sanping Zhou, Zheng Qin, Le Wang, Jinjun Wang, Nanning Zheng | (参考訳) マルチオブジェクト追跡(MOT)は、ターゲットを特定し、ビデオシーケンスを通して各ターゲットに対して一貫したアイデンティティを維持することを目的とした、インテリジェントなビデオ分析の重要なコンポーネントである。
既存の作品は通常、動きや外観といった識別的特徴の表現を学習し、フレーム間の検出を関連付ける。
本稿では,単一ショットと複数ショットの特徴を同時学習し,追跡プロセスにおけるロバストなデータアソシエーションを実現するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
関連性のない検出のために,各検出の識別特徴を抽出する単一ショット特徴学習モジュールを設計し,隣接するフレーム間の目標を効率的に関連付ける。
複数のフレームを失ったトラックレットに対して,各トラックレットの識別特徴を抽出するための,新しいマルチショット特徴学習モジュールを設計した。
単純なデータアソシエーションロジックを装備すれば、VisualTrackerはシングルショットとマルチショットの機能表現に基づいて堅牢なMOTを実行することができる。
大規模な実験結果から,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現していることがわかった。 Multi-Object Tracking (MOT) remains a vital component of intelligent video analysis, which aims to locate targets and maintain a consistent identity for each target throughout a video sequence. Existing works usually learn a discriminative feature representation, such as motion and appearance, to associate the detections across frames, which are easily affected by mutual occlusion and background clutter in practice. In this paper, we propose a simple yet effective two-stage feature learning paradigm to jointly learn single-shot and multi-shot features for different targets, so as to achieve robust data association in the tracking process. For the detections without being associated, we design a novel single-shot feature learning module to extract discriminative features of each detection, which can efficiently associate targets between adjacent frames. For the tracklets being lost several frames, we design a novel multi-shot feature learning module to extract discriminative features of each tracklet, which can accurately refind these lost targets after a long period. Once equipped with a simple data association logic, the resulting VisualTracker can perform robust MOT based on the single-shot and multi-shot feature representations. Extensive experimental results demonstrate that our method has achieved significant improvements on MOT17 and MOT20 datasets while reaching state-of-the-art performance on DanceTrack dataset. | 翻訳日:2023-11-20 15:22:23 公開日:2023-11-17 |
# mse-nets : 曖昧な境界を持つ医用画像のセグメンテーションを改善するマルチアノテート半教師付きアンサンブルネットワーク MSE-Nets: Multi-annotated Semi-supervised Ensemble Networks for Improving Segmentation of Medical Image with Ambiguous Boundaries ( http://arxiv.org/abs/2311.10380v1 ) ライセンス: Link先を確認 | Shuai Wang, Tengjin Weng, Jingyi Wang, Yang Shen, Zhidong Zhao, Yixiu Liu, Pengfei Jiao, Zhiming Cheng, Yaqi Wang | (参考訳) 医用画像セグメンテーションアノテーションは、医用画像におけるセグメンテーション対象と背景の曖昧な境界により、専門家の間で多様性を示す。
完全教師付き画像の各画像に対する複数のアノテーションの使用は深層モデルの訓練のために広範囲に研究されてきたが、セグメント化アノテーションに必要なかなりの時間と人的コストのため、大量のマルチアノテーションデータを得ることは困難であり、多くの画像はアノテーションを欠いている。
そこで本研究では,マルチアノテーションと豊富な未注釈データからセグメンテーションを学習するためのマルチアノテート半教師付きアンサンブルネットワーク(MSE-Net)を提案する。
Specifically, we introduce the Network Pairwise Consistency Enhancement (NPCE) module and Multi-Network Pseudo Supervised (MNPS) module to enhance MSE-Nets for the segmentation task by considering two major factors: (1) to optimize the utilization of all accessible multi-annotated data, the NPCE separates (dis)agreement annotations of multi-annotated data at the pixel level and handles agreement and disagreement annotations in different ways, (2) to mitigate the introduction of imprecise pseudo-labels, the MNPS extends the training data by leveraging consistent pseudo-labels from unannotated data.
最後に,ベースネットワークの予測平均化によって信頼度校正を改善する。
isicデータセットにおける実験では、マルチ注釈データに対する要求を97.75\%削減し、最高の教師付きベースラインでギャップを4\%のjaccardインデックスに絞り込んだ。
さらに,ISICおよびRIGAデータセットの総合的な実験結果は,単一アノテーションや統合融合アプローチにのみ依存する他の半教師あり手法と比較して,曖昧な境界を持つ医用画像分割における提案手法の優れた性能を示す。 Medical image segmentation annotations exhibit variations among experts due to the ambiguous boundaries of segmented objects and backgrounds in medical images. Although using multiple annotations for each image in the fully-supervised has been extensively studied for training deep models, obtaining a large amount of multi-annotated data is challenging due to the substantial time and manpower costs required for segmentation annotations, resulting in most images lacking any annotations. To address this, we propose Multi-annotated Semi-supervised Ensemble Networks (MSE-Nets) for learning segmentation from limited multi-annotated and abundant unannotated data. Specifically, we introduce the Network Pairwise Consistency Enhancement (NPCE) module and Multi-Network Pseudo Supervised (MNPS) module to enhance MSE-Nets for the segmentation task by considering two major factors: (1) to optimize the utilization of all accessible multi-annotated data, the NPCE separates (dis)agreement annotations of multi-annotated data at the pixel level and handles agreement and disagreement annotations in different ways, (2) to mitigate the introduction of imprecise pseudo-labels, the MNPS extends the training data by leveraging consistent pseudo-labels from unannotated data. Finally, we improve confidence calibration by averaging the predictions of base networks. Experiments on the ISIC dataset show that we reduced the demand for multi-annotated data by 97.75\% and narrowed the gap with the best fully-supervised baseline to just a Jaccard index of 4\%. Furthermore, compared to other semi-supervised methods that rely only on a single annotation or a combined fusion approach, the comprehensive experimental results on ISIC and RIGA datasets demonstrate the superior performance of our proposed method in medical image segmentation with ambiguous boundaries. | 翻訳日:2023-11-20 15:22:00 公開日:2023-11-17 |
# 量子データ符号化:古典から量子へのマッピング手法の比較分析と機械学習精度への影響 Quantum Data Encoding: A Comparative Analysis of Classical-to-Quantum Mapping Techniques and Their Impact on Machine Learning Accuracy ( http://arxiv.org/abs/2311.10375v1 ) ライセンス: Link先を確認 | Minati Rath, Hema Date | (参考訳) 本研究は,量子データ埋め込み手法を古典的機械学習(ml)アルゴリズムに統合し,様々なモデルの性能向上と計算的影響を評価することを目的としている。
我々は,古典的データを符号化するためのベースエンコーディング,アングルエンコーディング,振幅エンコーディングなど,さまざまな古典的-量子マッピング手法を探索し,ロジスティック回帰,K-Nearest Neighbors,Support Vector Machines,Random Forest,LightGBM,AdaBoost,CatBoostなどのアンサンブル手法など,一般的なMLアルゴリズムを含む広範な実験を行った。
この結果から,量子データの埋め込みは分類精度やF1スコアの向上に寄与することが明らかとなった。
走行時間に対するニュアンスの影響を,低複雑さモデルでは適度な増加を示し,より計算量の多いモデルでは識別可能な変化が見られた。
特に、アンサンブル法はパフォーマンス向上と計算オーバーヘッドのバランスが良好であった。
本研究は、古典的MLモデルの強化における量子データ埋め込みの可能性を強調し、計算コストに対する性能改善を重んじることの重要性を強調する。
将来の研究の方向性は、計算効率を最適化するための量子符号化プロセスの精細化と、現実世界のアプリケーションのためのスケーラビリティの探索である。
我々の研究は、量子コンピューティングと古典的な機械学習の交差点における知識の増大に寄与し、量子に触発された技術の利点を現実のシナリオで活用しようとする研究者や実践者に洞察を提供する。 This research explores the integration of quantum data embedding techniques into classical machine learning (ML) algorithms, aiming to assess the performance enhancements and computational implications across a spectrum of models. We explore various classical-to-quantum mapping methods, ranging from basis encoding, angle encoding to amplitude encoding for encoding classical data, we conducted an extensive empirical study encompassing popular ML algorithms, including Logistic Regression, K-Nearest Neighbors, Support Vector Machines and ensemble methods like Random Forest, LightGBM, AdaBoost, and CatBoost. Our findings reveal that quantum data embedding contributes to improved classification accuracy and F1 scores, particularly notable in models that inherently benefit from enhanced feature representation. We observed nuanced effects on running time, with low-complexity models exhibiting moderate increases and more computationally intensive models experiencing discernible changes. Notably, ensemble methods demonstrated a favorable balance between performance gains and computational overhead. This study underscores the potential of quantum data embedding in enhancing classical ML models and emphasizes the importance of weighing performance improvements against computational costs. Future research directions may involve refining quantum encoding processes to optimize computational efficiency and exploring scalability for real-world applications. Our work contributes to the growing body of knowledge at the intersection of quantum computing and classical machine learning, offering insights for researchers and practitioners seeking to harness the advantages of quantum-inspired techniques in practical scenarios. | 翻訳日:2023-11-20 15:21:27 公開日:2023-11-17 |
# foal: クロスドメインアスペクト感情三重項抽出のための細粒度コントラスト学習 FOAL: Fine-grained Contrastive Learning for Cross-domain Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2311.10373v1 ) ライセンス: Link先を確認 | Ting Xu, Zhen Wu, Huiyun Yang, Xinyu Dai | (参考訳) Aspect Sentiment Triplet extract (ASTE)は、特定のドメインで十分なアノテーションデータに依存しながら、有望な結果を得た。
しかし、各ドメインのデータに注釈をつけることは不可能である。
本稿では,リソースリッチなソースドメインからリソースプーア対象ドメインに知識を転送し,対象ドメイン内のラベル付きデータへの依存を緩和するクロスドメイン設定におけるasteの探索を提案する。
ドメイン間の知識を効果的に伝達し,感情三重項を正確に抽出するために,各カテゴリの識別性を維持するために,細粒度cOntrAstive Learning (FOAL) という手法を提案する。
6つの転送ペアを実験した結果、foalは6%のパフォーマンス向上を達成し、強力なベースラインと比較してドメインのばらつきを大幅に低減した。
私たちのコードは承認されれば公開されます。 Aspect Sentiment Triplet Extraction (ASTE) has achieved promising results while relying on sufficient annotation data in a specific domain. However, it is infeasible to annotate data for each individual domain. We propose to explore ASTE in the cross-domain setting, which transfers knowledge from a resource-rich source domain to a resource-poor target domain, thereby alleviating the reliance on labeled data in the target domain. To effectively transfer the knowledge across domains and extract the sentiment triplets accurately, we propose a method named Fine-grained cOntrAstive Learning (FOAL) to reduce the domain discrepancy and preserve the discriminability of each category. Experiments on six transfer pairs show that FOAL achieves 6% performance gains and reduces the domain discrepancy significantly compared with strong baselines. Our code will be publicly available once accepted. | 翻訳日:2023-11-20 15:20:56 公開日:2023-11-17 |
# コードのための大規模言語モデルに関する調査:進化、ベンチマークおよび今後のトレンド A Survey of Large Language Models for Code: Evolution, Benchmarking, and Future Trends ( http://arxiv.org/abs/2311.10372v1 ) ライセンス: Link先を確認 | Zibin Zheng and Kaiwen Ning and Yanlin Wang and Jingwen Zhang and Dewu Zheng and Mingxi Ye and Jiachi Chen | (参考訳) ChatGPTで表される一般的な大規模言語モデル(LLM)は、ソフトウェア工学におけるコード生成のようなタスクにおいて大きな可能性を示している。
このことが、Code LLMとして知られるソフトウェア工学のための特殊なLLMの開発につながった。
Code LLMのかなりの部分は、モデルファインチューニングを通じて一般的なLLMから派生している。
結果として、コード LLM は頻繁に更新され、その性能はベース LLM の影響を受けやすい。
しかし、現在、Code LLMとそのパフォーマンスに関する体系的な調査が欠如している。
本研究では,一般のLLMと比較して,コードLLMの種類と性能の違いに関する総合的な調査と分析を行う。
1) ソフトウェアエンジニアリングタスク用に特別に設計されたLLMとは何か、そして、これらのコードLLMとは何の関係があるのか?
2) コードLLMはソフトウェア工学のタスクにおいて一般的なLLMよりも優れているか?
3)どのllmが異なるソフトウェアエンジニアリングタスクに習熟しているか?
これらの質問に答えるために、私たちはまず、関連する文献を収集し、5つの主要なデータベースとオープンソースコミュニティから作業を行い、分析のために134の作業を行いました。
次に、それらの出版社に基づいてコードLLMを分類し、一般LLMとそれらの関係について検討する。
さらに,各種ソフトウェアエンジニアリングタスクにおける一般LLMとコードLLMのパフォーマンス差について検討し,ベースモデルとコードLLMの影響を実証する。
最後に、複数の主要なベンチマークでLLMの性能を総合的に維持し、各ソフトウェアエンジニアリングタスクで最高の性能のLLMを特定する。
私たちの研究は、より高度なLLMを開発するためのベースモデルを選択する上で、コードLLMの開発者を支援するだけでなく、実践者がコードLLMの重要な改善方向を理解するための洞察も提供します。 General large language models (LLMs), represented by ChatGPT, have demonstrated significant potential in tasks such as code generation in software engineering. This has led to the development of specialized LLMs for software engineering, known as Code LLMs. A considerable portion of Code LLMs is derived from general LLMs through model fine-tuning. As a result, Code LLMs are often updated frequently and their performance can be influenced by the base LLMs. However, there is currently a lack of systematic investigation into Code LLMs and their performance. In this study, we conduct a comprehensive survey and analysis of the types of Code LLMs and their differences in performance compared to general LLMs. We aim to address three questions: (1) What LLMs are specifically designed for software engineering tasks, and what is the relationship between these Code LLMs? (2) Do Code LLMs really outperform general LLMs in software engineering tasks? (3) Which LLMs are more proficient in different software engineering tasks? To answer these questions, we first collect relevant literature and work from five major databases and open-source communities, resulting in 134 works for analysis. Next, we categorize the Code LLMs based on their publishers and examine their relationships with general LLMs and among themselves. Furthermore, we investigate the performance differences between general LLMs and Code LLMs in various software engineering tasks to demonstrate the impact of base models and Code LLMs. Finally, we comprehensively maintained the performance of LLMs across multiple mainstream benchmarks to identify the best-performing LLMs for each software engineering task. Our research not only assists developers of Code LLMs in choosing base models for the development of more advanced LLMs but also provides insights for practitioners to better understand key improvement directions for Code LLMs. | 翻訳日:2023-11-20 15:20:39 公開日:2023-11-17 |
# グラフ異常検出のためのFew-shot Message-Enhanced Contrastive Learning Few-shot Message-Enhanced Contrastive Learning for Graph Anomaly Detection ( http://arxiv.org/abs/2311.10370v1 ) ライセンス: Link先を確認 | Fan Xu, Nan Wang, Xuezhi Wen, Meiqi Gao, Chaoqun Guo, Xibin Zhao | (参考訳) グラフ異常検出は、大多数から大きく逸脱するグラフデータの例外的なインスタンスを特定する上で重要な役割を果たす。
ネットワーク侵入、金融詐欺、悪意のあるコメントなど、様々な情報セキュリティ分野において大きな注目を集めている。
既存の手法は主にラベル付きデータを取得することの難しさから教師なしの方法で開発されている。
教師なしの方法で事前知識からのガイダンスが欠如しているため、特定された異常はデータノイズまたは個々のデータインスタンスであることが証明される。
実世界のシナリオでは、ラベル付き異常の限られたバッチをキャプチャできるため、グラフ異常検出における少数ショットの問題を調べることが重要である。
この可能性を生かして,FMGAD (Few-shot Message-Enhanced Contrastive-based Graph Anomaly Detector) と呼ばれる新しいグラフ異常検出モデルを提案する。
fmgadは、内在的および伝達可能な構造表現を捉えるために、ビュー内外の自己教師付きコントラスト学習戦略を利用する。
さらに,少ないラベル情報を広範囲に活用し,より深い非ラベルノードに監視信号を広めることを可能にする,deep-gnnメッセージエンハンスドレコンストラクションモジュールを提案する。
このモジュールは、自己指導型コントラスト学習のトレーニングを支援する。
6つの実世界のデータセットに対する総合的な実験結果は、FMGADが人工的に注入された異常やドメイン-有機的異常にかかわらず、他の最先端手法よりも優れた性能を達成できることを示した。 Graph anomaly detection plays a crucial role in identifying exceptional instances in graph data that deviate significantly from the majority. It has gained substantial attention in various domains of information security, including network intrusion, financial fraud, and malicious comments, et al. Existing methods are primarily developed in an unsupervised manner due to the challenge in obtaining labeled data. For lack of guidance from prior knowledge in unsupervised manner, the identified anomalies may prove to be data noise or individual data instances. In real-world scenarios, a limited batch of labeled anomalies can be captured, making it crucial to investigate the few-shot problem in graph anomaly detection. Taking advantage of this potential, we propose a novel few-shot Graph Anomaly Detection model called FMGAD (Few-shot Message-Enhanced Contrastive-based Graph Anomaly Detector). FMGAD leverages a self-supervised contrastive learning strategy within and across views to capture intrinsic and transferable structural representations. Furthermore, we propose the Deep-GNN message-enhanced reconstruction module, which extensively exploits the few-shot label information and enables long-range propagation to disseminate supervision signals to deeper unlabeled nodes. This module in turn assists in the training of self-supervised contrastive learning. Comprehensive experimental results on six real-world datasets demonstrate that FMGAD can achieve better performance than other state-of-the-art methods, regardless of artificially injected anomalies or domain-organic anomalies. | 翻訳日:2023-11-20 15:20:11 公開日:2023-11-17 |
# インコンテキスト学習と命令チューニングの関係を探る Exploring the Relationship between In-Context Learning and Instruction Tuning ( http://arxiv.org/abs/2311.10367v1 ) ライセンス: Link先を確認 | Hanyu Duan, Yixuan Tang, Yi Yang, Ahmed Abbasi, Kar Yan Tam | (参考訳) In-Context Learning (ICL) と Instruction Tuning (IT) は、下流アプリケーションにLLM(Large Language Models)を採用する2つの主要なパラダイムである。
しかし、それらはかなり異なる。
ICLでは、推論時に一連のデモが提供されるが、LLMのパラメータは更新されない。
ITでは、LLMのパラメータをトレーニング時にチューニングするために一連のデモが使用されるが、推論時にデモは使用されない。
ICLとITを調査する文献が増えているが、これらのトピックの研究はほとんど独立して行われており、これら2つのパラダイムが切り離されている。
本稿では,これらの2つのパラダイムにおいて,LLMの隠れ状態がどのように変化するかを調べることによって,ICLとITの関係を考察する。
LLaMA-2 (7B, 13B) を用いて慎重に設計した実験により, ICLは暗黙のITであることがわかった。
言い換えれば、ICL は LLM の隠された状態を、まるで模型を指導的にチューニングするためにデモが使われたかのように変更する。
さらに、ICLとITの収束は、提供されたデモに関連するいくつかの要因に大きく依存している。
全体として、この研究はICLとITのつながりを探求するためのユニークな視点を提供し、LLMの振る舞いを理解することに光を当てています。 In-Context Learning (ICL) and Instruction Tuning (IT) are two primary paradigms of adopting Large Language Models (LLMs) to downstream applications. However, they are significantly different. In ICL, a set of demonstrations are provided at inference time but the LLM's parameters are not updated. In IT, a set of demonstrations are used to tune LLM's parameters in training time but no demonstrations are used at inference time. Although a growing body of literature has explored ICL and IT, studies on these topics have largely been conducted in isolation, leading to a disconnect between these two paradigms. In this work, we explore the relationship between ICL and IT by examining how the hidden states of LLMs change in these two paradigms. Through carefully designed experiments conducted with LLaMA-2 (7B and 13B), we find that ICL is implicit IT. In other words, ICL changes an LLM's hidden states as if the demonstrations were used to instructionally tune the model. Furthermore, the convergence between ICL and IT is largely contingent upon several factors related to the provided demonstrations. Overall, this work offers a unique perspective to explore the connection between ICL and IT and sheds light on understanding the behaviors of LLM. | 翻訳日:2023-11-20 15:19:45 公開日:2023-11-17 |
# 単元平均化による連続可変量子チャネルの改善 Improving Continuous-variable Quantum Channels with Unitary Averaging ( http://arxiv.org/abs/2311.10432v1 ) ライセンス: Link先を確認 | S. Nibedita Swain, Ryan J. Marshman, Peter P. Rohde, Austin P. Lund, Alexander S. Solntsev, Timothy C. Ralph | (参考訳) 量子情報とボソニック系を用いた処理における大きなハードルは、光子がチャネルを伝搬するときに発生する確率的位相誤差である。
本稿では,ガウスチャネル保護のための受動線形光ユニタリ平均化手法を提案する。
このスキームは線形光学素子と真空検出器のみを必要とし、純度、スチーズ、絡み合いの喪失を防ぐ。
提案手法は,雑音レベルが低いパラメータに最適化された数値シミュレーションと解析式であり,近似の精度は極めて高い。
また、プロトコルの漸近的な性質を示し、現在と将来の関連性を強調する。 A significant hurdle for quantum information and processing using bosonic systems are stochastic phase errors, which are likely to occur as the photons propagate through a channel. We propose and demonstrate a scheme of passive, linear optical unitary averaging for protecting Gaussian channels. The scheme requires only linear optical elements and vacuum detectors, and protects against a loss of purity, squeezing and entanglement. We present numerical simulations and analytical formula, tailored for currently relevant parameters with low noise levels, where our approximations perform exceptionally well. We also show the asymptotic nature of the protocol, highlighting both current and future relevance. | 翻訳日:2023-11-20 15:10:45 公開日:2023-11-17 |
# 言語モデルにおける因果グラフ : 物語処理における皮質階層の再発見 Causal Graph in Language Model Rediscovers Cortical Hierarchy in Human Narrative Processing ( http://arxiv.org/abs/2311.10431v1 ) ライセンス: Link先を確認 | Zhengqi He, Taro Toyoizumi | (参考訳) 人間がどのように自然言語を処理するかを理解することは、長い間重要な研究の方向性だった。
自然言語処理(NLP)の分野は、最近、強力な言語モデルの開発が急増している。
これらのモデルは、人間の言語を処理する他の複雑なシステム、すなわち脳を研究するための貴重なツールであることが証明されている。
これまでの研究では、言語モデルの特徴がfMRI脳活動にマッピングできることが示されている。
これは、言語モデルにおける情報処理と人間の脳の間に共通点があるのだろうか?
言語モデルにおける情報フローパターンを推定するために,異なる層間の因果関係について検討した。
意識のためのワークスペースフレームワークからインスピレーションを得て、より多くの情報を統合することで、より高い階層的脳活動をより正確に予測できると仮定した。
この仮説を検証するため,言語モデルの特徴を「低次」と「高次」の2つのカテゴリーに分類した。
この2つのグループについて,脳予測精度マップを比較した。
その結果,予測精度の差は,活動時間定数で示される皮質階層マップと一致した階層パターンに従うことがわかった。
この発見は、言語モデルと人間の脳が言語情報を処理する方法の類似性を示唆している。 Understanding how humans process natural language has long been a vital research direction. The field of natural language processing (NLP) has recently experienced a surge in the development of powerful language models. These models have proven to be invaluable tools for studying another complex system known to process human language: the brain. Previous studies have demonstrated that the features of language models can be mapped to fMRI brain activity. This raises the question: is there a commonality between information processing in language models and the human brain? To estimate information flow patterns in a language model, we examined the causal relationships between different layers. Drawing inspiration from the workspace framework for consciousness, we hypothesized that features integrating more information would more accurately predict higher hierarchical brain activity. To validate this hypothesis, we classified language model features into two categories based on causal network measures: 'low in-degree' and 'high in-degree'. We subsequently compared the brain prediction accuracy maps for these two groups. Our results reveal that the difference in prediction accuracy follows a hierarchical pattern, consistent with the cortical hierarchy map revealed by activity time constants. This finding suggests a parallel between how language models and the human brain process linguistic information. | 翻訳日:2023-11-20 15:10:34 公開日:2023-11-17 |
# 多型胸部感染症診断のための深部残存CNN Deep Residual CNN for Multi-Class Chest Infection Diagnosis ( http://arxiv.org/abs/2311.10430v1 ) ライセンス: Link先を確認 | Ryan Donghan Kwon, Dohyun Lim, Yoonha Lee, Seung Won Lee | (参考訳) ディープラーニングの出現は、自動化された医療画像診断の能力を著しく促進し、医療と医療診断の領域で貴重なツールとリソースを提供する。
本研究では,胸部x線画像を用いた胸部感染症の多層診断のための深層残存畳み込みニューラルネットワーク(cnn)の開発と評価を行った。
さまざまなソースから集約されたデータセット上でトレーニングされ、検証された実装モデルは、堅牢な全体的な精度93%を示した。
しかしながら、異なるクラス、特に線維症におけるパフォーマンスのニュアンスの違いは、医療画像の自動診断に固有の複雑さと課題を強調するものであった。
この知見は、画像のより微妙でニュアンスのある視覚的特徴を示す条件の分類におけるモデルの習熟度の向上、モデルアーキテクチャとトレーニングプロセスの最適化と改善に焦点を当て、将来の研究の道を開いた。
本稿では,このモデルの開発,実装,評価に関する包括的考察を行い,今後の研究開発に向けた洞察と方向性について述べる。 The advent of deep learning has significantly propelled the capabilities of automated medical image diagnosis, providing valuable tools and resources in the realm of healthcare and medical diagnostics. This research delves into the development and evaluation of a Deep Residual Convolutional Neural Network (CNN) for the multi-class diagnosis of chest infections, utilizing chest X-ray images. The implemented model, trained and validated on a dataset amalgamated from diverse sources, demonstrated a robust overall accuracy of 93%. However, nuanced disparities in performance across different classes, particularly Fibrosis, underscored the complexity and challenges inherent in automated medical image diagnosis. The insights derived pave the way for future research, focusing on enhancing the model's proficiency in classifying conditions that present more subtle and nuanced visual features in the images, as well as optimizing and refining the model architecture and training process. This paper provides a comprehensive exploration into the development, implementation, and evaluation of the model, offering insights and directions for future research and development in the field. | 翻訳日:2023-11-20 15:10:15 公開日:2023-11-17 |
# 単一有限量子系における超量子コヒーレント状態 Ultra-quantum coherent states in a single finite quantum system ( http://arxiv.org/abs/2311.10429v1 ) ライセンス: Link先を確認 | A. Vourdas | (参考訳) n$コヒーレント状態の組は、d$-次元ヒルベルト空間 $h(d)$ を持つ量子系で導入された。
同一性は解消され、離散的等方性も持つことが示されている。
有限巡回群はこれらのコヒーレント状態の集合に作用し、それを軌道に分割する。
バーグマン表現に類似した$H(d)$における任意の状態の$n$-tuple表現が定義される。
これらコヒーレント状態には他に2つの重要な性質があり、それらが 'ultra-quantum' となる。
最初の性質は、ヒルベルト空間の 'edge' と量子形式論を研究するグロタンディーク形式主義に関連している。
大まかに言えば、グロタンディークの定理は、単位円板の複素数を使用する「古典的」二次形式 ${\mathfrak C}$ と、ヒルベルト空間の単位球のベクトルを使用する「量子的」二次形式 ${\mathfrak Q}$ を考える。
これは、もし${\mathfrak c}\le 1$なら、対応する${\mathfrak q}$は、複雑なgrothendieck定数$k_g$まで、1ドル以上の値を取る可能性があることを示している。
これらのコヒーレントな状態に関連する${\mathfrak Q}$は 'Grothendieck region' $(1,k_G)$ で値を取ることが示され、${\mathfrak C}$ が値を取ることはないという意味で古典的に禁じられている。
2つ目の性質は、これらのコヒーレントな状態が論理的なベルのような不等式(これはフレシェ確率的不等式(英語版)の量子バージョンである)に反することを示している。
この意味でも、我々のコヒーレントな状態は量子領域の奥深くにある。 A set of $n$ coherent states is introduced in a quantum system with $d$-dimensional Hilbert space $H(d)$. It is shown that they resolve the identity, and also have a discrete isotropy property. A finite cyclic group acts on the set of these coherent states, and partitions it into orbits. A $n$-tuple representation of arbitrary states in $H(d)$, analogous to the Bargmann representation, is defined. There are two other important properties of these coherent states which make them `ultra-quantum'. The first property is related to the Grothendieck formalism which studies the `edge' of the Hilbert space and quantum formalisms. Roughly speaking the Grothendieck theorem considers a `classical' quadratic form ${\mathfrak C}$ that uses complex numbers in the unit disc, and a `quantum' quadratic form ${\mathfrak Q}$ that uses vectors in the unit ball of the Hilbert space. It shows that if ${\mathfrak C}\le 1$, the corresponding ${\mathfrak Q}$ might take values greater than $1$, up to the complex Grothendieck constant $k_G$. ${\mathfrak Q}$ related to these coherent states is shown to take values in the `Grothendieck region' $(1,k_G)$, which is classically forbidden in the sense that ${\mathfrak C}$ does not take values in it. The second property complements this, showing that these coherent states violate logical Bell-like inequalities (which for a single quantum system are quantum versions of the Frechet probabilistic inequalities). In this sense also, our coherent states are deep into the quantum region. | 翻訳日:2023-11-20 15:09:55 公開日:2023-11-17 |
# 平均力のハミルトニアンの構造 Structure of the Hamiltonian of mean force ( http://arxiv.org/abs/2311.10427v1 ) ライセンス: Link先を確認 | Phillip C. Burke, Goran Nakerst, Masudul Haque | (参考訳) 平均力のハミルトニアン(hamiltonian of mean force)は、環境と非弱結合な量子系を有効なギブス状態で書くことができる効果的なハミルトニアンである。
局所相互作用を持つ拡張量子系における平均力ハミルトニアンの構造について検討する。
その空間構造は「皮膚効果」を示し、ハミルトニアンが系環境境界からの距離で指数関数的に死する系との違いを示す。
スピン系に対しては、逆温度で異なる順序で平均力のハミルトニアンに現れる用語を同定する。 The Hamiltonian of mean force is an effective Hamiltonian that allows a quantum system, non-weakly coupled to an environment, to be written in an effective Gibbs state. We investigate the structure of the Hamiltonian of mean force in extended quantum systems with local interactions. We show that its spatial structure exhibits a "skin effect" -- its difference from the system Hamiltonian dies off exponentially with distance from the system-environment boundary. For spin systems, we identify the terms that can appear in the Hamiltonian of mean force at different orders in the inverse temperature. | 翻訳日:2023-11-20 15:09:17 公開日:2023-11-17 |
# 確率熱力学による熱処理性能のバウンドと模擬熱処理への応用 Bound on annealing performance from stochastic thermodynamics, with application to simulated annealing ( http://arxiv.org/abs/2311.10424v1 ) ライセンス: Link先を確認 | Yutong Luo, Yi-Zheng Zhen, Xiangjing Liu, Daniel Ebler and Oscar Dahlsten | (参考訳) アニーリング(英: annealing)は、システムの温度を徐々に下げて最低エネルギー状態へと導く過程である。
付随する論文 (luo et al. phys. rev. e 108, l052105 (2023)) において, エントロピー生成による状態変換の速度制限を含む確率的熱力学ツールとアニーリングを接続することにより, アニーリング性能の一般的な限界を導出した。
ここでは、一般境界の導出について詳述する。
また,グラウバー力学の深部におけるシミュレーション熱処理の事例を解析した。
本研究は, 境界に現れる2つの事例特異的な量, 活動量, 微小状態数の測定値, 温度変化による状態と瞬時熱状態との間の相対エントロピーの変化を, どのようにバウンドするかを示す。
スピングラスのSKモデル上での数値シミュレーションにより議論を実証する。 Annealing is the process of gradually lowering the temperature of a system to guide it towards its lowest energy states. In an accompanying paper [Luo et al. Phys. Rev. E 108, L052105 (2023)], we derived a general bound on annealing performance by connecting annealing with stochastic thermodynamics tools, including a speed-limit on state transformation from entropy production. We here describe the derivation of the general bound in detail. In addition, we analyze the case of simulated annealing with Glauber dynamics in depth. We show how to bound the two case-specific quantities appearing in the bound, namely the activity, a measure of the number of microstate jumps, and the change in relative entropy between the state and the instantaneous thermal state, which is due to temperature variation. We exemplify the arguments by numerical simulations on the SK model of spin-glasses. | 翻訳日:2023-11-20 15:09:07 公開日:2023-11-17 |
# 熱力学的焼鈍性能の一般限界 General limit to thermodynamic annealing performance ( http://arxiv.org/abs/2311.10422v1 ) ライセンス: Link先を確認 | Yutong Luo, Yi-Zheng Zhen, Xiangjing Liu, Daniel Ebler and Oscar Dahlsten | (参考訳) アニーリングはコスト現場でミニマを見つけることに非常に成功している。
しかし、状況によっては、システムはグローバルなものよりもローカルなミニマに収束することが多い。
本報告では,アニーリングがほぼ有限時間で成功する条件を解析する。
我々は,アニールと確率的熱力学を結びつけて,アニールの終端の系状態と景観の接地状態との間の距離を一般化する。
この距離は、システムの状態更新の量と非平衡エネルギーの蓄積、2つのプロトコル、およびトレードオフ関係にあることを示すエネルギーランドスケープに依存する量に依存する。
分析的および物理的に2つの量にどう結合するかを説明する。
これは、シミュレーションおよび物理実装の両方において、アクセス可能なパラメータからアニールの性能を評価するための一般的なアプローチを提供する。 Annealing has proven highly successful in finding minima in a cost landscape. Yet, depending on the landscape, systems often converge towards local minima rather than global ones. In this Letter, we analyse the conditions for which annealing is approximately successful in finite time. We connect annealing to stochastic thermodynamics to derive a general bound on the distance between the system state at the end of the annealing and the ground state of the landscape. This distance depends on the amount of state updates of the system and the accumulation of non-equilibrium energy, two protocol and energy landscape dependent quantities which we show are in a trade-off relation. We describe how to bound the two quantities both analytically and physically. This offers a general approach to assess the performance of annealing from accessible parameters, both for simulated and physical implementations. | 翻訳日:2023-11-20 15:08:47 公開日:2023-11-17 |
# AIOpsソリューションの異常検出のためのメンテナンス技術 Maintenance Techniques for Anomaly Detection AIOps Solutions ( http://arxiv.org/abs/2311.10421v1 ) ライセンス: Link先を確認 | Lorena Poenaru-Olaru, Natalia Karpova, Luis Cruz, Jan Rellermeyer, Arie van Deursen | (参考訳) 異常検出技術はITシステムや運用の監視を自動化する上で不可欠である。
これらの技術は、機械学習アルゴリズムが特定の期間に対応する運用データに基づいて訓練され、新たなデータに対して継続的に評価されることを示唆している。
運用データは時間とともに常に変化しており、デプロイされた異常検出モデルのパフォーマンスに影響する。
したがって, 連続モデル維持は, 時間とともに異常検知器の性能を維持するために必要である。
本研究では,モデル更新頻度の観点から,ブラインドモデル再トレーニングとインフォームドモデル再トレーニングという2つの異なる異常検出モデル維持手法を分析した。
さらに,すべての利用可能なデータ(フルヒストリーアプローチ)と最新データ(スライディングウィンドウアプローチ)にリトレーニングすることにより,モデル更新の効果をさらに調査する。
さらに、データ変更監視ツールが、リトレーニングによって異常検出モデルを更新する必要があるかどうかを判断できるかどうかを検討する。 Anomaly detection techniques are essential in automating the monitoring of IT systems and operations. These techniques imply that machine learning algorithms are trained on operational data corresponding to a specific period of time and that they are continuously evaluated on newly emerging data. Operational data is constantly changing over time, which affects the performance of deployed anomaly detection models. Therefore, continuous model maintenance is required to preserve the performance of anomaly detectors over time. In this work, we analyze two different anomaly detection model maintenance techniques in terms of the model update frequency, namely blind model retraining and informed model retraining. We further investigate the effects of updating the model by retraining it on all the available data (full-history approach) and on only the newest data (sliding window approach). Moreover, we investigate whether a data change monitoring tool is capable of determining when the anomaly detection model needs to be updated through retraining. | 翻訳日:2023-11-20 15:08:36 公開日:2023-11-17 |
# DynaPipe: 動的パイプラインによるマルチタスクトレーニングの最適化 DynaPipe: Optimizing Multi-task Training through Dynamic Pipelines ( http://arxiv.org/abs/2311.10418v1 ) ライセンス: Link先を確認 | Chenyu Jiang, Zhen Jia, Shuai Zheng, Yida Wang, Chuan Wu | (参考訳) マルチタスクモデルのトレーニングは、単一のディープニューラルネットワークモデル(しばしば大きな言語モデル)が複数のタスク(質問応答やテキスト要約など)を処理可能にするために採用されている。
マルチタスクトレーニングは、異なるタスクの多様なコンテキストのために、非常に異なる長さの入力シーケンスを受け取る。
パディング(同じシーケンス長に)またはパッキング(短い例を同じ長さの長い列にまとめる)は通常、モデルトレーニングのための入力サンプルを作成するために採用されるが、それでも空間や計算は効率的ではない。
本稿では,シーケンス長の変動に対処し,効率的なマルチタスクモデルトレーニングを実現するための動的マイクロバッチ手法を提案する。
我々は,可変長のマイクロバッチを用いた大規模モデルのパイプライン並列トレーニングを推奨する。
動的プログラミングを用いたマイクロバッチ構築を最適化し、動的パイプラインと通信スケジューリングによるマイクロバッチ実行時間変動を処理し、高効率なパイプライン訓練を実現する。
FLANv2データセットの大規模な評価では、パッケージベースベースラインと比較して、トレーニングT5では4.39倍、トレーニングGPTでは3.25倍のトレーニングスループットが示されている。
DynaPipeのソースコードはhttps://github.com/awslabs/timizing-multitask-training-through-dynamic-pipelinesで公開されている。 Multi-task model training has been adopted to enable a single deep neural network model (often a large language model) to handle multiple tasks (e.g., question answering and text summarization). Multi-task training commonly receives input sequences of highly different lengths due to the diverse contexts of different tasks. Padding (to the same sequence length) or packing (short examples into long sequences of the same length) is usually adopted to prepare input samples for model training, which is nonetheless not space or computation efficient. This paper proposes a dynamic micro-batching approach to tackle sequence length variation and enable efficient multi-task model training. We advocate pipeline-parallel training of the large model with variable-length micro-batches, each of which potentially comprises a different number of samples. We optimize micro-batch construction using a dynamic programming-based approach, and handle micro-batch execution time variation through dynamic pipeline and communication scheduling, enabling highly efficient pipeline training. Extensive evaluation on the FLANv2 dataset demonstrates up to 4.39x higher training throughput when training T5, and 3.25x when training GPT, as compared with packing-based baselines. DynaPipe's source code is publicly available at https://github.com/awslabs/optimizing-multitask-training-through-dynamic-pipelines. | 翻訳日:2023-11-20 15:08:21 公開日:2023-11-17 |
# 量子計算による暗黒物質検出の量子化 Quantum Enhancement in Dark Matter Detection with Quantum Computation ( http://arxiv.org/abs/2311.10413v1 ) ライセンス: Link先を確認 | Shion Chen, Hajime Fukuda, Toshiaki Inada, Takeo Moroi, Tatsumi Nitta, Thanaporn Sichanugrist | (参考訳) 量子干渉による暗黒物質検出実験において,信号速度を大幅に向上させる新しい手法を提案する。
様々な量子センサーは波状のダークマターを検出するのに理想的な特性を持ち、量子コンピュータで一般的に使用される量子ビットはダークマター検出器の優れた候補である。
我々は、量子ビットを操作するための適切な量子回路を設計することにより、信号レートは$n_{\rm q}^2$に比例し、$n_{\rm q}$は$n_{\rm q}$の線形ではなくセンサ量子ビットの数であることを示す。
その結果、かなりの数のセンサ量子ビットによる暗黒物質検出では、信号速度が大幅に増加することが期待できる。
暗黒物質との相互作用により各量子ビットの位相進化をコヒーレントに組み合わせることで、この拡張を実現する量子回路の具体例を示す。
また、回路は量子コンピュータにおける臨界量子ノイズ源である劣化ノイズに耐性があることを実証した。
ここで提案する拡張機構は、ダークマター信号の増幅に関連する量子演算をこれらのデバイスに適用できるため、量子コンピュータの様々なモードに適用できる。 We propose a novel method to significantly enhance the signal rate in the qubit-based dark matter detection experiments with the help of quantum interference. Various quantum sensors possess ideal properties for detecting wave-like dark matter, and qubits, commonly employed in quantum computers, are excellent candidates for dark matter detectors. We demonstrate that, by designing an appropriate quantum circuit to manipulate the qubits, the signal rate scales proportionally to $n_{\rm q}^2$, with $n_{\rm q}$ being the number of sensor qubits, rather than linearly with $n_{\rm q}$. Consequently, in the dark matter detection with a substantial number of sensor qubits, a significant increase in the signal rate can be expected. We provide a specific example of a quantum circuit that achieves this enhancement by coherently combining the phase evolution in each individual qubit due to its interaction with dark matter. We also demonstrate that the circuit is fault tolerant to de-phasing noises, a critical quantum noise source in quantum computers. The enhancement mechanism proposed here is applicable to various modalities for quantum computers, provided that the quantum operations relevant to enhancing the dark matter signal can be applied to these devices. | 翻訳日:2023-11-20 15:07:58 公開日:2023-11-17 |
# 周波数特異的ニューロン獲得のためのシナプス相互作用特性の活用について On exploiting the synaptic interaction properties to obtain frequency-specific neurons ( http://arxiv.org/abs/2311.10411v1 ) ライセンス: Link先を確認 | Guillaume Marthe (INSA Lyon, CITI, MARACAS), Claire Goursaud (MARACAS), Romain Caz\'e (IEMN, CSAM - IEMN), Laurent Clavier (IEMN, CERI SN - IMT Nord Europe, IRCICA, IMT Nord Europe) | (参考訳) 多くのIoTアプリケーションでは、エネルギー消費が主要な制限要因である。
特にマイクロコントローラは電力を消費しすぎます。
この問題を解決するために、新しい回路設計が提案され、非常に重要な消費削減を可能にするため、スパイキングニューロンとアナログコンピューティングの使用が出現した。
しかし、アナログドメインでの処理は、多くのユースケースで必要とされる受信信号のシーケンシャルな処理を処理できない。
本稿では, シナプス遅延などの非生物学的手法を使わずに, バイオインスパイアされたInteracting Synapsesという現象を用いて時間フィルタを作製する。
本稿では,2つのスパイク間の特定の遅延範囲で発火するニューロンとシナプスのモデルを提案するが,このインタースパイクタイミングがそのような範囲にない場合は反応しない。
モデルのパラメータを調査し,それらの選択方法を理解し,スパイク間タイミングを適応させる。
論文の独創性は、アナログ領域において、時間的シーケンスを扱う新しい方法を提案することである。 Energy consumption remains the main limiting factors in many IoT applications. In particular, micro-controllers consume far too much power. In order to overcome this problem, new circuit designs have been proposed and the use of spiking neurons and analog computing has emerged as it allows a very significant consumption reduction. However, working in the analog domain brings difficulty to handle the sequential processing of incoming signals as is needed in many use cases. In this paper, we use a bio-inspired phenomenon called Interacting Synapses to produce a time filter, without using non-biological techniques such as synaptic delays. We propose a model of neuron and synapses that fire for a specific range of delays between two incoming spikes, but do not react when this Inter-Spike Timing is not in that range. We study the parameters of the model to understand how to choose them and adapt the Inter-Spike Timing. The originality of the paper is to propose a new way, in the analog domain, to deal with temporal sequences. | 翻訳日:2023-11-20 15:07:35 公開日:2023-11-17 |
# 深層学習に基づく顔マスク装着者の分類と検出のためのCNNモデル Deep Learning based CNN Model for Classification and Detection of Individuals Wearing Face Mask ( http://arxiv.org/abs/2311.10408v1 ) ライセンス: Link先を確認 | R. Chinnaiyan, Iyyappan M, Al Raiyan Shariff A, Kondaveeti Sai, Mallikarjunaiah B M, P Bharath | (参考訳) 世界的な新型コロナウイルス(covid-19)パンデミックへの対応として、マスクが主要な保護策として登場し、保護措置が求められている。
まず顔を検出することで顔の存在を認識し、次に顔のマスクを識別する。
このプロジェクトでは、ディープラーニングを利用して、リアルタイムストリーミングビデオや画像のフェイスマスクを検出するモデルを作成する。
顔検出は、オブジェクト検出のファセットであり、セキュリティ、バイオメトリックス、法執行機関などの様々な分野の応用を見つける。
世界中の様々な検出器システムが開発・実装されており、畳み込みニューラルネットワークはその優れた性能とオブジェクト検出速度のために選択されている。
実験結果は、テストデータに対するモデルの優れた精度を実証する。
この研究の主な焦点は、特にセンシティブな地域でのセキュリティ強化である。
本稿では,顔中心のマスクを用いた高速画像前処理手法を提案する。
特徴抽出と畳み込みニューラルネットワークを用いて、マスクを着用している個人を分類し、検出する。
この研究は、画像前処理、画像トリミング、画像分類の3段階に展開され、マスクされた顔の識別に寄与している。
ウェブカメラやCCTVカメラによる継続的な監視は、常に監視を保証し、マスクなしで人が検出された場合、セキュリティ警告をトリガーする。 In response to the global COVID-19 pandemic, there has been a critical demand for protective measures, with face masks emerging as a primary safeguard. The approach involves a two-fold strategy: first, recognizing the presence of a face by detecting faces, and second, identifying masks on those faces. This project utilizes deep learning to create a model that can detect face masks in real-time streaming video as well as images. Face detection, a facet of object detection, finds applications in diverse fields such as security, biometrics, and law enforcement. Various detector systems worldwide have been developed and implemented, with convolutional neural networks chosen for their superior performance accuracy and speed in object detection. Experimental results attest to the model's excellent accuracy on test data. The primary focus of this research is to enhance security, particularly in sensitive areas. The research paper proposes a rapid image pre-processing method with masks centred on faces. Employing feature extraction and Convolutional Neural Network, the system classifies and detects individuals wearing masks. The research unfolds in three stages: image pre-processing, image cropping, and image classification, collectively contributing to the identification of masked faces. Continuous surveillance through webcams or CCTV cameras ensures constant monitoring, triggering a security alert if a person is detected without a mask. | 翻訳日:2023-11-20 15:07:18 公開日:2023-11-17 |
# 量子ウォークによる量子カウント Quantum Counting by Quantum Walks ( http://arxiv.org/abs/2311.10407v1 ) ライセンス: Link先を確認 | Gustavo A. Bezerra, Raqueline A. M. Santos, and Renato Portugal | (参考訳) 量子カウント(quantum counting)は、データベース内のマーク要素の数を決定することを目的とした量子アルゴリズムである。
このアルゴリズムは量子位相推定アルゴリズムに基づいており、その非自明な固有値がマークされた要素の数に依存するため、グローバーのアルゴリズムの進化演算子を用いる。
グロバーのアルゴリズムは完全グラフ上の量子ウォークと見なせるので、量子カウントを拡張する自然な方法は、グロバーの演算子の代わりに非完全グラフ上の量子ウォークに基づく探索の進化作用素を使うことである。
本稿では,この拡張について,任意の数の頂点を持つ完全二部グラフ上の量子ウォークを解析して検討する。
進化作用素の固有値はマークされた頂点の数に依存していることを示し、この事実を用いて量子位相推定を用いてマークされた頂点の数を得ることができることを示す。
2部グラフのマーキング頂点の数をアルゴリズムで推定する時間複雑性は、元の量子計数アルゴリズムのそれと密接に一致する。 Quantum counting is a key quantum algorithm that aims to determine the number of marked elements in a database. This algorithm is based on the quantum phase estimation algorithm and uses the evolution operator of Grover's algorithm because its non-trivial eigenvalues are dependent on the number of marked elements. Since Grover's algorithm can be viewed as a quantum walk on a complete graph, a natural way to extend quantum counting is to use the evolution operator of quantum-walk-based search on non-complete graphs instead of Grover's operator. In this paper, we explore this extension by analyzing the coined quantum walk on the complete bipartite graph with an arbitrary number of marked vertices. We show that some eigenvalues of the evolution operator depend on the number of marked vertices and using this fact we show that the quantum phase estimation can be used to obtain the number of marked vertices. The time complexity for estimating the number of marked vertices in the bipartite graph with our algorithm aligns closely with that of the original quantum counting algorithm. | 翻訳日:2023-11-20 15:06:57 公開日:2023-11-17 |
# NFTとAIベースのエージェントによる分散エネルギー市場 Decentralized Energy Marketplace via NFTs and AI-based Agents ( http://arxiv.org/abs/2311.10406v1 ) ライセンス: Link先を確認 | Rasoul Nikbakht, Farhana Javed, Farhad Rezazadeh, Nikolaos Bartzoudis, Josep Mangues-Bafalluy | (参考訳) 本稿では、ブロックチェーン技術と人工知能を統合した高度分散型エネルギー市場(DEM)を導入し、スマートホーム間のエネルギー交換とエネルギー貯蔵システムを管理する。
提案フレームワークは, 透明でセキュアな取引環境において, ユニークなエネルギープロファイルを表現するために, 非Fungible Tokens (NFTs) を用いる。
このシステムはFDRL(Federated Deep Reinforcement Learning)を活用し、協調的かつ適応的なエネルギー管理戦略を促進し、ユーザのプライバシーを維持する。
注目すべきイノベーションは、スマートコントラクトの使用であり、エネルギートランザクションにおける高い効率と完全性を保証する。
大規模評価は,FDRL法がエネルギー分布の最適化に有効であることを示す。
この研究は高度な分散型スマートグリッドインフラストラクチャの開発に大きく貢献している。
私たちのアプローチは、持続可能エネルギーシステムにおける潜在的ブロックチェーンとaiアプリケーションを広げ、従来のエネルギー取引メカニズムにおけるインセンティブアライメントと透明性の課題に対処します。
本論文の実装は \url{https://github.com/RasoulNik/DEM} で公開されている。 The paper introduces an advanced Decentralized Energy Marketplace (DEM) integrating blockchain technology and artificial intelligence to manage energy exchanges among smart homes with energy storage systems. The proposed framework uses Non-Fungible Tokens (NFTs) to represent unique energy profiles in a transparent and secure trading environment. Leveraging Federated Deep Reinforcement Learning (FDRL), the system promotes collaborative and adaptive energy management strategies, maintaining user privacy. A notable innovation is the use of smart contracts, ensuring high efficiency and integrity in energy transactions. Extensive evaluations demonstrate the system's scalability and the effectiveness of the FDRL method in optimizing energy distribution. This research significantly contributes to developing sophisticated decentralized smart grid infrastructures. Our approach broadens potential blockchain and AI applications in sustainable energy systems and addresses incentive alignment and transparency challenges in traditional energy trading mechanisms. The implementation of this paper is publicly accessible at \url{https://github.com/RasoulNik/DEM}. | 翻訳日:2023-11-20 15:06:38 公開日:2023-11-17 |
# 雑音量子コンピューティングハードウェア上での強相関電子系に対する自己整合dmft計算の展望 Perspectives of running self-consistent DMFT calculations for strongly correlated electron systems on noisy quantum computing hardware ( http://arxiv.org/abs/2311.10402v1 ) ライセンス: Link先を確認 | Jannis Ehrlich and Daniel Urban and Christian Els\"asser | (参考訳) 動的平均場理論(dmft)は、固体材料や分子の電子相関効果を研究するための強力な計算論的アプローチの一つである。
しかし、その実用的応用性は、電子軌道の数が考慮される多粒子ヒルベルト空間の指数的成長によって制限される。
ここで、電子軌道と量子ビットレジスタの状態の1対1マッピングの可能性は、dmftモデルを解くために量子コンピュータ(qc)を使用するための重要な計算上の利点を示唆する。
本稿では,変分量子固有解法(VQE)アルゴリズムに基づく2サイトDMFTモデルを解くためのQC手法を提案する。
確率的誤差から生じる課題を考察し,自己エネルギーの非物理的特徴を克服する方法を提案する。
これにより,有限個のショット数を有するvqeシミュレーションに基づく2点dmftモデルの自己整合結果が得られることを示す。
シミュレーションで得られた結果とIBMQ Ehningen QCハードウェアの計算結果を体系的に比較した。 Dynamical Mean Field Theory (DMFT) is one of the powerful computatioinal approaches to study electron correlation effects in solid-state materials and molecules. Its practical applicability is, however, limited by the exponential growth of the many-particle Hilbert space with the number of considered electronic orbitals. Here, the possibility of a one-to-one mapping between electronic orbitals and the state of a qubit register suggests a significant computational advantage for the use of a Quantum Computer (QC) for solving DMFT models. In this work we present a QC approach to solve a two-site DMFT model based on the Variational Quantum Eigensolver (VQE) algorithm. We discuss the challenges arising from stochastic errors and suggest a means to overcome unphysical features in the self-energy. We thereby demonstrate the feasibility to obtain self-consistent results of the two-site DMFT model based on VQE simulations with a finite number of shots. We systematically compare results obtained on simulators with calculations on the IBMQ Ehningen QC hardware. | 翻訳日:2023-11-20 15:06:21 公開日:2023-11-17 |
# 共有特徴抽出とハイパープライアエントロピー圧縮に基づく意味的画像伝送のためのリレーシステム A Relay System for Semantic Image Transmission based on Shared Feature Extraction and Hyperprior Entropy Compression ( http://arxiv.org/abs/2311.10492v1 ) ライセンス: Link先を確認 | Wannian An, Zhicheng Bao, Haotai Liang, Chen Dong, and Xiaodong | (参考訳) 近年,高品質な画像復元・復元の必要性が高まっている。
しかし、ほとんどの画像伝送システムは、チャネルノイズやリンクフェードといった干渉に直面して画質劣化や伝送中断に悩まされることがある。
この問題を解決するために,共有特徴抽出とハイパープリオエントロピー圧縮(hec)に基づく意味画像伝送のための中継通信ネットワークを提案し,ピアソン相関に基づく共有特徴抽出技術を提案し,抽出された意味的潜在特徴の部分的共有特徴を除去する。
さらに、HEC技術は、チャネルノイズとリンクフェージングの影響に抵抗し、それぞれソースノードとリレーノードで実行される。
実験の結果, 提案手法は他の研究手法と比較して伝送オーバーヘッドが低く, セマンティック画像伝送性能も高いことがわかった。
特に、同じ条件下では、このシステムのマルチスケール構造類似性(MS-SSIM)は、比較法よりも0.2程度優れている。 Nowadays, the need for high-quality image reconstruction and restoration is more and more urgent. However, most image transmission systems may suffer from image quality degradation or transmission interruption in the face of interference such as channel noise and link fading. To solve this problem, a relay communication network for semantic image transmission based on shared feature extraction and hyperprior entropy compression (HEC) is proposed, where the shared feature extraction technology based on Pearson correlation is proposed to eliminate partial shared feature of extracted semantic latent feature. In addition, the HEC technology is used to resist the effect of channel noise and link fading and carried out respectively at the source node and the relay node. Experimental results demonstrate that compared with other recent research methods, the proposed system has lower transmission overhead and higher semantic image transmission performance. Particularly, under the same conditions, the multi-scale structural similarity (MS-SSIM) of this system is superior to the comparison method by approximately 0.2. | 翻訳日:2023-11-20 14:58:52 公開日:2023-11-17 |
# WACV 2024におけるFRCSynチャレンジ:合成データ時代の顔認識チャレンジ FRCSyn Challenge at WACV 2024:Face Recognition Challenge in the Era of Synthetic Data ( http://arxiv.org/abs/2311.10476v1 ) ライセンス: Link先を確認 | Pietro Melzi and Ruben Tolosana and Ruben Vera-Rodriguez and Minchul Kim and Christian Rathgeb and Xiaoming Liu and Ivan DeAndres-Tame and Aythami Morales and Julian Fierrez and Javier Ortega-Garcia and Weisong Zhao and Xiangyu Zhu and Zheyu Yan and Xiao-Yu Zhang and Jinlin Wu and Zhen Lei and Suvidha Tripathi and Mahak Kothari and Md Haider Zama and Debayan Deb and Bernardo Biesseck and Pedro Vidal and Roger Granada and Guilherme Fickel and Gustavo F\"uhr and David Menotti and Alexander Unnervik and Anjith George and Christophe Ecabert and Hatef Otroshi Shahreza and Parsa Rahimi and S\'ebastien Marcel and Ioannis Sarridis and Christos Koutlis and Georgia Baltsou and Symeon Papadopoulos and Christos Diou and Nicol\`o Di Domenico and Guido Borghi and Lorenzo Pellegrini and Enrique Mas-Candela and \'Angela S\'anchez-P\'erez and Andrea Atzori and Fadi Boutros and Naser Damer and Gianni Fenu and Mirko Marras | (参考訳) 世界中の顔認識技術が広く採用され、現在のベンチマークで目覚ましいパフォーマンスを誇っているにもかかわらず、もっと詳細にカバーしなければならない課題はいくつかある。
本稿では,WACV 2024で組織された合成データ時代における顔認識チャレンジの概要について述べる。
これは、顔認識における合成データの利用を探求し、テクノロジーの既存の限界に対処する最初の国際的課題である。
具体的には、FRCSyn Challengeは、データプライバシの問題、人口統計バイアス、目に見えないシナリオへの一般化、挑戦シナリオにおけるパフォーマンス制限に関する懸念をターゲットにしている。
FRCSyn Challengeで得られた結果は、提案したベンチマークとともに、顔認識技術を改善するための合成データの適用に大きく貢献する。 Despite the widespread adoption of face recognition technology around the world, and its remarkable performance on current benchmarks, there are still several challenges that must be covered in more detail. This paper offers an overview of the Face Recognition Challenge in the Era of Synthetic Data (FRCSyn) organized at WACV 2024. This is the first international challenge aiming to explore the use of synthetic data in face recognition to address existing limitations in the technology. Specifically, the FRCSyn Challenge targets concerns related to data privacy issues, demographic biases, generalization to unseen scenarios, and performance limitations in challenging scenarios, including significant age disparities between enrollment and testing, pose variations, and occlusions. The results achieved in the FRCSyn Challenge, together with the proposed benchmark, contribute significantly to the application of synthetic data to improve face recognition technology. | 翻訳日:2023-11-20 14:58:25 公開日:2023-11-17 |
# 数学的観点から修正されたコンウェイの法則 Conway's law, revised from a mathematical viewpoint ( http://arxiv.org/abs/2311.10475v1 ) ライセンス: Link先を確認 | Shigeki Matsutani, Shousuke Ohmori, Kenji Hiranabe, and Eiichi Hanyuda | (参考訳) 本稿では,コンウェイの法則を数学的観点から見直しる。
タスクグラフを導入することで、ソフトウェアシステムとそれを作った組織に対するグラフ理論の準同型に基づいて、コンウェイの法則を厳格に記述する。
コンウェイはこれを言及していないが、タスクグラフはタスクの幾何学的構造を示しており、重要な役割を果たす。
さらに,組織におけるコミュニケーション(セキュリティ,知識隠蔽など)の高度処理や組織階層的処理に対する近年の要求から,これらのステートメントを弱化準同型,グラフトポロジーにおける連続写像という観点から再構成した。
グラフトポロジーとコンウェイの法則の連続写像を使用するために、それらを数学的ツールとして準備し、コンウェイの対応と階層構造との自然な表現を示す。 In this article, we revise Conway's Law from a mathematical point of view. By introducing a task graph, we first rigorously state Conway's Law based on the homomorphisms in graph theory for the software system and the organizations that created it. Though Conway did not mention it, the task graph shows the geometric structure of tasks, which plays a crucial role. Furthermore, due to recent requirements for high-level treatment of communication (due to security, knowledge hiding, etc.) in organizations and hierarchical treatment of organizations, we have reformulated these statements in terms of weakened homomorphisms, and the continuous maps in graph topology. In order to use graph topology and the continuous map in Conway's law, we have prepared them as mathematical tools, and then we show the natural expression of Conway's correspondences with hierarchical structures. | 翻訳日:2023-11-20 14:57:59 公開日:2023-11-17 |
# 古典信号と量子信号のハイブリッドネットワークにおけるルーティングと波長割り当て Routing and wavelength assignment in hybrid networks with classical and quantum signals ( http://arxiv.org/abs/2311.10474v1 ) ライセンス: Link先を確認 | Lidia Ruiz and Juan Carlos Garcia-Escartin | (参考訳) 量子鍵分布は成熟した量子技術となり、専用リンクが成長し、古典的基盤に組み込まれる準備が整っている。
複数の潜在ノードを持つこのシナリオでは、すべての潜在ユーザ間でネットワークリソースを割り当てる効率的な方法を持つことが重要です。
本稿では,古典チャネルと量子チャネルが共存する波長多重ネットワークにおけるルーティングと波長割り当ての簡易な手法を提案する。
提案したヒューリスティックスは、量子鍵分布の特定の要件を考慮に入れ、古典的な信号からの光子による量子チャネルの汚染を非線形プロセスで抑えることに重点を置いている。
これらのヒューリスティックスは古典チャネルと量子チャネルの間の共有パスを減少させる。
我々は、セキュリティを保証できない過度なエラー率によって拒否されなければならない量子鍵列の数を減らすことができ、その結果を通常のrwaアプローチと比較できることを示す。 Quantum Key Distribution has become a mature quantum technology that has outgrown dedicated links and is ready to be incorporated into the classical infrastructure. In this scenario with multiple potential nodes, it is crucial having efficient ways to allocate the network resources between all the potential users. We propose a simple method for routing and wavelength assignment in wavelength multiplexed networks in which classical and quantum channels coexist. The proposed heuristics take into account the specific requirements of quantum key distribution and focus on keeping at bay the contamination of the quantum channels by photons coming from the classical signals by non-linear processes, among others. These heuristics reduce the shared path between classical and quantum channels. We show we can reduce the number of quantum key sequences that must be rejected due to excessive error rates that cannot guarantee security and compare the results to the usual classical RWA approach. | 翻訳日:2023-11-20 14:57:34 公開日:2023-11-17 |
# 医用画像と対応するセグメンテーションマスクの同時生成のためのエンドツーエンドオートエンコーディングアーキテクチャ End-to-end autoencoding architecture for the simultaneous generation of medical images and corresponding segmentation masks ( http://arxiv.org/abs/2311.10472v1 ) ライセンス: Link先を確認 | Aghiles Kebaili and J\'er\^ome Lapuyade-Lahorgue and Pierre Vera and Su Ruan | (参考訳) 医用画像のセグメンテーションにおける深層学習の利用の増加にもかかわらず、十分なトレーニングデータを取得することは医療分野における課題である。
これに対し、データ拡張技術が提案されているが、多彩で現実的な医療画像とそれに対応するマスクの生成は、特に不十分なトレーニングセットを扱う場合、依然として難しい課題である。
これらの制約に対処するため、ハミルトン変分オートエンコーダ(HVAE)に基づくエンドツーエンドアーキテクチャを提案する。
このアプローチにより、従来の変分オートエンコーダ(vae)と比較して後続分布近似が改善され、画像生成品質が向上する。
提案手法は,データスカース条件下での生成的対向構造より優れ,画像品質の向上と腫瘍マスク合成の精度の向上を示す。
我々は,MICCAIのBRATS(Brain tumor Segmentation Challenge)とHECKTOR(Head and Neck tumor Segmentation Challenge)の2つの公開データセットを用いて実験を行った。 Despite the increasing use of deep learning in medical image segmentation, acquiring sufficient training data remains a challenge in the medical field. In response, data augmentation techniques have been proposed; however, the generation of diverse and realistic medical images and their corresponding masks remains a difficult task, especially when working with insufficient training sets. To address these limitations, we present an end-to-end architecture based on the Hamiltonian Variational Autoencoder (HVAE). This approach yields an improved posterior distribution approximation compared to traditional Variational Autoencoders (VAE), resulting in higher image generation quality. Our method outperforms generative adversarial architectures under data-scarce conditions, showcasing enhancements in image quality and precise tumor mask synthesis. We conduct experiments on two publicly available datasets, MICCAI's Brain Tumor Segmentation Challenge (BRATS), and Head and Neck Tumor Segmentation Challenge (HECKTOR), demonstrating the effectiveness of our method on different medical imaging modalities. | 翻訳日:2023-11-20 14:57:07 公開日:2023-11-17 |
# 歩行する地域:ユビキタス都市センシングのための人力移動に基づく大規模事前訓練時空間モデル Regions are Who Walk Them: a Large Pre-trained Spatiotemporal Model Based on Human Mobility for Ubiquitous Urban Sensing ( http://arxiv.org/abs/2311.10471v1 ) ライセンス: Link先を確認 | Ruixing Zhang, Liangzhe Han, Leilei Sun, Yunqi Liu, Jibin Wang, Weifeng Lv | (参考訳) ユーザプロファイリングと領域分析は、大きな商業価値を持つ2つのタスクである。
しかし、実際的なアプリケーションでは、データ準備、データ処理、モデルの確立、評価、最適化の4つの主要なステップを含む。
このプロセスは時間と労力がかかります。
このワークフローを各機能に繰り返すと、タスクの開発時間が豊富になり、タスク開発全体のボリュームが減少します。
実際、人間の移動データは豊富な情報を含んでいる。
いくつかの成功事例は、人口移動データの詳細な分析を行うことで、ユーザや地域について有意義なプロファイルが得られる可能性を示唆している。
それにもかかわらず、ほとんどの関連研究は、人間の移動データ内の意味情報を十分に活用してはいない。
人口移動における豊かな情報を活用するために,地域を歩むという観点から,トラジェクトリー(RAW)に基づく大規模な時空間モデルを提案する。
以下の特徴を持つ。
1)1Bまでのパラメータを持つGPT様構造を導入し、軌道データを提供する。
2)空間的微調整モジュールの導入は,任意の領域埋め込みを導出するユーザの集合として軌跡を解釈する。
このフレームワークは大規模な時空間モデルに基づく迅速なタスク開発を可能にする。
提案する大規模時空間モデルの有効性を検証するために広範な実験を行った。
提案手法は,追加機能のない移動度データのみに依存しており,ユーザのプロファイリングや領域分析にある程度の妥当性を示すことが判明した。
さらに,現在状態に基づく軌道生成タスクにおいて有望な予測能力を示し,この大規模時空間モデルを活用したさらなる革新的作業の可能性を示す。 User profiling and region analysis are two tasks of significant commercial value. However, in practical applications, modeling different features typically involves four main steps: data preparation, data processing, model establishment, evaluation, and optimization. This process is time-consuming and labor-intensive. Repeating this workflow for each feature results in abundant development time for tasks and a reduced overall volume of task development. Indeed, human mobility data contains a wealth of information. Several successful cases suggest that conducting in-depth analysis of population movement data could potentially yield meaningful profiles about users and areas. Nonetheless, most related works have not thoroughly utilized the semantic information within human mobility data and trained on a fixed number of the regions. To tap into the rich information within population movement, based on the perspective that Regions Are Who walk them, we propose a large spatiotemporal model based on trajectories (RAW). It possesses the following characteristics: 1) Tailored for trajectory data, introducing a GPT-like structure with a parameter count of up to 1B; 2) Introducing a spatiotemporal fine-tuning module, interpreting trajectories as collection of users to derive arbitrary region embedding. This framework allows rapid task development based on the large spatiotemporal model. We conducted extensive experiments to validate the effectiveness of our proposed large spatiotemporal model. It's evident that our proposed method, relying solely on human mobility data without additional features, exhibits a certain level of relevance in user profiling and region analysis. Moreover, our model showcases promising predictive capabilities in trajectory generation tasks based on the current state, offering the potential for further innovative work utilizing this large spatiotemporal model. | 翻訳日:2023-11-20 14:56:43 公開日:2023-11-17 |
# 協調ゲーム理論を用いたニューラルネットワークの創成 Using Cooperative Game Theory to Prune Neural Networks ( http://arxiv.org/abs/2311.10468v1 ) ライセンス: Link先を確認 | Mauricio Diaz-Ortiz Jr, Benjamin Kempinski, Daphne Cornelisse, Yoram Bachrach, Tal Kachman | (参考訳) 本稿では,協調ゲーム理論の解法概念を,ニューラルネットワークの刈り込み問題にどう応用するかを示す。
深層ニューラルネットワーク(DNN)の増大するサイズは、パフォーマンスだけでなく、計算要求も向上する。
本稿では,GTAP(Game Theory Assisted Pruning)と呼ばれる,予測精度を維持しつつ,ニューラルネットワークのサイズを小さくする手法を提案する。
GTAPは、ゲーム理論による予測品質への共同影響の推定に基づいて、ネットワーク内のニューロンを除去することに基づいている。
具体的には、Dropoutに似た手順(機械学習において過度に適合する問題に対処するためによく使用される)で調整されたShapley値やBanzhafインデックスに似たパワーインデックスを使用する。
フィードフォワードネットワークと畳み込みニューラルネットワークの両方の実験的評価は、パラメータ数とモデルの精度の間のトレードオフにおいて、既存のアプローチよりも優れていることを示している。 We show how solution concepts from cooperative game theory can be used to tackle the problem of pruning neural networks. The ever-growing size of deep neural networks (DNNs) increases their performance, but also their computational requirements. We introduce a method called Game Theory Assisted Pruning (GTAP), which reduces the neural network's size while preserving its predictive accuracy. GTAP is based on eliminating neurons in the network based on an estimation of their joint impact on the prediction quality through game theoretic solutions. Specifically, we use a power index akin to the Shapley value or Banzhaf index, tailored using a procedure similar to Dropout (commonly used to tackle overfitting problems in machine learning). Empirical evaluation of both feedforward networks and convolutional neural networks shows that this method outperforms existing approaches in the achieved tradeoff between the number of parameters and model accuracy. | 翻訳日:2023-11-20 14:56:00 公開日:2023-11-17 |
# 修正散逸量子ニューラルネットワークを用いたnisq互換量子データの誤り訂正 NISQ-Compatible Error Correction of Quantum Data Using Modified Dissipative Quantum Neural Networks ( http://arxiv.org/abs/2311.10467v1 ) ライセンス: Link先を確認 | Armin Ahmadkhaniha, Marzieh Bathaee | (参考訳) 共役層を伴う散逸型量子ニューラルネットワーク(DQNN)を用いて、ノイズの多いm量子GHZ状態の量子デノイザとして、既存の量子オートエンコーダ(QAE)ネットワークの性能をアップグレードする。
我々の新しいデノナイジングアーキテクチャは、非常に少ない数の学習パラメータを必要としており、特に、ノイズ中規模量子(NISQ)時代の最高忠実度に近づくのに深層もしくは積み重ねられたDQNNが必要な場合、トレーニング時間を短縮することができる。
QAEでは、隠れた層の量子ビットと出力の量子ビットとの接続を減らし、デコーダを変更する。
隠れ出力量子ビットの状態のrenyiエントロピーは、学習イテレーション中の他の量子ビットについて解析される。
学習過程において、隠れた層が入力層に接続されている場合、ネットワークはトレーニングデータから取得した学習パラメータを用いて、異なる雑音分布を持つノイズデータをほぼ完全に無視することができる。 Using a dissipative quantum neural network (DQNN) accompanied by conjugate layers, we upgrade the performance of the existing quantum auto-encoder (QAE) network as a quantum denoiser of a noisy m-qubit GHZ state. Our new denoising architecture requires a much smaller number of learning parameters, which can decrease the training time, especially when a deep or stacked DQNN is needed to approach the highest fidelity in the Noisy Intermediate-Scale Quantum (NISQ) era. In QAE, we reduce the connection between the hidden layer's qubits and the output's qubits to modify the decoder. The Renyi entropy of the hidden and output qubits' states is analyzed with respect to other qubits during learning iterations. During the learning process, if the hidden layer remains connected to the input layers, the network can almost perfectly denoise unseen noisy data with a different underlying noise distribution using the learning parameters acquired from training data. | 翻訳日:2023-11-20 14:55:47 公開日:2023-11-17 |
# rs-fMRIによる治療応答予測のための相関距離グラフ学習 Correlation-Distance Graph Learning for Treatment Response Prediction from rs-fMRI ( http://arxiv.org/abs/2311.10463v1 ) ライセンス: Link先を確認 | Xiatian Zhang, Sisi Zheng, Hubert P. H. Shum, Haozheng Zhang, Nan Song, Mingkang Song, Hongxiao Jia | (参考訳) resting-state fmri (rs-fmri) functional connectivity (fc) 分析は、異なる脳領域間の関係とその神経・精神疾患への潜在的影響に関する貴重な洞察を提供する。
しかし、現在の脳の状態や観察パターンを駆動するメカニズムを理解するのに困難があるため、rs-fMRIによる治療反応を予測するための具体的な設計努力は依然として限られており、rs-fMRIの臨床応用は限られている。
そこで本稿では,相関性と距離に基づく類似度を両立させることで,包括的特徴を捉えるグラフ学習フレームワークを提案する。
このアプローチは、異なるスケールで脳のダイナミックな特徴を捉え、より正確な治療反応予測を可能にする、より表現力のあるフレームワークをもたらす。
慢性的な痛みと非パーソナライゼーション障害のデータセットに関する実験は,提案手法が異なるシナリオで現在の方法を上回ることを示している。
我々の知識を最大限に活用するために、我々は、距離ベースと相関ベースのニューラル類似性のグラフ学習への統合を初めて検討した。 Resting-state fMRI (rs-fMRI) functional connectivity (FC) analysis provides valuable insights into the relationships between different brain regions and their potential implications for neurological or psychiatric disorders. However, specific design efforts to predict treatment response from rs-fMRI remain limited due to difficulties in understanding the current brain state and the underlying mechanisms driving the observed patterns, which limited the clinical application of rs-fMRI. To overcome that, we propose a graph learning framework that captures comprehensive features by integrating both correlation and distance-based similarity measures under a contrastive loss. This approach results in a more expressive framework that captures brain dynamic features at different scales and enables more accurate prediction of treatment response. Our experiments on the chronic pain and depersonalization disorder datasets demonstrate that our proposed method outperforms current methods in different scenarios. To the best of our knowledge, we are the first to explore the integration of distance-based and correlation-based neural similarity into graph learning for treatment response prediction. | 翻訳日:2023-11-20 14:55:26 公開日:2023-11-17 |
# モノのインターネットのためのメモリ管理戦略 Memory Management Strategies for an Internet of Things System ( http://arxiv.org/abs/2311.10458v1 ) ライセンス: Link先を確認 | Ana-Maria Comeag\u{a}, Iuliana Marin | (参考訳) インターネットの台頭は私たちの生活に大きな変化をもたらしており、IoT(Internet of Things)の急速な拡張は、さまざまなアプリケーションドメインにまたがる幅広いデバイスを接続することによって、さらに大きな影響を与える可能性がある。
IoTデバイス、特にローエンドデバイスは、制限されたメモリと処理能力によって制約されており、IoTオペレーティングシステム内の効率的なメモリ管理を必要としている。
本稿は,IoTシステムにおけるメモリ管理の重要性について論じるとともに,これらのシステムの設計と構成,さらにはシーン管理のスケーラビリティと性能に主眼を置いている。
iotエコシステムが成長を続ける中、効果的なメモリ管理はリソース使用量、応答性、適応性の最適化に不可欠である。
この研究は、IoTシステムのコンテキストにおけるメモリ割り当て、シーン実行、メモリ削減、システムのスケーラビリティに関する洞察を提供し、究極的には、シームレスで効率的なIoTエクスペリエンスを促進する上で、メモリ管理が果たす重要な役割を強調している。 The rise of the Internet has brought about significant changes in our lives, and the rapid expansion of the Internet of Things (IoT) is poised to have an even more substantial impact by connecting a wide range of devices across various application domains. IoT devices, especially low-end ones, are constrained by limited memory and processing capabilities, necessitating efficient memory management within IoT operating systems. This paper delves into the importance of memory management in IoT systems, with a primary focus on the design and configuration of such systems, as well as the scalability and performance of scene management. Effective memory management is critical for optimizing resource usage, responsiveness, and adaptability as the IoT ecosystem continues to grow. The study offers insights into memory allocation, scene execution, memory reduction, and system scalability within the context of an IoT system, ultimately highlighting the vital role that memory management plays in facilitating a seamless and efficient IoT experience. | 翻訳日:2023-11-20 14:55:04 公開日:2023-11-17 |
# ピンを用いた精密・高速フィッシャー・トロプシュ反応マイクロキネティクス Accurate and Fast Fischer-Tropsch Reaction Microkinetics using PINNs ( http://arxiv.org/abs/2311.10456v1 ) ライセンス: Link先を確認 | Harshil Patel, Aniruddha Panda, Tymofii Nikolaienko, Stanislav Jaso, Alejandro Lopez, Kaushic Kalyanaraman | (参考訳) マイクロ運動学は、多くの工業関連反応で起こる化学変換の詳細なモデリングを可能にする。
フィッシャー=トロプシュ合成(FTS)のための従来の力学モデルの解法は、より高度なリアルタイムアプリケーションにおいて非効率となる。
本研究では、物理インフォームドニューラルネットワーク(PINN)を用いて、これらの課題に対処する。
本稿では,実プロセス条件下での既存マイクロ力学モデルの超高速解法を実現するための,計算効率が高く正確な方法を提案する。
提案したPINNモデルでは, FTSマイクロキネティクスにおいて, 平均相対誤差(MRE)0.03%, FTS生成速度(MRE0.1%)を計算した。
従来の方程式解法と比較して、GPU上での実行時の最大1E+06倍のスピードアップを実現し、マルチスケールおよびマルチ物理反応器のモデリングに十分高速であり、リアルタイムプロセス制御および最適化におけるその適用を可能にする。 Microkinetics allows detailed modelling of chemical transformations occurring in many industrially relevant reactions. Traditional way of solving the microkinetics model for Fischer-Tropsch synthesis (FTS) becomes inefficient when it comes to more advanced real-time applications. In this work, we address these challenges by using physics-informed neural networks(PINNs) for modelling FTS microkinetics. We propose a computationally efficient and accurate method, enabling the ultra-fast solution of the existing microkinetics models in realistic process conditions. The proposed PINN model computes the fraction of vacant catalytic sites, a key quantity in FTS microkinetics, with median relative error (MRE) of 0.03%, and the FTS product formation rates with MRE of 0.1%. Compared to conventional equation solvers, the model achieves up to 1E+06 times speed-up when running on GPUs, thus being fast enough for multi-scale and multi-physics reactor modelling and enabling its applications in real-time process control and optimization. | 翻訳日:2023-11-20 14:54:47 公開日:2023-11-17 |
# DeepClean: 魚の対角線を用いたプライバシ感受性重みのリセットによるチープ上の機械学習 DeepClean: Machine Unlearning on the Cheap by Resetting Privacy Sensitive Weights using the Fisher Diagonal ( http://arxiv.org/abs/2311.10448v1 ) ライセンス: Link先を確認 | Jiaeli Shi, Najah Ghalyan, Kostis Gourgoulias, John Buford, Sean Moran | (参考訳) 機密データやプライベートデータに基づいてトレーニングされた機械学習モデルは、その情報を不注意に記憶し、リークする。
機械学習は、プライバシーを保護するためにモデル重みからこのような詳細を遡及的に取り除こうとしている。
本稿では,FIM(Fiher Information Matrix)を応用した軽量なアンラーニングアルゴリズムを提案する。
この分野での以前の作業では、計算コストのかかる完全な再トレーニングや大きな行列逆転が必要だった。
我々の重要な洞察は、太さの変化に対するログライリフードの感度を測定するFIMの対角要素は、効果的に忘れられる十分な情報を含んでいるということである。
具体的には、トレーニング可能なすべての重量に対して、FIM対角線を2つのサブセット -- 保持および忘れるデータ -- で計算する。
この対角表現は計算量を劇的に減らしながら完全なFIMを近似する。
次に、重みを選択的に更新し、機密部分集合の忘れを最大化し、保持部分集合への影響を最小限に抑える。
実験により、ニューラルネットワークアーキテクチャ全体にわたるトレーニングデータのランダムに選択されたサブセットを、アルゴリズムが忘れてしまうことが判明した。
FIMの対角性を活用することで、我々のアプローチは、実用的なプライバシー上の利点のある機械学習のための解釈可能で軽量で効率的なソリューションを提供する。 Machine learning models trained on sensitive or private data can inadvertently memorize and leak that information. Machine unlearning seeks to retroactively remove such details from model weights to protect privacy. We contribute a lightweight unlearning algorithm that leverages the Fisher Information Matrix (FIM) for selective forgetting. Prior work in this area requires full retraining or large matrix inversions, which are computationally expensive. Our key insight is that the diagonal elements of the FIM, which measure the sensitivity of log-likelihood to changes in weights, contain sufficient information for effective forgetting. Specifically, we compute the FIM diagonal over two subsets -- the data to retain and forget -- for all trainable weights. This diagonal representation approximates the complete FIM while dramatically reducing computation. We then use it to selectively update weights to maximize forgetting of the sensitive subset while minimizing impact on the retained subset. Experiments show that our algorithm can successfully forget any randomly selected subsets of training data across neural network architectures. By leveraging the FIM diagonal, our approach provides an interpretable, lightweight, and efficient solution for machine unlearning with practical privacy benefits. | 翻訳日:2023-11-20 14:54:28 公開日:2023-11-17 |
# DUA-DA:ドメイン適応オブジェクト検出のための蒸留に基づく不均一アライメント DUA-DA: Distillation-based Unbiased Alignment for Domain Adaptive Object Detection ( http://arxiv.org/abs/2311.10437v1 ) ライセンス: Link先を確認 | Yongchao Feng, Shiwei Li, Yingjie Gao, Ziyue Huang, Yanan Zhang, Qingjie Liu and Yunhong Wang | (参考訳) 特徴調整に基づくドメイン適応オブジェクト検出(DAOD)は顕著な進歩を遂げているが、ソースバイアスの問題を無視している。
さらに、ソースとターゲットドメイン間のドメインシフトの存在は、一般的な検出パイプラインにおける一貫性のない分類とローカライゼーションの問題を悪化させる。
そこで,これらの課題を克服するために,前訓練した教師モデルを用いて,よりバランスのとれた位置へソースの特徴を蒸留し,ソースバイアスの問題を効果的に解決できる新しい蒸留型非バイアスアライメント(dua)フレームワークを提案する。
さらに,ターゲット関連知識をマイニングして2つの分類フリーな指標(iouと中心性)を生成できる,ターゲット関連オブジェクトローカライズネットワーク(troln)を設計した。
そこで我々は、これらの2つの指標を利用して分類信頼性をさらに洗練し、ドメイン横断シナリオにおける分類とローカライゼーションの調和を実現するドメイン認識一貫性向上(DCE)戦略を実装した。
この手法の有効性を明らかにするために広範な実験が行われており、既存のアライメントに基づく作品よりも強いベースラインを高いマージンで一貫して改善している。 Though feature-alignment based Domain Adaptive Object Detection (DAOD) have achieved remarkable progress, they ignore the source bias issue, i.e. the aligned features are more favorable towards the source domain, leading to a sub-optimal adaptation. Furthermore, the presence of domain shift between the source and target domains exacerbates the problem of inconsistent classification and localization in general detection pipelines. To overcome these challenges, we propose a novel Distillation-based Unbiased Alignment (DUA) framework for DAOD, which can distill the source features towards a more balanced position via a pre-trained teacher model during the training process, alleviating the problem of source bias effectively. In addition, we design a Target-Relevant Object Localization Network (TROLN), which can mine target-related knowledge to produce two classification-free metrics (IoU and centerness). Accordingly, we implement a Domain-aware Consistency Enhancing (DCE) strategy that utilizes these two metrics to further refine classification confidences, achieving a harmonization between classification and localization in cross-domain scenarios. Extensive experiments have been conducted to manifest the effectiveness of this method, which consistently improves the strong baseline by large margins, outperforming existing alignment-based works. | 翻訳日:2023-11-20 14:54:08 公開日:2023-11-17 |
# Sinhala- English Word Embedding Alignment: データセットの導入と低リソース言語のためのベンチマーク Sinhala-English Word Embedding Alignment: Introducing Datasets and Benchmark for a Low Resource Language ( http://arxiv.org/abs/2311.10436v1 ) ライセンス: Link先を確認 | Kasun Wickramasinghe and Nisansa de Silva | (参考訳) 導入以来、埋め込みは、初期の表現に取って代わる自然言語処理(NLP)タスクの多くにおいて、主要な要素となっている。
並列トレーニングデータの不足のため、多言語組込みは多言語タスクの増加に利用されてきたが、sinhalaのような低リソース言語は単言語組込みに重点を置いている。
そして、上記の多言語課題に関して、同一の訓練過程により、埋め込み空間が類似した幾何学的配置を持つ場合でも、考慮される言語の埋め込みが一致しないため、これらの単言語埋め込みを利用するのは困難である。
これは埋め込みアライメントタスクによって解決される。
これでさえ、高リソースの言語ペアはライムライトにあり、Sinhalaのような、助けを必要としている低リソースの言語は、道に迷ったようだ。
本稿では,利用可能なアライメント技術に基づき,シンハラ語と英語の単語埋め込み空間をアライメントし,シンハラ語埋め込みアライメントのベンチマークを紹介する。
それに加えて、教師付きアライメントを促進するために、中間タスクとして、シンハラ英語アライメントデータセットも導入する。
これらのデータセットは、教師付き単語埋め込みアライメントのためのアンカーデータセットとして役立ちます。
フランス語、ドイツ語、中国語のような高資源言語に匹敵する結果は得られていないが、我々の研究は英語とシンハラの埋め込みのより専門的な調整の土台を築いていると信じている。 Since their inception, embeddings have become a primary ingredient in many flavours of Natural Language Processing (NLP) tasks supplanting earlier types of representation. Even though multilingual embeddings have been used for the increasing number of multilingual tasks, due to the scarcity of parallel training data, low-resource languages such as Sinhala, tend to focus more on monolingual embeddings. Then when it comes to the aforementioned multi-lingual tasks, it is challenging to utilize these monolingual embeddings given that even if the embedding spaces have a similar geometric arrangement due to an identical training process, the embeddings of the languages considered are not aligned. This is solved by the embedding alignment task. Even in this, high-resource language pairs are in the limelight while low-resource languages such as Sinhala which is in dire need of help seem to have fallen by the wayside. In this paper, we try to align Sinhala and English word embedding spaces based on available alignment techniques and introduce a benchmark for Sinhala language embedding alignment. In addition to that, to facilitate the supervised alignment, as an intermediate task, we also introduce Sinhala-English alignment datasets. These datasets serve as our anchor datasets for supervised word embedding alignment. Even though we do not obtain results comparable to the high-resource languages such as French, German, or Chinese, we believe our work lays the groundwork for more specialized alignment between English and Sinhala embeddings. | 翻訳日:2023-11-20 14:53:43 公開日:2023-11-17 |
# テンソルネットワークの観点からのタスクスケジューリング最適化 Task Scheduling Optimization from a Tensor Network Perspective ( http://arxiv.org/abs/2311.10433v1 ) ライセンス: Link先を確認 | Alejandro Mata Ali, I\~nigo Perez Delgado, Beatriz Garc\'ia Markaida and Aitor Moreno Fdez. de Leceta | (参考訳) 本稿では,量子インスパイアされたテンソルネットワーク技術を用いた産業プラントにおけるタスク最適化手法を提案する。
本手法は,機械の集合上のタスクと制約の集合との最適な組み合わせを,すべての可能な組み合わせを評価することなく得られる。
すべての可能な組み合わせで量子システムをシミュレートし、制約を満たすために想像上の時間進化と一連の投影を実行する。
本稿では,圧縮法,反復アルゴリズム,遺伝的アルゴリズムを用いて拡張性を改善し,シミュレーションにより得られた結果を示す。 We present a novel method for task optimization in industrial plants using quantum-inspired tensor network technology. This method allows us to obtain the best possible combination of tasks on a set of machines with a set of constraints without having to evaluate all possible combinations. We will simulate a quantum system with all possible combinations, perform an imaginary time evolution and a series of projections to satisfy the constraints. We improve its scalability by means of a compression method, an iterative algorithm, and a genetic algorithm, and show the results obtained on simulated cases. | 翻訳日:2023-11-20 14:53:19 公開日:2023-11-17 |
# 野生の言語モデルエージェントを安全にテストする Testing Language Model Agents Safely in the Wild ( http://arxiv.org/abs/2311.10538v1 ) ライセンス: Link先を確認 | Silen Naihin, David Atkinson, Marc Green, Merwane Hamadi, Craig Swift, Douglas Schonholtz, Adam Tauman Kalai, David Bau | (参考訳) 安全な自己完結のための前提条件は、安全な自己完結テストです。
しかし、現実の自律テストは、テスト中に危害をもたらす可能性があることや、現実世界や潜在的に悪意のあるアクターとの相互作用を通じて、新しい安全でないエージェントの振る舞いに遭遇するリスクなど、いくつかのユニークな安全上の課題に直面している。
我々は,オープンインターネット上で安全な自律エージェントテストを実施するための枠組みを提案する。エージェントアクションは,安全でないテストを止めるために厳密な安全境界を強制するコンテキスト依存モニタによって監査される。
我々は,既存のllmエージェントをモニタするのに十分な柔軟性を有する基本的な安全モニタを設計し,敵のシミュレートエージェントを用いて安全でない状況を識別・停止する能力を測定する。
次に、安全モニターをAutoGPTの実際のテストのバッテリーに適用し、自律エージェントがより有能になるにつれて、安全テストの作成に直面するいくつかの制限と課題を特定します。 A prerequisite for safe autonomy-in-the-wild is safe testing-in-the-wild. Yet real-world autonomous tests face several unique safety challenges, both due to the possibility of causing harm during a test, as well as the risk of encountering new unsafe agent behavior through interactions with real-world and potentially malicious actors. We propose a framework for conducting safe autonomous agent tests on the open internet: agent actions are audited by a context-sensitive monitor that enforces a stringent safety boundary to stop an unsafe test, with suspect behavior ranked and logged to be examined by humans. We a design a basic safety monitor that is flexible enough to monitor existing LLM agents, and, using an adversarial simulated agent, we measure its ability to identify and stop unsafe situations. Then we apply the safety monitor on a battery of real-world tests of AutoGPT, and we identify several limitations and challenges that will face the creation of safe in-the-wild tests as autonomous agents grow more capable. | 翻訳日:2023-11-20 14:44:59 公開日:2023-11-17 |
# 森林破壊検出のためのUMDAに基づくランドサット8帯選択フレームワーク A Framework of Landsat-8 Band Selection based on UMDA for Deforestation Detection ( http://arxiv.org/abs/2311.10513v1 ) ライセンス: Link先を確認 | Eduardo B. Neto, Paulo R. C. Pedro, Alvaro Fazenda, Fabio A. Faria | (参考訳) 熱帯林の保全は、地球生態系において重要な役割を担っているため、現在の社会的・生態学的関係の主題となっている。
残念ながら、毎年数百万ヘクタールが森林伐採され劣化している。
そのため、熱帯林のモニタリングには政府や民間の取り組みが必要である。
そこで本研究では, 分布推定アルゴリズム(umda)を用いてランドサット-8からスペクトル帯域を抽出し, 森林破壊領域の表現を改善し, deeplabv3+ と呼ばれる意味セグメンテーションアーキテクチャを導く新しい枠組みを提案する。
実験では、セグメント分類タスクにおいて90%以上の精度でバランスのとれた複数の組成を見つけることができた。
さらに、UMDAアルゴリズムが発見したベストコンポジション(651)はDeepLabv3+アーキテクチャを供給し、この研究で比較したすべてのコンポジションの効率と有効性を上回った。 The conservation of tropical forests is a current subject of social and ecological relevance due to their crucial role in the global ecosystem. Unfortunately, millions of hectares are deforested and degraded each year. Therefore, government or private initiatives are needed for monitoring tropical forests. In this sense, this work proposes a novel framework, which uses of distribution estimation algorithm (UMDA) to select spectral bands from Landsat-8 that yield a better representation of deforestation areas to guide a semantic segmentation architecture called DeepLabv3+. In performed experiments, it was possible to find several compositions that reach balanced accuracy superior to 90% in segment classification tasks. Furthermore, the best composition (651) found by UMDA algorithm fed the DeepLabv3+ architecture and surpassed in efficiency and effectiveness all compositions compared in this work. | 翻訳日:2023-11-20 14:44:40 公開日:2023-11-17 |
# ニューラルネットワークを用いた因果Fairness-Guided Dataset Reweighting Causal Fairness-Guided Dataset Reweighting using Neural Networks ( http://arxiv.org/abs/2311.10512v1 ) ライセンス: Link先を確認 | Xuan Zhao and Klaus Broelemann and Salvatore Ruggieri and Gjergji Kasneci | (参考訳) 機械学習モデルにおける公平性を達成することの重要性は過大評価できない。
近年の研究では、公平性は因果的観点から検討されるべきであり、オンパールの因果的枠組みに基づくいくつかの公平性概念が提案されている。
本稿では,因果的公平性に対処するためにデータセットの再重み付けスキームを構築する。
提案手法は,変数間の因果関係を考慮し,それらを重み付けプロセスに組み込むことにより,バイアスを軽減することを目的としている。
提案手法は,因果グラフの構造と介入グラフの構造を意図的に反映するために使用される2つのニューラルネットワークを採用する。
2つのニューラルネットワークは、データの因果モデルと介入の因果モデルとを近似することができる。
さらに、判別器が案内する重み付けを適用して、様々な公平性概念を実現する。
実世界のデータセットを用いた実験により,本手法は下流タスクの元のデータに近づきながら,データに対する因果フェアネスを達成可能であることが示された。 The importance of achieving fairness in machine learning models cannot be overstated. Recent research has pointed out that fairness should be examined from a causal perspective, and several fairness notions based on the on Pearl's causal framework have been proposed. In this paper, we construct a reweighting scheme of datasets to address causal fairness. Our approach aims at mitigating bias by considering the causal relationships among variables and incorporating them into the reweighting process. The proposed method adopts two neural networks, whose structures are intentionally used to reflect the structures of a causal graph and of an interventional graph. The two neural networks can approximate the causal model of the data, and the causal model of interventions. Furthermore, reweighting guided by a discriminator is applied to achieve various fairness notions. Experiments on real-world datasets show that our method can achieve causal fairness on the data while remaining close to the original data for downstream tasks. | 翻訳日:2023-11-20 14:44:26 公開日:2023-11-17 |
# 光学スクイズドキャットとゴッテマン・キタエフ・プレススキル状態の決定論的調製 Deterministic preparation of optical squeezed cat and Gottesman-Kitaev-Preskill states ( http://arxiv.org/abs/2311.10510v1 ) ライセンス: Link先を確認 | Matthew S. Winnel, Joshua J. Guanzon, Deepesh Singh, and Timothy C. Ralph | (参考訳) 大振幅圧縮された猫と高品質なゴッテマン・キタエフ・プレスキル状態(GKP)は量子誤り訂正のための強力な資源である。
しかし、以前の光学におけるスキームは、低い成功確率、小さな振幅、低いスクイーズに制限されている。
我々はこれらの制限を克服し、ガウス演算と光子数測定のみを用いた大振幅ネコ状態の決定論的準備のための光学系におけるスケーラブルなスキームを提示する。
これらの状態は、光学におけるGKP誤差の補正が短期的な実験で技術的に実現可能であることを示す、高品質なGKP状態を作成することができる。 Large-amplitude squeezed cat and high-quality Gottesman-Kitaev-Preskill (GKP) states are powerful resources for quantum error correction. However, previous schemes in optics are limited to low success probabilities, small amplitudes, and low squeezing. We overcome these limitations and present scalable schemes in optics for the deterministic preparation of large-amplitude squeezed cat states using only Gaussian operations and photon-number measurements. These states can be bred to prepare high-quality approximate GKP states, showing that GKP error correction in optics is technically feasible in near-term experiments. | 翻訳日:2023-11-20 14:44:10 公開日:2023-11-17 |
# CNL2ASP:制御された自然言語文をASPに変換する CNL2ASP: converting controlled natural language sentences into ASP ( http://arxiv.org/abs/2311.10505v1 ) ライセンス: Link先を確認 | Simone Caruso, Carmine Dodaro, Marco Maratea, Marco Mochi, Francesco Riccio | (参考訳) Answer Set Programming (ASP)は、難しい組合せ問題を解くための一般的な宣言型プログラミング言語である。
ASPは学術的、産業的に広く受け入れられてきたが、ASPプログラムを指定する際に自然言語によく似た高レベルの言語を採用する方が有利なユーザグループがある。
本稿では、制御された自然言語(CNL)形式で表現された英語文をASPに変換するCNL2ASPという新しいツールを提案する。
特に、まず、cnlが許容する文の種類とそれらの翻訳をasp規則として定義し、その後、合成問題と実世界の組合せ問題の両方の仕様に対するcnlの使用例を示す。
最後に,実世界の問題に対する実験的な解析の結果を報告し,自動生成エンコーディングの性能とASP実践者が書いたコードとの比較を行い,これらのベンチマークで満足な性能が得られることを示した。
論理プログラミングの理論と実践(tplp)における考察。 Answer Set Programming (ASP) is a popular declarative programming language for solving hard combinatorial problems. Although ASP has gained widespread acceptance in academic and industrial contexts, there are certain user groups who may find it more advantageous to employ a higher-level language that closely resembles natural language when specifying ASP programs. In this paper, we propose a novel tool, called CNL2ASP, for translating English sentences expressed in a controlled natural language (CNL) form into ASP. In particular, we first provide a definition of the type of sentences allowed by our CNL and their translation as ASP rules, and then exemplify the usage of the CNL for the specification of both synthetic and real-world combinatorial problems. Finally, we report the results of an experimental analysis conducted on the real-world problems to compare the performance of automatically generated encodings with the ones written by ASP practitioners, showing that our tool can obtain satisfactory performance on these benchmarks. Under consideration in Theory and Practice of Logic Programming (TPLP). | 翻訳日:2023-11-20 14:43:59 公開日:2023-11-17 |
# 可観測物の事前知識と量子コヒーレンス Witnessing quantum coherence with prior knowledge of observables ( http://arxiv.org/abs/2311.10503v1 ) ライセンス: Link先を確認 | Mao-Sheng Li, Wen Xu, Shao-Ming Fei, Zhu-Jun Zheng, and Yan-Ling Wang | (参考訳) 量子コヒーレンス(quantum coherence)は、高速コンピューティング、セキュア通信、高度なセンシングを含む量子技術の鍵となるリソースである。
したがって、量子化と検出は量子情報処理の文脈において最重要である。
観測対象について一定の事前知識を持つことは、コヒーレンス検出の効率を高める可能性がある。
本研究では,観測対象の痕跡が既知の量であると仮定する。
本研究は,この仮定が実際にコヒーレンス検出能力の範囲を広げていることを確認する。
観測対象の痕跡に関するこの事前知識を利用して,一連のコヒーレンス検出基準を確立する。
これらのコヒーレンス基準の検出能力を多様な視点から検討し,最終的に4つの異なる非等価な基準の存在を確認した。
これらの結果はコヒーレンス検出手法の理解を深め、量子技術の発展に向けた新たな道を開く可能性がある。 Quantum coherence is the key resource in quantum technologies including faster computing, secure communication and advanced sensing. Its quantification and detection are, therefore, paramount within the context of quantum information processing. Having certain priori knowledge on the observables may enhance the efficiency of coherence detection. In this work, we posit that the trace of the observables is a known quantity. Our investigation confirms that this assumption indeed extends the scope of coherence detection capabilities. Utilizing this prior knowledge of the trace of the observables, we establish a series of coherence detection criteria. We investigate the detection capabilities of these coherence criteria from diverse perspectives and ultimately ascertain the existence of four distinct and inequivalent criteria. These findings contribute to the deepening of our understanding of coherence detection methodologies, thereby potentially opening new avenues for advancements in quantum technologies. | 翻訳日:2023-11-20 14:43:42 公開日:2023-11-17 |
# 裂け目進化アルゴリズムのフィトネスレベルからの着地時間推定の高速化 Fast Estimations of Hitting Time of Elitist Evolutionary Algorithms from Fitness Levels ( http://arxiv.org/abs/2311.10502v1 ) ライセンス: Link先を確認 | Jun He, Siang Yew Chong and Xin Yao | (参考訳) フィットネスレベル法は、エリート主義EAの打つ時間を推定するための使い易いツールである。
近年,フィットネスレベルからの一般線形下限と上限が構築されている。
しかし、これらの境界の構築には再帰的な計算が必要であるため、実際にの使用は困難である。
線形境界における係数の計算を大幅に単純化し,再帰的計算を必要としない新しい有向グラフ(グラフ)法でこの問題に対処する。
この方法では、EAはグラフ上のマルコフ連鎖としてモデル化される。
ダイグラフ上の条件遷移確率を用いて下界と上界を直接計算する。
このダイアグラフ法は、エリートeasに対して下限と上限の直接的かつ明示的な表現を提供する。
特に、ショートカットなしで、両方のフィットネスランドスケープにしっかりとした下界を引き出すのに使うことができる。
これは、OneMax上の(1+1)EA、FullyDeceptive、TwoMax1、Deceptiveの4つの例で示される。
我々の研究は、簡単なフィットネス機能にショートカットを使わずに対処することから、よりリアルなショートカット機能まで、フィットネスレベルメソッドを拡張しています。 The fitness level method is an easy-to-use tool for estimating the hitting time of elitist EAs. Recently, general linear lower and upper bounds from fitness levels have been constructed. However, the construction of these bounds requires recursive computation, which makes them difficult to use in practice. We address this shortcoming with a new directed graph (digraph) method that does not require recursive computation and significantly simplifies the calculation of coefficients in linear bounds. In this method, an EA is modeled as a Markov chain on a digraph. Lower and upper bounds are directly calculated using conditional transition probabilities on the digraph. This digraph method provides straightforward and explicit expressions of lower and upper time bound for elitist EAs. In particular, it can be used to derive tight lower bound on both fitness landscapes without and with shortcuts. This is demonstrated through four examples: the (1+1) EA on OneMax, FullyDeceptive, TwoMax1 and Deceptive. Our work extends the fitness level method from addressing simple fitness functions without shortcuts to more realistic functions with shortcuts. | 翻訳日:2023-11-20 14:43:29 公開日:2023-11-17 |
# 原則から実践へ: 機械学習のための垂直データ最小化 From Principle to Practice: Vertical Data Minimization for Machine Learning ( http://arxiv.org/abs/2311.10500v1 ) ライセンス: Link先を確認 | Robin Staab, Nikola Jovanovi\'c, Mislav Balunovi\'c, Martin Vechev | (参考訳) 予測モデルをトレーニングし、デプロイすることを目指して、組織は大量の詳細なクライアントデータを収集し、侵害が発生した場合にプライベート情報を暴露するリスクを負う。
これを軽減するため、政策立案者はデータ最小化(dm)の原則に準拠することをますます要求し、タスクに必要なデータのみにデータ収集を制限した。
規制圧力にもかかわらず、DMに従う機械学習モデルをデプロイする問題は、今のところほとんど注目されていない。
本研究では,この課題を包括的に解決する。
本稿では,データ一般化に基づく新しい縦型dmワークフローを提案する。このワークフローでは,モデルのトレーニングやデプロイ中に,完全なクライアントデータが収集されないよう設計し,攻撃面の低減によるクライアントのプライバシのメリットを享受する。
我々は、データの有用性を最大化し、経験的プライバシーリスクを最小化する一般化を見つけるという、対応する問題を定式化し、研究する。
最後に,ベースラインvDMアルゴリズムおよびプライバシ・アウェア・ツリー(PAT)を提案する。
我々は、我々のコードを公開ライブラリとしてリリースし、機械学習のためのDMの標準化を進めることを計画している。
全体として、我々の研究は、現実世界のアプリケーションにおけるDM原則のさらなる探求と導入の基盤となると信じています。 Aiming to train and deploy predictive models, organizations collect large amounts of detailed client data, risking the exposure of private information in the event of a breach. To mitigate this, policymakers increasingly demand compliance with the data minimization (DM) principle, restricting data collection to only that data which is relevant and necessary for the task. Despite regulatory pressure, the problem of deploying machine learning models that obey DM has so far received little attention. In this work, we address this challenge in a comprehensive manner. We propose a novel vertical DM (vDM) workflow based on data generalization, which by design ensures that no full-resolution client data is collected during training and deployment of models, benefiting client privacy by reducing the attack surface in case of a breach. We formalize and study the corresponding problem of finding generalizations that both maximize data utility and minimize empirical privacy risk, which we quantify by introducing a diverse set of policy-aligned adversarial scenarios. Finally, we propose a range of baseline vDM algorithms, as well as Privacy-aware Tree (PAT), an especially effective vDM algorithm that outperforms all baselines across several settings. We plan to release our code as a publicly available library, helping advance the standardization of DM for machine learning. Overall, we believe our work can help lay the foundation for further exploration and adoption of DM principles in real-world applications. | 翻訳日:2023-11-20 14:43:12 公開日:2023-11-17 |
# ケル型非線形浴は量子冷蔵庫の冷却を高める Kerr-type nonlinear baths enhance cooling in quantum refrigerators ( http://arxiv.org/abs/2311.10499v1 ) ライセンス: Link先を確認 | Tanaya Ray, Sayan Mondal, Aparajita Bhattacharyya, Ahana Ghoshal, Debraj Rakshit and Ujjwal Sen | (参考訳) 非調和な量子発振器とKerr型非線形性からなる浴室の存在下で、ターゲット量子ビットの冷却を可能にする3体相互作用による自己完結型量子冷蔵庫の研究を行った。
これら3つのキュービットに局所的に接続された浴槽は、高調波発振器バスよりも優れた定常冷却を実現する機会を開き、冷凍機機能を自律的に強化するために必要な自由エネルギーへのアクセスを支援する。
定常冷却において顕著な優位性を提供する一方で, 過渡冷却を目標とした場合, このような不調和浴は高調波発振器浴をあまり使用しないことがわかった。
しかし,高調波浴を用いて過渡冷却のみが可能なパラメータ領域で定常冷却を行うことができた。
さらに,浴オシレータ内に存在する非調和性の異なるレベルに対する定常冷却アドバンテージと最小到達温度のスケーリングについても検討した。
最後に,カー型非線形性を含む浴モードを用いて,量子冷凍機の熱電流と性能係数を解析し,単純な高調波発振器を用いたボソニック浴との比較を行った。
その過程で, ゴリニ・コサコフスキ・スダールシャン・リンドブラド量子マスター方程式のカー型アンハーモニック振動子浴における減衰率を導出する。 We study the self-contained three-qubit quantum refrigerator, with a three-body interaction enabling cooling of the target qubit, in presence of baths composed of anharmonic quantum oscillators with Kerr-type nonlinearity. We show that such baths, locally connected to the three qubits, opens up the opportunity to implement superior steady-state cooling compared to using harmonic oscillator baths, aiding in access to the free energy required for empowering the refrigerator function autonomously. We find that in spite of providing significant primacy in steady-state cooling, such anharmonic baths do not impart much edge over using harmonic oscillator baths if one targets transient cooling. However, we gain access to steady-state cooling in the parameter region where only transient cooling could be achieved by using harmonic baths. Subsequently, we also study the scaling of steady-state cooling advantage and the minimum attainable temperature for varying levels of anharmonicity present in the bath oscillators. Finally, we analyse heat currents and coefficients of performance of quantum refrigerators using bath modes involving Kerr-type nonlinearity, and present a comparison with the case of using bosonic baths made of simple harmonic oscillators. On the way, we derive the decay rates in the Gorini-Kossakowski-Sudarshan-Lindblad quantum master equation for Kerr-type anharmonic oscillator baths. | 翻訳日:2023-11-20 14:42:49 公開日:2023-11-17 |
# 外界におけるナノスフィアのゆらぎ誘起力 Fluctuation-induced Forces on Nanospheres in External Fields ( http://arxiv.org/abs/2311.10496v1 ) ライセンス: Link先を確認 | Clemens Jakubec, Pablo Solano, Uro\v{s} Deli\'c, Kanu Sinha | (参考訳) 電磁界の量子的および熱的ゆらぎを媒介する2つの誘電体ナノ球間の放射力を外部駆動の有無で解析する。
我々は、ゆらぎ力の散乱理論記述を外部量子場を含むように一般化し、任意の量子状態にすることができる。
既知のトラップと光結合電位は、外部コヒーレント状態のために回収される。
平均強度がゼロであるにもかかわらず、外部圧縮真空状態がレーザーに類似した電位を生成することを示した。
さらに、磁場のシュル=オディンガー猫状態は、奇数か偶数かによって光学ポテンシャルを増強または抑制することができる。
光ツイーザーによって捕捉されるナノスフィアを考慮し、トラップレーザーの磁場強度、偏光、位相といった様々な実験パラメータの関数として全粒子間ポテンシャルについて検討する。
我々の結果は、マクロの量子状態において閉じ込められたナノスフィアを用いて進行中の実験に関係しており、マクロの量子システム間の工学的相互作用の道を開いた。 We analyze the radiative forces between two dielectric nanospheres mediated via the quantum and thermal fluctuations of the electromagnetic field in the presence of an external drive. We generalize the scattering theory description of fluctuation forces to include external quantum fields, allowing them to be in an arbitrary quantum state. The known trapping and optical binding potentials are recovered for an external coherent state. We demonstrate that an external squeezed vacuum state creates similar potentials to a laser, despite its zero average intensity. Moreover, Schr\"odinger cat states of the field can enhance or suppress the optical potential depending on whether they are odd or even. Considering the nanospheres trapped by optical tweezers, we examine the total interparticle potential as a function of various experimentally relevant parameters, such as the field intensity, polarization, and phase of the trapping lasers. We demonstrate that an appropriate set of parameters could produce mutual bound states of the two nanospheres with potential depth as large as $\sim200$ K. Our results are pertinent to ongoing experiments with trapped nanospheres in the macroscopic quantum regime, paving the way for engineering interactions among macroscopic quantum systems. | 翻訳日:2023-11-20 14:42:25 公開日:2023-11-17 |
# 量子光・物質・情報のゲージ相対性 The gauge-relativity of quantum light, matter, and information ( http://arxiv.org/abs/2311.10495v1 ) ライセンス: Link先を確認 | Adam Stokes, Hannah Riley, and Ahsan Nazir | (参考訳) 光および物質量子サブシステムの物理相対性、それらの相関、エネルギー交換について述べる。
原子と光子の最も一般的に採用されている定義を考察し、原始ゲージ不変量および局所場を用いて表現した場合の局所化特性の有意な差を指摘した。
結果として、絡み合い生成とエネルギー交換の異なる振る舞いが異なる定義に対して起こる。
1つの双極子と相互作用する1つのフォトニックモードのおもちゃモデルを用いて、これらの違いを詳細に検討する。 We describe the physical relativity of light and matter quantum subsystems, their correlations, and energy exchanges. We examine the most commonly adopted definitions of atoms and photons, noting the significant difference in their localisation properties when expressed in terms of primitive manifestly gauge-invariant and local fields. As a result, different behaviours for entanglement generation and energy exchange occur for different definitions. We explore such differences in detail using toy models of a single photonic mode interacting with one and two dipoles. | 翻訳日:2023-11-20 14:42:08 公開日:2023-11-17 |
# 重なり合う非対称データセットの処理 -- 2つのP-Splineアプローチ Handling Overlapping Asymmetric Datasets -- A Twice Penalized P-Spline Approach ( http://arxiv.org/abs/2311.10489v1 ) ライセンス: Link先を確認 | Matthew McTeer, Robin Henderson, Quentin M Anstee, Paolo Missier | (参考訳) 重複する非対称データセットはデータサイエンスでは一般的であり、予測分析にどのように組み込むかという疑問を投げかける。
医療データセットでは、電子的な健康記録など、より多くの患者に利用可能な情報が少ないことが多いが、少数の患者がさらなる検査を行った可能性がある。
小さいコホートが大きなサンプルと大きく異なる場合, 計算能力の欠如などの共通解は, しばしば不適当であり, より大きなコホートも考慮しながら, 特定の応答に対してより小さなコホートをモデル化できる新しい手法を開発することを目的とする。
非パラメトリックモデル、特に一般化された加法モデルによる柔軟な平滑化手法により、より小さなコホートのオーバーアンダーフィットを第一に防止し、第二により大きなコホートを考えるために、2回ペナル化されたP-スプライン近似法をモデル化する。
この第二のペナルティは、より小さいコホートとより大きなコホートの両方に存在する共変量の限界値の不一致によって生み出される。
データシミュレーション、パラメータチューニング、モデル適応により、連続的および二元的応答を考慮することで、我々の2倍のペナルティ化アプローチは、線形b-スプラインと、かつてペナルティ化されたp-スプライン近似に適合する。
非アルコール性脂肪性肝炎発症リスクに関する実生活データに適用すると,モデル適合性が65%以上向上した。
この領域における今後の作業分野は、この手法を次元の縮小を必要としないよう適応させ、パラメトリックモデリング法も検討することを含む。
しかし、我々の知る限りでは、これは、データインプテーションの欠如なしに、非対称データセットを考慮できる大幅に改善されたモデル適合を報告できる柔軟な回帰において、追加の限界的ペナルティを提案する最初の仕事である。 Overlapping asymmetric datasets are common in data science and pose questions of how they can be incorporated together into a predictive analysis. In healthcare datasets there is often a small amount of information that is available for a larger number of patients such as an electronic health record, however a small number of patients may have had extensive further testing. Common solutions such as missing imputation can often be unwise if the smaller cohort is significantly different in scale to the larger sample, therefore the aim of this research is to develop a new method which can model the smaller cohort against a particular response, whilst considering the larger cohort also. Motivated by non-parametric models, and specifically flexible smoothing techniques via generalized additive models, we model a twice penalized P-Spline approximation method to firstly prevent over/under-fitting of the smaller cohort and secondly to consider the larger cohort. This second penalty is created through discrepancies in the marginal value of covariates that exist in both the smaller and larger cohorts. Through data simulations, parameter tunings and model adaptations to consider a continuous and binary response, we find our twice penalized approach offers an enhanced fit over a linear B-Spline and once penalized P-Spline approximation. Applying to a real-life dataset relating to a person's risk of developing Non-Alcoholic Steatohepatitis, we see an improved model fit performance of over 65%. Areas for future work within this space include adapting our method to not require dimensionality reduction and also consider parametric modelling methods. However, to our knowledge this is the first work to propose additional marginal penalties in a flexible regression of which we can report a vastly improved model fit that is able to consider asymmetric datasets, without the need for missing data imputation. | 翻訳日:2023-11-20 14:41:58 公開日:2023-11-17 |
# 光の量子ガス中の次元交叉 Dimensional Crossover in a Quantum Gas of Light ( http://arxiv.org/abs/2311.10485v1 ) ライセンス: Link先を確認 | Kirankumar Karkihalli Umesh, Julian Schulz, Julian Schmitt, Martin Weitz, Georg von Freymann, Frank Vewinger | (参考訳) ボース・アインシュタイン凝縮を受ける光子気体の1次元から2次元の交叉特性を実験的に検討した。
光子は染料のマイクロキャビティの中に閉じ込められ、ポリマーナノ構造は光子ガスに高調波トラップ電位を与える。
トラップのアスペクト比を等方性2次元閉じ込めから、異方性で高伸長した1次元トラップ電位に調整する。
この遷移に伴って、光子ガスのカロリー特性が決定され、2次元のボース・アインシュタイン凝縮相転移が1次元の交叉挙動に軟化されることが分かる。 We experimentally study the properties of a harmonically trapped photon gas undergoing Bose-Einstein condensation along the dimensional crossover from one to two dimensions. The photons are trapped inside a dye microcavity, where polymer nanostructures provide a harmonic trapping potential for the photon gas. By varying the aspect ratio of the trap we tune from an isotropic two-dimensional confinement to an anisotropic, highly elongated one-dimensional trapping potential. Along this transition, we determine caloric properties of the photon gas, and find a softening of the second-order Bose-Einstein condensation phase transition observed in two dimensions to a crossover behaviour in one dimension. | 翻訳日:2023-11-20 14:41:24 公開日:2023-11-17 |
# 符号付きグラフクラスタビリティテストの(量子)複雑さ (Quantum) complexity of testing signed graph clusterability ( http://arxiv.org/abs/2311.10480v1 ) ライセンス: Link先を確認 | Kuo-Chin Chen, Simon Apers, Min-Hsiu Hsieh | (参考訳) 本研究では,有界度モデルにおける符号付きグラフのクラスタビリティ試験について検討する。
私たちの貢献は2倍です。
まず、クラスタビリティをテストするためにクエリ複雑性が$\tilde{O}(N^{1/3})$の量子アルゴリズムを提供する。
次に, [arXiv:2102.07587] の上限にほぼ一致するクラスタ性をテストするために, $\tilde{\Omega}(\sqrt{N})$ 古典的なクエリローバウンドを証明した。
これはクラスタビリティテストにおける古典的なクエリの複雑さを解決し、我々の量子アルゴリズムが古典的なアルゴリズムよりも有利であることを示す。 This study examines clusterability testing for a signed graph in the bounded-degree model. Our contributions are two-fold. First, we provide a quantum algorithm with query complexity $\tilde{O}(N^{1/3})$ for testing clusterability, which yields a polynomial speedup over the best classical clusterability tester known [arXiv:2102.07587]. Second, we prove an $\tilde{\Omega}(\sqrt{N})$ classical query lower bound for testing clusterability, which nearly matches the upper bound from [arXiv:2102.07587]. This settles the classical query complexity of clusterability testing, and it shows that our quantum algorithm has an advantage over any classical algorithm. | 翻訳日:2023-11-20 14:41:11 公開日:2023-11-17 |
# 等方性ハイゼンベルクスピン鎖における近藤効果 Kondo effect in the isotropic Heisenberg spin chain ( http://arxiv.org/abs/2311.10569v1 ) ライセンス: Link先を確認 | Pradip Kattel, Parameshwar R. Pasnoori, J. H. Pixley, Patrick Azaria, and Natan Andrei | (参考訳) スピン交換相互作用を通じて反強磁性スピン-$\frac{1}{2}$ハイゼンベルク鎖のエッジとスピン-$\frac{1}{2}$不純物が相互作用する際に生じる境界効果を調べる。
結合が強磁性または反強磁性である場合も考慮する。
反強磁性相互作用の場合,不純物結合強度がバルクよりもはるかに弱い場合,コンド効果により地中において不純物が遮蔽されることがわかった。
近藤相は状態のローレンツ密度と動的に生成する近藤温度$t_k$によって特徴づけられる。
不純物結合強度が増加すると、T_K$は最大値である$T_0=2\pi J$に達するまで増加する。
不純物結合強度がさらに増加すると、不純物結合端に指数関数的に局在する単一粒子結合モードにより、不純物が基底状態で遮蔽される境界モード相である別の相に入る。
境界モードを除去することで不純物を非表示にすることができる。
金堂と有界モード相の間には境界固有状態相転移があり、ヒルベルト空間の塔数の変化を特徴とする遷移である。
この遷移は、状態の局所不純物密度や局所不純物磁化のような基底状態の量にも現れる。
不純物カップリングが強磁性の場合、不純物は基底状態において非遮蔽されるが、不純物とバルクカップリング強度の比の絶対値が$\frac{4}{5}$ を超える場合は、エネルギーが $t_0$ を超えるバウンドモードを加えることで、不純物を遮蔽することができる。
2つの不純物を考慮すると、各不純物で表される相は熱力学的限界で変化しないが、それでもシステムは豊富な相図を示す。 We investigate the boundary effects that arise when spin-$\frac{1}{2}$ impurities interact with the edges of the antiferromagnetic spin-$\frac{1}{2}$ Heisenberg chain through spin exchange interactions. We consider both cases when the couplings are ferromagnetic or anti-ferromagnetic. We find that in the case of antiferromagnetic interaction, when the impurity coupling strength is much weaker than that in the bulk, the impurity is screened in the ground state via the Kondo effect. The Kondo phase is characterized by the Lorentzian density of states and dynamically generated Kondo temperature $T_K$. As the impurity coupling strength increases, $T_K$ increases until it reaches its maximum value $T_0=2\pi J$ which is the maximum energy carried by a single spinon. When the impurity coupling strength is increased further, we enter another phase, the bound mode phase, where the impurity is screened in the ground state by a single particle bound mode exponentially localized at the edge to which the impurity is coupled. We find that the impurity can be unscreened by removing the bound mode. There exists a boundary eigenstate phase transition between the Kondo and the bound-mode phases, a transition which is characterized by the change in the number of towers of the Hilbert space. The transition also manifests itself in ground state quantities like local impurity density of states and the local impurity magnetization. When the impurity coupling is ferromagnetic, the impurity is unscreened in the ground state; however, when the absolute value of the ratio of the impurity and bulk coupling strengths is greater than $\frac{4}{5}$, the impurity can be screened by adding a bound mode that costs energy greater than $T_0$. When two impurities are considered, the phases exhibited by each impurity remain unchanged in the thermodynamic limit, but nevertheless the system exhibits a rich phase diagram. | 翻訳日:2023-11-20 14:34:45 公開日:2023-11-17 |
# RONAALP:アクティブラーニング手法による低次非線形近似 RONAALP: Reduced-Order Nonlinear Approximation with Active Learning Procedure ( http://arxiv.org/abs/2311.10550v1 ) ライセンス: Link先を確認 | Cl\'ement Scherding (1), Georgios Rigas (2), Denis Sipp (3), Peter J Schmid (4), Taraneh Sayadi (1 and 5) ((1) Institut Jean le Rond d'Alembert, Sorbonne University, (2) Department of Aeronautics, Imperial College London, (3) DAAA, Onera, (4) Department of Mechanical Engineering, KAUST, (5) Institute for Combustion Technology, Aachen University) | (参考訳) 多くの工学的応用は高価な非線形高次元関数の評価に依存している。
本稿では,応用が進むにつれて対象関数の高速かつ高精度な最小次サロゲートモデルを漸進的に学習するためのronaalpアルゴリズムを提案する。
まず、非線形オートエンコーダ、コミュニティクラスタリング、ラジアル基底関数ネットワークの組み合わせにより、訓練データに制限のある効率的でコンパクトなサロゲートモデルを学ぶことができる。
第2に、オンライン段階における初期訓練範囲外の代理モデルを評価する際に、アクティブな学習手順が外挿問題を克服する。
この結果、高次元関数の一般化可能、高速、高精度な減階モデルが得られる。
この手法は化学非平衡における超音速流れの3つの直接数値シミュレーションで実証された。
これらの流れの正確なシミュレーションは、そのような計算のコストを劇的に増加させる詳細な熱化学ガスモデルに依存している。
ronAALP を用いて低次熱力学モデルをオンザフライでシュロゲートし、そのシミュレーションのコストを最大75%削減し、関連する関心量に対して10%未満の誤差を維持した。 Many engineering applications rely on the evaluation of expensive, non-linear high-dimensional functions. In this paper, we propose the RONAALP algorithm (Reduced Order Nonlinear Approximation with Active Learning Procedure) to incrementally learn a fast and accurate reduced-order surrogate model of a target function on-the-fly as the application progresses. First, the combination of nonlinear auto-encoder, community clustering and radial basis function networks allows to learn an efficient and compact surrogate model with limited training data. Secondly, the active learning procedure overcome any extrapolation issue when evaluating the surrogate model outside of its initial training range during the online stage. This results in generalizable, fast and accurate reduced-order models of high-dimensional functions. The method is demonstrated on three direct numerical simulations of hypersonic flows in chemical nonequilibrium. Accurate simulations of these flows rely on detailed thermochemical gas models that dramatically increase the cost of such calculations. Using RONAALP to learn a reduced-order thermodynamic model surrogate on-the-fly, the cost of such simulation was reduced by up to 75% while maintaining an error of less than 10% on relevant quantities of interest. | 翻訳日:2023-11-20 14:34:05 公開日:2023-11-17 |
# archtree: ディープニューラルネットワークのレイテンシアウェアpruningのためのオンザフライツリー構造探索 Archtree: on-the-fly tree-structured exploration for latency-aware pruning of deep neural networks ( http://arxiv.org/abs/2311.10549v1 ) ライセンス: Link先を確認 | R\'emi Ouazan Reboul, Edouard Yvinec, Arnaud Dapogny, Kevin Bailly | (参考訳) ディープニューラルネットワーク(DNN)は、特にコンピュータビジョンにおいて、多くの問題に対処するために広く普及している。
しかし、DNN推論は計算集約的であり、例えばエッジデバイスを考える際には禁忌である。
この問題を解決するために、一般的な解決策はdnn pruningであり、より構造化されたpruningであり、コヒーレントな計算ブロック(例えば畳み込みネットワークのチャネル)は削除される。
近年,有望な遅延対応プルーニング手法が提案され,特定のハードウェア上で事前に推定されたウォールクロック遅延の目標予算に達するまでチャネルを除去する。
本稿では,DNNの遅延駆動型構造化プルーニング手法であるArchtreeを提案する。
archtreeは複数のprunedサブモデルを木のような方法で並列に探索し、検索空間をよりよく探索する。
さらに、ターゲットハードウェア上でのオン・ザ・フライ遅延推定を伴い、特定の予算よりも近いレイテンシを考慮に入れている。
いくつかのdnnアーキテクチャとターゲットハードウェアにおける経験的な結果から、archtreeは、既存の最先端のメソッドに比べてレイテンシの予算に適合しながら、元のモデルの精度を保っていることが分かる。 Deep neural networks (DNNs) have become ubiquitous in addressing a number of problems, particularly in computer vision. However, DNN inference is computationally intensive, which can be prohibitive e.g. when considering edge devices. To solve this problem, a popular solution is DNN pruning, and more so structured pruning, where coherent computational blocks (e.g. channels for convolutional networks) are removed: as an exhaustive search of the space of pruned sub-models is intractable in practice, channels are typically removed iteratively based on an importance estimation heuristic. Recently, promising latency-aware pruning methods were proposed, where channels are removed until the network reaches a target budget of wall-clock latency pre-emptively estimated on specific hardware. In this paper, we present Archtree, a novel method for latency-driven structured pruning of DNNs. Archtree explores multiple candidate pruned sub-models in parallel in a tree-like fashion, allowing for a better exploration of the search space. Furthermore, it involves on-the-fly latency estimation on the target hardware, accounting for closer latencies as compared to the specified budget. Empirical results on several DNN architectures and target hardware show that Archtree better preserves the original model accuracy while better fitting the latency budget as compared to existing state-of-the-art methods. | 翻訳日:2023-11-20 14:33:49 公開日:2023-11-17 |
# 一般ガウスモデルによる時空間受容場に対する幾何学的画像変換における共分散特性 Joint covariance property under geometric image transformations for spatio-temporal receptive fields according to generalized Gaussian model for receptive fields ( http://arxiv.org/abs/2311.10543v1 ) ライセンス: Link先を確認 | Tony Lindeberg | (参考訳) 自然な画像変換が受容野応答に与える影響は、コンピュータビジョンと生体視覚の視覚操作のモデリングに不可欠である。
この点において、視覚階層の最初期の層における幾何学的画像変換に関する共分散特性は、ロバストな画像操作の表現や、高レベルでの不変な視覚操作の定式化に不可欠である。
本稿では,空間的スケーリング変換,空間的アフィン変換,ガリレオ変換,時間的スケーリング変換といった構成下での結合共分散特性を定義し,両者の相互作用を特徴付ける。
具体的には、時空間の知覚場からの出力と時空間のイメージ変換とを一致させるためには、受容場パラメータを変換する必要がある。 The influence of natural image transformations on receptive field responses is crucial for modelling visual operations in computer vision and biological vision. In this regard, covariance properties with respect to geometric image transformations in the earliest layers of the visual hierarchy are essential for expressing robust image operations and for formulating invariant visual operations at higher levels. This paper defines and proves a joint covariance property under compositions of spatial scaling transformations, spatial affine transformations, Galilean transformations and temporal scaling transformations, which makes it possible to characterize how different types of image transformations interact with each other. Specifically, the derived relations show the receptive field parameters need to be transformed, in order to match the output from spatio-temporal receptive fields with the underlying spatio-temporal image transformations. | 翻訳日:2023-11-20 14:33:26 公開日:2023-11-17 |
# 低資源言語における攻撃的・脅威的オンラインコンテンツの検出 Detection of Offensive and Threatening Online Content in a Low Resource Language ( http://arxiv.org/abs/2311.10541v1 ) ライセンス: Link先を確認 | Fatima Muhammad Adam, Abubakar Yakubu Zandam, Isa Inuwa-Dutse | (参考訳) ハウサ語は、アフリカで1億人を超える人々が話す主要なチャド語である。
しかし、計算言語の観点からは、自然言語処理(NLP)タスクをサポートするリソースが限られている低リソース言語と考えられている。
オンラインプラットフォームは、しばしば社会的相互作用を促進し、攻撃的で脅迫的な言語の使用につながる可能性がある。
本研究は,(1)サイバーいじめに関する2つのユーザ研究(n=308),(2)hausaの下流課題を支援するために,第1セットの攻撃および脅威データセットの収集と注釈,(3)攻撃および脅威コンテンツの検出システムの開発,(4)hausaにおける攻撃的および脅威的条件の検出におけるgoogleベースの翻訳エンジンの検出システムと効果の評価,という課題を解決することを目的とした。
特に宗教や政治に関する議論では、攻撃的で脅迫的な内容が極めて多いことが分かりました。
我々の検出システムは、攻撃的および脅迫的コンテンツの70%以上を検出できたが、その多くはgoogleの翻訳エンジンによって誤訳された。
これを,hausa言語における攻撃的・脅迫的内容と慣用的表現との微妙な関係に特徴づける。
より効果的な検出システムを開発するために、多様な利害関係者が地域の慣習や人口統計の理解に参加することを推奨する。
これらの洞察は、安全で包括的なオンライン環境を構築するためのモデレーション戦略の実装に不可欠である。 Hausa is a major Chadic language, spoken by over 100 million people in Africa. However, from a computational linguistic perspective, it is considered a low-resource language, with limited resources to support Natural Language Processing (NLP) tasks. Online platforms often facilitate social interactions that can lead to the use of offensive and threatening language, which can go undetected due to the lack of detection systems designed for Hausa. This study aimed to address this issue by (1) conducting two user studies (n=308) to investigate cyberbullying-related issues, (2) collecting and annotating the first set of offensive and threatening datasets to support relevant downstream tasks in Hausa, (3) developing a detection system to flag offensive and threatening content, and (4) evaluating the detection system and the efficacy of the Google-based translation engine in detecting offensive and threatening terms in Hausa. We found that offensive and threatening content is quite common, particularly when discussing religion and politics. Our detection system was able to detect more than 70% of offensive and threatening content, although many of these were mistranslated by Google's translation engine. We attribute this to the subtle relationship between offensive and threatening content and idiomatic expressions in the Hausa language. We recommend that diverse stakeholders participate in understanding local conventions and demographics in order to develop a more effective detection system. These insights are essential for implementing targeted moderation strategies to create a safe and inclusive online environment. | 翻訳日:2023-11-20 14:33:10 公開日:2023-11-17 |
# 医用画像セグメンテーションのための不確実性整定付きセグメントanyモデル Segment Anything Model with Uncertainty Rectification for Auto-Prompting Medical Image Segmentation ( http://arxiv.org/abs/2311.10529v1 ) ライセンス: Link先を確認 | Yichi Zhang, Shiyao Hu, Chen Jiang, Yuan Cheng, Yuan Qi | (参考訳) Segment Anything Model (SAM) の導入は、プロンプト駆動画像のセグメンテーションにおいて大きな進歩を見せている。
しかし、サムの医療画像セグメンテーションへの応用は、まだ労働集約的なパフォーマンスを得るためにターゲット構造の手作業によるプロンプトを必要とする。
SAMを完全な自動的な方法で自動プロンプトする試みは試みられているが、医療画像の分野ではまだ性能が劣り、信頼性が欠如している。
本稿では,医用画像の自動分割における堅牢性と信頼性を高めるための不確実性修正SAMフレームワークUR-SAMを提案する。
提案手法では,予測の分布を推定し,不確実性マップを生成するプロンプト拡張モジュールと,SAMの性能をさらに向上する不確実性に基づく修正モジュールを組み込んだ。
35個の臓器の分節を包含する2つの公開3次元医用データセットの広範囲な実験により, 補足訓練や微調整がなければ, 最大10.7 %, 13.8 %のダイス類似度係数で分節性能を向上し, 手動のプロンプトを伴わない医用画像分節の効率と幅広い機能を示す。 The introduction of the Segment Anything Model (SAM) has marked a significant advancement in prompt-driven image segmentation. However, SAM's application to medical image segmentation requires manual prompting of target structures to obtain acceptable performance, which is still labor-intensive. Despite attempts of auto-prompting to turn SAM into a fully automatic manner, it still exhibits subpar performance and lacks of reliability in the field of medical imaging. In this paper, we propose UR-SAM, an uncertainty rectified SAM framework to enhance the robustness and reliability for auto-prompting medical image segmentation. Our method incorporates a prompt augmentation module to estimate the distribution of predictions and generate uncertainty maps, and an uncertainty-based rectification module to further enhance the performance of SAM. Extensive experiments on two public 3D medical datasets covering the segmentation of 35 organs demonstrate that without supplementary training or fine-tuning, our method further improves the segmentation performance with up to 10.7 % and 13.8 % in dice similarity coefficient, demonstrating efficiency and broad capabilities for medical image segmentation without manual prompting. | 翻訳日:2023-11-20 14:31:53 公開日:2023-11-17 |
# VQ-VAEによる転がり軸受予測用健康指標生成 Utilizing VQ-VAE for End-to-End Health Indicator Generation in Predicting Rolling Bearing RUL ( http://arxiv.org/abs/2311.10525v1 ) ライセンス: Link先を確認 | Junliang Wang, Qinghua Zhang, Guanhua Zhu and Guoxi Sun | (参考訳) 転がり軸受の残存寿命(rul)の予測は、産業生産における重要な課題である。
この問題に取り組むための重要なアプローチは、振動信号を健康指標(HI)に変換してモデルトレーニングを支援することである。
本稿では,オートエンコーダのような従来の教師なし学習法において,潜在変数の次元性低減の必要性に対処するために,エンドツーエンドのhi合成法であるベクトル量子化変分オートエンコーダ(vq-vae)を提案する。
さらに、曲線変動を正確に反映する従来の統計指標の不十分さについて、2つの新しい統計指標、平均絶対距離(MAD)と平均分散(MV)を紹介した。
これらの指標は曲線の変動パターンを正確に表現し、類似した特徴を識別する際のモデルの精度を示す。
PMH2012データセットでは、ラベル構築にVQ-VAEを用いる手法がMADとMVの低い値を得た。
さらに,VQ-VAEラベルを用いてトレーニングしたASTCN予測モデルでは,MADとMVの最低値が得られた。 The prediction of the remaining useful life (RUL) of rolling bearings is a pivotal issue in industrial production. A crucial approach to tackling this issue involves transforming vibration signals into health indicators (HI) to aid model training. This paper presents an end-to-end HI construction method, vector quantised variational autoencoder (VQ-VAE), which addresses the need for dimensionality reduction of latent variables in traditional unsupervised learning methods such as autoencoder. Moreover, concerning the inadequacy of traditional statistical metrics in reflecting curve fluctuations accurately, two novel statistical metrics, mean absolute distance (MAD) and mean variance (MV), are introduced. These metrics accurately depict the fluctuation patterns in the curves, thereby indicating the model's accuracy in discerning similar features. On the PMH2012 dataset, methods employing VQ-VAE for label construction achieved lower values for MAD and MV. Furthermore, the ASTCN prediction model trained with VQ-VAE labels demonstrated commendable performance, attaining the lowest values for MAD and MV. | 翻訳日:2023-11-20 14:31:15 公開日:2023-11-17 |
# 量子交差と結合 Quantum intersection and union ( http://arxiv.org/abs/2311.10524v1 ) ライセンス: Link先を確認 | Naqueeb Ahmad Warsi and Ayanava Dasgupta | (参考訳) 情報理論では、典型的な集合の交叉と結合を用いて様々な通信問題を解析することが多い。
しかし、量子環境では、典型的な集合の交叉や結合に類似して振る舞う測度を構築する方法はあまり明確ではない。
本研究では、典型的な集合の交叉や結合と非常によく似た振る舞いをする射影作用素を構築する。
我々の建設はヨルダンの補題に依存している。
この構成を用いて,認証された古典量子チャネル上の通信の問題を調べ,その容量を導出する。
構築の別の応用として、量子非対称複合仮説テストの問題を考察する。
さらに, 古典版のトーマス・アンド・カバーブック(thomas and cover book for the classical version of this problem)では, 量子二項非対称仮説検定問題(quantum binary asymmetric hypothesis testing problem)について, スピリットに非常によく似ていることを証明した。 In information theory, we often use intersection and union of the typical sets to analyze various communication problems. However, in the quantum setting it is not very clear how to construct a measurement which behaves analogous to intersection and union of the typical sets. In this work, we construct a projection operator which behaves very similar to intersection and union of the typical sets. Our construction relies on the Jordan's lemma. Using this construction we study the problem of communication over authenticated classical-quantum channels and derive its capacity. As another application of our construction, we study the problem of quantum asymmetric composite hypothesis testing. Further, we also prove a converse for the quantum binary asymmetric hypothesis testing problem which is arguably very similar in spirit to the converse given in the Thomas and Cover book for the classical version of this problem. | 翻訳日:2023-11-20 14:30:12 公開日:2023-11-17 |
# 訓練されたニューラルラジアンス場からの逆体積効果の除去 Removing Adverse Volumetric Effects From Trained Neural Radiance Fields ( http://arxiv.org/abs/2311.10523v1 ) ライセンス: Link先を確認 | Andreas L. Teigen, Mauhing Yip, Victor P. Hamran, Vegard Skui, Annette Stahl, Rudolf Mester | (参考訳) 異なる困難な環境でのニューラルラジアンス場(NeRF)の使用が検討されているが、霧の環境でのNeRFの使用に焦点を当てた貢献はごく最近まである。
従来のNeRFモデルは霧で満たされたシーンを再現することができ、新規なビューを合成する際に霧を取り除く方法を提案する。
シーンの全体的コントラストを計算することで、適用された場合、すべての可視霧を除去できる密度閾値を推定できる。
これにより、霧に満ちた環境にある関心のあるオブジェクトの明確なビューをレンダリングする手段としてNeRFを使用することが可能になる。
さらに,これらのシーンのパフォーマンスをベンチマークするために,霧や自然環境を付加することにより,元の合成NeRFシーンを拡張した新しいデータセットを導入する。
コード、データセット、ビデオの結果は、プロジェクトのページで確認できる。 While the use of neural radiance fields (NeRFs) in different challenging settings has been explored, only very recently have there been any contributions that focus on the use of NeRF in foggy environments. We argue that the traditional NeRF models are able to replicate scenes filled with fog and propose a method to remove the fog when synthesizing novel views. By calculating the global contrast of a scene, we can estimate a density threshold that, when applied, removes all visible fog. This makes it possible to use NeRF as a way of rendering clear views of objects of interest located in fog-filled environments. Additionally, to benchmark performance on such scenes, we introduce a new dataset that expands some of the original synthetic NeRF scenes through the addition of fog and natural environments. The code, dataset, and video results can be found on our project page: https://vegardskui.com/fognerf/ | 翻訳日:2023-11-20 14:29:55 公開日:2023-11-17 |
# レイアウト画像合成におけるオブジェクトコヒーレンス向上 Enhancing Object Coherence in Layout-to-Image Synthesis ( http://arxiv.org/abs/2311.10522v1 ) ライセンス: Link先を確認 | Yibin Wang and Weizhong Zhang and Jianwei Zheng and Cheng Jin | (参考訳) レイアウトから画像への合成は条件付き画像生成における新しい技術である。
複雑なシーンを生成することを目的としており、ユーザーはシーン内のオブジェクトのレイアウトを細かく制御する必要がある。
しかし、意味的コヒーレンス(例:猫が花を見るかどうか)や物理的コヒーレンス(例:手とラケットを間違えてはならない)など、オブジェクトのコヒーレンスを制御することは依然として困難である。
本稿では,実効的グローバル・セマンティクス・フュージョン(gsf)と自己相似性特徴拡張モジュールを用いた新しい拡散モデルを提案する。
セマンティックコヒーレンスについては,イメージキャプションには画像内のオブジェクト内の意味的関係を定義するための豊富な情報が含まれていることを議論する。
本実験では, キャプションと生成画像間の相互アテンションを個別に扱うのではなく, レイアウト制約とセマンティックコヒーレンスを個別に扱うことで, レイアウト制約とセマンティックコヒーレンス要求から監督を解き放ち, 画像合成プロセスの指針として利用するために, GSFを開発した。
さらに、物理コヒーレンスを改善するために、各画素の生成プロセスに局所的な物理的コヒーレンスを明示的に統合する自己相似コヒーレンスアテンション(SCA)モジュールを開発した。
具体的には,コヒーレンス制約を符号化する自己相似写像を採用し,テキスト埋め込みからコヒーレント特徴を抽出する。
自己相似性マップの可視化を通じて、SCAの本質を探求し、信頼性の高い物理的コヒーレンスパターンのキャプチャだけでなく、複雑なテクスチャ生成の強化にも有効であることを示した。
画像生成品質と制御性の両方において,提案手法の優位性を示す実験を行った。 Layout-to-image synthesis is an emerging technique in conditional image generation. It aims to generate complex scenes, where users require fine control over the layout of the objects in a scene. However, it remains challenging to control the object coherence, including semantic coherence (e.g., the cat looks at the flowers or not) and physical coherence (e.g., the hand and the racket should not be misaligned). In this paper, we propose a novel diffusion model with effective global semantic fusion (GSF) and self-similarity feature enhancement modules to guide the object coherence for this task. For semantic coherence, we argue that the image caption contains rich information for defining the semantic relationship within the objects in the images. Instead of simply employing cross-attention between captions and generated images, which addresses the highly relevant layout restriction and semantic coherence separately and thus leads to unsatisfying results shown in our experiments, we develop GSF to fuse the supervision from the layout restriction and semantic coherence requirement and exploit it to guide the image synthesis process. Moreover, to improve the physical coherence, we develop a Self-similarity Coherence Attention (SCA) module to explicitly integrate local contextual physical coherence into each pixel's generation process. Specifically, we adopt a self-similarity map to encode the coherence restrictions and employ it to extract coherent features from text embedding. Through visualization of our self-similarity map, we explore the essence of SCA, revealing that its effectiveness is not only in capturing reliable physical coherence patterns but also in enhancing complex texture generation. Extensive experiments demonstrate the superiority of our proposed method in both image generation quality and controllability. | 翻訳日:2023-11-20 14:29:37 公開日:2023-11-17 |
# 地図をよこせ!
センサデータからオンラインHDMapを推定する場合の既存地図情報の会計 Mind the map! Accounting for existing map information when estimating online HDMaps from sensor data ( http://arxiv.org/abs/2311.10517v1 ) ライセンス: Link先を確認 | R\'emy Sun, Li Yang, Diane Lingrand, Fr\'ed\'eric Precioso | (参考訳) センサーからのオンラインハイディフィニションマップ(hdmap)の推定は、手動で取得したhdmapに代わる低コストな代替手段を提供する。
そのため、すでにHDMap対応の自動運転システムのコストを軽くし、新しいシステムにも利用を拡大する可能性がある。
本稿では,既存の地図を考慮し,オンラインhdmap推定を改善することを提案する。
有効なマップの3つの合理的なタイプ(ミニマリスト、ノイズ、時代遅れ)を特定します。
また,既存の地図を考慮した新しいオンラインHDMap推定フレームワークであるMapEXを紹介する。
MapEXは、Map要素をクエリトークンにエンコードし、古典的なクエリベースのマップ推定モデルをトレーニングするために使用されるマッチングアルゴリズムを精細化する。
MapEXはnuScenesデータセットに大幅な改善をもたらすことを実証しています。
例えば、mapex - ノイズの多いマップを与えられた場合、maptrv2検出器を38%改善し、現在のsataを16%改善する。 Online High Definition Map (HDMap) estimation from sensors offers a low-cost alternative to manually acquired HDMaps. As such, it promises to lighten costs for already HDMap-reliant Autonomous Driving systems, and potentially even spread their use to new systems. In this paper, we propose to improve online HDMap estimation by accounting for already existing maps. We identify 3 reasonable types of useful existing maps (minimalist, noisy, and outdated). We also introduce MapEX, a novel online HDMap estimation framework that accounts for existing maps. MapEX achieves this by encoding map elements into query tokens and by refining the matching algorithm used to train classic query based map estimation models. We demonstrate that MapEX brings significant improvements on the nuScenes dataset. For instance, MapEX - given noisy maps - improves by 38% over the MapTRv2 detector it is based on and by 16% over the current SOTA. | 翻訳日:2023-11-20 14:29:03 公開日:2023-11-17 |
# Bloombergにおける自動プログラム修復のユーザ中心展開 User-Centric Deployment of Automated Program Repair at Bloomberg ( http://arxiv.org/abs/2311.10516v1 ) ライセンス: Link先を確認 | David Williams, James Callan, Serkan Kirbas, Sergey Mechtaev, Justyna Petke, Thomas Prideaux-Ghee, Federica Sarro | (参考訳) 自動プログラム修復(APR)ツールがコードベースの問題の迅速な修正の可能性を解き放った。
しかし、実際にプログラムの修復を広く採用するためには、無関係または外部のパッチの生成に関するユーザビリティの懸念に対処する必要がある。
ソフトウェアエンジニアが興味がない、あるいは役に立たないと思われるパッチを提示されると、彼らはワークフローにより多くの"ノイズ"を負い、将来はaprツールと関わりがなくなる。
本稿では,自動生成パッチをソフトウェア技術者に最適な時間,目標,提示するための新しいアプローチを提案する。
これを実現するために、GitHubのSuggested Changesインターフェースを活用して、自動化された提案をアクティブプルリクエスト(PR)にシームレスに統合するB-Assistという新しいツールを設計、開発、デプロイしました。
この戦略は、提案がタイムリーであるだけでなく、文脈的に関連し、影響を受けるコードに最も慣れたエンジニアに届けられることを保証します。
Bloombergのソフトウェアエンジニアによる評価は、このアプローチを好んだ。
我々のユーザー調査から、B-Assistの有効性は明らかであり、パッチ提案の受け入れ率は74.56%である。
さらに,本論文では,APRにおけるユーザビリティの持続的課題に光を当て,今後のAPRツールにおけるユーザエクスペリエンス向上の基盤となるものについて述べる。 Automated program repair (APR) tools have unlocked the potential for the rapid rectification of codebase issues. However, to encourage wider adoption of program repair in practice, it is necessary to address the usability concerns related to generating irrelevant or out-of-context patches. When software engineers are presented with patches they deem uninteresting or unhelpful, they are burdened with more "noise" in their workflows and become less likely to engage with APR tools in future. This paper presents a novel approach to optimally time, target, and present auto-generated patches to software engineers. To achieve this, we designed, developed, and deployed a new tool dubbed B-Assist, which leverages GitHub's Suggested Changes interface to seamlessly integrate automated suggestions into active pull requests (PRs), as opposed to creating new, potentially distracting PRs. This strategy ensures that suggestions are not only timely, but also contextually relevant and delivered to engineers most familiar with the affected code. Evaluation among Bloomberg software engineers demonstrated their preference for this approach. From our user study, B-Assist's efficacy is evident, with the acceptance rate of patch suggestions being as high as 74.56%; engineers also found the suggestions valuable, giving usefulness ratings of at least 4 out of 5 in 78.2% of cases. Further, this paper sheds light on persisting usability challenges in APR and lays the groundwork for enhancing the user experience in future APR tools. | 翻訳日:2023-11-20 14:28:48 公開日:2023-11-17 |
# 言語に関する質問が話題になるとき。
センシティブなコンテンツのラベル付けに関する再検討 When a Language Question Is at Stake. A Revisited Approach to Label Sensitive Content ( http://arxiv.org/abs/2311.10514v1 ) ライセンス: Link先を確認 | Stetsenko Daria | (参考訳) 多くのアンダーリソース言語は、攻撃的な言語検出、偽情報、誤情報識別などの特定のタスクのために高品質なデータセットを必要とする。
しかし、内容の複雑さは注釈に有害な影響を与える可能性がある。
記事は、ロシア・ウクライナ戦争に関するウクライナのツイートの例について、機密データを疑似ラベル付けするアプローチを再検討することを目的としている。
現在、この急激な話題は様々な言語操作のスポットライトであり、ソーシャルメディアプラットフォーム上で多くの偽情報や誇張を引き起こしている。
実験では、データアノテーションの3つの主要なステージを強調し、マシンアノテーション中の主な障害を強調する。
最終的に、得られたデータの基本的な統計分析、擬似ラベリングに使用されるモデルの評価、さらに、研究者がコーパスを利用してより高度な研究を行い、アノテータの関与なしに既存のデータサンプルを拡張する方法についてのガイドラインを策定する。 Many under-resourced languages require high-quality datasets for specific tasks such as offensive language detection, disinformation, or misinformation identification. However, the intricacies of the content may have a detrimental effect on the annotators. The article aims to revisit an approach of pseudo-labeling sensitive data on the example of Ukrainian tweets covering the Russian-Ukrainian war. Nowadays, this acute topic is in the spotlight of various language manipulations that cause numerous disinformation and profanity on social media platforms. The conducted experiment highlights three main stages of data annotation and underlines the main obstacles during machine annotation. Ultimately, we provide a fundamental statistical analysis of the obtained data, evaluation of models used for pseudo-labelling, and set further guidelines on how the scientists can leverage the corpus to execute more advanced research and extend the existing data samples without annotators' engagement. | 翻訳日:2023-11-20 14:28:22 公開日:2023-11-17 |
# FOCAL: アクティブラーニングのためのコスト対応ビデオデータセット FOCAL: A Cost-Aware Video Dataset for Active Learning ( http://arxiv.org/abs/2311.10591v1 ) ライセンス: Link先を確認 | Kiran Kokilepersaud, Yash-Yee Logan, Ryan Benkert, Chen Zhou, Mohit Prabhushankar, Ghassan AlRegib, Enrique Corona, Kunjan Singh, Mostafa Parchami | (参考訳) 本稿では,ビデオアクティブ学習環境におけるアノテーションコストの影響を調査するためのFOCALデータセットを提案する。
アノテーションコスト(notification-cost)とは、特定のビデオシーケンスのラベル付けと品質保証に要する時間を指す。
アクティブラーニング研究の実践的動機は、所定の予算制約内での性能を最大化する情報的サンプルを選択的にラベル付けすることで、アノテーションコストを最小化することである。
しかし、ビデオアクティブラーニングでは、コスト最小化を正確に評価するためのリアルタイムアノテーションラベルが欠如しており、アノテーションコストが注釈すべきデータ量と線形にスケールすることを前提として運用されている。
この仮定は、補助的なラベル付けツールの効果や、遮蔽物、天候、物体の動きといったシーン内の様々な相互作用など、非線形コストに寄与する様々な現実世界の結合要因を考慮に入れていない。
FOCALはこの不一致に対処するため、69のユニークな都市シーンに、さまざまな天候、照明、季節条件を含む126の動画シーケンスに対して、実際のアノテーションコストのラベルを提供する。
また、アノテーションコストと性能のトレードオフを改善するために、ビデオデータのシーケンシャルな構造を利用する共形能動学習アルゴリズムも導入し、浮動小数点演算(FLOPS)のオーバーヘッドを少なくとも77.67%削減する。
これらのアプローチは、シーケンス選択フレームワークを通じて、実際にビデオのアノテーションがどのように実行されるかをよりよく反映している。
さらに,2つの性能コスト指標を導入することで,これらの手法の利点を実証し,優れた共形型能動学習法が従来の能動学習法よりも113時間安価であることを示す。 In this paper, we introduce the FOCAL (Ford-OLIVES Collaboration on Active Learning) dataset which enables the study of the impact of annotation-cost within a video active learning setting. Annotation-cost refers to the time it takes an annotator to label and quality-assure a given video sequence. A practical motivation for active learning research is to minimize annotation-cost by selectively labeling informative samples that will maximize performance within a given budget constraint. However, previous work in video active learning lacks real-time annotation labels for accurately assessing cost minimization and instead operates under the assumption that annotation-cost scales linearly with the amount of data to annotate. This assumption does not take into account a variety of real-world confounding factors that contribute to a nonlinear cost such as the effect of an assistive labeling tool and the variety of interactions within a scene such as occluded objects, weather, and motion of objects. FOCAL addresses this discrepancy by providing real annotation-cost labels for 126 video sequences across 69 unique city scenes with a variety of weather, lighting, and seasonal conditions. We also introduce a set of conformal active learning algorithms that take advantage of the sequential structure of video data in order to achieve a better trade-off between annotation-cost and performance while also reducing floating point operations (FLOPS) overhead by at least 77.67%. We show how these approaches better reflect how annotations on videos are done in practice through a sequence selection framework. We further demonstrate the advantage of these approaches by introducing two performance-cost metrics and show that the best conformal active learning method is cheaper than the best traditional active learning method by 113 hours. | 翻訳日:2023-11-20 14:20:06 公開日:2023-11-17 |
# EduGym:強化学習教育のための環境スイート EduGym: An Environment Suite for Reinforcement Learning Education ( http://arxiv.org/abs/2311.10590v1 ) ライセンス: Link先を確認 | Thomas M. Moerland, Matthias M\"uller-Brockhausen, Zhao Yang, Andrius Bernatavicius, Koen Ponse, Tom Kouwenhoven, Andreas Sauter, Michiel van der Meer, Bram Renting, Aske Plaat | (参考訳) 強化学習の実証的な成功により、学生の数が増加している。
しかし、実践的な教育経験から、現場に入る学生(学士、修士、初期博士号)がしばしば苦労するのを見る。
一方、教科書や(オンラインの)講義は基礎を提供するが、学生は方程式とコードの翻訳が難しいと感じる。
一方、公開コードベースは実例を提供しているが、実装されたアルゴリズムは複雑になりがちであり、基礎となるテスト環境には複数の強化学習課題が同時に含まれている。
これは研究の観点からは現実的であるが、しばしば教育的な概念的理解を妨げる。
この問題を解決するために、教育強化学習環境と関連する対話型ノートブックのセットであるEduGymを紹介する。
各edugym環境は、強化学習(例えば、探索、部分的可観測性、確率性など)の特定の側面や課題を説明するために特別に設計されている。
RL学生と研究者の86%が、EduGymは強化学習教育に有用なツールだと考えている。
すべてのノートブックはhttps://sites.google.com/view/edu-gym/homeから入手できるが、完全なソフトウェアパッケージはhttps://github.com/RLG-Leiden/edugymからインストールできる。 Due to the empirical success of reinforcement learning, an increasing number of students study the subject. However, from our practical teaching experience, we see students entering the field (bachelor, master and early PhD) often struggle. On the one hand, textbooks and (online) lectures provide the fundamentals, but students find it hard to translate between equations and code. On the other hand, public codebases do provide practical examples, but the implemented algorithms tend to be complex, and the underlying test environments contain multiple reinforcement learning challenges at once. Although this is realistic from a research perspective, it often hinders educational conceptual understanding. To solve this issue we introduce EduGym, a set of educational reinforcement learning environments and associated interactive notebooks tailored for education. Each EduGym environment is specifically designed to illustrate a certain aspect/challenge of reinforcement learning (e.g., exploration, partial observability, stochasticity, etc.), while the associated interactive notebook explains the challenge and its possible solution approaches, connecting equations and code in a single document. An evaluation among RL students and researchers shows 86% of them think EduGym is a useful tool for reinforcement learning education. All notebooks are available from https://sites.google.com/view/edu-gym/home, while the full software package can be installed from https://github.com/RLG-Leiden/edugym. | 翻訳日:2023-11-20 14:19:37 公開日:2023-11-17 |
# 絡み合った電子-核波束の直接観察 Direct Observation of Entangled Electronic-Nuclear Wave Packets ( http://arxiv.org/abs/2311.10588v1 ) ライセンス: Link先を確認 | Gonenc Mogol, Brian Kaufman, Chuan Cheng, Itzik Ben-Itzhak and Thomas Weinacht | (参考訳) 我々は、オクターブを位相同期した超高速パルスで生成・探究した絡み合った電子-原子波パケットの共分散測定を行う。
多光子吸収により複数の電子状態に振動波パケットを発射し、第2位相同期パルスを用いて強電界二重イオン化によりこれらの波パケットをプローブする。
フラグメントイオンのモメンタム分解共分散マッピングでは核運動が強調され、ポンプとプローブパルスの相対位相の関数としての収率の測定では電子コヒーレンスが強調された。
組み合わせた測定により、電子と核の自由度の間の絡み合いを直接可視化し、完全な波動関数の進化に従うことができる。 We present momentum resolved covariance measurements of entangled electronic-nuclear wave packets created and probed with octave spanning phaselocked ultrafast pulses. We launch vibrational wave packets on multiple electronic states via multi-photon absorption, and probe these wave packets via strong field double ionization using a second phaselocked pulse. Momentum resolved covariance mapping of the fragment ions highlights the nuclear motion, while measurements of the yield as a function of the relative phase between pump and probe pulses highlight the electronic coherence. The combined measurements allow us to directly visualize the entanglement between the electronic and nuclear degrees of freedom and follow the evolution of the complete wavefunction. | 翻訳日:2023-11-20 14:19:12 公開日:2023-11-17 |
# 感情応答生成による誤報の対処 Countering Misinformation via Emotional Response Generation ( http://arxiv.org/abs/2311.10587v1 ) ライセンス: Link先を確認 | Daniel Russo, Shane Peter Kaszefski-Yaschuk, Jacopo Staiano, Marco Guerini | (参考訳) ソーシャルメディアプラットフォーム(SMP)における誤報の拡散は、公衆衛生、社会的結束、そして究極的には民主主義に重大な危険をもたらす。
これまでの研究で、社会的修正が誤情報の抑制に有効な方法であることが示されている。
プロのファクトチェックはバイラルな主張を広めるのに不可欠だが、ソーシャルメディア上での会話は行わない。
これにより、社会補正におけるファクトチェッカー教材の使用の自動化に多大な努力がかけられているが、ソーシャルメディア通信で一般的に使われるスタイルや実用的手法と統合しようとする試みは、これまで行われていない。
このギャップを埋めるために,我々は,smpスタイルの感情と基本感情の両方を考慮し,約1万1千のクレーム応答対(記事の削除に関連している)からなる,最初の大規模データセットであるvermouthを提案する。
このデータセットの収集には,LLMと人間アノテータを効率よく組み合わせて高品質なデータを得る,著者レビューパイプラインに基づく手法を用いた。
また、提案するデータセットでトレーニングされたモデルが、出力品質と一般化能力に関して大幅に改善されていることを示す包括的な実験も提供します。 The proliferation of misinformation on social media platforms (SMPs) poses a significant danger to public health, social cohesion and ultimately democracy. Previous research has shown how social correction can be an effective way to curb misinformation, by engaging directly in a constructive dialogue with users who spread -- often in good faith -- misleading messages. Although professional fact-checkers are crucial to debunking viral claims, they usually do not engage in conversations on social media. Thereby, significant effort has been made to automate the use of fact-checker material in social correction; however, no previous work has tried to integrate it with the style and pragmatics that are commonly employed in social media communication. To fill this gap, we present VerMouth, the first large-scale dataset comprising roughly 12 thousand claim-response pairs (linked to debunking articles), accounting for both SMP-style and basic emotions, two factors which have a significant role in misinformation credibility and spreading. To collect this dataset we used a technique based on an author-reviewer pipeline, which efficiently combines LLMs and human annotators to obtain high-quality data. We also provide comprehensive experiments showing how models trained on our proposed dataset have significant improvements in terms of output quality and generalization capabilities. | 翻訳日:2023-11-20 14:19:00 公開日:2023-11-17 |
# リアルタイム・低計算コスト応用のための社会力モデルを用いた人間の運動軌跡予測 Human motion trajectory prediction using the Social Force Model for real-time and low computational cost applications ( http://arxiv.org/abs/2311.10582v1 ) ライセンス: Link先を確認 | Oscar Gil and Alberto Sanfeliu | (参考訳) 人間の動きの軌跡予測は、人間とロボットのコラボレーション、特に付随、誘導、または接近するタスクにおいて非常に重要な機能であり、社会ロボティクス、自動運転車、セキュリティシステムにおいても重要である。
本稿では,新しい軌道予測モデルであるsofgan(social force generative adversarial network)を提案する。
SoFGANは、GAN(Generative Adversarial Network)と社会力モデル(Social Force Model, SFM)を使用して、シーン内の衝突を減らす様々な可塑性人軌道を生成する。
さらに、目標学習を強調するために、条件付き変分オートエンコーダ(CVAE)モジュールが追加される。
提案手法は,現在の最先端モデルよりも UCY や BIWI データセットの方が精度が高く,他の手法と比較して衝突を低減できることを示す。
実生活実験により,gpuを使わずにリアルタイムにモデルを用いて,低計算コストで高品質な予測を行うことを実証した。 Human motion trajectory prediction is a very important functionality for human-robot collaboration, specifically in accompanying, guiding, or approaching tasks, but also in social robotics, self-driving vehicles, or security systems. In this paper, a novel trajectory prediction model, Social Force Generative Adversarial Network (SoFGAN), is proposed. SoFGAN uses a Generative Adversarial Network (GAN) and Social Force Model (SFM) to generate different plausible people trajectories reducing collisions in a scene. Furthermore, a Conditional Variational Autoencoder (CVAE) module is added to emphasize the destination learning. We show that our method is more accurate in making predictions in UCY or BIWI datasets than most of the current state-of-the-art models and also reduces collisions in comparison to other approaches. Through real-life experiments, we demonstrate that the model can be used in real-time without GPU's to perform good quality predictions with a low computational cost. | 翻訳日:2023-11-20 14:18:38 公開日:2023-11-17 |
# 適応最適化による暗黙的最大後方フィルタリング Implicit Maximum a Posteriori Filtering via Adaptive Optimization ( http://arxiv.org/abs/2311.10580v1 ) ライセンス: Link先を確認 | Gianluca M. Bencomo, Jake C. Snell, Thomas L. Griffiths | (参考訳) ベイズフィルタは、明示的な生成モデルを反転させ、ノイズの測定結果を状態推定に変換することで、時間変動システムの真の基礎的な挙動を近似する。
このプロセスは通常、大きな行列の保存、反転、乗算、モンテカルロ推定のいずれかを必要とするが、いずれも人工ニューラルネットワークの重み空間のような高次元状態空間では実用的ではない。
ここでは,標準ベイズフィルタ問題を時間変化目標に対する最適化として構成する。
フィルタ方程式やシミュレーション粒子の行列を維持する代わりに、ベイズフィルタを暗黙的に定義する最適化器を指定する。
線型ガウシアン設定では、すべてのカルマンフィルタが勾配降下のkステップを用いて等価な定式化を持つことを示す。
非線形条件下では,本実験により,ベイズフィルタの標準ツールボックスと比較し,実効性,堅牢性,高次元システムにスケーラブルなフィルタが得られた。
我々は,オプティマイザを適切なフィルタリング方程式を特定するよりも微調整し易いことを提案し,このフレームワークを高次元フィルタリング問題に対する魅力的な選択肢とした。 Bayesian filtering approximates the true underlying behavior of a time-varying system by inverting an explicit generative model to convert noisy measurements into state estimates. This process typically requires either storage, inversion, and multiplication of large matrices or Monte Carlo estimation, neither of which are practical in high-dimensional state spaces such as the weight spaces of artificial neural networks. Here, we frame the standard Bayesian filtering problem as optimization over a time-varying objective. Instead of maintaining matrices for the filtering equations or simulating particles, we specify an optimizer that defines the Bayesian filter implicitly. In the linear-Gaussian setting, we show that every Kalman filter has an equivalent formulation using K steps of gradient descent. In the nonlinear setting, our experiments demonstrate that our framework results in filters that are effective, robust, and scalable to high-dimensional systems, comparing well against the standard toolbox of Bayesian filtering solutions. We suggest that it is easier to fine-tune an optimizer than it is to specify the correct filtering equations, making our framework an attractive option for high-dimensional filtering problems. | 翻訳日:2023-11-20 14:18:20 公開日:2023-11-17 |
# 配水システムにおける圧力推定のためのグラフニューラルネットワーク Graph Neural Networks for Pressure Estimation in Water Distribution Systems ( http://arxiv.org/abs/2311.10579v1 ) ライセンス: Link先を確認 | Huy Truong, Andr\'es Tello, Alexander Lazovik, Victoria Degeler | (参考訳) 水分配ネットワーク(WDN)における圧力と流量の推定により、水管理会社は制御操作を最適化できる。
長年にわたり、数学シミュレーションツールはWDN油圧の見積を再構築する最も一般的な手法であった。
しかし、純粋物理学に基づくシミュレーションには、部分的に観測可能なデータ、高い不確実性、広範な手動構成など、いくつかの課題がある。
このように、データ駆動アプローチはそのような制限を克服するために勢いを増している。
本研究では、物理モデルとデータ駆動型アプローチであるグラフニューラルネットワーク(GNN)を組み合わせて、圧力推定問題に対処する。
まず,数理シミュレーションを用いた新しいデータ生成手法を提案するが,時間パターンを考慮せず,従来の研究で未修正であった制御パラメータを含むことで,より多様なトレーニングデータに寄与する。
第2に、我々のトレーニング戦略は、予期しないセンサ位置変化に対して、GNNに基づく推定モデルを堅牢にするランダムなセンサー配置に依存する。
第3に、現実的な評価プロトコルは、実時間パターンを考慮し、実世界のシナリオに固有の不確実性を注入する。
最後に、マルチグラフ事前学習戦略により、未知のターゲットWDNの圧力推定のためにモデルを再利用することができる。
我々のGNNモデルでは、オランダの大規模WDNの圧力は1.94mH$_2$O、MAPEは7%と推定され、過去の研究よりも優れていた。
同様に、他のwdnベンチマークでの以前のアプローチを上回り、最善のケースでは絶対誤差が約52%削減された。 Pressure and flow estimation in Water Distribution Networks (WDN) allows water management companies to optimize their control operations. For many years, mathematical simulation tools have been the most common approach to reconstructing an estimate of the WDN hydraulics. However, pure physics-based simulations involve several challenges, e.g. partially observable data, high uncertainty, and extensive manual configuration. Thus, data-driven approaches have gained traction to overcome such limitations. In this work, we combine physics-based modeling and Graph Neural Networks (GNN), a data-driven approach, to address the pressure estimation problem. First, we propose a new data generation method using a mathematical simulation but not considering temporal patterns and including some control parameters that remain untouched in previous works; this contributes to a more diverse training data. Second, our training strategy relies on random sensor placement making our GNN-based estimation model robust to unexpected sensor location changes. Third, a realistic evaluation protocol considers real temporal patterns and additionally injects the uncertainties intrinsic to real-world scenarios. Finally, a multi-graph pre-training strategy allows the model to be reused for pressure estimation in unseen target WDNs. Our GNN-based model estimates the pressure of a large-scale WDN in The Netherlands with a MAE of 1.94mH$_2$O and a MAPE of 7%, surpassing the performance of previous studies. Likewise, it outperformed previous approaches on other WDN benchmarks, showing a reduction of absolute error up to approximately 52% in the best cases. | 翻訳日:2023-11-20 14:17:58 公開日:2023-11-17 |
# ポストプロセスヘテロダイン検出による分光レイリー限界の破れ Beating the spectroscopic Rayleigh limit via post-processed heterodyne detection ( http://arxiv.org/abs/2311.10574v1 ) ライセンス: Link先を確認 | Wiktor Krokosz, Mateusz Mazelanik, Micha{\l} Lipka, Marcin Jarzyna, Wojciech Wasilewski, Konrad Banaszek, Micha{\l} Parniak | (参考訳) 量子インスパイアされた超解像法は、イメージングにおけるレイリー限界、または分光における類似のフーリエ極限を超える。
これは、発生した光電界に含まれる情報を、工学的測定によって注意深く抽出することで達成される。
複雑な実験装置の代替として、単純なホモダイン検出とカスタマイズデータ分析を用いる方法がある。
本手法を時間周波数領域で実験的に検討し,熱および位相平均コヒーレント状態の2種類の光源の分光超解像を実証した。
実験結果は推定理論に基づく理論的予測によって裏付けられる。 Quantum-inspired superresolution methods surpass the Rayleigh limit in imaging, or the analogous Fourier limit in spectroscopy. This is achieved by carefully extracting the information carried in the emitted optical field by engineered measurements. An alternative to complex experimental setups is to use simple homodyne detection and customized data analysis. We experimentally investigate this method in the time-frequency domain and demonstrate the spectroscopic superresolution for two distinct types of light sources: thermal and phase-averaged coherent states. The experimental results are backed by theoretical predictions based on estimation theory. | 翻訳日:2023-11-20 14:17:33 公開日:2023-11-17 |
# SSB:オープンセット半教師付き学習の性能向上のためのシンプルだが強力なベースライン SSB: Simple but Strong Baseline for Boosting Performance of Open-Set Semi-Supervised Learning ( http://arxiv.org/abs/2311.10572v1 ) ライセンス: Link先を確認 | Yue Fan, Anna Kukleva, Dengxin Dai, Bernt Schiele | (参考訳) 半教師付き学習(ssl)法はラベルなしのデータを有効に活用し、モデルの一般化を改善する。
しかし、SSLモデルは、ラベル付きセットにない新しいカテゴリから外れ値を含むラベル付きデータを含むオープンセットのシナリオでは、しばしばパフォーマンスが劣る。
本稿では,不整点を正しく分類し,外れ値を検出することを目的とした,挑戦的で現実的なオープンセットSSL設定について検討する。
直感的には、インリアー分類器はインリアーデータのみに基づいてトレーニングされるべきである。
しかし,高い信頼度を持つ擬似ラベル付きデータを組み込むことで,インレーシの分類性能を大幅に改善できることがわかった。
また,非線形変換を応用して,マルチタスク学習フレームワークにおける不規則分類と異常検出に使用される特徴を分離し,両者の悪影響を防止することを提案する。
さらに, 偽陰性マイニングを導入し, 異常検出性能をさらに向上させる。
3つの要素は、オープンセットSSLのためのSimple but Strong Baseline(SSB)と呼ばれるものにつながります。
実験では、SSBは不整合分類と外乱検出性能を大幅に改善し、既存の手法よりも大きなマージンで性能を向上する。
私たちのコードはhttps://github.com/YUE-FAN/SSB.comでリリースされます。 Semi-supervised learning (SSL) methods effectively leverage unlabeled data to improve model generalization. However, SSL models often underperform in open-set scenarios, where unlabeled data contain outliers from novel categories that do not appear in the labeled set. In this paper, we study the challenging and realistic open-set SSL setting, where the goal is to both correctly classify inliers and to detect outliers. Intuitively, the inlier classifier should be trained on inlier data only. However, we find that inlier classification performance can be largely improved by incorporating high-confidence pseudo-labeled data, regardless of whether they are inliers or outliers. Also, we propose to utilize non-linear transformations to separate the features used for inlier classification and outlier detection in the multi-task learning framework, preventing adverse effects between them. Additionally, we introduce pseudo-negative mining, which further boosts outlier detection performance. The three ingredients lead to what we call Simple but Strong Baseline (SSB) for open-set SSL. In experiments, SSB greatly improves both inlier classification and outlier detection performance, outperforming existing methods by a large margin. Our code will be released at https://github.com/YUE-FAN/SSB. | 翻訳日:2023-11-20 14:17:22 公開日:2023-11-17 |
# 直アモーズド・イークリフト比の推定 Direct Amortized Likelihood Ratio Estimation ( http://arxiv.org/abs/2311.10571v1 ) ライセンス: Link先を確認 | Adam D. Cobb, Brian Matejek, Daniel Elenius, Anirban Roy, Susmit Jha | (参考訳) 本稿では,確率自由シミュレーションベース推論(sbi)のための新しい償却度比推定器を提案する。
私たちの推定器は簡単に訓練でき、神経推定器の1つの前方パスを使って推定できる。
提案手法は,2つのニューラルネットワークの出力値を比較する従来の手法とは異なる2つの競合パラメータセット間の確率比を直接計算する。
私たちはこのモデルをdirect neural ratio estimator(dnre)と呼んでいる。
DNREの導入の一環として、後部のモンテカルロ推定を導出する。
我々は,新しい比推定器をベンチマークし,文献における過去の比推定器と比較した。
我々は、新しい比推定器がこれらの従来の手法より優れていることを示す。
さらに,自由ハミルトンモンテカルロ (hmc) とランダムウォークメトロポリス・ハスティング (mh) を比較した,ラピッド比推定のための新しい微分推定器を提案する。
HMCは前例のない等しく競争力があることを示す。
最後に、ニューラル比推定器を用いてクワッドコプターを設計することにより、SBIの新たな実世界応用を含む。
コードはhttps://github.com/SRI-CSL/dnreで入手できる。 We introduce a new amortized likelihood ratio estimator for likelihood-free simulation-based inference (SBI). Our estimator is simple to train and estimates the likelihood ratio using a single forward pass of the neural estimator. Our approach directly computes the likelihood ratio between two competing parameter sets which is different from the previous approach of comparing two neural network output values. We refer to our model as the direct neural ratio estimator (DNRE). As part of introducing the DNRE, we derive a corresponding Monte Carlo estimate of the posterior. We benchmark our new ratio estimator and compare to previous ratio estimators in the literature. We show that our new ratio estimator often outperforms these previous approaches. As a further contribution, we introduce a new derivative estimator for likelihood ratio estimators that enables us to compare likelihood-free Hamiltonian Monte Carlo (HMC) with random-walk Metropolis-Hastings (MH). We show that HMC is equally competitive, which has not been previously shown. Finally, we include a novel real-world application of SBI by using our neural ratio estimator to design a quadcopter. Code is available at https://github.com/SRI-CSL/dnre. | 翻訳日:2023-11-20 14:17:01 公開日:2023-11-17 |
# 空間分解能3次元イメージングのための位相誘導光場 Phase Guided Light Field for Spatial-Depth High Resolution 3D Imaging ( http://arxiv.org/abs/2311.10568v1 ) ライセンス: Link先を確認 | Geyou Zhang, Ce Zhu, Kai Liu, Yipeng Liu | (参考訳) 3Dイメージングでは、通常は単発で撮影されるが、空間分解能の低下と深度精度の低下に悩まされている。
本稿では,光プロジェクタを用いて単一高周波位相シフト正弦波パターンを投影することにより,オフザシェルフ光場カメラの空間分解能と深度の両方を著しく向上させる位相誘導光場アルゴリズムを提案する。
まず,光電界カメラのメインレンズによる軸収差を補正するために,構造化光電界系を校正するための変形円錐モデルを提案する。
第2に,パターン画像から計算された包み込み位相について,各近傍の2つのレンズレットの対応をロバストに得るために,絶対差の位相誘導和というステレオマッチングアルゴリズムを提案する。
最後に,光電界イメージングの基本幾何光学系に基づく仮想カメラを導入することで,空間分解能の高い3次元点雲を再構成するための再構成戦略を提案する。
実験結果から, 現状の能動電界法と比較して, 空間分解能が1280$\times$720, 係数が10$\times$720の3次元点群を再構成し, 同一の深度分解能を維持し, 高周波パターンの単一グループのみを必要とすることがわかった。 On 3D imaging, light field cameras typically are of single shot, and however, they heavily suffer from low spatial resolution and depth accuracy. In this paper, by employing an optical projector to project a group of single high-frequency phase-shifted sinusoid patterns, we propose a phase guided light field algorithm to significantly improve both the spatial and depth resolutions for off-the-shelf light field cameras. First, for correcting the axial aberrations caused by the main lens of our light field camera, we propose a deformed cone model to calibrate our structured light field system. Second, over wrapped phases computed from patterned images, we propose a stereo matching algorithm, i.e. phase guided sum of absolute difference, to robustly obtain the correspondence for each pair of neighbored two lenslets. Finally, by introducing a virtual camera according to the basic geometrical optics of light field imaging, we propose a reorganization strategy to reconstruct 3D point clouds with spatial-depth high resolution. Experimental results show that, compared with the state-of-the-art active light field methods, the proposed reconstructs 3D point clouds with a spatial resolution of 1280$\times$720 with factors 10$\times$ increased, while maintaining the same high depth resolution and needing merely a single group of high-frequency patterns. | 翻訳日:2023-11-20 14:16:46 公開日:2023-11-17 |
# 熱電場二重のハミルトン鍛造 Hamiltonian Forging of a Thermofield Double ( http://arxiv.org/abs/2311.10566v1 ) ライセンス: Link先を確認 | Daniel Fa\'ilde, Juan Santos-Su\'arez, David A. Herrera-Mart\'i and Javier Mas | (参考訳) 我々は、ギブス状態の変分準備を、2重ヒルベルト空間上で作用する適当なエンジニアリングされたハミルトンの基底状態として扱う。
この構成は二次フェルミオンハミルトニアンに対して正確であり、かなり高いクォート変形まで優れた近似を与える。
我々は、一元対角化演算子を最適化して全スペクトルにアクセスできる変分回路を提案する。
この問題は自然にアンサッツ鍛造の絡み合いを実装し、競合フレームワークよりも多くの量子ビットを持つ熱場ダブルの計算を可能にする。 We address the variational preparation of Gibbs states as the ground state of a suitably engineered Hamiltonian acting on the doubled Hilbert space. The construction is exact for quadratic fermionic Hamiltonians and gives excellent approximations up to fairly high quartic deformations. We provide a variational circuit whose optimization returns the unitary diagonalizing operator, thus giving access to the whole spectrum. The problem naturally implements the entanglement forging ansatz, allowing the computation of Thermofield Doubles with a higher number of qubits than in competing frameworks. | 翻訳日:2023-11-20 14:16:19 公開日:2023-11-17 |
# ランダムな純ガウス状態とホーキング放射 Random pure Gaussian states and Hawking radiation ( http://arxiv.org/abs/2311.10562v1 ) ライセンス: Link先を確認 | Erik Aurell, Lucas Hackl, Pawe{\l} Horodecki, Robert H. Jonsson, Mario Kieburg | (参考訳) ブラックホールはホーキング放射によって蒸発する。
その放射のそれぞれのモードは熱的です。
全体状態が純粋である場合、モードは絡み合わなければならない。
この絡み合いの最小サイズを推定することは重要な問題である。
我々は、制約付きランダムシンプレクティック変換の新しい理論を開発し、全体状態は純粋、ガウス的、ランダムであり、ホーキング理論のように全てのモード熱である。
この理論からモード-モード相関の分布を計算し、モード-モードの絡み合いを拘束する。
その結果,人口密度の薄いモード(早期の高周波モードといかなる周波数の遅延モード)との相関は強く抑制されていることがわかった。
このようなモードは非常に弱い絡み合いである。
一方、人口密度の高いモード(早期の低周波モード)は強い相関性を持つが、詳細な分析によりそれらは弱く絡み合っていることが明らかとなった。
したがって、ブラックホールの完全な蒸発後の回復ユニタリティーは、任意の対のホーキングモード間の強い量子絡み合いを必要としない。
我々の分析は、ブラックホール物理学を超えて応用できるような、与えられた限界を持つランダムで純粋なガウス状態におけるモードモード相関の分布に関する正確な一般表現を与える。 A black hole evaporates by Hawking radiation. Each mode of that radiation is thermal. If the total state is nevertheless to be pure, modes must be entangled. Estimating the minimum size of this entanglement has been an important outstanding issue. We develop a new theory of constrained random symplectic transformations, based on that the total state is pure, Gaussian and random, and every mode thermal as in Hawking theory. From this theory we compute the distribution of mode-mode correlations, from which we bound mode-mode entanglement. We find that correlations between thinly populated modes (early-time high-frequency modes and/or late modes of any frequency) are strongly suppressed. Such modes are hence very weakly entangled. Highly populated modes (early-time low-frequency modes) can on the other hand be strongly correlated, but a detailed analysis reveals that they are nevertheless also weakly entangled. Our analysis hence establishes that restoring unitarity after a complete evaporation of a black hole does not require strong quantum entanglement between any pair of Hawking modes. Our analysis further gives exact general expressions for the distribution of mode-mode correlations in random, pure, Gaussian states with given marginals, which may have applications beyond black hole physics. | 翻訳日:2023-11-20 14:16:10 公開日:2023-11-17 |
# 量子ステアリング法の解析 Analysis of Quantum Steering Measures ( http://arxiv.org/abs/2311.10552v1 ) ライセンス: Link先を確認 | L. Maquedano, A. C. S. Costa | (参考訳) 量子ステアリングの効果は、局所的な測定を通して、ある距離で起こりうる作用を記述する。
ここ数年、量子システムにおけるこの種の相関を検出するためのいくつかの基準が提案されている。
しかしながら、あるシステムのステアビリティの程度を測定するために、いくつかのアプローチが提示されている。
本研究では,量子ステアリングの定量化の可能性について検討し,文献に示される異なる基準に基づいて解析を行った。 The effect of quantum steering describes a possible action at a distance via local measurements. In the last few years, several criteria have been proposed in to detect this type of correlation in quantum systems. However, there are a few approaches presented in order to measure the degree of steerability of a given system. In this work, we are interested in investigating possible ways to quantify quantum steering, where we based our analysis on different criteria presented in the literature. | 翻訳日:2023-11-20 14:15:49 公開日:2023-11-17 |
# qkdエンティティソース認証:ポスト量子暗号のためのディフェンス・イン・ディフェンス QKD Entity Source Authentication: Defense-in-Depth for Post Quantum Cryptography ( http://arxiv.org/abs/2311.10636v1 ) ライセンス: Link先を確認 | John J. Prisco | (参考訳) 量子鍵分布(QKD)は1984年12月にチャールズ・ベネットとジル・ブラザードによって考案された。
その後39年間のQKDシステムは、地球と衛星通信のためのセキュアな暗号化を提供するために世界中に展開されてきた。
2016年、National Institute of Standards and Technology(NIST)は、現在の暗号化標準を置き換えるために、一連の量子耐性アルゴリズムを標準化し、将来の量子コンピュータが公開鍵暗号を破ることを防ぐプログラムを開始した。
このプログラムはpost quantum cryptographyまたはpqcとして知られている。
サイバーセキュリティの要点の1つは、ディフェンス・イン・ディープスとして知られる複数の保護を同時に提供するアプローチを使用することである。
このアプローチは単一障害点の回避を目指している。
本研究の目的は,ハイブリッドQKD/PQC防衛戦略の適合性を検討することである。
本論文の焦点は、中間者攻撃に対する防御に必要な初期QKDハードウェア認証(entity source authentication)の有効性を検討することである。 Quantum key distribution (QKD) was conceived by Charles Bennett and Gilles Brassard in December of 1984. In the ensuing 39 years QKD systems have been deployed around the world to provide secure encryption for terrestrial as well as satellite communication. In 2016 the National Institute of Standards and Technology (NIST) began a program to standardize a series of quantum resistant algorithms to replace our current encryption standards thereby protecting against future quantum computers breaking public key cryptography. This program is known as post quantum cryptography or PQC. One of the tenets of cybersecurity is to use an approach that simultaneously provides multiple protections known as defense-in-depth. This approach seeks to avoid single points of failure. The goal of this paper is to examine the suitability of a hybrid QKD / PQC defense-in-depth strategy. A focus of the paper will be to examine the sufficiency of initial QKD hardware authentication (entity source authentication) which is necessary to guard against man-in-the-middle attacks. | 翻訳日:2023-11-20 14:08:59 公開日:2023-11-17 |
# 知識マイニングとダイジェストによるドメイン固有チャットボット訓練のための自己強化アプローチ A Self-enhancement Approach for Domain-specific Chatbot Training via Knowledge Mining and Digest ( http://arxiv.org/abs/2311.10614v1 ) ライセンス: Link先を確認 | Ruohong Zhang, Luyu Gao, Chen Zheng, Zhen Fan, Guokun Lai, Zheng Zhang, Fangzhou Ai, Yiming Yang, Hongxia Yang | (参考訳) 大きな言語モデル(LLM)は、言語生成に大きな力を持っているにもかかわらず、特定のドメインで複雑な知識要求クエリを扱う場合、しばしば困難に直面する。
本稿では、ドメイン固有のテキストソースから関連知識を効果的に抽出し、LLMを強化するための新しいアプローチと、ドメイン固有の問い合わせによるチャットボットの適応的なトレーニングを提案する。
私たちの2段階のアプローチは、知識マイナー、すなわちLLMinerのトレーニングから始まります。
次に、抽出したQAペアを会話データセットと組み合わせて、LLMをチャットボットとして微調整し、ドメイン固有の専門知識と会話能力を高める。
また、4つのドメイン固有のテキストコーパスと、関連する人造QAペアからなる新しい評価ベンチマークを開発した。
本モデルでは,一般のLLMよりも顕著な性能向上を示し,ドメイン適応型モデルをドメインコーパスに直接微調整する。
特にLLMinerは、最小限の介入でこれを達成し、600のシードインスタンスしか必要とせず、モデル合成トレーニングデータを通じてLLMを自己改善するための経路を提供する。 Large Language Models (LLMs), despite their great power in language generation, often encounter challenges when dealing with intricate and knowledge-demanding queries in specific domains. This paper introduces a novel approach to enhance LLMs by effectively extracting the relevant knowledge from domain-specific textual sources, and the adaptive training of a chatbot with domain-specific inquiries. Our two-step approach starts from training a knowledge miner, namely LLMiner, which autonomously extracts Question-Answer pairs from relevant documents through a chain-of-thought reasoning process. Subsequently, we blend the mined QA pairs with a conversational dataset to fine-tune the LLM as a chatbot, thereby enriching its domain-specific expertise and conversational capabilities. We also developed a new evaluation benchmark which comprises four domain-specific text corpora and associated human-crafted QA pairs for testing. Our model shows remarkable performance improvement over generally aligned LLM and surpasses domain-adapted models directly fine-tuned on domain corpus. In particular, LLMiner achieves this with minimal human intervention, requiring only 600 seed instances, thereby providing a pathway towards self-improvement of LLMs through model-synthesized training data. | 翻訳日:2023-11-20 14:08:41 公開日:2023-11-17 |
# 雑音光素子を用いたフォトニックデバイスシミュレーション Simulating photonic devices with noisy optical elements ( http://arxiv.org/abs/2311.10613v1 ) ライセンス: Link先を確認 | Michele Vischi, Giovanni Di Bartolomeo, Massimiliano Proietti, Seid Koudia, Filippo Cerocchi, Massimiliano Dispenza and Angelo Bassi | (参考訳) 量子コンピュータは本質的にノイズによって影響を受ける。
長期的な誤り訂正符号では、物理的な量子ビットを増やすコストでノイズが考慮されるが、近い将来、あらゆる量子アルゴリズムの性能をテストし、ノイズの存在下でシミュレートする必要がある。
ノイズがハードウェアに作用するので、量子アルゴリズムの古典的なシミュレーションは、計算に使用するプラットフォームに依存すべきではない。
本研究では,最近提案するノイズゲート法を適用し,デュアルレール方式で記述されたノイズ光回路を効率的にシミュレートする。
状態ベクトルの進化は、密度行列フレームワークへのマッピングを必要とせずに直接シミュレートされる。
特に,ゲートベースと測定ベースの両方の量子コンピューティングモデルで本手法を検証したところ,アプローチは非常に汎用性が高いことがわかった。
また,max-2カット問題を解くために,フォトニック変分量子アルゴリズムの性能を評価する。
特に、最大$p \sim 10^{-3}$の光子損失に対して弾力性のあるアンサッツを設計し、シミュレートします。 Quantum computers are inherently affected by noise. While in the long-term error correction codes will account for noise at the cost of increasing physical qubits, in the near-term the performance of any quantum algorithm should be tested and simulated in the presence of noise. As noise acts on the hardware, the classical simulation of a quantum algorithm should not be agnostic on the platform used for the computation. In this work, we apply the recently proposed noisy gates approach to efficiently simulate noisy optical circuits described in the dual rail framework. The evolution of the state vector is simulated directly, without requiring the mapping to the density matrix framework. Notably, we test the method on both the gate-based and measurement-based quantum computing models, showing that the approach is very versatile. We also evaluate the performance of a photonic variational quantum algorithm to solve the MAX-2-CUT problem. In particular we design and simulate an ansatz which is resilient to photon losses up to $p \sim 10^{-3}$ making it relevant for near term applications. | 翻訳日:2023-11-20 14:08:20 公開日:2023-11-17 |
# poincar\e不等式と大規模グラフ上の信号サンプリング結果の一貫性 A Poincar\'e Inequality and Consistency Results for Signal Sampling on Large Graphs ( http://arxiv.org/abs/2311.10610v1 ) ライセンス: Link先を確認 | Thien Le, Luana Ruiz, Stefanie Jegelka | (参考訳) 大規模グラフ機械学習は、学習モデルの複雑さがグラフサイズとともにスケールするため、難しい。
グラフのサブサンプリングは有効な選択肢だが、グラフがユークリッドではないため、グラフでのサンプリングは自明ではない。
既存のグラフサンプリング技術では、大きな行列のスペクトルを計算するだけでなく、グラフが大きくなるとこれらの計算を繰り返す必要がある。
本稿では,グラフ制限の一種であるグラフオンに対する信号サンプリング理論を提案する。
この不等式を満たすノード部分集合の補集合は、グラフェン信号のペイリー・ウィーナー空間に対する一意なサンプリング集合であることを示す。
スペクトルクラスタリングとガウス除去との接続を利用して,収束グラフ列上の一意なサンプリング集合がグラフオン上の一意なサンプリング集合に収束するという意味で,そのようなサンプリング集合が一貫性があることを証明した。
そこで我々は,大規模グラフに対する関連するグラフ信号サンプリングアルゴリズムを提案し,グラフ機械学習タスクにおいて,その優れた経験的性能を示す。 Large-scale graph machine learning is challenging as the complexity of learning models scales with the graph size. Subsampling the graph is a viable alternative, but sampling on graphs is nontrivial as graphs are non-Euclidean. Existing graph sampling techniques require not only computing the spectra of large matrices but also repeating these computations when the graph changes, e.g., grows. In this paper, we introduce a signal sampling theory for a type of graph limit -- the graphon. We prove a Poincar\'e inequality for graphon signals and show that complements of node subsets satisfying this inequality are unique sampling sets for Paley-Wiener spaces of graphon signals. Exploiting connections with spectral clustering and Gaussian elimination, we prove that such sampling sets are consistent in the sense that unique sampling sets on a convergent graph sequence converge to unique sampling sets on the graphon. We then propose a related graphon signal sampling algorithm for large graphs, and demonstrate its good empirical performance on graph machine learning tasks. | 翻訳日:2023-11-20 14:08:03 公開日:2023-11-17 |
# scale tabpfn: 表型事前データ対応ネットワークのためのスケッチと特徴選択 Scaling TabPFN: Sketching and Feature Selection for Tabular Prior-Data Fitted Networks ( http://arxiv.org/abs/2311.10609v1 ) ライセンス: Link先を確認 | Benjamin Feuer, Chinmay Hegde, Niv Cohen | (参考訳) タブラル分類は伝統的に教師付きアルゴリズムに依存しており、トレーニングデータを用いて予測モデルのパラメータを推定する。
最近、TabPFNのようなPFN(Preside-Data Fitted Networks)は、表形式のデータをコンテキスト内で分類することに成功した:モデルパラメータは、モデルトレーニング後に与えられたラベル付きトレーニングサンプルに基づいて、新しいサンプルを分類するように設計されている。
このようなモデルは非常に有望であるが、実際のデータへの適用性は計算規模によって制限されている。
表形式のデータに対して事前訓練されたPFNを与えられた場合、モデルに入力する前にラベル付きトレーニングサンプルをまとめるのに最適な方法は何か?
本研究では,TabPFNのスケッチ作成手法と特徴選択手法を最初に検討し,従来の表形式モデルとの大きな違いに注意する。 Tabular classification has traditionally relied on supervised algorithms, which estimate the parameters of a prediction model using its training data. Recently, Prior-Data Fitted Networks (PFNs) such as TabPFN have successfully learned to classify tabular data in-context: the model parameters are designed to classify new samples based on labelled training samples given after the model training. While such models show great promise, their applicability to real-world data remains limited due to the computational scale needed. Here we study the following question: given a pre-trained PFN for tabular data, what is the best way to summarize the labelled training samples before feeding them to the model? We conduct an initial investigation of sketching and feature-selection methods for TabPFN, and note certain key differences between it and conventionally fitted tabular models. | 翻訳日:2023-11-20 14:07:44 公開日:2023-11-17 |
# エッジ上でのアクティブ推論:デザイン研究 Active Inference on the Edge: A Design Study ( http://arxiv.org/abs/2311.10607v1 ) ライセンス: Link先を確認 | Boris Sedlak, Victor Casamayor Pujol, Praveen Kumar Donta, Schahram Dustdar | (参考訳) 機械学習(ML)は、デバイス間のタスク分散を最適化するために、分散コンピューティングシステムの振る舞いを解釈し、予測する一般的なツールである。
モノのインターネット(IoT)デバイスによってますます多くのデータが作成され、エッジデバイスが近接してデータ処理とMLトレーニングが行われるようになる。
これらのオペレーションを通してQuality of Service(QoS)を確実にするために、システムはMLの助けを借りて監督され、動的に適応される。
しかし、MLモデルの再トレーニングがなければ、変数分布の段階的なシフトを捉えることができず、システムの状態が不正確なものになる。
さらに、予測精度が低下するにつれて、報告装置は不確実性を積極的に解決し、モデルの精度を向上させる。
このような自己決定レベルは、脳が感覚情報を常に予測し評価し、長期的サプライズを減少させるという神経科学の考え方であるactive inference(aci)によって提供することができる。
我々は、これらの概念を単一のアクション認識サイクルに包含し、スマート製造ユースケースにおける分散エージェントのために実装した。
その結果,我々のACIエージェントがQoS要求を満たすことなく,最適化問題を迅速かつ追跡的に解決できることを示した。 Machine Learning (ML) is a common tool to interpret and predict the behavior of distributed computing systems, e.g., to optimize the task distribution between devices. As more and more data is created by Internet of Things (IoT) devices, data processing and ML training are carried out by edge devices in close proximity. To ensure Quality of Service (QoS) throughout these operations, systems are supervised and dynamically adapted with the help of ML. However, as long as ML models are not retrained, they fail to capture gradual shifts in the variable distribution, leading to an inaccurate view of the system state. Moreover, as the prediction accuracy decreases, the reporting device should actively resolve uncertainties to improve the model's precision. Such a level of self-determination could be provided by Active Inference (ACI) -- a concept from neuroscience that describes how the brain constantly predicts and evaluates sensory information to decrease long-term surprise. We encompassed these concepts in a single action-perception cycle, which we implemented for distributed agents in a smart manufacturing use case. As a result, we showed how our ACI agent was able to quickly and traceably solve an optimization problem while fulfilling QoS requirements. | 翻訳日:2023-11-20 14:07:29 公開日:2023-11-17 |
# CA-Jaccard: 人物識別のためのカメラ対応ジャカード距離 CA-Jaccard: Camera-aware Jaccard Distance for Person Re-identification ( http://arxiv.org/abs/2311.10605v1 ) ライセンス: Link先を確認 | Yiyu Chen, Zheyi Fan, Zhaoru Chen, Yixuan Zhu | (参考訳) 個人再識別(re-ID)は,個人検索における識別的特徴の学習を目的とした課題である。
ペルソナリidでは、jaccard距離は、特に再ランキングやクラスタリングシナリオにおいて、広く使用される距離メトリックである。
しかし,カメラの変動がジャカード距離の信頼性に悪影響を及ぼすことが判明した。
特にジャカード距離は、関連する隣人の重なりに基づいて距離を計算する。
カメラの変動により、カメラ内サンプルが隣人を支配し、カメラ内陰性サンプルを導入し、カメラ間陽性サンプルを除外することにより、隣人の信頼性を低下させる。
そこで本研究では,ジャカード距離の信頼性を高めるために,カメラ情報を利用した新しいカメラアウェアジャカード距離を提案する。
具体的には,カメラ間およびカメラ間ランキングリスト上でk対応近傍を見つけるために,カメラ対応k対応近接近傍 (ckrnn) を導入する。
さらに,カメラ対応ローカルクエリ拡張(CLQE)を提案し,カメラの変動を強い制約として利用し,近隣地域の信頼性の高いサンプルを抽出し,重み付けを行い,信頼性を向上させる。
我々のCA-Jaccard距離は単純だが有効であり、信頼性が高く計算コストの低い人物再ID手法の一般的な距離測定基準として機能する。
広範な実験により本手法の有効性が実証された。 Person re-identification (re-ID) is a challenging task that aims to learn discriminative features for person retrieval. In person re-ID, Jaccard distance is a widely used distance metric, especially in re-ranking and clustering scenarios. However, we discover that camera variation has a significant negative impact on the reliability of Jaccard distance. In particular, Jaccard distance calculates the distance based on the overlap of relevant neighbors. Due to camera variation, intra-camera samples dominate the relevant neighbors, which reduces the reliability of the neighbors by introducing intra-camera negative samples and excluding inter-camera positive samples. To overcome this problem, we propose a novel camera-aware Jaccard (CA-Jaccard) distance that leverages camera information to enhance the reliability of Jaccard distance. Specifically, we introduce camera-aware k-reciprocal nearest neighbors (CKRNNs) to find k-reciprocal nearest neighbors on the intra-camera and inter-camera ranking lists, which improves the reliability of relevant neighbors and guarantees the contribution of inter-camera samples in the overlap. Moreover, we propose a camera-aware local query expansion (CLQE) to exploit camera variation as a strong constraint to mine reliable samples in relevant neighbors and assign these samples higher weights in overlap to further improve the reliability. Our CA-Jaccard distance is simple yet effective and can serve as a general distance metric for person re-ID methods with high reliability and low computational cost. Extensive experiments demonstrate the effectiveness of our method. | 翻訳日:2023-11-20 14:07:09 公開日:2023-11-17 |
# クラウドソース無線マップを用いたマルチモーダル屋内定位 Multimodal Indoor Localization Using Crowdsourced Radio Maps ( http://arxiv.org/abs/2311.10601v1 ) ライセンス: Link先を確認 | Zhaoguang Yi, Xiangyu Wen, Qiyue Xia, Peize Li, Francisco Zampella, Firas Alsehly, Chris Xiaoxuan Lu | (参考訳) 屋内測位システム(IPS)は伝統的にWiFiのようなオドメトリーや建築インフラに依存しており、精度を高めるためにフロアプランを構築することで補うことが多い。
しかし、更新の可用性とタイムラインの観点からのフロアプランの制限は、幅広い適用可能性に挑戦している。
対照的に、スマートフォンやWiFi対応ロボットの普及により、クラウドソーシングされた無線マップ – データベースが対応する受信信号強度(RSS)とペアリングする場所 – がますますアクセスしやすくなっている。
これらの無線地図はWiFiの指紋位置のペアを提供するだけでなく、フロアプランが課す制約に類似した運動規則を符号化する。
本研究は,マルチモーダルIPSにおけるフロアプランの代替として,これらの無線地図を活用する可能性を検討する。
我々は,無線地図の不正確さとスパースカバレッジの課題に対処する新しい枠組みを導入する。
提案システムは、WiFiローカライゼーションのための不確実性を考慮したニューラルネットワークモデルと、最適な核融合のためのベージアン融合技術を統合する。
複数の実世界のサイトにおける広範囲な評価は、パフォーマンスが大幅に向上し、結果が最高のベースラインに対して約25%改善していることを示している。 Indoor Positioning Systems (IPS) traditionally rely on odometry and building infrastructures like WiFi, often supplemented by building floor plans for increased accuracy. However, the limitation of floor plans in terms of availability and timeliness of updates challenges their wide applicability. In contrast, the proliferation of smartphones and WiFi-enabled robots has made crowdsourced radio maps - databases pairing locations with their corresponding Received Signal Strengths (RSS) - increasingly accessible. These radio maps not only provide WiFi fingerprint-location pairs but encode movement regularities akin to the constraints imposed by floor plans. This work investigates the possibility of leveraging these radio maps as a substitute for floor plans in multimodal IPS. We introduce a new framework to address the challenges of radio map inaccuracies and sparse coverage. Our proposed system integrates an uncertainty-aware neural network model for WiFi localization and a bespoken Bayesian fusion technique for optimal fusion. Extensive evaluations on multiple real-world sites indicate a significant performance enhancement, with results showing ~ 25% improvement over the best baseline | 翻訳日:2023-11-20 14:06:43 公開日:2023-11-17 |
# ウォルシュパルスシーケンスによるスピン系におけるロバスト普遍量子プロセッサ Robust universal quantum processors in spin systems via Walsh pulse sequences ( http://arxiv.org/abs/2311.10600v1 ) ライセンス: Link先を確認 | Matteo Votto, Johannes Zeiher, Beno\^it Vermersch | (参考訳) 長距離相互作用を持つスピン系における量子シミュレーションと計算を実現するプロトコルを提案する。
我々のアプローチは、ウォルシュ関数によってパラメトリケートされた外部場を持つ単一スピンの局所アドレッシングに依存する。
これにより、相互作用のグラフ構造によって定義される対象ハミルトニアンのクラスからパルスシーケンスへのマッピングが可能になる。
次に、任意の2体ハミルトンおよび普遍量子回路を実装するためのレシピを得る。
性能保証は、トロッター誤差とパルスの総数、実験の不完全性に対するロバスト性の観点から提供される。
我々は、スピンモデルの力学、量子誤差補正、量子最適化アルゴリズムの例を用いて、プロトコルを実証し、数値的にベンチマークする。 We propose a protocol to realize quantum simulation and computation in spin systems with long-range interactions. Our approach relies on the local addressing of single spins with external fields parametrized by Walsh functions. This enables a mapping from a class of target Hamiltonians, defined by the graph structure of their interactions, to pulse sequences. We then obtain a recipe to implement arbitrary two-body Hamiltonians and universal quantum circuits. Performance guarantees are provided in terms of bounds on Trotter errors and total number of pulses, and robustness to experimental imperfections. We demonstrate and numerically benchmark our protocol with examples from the dynamical of spin models, quantum error correction and quantum optimization algorithms. | 翻訳日:2023-11-20 14:06:24 公開日:2023-11-17 |
# ソーシャル・コンパニオンとしてのチャットボット : 機械の意識、人間の類似性、社会的健康的利益をどう知覚するか Chatbots as social companions: How people perceive consciousness, human likeness, and social health benefits in machines ( http://arxiv.org/abs/2311.10599v1 ) ライセンス: Link先を確認 | Rose Guingrich, Michael S. A. Graziano | (参考訳) 人工知能(AI)が普及するにつれ、人間とAIの相互作用が人間とAIの相互作用にどのように影響するかという問題が発生する。
例えばチャットボットは、社会的なコンパニオンとしての利用が増えているが、その使用が人間関係に与える影響についてはほとんど分かっていない。
一般的な仮説は、これらの仲間のボットは人間の相互作用を傷つけたり置き換えたりすることで社会の健康に有害であるということである。
共用ボットが社会の健康に与える影響を理解するために,共用ボットを使用した人々と非使用者を調査した。
期待に反して、コンパニオンボットのユーザーは、これらの関係は社会的健康にとって有益であることを示した。
もう一つの一般的な仮定は、人は意識的、人間らしいAIを乱暴で脅かすものとして知覚する。
コンパニオンボットを意識的かつ人間らしく認識することは、よりポジティブな意見とより優れた社会的健康上の利益と相関したのです。
人間のようなボットは、人間関係を傷つけることなく、信頼できる安全な相互作用を提供することで、社会的健康を助けることができる。 As artificial intelligence (AI) becomes more widespread, one question that arises is how human-AI interaction might impact human-human interaction. Chatbots, for example, are increasingly used as social companions, but little is known about how their use impacts human relationships. A common hypothesis is that these companion bots are detrimental to social health by harming or replacing human interaction. To understand how companion bots impact social health, we studied people who used companion bots and people who did not. Contrary to expectations, companion bot users indicated that these relationships were beneficial to their social health, whereas nonusers viewed them as harmful. Another common assumption is that people perceive conscious, humanlike AI as disturbing and threatening. Among both users and nonusers, however, we found the opposite: perceiving companion bots as more conscious and humanlike correlated with more positive opinions and better social health benefits. Humanlike bots may aid social health by supplying reliable and safe interactions, without necessarily harming human relationships. | 翻訳日:2023-11-20 14:06:06 公開日:2023-11-17 |
# パルス形状分光法による分子波パケットの長寿命電子コヒーレンス Long Lived Electronic Coherences in Molecular Wave Packets Probed with Pulse Shape Spectroscopy ( http://arxiv.org/abs/2311.10598v1 ) ライセンス: Link先を確認 | Brian Kaufman, Philipp Marquetand, Tamas Rozgonyi and Thomas Weinacht | (参考訳) 我々は,超高速レーザーパルスを用いた分子の長寿命電子コヒーレンスを探索し,核・電子パケットの絡み合いを観測する。
特定の条件下では、多くの自由度に沿って振動運動にもかかわらず、電子位相はよく定義されている。
実験は、測定の解釈と相関する電子構造計算の助けを借りて解釈される。 We explore long lived electronic coherences in molecules using shaped ultrafast laser pulses to launch and probe entangled nuclear-electronic wave packets. We find that under certain conditions, the electronic phase remains well defined despite vibrational motion along many degrees of freedom. The experiments are interpreted with the help of electronic structure calculations which corroborate our interpretation of the measurements | 翻訳日:2023-11-20 14:05:30 公開日:2023-11-17 |
# マルコフブランケットを用いた再構成可能なインテリジェントシステムの設計 Designing Reconfigurable Intelligent Systems with Markov Blankets ( http://arxiv.org/abs/2311.10597v1 ) ライセンス: Link先を確認 | Boris Sedlak, Victor Casamayor Pujol, Praveen Kumar Donta, Schahram Dustdar | (参考訳) Compute Continuum (CC) システムは、計算層に分散した多数のデバイスで構成されている。
ビジネス要件、すなわちサービスレベルオブジェクト(SLO)を評価するには、すべてのデバイスからデータを収集する必要がある。
中央で実行すれば、考慮すべきデバイスや変数の数を大幅に増加させ、巨大な通信オーバーヘッドを生み出します。
これを解決するために,(1)マルコフ毛布(MB)に基づく因果性フィルタを導入し,各デバイスが追跡しなければならない変数数を制限するとともに,(2)デバイスベースで分散化されたSLOを評価し,(3)SLOを実現するための最適なデバイス構成を推定する。
提案手法は,ビデオストリーム変換を分析し,qos(quality of service)を保証するデバイス構成を提供することで評価した。
このようにしてデバイスは環境を認識し、それに従って行動した。 Compute Continuum (CC) systems comprise a vast number of devices distributed over computational tiers. Evaluating business requirements, i.e., Service Level Objectives (SLOs), requires collecting data from all those devices; if SLOs are violated, devices must be reconfigured to ensure correct operation. If done centrally, this dramatically increases the number of devices and variables that must be considered, while creating an enormous communication overhead. To address this, we (1) introduce a causality filter based on Markov blankets (MB) that limits the number of variables that each device must track, (2) evaluate SLOs decentralized on a device basis, and (3) infer optimal device configuration for fulfilling SLOs. We evaluated our methodology by analyzing video stream transformations and providing device configurations that ensure the Quality of Service (QoS). The devices thus perceived their environment and acted accordingly -- a form of decentralized intelligence. | 翻訳日:2023-11-20 14:05:18 公開日:2023-11-17 |
# Twitterで不健康な会話を予測 Hashing it Out: Predicting Unhealthy Conversations on Twitter ( http://arxiv.org/abs/2311.10596v1 ) ライセンス: Link先を確認 | Steven Leung, Filippos Papapolyzos | (参考訳) ソーシャルメディアの会話の文脈における個人攻撃は、しばしば急速に脱線し、さらに有害な交換が行われる。
このような会話脱線検出のための最先端システムは、予測目的のディープラーニングアプローチを利用することが多い。
本稿では,大きなtwitterコーパス上で事前学習し,タスクを微調整した注意に基づくbertアーキテクチャが,その予測に効率的かつ効果的であることを示す。
このモデルは、ベースラインとして使用する既存のlstmモデルに対して、パフォーマンスの明確な利点を示しています。
さらに、比較的小さな新しいデータセットを微調整することで、特に合成オーバーサンプリング技術によるオーバーフィッティングの問題を軽減することで、この素晴らしいパフォーマンスが得られることを示す。
Twitter上で会話イベントを予測するための最初のトランスフォーマーベースのモデルを導入することで、この研究は、最もユビキタスなソーシャルメディアプラットフォーム上での対話を改善するための実用的なツールの基礎を築いた。 Personal attacks in the context of social media conversations often lead to fast-paced derailment, leading to even more harmful exchanges being made. State-of-the-art systems for the detection of such conversational derailment often make use of deep learning approaches for prediction purposes. In this paper, we show that an Attention-based BERT architecture, pre-trained on a large Twitter corpus and fine-tuned on our task, is efficient and effective in making such predictions. This model shows clear advantages in performance to the existing LSTM model we use as a baseline. Additionally, we show that this impressive performance can be attained through fine-tuning on a relatively small, novel dataset, particularly after mitigating overfitting issues through synthetic oversampling techniques. By introducing the first transformer based model for forecasting conversational events on Twitter, this work lays the foundation for a practical tool to encourage better interactions on one of the most ubiquitous social media platforms. | 翻訳日:2023-11-20 14:04:51 公開日:2023-11-17 |
# プロシューマーコミュニティにおけるエネルギー最適化のための量子コンピューティング性能の評価 Assessing Quantum Computing Performance for Energy Optimization in a Prosumer Community ( http://arxiv.org/abs/2311.10594v1 ) ライセンス: Link先を確認 | Carlo Mastroianni, Francesco Plastina, Luigi Scarcello, Jacopo Settino, Andrea Vinci | (参考訳) エネルギーコミュニティの効率的な管理は、コスト削減とエネルギー廃棄物の削減を目的として、利用者のニーズ、電力価格、地域再生可能エネルギーの可用性に基づいて家計の負荷をスケジューリングするという「消費問題」の解決策に依存している。
量子コンピュータは、量子演算の本質的な並列性のおかげで、この問題を扱う上で大きなブレークスルーを与えることができる。
最も有望なアプローチは、量子計算が古典的に最適化されたパラメータによって駆動される変分ハイブリッドアルゴリズムを考案することである。
本稿では,量子近似最適化アルゴリズム (Quantum Approximate Optimization Algorithm, QAOA) と最近の変種であるRecursive QAOAを用いて,ハイブリッド量子アルゴリズムを用いてこの問題に対処する。
本稿では,シミュレータと実際の量子ハードウェアを用いた様々な問題サイズの実験について報告する。
その結果、再帰的なqaoaは、10キュービットまでの問題に対して、適切な確率で最適かつ許容可能な解を提供することができるが、計算時間はシステムサイズとほぼ独立である。 The efficient management of energy communities relies on the solution of the "prosumer problem", i.e., the problem of scheduling the household loads on the basis of the user needs, the electricity prices, and the availability of local renewable energy, with the aim of reducing costs and energy waste. Quantum computers can offer a significant breakthrough in treating this problem thanks to the intrinsic parallel nature of quantum operations. The most promising approach is to devise variational hybrid algorithms, in which quantum computation is driven by parameters that are optimized classically, in a cycle that aims at finding the best solution with a significant speed-up with respect to classical approaches. This paper provides a reformulation of the prosumer problem, allowing to address it with a hybrid quantum algorithm, namely, Quantum Approximate Optimization Algorithm (QAOA), and with a recent variant, the Recursive QAOA. We report on an extensive set of experiments, on simulators and real quantum hardware, for different problem sizes. Results are encouraging in that Recursive QAOA is able, for problems involving up to 10 qubits, to provide optimal and admissible solutions with good probabilities, while the computation time is nearly independent of the system size | 翻訳日:2023-11-20 14:04:12 公開日:2023-11-17 |
# D'etection d'objets c''elestes dans des image astronomiques par IA explicable D\'etection d'objets c\'elestes dans des images astronomiques par IA explicable ( http://arxiv.org/abs/2311.10592v1 ) ライセンス: Link先を確認 | Olivier Parisot, Mahmoud Jaziri | (参考訳) アマチュアやプロの天文学者は、最近のスマート望遠鏡で多くの深宇宙画像を簡単に撮影できる。
しかし、その後、ターゲットとする天体が実際に生成した画像で見えるかどうかを確認する必要がある。
ターゲットの大きさ、観測条件、データがキャプチャされた時間によっては、画像に星だけが存在する可能性がある。
本研究では,物体の位置と位置を自動的に検出する,説明可能な人工知能に基づく手法を提案する。
---gr\^ace \`a l'apport des t\'elescopes automatis\'es grand public, les astronomes amateurs et professionalnels peuvent capturer facilement une grande quantit\'e d'images du ciel profond (comme par exemple les galaxy, n\'ebuleuses, ou amas globulaires)
n\'eanmoins, une v\'erification reste n\'ecessaire \`a post\'eriori pour v\'erifier si les objets c\'elestes vis\s sont effectivement visibles dans les images produites: cela d\'epend notamment de la magnitude des cibles, des conditions d'observation mais aussi de la dur\'ee pendant laquelle les donn\ees sont captur\'ees
詳細は『Dans cette \'etude, nous proposons une approche bas\'ee sur l'IA explicable pour d'etecter automatiquement la pr\'esence et la position des objets captur\'es』を参照。 Amateur and professional astronomers can easily capture a large number of deep sky images with recent smart telescopes. However, afterwards verification is still required to check whether the celestial objects targeted are actually visible in the images produced. Depending on the magnitude of the targets, the observation conditions and the time during which the data is captured, it is possible that only stars are present in the images. In this study, we propose an approach based on explainable Artificial Intelligence to automatically detect the presence and position of captured objects. -- -- Gr\^ace \`a l'apport des t\'elescopes automatis\'es grand public, les astronomes amateurs et professionnels peuvent capturer facilement une grande quantit\'e d'images du ciel profond (comme par exemple les galaxies, n\'ebuleuses, ou amas globulaires). N\'eanmoins, une v\'erification reste n\'ecessaire \`a post\'eriori pour v\'erifier si les objets c\'elestes vis\'es sont effectivement visibles dans les images produites: cela d\'epend notamment de la magnitude des cibles, des conditions d'observation mais aussi de la dur\'ee pendant laquelle les donn\'ees sont captur\'ees. Dans cette \'etude, nous proposons une approche bas\'ee sur l'IA explicable pour d\'etecter automatiquement la pr\'esence et la position des objets captur\'es. | 翻訳日:2023-11-20 14:03:46 公開日:2023-11-17 |
# 融合するか、あるいは失うか: マルチモーダルシミュレーションに基づく推論のためのディープフュージョン Fuse It or Lose It: Deep Fusion for Multimodal Simulation-Based Inference ( http://arxiv.org/abs/2311.10671v1 ) ライセンス: Link先を確認 | Marvin Schmitt, Stefan T. Radev, Paul-Christian B\"urkner | (参考訳) ニューラルネットワークを用いたシミュレーションに基づく推論において,異なるソースからの異種データを統合する手法であるMultiNPE(MultiNPE)を提案する。
注意に基づく深層融合学習の進歩に触発され、研究者は異なる領域のデータを分析し、複雑な数学モデルのパラメータを精度良く推測することができる。
我々は,MultiNPE(早期,後期,ハイブリッド)の異なる多モード融合法を定式化し,その性能を3つの挑戦的な数値実験で評価した。
MultiNPEは、ベンチマークモデルでna\"iveベースラインを上回るだけでなく、神経科学や心臓学からの代表的科学的モデルに対する優れた推論も達成している。
さらに,異なる融合戦略に対する部分欠落データの影響を系統的に検討した。
様々な実験において、マルチモーダルシミュレーションに基づく推論の実践的応用のための方法として、後期およびハイブリッド融合技術が出現する。 We present multimodal neural posterior estimation (MultiNPE), a method to integrate heterogeneous data from different sources in simulation-based inference with neural networks. Inspired by advances in attention-based deep fusion learning, it empowers researchers to analyze data from different domains and infer the parameters of complex mathematical models with increased accuracy. We formulate different multimodal fusion approaches for MultiNPE (early, late, and hybrid) and evaluate their performance in three challenging numerical experiments. MultiNPE not only outperforms na\"ive baselines on a benchmark model, but also achieves superior inference on representative scientific models from neuroscience and cardiology. In addition, we systematically investigate the impact of partially missing data on the different fusion strategies. Across our different experiments, late and hybrid fusion techniques emerge as the methods of choice for practical applications of multimodal simulation-based inference. | 翻訳日:2023-11-20 13:55:35 公開日:2023-11-17 |
# ハイブリッド数値モデリングシステムのためのディープラーニングサブモデルのオンライン校正 Online Calibration of Deep Learning Sub-Models for Hybrid Numerical Modeling Systems ( http://arxiv.org/abs/2311.10665v1 ) ライセンス: Link先を確認 | Said Ouala, Bertrand Chapron, Fabrice Collard, Lucile Gaultier, Ronan Fablet | (参考訳) 人工知能とディープラーニングは現在、新しいモデリング機能を導入して、数値シミュレーションフレームワークを再構築している。
これらのフレームワークは、モデル修正やパラメータ化の文脈で広く研究されており、大きなポテンシャルを示し、しばしば従来の物理モデルよりも優れている。
ハイブリッド力学系の定義におけるこれらの取り組みの多くは、神経パラメータ化(ここではサブモデルと呼ばれる)を訓練して理想的な補正を出力する学習戦略に従う。
しかし、これらのハイブリッドモデルは、適切なサブモデル応答を定義するときに厳しい制限に直面する可能性がある。
エンドツーエンドの学習スキームは、オンライン学習とも呼ばれ、ディープラーニングサブモデルが履歴データをトレーニング可能にすることで、このような欠点に対処することができる。
しかし、ハイブリッドシステムにおけるニューラルサブモデルの校正のためのエンドツーエンドトレーニングスキームを定義するには、物理方程式の解法を含む最適化問題に取り組む必要がある。
したがって、オンライン学習手法は、ほとんどのモデリングシステムではそうではない数値モデルを微分可能である必要がある。
この難しさを克服し、物理モデルの差別化を回避すべく、ハイブリッドシステムのための効率的かつ実用的なオンライン学習手法を提案する。
EGA for Euler Gradient Approximationと呼ばれるこの方法は、物理モデルに付加的なニューラル補正と、勾配の明示的なオイラー近似を仮定する。
我々は、EGAが無限に小さな時間ステップの極限における正確な勾配に収束することを実証する。
原始型海洋大気力学を含む様々なケーススタディで数値実験を行った。
その結果、オフライン学習よりも大幅に改善され、ハイブリッドモデリングにおけるエンドツーエンドオンライン学習の可能性を強調した。 Artificial intelligence and deep learning are currently reshaping numerical simulation frameworks by introducing new modeling capabilities. These frameworks are extensively investigated in the context of model correction and parameterization where they demonstrate great potential and often outperform traditional physical models. Most of these efforts in defining hybrid dynamical systems follow {offline} learning strategies in which the neural parameterization (called here sub-model) is trained to output an ideal correction. Yet, these hybrid models can face hard limitations when defining what should be a relevant sub-model response that would translate into a good forecasting performance. End-to-end learning schemes, also referred to as online learning, could address such a shortcoming by allowing the deep learning sub-models to train on historical data. However, defining end-to-end training schemes for the calibration of neural sub-models in hybrid systems requires working with an optimization problem that involves the solver of the physical equations. Online learning methodologies thus require the numerical model to be differentiable, which is not the case for most modeling systems. To overcome this difficulty and bypass the differentiability challenge of physical models, we present an efficient and practical online learning approach for hybrid systems. The method, called EGA for Euler Gradient Approximation, assumes an additive neural correction to the physical model, and an explicit Euler approximation of the gradients. We demonstrate that the EGA converges to the exact gradients in the limit of infinitely small time steps. Numerical experiments are performed on various case studies, including prototypical ocean-atmosphere dynamics. Results show significant improvements over offline learning, highlighting the potential of end-to-end online learning for hybrid modeling. | 翻訳日:2023-11-20 13:55:19 公開日:2023-11-17 |
# 短期量子デバイスにおける読み出し雑音におけるクロストークモデルの効率的な再構成、ベンチマーク、検証 Efficient reconstruction, benchmarking and validation of cross-talk models in readout noise in near-term quantum devices ( http://arxiv.org/abs/2311.10661v1 ) ライセンス: Link先を確認 | Jan Tuziemski, Filip B. Maciejewski, Joanna Majsak, Oskar S{\l}owik, Marcin Kotowski, Katarzyna Kowalczyk-Murynka, Piotr Podziemski, Micha\l\ Oszmaniec | (参考訳) 読み出し誤差は、現在の量子コンピュータに影響を及ぼすノイズ全体に大きく寄与する。
しかし、汎用的な読み出しノイズの完全な特徴付けは、多数のキュービットからなるデバイスでは不可能である。
ここでは、量子検出器トモグラフィープロトコルであるQuantum Detector Overlapping Tomographyを導入し、このプロトコルのサンプル複雑さが量子ビットの総数と対数的にスケールするため、読み出し雑音における$k-$ローカルなクロストーク効果の効率的な評価を可能にする。
そこで本研究では,QDOTデータにより,読み出し雑音におけるPOVM演算子,相関,コヒーレンスなどの情報が得られるとともに,相関クラスタや近傍の読み出し雑音モデルを再構築可能であることを示す。
再構成モデルの有用性と精度を検証するベンチマークが導入された。
79 qubit Rigetti および 127 qubit IBM デバイスにおけるクロストーク効果について検討する。
我々は,max-2-satハミルトニアンのエネルギー推定に適用したモデルベース読み出し誤差軽減法において,クロストークのないモデルよりも相関クラスタと隣接クラスタの優れた性能を示すことにより,その読み出しノイズ特性を考察し,その効果を実証する。 Readout errors contribute significantly to the overall noise affecting present-day quantum computers. However, the complete characterization of generic readout noise is infeasible for devices consisting of a large number of qubits. Here we introduce an appropriately tailored quantum detector tomography protocol, the so called Quantum Detector Overlapping Tomography, which enables efficient characterization of $k-$local cross-talk effects in the readout noise as the sample complexity of the protocol scales logarithmically with the total number of qubits. We show that QDOT data provides information about suitably defined reduced POVM operators, correlations and coherences in the readout noise, as well as allows to reconstruct the correlated clusters and neighbours readout noise model. Benchmarks are introduced to verify utility and accuracy of the reconstructed model. We apply our method to investigate cross-talk effects on 79 qubit Rigetti and 127 qubit IBM devices. We discuss their readout noise characteristics, and demonstrate effectiveness of our approach by showing superior performance of correlated clusters and neighbours over models without cross-talk in model-based readout error mitigation applied to energy estimation of MAX-2-SAT Hamiltonians, with the improvement on the order of 20% for both devices. | 翻訳日:2023-11-20 13:54:50 公開日:2023-11-17 |
# 健常者および健常者両腕の動作範囲解析のための現実的な関節空間境界の学習 Learning Realistic Joint Space Boundaries for Range of Motion Analysis of Healthy and Impaired Human Arms ( http://arxiv.org/abs/2311.10653v1 ) ライセンス: Link先を確認 | Shafagh Keyvanian, Michelle J. Johnson, Nadia Figueroa | (参考訳) 解剖学的制約を満たす現実的な人間の運動モデルは、人間とロボットの相互作用、バイオメカニクス、ロボット支援リハビリテーションに不可欠である。
しかし、現実的な関節の制約をモデル化することは、人間の腕の動きが関節の限界、関節内および関節内依存関係、自己衝突、個々の能力、表現が難しい筋肉的または神経学的制約によって制約されるため困難である。
そのため、医師や研究者は、重要な解剖学的要因を無視して、単純な箱の制約に依存してきた。
本稿では,モーションキャプチャーデータから,現実的な解剖学的制約付き上肢運動境界(RoM)を学習するためのデータ駆動手法を提案する。
これは、高効率なハイパーパラメータチューニングスキームを用いて、上肢ジョイントスペース探索動作のデータセットに一級サポートベクターマシンを取り付けることで達成される。
当社のアプローチは,RoM学習の有効性を重視した類似の作業よりも優れています。
さらに,健常腕と障害腕の比較において,能力・障害の定量的評価を行う障害指標(II)尺度を提案する。
脳卒中患者の健常者を対象に,健常者における片麻痺と障害レベルの違いをエミュレートし,評価を行った。 A realistic human kinematic model that satisfies anatomical constraints is essential for human-robot interaction, biomechanics and robot-assisted rehabilitation. Modeling realistic joint constraints, however, is challenging as human arm motion is constrained by joint limits, inter- and intra-joint dependencies, self-collisions, individual capabilities and muscular or neurological constraints which are difficult to represent. Hence, physicians and researchers have relied on simple box-constraints, ignoring important anatomical factors. In this paper, we propose a data-driven method to learn realistic anatomically constrained upper-limb range of motion (RoM) boundaries from motion capture data. This is achieved by fitting a one-class support vector machine to a dataset of upper-limb joint space exploration motions with an efficient hyper-parameter tuning scheme. Our approach outperforms similar works focused on valid RoM learning. Further, we propose an impairment index (II) metric that offers a quantitative assessment of capability/impairment when comparing healthy and impaired arms. We validate the metric on healthy subjects physically constrained to emulate hemiplegia and different disability levels as stroke patients. | 翻訳日:2023-11-20 13:54:22 公開日:2023-11-17 |
# 3d-texseg:相互トランスフォーマー学習による3次元テクスチャの教師なしセグメンテーション 3D-TexSeg: Unsupervised Segmentation of 3D Texture using Mutual Transformer Learning ( http://arxiv.org/abs/2311.10651v1 ) ライセンス: Link先を確認 | Iyyakutti Iyappan Ganapathi, Fayaz Ali, Sajid Javed, Syed Sadaf Ali, Naoufel Werghi | (参考訳) 3Dテクスチャの分析は, 検索, セグメンテーション, 分類, 彫刻の検査, 編み物, 生体組織など, 様々な作業に不可欠である。
3次元テクスチャは、表面の全体形状とは無関係に局所的に繰り返される表面変化であり、局所的な近傍とその特性を用いて決定することができる。
既存の技術では、3Dメッシュをグローバルに分析し、特徴を導き、得られた特徴を検索や分類に利用するコンピュータビジョン技術が一般的である。
しかし、この文献には伝統的な学習に基づく手法がいくつか存在するが、3Dテクスチャに関するものはほとんどなく、我々の知る限りでは、教師なしのスキームに関するものはほとんどない。
本稿ではメッシュ多様体上の3次元テクスチャの教師なしセグメンテーションのための独自のフレームワークを提案する。
メッシュ表面を事前アノテーションなしでテクスチャ領域と非テクスチャ領域に分割することにより,この問題にアプローチする。
ラベル発生器とクリーナとからなる相互変圧器ベースのシステムを開発する。
2つのモデルは、表面メッシュ面の幾何学的画像表現を、反復的相互学習スキームでテクスチャまたは非テクスチャとしてラベル付けする。
多様なテクスチャパターンを持つ3つの公開データセットに対する大規模な実験により、提案フレームワークは標準およびSOTA非教師付き手法より優れ、教師付き手法と合理的に競合することを示した。 Analysis of the 3D Texture is indispensable for various tasks, such as retrieval, segmentation, classification, and inspection of sculptures, knitted fabrics, and biological tissues. A 3D texture is a locally repeated surface variation independent of the surface's overall shape and can be determined using the local neighborhood and its characteristics. Existing techniques typically employ computer vision techniques that analyze a 3D mesh globally, derive features, and then utilize the obtained features for retrieval or classification. Several traditional and learning-based methods exist in the literature, however, only a few are on 3D texture, and nothing yet, to the best of our knowledge, on the unsupervised schemes. This paper presents an original framework for the unsupervised segmentation of the 3D texture on the mesh manifold. We approach this problem as binary surface segmentation, partitioning the mesh surface into textured and non-textured regions without prior annotation. We devise a mutual transformer-based system comprising a label generator and a cleaner. The two models take geometric image representations of the surface mesh facets and label them as texture or non-texture across an iterative mutual learning scheme. Extensive experiments on three publicly available datasets with diverse texture patterns demonstrate that the proposed framework outperforms standard and SOTA unsupervised techniques and competes reasonably with supervised methods. | 翻訳日:2023-11-20 13:54:02 公開日:2023-11-17 |
# 動的制御スイッチングによる電子核共鳴の増強 Enhancing Electron-Nuclear Resonances by Dynamical Control Switching ( http://arxiv.org/abs/2311.10650v1 ) ライセンス: Link先を確認 | Sichen Xu, Chanying Xie, and Zhen-Yu Wang | (参考訳) 本稿では,スピン間の共振結合を実現するための一般的な手法を提案する。
この手法を窒素空孔(NV)中心と近接する原子核に応用することにより、電子スピンRabi周波数の特定の動的スイッチングが効率的な電子核結合を実現し、従来の方法よりもはるかに強力な量子センシング信号と動的核偏極を与えることを示す。
このプロトコルは、高磁場ナノスケール核磁気共鳴や核スピンの低消費電力量子制御に応用できる。 We present a general method to realize resonant coupling between spins even though their energies are of different scales. Applying the method to the electron and nuclear spin systems such as a nitrogen-vacancy (NV) center with its nearby nuclei, we show that a specific dynamical switching of the electron spin Rabi frequency achieves efficient electron-nuclear coupling, providing a much stronger quantum sensing signal and dynamic nuclear polarization than previous methods. This protocol has applications in high-field nanoscale nuclear magnetic resonances as well as low-power quantum control of nuclear spins. | 翻訳日:2023-11-20 13:53:37 公開日:2023-11-17 |
# 絡み合いコストに対する計算可能で忠実な下限 Computable and Faithful Lower Bound for Entanglement Cost ( http://arxiv.org/abs/2311.10649v1 ) ライセンス: Link先を確認 | Xin Wang, Mingrui Jing, Chengkai Zhu | (参考訳) 量子絡み合いは量子情報処理において重要な資源である。
しかし、量子状態の準備と量子過程の実装に必要な絡み合いの定量化は依然として困難である。
本稿では、一般量子状態と量子チャネルの絡み合いコストに対する計算可能かつ忠実な下界を提案する。
対数的負の一般化である対数的$k$-negativityの概念を導入し、量子演算の下で量子状態の絡み合いコストの一般的な下限を確立し、部分的転位(PPT)の正当性を完全に保存する。
この境界は半定値計画法により効率よく計算可能であり、PTではない任意の絡み合った状態に対してはゼロではない。
さらに,従来の計算可能なものと比較して,提案した境界の利点を示すために,具体的および一般的な例を探索する。
特に,ppt操作下での非漸近的絡み合い操作の非可逆性と振幅減衰チャネルに対するチャネル操作の可逆性が確認された。
また、任意の次元等方性状態の絡み合いコストに対して最もよく知られた下界を確立する。
これらの知見は、絡み合いの構造と絡み合い操作の基本的な限界を理解する限界を押し上げる。 Quantum entanglement is a crucial resource in quantum information processing. However, quantifying the entanglement required to prepare quantum states and implement quantum processes remains challenging. This paper proposes computable and faithful lower bounds for the entanglement cost of general quantum states and quantum channels. We introduce the concept of logarithmic $k$-negativity, a generalization of logarithmic negativity, to establish a general lower bound for the entanglement cost of quantum states under quantum operations that completely preserve the positivity of partial transpose (PPT). This bound is efficiently computable via semidefinite programming and is non-zero for any entangled state that is not PPT, making it faithful in the entanglement theory with non-positive partial transpose. Furthermore, we delve into specific and general examples to demonstrate the advantages of our proposed bounds compared with previously known computable ones. Notably, we affirm the irreversibility of asymptotic entanglement manipulation under PPT operations for full-rank entangled states and the irreversibility of channel manipulation for amplitude damping channels. We also establish the best-known lower bound for the entanglement cost of arbitrary dimensional isotropic states. These findings push the boundaries of understanding the structure of entanglement and the fundamental limits of entanglement manipulation. | 翻訳日:2023-11-20 13:53:26 公開日:2023-11-17 |
# 自己学習型パノプティクスセグメンテーション Self-trained Panoptic Segmentation ( http://arxiv.org/abs/2311.10648v1 ) ライセンス: Link先を確認 | Shourya Verma | (参考訳) panoptic segmentationはセマンティックセグメンテーションとインスタンスセグメンテーションを組み合わせた重要なコンピュータビジョンタスクである。
視覚環境の包括的理解を提供することで、医療画像分析、自動運転車、ロボット工学の分野で重要な役割を果たす。
従来,深層学習の汎視的セグメンテーションモデルは,高度で正確な注釈付きトレーニングデータに依存してきた。
近年の自己教師付き学習手法の進歩は、自己学習を用いて擬似ラベルを生成するために、合成データと非ラベルデータを活用する大きな可能性を示している。
自己教師型パン光学セグメンテーションの3つの方法は、計算コストが高く、複雑で、特定のタスクのために設計されたプロポーザルベースのトランスフォーマーアーキテクチャを使用する。
本研究の目的は,合成領域適応問題における自己学習を用いた埋め込み型自己教師型単眼セグメンテーションを実現するフレームワークを開発することである。 Panoptic segmentation is an important computer vision task which combines semantic and instance segmentation. It plays a crucial role in domains of medical image analysis, self-driving vehicles, and robotics by providing a comprehensive understanding of visual environments. Traditionally, deep learning panoptic segmentation models have relied on dense and accurately annotated training data, which is expensive and time consuming to obtain. Recent advancements in self-supervised learning approaches have shown great potential in leveraging synthetic and unlabelled data to generate pseudo-labels using self-training to improve the performance of instance and semantic segmentation models. The three available methods for self-supervised panoptic segmentation use proposal-based transformer architectures which are computationally expensive, complicated and engineered for specific tasks. The aim of this work is to develop a framework to perform embedding-based self-supervised panoptic segmentation using self-training in a synthetic-to-real domain adaptation problem setting. | 翻訳日:2023-11-20 13:53:03 公開日:2023-11-17 |
# 注意を再考する - トランスフォーマーの注意層に代わる、浅層フィードフォワードニューラルネットワークの探索 Rethinking Attention: Exploring Shallow Feed-Forward Neural Networks as an Alternative to Attention Layers in Transformers ( http://arxiv.org/abs/2311.10642v1 ) ライセンス: Link先を確認 | Vukasin Bozic, Danilo Dordervic, Daniele Coppola, Joseph Thommes | (参考訳) 本研究は,sequence-to-sequenceタスクのための最先端アーキテクチャであるオリジナルのtransformerモデルにおいて,アテンション機構の挙動を模倣するために,標準的な浅層フィードフォワードネットワークを用いた場合の有効性の分析を行う。
トランスの注意機構のキー要素を単純なフィードフォワードネットワークに置き換え, 知識蒸留により元の成分を用いて学習する。
IWSLT2017データセットで実施した実験では,これらの“アテンションレストランスフォーマー”の能力が,元のアーキテクチャのパフォーマンスに匹敵することを示した。
厳密なアブレーション研究と、様々な代替ネットワークタイプとサイズの実験を通じて、我々のアプローチの生存可能性を支える洞察を提供する。
これは、アテンション機構をエミュレートする上での浅いフィードフォワードネットワークの適応性に光を当てるだけでなく、シーケンスからシーケンスへのタスクの複雑なアーキテクチャを合理化する可能性にも光を当てている。 This work presents an analysis of the effectiveness of using standard shallow feed-forward networks to mimic the behavior of the attention mechanism in the original Transformer model, a state-of-the-art architecture for sequence-to-sequence tasks. We substitute key elements of the attention mechanism in the Transformer with simple feed-forward networks, trained using the original components via knowledge distillation. Our experiments, conducted on the IWSLT2017 dataset, reveal the capacity of these "attentionless Transformers" to rival the performance of the original architecture. Through rigorous ablation studies, and experimenting with various replacement network types and sizes, we offer insights that support the viability of our approach. This not only sheds light on the adaptability of shallow feed-forward networks in emulating attention mechanisms but also underscores their potential to streamline complex architectures for sequence-to-sequence tasks. | 翻訳日:2023-11-20 13:52:47 公開日:2023-11-17 |
# 生体物理シミュレーションと深層学習を用いたマルチ遅延動脈スピンラベル灌流推定 Multi-delay arterial spin-labeled perfusion estimation with biophysics simulation and deep learning ( http://arxiv.org/abs/2311.10640v1 ) ライセンス: Link先を確認 | Renjiu Hu, Qihao Zhang, Pascal Spincemaille, Thanh D. Nguyen, Yi Wang | (参考訳) 目的: 深層学習を用いた動脈スピンラベリング(asl)画像からの灌流qの推定法を開発すること。
方法: 4次元トレーサ伝搬画像から3次元U-Net(QTMnet)を推定するために訓練した。
拘束的構成最適化(CCO)法により生成された人工血管構造に基づく4次元トレーサー濃度データを用いて,ネットワークを訓練・試験した。
血管造影(MR)アンギオグラフィーから抽出した血管網をベースとした合成脳ASL画像において,トレーニングネットワークを更に試験した。
8名の健常者から得られたASL画像において,訓練ネットワークと従来の速度論的モデルの両方から推定した。
結果: QTMnetは濃度データから正確な拡散Qを再構成した。
合成脳 asl 画像の相対誤差は perfusion q で 7.04% であり、単層型 asl モデルでの誤差より低い: 25.15% で q でマルチデレイ型 asl モデル: 12.62% パーフュージョン q では qtmnet が正確なパーフュージョンパラメータの推定を提供し、臨床用 asl mri 画像処理パイプラインとして有望なアプローチである。 Purpose: To develop biophysics-based method for estimating perfusion Q from arterial spin labeling (ASL) images using deep learning. Methods: A 3D U-Net (QTMnet) was trained to estimate perfusion from 4D tracer propagation images. The network was trained and tested on simulated 4D tracer concentration data based on artificial vasculature structure generated by constrained constructive optimization (CCO) method. The trained network was further tested in a synthetic brain ASL image based on vasculature network extracted from magnetic resonance (MR) angiography. The estimations from both trained network and a conventional kinetic model were compared in ASL images acquired from eight healthy volunteers. Results: QTMnet accurately reconstructed perfusion Q from concentration data. Relative error of the synthetic brain ASL image was 7.04% for perfusion Q, lower than the error using single-delay ASL model: 25.15% for Q, and multi-delay ASL model: 12.62% for perfusion Q. Conclusion: QTMnet provides accurate estimation on perfusion parameters and is a promising approach as a clinical ASL MRI image processing pipeline. | 翻訳日:2023-11-20 13:52:28 公開日:2023-11-17 |
# 変分グラフオートエンコーダを用いた概念自由因果解離 Concept-free Causal Disentanglement with Variational Graph Auto-Encoder ( http://arxiv.org/abs/2311.10638v1 ) ライセンス: Link先を確認 | Jingyun Feng, Lin Zhang, Lili Yang | (参考訳) 不整合表現学習では、観測データ中のすべての解釈可能な生成因子からなるコンパクトな表現を実現することが目的である。
グラフデータの急速な増加に伴い,グラフの非絡み合い表現の学習がますます重要になる。
既存のアプローチは変分オートエンコーダ(VAE)またはその因果構造学習に基づく改良に依存しており、それぞれ独立要因の仮定と概念ラベルの適用不可能により、VAEの準最適性に悩まされている。
本稿では,最適因子を近似した理論的に証明可能な強い上界上に構築した,概念自由因果解法を提案する。
これにより、データから概念構造を直接学習するSCMのような因果構造モデリングが実現される。
本研究では,新しい因果不整合層を変分グラフオートエンコーダに組み込むことで,概念自由因果VGAE(Concept-free Causal VGAE)を提案する。
さらに,概念自由因果不絡合フレームワークを用いて概念整合性を証明し,概念自由因果メタグラフ(CC-Meta-Graph)と呼ばれるメタラーニングフレームワークを強化する。
ccvgae と cc-meta-graph は,auc の基準値に対して最大$29\%$ と $11\%$ の絶対値向上を達成している。 In disentangled representation learning, the goal is to achieve a compact representation that consists of all interpretable generative factors in the observational data. Learning disentangled representations for graphs becomes increasingly important as graph data rapidly grows. Existing approaches often rely on Variational Auto-Encoder (VAE) or its causal structure learning-based refinement, which suffer from sub-optimality in VAEs due to the independence factor assumption and unavailability of concept labels, respectively. In this paper, we propose an unsupervised solution, dubbed concept-free causal disentanglement, built on a theoretically provable tight upper bound approximating the optimal factor. This results in an SCM-like causal structure modeling that directly learns concept structures from data. Based on this idea, we propose Concept-free Causal VGAE (CCVGAE) by incorporating a novel causal disentanglement layer into Variational Graph Auto-Encoder. Furthermore, we prove concept consistency under our concept-free causal disentanglement framework, hence employing it to enhance the meta-learning framework, called concept-free causal Meta-Graph (CC-Meta-Graph). We conduct extensive experiments to demonstrate the superiority of the proposed models: CCVGAE and CC-Meta-Graph, reaching up to $29\%$ and $11\%$ absolute improvements over baselines in terms of AUC, respectively. | 翻訳日:2023-11-20 13:52:06 公開日:2023-11-17 |
# 衛星と宇宙ゴミの衝突確率の予測--ベイズ型機械学習によるアプローチ Predicting the Probability of Collision of a Satellite with Space Debris: A Bayesian Machine Learning Approach ( http://arxiv.org/abs/2311.10633v1 ) ライセンス: Link先を確認 | Jo\~ao Sim\~oes Catulo, Cl\'audia Soares, Marta Guimar\~aes | (参考訳) 宇宙活動の増加により、低軌道では宇宙はより混み合っている。
このような密集した宇宙環境は、宇宙全体の人口を危険にさらす宇宙物体間の衝突のリスクを高める。
したがって、通常の運用の一部として衝突回避を考える必要性は衛星運用者にとって明らかである。
現在の手順は、人間アナリストによる多重衝突警告の分析に依存している。
しかし、宇宙人口の継続的な増加に伴い、この手動アプローチは実現不可能となり、リスクアセスメントにおける自動化の重要性が強調される。
2019年、ESAは衝突リスク推定に機械学習を適用する可能性を調査するコンペティションを開始し、実際の接近をサポートするためにConjunction Data Messages(CDM)のシーケンスを含むデータセットをリリースした。
競争結果から,本問題の予測値とその変種は強い予測因子であり,CDMがマルコフ特性に従う可能性が示唆された。
提案研究は, 隠れマルコフモデル (HMM) を用いて, データセットの1つの特徴であるCDMの確率列を用いて, 2つの居住空間オブジェクト間の衝突の危険を予測した。
さらに、ベイズ統計はモデルのパラメータの合同分布を推定するために使用され、厳密な理論枠組みの中で問題に関する物理的または事前の知識を取り入れ、予測されるリスクの正確さを適切に反映する予測不確実性を提供する、堅牢で信頼性の高い予測モデルの開発を可能にする。
この研究は、実装されたHMMがいくつかのメトリクスにおいて単純解よりも優れており、衝突警告がマルコフ的である可能性をさらに高め、さらに検討すべき強力な方法であることを示唆している。 Space is becoming more crowded in Low Earth Orbit due to increased space activity. Such a dense space environment increases the risk of collisions between space objects endangering the whole space population. Therefore, the need to consider collision avoidance as part of routine operations is evident to satellite operators. Current procedures rely on the analysis of multiple collision warnings by human analysts. However, with the continuous growth of the space population, this manual approach may become unfeasible, highlighting the importance of automation in risk assessment. In 2019, ESA launched a competition to study the feasibility of applying machine learning in collision risk estimation and released a dataset that contained sequences of Conjunction Data Messages (CDMs) in support of real close encounters. The competition results showed that the naive forecast and its variants are strong predictors for this problem, which suggests that the CDMs may follow the Markov property. The proposed work investigates this theory by benchmarking Hidden Markov Models (HMM) in predicting the risk of collision between two resident space objects by using one feature of the entire dataset: the sequence of the probability in the CDMs. In addition, Bayesian statistics are used to infer a joint distribution for the parameters of the models, which allows the development of robust and reliable probabilistic predictive models that can incorporate physical or prior knowledge about the problem within a rigorous theoretical framework and provides prediction uncertainties that nicely reflect the accuracy of the predicted risk. This work shows that the implemented HMM outperforms the naive solution in some metrics, which further adds to the idea that the collision warnings may be Markovian and suggests that this is a powerful method to be further explored. | 翻訳日:2023-11-20 13:51:40 公開日:2023-11-17 |
# 2次元格子上の反発性双極子密度-密度相互作用を持つハードコアボソンの量子相 Quantum phases of hardcore bosons with repulsive dipolar density-density interactions on two-dimensional lattices ( http://arxiv.org/abs/2311.10632v1 ) ライセンス: Link先を確認 | J.A. Koziol, G. Morigi, K.P. Schmidt | (参考訳) パルス双極子ポテンシャルと相互作用するハードコアボソンの基底状態量子位相図の解析を行う。
ボソンズ力学は、2次元格子上の拡張ボース・ハバード・ハミルトンによって記述される。
基底状態は格子幾何学と長距離相互作用との相互作用の結果であり、これは単位セルの大きさによって制限される古典的なスピン平均場アプローチによって説明される。
この拡張古典的なスピン平均場理論は、切り離すことなく長距離密度-密度相互作用を説明できる。
我々は正方形、ハニカム、三角の3つの異なる格子幾何学を考える。
ゼロホッピングの限界において、基底状態は、常にデビルの(引っ掛けられた)相の階段である。
このような翻訳対称性の破れた結晶相は有限ホッピング振幅に対して堅牢である。
中間ホッピング振幅では、これらのガッピング相は融解し、様々な格子超固体相を生じさせ、複数のサブ格子密度を持つエキゾチックな特徴を持つ。
十分に大きなホッピングでは、基底状態は超流動である。
我々のアプローチにより予測される位相の安定性は、ボース・ハッバードモデルの既知の量子位相図と最近傍相互作用、および正方格子上の双極子の場合の量子モンテカルロシミュレーションを比較して評価する。
我々の結果は、光学格子中の超低温双極子原子を用いたアナログ量子シミュレータにおける自己組織化結晶秩序パターンの実験的実現の即時性である。 We analyse the ground-state quantum phase diagram of hardcore Bosons interacting with repulsive dipolar potentials. The bosons dynamics is described by the extended-Bose-Hubbard Hamiltonian on a two-dimensional lattice. The ground state results from the interplay between the lattice geometry and the long-range interactions, which we account for by means of a classical spin mean-field approach limited by the size of the considered unit cells. This extended classical spin mean-field theory accounts for the long-range density-density interaction without truncation. We consider three different lattice geometries: square, honeycomb, and triangular. In the limit of zero hopping the ground state is always a devil's staircase of solid (gapped) phases. Such crystalline phases with broken translational symmetry are robust with respect to finite hopping amplitudes. At intermediate hopping amplitudes, these gapped phases melt, giving rise to various lattice supersolid phases, which can have exotic features with multiple sublattice densities. At sufficiently large hoppings the ground state is a superfluid. The stability of phases predicted by our approach is gauged by comparison to the known quantum phase diagrams of the Bose-Hubbard model with nearest-neighbour interactions as well as quantum Monte Carlo simulations for the dipolar case on the square lattice. Our results are of immediate relevance for experimental realisations of self-organised crystalline ordering patterns in analogue quantum simulators, e.g., with ultracold dipolar atoms in an optical lattice. | 翻訳日:2023-11-20 13:51:09 公開日:2023-11-17 |
# 自動機械学習による天文画像の品質評価 Astronomical Images Quality Assessment with Automated Machine Learning ( http://arxiv.org/abs/2311.10617v1 ) ライセンス: Link先を確認 | Olivier Parisot, Pierrick Bruneau, Patrik Hitzelberger | (参考訳) 電子支援天文学は、直接観測によって見えない天体の視界を表示するために、デジタルカメラと望遠鏡を結合した深空画像を撮影する。
このプラクティスは大量のデータを生成し、観察セッション後に専用の画像編集ソフトウェアで拡張することができる。
本研究では,画像品質評価が天文画像の自動評価にどのように役立つかを示すとともに,自動機械学習を用いて専用モデルを開発する。 Electronically Assisted Astronomy consists in capturing deep sky images with a digital camera coupled to a telescope to display views of celestial objects that would have been invisible through direct observation. This practice generates a large quantity of data, which may then be enhanced with dedicated image editing software after observation sessions. In this study, we show how Image Quality Assessment can be useful for automatically rating astronomical images, and we also develop a dedicated model by using Automated Machine Learning. | 翻訳日:2023-11-20 13:50:48 公開日:2023-11-17 |
# 機械学習の位相遷移:フィッシャー情報への接続 Machine learning phase transitions: Connections to the Fisher information ( http://arxiv.org/abs/2311.10710v1 ) ライセンス: Link先を確認 | Julian Arnold, Niels L\"orch, Flemming Holtorf, Frank Sch\"afer | (参考訳) データから位相遷移を検出する機械学習技術の普及と成功にもかかわらず、その動作原理と基本的な限界は解明されていない。
本稿では,情報理論的な概念における相転移の一般的な機械学習指標を根ざし,内部動作を説明し,これらの手法の潜在的な障害モードを特定する。
情報幾何学のツールを用いて、いくつかの相転移の機械学習指標が、システム(量子)フィッシャー情報の正方根を下から近似していることを証明する。
古典系および量子系における相転移に対するこれらの境界の質を数値的に示す。 Despite the widespread use and success of machine-learning techniques for detecting phase transitions from data, their working principle and fundamental limits remain elusive. Here, we explain the inner workings and identify potential failure modes of these techniques by rooting popular machine-learning indicators of phase transitions in information-theoretic concepts. Using tools from information geometry, we prove that several machine-learning indicators of phase transitions approximate the square root of the system's (quantum) Fisher information from below -- a quantity that is known to indicate phase transitions but is often difficult to compute from data. We numerically demonstrate the quality of these bounds for phase transitions in classical and quantum systems. | 翻訳日:2023-11-20 13:44:24 公開日:2023-11-17 |
# Emu Video:明示的な画像コンディショニングによるテキスト・ビデオ生成の要因付け Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning ( http://arxiv.org/abs/2311.10709v1 ) ライセンス: Link先を確認 | Rohit Girdhar, Mannat Singh, Andrew Brown, Quentin Duval, Samaneh Azadi, Sai Saketh Rambhatla, Akbar Shah, Xi Yin, Devi Parikh, Ishan Misra | (参考訳) 本稿では,テキストに条件付き画像を生成し,テキストと生成された画像に条件付き映像を生成する2つのステップに分解するテキスト間ビデオ生成モデルであるEmu Videoを提案する。
重要な設計上の決定 – 拡散のための調整されたノイズスケジュール,マルチステージトレーニング – を識別して,従来のようなモデルの深いカスケードを必要とせずに,高品質で高解像度なビデオを直接生成することが可能です。人間の評価では,生成したビデオは,以前のすべての作業 – -81%対GoogleのImagen Video,NvidiaのPYOCO,96%対MetaのMake-A-Video – に比べて,品質が強く優先されています。
私たちのモデルはRunwayMLのGen2やPika Labsといった商用ソリューションよりも優れています。
最後に、当社のファクタリングアプローチは、ユーザのテキストプロンプトに基づいてイメージをアニメーション化するのに役立つ。 We present Emu Video, a text-to-video generation model that factorizes the generation into two steps: first generating an image conditioned on the text, and then generating a video conditioned on the text and the generated image. We identify critical design decisions--adjusted noise schedules for diffusion, and multi-stage training--that enable us to directly generate high quality and high resolution videos, without requiring a deep cascade of models as in prior work. In human evaluations, our generated videos are strongly preferred in quality compared to all prior work--81% vs. Google's Imagen Video, 90% vs. Nvidia's PYOCO, and 96% vs. Meta's Make-A-Video. Our model outperforms commercial solutions such as RunwayML's Gen2 and Pika Labs. Finally, our factorizing approach naturally lends itself to animating images based on a user's text prompt, where our generations are preferred 96% over prior work. | 翻訳日:2023-11-20 13:44:12 公開日:2023-11-17 |
# SelfEval: 評価のための生成モデルの識別特性を活用する SelfEval: Leveraging the discriminative nature of generative models for evaluation ( http://arxiv.org/abs/2311.10708v1 ) ライセンス: Link先を確認 | Sai Saketh Rambhatla, Ishan Misra | (参考訳) 本研究では,テキストから画像への生成モデルを「反転」して,テキスト画像理解能力を完全に自動的に評価できることを示す。
我々の手法であるSelfEvalは、テキストプロンプトが与えられた実画像の確率を計算するために生成モデルを使用し、その生成モデルを識別タスクに直接適用する。
SelfEvalを用いて、マルチモーダルテキスト画像識別モデルを評価するための標準データセットを再利用し、属性バインディング、色認識、カウント、形状認識、空間的理解におけるそれらの性能を評価する。
私たちの知る限りでは、SelfEvalは、複数のモデルやベンチマークにおいて、ゴールドスタンダードの人間による評価とテキストの信頼度を測定するための高度な合意を示す最初の自動メトリクスです。
さらに, 識別モデルとの競合性能を示すWinoground画像スコアなどの課題に対して, 生成モデルの評価を可能にする。
また、DrawBenchのようなベンチマークでテキストの忠実度を測定するためにCLIPスコアのような標準的な自動メトリクスの深刻な欠点や、SelfEvalがこれらの問題をどう回避するかを示す。
拡散モデルの容易かつ信頼性の高い自動評価を可能にすることを願っている。 In this work, we show that text-to-image generative models can be 'inverted' to assess their own text-image understanding capabilities in a completely automated manner. Our method, called SelfEval, uses the generative model to compute the likelihood of real images given text prompts, making the generative model directly applicable to discriminative tasks. Using SelfEval, we repurpose standard datasets created for evaluating multimodal text-image discriminative models to evaluate generative models in a fine-grained manner: assessing their performance on attribute binding, color recognition, counting, shape recognition, spatial understanding. To the best of our knowledge SelfEval is the first automated metric to show a high degree of agreement for measuring text-faithfulness with the gold-standard human evaluations across multiple models and benchmarks. Moreover, SelfEval enables us to evaluate generative models on challenging tasks such as Winoground image-score where they demonstrate competitive performance to discriminative models. We also show severe drawbacks of standard automated metrics such as CLIP-score to measure text faithfulness on benchmarks such as DrawBench, and how SelfEval sidesteps these issues. We hope SelfEval enables easy and reliable automated evaluation for diffusion models. | 翻訳日:2023-11-20 13:43:51 公開日:2023-11-17 |
# 交互一様適応によるマルチモーダル表現学習 Multimodal Representation Learning by Alternating Unimodal Adaptation ( http://arxiv.org/abs/2311.10707v1 ) ライセンス: Link先を確認 | Xiaohui Zhang, Jaehong Yoon, Mohit Bansal, Huaxiu Yao | (参考訳) 多様な感覚モードのデータを統合するマルチモーダル学習は、人工知能において重要な役割を果たす。
しかしながら、既存のマルチモーダル学習手法は、マルチモーダル学習中に他の方法よりもいくつかのモダリティが支配的に見えるという課題に苦しむことが多く、結果としてサブ最適性能をもたらす。
この課題に対処するため,MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、従来の共同マルチモーダル学習プロセスを再編成し、モダリティ間の干渉を最小限に抑える。
同時に、異なるモード間で連続的な最適化を行う共有ヘッドを通じて、クロスモーダルな相互作用をキャプチャする。
この最適化プロセスは勾配修正機構によって制御され、共有ヘッドが予め取得した情報を失うことを防止する。
推論フェーズの間、MLAはテスト時間不確実性に基づくモデル融合機構を使用してマルチモーダル情報を統合する。
完全なモダリティを持つシナリオと、モダリティの欠如したシナリオを包含する、5つの多様なデータセットに関する広範な実験が行われている。
これらの実験は、競合する先行アプローチよりもMLAの方が優れていることを示す。 Multimodal learning, which integrates data from diverse sensory modes, plays a pivotal role in artificial intelligence. However, existing multimodal learning methods often struggle with challenges where some modalities appear more dominant than others during multimodal learning, resulting in suboptimal performance. To address this challenge, we propose MLA (Multimodal Learning with Alternating Unimodal Adaptation). MLA reframes the conventional joint multimodal learning process by transforming it into an alternating unimodal learning process, thereby minimizing interference between modalities. Simultaneously, it captures cross-modal interactions through a shared head, which undergoes continuous optimization across different modalities. This optimization process is controlled by a gradient modification mechanism to prevent the shared head from losing previously acquired information. During the inference phase, MLA utilizes a test-time uncertainty-based model fusion mechanism to integrate multimodal information. Extensive experiments are conducted on five diverse datasets, encompassing scenarios with complete modalities and scenarios with missing modalities. These experiments demonstrate the superiority of MLA over competing prior approaches. | 翻訳日:2023-11-20 13:43:33 公開日:2023-11-17 |
# 気候変動におけるラクダ: tulu 2 による lm 適応強化 Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2 ( http://arxiv.org/abs/2311.10702v1 ) ライセンス: Link先を確認 | Hamish Ivison, Yizhong Wang, Valentina Pyatkin, Nathan Lambert, Matthew Peters, Pradeep Dasigi, Joel Jang, David Wadden, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi | (参考訳) T\"ULU [Wang et al., 2023b] のリリース以来, より優れたベースモデルから新しいファインタニング技術に至るまで, インストラクションチューニングのためのオープンリソースが急速に発展してきた。
T\"ULU 2は、訓練済みの言語モデルを下流のタスクやユーザの好みに適応させるための理解とベストプラクティスを向上するための改良されたT\"ULUモデルである。
具体的には、(1) t\"ulu-v2-mix、(2) t\"ulu 2 llama-2 モデルを v2 混合で微調整した高品質な命令データセットの集合、(3) t\"ulu 2+dpo, t\"ulu 2 モデルを直接優先最適化(dpo)でトレーニングしたモデル(t\"ulu 2+dpo 70b)、(4) code t\"ulu 2 コード llama モデルは、llama と命令調整されたバージョンである code llama-instruct よりも優れています。
複数の視点からの評価から、t\"ulu 2スイートはオープンモデル間で最先端のパフォーマンスを達成し、いくつかのベンチマークでgpt-3.5-turbo-0301のパフォーマンスを上回った。
すべてのチェックポイント、データ、トレーニング、評価コードをリリースし、将来の大規模言語モデルへのオープンな取り組みを促進します。 Since the release of T\"ULU [Wang et al., 2023b], open resources for instruction tuning have developed quickly, from better base models to new finetuning techniques. We test and incorporate a number of these advances into T\"ULU, resulting in T\"ULU 2, a suite of improved T\"ULU models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences. Concretely, we release: (1) T\"ULU-V2-mix, an improved collection of high-quality instruction datasets; (2) T\"ULU 2, LLAMA-2 models finetuned on the V2 mixture; (3) T\"ULU 2+DPO, T\"ULU 2 models trained with direct preference optimization (DPO), including the largest DPO-trained model to date (T\"ULU 2+DPO 70B); (4) CODE T\"ULU 2, CODE LLAMA models finetuned on our V2 mix that outperform CODE LLAMA and its instruction-tuned variant, CODE LLAMA-Instruct. Our evaluation from multiple perspectives shows that the T\"ULU 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of GPT-3.5-turbo-0301 on several benchmarks. We release all the checkpoints, data, training and evaluation code to facilitate future open efforts on adapting large language models. | 翻訳日:2023-11-20 13:43:15 公開日:2023-11-17 |
# SpACNN-LDVAE:Hyperspectral Pixel Unmixingのための空間アテンション畳み込み遅延ディリクレ変分オートエンコーダ SpACNN-LDVAE: Spatial Attention Convolutional Latent Dirichlet Variational Autoencoder for Hyperspectral Pixel Unmixing ( http://arxiv.org/abs/2311.10701v1 ) ライセンス: Link先を確認 | Soham Chitnis, Kiran Mantripragada, Faisal Z. Qureshi | (参考訳) ハイパースペクトルアンキミング問題(hyperspectral unxming problem)は、基礎となる物質(エンドメンバー)とその比率(冗長性)の純粋なスペクトル信号を見つけることである。
提案手法は,最近提案されたLatent Dirichlet Variational Autoencoder (LDVAE)に基づく。
これは存在量をディリクレ分布として符号化できると仮定し、混合ピクセルとエンドメンバーは多変量正規分布として表現される。
しかし, ldvae は hsi に存在する空間情報を活用せず, 超スペクトルアンミックス問題を解くために空間的に注目される等方性 cnn エンコーダを提案する。
我々は,Samson,Hydice Urban,Cuprite,OnTech-HSI-Syn-21データセットについて検討した。
また,本モデルでは,Cuprite Datasetの転送学習パラダイムを活用し,合成データを用いてモデルをトレーニングし,実世界のデータで評価する。
我々は,空間情報を組み込むことで,エンドメンバー抽出と存在量推定の結果の改善を観察することができる。
コードはhttps://github.com/faisalqureshi/cnn-ldvaeにある。 The Hyperspectral Unxming problem is to find the pure spectral signal of the underlying materials (endmembers) and their proportions (abundances). The proposed method builds upon the recently proposed method, Latent Dirichlet Variational Autoencoder (LDVAE). It assumes that abundances can be encoded as Dirichlet Distributions while mixed pixels and endmembers are represented by Multivariate Normal Distributions. However, LDVAE does not leverage spatial information present in an HSI; we propose an Isotropic CNN encoder with spatial attention to solve the hyperspectral unmixing problem. We evaluated our model on Samson, Hydice Urban, Cuprite, and OnTech-HSI-Syn-21 datasets. Our model also leverages the transfer learning paradigm for Cuprite Dataset, where we train the model on synthetic data and evaluate it on real-world data. We are able to observe the improvement in the results for the endmember extraction and abundance estimation by incorporating the spatial information. Code can be found at https://github.com/faisalqureshi/cnn-ldvae | 翻訳日:2023-11-20 13:42:39 公開日:2023-11-17 |
# 線形初期化を用いたオートエンコーダの収束速度と完全学習誤差の改善 Using linear initialisation to improve speed of convergence and fully-trained error in Autoencoders ( http://arxiv.org/abs/2311.10699v1 ) ライセンス: Link先を確認 | Marcel Marais, Mate Hartstein, George Cevora | (参考訳) グッドウェイト初期化は、ニューラルネットワークのトレーニングを成功させるための重要なステップである。
時間とともに、このプロセスに多くの改善が提案されている。
本稿では,Straddled Matrix Initialiserと呼ばれる新しいウェイト初期化手法を提案する。
この初期化手法は、データにおける大規模で大域的な関係性が線形であり、複雑な非線形性を必要とする影響が小さいという仮定に動機づけられている。
階層行列とrelu活性化関数の組み合わせは、ニューラルネットワークをデファクト線形モデルとして初期化します。
これを3つのデータセットで自動エンコーダをトレーニングし、階層行列と他の7つの最先端の重み初期化技術を用いてテストする。
全ての実験において、Straddeled Matrix Initialiserは、他のすべての方法よりも明らかに優れている。 Good weight initialisation is an important step in successful training of Artificial Neural Networks. Over time a number of improvements have been proposed to this process. In this paper we introduce a novel weight initialisation technique called the Straddled Matrix Initialiser. This initialisation technique is motivated by our assumption that major, global-scale relationships in data are linear with only smaller effects requiring complex non-linearities. Combination of Straddled Matrix and ReLU activation function initialises a Neural Network as a de facto linear model, which we postulate should be a better starting point for optimisation given our assumptions. We test this by training autoencoders on three datasets using Straddled Matrix and seven other state-of-the-art weight initialisation techniques. In all our experiments the Straddeled Matrix Initialiser clearly outperforms all other methods. | 翻訳日:2023-11-20 13:42:23 公開日:2023-11-17 |
# PEFT-MedAware:医学的認識のための大規模言語モデル PEFT-MedAware: Large Language Model for Medical Awareness ( http://arxiv.org/abs/2311.10697v1 ) ライセンス: Link先を確認 | Keivalya Pandya | (参考訳) チャットモデルは幅広い質問に答えることができるが、その回答の正確性は非常に不確実である。
本研究では,16,407組の医療用QAペアからなる専門的MedQuADデータ上で,パラメータ効率の良い細調整(PEFT)モデルを用いてFalcon-1bの大規模言語モデルを拡張し,計算効率を向上させるために,トレーニング可能なパラメータの0.44%しか利用していないPEFT-MedAwareモデルを提案する。
本稿では,データ前処理とPEFTを用いてモデル性能を最適化し,効率的なトランスフォーマートレーニングのためのBitsAndBytesConfigを補完する。
得られたモデルでは、特定の領域における質問応答タスクにおいて、リソース制約された環境への展開に適した限られた計算資源を活用することで、他のLCMよりも高い精度で性能を発揮することができた。
我々は、拡張データセット、より大きなモデル、持続医療関連性のためのフィードバックメカニズムによるさらなる改善を提案する。
我々の研究は、医療用AIにおけるPEFTの効率向上と特殊能力を強調し、膨大なリソースを必要とせずに標準モデルの精度を上回ります。
提案されたモデルとデータは研究目的のみにリリースされます。 Chat models are capable of answering a wide range of questions, however, the accuracy of their responses is highly uncertain. In this research, we propose a specialized PEFT-MedAware model where we utilize parameter-efficient fine-tuning (PEFT) to enhance the Falcon-1b large language model on specialized MedQuAD data consisting of 16,407 medical QA pairs, leveraging only 0.44% of its trainable parameters to enhance computational efficiency. The paper adopts data preprocessing and PEFT to optimize model performance, complemented by a BitsAndBytesConfig for efficient transformer training. The resulting model was capable of outperforming other LLMs in medical question-answering tasks in specific domains with greater accuracy utilizing limited computational resources making it suitable for deployment in resource-constrained environments. We propose further improvements through expanded datasets, larger models, and feedback mechanisms for sustained medical relevancy. Our work highlights the efficiency gains and specialized capabilities of PEFT in medical AI, outpacing standard models in precision without extensive resource demands. The proposed model and data are released for research purposes only. | 翻訳日:2023-11-20 13:42:09 公開日:2023-11-17 |
# モデル自己曖昧化による多元データセットから学ぶ多用途医用画像セグメンテーション Versatile Medical Image Segmentation Learned from Multi-Source Datasets via Model Self-Disambiguation ( http://arxiv.org/abs/2311.10696v1 ) ライセンス: Link先を確認 | Xiaoyang Chen, Hao Zheng, Yuemeng Li, Yuncong Ma, Liang Ma, Hongming Li, Yong Fan | (参考訳) 多様な機器やプロトコルで収集された画像データに適用可能な汎用的な医用画像分割モデルは、モデルの展開とメンテナンスを容易にする。
しかし、そのようなモデルを構築するには、通常、大きく、多様で、完全に注釈付けされたデータセットが必要である。
本研究では,手軽に手軽に利用できるデータと,わずかに注釈付きセグメンテーションラベルを併用してコスト効率を向上する手法を開発した。
我々は,モダリティ,データセット,セグメンテーションラベル間のラベル曖昧性と不均衡など,さまざまなソースからの一貫性のないラベル付きデータに関連する課題に対処するために,モデル自己曖昧さ,事前知識の取り込み,不均衡緩和のための戦略を考案する。
腹部臓器のセグメンテーションのために8つの異なるソースから収集されたマルチモーダルデータセットの実験結果から,既存の注釈付きデータの使用を最適化し,新たなデータに対するアノテーションの取り組みを減らし,モデル機能をさらに向上させる手法の有効性と優れた性能が示された。 A versatile medical image segmentation model applicable to imaging data collected with diverse equipment and protocols can facilitate model deployment and maintenance. However, building such a model typically requires a large, diverse, and fully annotated dataset, which is rarely available due to the labor-intensive and costly data curation. In this study, we develop a cost-efficient method by harnessing readily available data with partially or even sparsely annotated segmentation labels. We devise strategies for model self-disambiguation, prior knowledge incorporation, and imbalance mitigation to address challenges associated with inconsistently labeled data from various sources, including label ambiguity and imbalances across modalities, datasets, and segmentation labels. Experimental results on a multi-modal dataset compiled from eight different sources for abdominal organ segmentation have demonstrated our method's effectiveness and superior performance over alternative state-of-the-art methods, highlighting its potential for optimizing the use of existing annotated data and reducing the annotation efforts for new data to further enhance model capability. | 翻訳日:2023-11-20 13:41:45 公開日:2023-11-17 |
# TISCC: トラップしたIonプロセッサのためのサーフェスコードコンパイラとリソース推定器 TISCC: A Surface Code Compiler and Resource Estimator for Trapped-Ion Processors ( http://arxiv.org/abs/2311.10687v1 ) ライセンス: Link先を確認 | Tyler LeBlond, Justin G. Lietz, Christopher M. Seck, and Ryan S. Bennink | (参考訳) 本稿では,表面コードパッチ操作の普遍的なセットに対して,ネイティブトラップイオンゲートセットを用いて回路を生成するソフトウェアツールであるtcled-ion surface code compiler(tiscc)を紹介する。
これを実現するため、tisccはトラップゾーンとジャンクションの繰り返しパターンを任意に大きい矩形グリッドに配置したトラップイオンシステムの内部表現を管理する。
表面コード操作は、グリッド上の表面コードパッチをインスタンス化し、データキュービット上のトランスバーサル操作、スタビライザプラーペット上の誤り訂正ラウンド、隣り合うパッチ間の格子手術操作を生成する方法を用いてコンパイルされる。
基本表面コード命令セットの実装以外にも、TISCCにはコーナー移動機能とイオン移動だけで実装されたパッチ翻訳が含まれている。
後者を除いて、全てのTISCC機能は、代替グリッドのようなハードウェアアーキテクチャに拡張可能である。
TISCC出力はOak Ridge Quasi-Clifford Simulator (ORQCS)を用いて検証されている。 We introduce the Trapped-Ion Surface Code Compiler (TISCC), a software tool that generates circuits for a universal set of surface code patch operations in terms of a native trapped-ion gate set. To accomplish this, TISCC manages an internal representation of a trapped-ion system where a repeating pattern of trapping zones and junctions is arranged in an arbitrarily large rectangular grid. Surface code operations are compiled by instantiating surface code patches on the grid and using methods to generate transversal operations over data qubits, rounds of error correction over stabilizer plaquettes, and/or lattice surgery operations between neighboring patches. Beyond the implementation of a basic surface code instruction set, TISCC contains corner movement functionality and a patch translation that is implemented using ion movement alone. Except in the latter case, all TISCC functionality is extensible to alternative grid-like hardware architectures. TISCC output has been verified using the Oak Ridge Quasi-Clifford Simulator (ORQCS). | 翻訳日:2023-11-20 13:41:25 公開日:2023-11-17 |
# 直接クリフォード+T格子手術による実用量子回路の実用化 Realistic Cost to Execute Practical Quantum Circuits using Direct Clifford+T Lattice Surgery Compilation ( http://arxiv.org/abs/2311.10686v1 ) ライセンス: Link先を確認 | Tyler LeBlond, Christopher Dean, George Watkins, and Ryan S. Bennink | (参考訳) 本稿では,Clifford+Tゲートを用いて表現された量子回路を,表面コード上のフォールトトレラント操作で構成した低レベル命令セットに明示的にコンパイルする資源推定パイプラインの開発について報告する。
コンパイルされた回路からのマジック状態要求のケイデンスにより、ポストホック解析においてマジック状態の蒸留と貯蔵要求の最適化が可能となる。
論理回路をコンパイルするために、格子手術パラダイム内の異なる曲面コードコンパイル戦略に拡張可能なオープンソースのLattice Surgery Compilerを構築した。
修正されたコンパイラは、論理ゲートを抽象的なレイアウトに依存しない命令セットに変換し、第2は、特定のリソースレイアウトに従ってハードウェアタイルに割り当てられる局所格子手術命令にコンパイルする。
第2段階では、論理回路の並列性はリソース競合を避けながらフォールトトレラント層内の並列性に変換されるため、コンパイラは回路を実行するための現実的な論理時間ステップを見つけることができる。
改良されたコンパイラは、ユーザ指定率に応じてマジック状態を補充する専用ハードウェアタイルを指定可能にすることで、マジック状態の処理を改善し、マジック状態の蒸留と記憶とは独立して論理計算からのリソースコストを考慮できる。
分子の基底状態推定のための資源推定を提供することにより、我々の資源推定パイプラインを大規模で実用的な量子回路に適用できることを実証する。
注意して考慮しなければ、マジック状態の消費率が異なる実回路において、マジック状態のストレージのリソースコストが支配的であることが分かる。 In this article, we report the development of a resource estimation pipeline that explicitly compiles quantum circuits expressed using the Clifford+T gate set into a lower level instruction set made out of fault-tolerant operations on the surface code. The cadence of magic state requests from the compiled circuit enables the optimization of magic state distillation and storage requirements in a post-hoc analysis. To compile logical circuits, we build upon the open-source Lattice Surgery Compiler, which is extensible to different surface code compilation strategies within the lattice surgery paradigm. The revised compiler operates in two stages: the first translates logical gates into an abstract, layout-independent instruction set; the second compiles these into local lattice surgery instructions that are allocated to hardware tiles according to a specified resource layout. In the second stage, parallelism in the logical circuit is translated into parallelism within the fault-tolerant layer while avoiding resource contention, which allows the compiler to find a realistic number of logical time-steps to execute the circuit. The revised compiler also improves the handling of magic states by allowing users to specify dedicated hardware tiles at which magic states are replenished according to a user-specified rate, which allows resource costs from the logical computation to be considered independently from magic state distillation and storage. We demonstrate the applicability of our resource estimation pipeline to large, practical quantum circuits by providing resource estimates for the ground state estimation of molecules. We find that, unless carefully considered, the resource costs of magic state storage can dominate in real circuits which have variable magic state consumption rates. | 翻訳日:2023-11-20 13:41:06 公開日:2023-11-17 |
# 効率的な量子並列反復定理とその応用 An efficient quantum parallel repetition theorem and applications ( http://arxiv.org/abs/2311.10681v1 ) ライセンス: Link先を確認 | John Bostanci, Luowen Qian, Nicholas Spooner, Henry Yuen | (参考訳) 我々は,効率の良い挑戦者と効率のよい敵対者との間の3ドルの計算セキュアな量子対話プロトコルに対して,厳密な並列反復定理を証明した。
また,4ドル(約4,400円)のセキュアなプロトコルのセキュリティは,並列反復では一般的に低下しないという仮説を実証する。
これらは、bellare、impagliazzo、naor [bin97]の古典的な結果を反映している。
最後に、全ての量子論証系が等価な3$メッセージ論証系に総称的にコンパイル可能であることを証明し、量子証明系 [KW00, KKMV07] の変換を反映する。
直接の応用として、量子ビットコミットメントスキーム(yan [yan22] の問題に答える)、efiペア(bragerski, canetti, qian [bcq23] の問題に答える)、公開鍵量子マネースキーム(aaronson と christiano [ac13] の問題に答える)、量子ゼロ知識引数システムに対するハードネス増幅定理の導出方法を示す。
また、量子述語に対するXOR補題 [Yao82] を系として導出する。 We prove a tight parallel repetition theorem for $3$-message computationally-secure quantum interactive protocols between an efficient challenger and an efficient adversary. We also prove under plausible assumptions that the security of $4$-message computationally secure protocols does not generally decrease under parallel repetition. These mirror the classical results of Bellare, Impagliazzo, and Naor [BIN97]. Finally, we prove that all quantum argument systems can be generically compiled to an equivalent $3$-message argument system, mirroring the transformation for quantum proof systems [KW00, KKMV07]. As immediate applications, we show how to derive hardness amplification theorems for quantum bit commitment schemes (answering a question of Yan [Yan22]), EFI pairs (answering a question of Brakerski, Canetti, and Qian [BCQ23]), public-key quantum money schemes (answering a question of Aaronson and Christiano [AC13]), and quantum zero-knowledge argument systems. We also derive an XOR lemma [Yao82] for quantum predicates as a corollary. | 翻訳日:2023-11-20 13:40:41 公開日:2023-11-17 |
# スパース部分空間埋め込みのための最適埋め込み次元 Optimal Embedding Dimension for Sparse Subspace Embeddings ( http://arxiv.org/abs/2311.10680v1 ) ライセンス: Link先を確認 | Shabarish Chenakkod, Micha{\l} Derezi\'nski, Xiaoyu Dong, and Mark Rudelson | (参考訳) ランダム$m\times n$ matrix $S$ は、パラメータ $\epsilon>0$, $\delta\in(0,1/3)$ および $d\leq m\leq n$ が、任意の$d$-次元部分空間 $W\subseteq R^n$, $P\big(\,\forall_{x\in W}\ (1+\epsilon)^{-1}\|x\|\leq\|Sx\|\leq (1+\epsilon)\|x\|\|\\big)\geq 1-\delta であるときである。
任意の$\theta > 0$ に対して、$m\geq (1+\theta) d$ のガウス埋め込み行列は、$\epsilon = o_\theta(1)$ のオースである。
しかし、そのような最適埋め込み次元は他の埋め込みでは知られていない。
特に興味があるのはスパースosで、1カラムあたり$s\ll m$ non-zerosを持ち、最小二乗回帰や低ランク近似といった問題への応用がある。
任意の$\theta > 0$が与えられたとき、$m\times n$ random matrix $S$ with $m\geq (1+\theta)d$は、ランダムにスパースされた$\pm1/\sqrt s$エントリを持ち、$s= O(\log^4(d))$ non-zeros per column を持つ。
その結果、sparse oses が $m=o(d)$ 埋め込み次元を達成できると推測したnelson and nguyen (focs 2013) が提起した主要なオープン問題に対処し、cohen が示した $m=o(d\log(d))$ を改善した(soda 2016)。
これを応用して、現在の行列乗算時間よりも早く適用できる$O(d)$埋め込み次元による最初の難解な部分空間埋め込みを構築し、最小二乗回帰のための最適シングルパスアルゴリズムを得る。
さらに、この結果をさらに拡張して、低歪み$\epsilon=o(1)$ と最適な埋め込み次元 $m=O(d/\epsilon^2)$ で、現在の行列乗算時間で適用できる最初の部分空間の埋め込みを構築する。 A random $m\times n$ matrix $S$ is an oblivious subspace embedding (OSE) with parameters $\epsilon>0$, $\delta\in(0,1/3)$ and $d\leq m\leq n$, if for any $d$-dimensional subspace $W\subseteq R^n$, $P\big(\,\forall_{x\in W}\ (1+\epsilon)^{-1}\|x\|\leq\|Sx\|\leq (1+\epsilon)\|x\|\,\big)\geq 1-\delta.$ It is known that the embedding dimension of an OSE must satisfy $m\geq d$, and for any $\theta > 0$, a Gaussian embedding matrix with $m\geq (1+\theta) d$ is an OSE with $\epsilon = O_\theta(1)$. However, such optimal embedding dimension is not known for other embeddings. Of particular interest are sparse OSEs, having $s\ll m$ non-zeros per column, with applications to problems such as least squares regression and low-rank approximation. We show that, given any $\theta > 0$, an $m\times n$ random matrix $S$ with $m\geq (1+\theta)d$ consisting of randomly sparsified $\pm1/\sqrt s$ entries and having $s= O(\log^4(d))$ non-zeros per column, is an oblivious subspace embedding with $\epsilon = O_{\theta}(1)$. Our result addresses the main open question posed by Nelson and Nguyen (FOCS 2013), who conjectured that sparse OSEs can achieve $m=O(d)$ embedding dimension, and it improves on $m=O(d\log(d))$ shown by Cohen (SODA 2016). We use this to construct the first oblivious subspace embedding with $O(d)$ embedding dimension that can be applied faster than current matrix multiplication time, and to obtain an optimal single-pass algorithm for least squares regression. We further extend our results to construct even sparser non-oblivious embeddings, leading to the first subspace embedding with low distortion $\epsilon=o(1)$ and optimal embedding dimension $m=O(d/\epsilon^2)$ that can be applied in current matrix multiplication time. | 翻訳日:2023-11-20 13:40:18 公開日:2023-11-17 |
# 言語補正によるロボット操作における汎用知識の蒸留と検索 Distilling and Retrieving Generalizable Knowledge for Robot Manipulation via Language Corrections ( http://arxiv.org/abs/2311.10678v1 ) ライセンス: Link先を確認 | Lihan Zha, Yuchen Cui, Li-Heng Lin, Minae Kwon, Montserrat Gonzalez Arenas, Andy Zeng, Fei Xia, Dorsa Sadigh | (参考訳) 今日のロボットポリシーは、新しい環境への一般化という課題に直面した場合、劣等なパフォーマンスを示す。
人間の修正フィードバックは、そのような一般化を可能にするための重要なガイダンスである。
しかし、オンラインの人間の修正への適応と学習は、簡単ではない。ロボットは、新しい設定における適切な情報を取得し、介入率を減らすために、時間とともに人間のフィードバックを記憶する必要があるだけでなく、高いレベルの人間の好みに関する任意の修正や、スキルパラメータの低レベルの調整といったフィードバックに応答できる必要がある。
本稿では,言語フィードバックの任意の形式に応答し,修正から一般化可能な知識を抽出し,テキストや視覚的類似性に基づいて関連した過去の経験を検索し,新規な設定における性能向上を図る,大規模言語モデル(LLM)ベースのシステムであるDROCについて述べる。
DROCは、高レベルのタスクプランと低レベルのスキルプリミティブの両方の障害に対処する一連のオンライン言語修正に対応することができる。
DROCは、知識ベースにおけるオンライン修正のシーケンスから関連情報を効果的に蒸留し、その知識を新しいタスクやオブジェクトインスタンスの設定で回収することを示した。
DROCは、第1ラウンドに必要な修正の総数の半分しか使用せず、2回のイテレーション後にほとんど修正を必要とせず、LSMを通してロボットコードを直接生成する他の技術よりも優れている。
さらなる結果、ビデオ、プロンプト、コードをhttps://sites.google.com/stanford.edu/drocで示します。 Today's robot policies exhibit subpar performance when faced with the challenge of generalizing to novel environments. Human corrective feedback is a crucial form of guidance to enable such generalization. However, adapting to and learning from online human corrections is a non-trivial endeavor: not only do robots need to remember human feedback over time to retrieve the right information in new settings and reduce the intervention rate, but also they would need to be able to respond to feedback that can be arbitrary corrections about high-level human preferences to low-level adjustments to skill parameters. In this work, we present Distillation and Retrieval of Online Corrections (DROC), a large language model (LLM)-based system that can respond to arbitrary forms of language feedback, distill generalizable knowledge from corrections, and retrieve relevant past experiences based on textual and visual similarity for improving performance in novel settings. DROC is able to respond to a sequence of online language corrections that address failures in both high-level task plans and low-level skill primitives. We demonstrate that DROC effectively distills the relevant information from the sequence of online corrections in a knowledge base and retrieves that knowledge in settings with new task or object instances. DROC outperforms other techniques that directly generate robot code via LLMs by using only half of the total number of corrections needed in the first round and requires little to no corrections after two iterations. We show further results, videos, prompts and code on https://sites.google.com/stanford.edu/droc . | 翻訳日:2023-11-20 13:38:34 公開日:2023-11-17 |
# ランダム量子状態の非ゼロ平均量子ウィッシュアート分布 Non-Zero Mean Quantum Wishart Distribution Of Random Quantum States ( http://arxiv.org/abs/2311.10672v1 ) ライセンス: Link先を確認 | Shrobona Bagchi | (参考訳) ランダム量子状態は、量子情報科学の様々な分野で有用である。
ガウス分布を用いたランダム量子状態の分布は、量子情報科学の様々なシナリオで用いられている。
このうちの1つは、統計学で通常使われるウィッシュアート分布を用いて導出されるランダム量子状態の分布である。
このウィッシュアート分布を用いたランダム量子状態の分布は、最近量子ウィッシュアート分布と呼ばれるようになった。
量子ウィッシュアート分布は、以前の研究で一般共分散行列とゼロ平均行列を持つ非中央分布に対して発見されている。
ここでは、任意の一般階数1の平均行列と実空間と複素ヒルベルト空間の任意の次元に対する一般共分散行列を持つ非中央ウィッシュアート分布に関連するランダム量子状態の分布に対する閉形式式を求める。
これを非零平均量子ウィッシュアート分布と呼ぶ。 Random quantum states are useful in various areas of quantum information science. Distributions of random quantum states using Gaussian distributions have been used in various scenarios in quantum information science. One of this is the distribution of random quantum states derived using the Wishart distibution usually used in statistics. This distribution of random quantum states using the Wishart distribution has recently been named as the quantum Wishart distribution. The quantum Wishart distribution has been found for non-central distribution with a general covariance matrix and zero mean matrix in an earlier work. Here, we find out the closed form expression for the distribution of random quantum states pertaining to non-central Wishart distribution with any general rank one mean matrix and a general covariance matrix for arbitrary dimensions in both real and complex Hilbert space. We term this as the non-zero mean quantum Wishart distribution. | 翻訳日:2023-11-20 13:38:01 公開日:2023-11-17 |
# JaxMARL:JAXにおけるマルチエージェントRL環境 JaxMARL: Multi-Agent RL Environments in JAX ( http://arxiv.org/abs/2311.10090v2 ) ライセンス: Link先を確認 | Alexander Rutherford, Benjamin Ellis, Matteo Gallici, Jonathan Cook, Andrei Lupu, Gardar Ingvarsson, Timon Willi, Akbir Khan, Christian Schroeder de Witt, Alexandra Souly, Saptarashmi Bandyopadhyay, Mikayel Samvelyan, Minqi Jiang, Robert Tjarko Lange, Shimon Whiteson, Bruno Lacerda, Nick Hawes, Tim Rocktaschel, Chris Lu, Jakob Nicolaus Foerster | (参考訳) ベンチマークは、機械学習アルゴリズムの開発において重要な役割を果たす。
例えば、強化学習(RL)の研究は利用可能な環境やベンチマークに大きく影響されている。
しかし、RL環境は伝統的にCPU上で動作しており、典型的な学術計算ではスケーラビリティを制限している。
JAXの最近の進歩は、これらの計算ハードルを克服するためにハードウェアアクセラレーションを広く利用し、非常に並列なRLトレーニングパイプラインと環境を可能にしました。
これは特にマルチエージェント強化学習(MARL)研究に有用である。
第一に、複数のエージェントを各環境ステップで考慮し、計算負荷を加算し、第二に、非定常性、分散部分観測性、その他のMARL課題によりサンプルの複雑さが増大する。
本稿では,使いやすさとGPU有効性を組み合わせた最初のオープンソースコードベースであるJaxMARLについて紹介し,多くの一般的なMARL環境と一般的なベースラインアルゴリズムをサポートする。
ウォールクロック時間を考慮すると、JAXベースのトレーニングパイプラインの実行は既存のアプローチよりも最大で12500倍高速です。
これにより、効率よく徹底的な評価が可能となり、分野の評価危機を緩和する可能性がある。
また、スタークラフト・マルチエージェントチャレンジのベクトル化された簡易バージョンであるSMAXを導入し、ベンチマークを行い、スタークラフトIIのゲームエンジンを走らせる必要をなくした。
これはGPUアクセラレーションを可能にするだけでなく、より柔軟なMARL環境を提供する。
コードはhttps://github.com/flairox/jaxmarlで提供します。 Benchmarks play an important role in the development of machine learning algorithms. For example, research in reinforcement learning (RL) has been heavily influenced by available environments and benchmarks. However, RL environments are traditionally run on the CPU, limiting their scalability with typical academic compute. Recent advancements in JAX have enabled the wider use of hardware acceleration to overcome these computational hurdles, enabling massively parallel RL training pipelines and environments. This is particularly useful for multi-agent reinforcement learning (MARL) research. First of all, multiple agents must be considered at each environment step, adding computational burden, and secondly, the sample complexity is increased due to non-stationarity, decentralised partial observability, or other MARL challenges. In this paper, we present JaxMARL, the first open-source code base that combines ease-of-use with GPU enabled efficiency, and supports a large number of commonly used MARL environments as well as popular baseline algorithms. When considering wall clock time, our experiments show that per-run our JAX-based training pipeline is up to 12500x faster than existing approaches. This enables efficient and thorough evaluations, with the potential to alleviate the evaluation crisis of the field. We also introduce and benchmark SMAX, a vectorised, simplified version of the popular StarCraft Multi-Agent Challenge, which removes the need to run the StarCraft II game engine. This not only enables GPU acceleration, but also provides a more flexible MARL environment, unlocking the potential for self-play, meta-learning, and other future applications in MARL. We provide code at https://github.com/flairox/jaxmarl. | 翻訳日:2023-11-20 11:56:48 公開日:2023-11-17 |
# 安全な自律型クアドロター着陸のための視覚環境評価 Visual Environment Assessment for Safe Autonomous Quadrotor Landing ( http://arxiv.org/abs/2311.10065v2 ) ライセンス: Link先を確認 | Mattia Secchiero, Nishanth Bobbili, Yang Zhou, and Giuseppe Loianno | (参考訳) 安全着陸ゾーンの自律的識別と評価は、システム障害や低バッテリ、特定のタスクが完了した場合の航空機ロボットの安全性と有効性を保証する上で最重要事項である。
本稿では,安全な四段着陸のための着陸地点の検出と評価のための新しいアプローチを提案する。
2次元および3次元の環境情報を効率的に統合し,gpsや計算集約的高度マップなどの外部支援の必要性を解消する。
提案するパイプラインは,ニューラルネットワーク(NN)から派生した意味的データを用いて環境特徴を抽出し,不均一マップから得られる幾何学的データと組み合わせ,斜面,平坦性,粗さなどの重要な幾何学的属性を抽出する。
これらの属性に基づいて複数のコストメトリクスを定義し,環境内の領域の安全性,安定性,適合性を評価し,最も適切な着陸地点を特定する。
提案手法は,計算能力に制限のあるクオータ上でリアルタイムに実行される。
種々の環境下で実施した実験結果から,提案手法は適切な着陸地点を効果的に評価し,同定し,安全にかつ自律的に着陸できることを示した。 Autonomous identification and evaluation of safe landing zones are of paramount importance for ensuring the safety and effectiveness of aerial robots in the event of system failures, low battery, or the successful completion of specific tasks. In this paper, we present a novel approach for detection and assessment of potential landing sites for safe quadrotor landing. Our solution efficiently integrates 2D and 3D environmental information, eliminating the need for external aids such as GPS and computationally intensive elevation maps. The proposed pipeline combines semantic data derived from a Neural Network (NN), to extract environmental features, with geometric data obtained from a disparity map, to extract critical geometric attributes such as slope, flatness, and roughness. We define several cost metrics based on these attributes to evaluate safety, stability, and suitability of regions in the environments and identify the most suitable landing area. Our approach runs in real-time on quadrotors equipped with limited computational capabilities. Experimental results conducted in diverse environments demonstrate that the proposed method can effectively assess and identify suitable landing areas, enabling the safe and autonomous landing of a quadrotor. | 翻訳日:2023-11-20 11:56:21 公開日:2023-11-17 |
# 実世界のアプリケーションにおける言語モデルの監視と再トレーニングのためのフレームワーク A Framework for Monitoring and Retraining Language Models in Real-World Applications ( http://arxiv.org/abs/2311.09930v2 ) ライセンス: Link先を確認 | Jaykumar Kasundra, Claudia Schulz, Melicaalsadat Mirsafian, Stavroula Skylaki | (参考訳) 機械学習(ML)モデル開発ライフサイクルでは、オフラインのホールトアウトデータセットを使用して候補モデルをトレーニングし、与えられたタスクに最適なモデルを特定することが、第一歩に過ぎない。
選択されたモデルがデプロイされた後、多くの現実世界のアプリケーションで継続的モデル監視とモデル再トレーニングが必要とされる。
データやコンセプトドリフトなどの再トレーニングにはさまざまな理由があり、適切なメトリックによって監視されるモデルのパフォーマンスに反映される可能性がある。
もうひとつのリトレーニングの動機は、ドリフトがなくてもモデルパフォーマンスをトレーニングし改善するために使用される、時間とともに増加するデータの取得である。
マルチラベル分類モデルを用いて, モデル性能や資源利用などの重要な要因に対する各種リトレーニング決定点の影響について検討する。
重要な決定ポイントを説明し、効果的なモデル再訓練戦略を設計するための参照フレームワークを提案する。 In the Machine Learning (ML) model development lifecycle, training candidate models using an offline holdout dataset and identifying the best model for the given task is only the first step. After the deployment of the selected model, continuous model monitoring and model retraining is required in many real-world applications. There are multiple reasons for retraining, including data or concept drift, which may be reflected on the model performance as monitored by an appropriate metric. Another motivation for retraining is the acquisition of increasing amounts of data over time, which may be used to retrain and improve the model performance even in the absence of drifts. We examine the impact of various retraining decision points on crucial factors, such as model performance and resource utilization, in the context of Multilabel Classification models. We explain our key decision points and propose a reference framework for designing an effective model retraining strategy. | 翻訳日:2023-11-20 11:56:01 公開日:2023-11-17 |
# psybench: 基礎モデルのバランスと深い心理学的中国評価ベンチマーク PsyBench: a balanced and in-depth Psychological Chinese Evaluation Benchmark for Foundation Models ( http://arxiv.org/abs/2311.09861v2 ) ライセンス: Link先を確認 | Junlei Zhang, Hongliang He, Nirui Song, Shuyuan He, Shuai Zhang, Huachuan Qiu, Anqi Li, Lizhi Ma, Zhenzhong Lan | (参考訳) 大規模言語モデル(llm)は様々な分野で普及しているため、個々の分野に必要な知識をすべて包含するnlpベンチマークの改善が急務である。
基礎モデルのための多くの現代のベンチマークは幅広い主題を強調するが、すべての重要な主題を提示し、それらに必要な専門知識を包含するのに不足することが多い。
この欠点は、llmが異なる主題と知識領域で様々なパフォーマンスを示すことから、歪んだ結果に繋がった。
この問題に対処するため、中国初の総合的な評価スイートであるpsybenchを紹介し、卒業試験に必要な知識をすべて網羅する。
psybenchは、複数の選択の質問を通じて、モデルの強みと心理学の弱点を深く評価する。
本研究は,被験者の異なるセクションにおける性能の有意な差を示し,テストセットの知識のバランスが取れない場合の歪んだ結果のリスクを浮き彫りにした。
注目すべきなのは、chatgptモデルのみが平均で$70\%$を超える精度に達していることだ。
我々は, Psybench が基礎モデルの強みと弱みの徹底的な評価に役立ち, 心理学の分野での実践的応用を支援することを期待する。 As Large Language Models (LLMs) are becoming prevalent in various fields, there is an urgent need for improved NLP benchmarks that encompass all the necessary knowledge of individual discipline. Many contemporary benchmarks for foundational models emphasize a broad range of subjects but often fall short in presenting all the critical subjects and encompassing necessary professional knowledge of them. This shortfall has led to skewed results, given that LLMs exhibit varying performance across different subjects and knowledge areas. To address this issue, we present psybench, the first comprehensive Chinese evaluation suite that covers all the necessary knowledge required for graduate entrance exams. psybench offers a deep evaluation of a model's strengths and weaknesses in psychology through multiple-choice questions. Our findings show significant differences in performance across different sections of a subject, highlighting the risk of skewed results when the knowledge in test sets is not balanced. Notably, only the ChatGPT model reaches an average accuracy above $70\%$, indicating that there is still plenty of room for improvement. We expect that psybench will help to conduct thorough evaluations of base models' strengths and weaknesses and assist in practical application in the field of psychology. | 翻訳日:2023-11-20 11:55:48 公開日:2023-11-17 |
# ブレーキング境界:ディープワイヤレストラフィック予測におけるバランシング性能とロバスト性 Breaking Boundaries: Balancing Performance and Robustness in Deep Wireless Traffic Forecasting ( http://arxiv.org/abs/2311.09790v2 ) ライセンス: Link先を確認 | Romain Ilbert, Thai V. Hoang, Zonghua Zhang, Themis Palpanas | (参考訳) 正確性と堅牢性の間のトレードオフのバランスは、時系列予測における長年の課題である。
既存のロバストなアルゴリズムのほとんどは、クリーンなデータに対してある種の準最適性能を達成したが、データ摂動の存在下では同じパフォーマンスレベルを維持することは、非常に難しいままである。
本稿では,多種多様な摂動シナリオを考察し,実世界の通信データを用いた敵攻撃に対する防御機構を提案する。
我々は,$\ell_{\infty}$-norm,$\in [0.1,0.4]$で定義される最大許容摂動の範囲で,既存の2つの敵訓練アルゴリズムと比較する。
我々のハイブリッド戦略は, 敵対的サンプルを検出する分類器, 摂動データサンプルからノイズを除去するデノイザ, および標準予測器から構成されており, 清浄データと摂動データの両方で最高の性能を発揮する。
我々の最適モデルは、クリーンデータにおける平均正方形誤差(MSE)の観点から、元の予測モデルの性能を最大92.02\%保ちつつ、摂動データにおける標準的な逆トレーニングモデルよりも堅牢である。
MSEは2.71$\times$と2.51$\times$で、通常のデータと摂動データの比較値よりも低い。
さらに、モデルのコンポーネントを並列にトレーニングすることで、計算効率も向上します。
本研究は, 高度で破壊的な毒殺攻撃があっても, 分類器とデノイザーの改善により, 予測モデルの性能と堅牢性のトレードオフを最適にバランスできることを示す。 Balancing the trade-off between accuracy and robustness is a long-standing challenge in time series forecasting. While most of existing robust algorithms have achieved certain suboptimal performance on clean data, sustaining the same performance level in the presence of data perturbations remains extremely hard. In this paper, we study a wide array of perturbation scenarios and propose novel defense mechanisms against adversarial attacks using real-world telecom data. We compare our strategy against two existing adversarial training algorithms under a range of maximal allowed perturbations, defined using $\ell_{\infty}$-norm, $\in [0.1,0.4]$. Our findings reveal that our hybrid strategy, which is composed of a classifier to detect adversarial examples, a denoiser to eliminate noise from the perturbed data samples, and a standard forecaster, achieves the best performance on both clean and perturbed data. Our optimal model can retain up to $92.02\%$ the performance of the original forecasting model in terms of Mean Squared Error (MSE) on clean data, while being more robust than the standard adversarially trained models on perturbed data. Its MSE is 2.71$\times$ and 2.51$\times$ lower than those of comparing methods on normal and perturbed data, respectively. In addition, the components of our models can be trained in parallel, resulting in better computational efficiency. Our results indicate that we can optimally balance the trade-off between the performance and robustness of forecasting models by improving the classifier and denoiser, even in the presence of sophisticated and destructive poisoning attacks. | 翻訳日:2023-11-20 11:55:27 公開日:2023-11-17 |
# CDMPP:テンソルプログラムの遅延予測のためのデバイスモデル非依存フレームワーク CDMPP: A Device-Model Agnostic Framework for Latency Prediction of Tensor Programs ( http://arxiv.org/abs/2311.09690v2 ) ライセンス: Link先を確認 | Hanpeng Hu, Junwei Su, Juntao Zhao, Yanghua Peng, Yibo Zhu, Haibin Lin, Chuan Wu | (参考訳) Deep Neural Networks (DNN)は、幅広い機械学習アプリケーションで優れたパフォーマンスを示している。
特定のデバイス上でDNNモデルやテンソルプログラムを実行するレイテンシを知ることは、DNNグラフやテンソルレベルの最適化やデバイス選択など、さまざまなタスクで有用である。
全ての組み合わせの直接プロファイリングを妨げるDNNモデルとデバイスの大きなスペースを考えると、近年の取り組みは、異なるデバイス上でのDNNモデルのパフォーマンスをモデル化する予測器の構築に焦点を当てている。
しかし、既存のどの試みも、トレーニングと推論アクセラレータの両方をサポートしながら、様々なテンソルプログラムのパフォーマンスを正確に予測できるコストモデルを達成していない。
クロスモデルおよびクロスデバイス予測のための効率的なテンソルプログラム遅延予測フレームワークCDMPPを提案する。
我々は、テンソルプログラムの内部構造を捉えるために、コンパクトASTと呼ばれるテンソルプログラムの情報的かつ効率的な表現と、プレオーダーベースの位置符号化法を設計する。
我々は,ドメイン非不変表現を学習し,予測器が異なるドメイン(DNN演算子やデバイス)から学習するためのKMeansに基づくサンプリングアルゴリズムを考案するドメイン適応型手法を開発した。
多様なDNNモデルとデバイスに関する広範な実験により、CDMPPは、それぞれ14.03%と10.85%の予測誤差と1桁のトレーニング効率で、最先端のベースラインを著しく上回ることを示した。
実装と拡張されたデータセットはhttps://github.com/joapolarbear/cdmppで利用可能である。 Deep Neural Networks (DNNs) have shown excellent performance in a wide range of machine learning applications. Knowing the latency of running a DNN model or tensor program on a specific device is useful in various tasks, such as DNN graph- or tensor-level optimization and device selection. Considering the large space of DNN models and devices that impede direct profiling of all combinations, recent efforts focus on building a predictor to model the performance of DNN models on different devices. However, none of the existing attempts have achieved a cost model that can accurately predict the performance of various tensor programs while supporting both training and inference accelerators. We propose CDMPP, an efficient tensor program latency prediction framework for both cross-model and cross-device prediction. We design an informative but efficient representation of tensor programs, called compact ASTs, and a pre-order-based positional encoding method, to capture the internal structure of tensor programs. We develop a domain-adaption-inspired method to learn domain-invariant representations and devise a KMeans-based sampling algorithm, for the predictor to learn from different domains (i.e., different DNN operators and devices). Our extensive experiments on a diverse range of DNN models and devices demonstrate that CDMPP significantly outperforms state-of-the-art baselines with 14.03% and 10.85% prediction error for cross-model and cross-device prediction, respectively, and one order of magnitude higher training efficiency. The implementation and the expanded dataset are available at https://github.com/joapolarbear/cdmpp. | 翻訳日:2023-11-20 11:54:57 公開日:2023-11-17 |
# QAC0のパウリスペクトルについて On the Pauli Spectrum of QAC0 ( http://arxiv.org/abs/2311.09631v2 ) ライセンス: Link先を確認 | Shivam Nadimpalli, Natalie Parham, Francisca Vasconcelos, Henry Yuen | (参考訳) 回路クラス $\mathsf{QAC}^0$ はムーア (1999) によって、ゲート集合が多ビットトフォリゲートを含む定数深さ量子回路のモデルとして導入された。
そのような回路に対する下界の証明は、量子回路の複雑さにおける長年の挑戦であり、特に多項式サイズの$\mathsf{QAC}^0$がパリティ関数を計算できないことを示すことは、20年以上も未解決の問題のままである。
本研究では、古典的な$\mathsf{ac}^0$回路のフーリエスペクトルの量子アナログと見なすことができる、$\mathsf{qac}^0$回路のポーリスペクトルの概念を同定する。
我々は、$\mathsf{QAC}^0$回路のパウリスペクトルが、有名なLinial, Nisan, Mansour定理に類似して、$\mathsf{QAC}^0$回路の低次フーリエ濃度に対する低次濃度を満たすことを予想する。
もし真なら、この予想は直ちに多項式サイズ$\mathsf{QAC}^0$回路がパリティを計算できないことを意味する。
我々はこの予想を、少なくとも$n^{O(1/d)}$補助量子ビットを持つ深さ=d$、多項式サイズ$\mathsf{QAC}^0$回路のクラスで証明する。
この種類の回路は正しく計算できない - 入力の$(\frac{1}{2} + 2^{-\omega(n^{1/d})} 以上における$n$-bitパリティ関数、入力の$(11/\mathrm{poly}(n))$-fraction。
さらに、補助量子ビットが制限された $\mathsf{QAC}^0$ 回路のクラスは準ポリノミカル標本の複雑さで学習できることを示し、$\mathsf{QAC}^0$ 回路に対する最初の学習結果を与える。
より広い意味で、この結果は「ポール解析」技術が量子回路の研究に強力なツールとなる証拠を与える。 The circuit class $\mathsf{QAC}^0$ was introduced by Moore (1999) as a model for constant depth quantum circuits where the gate set includes many-qubit Toffoli gates. Proving lower bounds against such circuits is a longstanding challenge in quantum circuit complexity; in particular, showing that polynomial-size $\mathsf{QAC}^0$ cannot compute the parity function has remained an open question for over 20 years. In this work, we identify a notion of the Pauli spectrum of $\mathsf{QAC}^0$ circuits, which can be viewed as the quantum analogue of the Fourier spectrum of classical $\mathsf{AC}^0$ circuits. We conjecture that the Pauli spectrum of $\mathsf{QAC}^0$ circuits satisfies low-degree concentration, in analogy to the famous Linial, Nisan, Mansour theorem on the low-degree Fourier concentration of $\mathsf{AC}^0$ circuits. If true, this conjecture immediately implies that polynomial-size $\mathsf{QAC}^0$ circuits cannot compute parity. We prove this conjecture for the class of depth-$d$, polynomial-size $\mathsf{QAC}^0$ circuits with at most $n^{O(1/d)}$ auxiliary qubits. We obtain new circuit lower bounds and learning results as applications: this class of circuits cannot correctly compute - the $n$-bit parity function on more than $(\frac{1}{2} + 2^{-\Omega(n^{1/d})})$-fraction of inputs, and - the $n$-bit majority function on more than $(1 - 1/\mathrm{poly}(n))$-fraction of inputs. Additionally we show that this class of $\mathsf{QAC}^0$ circuits with limited auxiliary qubits can be learned with quasipolynomial sample complexity, giving the first learning result for $\mathsf{QAC}^0$ circuits. More broadly, our results add evidence that "Pauli-analytic" techniques can be a powerful tool in studying quantum circuits. | 翻訳日:2023-11-20 11:54:29 公開日:2023-11-17 |
# LymphoML:リンパ腫の亜型と相関する形態学的特徴を解釈可能な人工知能に基づく同定法 LymphoML: An interpretable artificial intelligence-based method identifies morphologic features that correlate with lymphoma subtype ( http://arxiv.org/abs/2311.09574v2 ) ライセンス: Link先を確認 | Vivek Shankar, Xiaoli Yang, Vrishab Krishna, Brent Tan, Oscar Silva, Rebecca Rojansky, Andrew Ng, Fabiola Valvert, Edward Briercheck, David Weinstock, Yasodha Natkunam, Sebastian Fernandez-Pol, Pranav Rajpurkar | (参考訳) ヘマトキシリンおよびエオシン(H&E)染色組織を用いたリンパ腫サブタイプの正確な分類は、これらのがんが示す様々な形態学的特徴によって複雑である。
LymphoMLは,リンパ腫のサブタイプと相関する形態的特徴を識別する,解釈可能な機械学習手法である。
本手法は,h&e染色組織マイクロアレイコア,セグメント核および細胞を処理し,形態,テクスチャおよびアーキテクチャを包含する特徴を計算し,勾配強調モデルを訓練して診断予測を行う。
LymphoMLの解釈可能なモデルは、限られた量のH&E染色組織に基づいて開発され、グアテマラから8種類のリンパ腫の亜型にまたがる670件のデータセットで、全スライディング画像とブラックボックスの深層学習を用いて、病理医に非臨床診断精度を実現する。
shapley additive description (shap) 分析を用いて,各特徴のモデル予測への影響を評価し,dlbcl (f1-score: 78.7%) と古典的ホジキンリンパ腫 (f1-score: 74.5%) の核形態特徴を識別する。
最後に,H&E陽性組織の特徴と6つの免疫染色の標準化パネルの特徴を組み合わせたモデルが,同様の診断精度(85.3%)から46染色パネル(86.1%)に至ることを初めて示す。 The accurate classification of lymphoma subtypes using hematoxylin and eosin (H&E)-stained tissue is complicated by the wide range of morphological features these cancers can exhibit. We present LymphoML - an interpretable machine learning method that identifies morphologic features that correlate with lymphoma subtypes. Our method applies steps to process H&E-stained tissue microarray cores, segment nuclei and cells, compute features encompassing morphology, texture, and architecture, and train gradient-boosted models to make diagnostic predictions. LymphoML's interpretable models, developed on a limited volume of H&E-stained tissue, achieve non-inferior diagnostic accuracy to pathologists using whole-slide images and outperform black box deep-learning on a dataset of 670 cases from Guatemala spanning 8 lymphoma subtypes. Using SHapley Additive exPlanation (SHAP) analysis, we assess the impact of each feature on model prediction and find that nuclear shape features are most discriminative for DLBCL (F1-score: 78.7%) and classical Hodgkin lymphoma (F1-score: 74.5%). Finally, we provide the first demonstration that a model combining features from H&E-stained tissue with features from a standardized panel of 6 immunostains results in a similar diagnostic accuracy (85.3%) to a 46-stain panel (86.1%). | 翻訳日:2023-11-20 11:53:43 公開日:2023-11-17 |
# RBPGAN:ビデオスーパーレゾリューションのためのリカレントバックプロジェクションGAN RBPGAN: Recurrent Back-Projection GAN for Video Super Resolution ( http://arxiv.org/abs/2311.09178v2 ) ライセンス: Link先を確認 | Israa Fahmy, Marwah Sulaiman, Zahraa Shehabeldin, Mohammed Barakat, Dareen Hussein, Mohammed El-Naggar, Hesham Eraqi, Moustafa Youssef | (参考訳) 近年,ビデオスーパーレゾリューション (VSR) はコンピュータビジョンの領域において,様々な用途で非常に影響力のある課題となっている。
本稿では,空間的詳細を保ちながら時間的コヒーレントな解を生成するために,vsrのためのバックプロジェクション生成逆ネットワーク(rbpgan)を提案する。
RBPGANは2つの最先端モデルを統合して、生成されたビデオの精度を損なうことなく、両方の世界で最高のものを得る。
モデルのジェネレータはRDPNシステムにインスパイアされ、識別器はTecoGANにインスパイアされている。
また,Ping-Pong損失を利用して時間とともに時間的整合性を高める。
我々のコントリビューションは、異なるデータセットを使用して定性的かつ定量的に示すように、時間的に一貫した詳細の観点から、初期の作業より優れているモデルをもたらす。 Recently, video super resolution (VSR) has become a very impactful task in the area of Computer Vision due to its various applications. In this paper, we propose Recurrent Back-Projection Generative Adversarial Network (RBPGAN) for VSR in an attempt to generate temporally coherent solutions while preserving spatial details. RBPGAN integrates two state-of-the-art models to get the best in both worlds without compromising the accuracy of produced video. The generator of the model is inspired by RBPN system, while the discriminator is inspired by TecoGAN. We also utilize Ping-Pong loss to increase temporal consistency over time. Our contribution together results in a model that outperforms earlier work in terms of temporally consistent details, as we will demonstrate qualitatively and quantitatively using different datasets. | 翻訳日:2023-11-20 11:53:16 公開日:2023-11-17 |
# マルチエージェント強化学習による屋内環境におけるマルチスター型NOMAのユーザペアリングとビームフォーミング設計 Joint User Pairing and Beamforming Design of Multi-STAR-RISs-Aided NOMA in the Indoor Environment via Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2311.08708v2 ) ライセンス: Link先を確認 | Yu Min Park, Yan Kyaw Tun, Choong Seon Hong | (参考訳) 現在の5Gネットワークを超える要件を持つ6G/B5G無線ネットワークの開発は、アカデミックや業界から関心を集めている。
しかし、6g/b5gネットワークの品質を向上させるため、地上基地局に依存する従来のセルラーネットワークは地理的にも経済的にも制約を受ける。
一方、NOMAでは複数のユーザが同じリソースを共有できるため、システムのスペクトル効率が向上し、より多くのユーザをサポートする利点がある。
さらに、反射信号と伝送信号の両方の位相と振幅をインテリジェントに操作することで、スターrisはカバー率の向上、スペクトル効率の向上、通信信頼性の向上を実現できる。
しかし、STAR-RISは反射と透過に対応する振幅と位相のシフトを同時に最適化する必要があるため、既存の地上ネットワークはより複雑になり、大きな課題となっている。
以上のことから,室内環境におけるNOMAのユーザペアリングとマルチSTAR-RISのビームフォーミング設計について検討した。
次に、復号順序、ユーザペアリング、アクティブビームフォーミング、受動ビームフォーミングを共同で最適化することにより、MUの総スループットを最大化する目的で最適化問題を定式化する。
しかし、定式化問題は MINLP である。
この課題に対処するために,まずNOMAネットワークのデコード順序を導入する。
次に、元の問題を2つのサブプロブレムに分解する。
1)MUペアリングとMUペアリング
2)最適復号順序でのビームフォーミング最適化
最初の部分問題として,相関型k平均クラスタリングを用いてユーザペアリング問題を解決する。
そこで本研究では,ビームフォーミングベクトル最適化を共同で扱うMAPPOを提案する。 The development of 6G/B5G wireless networks, which have requirements that go beyond current 5G networks, is gaining interest from academia and industry. However, to increase 6G/B5G network quality, conventional cellular networks that rely on terrestrial base stations are constrained geographically and economically. Meanwhile, NOMA allows multiple users to share the same resources, which improves the spectral efficiency of the system and has the advantage of supporting a larger number of users. Additionally, by intelligently manipulating the phase and amplitude of both the reflected and transmitted signals, STAR-RISs can achieve improved coverage, increased spectral efficiency, and enhanced communication reliability. However, STAR-RISs must simultaneously optimize the amplitude and phase shift corresponding to reflection and transmission, which makes the existing terrestrial networks more complicated and is considered a major challenging issue. Motivated by the above, we study the joint user pairing for NOMA and beamforming design of Multi-STAR-RISs in an indoor environment. Then, we formulate the optimization problem with the objective of maximizing the total throughput of MUs by jointly optimizing the decoding order, user pairing, active beamforming, and passive beamforming. However, the formulated problem is a MINLP. To address this challenge, we first introduce the decoding order for NOMA networks. Next, we decompose the original problem into two subproblems, namely: 1) MU pairing and 2) Beamforming optimization under the optimal decoding order. For the first subproblem, we employ correlation-based K-means clustering to solve the user pairing problem. Then, to jointly deal with beamforming vector optimizations, we propose MAPPO, which can make quick decisions in the given environment owing to its low complexity. | 翻訳日:2023-11-20 11:53:00 公開日:2023-11-17 |
# UMedNeRF:医療用ニューラルラジアンスフィールドのための不確かさを意識した単一ビューボリュームレンダリング UMedNeRF: Uncertainty-aware Single View Volumetric Rendering for Medical Neural Radiance Fields ( http://arxiv.org/abs/2311.05836v3 ) ライセンス: Link先を確認 | Jing Hu, Qinrui Fan, Shu Hu, Siwei Lyu, Xi Wu, Xin Wang | (参考訳) 臨床医学の分野ではCT(Computerd tomography)は様々な病態の診断に有効な医用画像モダリティである。
X線画像と比較すると、CT画像は多平面スライスや臨床診断のための3次元構造など、より多くの情報を提供することができる。
しかし、CT画像では、患者が大量の電離放射線に長時間曝されることが要求され、これは不可逆的な身体的損傷を引き起こす可能性がある。
本稿では,発生した放射場に基づく不確実性を考慮したMedNeRF(UMedNeRF)ネットワークを提案する。
ネットワークは、内部構造と深度情報を取得し、適応損失重みを用いて2次元X線画像からCT投影の連続表現を学習し、生成画像の品質を確保する。
本モデルは, 人工膝関節と胸部データセットを用いて訓練し, 単一のX線によるCTプロジェクションレンダリングの結果を示し, 生成放射線場に基づく他の方法との比較を行った。 In the field of clinical medicine, computed tomography (CT) is an effective medical imaging modality for the diagnosis of various pathologies. Compared with X-ray images, CT images can provide more information, including multi-planar slices and three-dimensional structures for clinical diagnosis. However, CT imaging requires patients to be exposed to large doses of ionizing radiation for a long time, which may cause irreversible physical harm. In this paper, we propose an Uncertainty-aware MedNeRF (UMedNeRF) network based on generated radiation fields. The network can learn a continuous representation of CT projections from 2D X-ray images by obtaining the internal structure and depth information and using adaptive loss weights to ensure the quality of the generated images. Our model is trained on publicly available knee and chest datasets, and we show the results of CT projection rendering with a single X-ray and compare our method with other methods based on generated radiation fields. | 翻訳日:2023-11-20 11:52:07 公開日:2023-11-17 |
# 強化学習における近似のある種のネイティブ空間における収束率 Rates of Convergence in Certain Native Spaces of Approximations used in Reinforcement Learning ( http://arxiv.org/abs/2309.07383v4 ) ライセンス: Link先を確認 | Ali Bouland, Shengyuan Niu, Sai Tej Paruchuri, Andrew Kurdila, John Burns, Eugenio Schuster | (参考訳) 本稿では、再生カーネルヒルベルト空間(RKHS)$H(\Omega)$の集合に生じる値関数近似の収束率について研究する。
自然空間の特定のクラスに最適制御問題をキャストすることにより、ポリシー反復に現れるオフライン近似を可能にする演算子方程式に対して強い収束率が導出される。
値関数とコントローラ近似における誤差の明示的な上限は、ネイティブ空間 $h(\omega)$ における有限次元近似値 $h_n$ の空間に対して、パワー関数 $\mathcal{p}_{h,n}$ によって導かれる。
これらの境界は自然界において幾何学的であり、値関数の近似の収束に関する古典的結果のいくつかを洗練している。 This paper studies convergence rates for some value function approximations that arise in a collection of reproducing kernel Hilbert spaces (RKHS) $H(\Omega)$. By casting an optimal control problem in a specific class of native spaces, strong rates of convergence are derived for the operator equation that enables offline approximations that appear in policy iteration. Explicit upper bounds on error in value function and controller approximations are derived in terms of power function $\mathcal{P}_{H,N}$ for the space of finite dimensional approximants $H_N$ in the native space $H(\Omega)$. These bounds are geometric in nature and refine some well-known, now classical results concerning convergence of approximations of value functions. | 翻訳日:2023-11-20 11:51:39 公開日:2023-11-17 |