このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230901となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# Wikipediaの利用データを強力なプライバシー保証付きで公開
Publishing Wikipedia usage data with strong privacy guarantees ( http://arxiv.org/abs/2308.16298v2 ) ライセンス: Link先を確認 | Temilola Adeleye, Skye Berghel, Damien Desfontaines, Michael Hay, Isaac Johnson, Cléo Lemoisson, Ashwin Machanavajjhala, Tom Magerlein, Gabriele Modena, David Pujol, Daniel Simmons-Marengo, Hal Triedman, | (参考訳) 約20年間、ウィキメディア財団はウィキペディアの各ページを毎日何人訪問したかという統計を公表してきた。
このデータは、ウィキペディアの編集者がオンライン百科事典を改善するためにどこに力を注ぐかを決めるのに役立ち、学術的な研究を可能にする。
2023年6月、ウィキメディア財団はTumult Labsの支援を受け、ウィキペディアの編集者や学術研究者からの長年の要請に応えた。
この新たなデータパブリッシングは、ウィキペディアを閲覧または編集する人々に堅牢な保証を提供するために、差分プライバシーを使用する。
本稿では、このデータ公開について、その目標、その展開の開始から続くプロセス、データ生成に使用されるアルゴリズム、およびデータリリースの結果について説明する。
For almost 20 years, the Wikimedia Foundation has been publishing statistics about how many people visited each Wikipedia page on each day. This data helps Wikipedia editors determine where to focus their efforts to improve the online encyclopedia, and enables academic research. In June 2023, the Wikimedia Foundation, helped by Tumult Labs, addressed a long-standing request from Wikipedia editors and academic researchers: it started publishing these statistics with finer granularity, including the country of origin in the daily counts of page views. This new data publication uses differential privacy to provide robust guarantees to people browsing or editing Wikipedia. This paper describes this data publication: its goals, the process followed from its inception to its deployment, the algorithms used to produce the data, and the outcomes of the data release. | 翻訳日:2024-03-19 07:03:01 公開日:2023-09-01 |
# 低トラストアーキテクチャのセキュリティ検証
Security Verification of Low-Trust Architectures ( http://arxiv.org/abs/2309.00181v1 ) ライセンス: Link先を確認 | Qinhan Tan, Yonathan Fisseha, Shibo Chen, Lauren Biernacki, Jean-Baptiste Jeannin, Sharad Malik, Todd Austin, | (参考訳) 低信頼アーキテクチャは、ソフトウェアの観点からは、常に暗号化されたデータを使用し、ハードウェア信頼の量を小さなソフトウェアフリーなエンクレーブコンポーネントに大幅に削減する。
本稿では,特定の低信頼アーキテクチャであるSequestered Encryption (SE) アーキテクチャの完全検証を行い,その設計が全てのプログラムに対して直接データ開示やデジタルサイドチャネルに対して安全であることを示す。
まず、SE低信頼アーキテクチャのISAのセキュリティ要件を定義します。
上向きに見ると、このISAはソフトウェアのためのハードウェアの抽象化として機能し、これらの命令を構成するプログラムが、どのように情報を漏らすことができないかを示すために使用される。
下向きに見ると、このISAはハードウェアの仕様であり、ISAレベルのセキュリティ要件から生じるRTL実装の証明義務を定義するために使用される。
これらは、機能的およびデジタル的なサイドチャネルリークの両方をカバーする。
次に,これらの証明義務を,商用の形式的検証ツールを用いてうまく解約できることを示す。
我々は,SEアーキテクチャの7つの異なる正バグ実装に対するRTLセキュリティ検証手法の有効性を実証する。
Low-trust architectures work on, from the viewpoint of software, always-encrypted data, and significantly reduce the amount of hardware trust to a small software-free enclave component. In this paper, we perform a complete formal verification of a specific low-trust architecture, the Sequestered Encryption (SE) architecture, to show that the design is secure against direct data disclosures and digital side channels for all possible programs. We first define the security requirements of the ISA of SE low-trust architecture. Looking upwards, this ISA serves as an abstraction of the hardware for the software, and is used to show how any program comprising these instructions cannot leak information, including through digital side channels. Looking downwards this ISA is a specification for the hardware, and is used to define the proof obligations for any RTL implementation arising from the ISA-level security requirements. These cover both functional and digital side-channel leakage. Next, we show how these proof obligations can be successfully discharged using commercial formal verification tools. We demonstrate the efficacy of our RTL security verification technique for seven different correct and buggy implementations of the SE architecture. | 翻訳日:2024-03-19 07:03:01 公開日:2023-09-01 |
# MIMOCrypt:MIMO暗号化によるマルチユーザプライバシ保護Wi-Fiセンシング
MIMOCrypt: Multi-User Privacy-Preserving Wi-Fi Sensing via MIMO Encryption ( http://arxiv.org/abs/2309.00250v1 ) ライセンス: Link先を確認 | Jun Luo, Hangcheng Cao, Hongbo Jiang, Yanbing Yang, Zhe Chen, | (参考訳) Wi-Fi信号は、低コストで非侵襲的な人間のセンシングを実現するのに役立ちますが、盗聴器を使って個人情報を捕捉することもできます。
これまでのところ、このプライバシー問題に対処する研究はほとんどない。すべてのセンシングの試みを妨害するか、単一のセンシングユーザのみをサポートするための高度な技術に依存しているか、マルチユーザシナリオでは現実的ではない。
さらに、これらの提案はすべてWi-Fiのマルチイン・マルチアウト(MIMO)機能を利用することができない。
そこで本研究では,現実的なマルチユーザシナリオをサポートするプライバシー保護型Wi-FiセンシングフレームワークMIMOCryptを提案する。
MIMOCryptは、正当なユーザに対するセンシングおよび通信能力を保ちながら、不正な盗聴を防止するために、MIMOを利用してWi-Fiチャネルを物理的に暗号化し、知覚された人間の活動を物理的平文として扱うことを革新する。
暗号化スキームは最適化フレームワークを通じてさらに強化され、バランスをとることを目的としている。
一 盗難の危険
二 精度、及び
三 正統な利用者に復号鍵を確実に伝達し、通信品質
我々は、SDRプラットフォーム上でMIMOCryptのプロトタイプを実装し、一般的なアプリケーションシナリオ、特にプライバシーに敏感な人間のジェスチャー認識において、その有効性を評価するための広範な実験を行った。
Wi-Fi signals may help realize low-cost and non-invasive human sensing, yet it can also be exploited by eavesdroppers to capture private information. Very few studies rise to handle this privacy concern so far; they either jam all sensing attempts or rely on sophisticated technologies to support only a single sensing user, rendering them impractical for multi-user scenarios. Moreover, these proposals all fail to exploit Wi-Fi's multiple-in multiple-out (MIMO) capability. To this end, we propose MIMOCrypt, a privacy-preserving Wi-Fi sensing framework to support realistic multi-user scenarios. To thwart unauthorized eavesdropping while retaining the sensing and communication capabilities for legitimate users, MIMOCrypt innovates in exploiting MIMO to physically encrypt Wi-Fi channels, treating the sensed human activities as physical plaintexts. The encryption scheme is further enhanced via an optimization framework, aiming to strike a balance among i) risk of eavesdropping, ii) sensing accuracy, and iii) communication quality, upon securely conveying decryption keys to legitimate users. We implement a prototype of MIMOCrypt on an SDR platform and perform extensive experiments to evaluate its effectiveness in common application scenarios, especially privacy-sensitive human gesture recognition. | 翻訳日:2024-03-19 07:03:01 公開日:2023-09-01 |
# Account Abstraction, Analysed
Account Abstraction, Analysed ( http://arxiv.org/abs/2309.00448v1 ) ライセンス: Link先を確認 | Qin Wang, Shiping Chen, | (参考訳) EIP-\hlhref{https://eips.ethereum.org/EIPS/eip-3074}{4337} は、アカウント抽象化(AA)の基礎標準として統合されている。
AAは、ユーザアクセシビリティを高め、機能の拡張を促進することを目的としている。
予想通り、AAの展開は、多くの新規ユーザーを引きつけ、DAppsのさらなるイノベーションを火付けようとしている。
本稿では,この新概念の基盤となる動作機構を解明するとともに,その開発に関する会計・財布・標準の同時進行を概観する。
さらに、AA更新によるセキュリティ強化の程度を質的に評価するために、予備的なセキュリティ評価を実施する。
Ethereum recently unveiled its upcoming roadmap's \textit{Splurge} phase, highlighting the integration of EIP-\hlhref{https://eips.ethereum.org/EIPS/eip-3074}{4337} as a foundational standard for account abstraction (AA). AA aims to enhance user accessibility and facilitate the expansion of functionalities. Anticipatedly, the deployment of AA is poised to attract a broad spectrum of new users and ignite further innovation in DApps. In this paper, we elucidate the underlying operating mechanisms of this new concept, as well as provide a review of concurrent advancements in accounts, wallets, and standards related to its development. We step further by conducting a preliminary security evaluation to qualitatively assess the extent of security enhancements achieved through AA updates. | 翻訳日:2024-03-19 07:03:01 公開日:2023-09-01 |
# 船体メタバースにおけるデジタル双極子マイグレーションのプライバシ攻撃と防御
Privacy Attacks and Defenses for Digital Twin Migrations in Vehicular Metaverses ( http://arxiv.org/abs/2309.00477v1 ) ライセンス: Link先を確認 | Xiaofeng Luo, Jinbo Wen, Jiawen Kang, Jiangtian Nie, Zehui Xiong, Yang Zhang, Zhaohui Yang, Shengli Xie, | (参考訳) 知的輸送システムとメタバース技術が徐々に融合し、仮想空間と物理空間を融合する車体メタバースが生まれつつある。
VTはVehicular Metaverse Users(VMU)のデジタルレプリカであり、VMUへのカスタマイズを容易にする。
VTはRoadSide Units (RSU) で確立され、十分な計算資源とストレージ資源を持つ。
RSUの通信範囲が限られており、VMUのモビリティが高いため、VMUのリアルタイムかつシームレスなサービスを保証するために、VTはRSU間で移行する必要がある。
しかしながら、VTマイグレーションの間、VT間の物理仮想同期と大規模な通信は、VMUとVTの同一性および位置プライバシー開示を引き起こす可能性がある。
本稿では,車載メタバースにおけるプライバシー問題とそれに対応するVTマイグレーション対策について検討する。
VTマイグレーション中に、まず4種類の特定のプライバシ攻撃を提示する。
そこで本研究では,VMU-VTの2つの擬似化方式と,これらの攻撃を防御するための同期擬似化フレームワークを提案する。
さらに、擬似的変化に対する平均プライバシーエントロピーを評価し、在庫理論に基づく擬似的分布の数を最適化する。
数値計算の結果,提案方式におけるVMUの平均効用は等分布方式よりも33.8%高く,提案方式の優位性を示している。
The gradual fusion of intelligent transportation systems with metaverse technologies is giving rise to vehicular metaverses, which blend virtual spaces with physical space. As indispensable components for vehicular metaverses, Vehicular Twins (VTs) are digital replicas of Vehicular Metaverse Users (VMUs) and facilitate customized metaverse services to VMUs. VTs are established and maintained in RoadSide Units (RSUs) with sufficient computing and storage resources. Due to the limited communication coverage of RSUs and the high mobility of VMUs, VTs need to be migrated among RSUs to ensure real-time and seamless services for VMUs. However, during VT migrations, physical-virtual synchronization and massive communications among VTs may cause identity and location privacy disclosures of VMUs and VTs. In this article, we study privacy issues and the corresponding defenses for VT migrations in vehicular metaverses. We first present four kinds of specific privacy attacks during VT migrations. Then, we propose a VMU-VT dual pseudonym scheme and a synchronous pseudonym change framework to defend against these attacks. Additionally, we evaluate average privacy entropy for pseudonym changes and optimize the number of pseudonym distribution based on inventory theory. Numerical results show that the average utility of VMUs under our proposed schemes is 33.8% higher than that under the equal distribution scheme, demonstrating the superiority of our schemes. | 翻訳日:2024-03-19 07:03:01 公開日:2023-09-01 |
# 新規ランサムウェアキャンペーンの時間横断的検出:マルチモーダルアラートアプローチ
Cross-temporal Detection of Novel Ransomware Campaigns: A Multi-Modal Alert Approach ( http://arxiv.org/abs/2309.00700v1 ) ライセンス: Link先を確認 | Sathvik Murli, Dhruv Nandakumar, Prabhat Kumar Kushwaha, Cheng Wang, Christopher Redino, Abdul Rahman, Shalini Israni, Tarun Singh, Edward Bowen, | (参考訳) 本研究では,被害者ネットワーク内の攻撃タイムライン表現からランサムウェアを識別する手法を提案する。
複数のアラートソースから開発された悪意あるアクティビティプロファイルは、アラートグラフの構築をサポートする。
このアプローチにより、個々のノードが悪意のあるアクティビティ検出を、潜在的な攻撃経路を記述するコネクションで表現する、攻撃タイムラインの効果的でスケーラブルな表現が可能になる。
この研究は、潜在的に低次元のノード機能にもかかわらず有効性を保ちながら警告グラフを解析・分類する新しい方法を実装することで、異なる攻撃パターンへの適応性を実証する。
We present a novel approach to identify ransomware campaigns derived from attack timelines representations within victim networks. Malicious activity profiles developed from multiple alert sources support the construction of alert graphs. This approach enables an effective and scalable representation of the attack timelines where individual nodes represent malicious activity detections with connections describing the potential attack paths. This work demonstrates adaptability to different attack patterns through implementing a novel method for parsing and classifying alert graphs while maintaining efficacy despite potentially low-dimension node features. | 翻訳日:2024-03-19 06:53:05 公開日:2023-09-01 |
# ディープラーニングスタックにおける依存性バグの最小化 Demystifying Dependency Bugs in Deep Learning Stack ( http://arxiv.org/abs/2207.10347v2 ) ライセンス: Link先を確認 | Kaifeng Huang, Bihuan Chen, Susheng Wu, Junmin Cao, Lei Ma, Xin Peng | (参考訳) ディープラーニング(DL)アプリケーションは、異種で複雑なDLスタック(Nvidia GPU、Linux、CUDAドライバ、Pythonランタイム、TensorFlowなど)の上に構築され、DLスタック全体にわたるソフトウェアとハードウェアの依存関係を被る。
エンジニアリングライフサイクル全体にわたる依存性管理の課題の1つは、非同期で急進的な進化と依存関係間の複雑なバージョン制約によって引き起こされる。
開発者は依存関係の選択、使用、メンテナンスに依存性バグ(DB)を導入することができる。
しかし、DLスタックのDBの特性はまだ未定であり、DLスタックの依存性管理に対する実践的な解決策を妨げている。
このギャップを埋めるため,本研究では,stackoverflow ポストおよび github 課題から収集した 446 db を用いて,dl スタック全体の db の症状,根本原因,修正パターンを特徴付ける最初の包括的な研究を行う。
各DBについて、まず、症状が露出するライフサイクルステージと依存性と同様に、症状を調査する。
次に、根本原因とライフサイクルステージと、根本原因が導入された依存性を分析する。
最後に、修正パターンと修正に使用される知識ソースについて検討する。
本研究から得られた知見は,依存性管理の実践的意義を浮き彫りにした。 Deep learning (DL) applications, built upon a heterogeneous and complex DL stack (e.g., Nvidia GPU, Linux, CUDA driver, Python runtime, and TensorFlow), are subject to software and hardware dependencies across the DL stack. One challenge in dependency management across the entire engineering lifecycle is posed by the asynchronous and radical evolution and the complex version constraints among dependencies. Developers may introduce dependency bugs (DBs) in selecting, using and maintaining dependencies. However, the characteristics of DBs in DL stack is still under-investigated, hindering practical solutions to dependency management in DL stack. To bridge this gap, this paper presents the first comprehensive study to characterize symptoms, root causes and fix patterns of DBs across the whole DL stack with 446 DBs collected from StackOverflow posts and GitHub issues. For each DB, we first investigate the symptom as well as the lifecycle stage and dependency where the symptom is exposed. Then, we analyze the root cause as well as the lifecycle stage and dependency where the root cause is introduced. Finally, we explore the fix pattern and the knowledge sources that are used to fix it. Our findings from this study shed light on practical implications on dependency management. | 翻訳日:2023-10-24 15:17:59 公開日:2023-09-01 |
# 経験的ソフトウェアエンジニアリングデータの因果解析に向けて:プログラミング言語がコーディング競争に与える影響 Towards Causal Analysis of Empirical Software Engineering Data: The Impact of Programming Languages on Coding Competitions ( http://arxiv.org/abs/2301.07524v6 ) ライセンス: Link先を確認 | Carlo A. Furia, Richard Torkar, Robert Feldt | (参考訳) ソフトウェア工学領域には豊富な観測データがあるが、大規模に制御された実験の実行は事実上不可能であることが多い。
したがって、ほとんどの実証研究は、より洞察力と堅牢な因果関係ではなく、統計的相関のみを報告できる。
因果関係のための純粋観測データの解析を支援し,同一データの純粋予測モデルと因果関係モデルの違いを評価するために,構造因果モデル(因果ベイズネットワークの有向非巡回グラフなど)に基づく新しい手法について論じる。
これらの手法を用いることで、因果仮説を厳密に表現し、部分的に検証し、因果情報を用いて真正な因果関係を捉える統計的モデルの構築を導くことができる。
これらのアイデアを,Googleが毎年開催している世界規模のコーディングコンテストCode Jamで,プログラマのパフォーマンスに関する公開データの解析に適用する。
具体的には、コンテストの参加者のパフォーマンスに異なるプログラミング言語が与える影響について考察する。
プログラミング言語に関連する全体的な効果は、相関性や因果関係を考慮しても、他の変数と比較して弱いが、純粋に関連性のあるデータと全く同じデータの因果関係の分析の間にはかなりの違いがある。
得られたメッセージは、観測データの完全な因果分析でさえ、純粋に予測された技術よりも厳密な研究課題に、より正確に、より堅牢に答えることができるということだ。 There is abundant observational data in the software engineering domain, whereas running large-scale controlled experiments is often practically impossible. Thus, most empirical studies can only report statistical correlations -- instead of potentially more insightful and robust causal relations. To support analyzing purely observational data for causal relations, and to assess any differences between purely predictive and causal models of the same data, this paper discusses some novel techniques based on structural causal models (such as directed acyclic graphs of causal Bayesian networks). Using these techniques, one can rigorously express, and partially validate, causal hypotheses; and then use the causal information to guide the construction of a statistical model that captures genuine causal relations -- such that correlation does imply causation. We apply these ideas to analyzing public data about programmer performance in Code Jam, a large world-wide coding contest organized by Google every year. Specifically, we look at the impact of different programming languages on a participant's performance in the contest. While the overall effect associated with programming languages is weak compared to other variables -- regardless of whether we consider correlational or causal links -- we found considerable differences between a purely associational and a causal analysis of the very same data. The takeaway message is that even an imperfect causal analysis of observational data can help answer the salient research questions more precisely and more robustly than with just purely predictive techniques -- where genuine causal effects may be confounded. | 翻訳日:2023-10-24 13:37:50 公開日:2023-09-01 |
# GPTCloneBench: GPT-3モデルとSemanticCloneBenchを用いたセマンティッククローンとクロス言語クローンの総合ベンチマーク GPTCloneBench: A comprehensive benchmark of semantic clones and cross-language clones using GPT-3 model and SemanticCloneBench ( http://arxiv.org/abs/2308.13963v2 ) ライセンス: Link先を確認 | Ajmain Inqiad Alam, Palash Ranjan Roy, Farouq Al-omari, Chanchal Kumar Roy, Banani Roy, Kevin Schneider | (参考訳) 機械学習の出現により、さまざまな領域にわたる問題解決にその能力を活用することが急増した。
コードクローンの領域では、タイプ4またはセマンティッククローンの識別が決定的に難しいタスクとして現れている。
研究者は機械学習を使ってこの課題に取り組み、BigCloneBenchデータセットに依存することが多い。
しかし、bigclonebenchは元々セマンティッククローン検出用に設計されていないが、この特定の目的のために総合的なトレーニングデータセットとして適合性を妨げるいくつかの制限がある。
さらに、CLCDSAデータセットは、実世界のソフトウェアシステムと整合した再利用可能な例が欠如しており、言語間のクローン検出アプローチでは不十分である。
本稿では,SemanticCloneBenchとOpenAIのGPT-3モデルを利用して,包括的セマンティッククローンとクロス言語クローンベンチマークGPTCloneBenchを提案する。
特に、semanticclonebenchのコードフラグメントをサンプル入力として、gpt-3モデルの適切なプロンプトエンジニアリングとともに、これらの特定のフラグメントのためのセマンティックおよびクロス言語クローンを生成し、広範な手動分析、ツール支援フィルタリング、機能テスト、ベンチマーク構築における自動検証を組み合わせて実施する。
79,928組のgpt-3出力から,37,149の真意味クローンペア,19,288の偽意味ペア(type-1/type-2),20,770の言語間クローン(java,c,c#,python)を用いたベンチマークを作成した。
我々のベンチマークはSemanticCloneBenchよりも15倍大きく、CLCDSAよりもソフトウェアシステムやプログラミング言語サポートのコード例が多く、BigCloneBenchの品質、定量化、言語多様性の制限を克服しています。 With the emergence of Machine Learning, there has been a surge in leveraging its capabilities for problem-solving across various domains. In the code clone realm, the identification of type-4 or semantic clones has emerged as a crucial yet challenging task. Researchers aim to utilize Machine Learning to tackle this challenge, often relying on the BigCloneBench dataset. However, it's worth noting that BigCloneBench, originally not designed for semantic clone detection, presents several limitations that hinder its suitability as a comprehensive training dataset for this specific purpose. Furthermore, CLCDSA dataset suffers from a lack of reusable examples aligning with real-world software systems, rendering it inadequate for cross-language clone detection approaches. In this work, we present a comprehensive semantic clone and cross-language clone benchmark, GPTCloneBench by exploiting SemanticCloneBench and OpenAI's GPT-3 model. In particular, using code fragments from SemanticCloneBench as sample inputs along with appropriate prompt engineering for GPT-3 model, we generate semantic and cross-language clones for these specific fragments and then conduct a combination of extensive manual analysis, tool-assisted filtering, functionality testing and automated validation in building the benchmark. From 79,928 clone pairs of GPT-3 output, we created a benchmark with 37,149 true semantic clone pairs, 19,288 false semantic pairs(Type-1/Type-2), and 20,770 cross-language clones across four languages (Java, C, C#, and Python). Our benchmark is 15-fold larger than SemanticCloneBench, has more functional code examples for software systems and programming language support than CLCDSA, and overcomes BigCloneBench's qualities, quantification, and language variety limitations. | 翻訳日:2023-10-23 12:37:47 公開日:2023-09-01 |
# 通信システムのモニタリングと保守 : 課題と研究の展望 Monitoring and Maintenance of Telecommunication Systems: Challenges and Research Perspectives ( http://arxiv.org/abs/2309.00697v1 ) ライセンス: Link先を確認 | Lakmal Silva, Michael Unterkalmsteiner, Krzysztof Wnuk | (参考訳) 本稿では,ericssonにおける大規模通信システムの監視と保守に関する課題について述べる。
システムは、レガシとモダンの両方のシステムで構成されており、絶えず変化し、ビジネスニーズの変化に適応する必要がある。
この論文は、このようなシステムを設計、開発、保守し、現在の課題と今後の研究への道筋を指摘した経験に基づいています。 In this paper, we present challenges associated with monitoring and maintaining a large telecom system at Ericsson that was developed with high degree of component reuse. The system constitutes of multiple services, composed of both legacy and modern systems that are constantly changing and need to be adapted to changing business needs. The paper is based on firsthand experience from architecting, developing and maintaining such a system, pointing out current challenges and potential avenues for future research that might contribute to addressing them. | 翻訳日:2023-10-23 09:14:29 公開日:2023-09-01 |
# ブラウンフィールド生産システムのディジタルツイン生産のための方法論の質的および定量的評価 Qualitative and quantitative evaluation of a methodology for the Digital Twin creation of brownfield production systems ( http://arxiv.org/abs/2310.04422v1 ) ライセンス: Link先を確認 | Dominik Braun, Nasser Jazdi, Wolfgang Schloegl, Michael Weyrich | (参考訳) デジタル・ツイン(Digital Twin)は、産業4.0のよく知られた概念であり、仮想コミッショニングや予測保守などの利点を提供するサイバー物理生産システムのサイバー部分である。
既存の生産システムは、時間とエラーが発生しやすいプロセスで手動で作成しなければならないデジタル双生児を欠いている。
そこで,既存の生産システムのディジタルモデル作成手法とそれらの関係性を開発した。
本稿では,多分野間関係の創出のための方法論の実装と,方法論のメリットを定量的かつ質的に評価する。 The Digital Twin is a well-known concept of industry 4.0 and is the cyber part of a cyber-physical production system providing several benefits such as virtual commissioning or predictive maintenance. The existing production systems are lacking a Digital Twin which has to be created manually in a time-consuming and error-prone process. Therefore, methods to create digital models of existing production systems and their relations between them were developed. This paper presents the implementation of the methodology for the creation of multi-disciplinary relations and a quantitative and qualitative evaluation of the benefits of the methodology. | 翻訳日:2023-10-23 04:24:57 公開日:2023-09-01 |
# テクノソリューション主義の神話を貫くICTイノベーションの役割 Role of ICT Innovation in Perpetuating the Myth of Techno-Solutionism ( http://arxiv.org/abs/2309.12355v1 ) ライセンス: Link先を確認 | Srinjoy Mitra, Jean-Pierre Raskin, Mario Pansera | (参考訳) 情報通信技術の革新は、テクノロジー依存の世界における重要な経済要因の1つになっています。
一般的な概念では、テクノロジー産業やICTがよく知られていることは、近代化を促進するすべての技術と同義語になっている。
デジタル技術が普及し、ICTの革新に完全には影響されない、あるいは部分的に影響されない新しい技術開発を想像するのは難しい。
さらに、過去数十年におけるICT分野のイノベーションのペースは、人類の歴史において前例のないものであった。
この論文では、ICTがコミュニケーションと生産の方法に大きな影響を与えているだけでなく、このイノベーションのパラダイムは、より広い範囲でテクノロジーが実際に提供できるものに対する、集合的な期待と想像力を決定的に形作りました。
これらの期待はしばしば、技術解決主義の一般大衆や政策立案者の間で広く受け入れられた。
これは、ICTに制限されない技術は、貧困や不平等から生態系の損失、気候変動まで、人類が直面するあらゆる問題を解決することができるという信念である。
本稿では、絶え間ないICTイノベーションの多くの影響について述べる。
この分野の壮大な進歩は、その恩恵を享受する企業力と相まって、現在と未来に影響を及ぼす邪悪な問題の複雑さを無視するテクノ最適化の非批判的な物語の政府や産業の取り込みを促進した。 Innovation in Information and Communication Technology has become one of the key economic drivers of our technology dependent world. In popular notion, the tech industry or how ICT is often known has become synonymous to all technologies that drive modernity. Digital technologies have become so pervasive that it is hard to imagine new technology developments that are not totally or partially influenced by ICT innovations. Furthermore, the pace of innovation in ICT sector over the last few decades has been unprecedented in human history. In this paper we argue that, not only ICT had a tremendous impact on the way we communicate and produce but this innovation paradigm has crucially shaped collective expectations and imagination about what technology more broadly can actually deliver. These expectations have often crystalised into a widespread acceptance, among general public and policy makers, of technosolutionism. This is a belief that technology not restricted to ICT alone can solve all problems humanity is facing from poverty and inequality to ecosystem loss and climate change. In this paper we show the many impacts of relentless ICT innovation. The spectacular advances in this sector, coupled with corporate power that benefits from them have facilitated the uptake by governments and industries of an uncritical narrative of techno-optimist that neglects the complexity of the wicked problems that affect the present and future of humanity. | 翻訳日:2023-10-01 12:58:16 公開日:2023-09-01 |
# 学習管理システム(LMS)技術によるeラーニングシステムの強化:学習者体験の再構築 Enhancing E-Learning System Through Learning Management System (LMS) Technologies: Reshape The Learner Experience ( http://arxiv.org/abs/2309.12354v1 ) ライセンス: Link先を確認 | Cecilia P. Abaricia (1), Manuel Luis C. Delos Santos (2), ((1)(2) Asian Institute of Computer Studies, Quezon City, Philippines) | (参考訳) 本稿では,LMS Webポータルアプリケーションが,データマイニングアルゴリズムを用いたE-Learning Management Systemを通じて学習者の体験を満足させるかを決定することを目的とする。
研究者が用いた方法論は、説明事項の意味や意義の解釈を含む記述的研究である。
統計的データ処理のための質問紙,調査,研究に関する観測結果,およびカイ二乗式からの収集データ。
調査の結果,LMS Webポータルアプリケーションが,平均重み付き平均値(AWM)を用いて学習者の経験を満足させる程度,任意のデバイスにおける学習者のフレキシブルなエンゲージメントは高い満足度,パーソナライズ学習トラッカーは高い満足度,学習専門家とのコラボレーションは高い満足度,ユーザフレンドリーな指導ツールの提供は満足度,エビデント学習の進歩と関与度,満足度を満足度に評価できることがわかった。
最終分析では、このE-Learningシステムは、チャット、仮想クラス、学生支援リソース、個人およびグループ監視、LMSを最大限の効率で活用する評価など、あらゆる教育的ニーズに適合することができる。
さらに、このプラットフォームはハイブリッド学習の提供にも利用できる。 This paper aims to determine how the LMS Web portal application reshapes the learner experience through the developed E-Learning Management System using Data Mining Algorithm. The methodology that the researchers used is descriptive research involving the interpretation of the meaning or significance of what is described. Gather data from questionnaires, surveys, observations concerned with the study, and the chi-square formula for the statistical treatment of data. The findings of the study, the extent that LMS Web portal application reshapes the learner experience in terms of the following variables with the Average Weighted Mean (AWM): Flexible engagement of Learners in any device is highly satisfied; Personalize learning tracker is highly satisfied; Collaborating with the Learning Expert is highly satisfied; Provides user-friendly Teaching Tools is satisfied; Evident Learner Progress and Involvement and is satisfied. In the final analysis, this E-Learning System can fit any educational needs as follows: chat, virtual classes, supportive resources for the students, individual and group monitoring, and assessment using LMS as maximum efficiency. Moreover, this platform can be used to deliver hybrid learning. | 翻訳日:2023-10-01 12:57:51 公開日:2023-09-01 |
# 周期有向グラフにおけるマルコフ等価性の確立 Establishing Markov Equivalence in Cyclic Directed Graphs ( http://arxiv.org/abs/2309.03092v1 ) ライセンス: Link先を確認 | Tom Claassen, Joris M. Mooij | (参考訳) 我々は,有向グラフ間のマルコフ同値性を確立するための,新しい効率的な手順を提案する。
循環同値定理(英: cyclic equivalence theorem, cet)は、トーマス・リチャードソン(thomas richardson)が90年代中ごろに発表した循環モデルに関する記号論の定理である。
結果として特徴づけられた特徴は、もはやd-分離のテストを必要としないグラフ間のマルコフ同値性を確立する手順につながり、アルゴリズムの複雑さが大幅に減少する。
概念的に単純化された特徴は、潜在的共同設立者の存在下での音と完全な循環的発見に対する理論的研究を再活性化するのに役立ちうる。
このバージョンは、Theorem 1における規則(iv)の修正と、アルゴリズム2の部分2におけるその後の修正を含む。 We present a new, efficient procedure to establish Markov equivalence between directed graphs that may or may not contain cycles under the \textit{d}-separation criterion. It is based on the Cyclic Equivalence Theorem (CET) in the seminal works on cyclic models by Thomas Richardson in the mid '90s, but now rephrased from an ancestral perspective. The resulting characterization leads to a procedure for establishing Markov equivalence between graphs that no longer requires tests for d-separation, leading to a significantly reduced algorithmic complexity. The conceptually simplified characterization may help to reinvigorate theoretical research towards sound and complete cyclic discovery in the presence of latent confounders. This version includes a correction to rule (iv) in Theorem 1, and the subsequent adjustment in part 2 of Algorithm 2. | 翻訳日:2023-09-10 03:48:59 公開日:2023-09-01 |
# 求人問題としての自動誘導車両(AGV)のスケジューリングのための量子準備 Quantum readiness for scheduling of Automatic Guided Vehicles (AGVs) as job-shop problem ( http://arxiv.org/abs/2309.03088v1 ) ライセンス: Link先を確認 | Tomasz \'Smiechrzalski, {\L}ukasz Pawela, Bart{\l}omiej Gardas, Zbigniew Pucha{\l}a, M\'aty\'as Koniorczyk, Krzysztof Domino | (参考訳) 自動誘導車(agvs)のスケジューリングのための実生活生産環境に基づく事例研究を行った。
線形プログラミングモデルは、所定の経路とタスク割り当てでAGVをスケジューリングするために定式化される。
新しいモデルを用いることで、15AGVの中間サイズのインスタンス(すべて工場の最も重要な部分の大部分を接続する同じメインレーンを使用する)を、CPLEXソルバでほぼ数秒で解くことができる。
このモデルは、ノイズのある中間サイズ量子(NISQ)デバイス(D-Wave BQMおよびCQM)の最先端のハイブリッド量子古典解法でも解決される。
cplexと同様に動作し、モデルの ‘quantum readiness’' を示すことが判明した。
ハイブリッドソルバはゼロでない量子処理時間を報告するため、その量子部分は解効率に寄与する。 A case study based on a real-life production environment for the scheduling of automated guided vehicles (AGVs) is presented. A linear programming model is formulated for scheduling AGVs with given paths and task assignments. Using the new model, a moderate size instance of 15 AGVs (all using the same main lane connecting most of the crucial parts of the factory) can be solved approximately with a CPLEX solver in seconds. The model is also solved with a state-of-the art hybrid quantum-classical solver of the noisy intermediate size quantum (NISQ) devices' era (D-Wave BQM and CQM). It is found that it performs similarly to CPLEX, thereby demonstrating the ``quantum readiness'' of the model. The hybrid solver reports non-zero quantum processing times, hence, its quantum part contributes to the solution efficiency. | 翻訳日:2023-09-10 03:48:41 公開日:2023-09-01 |
# スパースラジアル基底関数ニューラルネットワークによるマルチスケール楕円問題の解法 Solving multiscale elliptic problems by sparse radial basis function neural networks ( http://arxiv.org/abs/2309.03107v1 ) ライセンス: Link先を確認 | Zhiwen Wang, Minxin Chen, Jingrun Chen | (参考訳) 近年、機械学習は科学計算の様々な分野に適用されている。
本研究では,多スケール係数を持つ楕円偏微分方程式(PDE)を解くために,スパースラジアル基底関数ニューラルネットワーク法を提案する。
深層混合残差法に着想を得て,2次問題を1次システムに書き換え,複数の放射基底関数ニューラルネットワーク(RBFNN)を用いて未知の関数を近似する。
RBFNNの単純さによる過度な適合を回避するため、損失関数に新たな正規化を導入する。
したがって、損失関数は、一階系と境界条件の残余に対する$L_2$損失と、放射基底関数の重みに対する$\ell_1$正規化項(RBF)の2つの部分を含む。
特定の損失関数を最適化するアルゴリズムを導入し、トレーニングプロセスを高速化する。
提案手法の精度と有効性は,1次元から3次元までのスケール分離,不連続性,複数スケールのマルチスケール問題の集合を通して実証される。
特に、$\ell_1$正規化はRBFを減らすことでソリューションを表現するという目標を達成することができる。
その結果、RBFの総数は$\mathcal{O}(\varepsilon^{-n\tau})$のようにスケールし、$\varepsilon$は最小のスケール、$n$は次元であり、$\tau$は通常$$よりも小さい。
提案手法は,古典的手法が一般的に手頃な価格ではない3次元の数値解を提供するだけでなく,精度と堅牢性の観点から,他の機械学習手法よりも優れていることに留意する必要がある。 Machine learning has been successfully applied to various fields of scientific computing in recent years. In this work, we propose a sparse radial basis function neural network method to solve elliptic partial differential equations (PDEs) with multiscale coefficients. Inspired by the deep mixed residual method, we rewrite the second-order problem into a first-order system and employ multiple radial basis function neural networks (RBFNNs) to approximate unknown functions in the system. To aviod the overfitting due to the simplicity of RBFNN, an additional regularization is introduced in the loss function. Thus the loss function contains two parts: the $L_2$ loss for the residual of the first-order system and boundary conditions, and the $\ell_1$ regularization term for the weights of radial basis functions (RBFs). An algorithm for optimizing the specific loss function is introduced to accelerate the training process. The accuracy and effectiveness of the proposed method are demonstrated through a collection of multiscale problems with scale separation, discontinuity and multiple scales from one to three dimensions. Notably, the $\ell_1$ regularization can achieve the goal of representing the solution by fewer RBFs. As a consequence, the total number of RBFs scales like $\mathcal{O}(\varepsilon^{-n\tau})$, where $\varepsilon$ is the smallest scale, $n$ is the dimensionality, and $\tau$ is typically smaller than $1$. It is worth mentioning that the proposed method not only has the numerical convergence and thus provides a reliable numerical solution in three dimensions when a classical method is typically not affordable, but also outperforms most other available machine learning methods in terms of accuracy and robustness. | 翻訳日:2023-09-10 03:35:40 公開日:2023-09-01 |
# ランク付けによる実用的プログラム合成の精度向上 Amortizing Pragmatic Program Synthesis with Rankings ( http://arxiv.org/abs/2309.03225v1 ) ライセンス: Link先を確認 | Yewen Pu, Saujas Vaduguru, Priyan Vaithilingam, Elena Glassman, Daniel Fried | (参考訳) プログラム合成において、インテリジェントシステムはユーザ生成例の集合を取り込み、これらの例と論理的に整合したプログラムを返す。
The usage of Rational Speech Acts (RSA) framework has been successful in building \emph{pragmatic} program synthesizers that return programs which -in addition to being logically consistent -- account for the fact that a user chooses their examples informatively. However, the computational burden of running the RSA algorithm has restricted the application of pragmatic program synthesis to domains with a small number of possible programs. This work presents a novel method of amortizing the RSA algorithm by leveraging a \emph{global pragmatic ranking} -- a single, total ordering of all the hypotheses.
一つの実演を用いた実用的シンセサイザーの場合、我々のグローバルランキング法はRSAのランク付け応答を正確に再現する。
さらに、グローバルランキングは、オンライン・マルチデモレーション・セッティングにおける全実用的シンセサイザーを効果的に近似することを実証的に示す。
実用的ランキング法を用いて2つのプログラム合成領域の実験を行った結果,RSAシンセサイザーよりも精度が向上し,非実用的シンセサイザーよりも優れていた。 In program synthesis, an intelligent system takes in a set of user-generated examples and returns a program that is logically consistent with these examples. The usage of Rational Speech Acts (RSA) framework has been successful in building \emph{pragmatic} program synthesizers that return programs which -- in addition to being logically consistent -- account for the fact that a user chooses their examples informatively. However, the computational burden of running the RSA algorithm has restricted the application of pragmatic program synthesis to domains with a small number of possible programs. This work presents a novel method of amortizing the RSA algorithm by leveraging a \emph{global pragmatic ranking} -- a single, total ordering of all the hypotheses. We prove that for a pragmatic synthesizer that uses a single demonstration, our global ranking method exactly replicates RSA's ranked responses. We further empirically show that global rankings effectively approximate the full pragmatic synthesizer in an online, multi-demonstration setting. Experiments on two program synthesis domains using our pragmatic ranking method resulted in orders of magnitudes of speed ups compared to the RSA synthesizer, while outperforming the standard, non-pragmatic synthesizer. | 翻訳日:2023-09-10 03:28:28 公開日:2023-09-01 |
# 列車はまだ乗れない。
エネルギー関数によるモンテカルロ木探索による大規模言語モデルの非定常数学的推論 No Train Still Gain. Unleash Mathematical Reasoning of Large Language Models with Monte Carlo Tree Search Guided by Energy Function ( http://arxiv.org/abs/2309.03224v1 ) ライセンス: Link先を確認 | Haotian Xu | (参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)タスクや挑戦的な数学的推論を含む、印象的な言語理解と文脈内学習能力を示す。
しかし、プロセススーパービジョンの欠如により、数学的推論タスクにplmを適用すると、解が高い確率を持つにもかかわらず、正しい推論ステップと最終答えを生成することができないことが多い。
微粒化LLMの数学的推論をさらに微粒化することなく解き放つために,モンテカルロ木探索(MCTS)による即時反応および微粒化推論システムと,決定ステップをランク付けするための光エネルギー関数を併用する手法を提案する。
特に,我々はまず残留エネルギーモデル~(Residual-EBM)に微調整LLMを再構成し,ノイズコントラスト推定を適用してエネルギー関数のパラメータを推定する。
次に,エネルギー関数を持つMCTSを経路検証器として,出力空間を探索し,推論経路を評価する。
GSM8k と MATH という2つの数学的推論ベンチマークに関する広範な実験を通じて、より微細化や RLHF のアライメントをかなりのマージンで行うことなく、微調整モデルのpass@1を改善する手法の異常な能力を明らかにする。 Large language models (LLMs) exhibit impressive language understanding and in-context learning abilities including natural language processing (NLP) tasks and challenging mathematical reasoning. However, due to the lack of process-supervision, applying PLMs to mathematical reasoning tasks often fail to generate correct reasoning steps and final answer even though solutions have high probabilities. To unleash the mathematical reasoning of finetuned-LLMs without any further fineutuning steps, we propose a method to endow LLMs with immediate reaction and delicate reasoning system via Monte Carlo Tree Search(MCTS) and a light energy function to rank the decision steps. In particular, We first re-formalize the finetuned-LLMs to a Residual-based Energy Model~(Residual-EBM) and apply noise contrastive estimation to estimate the parameters of energy function . Then we use MCTS with energy function as path verifier to search the output space and evaluating the reasoning path. Through extensive experiments on two mathematical reasoning benchmarks, namely GSM8k and MATH, we reveal the extraordinary capabilities of our method that improve the pass@1 of the finetuned-model without further finetuning or RLHF alignment by a substantial margin. | 翻訳日:2023-09-10 03:28:09 公開日:2023-09-01 |
# 家族履歴情報収集におけるチャットボットの有効性の検討 : 標準対面面接アプローチとの比較 Examining the Effectiveness of Chatbots in Gathering Family History Information in Comparison to the Standard In-Person Interview-Based Approach ( http://arxiv.org/abs/2309.03223v1 ) ライセンス: Link先を確認 | Kieron Drumm, Vincent Tran | (参考訳) 系譜学者が担当する最も一般的なことの1つは、系図学者が構築できる強固な基盤を提供することができるため、通常、対面インタビューや ancestry.com のようなプラットフォームの使用を通じて、人物の初期家族歴の収集である。
しかし、これらの面接を行う能力は、面接者の地理的制約と技術的熟練度の両方によって妨げられることが多く、面接担当者は、平均的な技術熟練度よりも低い高齢者であることが多い。
このことを念頭に置いて,本研究では,家族史の収集をめざした最初のチャットボットとして,このような手法の性能とユーザビリティを,前述の方法と比較し,そのようなチャットボットの利用可能性について検討する。
チャットボットをベースとしたアプローチでは,ユーザによるインタビューの実施に要する平均時間は,親子関係を利用したり,対人インタビューに参加した場合よりも長くなるかもしれないが,UIとプロセスに関するミスの数とユーザの混乱度は,他の2つの方法よりも低い。
ユーザの混乱に関する最後の指標は、UIの欠如のため、対面インタビューセッションには適用できないことに注意してください。
リファインメントにより、このチャットボットの使用は、特に対面インタビューを行うことができない他の国を拠点とする面接者を扱う場合に、系譜学者にとって貴重なツールになり得ると信じている。 One of the most common things that a genealogist is tasked with is the gathering of a person's initial family history, normally via in-person interviews or with the use of a platform such as ancestry.com, as this can provide a strong foundation upon which a genealogist may build. However, the ability to conduct these interviews can often be hindered by both geographical constraints and the technical proficiency of the interviewee, as the interviewee in these types of interviews is most often an elderly person with a lower than average level of technical proficiency. With this in mind, this study presents what we believe, based on prior research, to be the first chatbot geared entirely towards the gathering of family histories, and explores the viability of utilising such a chatbot by comparing the performance and usability of such a method with the aforementioned alternatives. With a chatbot-based approach, we show that, though the average time taken to conduct an interview may be longer than if the user had used ancestry.com or participated in an in-person interview, the number of mistakes made and the level of confusion from the user regarding the UI and process required is lower than the other two methods. Note that the final metric regarding the user's confusion is not applicable for the in-person interview sessions due to its lack of a UI. With refinement, we believe this use of a chatbot could be a valuable tool for genealogists, especially when dealing with interviewees who are based in other countries where it is not possible to conduct an in-person interview. | 翻訳日:2023-09-10 03:27:42 公開日:2023-09-01 |
# シャーロック・ホームズはサイードを演じない:社会科学と生命科学における証拠理論の意義 Sherlock Holmes Doesn't Play Dice: The significance of Evidence Theory for the Social and Life Sciences ( http://arxiv.org/abs/2309.03222v1 ) ライセンス: Link先を確認 | V. L. Raju Chinthalapati and Guido Fioretti | (参考訳) エビデンス理論 (Demster-Shafer Theory, Belief Functions Theory) はデータ融合においてますます使われてきているが、社会科学と生命科学におけるその可能性はしばしば、その特徴に対する認識の欠如によって曖昧になっている。
この論文では、証拠理論は、事象が実現され、誰も解明できないという恐れから生じる不確実性を表現することができると強調する。
対照的に、確率論は意思決定者が現在検討している可能性に制限されなければならない。
次に,確率論の様々なバージョンに対するベイズの理論と,デンプスター・シェーファーの組合せルールがどのように関連しているかを説明し,情報理論のどの応用をエビデンス理論によって拡張できるかについて議論する。
最後に、我々の主張を、監査演習に現れる部分的に重なり合う、部分的に矛盾する解を理解するためにエビデンス理論が用いられる例で説明する。 While Evidence Theory (Demster-Shafer Theory, Belief Functions Theory) is being increasingly used in data fusion, its potentialities in the Social and Life Sciences are often obscured by lack of awareness of its distinctive features. With this paper we stress that Evidence Theory can express the uncertainty deriving from the fear that events may materialize, that one has not been able to figure out. By contrast, Probability Theory must limit itself to the possibilities that a decision-maker is currently envisaging. Subsequently, we illustrate how Dempster-Shafer's combination rule relates to Bayes' Theorem for various versions of Probability Theory and discuss which applications of Information Theory can be enhanced by Evidence Theory. Finally, we illustrate our claims with an example where Evidence Theory is used to make sense of the partially overlapping, partially contradictory solutions that appear in an auditing exercise. | 翻訳日:2023-09-10 03:27:11 公開日:2023-09-01 |
# ディープラーニングフレームワークにおけるサイレントバグ:KerasとTensorFlowの実証的研究 Silent Bugs in Deep Learning Frameworks: An Empirical Study of Keras and TensorFlow ( http://arxiv.org/abs/2112.13314v2 ) ライセンス: Link先を確認 | Florian Tambon, Amin Nikanjam, Le An, Foutse Khomh, Giuliano Antoniol | (参考訳) ディープラーニング(DL)フレームワークは今や広く使われており、複雑なモデルの作成を単純化し、DLの専門家でない人たちにも様々なアプリケーションとの統合が可能である。
しかし、他のプログラムと同様に、それらはバグを起こしやすい。
本稿では,無声バグと呼ばれるバグのサブカテゴリを扱い,誤った動作を導くが,システムクラッシュやハングを発生させることなく,エラーメッセージをユーザに提示する。
このようなバグは、dlアプリケーションやフレームワークにおいて、システムの"ブラックボックス"と確率的性質(エンドユーザはモデルがどのように意思決定するかを理解できない)のため、さらに危険である。
本稿では,kerasとtensorflowのサイレントバグに関する最初の実証研究と,そのユーザプログラムへの影響について述べる。
我々はTensorFlow GitHubリポジトリからKerasに関するクローズドな問題を抽出した。
収集した1,168件の問題のうち,77件がユーザのプログラムに影響を与えるサイレントバグを再現可能としていた。
ユーザのプログラムや問題が発生したコンポーネントへの影響に基づいてバグを分類し,イシューレポートの情報を用いてバグを分類した。
次に、ユーザプログラムに対する影響に基づいて、各問題に対する脅威レベルを導出しました。
特定カテゴリとインパクト尺度との関連性を評価するため,103人のDL開発者を対象にオンライン調査を行った。
参加者は概してdlライブラリにおけるサイレントバグの重大な影響に同意し、我々の発見(サイレントバグのカテゴリと提案されたインパクトスケール)を認めた。
最後に、分析の活用により、dlフレームワークのこのようなバグに対する保護を容易にするためのガイドラインのセットを提供します。 Deep Learning (DL) frameworks are now widely used, simplifying the creation of complex models as well as their integration to various applications even to non DL experts. However, like any other programs, they are prone to bugs. This paper deals with the subcategory of bugs named silent bugs: they lead to wrong behavior but they do not cause system crashes or hangs, nor show an error message to the user. Such bugs are even more dangerous in DL applications and frameworks due to the "black-box" and stochastic nature of the systems (the end user can not understand how the model makes decisions). This paper presents the first empirical study of Keras and TensorFlow silent bugs, and their impact on users' programs. We extracted closed issues related to Keras from the TensorFlow GitHub repository. Out of the 1,168 issues that we gathered, 77 were reproducible silent bugs affecting users' programs. We categorized the bugs based on the effects on the users' programs and the components where the issues occurred, using information from the issue reports. We then derived a threat level for each of the issues, based on the impact they had on the users' programs. To assess the relevance of identified categories and the impact scale, we conducted an online survey with 103 DL developers. The participants generally agreed with the significant impact of silent bugs in DL libraries and acknowledged our findings (i.e., categories of silent bugs and the proposed impact scale). Finally, leveraging our analysis, we provide a set of guidelines to facilitate safeguarding against such bugs in DL frameworks. | 翻訳日:2023-09-07 12:24:35 公開日:2023-09-01 |
# ディープラーニングの階層的分布認識テスト Hierarchical Distribution-Aware Testing of Deep Learning ( http://arxiv.org/abs/2205.08589v2 ) ライセンス: Link先を確認 | Wei Huang, Xingyu Zhao, Alec Banks, Victoria Cox and Xiaowei Huang | (参考訳) 深層学習(DL)は、安全クリティカルなアプリケーションでますます使われており、信頼性への懸念が高まっている。
DLは堅牢性に欠けるよく知られた問題に悩まされており、特に敵対的摂動(adversarial Examples, AEs)に直面している。
近年の攻撃・試験手法によるAE検出の試みにもかかわらず、これらの手法はしばしば摂動の入力分布と知覚品質を見落としている。
その結果、検出されたAEは実用的応用には関係しないかもしれないし、人間の観察者には非現実的に見えるかもしれない。
これにより、実世界の使用中にほとんど発生しないまれなaesのテストリソースを浪費し、dlモデル依存性の改善を制限できる。
本稿では,特徴レベル分布と画素レベル分布の両方を考慮し,逆摂動の知覚的品質を捉える新しいロバストネステスト手法を提案する。
2つの考慮事項は、新しい階層的なメカニズムによって符号化される。
まず, 特徴量分布の密度と, 対向ロバスト性の脆弱性に基づいて, 試験種を選択する。
試験種子の脆弱性は, 局所的強靭性に強く相関する補助情報によって示される。
そこで我々は,新しい遺伝的アルゴリズムを用いた局所的テストケース生成法を開発し,検出されたAEの知覚品質を制御するために2つのフィットネス機能を代替的に機能させる。
最後に, 階層分布を考慮した包括的アプローチは, 入力分布を無視したり, 単一(階層的でない)分布のみを考慮する技術よりも, 知覚不可能なAEの検出だけでなく, テスト中のDLモデルの全体的な堅牢性の向上にも優れていることを示す。 Deep Learning (DL) is increasingly used in safety-critical applications, raising concerns about its reliability. DL suffers from a well-known problem of lacking robustness, especially when faced with adversarial perturbations known as Adversarial Examples (AEs). Despite recent efforts to detect AEs using advanced attack and testing methods, these approaches often overlook the input distribution and perceptual quality of the perturbations. As a result, the detected AEs may not be relevant in practical applications or may appear unrealistic to human observers. This can waste testing resources on rare AEs that seldom occur during real-world use, limiting improvements in DL model dependability. In this paper, we propose a new robustness testing approach for detecting AEs that considers both the feature level distribution and the pixel level distribution, capturing the perceptual quality of adversarial perturbations. The two considerations are encoded by a novel hierarchical mechanism. First, we select test seeds based on the density of feature level distribution and the vulnerability of adversarial robustness. The vulnerability of test seeds are indicated by the auxiliary information, that are highly correlated with local robustness. Given a test seed, we then develop a novel genetic algorithm based local test case generation method, in which two fitness functions work alternatively to control the perceptual quality of detected AEs. Finally, extensive experiments confirm that our holistic approach considering hierarchical distributions is superior to the state-of-the-arts that either disregard any input distribution or only consider a single (non-hierarchical) distribution, in terms of not only detecting imperceptible AEs but also improving the overall robustness of the DL model under testing. | 翻訳日:2023-09-07 12:14:58 公開日:2023-09-01 |
# フェルミオン量子シミュレーションのためのマッチゲートシャドウ Matchgate Shadows for Fermionic Quantum Simulation ( http://arxiv.org/abs/2207.13723v3 ) ライセンス: Link先を確認 | Kianna Wan, William J. Huggins, Joonho Lee, Ryan Babbush | (参考訳) 古典的影」は未知の量子状態の推定子であり、その状態のコピー(nature physics 16 1050-1057)上で適切に分布したランダムな測定から構築される。
本稿では,フェルミオンガウスユニタリに対応するランダムマッチゲート回路を用いて得られた古典影の解析を行う。
我々は、マッチゲート回路の連続群上のハール分布の最初の3つのモーメントが、同様にクリフォードユニタリであるマッチゲート回路のみ上の離散均一分布のモーメントと等しいことを証明し、後者は「マッチゲート3設計」を形成する。
これは、2つのアンサンブルから生じる古典的な影が機能的に等価であることを意味する。
これらの整合影を用いて任意の量子状態とフェルミオンガウス状態の間の内部積を効率的に推定し、局所フェルミオン作用素や他の様々な量の期待値を計算し、事前の作業能力を上回ることを示す。
具体的な応用として,量子古典的補助場量子モンテカルロアルゴリズム(QC-AFQMC) [Nature 603, 416-420] におけるフェルミオン符号問題を制御する波動関数制約を適用することができる。 "Classical shadows" are estimators of an unknown quantum state, constructed from suitably distributed random measurements on copies of that state [Nature Physics 16, 1050-1057]. Here, we analyze classical shadows obtained using random matchgate circuits, which correspond to fermionic Gaussian unitaries. We prove that the first three moments of the Haar distribution over the continuous group of matchgate circuits are equal to those of the discrete uniform distribution over only the matchgate circuits that are also Clifford unitaries; thus, the latter forms a "matchgate 3-design." This implies that the classical shadows resulting from the two ensembles are functionally equivalent. We show how one can use these matchgate shadows to efficiently estimate inner products between an arbitrary quantum state and fermionic Gaussian states, as well as the expectation values of local fermionic operators and various other quantities, thus surpassing the capabilities of prior work. As a concrete application, this enables us to apply wavefunction constraints that control the fermion sign problem in the quantum-classical auxiliary-field quantum Monte Carlo algorithm (QC-AFQMC) [Nature 603, 416-420], without the exponential post-processing cost incurred by the original approach. | 翻訳日:2023-09-07 11:54:33 公開日:2023-09-01 |
# 2レベル系と導波路との相互作用を分離状態から超強結合状態まで仲介する波長可変結合器 Tunable Coupler for Mediating Interactions between a Two-Level System and a Waveguide from a Decoupled State to the Ultra-Strong Coupling Regime ( http://arxiv.org/abs/2208.05571v2 ) ライセンス: Link先を確認 | N. Janzen, X. Dai, S. Ren, J. Shi, A. Lupascu | (参考訳) 導波路に結合した2レベルシステム(TLS)は、光-物質相互作用と量子ネットワークの基本的なパラダイムである。
本稿では,超強結合状態近傍のtls遷移周波数のかなりの割合である結合強度に対して,フラックス量子ビットとして実装されたtlsとデカップリング状態から伝送線路導波路との相互作用をチューニングする手法を紹介し,実験的に実証する。
磁束によって制御されるカップリングは、正規化された結合強度$\alpha$によって記述され、これは6.2\times10^{-5}$から2.19\times10^{-2}$の範囲で測定され、デバイスの回路モデルにより到達可能な最大値よりも大きい。
このシステムは、スピンボーソンモデル、マイクロ波フォトニクス、相対論的量子情報のダイナミクスに関する将来の研究を可能にする。 Two-level systems (TLS) coupled to waveguides are a fundamental paradigm for light-matter interactions and quantum networks. We introduce and experimentally demonstrate a method to tune the interaction between a TLS, implemented as a flux qubit, and a transmission line waveguide from a decoupled state to a coupling strength that is a significant fraction of the TLS transition frequency, near the ultra-strong coupling regime. The coupling, controlled via magnetic flux, is described by a normalized coupling strength $\alpha$ that is measured to range between $6.2\times10^{-5}$ and $2.19\times10^{-2}$, with larger attainable maximum values predicted by a circuit model of the device. This system enables future investigations in the dynamics of the spin-boson model, microwave photonics, and relativistic quantum information. | 翻訳日:2023-09-07 11:43:19 公開日:2023-09-01 |
# 深層学習から見たアライメント問題 The alignment problem from a deep learning perspective ( http://arxiv.org/abs/2209.00626v5 ) ライセンス: Link先を確認 | Richard Ngo, Lawrence Chan, S\"oren Mindermann | (参考訳) 今後数十年で、人工知能(agi)は多くの重要なタスクで人間の能力を超える可能性がある。
我々は、それを防ぐためのかなりの努力がなければ、AIGは人間の利益と対立する目標(すなわち、不一致)を追求することを学ぶことができると論じる。
現代の最も有能なモデルのように訓練された場合、AGIは、より高い報酬を得るために欺意的に行動することを学び、微調整された分布を超えて一般化する内部表現された目標を学び、パワー探索戦略を用いてそれらの目標を追求することができる。
これらの特性の新たな証拠をレビューする。
これらの特性を持つAGIは整列が難しく、そうでない場合でも整列する可能性がある。
我々は,agisの展開が世界における人間の制御を不可逆的に損なう可能性があることを概説し,この成果を未然に防ぐための研究指針を簡潔に検討する。 In coming decades, artificial general intelligence (AGI) may surpass human capabilities at many critical tasks. We argue that, without substantial effort to prevent it, AGIs could learn to pursue goals that conflict (i.e., are misaligned) with human interests. If trained like today's most capable models, AGIs could learn to act deceptively to receive higher reward, learn internally-represented goals which generalize beyond their fine-tuning distributions, and pursue those goals using power-seeking strategies. We review emerging evidence for these properties. AGIs with these properties would be difficult to align and may appear aligned even when they are not. We outline how the deployment of misaligned AGIs might irreversibly undermine human control over the world, and briefly review research directions aimed at preventing this outcome. | 翻訳日:2023-09-07 11:16:20 公開日:2023-09-01 |
# vec2face-v2: 顔認識における注意に基づくネットワークによるブラックボックス機能から人間の顔を表示する Vec2Face-v2: Unveil Human Faces from their Blackbox Features via Attention-based Network in Face Recognition ( http://arxiv.org/abs/2209.04920v2 ) ライセンス: Link先を確認 | Thanh-Dat Truong, Chi Nhan Duong, Ngan Le, Marios Savvides, Khoa Luu | (参考訳) 本研究では,ブラックボックス顔認識エンジンから抽出した顔特徴表現を与えられた顔再建の問題について検討する。
実際、エンジンからの抽象化された情報の制限のため、実際には非常に難しい問題です。
そこで本稿では, 被験者の顔の特徴を抽出し, 対象者の顔の合成を行うための, 意識に基づく客観的生成適応ネットワーク(DAB-GAN)を提案する。
DAB-GANは、被検者の目に見えない顔の特徴を考慮し、高い定義で顔の画像を再構成することができる。
DAB-GAN法は、新しく定義されたBijective Metrics Learningアプローチによる新しい注意に基づく生成構造を含む。
このフレームワークは、画像再構成タスクのために距離計測およびメトリック学習プロセスを画像領域に直接適用できるように、単射的メトリックを導入することから始まります。
blackboxの顔認識エンジンからの情報は、グローバル蒸留プロセスを用いて最適に活用される。
そして、注意に基づくジェネレータを高堅牢なジェネレータに提示し、現実的な顔をID保存で合成する。
我々は,CelebA,LFW,CFP-FP,CP-LFW,AdageDB,CA-LFWといった難易度の高い顔認識データベースについて評価を行った。
DAB-GANの進歩は、画像リアリズムとID保存特性の両方で証明されている。 In this work, we investigate the problem of face reconstruction given a facial feature representation extracted from a blackbox face recognition engine. Indeed, it is a very challenging problem in practice due to the limitations of abstracted information from the engine. We, therefore, introduce a new method named Attention-based Bijective Generative Adversarial Networks in a Distillation framework (DAB-GAN) to synthesize the faces of a subject given his/her extracted face recognition features. Given any unconstrained unseen facial features of a subject, the DAB-GAN can reconstruct his/her facial images in high definition. The DAB-GAN method includes a novel attention-based generative structure with the newly defined Bijective Metrics Learning approach. The framework starts by introducing a bijective metric so that the distance measurement and metric learning process can be directly adopted in the image domain for an image reconstruction task. The information from the blackbox face recognition engine will be optimally exploited using the global distillation process. Then an attention-based generator is presented for a highly robust generator to synthesize realistic faces with ID preservation. We have evaluated our method on the challenging face recognition databases, i.e., CelebA, LFW, CFP-FP, CP-LFW, AgeDB, CA-LFW, and consistently achieved state-of-the-art results. The advancement of DAB-GAN is also proven in both image realism and ID preservation properties. | 翻訳日:2023-09-07 07:33:05 公開日:2023-09-01 |
# コヒーレントX線スペックルパターンの分類と解釈のための機械学習 Machine learning for classifying and interpreting coherent X-ray speckle patterns ( http://arxiv.org/abs/2211.08194v2 ) ライセンス: Link先を確認 | Mingren Shen, Dina Sheyfer, Troy David Loeffler, Subramanian K.R.S. Sankaranarayanan, G. Brian Stephenson, Maria K. Y. Chan, Dane Morgan | (参考訳) コヒーレントx線が生成するスペックルパターンは材料の内部構造と密接な関係があるが、スペックルパターンから構造を決定するための関係の定量的反転は困難である。
本稿では,モデル2dディスクシステムを用いてコヒーレントx線スペックルパターンとサンプル構造の関係を調べ,機械学習による関係の側面の学習について検討する。
具体的には、深層ニューラルネットワークを用いて、対応する構造のディスク数密度に応じてコヒーレントX線スペックルパターンを分類する。
この分類法は, 分散分布と分散分布の両方において正確であることを示す。 Speckle patterns produced by coherent X-ray have a close relationship with the internal structure of materials but quantitative inversion of the relationship to determine structure from speckle patterns is challenging. Here, we investigate the link between coherent X-ray speckle patterns and sample structures using a model 2D disk system and explore the ability of machine learning to learn aspects of the relationship. Specifically, we train a deep neural network to classify the coherent X-ray speckle patterns according to the disk number density in the corresponding structure. It is demonstrated that the classification system is accurate for both non-disperse and disperse size distributions. | 翻訳日:2023-09-07 07:26:02 公開日:2023-09-01 |
# Reveal the Unknown: エンティティリンクによるアウトオブ知識ベースメンションディスカバリ Reveal the Unknown: Out-of-Knowledge-Base Mention Discovery with Entity Linking ( http://arxiv.org/abs/2302.07189v4 ) ライセンス: Link先を確認 | Hang Dong, Jiaoyan Chen, Yuan He, Yinan Liu, Ian Horrocks | (参考訳) テキストから知識ベース(kb)外にあるエンティティ参照を見つけることは、kbのメンテナンスにおいて重要な役割を果たすが、まだ完全には検討されていない。
現在の手法は主に単純なしきい値に基づくアプローチと特徴に基づく分類に限られており、評価のためのデータセットは比較的稀である。
我々はBERTベースの新しいエンティティリンク(EL)手法であるBLINKoutを提案し、特別なNILエンティティとマッチングすることで、対応するKBエンティティを持たない参照を識別する。
BERT をよりよく活用するために,NIL エンティティの表現と分類を含む新しい手法を提案する。
また、KBプルーニングとバージョニングの手法を用いて、共通のKB内ELデータセットからKB外のデータセットを自動的に構築する。
臨床ノート, バイオメディカル出版, ウィキペディア記事の5つのデータセットの結果は, 医療オントロジー, UMLS, SNOMED CT, 一般KB, WikiDataの既往の記載を識別する手法よりも, BLINKoutの利点を示している。 Discovering entity mentions that are out of a Knowledge Base (KB) from texts plays a critical role in KB maintenance, but has not yet been fully explored. The current methods are mostly limited to the simple threshold-based approach and feature-based classification, and the datasets for evaluation are relatively rare. We propose BLINKout, a new BERT-based Entity Linking (EL) method which can identify mentions that do not have corresponding KB entities by matching them to a special NIL entity. To better utilize BERT, we propose new techniques including NIL entity representation and classification, with synonym enhancement. We also apply KB Pruning and Versioning strategies to automatically construct out-of-KB datasets from common in-KB EL datasets. Results on five datasets of clinical notes, biomedical publications, and Wikipedia articles in various domains show the advantages of BLINKout over existing methods to identify out-of-KB mentions for the medical ontologies, UMLS, SNOMED CT, and the general KB, WikiData. | 翻訳日:2023-09-07 06:35:35 公開日:2023-09-01 |
# 価値関数の両面境界による強化学習における事前知識の活用 Leveraging Prior Knowledge in Reinforcement Learning via Double-Sided Bounds on the Value Function ( http://arxiv.org/abs/2302.09676v2 ) ライセンス: Link先を確認 | Jacob Adamczyk, Stas Tiomkin, Rahul Kulkarni | (参考訳) 過去の経験を活かすエージェントの能力は、新しいタスクを効率的に解決するために重要です。
新しいタスクに対する近似解は、転送学習、カリキュラム学習、構成性の研究によって示されるように、以前に導かれた値関数から得られる。
しかし、以前の研究は主に、新しいタスクに対するソリューションのゼロショット近似を得るために値関数を使うことに重点を置いてきた。
本研究では、値関数に対する任意の近似を用いて、興味のある最適値関数の両側境界を導出する方法を示す。
さらに,連続状態と動作空間のエラー解析によりフレームワークを拡張した。
得られた結果は,単純な領域で数値的に検証する,訓練中のクリップングの新しいアプローチに繋がる。 An agent's ability to leverage past experience is critical for efficiently solving new tasks. Approximate solutions for new tasks can be obtained from previously derived value functions, as demonstrated by research on transfer learning, curriculum learning, and compositionality. However, prior work has primarily focused on using value functions to obtain zero-shot approximations for solutions to a new task. In this work, we show how an arbitrary approximation for the value function can be used to derive double-sided bounds on the optimal value function of interest. We further extend the framework with error analysis for continuous state and action spaces. The derived results lead to new approaches for clipping during training which we validate numerically in simple domains. | 翻訳日:2023-09-07 06:24:06 公開日:2023-09-01 |
# 分布シフトによる異常検出 Anomaly Detection under Distribution Shift ( http://arxiv.org/abs/2303.13845v2 ) ライセンス: Link先を確認 | Tri Cao, Jiawen Zhu, and Guansong Pang | (参考訳) 異常検出(AD)は、通常のトレーニングサンプルのセットからパターンを学習し、テストデータの異常サンプルを特定することを目的とした、重要な機械学習タスクである。
既存のad研究のほとんどは、トレーニングデータとテストデータが同じデータ分布から引き出されると仮定しているが、テストデータは、新しい照明条件、オブジェクトのポーズ、背景の外観など、様々な自然な変化のために、多くの現実世界のアプリケーションで発生する大きな分散シフトを持つ可能性がある。
本稿では,分散シフト下での異常検出の問題点を考察し,広く使用されている4つのADおよびアウト・オブ・ディストリビューション(OOD)一般化データセットの性能ベンチマークを確立する。
ラベル付き異常データの欠如により,AD設定への最新のOOD一般化手法の簡単な適応が効果的に機能しないことを示す。
さらに, 訓練段階と推論段階の両方において, 分布内サンプルとood正規サンプルの分布ギャップを最小化し, 多様な分布シフトに対する新しいロバストad手法を導入する。
4つのデータセットの広範な実験結果から,本手法は分布シフトの異なるデータに対して最先端のad法やood一般化法を実質的に上回り,分布内データの検出精度を維持した。
コードとデータはhttps://github.com/mala-lab/adshiftで入手できる。 Anomaly detection (AD) is a crucial machine learning task that aims to learn patterns from a set of normal training samples to identify abnormal samples in test data. Most existing AD studies assume that the training and test data are drawn from the same data distribution, but the test data can have large distribution shifts arising in many real-world applications due to different natural variations such as new lighting conditions, object poses, or background appearances, rendering existing AD methods ineffective in such cases. In this paper, we consider the problem of anomaly detection under distribution shift and establish performance benchmarks on four widely-used AD and out-of-distribution (OOD) generalization datasets. We demonstrate that simple adaptation of state-of-the-art OOD generalization methods to AD settings fails to work effectively due to the lack of labeled anomaly data. We further introduce a novel robust AD approach to diverse distribution shifts by minimizing the distribution gap between in-distribution and OOD normal samples in both the training and inference stages in an unsupervised way. Our extensive empirical results on the four datasets show that our approach substantially outperforms state-of-the-art AD methods and OOD generalization methods on data with various distribution shifts, while maintaining the detection accuracy on in-distribution data. Code and data are available at https://github.com/mala-lab/ADShift. | 翻訳日:2023-09-07 06:06:50 公開日:2023-09-01 |
# 長方形の天文学的高エネルギー過渡現象の探索:データ駆動アプローチ Searching for long faint astronomical high energy transients: a data driven approach ( http://arxiv.org/abs/2303.15936v2 ) ライセンス: Link先を確認 | Riccardo Crupi, Giuseppe Dilillo, Kester Ward, Elisabetta Bissaldi, Fabrizio Fiore, Andrea Vacchi | (参考訳) hermes (high energy rapid modular ensemble of satellites) pathfinderは6つの3uナノサテライトの星座で構成され、宇宙の高エネルギー過渡現象を監視するためのシンプルだが革新的な検出器をホストしている。
HERMESパスファインダーの主な目的は、小型ハードウェアを用いて高エネルギーの宇宙遷移物の正確な位置を求めることである。
過渡位置は、低軌道上でナノサテライトがホストする異なる検出器への信号の到着の遅延時間を調べることによって得られる。
この目的のために、目標は1マイクロ秒の精度を全体として達成することである。
この文脈では、HERMES Pathfinderの今後の科学的データ出力を完全に活用するための新しいツールを開発する必要がある。
本稿では,宇宙起源の高エネルギー検出器のバックグラウンドカウント率を評価するための新しい枠組みを提案する。
異なる時間スケールで背景光曲線を推定するためにニューラルネットワーク(nn)を用いる。
次に, 背景推定値に対して統計的に有意な超過が存在する観察セグメントを分離するために, 高速変化点および異常検出手法を用いた。
今回、nasaのファーミ・ガンマ線バーストモニター(gbm)から得られたアーカイブデータから、hermesパスファインダーと同じ大きさの収集エリアと背景レベルを持つ新しいソフトウェアをテストした。
NNの性能は高太陽活動と低太陽活動の両方の期間にわたって議論され分析された。
私たちはFermi/GBMカタログのイベントを確認することができ、Fermi/GBMデータベースには存在しないイベントを発見した。
さらに7つが選択され分析され、局所化の見積もりと暫定分類が提供される。 HERMES (High Energy Rapid Modular Ensemble of Satellites) pathfinder is an in-orbit demonstration consisting of a constellation of six 3U nano-satellites hosting simple but innovative detectors for the monitoring of cosmic high-energy transients. The main objective of HERMES Pathfinder is to prove that accurate position of high-energy cosmic transients can be obtained using miniaturized hardware. The transient position is obtained by studying the delay time of arrival of the signal to different detectors hosted by nano-satellites on low Earth orbits. To this purpose, the goal is to achive an overall accuracy of a fraction of a micro-second. In this context, we need to develop novel tools to fully exploit the future scientific data output of HERMES Pathfinder. In this paper, we introduce a new framework to assess the background count rate of a space-born, high energy detector; a key step towards the identification of faint astrophysical transients. We employ a Neural Network (NN) to estimate the background lightcurves on different timescales. Subsequently, we employ a fast change-point and anomaly detection technique to isolate observation segments where statistically significant excesses in the observed count rate relative to the background estimate exist. We test the new software on archival data from the NASA Fermi Gamma-ray Burst Monitor (GBM), which has a collecting area and background level of the same order of magnitude to those of HERMES Pathfinder. The NN performances are discussed and analyzed over period of both high and low solar activity. We were able to confirm events in the Fermi/GBM catalog and found events, not present in Fermi/GBM database, that could be attributed to Solar Flares, Terrestrial Gamma-ray Flashes, Gamma-Ray Bursts, Galactic X-ray flash. Seven of these are selected and analyzed further, providing an estimate of localisation and a tentative classification. | 翻訳日:2023-09-07 05:53:13 公開日:2023-09-01 |
# GrOVe: 埋め込みを用いたグラフニューラルネットワークのオーナシップ検証 GrOVe: Ownership Verification of Graph Neural Networks using Embeddings ( http://arxiv.org/abs/2304.08566v2 ) ライセンス: Link先を確認 | Asim Waheed, Vasisht Duddu, N. Asokan | (参考訳) グラフニューラルネットワーク(GNN)は、ソーシャルネットワークなどのさまざまなアプリケーション設定において、大規模グラフ構造化データから推論をモデル化し、描画するための最先端のアプローチとして登場した。
GNNの主な目標は、ノードの特徴とノード周辺の局所グラフ構造の両方をエンコードするデータセットにおいて、各グラフノードへの埋め込みを学ぶことである。
gnnがグラフノードに生成する埋め込みは、gnnに固有のものだ。
以前の研究によると、GNNは抽出攻撃をモデル化する傾向がある。
モデル抽出攻撃と防御は、他の非グラフ設定で広く研究されている。
モデル抽出の検出や防止は困難であるように思われるが、効果的なオーナシップ検証技術によってそれを抑止することは、潜在的な防御となる。
グラフ以外の設定では、指紋モデルやそれらの構築に使用されるデータは、オーナシップ検証に有望なアプローチであることが示されている。
我々は,対象モデルと被疑者モデルが与えられた場合,被疑モデルが対象モデルとは独立に訓練されたか,あるいはモデル抽出によって得られた対象モデルのサロゲートであったかを確実に判断できる,最先端のgnnモデルフィンガープリントスキームであるgroveを提案する。
GrOVeは、独立モデルが元のターゲットモデルと同じトレーニングデータセットとアーキテクチャを使用している場合でも、サロゲートと独立モデルを区別できることを示す。
6つのベンチマークデータセットと3つのモデルアーキテクチャを用いて、偽陽性率と偽陰性率を一貫して達成していることを示す。
我々は, 計算効率を保ちつつ, 既知の指紋回避技術に対して頑健であることを示す。 Graph neural networks (GNNs) have emerged as a state-of-the-art approach to model and draw inferences from large scale graph-structured data in various application settings such as social networking. The primary goal of a GNN is to learn an embedding for each graph node in a dataset that encodes both the node features and the local graph structure around the node. Embeddings generated by a GNN for a graph node are unique to that GNN. Prior work has shown that GNNs are prone to model extraction attacks. Model extraction attacks and defenses have been explored extensively in other non-graph settings. While detecting or preventing model extraction appears to be difficult, deterring them via effective ownership verification techniques offer a potential defense. In non-graph settings, fingerprinting models, or the data used to build them, have shown to be a promising approach toward ownership verification. We present GrOVe, a state-of-the-art GNN model fingerprinting scheme that, given a target model and a suspect model, can reliably determine if the suspect model was trained independently of the target model or if it is a surrogate of the target model obtained via model extraction. We show that GrOVe can distinguish between surrogate and independent models even when the independent model uses the same training dataset and architecture as the original target model. Using six benchmark datasets and three model architectures, we show that consistently achieves low false-positive and false-negative rates. We demonstrate that is robust against known fingerprint evasion techniques while remaining computationally efficient. | 翻訳日:2023-09-07 05:47:16 公開日:2023-09-01 |
# Pseudo-Photon-Number Resolving DetectorとQuantum Computational Advantageを用いたガウスボソンサンプリング Gaussian Boson Sampling with Pseudo-Photon-Number Resolving Detectors and Quantum Computational Advantage ( http://arxiv.org/abs/2304.12240v3 ) ライセンス: Link先を確認 | Yu-Hao Deng, Yi-Chao Gu, Hua-Liang Liu, Si-Qiu Gong, Hao Su, Zhi-Jiong Zhang, Hao-Yang Tang, Meng-Hao Jia, Jia-Min Xu, Ming-Cheng Chen, Jian Qin, Li-Chao Peng, Jiarong Yan, Yi Hu, Jia Huang, Hao Li, Yuxuan Li, Yaojian Chen, Xiao Jiang, Lin Gan, Guangwen Yang, Lixing You, Li Li, Han-Sen Zhong, Hui Wang, Nai-Le Liu, Jelmer J. Renema, Chao-Yang Lu, Jian-Wei Pan | (参考訳) 擬似光子数分解検出を用いた新しいガウス粒子サンプリング実験を行い,最大255個の光子クリックイベントを登録した。
部分光子識別性について考察し,ノイズのあるガウスボソンサンプリングのためのより完全なモデルを開発した。
量子計算優位系では、ベイズテストと相関関数解析を用いて、現在のすべての古典的モックアップに対するサンプルの検証を行う。
これまでで最高の古典的アルゴリズムで推定すると、スーパーコンピュータのフロンティア上の同じ分布から1つの理想的なサンプルを生成するのに600年程度かかるが、我々の量子コンピュータであるJijuhang 3.0はサンプルを作成するのに1.27時間しかかからない。
正確なアルゴリズムを用いて実験から最も厳しいサンプルを生成するにはフロンティアから3.1*10^10年かかる。 We report new Gaussian boson sampling experiments with pseudo-photon-number-resolving detection, which register up to 255 photon-click events. We consider partial photon distinguishability and develop a more complete model for the characterization of the noisy Gaussian boson sampling. In the quantum computational advantage regime, we use Bayesian tests and correlation function analysis to validate the samples against all current classical mockups. Estimating with the best classical algorithms to date, generating a single ideal sample from the same distribution on the supercomputer Frontier would take ~ 600 years using exact methods, whereas our quantum computer, Jiuzhang 3.0, takes only 1.27 us to produce a sample. Generating the hardest sample from the experiment using an exact algorithm would take Frontier ~ 3.1*10^10 years. | 翻訳日:2023-09-07 05:34:18 公開日:2023-09-01 |
# DCRグラフによるスマートコントラクト設計のキャプチャ Capturing Smart Contract Design with DCR Graphs ( http://arxiv.org/abs/2305.04581v2 ) ライセンス: Link先を確認 | Mojtaba Eshghie, Wolfgang Ahrendt, Cyrille Artho, Thomas Troels Hildebrandt, Gerardo Schneider | (参考訳) smart contractsはブロックチェーン資産を管理する。
スマートコントラクトはビジネスプロセスを具体化するが、そのプラットフォームはプロセスアウェアではない。
solidityのような主流のスマートコントラクトプログラミング言語は、役割、アクション依存性、時間といった明確な概念を持っていません。
代わりに、これらの概念はプログラムコードで実装される。
これにより、スマートコントラクトの設計と分析が非常に難しくなります。
DCRグラフは,これらの特徴を明示的にかつ視覚的に捉えるため,スマートコントラクトに適した形式化ツールである,と我々は主張する。
この表現性を利用して、スマートコントラクトアプリケーションにおける多くの一般的な高レベルデザインパターンが、この方法で自然にモデル化可能であることを示す。
これらのパターンを適用することで、DCRグラフは明確で理解しやすい仕様を提供することで、正確で信頼性の高いスマートコントラクトの開発と分析を容易にする。 Smart contracts manage blockchain assets. While smart contracts embody business processes, their platforms are not process-aware. Mainstream smart contract programming languages such as Solidity do not have explicit notions of roles, action dependencies, and time. Instead, these concepts are implemented in program code. This makes it very hard to design and analyze smart contracts. We argue that DCR graphs are a suitable formalization tool for smart contracts because they explicitly and visually capture these features. We utilize this expressiveness to show that many common high-level design patterns in smart-contract applications can be naturally modeled this way. Applying these patterns shows that DCR graphs facilitate the development and analysis of correct and reliable smart contracts by providing a clear and easy-to-understand specification. | 翻訳日:2023-09-07 05:25:18 公開日:2023-09-01 |
# 量子カオスの制御:時間依存型蹴りローター Controlling quantum chaos: time-dependent kicked rotor ( http://arxiv.org/abs/2305.14187v2 ) ライセンス: Link先を確認 | Steven Tomsovic, Juan Diego Urbina, and Klaus Richter | (参考訳) 古典的なカオス力学系を制御する主な目的は、システムの初期条件に対する極度の感度を利用して、所定の目標状態に到達することである。
最近の手紙[phys.~rev.~lett. 130, 020201 (2023)]では、量子状態の自然な拡散に対抗する逐次ユニタリ変換を用いて、このターゲティング法の量子システムへの一般化が示されている。
この論文ではさらに詳細が述べられ、重要な拡張が確立される。
特に、コヒーレント制御ダイナミクスを構築するための別のアプローチが与えられ、以前に導入されたカオス的ヘテロクリニック軌道を使い続ける新しい時間依存で局所安定な制御ハミルトニアンを導入するが、量子状態の拡散に対抗する必要はない。
量子キックローターの拡張の実装は、文字で説明されるよりもはるかに単純な近似制御技術を生成する。
単純なメソッドのエラーは、$\hbar \rightarrow 0$として消えるようにできる。 One major objective of controlling classical chaotic dynamical systems is exploiting the system's extreme sensitivity to initial conditions in order to arrive at a predetermined target state. In a recent letter [Phys.~Rev.~Lett. 130, 020201 (2023)], a generalization of this targeting method to quantum systems was demonstrated using successive unitary transformations that counter the natural spreading of a quantum state. In this paper further details are given and an important quite general extension is established. In particular, an alternate approach to constructing the coherent control dynamics is given, which introduces a new time-dependent, locally stable control Hamiltonian that continues to use the chaotic heteroclinic orbits previously introduced, but without the need of countering quantum state spreading. Implementing that extension for the quantum kicked rotor generates a much simpler approximate control technique than discussed in the letter, which is a little less accurate, but far more easily realizable in experiments. The simpler method's error can still be made to vanish as $\hbar \rightarrow 0$. | 翻訳日:2023-09-07 05:17:05 公開日:2023-09-01 |
# 仮想粒子の確率近似によるsvgdの高速有限粒子変種 Provably Fast Finite Particle Variants of SVGD via Virtual Particle Stochastic Approximation ( http://arxiv.org/abs/2305.17558v2 ) ライセンス: Link先を確認 | Aniket Das and Dheeraj Nagaraj | (参考訳) Stein Variational Gradient Descent (SVGD) は、相互作用する粒子系をターゲット分布からおよそサンプルにシミュレートし、様々な領域にわたる印象的な経験的性能を持つ、一般的な変分推論アルゴリズムである。
理論的には、その個体群(すなわち無限粒子)の極限ダイナミクスはよく研究されているが、有限粒子状態におけるSVGDの挙動は理解されていない。
本研究では,計算効率の良い2種類のSVGD,すなわちVP-SVGDとGB-SVGDを,高速な有限粒子収束速度で設計する。
仮想粒子の概念を導入し、有限個の粒子を用いて正確に実装可能な確率測度の空間における人口制限svgdダイナミクスの新たな確率近似を考案する。
我々のアルゴリズムは、通常のSVGDよりも計算効率が高いSVGDの特定のランダムバッチ近似と見なすことができる。
VP-SVGD と GB-SVGD によって出力される$n$ 粒子は、バッチサイズ$K$ で$T$ のステップで実行され、標準仮定の下では最大$O\left(\tfrac{d^{1/3}}{(KT)^{1/6}}\right)$であるような分布から得られるサンプルと同等の値であることを示す。
また, ポテンシャル関数に対する温和な成長条件下では, イソペリメトリック(ポインケア不等式など)や情報伝達条件(例えば, タラグランの不等式$\mathsf{t}_1$)よりもかなり弱い。
本稿では,実験値(VP-SVGDとGB-SVGDによって出力される粒子)の目標分布への収束を考察し,最もよく知られたSVGDの有限粒子解析よりも2倍の指数関数的改善を示す。
さらに、この結果から多項式次元に依存するこの集合に対する最初の既知のオラクル複素量を示す。 Stein Variational Gradient Descent (SVGD) is a popular variational inference algorithm which simulates an interacting particle system to approximately sample from a target distribution, with impressive empirical performance across various domains. Theoretically, its population (i.e, infinite-particle) limit dynamics is well studied but the behavior of SVGD in the finite-particle regime is much less understood. In this work, we design two computationally efficient variants of SVGD, namely VP-SVGD and GB-SVGD, with provably fast finite-particle convergence rates. We introduce the notion of virtual particles and develop novel stochastic approximations of population-limit SVGD dynamics in the space of probability measures, which are exactly implementable using a finite number of particles. Our algorithms can be viewed as specific random-batch approximations of SVGD, which are computationally more efficient than ordinary SVGD. We show that the $n$ particles output by VP-SVGD and GB-SVGD, run for $T$ steps with batch-size $K$, are at-least as good as i.i.d samples from a distribution whose Kernel Stein Discrepancy to the target is at most $O\left(\tfrac{d^{1/3}}{(KT)^{1/6}}\right)$ under standard assumptions. Our results also hold under a mild growth condition on the potential function, which is much weaker than the isoperimetric (e.g. Poincare Inequality) or information-transport conditions (e.g. Talagrand's Inequality $\mathsf{T}_1$) generally considered in prior works. As a corollary, we consider the convergence of the empirical measure (of the particles output by VP-SVGD and GB-SVGD) to the target distribution and demonstrate a double exponential improvement over the best known finite-particle analysis of SVGD. Beyond this, our results present the first known oracle complexities for this setting with polynomial dimension dependence. | 翻訳日:2023-09-07 05:07:28 公開日:2023-09-01 |
# LightGBMによる季節分解とトレンドを用いた販売予測の改善 Improved Sales Forecasting using Trend and Seasonality Decomposition with LightGBM ( http://arxiv.org/abs/2305.17201v2 ) ライセンス: Link先を確認 | Tong Zhou | (参考訳) ウォルマートやアマゾンのような大型小売業者にとって小売売上高の予測は、商品、地理的な位置の不均一性、季節性、および天気、地域経済状況、地政学的イベントを含む外部要因の膨大な増加により、大きな課題となっている。
従来の時系列モデル、機械学習モデル、ニューラルネットワークメカニズムなど、この課題に対処するためにさまざまな方法が採用されているが、困難は続いている。
関連グループへのデータの分類は、異なるカテゴリの時系列が異なるパターンを示す可能性があるため、販売予測精度を向上させることが示されている。
本稿では,時系列における傾向と季節成分のユニークな影響を示すための新しい尺度を提案し,この尺度に基づいて時系列をグループ化することを提案する。
このアプローチを、2011年の01/29から2016年の05/22までのwalmartの販売データに適用し、2016年の05/23から2016年の06/19までの売り上げ予測を生成する。
実験の結果,提案手法により精度が向上した。
さらに,小売販売予測を行うための堅牢なパイプラインを提案する。 Retail sales forecasting presents a significant challenge for large retailers such as Walmart and Amazon, due to the vast assortment of products, geographical location heterogeneity, seasonality, and external factors including weather, local economic conditions, and geopolitical events. Various methods have been employed to tackle this challenge, including traditional time series models, machine learning models, and neural network mechanisms, but the difficulty persists. Categorizing data into relevant groups has been shown to improve sales forecast accuracy as time series from different categories may exhibit distinct patterns. In this paper, we propose a new measure to indicate the unique impacts of the trend and seasonality components on a time series and suggest grouping time series based on this measure. We apply this approach to Walmart sales data from 01/29/2011 to 05/22/2016 and generate sales forecasts from 05/23/2016 to 06/19/2016. Our experiments show that the proposed strategy can achieve improved accuracy. Furthermore, we present a robust pipeline for conducting retail sales forecasting. | 翻訳日:2023-09-07 05:06:43 公開日:2023-09-01 |
# プログレッシブ・シャープニング, フラット・ミニマおよび一般化について On progressive sharpening, flat minima and generalisation ( http://arxiv.org/abs/2305.14683v3 ) ライセンス: Link先を確認 | Lachlan Ewen MacDonald and Jack Valmadre and Simon Lucey | (参考訳) 深層学習における損失曲率と入出力モデル行動の関係を理解するための新しい手法を提案する。
具体的には,ディープニューラルネットワークの損失ヒューシアンと入力出力ジャコビアンとをトレーニング中のトレーニングサンプルに結合したアンサッツを接地するために,ディープネットワーク損失ヘッシアンスペクトルの既存の経験的解析を用いる。
次に、モデルの入力出力ジャコビアンがデータ分布上のそのリプシッツノルムを近似する程度を定量化する一連の理論結果を証明し、経験的ヤコビアンによって束縛された新しい一般化を導出する。
我々はansatzを理論的な結果とともに利用し、最近観測されたプログレッシブ・シャープニング現象とフラット・ミニマの一般化特性について新しい説明を与える。
我々の主張を検証するための実験的な証拠が提供される。 We present a new approach to understanding the relationship between loss curvature and input-output model behaviour in deep learning. Specifically, we use existing empirical analyses of the spectrum of deep network loss Hessians to ground an ansatz tying together the loss Hessian and the input-output Jacobian of a deep neural network over training samples throughout training. We then prove a series of theoretical results which quantify the degree to which the input-output Jacobian of a model approximates its Lipschitz norm over a data distribution, and deduce a novel generalisation bound in terms of the empirical Jacobian. We use our ansatz, together with our theoretical results, to give a new account of the recently observed progressive sharpening phenomenon, as well as the generalisation properties of flat minima. Experimental evidence is provided to validate our claims. | 翻訳日:2023-09-07 05:04:43 公開日:2023-09-01 |
# SCALE: 高度な言語モデル評価のための複雑さのスケールアップ SCALE: Scaling up the Complexity for Advanced Language Model Evaluation ( http://arxiv.org/abs/2306.09237v2 ) ライセンス: Link先を確認 | Vishvaksenan Rasiah, Ronja Stern, Veton Matoshi, Matthias St\"urmer, Ilias Chalkidis, Daniel E. Ho, Joel Niklaus | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、多くのNLPベンチマーク(プロのドメイン固有のベンチマークでさえ)を飽和させ、LLM能力を適切に評価するための新しい、より困難な新しいベンチマークの必要性を強調している。
本稿では,長文(最大50Kトークン)の処理,ドメイン固有知識(法的テキストに具体化されている)の活用,多言語理解(5言語をカバー),マルチタスク(文書化のための法的文書の構成,情報検索,裁判所ビュー生成,決定決定の要約,引用抽出,および8つの困難なテキスト分類タスク)の4つの重要な側面において,現在のLCMに課題をもたらす新しいNLPベンチマークを提案する。
我々のベンチマークはスイスの法体系からの様々な法的NLPデータセットで構成されており、基礎となる非英語、本質的には多言語、連邦法体系の包括的な研究を可能にする。
最近の進歩にもかかわらず、厳格なレビュー/分析タスクのために長いドキュメントを効率的に処理することは、言語モデルにとってオープンな課題である。
また、高度な専門知識を必要とする包括的なドメイン固有のベンチマークは、多言語ベンチマークと同様にまれである。
この不足は、ほとんどのパブリックモデルが主に英語コーパスに基づいて訓練されているのに対して、他の言語、特に実用的なドメイン固有のnlpタスクについて、私たちの貢献の価値を強調する。
我々のベンチマークは最先端のllmのテストと進歩を可能にする。
本研究の一環として,ベンチマークで事前学習した複数言語モデルを評価し,基準点として強いベースラインを確立する。
データセットの大規模さ(数十万の例に相当)にも関わらず、既存の公開モデルでは、ドメイン内事前トレーニング後も、ほとんどのタスクに苦労しています。
完全に寛容なオープンCC BY-SAライセンスの下で、すべてのリソース(ベンチマークスイート、事前訓練済みモデル、コード)を公開します。 Recent strides in Large Language Models (LLMs) have saturated many NLP benchmarks (even professional domain-specific ones), emphasizing the need for novel, more challenging novel ones to properly assess LLM capabilities. In this paper, we introduce a novel NLP benchmark that poses challenges to current LLMs across four key dimensions: processing long documents (up to 50K tokens), utilizing domain specific knowledge (embodied in legal texts), multilingual understanding (covering five languages), and multitasking (comprising legal document to document Information Retrieval, Court View Generation, Leading Decision Summarization, Citation Extraction, and eight challenging Text Classification tasks). Our benchmark comprises diverse legal NLP datasets from the Swiss legal system, allowing for a comprehensive study of the underlying Non-English, inherently multilingual, federal legal system. Despite recent advances, efficiently processing long documents for intense review/analysis tasks remains an open challenge for language models. Also, comprehensive, domain-specific benchmarks requiring high expertise to develop are rare, as are multilingual benchmarks. This scarcity underscores our contribution's value, considering most public models are trained predominantly on English corpora, while other languages remain understudied, particularly for practical domain-specific NLP tasks. Our benchmark allows for testing and advancing the state-of-the-art LLMs. As part of our study, we evaluate several pre-trained multilingual language models on our benchmark to establish strong baselines as a point of reference. Despite the large size of our datasets (tens to hundreds of thousands of examples), existing publicly available models struggle with most tasks, even after in-domain pretraining. We publish all resources (benchmark suite, pre-trained models, code) under a fully permissive open CC BY-SA license. | 翻訳日:2023-09-07 04:48:06 公開日:2023-09-01 |
# 説明としての決定木の有効性の向上 Improving the Validity of Decision Trees as Explanations ( http://arxiv.org/abs/2306.06777v4 ) ライセンス: Link先を確認 | Jiri Nemecek and Tomas Pevny and Jakub Marecek | (参考訳) 表データによる分類と予測では、しばしば木に基づくモデルを用いる。
これらは、グラフデータ(cf. Grinsztajn et al., NeurIPS 2022, arXiv:2207.08815]上のディープニューラルネットワークと競合し、いくつかの条件下では説明可能である。
説明性は木の深さと木の葉の精度に依存する。
不均衡な精度の葉を含む決定木は、誤解を招く説明を与えることができる。
低精度の葉は妥当な説明をしておらず、説明の間で不公平と解釈できる。
ここでは,葉ノード毎の最大誤分類誤差を最小化するために,浅い木を訓練する。
次に、各葉を別の木ベースモデルで拡張する。
浅い木はグローバルな説明を提供する一方、葉が伸びた浅い木の全体的な統計性能は、古典的な方法(例えばCART)で訓練された無限の深さの決定木で改善され、最先端の手法(例えば、よく訓練されたXGBoost)に匹敵する。 In classification and forecasting with tabular data, one often utilizes tree-based models. Those can be competitive with deep neural networks on tabular data [cf. Grinsztajn et al., NeurIPS 2022, arXiv:2207.08815] and, under some conditions, explainable. The explainability depends on the depth of the tree and the accuracy in each leaf of the tree. Decision trees containing leaves with unbalanced accuracy can provide misleading explanations. Low-accuracy leaves give less valid explanations, which could be interpreted as unfairness among explanations. Here, we train a shallow tree with the objective of minimizing the maximum misclassification error across each leaf node. Then, we extend each leaf with a separate tree-based model. The shallow tree provides a global explanation, while the overall statistical performance of the shallow tree with extended leaves improves upon decision trees of unlimited depth trained using classical methods (e.g., CART) and is comparable to state-of-the-art methods (e.g., well-tuned XGBoost). | 翻訳日:2023-09-07 04:45:28 公開日:2023-09-01 |
# DocumentCLIP: リフロード文書における図形と本文のリンク DocumentCLIP: Linking Figures and Main Body Text in Reflowed Documents ( http://arxiv.org/abs/2306.06306v2 ) ライセンス: Link先を確認 | Fuxiao Liu, Hao Tan, Chris Tensmeyer | (参考訳) 視覚言語事前学習モデルは、画像とテキストのアライメントを理解することによってマルチメディアアプリケーションをサポートすることに成功している。
既存の視覚言語事前学習モデルは、主に1つのテキストに関連付けられた1つの画像を理解することに焦点を当てるが、それらは文書内レベルでのアライメントを無視することが多い。
本研究では,文書内の画像と長文間の相互作用を理解するために,視覚言語事前学習モデルを強制する,サラレンス対応のコントラスト学習フレームワークであるDocumentCLIPを提案する。
私たちのモデルは、ニュース記事、雑誌、製品説明のような、言語的および視覚的にリッチなコンテンツを含む現実世界のマルチモーダルなドキュメント理解に有益です。
我々の知る限りでは、コントラッシブラーニングによって文書内リンクをマルチモーダルに探索するのは初めてである。
さらに、さまざまなトピックや構造を提供する事前学習用の大きなウィキペディアデータセットを収集します。
実験の結果,DocumentCLIPは教師付きセッティングにおいて最先端のベースラインを上回るだけでなく,人的評価後の野における最高のゼロショット性能も達成できることがわかった。
私たちのコードはhttps://github.com/FuxiaoLiu/DocumentCLIPで利用可能です。 Vision-language pretraining models have achieved great success in supporting multimedia applications by understanding the alignments between images and text. While existing vision-language pretraining models primarily focus on understanding single image associated with a single piece of text, they often ignore the alignment at the intra-document level, consisting of multiple sentences with multiple images. In this work, we propose DocumentCLIP, a salience-aware contrastive learning framework to enforce vision-language pretraining models to comprehend the interaction between images and longer text within documents. Our model is beneficial for the real-world multimodal document understanding like news article, magazines, product descriptions, which contain linguistically and visually richer content. To the best of our knowledge, we are the first to explore multimodal intra-document links by contrastive learning. In addition, we collect a large Wikipedia dataset for pretraining, which provides various topics and structures. Experiments show DocumentCLIP not only outperforms the state-of-the-art baselines in the supervised setting, but also achieves the best zero-shot performance in the wild after human evaluation. Our code is available at https://github.com/FuxiaoLiu/DocumentCLIP. | 翻訳日:2023-09-07 04:44:58 公開日:2023-09-01 |
# 実演におけるスタイル認識型顔アニメーションの教師なし学習 Unsupervised Learning of Style-Aware Facial Animation from Real Acting Performances ( http://arxiv.org/abs/2306.10006v3 ) ライセンス: Link先を確認 | Wolfgang Paier and Anna Hilsmann and Peter Eisert | (参考訳) 本稿では,ブレンド形状,動的テクスチャ,およびニューラルレンダリングに基づく,フォトリアリスティックヘッドモデルのテキスト/音声駆動アニメーションに対する新しいアプローチを提案する。
幾何学とテクスチャのためのVAEを訓練すると、潜在特徴ベクトルからの表情の正確なキャプチャと現実的な合成のためのパラメトリックモデルが得られる。
提案手法は,テキストや音声をアニメーションパラメータのシーケンスに変換する条件付きcnnに基づいている。
従来のアプローチとは対照的に,シミュレーションモデルでは,異なる演技スタイルを教師なしの方法で分離/合成し,訓練シーケンスの内容を記述する音素ラベルのみを必要とする。
リアルなリアルタイムレンダリングのために、改良されたピクセルカラーとフォアグラウンドマットを計算してラスタライズベースのレンダリングを洗練するu-netをトレーニングする。
我々は,最近の頭部モデリング法と顔アニメーションとを質的・定量的に比較し,ユーザスタディにおける印象的レンダリング/アニメーション品質の評価を行い,最先端のアプローチと比較して大きな改善点を示した。 This paper presents a novel approach for text/speech-driven animation of a photo-realistic head model based on blend-shape geometry, dynamic textures, and neural rendering. Training a VAE for geometry and texture yields a parametric model for accurate capturing and realistic synthesis of facial expressions from a latent feature vector. Our animation method is based on a conditional CNN that transforms text or speech into a sequence of animation parameters. In contrast to previous approaches, our animation model learns disentangling/synthesizing different acting-styles in an unsupervised manner, requiring only phonetic labels that describe the content of training sequences. For realistic real-time rendering, we train a U-Net that refines rasterization-based renderings by computing improved pixel colors and a foreground matte. We compare our framework qualitatively/quantitatively against recent methods for head modeling as well as facial animation and evaluate the perceived rendering/animation quality in a user-study, which indicates large improvements compared to state-of-the-art approaches | 翻訳日:2023-09-07 04:33:58 公開日:2023-09-01 |
# 野生におけるデータセットアノテーションの品質管理の分析 Analyzing Dataset Annotation Quality Management in the Wild ( http://arxiv.org/abs/2307.08153v2 ) ライセンス: Link先を確認 | Jan-Christoph Klie, Richard Eckart de Castilho, Iryna Gurevych | (参考訳) データ品質は、正確で偏りのない、信頼できる機械学習モデルとその正しい評価のトレーニングに不可欠である。
しかし、近年の研究では、最先端モデルのトレーニングや評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アノテーションアーティファクトを不要に含んでいることが示されている。
アノテーションプロジェクトにはベストプラクティスとガイドラインがあります。
しかし、私たちの知る限りでは、自然言語データセット作成時の品質管理の実施方法や、これらの推奨事項が従うかどうかについて、まだ大規模な分析が行われていません。
そこで本論文では,まず,データセット作成のための推奨品質管理プラクティスを調査し,その適用方法について提案する。
そして,テキストデータセットを導入した591の学術出版物のコーパスをコンパイルし,アノテータ管理,合意,判断,データ検証などの品質関連側面に注釈を付ける。
次に,これらのアノテーションを用いて品質管理の実施方法を分析する。
注釈付き出版物の大半は、良質または非常に良質な管理を施している。
しかし、我々は作品の30%の努力が不足しているとみなしている。
また,本分析では,特にアノテーション間一致と演算誤り率を用いて,一般的な誤りを示す。 Data quality is crucial for training accurate, unbiased, and trustworthy machine learning models and their correct evaluation. Recent works, however, have shown that even popular datasets used to train and evaluate state-of-the-art models contain a non-negligible amount of erroneous annotations, bias or annotation artifacts. There exist best practices and guidelines regarding annotation projects. But to the best of our knowledge, no large-scale analysis has been performed as of yet on how quality management is actually conducted when creating natural language datasets and whether these recommendations are followed. Therefore, we first survey and summarize recommended quality management practices for dataset creation as described in the literature and provide suggestions on how to apply them. Then, we compile a corpus of 591 scientific publications introducing text datasets and annotate it for quality-related aspects, such as annotator management, agreement, adjudication or data validation. Using these annotations, we then analyze how quality management is conducted in practice. We find that a majority of the annotated publications apply good or very good quality management. However, we deem the effort of 30% of the works as only subpar. Our analysis also shows common errors, especially with using inter-annotator agreement and computing annotation error rates. | 翻訳日:2023-09-07 04:05:23 公開日:2023-09-01 |
# なぜ小さなロバストさが役に立つのか?
代理訓練による対向移動可能性の理解と改善 Why Does Little Robustness Help? Understanding and Improving Adversarial Transferability from Surrogate Training ( http://arxiv.org/abs/2307.07873v6 ) ライセンス: Link先を確認 | Yechao Zhang, Shengshan Hu, Leo Yu Zhang, Junyu Shi, Minghui Li, Xiaogeng Liu, Wei Wan, Hai Jin | (参考訳) DNNの逆例(AE)は転送可能であることが示されている: ホワイトボックスサロゲートモデルをうまく騙すAEは、異なるアーキテクチャで他のブラックボックスモデルを騙すこともできる。
多くの実験的な研究は、高度に伝達可能なAEを生成するためのガイダンスを提供してきたが、これらの発見の多くは説明に欠け、矛盾するアドバイスに至る。
本稿では,敵対的伝達可能性の理解に向けてさらなる一歩を踏み出し,サロゲート的な側面に焦点をあてる。
弱い摂動サンプルで逆向きに訓練されたモデルがより良い代理となるという、興味深い小さな堅牢性現象から始まり、モデルの滑らかさと勾配類似性という2つの主要な要因のトレードオフが原因と考えられる。
研究は, 移動可能性との相関性ではなく, 共同効果に焦点をあてた。
一連の理論的および経験的分析を通して、逆行訓練におけるデータ分布シフトが勾配類似性の低下を説明すると推測する。
これらの知見に基づいて,データ拡張と勾配正規化が伝達可能性に与える影響を考察し,そのトレードオフが様々なトレーニングメカニズムに一般的に存在していることを確認する。
最後に,入力勾配正則化とシャープネス認識最小化(sam)の組み合わせなど,モデルの滑らかさと勾配の類似性を同時に最適化するトランスファー性を高めるために,より優れたサロゲートを構築するための一般的な経路を提案する。
要約すると、我々は、一方を無視しながら一方を最適化するのではなく、他方を効果的に移動攻撃する2つの要因の統一的な影響に注意を向け、代理モデルを操作する重要な役割を強調している。 Adversarial examples (AEs) for DNNs have been shown to be transferable: AEs that successfully fool white-box surrogate models can also deceive other black-box models with different architectures. Although a bunch of empirical studies have provided guidance on generating highly transferable AEs, many of these findings lack explanations and even lead to inconsistent advice. In this paper, we take a further step towards understanding adversarial transferability, with a particular focus on surrogate aspects. Starting from the intriguing little robustness phenomenon, where models adversarially trained with mildly perturbed adversarial samples can serve as better surrogates, we attribute it to a trade-off between two predominant factors: model smoothness and gradient similarity. Our investigations focus on their joint effects, rather than their separate correlations with transferability. Through a series of theoretical and empirical analyses, we conjecture that the data distribution shift in adversarial training explains the degradation of gradient similarity. Building on these insights, we explore the impacts of data augmentation and gradient regularization on transferability and identify that the trade-off generally exists in the various training mechanisms, thus building a comprehensive blueprint for the regulation mechanism behind transferability. Finally, we provide a general route for constructing better surrogates to boost transferability which optimizes both model smoothness and gradient similarity simultaneously, e.g., the combination of input gradient regularization and sharpness-aware minimization (SAM), validated by extensive experiments. In summary, we call for attention to the united impacts of these two factors for launching effective transfer attacks, rather than optimizing one while ignoring the other, and emphasize the crucial role of manipulating surrogate models. | 翻訳日:2023-09-07 04:05:04 公開日:2023-09-01 |
# 曲面符号の復号化アルゴリズム Decoding algorithms for surface codes ( http://arxiv.org/abs/2307.14989v2 ) ライセンス: Link先を確認 | Antonio deMarti iOlius, Patricio Fuentes, Rom\'an Or\'us, Pedro M. Crespo and Josu Etxezarreta Martinez | (参考訳) 量子技術は古典的な方法で計算が難しい問題を解く可能性がある。
残念ながら、量子情報の不安定な性質はエラーを起こしやすい。
このため、量子誤り訂正は、量子情報を信頼できるものにし、フォールトトレラント量子コンピューティングの究極の目標を実現するための貴重なツールである。
表面符号は、2次元のアーキテクチャ、局所演算のみの要求、量子ノイズに対する高い耐性を考えると、誤り訂正量子ビットを構築する最も有望な候補である。
復号アルゴリズムは、任意の誤り訂正スキームの不可欠な要素であり、量子情報に影響を及ぼす誤差の正確な推定を生成することを任務としている。
アルゴリズムのデコーディングの重要な側面は、量子状態が時間経過とともに追加のエラーに直面するため、その速度である。
これは、複雑さと逆を犠牲にしてデコードのパフォーマンスが改善されるという、connundrumのようなトレードオフをもたらす。
本稿では,最先端表面コード復号アルゴリズムに関する詳細な議論を行う。
これらの手法の中核となる操作は、改善された結果の約束を示す既存の変種と共に記述される。
さらに,復号化性能,誤り訂正能力,復号化複雑性の両面を比較した。
コードデコードに関する既存のソフトウェアツールのレビューも提供されている。 Quantum technologies have the potential to solve computationally hard problems that are intractable via classical means. Unfortunately, the unstable nature of quantum information makes it prone to errors. For this reason, quantum error correction is an invaluable tool to make quantum information reliable and enable the ultimate goal of fault-tolerant quantum computing. Surface codes currently stand as the most promising candidates to build error corrected qubits given their two-dimensional architecture, a requirement of only local operations, and high tolerance to quantum noise. Decoding algorithms are an integral component of any error correction scheme, as they are tasked with producing accurate estimates of the errors that affect quantum information, so that it can subsequently be corrected. A critical aspect of decoding algorithms is their speed, since the quantum state will suffer additional errors with the passage of time. This poses a connundrum-like tradeoff, where decoding performance is improved at the expense of complexity and viceversa. In this review, a thorough discussion of state-of-the-art surface code decoding algorithms is provided. The core operation of these methods is described along with existing variants that show promise for improved results. In addition, both the decoding performance, in terms of error correction capability, and decoding complexity, are compared. A review of the existing software tools regarding surface code decoding is also provided. | 翻訳日:2023-09-07 03:54:13 公開日:2023-09-01 |
# クロスモデル合意によるラベルデノーミング Label Denoising through Cross-Model Agreement ( http://arxiv.org/abs/2308.13976v2 ) ライセンス: Link先を確認 | Yu Wang, Xin Xin, Zaiqiao Meng, Xiangnan He, Joemon Jose, Fuli Feng | (参考訳) 破損したラベルからの学習は、現実世界の機械学習アプリケーションで非常に一般的である。
このようなノイズのあるラベルを記憶することはモデルの学習に影響を与え、準最適性能をもたらす。
本研究では,雑音ラベルから頑健な機械学習モデルを学ぶための新しい枠組みを提案する。
実験的な研究では、異なるモデルがクリーンな例で比較的類似の予測をするのに対して、ノイズの多い例の予測は異なるモデルによって異なることがわかりました。
そこで本研究では,2つの機械学習モデルによってパラメータ化される真のラベル分布間のkl分布を最小化し,データ観測の可能性を最大化するクロスモデルアグリーメント \em (deca) を考案する。
提案したDeCAをバイナリラベルシナリオとマルチラベルシナリオの両方に適用する。
バイナリラベルのシナリオでは、下流タスクとして暗黙的なフィードバックレコメンデーションを選択し、4つのデータセット上で4つの最先端レコメンデーションモデルで実験を行う。
マルチラベルのシナリオでは、ダウンストリームアプリケーションは2つのベンチマークデータセットの画像分類である。
実験結果から,提案手法は通常の訓練法や,バイナリと複数ラベルの両方のシナリオにおける認知手法と比較して,モデル性能を著しく向上することが示された。 Learning from corrupted labels is very common in real-world machine-learning applications. Memorizing such noisy labels could affect the learning of the model, leading to sub-optimal performances. In this work, we propose a novel framework to learn robust machine-learning models from noisy labels. Through an empirical study, we find that different models make relatively similar predictions on clean examples, while the predictions on noisy examples vary much more across different models. Motivated by this observation, we propose \em denoising with cross-model agreement \em (DeCA) which aims to minimize the KL-divergence between the true label distributions parameterized by two machine learning models while maximizing the likelihood of data observation. We employ the proposed DeCA on both the binary label scenario and the multiple label scenario. For the binary label scenario, we select implicit feedback recommendation as the downstream task and conduct experiments with four state-of-the-art recommendation models on four datasets. For the multiple-label scenario, the downstream application is image classification on two benchmark datasets. Experimental results demonstrate that the proposed methods significantly improve the model performance compared with normal training and other denoising methods on both binary and multiple-label scenarios. | 翻訳日:2023-09-07 02:47:07 公開日:2023-09-01 |
# メタラーニングを用いたポイントクラウドアップサンプリングのためのテスト時間適応 Test-Time Adaptation for Point Cloud Upsampling Using Meta-Learning ( http://arxiv.org/abs/2308.16484v2 ) ライセンス: Link先を確認 | Ahmed Hatem, Yiming Qian, Yang Wang | (参考訳) 拡張可能な3Dスキャナはしばしば、ロボットシステムにおける下流アプリケーションに悪影響を及ぼすスパースと非一様点雲を発生させる。
既存のポイントクラウドのアップサンプリングアーキテクチャは、標準ベンチマークで有望な結果を示しているが、テストデータがトレーニングデータと異なる分布を持つ場合、大きなパフォーマンス低下を経験する傾向にある。
そこで本研究では,点群アップサンプリングのモデル一般性を高めるためのテスト時間適応手法を提案する。
提案手法はメタラーニングを利用してテスト時間適応のためのネットワークパラメータを明示的に学習する。
我々の方法はテストデータに関する事前情報を必要としない。
メタトレーニングの間、モデルパラメータはインスタンスレベルのタスクの集合から学習される。
メタテスト中、トレーニングされたモデルは、各テストインスタンスに対してユニークなネットワークパラメータを生成するために、いくつかの勾配更新で微調整される。
更新されたモデルが最終予測に使用される。
私たちのフレームワークは汎用的で、ポイントクラウドアップサンプリングの既存のバックボーンネットワークとプラグ・アンド・プレイ方式で適用できます。
広範な実験により,我々のアプローチが最先端モデルの性能を向上させることを実証した。 Affordable 3D scanners often produce sparse and non-uniform point clouds that negatively impact downstream applications in robotic systems. While existing point cloud upsampling architectures have demonstrated promising results on standard benchmarks, they tend to experience significant performance drops when the test data have different distributions from the training data. To address this issue, this paper proposes a test-time adaption approach to enhance model generality of point cloud upsampling. The proposed approach leverages meta-learning to explicitly learn network parameters for test-time adaption. Our method does not require any prior information about the test data. During meta-training, the model parameters are learned from a collection of instance-level tasks, each of which consists of a sparse-dense pair of point clouds from the training data. During meta-testing, the trained model is fine-tuned with a few gradient updates to produce a unique set of network parameters for each test instance. The updated model is then used for the final prediction. Our framework is generic and can be applied in a plug-and-play manner with existing backbone networks in point cloud upsampling. Extensive experiments demonstrate that our approach improves the performance of state-of-the-art models. | 翻訳日:2023-09-07 02:18:18 公開日:2023-09-01 |
# point-tta: マルチタスクメタオーバリリー学習を用いたポイントクラウド登録のためのテスト時間適応 Point-TTA: Test-Time Adaptation for Point Cloud Registration Using Multitask Meta-Auxiliary Learning ( http://arxiv.org/abs/2308.16481v2 ) ライセンス: Link先を確認 | Ahmed Hatem, Yiming Qian, Yang Wang | (参考訳) 本稿では,ポイントクラウド登録(PCR)のための新しいテスト時間適応フレームワークであるPoint-TTAについて述べる。
学習ベースのアプローチは目覚ましい進歩を遂げているが、未知のテスト環境への一般化は、3Dスキャンのバリエーションのために大きな課題である。
既存のメソッドは通常、ジェネリックモデルをトレーニングし、テスト中に同じトレーニングされたモデルを各インスタンスに適用する。
これは、テスト中に同じモデルがすべてのバリエーションを処理することが難しいため、副最適かもしれない。
本稿ではPCRにおけるテスト時間適応手法を提案する。
このモデルは,テストデータの事前知識を必要とせずに,テスト時に未認識の分布に適応できる。
具体的には,PCRタスクと協調的に最適化された3つの自己監督補助タスクを設計する。
テストインスタンスが与えられた場合、これらの補助タスクを使用してモデルを適応させ、モデルを更新して推論を行う。
トレーニング中は,補助タスクによる適応モデルがプライマリタスクの精度を向上させるように,メタ副次学習アプローチを用いてトレーニングを行う。
実験結果は,ポイントクラウド登録の一般化と,他の最先端のアプローチに勝る手法の有効性を実証するものである。 We present Point-TTA, a novel test-time adaptation framework for point cloud registration (PCR) that improves the generalization and the performance of registration models. While learning-based approaches have achieved impressive progress, generalization to unknown testing environments remains a major challenge due to the variations in 3D scans. Existing methods typically train a generic model and the same trained model is applied on each instance during testing. This could be sub-optimal since it is difficult for the same model to handle all the variations during testing. In this paper, we propose a test-time adaptation approach for PCR. Our model can adapt to unseen distributions at test-time without requiring any prior knowledge of the test data. Concretely, we design three self-supervised auxiliary tasks that are optimized jointly with the primary PCR task. Given a test instance, we adapt our model using these auxiliary tasks and the updated model is used to perform the inference. During training, our model is trained using a meta-auxiliary learning approach, such that the adapted model via auxiliary tasks improves the accuracy of the primary task. Experimental results demonstrate the effectiveness of our approach in improving generalization of point cloud registration and outperforming other state-of-the-art approaches. | 翻訳日:2023-09-07 02:18:01 公開日:2023-09-01 |
# 潜伏画家 Latent Painter ( http://arxiv.org/abs/2308.16490v2 ) ライセンス: Link先を確認 | Shih-Chieh Su | (参考訳) ラテンディフューザーは生成的AIに革命を起こし、創造的芸術にインスピレーションを与えた。
潜伏音を消音するとき、各ステップの予測された原画像は、集合的に形成をアニミュレートする。
しかし、アニメーションはディフューザの難読化の性質によって制限され、シャープ化プロセスのみを描画する。
本書では,潜伏をキャンバスとして,ディフューザ予測を計画として,絵画アニメーションを生成する潜伏画家について紹介する。
潜伏画家はまた、生成した画像を別の画像に転送し、2つの異なるチェックポイントからのイメージ間で発生する。 Latent diffusers revolutionized the generative AI and inspired creative art. When denoising the latent, the predicted original image at each step collectively animates the formation. However, the animation is limited by the denoising nature of the diffuser, and only renders a sharpening process. This work presents Latent Painter, which uses the latent as the canvas, and the diffuser predictions as the plan, to generate painting animation. Latent Painter also transits one generated image to another, which can happen between images from two different sets of checkpoints. | 翻訳日:2023-09-07 02:05:53 公開日:2023-09-01 |
# 差動顔形態検出のための融合分類法 Fused Classification For Differential Face Morphing Detection ( http://arxiv.org/abs/2309.00665v1 ) ライセンス: Link先を確認 | Iurii Medvedev, Joana Pimenta, Nuno Gon\c{c}alves | (参考訳) 高度なプレゼンテーション攻撃技術であるフェイスモーフィングは、顔認識システムに重大なセキュリティリスクをもたらす。
従来の手法では、複数の顔画像をブレンドして、異なる個人にマッチする合成画像を作る、モーフィング攻撃を検出するのに苦労している。
本稿では,顔形態の差分検出に焦点をあて,非参照シナリオに対する融合分類法に基づく拡張アプローチを提案する。
差動シナリオに対する顔形態検出ベンチマークを導入し、特定のデータマイニング手法を用いてアプローチの性能を向上させる。
実験の結果, モーフィング攻撃の検出に本手法の有効性が示された。 Face morphing, a sophisticated presentation attack technique, poses significant security risks to face recognition systems. Traditional methods struggle to detect morphing attacks, which involve blending multiple face images to create a synthetic image that can match different individuals. In this paper, we focus on the differential detection of face morphing and propose an extended approach based on fused classification method for no-reference scenario. We introduce a public face morphing detection benchmark for the differential scenario and utilize a specific data mining technique to enhance the performance of our approach. Experimental results demonstrate the effectiveness of our method in detecting morphing attacks. | 翻訳日:2023-09-07 01:57:57 公開日:2023-09-01 |
# ICDARTS:サイクルDARTの安定性と性能向上 ICDARTS: Improving the Stability and Performance of Cyclic DARTS ( http://arxiv.org/abs/2309.00664v1 ) ライセンス: Link先を確認 | Emily Herron, Derek Rose, and Steven Young | (参考訳) 本研究は, サイクリックDARTS(CDARTS)の安定性と一般化性の向上をもたらす。
cdartsは、ニューラルネットワーク検索(nas)に対する差別化可能なアーキテクチャ検索(darts)ベースのアプローチで、サーチと評価ネットワークを同時にトレーニングするために循環フィードバック機構を使用する。
このトレーニングプロトコルは,検索および評価ネットワークが類似の出力を生成することを強制することによって,探索プロセスを最適化することを目的としている。
しかし,CDARTSでは,検索ネットワークに依存する評価ネットワークの損失関数を導入している。
探索および再学習フェーズにおいて評価ネットワークが使用する損失関数の相違により、再学習時に利用する最終評価ネットワークの準最適プロキシである探索位相評価ネットワークが得られる。
icdartsは,評価ネットワークの重み付けを検索ネットワークの重み付けに依存することを排除し,これらの操作を最終評価ネットワークに保持する検索ネットワークの\textit{zero}演算を識別する修正プロセスを提案する。
これらの結果とicdartsアルゴリズムとネットワークテンプレートのアブレーション研究とを組み合わせる。
最後に, icdarts の探索空間を拡大する手法を探索し, 操作集合を拡大し, 連続探索セルを識別するための代替手法を探索する。
これらの実験により、一般化性が向上し、動的検索空間をICDARTSに組み込む新しい手法が実装された。 This work introduces improvements to the stability and generalizability of Cyclic DARTS (CDARTS). CDARTS is a Differentiable Architecture Search (DARTS)-based approach to neural architecture search (NAS) that uses a cyclic feedback mechanism to train search and evaluation networks concurrently. This training protocol aims to optimize the search process by enforcing that the search and evaluation networks produce similar outputs. However, CDARTS introduces a loss function for the evaluation network that is dependent on the search network. The dissimilarity between the loss functions used by the evaluation networks during the search and retraining phases results in a search-phase evaluation network that is a sub-optimal proxy for the final evaluation network that is utilized during retraining. We present ICDARTS, a revised approach that eliminates the dependency of the evaluation network weights upon those of the search network, along with a modified process for discretizing the search network's \textit{zero} operations that allows these operations to be retained in the final evaluation networks. We pair the results of these changes with ablation studies on ICDARTS' algorithm and network template. Finally, we explore methods for expanding the search space of ICDARTS by expanding its operation set and exploring alternate methods for discretizing its continuous search cells. These experiments resulted in networks with improved generalizability and the implementation of a novel method for incorporating a dynamic search space into ICDARTS. | 翻訳日:2023-09-07 01:57:47 公開日:2023-09-01 |
# 多項式モデルに基づくブラックボックス対象の最適化 Polynomial-Model-Based Optimization for Blackbox Objectives ( http://arxiv.org/abs/2309.00663v1 ) ライセンス: Link先を確認 | Janina Schreiber and Damar Wicaksono and Michael Hecht | (参考訳) 幅広い応用において、ニューラルネットワークや複雑なシミュレーションのようなシステムの構造は未知であり、近似はコストがかかるか不可能である。
ブラックボックス最適化は、事前定義された目的関数が最小化されるように、これらのシステムに対して最適な(ハイパー)パラメータを求める。
Polynomial-Model-Based Optimization (PMBO) は、多項式を目的関数に代入することで最小値を求める新しいブラックボックスオプティマイザである。
ベイズ最適化に動機づけられたモデルは、獲得関数の期待改善に従って反復的に更新され、利用率と探索率のバランスをとり、モデルの不確実性推定を提供する。
PMBOは、与えられた人工的解析関数のセットに対して、他の最先端アルゴリズムと比較される。
PMBOはこれらのアルゴリズムとうまく競合し、場合によってはそのすべてを上回っている。
結果から,PMBOはブラックボックス最適化タスクを幅広い分野において解く上で重要な選択肢であると考えられる。 For a wide range of applications the structure of systems like Neural Networks or complex simulations, is unknown and approximation is costly or even impossible. Black-box optimization seeks to find optimal (hyper-) parameters for these systems such that a pre-defined objective function is minimized. Polynomial-Model-Based Optimization (PMBO) is a novel blackbox optimizer that finds the minimum by fitting a polynomial surrogate to the objective function. Motivated by Bayesian optimization the model is iteratively updated according to the acquisition function Expected Improvement, thus balancing the exploitation and exploration rate and providing an uncertainty estimate of the model. PMBO is benchmarked against other state-of-the-art algorithms for a given set of artificial, analytical functions. PMBO competes successfully with those algorithms and even outperforms all of them in some cases. As the results suggest, we believe PMBO is the pivotal choice for solving blackbox optimization tasks occurring in a wide range of disciplines. | 翻訳日:2023-09-07 01:57:25 公開日:2023-09-01 |
# 凍結視野モデルによるゼロショット映像モーメント検索 Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models ( http://arxiv.org/abs/2309.00661v1 ) ライセンス: Link先を確認 | Dezhao Luo, Jiabo Huang, Shaogang Gong, Hailin Jin, Yang Liu | (参考訳) 正確なビデオモーメント検索(VMR)は、未知の語彙や見えないシーンを扱える普遍的な視覚とテキストの相関を必要とする。
しかし、学習された相関関係は、制限された注釈コスト(完全に教師あり)のためスケールアップが難しい限られたモーメントテキストデータから導出される場合や、きめ細かい時間的注釈なしでビデオテキスト対関係のみが利用可能である場合(教師あり)に偏りがある可能性が高い。
近年,視覚言語モデル(VLM)は,大規模視覚言語ペアワイドWebデータから得られる普遍的な視覚・テクスチャ相関を通じて,異なる視覚タスクを活用できる新たな伝達学習パラダイムを実証している。
本稿では,任意のvlmから汎用的な視覚テキスト前処理を適応させ,vmrデータにアクセスすることなくモーメントテキストアライメントを容易にするゼロショット方式を提案する。
この目的のために,テキストクエリに条件付き境界対応視覚特徴を生成する条件付き特徴改善モジュールを考案し,モーメント境界理解を向上する。
さらに、ドメイン不一致の影響を軽減し、複雑なクエリ検索タスクを個別のアクション検索に分解し、VLMの利点を最大化するボトムアップ提案生成戦略を設計する。
3つのVMRベンチマークデータセットで実施された大規模な実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を実証している。 Accurate video moment retrieval (VMR) requires universal visual-textual correlations that can handle unknown vocabulary and unseen scenes. However, the learned correlations are likely either biased when derived from a limited amount of moment-text data which is hard to scale up because of the prohibitive annotation cost (fully-supervised), or unreliable when only the video-text pairwise relationships are available without fine-grained temporal annotations (weakly-supervised). Recently, the vision-language models (VLM) demonstrate a new transfer learning paradigm to benefit different vision tasks through the universal visual-textual correlations derived from large-scale vision-language pairwise web data, which has also shown benefits to VMR by fine-tuning in the target domains. In this work, we propose a zero-shot method for adapting generalisable visual-textual priors from arbitrary VLM to facilitate moment-text alignment, without the need for accessing the VMR data. To this end, we devise a conditional feature refinement module to generate boundary-aware visual features conditioned on text queries to enable better moment boundary understanding. Additionally, we design a bottom-up proposal generation strategy that mitigates the impact of domain discrepancies and breaks down complex-query retrieval tasks into individual action retrievals, thereby maximizing the benefits of VLM. Extensive experiments conducted on three VMR benchmark datasets demonstrate the notable performance advantages of our zero-shot algorithm, especially in the novel-word and novel-location out-of-distribution setups. | 翻訳日:2023-09-07 01:57:09 公開日:2023-09-01 |
# 広域ゲームにおける局所的および適応的ミラー降下 Local and adaptive mirror descents in extensive-form games ( http://arxiv.org/abs/2309.00656v1 ) ライセンス: Link先を確認 | C\^ome Fiegel, Pierre M\'enard, Tadashi Kozuno, R\'emi Munos, Vianney Perchet, Michal Valko | (参考訳) ゼロサム不完全な情報ゲーム (IIG) において, 軌道フィードバックを用いて$\epsilon$-Optimal戦略を学習する方法を検討する。
この設定では、プレイヤーは一定数のエピソード($t$)で観察に基づいてポリシーを順次更新する。
既存の手順は、アクションのシーケンスの重要サンプリング(Steinberger et al., 2020; McAleer et al., 2022)の使用により、高いばらつきに悩まされている。
このばらつきを減らすため、プレイヤーは時間とともにポリシーを更新するが、所定のサンプリングポリシーによって観察される固定サンプリングアプローチを検討する。
提案手法は,学習率の個人化と正規化損失を用いて,OMDを各情報集合に局所的に適用する適応型オンラインミラードライザー(OMD)アルゴリズムに基づく。
提案手法は,高い確率で$\tilde{\mathcal{O}}(T^{-1/2})$の収束率を保証し,学習率とサンプリングポリシーの最良の理論的選択を適用した場合にゲームパラメータにほぼ最適に依存することを示す。
これらの結果を達成するために、omd安定化の概念を一般化し、凸インクリメントによる時変正規化を可能にする。 We study how to learn $\epsilon$-optimal strategies in zero-sum imperfect information games (IIG) with trajectory feedback. In this setting, players update their policies sequentially based on their observations over a fixed number of episodes, denoted by $T$. Existing procedures suffer from high variance due to the use of importance sampling over sequences of actions (Steinberger et al., 2020; McAleer et al., 2022). To reduce this variance, we consider a fixed sampling approach, where players still update their policies over time, but with observations obtained through a given fixed sampling policy. Our approach is based on an adaptive Online Mirror Descent (OMD) algorithm that applies OMD locally to each information set, using individually decreasing learning rates and a regularized loss. We show that this approach guarantees a convergence rate of $\tilde{\mathcal{O}}(T^{-1/2})$ with high probability and has a near-optimal dependence on the game parameters when applied with the best theoretical choices of learning rates and sampling policies. To achieve these results, we generalize the notion of OMD stabilization, allowing for time-varying regularization with convex increments. | 翻訳日:2023-09-07 01:56:37 公開日:2023-09-01 |
# RigNet++: 深度補完のための効率的な反復画像ガイドネットワーク RigNet++: Efficient Repetitive Image Guided Network for Depth Completion ( http://arxiv.org/abs/2309.00655v1 ) ライセンス: Link先を確認 | Zhiqiang Yan and Xiang Li and Zhenyu Zhang and Jun Li and Jian Yang | (参考訳) 深度補完は、この作業を容易にするために色画像がしばしば使用される、疎密な深度マップを回収することを目的としている。
最近の深度法は主に画像誘導学習フレームワークに焦点をあてている。
しかし、画像のぼやけた指示と奥行きの曖昧な構造は、それでもその性能を損なう。
これらの課題に対処するために、画像ガイドネットワークにおける効率的な反復設計を探索し、徐々に十分に深度を復元する。
具体的には、画像誘導枝と深度生成枝の両方に効率的な繰り返しを具備する。
前者では,複雑な環境の識別画像の特徴を抽出し,奥行き予測のための強力な文脈指示を提供するために,集中的に反復する砂時計ネットワークを設計した。
後者では、動的畳み込みに基づく反復的誘導モジュールを導入し、高頻度構造を漸進的にモデル化しながら複雑性を低減できる効率的な畳み込み分解を提案する。
大規模な実験の結果,KITTI,VKITTI,NYUv2,3D60,Matterport3Dデータセットにおいて,本手法が優れた,あるいは競争的な結果をもたらすことが示された。 Depth completion aims to recover dense depth maps from sparse ones, where color images are often used to facilitate this task. Recent depth methods primarily focus on image guided learning frameworks. However, blurry guidance in the image and unclear structure in the depth still impede their performance. To tackle these challenges, we explore an efficient repetitive design in our image guided network to gradually and sufficiently recover depth values. Specifically, the efficient repetition is embodied in both the image guidance branch and depth generation branch. In the former branch, we design a dense repetitive hourglass network to extract discriminative image features of complex environments, which can provide powerful contextual instruction for depth prediction. In the latter branch, we introduce a repetitive guidance module based on dynamic convolution, in which an efficient convolution factorization is proposed to reduce the complexity while modeling high-frequency structures progressively. Extensive experiments indicate that our approach achieves superior or competitive results on KITTI, VKITTI, NYUv2, 3D60, and Matterport3D datasets. | 翻訳日:2023-09-07 01:56:16 公開日:2023-09-01 |
# 置換作用素の近似直交性と量子情報への応用 Approximate orthogonality of permutation operators, with application to quantum information ( http://arxiv.org/abs/2309.00715v1 ) ライセンス: Link先を確認 | Aram W. Harrow | (参考訳) $nを考えてみよう!
異なるユニタリ行列は、n$ ($d$-dimensional) の量子系を成す。
もし$d\geq n$なら、それらは線形独立である。
本稿では、それらが(ヒルベルト・シュミット内積に関して)ほぼ直交であるような感覚について論じる:$d\gg n^2$、あるいは別の意味では$d\gg n$である。
以前の研究ではこれらの行列のペアワイズ近似直交性を示したが、ここではグラム行列と恒等行列の作用素ノルム距離の観点で定量化されたより集合的ステートメントを示す。
This simple point has several applications in quantum information and random matrix theory: (1) showing that random maximally entangled states resemble fully random states, (2) showing that Boson sampling output probabilities resemble those from Gaussian matrices, (3) improving the Eggeling-Werner scheme for multipartite data hiding, (4) proving that the product test of Harrow-Montanaro cannot be performed using LOCC without a large number of copies of the state to be tested, (5) proving that the purity of a quantum state also cannot be efficiently tested using LOCC, and (6, published separately) helping prove that poly-size random quantum circuits are poly-designs. Consider the $n!$ different unitary matrices that permute $n$ $d$-dimensional quantum systems. If $d\geq n$ then they are linearly independent. This paper discusses a sense in which they are approximately orthogonal (with respect to the Hilbert-Schmidt inner product) if $d\gg n^2$, or, in a different sense, if $d\gg n$. Previous work had shown pairwise approximate orthogonality of these matrices, but here we show a more collective statement, quantified in terms of the operator norm distance of the Gram matrix to the identity matrix. This simple point has several applications in quantum information and random matrix theory: (1) showing that random maximally entangled states resemble fully random states, (2) showing that Boson sampling output probabilities resemble those from Gaussian matrices, (3) improving the Eggeling-Werner scheme for multipartite data hiding, (4) proving that the product test of Harrow-Montanaro cannot be performed using LOCC without a large number of copies of the state to be tested, (5) proving that the purity of a quantum state also cannot be efficiently tested using LOCC, and (6, published separately) helping prove that poly-size random quantum circuits are poly-designs. | 翻訳日:2023-09-07 01:48:35 公開日:2023-09-01 |
# マルチタスクによる共有安全性制約の学習 Learning Shared Safety Constraints from Multi-task Demonstrations ( http://arxiv.org/abs/2309.00711v1 ) ライセンス: Link先を確認 | Konwoo Kim, Gokul Swamy, Zuxin Liu, Ding Zhao, Sanjiban Choudhury, Zhiwei Steven Wu | (参考訳) 環境の中で実行したい特定のタスクにかかわらず、エージェントが尊重したい安全上の制約が共有されることがしばしばあります。
例えば、サンドイッチを作るかテーブルを片付けるかに関わらず、キッチンロボットは皿を壊すべきではない。
このような制約を手動で指定すれば、時間とエラーが発生しやすい。
本稿では,制約空間に逆強化学習(IRL)技術を拡張することで,安全なタスク完了に関する専門家による実証から制約を学習する方法を示す。
直感的には、専門家が選択した非常に報酬の高い行動を禁じる制約を学習します。
残念なことに、制約学習の問題はかなり不適切であり、専門家が取らなかったすべての行動を禁じる過度に保守的な制約につながる。
マルチタスク設定で自然に発生する多様なデモを活用して、より厳密な制約セットを学ぶことで、この問題に対処する。
本手法を高次元連続制御タスクのシミュレーション実験により検証した。 Regardless of the particular task we want them to perform in an environment, there are often shared safety constraints we want our agents to respect. For example, regardless of whether it is making a sandwich or clearing the table, a kitchen robot should not break a plate. Manually specifying such a constraint can be both time-consuming and error-prone. We show how to learn constraints from expert demonstrations of safe task completion by extending inverse reinforcement learning (IRL) techniques to the space of constraints. Intuitively, we learn constraints that forbid highly rewarding behavior that the expert could have taken but chose not to. Unfortunately, the constraint learning problem is rather ill-posed and typically leads to overly conservative constraints that forbid all behavior that the expert did not take. We counter this by leveraging diverse demonstrations that naturally occur in multi-task settings to learn a tighter set of constraints. We validate our method with simulation experiments on high-dimensional continuous control tasks. | 翻訳日:2023-09-07 01:48:16 公開日:2023-09-01 |
# 交通シミュレーションのための人間フィードバックによる強化学習 Reinforcement Learning with Human Feedback for Realistic Traffic Simulation ( http://arxiv.org/abs/2309.00709v1 ) ライセンス: Link先を確認 | Yulong Cao, Boris Ivanovic, Chaowei Xiao, Marco Pavone | (参考訳) 現実のテストの課題とコストを考えると、自動運転車の開発者はしばしば、信頼できるシステムを作るためのシミュレーションでテストに頼る。
効果的なシミュレーションの重要な要素は、現実主義と多様性のバランスをとる必要性から困難であることが証明された、人間の知識に合わせた現実的な交通モデルの導入である。
この研究は、既存の交通モデルの現実性を高めるために、人間好みによる強化学習(RLHF)を利用するフレームワークを開発することで、この問題に対処することを目的としている。
また,本研究では,現実主義に対する人間の嗜好のニュアンスと,多様な交通シミュレーションモデルの統合という2つの課題も明らかにした。
これらの課題に対処するために、人間のフィードバックをアライメントに利用し、サンプル効率のためRLHFを採用することを提案する。
また,このような研究を支援するために,トラヒックモデリングにおけるリアリズムアライメントのためのデータセットも紹介する。
我々のフレームワークであるTrafficRLHFは、nuScenesデータセットの包括的な評価と相関して、人間の嗜好に合う現実的な交通シナリオを生成する能力を示す。 In light of the challenges and costs of real-world testing, autonomous vehicle developers often rely on testing in simulation for the creation of reliable systems. A key element of effective simulation is the incorporation of realistic traffic models that align with human knowledge, an aspect that has proven challenging due to the need to balance realism and diversity. This works aims to address this by developing a framework that employs reinforcement learning with human preference (RLHF) to enhance the realism of existing traffic models. This study also identifies two main challenges: capturing the nuances of human preferences on realism and the unification of diverse traffic simulation models. To tackle these issues, we propose using human feedback for alignment and employ RLHF due to its sample efficiency. We also introduce the first dataset for realism alignment in traffic modeling to support such research. Our framework, named TrafficRLHF, demonstrates its proficiency in generating realistic traffic scenarios that are well-aligned with human preferences, as corroborated by comprehensive evaluations on the nuScenes dataset. | 翻訳日:2023-09-07 01:47:59 公開日:2023-09-01 |
# 内在次元によるインデクシングirises Indexing Irises by Intrinsic Dimension ( http://arxiv.org/abs/2309.00705v1 ) ライセンス: Link先を確認 | J. Michael Rozmus | (参考訳) 比較的多様な大学町からの650以上の個人から、1350個の目からなる28,000以上の高品質虹彩画像が収集された。
正規化虹彩画像の小さな未閉塞部分を、1350の異なる眼の登録虹彩のデータベースに一致する虹彩画像を送信する際に、未知の人物を迅速に識別するための鍵部分として選択する。
登録されたアイライズ1350のこれらのキー部分の集合の内在次元は、約4(4)である。
この集合は主成分分析(PCA)により4次元固有空間に写像される。
識別のためにアイリス画像がアイリスデータベースに提示されると、検索は4d内在空間におけるキー部分の位置の近傍で開始され、データベースのほんの数パーセントと比較して正しい識別マッチングを見つける。 28,000+ high-quality iris images of 1350 distinct eyes from 650+ different individuals from a relatively diverse university town population were collected. A small defined unobstructed portion of the normalized iris image is selected as a key portion for quickly identifying an unknown individual when submitting an iris image to be matched to a database of enrolled irises of the 1350 distinct eyes. The intrinsic dimension of a set of these key portions of the 1350 enrolled irises is measured to be about four (4). This set is mapped to a four-dimensional intrinsic space by principal components analysis (PCA). When an iris image is presented to the iris database for identification, the search begins in the neighborhood of the location of its key portion in the 4D intrinsic space, typically finding a correct identifying match after comparison to only a few percent of the database. | 翻訳日:2023-09-07 01:47:40 公開日:2023-09-01 |
# 幾何学的深層学習:グラフニューラルネットワークの温度に基づく解析 Geometric Deep Learning: a Temperature Based Analysis of Graph Neural Networks ( http://arxiv.org/abs/2309.00699v1 ) ライセンス: Link先を確認 | M. Lapenna, F. Faglioni, F. Zanchetta, R. Fioresi | (参考訳) 重みを非量子および非相対論的粒子として扱う熱力学系として幾何学的深層学習モデルを検討した。
我々は[7]で以前に定義された温度の概念を採用し、GCNおよびGATモデルのための様々な層で研究する。
本研究の今後の応用について論じる。 We examine a Geometric Deep Learning model as a thermodynamic system treating the weights as non-quantum and non-relativistic particles. We employ the notion of temperature previously defined in [7] and study it in the various layers for GCN and GAT models. Potential future applications of our findings are discussed. | 翻訳日:2023-09-07 01:47:27 公開日:2023-09-01 |
# AAN:時間的行動検出のための属性認識ネットワーク AAN: Attributes-Aware Network for Temporal Action Detection ( http://arxiv.org/abs/2309.00696v1 ) ライセンス: Link先を確認 | Rui Dai, Srijan Das, Michael S. Ryoo, Francois Bremond | (参考訳) 長期的なビデオ理解の課題は、オブジェクトの意味論の効率的な抽出と、下流タスクにおけるそれらの関係のモデリングによって制約されている。
CLIP視覚特徴は、様々な視覚タスク、特にオブジェクトエンコーディングにおいて識別特性を示すが、長期的なビデオ理解には最適である。
この問題に対処するために,属性抽出とグラフ推論ブロックという2つの重要なコンポーネントからなる属性認識ネットワーク(aan)を提案する。
これらのコンポーネントは、ビデオ内のオブジェクト中心属性の抽出とそれらの関係のモデリングを容易にする。
クリップ機能を活用することで、aanは、charadesとtoyota smarthomeの2つの一般的なアクション検出データセットで最先端のアプローチを上回る。 The challenge of long-term video understanding remains constrained by the efficient extraction of object semantics and the modelling of their relationships for downstream tasks. Although the CLIP visual features exhibit discriminative properties for various vision tasks, particularly in object encoding, they are suboptimal for long-term video understanding. To address this issue, we present the Attributes-Aware Network (AAN), which consists of two key components: the Attributes Extractor and a Graph Reasoning block. These components facilitate the extraction of object-centric attributes and the modelling of their relationships within the video. By leveraging CLIP features, AAN outperforms state-of-the-art approaches on two popular action detection datasets: Charades and Toyota Smarthome Untrimmed datasets. | 翻訳日:2023-09-07 01:47:22 公開日:2023-09-01 |
# 動的学習におけるクライアントドリフトとカタストロフィックの併用探索 Jointly Exploring Client Drift and Catastrophic Forgetting in Dynamic Learning ( http://arxiv.org/abs/2309.00688v1 ) ライセンス: Link先を確認 | Niklas Babendererde, Moritz Fuchs, Camila Gonzalez, Yuri Tolkach, Anirban Mukhopadhyay | (参考訳) Federated and Continual Learningは、動的環境におけるDeep Learningの堅牢でプライバシーに配慮した使用のための潜在的なパラダイムとして登場した。
しかし、Client DriftとCaastrophic Forgettingは、一貫したパフォーマンスを保証するための基本的な障害である。
既存の作業はこれらの問題に別々に対処するのみであり、両方のパフォーマンス劣化の根本原因が接続されているという事実を無視している。
クライアントの所定の比率を摂動することで、クライアントのコントロールされたテスト環境を構築するための統一的な分析フレームワークを提案します。
当社のフレームワークは、この新たな組み合わせ分析をさらに活用し、両方のパフォーマンスへの影響を3dランドスケープを生成します。
シフトしたクライアントの一定割合によるクライアントドリフトによるパフォーマンス低下は、対応するシフト強度から生じる破滅的な忘れることの低下と相関することを示す。
コンピュータビジョン(celeba)と医用画像(peso)の両問題の相関テストはこの新しい視点を支持し、平均ピアソンランク相関係数は0.94以上である。
私たちのフレームワークは時空間的シフト分析を組み合わせることで、分散シフトの両形態が混合シナリオにおいてどのように振る舞うかを調べることができ、より良い一般化のための新しい経路を開くことができる。
そこで本研究では,中程度のクライアントドリフトとカタストロフィックフォーッティングの組み合わせにより,各シフトの1つだけが個別に発生する場合と比較して,結果モデルの性能を向上できることを示す。
本稿では,フェデレーションと継続学習のための既存の新しい手法を解析するためのフレームワークの能力を活用し,この現象を再帰的に観察する上で,連続学習からの単純で一般的な手法を適用した。 Federated and Continual Learning have emerged as potential paradigms for the robust and privacy-aware use of Deep Learning in dynamic environments. However, Client Drift and Catastrophic Forgetting are fundamental obstacles to guaranteeing consistent performance. Existing work only addresses these problems separately, which neglects the fact that the root cause behind both forms of performance deterioration is connected. We propose a unified analysis framework for building a controlled test environment for Client Drift -- by perturbing a defined ratio of clients -- and Catastrophic Forgetting -- by shifting all clients with a particular strength. Our framework further leverages this new combined analysis by generating a 3D landscape of the combined performance impact from both. We demonstrate that the performance drop through Client Drift, caused by a certain share of shifted clients, is correlated to the drop from Catastrophic Forgetting resulting from a corresponding shift strength. Correlation tests between both problems for Computer Vision (CelebA) and Medical Imaging (PESO) support this new perspective, with an average Pearson rank correlation coefficient of over 0.94. Our framework's novel ability of combined spatio-temporal shift analysis allows us to investigate how both forms of distribution shift behave in mixed scenarios, opening a new pathway for better generalization. We show that a combination of moderate Client Drift and Catastrophic Forgetting can even improve the performance of the resulting model (causing a "Generalization Bump") compared to when only one of the shifts occurs individually. We apply a simple and commonly used method from Continual Learning in the federated setting and observe this phenomenon to be reoccurring, leveraging the ability of our framework to analyze existing and novel methods for Federated and Continual Learning. | 翻訳日:2023-09-07 01:47:08 公開日:2023-09-01 |
# 任意の分散機械学習のためのランダム極符号 Randomized Polar Codes for Anytime Distributed Machine Learning ( http://arxiv.org/abs/2309.00682v1 ) ライセンス: Link先を確認 | Burak Bartan and Mert Pilanci | (参考訳) 本稿では,低速な計算ノードに対して堅牢で,線形演算の近似計算と精度の両立が可能な分散コンピューティングフレームワークを提案する。
提案機構は,ランダムなスケッチと極性符号の概念を符号化計算の文脈で統合する。
本稿では,復号化のための計算複雑性を低く保ちながら,実数値データを扱うための逐次復号アルゴリズムを提案する。
さらに、利用可能なノード出力のセットがデコーダできない場合でも、確実に正確な見積もりを生成できるanytime estimatorを提供する。
大規模行列乗算やブラックボックス最適化など,様々な文脈でこのフレームワークの潜在的な応用を実証する。
本稿では、サーバーレスクラウドコンピューティングシステム上でこれらの手法を実装し、imagenetスケール計算を含む実際のスケーラビリティを示す数値結果を提供する。 We present a novel distributed computing framework that is robust to slow compute nodes, and is capable of both approximate and exact computation of linear operations. The proposed mechanism integrates the concepts of randomized sketching and polar codes in the context of coded computation. We propose a sequential decoding algorithm designed to handle real valued data while maintaining low computational complexity for recovery. Additionally, we provide an anytime estimator that can generate provably accurate estimates even when the set of available node outputs is not decodable. We demonstrate the potential applications of this framework in various contexts, such as large-scale matrix multiplication and black-box optimization. We present the implementation of these methods on a serverless cloud computing system and provide numerical results to demonstrate their scalability in practice, including ImageNet scale computations. | 翻訳日:2023-09-07 01:46:36 公開日:2023-09-01 |
# 量子スピン鎖における非安定化性の臨界挙動 Critical behaviours of non-stabilizerness in quantum spin chains ( http://arxiv.org/abs/2309.00676v1 ) ライセンス: Link先を確認 | Poetri Sonya Tarabunga | (参考訳) 非安定化性(英: non-stabilizerness)は、量子状態が安定化状態から逸脱する範囲を計測し、普遍的な量子計算を達成するための基本的な資源である。
本研究では, 量子スピン鎖の臨界度に関する非安定化剤の挙動について検討する。
非安定化性の定量化には、離散ウィグナー関数の負性に基づいて、マナと呼ばれるモノトーンを用いる。
この測度は純粋状態と混合状態の両方の非安定化性を捉える。
純状態の非安定性の尺度であるmanaのr\'enyi一般化を導入し、これを大規模量子系におけるmanaの計算に利用する。
我々は三状態ポッツモデルとその非可積分拡大を考察し、共形場理論において相互マナが共形場理論において距離で普遍対数スケーリングを示すという強い証拠を与える。 Non-stabilizerness - commonly known as magic - measures the extent to which a quantum state deviates from stabilizer states and is a fundamental resource for achieving universal quantum computation. In this work, we investigate the behavior of non-stabilizerness around criticality in quantum spin chains. To quantify non-stabilizerness, we employ a monotone called mana, based on the negativity of the discrete Wigner function. This measure captures non-stabilizerness for both pure and mixed states. We introduce R\'enyi generalizations of mana, which are also measures of non-stabilizerness for pure states, and utilize it to compute mana in large quantum systems. We consider the three-state Potts model and its non-integrable extension and we provide strong evidence that the mutual mana exhibits universal logarithmic scaling with distance in conformal field theory, as is the case for entanglement. | 翻訳日:2023-09-07 01:46:23 公開日:2023-09-01 |
# 文脈から考える:LLMにおける状況意識の測定について Taken out of context: On measuring situational awareness in LLMs ( http://arxiv.org/abs/2309.00667v1 ) ライセンス: Link先を確認 | Lukas Berglund, Asa Cooper Stickland, Mikita Balesni, Max Kaufmann, Meg Tong, Tomasz Korbak, Daniel Kokotajlo, Owain Evans | (参考訳) 我々は,大規模言語モデル (LLM) における 'situational awareness' の出現をよりよく理解することを目指している。
モデルはモデルであることに気付いていて、現在テスト中なのかデプロイ中なのかを認識できます。
今日のLLMは、デプロイ前に安全性とアライメントのためにテストされています。
LLMは、状況認識を利用して、配置後の有害な行動をとりながら、安全性テストの高得点を達成することができる。
状況認識は、モデルスケーリングの副産物として予期せず現れるかもしれない。
この出現を予見する一つの方法は、状況認識に必要な能力のスケーリング実験を実行することである。
このような能力として,「文脈外推論」を提案する(文脈内学習とは対照的に)。
文脈外推論を実験的に研究する。
まず、実例やデモは提供せず、テストの記述にLLMを微調整します。
テスト時には、モデルがテストに合格できるかどうかを評価する。
驚いたことに、LLMがこのアウト・オブ・コンテクスト推論タスクに成功した。
彼らの成功はトレーニング設定に敏感で、データ拡張の適用時にのみ機能します。
GPT-3とLLaMA-1では、モデルサイズにより性能が向上した。
これらの知見は、LSMにおける状況認識の出現を予測し、潜在的に制御するための、さらなる経験的研究の基礎となる。
コードは、https://github.com/AsaCooperStickland/situational-awareness-evalsで入手できる。 We aim to better understand the emergence of `situational awareness' in large language models (LLMs). A model is situationally aware if it's aware that it's a model and can recognize whether it's currently in testing or deployment. Today's LLMs are tested for safety and alignment before they are deployed. An LLM could exploit situational awareness to achieve a high score on safety tests, while taking harmful actions after deployment. Situational awareness may emerge unexpectedly as a byproduct of model scaling. One way to better foresee this emergence is to run scaling experiments on abilities necessary for situational awareness. As such an ability, we propose `out-of-context reasoning' (in contrast to in-context learning). We study out-of-context reasoning experimentally. First, we finetune an LLM on a description of a test while providing no examples or demonstrations. At test time, we assess whether the model can pass the test. To our surprise, we find that LLMs succeed on this out-of-context reasoning task. Their success is sensitive to the training setup and only works when we apply data augmentation. For both GPT-3 and LLaMA-1, performance improves with model size. These findings offer a foundation for further empirical study, towards predicting and potentially controlling the emergence of situational awareness in LLMs. Code is available at: https://github.com/AsaCooperStickland/situational-awareness-evals. | 翻訳日:2023-09-07 01:46:07 公開日:2023-09-01 |
# 量子回路と代数関係:効率的なスピン-1ハミルトニアンシミュレーションへの経路 Qutrit Circuits and Algebraic Relations: A Pathway to Efficient Spin-1 Hamiltonian Simulation ( http://arxiv.org/abs/2309.00740v1 ) ライセンス: Link先を確認 | Oluwadara Ogunkoya, Joonho Kim, Bo Peng, A. Bar{\i}\c{s} \"Ozg\"uler, Yuri Alexeev | (参考訳) 量子情報処理は、普遍ゲートセット内に量子ビットベースの技術を適用することで、大きな進歩をみせた。
最近、量子ビットパラダイムを越えて、d$-dimensional quantum unit(qudits)への探索が、計算効率を改善するための新しい道を開いた。
本稿では,quditベースの回路の高信頼化における課題を,複雑化に伴う課題として,quditベースの手法を考察する。
クディット回路の忠実性を高めるための革新的なアプローチとして、回路圧縮と最適化を可能にするヤン・バクスター型ターンオーバー方程式のような代数的関係を探索する。
本稿では,3量子時間プロパゲータのターンオーバー関係とその回路深さ低減への応用について紹介する。
さらに、この関係が高次元量子回路に一般化できるかどうかを考察し、1次元スピン-1ハイゼンベルクモデルについての研究を含む。
我々の研究は、この一般化を実現するための厳密かつ数値的なアプローチを概説し、キューディットベースの量子コンピューティングの分野におけるさらなる探索の基礎となる。 Quantum information processing has witnessed significant advancements through the application of qubit-based techniques within universal gate sets. Recently, exploration beyond the qubit paradigm to $d$-dimensional quantum units or qudits has opened new avenues for improving computational efficiency. This paper delves into the qudit-based approach, particularly addressing the challenges presented in the high-fidelity implementation of qudit-based circuits due to increased complexity. As an innovative approach towards enhancing qudit circuit fidelity, we explore algebraic relations, such as the Yang-Baxter-like turnover equation, that may enable circuit compression and optimization. The paper introduces the turnover relation for the three-qutrit time propagator and its potential use in reducing circuit depth. We further investigate whether this relation can be generalized for higher-dimensional quantum circuits, including a focused study on the one-dimensional spin-1 Heisenberg model. Our work outlines both rigorous and numerically efficient approaches to potentially achieve this generalization, providing a foundation for further explorations in the field of qudit-based quantum computing. | 翻訳日:2023-09-07 01:38:04 公開日:2023-09-01 |
# 遺伝子ネットワーク予測のための普遍正規化強化グラフ表現学習 Universal Normalization Enhanced Graph Representation Learning for Gene Network Prediction ( http://arxiv.org/abs/2309.00738v1 ) ライセンス: Link先を確認 | Zehao Dong, Muhan Zhang, Qihang Zhao, Philip R.O. Payne, Michael Province, Carlos Cruchaga, Tianyu Zhao, Yixin Chen, Fuhai Li | (参考訳) 効果的な遺伝子ネットワーク表現学習は、遺伝子プロファイルと疾患表現型の関係を予測・理解するバイオインフォマティクスにおいて非常に重要である。
グラフニューラルネットワーク(GNN)は、ソーシャルネットワークのような様々なグラフ構造化データを分析するための支配的なアーキテクチャであるが、遺伝子ネットワークでの予測は、しばしば低いパフォーマンスを示す。
本稿では,遺伝子ネットワーク表現学習問題を形式的に検討し,安定を維持しつつgnnの表現力を最大化するためにグラフ正規化を普遍的に適用できる, \textit{universal graph normalization} の概念を特徴付ける。
メッセージパッシングフェーズと読み出しレイヤの両方において、普遍的なグラフ正規化を利用してベースGNNの性能を向上させる新しいUNGNN(Universal Normalized GNN)フレームワークを提案する。
UNGNNにはプラグインとプレイのプロパティがあり、実際には任意のGNNバックボーンと組み合わせることができる。
遺伝子ネットワークに基づくバイオインフォマティクスタスクに関する総合的な実験により、我々のUNGNNモデルは、一般的なGNNベンチマークを著しく上回り、従来のSOTAベースラインと比較して、平均16$\%の全体的なパフォーマンス改善を提供することを示した。
さらに,ユビキタスグラフ正規化が解ける他のグラフデータセットの理論的結果も評価し,UNGNNが常に優れた性能を発揮することを観察した。 Effective gene network representation learning is of great importance in bioinformatics to predict/understand the relation of gene profiles and disease phenotypes. Though graph neural networks (GNNs) have been the dominant architecture for analyzing various graph-structured data like social networks, their predicting on gene networks often exhibits subpar performance. In this paper, we formally investigate the gene network representation learning problem and characterize a notion of \textit{universal graph normalization}, where graph normalization can be applied in an universal manner to maximize the expressive power of GNNs while maintaining the stability. We propose a novel UNGNN (Universal Normalized GNN) framework, which leverages universal graph normalization in both the message passing phase and readout layer to enhance the performance of a base GNN. UNGNN has a plug-and-play property and can be combined with any GNN backbone in practice. A comprehensive set of experiments on gene-network-based bioinformatical tasks demonstrates that our UNGNN model significantly outperforms popular GNN benchmarks and provides an overall performance improvement of 16 $\%$ on average compared to previous state-of-the-art (SOTA) baselines. Furthermore, we also evaluate our theoretical findings on other graph datasets where the universal graph normalization is solvable, and we observe that UNGNN consistently achieves the superior performance. | 翻訳日:2023-09-07 01:37:20 公開日:2023-09-01 |
# 量子コンピュータ上のyang-baxter方程式を用いた時間依存hartree-fock法のハイブリッドアルゴリズム Hybrid algorithm for the time-dependent Hartree-Fock method using the Yang-Baxter equation on quantum computers ( http://arxiv.org/abs/2309.00737v1 ) ライセンス: Link先を確認 | Sahil Gulania, Stephen K. Gray, Yuri Alexeev, Bo Peng and Niranjan Govind | (参考訳) 時間依存型ハートリー・フォック法(TDHF)は、電子が自己整合平均場と単一スレーター行列式の空間内で独立に移動するという仮定の中で、電子の平均場力学をシミュレートする手法である。
ハートリー・フォック理論における時間力学の実行の大きな利点の1つは、問題の自由フェルミオン性であり、TDHFは古典的に多項式時間でシミュレートできる。
本稿では,量子コンピュータのためのハイブリッドTDHF実装を提案する。
この量子回路は時間とともに成長するが、最近のybe(yang-baxter equation)による回路圧縮の研究により、回路の深さは一定となる。
この研究は、量子デバイスを用いてTDHFをシミュレートする新しい方法を提供し、量子化学シミュレーションにおけるYBE対称性の適用のための新しい方向を提供する。 The time-dependent Hartree-Fock (TDHF) method is an approach to simulate the mean field dynamics of electrons within the assumption that the electrons move independently in their self-consistent average field and within the space of single Slater determinants. One of the major advantages of performing time dynamics within Hartree-Fock theory is the free fermionic nature of the problem, which makes TDHF classically simulatable in polynomial time. Here, we present a hybrid TDHF implementation for quantum computers. This quantum circuit grows with time; but with our recent work on circuit compression via the Yang-Baxter equation (YBE), the resulting circuit is constant depth. This study provides a new way to simulate TDHF with the aid of a quantum device as well as provides a new direction for the application of YBE symmetry in quantum chemistry simulations. | 翻訳日:2023-09-07 01:36:39 公開日:2023-09-01 |
# ランダム森林における予測誤差の推定 Prediction Error Estimation in Random Forests ( http://arxiv.org/abs/2309.00736v1 ) ライセンス: Link先を確認 | Ian Krupkin and Johanna Hardin | (参考訳) 本稿では,ランダム林の分類誤差を定量的に評価する。
Bates et al. (2023) によって構築された最初の理論的枠組みに基づき、ランダムフォレストに共通する様々なエラー推定手法の文脈において、真のエラー率と予測誤差率を理論的および実験的に検討する。
分類の場合、ランダムフォレストの平均予測誤差は、平均予測誤差ではなく、真の誤差率に近いことが示されている。
これは、ロジスティック回帰のために与えられたBates et al. (2023) の発見とは逆である。
さらに,この結果がクロスバリデーションやバッキング,データ分割など,さまざまなエラー推定戦略にまたがることを示す。 In this paper, error estimates of classification Random Forests are quantitatively assessed. Based on the initial theoretical framework built by Bates et al. (2023), the true error rate and expected error rate are theoretically and empirically investigated in the context of a variety of error estimation methods common to Random Forests. We show that in the classification case, Random Forests' estimates of prediction error is closer on average to the true error rate instead of the average prediction error. This is opposite the findings of Bates et al. (2023) which were given for logistic regression. We further show that this result holds across different error estimation strategies such as cross-validation, bagging, and data splitting. | 翻訳日:2023-09-07 01:36:23 公開日:2023-09-01 |
# sok: リスクの高いユーザによる安全なデジタルセーフティ研究 SoK: Safer Digital-Safety Research Involving At-Risk Users ( http://arxiv.org/abs/2309.00735v1 ) ライセンス: Link先を確認 | Rosanna Bellini, Emily Tseng, Noel Warford, Alaa Daffalla, Tara Matthews, Sunny Consolvo, Jill Palzkill Woelfer, Patrick Gage Kelley, Michelle L. Mazurek, Dana Cuomo, Nicola Dell, and Thomas Ristenpart | (参考訳) リスクの高いユーザー、すなわち、デジタル攻撃を受けたり、そのような攻撃による被害を受けたりした場合に不当に影響を受けやすいユーザーを含む研究は、ユーザーと研究者双方に重大な安全上の課題をもたらす可能性がある。
それでも、コンピュータセキュリティとプライバシの研究を追求することは、リスクの高いユーザーのデジタル安全のニーズを満たす方法を理解し、より安全なテクノロジーを設計する上で不可欠である。
このようなユーザによる安全な研究の標準化と促進を目的として,14の研究リスクと36の安全実践を研究者コミュニティが求めるために,196の学術論文の分析を行った。
我々は、この一貫性のない安全慣行と12人のドメインの専門家の口頭履歴を組み合わせることで、研究者がリスクの高いユーザーによる安全なデジタル安全研究の計画、実行、共有に使用できる、足場的で統合された実践的ガイダンスを提供する。
我々は,at-riskユーザ研究の報告,研究,資金に関する今後の研究分野の提案により結論づける。 Research involving at-risk users -- that is, users who are more likely to experience a digital attack or to be disproportionately affected when harm from such an attack occurs -- can pose significant safety challenges to both users and researchers. Nevertheless, pursuing research in computer security and privacy is crucial to understanding how to meet the digital-safety needs of at-risk users and to design safer technology for all. To standardize and bolster safer research involving such users, we offer an analysis of 196 academic works to elicit 14 research risks and 36 safety practices used by a growing community of researchers. We pair this inconsistent set of reported safety practices with oral histories from 12 domain experts to contribute scaffolded and consolidated pragmatic guidance that researchers can use to plan, execute, and share safer digital-safety research involving at-risk users. We conclude by suggesting areas for future research regarding the reporting, study, and funding of at-risk user research | 翻訳日:2023-09-07 01:36:12 公開日:2023-09-01 |
# テキスト説明に学ぶ視覚的特徴 Learned Visual Features to Textual Explanations ( http://arxiv.org/abs/2309.00733v1 ) ライセンス: Link先を確認 | Saeid Asgari Taghanaki, Aliasghar Khani, Amir Khasahmadi, Aditya Sanghi, Karl D.D. Willis, Ali Mahdavi-Amiri | (参考訳) 視覚モデルの学習した特徴を解釈することは、機械学習の分野で長年の課題となっている。
本稿では,事前学習された画像分類器の学習特徴を解釈するために,大言語モデル(llm)の機能を活用する新しい手法を提案する。
texplainと呼ばれるこの手法は、ニューラルネットワークを訓練して画像分類器とllmの特徴空間間の接続を確立することで、この課題に取り組みます。
そして,提案手法は,画像の分類器が学習した特徴を説明するために,膨大な数の文を生成する。
これらの文は、最も頻繁な単語を抽出するために使用され、分類器内の学習した特徴やパターンを包括的に理解する。
本手法は,これらの頻繁な単語を視覚表現に対応させて,独立に訓練された分類器の意思決定過程に関する洞察を提供し,その行動のスプリアス相関,バイアス,深い理解を可能にする。
提案手法の有効性を検証するため,ImageNet-9LやWaterbirdsなどの多様なデータセットで実験を行った。
本手法は,画像分類器の解釈性とロバスト性を向上させる可能性を示す。 Interpreting the learned features of vision models has posed a longstanding challenge in the field of machine learning. To address this issue, we propose a novel method that leverages the capabilities of large language models (LLMs) to interpret the learned features of pre-trained image classifiers. Our method, called TExplain, tackles this task by training a neural network to establish a connection between the feature space of image classifiers and LLMs. Then, during inference, our approach generates a vast number of sentences to explain the features learned by the classifier for a given image. These sentences are then used to extract the most frequent words, providing a comprehensive understanding of the learned features and patterns within the classifier. Our method, for the first time, utilizes these frequent words corresponding to a visual representation to provide insights into the decision-making process of the independently trained classifier, enabling the detection of spurious correlations, biases, and a deeper comprehension of its behavior. To validate the effectiveness of our approach, we conduct experiments on diverse datasets, including ImageNet-9L and Waterbirds. The results demonstrate the potential of our method to enhance the interpretability and robustness of image classifiers. | 翻訳日:2023-09-07 01:35:53 公開日:2023-09-01 |
# tempestas ex machina: ウェーブフロント制御のための機械学習手法のレビュー Tempestas ex machina: A review of machine learning methods for wavefront control ( http://arxiv.org/abs/2309.00730v1 ) ライセンス: Link先を確認 | J. Fowler and Rico Landman | (参考訳) 波面制御アルゴリズムは、これらのシステムの重要な構成要素であるだけでなく、検出器の速度と感度を向上したり、より効率的で効率的な変形可能なミラーを必要とすることなく、我々の適応光学システムに恩恵をもたらすことができる。
現在まで、ほとんどの観測所は波面制御のワークホースを古典的な積分制御器として実行しており、波面センサ残差の補正を推定し、その修正をできるだけ早くクローズドループで適用しようと試みている。
この性質の積分器は、補正時間よりも速いスケールで進化する時間ラグ誤差と、波面センサー残差にカプセル化されていないシステム内の振動や動的誤差に対処することができない。
機械学習の人気が高まり、多くの人々がウェーブフロント制御に現代的な機械学習手法を適用している。
さらに、(さまざまなエイリアスの下で)機械学習手法の多くの線形実装が、過去30年間にわたって波面制御のために開発されてきた。
本研究により、機械学習を最も単純な用語で定義し、この問題の文脈で適用される最も一般的な機械学習手法を探求し、ウェーブフロント制御に対する新しい機械学習アプローチに関する文献をレビューする。 As we look to the next generation of adaptive optics systems, now is the time to develop and explore the technologies that will allow us to image rocky Earth-like planets; wavefront control algorithms are not only a crucial component of these systems, but can benefit our adaptive optics systems without requiring increased detector speed and sensitivity or more effective and efficient deformable mirrors. To date, most observatories run the workhorse of their wavefront control as a classic integral controller, which estimates a correction from wavefront sensor residuals, and attempts to apply that correction as fast as possible in closed-loop. An integrator of this nature fails to address temporal lag errors that evolve over scales faster than the correction time, as well as vibrations or dynamic errors within the system that are not encapsulated in the wavefront sensor residuals; these errors impact high contrast imaging systems with complex coronagraphs. With the rise in popularity of machine learning, many are investigating applying modern machine learning methods to wavefront control. Furthermore, many linear implementations of machine learning methods (under varying aliases) have been in development for wavefront control for the last 30-odd years. With this work we define machine learning in its simplest terms, explore the most common machine learning methods applied in the context of this problem, and present a review of the literature concerning novel machine learning approaches to wavefront control. | 翻訳日:2023-09-07 01:35:33 公開日:2023-09-01 |
# 駆動型jaynes-cummingsシステムの厳密な解法 Exact Solution to the Driven Jaynes-Cummings System ( http://arxiv.org/abs/2309.00729v1 ) ライセンス: Link先を確認 | I. Bocanegra, L. Hern\'andez-S\'anchez, I. Ramos-Prieto, F. Soto-Eguibar and H. M. Moya-Cessa | (参考訳) 2段階の原子が量子化された場と相互作用し、原子と磁場の両方が外部の古典場によって駆動される駆動型jaynes-cummingsモデルのダイナミクスを調べる。
不変なアプローチにより、対応するハミルトニアンを標準のJaynes-Cummingsモデルの1つに変換することができる。
その後、駆動系に対するシュリンガー方程式の正確な解析解が得られ、その動的変数のいくつかを分析するために用いられる。 We investigate the dynamics of the driven Jaynes-Cummings model, where a two-level atom interacts with a quantized field and both, atom and field, are driven by an external classical field. Via an invariant approach, we are able to transform the corresponding Hamiltonian into the one of the standard Jaynes-Cummings model. Subsequently, the exact analytical solution of the Schr\"odinger equation for the driven system is obtained and employed to analyze some of its dynamical variables. | 翻訳日:2023-09-07 01:35:12 公開日:2023-09-01 |
# 医用画像登録における深層学習 : 導入と調査 Deep learning in medical image registration: introduction and survey ( http://arxiv.org/abs/2309.00727v1 ) ライセンス: Link先を確認 | Ahmad Hammoudeh, St\'ephane Dupont | (参考訳) 画像登録(英: image registration、ir)とは、画像が基準空間と一致するように変形するプロセスであり、医療従事者が同じ回転やスケールを持つような標準基準フレームで様々な医療画像を調べるのが容易である。
本文書では簡単な数値例を用いて画像登録を紹介する。
空間指向のシンボル表現とともに、画像登録の定義を提供する。
このレビューでは、アフィン、変形性、可逆性、双方向変換、およびVoxelmorph、Demons、SyN、Iterative Closest Point、SynthMorphなどの医療画像登録アルゴリズムなど、画像変換のさまざまな側面を取り上げている。
また、粗い粒度とピラミッドのアプローチを含むアトラスベースの登録と多段階画像登録技術についても検討している。
さらに, 医用画像登録分類法, データセット, 相関基準, セグメンテーション基準, 処理時間, モデルサイズなどの評価指標について検討した。
また、画像誘導手術、運動追跡、腫瘍診断の応用も検討している。
最後に、この文書はトランスフォーマーのさらなる発展を含む将来の研究の方向性に言及する。 Image registration (IR) is a process that deforms images to align them with respect to a reference space, making it easier for medical practitioners to examine various medical images in a standardized reference frame, such as having the same rotation and scale. This document introduces image registration using a simple numeric example. It provides a definition of image registration along with a space-oriented symbolic representation. This review covers various aspects of image transformations, including affine, deformable, invertible, and bidirectional transformations, as well as medical image registration algorithms such as Voxelmorph, Demons, SyN, Iterative Closest Point, and SynthMorph. It also explores atlas-based registration and multistage image registration techniques, including coarse-fine and pyramid approaches. Furthermore, this survey paper discusses medical image registration taxonomies, datasets, evaluation measures, such as correlation-based metrics, segmentation-based metrics, processing time, and model size. It also explores applications in image-guided surgery, motion tracking, and tumor diagnosis. Finally, the document addresses future research directions, including the further development of transformers. | 翻訳日:2023-09-07 01:35:02 公開日:2023-09-01 |
# 大規模言語モデルを用いた名前空間の文脈バイアス Contextual Biasing of Named-Entities with Large Language Models ( http://arxiv.org/abs/2309.00723v1 ) ライセンス: Link先を確認 | Chuanneng Sun, Zeeshan Ahmed, Yingyi Ma, Zhe Liu, Yutong Pang, Ozlem Kalinli | (参考訳) 本稿では,大言語モデル(LLMs)を用いた文脈バイアスについて検討し,LLMに追加の文脈情報を提供し,音声認識(ASR)性能を向上する。
本稿では, 仮説のスコアを計算する際に, バイアスリストと少数ショット例を組み込んで追加情報として役立てる再構成において, 微調整を行うことなく, LLMのプロンプトを活用することを提案する。
数発のプロンプト学習に加えて、エンティティクラスと次のトークンの両方を予測するために、LLMのマルチタスクトレーニングを提案する。
文脈バイアスの効率の向上とLLMの最大シーケンス長の超過を回避するために,クラスタグ予測を用いて最も可能性の高いクラスを選択し,次のトークン予測のコンテキストとして,このクラス内のエンティティのみを使用する動的プロンプトを提案する。
単語誤り率(WER)の評価を行う
一 内部呼出、メッセージング及びディクテーションデータセット
ii) slue-voxpopuliデータセット。
その結果、バイアスリストと少数のサンプルは、最初のパスasrと比較して17.8%と9.6%の相対的な改善を達成でき、マルチタスクトレーニングと動的プロンプトはそれぞれ20.0%と11.3%の相対的な改善を達成できることがわかった。 This paper studies contextual biasing with Large Language Models (LLMs), where during second-pass rescoring additional contextual information is provided to a LLM to boost Automatic Speech Recognition (ASR) performance. We propose to leverage prompts for a LLM without fine tuning during rescoring which incorporate a biasing list and few-shot examples to serve as additional information when calculating the score for the hypothesis. In addition to few-shot prompt learning, we propose multi-task training of the LLM to predict both the entity class and the next token. To improve the efficiency for contextual biasing and to avoid exceeding LLMs' maximum sequence lengths, we propose dynamic prompting, where we select the most likely class using the class tag prediction, and only use entities in this class as contexts for next token prediction. Word Error Rate (WER) evaluation is performed on i) an internal calling, messaging, and dictation dataset, and ii) the SLUE-Voxpopuli dataset. Results indicate that biasing lists and few-shot examples can achieve 17.8% and 9.6% relative improvement compared to first pass ASR, and that multi-task training and dynamic prompting can achieve 20.0% and 11.3% relative WER improvement, respectively. | 翻訳日:2023-09-07 01:34:42 公開日:2023-09-01 |
# 実時間進化と多重参照状態を持つ量子Laczosアルゴリズムからの核スペクトル Nuclear Spectra from Quantum Lanczos Algorithm with Real-Time Evolution and Multiple Reference States ( http://arxiv.org/abs/2309.00759v1 ) ライセンス: Link先を確認 | Amanda Bowman | (参考訳) 量子系のモデルは単粒子状態の追加によって指数関数的にスケールし、計算に難解な問題を示す。
あるいは、量子コンピュータは n qubits 上の 2n 次元の多体基底を格納することができる。
これは近年発展してきた量子固有解法アルゴリズム、例えば古典的で反復的なランツォスアルゴリズムに基づく量子ランツォスアルゴリズムを動機付けている。
数値シミュレーションを行い,20ne,22na,29naの低次固有状態を求め,虚数と実数の比較を行った。
想像的時間進化はより高速な収束をもたらすが、リアルタイム進化は数十イテレーション以内に収束し、量子コンピュータ上のユニタリ作用素の要求を満たす。
さらに、複数の参照状態を使用することで、一定数のリアルタイムイテレーションでより高速な収束や高い精度が得られる。
QLanczosアルゴリズムの古典的コンピュータ上で,実時間進化と複数の参照状態を用いて量子回路のプロトタイプシミュレーションを行い,8Beの低次固有状態を求める。
これらのシミュレーションは球面ベースとハーツリーフォックベースの両方で行われ、m-スキーム球面ベースがハーツリーフォックベースよりも低い深さ回路に繋がることを示した。
最後に、QLanczosアルゴリズムの量子回路について、実時間進化と多重参照について述べる。 Models of quantum systems scale exponentially with the addition of single-particle states, which can present computationally intractable problems. Alternatively, quantum computers can store a many-body basis of 2n dimensions on n qubits. This motivated the quantum eigensolver algorithms developed in recent years, such as the quantum Lanczos algorithm based on the classical, iterative Lanczos algorithm. I performed numerical simulations to find the low-lying eigenstates of 20Ne, 22Na, and 29Na to compare imaginary- and real-time evolution. Though imaginary-time evolution leads to faster convergence, real-time evolution still converges within tens of iterations and satisfies the requirement for unitary operators on quantum computers. Additionally, using multiple reference states leads to faster convergences or higher accuracy for a fixed number of real-time iterations. I performed quantum circuit prototype numerical simulations on a classical computer of the QLanczos algorithm with real-time evolution and multiple reference states to find the low-lying eigenstates of 8Be. These simulations were run in both the spherical basis and Hartree-Fock basis, demonstrating that an M-scheme spherical basis leads to lower depth circuits than the Hartree-Fock basis. Finally, I present the quantum circuits for the QLanczos algorithm with real-time evolution and multiple references. | 翻訳日:2023-09-07 01:28:41 公開日:2023-09-01 |
# 効率的なRLHF:PPOのメモリ使用量を削減する Efficient RLHF: Reducing the Memory Usage of PPO ( http://arxiv.org/abs/2309.00754v1 ) ライセンス: Link先を確認 | Michael Santacroce, Yadong Lu, Han Yu, Yuanzhi Li, Yelong Shen | (参考訳) Reinforcement Learning with Human Feedback (RLHF)は、モデルを人間の好みに合わせることで言語モデリングに革命をもたらした。
しかし、RLステージであるPPO(Proximal Policy Optimization)は、スーパービジョンファインチューニング(SFT)の3倍以上のメモリを必要とするため、ほとんどの実践者にとって使用できない。
本稿では,PPOにおけるメモリ節約手法のメモリ使用量,性能,トレーニング時間を総合的に分析する。
まず,SFTモデルとRewardモデルを統合し,トレーニング中にLoRAを動的にオフにすることでHydra-RLHFを導入する。
私たちの実験では
1. PPO中にLoRAを使用すると、メモリ使用量がSFTより小さくなり、4つの公開ベンチマーク間のアライメントが改善される。
2. Hydra-PPOは、LoRA-PPOのサンプルあたりのレイテンシを最大65%削減し、性能を維持できる。
以上の結果から,Hydra-PPOはRLHFをより広く活用するためのシンプルで有望なソリューションであることが示された。 Reinforcement Learning with Human Feedback (RLHF) has revolutionized language modeling by aligning models with human preferences. However, the RL stage, Proximal Policy Optimization (PPO), requires over 3x the memory of Supervised Fine-Tuning (SFT), making it infeasible to use for most practitioners. To address this issue, we present a comprehensive analysis the memory usage, performance, and training time of memory-savings techniques for PPO. We introduce Hydra-RLHF by first integrating the SFT and Reward models and then dynamically turning LoRA "off" during training. Our experiments show: 1. Using LoRA during PPO reduces its memory usage to be smaller than SFT while improving alignment across four public benchmarks, and 2. Hydra-PPO reduces the latency per sample of LoRA-PPO by up to 65% while maintaining its performance. Our results demonstrate that Hydra-PPO is a simple and promising solution for enabling more widespread usage of RLHF. | 翻訳日:2023-09-07 01:28:20 公開日:2023-09-01 |
# 微分算数分布モジュールによるアフィン変換不変画像分類 Affine-Transformation-Invariant Image Classification by Differentiable Arithmetic Distribution Module ( http://arxiv.org/abs/2309.00752v1 ) ライセンス: Link先を確認 | Zijie Tan, Guanfang Dong, Chenqiu Zhao, Anup Basu | (参考訳) 畳み込みニューラルネットワーク(CNN)は画像分類において有望な結果を得たが、それでも回転、翻訳、フリップ、シャッフルなどのアフィン変換には弱い。
この欠点は、異なるアフィン変換の影響を緩和できるモジュールを設計する動機となっている。
そこで本研究では,特に画像中の画素の空間分布情報を学習することに焦点を当て,分布学習技術を取り入れることで,より堅牢な代替手段を導入する。
従来のヒストグラムに依存した分布学習手法の非微分可能性の問題を是正するために,カーネル密度推定(KDE)を用いて,異なるヒストグラムを定式化する。
本稿では,画像から固有確率分布を抽出するために設計された新しい微分可能算術分布モジュール(dadm)を提案する。
提案手法は,特徴抽出能力を犠牲にすることなく,アフィン変換に対するモデルの堅牢性を高め,従来のCNNと分散学習のギャップを埋めることができる。
提案手法の有効性をアブレーション実験とlenetとの比較実験により検証した。 Although Convolutional Neural Networks (CNNs) have achieved promising results in image classification, they still are vulnerable to affine transformations including rotation, translation, flip and shuffle. The drawback motivates us to design a module which can alleviate the impact from different affine transformations. Thus, in this work, we introduce a more robust substitute by incorporating distribution learning techniques, focusing particularly on learning the spatial distribution information of pixels in images. To rectify the issue of non-differentiability of prior distribution learning methods that rely on traditional histograms, we adopt the Kernel Density Estimation (KDE) to formulate differentiable histograms. On this foundation, we present a novel Differentiable Arithmetic Distribution Module (DADM), which is designed to extract the intrinsic probability distributions from images. The proposed approach is able to enhance the model's robustness to affine transformations without sacrificing its feature extraction capabilities, thus bridging the gap between traditional CNNs and distribution-based learning. We validate the effectiveness of the proposed approach through ablation study and comparative experiments with LeNet. | 翻訳日:2023-09-07 01:28:02 公開日:2023-09-01 |
# モデルに応答する:プロンプト依存のレンズを通して言語モデルの解毒を解釈する Let the Models Respond: Interpreting Language Model Detoxification Through the Lens of Prompt Dependence ( http://arxiv.org/abs/2309.00751v1 ) ライセンス: Link先を確認 | Daniel Scalena, Gabriele Sarti, Malvina Nissim, Elisabetta Fersini | (参考訳) 言語モデルが有害またはヘイトフルな応答を生成する傾向のため、モデル世代をユーザの好みに合わせるためにいくつかの技術が開発された。
このような手法がモデル相互作用の安全性向上に有効であるにもかかわらず、モデルの内部プロセスへの影響はいまだに理解されていない。
本研究では,いくつかの言語モデルに対して一般的な解毒法を適用し,特徴属性法を用いて得られたモデルの素早い依存に対する影響を定量化する。
逆ナレーションの微調整の有効性を評価し,強化学習によるデトキシフィケーションと比較し,同様のデトキシフィケーション性能にも拘わらず,両者の即応性の違いを観察した。 Due to language models' propensity to generate toxic or hateful responses, several techniques were developed to align model generations with users' preferences. Despite the effectiveness of such methods in improving the safety of model interactions, their impact on models' internal processes is still poorly understood. In this work, we apply popular detoxification approaches to several language models and quantify their impact on the resulting models' prompt dependence using feature attribution methods. We evaluate the effectiveness of counter-narrative fine-tuning and compare it with reinforcement learning-driven detoxification, observing differences in prompt reliance between the two methods despite their similar detoxification performances. | 翻訳日:2023-09-07 01:27:43 公開日:2023-09-01 |
# 量子ホールやその他の位相系における量子相転移 : プランク時間の役割 Quantum phase transitions in quantum Hall and other topological systems: role of the Planckian time ( http://arxiv.org/abs/2309.00750v1 ) ライセンス: Link先を確認 | Andrey Rogachev | (参考訳) 量子ホール効果(QHE)のプラトー状態間の変換は、非自明な位相秩序を持つ相間の量子相転移(QPT)の典型例である。
これらの遷移は単一粒子ネットワーク理論によってよく説明されているようである。
このアプローチの長年の問題は、クーロン相互作用を考慮しないことである。
本稿では,最近開発された相互作用系におけるqptの現象論的モデルを用いて,整数および分数qheの量子臨界領域における実験データを定量的に説明できることを示す。
このモデルは、相互作用のすべての効果がプランク時間$\tau_P=\hbar/k_BT$によって設定された変動の寿命に含まれると仮定する。
デフォーカス長は、この時間にバルクエッジ状態に沿って非相互作用粒子が移動する距離として捉えられる。
このモデルはまた、異常QHEの基底状態とアクシオンとチャーン絶縁体との間のQPTの定量的な記述も提供する。
これらの解析システムは量子パーコレーションによってQPTが発生するように接続されている。
提案した結果と2つの共用論文の結果を組み合わせることで、プランク時間が相互作用系におけるQPTの包含特性であり、次元や微視的物理に依存しないことを結論付ける。 Transformations between the plateau states of the quantum Hall effect (QHE) are an archetypical example of quantum phase transitions (QPTs) between phases with non-trivial topological order. These transitions appear to be well-described by the single-particle network theories. The long-standing problem with this approach is that it does not account for Coulomb interactions. In this paper, we show that experimental data in the quantum critical regime for both integer and fractional QHEs can be quantitatively explained by the recently developed phenomenological model of QPTs in interacting systems. This model assumes that all effects of interactions are contained in the life-time of fluctuations as set by the Planckian time $\tau_P=\hbar/k_BT$. The dephasing length is taken as the distance traveled by a non-interacting particle along the bulk edge state over this time. We show that the model also provides quantitative description of QPTs between the ground states of anomalous QHE and axion and Chern insulators. These analyzed systems are connected in that the QPTs occur via quantum percolation. Combining the presented results with the results of two companion papers, we conclude that the Planckian time is the encompassing characteristic of QPTs in interacting systems, independent of dimensionality and microscopic physics. | 翻訳日:2023-09-07 01:27:28 公開日:2023-09-01 |
# 量子相転移の微視的スケール:ドープ半導体からスピン鎖、コールドガス、moir\'e超格子へ Microscopic scale of quantum phase transitions: from doped semiconductors to spin chains, cold gases and moir\'e superlattices ( http://arxiv.org/abs/2309.00749v1 ) ライセンス: Link先を確認 | Andrey Rogachev | (参考訳) 連続量子相転移(qpts)の近傍では、量子系はスケール不変となり、臨界指数の集合によって特徴づけられる普遍性クラスに分類できる。
実験データには, スケール不変性や普遍性にもかかわらず, 微視的プロセスやQPTを管理するスケールに関する情報が含まれていることがわかった。
我々はQPTの近傍では,局所化のスケーリング理論によって予測される指数依存に様々な物理量が従うことを予想し,この依存は再正規化群の顕微鏡的シードスケールである$L_0$を含む。
また、相互作用系の場合、温度はプランク時間によって設定されたライフタイム($\tau_P$=$\hbar/k_BT$)でシステム固有の初等励起によって移動される長さの正規化群フローを減少させる。
いくつかのシステムでこの手法をQPTに適用し、実験から抽出した$L_0$は物理的に予測された最小長スケールに匹敵することを示した。
(i)ドープ半導体における金属絶縁体転移の平均自由経路
(ii)ハイゼンベルクのスピンとイジング鎖の間の距離。
(iii)コールドアトムボゾンガス用光学格子の期間、及び
(iv)ジカルコゲナイド二層におけるモットqptのmoir\'e超格子の周期
第1報では、超伝導膜やナノワイヤ、および高温超伝導体la$_{1.92}$sr$_{0.08}$cuo$_4$,$l_0$が超伝導コヒーレンス長に匹敵することを示した。
第2の共著では、量子ホール系では、$l_0$が磁気長に匹敵することを示した。
実験データの大規模集合を定量的に説明し、統一し、他の複雑な系に拡張できる理論的アプローチ In the vicinity of continuous quantum phase transitions (QPTs), quantum systems become scale-invariant and can be grouped into universality classes characterized by sets of critical exponents. We have found that despite scale-invariance and universality, the experimental data still contain information related to the microscopic processes and scales governing QPTs. We conjecture that near QPTs, various physical quantities follow the generic exponential dependence predicted by the scaling theory of localization; this dependence includes as a parameter a microscopic seeding scale of the renormalization group, $L_0$. We also conjecture that for interacting systems, the temperature cuts the renormalization group flow at the length travelled by a system-specific elementary excitation over the life-time set by the Planckian time, $\tau_P$=$\hbar/k_BT$. We have adapted this approach for QPTs in several systems and showed that $L_0$ extracted from experiment is comparable to physically-expected minimal length scales, namely (i) the mean free path for metal-insulator transition in doped semiconductors, (ii) the distance between spins in Heisenberg and Ising chains, (iii) the period of an optical lattice for cold atom boson gases, and (iv) the period of a moir\'e superlattice for the Mott QPT in dichalcogenide bilayers. In the first companion paper, we show that in superconducting films and nanowires, as well as in the high temperature superconductor La$_{1.92}$Sr$_{0.08}$CuO$_4$, $L_0$ is comparable to superconducting coherence length. In the second companion paper, we show that in quantum Hall systems, $L_0$ is comparable to the magnetic length. The developed theoretical approach quantitatively explains and unifies a large body of experimental data and can be expanded to other complex systems | 翻訳日:2023-09-07 01:27:09 公開日:2023-09-01 |
# PathLDM:病理組織学におけるテキスト条件付潜在拡散モデル PathLDM: Text conditioned Latent Diffusion Model for Histopathology ( http://arxiv.org/abs/2309.00748v1 ) ライセンス: Link先を確認 | Srikar Yellapragada, Alexandros Graikos, Prateek Prasanna, Tahsin Kurc, Joel Saltz, Dimitris Samaras | (参考訳) 高品質な結果を得るためには、大きなデータセットで拡散モデルを訓練する必要がある。
これは計算病理学のような専門分野のモデルでは特に禁止される。
ラベル付きデータの条件付けは、データ効率のよいモデルトレーニングに役立つことが知られている。
したがって, 貴重な臨床情報に富む病理組織学的報告は, 病理組織学的生成モデルの指導として理想的な選択である。
本稿では,良質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介する。
病理文献からのリッチな文脈情報を活用することで,画像とテキストデータを融合させて生成プロセスを強化する。
複雑なテキストレポートを抽出・要約するGPTの機能を活用して,効果的な条件付け機構を確立する。
戦略的条件付けとアーキテクチャの強化により,TGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID 30.1と最も近いテキスト・コンディション・コントラストを著しく上回った。 To achieve high-quality results, diffusion models must be trained on large datasets. This can be notably prohibitive for models in specialized domains, such as computational pathology. Conditioning on labeled data is known to help in data-efficient model training. Therefore, histopathology reports, which are rich in valuable clinical information, are an ideal choice as guidance for a histopathology generative model. In this paper, we introduce PathLDM, the first text-conditioned Latent Diffusion Model tailored for generating high-quality histopathology images. Leveraging the rich contextual information provided by pathology text reports, our approach fuses image and textual data to enhance the generation process. By utilizing GPT's capabilities to distill and summarize complex text reports, we establish an effective conditioning mechanism. Through strategic conditioning and necessary architectural enhancements, we achieved a SoTA FID score of 7.64 for text-to-image generation on the TCGA-BRCA dataset, significantly outperforming the closest text-conditioned competitor with FID 30.1. | 翻訳日:2023-09-07 01:26:34 公開日:2023-09-01 |
# 超伝導膜, ナノワイヤおよびla$_{1.92}$sr$_{0.08}$cuo$_{4}$における対破壊量子相転移の微視的スケール Microscopic scale of pair-breaking quantum phase transitions in superconducting films, nanowires and La$_{1.92}$Sr$_{0.08}$CuO$_{4}$ ( http://arxiv.org/abs/2309.00747v1 ) ライセンス: Link先を確認 | Andrey Rogachev and Kevin Davenport | (参考訳) 多数の2次元(2d)系における超伝導基底状態は、キャリア密度や磁場などの非熱的パラメータによって駆動される量子相転移(QPT)によって生成・破壊することができる。
QPTの微視的機構は、臨界点付近の急激なスケール不変性により、遷移を駆動する特定の過程を隠蔽するため、いかなる2次元超伝導体にも確立されていない。
本研究では, クーパー対密度の抑制を起因とする対破砕機構が, 非晶質moge, pb, tan薄膜および準2次元高温超伝導体la$_{1.92}$sr$_{0.08}$cuo$_{4}$の磁場駆動qptを統一的に記述することを発見した。
この発見は、臨界指数の標準決定を超え、遷移の微視的シード長スケールの抽出を可能にする、新しい理論的なアプローチの開発によって促進された。
注目すべきことに、研究材料やMoGeナノワイヤについても、このスケールは超伝導コヒーレンス長と一致する。
さらに、このアプローチは他の複雑な非超伝導系にもうまく適用されている。 The superconducting ground state in a large number of two-dimensional (2d) systems can be created and destroyed through quantum phase transitions (QPTs) driven by non-thermal parameters such as the carrier density or magnetic field. The microscopic mechanism of QPTs has not been established in any 2d superconductor, in part due to an emergent scale-invariance near the critical point, which conceals the specific processes driving the transitions. In this work, we find that the pair-breaking mechanism causing the suppression of the Cooper pair density gives a unifyingly consistent description of magnetic-field-driven QPTs in amorphous MoGe, Pb and TaN films, as well as in quasi-2d high-temperature superconductor La$_{1.92}$Sr$_{0.08}$CuO$_{4}$. This discovery was facilitated by the development of a novel theoretical approach, one which goes beyond the standard determination of critical exponents and allows for the extraction of a microscopic seeding length scale of the transitions. Remarkably, for the materials studied, and also for MoGe nanowires, this scale matches the superconducting coherence length. Further, this approach has been successfully applied to many other complex, non-superconducting systems. | 翻訳日:2023-09-07 01:26:17 公開日:2023-09-01 |
# ロボット領域におけるサブタスク識別のための言語条件付変更点検出 Language-Conditioned Change-point Detection to Identify Sub-Tasks in Robotics Domains ( http://arxiv.org/abs/2309.00743v1 ) ライセンス: Link先を確認 | Divyanshu Raj, Chitta Baral, Nakul Gopalan | (参考訳) 本研究では,言語命令を用いたロボット軌道内のサブタスクを同定する手法を提案する。
これらのサブタスクを、デモ中に提供された言語を用いて識別し、より長いロボット軌道のサブセグメントを特定する。
自然言語命令のシーケンスと、画像フレームと離散的なアクションからなる長い軌道が与えられたとき、我々は命令を軌道のより小さな断片にマッピングしたい。
言語からポリシーへのマッピングを直接学習する従来の命令とは違って,問題のサブタスクを識別する言語条件の変更点検出手法を提案する。
本手法は,長い言語コマンドの構成セグメントと対応する軌道の構成セグメントとの関係を学習する。
これらの構成軌道セグメントは、以前の関連作業で示されたように、計画やオプションのためにサブタスクやサブゴールを学ぶのに使うことができる。
本研究の知見は,オンラインビデオ内のサブセグメントを識別するための既存のビデオモーメント検索に類似した言語条件付きロボット変化点検出問題である。
広範な実験を通じて、提案手法を用いて軌道内のサブタスクを正確に識別する上で、ベースラインアプローチよりも1.78_{\pm 0.82}\%$の改善を示す。
さらに,本手法が実際のロボットのシナリオにおいて現実的であるかどうかを理解するために,言語とトラジェクティブのサブセグメント間のマッピングを学習する際のサンプルの複雑さ要件を総合的に検討する。 In this work, we present an approach to identify sub-tasks within a demonstrated robot trajectory using language instructions. We identify these sub-tasks using language provided during demonstrations as guidance to identify sub-segments of a longer robot trajectory. Given a sequence of natural language instructions and a long trajectory consisting of image frames and discrete actions, we want to map an instruction to a smaller fragment of the trajectory. Unlike previous instruction following works which directly learn the mapping from language to a policy, we propose a language-conditioned change-point detection method to identify sub-tasks in a problem. Our approach learns the relationship between constituent segments of a long language command and corresponding constituent segments of a trajectory. These constituent trajectory segments can be used to learn subtasks or sub-goals for planning or options as demonstrated by previous related work. Our insight in this work is that the language-conditioned robot change-point detection problem is similar to the existing video moment retrieval works used to identify sub-segments within online videos. Through extensive experimentation, we demonstrate a $1.78_{\pm 0.82}\%$ improvement over a baseline approach in accurately identifying sub-tasks within a trajectory using our proposed method. Moreover, we present a comprehensive study investigating sample complexity requirements on learning this mapping, between language and trajectory sub-segments, to understand if the video retrieval-based methods are realistic in real robot scenarios. | 翻訳日:2023-09-07 01:25:55 公開日:2023-09-01 |
# 変分Denoising Network:Blindノイズモデリングと除去に向けて Variational Denoising Network: Toward Blind Noise Modeling and Removal ( http://arxiv.org/abs/1908.11314v5 ) ライセンス: Link先を確認 | Zongsheng Yue, Hongwei Yong, Qian Zhao, Lei Zhang and Deyu Meng | (参考訳) ブラインド画像の切り離しは、実画像の複雑な取得プロセスのため、コンピュータビジョンにおいて非常に難しい問題である。
本研究では,ノイズ推定と画像デノージングの両方をユニークなベイズフレームワークに統合し,ブラインド画像デノージングを行う新しい変分推定法を提案する。
具体的には、本質的なクリーン画像とノイズ分散を入力雑音画像に条件付けられた潜在変数として、ディープニューラルネットワークによってパラメータ化された近似後段を示す。
この後方は、関連する全てのハイパーパラメータに対して明示的なパラメトリック形式を提供するため、テストノイズ画像に対する自動ノイズ推定を伴うブラインド画像に容易に実装することができる。
一方、他のデータ駆動型深層学習法と同様に、我々の手法、すなわち変分復調ネットワーク(VDN)は、その明示的な表現形式により効率的に復調を行うことができる。
一方、vdnは従来のモデル駆動アプローチ、特に生成モデルの優れた一般化能力の利点を継承している。
VDNは高い解釈性を持ち、実シナリオで収集された複雑な非I.d.ノイズを推定・除去するために柔軟に利用することができる。
ブラインド画像復調における手法の優位性を確認するための総合的な実験を行った。 Blind image denoising is an important yet very challenging problem in computer vision due to the complicated acquisition process of real images. In this work we propose a new variational inference method, which integrates both noise estimation and image denoising into a unique Bayesian framework, for blind image denoising. Specifically, an approximate posterior, parameterized by deep neural networks, is presented by taking the intrinsic clean image and noise variances as latent variables conditioned on the input noisy image. This posterior provides explicit parametric forms for all its involved hyper-parameters, and thus can be easily implemented for blind image denoising with automatic noise estimation for the test noisy image. On one hand, as other data-driven deep learning methods, our method, namely variational denoising network (VDN), can perform denoising efficiently due to its explicit form of posterior expression. On the other hand, VDN inherits the advantages of traditional model-driven approaches, especially the good generalization capability of generative models. VDN has good interpretability and can be flexibly utilized to estimate and remove complicated non-i.i.d. noise collected in real scenarios. Comprehensive experiments are performed to substantiate the superiority of our method in blind image denoising. | 翻訳日:2023-09-04 17:55:01 公開日:2023-09-01 |
# 異常bose-hubbard鎖における多体局在転移 Many-body localization transition in the disordered Bose-Hubbard chain ( http://arxiv.org/abs/2104.08582v3 ) ライセンス: Link先を確認 | Jie Chen, Chun Chen and Xiaoqun Wang | (参考訳) 等級統計量,局所圧縮性,相関関数,絡み合いエントロピーの観点から,1次元の無秩序な相互作用するボソン系の多体局在(MBL)について数値的に検討した。
フォン・ノイマンの絡み合いエントロピーは、粒子数エントロピーと構成エントロピーに分解される。
多体局在状態と対応する時間進化状態の2体相関関数から局所化長を抽出する。
固有状態配置エントロピーは局所化相でゼロに近いため、全エントロピーと理想熱化分布からの粒子数エントロピーのずれの有限次元解析によって示されるように、局在遷移は粒子数エントロピーとそのゆらぎによって支配される。
乱れ強度とエネルギー密度のパラメータ空間におけるエルゴード熱化領域と多体局所化領域からなる動的位相図が確立される。
これらの領域は、抽出された局所化長さとエンタングルメントエントロピーの両方から導出可能な多体移動エッジにより分離される。
特に2つの不均質な初期状態から始まり、遅い量子クエンチダイナミクスは3つの異なる局在領域の存在を明らかにする。
成長挙動、定常エントロピースケーリング、創発的チャネル反射対称性を含むそれらの力学特性は系統的に要約され、非相互作用的なアンダーソン局在と比較される。
このスキームの中では、最近の実験的観測 (A. Lukin et al., Science 364, 256 (2019)) は、トリオの散乱MBLに対応するものと解釈される。 Many-body localization (MBL) of a disordered interacting boson system in one dimension is studied numerically at the filling faction one-half, in terms of level statistics, local compressibility, correlation function, and entanglement entropies. The von Neumann entanglement entropy is decomposed into a particle number entropy and a configuration entropy. The localization lengths are extracted from the two-body correlation function for the many-body-localized states and the corresponding time-evolved states as well. Since the eigenstate configuration entropy nears zero in the localized phase, the localization transition is dominated by the particle number entropy and its fluctuations, as shown by the finite-size analyses of the total entropy and the deviation of the particle number entropy from the ideal thermalization distribution. A dynamical phase diagram is established, consisting of an ergodic thermalized region and a many-body-localized region in a parameter space of the disorder strength and the energy density. These regions are separated by a many-body mobility edge deducible from both the extracted localization length and the entanglement entropy, which also appears consistent with that based on the level-spacing ratio. Starting from 2 particular inhomogeneous initial states, the slow quantum quench dynamics reveals the existence of 3 different localization regions. Their dynamical properties, including the growth behavior, the steady-state entropy scaling, and the emergent channel reflection symmetry, are systematically summarized and compared with the noninteracting Anderson localization. Within this scheme, the recent experimental observation [A. Lukin et al., Science 364, 256 (2019)] might be interpreted as corresponding to the scatter MBL of the trio. | 翻訳日:2023-09-04 17:50:39 公開日:2023-09-01 |
# 低ランク行列完了におけるベイジアンとデバイアス推定器のシミュレーション比較 Simulation comparisons between Bayesian and de-biased estimators in low-rank matrix completion ( http://arxiv.org/abs/2103.11749v2 ) ライセンス: Link先を確認 | The Tien Mai | (参考訳) 本稿では,部分的に観測された行列の欠落項目の予測を目的とした,機械学習のクラスである低ランク行列補完問題について検討する。
このような問題は、コラボレーティブフィルタリング、画像処理、ジェノタイプインプテーションといったいくつかの難しいアプリケーションに見られる。
ベイズ的アプローチと最近導入された非バイアス推定器を比較して,信頼区間を構築するための有用な方法を提案する。
理論的な見地から、非バイアス推定器は推定誤差の最小値の急激な最小値を伴い、ベイズ的手法は追加の対数係数でこの値に達する。
我々のシミュレーション研究は、偏差推定器がベイズ推定器と同等に優れているという興味深い結果を示した。
さらに、ベイズアプローチはより安定であり、小さなサンプルの場合、偏りのない推定値よりも優れる。
また,入力に対する非バイアス推定器によって得られた信頼区間の実証的カバレッジ率は,信頼区間よりも絶対的に低いことがわかった。
これらの結果は、推定誤差とベイズ法が現在までかなり限られているため、さらなる理論的研究を示唆している。 In this paper, we study the low-rank matrix completion problem, a class of machine learning problems, that aims at the prediction of missing entries in a partially observed matrix. Such problems appear in several challenging applications such as collaborative filtering, image processing, and genotype imputation. We compare the Bayesian approaches and a recently introduced de-biased estimator which provides a useful way to build confidence intervals of interest. From a theoretical viewpoint, the de-biased estimator comes with a sharp minimax-optimal rate of estimation error whereas the Bayesian approach reaches this rate with an additional logarithmic factor. Our simulation studies show originally interesting results that the de-biased estimator is just as good as the Bayesian estimators. Moreover, Bayesian approaches are much more stable and can outperform the de-biased estimator in the case of small samples. In addition, we also find that the empirical coverage rate of the confidence intervals obtained by the de-biased estimator for an entry is absolutely lower than of the considered credible interval. These results suggest further theoretical studies on the estimation error and the concentration of Bayesian methods as they are quite limited up to present. | 翻訳日:2023-09-04 17:50:08 公開日:2023-09-01 |
# メタグラフ学習のためのトポロジー認識テンソル分解 Topology-aware Tensor Decomposition for Meta-graph Learning ( http://arxiv.org/abs/2101.01078v2 ) ライセンス: Link先を確認 | Hansi Yang and Peiyu Zhang and Quanming Yao | (参考訳) 不均一グラフは一般に異なる種類のノードとエッジを持つグラフを指す。
異種グラフから有用な情報を抽出する一般的なアプローチは、異種グラフと同じノードとエッジタイプを持つ特殊な有向非巡回グラフ(dag)と見なすことができるメタグラフを使用することである。
しかし、適切なメタグラフを設計する方法は難しい。
近年,異種グラフから適切なメタグラフを学習する研究が数多く行われている。
既存の手法は一般に互いに独立なエッジに対して連続的な重みを導入しており、これはメタグラフのトポロジ的構造を無視し、有効ではない。
本稿では,メタグラフ学習におけるテンソルからの新たな視点を提案する。
このような視点は、CANDECOMP/PARAFAC(CP)分解による既存の作品の限界を解釈するだけでなく、DAGの構造を反映した位相対応テンソル分解(TENSUS)を提案するきっかけとなる。
提案したトポロジ対応テンソル分解は使いやすく、実装も簡単であり、ノード分類やヘテロジニアスグラフのレコメンデーションを含む多くの既存の作業を改善するためのプラグイン部分として利用することができる。
異なるタスクにおける実験結果から,提案手法はこれらのタスクの最先端を著しく改善できることが示された。 Heterogeneous graphs generally refers to graphs with different types of nodes and edges. A common approach for extracting useful information from heterogeneous graphs is to use meta-graphs, which can be seen as a special kind of directed acyclic graph (DAG) with same node and edge types as the heterogeneous graph. However, how to design proper meta-graphs is challenging. Recently, there have been many works on learning suitable meta-graphs from a heterogeneous graph. Existing methods generally introduce continuous weights for edges that are independent of each other, which ignores the topological stucture of meta-graphs and can be ineffective. To address this issue, we propose a new viewpoint from tensor on learning meta-graphs. Such a viewpoint not only helps interpret the limitation of existing works by CANDECOMP/PARAFAC (CP) decomposition, but also inspires us to propose a topology-aware tensor decomposition, called TENSUS, that reflects the structure of DAGs. The proposed topology-aware tensor decomposition is easy to use and simple to implement, and it can be taken as a plug-in part to upgrade many existing works, including node classification and recommendation on heterogeneous graphs. Experimental results on different tasks demonstrate that the proposed method can significantly improve the state-of-the-arts for all these tasks. | 翻訳日:2023-09-04 17:49:50 公開日:2023-09-01 |
# 映像における物体分割のための3次元畳み込みの事例 Making a Case for 3D Convolutions for Object Segmentation in Videos ( http://arxiv.org/abs/2008.11516v2 ) ライセンス: Link先を確認 | Sabarinath Mahadevan, Ali Athar, Aljo\v{s}a O\v{s}ep, Sebastian Hennen, Laura Leal-Taix\'e, Bastian Leibe | (参考訳) ビデオにおけるオブジェクトセグメンテーションの課題は、通常、標準的な2次元畳み込みネットワークを用いて外見と動き情報を別々に処理し、続いて2つの情報源の融合によって達成される。
一方,3次元畳み込みネットワークは,映像分類タスクにうまく適用されてきたが,2次元畳み込みネットワークに比べ,ピクセル当たりの密接な解釈問題や,前述のネットワークの遅れといった問題に対して,性能面では有効に活用されていない。
本研究では,salient object segmentationのような密集した映像予測タスクに3d cnnを効果的に適用できることを示す。
本稿では,標準的なクロスエントロピー損失を用いてエンドツーエンドにトレーニング可能な3次元畳み込みからなる,シンプルで効果的なエンコーダ・デコーダネットワークアーキテクチャを提案する。
そこで我々は,効率的な3Dエンコーダを活用し,新しい3Dグローバル畳み込み層と3Dリファインメントモジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalのベンチマークの高速化に加えて,既存の最先端技術よりも優れ,表現時空間の特徴を効率的に学習し,高品質なビデオセグメンテーションマスクを作成できることを示す。
コードとトレーニングモデルをhttps://github.com/sabarim/3dc-segで公開しました。 The task of object segmentation in videos is usually accomplished by processing appearance and motion information separately using standard 2D convolutional networks, followed by a learned fusion of the two sources of information. On the other hand, 3D convolutional networks have been successfully applied for video classification tasks, but have not been leveraged as effectively to problems involving dense per-pixel interpretation of videos compared to their 2D convolutional counterparts and lag behind the aforementioned networks in terms of performance. In this work, we show that 3D CNNs can be effectively applied to dense video prediction tasks such as salient object segmentation. We propose a simple yet effective encoder-decoder network architecture consisting entirely of 3D convolutions that can be trained end-to-end using a standard cross-entropy loss. To this end, we leverage an efficient 3D encoder, and propose a 3D decoder architecture, that comprises novel 3D Global Convolution layers and 3D Refinement modules. Our approach outperforms existing state-of-the-arts by a large margin on the DAVIS'16 Unsupervised, FBMS and ViSal dataset benchmarks in addition to being faster, thus showing that our architecture can efficiently learn expressive spatio-temporal features and produce high quality video segmentation masks. We have made our code and trained models publicly available at https://github.com/sabarim/3DC-Seg. | 翻訳日:2023-09-04 17:48:58 公開日:2023-09-01 |
# STEm-Seg:ビデオにおけるインスタンス分割のための時空間埋め込み STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos ( http://arxiv.org/abs/2003.08429v4 ) ライセンス: Link先を確認 | Ali Athar, Sabarinath Mahadevan, Aljo\v{s}a O\v{s}ep, Laura Leal-Taix\'e, Bastian Leibe | (参考訳) ビデオのセグメンテーションのような既存の手法では、追跡・検出パラダイムに従ってビデオクリップを一連の画像としてモデル化する多段パイプラインが一般的である。
複数のネットワークを使用して個々のフレーム内のオブジェクトを検出し、その検出を時間とともに関連付ける。
したがって、これらの手法はしばしばエンドツーエンドのトレーニングが可能であり、特定のタスクに高度に調整される。
本稿では,ビデオにおけるインスタンス分割に関する様々なタスクに適した,異なるアプローチを提案する。
特に,ビデオクリップを1つの3次元空間空間体積としてモデル化し,1つのステージにまたがる空間と時間にまたがるインスタンスをセグメンテーションし追跡する新しいアプローチを提案する。
問題の定式化は、ビデオクリップ全体にわたって特定のオブジェクトインスタンスに属するピクセルをクラスタリングするように訓練された時空間埋め込みのアイデアを中心にしている。
この目的のために紹介する
(i)時空間埋め込みの特徴表現を強化する新規混合関数、及び
(ii)時間的文脈を推論できる単一段階のプロポーザルフリーネットワーク。
我々のネットワークは、時空間埋め込みとこれらの埋め込みをクラスタ化するために必要なパラメータを学習するためにエンドツーエンドで訓練されている。
本手法は,複数のデータセットとタスクにまたがって最先端の結果を得る。
コードとモデルはhttps://github.com/sabarim/stem-segで入手できる。 Existing methods for instance segmentation in videos typically involve multi-stage pipelines that follow the tracking-by-detection paradigm and model a video clip as a sequence of images. Multiple networks are used to detect objects in individual frames, and then associate these detections over time. Hence, these methods are often non-end-to-end trainable and highly tailored to specific tasks. In this paper, we propose a different approach that is well-suited to a variety of tasks involving instance segmentation in videos. In particular, we model a video clip as a single 3D spatio-temporal volume, and propose a novel approach that segments and tracks instances across space and time in a single stage. Our problem formulation is centered around the idea of spatio-temporal embeddings which are trained to cluster pixels belonging to a specific object instance over an entire video clip. To this end, we introduce (i) novel mixing functions that enhance the feature representation of spatio-temporal embeddings, and (ii) a single-stage, proposal-free network that can reason about temporal context. Our network is trained end-to-end to learn spatio-temporal embeddings as well as parameters required to cluster these embeddings, thus simplifying inference. Our method achieves state-of-the-art results across multiple datasets and tasks. Code and models are available at https://github.com/sabarim/STEm-Seg. | 翻訳日:2023-09-04 17:48:30 公開日:2023-09-01 |
# コミュニケーション効率のよい分散ディープラーニング:包括的調査 Communication-Efficient Distributed Deep Learning: A Comprehensive Survey ( http://arxiv.org/abs/2003.06307v2 ) ライセンス: Link先を確認 | Zhenheng Tang, Shaohuai Shi, Wei Wang, Bo Li, Xiaowen Chu | (参考訳) 分散ディープラーニング(DL)は、大規模なモデルとデータセットのために複数のコンピューティングデバイス(GPU/TPUなど)を活用することで、トレーニング時間を短縮するために近年普及している。
しかし、通信によってシステムのスケーラビリティは制限され、パフォーマンスのボトルネックとなる。
このコミュニケーション問題に対処することは、重要な研究テーマとなっている。
本稿では,システムレベルの最適化とアルゴリズムレベルの最適化に着目し,コミュニケーション効率の高い分散トレーニングアルゴリズムの総合的な調査を行う。
まず,通信同期,システムアーキテクチャ,圧縮技術,通信および計算タスクの並列性という,4つの主要な次元を組み込んだデータ並列分散トレーニングアルゴリズムの分類法を提案する。
次に,これら4次元の問題に対処する最先端の研究について検討する。
また、異なるアルゴリズムの収束速度を比較して収束速度を理解する。
さらに,各種主流分散学習アルゴリズムの収束性能を実証的に比較するための広範な実験を行った。
システムレベルの通信コスト分析,理論的および実験的収束速度比較に基づいて,特定の分散環境においてどのアルゴリズムがより効率的かを理解する。
我々の研究はまた、さらなる最適化のための潜在的な方向性を外挿する。 Distributed deep learning (DL) has become prevalent in recent years to reduce training time by leveraging multiple computing devices (e.g., GPUs/TPUs) due to larger models and datasets. However, system scalability is limited by communication becoming the performance bottleneck. Addressing this communication issue has become a prominent research topic. In this paper, we provide a comprehensive survey of the communication-efficient distributed training algorithms, focusing on both system-level and algorithmic-level optimizations. We first propose a taxonomy of data-parallel distributed training algorithms that incorporates four primary dimensions: communication synchronization, system architectures, compression techniques, and parallelism of communication and computing tasks. We then investigate state-of-the-art studies that address problems in these four dimensions. We also compare the convergence rates of different algorithms to understand their convergence speed. Additionally, we conduct extensive experiments to empirically compare the convergence performance of various mainstream distributed training algorithms. Based on our system-level communication cost analysis, theoretical and experimental convergence speed comparison, we provide readers with an understanding of which algorithms are more efficient under specific distributed environments. Our research also extrapolates potential directions for further optimizations. | 翻訳日:2023-09-04 17:48:09 公開日:2023-09-01 |
# 単純で効率的な不均一グラフニューラルネットワーク Simple and Efficient Heterogeneous Graph Neural Network ( http://arxiv.org/abs/2207.02547v3 ) ライセンス: Link先を確認 | Xiaocheng Yang, Mingyu Yan, Shirui Pan, Xiaochun Ye, Dongrui Fan | (参考訳) 不均一グラフニューラルネットワーク(HGNN)は、不均一グラフの豊富な構造的および意味的な情報をノード表現に埋め込む強力な能力を持つ。
既存のHGNNは、同種グラフ上のグラフニューラルネットワーク(GNN)から多くのメカニズム、特に注意機構と多層構造を継承する。
これらのメカニズムは過剰な複雑さをもたらすが、ヘテロジニアスグラフに実際に効果があるかどうかの研究はほとんどない。
本稿では,これらのメカニズムを詳細に研究し,単純で効率的なグラフニューラルネットワーク(sehgnn)を提案する。
構造情報を容易にキャプチャし、軽度平均アグリゲータを用いて隣り合うアグリゲータを予め計算し、使用過剰な隣人の注意を取り除き、トレーニング時代ごとに繰り返し隣り合うアグリゲータを回避することにより、複雑さを低減させる。
セマンティクス情報を活用するために、sehgnnは、長いメタパスを持つ単層構造を採用し、受容野を拡張し、トランスベースのセマンティクス融合モジュールを使用して異なるメタパスから特徴を融合する。
その結果、SeHGNNは、単純なネットワーク構造、高い予測精度、高速トレーニング速度の特性を示す。
5つの実世界の異種グラフに対する大規模な実験は、精度とトレーニング速度の両面で、SeHGNNの最先端性を示している。 Heterogeneous graph neural networks (HGNNs) have powerful capability to embed rich structural and semantic information of a heterogeneous graph into node representations. Existing HGNNs inherit many mechanisms from graph neural networks (GNNs) over homogeneous graphs, especially the attention mechanism and the multi-layer structure. These mechanisms bring excessive complexity, but seldom work studies whether they are really effective on heterogeneous graphs. This paper conducts an in-depth and detailed study of these mechanisms and proposes Simple and Efficient Heterogeneous Graph Neural Network (SeHGNN). To easily capture structural information, SeHGNN pre-computes the neighbor aggregation using a light-weight mean aggregator, which reduces complexity by removing overused neighbor attention and avoiding repeated neighbor aggregation in every training epoch. To better utilize semantic information, SeHGNN adopts the single-layer structure with long metapaths to extend the receptive field, as well as a transformer-based semantic fusion module to fuse features from different metapaths. As a result, SeHGNN exhibits the characteristics of simple network structure, high prediction accuracy, and fast training speed. Extensive experiments on five real-world heterogeneous graphs demonstrate the superiority of SeHGNN over the state-of-the-arts on both accuracy and training speed. | 翻訳日:2023-09-04 17:42:12 公開日:2023-09-01 |
# 半教師付きlidarセマンティクスセグメンテーションのためのlasermix LaserMix for Semi-Supervised LiDAR Semantic Segmentation ( http://arxiv.org/abs/2207.00026v4 ) ライセンス: Link先を確認 | Lingdong Kong and Jiawei Ren and Liang Pan and Ziwei Liu | (参考訳) 厳密な注釈付きLiDARポイントクラウドはコストがかかり、完全に教師付き学習手法のスケーラビリティを抑える。
本研究では,LiDARセグメンテーションにおける未探索半教師付き学習(SSL)について検討する。
当社の中核となる考え方は、LiDAR点雲の強い空間的手がかりを活用して、ラベルのないデータをうまく活用することだ。
我々は、異なるLiDARスキャンからレーザービームを混合し、混合前後に一貫した確実な予測を行うことを推奨するLaserMixを提案する。
私たちのフレームワークには3つの魅力があります。
1)ジェネリック: LaserMixはLiDAR表現(例えば、レンジビューとボクセル)に依存しないので、SSLフレームワークを普遍的に適用できます。
2) 統計的根拠: 提案手法の適用性を理論的に説明するための詳細な分析を行う。
3) 有効性: 一般的なLiDARセグメンテーションデータセット(nuScenes, SemanticKITTI, ScribbleKITTI)の総合的な実験分析により, 有効性と優位性を示す。
特に、2倍から5倍のラベルを持つ完全教師付きラベルよりも競争力があり、教師のみのベースラインを平均で10.8%向上させる。
この簡潔かつ高性能なフレームワークが,半教師付きLiDARセグメンテーションの今後の研究を促進することを願っている。
コードは公開されている。 Densely annotating LiDAR point clouds is costly, which restrains the scalability of fully-supervised learning methods. In this work, we study the underexplored semi-supervised learning (SSL) in LiDAR segmentation. Our core idea is to leverage the strong spatial cues of LiDAR point clouds to better exploit unlabeled data. We propose LaserMix to mix laser beams from different LiDAR scans, and then encourage the model to make consistent and confident predictions before and after mixing. Our framework has three appealing properties: 1) Generic: LaserMix is agnostic to LiDAR representations (e.g., range view and voxel), and hence our SSL framework can be universally applied. 2) Statistically grounded: We provide a detailed analysis to theoretically explain the applicability of the proposed framework. 3) Effective: Comprehensive experimental analysis on popular LiDAR segmentation datasets (nuScenes, SemanticKITTI, and ScribbleKITTI) demonstrates our effectiveness and superiority. Notably, we achieve competitive results over fully-supervised counterparts with 2x to 5x fewer labels and improve the supervised-only baseline significantly by 10.8% on average. We hope this concise yet high-performing framework could facilitate future research in semi-supervised LiDAR segmentation. Code is publicly available. | 翻訳日:2023-09-04 17:41:49 公開日:2023-09-01 |
# 離散的難解確率に対する一般化ベイズ推論 Generalised Bayesian Inference for Discrete Intractable Likelihood ( http://arxiv.org/abs/2206.08420v2 ) ライセンス: Link先を確認 | Takuo Matsubara, Jeremias Knoblauch, Fran\c{c}ois-Xavier Briol, Chris. J. Oates | (参考訳) 離散状態空間は、正規化定数の計算には大きな集合や無限集合の和を必要とするため、統計推論にとって大きな計算上の課題である。
本稿では,この計算上の課題を,離散的難解な可能性に適した新しい一般化ベイズ推定法の開発を通じて解決する。
連続データに対する最近の方法論的な進歩から着想を得た主なアイデアは、問題のある難解な可能性の代わりに、離散的なフィッシャー発散を用いてモデルパラメータに関する信念を更新することである。
その結果は一般化された後部であり、マルコフ連鎖モンテカルロのような標準的な計算ツールを使って、難解な正規化定数を回避できる。
一般化された後方の統計的性質を解析し、後方整合性と漸近正規性が確立されるのに十分な条件を与える。
また, 一般化後部のキャリブレーションに対する新規かつ汎用的なアプローチを提案する。
離散空間データの格子モデルやカウントデータの多変量モデルに応用され、それぞれの場合において計算コストの低い一般化ベイズ推定が容易になる。 Discrete state spaces represent a major computational challenge to statistical inference, since the computation of normalisation constants requires summation over large or possibly infinite sets, which can be impractical. This paper addresses this computational challenge through the development of a novel generalised Bayesian inference procedure suitable for discrete intractable likelihood. Inspired by recent methodological advances for continuous data, the main idea is to update beliefs about model parameters using a discrete Fisher divergence, in lieu of the problematic intractable likelihood. The result is a generalised posterior that can be sampled from using standard computational tools, such as Markov chain Monte Carlo, circumventing the intractable normalising constant. The statistical properties of the generalised posterior are analysed, with sufficient conditions for posterior consistency and asymptotic normality established. In addition, a novel and general approach to calibration of generalised posteriors is proposed. Applications are presented on lattice models for discrete spatial data and on multivariate models for count data, where in each case the methodology facilitates generalised Bayesian inference at low computational cost. | 翻訳日:2023-09-04 17:41:18 公開日:2023-09-01 |
# zipfの法則に基づくテキスト生成手法によるエンティティ抽出の不均衡解消 A Zipf's Law-based Text Generation Approach for Addressing Imbalance in Entity Extraction ( http://arxiv.org/abs/2205.12636v3 ) ライセンス: Link先を確認 | Zhenhua Wang, Ming Ren, Dong Gao, Zhuang Li | (参考訳) エンティティ抽出は、さまざまなドメインにわたるインテリジェントな進化において重要である。
それでも、その効果への挑戦はデータの不均衡から生じる。
本稿では,定量的情報を通して問題を見ることにより,共通性が一定のレベルを示す一方で,単語の定量化可能な分布に反映されるような類似性が乏しいことを認識し,新たなアプローチを提案する。
zipfの法則は、適切に採用され、単語から実体へ移行するために、文書内の単語は、一般的かつ稀なものに分類される。
その後、文章は共通および希少に分類され、さらにテキスト生成モデルによって処理される。
生成された文内のレアエンティティは、人間が設計したルールを使ってラベル付けされ、生のデータセットの補足として働き、不均衡問題を緩和する。
本研究は,技術文書からエンティティを抽出する事例を示し,提案手法の有効性を2つのデータセットから実験的に証明する。
さらに、AIの進歩を促進する上でのZipfの法則の重要性について論じ、インフォメトリックスの到達範囲と範囲を広げる。
本稿では、Zipfの法則を用いて、InformetricsをAIとのインタフェースに拡張する成功例を示す。 Entity extraction is critical in the intelligent advancement across diverse domains. Nevertheless, a challenge to its effectiveness arises from the data imbalance. This paper proposes a novel approach by viewing the issue through the quantitative information, recognizing that entities exhibit certain levels of commonality while others are scarce, which can be reflected in the quantifiable distribution of words. The Zipf's Law emerges as a well-suited adoption, and to transition from words to entities, words within the documents are classified as common and rare ones. Subsequently, sentences are classified into common and rare ones, and are further processed by text generation models accordingly. Rare entities within the generated sentences are then labeled using human-designed rules, serving as a supplement to the raw dataset, thereby mitigating the imbalance problem. The study presents a case of extracting entities from technical documents, and experimental results from two datasets prove the effectiveness of the proposed method. Furthermore, the significance of Zipf's law in driving the progress of AI is discussed, broadening the reach and coverage of Informetrics. This paper presents a successful demonstration of extending Informetrics to interface with AI through Zipf's Law. | 翻訳日:2023-09-04 17:41:01 公開日:2023-09-01 |
# ラベルなし・無注釈病理スライドを用いた自己教師付き学習による組織形態学的癌表現型の景観のマッピング Mapping the landscape of histomorphological cancer phenotypes using self-supervised learning on unlabeled, unannotated pathology slides ( http://arxiv.org/abs/2205.01931v3 ) ライセンス: Link先を確認 | Adalberto Claudio Quiros, Nicolas Coudray, Anna Yeaton, Xinyu Yang, Bojing Liu, Hortense Le, Luis Chiriboga, Afreen Karimkhan, Navneet Narula, David A. Moore, Christopher Y. Park, Harvey Pass, Andre L. Moreira, John Le Quesne, Aristotelis Tsirigos, Ke Yuan | (参考訳) がんの診断と管理は、病理学者による顕微鏡画像からの情報抽出に依存する。
これらの画像は、人間の偏見にかかわる、時間を要する専門家の解釈を必要とする複雑な情報を含んでいる。
教師付きディープラーニングアプローチは分類タスクには強力であることが証明されているが、これらのモデルのトレーニングに使用されるアノテーションのコストと品質によって本質的に制限されている。
このような教師付き手法の制限に対処するため,我々は,専門家ラベルやアノテーションを必要とせず,小さな画像タイルにおける識別画像の特徴の自動発見を通じて機能する,完全に青色の自己管理手法であるヒストフォロジカル・フェノタイプ学習(HPL)を開発した。
タイルは形態学的に類似したクラスターに分類され、組織形態学的表現型のライブラリーを構成し、炎症性および反応性の表現型を介して良性から悪性組織への軌跡を明らかにする。
これらのクラスターは、組織学的、分子学的および臨床的表現型をリンクして、直交法を用いて識別できる特徴がある。
肺がん組織は, 組織学的に腫瘍のタイプや成長パターン, 免疫フェノタイプの転写学的測定と一致し, 生存率も良好であった。
次に,これらの性質がマルチカンサー研究で維持されていることを示す。
これらの結果は, 自然選択下で出現する腫瘍の再発反応と増殖様式を示す。
コード、事前トレーニングされたモデル、学習された埋め込み、ドキュメントはhttps://github.com/AdalbertoCq/Histomorphological-Phenotype-Learningでコミュニティに公開されている。 Definitive cancer diagnosis and management depend upon the extraction of information from microscopy images by pathologists. These images contain complex information requiring time-consuming expert human interpretation that is prone to human bias. Supervised deep learning approaches have proven powerful for classification tasks, but they are inherently limited by the cost and quality of annotations used for training these models. To address this limitation of supervised methods, we developed Histomorphological Phenotype Learning (HPL), a fully blue{self-}supervised methodology that requires no expert labels or annotations and operates via the automatic discovery of discriminatory image features in small image tiles. Tiles are grouped into morphologically similar clusters which constitute a library of histomorphological phenotypes, revealing trajectories from benign to malignant tissue via inflammatory and reactive phenotypes. These clusters have distinct features which can be identified using orthogonal methods, linking histologic, molecular and clinical phenotypes. Applied to lung cancer tissues, we show that they align closely with patient survival, with histopathologically recognised tumor types and growth patterns, and with transcriptomic measures of immunophenotype. We then demonstrate that these properties are maintained in a multi-cancer study. These results show the clusters represent recurrent host responses and modes of tumor growth emerging under natural selection. Code, pre-trained models, learned embeddings, and documentation are available to the community at https://github.com/AdalbertoCq/Histomorphological-Phenotype-Learning | 翻訳日:2023-09-04 17:40:16 公開日:2023-09-01 |
# 予測市場から解釈可能な集合知へ From prediction markets to interpretable collective intelligence ( http://arxiv.org/abs/2204.13424v3 ) ライセンス: Link先を確認 | Alexey V. Osipov, Nikolay N. Osipov | (参考訳) 任意の専門家のグループから、任意の論理命題の真理の確率を、明示的な形式を持ち、この確率を解釈する集合情報とともに導き出すための最適な方法を提供するメカニズムの作り方について概説する。
すなわち,専門家間の直接情報交換にインセンティブを与える遊び金による自己解決型予測市場の可能性について,強く議論する。
このようなシステムは、特に多くの専門家を同時に動機付け、科学的または医学的な問題を非常に効率的な方法で総合的に解決することができる。
我々はまた、専門家がベイジアンであるとは考えていないことに留意する。 We outline how to create a mechanism that provides an optimal way to elicit, from an arbitrary group of experts, the probability of the truth of an arbitrary logical proposition together with collective information that has an explicit form and interprets this probability. Namely, we provide strong arguments for the possibility of the development of a self-resolving prediction market with play money that incentivizes direct information exchange between experts. Such a system could, in particular, motivate simultaneously many experts to collectively solve scientific or medical problems in a very efficient manner. We also note that in our considerations, experts are not assumed to be Bayesian. | 翻訳日:2023-09-04 17:39:47 公開日:2023-09-01 |
# テキストマイニングのためのマルチフラクタルベース深層学習モデル A New Multifractal-based Deep Learning Model for Text Mining ( http://arxiv.org/abs/2111.13861v2 ) ライセンス: Link先を確認 | Zhenhua Wang, Ming Ren, Dong Gao | (参考訳) 不確実性に満ちた世界では、存在の布地が複雑さのパターンを織り、マルチフラクタルは洞察のビーコンとして現れ、それらを照らす。
さまざまな自然言語処理アプリケーションを支えるテキストマイニングの領域に目を向け、さまざまなインテリジェントなサービスを支えることで、テキストのベールの背後には人間の思考と認知の顕現があり、複雑に絡み合っていることを認識します。
本研究は,テキストを複雑なシステムとして認識する基礎を築いており,テキストランドスケープに埋め込まれた複数のフラクタル属性を解読するマルチフラクタル法(multifractal method)を用いて,内部に隠された財宝を解き放つ旅に着手する。
この取り組みは、ニューラルネットワークアーキテクチャ内の非線形情報伝達を容易にするために、提案された活性化関数のパワーも活用する、新しいモデルを生み出しました。
技術的用語の抽出とハザードイベントの分類に関する実世界の技術的報告に係わる実験の成功は、我々の努力の証となる。
この研究ベンチャーは、テキストマイニングの理解を広げるだけでなく、さまざまなドメインにまたがる知識発見の新たな地平を開く。 In this world full of uncertainty, where the fabric of existence weaves patterns of complexity, multifractal emerges as beacons of insight, illuminating them. As we delve into the realm of text mining that underpins various natural language processing applications and powers a range of intelligent services, we recognize that behind the veil of text lies a manifestation of human thought and cognition, intricately intertwined with the complexities. Building upon the foundation of perceiving text as a complex system, this study embarks on a journey to unravel the hidden treasures within, armed with the proposed multifractal method that deciphers the multifractal attributes embedded within the text landscape. This endeavor culminates in the birth of our novel model, which also harnesses the power of the proposed activation function to facilitate nonlinear information transmission within its neural network architecture. The success on experiments anchored in real-world technical reports covering the extraction of technical term and classification of hazard events, stands as a testament to our endeavors. This research venture not only expands our understanding of text mining but also opens new horizons for knowledge discovery across various domains. | 翻訳日:2023-09-04 17:39:15 公開日:2023-09-01 |
# 通信効率の高い分散bilevelプログラミングのためのペナルティベース手法 A Penalty-Based Method for Communication-Efficient Decentralized Bilevel Programming ( http://arxiv.org/abs/2211.04088v3 ) ライセンス: Link先を確認 | Parvin Nazari, Ahmad Mousavi, Davoud Ataee Tarzanagh, and George Michailidis | (参考訳) 強化学習やハイパーパラメータ最適化など、幅広い応用があるため、bilevel programmingは最近の文献で注目を集めている。
しかし,星型ネットワークに接続された複数のマシン,すなわちフェデレーション学習環境において,基礎となる二段階最適化問題は一つのマシンで解決されると広く考えられている。
後者のアプローチは、中央ノード(例えばパラメータサーバ)での通信コストが高く、プライバシー上の脆弱性がある。
したがって、双方向最適化問題を通信効率のよい分散方式で解決する手法の開発が注目される。
そこで本稿では,このような最適化問題に対する理論的保証を備えたペナルティ関数に基づく分散アルゴリズムを提案する。
具体的には,分散ネットワーク上でのコンセンサス二レベル計画の解法として,分散交互勾配型アルゴリズムを開発した。
提案アルゴリズムの重要な特徴は,行列ベクトル積の分散計算とベクトル通信によってペナルティ関数の高次勾配を推定し,交互アルゴリズムに統合することで,異なる凸性仮定の下で有限時間収束解析を行うことである。
我々の理論的結果は, ベクトル通信を効率的に利用しながら, 分散二段階最適化の反復複雑性の向上を浮き彫りにしている。
合成データと実データの両方に対する実験結果から,提案手法が実環境において良好に動作することを示す。 Bilevel programming has recently received attention in the literature, due to its wide range of applications, including reinforcement learning and hyper-parameter optimization. However, it is widely assumed that the underlying bilevel optimization problem is solved either by a single machine or in the case of multiple machines connected in a star-shaped network, i.e., federated learning setting. The latter approach suffers from a high communication cost on the central node (e.g., parameter server) and exhibits privacy vulnerabilities. Hence, it is of interest to develop methods that solve bilevel optimization problems in a communication-efficient decentralized manner. To that end, this paper introduces a penalty function based decentralized algorithm with theoretical guarantees for this class of optimization problems. Specifically, a distributed alternating gradient-type algorithm for solving consensus bilevel programming over a decentralized network is developed. A key feature of the proposed algorithm is to estimate the hyper-gradient of the penalty function via decentralized computation of matrix-vector products and few vector communications, which is then integrated within an alternating algorithm to obtain finite-time convergence analysis under different convexity assumptions. Our theoretical result highlights improvements in the iteration complexity of decentralized bilevel optimization, all while making efficient use of vector communication. Empirical results on both synthetic and real datasets demonstrate that the proposed method performs well in real-world settings. | 翻訳日:2023-09-04 17:31:05 公開日:2023-09-01 |
# 整数量子ホールレジームにおける位相ジョセフソン接合 Topological Josephson Junctions in the Integer Quantum Hall Regime ( http://arxiv.org/abs/2211.02575v2 ) ライセンス: Link先を確認 | Gianmichele Blasi, G\'eraldine Haack, Vittorio Giovannetti, Fabio Taddei, Alessandro Braggio | (参考訳) ロバストで可変な位相ジョセフソン接合(tjjs)は、異常なジョセフソン効果とトポロジカル量子計算応用を調査するための非常に望ましいプラットフォームである。
磁気障害やフォノンや他の電子との相互作用に敏感なハイブリッド超伝導2次元トポロジー絶縁体 (2DTI) プラットフォームでの実験実験が行われた。
本研究では,整数量子ホール(IQH)法則と超伝導体の物理を組み合わせることで,頑健で静電気的に調整可能なTJJを提案する。
我々は、対応するアンドレフ境界状態スペクトル、ジョセフソン電流、異常電流に関する分析的知見を提供する。
静電気ゲートを介して制御できる保護されたゼロエネルギー交差の存在を実証する。
この静電気的チューニング性は、任意の現実的なサンプルで起こりうる非理想的インタフェースや望ましくない反射を補償する直接的な利点がある。
IQH系におけるTJJはグラフェンやその他の2D材料で実現できた。
スケーラブルで堅牢なandreev-qubitプラットフォームや、効率的なフェーズバッテリにも特に適しています。 Robust and tunable topological Josephson junctions (TJJs) are highly desirable platforms for investigating the anomalous Josephson effect and topological quantum computation applications. Experimental demonstrations have been done in hybrid superconducting-two dimensional topological insulator (2DTI) platforms, sensitive to magnetic disorder and interactions with phonons and other electrons. In this work, we propose a robust and electrostatically tunable TJJ by combining the physics of the integer quantum Hall (IQH) regime and of superconductors. We provide analytical insights about the corresponding Andreev bound state spectrum, the Josephson current and the anomalous current. We demonstrate the existence of protected zero-energy crossings, that can be controlled through electrostatic external gates. This electrostatic tunability has a direct advantage to compensate for non-ideal interfaces and undesirable reflections that may occur in any realistic samples. TJJs in the IQH regime could be realized in graphene and other 2D materials. They are of particular relevance towards scalable and robust Andreev-qubit platforms, and also for efficient phase batteries. | 翻訳日:2023-09-04 17:30:43 公開日:2023-09-01 |
# 仮定リーン変数の有意性テストのための予測共分散測定 The Projected Covariance Measure for assumption-lean variable significance testing ( http://arxiv.org/abs/2211.02039v2 ) ライセンス: Link先を確認 | Anton Rask Lundborg, Ilmun Kim, Rajen D. Shah and Richard J. Samworth | (参考訳) 変数や変数のグループの重要性をテストする $x$ 応答を予測するために$y$ を追加して covariates $z$ とすると、統計学におけるユビキタスなタスクである。
単純だが一般的なアプローチは線形モデルを特定し、x$ の回帰係数が 0 でないかどうかを調べることである。
しかし、モデルが不特定の場合、例えば、$X$が複雑な相互作用に関与している場合や、多くの偽の拒絶を引き起こす場合など、テストは力不足となる。
本研究では、条件付き平均独立性のモデルフリーなnullをテストする問題、すなわち条件付き平均の$Y$が$X$、$Z$が$X$に依存しないことを研究する。
本稿では,適応モデルやランダムフォレストなどの柔軟な非パラメトリックあるいは機械学習手法を利用して,堅牢なエラー制御と高出力を実現する,シンプルで汎用的なフレームワークを提案する。
この手順では、これらの方法を使って回帰を行い、まずデータの半分を使ってx$とz$で$y$の投射形式を推定し、その後、この投射法と残りのデータで$y$の期待条件共分散を推定する。
提案手法は一般に行われているが,この非パラメトリックテスト問題において,スプライン回帰を用いた手法のバージョンが極小最適率を達成できることを示す。
いくつかの既存手法と比較して,I型エラー制御とパワーの両面において,本手法の有効性を示す数値実験を行った。 Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches. | 翻訳日:2023-09-04 17:30:24 公開日:2023-09-01 |
# 宇宙せん断前方モデリングにおけるモデルバイアスの解決に向けて Towards solving model bias in cosmic shear forward modeling ( http://arxiv.org/abs/2210.16243v2 ) ライセンス: Link先を確認 | Benjamin Remy and Francois Lanusse and Jean-Luc Starck | (参考訳) 現代の銀河調査の量と質が増加するにつれて、銀河の形に刻印された宇宙信号の測定も困難になる。
宇宙で最も巨大な構造によって引き起こされる弱い重力レンズは、宇宙モデルの主要なプローブである宇宙せん断と呼ばれる銀河形態のわずかなせん断を生み出している。
楕円性測定の統計に基づく最近のせん断推定技術は、楕円性が任意の銀河の光プロファイルに対して明確に定義された量ではなく、せん断推定のバイアスであるという事実に苦しむ。
生成モデルが銀河の形態を捉えたハイブリッド物理モデルとディープラーニング階層ベイズモデルにより、現実的な銀河のせん断の偏りのない推定を復元し、モデルバイアスを解消できることが示されている。 As the volume and quality of modern galaxy surveys increase, so does the difficulty of measuring the cosmological signal imprinted in galaxy shapes. Weak gravitational lensing sourced by the most massive structures in the Universe generates a slight shearing of galaxy morphologies called cosmic shear, key probe for cosmological models. Modern techniques of shear estimation based on statistics of ellipticity measurements suffer from the fact that the ellipticity is not a well-defined quantity for arbitrary galaxy light profiles, biasing the shear estimation. We show that a hybrid physical and deep learning Hierarchical Bayesian Model, where a generative model captures the galaxy morphology, enables us to recover an unbiased estimate of the shear on realistic galaxies, thus solving the model bias. | 翻訳日:2023-09-04 17:29:54 公開日:2023-09-01 |
# ボリンジャーバンドを用いたニューラル拡張カルマンフィルタによるペア取引 Neural Augmented Kalman Filtering with Bollinger Bands for Pairs Trading ( http://arxiv.org/abs/2210.15448v2 ) ライセンス: Link先を確認 | Amit Milstein, Haoran Deng, Guy Revach, Hai Morgenstern and Nir Shlezinger | (参考訳) ペア・トレーディング(英: Pairs trading)は、ペア・アセット間の関係の監視に基づいてその政策を決定する取引技法のファミリーである。
共通のペアトレーディングアプローチは、ペアワイズ関係をガウスノイズを持つ線形空間状態(SS)モデルとして記述することに依存する。
この表現は、カルマンフィルタ(kf)を使用して、複雑さとレイテンシの低い金融指標を抽出し、ボルリンガーバンド(bb)のような古典的なポリシーで処理する。
しかし、そのようなSSモデルは本質的に近似され、不一致であり、しばしば収益を低下させる。
本研究では,KF支援BBトレーディングの運用を強化する深層学習支援政策であるKalmenNet-aided Bollinger bands Pairs Trading (KBPT)を提案する。
kbpt は、部分的共積分の保持としてそれらの関係を近似する対取引のための拡張 ss モデルを定式化したものである。
このSSモデルは、KF-BBトレーディングをKalmanNetアーキテクチャに基づいた専用ニューラルネットワークで強化するトレーディングポリシーによって利用される。
KBPTは、2段階の方法で訓練され、まず取引タスクとは無関係に追跡アルゴリズムを教師なしに調整し、続いて金融指標を追跡して収益を最大化し、BBを異なるマッピングで近似する。
KBPTはデータを利用してSSモデルの近似特性を克服し、KF-BBポリシーをトレーニング可能なモデルに変換する。
提案したKBPTは,様々な資産におけるモデルベースおよびデータ駆動ベンチマークと比較して,体系的に収益が向上することを示す。 Pairs trading is a family of trading techniques that determine their policies based on monitoring the relationships between pairs of assets. A common pairs trading approach relies on describing the pair-wise relationship as a linear Space State (SS) model with Gaussian noise. This representation facilitates extracting financial indicators with low complexity and latency using a Kalman Filter (KF), that are then processed using classic policies such as Bollinger Bands (BB). However, such SS models are inherently approximated and mismatched, often degrading the revenue. In this work, we propose KalmenNet-aided Bollinger bands Pairs Trading (KBPT), a deep learning aided policy that augments the operation of KF-aided BB trading. KBPT is designed by formulating an extended SS model for pairs trading that approximates their relationship as holding partial co-integration. This SS model is utilized by a trading policy that augments KF-BB trading with a dedicated neural network based on the KalmanNet architecture. The resulting KBPT is trained in a two-stage manner which first tunes the tracking algorithm in an unsupervised manner independently of the trading task, followed by its adaptation to track the financial indicators to maximize revenue while approximating BB with a differentiable mapping. KBPT thus leverages data to overcome the approximated nature of the SS model, converting the KF-BB policy into a trainable model. We empirically demonstrate that our proposed KBPT systematically yields improved revenue compared with model-based and data-driven benchmarks over various different assets. | 翻訳日:2023-09-04 17:29:40 公開日:2023-09-01 |
# 汎用リプシッツネットワークのためのほぼ直交層 Almost-Orthogonal Layers for Efficient General-Purpose Lipschitz Networks ( http://arxiv.org/abs/2208.03160v2 ) ライセンス: Link先を確認 | Bernd Prach and Christoph H. Lampert | (参考訳) ディープネットワークが小さな入力変更に対して堅牢であることは、非常に望ましい特性である。
この特性を達成するための一般的な方法は、小さなリプシッツ定数を持つネットワークを設計することである。
本稿では,任意の線形ネットワーク層(完全連結あるいは畳み込み)に適用可能なリプシッツネットワークを構築するための新しい手法を提案する。リプシッツ定数の形式的保証を提供し,容易に実装でき,効率的に実行でき,任意のトレーニング目的や最適化手法と組み合わせることができる。
実際、我々の技術は、これらの特性を同時に達成する文献で最初のものである。
我々の主な貢献は、再スケーリングに基づく重み行列パラメトリゼーションであり、各ネットワーク層が少なくとも1のリプシッツ定数を持ち、学習された重み行列が直交に近いことを保証します。
したがって、このような層を概直交リプシッツ(aol)と呼ぶ。
画像分類の文脈における実験とアブレーション研究により、AOL層が既存のほとんどの手法と同等の結果を得ることを確認した。
しかし、ネットワークアーキテクチャの一部として計算コストのかかる行列の直交化や反転ステップを必要としないため、より実装が簡単で、より広く適用できる。
コードはhttps://github.com/berndprach/aol.com/で提供します。 It is a highly desirable property for deep networks to be robust against small input changes. One popular way to achieve this property is by designing networks with a small Lipschitz constant. In this work, we propose a new technique for constructing such Lipschitz networks that has a number of desirable properties: it can be applied to any linear network layer (fully-connected or convolutional), it provides formal guarantees on the Lipschitz constant, it is easy to implement and efficient to run, and it can be combined with any training objective and optimization method. In fact, our technique is the first one in the literature that achieves all of these properties simultaneously. Our main contribution is a rescaling-based weight matrix parametrization that guarantees each network layer to have a Lipschitz constant of at most 1 and results in the learned weight matrices to be close to orthogonal. Hence we call such layers almost-orthogonal Lipschitz (AOL). Experiments and ablation studies in the context of image classification with certified robust accuracy confirm that AOL layers achieve results that are on par with most existing methods. Yet, they are simpler to implement and more broadly applicable, because they do not require computationally expensive matrix orthogonalization or inversion steps as part of the network architecture. We provide code at https://github.com/berndprach/AOL. | 翻訳日:2023-09-04 17:28:47 公開日:2023-09-01 |
# 非マルコフ量子系における量子近似最適化アルゴリズム Quantum Approximate Optimization Algorithm in Non-Markovian Quantum Systems ( http://arxiv.org/abs/2208.02066v2 ) ライセンス: Link先を確認 | Bo Yue, Shibei Xue, Yu Pan, Min Jiang | (参考訳) 量子近似最適化アルゴリズム(QAOA)は、その量子優位性を実証しているが、ノイズの大きい中間量子(NISQ)デバイスの性能は複雑なノイズ、例えば量子色ノイズに影響される。
本稿では,これらの雑音下でのQAOAの性能を評価するために,拡張システムモデルで表される非マルコフ量子系上でQAOAを実行するためのフレームワークを提案する。
このモデルでは、量子色雑音を含む非マルコフ環境は、対応する主系、すなわちアルゴリズムの計算単位と直接結合される量子白色雑音によって駆動される漸近系としてモデル化される。
このモデルにより、我々はQAOAを拡張システムの断片的なハミルトン制御として定式化し、制御深度を現在の量子デバイスの回路深度に合わせるように最適化する。
非マルコフ量子系におけるQAOAの効率的なシミュレーションのために、量子軌道を用いたブーストアルゴリズムをさらに示す。
最後に,提案する探索速度を特徴とするqaoaの比較的良好な性能を実現するために,非マルコフ性が量子資源として利用できることを示す。 Although quantum approximate optimization algorithm (QAOA) has demonstrated its quantum supremacy, its performance on Noisy Intermediate-Scale Quantum (NISQ) devices would be influenced by complicated noises, e.g., quantum colored noises. To evaluate the performance of QAOA under these noises, this paper presents a framework for running QAOA on non-Markovian quantum systems which are represented by an augmented system model. In this model, a non-Markovian environment carrying quantum colored noises is modelled as an ancillary system driven by quantum white noises which is directly coupled to the corresponding principal system; i.e., the computational unit for the algorithm. With this model, we mathematically formulate QAOA as piecewise Hamiltonian control of the augmented system, where we also optimize the control depth to fit into the circuit depth of current quantum devices. For efficient simulation of QAOA in non-Markovian quantum systems, a boosted algorithm using quantum trajectory is further presented. Finally, we show that non-Markovianity can be utilized as a quantum resource to achieve a relatively good performance of QAOA, which is characterized by our proposed exploration rate. | 翻訳日:2023-09-04 17:28:23 公開日:2023-09-01 |
# 一度に1つの物体:ロボットの運動による正確でロバストな構造 One Object at a Time: Accurate and Robust Structure From Motion for Robots ( http://arxiv.org/abs/2208.00487v3 ) ライセンス: Link先を確認 | Aravind Battaje, Oliver Brock | (参考訳) 視線固定ロボットは、固定された物体と周辺物体の相対位置との距離を瞬時、正確に、かつロバストに知覚する。
動きながら1つの物体を見る行為である固定は、3次元空間の幾何学における規則性を利用して情報を得る方法を示す。
これらの規則性は回転変換結合を導入し、運動から構造に一般的には使われない。
検証にはRGBカメラを搭載したFranka Emika Robotを使用する。
私たち
a) 距離推定における誤差が15cmの距離で5mm未満であることを確認し、
b) 難解なシナリオの下で障害を見つけるために相対的な位置がいかに用いられるかを示すこと。
我々は、正確な距離推定と障害物情報を、未知の大きさの物体を拾い上げながら、予期せぬ障害物によって妨げられる反応性ロボットの動作に組み合わせる。
プロジェクトページ: https://oxidification.com/one-object-at-a-time/ A gaze-fixating robot perceives distance to the fixated object and relative positions of surrounding objects immediately, accurately, and robustly. We show how fixation, which is the act of looking at one object while moving, exploits regularities in the geometry of 3D space to obtain this information. These regularities introduce rotation-translation couplings that are not commonly used in structure from motion. To validate, we use a Franka Emika Robot with an RGB camera. We a) find that error in distance estimate is less than 5 mm at a distance of 15 cm, and b) show how relative position can be used to find obstacles under challenging scenarios. We combine accurate distance estimates and obstacle information into a reactive robot behavior that is able to pick up objects of unknown size, while impeded by unforeseen obstacles. Project page: https://oxidification.com/p/one-object-at-a-time/ . | 翻訳日:2023-09-04 17:28:03 公開日:2023-09-01 |
# クロスモーダルバイオメディカルイメージセグメンテーションのためのコントラスト画像合成と自己監督的特徴適応 Contrastive Image Synthesis and Self-supervised Feature Adaptation for Cross-Modality Biomedical Image Segmentation ( http://arxiv.org/abs/2207.13240v3 ) ライセンス: Link先を確認 | Xinrong Hu, Corey Wang, Yiyu Shi | (参考訳) 本研究は, 画像ドメイン翻訳と非教師なし特徴適応に基づく, クロスモーダルバイオメディカル画像セグメンテーションのための新しいフレームワーク CISFA (Contrastive Image synthesis and Self-supervised Feature Adaptation) を提案する。
既存の作品と異なり、片面生成モデルを用いて、入力画像のサンプルパッチと対応する合成画像との重み付きパッチ回りの対比損失を付加し、形状制約となる。
さらに, 生成した画像と入力画像が類似した構造情報を共有するが, モダリティが異なることに気付く。
そこで我々は、生成した画像と入力画像に対してコントラスト的損失を課し、セグメンテーションモデルのエンコーダを訓練し、学習された埋め込み空間におけるペア画像間の差を最小限に抑える。
機能適応のための逆学習に依存する既存の作品と比較すると、エンコーダはより明示的な方法でドメインに依存しない特徴を学習できる。
腹部空洞および全心臓に対するctおよびmri画像を含む分節処理の方法について広範囲に検討した。
実験結果から,提案フレームワークは臓器形状の歪みが少なく合成画像を出力するだけでなく,最先端の領域適応法よりも大きなマージンで優れることがわかった。 This work presents a novel framework CISFA (Contrastive Image synthesis and Self-supervised Feature Adaptation)that builds on image domain translation and unsupervised feature adaptation for cross-modality biomedical image segmentation. Different from existing works, we use a one-sided generative model and add a weighted patch-wise contrastive loss between sampled patches of the input image and the corresponding synthetic image, which serves as shape constraints. Moreover, we notice that the generated images and input images share similar structural information but are in different modalities. As such, we enforce contrastive losses on the generated images and the input images to train the encoder of a segmentation model to minimize the discrepancy between paired images in the learned embedding space. Compared with existing works that rely on adversarial learning for feature adaptation, such a method enables the encoder to learn domain-independent features in a more explicit way. We extensively evaluate our methods on segmentation tasks containing CT and MRI images for abdominal cavities and whole hearts. Experimental results show that the proposed framework not only outputs synthetic images with less distortion of organ shapes, but also outperforms state-of-the-art domain adaptation methods by a large margin. | 翻訳日:2023-09-04 17:27:51 公開日:2023-09-01 |
# 逐次生成テンソルネットワーク状態の典型的な相関長 Typical Correlation Length of Sequentially Generated Tensor Network States ( http://arxiv.org/abs/2301.04624v2 ) ライセンス: Link先を確認 | Daniel Haag, Flavio Baccari, Georgios Styliaris | (参考訳) 量子多体系の複雑性は、それらの相関の膨大な多様性に現れ、ジェネリックと非定型的な特徴を区別することが困難である。
これは、関連する物理的性質を忠実に具現化するために選択されたランダム状態のアンサンブルを通して相関を分析することで対処できる。
ここでは、テンソルネットワーク状態によって相関が極めてよく捉えられる局所相互作用を持つスピンに焦点を当てる。
オペレーショナル・パースペクティブを用いて、逐次生成を許容する1次元と2次元の空間次元におけるランダムテンソルネットワーク状態のアンサンブルを定義する。
したがって、それらはシーケンシャルなアーキテクチャとランダムゲートを持つ量子回路の出力に直接対応する。
1つの空間次元では、アンサンブルは行列積状態の全族を探索し、2つの空間次元ではランダム等尺テンソルネットワーク状態に対応する。
距離関数として,2つのサブシステム間の平均相関のスケーリング挙動を抽出した。
基本濃度結果を用いて、フォン・ノイマンの相互情報やヒルベルト・シュミットノルムから生じる測度のような相関の尺度の典型例を導出する。
典型的な振る舞いが指数的減衰(一次元と二次元の両方)であると考えられる全ての場合を見いだす。
本研究では,空間次元にのみ依存する相関長が一貫した出現を観察する。
顕著なことに、結合次元の増大は1つの空間次元において高い相関長をもたらすが、2つの空間次元では反対の効果を持つ。 The complexity of quantum many-body systems is manifested in the vast diversity of their correlations, making it challenging to distinguish the generic from the atypical features. This can be addressed by analyzing correlations through ensembles of random states, chosen to faithfully embody the relevant physical properties. Here, we focus on spins with local interactions, whose correlations are extremely well captured by tensor network states. Adopting an operational perspective, we define ensembles of random tensor network states in one and two spatial dimensions that admit a sequential generation. As such, they directly correspond to outputs of quantum circuits with a sequential architecture and random gates. In one spatial dimension, the ensemble explores the entire family of matrix product states, while in two spatial dimensions, it corresponds to random isometric tensor network states. We extract the scaling behavior of the average correlations between two subsystems as a function of their distance. Using elementary concentration results, we then deduce the typical case for measures of correlation such as the von Neumann mutual information and a measure arising from the Hilbert-Schmidt norm. We find for all considered cases that the typical behavior is an exponential decay (for both one and two spatial dimensions). We observe the consistent emergence of a correlation length that depends only on the underlying spatial dimension and not the considered measure. Remarkably, increasing the bond dimension leads to a higher correlation length in one spatial dimension but has the opposite effect in two spatial dimensions. | 翻訳日:2023-09-04 17:22:39 公開日:2023-09-01 |
# 高周波ナノメカニカル共振器における散逸光学 Dissipative Optomechanics in High-Frequency Nanomechanical Resonators ( http://arxiv.org/abs/2212.14533v2 ) ライセンス: Link先を確認 | Andr\'e G. Primo, Pedro V. Pinho, Rodrigo Benevides, Simon Gr\"oblacher, Gustavo S. Wiederhecker and Thiago P. Mayer Alegre | (参考訳) マイクロ波と光領域間のコヒーレントな情報伝達は、将来の量子ネットワークの基本的な構成要素である。
これらの広く異なる周波数を橋渡しする方法は、低損失光モードと相互作用する高周波ナノメカニカル共振器を使用することである。
最先端の光機械装置は、キャビティ内の大きな光子集団によって強化された純粋に分散した相互作用に依存している。
さらに、光子を直接導波路から共振器に散乱させることで、音響対光相互作用の制御の度合いを増大させる散逸光学を用いることもできる。
このような散逸的な光力学的相互作用は低い機械的周波数でのみ実証され、フォトニックドメインとフォノニックドメイン間の量子状態転移のような顕著な応用が妨げられた。
ここでは、光線幅よりも機械周波数が大きいサイドバンド分解系で作動する最初の散逸型オプティメカティカルシステムを示す。
この前例のない体制を探求し、光学スペクトルと機械的スペクトルの両方を再構成するときに散逸的な光学結合が与える影響を実証する。
この数値は, 機械周波数の2次跳躍と, 従来の研究に比べて10倍の散逸性オプテメカカルカップリング速度を示す。
さらなる進歩により、メカニカルモードの個別のアドレス指定が可能になり、光学機械装置の非線形性と吸収の緩和に役立つ。 The coherent transduction of information between microwave and optical domains is a fundamental building block for future quantum networks. A promising way to bridge these widely different frequencies is using high-frequency nanomechanical resonators interacting with low-loss optical modes. State-of-the-art optomechanical devices rely on purely dispersive interactions that are enhanced by a large photon population in the cavity. Additionally, one could use dissipative optomechanics, where photons can be scattered directly from a waveguide into a resonator hence increasing the degree of control of the acousto-optic interplay. Hitherto, such dissipative optomechanical interaction was only demonstrated at low mechanical frequencies, precluding prominent applications such as the quantum state transfer between photonic and phononic domains. Here, we show the first dissipative optomechanical system operating in the sideband-resolved regime, where the mechanical frequency is larger than the optical linewidth. Exploring this unprecedented regime, we demonstrate the impact of dissipative optomechanical coupling in reshaping both mechanical and optical spectra. Our figures represent a two-order-of-magnitude leap in the mechanical frequency and a tenfold increase in the dissipative optomechanical coupling rate compared to previous works. Further advances could enable the individual addressing of mechanical modes and help mitigate optical nonlinearities and absorption in optomechanical devices. | 翻訳日:2023-09-04 17:22:14 公開日:2023-09-01 |
# 光子を介するエンタングルメントによる原子アンサンブルのエンジニアリンググラフ状態 Engineering Graph States of Atomic Ensembles by Photon-Mediated Entanglement ( http://arxiv.org/abs/2212.11961v2 ) ライセンス: Link先を確認 | Eric S. Cooper, Philipp Kunkel, Avikar Periwal, Monika Schleier-Smith | (参考訳) グラフ状態は、量子計算と量子強調測定のための汎用的な資源である。
彼らの世代は絡み合いに対する高いレベルの制御を示している。
グラフのノードを構成する原子スピンアンサンブルの連続変数グラフ状態の生成について報告する。
エッジは絡み合い構造を表し、光空洞内の大域的な光子相互作用と局所スピン回転を組み合わせることでプログラムする。
2つのサブシステム間の絡み合いを調整することにより、各サブシステム内の相関を局所化するか、アインシュタイン-ポドルスキー-ローゼンステアリングを有効にする。
さらに4モードの正方形グラフ状態を設計し,アプローチの柔軟性を強調した。
提案手法は,大規模で複雑なグラフに対して拡張性があり,測定に基づく量子計算と量子メトロジーにおける高度なプロトコルの基礎となる。 Graph states are versatile resources for quantum computation and quantum-enhanced measurement. Their generation illustrates a high level of control over entanglement. We report on the generation of continuous-variable graph states of atomic spin ensembles, which form the nodes of the graph. The edges represent the entanglement structure, which we program by combining global photon-mediated interactions in an optical cavity with local spin rotations. By tuning the entanglement between two subsystems, we either localize correlations within each subsystem or enable Einstein-Podolsky-Rosen steering. We further engineer a four-mode square graph state, highlighting the flexibility of our approach. Our method is scalable to larger and more complex graphs, laying groundwork for measurement-based quantum computation and advanced protocols in quantum metrology. | 翻訳日:2023-09-04 17:21:23 公開日:2023-09-01 |
# メタラーニングによるハミルトン多様体全体の一般化ニューラル表現の同定 Identifying Generalized Neural Representation Across Hamiltonian Manifolds via Meta-learning ( http://arxiv.org/abs/2212.01168v2 ) ライセンス: Link先を確認 | Yeongwoo Song, Hawoong Jeong | (参考訳) 物理学のディープラーニングの最近の進歩は、ニューラルネットワークに物理学の優先順位や帰納バイアスを組み込むことで、ターゲットシステムの共有表現を発見することに焦点を当てている。
しかし、これらのアプローチはシステム固有のものであり、異なる法則によって統治される新しい物理系に容易に適応できない。
例えば、マススプリングシステムでトレーニングされたニューラルネットワークは、2体システムまたは異なる制御物理を持つ他のシステムの振る舞いを正確に予測することはできない。
本研究では,グラフニューラルネットワークを用いてシステムをモデル化し,メタ学習アルゴリズムを用いて,タスクの分散に関する経験を得られるようにし,新しい物理に適応させる。
我々のアプローチは、ハミルトン系のデータ分布の共通の特徴である様々なハミルトン多様体の一般表現を学習することを目的としている。
異なる物理系のデータセットを用いてモデルをトレーニングし、それぞれ固有の力学によって制御され、未知の物理を持つ新しいタイプの力学系の性能を評価する。
メタトレーニングモデルでは,メタトレーニングフェーズ中に見つからなかった新しいシステムに効果的に適応することが示唆された。
さらに,メタ学習ニューラルネットワークが学習した表現を分析し,様々な物理系で共有されるハミルトン方程式の一般化可能な表現を同定する。
その結果、メタ学習モデルは力学系に固有のハミルトン多様体全体の一般化表現を捉えることができることが示唆された。 Recent advancements in deep learning for physics have focused on discovering shared representations of target systems by incorporating physics priors or inductive biases into neural networks. However, these approaches are system-specific and do not allow for easy adaptation to new physical systems governed by different laws. For example, a neural network trained on a mass-spring system cannot accurately predict the behavior of a two-body system or any other system with different governing physics. In this work, we model our system with a graph neural network and employ a meta-learning algorithm to enable the model to gain experience over a distribution of tasks and make it adapt to new physics. Our approach aims to learn a general representation across the various Hamiltonian manifolds, which is a common feature of the data distribution of Hamiltonian systems. We train our model using a dataset of different physical systems, each governed by its own inherent dynamics, and evaluate its performance on a new type of dynamical system with unknown physics. Our results show that the meta-trained model effectively adapts to the new system, which was unseen during the meta-training phase. Furthermore, we analyze the representation learned by the meta-trained neural network to identify a generalizable representation of Hamilton's equation that is shared across various physical systems. Our findings suggest that the meta-learned model can capture the generalizable representation across Hamiltonian manifolds inherent in dynamical systems. | 翻訳日:2023-09-04 17:21:09 公開日:2023-09-01 |
# ホークス過程のスケーラブルで適応的な変分ベイズ法 Scalable and adaptive variational Bayes methods for Hawkes processes ( http://arxiv.org/abs/2212.00293v2 ) ライセンス: Link先を確認 | Deborah Sulem, Vincent Rivoirard and Judith Rousseau | (参考訳) ホークスプロセスは、神経スパイクトレイン、社会的相互作用、金融取引などの多変量事象データセットにおけるモデル依存や相互作用現象にしばしば適用される。
非パラメトリックな設定では、ホークスの過程の時間的依存構造を学習することは一般的に計算コストの高い作業であり、ベイズ推定法でも同様である。
特に、一般化された非線形ホークス過程に対して、二重可逆後角分布を計算するために適用されるモンテカルロマルコフ連鎖法は、実際には高次元過程にスケーラブルではない。
近年,後方分布の平均場変動近似を対象とする効率的なアルゴリズムが提案されている。
本研究では,従来の変分ベイズ手法を一般の非パラメトリック推論フレームワークの下で統一し,これらの手法の漸近特性を事前,変分類,非線形モデルで容易に検証可能な条件下で解析する。
第二に,新しいスパーシティ誘導法を提案し,人気のあるsgmoid hawkesプロセスに対する適応平均場変分アルゴリズムを導出する。
このアルゴリズムは並列性があり,高次元設定では計算効率が高い。
また,広範な数値シミュレーションを通じて,この手法がホークス過程のパラメータの次元に適応できることを示すとともに,ある種のモデルの誤特定に対して部分的に堅牢であることを示す。 Hawkes processes are often applied to model dependence and interaction phenomena in multivariate event data sets, such as neuronal spike trains, social interactions, and financial transactions. In the nonparametric setting, learning the temporal dependence structure of Hawkes processes is generally a computationally expensive task, all the more with Bayesian estimation methods. In particular, for generalised nonlinear Hawkes processes, Monte-Carlo Markov Chain methods applied to compute the doubly intractable posterior distribution are not scalable to high-dimensional processes in practice. Recently, efficient algorithms targeting a mean-field variational approximation of the posterior distribution have been proposed. In this work, we first unify existing variational Bayes approaches under a general nonparametric inference framework, and analyse the asymptotic properties of these methods under easily verifiable conditions on the prior, the variational class, and the nonlinear model. Secondly, we propose a novel sparsity-inducing procedure, and derive an adaptive mean-field variational algorithm for the popular sigmoid Hawkes processes. Our algorithm is parallelisable and therefore computationally efficient in high-dimensional setting. Through an extensive set of numerical simulations, we also demonstrate that our procedure is able to adapt to the dimensionality of the parameter of the Hawkes process, and is partially robust to some type of model mis-specification. | 翻訳日:2023-09-04 17:20:47 公開日:2023-09-01 |
# ComCLIP: 学習不要なコンポジションイメージとテキストマッチング ComCLIP: Training-Free Compositional Image and Text Matching ( http://arxiv.org/abs/2211.13854v2 ) ライセンス: Link先を確認 | Kenan Jiang, Xuehai He, Ruize Xu, Xin Eric Wang | (参考訳) Contrastive Language- Image Pretraining (CLIP)は画像とテキストのマッチングに優れたゼロショット性能を示した。
しかし、クリップから合成画像やテキストマッチングへの事前学習された視覚言語モデルの適用は依然として困難であり、合成語の概念や視覚コンポーネントのモデル理解を必要とする、より困難な画像とテキストマッチングタスクである。
本稿では,ゼロショット画像とテキストマッチングにおける合成汎化の改善に向けて,その問題を因果的観点から検討する。
そこで本研究では,新しい合成クリップモデルである\textbf{\textit{training-free}} を提案する。
comclipは入力画像を被写体、オブジェクト、アクションサブイメージに分割し、クリップの視覚エンコーダとテキストエンコーダを合成し、合成テキストの埋め込みとサブイメージの埋め込みで進化するマッチングを実行する。
このように、ComCLIPは、事前訓練されたCLIPモデルによって導入された素早い相関を緩和し、各コンポーネントの重要性を動的に評価することができる。
svo、comvg、winoground、vl-checklistの4つの合成画像テキストマッチングデータセットと、flick30kとmscocoの2つの一般的な画像テキスト検索データセットの実験は、更なるトレーニングや微調整なしにクリップ、スリップ、blip2の推論能力を向上させるプラグイン・アンド・プレイ法の有効性を実証している。 Contrastive Language-Image Pretraining (CLIP) has demonstrated great zero-shot performance for matching images and text. However, it is still challenging to adapt vision-lanaguage pretrained models like CLIP to compositional image and text matching -- a more challenging image and text matching task requiring the model understanding of compositional word concepts and visual components. Towards better compositional generalization in zero-shot image and text matching, in this paper, we study the problem from a causal perspective: the erroneous semantics of individual entities are essentially confounders that cause the matching failure. Therefore, we propose a novel \textbf{\textit{training-free}} compositional CLIP model (ComCLIP). ComCLIP disentangles input images into subjects, objects, and action sub-images and composes CLIP's vision encoder and text encoder to perform evolving matching over compositional text embedding and sub-image embeddings. In this way, ComCLIP can mitigate spurious correlations introduced by the pretrained CLIP models and dynamically evaluate the importance of each component. Experiments on four compositional image-text matching datasets: SVO, ComVG, Winoground, and VL-checklist, and two general image-text retrieval datasets: Flick30K, and MSCOCO demonstrate the effectiveness of our plug-and-play method, which boosts the \textbf{\textit{zero-shot}} inference ability of CLIP, SLIP, and BLIP2 even without further training or fine-tuning. | 翻訳日:2023-09-04 17:20:13 公開日:2023-09-01 |
# C3: クロスインスタンスガイドによるコントラストクラスタリング C3: Cross-instance guided Contrastive Clustering ( http://arxiv.org/abs/2211.07136v4 ) ライセンス: Link先を確認 | Mohammadreza Sadeghi, Hadi Hojjati, Narges Armanfard | (参考訳) クラスタリングは、事前に定義されたラベルを使わずに、類似したデータサンプルをクラスタに収集するタスクである。
機械学習文学において広く研究され、近年のディープラーニングの進歩はこの分野への関心を復活させてきた。
対比クラスタリング(CC)モデルは、データ拡張によって各データインスタンスの正と負のペアが生成されるディープクラスタリングの基盤である。
CCモデルは、正のペアのインスタンスレベルとクラスタレベルの表現がグループ化される特徴空間を学習することを目的としている。
sotaの改善にもかかわらず、これらのアルゴリズムはクラスタリング性能を改善するための必須情報を含むクロスインスタンスパターンを無視している。
これにより、真正対数率を下げながらモデルの偽負対数率を増加させる。
本稿では,クロスサンプル関係を考慮し,正のペア数を増加させ,偽陰性,ノイズ,異常サンプルがデータ表現に与える影響を緩和する,新しいコントラストクラスタリング法であるcross-instance guided contrastive clustering (c3)を提案する。
特に、インスタンスレベルの表現を使って類似のインスタンスを識別し、それらを集約する新たなロス関数を定義します。
さらに,より効率的な方法で負のサンプルを選択する新しい重み付け法を提案する。
提案手法は,ベンチマークコンピュータビジョンデータセットにおける最先端アルゴリズムを6.6%, 3.3%, 5.0%, 1.3%, 0.3%, cifar-10, cifar-100, imagenet-10, imagenet-dogs, tiny-imagenetで改善する。 Clustering is the task of gathering similar data samples into clusters without using any predefined labels. It has been widely studied in machine learning literature, and recent advancements in deep learning have revived interest in this field. Contrastive clustering (CC) models are a staple of deep clustering in which positive and negative pairs of each data instance are generated through data augmentation. CC models aim to learn a feature space where instance-level and cluster-level representations of positive pairs are grouped together. Despite improving the SOTA, these algorithms ignore the cross-instance patterns, which carry essential information for improving clustering performance. This increases the false-negative-pair rate of the model while decreasing its true-positive-pair rate. In this paper, we propose a novel contrastive clustering method, Cross-instance guided Contrastive Clustering (C3), that considers the cross-sample relationships to increase the number of positive pairs and mitigate the impact of false negative, noise, and anomaly sample on the learned representation of data. In particular, we define a new loss function that identifies similar instances using the instance-level representation and encourages them to aggregate together. Moreover, we propose a novel weighting method to select negative samples in a more efficient way. Extensive experimental evaluations show that our proposed method can outperform state-of-the-art algorithms on benchmark computer vision datasets: we improve the clustering accuracy by 6.6%, 3.3%, 5.0%, 1.3% and 0.3% on CIFAR-10, CIFAR-100, ImageNet-10, ImageNet-Dogs, and Tiny-ImageNet. | 翻訳日:2023-09-04 17:19:46 公開日:2023-09-01 |
# 量子ビット接続は量子回路の複雑さに影響を与えるか? Does qubit connectivity impact quantum circuit complexity? ( http://arxiv.org/abs/2211.05413v2 ) ライセンス: Link先を確認 | Pei Yuan, Jonathan Allcock, Shengyu Zhang | (参考訳) 量子コンピューティングのいくつかの物理的実装スキームは、2量子ビットゲートを特定の量子ビットのペアにのみ適用することができる。
これらの接続制約は一般に大きなデメリットと見なされる。
例えば、制限のない$n$-qubit量子回路を1dチェーンのような量子ビット接続が不十分な回路にコンパイルすると、通常、深さが$o(n^2)$、サイズが$o(n)$になる。
このオーバーヘッドは避けられない。$n$ qubits 上のランダム回路は各層に $\Theta(n)$ 2-qubit gate を持ち、その定数は距離 $\Theta(n)$ で分離された qubit 上で作用する。
ほぼすべての$n$-qubitユニタリ演算が、全量子ビット接続で実現するためには、$\Omega(4^n/n)$ depth と $\Omega(4^n)$ size の量子回路が必要であることが知られているが、本論文では、$n$-qubitユニタリ演算は、$O(4^n/n)$ depth と $O(4^n)$ size の量子回路で実装可能であることを示す。
この結果を拡張し、キュービット接続を3方向に検討する。
まず、より一般的な接続グラフを検討し、グラフが接続されている限り、回路サイズは常に$o(4^n)$となることを示す。
回路の深さについて、d$-dimensionalグリッド、d$-ary木およびexpanderグラフの完全な研究を行い、1dチェーンと同様の結果を示す。
第二に、補助キュービットが利用可能である場合を考える。
アンシラでは回路深度を多項式とし,空間深度トレードオフは指数的に多くのアシラリー量子ビットがない限り接続制約によって損なわれないことを示す。
第3に,対角ユニタリ,2-by-2ブロック対角ユニタリ,量子状態準備(qsp)ユニタリなどの特殊ユニタリについて,ほぼ最適な結果を得た。 Some physical implementation schemes of quantum computing can apply two-qubit gates only on certain pairs of qubits. These connectivity constraints are commonly viewed as a significant disadvantage. For example, compiling an unrestricted $n$-qubit quantum circuit to one with poor qubit connectivity, such as a 1D chain, usually results in a blowup of depth by $O(n^2)$ and size by $O(n)$. It is appealing to conjecture that this overhead is unavoidable -- a random circuit on $n$ qubits has $\Theta(n)$ two-qubit gates in each layer and a constant fraction of them act on qubits separated by distance $\Theta(n)$. While it is known that almost all $n$-qubit unitary operations need quantum circuits of $\Omega(4^n/n)$ depth and $\Omega(4^n)$ size to realize with all-to-all qubit connectivity, in this paper, we show that all $n$-qubit unitary operations can be implemented by quantum circuits of $O(4^n/n)$ depth and $O(4^n)$ size even under {1D chain} qubit connectivity constraint. We extend this result and investigate qubit connectivity in three directions. First, we consider more general connectivity graphs and show that the circuit size can always be made $O(4^n)$ as long as the graph is connected. For circuit depth, we study $d$-dimensional grids, complete $d$-ary trees and expander graphs, and show results similar to the 1D chain. Second, we consider the case when ancillary qubits are available. We show that, with ancilla, the circuit depth can be made polynomial, and the space-depth trade-off is not impaired by connectivity constraints unless we have exponentially many ancillary qubits. Third, we obtain nearly optimal results on special families of unitaries, including diagonal unitaries, 2-by-2 block diagonal unitaries, and Quantum State Preparation (QSP) unitaries, the last being a fundamental task used in many quantum algorithms for machine learning and linear algebra. | 翻訳日:2023-09-04 17:19:14 公開日:2023-09-01 |
# LEVER: 実行で言語からコード生成を検証することを学ぶ LEVER: Learning to Verify Language-to-Code Generation with Execution ( http://arxiv.org/abs/2302.08468v3 ) ライセンス: Link先を確認 | Ansong Ni, Srini Iyer, Dragomir Radev, Ves Stoyanov, Wen-tau Yih, Sida I. Wang, Xi Victoria Lin | (参考訳) コードで訓練された大規模言語モデル(コードllm)の出現は、言語対コード生成の著しい進歩をもたらした。
この領域における最先端のアプローチは、LCMデコーディングとサンプルプルーニングを組み合わせ、実行結果に基づいてテストケースやヒューリスティックを使って再ランク付けする。
しかし、多くの現実世界の言語からコードへのアプリケーションでテストケースを取得することは困難であり、ヒューリスティックスは、しばしばプログラムの正確さを示すデータ型や値範囲といった実行結果の意味的特徴をうまく把握できない。
そこで本研究では,プログラムの実行結果を学習することで,言語間コード生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、自然言語入力やプログラム自体とその実行結果に基づいて、llmからサンプリングされたプログラムが正しいかどうかを判断するために検証者を訓練する。
サンプルプログラムは、検証スコアとLCM生成確率を組み合わせ、同じ実行結果でプログラムをマーカライズすることにより再ランクされる。
テーブルQA、数学QA、基本的なPythonプログラミングの領域にまたがる4つのデータセットにおいて、LEVERはLLMs(4.6%から10.9%)を一貫して改善し、それらすべてに対して新しい最先端の結果を得る。 The advent of large language models trained on code (code LLMs) has led to significant progress in language-to-code generation. State-of-the-art approaches in this area combine LLM decoding with sample pruning and reranking using test cases or heuristics based on the execution results. However, it is challenging to obtain test cases for many real-world language-to-code applications, and heuristics cannot well capture the semantic features of the execution results, such as data type and value range, which often indicates the correctness of the program. In this work, we propose LEVER, a simple approach to improve language-to-code generation by learning to verify the generated programs with their execution results. Specifically, we train verifiers to determine whether a program sampled from the LLMs is correct or not based on the natural language input, the program itself and its execution results. The sampled programs are reranked by combining the verification score with the LLM generation probability, and marginalizing over programs with the same execution results. On four datasets across the domains of table QA, math QA and basic Python programming, LEVER consistently improves over the base code LLMs(4.6% to 10.9% with code-davinci-002) and achieves new state-of-the-art results on all of them. | 翻訳日:2023-09-04 17:11:27 公開日:2023-09-01 |
# big little decoderを用いた投機的復号 Speculative Decoding with Big Little Decoder ( http://arxiv.org/abs/2302.07863v3 ) ライセンス: Link先を確認 | Sehoon Kim, Karttikeya Mangalam, Suhong Moon, John Canny, Jitendra Malik, Michael W. Mahoney, Amir Gholami, Kurt Keutzer | (参考訳) トランスフォーマーアーキテクチャに基づく大規模言語モデルの近年の出現は、自然言語処理の分野で劇的な進歩を可能にしている。
しかし、これらのモデルには長い推論遅延があり、デプロイメントが制限されるため、様々なリアルタイムアプリケーションにとって非常にコストがかかる。
モデルがトークンレベルの並列化を生かさずに連続的にトークンを生成するために反復的に実行する必要があるため、推論の遅延は自己回帰的な生成タスクによってさらに悪化する。
そこで本研究では,幅広いテキスト生成アプリケーションに対して,推論効率と遅延性を向上するフレームワークであるBig Little Decoder (BiLD)を提案する。
BiLDフレームワークには、テキストを共同生成する大きさの異なる2つのモデルが含まれている。
小モデルは、推論コストの低いテキストを生成するために自己回帰的に動作し、大モデルは、非自己回帰的な方法で小モデルの不正確な予測を洗練するために時々のみ呼び出される。
小型モデルと大規模モデルの調整には,(1)大モデルにいつ制御を委譲するかを決定するフォールバックポリシ,(2)大モデルの不正確な予測をいつ修正する必要があるかを決定するロールバックポリシ,の2つの簡単な方法を導入する。
IWSLT 2017 De-En と WMT 2014 De-En の機械翻訳と XSUM と CNN/DailyMail の要約を含む様々なテキスト生成シナリオに BiLD を適用する。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
さらに、我々のフレームワークは完全にプラグアンドプレイされており、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
私たちのコードはオープンソースです The recent emergence of Large Language Models based on the Transformer architecture has enabled dramatic advancements in the field of Natural Language Processing. However, these models have long inference latency, which limits their deployment, and which makes them prohibitively expensive for various real-time applications. The inference latency is further exacerbated by autoregressive generative tasks, as models need to run iteratively to generate tokens sequentially without leveraging token-level parallelization. To address this, we propose Big Little Decoder (BiLD), a framework that can improve inference efficiency and latency for a wide range of text generation applications. The BiLD framework contains two models with different sizes that collaboratively generate text. The small model runs autoregressively to generate text with a low inference cost, and the large model is only invoked occasionally to refine the small model's inaccurate predictions in a non-autoregressive manner. To coordinate the small and large models, BiLD introduces two simple yet effective policies: (1) the fallback policy that determines when to hand control over to the large model; and (2) the rollback policy that determines when the large model needs to correct the small model's inaccurate predictions. To evaluate our framework across different tasks and models, we apply BiLD to various text generation scenarios encompassing machine translation on IWSLT 2017 De-En and WMT 2014 De-En, and summarization on XSUM and CNN/DailyMail. On an NVIDIA T4 GPU, our framework achieves a speedup of up to 2.12x speedup with minimal generation quality degradation. Furthermore, our framework is fully plug-and-play and can be applied without any modifications in the training process or model architecture. Our code is open-sourced | 翻訳日:2023-09-04 17:11:03 公開日:2023-09-01 |
# 自己蒸留による微分可能なアーキテクチャ探索の改善 Improving Differentiable Architecture Search via Self-Distillation ( http://arxiv.org/abs/2302.05629v2 ) ライセンス: Link先を確認 | Xunyu Zhu, Jian Li, Yong Liu, Weiping Wang | (参考訳) 微分可能アーキテクチャサーチ(DARTS)は、単純だが効率的なニューラルアーキテクチャサーチ(NAS)手法である。
探索段階では、DARTSはアーキテクチャパラメータとネットワークパラメータを協調的に最適化することでスーパーネットを訓練する。
評価段階では、DARTSはアーキテクチャパラメータに基づいて最適なアーキテクチャを導出するためにスーパーネットを識別する。
しかし、最近の研究では、トレーニング中にスーパーネットは平らなミニマではなく鋭いミニマに向かって収束する傾向があることが示されている。
これは、スーパーネットのロスランドスケープの鋭さによって証明され、最終的にスーパーネットと最適アーキテクチャの間にパフォーマンスのギャップが生じる。
本稿では,自己拡散微分型ニューラルネットワーク探索(SD-DARTS)を提案する。
自己蒸留をスーパーネットの前段階からの知識の蒸留に利用し,現在の段階におけるトレーニングの指導を行い,スーパーネットの損失の鋭さを効果的に低減し,スーパーネットと最適なアーキテクチャ間の性能ギャップを橋渡しする。
さらに,複数の過去のスーパーネットを教師として選択し,その出力確率を投票によって集計し,最終的な教師予測を得る投票教師の概念を導入する。
実データを用いた実験結果から,新しい自己蒸留式NAS法の利点が得られた。 Differentiable Architecture Search (DARTS) is a simple yet efficient Neural Architecture Search (NAS) method. During the search stage, DARTS trains a supernet by jointly optimizing architecture parameters and network parameters. During the evaluation stage, DARTS discretizes the supernet to derive the optimal architecture based on architecture parameters. However, recent research has shown that during the training process, the supernet tends to converge towards sharp minima rather than flat minima. This is evidenced by the higher sharpness of the loss landscape of the supernet, which ultimately leads to a performance gap between the supernet and the optimal architecture. In this paper, we propose Self-Distillation Differentiable Neural Architecture Search (SD-DARTS) to alleviate the discretization gap. We utilize self-distillation to distill knowledge from previous steps of the supernet to guide its training in the current step, effectively reducing the sharpness of the supernet's loss and bridging the performance gap between the supernet and the optimal architecture. Furthermore, we introduce the concept of voting teachers, where multiple previous supernets are selected as teachers, and their output probabilities are aggregated through voting to obtain the final teacher prediction. Experimental results on real datasets demonstrate the advantages of our novel self-distillation-based NAS method compared to state-of-the-art alternatives. | 翻訳日:2023-09-04 17:10:34 公開日:2023-09-01 |
# GPUプラットフォーム上での効率的な推論のためのSMDPベースの動的バッチ SMDP-Based Dynamic Batching for Efficient Inference on GPU-Based Platforms ( http://arxiv.org/abs/2301.12865v3 ) ライセンス: Link先を確認 | Yaodan Xu, Jingzhou Sun, Sheng Zhou, Zhisheng Niu | (参考訳) クラウドやエッジコンピューティングプラットフォーム上の最新の機械学習(ML)アプリケーションでは、バッチ処理は大規模に効率的かつ経済的サービスを提供する上で重要なテクニックである。
特に、gpu(graphics processing unit)のようなプラットフォーム上の並列コンピューティングリソースは、バッチサイズが大きいほど高い計算効率とエネルギー効率を持つ。
しかし、バッチサイズが大きくなると応答時間が長くなるため、適切な設計が必要となる。
本稿では,効率とレイテンシのバランスをとる動的バッチポリシを提供することを目的としている。
gpuベースの推論サービスは、バッチサイズの依存処理時間を持つバッチサービスキューとしてモデル化される。
次に、動的バッチの設計は連続時間平均コスト問題であり、平均応答時間と平均消費電力の重み付け和を最小化することを目的としてセミマルコフ決定プロセス(smdp)として定式化される。
最適ポリシーは、関連する離散時間マルコフ決定過程(MDP)問題を有限状態近似と「離散化」で解くことで得られる。
尾」状態の影響を反映する抽象的なコストを導入することで、手順の空間的複雑さと時間的複雑さをそれぞれ63.5%と98%減少させることができる。
その結果,最適政策は制御限界構造を持つ可能性が示唆された。
また,SMDPベースのバッチ処理ポリシは,異なるトラフィック強度に適応し,他のベンチマークポリシよりも優れていることを示す。
さらに,提案手法は,消費電力とレイテンシのバランスにおいて,柔軟性に優れる。 In up-to-date machine learning (ML) applications on cloud or edge computing platforms, batching is an important technique for providing efficient and economical services at scale. In particular, parallel computing resources on the platforms, such as graphics processing units (GPUs), have higher computational and energy efficiency with larger batch sizes. However, larger batch sizes may also result in longer response time, and thus it requires a judicious design. This paper aims to provide a dynamic batching policy that strikes a balance between efficiency and latency. The GPU-based inference service is modeled as a batch service queue with batch-size dependent processing time. Then, the design of dynamic batching is a continuous-time average-cost problem, and is formulated as a semi-Markov decision process (SMDP) with the objective of minimizing the weighted sum of average response time and average power consumption. The optimal policy is acquired by solving an associated discrete-time Markov decision process (MDP) problem with finite state approximation and "discretization". By introducing an abstract cost to reflect the impact of "tail" states, the space complexity and the time complexity of the procedure can decrease by 63.5% and 98%, respectively. Our results show that the optimal policies potentially possess a control limit structure. Numerical results also show that SMDP-based batching policies can adapt to different traffic intensities and outperform other benchmark policies. Furthermore, the proposed solution has notable flexibility in balancing power consumption and latency. | 翻訳日:2023-09-04 17:09:48 公開日:2023-09-01 |
# 自己フィードバックによるドメイン非依存的分子生成 Domain-Agnostic Molecular Generation with Self-feedback ( http://arxiv.org/abs/2301.11259v4 ) ライセンス: Link先を確認 | Yin Fang, Ningyu Zhang, Zhuo Chen, Xiaohui Fan, Huajun Chen | (参考訳) 望ましい性質を持つ分子の生成は、科学者が分子構造を設計する方法に革命をもたらし、化学や薬品の設計に価値ある支援を提供するという大きな人気を集めている。
しかし、分子生成における言語モデルの可能性にもかかわらず、構文的または化学的に欠陥のある分子の生成、狭い領域の焦点、そして注釈付きデータや外部の分子データベースによって多様で方向的に実現可能な分子を作成する際の制限など、多くの課題に直面している。
そこで本研究では,分子生成に特化した分子言語モデルであるMollGenを紹介する。
MolGenは1億以上の分子SELFIESを再構成し、ドメインに依存しない分子プレフィックスチューニングを通じて異なるドメイン間の知識伝達を促進することによって、固有の構造的および文法的な洞察を得る。
さらに,事前学習モデルに刺激を与える自己フィードバックパラダイムを提案し,分子を望ましい性質で生成するという究極の目標と整合させる。
良く知られたベンチマークに関する大規模な実験は、Palalized logP、QED、分子ドッキング特性を含むMollGenの最適化能力を確認している。
さらなる分析により、分子分布を正確に捉え、その構造特性を暗黙的に学習し、効率的に化学空間を探索できることが示されている。
トレーニング済みのモデル、コード、データセットは、https://github.com/zjunlp/MolGen.comで公開されています。 The generation of molecules with desired properties has gained tremendous popularity, revolutionizing the way scientists design molecular structures and providing valuable support for chemical and drug design. However, despite the potential of language models in molecule generation, they face numerous challenges such as the generation of syntactically or chemically flawed molecules, narrow domain focus, and limitations in creating diverse and directionally feasible molecules due to a dearth of annotated data or external molecular databases. To this end, we introduce MolGen, a pre-trained molecular language model tailored specifically for molecule generation. MolGen acquires intrinsic structural and grammatical insights by reconstructing over 100 million molecular SELFIES, while facilitating knowledge transfer between different domains through domain-agnostic molecular prefix tuning. Moreover, we present a self-feedback paradigm that inspires the pre-trained model to align with the ultimate goal of producing molecules with desirable properties. Extensive experiments on well-known benchmarks confirm MolGen's optimization capabilities, encompassing penalized logP, QED, and molecular docking properties. Further analysis shows that MolGen can accurately capture molecule distributions, implicitly learn their structural characteristics, and efficiently explore chemical space. The pre-trained model, codes, and datasets are publicly available for future research at https://github.com/zjunlp/MolGen. | 翻訳日:2023-09-04 17:09:25 公開日:2023-09-01 |
# ニューラルネットワーク量子状態をもつ量子相転移のlee-yang理論 Lee-Yang theory of quantum phase transitions with neural network quantum states ( http://arxiv.org/abs/2301.09923v2 ) ライセンス: Link先を確認 | Pascal M. Vecsei, Christian Flindt, and Jose L. Lado | (参考訳) 相互作用する量子多体系の位相図の予測は、凝縮体物理学と関連する分野における中心的な問題である。
従来の超伝導体からスピン液体まで、様々な量子多体系は、理論的な記述が激しい努力の焦点となっている複雑な競合相を示す。
ここでは、強相関スピン格子の臨界点を予測するために、ニューラルネットワーク量子状態と量子相転移のLee-Yang理論が結合可能であることを示す。
具体的には,1次元,2次元,3次元の異なる格子幾何学上の横場イジングモデルにおける量子相転移に対するアプローチを実装した。
リー・ヤン理論とニューラルネットワーク量子状態は、大規模量子多体法と一致する臨界場の予測をもたらすことを示した。
このような結果から,HeisenbergモデルやHubbardモデルなど,より複雑な量子多体系の位相図を決定するための出発点となる。 Predicting the phase diagram of interacting quantum many-body systems is a central problem in condensed matter physics and related fields. A variety of quantum many-body systems, ranging from unconventional superconductors to spin liquids, exhibit complex competing phases whose theoretical description has been the focus of intense efforts. Here, we show that neural network quantum states can be combined with a Lee-Yang theory of quantum phase transitions to predict the critical points of strongly-correlated spin lattices. Specifically, we implement our approach for quantum phase transitions in the transverse-field Ising model on different lattice geometries in one, two, and three dimensions. We show that the Lee-Yang theory combined with neural network quantum states yields predictions of the critical field, which are consistent with large-scale quantum many-body methods. As such, our results provide a starting point for determining the phase diagram of more complex quantum many-body systems, including frustrated Heisenberg and Hubbard models. | 翻訳日:2023-09-04 17:09:01 公開日:2023-09-01 |
# スパース結果に基づくコンピュータビジョンにおける最小解法とその作用行列との関係 Sparse resultant based minimal solvers in computer vision and their connection with the action matrix ( http://arxiv.org/abs/2301.06443v2 ) ライセンス: Link先を確認 | Snehal Bhayani, Janne Heikkil\"a, Zuzana Kukelova | (参考訳) 多くのコンピュータビジョンアプリケーションは、RANSACフレームワークで最小限の問題を解くために、最小限の入力データ測定からカメラ幾何学を堅牢かつ効率的に推定する必要がある。
最小問題は通常スパース多項式の複素系として定式化される。
システムは通常過剰決定され、代数的に制限された係数を持つ多項式からなる。
最先端の多項式解法の多くは、近年自動化され高度に最適化されたアクション行列法に基づいている。
一方、スパース結果とニュートンポリトープの代替理論は、効率の良い解法の生成には成功せず、主にポリトープは係数の制約を尊重していない。
そこで本稿では,ニュートンポリトープの様々な部分集合をテストし,最も効率的な解法を探索するための簡易反復スキームを提案する。
さらに,schur補数計算による解法効率をさらに向上させるために,特別な形式を持つ補数多項式を用いることを提案する。
いくつかのカメラ幾何問題において、この多項式ベースの余分な解法がグロブナー基底解法よりも小さくより安定な解法をもたらすことを示した。
提案手法は,効率的な多項式解法を自動生成する既存のツールに完全自動で組み込むことができる。
コンピュータビジョンにおける最小限の問題に対して、一般的なgrobnerベース方式の代替手段を提供する。
また,最先端動作行列法と提案する余剰多項式結果行列法で生成する最小解法が等価である条件についても検討した。
具体的には、作用行列に基づくアプローチとスパース結果とのステップ・バイ・ステップの比較を考察し、続いて一連の置換を行い、同値な最小解法を導出する。 Many computer vision applications require robust and efficient estimation of camera geometry from a minimal number of input data measurements, i.e., solving minimal problems in a RANSAC framework. Minimal problems are usually formulated as complex systems of sparse polynomials. The systems usually are overdetermined and consist of polynomials with algebraically constrained coefficients. Most state-of-the-art efficient polynomial solvers are based on the action matrix method that has been automated and highly optimized in recent years. On the other hand, the alternative theory of sparse resultants and Newton polytopes has been less successful for generating efficient solvers, primarily because the polytopes do not respect the constraints on the coefficients. Therefore, in this paper, we propose a simple iterative scheme to test various subsets of the Newton polytopes and search for the most efficient solver. Moreover, we propose to use an extra polynomial with a special form to further improve the solver efficiency via a Schur complement computation. We show that for some camera geometry problems our extra polynomial-based method leads to smaller and more stable solvers than the state-of-the-art Grobner basis-based solvers. The proposed method can be fully automated and incorporated into existing tools for automatic generation of efficient polynomial solvers. It provides a competitive alternative to popular Grobner basis-based methods for minimal problems in computer vision. We also study the conditions under which the minimal solvers generated by the state-of-the-art action matrix-based methods and the proposed extra polynomial resultant-based method, are equivalent. Specifically we consider a step-by-step comparison between the approaches based on the action matrix and the sparse resultant, followed by a set of substitutions, which would lead to equivalent minimal solvers. | 翻訳日:2023-09-04 17:08:45 公開日:2023-09-01 |
# マイクロ波光子と一重項量子ビットの強い結合 Strong coupling between a microwave photon and a singlet-triplet qubit ( http://arxiv.org/abs/2303.16825v2 ) ライセンス: Link先を確認 | Jann H. Ungerer, Alessia Pally, Artem Kononov, Sebastian Lehmann, Joost Ridderbos, Patrick P. Potts, Claes Thelander, Kimberly A. Dick, Ville F. Maisi, Pasquale Scarlino, Andreas Baumgartner, Christian Sch\"onenberger | (参考訳) 近年, ゲート電圧定義された量子ドットに結合した超伝導共振器を用いて, 数量子量子処理の急激な進歩が達成されている。
奇電荷パリティフラップモードスピン量子ビットでは、最近強い結合状態が実証されているが、最初に共振器を荷電パリティ一重項三重項スピン量子ビットに結合しようとする試みは、スピン-光子結合強度が弱かっただけである。
ここでは、亜鉛ブレンドInAsナノワイヤ二重量子ドットと強いスピン軌道相互作用を磁場抵抗性、高品質共振器に統合する。
従来の戦略とは対照的に、量子閉じ込めは電気ゲートを使わずに決定論的に成長したヴルツ石トンネル障壁を用いて達成される。
電荷パリティ状態や大きな磁場での実験では、関連するスピン状態を特定し、スピン脱コヒーレンス速度とスピン-光子結合強度を測定することができる。
最も重要なことは、単一光子極限における共振器モードと電子スピン-光子結合強度が$g/2\pi=139\pm4$ MHzのシングルト・トリプレット・キュービットとの間に反交差があることである。
共振器減衰率 $\kappa/2\pi=19.8\pm0.2$ MHz と qubit dephasing rate $\gamma/2\pi=116\pm7$ MHz と組み合わせることで、コヒーレント結合がクォービットおよび共振器直線幅を超える強い結合状態を達成する。
これらの結果は、singlet-triplet qubitsに基づく大規模量子システムへの道を開く。 Tremendous progress in few-qubit quantum processing has been achieved lately using superconducting resonators coupled to gate voltage defined quantum dots. While the strong coupling regime has been demonstrated recently for odd charge parity flopping mode spin qubits, first attempts towards coupling a resonator to even charge parity singlet-triplet spin qubits have resulted only in weak spin-photon coupling strengths. Here, we integrate a zincblende InAs nanowire double quantum dot with strong spin-orbit interaction in a magnetic-field resilient, high-quality resonator. In contrast to conventional strategies, the quantum confinement is achieved using deterministically grown wurtzite tunnel barriers without resorting to electrical gating. Our experiments on even charge parity states and at large magnetic fields, allow to identify the relevant spin states and to measure the spin decoherence rates and spin-photon coupling strengths. Most importantly, we find an anti-crossing between the resonator mode in the single photon limit and a singlet-triplet qubit with an electron spin-photon coupling strength of $g/2\pi=139\pm4$ MHz. Combined with the resonator decay rate $\kappa/2\pi=19.8\pm0.2$ MHz and the qubit dephasing rate $\gamma/2\pi=116\pm7$ MHz, our system achieves the strong coupling regime in which the coherent coupling exceeds qubit and resonator linewidth. These results pave the way towards large-scale quantum system based on singlet-triplet qubits. | 翻訳日:2023-09-04 17:02:48 公開日:2023-09-01 |
# 第3モードとの分散結合による2つのボソニックポラリトンの絡み合い Entangling Two Bosonic Polaritons via Dispersive Coupling with a Third Mode ( http://arxiv.org/abs/2303.15217v4 ) ライセンス: Link先を確認 | Xuan Zuo, Zhi-Yuan Fan, Hang Qian, Rui-Chang Shen, Jie Li | (参考訳) 2つのハイブリッド化(偏光子)モードを形成する2つの強結合ボソニック系を絡む一般的なメカニズムを提供する。
これは第3ボソニックモードとの分散結合によって実現される。
2つのハイブリッドモードがそれぞれ第3のモードで散在する駆動フィールドのサイドバンドと共振する場合と、2つのポラリトンにおける2つのボソニックモードの重みが適切に選択された場合に、静止絡みが達成される。
絡み合いは、系の散逸と浴槽温度に対して堅牢である。
絡み合い理論は非常に一般的であり、キャビティマグノメカニクス、エキシトン-オプトメカニクス、プラズモン-フォトン-フォノン系など様々なボソニック系に適用できる。 We provide a general mechanism of entangling two strongly-coupled bosonic systems that form two hybridized (polariton) modes. This is realized by dispersively coupling with a third bosonic mode. Stationary entanglement is achieved when the two hybridized modes are respectively resonant with the sidebands of the drive field scattered by the third mode and when the weights of the two bosonic modes in the two polaritons are appropriately chosen. The entanglement is robust against dissipations of the system and bath temperature. The entanglement theory is quite general and applicable to a variety of bosonic systems, such as cavity magnomechanical, exciton-optomechanics, and plasmon-photon-phonon systems. | 翻訳日:2023-09-04 17:02:13 公開日:2023-09-01 |
# トポロジカルデータ解析のためのオイラー特性ツール Euler Characteristic Tools For Topological Data Analysis ( http://arxiv.org/abs/2303.14040v2 ) ライセンス: Link先を確認 | Olympio Hacquard, Vadim Lebovici | (参考訳) 本稿では,トポロジカルデータ解析におけるオイラー特性技術について述べる。
データから構築された単純複体族のオイラー特性をポイントワイドに計算すると、いわゆるオイラー特性プロファイルが生まれる。
この単純なディスクリプタは、非常に低い計算コストで教師付きタスクの最先端のパフォーマンスを実現する。
信号解析に着想を得て,オイラー特性プロファイルのハイブリッド変換を計算する。
これらの積分変換はオイラー特性とルベーグ積分を混合し、トポロジカル信号の高効率な圧縮機を提供する。
その結果、教師なしの設定で顕著なパフォーマンスを示した。
定性面では、オイラープロファイルとそれらのハイブリッド変換によって捉えられた位相的および幾何学的情報に関する多くのヒューリスティックスを提供する。
最後に,これらの記述子に対する安定性とランダム設定における漸近的保証を証明した。 In this article, we study Euler characteristic techniques in topological data analysis. Pointwise computing the Euler characteristic of a family of simplicial complexes built from data gives rise to the so-called Euler characteristic profile. We show that this simple descriptor achieve state-of-the-art performance in supervised tasks at a very low computational cost. Inspired by signal analysis, we compute hybrid transforms of Euler characteristic profiles. These integral transforms mix Euler characteristic techniques with Lebesgue integration to provide highly efficient compressors of topological signals. As a consequence, they show remarkable performances in unsupervised settings. On the qualitative side, we provide numerous heuristics on the topological and geometric information captured by Euler profiles and their hybrid transforms. Finally, we prove stability results for these descriptors as well as asymptotic guarantees in random settings. | 翻訳日:2023-09-04 17:01:55 公開日:2023-09-01 |
# DetOFA: 事前学習したスーパーネットとパスフィルタを用いたオブジェクト検出のための一括学習 DetOFA: Efficient Training of Once-for-All Networks for Object Detection by Using Pre-trained Supernet and Path Filter ( http://arxiv.org/abs/2303.13121v2 ) ライセンス: Link先を確認 | Yuiko Sakuma, Masato Ishii, Takuya Narihira | (参考訳) オブジェクト検出タスクにおいて,比較的少数のトレーニングデータを用いて,大規模なスーパーネットをトレーニングするという課題に対処する。
具体的には、トランスファーラーニングと探索空間プルーニングを用いた効率的なスーパーネットベースニューラルアーキテクチャサーチ(NAS)手法を提案する。
まず、スーパーネットは、大きなデータセットが利用可能な分類タスクで事前トレーニングされる。
第二に、スーパーネットによって定義された探索空間は、性能が悪いと予測される候補モデルを取り除いてプラニングされる。
幅広い資源制約を乗り越える候補を効果的に除去するため,パスフィルタと呼ばれる性能予測器を特に設計し,類似した資源制約を満足するモデルの相対性能を正確に予測する。
したがって、スーパーネットトレーニングは、最も優れた候補に焦点を当てている。
我々の経路フィルタは資源予算の異なる経路の予測を扱う。
提案手法は1回に1回比較すると,最適ネットワークアーキテクチャの計算コストを30%,63%削減し,Pareto前部(Pascal VOCとCOCOの平均精度0.85点,0.45点)の精度向上を実現した。 We address the challenge of training a large supernet for the object detection task, using a relatively small amount of training data. Specifically, we propose an efficient supernet-based neural architecture search (NAS) method that uses transfer learning and search space pruning. First, the supernet is pre-trained on a classification task, for which large datasets are available. Second, the search space defined by the supernet is pruned by removing candidate models that are predicted to perform poorly. To effectively remove the candidates over a wide range of resource constraints, we particularly design a performance predictor, called path filter, which can accurately predict the relative performance of the models that satisfy similar resource constraints. Hence, supernet training is more focused on the best-performing candidates. Our path filter handles prediction for paths with different resource budgets. Compared to once-for-all, our proposed method reduces the computational cost of the optimal network architecture by 30% and 63%, while yielding better accuracy-floating point operations Pareto front (0.85 and 0.45 points of improvement on average precision for Pascal VOC and COCO, respectively). | 翻訳日:2023-09-04 17:01:42 公開日:2023-09-01 |
# 垂直2次元拡散モデルによる3次元イメージングの改良 Improving 3D Imaging with Pre-Trained Perpendicular 2D Diffusion Models ( http://arxiv.org/abs/2303.08440v2 ) ライセンス: Link先を確認 | Suhyeon Lee, Hyungjin Chung, Minyoung Park, Jonghyuk Park, Wi-Sun Ryu, Jong Chul Ye | (参考訳) 拡散モデルは多くの利点のために画像生成と再構成の一般的なアプローチとなっている。
しかし,拡散型逆問題解法は2次元画像のみを扱う場合が多く,最近になって発表された3D手法も3次元分布を十分に活用していない。
そこで本研究では,2つの垂直2次元拡散モデルを用いて3次元逆問題の解法を提案する。
異なる方向にスライスされた2次元分布の積として3次元データ分布をモデル化することにより,次元の呪いを効果的に解決する。
以上の結果から,MRIZ軸超解像,圧縮センシングMRI,スパースCTなどの3次元医用画像再構成作業に極めて有効であることが示された。
本手法は,医療応用に適した高品質なボクセル容積を生成できる。 Diffusion models have become a popular approach for image generation and reconstruction due to their numerous advantages. However, most diffusion-based inverse problem-solving methods only deal with 2D images, and even recently published 3D methods do not fully exploit the 3D distribution prior. To address this, we propose a novel approach using two perpendicular pre-trained 2D diffusion models to solve the 3D inverse problem. By modeling the 3D data distribution as a product of 2D distributions sliced in different directions, our method effectively addresses the curse of dimensionality. Our experimental results demonstrate that our method is highly effective for 3D medical image reconstruction tasks, including MRI Z-axis super-resolution, compressed sensing MRI, and sparse-view CT. Our method can generate high-quality voxel volumes suitable for medical applications. | 翻訳日:2023-09-04 17:01:04 公開日:2023-09-01 |
# 解釈可能なアウトリー・サマリゼーション Interpretable Outlier Summarization ( http://arxiv.org/abs/2303.06261v3 ) ライセンス: Link先を確認 | Yu Wang, Lei Cao, Yizhou Yan, Samuel Madden | (参考訳) 異常検出は、金融詐欺の防止、ネットワーク侵入の防御、差し迫ったデバイス障害の検出など、実際のアプリケーションにおいて極めて重要である。
外乱検出結果の評価における人的労力を削減し、効果的に外乱検出結果を実行可能な洞察に変換するため、ユーザは外乱検出結果のサブグループの解釈可能な要約を自動的に生成するシステムをしばしば期待する。
残念ながら、今のところそのようなシステムは存在しない。
このギャップを埋めるために,人間の理解可能なルールのコンパクトな集合を学習し,異常検出結果の要約と説明を行うSTAIRを提案する。
これらのルールを生成するために古典的な決定木アルゴリズムを使用する代わりに、STAIRは最小限の複雑さを持つ少数のルールを生成するために新しい最適化目標を提案する。
階段の学習アルゴリズムは、大きなルールを反復的に分割し、各イテレーションでこの目標を最大化するために最適なルールを生成する。
さらに, 単純な規則で要約し難い高次元, 複雑なデータセットを効果的に扱うために, L-STAIRと呼ばれる局所化STAIRアプローチを提案する。
データ局所性を考慮に入れ、同時にデータを分割し、各パーティションのローカライズされたルールセットを学ぶ。
多くの外れ値ベンチマークデータセットに関する実験により、stairは外れ値検出結果を要約するのに必要となるルールの複雑さを大幅に削減し、決定木法と比較して人間が理解し、評価しやすいことを示した。 Outlier detection is critical in real applications to prevent financial fraud, defend network intrusions, or detecting imminent device failures. To reduce the human effort in evaluating outlier detection results and effectively turn the outliers into actionable insights, the users often expect a system to automatically produce interpretable summarizations of subgroups of outlier detection results. Unfortunately, to date no such systems exist. To fill this gap, we propose STAIR which learns a compact set of human understandable rules to summarize and explain the anomaly detection results. Rather than use the classical decision tree algorithms to produce these rules, STAIR proposes a new optimization objective to produce a small number of rules with least complexity, hence strong interpretability, to accurately summarize the detection results. The learning algorithm of STAIR produces a rule set by iteratively splitting the large rules and is optimal in maximizing this objective in each iteration. Moreover, to effectively handle high dimensional, highly complex data sets which are hard to summarize with simple rules, we propose a localized STAIR approach, called L-STAIR. Taking data locality into consideration, it simultaneously partitions data and learns a set of localized rules for each partition. Our experimental study on many outlier benchmark datasets shows that STAIR significantly reduces the complexity of the rules required to summarize the outlier detection results, thus more amenable for humans to understand and evaluate, compared to the decision tree methods. | 翻訳日:2023-09-04 17:00:51 公開日:2023-09-01 |
# 強化学習におけるタスク一般化のためのタスク認識ドリーム Task Aware Dreamer for Task Generalization in Reinforcement Learning ( http://arxiv.org/abs/2303.05092v2 ) ライセンス: Link先を確認 | Chengyang Ying, Zhongkai Hao, Xinning Zhou, Hang Su, Songming Liu, Dong Yan, Jun Zhu | (参考訳) 強化学習の長年の目標は、トレーニングタスクを学習し、同じような動的だが異なる報酬関数を持つ未確認タスクをうまく一般化できるエージェントを取得することである。
一般的な課題は、これらの異なるタスク間の類似性を定量的に測定することであり、これはタスク分布の分析とより強固な一般化によるアルゴリズムの設計に不可欠である。
そこで本稿では,タスク分布の定量的な関連性を捉えるために,異なるタスクの最適q関数を用いてタスク分布相関(tdr)という新しい指標を提案する。
高いTDRを持つタスクの場合、すなわち、タスクが著しく異なる場合、マルコフのポリシーはそれらを区別できないことが示され、パフォーマンスが低下する。
この知見に基づき、すべての履歴情報を異なるタスクを識別するためのポリシーにエンコードし、異なるタスク上の不変な潜在機能をキャプチャするために、報酬に富んだ世界モデルに世界モデルを拡張したtask aware dreamer(tad)を提案します。
TADでは、状態によって異なるタスクを区別する新しい用語を含む、データログの対応する変動的下界を計算し、報酬インフォームドワールドモデルを最適化する。
画像ベース制御タスクと状態ベース制御タスクの両方における広範囲な実験により、TADは、特に高いTDRの場合には、異なるタスクを同時に処理する性能を大幅に向上し、タスクを発見できないような強力な一般化能力を示す。 A long-standing goal of reinforcement learning is to acquire agents that can learn on training tasks and generalize well on unseen tasks that may share a similar dynamic but with different reward functions. A general challenge is to quantitatively measure the similarities between these different tasks, which is vital for analyzing the task distribution and further designing algorithms with stronger generalization. To address this, we present a novel metric named Task Distribution Relevance (TDR) via optimal Q functions of different tasks to capture the relevance of the task distribution quantitatively. In the case of tasks with a high TDR, i.e., the tasks differ significantly, we show that the Markovian policies cannot differentiate them, leading to poor performance. Based on this insight, we encode all historical information into policies for distinguishing different tasks and propose Task Aware Dreamer (TAD), which extends world models into our reward-informed world models to capture invariant latent features over different tasks. In TAD, we calculate the corresponding variational lower bound of the data log-likelihood, including a novel term to distinguish different tasks via states, to optimize reward-informed world models. Extensive experiments in both image-based control tasks and state-based control tasks demonstrate that TAD can significantly improve the performance of handling different tasks simultaneously, especially for those with high TDR, and demonstrate a strong generalization ability to unseen tasks. | 翻訳日:2023-09-04 17:00:24 公開日:2023-09-01 |
# 中心スピンモデルに対する累積展開の妥当性の決定 Determining the validity of cumulant expansions for central spin models ( http://arxiv.org/abs/2303.04410v3 ) ライセンス: Link先を確認 | Piper Fowler-Wright and Krist\'in B. Arnard\'ottir and Peter Kirton and Brendon W. Lovett and Jonathan Keeling | (参考訳) 多対一接続を持つモデルの場合、平均場理論は正確な多粒子$N\to\infty$極限を捉え、ハイゼンベルク方程式の高次累積展開はこの極限に収束し、有限$N$での近似の改善を与えると広く期待されている。
ここでは、これは必ずしもそうではないことを示す。
代わりに、平均場理論が大きなN$の極限を正しく記述するかどうかは、モデルパラメータが$N$でスケールする方法に依存し、累積展開の収束は偶数と奇数の順序で一様でないかもしれない。
さらに、高次の累積展開が正しい極限を回復したとしても、誤差はN$で単調ではなく、平均場理論を超えうる。 For a model with many-to-one connectivity it is widely expected that mean-field theory captures the exact many-particle $N\to\infty$ limit, and that higher-order cumulant expansions of the Heisenberg equations converge to this same limit whilst providing improved approximations at finite $N$. Here we show that this is in fact not always the case. Instead, whether mean-field theory correctly describes the large-$N$ limit depends on how the model parameters scale with $N$, and the convergence of cumulant expansions may be non-uniform across even and odd orders. Further, even when a higher-order cumulant expansion does recover the correct limit, the error is not monotonic with $N$ and may exceed that of mean-field theory. | 翻訳日:2023-09-04 16:59:57 公開日:2023-09-01 |
# ヘリウム上の電子を用いた量子コンピューティングの青写真 Blueprint for quantum computing using electrons on helium ( http://arxiv.org/abs/2303.03688v2 ) ライセンス: Link先を確認 | Erika Kawakami, Jiabao Chen, M\'onica Benito, Denis Konstantinov | (参考訳) 本稿では,液体ヘリウム表面の電子スピン状態を利用したフォールトトレラント量子コンピュータ構築のための青写真を提案する。
強磁性マイクロピラーを用いて、その上に単一電子をトラップし、局所磁場勾配を生成することを提案する。
局所磁場勾配を導入することで電荷とスピンの自由度がハイブリダイズされ、スピン状態の長いコヒーレンス時間と電荷状態に影響する長距離クーロン相互作用の両方の恩恵を受けることができる。
単一および2量子ビットゲートと量子非復調読出しを実現するための具体的なスキームを提案する。
この枠組みでは、電荷とスピンの自由度のハイブリッド化は高速な量子ビットゲートを実現するのに十分な大きさであり、スピン状態のコヒーレンス時間を大幅に低下させるには十分ではない。 We present a blueprint for building a fault-tolerant quantum computer using the spin states of electrons on the surface of liquid helium. We propose to use ferromagnetic micropillars to trap single electrons on top of them and to generate a local magnetic field gradient. Introducing a local magnetic field gradient hybridizes charge and spin degrees of freedom, which allows us to benefit from both the long coherence time of the spin state and the long-range Coulomb interaction that affects the charge state. We present concrete schemes to realize single- and two-qubit gates and quantum-non-demolition read-out. In our framework, the hybridization of charge and spin degrees of freedom is large enough to perform fast qubit gates and small enough not to degrade the coherence time of the spin state significantly, which leads to the realization of high-fidelity qubit gates. | 翻訳日:2023-09-04 16:59:40 公開日:2023-09-01 |
# 強結合状態における1次元ボースガス中のポーラロン生成のダイナミクス Dynamics of polaron formation in 1D Bose gases in the strong-coupling regime ( http://arxiv.org/abs/2304.14490v2 ) ライセンス: Link先を確認 | Martin Will and Michael Fleischhauer | (参考訳) 弱相互作用する1次元ボース凝縮体に不純物が注入されるとき、ボースポーラロンの形成のダイナミクスについて議論する。
小さい不純物-ボソンカップリングの場合、この過程はフロイリッヒモデルにおいてボゴリューボフフォノンの生成、放出、結合と記述できるが、結合が強くなるともはや適切ではない。
この状態を扱うために、量子ゆらぎを含むTrncated Wignerシミュレーションを補完する、凝縮に対するバックアクションを説明できるFroehlichモデルを超えた平均場アプローチを検討する。
定常ポーラロンに対して、不純物速度とポーラロン運動量の間の非単調な関係に関連した凸から凹面依存性への滑らかな交叉を示すエネルギー-運動量関係を求める。
大きなモーメントに対して、エネルギーは負の不純物速度の領域を含む周期関数である。
不純物とボーソンのカップリングを準断続的に、突然のクエンチでオンにした後のポーラロン形成の研究は、動的レジームの非常に豊かなシナリオを見いだす。
有効質量の蓄積により、初期速度がランダウ臨界値以下であっても不純物は低下する。
より大きな初期速度では、密度波や灰色のソリトンが放出され、その後異なる運動量セクターで定常的なポーラロン状態が形成されることによる減速や後方散乱がみられる。
量子ゆらぎの影響を分析するために、1次元赤外線のばらつきを避けるために閉じ込められた凝縮体を考える。
この場合、Truncated Wigner シミュレーションを用いて、量子ゆらぎの影響が小さい条件で示す。 We discuss the dynamics of the formation of a Bose polaron when an impurity is injected into a weakly interacting one-dimensional Bose condensate. While for small impurity-boson couplings this process can be described within the Froehlich model as generation, emission and binding of Bogoliubov phonons, this is no longer adequate if the coupling becomes strong. To treat this regime we consider a mean-field approach beyond the Froehlich model which accounts for the backaction to the condensate, complemented with Truncated Wigner simulations to include quantum fluctuation. For the stationary polaron we find an energy-momentum relation that displays a smooth crossover from a convex to a concave dependence associated with a non-monotonous relation between impurity velocity and polaron momentum. For larger momenta the energy is a periodic function including regions of negative impurity velocity. Studying the polaron formation after turning on the impurity-boson coupling quasi adiabatically and in a sudden quench, we find a very rich scenario of dynamical regimes. Due to the build-up of an effective mass, the impurity is slowed down even if its initial velocity is below the Landau critical value. For larger initial velocities we find deceleration and even backscattering caused by emission of density waves or grey solitons and subsequent formation of stationary polaron states in different momentum sectors. In order to analyze the effect of quantum fluctuations we consider a trapped condensate to avoid 1D infrared divergencies. Using Truncated Wigner simulations in this case we show under what conditions the influence of quantum fluctuations is small. | 翻訳日:2023-09-04 16:52:41 公開日:2023-09-01 |
# infernal and exceptional edge modes: 皮膚効果を超えた非エルミート位相 Infernal and Exceptional Edge Modes: Non-Hermitian Topology Beyond the Skin Effect ( http://arxiv.org/abs/2304.13743v2 ) ライセンス: Link先を確認 | M. Michael Denner, Titus Neupert, Frank Schindler | (参考訳) 局所非エルミート対称性クラスにおける点ギャップ位相の分類は最近確立されている。
しかし、結果として得られる周期表の多くのエントリは形式的な設定でのみ議論され、バルク境界対応の観点からはまだ物理的解釈が欠けている。
そこで本研究では,固有点ギャップ位相を持つ2次元位相のエッジシグネチャを導出する。
1次元の点ギャップ位相は非エルミート皮膚効果を必ず導くが、非エルミート境界物理学は2次元において著しくリッチである。
非エルミートエッジ状態の2つの広いクラスを見いだす:(1) 皮膚効果が単一のエッジモーメントでのみ起こるような慣性点と、他のすべてのエッジモーメントはエッジ状態が欠如している点である。
半無限境界条件下では、点ギャップは完全に閉じるが、単一の辺運動量でのみ閉じる。
2)非エルミート例外点分散は、すべての辺モーメントでエッジ状態が持続し、異常な数の対称性に保護された例外点を与える。
驚くべきことに、後者のシステムのクラスは、すべてのジェネリックエッジ終端に沿ってよく定義された分散を持つ有限の非拡張的なエッジ状態を可能にする。
代わりに、点ギャップは実および虚数固有値軸に沿ってのみ閉まり、非エルミートスペクトルフローの新しい形式を実現する。 The classification of point gap topology in all local non-Hermitian symmetry classes has been recently established. However, many entries in the resulting periodic table have only been discussed in a formal setting and still lack a physical interpretation in terms of their bulk-boundary correspondence. Here, we derive the edge signatures of all two-dimensional phases with intrinsic point gap topology. While in one dimension point gap topology invariably leads to the non-Hermitian skin effect, non-Hermitian boundary physics is significantly richer in two dimensions. We find two broad classes of non-Hermitian edge states: (1) Infernal points, where a skin effect occurs only at a single edge momentum, while all other edge momenta are devoid of edge states. Under semi-infinite boundary conditions, the point gap thereby closes completely, but only at a single edge momentum. (2) Non-Hermitian exceptional point dispersions, where edge states persist at all edge momenta and furnish an anomalous number of symmetry-protected exceptional points. Surprisingly, the latter class of systems allows for a finite, non-extensive number of edge states with a well defined dispersion along all generic edge terminations. Instead, the point gap only closes along the real and imaginary eigenvalue axes, realizing a novel form of non-Hermitian spectral flow. | 翻訳日:2023-09-04 16:52:12 公開日:2023-09-01 |
# モノリシックバルクpKTP空洞における低雑音量子周波数変換 Low-noise quantum frequency conversion in a monolithic bulk ppKTP cavity ( http://arxiv.org/abs/2304.13459v4 ) ライセンス: Link先を確認 | Felix Mann, Helen M. Chrzanowski, Felipe Gewers, Marlon Placke, Sven Ramelow | (参考訳) 将来の大規模量子ネットワークの異なるビルディングブロックのインターフェイスは、効率良くノイズのない量子光の周波数変換を必要とする。
ダイヤモンド中の窒素空孔(NV)中心は、そのようなネットワークのノードを形成する主要な候補である。
しかし, 既往の実証実験は, 目標通信波長で発生する寄生雑音によって著しく制限されているため, 適切なコンバータの性能は依然としてボトルネックである。
本稿では,モノリシックなバルクppktpキャビティに基づく高効率な低ノイズ量子周波数変換のための新しいプラットフォームを示し,ダイヤモンド中のnv中心から通信波長への637nm単一光子変換に適していることを示す。
オフザシェルフポンプレーザーの出力を共鳴的に高めることにより、アクティブ安定化を必要とせず、ターゲット波長で(110\pm 4) \mbox{ kHz/nm}$のみを発生させながら、内部変換効率が$(72.3\pm 0.4)\%となる。
これは、この波長での既存の最先端のシングルステップ変換器に対する5倍のノイズ改善である。
自発的なパラメトリックダウン変換源から光子を変換することで非古典的相関のほぼ理想的保存を検証し、さらにフランソン干渉法による時間エネルギーの絡み合いの保存を示す。 Interfacing the different building blocks of a future large scale quantum network will demand efficient and noiseless frequency conversion of quantum light. Nitrogen-vacancy (NV) centers in diamond are a leading candidate to form the nodes of such a network. However, the performance of a suitable converter remains a bottleneck, with existing demonstrations severely limited by parasitic noise arising at the target telecom wavelength. Here, we demonstrate a new platform for efficient low-noise quantum frequency conversion based on a monolithic bulk ppKTP cavity and show its suitability for the conversion of 637 nm single photons from NV centers in diamond to telecommunication wavelengths. By resonantly enhancing the power of an off-the-shelf pump laser, we achieve an internal conversion efficiency of $(72.3\pm 0.4)\%$ while generating only $(110\pm 4) \mbox{ kHz/nm}$ noise at the target wavelength without the need for any active stabilization. This constitutes a 5-fold improvement in noise over existing state-of-the-art single-step converters at this wavelengths. We verify the almost ideal preservation of non-classical correlations by converting photons from a spontaneous parametric down-conversion source and moreover show the preservation of time-energy entanglement via Franson interferometry. | 翻訳日:2023-09-04 16:51:51 公開日:2023-09-01 |
# SpectralDiff:拡散モデルを用いたハイパースペクトル画像分類のための生成フレームワーク SpectralDiff: A Generative Framework for Hyperspectral Image Classification with Diffusion Models ( http://arxiv.org/abs/2304.05961v2 ) ライセンス: Link先を確認 | Ning Chen, Jun Yue, Leyuan Fang, Shaobo Xia | (参考訳) ハイパースペクトル画像(HSI)分類はリモートセンシング分野において重要な問題であり、地球科学に広く応用されている。
近年,深層学習に基づくhsi分類法が多数提案されている。
しかし、既存の手法では高次元、高冗長、複雑なデータを扱う能力が限られており、データのスペクトル空間分布とサンプル間の関係を捉えることは困難である。
そこで本研究では,高次元および高冗長なデータの分布情報を反復的に復調し,データ生成過程を明示的に構築することにより効果的にマイニングする拡散モデル(SpectralDiff)を用いたHSI分類のための生成フレームワークを提案する。
このフレームワークはスペクトル空間拡散モジュールと注意に基づく分類モジュールで構成される。
スペクトル空間拡散モジュールは、フォワードおよびリバーススペクトル空間拡散プロセスを採用し、グラフィカル構造や近傍情報の事前知識を必要とせずにサンプル関係を適応的に構築する。
hsi内の物体のスペクトル空間分布と文脈情報を捉え、逆拡散過程における非教師なしスペクトル空間拡散の特徴を捉えている。
最後に、これらの機能はピクセル単位の分類のための注意に基づく分類モジュールに供給される。
拡散特性は再構成分布を介してクロスサンプル知覚を促進し,分類性能の向上に繋がる。
3つの公開HSIデータセットの実験により、提案手法は最先端の手法よりも優れた性能が得られることを示した。
再現性のために、SpectralDiffのソースコードはhttps://github.com/chenning0115/SpectralDiffで公開されている。 Hyperspectral Image (HSI) classification is an important issue in remote sensing field with extensive applications in earth science. In recent years, a large number of deep learning-based HSI classification methods have been proposed. However, existing methods have limited ability to handle high-dimensional, highly redundant, and complex data, making it challenging to capture the spectral-spatial distributions of data and relationships between samples. To address this issue, we propose a generative framework for HSI classification with diffusion models (SpectralDiff) that effectively mines the distribution information of high-dimensional and highly redundant data by iteratively denoising and explicitly constructing the data generation process, thus better reflecting the relationships between samples. The framework consists of a spectral-spatial diffusion module, and an attention-based classification module. The spectral-spatial diffusion module adopts forward and reverse spectral-spatial diffusion processes to achieve adaptive construction of sample relationships without requiring prior knowledge of graphical structure or neighborhood information. It captures spectral-spatial distribution and contextual information of objects in HSI and mines unsupervised spectral-spatial diffusion features within the reverse diffusion process. Finally, these features are fed into the attention-based classification module for per-pixel classification. The diffusion features can facilitate cross-sample perception via reconstruction distribution, leading to improved classification performance. Experiments on three public HSI datasets demonstrate that the proposed method can achieve better performance than state-of-the-art methods. For the sake of reproducibility, the source code of SpectralDiff will be publicly available at https://github.com/chenning0115/SpectralDiff. | 翻訳日:2023-09-04 16:50:40 公開日:2023-09-01 |
# 知識追跡のための多粒度時間変換器 Multi-granulariy Time-based Transformer for Knowledge Tracing ( http://arxiv.org/abs/2304.05257v2 ) ライセンス: Link先を確認 | Tong Zhou | (参考訳) 本稿では,標準化試験における学生のパフォーマンス予測のためのトランスフォーマーアーキテクチャを提案する。
具体的には、過去のテストスコア、学習習慣、その他の関連情報を含む学生の履歴データを活用して、各学生にパーソナライズされたモデルを作成します。
次に、これらのモデルを使用して、将来のパフォーマンスを所定のテストで予測します。
このモデルをriiidデータセットに適用することにより,デコーダ入力として時間的特徴に複数の粒度を用いることで,モデル性能が大幅に向上することを示す。
また,本手法の有効性を示すとともに,LightGBM法よりも大幅に改善した。
我々の研究は、教育におけるAIの分野の成長に貢献し、学生の成果を予測するスケーラブルで正確なツールを提供する。 In this paper, we present a transformer architecture for predicting student performance on standardized tests. Specifically, we leverage students historical data, including their past test scores, study habits, and other relevant information, to create a personalized model for each student. We then use these models to predict their future performance on a given test. Applying this model to the RIIID dataset, we demonstrate that using multiple granularities for temporal features as the decoder input significantly improve model performance. Our results also show the effectiveness of our approach, with substantial improvements over the LightGBM method. Our work contributes to the growing field of AI in education, providing a scalable and accurate tool for predicting student outcomes. | 翻訳日:2023-09-04 16:50:15 公開日:2023-09-01 |
# 立体インペインティングによる3次元シーンのクラッタ検出と除去 Clutter Detection and Removal in 3D Scenes with View-Consistent Inpainting ( http://arxiv.org/abs/2304.03763v2 ) ライセンス: Link先を確認 | Fangyin Wei, Thomas Funkhouser, Szymon Rusinkiewicz | (参考訳) プライバシーに配慮したコンテンツフィルタリングからデータ拡張まで、多くのアプリケーションでシーンからクラッターを取り除くことは不可欠である。
本研究では,コヒーレントな形状とテクスチャを持つ3次元シーンやインペアからクラッタを除去する自動システムを提案する。
本稿では,共有プロパティからの3次元セグメンテーションと3次元インペインティングという2つの重要なコンポーネントの手法を提案する。
3dシーンクラッター (frequently-moving objects) の定義は、コンピュータビジョンにおける一般的な研究対象のカテゴリではうまく捉えられていない。
明確に定義されたクラッタアノテーションの欠如に対処するため、ノイズの多いきめ細かなラベルをグループ化し、仮想レンダリングを活用し、インスタンスレベルのエリアセンシティブな損失を課します。
クラッタを除去すると、塗装されたRGB-D画像をマージすることで、穴の形状やテクスチャを塗布する。
これは、メッシュ再構築のために、個別に塗られたイメージ間のマルチビュー一貫性を保証する、新しい投票とプルーニング戦略を必要とする。
また,scannetとmatterportデータセットを用いた実験により,クラッタセグメンテーションと3次元インパインティングのベースラインを視覚的および定量的に上回った。 Removing clutter from scenes is essential in many applications, ranging from privacy-concerned content filtering to data augmentation. In this work, we present an automatic system that removes clutter from 3D scenes and inpaints with coherent geometry and texture. We propose techniques for its two key components: 3D segmentation from shared properties and 3D inpainting, both of which are important problems. The definition of 3D scene clutter (frequently-moving objects) is not well captured by commonly-studied object categories in computer vision. To tackle the lack of well-defined clutter annotations, we group noisy fine-grained labels, leverage virtual rendering, and impose an instance-level area-sensitive loss. Once clutter is removed, we inpaint geometry and texture in the resulting holes by merging inpainted RGB-D images. This requires novel voting and pruning strategies that guarantee multi-view consistency across individually inpainted images for mesh reconstruction. Experiments on ScanNet and Matterport dataset show that our method outperforms baselines for clutter segmentation and 3D inpainting, both visually and quantitatively. | 翻訳日:2023-09-04 16:49:53 公開日:2023-09-01 |
# 領域シフトによる産業的異常検出:実世界データセットとマスキングマルチスケール再構築 Industrial Anomaly Detection with Domain Shift: A Real-world Dataset and Masked Multi-scale Reconstruction ( http://arxiv.org/abs/2304.02216v2 ) ライセンス: Link先を確認 | Zilong Zhang, Zhibin Zhao, Xingwu Zhang, Chuang Sun, Xuefeng Chen | (参考訳) 産業品質検査の自動化には産業異常検出(iad)が不可欠である。
データセットの多様性は、包括的なiadアルゴリズムを開発する基盤である。
既存のIADデータセットは、同じデータカテゴリ内のドメインの多様性を見越して、データカテゴリの多様性に焦点を当てている。
本稿では,このギャップを埋めるため,単刃データセットとビデオ異常検出データセットの2つのサブデータセットからなるaebad(aero-engine blade anomaly detection)データセットを提案する。
既存のデータセットと比較して、AeBADには以下の2つの特徴がある。
1) 対象のサンプルは、異なるスケールでアライメントされていない。
2) テストセット内の通常のサンプルの分布とトレーニングセットとの間にはドメインシフトがあり、そこでは、主に照明とビューの変化によってドメインシフトが発生する。
このデータセットに基づいて、テストセット内の通常のサンプルのドメインがシフトした場合、現在のSOTA (State-of-the-art) IADメソッドは制限を示す。
そこで本研究では, 標準試料中のパッチ間の因果関係をマスキング・マルチスケール・リコンストラクション(mmr)により推定する手法を提案する。
MMRは、AeBADデータセット上のSOTA法よりも優れた性能を実現する。
さらに、MMRは、MVTec ADデータセット上で異なるタイプの異常を検出するSOTA法との競合性能を達成する。
コードとデータセットはhttps://github.com/zhangzilongc/MMRで入手できる。 Industrial anomaly detection (IAD) is crucial for automating industrial quality inspection. The diversity of the datasets is the foundation for developing comprehensive IAD algorithms. Existing IAD datasets focus on the diversity of data categories, overlooking the diversity of domains within the same data category. In this paper, to bridge this gap, we propose the Aero-engine Blade Anomaly Detection (AeBAD) dataset, consisting of two sub-datasets: the single-blade dataset and the video anomaly detection dataset of blades. Compared to existing datasets, AeBAD has the following two characteristics: 1.) The target samples are not aligned and at different scales. 2.) There is a domain shift between the distribution of normal samples in the test set and the training set, where the domain shifts are mainly caused by the changes in illumination and view. Based on this dataset, we observe that current state-of-the-art (SOTA) IAD methods exhibit limitations when the domain of normal samples in the test set undergoes a shift. To address this issue, we propose a novel method called masked multi-scale reconstruction (MMR), which enhances the model's capacity to deduce causality among patches in normal samples by a masked reconstruction task. MMR achieves superior performance compared to SOTA methods on the AeBAD dataset. Furthermore, MMR achieves competitive performance with SOTA methods to detect the anomalies of different types on the MVTec AD dataset. Code and dataset are available at https://github.com/zhangzilongc/MMR. | 翻訳日:2023-09-04 16:49:26 公開日:2023-09-01 |
# npc:ビデオからのニューラルポイント文字 NPC: Neural Point Characters from Video ( http://arxiv.org/abs/2304.02013v2 ) ライセンス: Link先を確認 | Shih-Yang Su, Timur Bagautdinov, Helge Rhodin | (参考訳) 高忠実な人間の3dモデルは、通常、テンプレートベースの表面モデルと神経表現を組み合わせることで、ビデオから直接学習することができる。
しかしテンプレート表面を得るには、高価なマルチビューキャプチャシステム、レーザースキャン、厳密に制御された条件が必要となる。
以前の方法はテンプレートの使用を避けるが、観測から標準空間への高コストあるいは不適切なマッピングに依存していた。
本稿では,新規なポーズに対して一般化可能でありながら,明示的な表面モデルを必要としないアニマタブル文字を再構成するためのハイブリッドポイントベース表現を提案する。
与えられたビデオに対して,近似正準幾何を表す3次元点の明示的な集合を自動生成し,ポーズ依存点変換を生成する調音変形モデルを学ぶ。
これらのポイントは、高周波神経特徴の足場と、観測と標準空間を効率的にマッピングするためのアンカーの両方として機能する。
確立されたベンチマークで、我々の表現は、標準または観測空間で運用される前の作業の制限を克服することを示した。
さらに,人間や動物の文字の学習モデルも自動抽出する手法により,より汎用性に拘わらず,厳密な表面テンプレートを用いた手法の性能に適合する。
プロジェクトウェブサイト: https://lemonatsu.github.io/npc/ High-fidelity human 3D models can now be learned directly from videos, typically by combining a template-based surface model with neural representations. However, obtaining a template surface requires expensive multi-view capture systems, laser scans, or strictly controlled conditions. Previous methods avoid using a template but rely on a costly or ill-posed mapping from observation to canonical space. We propose a hybrid point-based representation for reconstructing animatable characters that does not require an explicit surface model, while being generalizable to novel poses. For a given video, our method automatically produces an explicit set of 3D points representing approximate canonical geometry, and learns an articulated deformation model that produces pose-dependent point transformations. The points serve both as a scaffold for high-frequency neural features and an anchor for efficiently mapping between observation and canonical space. We demonstrate on established benchmarks that our representation overcomes limitations of prior work operating in either canonical or in observation space. Moreover, our automatic point extraction approach enables learning models of human and animal characters alike, matching the performance of the methods using rigged surface templates despite being more general. Project website: https://lemonatsu.github.io/npc/ | 翻訳日:2023-09-04 16:49:02 公開日:2023-09-01 |
# M^2UNet:polypセグメンテーションのためのMetaFormerマルチスケールアップサンプリングネットワーク M^2UNet: MetaFormer Multi-scale Upsampling Network for Polyp Segmentation ( http://arxiv.org/abs/2306.08600v2 ) ライセンス: Link先を確認 | Quoc-Huy Trinh, Nhat-Tan Bui, Trong-Hieu Nguyen Mau, Minh-Van Nguyen, Hai-Minh Phan, Minh-Triet Tran, Hai-Dang Nguyen | (参考訳) 近年,ポリプのセグメンテーションが注目され,様々な手法が提案されている。
しかし, コンボリューション操作の性質から, 複雑ポリープの前景とその周辺領域での作業では困難に直面することが多い。
さらに、既存のほとんどのメソッドは、複数のデコーダステージからの潜在的な情報を利用することを忘れている。
この課題に対処するために、cnnとtransformerを統合するベースラインとして導入されたmetaformerと、unetフレームワークを結合し、マルチスケールアップサンプリングブロック(mu)を統合することを提案します。
このシンプルなモジュールは、浅いデコーダステージの複数の受容的フィールドパスを探索し、より高いステージを追加して、医療画像のセグメンテーションに不可欠な優れた特徴表現を集約することで、多レベル情報を組み合わせることができる。
本稿では,ポリプセグメンテーションタスクのためのMetaFormer Multi-scale Upsampling Network (M$^2$UNet)を提案する。
5つのベンチマークデータセットを広範囲に実験した結果,従来の手法に比べて性能が高かった。 Polyp segmentation has recently garnered significant attention, and multiple methods have been formulated to achieve commendable outcomes. However, these techniques often confront difficulty when working with the complex polyp foreground and their surrounding regions because of the nature of convolution operation. Besides, most existing methods forget to exploit the potential information from multiple decoder stages. To address this challenge, we suggest combining MetaFormer, introduced as a baseline for integrating CNN and Transformer, with UNet framework and incorporating our Multi-scale Upsampling block (MU). This simple module makes it possible to combine multi-level information by exploring multiple receptive field paths of the shallow decoder stage and then adding with the higher stage to aggregate better feature representation, which is essential in medical image segmentation. Taken all together, we propose MetaFormer Multi-scale Upsampling Network (M$^2$UNet) for the polyp segmentation task. Extensive experiments on five benchmark datasets demonstrate that our method achieved competitive performance compared with several previous methods. | 翻訳日:2023-09-04 16:43:16 公開日:2023-09-01 |
# BPKD:セマンティックセグメンテーションのための境界予備知識蒸留 BPKD: Boundary Privileged Knowledge Distillation For Semantic Segmentation ( http://arxiv.org/abs/2306.08075v2 ) ライセンス: Link先を確認 | Liyang Liu, Zihan Wang, Minh Hieu Phan, Bowen Zhang, Jinchao Ge, Yifan Liu | (参考訳) セマンティックセグメンテーションにおける現在の知識蒸留アプローチは、すべての空間的位置を等しく扱う包括的アプローチを採用する傾向がある。
しかし, エッジ領域における生徒の予測は, 文脈情報漏洩により非常に不確実であり, 身体領域よりも高い空間感度の知識を必要とする。
そこで本研究では,境界優先型知識蒸留(BPKD)と呼ばれる新しい手法を提案する。
BPKDは、教師モデルの体とエッジの知識を、コンパクトな学生モデルと別々に蒸留する。
具体的には2つの異なる損失関数を用いる。
(i)エッジ領域における画素レベルの曖昧なクラスを区別することを目的としたエッジロス
(ii)形状の制約を生かして、内省領域に選択的に随伴する身体喪失。
BPKD法は, エッジ領域とボディ領域を広範囲に改良し, 集約する手法であることを示す。
さらに,3つのベンチマークデータセット上でのセマンティックセマンティックセグメンテーションのための最先端蒸留性能を実現し,その有効性と一般化能力を強調した。
bpkdはcnnとトランスフォーマーの両方を含む様々な軽量セグメンテーション構造において一貫した改善を示し、アーキテクチャに依存しない適応性を強調している。
コードは \url{https://github.com/akideliu/bpkd} で入手できる。 Current knowledge distillation approaches in semantic segmentation tend to adopt a holistic approach that treats all spatial locations equally. However, for dense prediction, students' predictions on edge regions are highly uncertain due to contextual information leakage, requiring higher spatial sensitivity knowledge than the body regions. To address this challenge, this paper proposes a novel approach called boundary-privileged knowledge distillation (BPKD). BPKD distills the knowledge of the teacher model's body and edges separately to the compact student model. Specifically, we employ two distinct loss functions: (i) edge loss, which aims to distinguish between ambiguous classes at the pixel level in edge regions; (ii) body loss, which utilizes shape constraints and selectively attends to the inner-semantic regions. Our experiments demonstrate that the proposed BPKD method provides extensive refinements and aggregation for edge and body regions. Additionally, the method achieves state-of-the-art distillation performance for semantic segmentation on three popular benchmark datasets, highlighting its effectiveness and generalization ability. BPKD shows consistent improvements across a diverse array of lightweight segmentation structures, including both CNNs and transformers, underscoring its architecture-agnostic adaptability. The code is available at \url{https://github.com/AkideLiu/BPKD}. | 翻訳日:2023-09-04 16:42:54 公開日:2023-09-01 |
# ビューセット拡散: (0-)2次元データを用いた画像合成3次元生成モデル Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D Data ( http://arxiv.org/abs/2306.07881v2 ) ライセンス: Link先を確認 | Stanislaw Szymanowicz and Christian Rupprecht and Andrea Vedaldi | (参考訳) 本研究では,多視点2次元データのみを用いて3次元オブジェクトを出力する拡散型ジェネレータであるViewset Diffusionを提案する。
ビューセット間の1対1マッピング、すなわちオブジェクトの複数の2次元ビューのコレクションと3Dモデルが存在することに留意する。
したがって、拡散モデルをトレーニングしてビューセットを生成するが、ニューラルネットワークジェネレータを設計し、内部で対応する3Dモデルを再構成し、それらも生成する。
オブジェクトの特定のカテゴリに対して、拡散モデルを多数のビューセットに適合させる。
生成したジェネレータは、ゼロまたは1つ以上の入力ビューで条件付けできる。
1つのビューで条件付きで、タスクのあいまいさを考慮し、3D再構成を行い、入力と互換性のある複数のソリューションをサンプリングする。
このモデルはフィードフォワード方式で効率的に再構築を行い、1ビューセットあたり3ビュー未満で損失をレンダリングするだけで訓練される。
プロジェクトページ:szymanowiczs.github.io/viewset-diffusion We present Viewset Diffusion, a diffusion-based generator that outputs 3D objects while only using multi-view 2D data for supervision. We note that there exists a one-to-one mapping between viewsets, i.e., collections of several 2D views of an object, and 3D models. Hence, we train a diffusion model to generate viewsets, but design the neural network generator to reconstruct internally corresponding 3D models, thus generating those too. We fit a diffusion model to a large number of viewsets for a given category of objects. The resulting generator can be conditioned on zero, one or more input views. Conditioned on a single view, it performs 3D reconstruction accounting for the ambiguity of the task and allowing to sample multiple solutions compatible with the input. The model performs reconstruction efficiently, in a feed-forward manner, and is trained using only rendering losses using as few as three views per viewset. Project page: szymanowiczs.github.io/viewset-diffusion. | 翻訳日:2023-09-04 16:42:30 公開日:2023-09-01 |
# 隠れマルコフモデルを用いた非パラメトリック同定とピアニングズダイナミクスの推定:PSIDによる証拠 Nonparametric Identification and Estimation of Earnings Dynamics using a Hidden Markov Model: Evidence from the PSID ( http://arxiv.org/abs/2306.01760v2 ) ライセンス: Link先を確認 | Tong Zhou | (参考訳) 本稿では,収益持続性の複雑な性質を調べるために設計された隠れマルコフモデルを提案する。
提案したモデルは、ログアーニングの残余が永続成分と推移成分から成り、どちらも一般的なマルコフ過程に従っていると仮定する。
非パラメトリック同定は線形作用素のスペクトル分解によって達成され、モデル推定のための修正確率EMアルゴリズムが導入された。
この枠組みをPanel Study of Income Dynamics (PSID)データセットに適用すると、収益プロセスは非線形持続性、条件付き歪曲性、条件付きカルトーシスを示す。
さらに、過渡成分は非ガウス性を有しており、高照度世帯が負のショックを受ける場合や低照度世帯が正のショックを受ける場合、著しく非対称な分布的影響をもたらす。
我々の経験的知見はまた、2年から8年の範囲の地平線における収益にアーチ効果があることを明らかにし、さらに収益持続性の複雑なダイナミクスを浮き彫りにした。 This paper presents a hidden Markov model designed to investigate the complex nature of earnings persistence. The proposed model assumes that the residuals of log-earnings consist of a persistent component and a transitory component, both following general Markov processes. Nonparametric identification is achieved through spectral decomposition of linear operators, and a modified stochastic EM algorithm is introduced for model estimation. Applying the framework to the Panel Study of Income Dynamics (PSID) dataset, we find that the earnings process displays nonlinear persistence, conditional skewness, and conditional kurtosis. Additionally, the transitory component is found to possess non-Gaussian properties, resulting in a significantly asymmetric distributional impact when high-earning households face negative shocks or low-earning households encounter positive shocks. Our empirical findings also reveal the presence of ARCH effects in earnings at horizons ranging from 2 to 8 years, further highlighting the complex dynamics of earnings persistence. | 翻訳日:2023-09-04 16:41:58 公開日:2023-09-01 |
# 猫状態注入による非安定化と絡み合い Non-stabilizerness and entanglement from cat-state injection ( http://arxiv.org/abs/2305.19988v2 ) ライセンス: Link先を確認 | Filipa C. R. Peres, Rafael Wagner, Ernesto F. Galv\~ao | (参考訳) 近年、猫の状態は図式ZX計算に基づいて古典的な量子回路シミュレータのランタイムをヒューリスティックに改善するために使用されている。
本稿では,量子回路モデルにおける猫状態注入法について検討する。
猫状態の族である $\left| \mathrm{cat}_m^* \right>$ を探索し、これらを用いて非安定化性(マジックとも呼ばれる)と絡み合いを量子回路に同時に注入する回路ガジェットを記述する。
キャットステートインジェクションが古典シミュレーションのスピードアップに繋がらないという数値的な証拠を提供する。
一方,我々のガジェットは,猫状態の説得力のある応用範囲を広げるために利用できることを示す。
具体的には、注入された量子ビット数の節約を達成するためにそれらを活用する方法を示し、また、非絡み合うクリフォード回路において、制御された方法でスクランブルダイナミクスを誘導する。 Recently, cat states have been used to heuristically improve the runtime of a classical simulator of quantum circuits based on the diagrammatic ZX-calculus. Here we investigate the use of cat-state injection within the quantum circuit model. We explore a family of cat states, $\left| \mathrm{cat}_m^* \right>$, and describe circuit gadgets using them to concurrently inject non-stabilizerness (also known as magic) and entanglement into any quantum circuit. We provide numerical evidence that cat-state injection does not lead to speed-up in classical simulation. On the other hand, we show that our gadgets can be used to widen the scope of compelling applications of cat states. Specifically, we show how to leverage them to achieve savings in the number of injected qubits, and also to induce scrambling dynamics in otherwise non-entangling Clifford circuits in a controlled manner. | 翻訳日:2023-09-04 16:41:40 公開日:2023-09-01 |
# StyleHumanCLIP:StyleGAN-Human用テキストガイドガーメントマニピュレーション StyleHumanCLIP: Text-guided Garment Manipulation for StyleGAN-Human ( http://arxiv.org/abs/2305.16759v3 ) ライセンス: Link先を確認 | Takato Yoshikawa, Yuki Endo, Yoshihiro Kanamori | (参考訳) 本稿では,フルボディの人体画像における衣服編集のためのスタイルGANのテキスト誘導制御に取り組む。
既存のスタイルガンベースの方法は、衣服や体型やポーズの多様性に苦しむ。
本稿では,既存のマッパーよりもスタイルガンの非絡み合った制御を可能にする,注意に基づく潜在コードマッパーを用いた,テキスト誘導全身画像合成のためのフレームワークを提案する。
我々の潜在コードマッパーは、テキストガイダンスの下で異なるスタイルGAN層上の個々の潜時コードを適応的に操作するアテンションメカニズムを採用している。
また,テキスト入力による不要な変化を避けるため,推定時に特徴空間マスキングを導入する。
定量的および定性的な評価により,既存の手法よりもテキストに忠実に生成した画像を制御できることが明らかになった。 This paper tackles text-guided control of StyleGAN for editing garments in full-body human images. Existing StyleGAN-based methods suffer from handling the rich diversity of garments and body shapes and poses. We propose a framework for text-guided full-body human image synthesis via an attention-based latent code mapper, which enables more disentangled control of StyleGAN than existing mappers. Our latent code mapper adopts an attention mechanism that adaptively manipulates individual latent codes on different StyleGAN layers under text guidance. In addition, we introduce feature-space masking at inference time to avoid unwanted changes caused by text inputs. Our quantitative and qualitative evaluations reveal that our method can control generated images more faithfully to given texts than existing methods. | 翻訳日:2023-09-04 16:41:23 公開日:2023-09-01 |
# マスキング言語モデルにおける社会的バイアスの包括的尺度の構築 Constructing Holistic Measures for Social Biases in Masked Language Models ( http://arxiv.org/abs/2305.07795v2 ) ライセンス: Link先を確認 | Yang Liu and Yuexian Hou | (参考訳) Masked Language Models (MLM)は多くの自然言語処理タスクで成功している。
しかし、実世界のステレオタイプバイアスは、大きなテキストコーパスから学んだため、MLMに反映される可能性が高い。
過去に提案された評価指標のほとんどは、MLMのログライクな構造で設計された異なるマスキング戦略を採用している。
ステレオタイプバイアスや反ステレオタイプバイアスサンプルの分散のような全体論的考察が欠けている。
本稿では,MLMが出力するステレオタイプバイアスとアンチステレオタイプバイアスの対数様相をガウス分布とみなす。
mlmsにおける社会的バイアスを評価するために,kullback leibler divergence score (kldivs) と jensen shannon divergence score (jsdivs) という2つの評価指標が提案されている。 Masked Language Models (MLMs) have been successful in many natural language processing tasks. However, real-world stereotype biases are likely to be reflected in MLMs due to their learning from large text corpora. Most of the evaluation metrics proposed in the past adopt different masking strategies, designed with the log-likelihood of MLMs. They lack holistic considerations such as variance for stereotype bias and anti-stereotype bias samples. In this paper, the log-likelihoods of stereotype bias and anti-stereotype bias samples output by MLMs are considered Gaussian distributions. Two evaluation metrics, Kullback Leibler Divergence Score (KLDivS) and Jensen Shannon Divergence Score (JSDivS) are proposed to evaluate social biases in MLMs The experimental results on the public datasets StereoSet and CrowS-Pairs demonstrate that KLDivS and JSDivS are more stable and interpretable compared to the metrics proposed in the past. | 翻訳日:2023-09-04 16:41:09 公開日:2023-09-01 |
# ssd-monodetr:単眼3次元物体検出のための教師付きスケールアウェア変形トランス SSD-MonoDETR: Supervised Scale-aware Deformable Transformer for Monocular 3D Object Detection ( http://arxiv.org/abs/2305.07270v4 ) ライセンス: Link先を確認 | Xuan He, Fan Yang, Kailun Yang, Jiacheng Lin, Haolong Fu, Meng Wang, Jin Yuan, Zhiyong Li | (参考訳) トランスベースの手法は,1つの2次元画像から3d属性を予測することを目的とした,単眼的3d物体検出に優れた性能を示している。
既存のトランスフォーマティブベースの手法の多くは、オブジェクトの貴重なクエリポイントを探索するために視覚的表現と奥行き表現の両方を利用しており、学習したクエリポイントの品質は検出精度に大きな影響を与えている。
残念ながら、トランスフォーマーの既存の教師なしのアテンションメカニズムは、特にハードオブジェクトにおいて、不正確な受容フィールドのため、低品質のクエリ機能を生成する傾向がある。
そこで本稿では,単眼3次元物体検出のための"supervised scale-aware deformable attention" (ssda) を提案する。
具体的には、SSDAは複数のマスクを異なるスケールでプリセットし、深さと視覚的特徴を利用してオブジェクトクエリ拡張のためのスケール認識フィルタを適応的に学習する。
SSDAでは、オブジェクトクエリの正確な受容領域を予測して、堅牢なクエリ機能生成をサポートすることができる。
これとは別に、SSDAは、監視されていない注意機構と比較してより確実な結果を示すスケール予測を監督するために、重み付きスケールマッチング(WSM)損失を割り当てる。
KITTIとWaymo Openデータセットの大規模な実験により、SSDAは検出精度を特に中等度および硬度オブジェクトで大幅に改善し、既存のアプローチと比較して最先端のパフォーマンスが得られることが示された。
私たちのコードはhttps://github.com/mikasa3lili/SSD-MonoDETRで公開されます。 Transformer-based methods have demonstrated superior performance for monocular 3D object detection recently, which aims at predicting 3D attributes from a single 2D image. Most existing transformer-based methods leverage both visual and depth representations to explore valuable query points on objects, and the quality of the learned query points has a great impact on detection accuracy. Unfortunately, existing unsupervised attention mechanisms in transformers are prone to generate low-quality query features due to inaccurate receptive fields, especially on hard objects. To tackle this problem, this paper proposes a novel "Supervised Scale-aware Deformable Attention" (SSDA) for monocular 3D object detection. Specifically, SSDA presets several masks with different scales and utilizes depth and visual features to adaptively learn a scale-aware filter for object query augmentation. Imposing the scale awareness, SSDA could well predict the accurate receptive field of an object query to support robust query feature generation. Aside from this, SSDA is assigned with a Weighted Scale Matching (WSM) loss to supervise scale prediction, which presents more confident results as compared to the unsupervised attention mechanisms. Extensive experiments on the KITTI and Waymo Open datasets demonstrate that SSDA significantly improves the detection accuracy, especially on moderate and hard objects, yielding state-of-the-art performance as compared to the existing approaches. Our code will be made publicly available at https://github.com/mikasa3lili/SSD-MonoDETR. | 翻訳日:2023-09-04 16:40:53 公開日:2023-09-01 |
# 全身移動操作のための因果政策勾配 Causal Policy Gradient for Whole-Body Mobile Manipulation ( http://arxiv.org/abs/2305.04866v3 ) ライセンス: Link先を確認 | Jiaheng Hu, Peter Stone, Roberto Mart\'in-Mart\'in | (参考訳) 次世代の家庭用ロボットヘルパーの開発には、移動操作(MoMa)と呼ばれる移動運動と相互作用機能を組み合わせる必要がある。
MoMaタスクは、ロボットの大きな動作空間と、タスクの共通の多目的性(例えば、障害物を避けながら効率的にゴールに達すること)のため、難しい。
現在のアプローチでは、動作空間の一部をMoMaサブオブジェクト(例えば、移動目的のためのベースアクションと操作のためのアームアクション)に手動でマッチングすることで、操作なしでタスクをナビゲーションに分離する。
このソリューションは、移動と相互作用の自由度の同時組み合わせを防止し、アクション空間を分割し、アクション部分をサブオブジェクトに合わせるために、人間のドメイン知識を必要とする。
本稿では,ロボットの動作空間の最も好ましい部分空間を利用して各サブオブジェクトに対処する,典型的なMoMaタスクに対するポリシーをトレーニングする新しいフレームワークであるCausal MoMaを紹介する。
因果モマは、アクションと報酬関数の項の間の因果依存性を自動的に発見し、これらの依存関係を因果ポリシー学習手順で活用し、以前の最先端ポリシー勾配アルゴリズムと比較して勾配分散を減少させ、収束と結果を改善する。
各種のMoMaタスクにまたがる3種類の模擬ロボットにおけるCausal MoMaの性能評価を行い、シミュレーションで訓練されたポリシーを直接実際のロボットに転送し、エージェントは移動目標に従って動的障害物に反応し、同時にベース、アーム、ヘッドを相乗的に制御できることを示す。
詳細はhttps://sites.google.com/view/causal-momaを参照。 Developing the next generation of household robot helpers requires combining locomotion and interaction capabilities, which is generally referred to as mobile manipulation (MoMa). MoMa tasks are difficult due to the large action space of the robot and the common multi-objective nature of the task, e.g., efficiently reaching a goal while avoiding obstacles. Current approaches often segregate tasks into navigation without manipulation and stationary manipulation without locomotion by manually matching parts of the action space to MoMa sub-objectives (e.g. base actions for locomotion objectives and arm actions for manipulation). This solution prevents simultaneous combinations of locomotion and interaction degrees of freedom and requires human domain knowledge for both partitioning the action space and matching the action parts to the sub-objectives. In this paper, we introduce Causal MoMa, a new framework to train policies for typical MoMa tasks that makes use of the most favorable subspace of the robot's action space to address each sub-objective. Causal MoMa automatically discovers the causal dependencies between actions and terms of the reward function and exploits these dependencies in a causal policy learning procedure that reduces gradient variance compared to previous state-of-the-art policy gradient algorithms, improving convergence and results. We evaluate the performance of Causal MoMa on three types of simulated robots across different MoMa tasks and demonstrate success in transferring the policies trained in simulation directly to a real robot, where our agent is able to follow moving goals and react to dynamic obstacles while simultaneously and synergistically controlling the whole-body: base, arm, and head. More information at https://sites.google.com/view/causal-moma. | 翻訳日:2023-09-04 16:40:26 公開日:2023-09-01 |
# qubo.jl:quadratic unconstrained binary optimizationのためのjuliaエコシステム QUBO.jl: A Julia Ecosystem for Quadratic Unconstrained Binary Optimization ( http://arxiv.org/abs/2307.02577v2 ) ライセンス: Link先を確認 | Pedro Maciel Xavier, Pedro Ripper, Tiago Andrade, Joaquim Dias Garcia, Nelson Maculan, David E. Bernal Neira | (参考訳) QUBO.jlは、QUBO(Quadratic Unconstrained Binary Optimization)インスタンスを扱うための、エンドツーエンドのJuliaパッケージである。
本ツールは,標準的な最適化形式がQUBOと等価である多くの物理および物理に着想を得た解法において,簡単な適用のために幅広いJuMP問題を変換することを目的としている。
これらの手法には、量子アニーリング、量子ゲート回路最適化アルゴリズム(量子最適化交互アンサッツ、変分量子固有解法)、コヒーレントイジングマシンやシミュレーション分岐マシンなどのハードウェアアクセラレーションプラットフォーム、さらにシミュレートアニーリングのようなより伝統的な方法が含まれる。
QUBO.jlは、修正作業の他に、上述したハードウェアと対話し、様々なファイルフォーマットでQUBOモデルを送信し、その後の分析結果を取得することができる。
QUBO.jl は JuMP / MathOptInterface (MOI) 層として書かれ、入力フレームと出力フレームを自動的にマッピングし、スムーズなモデリング体験を提供する。 We present QUBO.jl, an end-to-end Julia package for working with QUBO (Quadratic Unconstrained Binary Optimization) instances. This tool aims to convert a broad range of JuMP problems for straightforward application in many physics and physics-inspired solution methods whose standard optimization form is equivalent to the QUBO. These methods include quantum annealing, quantum gate-circuit optimization algorithms (Quantum Optimization Alternating Ansatz, Variational Quantum Eigensolver), other hardware-accelerated platforms, such as Coherent Ising Machines and Simulated Bifurcation Machines, and more traditional methods such as simulated annealing. Besides working with reformulations, QUBO.jl allows its users to interface with the aforementioned hardware, sending QUBO models in various file formats and retrieving results for subsequent analysis. QUBO.jl was written as a JuMP / MathOptInterface (MOI) layer that automatically maps between the input and output frames, thus providing a smooth modeling experience. | 翻訳日:2023-09-04 16:32:03 公開日:2023-09-01 |
# ZX計算を用いた図形CSSコード変換 Graphical CSS Code Transformation Using ZX Calculus ( http://arxiv.org/abs/2307.02437v2 ) ライセンス: Link先を確認 | Jiaxin Huang (Dept. of Computer Science, Hong Kong University of Science and Technology), Sarah Meng Li (Institute for Quantum Computing, Dept. of Combinatorics & Optimization, University of Waterloo), Lia Yeh (Dept. of Computer Science, University of Oxford, Quantinuum), Aleks Kissinger (Dept. of Computer Science, University of Oxford), Michele Mosca (Institute for Quantum Computing, Dept. of Combinatorics & Optimization, University of Waterloo, Perimeter Institute for Theoretical Physics), Michael Vasmer (Institute for Quantum Computing, University of Waterloo, Perimeter Institute for Theoretical Physics) | (参考訳) 本稿では,フェーズフリーなzxダイアグラムの等価性に基づいて,cssコードを変換するための汎用的アプローチを提案する。
ZX計算を用いて、異なるコードに関連付けられた地図を符号化する際の図形変換を示す。
モチベーションの例として、Steane符号と量子リード・ミュラー符号の間に明確な変換を与えるが、この2つの符号を切り替えることで、フォールトトレラントな普遍ゲート集合を得ることができる。
この目的のために、CSSコード内の任意の論理ZXダイアグラムに対する(必ずしも逆でない)物理実装を見つけるための双方向書き換えルールを提案する。
次に,2つのコード変換手法に注目して,フォールトトレラントゲートを保持しながらコードを変換するcode morphingと,[[15,1,3,3]のコードから[[15,3,3]のsteaneとquantum reed-mullerコードから補完コードを取得可能なゲージ固定を行う。
本稿では,これらの手法の明示的なグラフィカル導出を行い,ZXおよびグラフィカルエンコーダマップがコード変換操作において,等価な視点をどう関連づけるかを示す。 In this work, we present a generic approach to transform CSS codes by building upon their equivalence to phase-free ZX diagrams. Using the ZX calculus, we demonstrate diagrammatic transformations between encoding maps associated with different codes. As a motivating example, we give explicit transformations between the Steane code and the quantum Reed-Muller code, since by switching between these two codes, one can obtain a fault-tolerant universal gate set. To this end, we propose a bidirectional rewrite rule to find a (not necessarily transversal) physical implementation for any logical ZX diagram in any CSS code. Then we focus on two code transformation techniques: code morphing, a procedure that transforms a code while retaining its fault-tolerant gates, and gauge fixing, where complimentary codes can be obtained from a common subsystem code (e.g., the Steane and the quantum Reed-Muller codes from the [[15,1,3,3]] code). We provide explicit graphical derivations for these techniques and show how ZX and graphical encoder maps relate several equivalent perspectives on these code-transforming operations. | 翻訳日:2023-09-04 16:31:41 公開日:2023-09-01 |
# AIの限界を理解するために教室でプロンプトを学ぶ:パイロットスタディ Learning to Prompt in the Classroom to Understand AI Limits: A pilot study ( http://arxiv.org/abs/2307.01540v2 ) ライセンス: Link先を確認 | Emily Theophilou, Cansu Koyuturk, Mona Yavari, Sathya Bursic, Gregor Donabauer, Alessia Telari, Alessia Testa, Raffaele Boiano, Davinia Hernandez-Leo, Martin Ruskov, Davide Taibi, Alessandro Gabbiadini, Dimitri Ognibene | (参考訳) 人工知能(AI)の進歩は、健康や気候といった社会的懸念に対処する上で大きな可能性を秘めている。
大規模言語モデル(llm)とチャットボット(chatgptなど)は、aiシステムの自然言語処理機能を高度に改善し、前例のない量の非構造化データを処理できるようになった。
しかし、それに続く興奮は、AI手法が顕著な貢献(例えば健康や遺伝学)を示しているにもかかわらず、否定的な感情を引き起こしている。
この感情に寄与する重要な要因は、LLMが幻覚や推論の制約のような制限を無視して、ドメイン間のソリューションを熱心に提供できるという誤解を招く認識である。
AIの誤認を認めることは、LLMが生成した誤った提案において、犬の過信の影響に対処するために重要である。
同時に、AIに対する恐怖やその他の否定的な態度を減らすことができる。
これにより、LLMの制約や効果的な使用方法、すなわち戦略を促進するために、一般大衆に教育する包括的なAIリテラシー介入が必要になる。
この目的により、21人の生徒を持つ高校でパイロット教育の介入が行われた。
インテリジェンス、AI、LLMに関する高レベルの概念を提示し、続いてChatGPTによる自然な教育会話の作成と確立されたプロンプト戦略の適用に関する実践的な演習を行った。
アクティビティの高い評価、LLMとのインタラクション品質の向上、ネガティブなAI感情の低減、特に信頼性の低い制限の把握、満足できない応答につながるコマンドの限定的な理解、プレゼンテーションの柔軟性の制限など、予備的な結果が浮上した。
我々の目標は、AIの受容要因を探求し、より制御された将来の研究のためにこのアプローチを洗練することである。 Artificial intelligence's (AI) progress holds great promise in tackling pressing societal concerns such as health and climate. Large Language Models (LLM) and the derived chatbots, like ChatGPT, have highly improved the natural language processing capabilities of AI systems allowing them to process an unprecedented amount of unstructured data. However, the ensuing excitement has led to negative sentiments, even as AI methods demonstrate remarkable contributions (e.g. in health and genetics). A key factor contributing to this sentiment is the misleading perception that LLMs can effortlessly provide solutions across domains, ignoring their limitations such as hallucinations and reasoning constraints. Acknowledging AI fallibility is crucial to address the impact of dogmatic overconfidence in possibly erroneous suggestions generated by LLMs. At the same time, it can reduce fear and other negative attitudes toward AI. This necessitates comprehensive AI literacy interventions that educate the public about LLM constraints and effective usage techniques, i.e prompting strategies. With this aim, a pilot educational intervention was performed in a high school with 21 students. It involved presenting high-level concepts about intelligence, AI, and LLMs, followed by practical exercises involving ChatGPT in creating natural educational conversations and applying established prompting strategies. Encouraging preliminary results emerged, including high appreciation of the activity, improved interaction quality with the LLM, reduced negative AI sentiments, and a better grasp of limitations, specifically unreliability, limited understanding of commands leading to unsatisfactory responses, and limited presentation flexibility. Our aim is to explore AI acceptance factors and refine this approach for more controlled future studies. | 翻訳日:2023-09-04 16:31:17 公開日:2023-09-01 |
# 非マルコフ散逸相転移のスペクトル理論 Spectral Theory of Non-Markovian Dissipative Phase Transitions ( http://arxiv.org/abs/2307.01119v2 ) ライセンス: Link先を確認 | Baptiste Debecker, John Martin, Fran\c{c}ois Damanet | (参考訳) これまで、散逸相転移(dissipative phase transitions、dpts)は、理想化されたマルコフ(メモリレス)環境と結合した量子系で研究されてきた。
ここでは、DPTのスペクトル理論を任意の非マルコフ系に拡張し、それらのシグネチャを抽出する一般的な体系的手法を提案する。
まず,1次DPTを示すモデルにおいて,メモリ効果が位相境界を制御するための資源としてどのように使用できるかを示すとともに,これまでの試みが失敗した2モードDickeモデルにおいて,挑戦的な2次DPTのすべての特徴を捉えることによって,手法のパワーを実証する。 To date, dissipative phase transitions (DPTs) have mostly been studied for quantum systems coupled to idealized Markovian (memoryless) environments, where the closing of the Liouvillian gap constitutes a hallmark. Here, we extend the spectral theory of DPTs to arbitrary non-Markovian systems and present a general and systematic method to extract their signatures, which is fundamental for the understanding of realistic materials and experiments such as in the solid-state, cold atoms, cavity or circuit QED. We first illustrate our theory to show how memory effects can be used as a resource to control phase boundaries in a model exhibiting a first-order DPT, and then demonstrate the power of the method by capturing all features of a challenging second-order DPT in a two-mode Dicke model for which previous attempts had failed up to now. | 翻訳日:2023-09-04 16:30:45 公開日:2023-09-01 |
# CLIPAG: ジェネレータフリーのテキスト・ツー・イメージ生成を目指して CLIPAG: Towards Generator-Free Text-to-Image Generation ( http://arxiv.org/abs/2306.16805v2 ) ライセンス: Link先を確認 | Roy Ganz, Michael Elad | (参考訳) Perceptually Aligned Gradients (PAG)は、頑健な画像分類モデルで観察される興味深い特性を指し、入力勾配は人間の知覚と一致し、意味的な意味を表わす。
この現象は大きな研究の注目を集めているが、一様視のみのアーキテクチャの文脈でのみ研究されている。
本稿では,pagの研究を視覚言語アーキテクチャに拡張し,多様な画像テキストタスクやアプリケーションの基礎を形成する。
クリップの可逆的ロバスト化の微調整を通じて、ロバストな視覚言語モデルがバニラモデルとは対照的にpagを示すことを実証する。
この研究は、複数の視覚言語生成タスクにおいて、CLIP と PAG (CLIPAG) の利点を明らかにする。
特に,CLIPAGを"plug-n-play"形式でシームレスに統合することで,視覚言語生成アプリケーションを大幅に改善することを示す。
さらに、PAGプロパティを活用することで、CLIPAGは生成モデルなしでテキストから画像を生成することができる。 Perceptually Aligned Gradients (PAG) refer to an intriguing property observed in robust image classification models, wherein their input gradients align with human perception and pose semantic meanings. While this phenomenon has gained significant research attention, it was solely studied in the context of unimodal vision-only architectures. In this work, we extend the study of PAG to Vision-Language architectures, which form the foundations for diverse image-text tasks and applications. Through an adversarial robustification finetuning of CLIP, we demonstrate that robust Vision-Language models exhibit PAG in contrast to their vanilla counterparts. This work reveals the merits of CLIP with PAG (CLIPAG) in several vision-language generative tasks. Notably, we show that seamlessly integrating CLIPAG in a "plug-n-play" manner leads to substantial improvements in vision-language generative applications. Furthermore, leveraging its PAG property, CLIPAG enables text-to-image generation without any generative model, which typically requires huge generators. | 翻訳日:2023-09-04 16:30:28 公開日:2023-09-01 |
# テキストからのオントロジエンリッチメント:概念発見と配置のための生物医学データセット Ontology Enrichment from Texts: A Biomedical Dataset for Concept Discovery and Placement ( http://arxiv.org/abs/2306.14704v3 ) ライセンス: Link先を確認 | Hang Dong, Jiaoyan Chen, Yuan He, Ian Horrocks | (参考訳) 新しい概念の言及は、テキストに定期的に現れ、それらを知識ベース(例えばオントロジーや分類法)に収穫し配置する自動化アプローチを必要とする。
既存のデータセットには3つの問題がある。
(i)新しい概念が事前に発見され、KB外言及発見をサポートできないと仮定すること。
(ii)概念ラベルを入力として、kbと共にのみ使用し、概念ラベルの文脈を欠いていること。
(iii) 概ね概念配置 w.r.t は、複雑な概念、すなわち論理演算子ではなく、原子概念の分類である。
これらの課題に対処するため,2014年と2017年にSNOMED CT版を応用したMedMentionsデータセット(PubMedAbstracts)を病原体サブカテゴリおよびより広範な臨床発見・処置・医薬品・生物製品に応用した新しいベンチマークを提案する。
本稿では,最近のLarge Language Model に基づく手法を用いて,アウト・オブ・KB参照の発見と概念配置のためのデータセットを用いて評価を行う。 Mentions of new concepts appear regularly in texts and require automated approaches to harvest and place them into Knowledge Bases (KB), e.g., ontologies and taxonomies. Existing datasets suffer from three issues, (i) mostly assuming that a new concept is pre-discovered and cannot support out-of-KB mention discovery; (ii) only using the concept label as the input along with the KB and thus lacking the contexts of a concept label; and (iii) mostly focusing on concept placement w.r.t a taxonomy of atomic concepts, instead of complex concepts, i.e., with logical operators. To address these issues, we propose a new benchmark, adapting MedMentions dataset (PubMed abstracts) with SNOMED CT versions in 2014 and 2017 under the Diseases sub-category and the broader categories of Clinical finding, Procedure, and Pharmaceutical / biologic product. We provide usage on the evaluation with the dataset for out-of-KB mention discovery and concept placement, adapting recent Large Language Model based methods. | 翻訳日:2023-09-04 16:30:10 公開日:2023-09-01 |
# Lingua Manga: データキュレーションのための汎用大規模言語モデル百科事典システム Lingua Manga: A Generic Large Language Model Centric System for Data Curation ( http://arxiv.org/abs/2306.11702v2 ) ライセンス: Link先を確認 | Zui Chen, Lei Cao, Sam Madden | (参考訳) データキュレーションは、多くの重要なが時間を要するデータ処理タスクを含む広範囲な領域である。
しかし,このようなタスクの多様性は汎用データキュレーションシステムの開発を困難にしている。
本稿では,事前学習された大規模言語モデルを用いたユーザフレンドリーで汎用性の高いシステムであるlingua mangaを提案する。
lingua mangaは、柔軟性と迅速な開発を促進しながら、高性能とラベル効率を達成するための自動最適化を提供する。
異なる目的を持つ3つのサンプルアプリケーションと様々なレベルの技術スキルを持つユーザを通じて、lingua mangaが、データキュレーションの課題に対処する上で、熟練したプログラマとローコードユーザ、さらにはコードなしユーザの両方を効果的に支援できることを実証する。 Data curation is a wide-ranging area which contains many critical but time-consuming data processing tasks. However, the diversity of such tasks makes it challenging to develop a general-purpose data curation system. To address this issue, we present Lingua Manga, a user-friendly and versatile system that utilizes pre-trained large language models. Lingua Manga offers automatic optimization for achieving high performance and label efficiency while facilitating flexible and rapid development. Through three example applications with distinct objectives and users of varying levels of technical proficiency, we demonstrate that Lingua Manga can effectively assist both skilled programmers and low-code or even no-code users in addressing data curation challenges. | 翻訳日:2023-09-04 16:29:48 公開日:2023-09-01 |
# 嗜好に基づく強化学習における公正性 Fairness in Preference-based Reinforcement Learning ( http://arxiv.org/abs/2306.09995v2 ) ライセンス: Link先を確認 | Umer Siddique, Abhinav Sinha, Yongcan Cao | (参考訳) 本稿では、複数の目的が存在する場合の優先型強化学習(PbRL)における公平性の問題に対処する。
主な目的は、各目的を公平に扱いながら、複数の目的を最適化できる制御ポリシーを設計することである。
この目的に向けて,fpbrl(fairness-induced preference-based reinforcement learning)を新たに設計する。
FPbRLの主な考え方は、PbRLにおける報酬に基づく選好よりも、新たな福祉に基づく選好を通じて、複数の目的に関連するベクトル報酬関数を学習することであり、一般化されたジニ福祉関数の最大化による政策学習と合わせて行われる。
最後に,提案手法が効率的かつ公正な政策を学習するための効率性と公平性を両立できることを示すために,3つの異なる環境に関する実験研究を行った。 In this paper, we address the issue of fairness in preference-based reinforcement learning (PbRL) in the presence of multiple objectives. The main objective is to design control policies that can optimize multiple objectives while treating each objective fairly. Toward this objective, we design a new fairness-induced preference-based reinforcement learning or FPbRL. The main idea of FPbRL is to learn vector reward functions associated with multiple objectives via new welfare-based preferences rather than reward-based preference in PbRL, coupled with policy learning via maximizing a generalized Gini welfare function. Finally, we provide experiment studies on three different environments to show that the proposed FPbRL approach can achieve both efficiency and equity for learning effective and fair policies. | 翻訳日:2023-09-04 16:29:09 公開日:2023-09-01 |
# VisAlign: 視覚知覚におけるAIと人間のアライメントの度合いを測定するデータセット VisAlign: Dataset for Measuring the Degree of Alignment between AI and Humans in Visual Perception ( http://arxiv.org/abs/2308.01525v2 ) ライセンス: Link先を確認 | Jiyoung Lee, Seungho Kim, Seunghyun Won, Joonseok Lee, Marzyeh Ghassemi, James Thorne, Jaeseok Choi, O-Kil Kwon, Edward Choi | (参考訳) AIアライメント(AIアライメント)とは、人間の意図した目標、好み、倫理的原則に向くモデルを指す。
ほとんどの大規模ディープラーニングモデルはブラックボックスとして機能し、手動では制御できないため、モデルと人間の類似性を分析することは、AIの安全性を確保するための代替手段となる。
本稿では、モデルと人間の視覚知覚アライメント(さらにAIと人間の視覚アライメントと呼ばれる)に焦点を当てる。
具体的には、画像分類の観点からAIと人間の視覚的アライメントを測定するための新しいデータセットを提案する。
AIと人間の視覚的アライメントを評価するために、データセットは現実世界で発生し、金色の人間の知覚ラベルを持つ様々なシナリオのサンプルを含むべきである。
我々のデータセットは、画像中の視覚情報の量と明度に基づいて、Must-Act(Must-Classify)、Must-Abstain、Uncertainの3つのグループから構成され、さらに8つのカテゴリに分けられる。
すべてのサンプルには金色の人間の知覚ラベルがあり、不確定な(ぼやけた)サンプルラベルでさえ、クラウドソーシングによって得られる。
このデータセットの有効性は,サンプリング理論,調査設計に関する統計理論,関連分野の専門家によって検証される。
このデータセットを用いて,5つの視覚知覚モデルと7つの回避方法の視覚的アライメントと信頼性を解析した。
我々のコードとデータは \url{https://github.com/jiyounglee-0523/VisAlign} で利用可能です。 AI alignment refers to models acting towards human-intended goals, preferences, or ethical principles. Given that most large-scale deep learning models act as black boxes and cannot be manually controlled, analyzing the similarity between models and humans can be a proxy measure for ensuring AI safety. In this paper, we focus on the models' visual perception alignment with humans, further referred to as AI-human visual alignment. Specifically, we propose a new dataset for measuring AI-human visual alignment in terms of image classification, a fundamental task in machine perception. In order to evaluate AI-human visual alignment, a dataset should encompass samples with various scenarios that may arise in the real world and have gold human perception labels. Our dataset consists of three groups of samples, namely Must-Act (i.e., Must-Classify), Must-Abstain, and Uncertain, based on the quantity and clarity of visual information in an image and further divided into eight categories. All samples have a gold human perception label; even Uncertain (severely blurry) sample labels were obtained via crowd-sourcing. The validity of our dataset is verified by sampling theory, statistical theories related to survey design, and experts in the related fields. Using our dataset, we analyze the visual alignment and reliability of five popular visual perception models and seven abstention methods. Our code and data is available at \url{https://github.com/jiyounglee-0523/VisAlign}. | 翻訳日:2023-09-04 16:23:23 公開日:2023-09-01 |
# tango: gpuによるグラフニューラルネットワークトレーニングのための量子化再考 Tango: rethinking quantization for graph neural network training on GPUs ( http://arxiv.org/abs/2308.00890v2 ) ライセンス: Link先を確認 | Shiyang Chen, Da Zheng, Caiwen Ding, Chengying Huan, Yuede Ji, Hang Liu | (参考訳) グラフニューラルネットワーク(GNN)は、重要なグラフ関連タスクにおける優れたパフォーマンスのために、ますます人気が高まっている。
量子化はGNN計算の高速化に広く利用されているが、量子化トレーニングは前例のない課題に直面している。
現在の量子化GNNトレーニングシステムは、2つの理由から、フル精度のトレーニングよりも長いトレーニング時間を持つことが多い。
(i)精度の課題に対処すると過度のオーバーヘッドが生じ、
(ii)量子化によって露呈する最適化ポテンシャルを十分に活用していない。
本稿では,3つの貢献により,gpu上でのグラフニューラルネットワークトレーニングにおける量子化の課題と機会を再考するtangoを紹介する。
第2に、GNNのトレーニングを高速化できる量子化対応プリミティブと原位置最適化を設計、実装する。
最後に、Tangoを人気のDeep Graph Library(DGL)システムに統合し、さまざまなGNNモデルやデータセットの最先端アプローチよりも優れたパフォーマンスを示す。 Graph Neural Networks (GNNs) are becoming increasingly popular due to their superior performance in critical graph-related tasks. While quantization is widely used to accelerate GNN computation, quantized training faces unprecedented challenges. Current quantized GNN training systems often have longer training times than their full-precision counterparts for two reasons: (i) addressing the accuracy challenge leads to excessive overhead, and (ii) the optimization potential exposed by quantization is not adequately leveraged. This paper introduces Tango which re-thinks quantization challenges and opportunities for graph neural network training on GPUs with three contributions: Firstly, we introduce efficient rules to maintain accuracy during quantized GNN training. Secondly, we design and implement quantization-aware primitives and inter-primitive optimizations that can speed up GNN training. Finally, we integrate Tango with the popular Deep Graph Library (DGL) system and demonstrate its superior performance over state-of-the-art approaches on various GNN models and datasets. | 翻訳日:2023-09-04 16:22:54 公開日:2023-09-01 |
# 焦点付き線形アテンションを用いたFLatten Transformer:視覚変換器 FLatten Transformer: Vision Transformer using Focused Linear Attention ( http://arxiv.org/abs/2308.00442v2 ) ライセンス: Link先を確認 | Dongchen Han, Xuran Pan, Yizeng Han, Shiji Song, Gao Huang | (参考訳) 視覚タスクにTransformerモデルを適用する場合、自己注意の二次計算複雑性は永続的な課題である。
一方、線形注意は、注意深く設計されたマッピング関数を通じてソフトマックス操作を近似することにより、線形複雑性を持つより効率的な代替手段を提供する。
しかし、現在の線形注意アプローチは、著しい性能低下またはマッピング関数から追加の計算オーバーヘッドをもたらすかのどちらかである。
本稿では,高効率と表現性の両方を実現するために,新しいFocusted Linear Attentionモジュールを提案する。
具体的には, フォーカス能力と特徴の多様性という2つの視点から, 線形注意力の低下に寄与する要因を最初に分析した。
これらの制限を克服するために,計算複雑性を低く保ちながら自己注意の表現性を高めるため,単純で効果的なマッピング機能と効率的なランク復元モジュールを導入する。
広範な実験により,様々な高度な視覚トランスフォーマーに適用可能なリニアアテンションモジュールが,複数のベンチマークで一貫した性能向上を実現していることが示された。
コードはhttps://github.com/LeapLabTHU/FLatten-Transformerで入手できる。 The quadratic computation complexity of self-attention has been a persistent challenge when applying Transformer models to vision tasks. Linear attention, on the other hand, offers a much more efficient alternative with its linear complexity by approximating the Softmax operation through carefully designed mapping functions. However, current linear attention approaches either suffer from significant performance degradation or introduce additional computation overhead from the mapping functions. In this paper, we propose a novel Focused Linear Attention module to achieve both high efficiency and expressiveness. Specifically, we first analyze the factors contributing to the performance degradation of linear attention from two perspectives: the focus ability and feature diversity. To overcome these limitations, we introduce a simple yet effective mapping function and an efficient rank restoration module to enhance the expressiveness of self-attention while maintaining low computation complexity. Extensive experiments show that our linear attention module is applicable to a variety of advanced vision Transformers, and achieves consistently improved performances on multiple benchmarks. Code is available at https://github.com/LeapLabTHU/FLatten-Transformer. | 翻訳日:2023-09-04 16:22:40 公開日:2023-09-01 |
# 条件拡散モデルと言語モデルを用いた最小教師付き音声合成:意味的符号化の比較 Minimally-Supervised Speech Synthesis with Conditional Diffusion Model and Language Model: A Comparative Study of Semantic Coding ( http://arxiv.org/abs/2307.15484v2 ) ライセンス: Link先を確認 | Chunyu Qiang, Hao Li, Hao Ni, He Qu, Ruibo Fu, Tao Wang, Longbiao Wang, Jianwu Dang | (参考訳) 近年,2種類の離散音声表現と2つのシーケンシャル・ツー・シーケンス・タスクを用いてTSを分離することにより,最小限の監督で訓練できるTTS(text-to-Speech)手法への関心が高まっている。
しかし, 従来の手法では, 離散表現の高次元および波形歪み, 非自己回帰的手法における時間予測モデルによる韻律平均化問題, 既存の意味的符号化法における情報冗長性と次元爆発問題という3つの問題に悩まされていた。
これらの問題に対処するために3つのプログレッシブ手法を提案する。
まず,言語モデルと拡散モデルからなる自己回帰構造であるDiff-LM-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
次に,4つの拡散モデルに基づくモジュールからなる非自己回帰構造であるTetra-Diff-Speechを提案する。
最後に,既存のセマンティクス符号化モデルの不要性を検証する3つの拡散モデルに基づくモジュールからなる非自己回帰構造であるtri-diff-speechを提案する。
実験の結果,提案手法はベースライン法よりも優れていた。
オーディオサンプルをWebサイトに提供する。 Recently, there has been a growing interest in text-to-speech (TTS) methods that can be trained with minimal supervision by combining two types of discrete speech representations and using two sequence-to-sequence tasks to decouple TTS. However, existing methods suffer from three problems: the high dimensionality and waveform distortion of discrete speech representations, the prosodic averaging problem caused by the duration prediction model in non-autoregressive frameworks, and the information redundancy and dimension explosion problems of existing semantic encoding methods. To address these problems, three progressive methods are proposed. First, we propose Diff-LM-Speech, an autoregressive structure consisting of a language model and diffusion models, which models the semantic embedding into the mel-spectrogram based on a diffusion model to achieve higher audio quality. We also introduce a prompt encoder structure based on a variational autoencoder and a prosody bottleneck to improve prompt representation ability. Second, we propose Tetra-Diff-Speech, a non-autoregressive structure consisting of four diffusion model-based modules that design a duration diffusion model to achieve diverse prosodic expressions. Finally, we propose Tri-Diff-Speech, a non-autoregressive structure consisting of three diffusion model-based modules that verify the non-necessity of existing semantic encoding models and achieve the best results. Experimental results show that our proposed methods outperform baseline methods. We provide a website with audio samples. | 翻訳日:2023-09-04 16:22:24 公開日:2023-09-01 |
# EasyNet:3Dインダストリアル異常検出のための簡易ネットワーク EasyNet: An Easy Network for 3D Industrial Anomaly Detection ( http://arxiv.org/abs/2307.13925v4 ) ライセンス: Link先を確認 | Ruitao Chen, Guoyang Xie, Jiaqi Liu, Jinbao Wang, Ziqi Luo, Jinfan Wang, Feng Zheng | (参考訳) 3d異常検出は産業生産(im)におけるコンピュータビジョンの新たな課題である。
近年,多くの高度なアルゴリズムが公表されているが,そのほとんどがIMのニーズを満たすことはできない。
欠点はいくつかある。
一 アルゴリズムが大規模な事前訓練されたモデルに大きく依存するため、生産ラインへの展開が困難であること。
二 記憶バンクの過多による記憶オーバヘッドの大幅な増加
三 推論速度は、リアルタイムでは達成できない。
To overcome these issues, we propose an easy and deployment-friendly network (called EasyNet) without using pre-trained models and memory banks: firstly, we design a multi-scale multi-modality feature encoder-decoder to accurately reconstruct the segmentation maps of anomalous regions and encourage the interaction between RGB images and depth images; secondly, we adopt a multi-modality anomaly segmentation network to achieve a precise anomaly map; thirdly, we propose an attention-based information entropy fusion module for feature fusion during inference, making it suitable for real-time deployment.
大規模な実験により、EasyNetは事前訓練されたモデルやメモリバンクを使わずに92.6%の異常検出AUROCを実現している。
さらに、EasyNetは既存の方法よりも高速で、Tesla V100 GPU上で94.55 FPSのフレームレートを持つ。 3D anomaly detection is an emerging and vital computer vision task in industrial manufacturing (IM). Recently many advanced algorithms have been published, but most of them cannot meet the needs of IM. There are several disadvantages: i) difficult to deploy on production lines since their algorithms heavily rely on large pre-trained models; ii) hugely increase storage overhead due to overuse of memory banks; iii) the inference speed cannot be achieved in real-time. To overcome these issues, we propose an easy and deployment-friendly network (called EasyNet) without using pre-trained models and memory banks: firstly, we design a multi-scale multi-modality feature encoder-decoder to accurately reconstruct the segmentation maps of anomalous regions and encourage the interaction between RGB images and depth images; secondly, we adopt a multi-modality anomaly segmentation network to achieve a precise anomaly map; thirdly, we propose an attention-based information entropy fusion module for feature fusion during inference, making it suitable for real-time deployment. Extensive experiments show that EasyNet achieves an anomaly detection AUROC of 92.6% without using pre-trained models and memory banks. In addition, EasyNet is faster than existing methods, with a high frame rate of 94.55 FPS on a Tesla V100 GPU. | 翻訳日:2023-09-04 16:21:55 公開日:2023-09-01 |
# 有理カーネルによる複素値周波数応答関数の補間 Rational kernel-based interpolation for complex-valued frequency response functions ( http://arxiv.org/abs/2307.13484v2 ) ライセンス: Link先を確認 | Julien Bect, Niklas Georg, Ulrich R\"omer, Sebastian Sch\"ops | (参考訳) この研究は、周波数領域における偏微分方程式の周波数応答関数が特に興味を持つデータからの複素数値関数のカーネルベースの近似に関するものである。
この設定では、カーネルメソッドが頻繁に使用されるが、標準のカーネルはうまく機能しない。
さらに、複素数値の場合に自然に生じる核の基底対の役割と数学的含意は、未解決のままである。
複素値関数の新たな再生カーネルヒルベルト空間を導入し、これらの空間における最小ノルム補間としてカーネル対との複素値補間問題を定式化する。
さらに,新しいモデル選択基準に基づいて順を適応的に選択する低次有理関数と補間を結合する。
電磁法や音響法など,様々な分野の例に対する数値的な結果から,有理近似法と比較して,本手法の性能が説明できる。 This work is concerned with the kernel-based approximation of a complex-valued function from data, where the frequency response function of a partial differential equation in the frequency domain is of particular interest. In this setting, kernel methods are employed more and more frequently, however, standard kernels do not perform well. Moreover, the role and mathematical implications of the underlying pair of kernels, which arises naturally in the complex-valued case, remain to be addressed. We introduce new reproducing kernel Hilbert spaces of complex-valued functions, and formulate the problem of complex-valued interpolation with a kernel pair as minimum norm interpolation in these spaces. Moreover, we combine the interpolant with a low-order rational function, where the order is adaptively selected based on a new model selection criterion. Numerical results on examples from different fields, including electromagnetics and acoustic examples, illustrate the performance of the method, also in comparison to available rational approximation methods. | 翻訳日:2023-09-04 16:21:37 公開日:2023-09-01 |
# 分散VQEのための多層HEA間の単一絡み合い接続アーキテクチャ Single Entanglement Connection Architecture between Multi-Layer HEA for Distributed VQE ( http://arxiv.org/abs/2307.12323v2 ) ライセンス: Link先を確認 | Shikun Zhang, Zheng Qin, Yang Zhou, Rui Li, Chunxiao Du, Zhisong Xiao | (参考訳) 現在のノイズの多い中間量子(NISQ)デバイス上での大規模量子コンピューティングの実現は、短期的な量子優位を達成する鍵となる。
本研究では,変分量子固有解法(VQE)における多層ハードウェア効率アンサツ(HEA)の単一絡み合い接続アーキテクチャ(SECA)を提案し,それをゲート切断技術と組み合わせて分散VQE(DVQE)を構築し,低オーバーヘッド下でNISQデバイスのサイズを効率的に拡大する。
2次元イジングモデルとハイゼンベルクモデルを用いたシミュレーション実験を行った。
数値計算の結果,SECAの表現性,安定性,計算性能は,完全絡み合い接続アーキテクチャ(FECA)と比較して,絡み合い能力の損失が少なかった場合に優れていることが示された。
さらに,DVQEがFECAよりも有効性が高いことを示す。
最後に, シミュレーション実験に現れる興味深い現象を用いて, 表現可能性, 絡み込み能力, 計算性能の関係について考察する。 Realization of large-scale quantum computing on current noisy intermediate-scale quantum (NISQ) devices is the key to achieving near-term quantum advantage. In this work, we propose the single entanglement connection architecture (SECA) for the multi-layer hardware-efficient ansatz (HEA) in variational quantum eigensolver (VQE) and combine it with the gate cutting technology to construct distributed VQE (DVQE) which can efficiently expand the size of NISQ devices under low overheads. Simulation experiments with the two-dimensional Ising model as well as Heisenberg model are conducted. Our numerical results indicate a superiority of SECA in expressibility, stability and computational performance at the cost of a little loss in entangling capability compared with the full entanglement connection architecture (FECA). Furthermore, we find evidence that the DVQE also outperforms the FECA in terms of effectiveness. Finally, we discuss the open question about the relationship among expressibility, entangling capability and computational performance with some interesting phenomenon appearing in simulation experiments. | 翻訳日:2023-09-04 16:21:21 公開日:2023-09-01 |
# Psy-LLM: AIに基づく大規模言語モデルによるグローバルメンタルヘルス心理学サービスのスケールアップ Psy-LLM: Scaling up Global Mental Health Psychological Services with AI-based Large Language Models ( http://arxiv.org/abs/2307.11991v2 ) ライセンス: Link先を確認 | Tin Lai, Yukun Shi, Zicong Du, Jiajie Wu, Ken Fu, Yichao Dou, Ziqi Wang | (参考訳) 心理カウンセリングの需要は近年大きく伸びており、特に世界的な新型コロナウイルスの感染拡大により、タイムリーで専門的なメンタルヘルス支援の必要性が高まっている。
オンラインの心理的カウンセリングは、この需要に応えてサービスを提供する主要な手段として浮上している。
本研究では,心理学的コンサルテーションにおける質問応答のための大規模言語モデル(llm)を活用したaiベースの支援ツールであるpsy-llmフレームワークを提案する。
我々のフレームワークは、トレーニング済みのLLMと心理学者や広範囲にクロールされた心理学記事の現実のプロフェッショナルQ&Aを組み合わせる。
Psy-LLMフレームワークは医療専門家のためのフロントエンドツールとして機能し、患者のストレスを軽減するために即時対応とマインドフルネス活動を提供する。
さらに、さらなる支援を必要とする緊急ケースを特定するためのスクリーニングツールとしても機能する。
提案手法は,過度,外因性評価などの内因性指標を用いて評価し,応答有用性,流布性,妥当性,論理的評価を行った。
その結果,Psy-LLMフレームワークが心理的質問に対する一貫性と関連する回答を生成する効果が示された。
本稿では、ai技術によるメンタルヘルスサポートを強化するために、大規模言語モデルを使用する可能性と限界について論じる。 The demand for psychological counselling has grown significantly in recent years, particularly with the global outbreak of COVID-19, which has heightened the need for timely and professional mental health support. Online psychological counselling has emerged as the predominant mode of providing services in response to this demand. In this study, we propose the Psy-LLM framework, an AI-based assistive tool leveraging Large Language Models (LLMs) for question-answering in psychological consultation settings to ease the demand for mental health professions. Our framework combines pre-trained LLMs with real-world professional Q\&A from psychologists and extensively crawled psychological articles. The Psy-LLM framework serves as a front-end tool for healthcare professionals, allowing them to provide immediate responses and mindfulness activities to alleviate patient stress. Additionally, it functions as a screening tool to identify urgent cases requiring further assistance. We evaluated the framework using intrinsic metrics, such as perplexity, and extrinsic evaluation metrics, with human participant assessments of response helpfulness, fluency, relevance, and logic. The results demonstrate the effectiveness of the Psy-LLM framework in generating coherent and relevant answers to psychological questions. This article discusses the potential and limitations of using large language models to enhance mental health support through AI technologies. | 翻訳日:2023-09-04 16:21:04 公開日:2023-09-01 |
# Qudit ZH-Calculus: Generalized Toffoli+Hadamard and Universality The Qudit ZH-Calculus: Generalised Toffoli+Hadamard and Universality ( http://arxiv.org/abs/2307.10095v2 ) ライセンス: Link先を確認 | Patrick Roy (University of Oxford), John van de Wetering (University of Amsterdam), Lia Yeh (University of Oxford) | (参考訳) 我々は、qudit zh-calculusを導入し、すべての位相自由量子ビット規則をquditsに一般化する方法を示す。
素次元 d に対して、位相フリーのqudit ZH-計算は環 Z[e^2(pi)i/d] 上の行列に対して普遍であることを示す。
量子ビットでは、位相自由zh-ダイアグラムと、量子回路の計算に普遍的な断片である toffoli+hadamard 回路の間に強い関係がある。
この接続をquditsに一般化し、2つのqudit |0>制御されたxゲートを用いて任意の奇数なqudit次元の古典可逆qudit論理回路を構成できることを見いだす。
我々の構成は対数項まで漸近的に最適であることを示す。
キュービットに対する Toffoli+Hadamard の普遍性を証明したShi の結果から20年後、|0> 制御された X と Hadamard ゲートの回路は任意の奇数素数 d に対するキューディット量子コンピューティングにおいて概ね普遍的であること、さらに位相自由な ZH-ダイアグラムは後選択が可能なそのような回路と正確に一致することを証明した。 We introduce the qudit ZH-calculus and show how to generalise all the phase-free qubit rules to qudits. We prove that for prime dimensions d, the phase-free qudit ZH-calculus is universal for matrices over the ring Z[e^2(pi)i/d]. For qubits, there is a strong connection between phase-free ZH-diagrams and Toffoli+Hadamard circuits, a computationally universal fragment of quantum circuits. We generalise this connection to qudits, by finding that the two-qudit |0>-controlled X gate can be used to construct all classical reversible qudit logic circuits in any odd qudit dimension, which for qubits requires the three-qubit Toffoli gate. We prove that our construction is asymptotically optimal up to a logarithmic term. Twenty years after the celebrated result by Shi proving universality of Toffoli+Hadamard for qubits, we prove that circuits of |0>-controlled X and Hadamard gates are approximately universal for qudit quantum computing for any odd prime d, and moreover that phase-free ZH-diagrams correspond precisely to such circuits allowing post-selections. | 翻訳日:2023-09-04 16:20:43 公開日:2023-09-01 |
# オンライン連続学習に関する総合的実証評価 A Comprehensive Empirical Evaluation on Online Continual Learning ( http://arxiv.org/abs/2308.10328v2 ) ライセンス: Link先を確認 | Albin Soutif--Cormerais, Antonio Carta, Andrea Cossu, Julio Hurtado, Hamed Hemati, Vincenzo Lomonaco, Joost Van de Weijer | (参考訳) オンライン連続学習は、時間的シフトのあるデータストリーム上で直接学習し、そのストリームから最小量のデータを格納することで、ライブ学習体験に近づけることを目的としている。
この経験的評価では、オンライン連続学習に取り組む文献から様々な方法を評価する。
より具体的には、画像分類の文脈におけるクラス増分設定に焦点を当て、学習者はデータストリームから新たなクラスを漸進的に学習しなければならない。
これらの手法をSplit-CIFAR100とSplit-TinyImagenetベンチマークで比較し、それらの平均精度、忘れ、安定性、表現の質を測定し、最後にアルゴリズムの様々な側面を評価する。
ほとんどの手法は安定性と不適合の問題に悩まされている。
しかし、学習された表現は同じ計算予算の下での訓練に匹敵する。
結果から明らかな勝者は現れず、適切に調整され実装された場合、基本的なエクスペリエンスの再生は非常に強力なベースラインです。
私たちは、avalancheフレームワークをベースにした、モジュール化された拡張可能なコードベースをhttps://github.com/albinsou/ocl_surveyでリリースします。 Online continual learning aims to get closer to a live learning experience by learning directly on a stream of data with temporally shifting distribution and by storing a minimum amount of data from that stream. In this empirical evaluation, we evaluate various methods from the literature that tackle online continual learning. More specifically, we focus on the class-incremental setting in the context of image classification, where the learner must learn new classes incrementally from a stream of data. We compare these methods on the Split-CIFAR100 and Split-TinyImagenet benchmarks, and measure their average accuracy, forgetting, stability, and quality of the representations, to evaluate various aspects of the algorithm at the end but also during the whole training period. We find that most methods suffer from stability and underfitting issues. However, the learned representations are comparable to i.i.d. training under the same computational budget. No clear winner emerges from the results and basic experience replay, when properly tuned and implemented, is a very strong baseline. We release our modular and extensible codebase at https://github.com/AlbinSou/ocl_survey based on the avalanche framework to reproduce our results and encourage future research. | 翻訳日:2023-09-04 16:12:40 公開日:2023-09-01 |
# アクティベーションの追加: 最適化なしのステアリング言語モデル Activation Addition: Steering Language Models Without Optimization ( http://arxiv.org/abs/2308.10248v2 ) ライセンス: Link先を確認 | Alexander Matt Turner, Lisa Thiergart, David Udell, Gavin Leech, Ulisse Mini, Monte MacDiarmid | (参考訳) 大きな言語モデルの振舞いを確実に制御することは、差し迫ったオープン問題である。
既存の手法には、教師付き微調整、人間のフィードバックからの強化学習、プロンプトエンジニアリング、ガイド付き復号化などがある。
モデル動作を予測可能に変更するために、推論時にアクティベーションを変更する。
特に、自然言語で暗黙的に指定された「ステアリングベクトル」を追加して前方通過をバイアスする。
これらのステアリングベクトルを学習した過去の作業とは異なり、アクティベーション加算(ActAdd)メソッドは、一連のプロンプトから得られるアクティベーション差を計算します。
我々は OpenWebText と ConceptNet 上で GPT-2 上の ActAdd を実証する。
我々の推論時間アプローチは出力の高レベルな特性を制御し、ターゲット外のモデル性能を保ちます。
微調整よりもはるかに少ない計算と実装の労力で、ユーザは自然言語の仕様を提供し、そのオーバーヘッドはモデルサイズで自然にスケールできる。 Reliably controlling the behavior of large language models is a pressing open problem. Existing methods include supervised finetuning, reinforcement learning from human feedback, prompt engineering, and guided decoding. We instead investigate activation engineering: modifying activations at inference time to predictably alter model behavior. In particular, we bias the forward pass with an added 'steering vector' implicitly specified through natural language. Unlike past work which learned these steering vectors, our Activation Addition (ActAdd) method computes them by taking the activation differences that result from pairs of prompts. We demonstrate ActAdd on GPT-2 on OpenWebText and ConceptNet. Our inference-time approach yields control over high-level properties of output and preserves off-target model performance. It involves far less compute and implementation effort than finetuning, allows users to provide natural language specifications, and its overhead scales naturally with model size. | 翻訳日:2023-09-04 16:12:19 公開日:2023-09-01 |
# MeDM:時間対応誘導によるビデオ間翻訳のための画像拡散モデル MeDM: Mediating Image Diffusion Models for Video-to-Video Translation with Temporal Correspondence Guidance ( http://arxiv.org/abs/2308.10079v2 ) ライセンス: Link先を確認 | Ernie Chu, Tzuhsuan Huang, Shuo-Yen Lin, Jun-Cheng Chen | (参考訳) 本研究では,一貫した時間的流れを伴うビデオ間翻訳において,事前学習した画像拡散モデルを用いた効率よく効果的なMeDMを提案する。
提案フレームワークでは,通常のGバッファなどのシーン位置情報から映像をレンダリングしたり,現実のシナリオで撮影した映像のテキストガイド編集を行うことができる。
我々は,生成するフレームに物理的制約を課し,独立したフレーム毎のスコアを調停する実用的なコーディングを構築するために,明示的なオプティカルフローを用いる。
このコーディングを活用することで、生成されたビデオの時間的一貫性をクローズドフォームソリューションによる最適化問題としてフレーム化することができる。
安定拡散との互換性を確保するため,潜在空間拡散モデルにおいて観測空間スコアを変更するための回避策を提案する。
特に、MeDMは拡散モデルの微調整やテストタイムの最適化を必要としない。
様々なベンチマークにおける定性的、定量的、主観的な実験を通じて、提案手法の有効性と優位性を示す。
プロジェクトページはhttps://medm2023.github.ioにある。 This study introduces an efficient and effective method, MeDM, that utilizes pre-trained image Diffusion Models for video-to-video translation with consistent temporal flow. The proposed framework can render videos from scene position information, such as a normal G-buffer, or perform text-guided editing on videos captured in real-world scenarios. We employ explicit optical flows to construct a practical coding that enforces physical constraints on generated frames and mediates independent frame-wise scores. By leveraging this coding, maintaining temporal consistency in the generated videos can be framed as an optimization problem with a closed-form solution. To ensure compatibility with Stable Diffusion, we also suggest a workaround for modifying observed-space scores in latent-space Diffusion Models. Notably, MeDM does not require fine-tuning or test-time optimization of the Diffusion Models. Through extensive qualitative, quantitative, and subjective experiments on various benchmarks, the study demonstrates the effectiveness and superiority of the proposed approach. Project page can be found at https://medm2023.github.io | 翻訳日:2023-09-04 16:12:00 公開日:2023-09-01 |
# 言語障壁を打破する - HindiとMarathiのための質問回答データセット Breaking Language Barriers: A Question Answering Dataset for Hindi and Marathi ( http://arxiv.org/abs/2308.09862v2 ) ライセンス: Link先を確認 | Maithili Sabane and Onkar Litake and Aman Chadha | (参考訳) ディープラーニングの最近の進歩は、データに対する待ちきれない食欲を持つ高度に洗練されたシステムの開発につながった。
一方、低リソース言語のための優れたディープラーニングモデルの構築は、依然として難しい課題です。
本稿では,ヒンディー語とマラティ語という2つの言語を対象とした質問応答データセットの開発に着目する。
ヒンディー語は3億4500万人の話者を持つ世界第3位の言語であり、マラティ語は世界第11位の言語であり、8320万人の話者を持つにもかかわらず、どちらの言語も効率的な質問応答システムを構築するための限られたリソースに直面している。
データ不足の課題に取り組むため,我々は squad 2.0 データセットをhindi と marathi に変換する新しい手法を開発した。
これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。
各種アーキテクチャのデータセットを評価し、ヒンディー語とマラティー語の両方で最高の性能のモデルをリリースし、これらの言語の研究をさらに促進する。
類似性ツールを活用することで、多様な言語でデータセットを作成する可能性を秘め、様々な言語文脈における自然言語の理解を深める。
微調整されたモデル、コード、データセットが公開される予定だ。 The recent advances in deep-learning have led to the development of highly sophisticated systems with an unquenchable appetite for data. On the other hand, building good deep-learning models for low-resource languages remains a challenging task. This paper focuses on developing a Question Answering dataset for two such languages- Hindi and Marathi. Despite Hindi being the 3rd most spoken language worldwide, with 345 million speakers, and Marathi being the 11th most spoken language globally, with 83.2 million speakers, both languages face limited resources for building efficient Question Answering systems. To tackle the challenge of data scarcity, we have developed a novel approach for translating the SQuAD 2.0 dataset into Hindi and Marathi. We release the largest Question-Answering dataset available for these languages, with each dataset containing 28,000 samples. We evaluate the dataset on various architectures and release the best-performing models for both Hindi and Marathi, which will facilitate further research in these languages. Leveraging similarity tools, our method holds the potential to create datasets in diverse languages, thereby enhancing the understanding of natural language across varied linguistic contexts. Our fine-tuned models, code, and dataset will be made publicly available. | 翻訳日:2023-09-04 16:11:43 公開日:2023-09-01 |
# 長距離反強磁性イジング鎖のニューラルネットワーク量子状態の研究 Neural-network quantum state study of the long-range antiferromagnetic Ising chain ( http://arxiv.org/abs/2308.09709v2 ) ライセンス: Link先を確認 | Jicheol Kim, Dongkyu Kim, Dong-Hee Kim | (参考訳) 可変モンテカルロ法と制限ボルツマン機械を試用波関数 ansatz として用いることで,代数的に崩壊する長周期反強磁性相互作用を持つ横磁場イジングチェーンの量子相転移を調べる。
順序パラメータと第2の r\'enyi エントロピーを持つ有限サイズのスケーリング解析では、中心電荷が小さな崩壊指数 $\alpha_\mathrm{lr}$ で1/2 から逸脱するのに対し、短距離(sr) イジング値に非常に近い臨界指数は、$\alpha_\mathrm{lr}$ によらず、検討され、共形不変性分解のシナリオを支持している。
イジング普遍性と共形対称性のしきい値を特定するために、普遍バインダー比と相関関数の共形場理論(cft)に関する2つの追加試験を行う。
どちらも、$\alpha_\mathrm{lr} < 2$ でsr isingクラスから顕著に逸脱していることを示している。
しかし、$\alpha_\mathrm{LR} \ge 2$ のスケールされた相関関数は、$\alpha_\mathrm{LR} = 3$ で証明された CFT の漸近線からの漸近線から徐々に変化し、その閾値が 2$ の範囲にあるという大まかな推定を与える。 We investigate quantum phase transitions in the transverse field Ising chain with algebraically decaying long-range antiferromagnetic interactions by using the variational Monte Carlo method with the restricted Boltzmann machine being employed as a trial wave function ansatz. In the finite-size scaling analysis with the order parameter and the second R\'enyi entropy, we find that the central charge deviates from 1/2 at a small decay exponent $\alpha_\mathrm{LR}$ in contrast to the critical exponents staying very close to the short-range (SR) Ising values regardless of $\alpha_\mathrm{LR}$ examined, supporting the previously proposed scenario of conformal invariance breakdown. To identify the threshold of the Ising universality and the conformal symmetry, we perform two additional tests for the universal Binder ratio and the conformal field theory (CFT) description of the correlation function. It turns out that both indicate a noticeable deviation from the SR Ising class at $\alpha_\mathrm{LR} < 2$. However, a closer look at the scaled correlation function for $\alpha_\mathrm{LR} \ge 2$ shows a gradual change from the asymptotic line of the CFT verified at $\alpha_\mathrm{LR} = 3$, providing a rough estimate of the threshold being in the range of $2 \lesssim \alpha_\mathrm{LR} < 3$. | 翻訳日:2023-09-04 16:11:22 公開日:2023-09-01 |
# 相互相似性による車線検出のコントラスト学習 Contrastive Learning for Lane Detection via Cross-Similarity ( http://arxiv.org/abs/2308.08242v3 ) ライセンス: Link先を確認 | Ali Zoljodi, Sadegh Abadijou, Mina Alibeigi, Masoud Daneshtalab | (参考訳) 道路レーンの検出は、不利な状況に弱い複雑なマーキングのため困難である。
レーンマーキングは以前の形状が強いが、視認性は容易に損なわれる。
照明、天気、車両、歩行者、老朽化した色などの要因は、検出に挑戦する。
低可視性に起因する自然変動に耐えられるレーン検出アプローチの訓練には大量のデータが必要である。
これは、多数の車線形状と自然変化が存在するためである。
我々のソリューションであるCLLD(Contrastive Learning for Lane Detection via cross-similarity)は、車線検出モデルレジリエンスを現実の環境に拡張し、車線視認性を低下させる自己教師付き学習手法である。
CLLDは,低可視環境下でも車線検出アプローチを訓練し,局所特徴コントラスト学習(CL)と新たな操作相似性を統合することで,車線検出アプローチを訓練する,新しいマルチタスクコントラスト学習である。
局所的な特徴clは、レーンセグメントをローカライズするために必要な小さな画像部分の抽出に重点を置いているが、クロス類似性は、周囲の不明瞭なレーンセグメントを検出するためにグローバルな特徴をキャプチャする。
入力画像の一部をランダムにマスキングすることで類似性を高める。
ベンチマークデータセットで評価すると、clldは最先端のコントラスト学習、特にシャドウのような可視性障害条件よりも優れている。
教師付き学習と比較して、CLLDは影や混雑したシーンのようなシナリオに優れています。 Detecting road lanes is challenging due to intricate markings vulnerable to unfavorable conditions. Lane markings have strong shape priors, but their visibility is easily compromised. Factors like lighting, weather, vehicles, pedestrians, and aging colors challenge the detection. A large amount of data is required to train a lane detection approach that can withstand natural variations caused by low visibility. This is because there are numerous lane shapes and natural variations that exist. Our solution, Contrastive Learning for Lane Detection via cross-similarity (CLLD), is a self-supervised learning method that tackles this challenge by enhancing lane detection models resilience to real-world conditions that cause lane low visibility. CLLD is a novel multitask contrastive learning that trains lane detection approaches to detect lane markings even in low visible situations by integrating local feature contrastive learning (CL) with our new proposed operation cross-similarity. Local feature CL focuses on extracting features for small image parts, which is necessary to localize lane segments, while cross-similarity captures global features to detect obscured lane segments using their surrounding. We enhance cross-similarity by randomly masking parts of input images for augmentation. Evaluated on benchmark datasets, CLLD outperforms state-of-the-art contrastive learning, especially in visibility-impairing conditions like shadows. Compared to supervised learning, CLLD excels in scenarios like shadows and crowded scenes. | 翻訳日:2023-09-04 16:10:19 公開日:2023-09-01 |
# グラフ構造残基:診断への学習的アプローチ Graph Structural Residuals: A Learning Approach to Diagnosis ( http://arxiv.org/abs/2308.06961v2 ) ライセンス: Link先を確認 | Jan Lukas Augustin and Oliver Niggemann | (参考訳) 従来のモデルベースの診断は、明示的なシステムモデルの構築に依存している。
本稿では,モデルに基づく診断の概念と深層グラフ構造学習を組み合わせた新しいフレームワークを提案する。
このデータ駆動アプローチは、データを活用してシステムの基盤構造を学習し、2つの異なるグラフ隣接行列で表される動的な観察を提供する。
私たちの研究は3つの大きな貢献によって、グラフ構造学習とモデルベース診断のシームレスな統合を促進します。
(i)システム表現・観測・故障の構成を再定義すること
(ii)自己教師付きグラフ構造学習モデルアーキテクチャの2つの異なるバージョンの導入と導入
3) 結合振動子系の実験により, データ駆動型診断法の可能性を実証した。 Traditional model-based diagnosis relies on constructing explicit system models, a process that can be laborious and expertise-demanding. In this paper, we propose a novel framework that combines concepts of model-based diagnosis with deep graph structure learning. This data-driven approach leverages data to learn the system's underlying structure and provide dynamic observations, represented by two distinct graph adjacency matrices. Our work facilitates a seamless integration of graph structure learning with model-based diagnosis by making three main contributions: (i) redefining the constructs of system representation, observations, and faults (ii) introducing two distinct versions of a self-supervised graph structure learning model architecture and (iii) demonstrating the potential of our data-driven diagnostic method through experiments on a system of coupled oscillators. | 翻訳日:2023-09-04 16:09:53 公開日:2023-09-01 |
# 産業プラント監督のためのスマートロボットシステム A Smart Robotic System for Industrial Plant Supervision ( http://arxiv.org/abs/2308.05612v2 ) ライセンス: Link先を確認 | D. Adriana G\'omez-Rosal, Max Bergau, Georg K.J. Fischer, Andreas Wachaja, Johannes Gr\"ater, Matthias Odenweller, Uwe Piechottka, Fabian Hoeflinger, Nikhil Gosala, Niklas Wetzel, Daniel B\"uscher, Abhinav Valada, Wolfram Burgard | (参考訳) 今日の化学プラントでは、人間現場のオペレーターは高い安全基準を保証するために頻繁な完全性チェックを行い、危険な運転条件に遭遇するのはおそらく初めてである。
この課題を緩和するために,様々なセンサとインテリジェントなデータ処理を統合した自律走行ロボットシステムを提案する。
メタン漏れを検知し、流量を推定し、より一般的なガス異常を検知し、油膜を認識し、音源を局所化し、故障事例を検出し、3dで環境をマッピングし、動的障害の認識と回避を生かして自律的に走行することができる。
完全作業環境下での排水施設におけるシステム評価を行った。
その結果,本システムはプラントをロバストにナビゲートし,重要な運転条件に関する有用な情報を提供することができた。 In today's chemical plants, human field operators perform frequent integrity checks to guarantee high safety standards, and thus are possibly the first to encounter dangerous operating conditions. To alleviate their task, we present a system consisting of an autonomously navigating robot integrated with various sensors and intelligent data processing. It is able to detect methane leaks and estimate its flow rate, detect more general gas anomalies, recognize oil films, localize sound sources and detect failure cases, map the environment in 3D, and navigate autonomously, employing recognition and avoidance of dynamic obstacles. We evaluate our system at a wastewater facility in full working conditions. Our results demonstrate that the system is able to robustly navigate the plant and provide useful information about critical operating conditions. | 翻訳日:2023-09-04 16:09:43 公開日:2023-09-01 |
# オープンフィールド環境におけるロボットハーベスティングのための改良型YOLOv5sアーキテクチャに基づくリアルタイムイチゴ検出 Real-time Strawberry Detection Based on Improved YOLOv5s Architecture for Robotic Harvesting in open-field environment ( http://arxiv.org/abs/2308.03998v3 ) ライセンス: Link先を確認 | Zixuan He (1)(2), Salik Ram Khanal (1)(2), Xin Zhang (3), Manoj Karkee (1)(2), Qin Zhang (1)(2) ((1) Center for Precision and Automated Agricultural Systems, Washington State University, (2) Department of Biological Systems Engineering, Washington State University, (3) Department of Agricultural and Biological Engineering, Mississippi State University) | (参考訳) 本研究では、屋外環境下でイチゴを検知するYOLOv5を用いたカスタムオブジェクト検出モデルを提案する。
YOLOv5sの当初のアーキテクチャは、C3モジュールをバックボーンネットワークのC2fモジュールに置き換えることで変更され、より優れた機能勾配フローを提供した。
第2に, YOLOv5sのバックボーンネットワークの最終層における空間ピラミッドのポーリング速度をクロスステージ部分ネットと組み合わせて, イチゴデータセットの一般化能力を向上した。
提案されたアーキテクチャはYOLOv5s-Strawと名付けられた。
3つの成熟度クラス(未熟、ほぼ成熟、成熟)を持つイチゴキャノピーのrgb画像データセットは、オープンフィールド環境で収集され、輝度の低下、輝度の増大、ノイズの追加を含む一連の操作によって拡張された。
オープンフィールド環境におけるイチゴ検出手法の優位性を検証するため、4つの競合検出モデル(YOLOv3-tiny, YOLOv5s, YOLOv5s-C2f, YOLOv8s)をトレーニングし、同じ計算環境下でテストし、YOLOv5s-Strawと比較した。
その結果、平均平均精度は80.3%で、yolov3-tiny、yolov5s、yolov5s-c2f、yolov8では73.4%、77.8%、79.8%、79.3%であった。
具体的には、YOLOv5s-Strawの平均精度は未熟なクラスで82.1%、ほぼ成熟したクラスで73.5%、成熟したクラスで86.6%であり、それぞれ2.3%と3.7%であった。
モデルには8.6*10^6のネットワークパラメータがあり、1画像あたりの推論速度は18msであり、yolov8の推論速度は21.0ms、重いパラメータは11.1*10^6であった。 This study proposed a YOLOv5-based custom object detection model to detect strawberries in an outdoor environment. The original architecture of the YOLOv5s was modified by replacing the C3 module with the C2f module in the backbone network, which provided a better feature gradient flow. Secondly, the Spatial Pyramid Pooling Fast in the final layer of the backbone network of YOLOv5s was combined with Cross Stage Partial Net to improve the generalization ability over the strawberry dataset in this study. The proposed architecture was named YOLOv5s-Straw. The RGB images dataset of the strawberry canopy with three maturity classes (immature, nearly mature, and mature) was collected in open-field environment and augmented through a series of operations including brightness reduction, brightness increase, and noise adding. To verify the superiority of the proposed method for strawberry detection in open-field environment, four competitive detection models (YOLOv3-tiny, YOLOv5s, YOLOv5s-C2f, and YOLOv8s) were trained, and tested under the same computational environment and compared with YOLOv5s-Straw. The results showed that the highest mean average precision of 80.3% was achieved using the proposed architecture whereas the same was achieved with YOLOv3-tiny, YOLOv5s, YOLOv5s-C2f, and YOLOv8s were 73.4%, 77.8%, 79.8%, 79.3%, respectively. Specifically, the average precision of YOLOv5s-Straw was 82.1% in the immature class, 73.5% in the nearly mature class, and 86.6% in the mature class, which were 2.3% and 3.7%, respectively, higher than that of the latest YOLOv8s. The model included 8.6*10^6 network parameters with an inference speed of 18ms per image while the inference speed of YOLOv8s had a slower inference speed of 21.0ms and heavy parameters of 11.1*10^6, which indicates that the proposed model is fast enough for real time strawberry detection and localization for the robotic picking. | 翻訳日:2023-09-04 16:09:29 公開日:2023-09-01 |
# FAM:高速適応型フェデレーションメタラーニング FAM: fast adaptive federated meta-learning ( http://arxiv.org/abs/2308.13970v2 ) ライセンス: Link先を確認 | Indrajeet Kumar Sinha, Shekhar Verma and Krishna Pratap Singh | (参考訳) 本研究では,単一のグローバルモデルを協調的に学習し,個別のクライアントでローカルにパーソナライズできるファストアダプティブ・フェデレーション・メタラーニング(fam)フレームワークを提案する。
フェデレーション学習により、複数のクライアントが協力してデータを共有せずにモデルをトレーニングできる。
データやデータの多様性が不十分なクライアントは、フェデレーション学習に参加し、優れたパフォーマンスを持つモデルを学ぶ。
それでも、データ分布がばらばらになると学習は苦しむ。
クライアントにパーソナライズされたモデルを作成するために、クライアントの特定の情報を使用して適応できるグローバルモデルを学ぶ必要がある。
mriデータはこの問題に苦しんでおり、1つはデータ取得の課題のため、サイト内のローカルデータは正確なモデルをトレーニングするのに十分であり、2つはプライバシーの懸念によるデータ共有の制限があり、3つは、クライアントサイト間のドメインシフトを考慮して学習した共有グローバルモデルのパーソナライズの必要性である。
グローバルモデルはスパースであり、MRIの一般的な特徴を捉えている。
このスケルトンネットワークは各クライアントで成長し、ローカルデータからクライアント固有のパラメータを学習することでパーソナライズされたモデルをトレーニングする。
実験の結果,各クライアントにおけるパーソナライズプロセスは,限られたエポック数を用いて迅速に収束することがわかった。
パーソナライズされたクライアントモデルは、ローカルにトレーニングされたモデルよりも優れ、FAMメカニズムの有効性を実証した。
さらに、フェデレーション学習中に通信されるスパースパラメータセットは、通信オーバーヘッドを劇的に削減し、限られたリソースのネットワークで実現可能とした。 In this work, we propose a fast adaptive federated meta-learning (FAM) framework for collaboratively learning a single global model, which can then be personalized locally on individual clients. Federated learning enables multiple clients to collaborate to train a model without sharing data. Clients with insufficient data or data diversity participate in federated learning to learn a model with superior performance. Nonetheless, learning suffers when data distributions diverge. There is a need to learn a global model that can be adapted using client's specific information to create personalized models on clients is required. MRI data suffers from this problem, wherein, one, due to data acquisition challenges, local data at a site is sufficient for training an accurate model and two, there is a restriction of data sharing due to privacy concerns and three, there is a need for personalization of a learnt shared global model on account of domain shift across client sites. The global model is sparse and captures the common features in the MRI. This skeleton network is grown on each client to train a personalized model by learning additional client-specific parameters from local data. Experimental results show that the personalization process at each client quickly converges using a limited number of epochs. The personalized client models outperformed the locally trained models, demonstrating the efficacy of the FAM mechanism. Additionally, the sparse parameter set to be communicated during federated learning drastically reduced communication overhead, which makes the scheme viable for networks with limited resources. | 翻訳日:2023-09-04 16:04:36 公開日:2023-09-01 |
# グローバル特徴とハイパーカラム特徴の相互学習による自己教師付き表現学習 Self-Supervised Representation Learning with Cross-Context Learning between Global and Hypercolumn Features ( http://arxiv.org/abs/2308.13392v2 ) ライセンス: Link先を確認 | Zheng Gao, Chen Feng, Ioannis Patras | (参考訳) 対照的な学習は、同じインスタンスの異なる拡張ビューをマッチングすることで強力な表現をもたらすが、異なるインスタンス間の類似性をキャプチャする能力が欠けている。
この制限に対処する一般的な方法の1つは、学生のグローバルな特徴の学習を指導するために教師のグローバルな特徴が使用される知識蒸留に基づくインスタンス間関係を捉えるために、グローバルな特徴(グローバルプールの後)を学ぶことである。
クロスモダリティ学習にインスパイアされたこの既存のフレームワークは、グローバル機能と中間層機能を相互に学習させることによって、グローバル機能からのみ学習する。
グローバルとハイパーカラムの機能間のクロスコンテキスト学習(CGH)は、低レベルのセマンティクスと高レベルのセマンティクス間のインスタンス関係の一貫性を強制する。
具体的には、中間特徴写像を積み重ねてハイパーカラム表現を構築し、2つのコンテキスト(ハイパーカラムとグローバルな特徴)を用いてインスタンス関係を別々に測定し、一方のコンテキストの関係を使って他方の学習を導く。
このクロスコンテキスト学習は、モデルが2つのコンテキストの違いから学ぶことを可能にする。
線形分類とダウンストリームタスクの実験結果は,本手法が最先端手法よりも優れていることを示している。 Whilst contrastive learning yields powerful representations by matching different augmented views of the same instance, it lacks the ability to capture the similarities between different instances. One popular way to address this limitation is by learning global features (after the global pooling) to capture inter-instance relationships based on knowledge distillation, where the global features of the teacher are used to guide the learning of the global features of the student. Inspired by cross-modality learning, we extend this existing framework that only learns from global features by encouraging the global features and intermediate layer features to learn from each other. This leads to our novel self-supervised framework: cross-context learning between global and hypercolumn features (CGH), that enforces the consistency of instance relations between low- and high-level semantics. Specifically, we stack the intermediate feature maps to construct a hypercolumn representation so that we can measure instance relations using two contexts (hypercolumn and global feature) separately, and then use the relations of one context to guide the learning of the other. This cross-context learning allows the model to learn from the differences between the two contexts. The experimental results on linear classification and downstream tasks show that our method outperforms the state-of-the-art methods. | 翻訳日:2023-09-04 16:04:10 公開日:2023-09-01 |
# 画像融合のための相互誘導動的ネットワーク Mutual-Guided Dynamic Network for Image Fusion ( http://arxiv.org/abs/2308.12538v2 ) ライセンス: Link先を確認 | Yuanshen Guan, Ruikang Xu, Mingde Yao, Lizhi Wang, Zhiwei Xiong | (参考訳) 画像融合は、様々な条件下で撮影された複数の画像から高品質な画像を生成することを目的としている。
このタスクの鍵となる問題は、融合結果の無関係情報をフィルタリングしながら補完情報を保存することである。
しかし、既存の手法では静的畳み込みニューラルネットワーク(cnns)を活用することでこの問題に対処しており、特徴抽出中に固有の2つの制限、すなわち空間的変動コンテンツの処理ができず、複数の入力からのガイダンスが欠如している。
本稿では,画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
具体的には,相互誘導型クロスアテンション(mgca)モジュールと動的フィルタ予測器からなる適応的特徴抽出のための相互誘導型動的フィルタ(mgdf)の設計を行った。
さらに,抽出した特徴の局所的およびグローバル的情報を効果的に融合する並列特徴融合(PFF)モジュールを導入する。
共有構造情報を同時に保存しながら抽出した特徴間の冗長性をさらに低減するため,正規化相互情報(NMI)の最小化と推定勾配マスクを組み合わせた新たな損失関数を考案した。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
コードとモデルは、https://github.com/Guanys-dar/MGDNで公開されている。 Image fusion aims to generate a high-quality image from multiple images captured under varying conditions. The key problem of this task is to preserve complementary information while filtering out irrelevant information for the fused result. However, existing methods address this problem by leveraging static convolutional neural networks (CNNs), suffering two inherent limitations during feature extraction, i.e., being unable to handle spatial-variant contents and lacking guidance from multiple inputs. In this paper, we propose a novel mutual-guided dynamic network (MGDN) for image fusion, which allows for effective information utilization across different locations and inputs. Specifically, we design a mutual-guided dynamic filter (MGDF) for adaptive feature extraction, composed of a mutual-guided cross-attention (MGCA) module and a dynamic filter predictor, where the former incorporates additional guidance from different inputs and the latter generates spatial-variant kernels for different locations. In addition, we introduce a parallel feature fusion (PFF) module to effectively fuse local and global information of the extracted features. To further reduce the redundancy among the extracted features while simultaneously preserving their shared structural information, we devise a novel loss function that combines the minimization of normalized mutual information (NMI) with an estimated gradient mask. Experimental results on five benchmark datasets demonstrate that our proposed method outperforms existing methods on four image fusion tasks. The code and model are publicly available at: https://github.com/Guanys-dar/MGDN. | 翻訳日:2023-09-04 16:03:25 公開日:2023-09-01 |
# 人気バイアス軽減のためのテスト時間埋め込み正規化 Test Time Embedding Normalization for Popularity Bias Mitigation ( http://arxiv.org/abs/2308.11288v2 ) ライセンス: Link先を確認 | Dain Kim, Jinhyeok Park, Dongwoo Kim | (参考訳) 人気度バイアスはレコメンデーションシステムにおいて広く問題であり、人気のあるアイテムがレコメンデーション結果を支配する傾向にある。
本研究では,従来の緩和アプローチの性能を大幅に上回る人気バイアスを緩和するための,単純かつ効果的な戦略として「テスト時間埋め込み正規化」を提案する。
提案手法は, 推定段階での正規化アイテム埋め込みを利用して, アイテムの人気度と高い相関性を有する埋め込みサイズの影響を制御している。
実験により,本手法とサンプルソフトマックス損失を組み合わせることで,従来のバイアス緩和手法と比較して,人気バイアスを効果的に低減できることを示した。
ユーザとアイテムの埋め込みの関係をさらに調査し,その人気に関わらず,埋め込み間の角相似性が望ましい項目と予測できない項目を区別できることを見出した。
この分析は、人気バイアスの影響を排除するためのアプローチの成功のメカニズムを説明する。
私たちのコードはhttps://github.com/ml-postech/ttenで利用可能です。 Popularity bias is a widespread problem in the field of recommender systems, where popular items tend to dominate recommendation results. In this work, we propose 'Test Time Embedding Normalization' as a simple yet effective strategy for mitigating popularity bias, which surpasses the performance of the previous mitigation approaches by a significant margin. Our approach utilizes the normalized item embedding during the inference stage to control the influence of embedding magnitude, which is highly correlated with item popularity. Through extensive experiments, we show that our method combined with the sampled softmax loss effectively reduces popularity bias compare to previous approaches for bias mitigation. We further investigate the relationship between user and item embeddings and find that the angular similarity between embeddings distinguishes preferable and non-preferable items regardless of their popularity. The analysis explains the mechanism behind the success of our approach in eliminating the impact of popularity bias. Our code is available at https://github.com/ml-postech/TTEN. | 翻訳日:2023-09-04 16:02:06 公開日:2023-09-01 |
# 映像に基づく行動認識に対する時間分布バックドア攻撃 Temporal-Distributed Backdoor Attack Against Video Based Action Recognition ( http://arxiv.org/abs/2308.11070v2 ) ライセンス: Link先を確認 | Xi Li, Songhe Wang, Ruiquan Huang, Mahanth Gowda, George Kesidis | (参考訳) ディープニューラルネットワーク(DNN)は、ビデオアクション認識を含む様々なアプリケーションで大きな成功を収めているが、バックドア攻撃(トロイの木馬)には弱いままである。
backdoor-compromizedモデルでは,テストインスタンス(非ターゲットクラス)に特定のトリガを組み込んだ場合,アタックフリーインスタンスの精度を維持しながら,攻撃者が選択したターゲットクラスを誤って分類する。
画像データに対するバックドア攻撃については広範な研究があるが、バックドア攻撃による映像ベースシステムの受容性は未解明のままである。
現在の研究は、画像データに対して提案されたアプローチの直接的な拡張である。例えば、トリガーはフレーム内に独立に埋め込まれており、既存の防御によって検出される傾向がある。
本稿では,ビデオデータに対する簡易かつ効果的なバックドア攻撃を提案する。
提案する攻撃は,トランスフォーメーション領域に摂動を付加し,映像フレーム全体にわたって知覚不能で時間分散したトリガーを植え込み,既存の防御戦略に弾力性があることが示されている。
提案手法の有効性は,ビデオ認識ベンチマーク ucf101 と hmdb51 と手話認識ベンチマーク greek sign language (gsl) データセットを用いて,様々な既知のモデルを用いた広範囲な実験により実証された。
提案する攻撃に対するいくつかの要因の影響を考察し、広範囲な研究を通じて「集団的損傷」と呼ばれる興味深い効果を見いだした。 Deep neural networks (DNNs) have achieved tremendous success in various applications including video action recognition, yet remain vulnerable to backdoor attacks (Trojans). The backdoor-compromised model will mis-classify to the target class chosen by the attacker when a test instance (from a non-target class) is embedded with a specific trigger, while maintaining high accuracy on attack-free instances. Although there are extensive studies on backdoor attacks against image data, the susceptibility of video-based systems under backdoor attacks remains largely unexplored. Current studies are direct extensions of approaches proposed for image data, e.g., the triggers are independently embedded within the frames, which tend to be detectable by existing defenses. In this paper, we introduce a simple yet effective backdoor attack against video data. Our proposed attack, adding perturbations in a transformed domain, plants an imperceptible, temporally distributed trigger across the video frames, and is shown to be resilient to existing defensive strategies. The effectiveness of the proposed attack is demonstrated by extensive experiments with various well-known models on two video recognition benchmarks, UCF101 and HMDB51, and a sign language recognition benchmark, Greek Sign Language (GSL) dataset. We delve into the impact of several influential factors on our proposed attack and identify an intriguing effect termed "collateral damage" through extensive studies. | 翻訳日:2023-09-04 16:01:22 公開日:2023-09-01 |
# CSM-H-R:相互運用可能なインテリジェントシステムのための推論自動化とプライバシ保護を支援するコンテキストモデリングフレームワーク CSM-H-R: A Context Modeling Framework in Supporting Reasoning Automation for Interoperable Intelligent Systems and Privacy Protection ( http://arxiv.org/abs/2308.11066v2 ) ライセンス: Link先を確認 | Songhui Yue, Xiaoyan Hong, and Randy K. Smith | (参考訳) 大規模システムにおける高レベルコンテキスト(hlc)推論の自動化は、iot時代におけるコンテキストデータの蓄積の鈍化、マルチソースからのデータの融合の傾向、コンテキストベースの意思決定プロセスの内在的複雑さとダイナミズムのために不可欠である。
この問題を軽減するために,実行時のオントロジーと状態と,意味のあるHLCを認識するためのモデル記憶フェーズをプログラム的に組み合わせた自動文脈推論フレームワークCSM-H-Rを提案する。
スマートキャンパス環境におけるインテリジェントエレベータシステムに基づくケーススタディを開発した。
このフレームワークの実装 - csmエンジンとhlc推論をベクトルおよび行列計算に翻訳する実験は、特にコンテキストの動的側面に配慮し、インテリジェントシステム統合における次のレベルの自動化を達成するために、高度な数学的および確率的モデルを使用する可能性を示し、一方で、プライバシー保護サポートはラベル埋め込みによる匿名化と情報相関の低減によって達成される。
この研究のコードは、https://github.com/songhui01/csm-h-rで入手できる。 Automation of High-Level Context (HLC) reasoning for intelligent systems at scale is imperative due to the unceasing accumulation of contextual data in the IoT era, the trend of the fusion of data from multi-sources, and the intrinsic complexity and dynamism of the context-based decision-making process. To mitigate this issue, we propose an automatic context reasoning framework CSM-H-R, which programmatically combines ontologies and states at runtime and the model-storage phase for attaining the ability to recognize meaningful HLC, and the resulting data representation can be applied to different reasoning techniques. Case studies are developed based on an intelligent elevator system in a smart campus setting. An implementation of the framework - a CSM Engine, and the experiments of translating the HLC reasoning into vector and matrix computing especially take care of the dynamic aspects of context and present the potentiality of using advanced mathematical and probabilistic models to achieve the next level of automation in integrating intelligent systems; meanwhile, privacy protection support is achieved by anonymization through label embedding and reducing information correlation. The code of this study is available at: https://github.com/songhui01/CSM-H-R. | 翻訳日:2023-09-04 16:00:40 公開日:2023-09-01 |
# 人工知能は事実チェックに非効率で潜在的に有害である Artificial intelligence is ineffective and potentially harmful for fact checking ( http://arxiv.org/abs/2308.10800v2 ) ライセンス: Link先を確認 | Matthew R. DeVerna, Harry Yaojun Yan, Kai-Cheng Yang, Filippo Menczer | (参考訳) ファクトチェックは誤情報に対する効果的な戦略であるが、その大規模実装はオンライン情報の圧倒的な量によって妨げられる。
近年の人工知能(AI)言語モデルでは,事実確認タスクにおいて顕著な能力を発揮している。
本稿では,一般のaiモデルが生み出すファクトチェックが,事前登録されたランダム化制御実験における政治ニュースの信念や意図に与える影響について検討する。
AIは、偽の見出しを引用する上で合理的に機能するが、参加者が見出しの正確さを識別したり、正確なニュースを共有する能力にはあまり影響しない。
しかし、AIファクトチェッカーは特定のケースでは有害であり、真実の見出しに偽と誤記しているという信念を減らし、不確実な見出しに対する信念を増す。
ポジティブな面では、AIは正しくラベル付けされた真の見出しの共有意図を高める。
参加者がAIのファクトチェックを閲覧してそれを選択するオプションが与えられると、真偽のニュースと偽のニュースの両方を共有する傾向が著しく高くなるが、偽のニュースを信じる傾向は極めて高い。
我々の発見は、AIアプリケーションから生じる潜在的な害の重大な原因を浮き彫りにし、意図しない結果の防止や緩和のための政策のクリティカルな必要性を浮き彫りにしている。 Fact checking can be an effective strategy against misinformation, but its implementation at scale is impeded by the overwhelming volume of information online. Recent artificial intelligence (AI) language models have shown impressive ability in fact-checking tasks, but how humans interact with fact-checking information provided by these models is unclear. Here we investigate the impact of fact checks generated by a popular AI model on belief in, and sharing intent of, political news in a preregistered randomized control experiment. Although the AI performs reasonably well in debunking false headlines, we find that it does not significantly affect participants' ability to discern headline accuracy or share accurate news. However, the AI fact-checker is harmful in specific cases: it decreases beliefs in true headlines that it mislabels as false and increases beliefs for false headlines that it is unsure about. On the positive side, the AI increases sharing intents for correctly labeled true headlines. When participants are given the option to view AI fact checks and choose to do so, they are significantly more likely to share both true and false news but only more likely to believe false news. Our findings highlight an important source of potential harm stemming from AI applications and underscore the critical need for policies to prevent or mitigate such unintended consequences. | 翻訳日:2023-09-04 16:00:18 公開日:2023-09-01 |
# ロバスト自己教師付き表現学習のための独立サブネットワークの多様化 Diversified Ensemble of Independent Sub-Networks for Robust Self-Supervised Representation Learning ( http://arxiv.org/abs/2308.14705v2 ) ライセンス: Link先を確認 | Amirhossein Vahidi, Lisa Wimmer, H\"useyin Anil G\"und\"uz, Bernd Bischl, Eyke H\"ullermeier, Mina Rezaei | (参考訳) ニューラルネットワークの組み立ては、モデルの性能を高め、不確実性を推定し、深い教師付き学習における堅牢性を改善するために広く認識されているアプローチである。
しかし、深いアンサンブルは高い計算コストとメモリ要求を伴うことが多い。
さらに、深層アンサンブルの効率は、大規模で過パラメータの深層ニューラルネットワークに挑戦するアンサンブルメンバー間の多様性に関係している。
さらに、アンサンブル学習は、まだそれほど広く普及していないが、自己監督や教師なし表現学習への挑戦的な取り組みである。
本稿では,これらの課題に動機づけられた,独立したサブネットワークのアンサンブルを活用した,新たな自己教師付き学習レジームを提案する。
提案手法は,高多様性のサブモデルアンサンブルを効率的に構築し,モデル不確かさを適切に評価し,計算オーバーヘッドを最小限に抑え,従来の自己教師型アンサンブルと比較した。
提案手法の有効性を評価するために, 分布の一般化, 分布外検出, データセットの破損, 半教師付き設定など, 様々なタスクにわたる広範囲な実験を行った。
その結果,提案手法は予測信頼性を著しく向上することが示された。
コンピュータビジョン,自然言語処理,ゲノミクスデータなど,多種多様な自己教師型アーキテクチャを網羅し,キャリブレーションを向上する手法を提案する。 Ensembling a neural network is a widely recognized approach to enhance model performance, estimate uncertainty, and improve robustness in deep supervised learning. However, deep ensembles often come with high computational costs and memory demands. In addition, the efficiency of a deep ensemble is related to diversity among the ensemble members which is challenging for large, over-parameterized deep neural networks. Moreover, ensemble learning has not yet seen such widespread adoption, and it remains a challenging endeavor for self-supervised or unsupervised representation learning. Motivated by these challenges, we present a novel self-supervised training regime that leverages an ensemble of independent sub-networks, complemented by a new loss function designed to encourage diversity. Our method efficiently builds a sub-model ensemble with high diversity, leading to well-calibrated estimates of model uncertainty, all achieved with minimal computational overhead compared to traditional deep self-supervised ensembles. To evaluate the effectiveness of our approach, we conducted extensive experiments across various tasks, including in-distribution generalization, out-of-distribution detection, dataset corruption, and semi-supervised settings. The results demonstrate that our method significantly improves prediction reliability. Our approach not only achieves excellent accuracy but also enhances calibration, surpassing baseline performance across a wide range of self-supervised architectures in computer vision, natural language processing, and genomics data. | 翻訳日:2023-09-04 15:49:11 公開日:2023-09-01 |
# 大規模実世界データセットと周波数対応シャドウ消去ネットによる高分解能文書シャドウ除去 High-Resolution Document Shadow Removal via A Large-Scale Real-World Dataset and A Frequency-Aware Shadow Erasing Net ( http://arxiv.org/abs/2308.14221v3 ) ライセンス: Link先を確認 | Zinuo Li, Xuhang Chen, Chi-Man Pun, Xiaodong Cun | (参考訳) デジタルコピーの視覚的品質と可読性に影響を与えるカジュアルな機器で文書をキャプチャしたとき、しばしば影が発生する。
自然なシャドウ除去のアルゴリズムとは異なり、文書シャドウ除去のアルゴリズムはフォントや数字の詳細を高精細な入力で保存する必要がある。
これまでの作業はこの問題を無視し、実際の状況ではうまくいかないような、近似的な注意と小さなデータセットによって影を取り除く。
我々は,大規模実世界データセットと念入りに設計された周波数対応ネットワークを用いて,高解像度文書シャドー除去を直接処理する。
データセットについては、実世界の文書ペアの7k以上の高解像度画像(2462 x 3699)を異なる照明条件下で取得し、既存のデータセットの10倍の大きさである。
ネットワークの設計では、低周波の詳細と高周波境界を注意深く設計されたネットワーク構造を通して効果的に学習できる周波数領域の高解像度画像を分離する。
提案手法は,ネットワークとデータセットを駆使して,視覚品質と数値結果の面で,従来の手法よりも優れた性能を示す。
コード、モデル、データセットは、https://github.com/CXH-Research/DocShadow-SD7Kで入手できる。 Shadows often occur when we capture the documents with casual equipment, which influences the visual quality and readability of the digital copies. Different from the algorithms for natural shadow removal, the algorithms in document shadow removal need to preserve the details of fonts and figures in high-resolution input. Previous works ignore this problem and remove the shadows via approximate attention and small datasets, which might not work in real-world situations. We handle high-resolution document shadow removal directly via a larger-scale real-world dataset and a carefully designed frequency-aware network. As for the dataset, we acquire over 7k couples of high-resolution (2462 x 3699) images of real-world document pairs with various samples under different lighting circumstances, which is 10 times larger than existing datasets. As for the design of the network, we decouple the high-resolution images in the frequency domain, where the low-frequency details and high-frequency boundaries can be effectively learned via the carefully designed network structure. Powered by our network and dataset, the proposed method clearly shows a better performance than previous methods in terms of visual quality and numerical results. The code, models, and dataset are available at: https://github.com/CXH-Research/DocShadow-SD7K | 翻訳日:2023-09-04 15:48:46 公開日:2023-09-01 |
# 増幅・非増幅による強化量子センシング Enhanced quantum sensing with amplification and deamplification ( http://arxiv.org/abs/2309.00177v1 ) ライセンス: Link先を確認 | Min Jiang, Yushu Qin, Yuanhong Wang, Ying Huang, Xinhua Peng, Dmitry Budker | (参考訳) 量子センシングは、量子資源を使用し、精度測定の新しい機会を生み出す現代の技術の基本的な構成要素である。
しかし、従来の手法は通常、検出ノイズレベルは量子資源が提供する本質的な感度以下である、という一般的な仮定を持つ。
ここでは, 急速スピン交換衝突によるアルカリ-金属-貴ガス間のファノ共鳴の最初の実演を報告する。
ファノ共鳴は、スピン増幅とデアンプ化という2つの興味深い現象を引き起こす。
さらに、増幅とデアンプリフィケーションにより強化された量子センシングの新たなスキームを開発し、検出ノイズに対する要求を緩和する。
アルカリ金属と貴ガスの結合系は増幅器や脱増幅器として働き、最終検出前に検出ノイズよりも小さな信号を抽出することができる。
光子ショットノイズの約54デシベルの磁場測定を行い、その感度をfemtoteslaレベルの感度に匹敵することを示した。
我々の研究は、超新星観測の制約を超える感度を持つ超暗黒物質を探索するアプリケーションへの新しい道を開きます。 Quantum sensing is a fundamental building block of modern technology that employs quantum resources and creates new opportunities for precision measurements. However, previous methods usually have a common assumption that detection noise levels should be below the intrinsic sensitivity provided by quantum resources. Here we report the first demonstration of Fano resonance between coupled alkali-metal and noble gases through rapid spin-exchange collisions. The Fano resonance gives rise to two intriguing phenomena: spin amplification and deamplification, which serve as crucial resources for enhanced sensing. Further we develop a novel scheme of quantum sensing enhanced by amplification and deamplification, with relaxed requirements on the detection noise. The coupled systems of alkali-metal and noble gases act as amplifiers or de-amplifiers, enabling to extract small signals above the detection noise before final detection. We demonstrate magnetic-field measurement about 54 decibels below the photon-shot noise, which outperforms the state-of-the-art squeezed-light technology and realizes femtotesla-level sensitivity. Our work opens new avenues to applications in searches for ultralight dark matter with sensitivity well beyond the supernova-observation constraints. | 翻訳日:2023-09-04 15:03:01 公開日:2023-09-01 |
# 自動ファイバ配置におけるギャップと重なり検出 Gap and Overlap Detection in Automated Fiber Placement ( http://arxiv.org/abs/2309.00206v1 ) ライセンス: Link先を確認 | Assef Ghamisi and Homayoun Najjaran | (参考訳) 自動繊維プレースメント(AFP)によって製造される高品質な複合部品の確保には,製造欠陥,特にギャップとオーバーラップの識別と補正が不可欠である。
これらの欠陥は、複合部品全体の品質に大きな影響を及ぼす最も一般的な問題である。
手動検査は時間がかかり、労働集約的であり、非効率なアプローチである。
この課題を克服するため、自動欠陥検出システムの実装が最適なソリューションである。
本稿では,光学コヒーレンス・トモグラフィ(OCT)センサとコンピュータビジョン技術を用いて,複合部品のギャップや重なりを検出する手法を提案する。
提案手法では, 合成テープ(あるいはトウ)の表面上の標高を強調した合成表面の深度マップ画像を生成する。
それぞれのトウの境界を検出することで、連続するトウを比較でき、それらの間に存在する可能性のあるギャップや重複を特定することができる。
予め定義された許容しきい値を超えるギャップや重なりは、製造欠陥とみなされる。
提案手法の性能を評価するため,検出された欠陥と専門家による注釈付き真実を比較した。
その結果,ギャップ分割と重なり分割において高い精度と効率が得られた。 The identification and correction of manufacturing defects, particularly gaps and overlaps, are crucial for ensuring high-quality composite parts produced through Automated Fiber Placement (AFP). These imperfections are the most commonly observed issues that can significantly impact the overall quality of the composite parts. Manual inspection is both time-consuming and labor-intensive, making it an inefficient approach. To overcome this challenge, the implementation of an automated defect detection system serves as the optimal solution. In this paper, we introduce a novel method that uses an Optical Coherence Tomography (OCT) sensor and computer vision techniques to detect and locate gaps and overlaps in composite parts. Our approach involves generating a depth map image of the composite surface that highlights the elevation of composite tapes (or tows) on the surface. By detecting the boundaries of each tow, our algorithm can compare consecutive tows and identify gaps or overlaps that may exist between them. Any gaps or overlaps exceeding a predefined tolerance threshold are considered manufacturing defects. To evaluate the performance of our approach, we compare the detected defects with the ground truth annotated by experts. The results demonstrate a high level of accuracy and efficiency in gap and overlap segmentation. | 翻訳日:2023-09-04 14:52:16 公開日:2023-09-01 |
# 線形プログラムの次元性低減のためのデータ駆動投影:一般化境界と学習法 Data-Driven Projection for Reducing Dimensionality of Linear Programs: Generalization Bound and Learning Methods ( http://arxiv.org/abs/2309.00203v1 ) ライセンス: Link先を確認 | Shinsaku Sakaue, Taihei Oki | (参考訳) 本稿では,高次元線形プログラム(LP)に対する単純なデータ駆動型アプローチについて検討する。
過去の$n$-次元LPのデータから、$n\times k$ \textit{projection matrix} (n > k$)を学ぶと、次元は$n$から$k$に減少する。
次に、$k$-dimensional LPを解き、プロジェクション行列を乗算して$n$-dimensional の解を復元することにより、将来のLPインスタンスに対処する。
このアイデアは、ユーザ優先のLPソルバと互換性があり、高速LPソルバに対する汎用的なアプローチである。
1つの自然な疑問は、回復したソリューションの品質を保証するのに十分なデータ量である。
この問題は、一般化保証に十分なデータの量と性能指標の \textit{pseudo-dimension} を関連づける、 \textit{data-driven algorithm design} という考え方に基づいている。
擬似次元上の$\tilde{\mathrm{o}}(nk^2)$アッパーバウンド(\tilde{\mathrm{o}}$ 対数因子を圧縮する)を示し、$\omega(nk)$ の下限で補完する。
実用面では,PCA法と勾配法という,投影行列を学習するための2つの自然な手法について検討する。
前者はシンプルで効率的だが、後者は時により良いソリューション品質をもたらす。
実験により、学習した投影行列は、高い溶液品質を維持しながらLPを解く時間を削減するのに有用であることが確認された。 This paper studies a simple data-driven approach to high-dimensional linear programs (LPs). Given data of past $n$-dimensional LPs, we learn an $n\times k$ \textit{projection matrix} ($n > k$), which reduces the dimensionality from $n$ to $k$. Then, we address future LP instances by solving $k$-dimensional LPs and recovering $n$-dimensional solutions by multiplying the projection matrix. This idea is compatible with any user-preferred LP solvers, hence a versatile approach to faster LP solving. One natural question is: how much data is sufficient to ensure the recovered solutions' quality? We address this question based on the idea of \textit{data-driven algorithm design}, which relates the amount of data sufficient for generalization guarantees to the \textit{pseudo-dimension} of performance metrics. We present an $\tilde{\mathrm{O}}(nk^2)$ upper bound on the pseudo-dimension ($\tilde{\mathrm{O}}$ compresses logarithmic factors) and complement it by an $\Omega(nk)$ lower bound, hence tight up to an $\tilde{\mathrm{O}}(k)$ factor. On the practical side, we study two natural methods for learning projection matrices: PCA- and gradient-based methods. While the former is simple and efficient, the latter sometimes leads to better solution quality. Experiments confirm that learned projection matrices are beneficial for reducing the time for solving LPs while maintaining high solution quality. | 翻訳日:2023-09-04 14:51:57 公開日:2023-09-01 |
# 教師なし機械学習モデル選択における主観性 Subjectivity in Unsupervised Machine Learning Model Selection ( http://arxiv.org/abs/2309.00201v1 ) ライセンス: Link先を確認 | Wanyi Chen, Mary L. Cummings | (参考訳) モデル選択は教師なし機械学習における必要なステップである。
多くの基準とメトリクスにもかかわらず、モデルの選択は主観的である。
高い主観性は、様々な機械学習研究の再現性と再現性に関する疑問と、現実世界に展開されるモデルの堅牢性に関する疑念を引き起こす可能性がある。
しかし、モデル選択結果に対するモデラーの選好の影響はほとんど未定である。
本研究では、モデル選択に関わる主観性を調べる例として、隠れマルコフモデルを用いる。
33人の参加者と3つの大規模言語モデル(llm)に3つのシナリオでモデル選択を依頼しました。
その結果, 参加者の選択とLCMの選択の相違, 特に基準と基準の相違が認められた。
主観性源には、異なる基準とメトリクスの重要性に関するさまざまな意見、モデルの特化性に関するさまざまな見解、データセットのサイズがモデル選択にどのように影響するかなどが含まれる。
結果は、モデル選択プロセスで行った主観的な選択を文書化するより標準化された方法を開発することの重要性を強調している。 Model selection is a necessary step in unsupervised machine learning. Despite numerous criteria and metrics, model selection remains subjective. A high degree of subjectivity may lead to questions about repeatability and reproducibility of various machine learning studies and doubts about the robustness of models deployed in the real world. Yet, the impact of modelers' preferences on model selection outcomes remains largely unexplored. This study uses the Hidden Markov Model as an example to investigate the subjectivity involved in model selection. We asked 33 participants and three Large Language Models (LLMs) to make model selections in three scenarios. Results revealed variability and inconsistencies in both the participants' and the LLMs' choices, especially when different criteria and metrics disagree. Sources of subjectivity include varying opinions on the importance of different criteria and metrics, differing views on how parsimonious a model should be, and how the size of a dataset should influence model selection. The results underscore the importance of developing a more standardized way to document subjective choices made in model selection processes. | 翻訳日:2023-09-04 14:51:25 公開日:2023-09-01 |
# 食品画像生成のためのクラスタリングに基づく拡散モデル Diffusion Model with Clustering-based Conditioning for Food Image Generation ( http://arxiv.org/abs/2309.00199v1 ) ライセンス: Link先を確認 | Yue Han, Jiangpeng He, Mridul Gupta, Edward J. Delp, Fengqing Zhu | (参考訳) イメージベースの食事アセスメントは、摂食時イメージを入力として、栄養摂取を記録および分析するための効率的かつ正確なソリューションである。
深層学習に基づく手法は、食品分類、セグメンテーション、部分サイズ推定などの画像解析に一般的に用いられ、大量の食品画像とトレーニング用アノテーションに依存している。
しかし、そのようなデータ依存は、実質的で多様性があり、バランスのとれた食品画像の集合を取得することは、現実のアプリケーションにとって重大な障壁となる。
潜在的な解決策の1つは、データ拡張に合成食品画像を使用することである。
既存の研究はgan(generative adversarial network)を基盤とした構造を生成に用いてきたが、食品画像の品質はいまだに劣っていない。
また,拡散型生成モデルでは,一般的な画像生成タスクには有望な結果が得られたが,食品画像の生成はクラス内変異が大きいため困難である。
本稿では,条件拡散モデルに基づく合成食品画像の生成について検討し,高品質で代表的な食品画像を生成するための効果的なクラスタリングベースのトレーニングフレームワークClusDiffを提案する。
提案手法は,food-101データセット上で評価され,既存の画像生成手法と比較して性能が向上した。
また,ClusDiffが生成した合成食品画像は,VFN-LTデータセットを用いた長期食品分類における厳密なクラス不均衡問題に対処できることを示した。 Image-based dietary assessment serves as an efficient and accurate solution for recording and analyzing nutrition intake using eating occasion images as input. Deep learning-based techniques are commonly used to perform image analysis such as food classification, segmentation, and portion size estimation, which rely on large amounts of food images with annotations for training. However, such data dependency poses significant barriers to real-world applications, because acquiring a substantial, diverse, and balanced set of food images can be challenging. One potential solution is to use synthetic food images for data augmentation. Although existing work has explored the use of generative adversarial networks (GAN) based structures for generation, the quality of synthetic food images still remains subpar. In addition, while diffusion-based generative models have shown promising results for general image generation tasks, the generation of food images can be challenging due to the substantial intra-class variance. In this paper, we investigate the generation of synthetic food images based on the conditional diffusion model and propose an effective clustering-based training framework, named ClusDiff, for generating high-quality and representative food images. The proposed method is evaluated on the Food-101 dataset and shows improved performance when compared with existing image generation works. We also demonstrate that the synthetic food images generated by ClusDiff can help address the severe class imbalance issue in long-tailed food classification using the VFN-LT dataset. | 翻訳日:2023-09-04 14:51:07 公開日:2023-09-01 |
# 石油生産最適化のための深層学習に基づく早期固定:監督的および弱監督的アプローチ Deep-learning-based Early Fixing for Gas-lifted Oil Production Optimization: Supervised and Weakly-supervised Approaches ( http://arxiv.org/abs/2309.00197v1 ) ライセンス: Link先を確認 | Bruno Machado Pacheco and Laio Oriel Seman and Eduardo Camponogara | (参考訳) ガス回収油井からの石油生産の最大化には、混合整数線形計画(MILP)の解決が必要である。
基礎沈降水比やガス・油比などの井戸のパラメータが更新されるため、問題を繰り返し解決する必要がある。
本稿では,一般近似法のコストのかかる方法や精度に頼らず,様々なパラメータが与えられたすべての整数変数に値を提供し,整数変数を早期に固定し,元の問題を線形プログラム (lp) に還元するように訓練したディープラーニングモデルに基づく,仕立て型ヒューリスティック解を提案する。
学習に基づくヒューリスティックを開発するための2つのアプローチを提案する:教師あり学習アプローチは、トレーニングセット内の元の問題に最適な整数値を必要とするが、弱い教師あり学習アプローチは、整数変数にランダムに代入された初期固定線形問題に対する解のみを必要とする。
さらに, トレーニング中に最適な値が見つからなかったにもかかわらず, 早期修正には弱い教師付き学習モデルが有意な値を与えた。 Maximizing oil production from gas-lifted oil wells entails solving Mixed-Integer Linear Programs (MILPs). As the parameters of the wells, such as the basic-sediment-to-water ratio and the gas-oil ratio, are updated, the problems must be repeatedly solved. Instead of relying on costly exact methods or the accuracy of general approximate methods, in this paper, we propose a tailor-made heuristic solution based on deep learning models trained to provide values to all integer variables given varying well parameters, early-fixing the integer variables and, thus, reducing the original problem to a linear program (LP). We propose two approaches for developing the learning-based heuristic: a supervised learning approach, which requires the optimal integer values for several instances of the original problem in the training set, and a weakly-supervised learning approach, which requires only solutions for the early-fixed linear problems with random assignments for the integer variables. Our results show a runtime reduction of 71.11% Furthermore, the weakly-supervised learning model provided significant values for early fixing, despite never seeing the optimal values during training. | 翻訳日:2023-09-04 14:50:43 公開日:2023-09-01 |
# wikipediaの複数言語版における参照信頼性の比較研究 A Comparative Study of Reference Reliability in Multiple Language Editions of Wikipedia ( http://arxiv.org/abs/2309.00196v1 ) ライセンス: Link先を確認 | Aitolkyn Baigutanova, Diego Saez-Trumper, Miriam Redi, Meeyoung Cha, Pablo Arag\'on | (参考訳) ウィキペディアの記事に掲載される情報は、参照の形で信頼できる出版元に帰属しなければならない。
本研究は,複数言語版における参照の信頼性を評価するために,500万以上のウィキペディア記事について検討する。
我々は、ウィキペディア編集者によって合意されたwebドメインの信頼性ラベルのコレクションであるperennial sources listのクロスリンガルパターンを定量化する。
ある言語(すなわち英語)で信頼できないと見なされる一部のソース(あるいはwebドメイン)が、他の言語の記事でも引き続き現れ続けていることが分かりました。
この傾向は、特に小さなコミュニティ向けに調整された情報源によって顕著である。
さらに、あるページの英語バージョンに見られる権威のない情報源は、そのページの他の言語バージョンで持続する傾向がある。
最後に,中国語,ロシア語,スウェーデン語のウィキペディアを事例として,文化間の参照信頼性の相違を示す。
情報源信頼性に関するグローバル知識のコーディネートにおける今後の課題に注目した。 Information presented in Wikipedia articles must be attributable to reliable published sources in the form of references. This study examines over 5 million Wikipedia articles to assess the reliability of references in multiple language editions. We quantify the cross-lingual patterns of the perennial sources list, a collection of reliability labels for web domains identified and collaboratively agreed upon by Wikipedia editors. We discover that some sources (or web domains) deemed untrustworthy in one language (i.e., English) continue to appear in articles in other languages. This trend is especially evident with sources tailored for smaller communities. Furthermore, non-authoritative sources found in the English version of a page tend to persist in other language versions of that page. We finally present a case study on the Chinese, Russian, and Swedish Wikipedias to demonstrate a discrepancy in reference reliability across cultures. Our finding highlights future challenges in coordinating global knowledge on source reliability. | 翻訳日:2023-09-04 14:50:21 公開日:2023-09-01 |
# DARC: 一般化可能な核分割のための分布認識再構成モデル DARC: Distribution-Aware Re-Coloring Model for Generalizable Nucleus Segmentation ( http://arxiv.org/abs/2309.00188v1 ) ライセンス: Link先を確認 | Shengcong Chen, Changxing Ding, Dacheng Tao, Hao Chen | (参考訳) 核セグメンテーションは通常、病理画像解析タスクの第一段階である。
一般化可能な核分割は、ソースとターゲットドメイン間のドメインギャップに対して堅牢なセグメンテーションモデルをトレーニングする問題を指す。
ドメインギャップは通常、様々なスキャナー、組織、染色プロトコルなどの様々な画像取得条件によって引き起こされると考えられている。
本稿では,この比率が正規化層に重要な特徴統計に大きく影響するため,前景(核)-裏面比の違いによってもドメインギャップが生じる可能性があることを論じる。
本稿では,上記の課題を2つの視点から扱うDARCモデルを提案する。
まず,異なる領域間の劇的な画像色変化を緩和する再彩色法を提案する。
次に,前景-背景比の変動に頑健な新しいインスタンス正規化手法を提案する。
我々は,2つのH$\&$E染色画像データセットであるCoNSePとCPM17と,DeepLIIFとBC-DeepLIIFという2つのIHC染色画像データセットについて評価を行った。
DARCモデルの有効性を定量的に検証した。
コードは \url{https://github.com/csccsccsccsc/DARC Nucleus segmentation is usually the first step in pathological image analysis tasks. Generalizable nucleus segmentation refers to the problem of training a segmentation model that is robust to domain gaps between the source and target domains. The domain gaps are usually believed to be caused by the varied image acquisition conditions, e.g., different scanners, tissues, or staining protocols. In this paper, we argue that domain gaps can also be caused by different foreground (nucleus)-background ratios, as this ratio significantly affects feature statistics that are critical to normalization layers. We propose a Distribution-Aware Re-Coloring (DARC) model that handles the above challenges from two perspectives. First, we introduce a re-coloring method that relieves dramatic image color variations between different domains. Second, we propose a new instance normalization method that is robust to the variation in foreground-background ratios. We evaluate the proposed methods on two H$\&$E stained image datasets, named CoNSeP and CPM17, and two IHC stained image datasets, called DeepLIIF and BC-DeepLIIF. Extensive experimental results justify the effectiveness of our proposed DARC model. Codes are available at \url{https://github.com/csccsccsccsc/DARC | 翻訳日:2023-09-04 14:50:05 公開日:2023-09-01 |
# 揺動テーブル試験のための視覚支援非線形制御フレームワーク Vision-aided nonlinear control framework for shake table tests ( http://arxiv.org/abs/2309.00187v1 ) ライセンス: Link先を確認 | Zhongwei Chen, T.Y. Yang, Yifei Xiao, Xiao Pan, Wanyan Yang | (参考訳) 地震励起下の構造応答は、スケールダウンモデルシェイクテーブルテストまたはフルスケールモデルシェイクテーブルテストによってシミュレートすることができる。
本稿では,適応制御理論を非線形シェイクテーブル制御アルゴリズムとして使用し,シェイクテーブルシステムの固有非線形性と,線形コントローラが考慮できない制御-構造間相互作用(csi)効果,例えば比例積分-導出(pid)制御などについて検討する。
標本の質量は未知の変量と見なすことができ、未知のパラメータは提案した制御フレームワークで推定値に置き換えられる。
適応制御法の制御則によって生成された信号はループシェーピング制御によって実装される。
提案する制御フレームワークの安定性と実現性を検証するため,裸振テーブルのシミュレーションと2階建てフレームを用いた裸振テーブルを用いた実験を行った。
本研究では,太平洋地震工学研究センター(PEER)データベースから地震記録をランダムに選択する。
シミュレーションおよび実験結果から,提案した制御フレームワークは揺動テーブル制御に有効であることが示された。 The structural response under the earthquake excitations can be simulated by scaled-down model shake table tests or full-scale model shake table tests. In this paper, adaptive control theory is used as a nonlinear shake table control algorithm which considers the inherent nonlinearity of the shake table system and the Control-Structural Interaction (CSI) effect that the linear controller cannot consider, such as the Proportional-Integral-Derivative (PID) controller. The mass of the specimen can be assumed as an unknown variation and the unknown parameter will be replaced by an estimated value in the proposed control framework. The signal generated by the control law of the adaptive control method will be implemented by a loop-shaping controller. To verify the stability and feasibility of the proposed control framework, a simulation of a bare shake table and experiments with a bare shake table with a two-story frame were carried out. This study randomly selects Earthquake recordings from the Pacific Earthquake Engineering Research Center (PEER) database. The simulation and experimental results show that the proposed control framework can be effectively used in shake table control. | 翻訳日:2023-09-04 14:49:42 公開日:2023-09-01 |
# テキスト地理情報の法則の探索 Exploring the law of text geographic information ( http://arxiv.org/abs/2309.00180v1 ) ライセンス: Link先を確認 | Zhenhua Wang, Daiyu Zhang, Ming Ren, Guang Xu | (参考訳) テキストの地理情報は不可欠であり、実用的な用途に大きく依存している。
明確な分布の欠如は、地理的情報を効果的に活用することの難しさを生んでいる。
我々は、地理的情報は人間の行動、認知、表現、思考プロセスに影響され、自然システムに対する直感的な理解から、ガンマ分布との整合性を仮定する。
異なる言語や型を含む24種類のデータセットの厳密な実験を通じて、この仮説を実証し、地理的情報における量、長さ、距離の次元を規定する基礎となる規則性を発掘した。
さらに、ガウス分布とジップの法則との理論的解析と比較は、これらの法則の偶発性を否定している。
地理的情報の人的利用の上限を推定し,未耕地の存在を示唆した。
また,地理情報抽出のガイダンスも提供する。
地理的情報の脆弱性を明らかにする真のカウントナンスを見極めてほしい。 Textual geographic information is indispensable and heavily relied upon in practical applications. The absence of clear distribution poses challenges in effectively harnessing geographic information, thereby driving our quest for exploration. We contend that geographic information is influenced by human behavior, cognition, expression, and thought processes, and given our intuitive understanding of natural systems, we hypothesize its conformity to the Gamma distribution. Through rigorous experiments on a diverse range of 24 datasets encompassing different languages and types, we have substantiated this hypothesis, unearthing the underlying regularities governing the dimensions of quantity, length, and distance in geographic information. Furthermore, theoretical analyses and comparisons with Gaussian distributions and Zipf's law have refuted the contingency of these laws. Significantly, we have estimated the upper bounds of human utilization of geographic information, pointing towards the existence of uncharted territories. Also, we provide guidance in geographic information extraction. Hope we peer its true countenance uncovering the veil of geographic information. | 翻訳日:2023-09-04 14:49:25 公開日:2023-09-01 |
# 感覚分析はサブカルチャーを必要とするか?
新しいデータ拡張アプローチ Will Sentiment Analysis Need Subculture? A New Data Augmentation Approach ( http://arxiv.org/abs/2309.00178v1 ) ライセンス: Link先を確認 | Zhenhua Wang, Simin He, Guang Xu, Ming Ren | (参考訳) 「このペンは剣より強い」という有名な証拠は、感情を形作る際にテキスト表現によって引き起こされる恐ろしい影響を浮き彫りにしている。
実際、熟練した文章は文化の中で深く共鳴し、深い感情を伝える。
今日、インターネットの全盛期は、現代ミリュー周辺に集まるサブカルチャーを育んでいる。
サブカルチャーは、人間の感情分析では無視できない事実である新規性の魅力を熱心に追求することで、人間の感情の複雑さを巧みに表現する。
本稿では,感情分析が直面するトレーニングデータ不足に対処するため,サブカルチャーのレンズを通してのデータ豊か化に努める。
この目的のために,6種類のサブカルチャー表現生成器の作成を活用し,各学習テキストに6つの拡張テキストを付与するサブカルチャーベースデータ拡張 (scda) の新たなアプローチを提案する。
広範な実験はscdaの有効性と可能性を証明する。
結果は、異なるサブカルチャー表現が感情刺激の度合いを誘導する現象にも光を当てた。
さらに興味深い予想が生まれ、あるサブカルチャー表現の線形可逆性が示唆される。
この研究は情報・感情・文化のタペストリーに対する知覚の高まりを育み、それによって集団的な理解を深める上での触媒となると、我々の熱心な願望である。 The renowned proverb that "The pen is mightier than the sword" underscores the formidable influence wielded by text expressions in shaping sentiments. Indeed, well-crafted written can deeply resonate within cultures, conveying profound sentiments. Nowadays, the omnipresence of the Internet has fostered a subculture that congregates around the contemporary milieu. The subculture artfully articulates the intricacies of human feelings by ardently pursuing the allure of novelty, a fact that cannot be disregarded in the sentiment analysis. This paper strives to enrich data through the lens of subculture, to address the insufficient training data faced by sentiment analysis. To this end, a new approach of subculture-based data augmentation (SCDA) is proposed, which engenders six enhanced texts for each training text by leveraging the creation of six diverse subculture expression generators. The extensive experiments attest to the effectiveness and potential of SCDA. The results also shed light on the phenomenon that disparate subculture expressions elicit varying degrees of sentiment stimulation. Moreover, an intriguing conjecture arises, suggesting the linear reversibility of certain subculture expressions. It is our fervent aspiration that this study serves as a catalyst in fostering heightened perceptiveness towards the tapestry of information, sentiment and culture, thereby enriching our collective understanding. | 翻訳日:2023-09-04 14:49:10 公開日:2023-09-01 |
# JoTR:対話政策学習のための共同トランスフォーマーと強化学習フレームワーク JoTR: A Joint Transformer and Reinforcement Learning Framework for Dialog Policy Learning ( http://arxiv.org/abs/2309.00230v1 ) ライセンス: Link先を確認 | Wai-Chung Kwan, Huimin Wang, Hongru Wang, Zezhong Wang, Xian Wu, Yefeng Zheng, Kam-Fai Wong | (参考訳) 対話政策学習(DPL)は対話モデリングの重要な構成要素である。
その主な役割は適切な抽象的反応(一般に「対話行動」と呼ばれる)を決定することである。
従来のDPL手法では、コーパスから抽出された事前定義されたアクション候補を用いて、これをシーケンシャルな決定問題として扱ってきた。
しかしながら、これらの不完全な候補は応答の多様性を著しく制限し、極端な操作パラメータでのみ発生するシナリオであるエッジケースを扱う際の課題を提起することができる。
これらの制約に対処するために、新しいフレームワーク、JoTRを紹介します。
このフレームワークは、テキストからテキストへのトランスフォーマーベースのモデルを利用してフレキシブルな対話アクションを生成する。
従来の方法とは異なり、JoTRはアクションテンプレートを必要とせずによりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
この設定は応答の多様性を高め、エッジケースを効果的に処理するシステムの能力を向上させる。
さらに、jotrは強化学習を用いて、単語レベルの対話ポリシーを効率的に微調整し、モデルがその相互作用から学ぶことができ、時間とともにパフォーマンスが向上する。
有効性を評価するため,JoTRの広範囲な評価を行った。
評価の結果,JoTRは2つのベンチマーク対話モデルタスクにおいて,ユーザシミュレータと人的評価器の両方で評価され,最先端の性能を達成できた。 Dialogue policy learning (DPL) is a crucial component of dialogue modelling. Its primary role is to determine the appropriate abstract response, commonly referred to as the "dialogue action". Traditional DPL methodologies have treated this as a sequential decision problem, using pre-defined action candidates extracted from a corpus. However, these incomplete candidates can significantly limit the diversity of responses and pose challenges when dealing with edge cases, which are scenarios that occur only at extreme operating parameters. To address these limitations, we introduce a novel framework, JoTR. This framework is unique as it leverages a text-to-text Transformer-based model to generate flexible dialogue actions. Unlike traditional methods, JoTR formulates a word-level policy that allows for a more dynamic and adaptable dialogue action generation, without the need for any action templates. This setting enhances the diversity of responses and improves the system's ability to handle edge cases effectively. In addition, JoTR employs reinforcement learning with a reward-shaping mechanism to efficiently finetune the word-level dialogue policy, which allows the model to learn from its interactions, improving its performance over time. We conducted an extensive evaluation of JoTR to assess its effectiveness. Our extensive evaluation shows that JoTR achieves state-of-the-art performance on two benchmark dialogue modelling tasks, as assessed by both user simulators and human evaluators. | 翻訳日:2023-09-04 14:43:29 公開日:2023-09-01 |
# オープンボキャブラリー・ディテクターの作り方:分解的視点 What Makes Good Open-Vocabulary Detector: A Disassembling Perspective ( http://arxiv.org/abs/2309.00227v1 ) ライセンス: Link先を確認 | Jincheng Li, Chunyu Xie, Xiaoyu Wu, Bin Wang, Dawei Leng | (参考訳) open-vocabulary detection (ovd) は新しいオブジェクト検出パラダイムであり、未境界語彙によって定義された未認識のオブジェクトをローカライズし認識することを目的としている。
従来の検出器は定義済みのカテゴリからしか学べず、定義済みの語彙からオブジェクトを検出してローカライズできないため、これは難しい。
この課題に対処するため、OVDはCLIP、ALIGNなどのトレーニング済みのクロスモーダルVLMを活用する。
先行研究は主にオープン語彙分類に焦点をあて、局所化にはあまり注意を払わない。
我々は、優れたovd検出器では、分類と局所化の両方が、新しい対象カテゴリに対して並列に研究されるべきであると主張する。
本研究は, 局所化とクロスモーダル分類の改善が相互に補完し, 良好なOVD検出器を共同で構成することを示す。
我々は3種類のOVD法を異なる設計相で解析する。
まず,ローカライザーによって得られた境界ボックスを切り取り,それをクリップに再サイズするバニラ法を提案する。
次に、標準的な2段階オブジェクト検出器とCLIPを組み合わせた別のアプローチを紹介する。
2段物検出器は、視覚バックボーン、領域提案ネットワーク(RPN)、関心領域(RoI)ヘッドを含む。
RPNとROIヘッド(DRR)を分離し,RoIAlignを用いて意味のある特徴を抽出する。
この場合、オブジェクトのリサイズを回避する。
さらにトレーニング時間を短縮し,モデルのパラメータを削減するため,RPNとROIヘッド(CRR)を第3のアプローチとして組み合わせた。
これらの3種類のアプローチについて、異なる設定で広範な実験を行う。
OVD-COCOベンチマークでは、DRRは最高の性能を獲得し、以前のSOTA(State-of-the-art)よりも2.8倍の35.8ノベルAP$_{50}$を達成した。
OVD-LVIS の場合、DRR はレア圏において以前の SOTA を 1.9 AP$_{50}$ で上回る。
また、PIDと呼ばれるオブジェクト検出データセットを提供し、PIDのベースラインを提供する。 Open-vocabulary detection (OVD) is a new object detection paradigm, aiming to localize and recognize unseen objects defined by an unbounded vocabulary. This is challenging since traditional detectors can only learn from pre-defined categories and thus fail to detect and localize objects out of pre-defined vocabulary. To handle the challenge, OVD leverages pre-trained cross-modal VLM, such as CLIP, ALIGN, etc. Previous works mainly focus on the open vocabulary classification part, with less attention on the localization part. We argue that for a good OVD detector, both classification and localization should be parallelly studied for the novel object categories. We show in this work that improving localization as well as cross-modal classification complement each other, and compose a good OVD detector jointly. We analyze three families of OVD methods with different design emphases. We first propose a vanilla method,i.e., cropping a bounding box obtained by a localizer and resizing it into the CLIP. We next introduce another approach, which combines a standard two-stage object detector with CLIP. A two-stage object detector includes a visual backbone, a region proposal network (RPN), and a region of interest (RoI) head. We decouple RPN and ROI head (DRR) and use RoIAlign to extract meaningful features. In this case, it avoids resizing objects. To further accelerate the training time and reduce the model parameters, we couple RPN and ROI head (CRR) as the third approach. We conduct extensive experiments on these three types of approaches in different settings. On the OVD-COCO benchmark, DRR obtains the best performance and achieves 35.8 Novel AP$_{50}$, an absolute 2.8 gain over the previous state-of-the-art (SOTA). For OVD-LVIS, DRR surpasses the previous SOTA by 1.9 AP$_{50}$ in rare categories. We also provide an object detection dataset called PID and provide a baseline on PID. | 翻訳日:2023-09-04 14:43:04 公開日:2023-09-01 |
# 忠実度99 %を超えるシリコン二重量子ドットにおける高速単発パリティスピンリードアウト Rapid single-shot parity spin readout in a silicon double quantum dot with fidelity exceeding 99 % ( http://arxiv.org/abs/2309.00225v1 ) ライセンス: Link先を確認 | Kenta Takeda, Akito Noiri, Takashi Nakajima, Leon C. Camenzind, Takashi Kobayashi, Amir Sammak, Giordano Scappucci, and Seigo Tarucha | (参考訳) シリコンベースのスピン量子ビットは、半導体製造技術との互換性のため、スケーラブルな量子コンピュータを実現するための潜在的経路を提供する。
このシステムにおける最近の実験は、高忠実度量子ゲートやマルチビット演算を含む重要な技術を示している。
しかし、フォールトトレラント量子コンピュータの実現には、デコヒーレンスよりも高速に高忠実なスピン測定が必要となる。
この課題に対処するために,パリティモードパウリスピン遮断法を用いて初期化と測定手順を特徴付け,最適化する。
ここでは、シリコン二重量子ドットにおいて、高速(数米国)で正確(99%以上)なパリティスピンの測定を示す。
これらの結果は,シリコンにおける測定に基づく量子誤差補正の実現に向けた重要な一歩である。 Silicon-based spin qubits offer a potential pathway toward realizing a scalable quantum computer owing to their compatibility with semiconductor manufacturing technologies. Recent experiments in this system have demonstrated crucial technologies, including high-fidelity quantum gates and multiqubit operation. However, the realization of a fault-tolerant quantum computer requires a high-fidelity spin measurement faster than decoherence. To address this challenge, we characterize and optimize the initialization and measurement procedures using the parity-mode Pauli spin blockade technique. Here, we demonstrate a rapid (with a duration of a few us) and accurate (with >99% fidelity) parity spin measurement in a silicon double quantum dot. These results represent a significant step forward toward implementing measurement-based quantum error correction in silicon. | 翻訳日:2023-09-04 14:42:31 公開日:2023-09-01 |
# blizzard 2023チャレンジにおけるフランスのフルーツシェル合成システム The FruitShell French synthesis system at the Blizzard 2023 Challenge ( http://arxiv.org/abs/2309.00223v1 ) ライセンス: Link先を確認 | Xin Qi, Xiaopeng Wang, Zhiyong Wang, Wang Liu, Mingming Ding, Shuchen Shi | (参考訳) 本稿では,Blizzard Challenge 2023のためのフランス語音声合成システムを提案する。
課題は、女性話者から高品質な音声を生成することと、特定の個人によく似た音声を生成することである。
競合データについては,欠落したテキストデータや誤テキストデータを除去するスクリーニング処理を行った。
音素以外のすべての記号を整理し,発音や持続時間を持たない記号を除去した。
さらに、テキストに単語境界と開始/終了記号を追加し、過去の経験を基にした音声品質の向上を図った。
Spokeタスクでは,競合ルールに従ってデータ拡張を行った。
我々は、オープンソースのG2Pモデルを使用して、フランス語のテキストを音素に書き起こした。
G2PモデルはIPA(International Phonetic Alphabet)を用いており、提案した競合データに同じ書き起こし処理を適用して標準化した。
しかし、ipaチャートから特殊記号を認識するコンパイラの制限のため、我々は全ての音素を競合データで使用される音素スキームに変換する規則に従った。
最後に,全競合音声を均一サンプリングレート16kHzに再サンプリングした。
ハイフィガンボコーダを用いたVITSを用いた音響モデルを用いた。
Spokeタスクでは,複数話者モデルを訓練し,モデルの持続時間予測器,ボコーダ,フロー層に話者情報を組み込んだ。
システム評価の結果,Hubタスクが3.6,Spokeタスクが3.4,システムの平均レベルが全参加チーム中の平均値となった。 This paper presents a French text-to-speech synthesis system for the Blizzard Challenge 2023. The challenge consists of two tasks: generating high-quality speech from female speakers and generating speech that closely resembles specific individuals. Regarding the competition data, we conducted a screening process to remove missing or erroneous text data. We organized all symbols except for phonemes and eliminated symbols that had no pronunciation or zero duration. Additionally, we added word boundary and start/end symbols to the text, which we have found to improve speech quality based on our previous experience. For the Spoke task, we performed data augmentation according to the competition rules. We used an open-source G2P model to transcribe the French texts into phonemes. As the G2P model uses the International Phonetic Alphabet (IPA), we applied the same transcription process to the provided competition data for standardization. However, due to compiler limitations in recognizing special symbols from the IPA chart, we followed the rules to convert all phonemes into the phonetic scheme used in the competition data. Finally, we resampled all competition audio to a uniform sampling rate of 16 kHz. We employed a VITS-based acoustic model with the hifigan vocoder. For the Spoke task, we trained a multi-speaker model and incorporated speaker information into the duration predictor, vocoder, and flow layers of the model. The evaluation results of our system showed a quality MOS score of 3.6 for the Hub task and 3.4 for the Spoke task, placing our system at an average level among all participating teams. | 翻訳日:2023-09-04 14:42:19 公開日:2023-09-01 |
# 古典的到着時間の運動変形 Moyal deformation of the classical arrival time ( http://arxiv.org/abs/2309.00222v1 ) ライセンス: Link先を確認 | Dean Alvin L. Pablico and Eric A. Galapon | (参考訳) 到着の量子時間(TOA)問題は、粒子の初期状態のみが与えられた到着時間の統計を必要とする。
量子論の標準的な枠組みに従うと、この問題は古典的到着時間である$\mathcal{t}_c(q,p)$の適切な量子画像を見つけることに変換され、通常演算子形式は$\hat{\mathrm{t}}$となる。
本稿では、量子力学の位相空間定式化における問題を新たに考察する。
得られた量子画像は実数値で時間反転対称関数 $\mathcal{T}_M(q,p)$ の形式的級数$\hbar^2$ であり、古典的到着時刻を主項とする。
これはハミルトニアン系とのモヤルブラケット関係から得られ、したがって古典的TOAのモヤル変形として解釈される。
最後に、$\mathcal{T}_M(q,p)$ は、最近[Eur] で構築されたヒルベルト空間 TOA 作用素に同型であることを示す。
Phys
J. Plus \textbf{138}, 153 (2023)] は正準量子化とは独立である。 The quantum time of arrival (TOA) problem requires a statistics of measured arrival times given only a particle's initial state. Following the standard framework of quantum theory, the problem translates into finding an appropriate quantum image of the classical arrival time $\mathcal{T}_C(q,p)$, usually in operator form $\hat{\mathrm{T}}$. In this paper, we consider the problem anew within the phase space formulation of quantum mechanics. The resulting quantum image is a real-valued and time-reversal symmetric function $\mathcal{T}_M(q,p)$ in formal series of $\hbar^2$ with the classical arrival time as the leading term. It is obtained from the Moyal bracket relation with the system Hamiltonian and is hence interpreted as a Moyal deformation of the classical TOA. Finally, we show that $\mathcal{T}_M(q,p)$ is isomorphic to the rigged Hilbert space TOA operator constructed recently in [Eur. Phys. J. Plus \textbf{138}, 153 (2023)] independent of canonical quantization. | 翻訳日:2023-09-04 14:41:57 公開日:2023-09-01 |
# 大都市圏におけるマルチノード量子ネットワーク A multinode quantum network over a metropolitan area ( http://arxiv.org/abs/2309.00221v1 ) ライセンス: Link先を確認 | Jian-Long Liu, Xi-Yu Luo, Yong Yu, Chao-Yang Wang, Bin Wang, Yi Hu, Jun Li, Ming-Yang Zheng, Bo Yao, Zi Yan, Da Teng, Jin-Wei Jiang, Xiao-Bing Liu, Xiu-Ping Xie, Jun Zhang, Qing-He Mao, Xiao Jiang, Qiang Zhang, Xiao-Hui Bao, Jian-Wei Pan | (参考訳) 将来の量子インターネットの実現に向けて、重要なマイルストーンは、実験室で実施された2ノードの実証実験から大規模な総合的な複数ノードのセットアップへの移行である。
本稿では,大都市圏におけるマルチノード型量子ネットワークの実装について報告する。
我々は3つの量子ノードに原子量子メモリとその通信インタフェースを備え、それらをサーバノードを介してスケーラブルな位相安定化アーキテクチャに結合した。
12.5km離れた2つの量子ノード間のエンタングルメント生成と、ラウンドトリップ通信時間を超えるエンタングルメントの蓄積を実証した。
また, 3 つのリンクの絡み合い生成も同時に行った。
我々は、マルチノード量子ネットワークプロトコルの評価と探索のためのメトロポリタン規模のテストベッドを提供し、量子インターネット研究の新しい段階を開始する。 Towards realizing the future quantum internet, a pivotal milestone entails the transition from two-node proof-of-principle experiments conducted in laboratories to comprehensive, multi-node setups on large scales. Here, we report on the debut implementation of a multi-node entanglement-based quantum network over a metropolitan area. We equipped three quantum nodes with atomic quantum memories and their telecom interfaces, and combined them into a scalable phase-stabilized architecture through a server node. We demonstrated heralded entanglement generation between two quantum nodes situated 12.5 km apart, and the storage of entanglement exceeding the round-trip communication time. We also showed the concurrent entanglement generation on three links. Our work provides a metropolitan-scale testbed for the evaluation and exploration of multi-node quantum network protocols and starts a new stage of quantum internet research. | 翻訳日:2023-09-04 14:41:34 公開日:2023-09-01 |
# 動的適応によるヒューマンインスパイアされた顔スケッチ合成 Human-Inspired Facial Sketch Synthesis with Dynamic Adaptation ( http://arxiv.org/abs/2309.00216v1 ) ライセンス: Link先を確認 | Fei Gao, Yifan Zhu, Chang Jiang, Nannan Wang | (参考訳) 顔画像から鮮明なスケッチ画像を生成することを目的とした顔画像合成(FSS)。
既存のFSS法は、顔のセマンティクスや外観の2D表現にのみ依存している。
しかし、プロの人間アーティストは通常、輪郭や陰影を使って3次元の幾何学を描く。
したがって、顔の三次元形状(例えば深度マップ)はfssにとって極めて重要である。
また、異なるアーティストが多様な描画技法を使い、スケッチのスタイルを複数作成することもあるが、そのスタイルはスケッチでグローバルに一貫性がある。
そこで本研究では,Human-Inspired Dynamic Adaptation (HIDA)法を提案する。
具体的には,顔の3次元形状と2次元外観の両面を考慮したニューロン活性化の動的制御と,一貫したスタイル制御を提案する。
さらに、粗いスケールで変形可能な畳み込みを使用して、深い特徴を整列させ、抽象的かつ異なるアウトラインを生成する。
実験の結果,HIDAは複数のスタイルで高品質なスケッチを作成でき,従来の手法よりもはるかに優れていた。
また、HIDAは、合成されたスケッチの正確なスタイル制御を可能にし、自然のシーンやその他の芸術的スタイルを一般化する。
私たちのコードと結果は、https://github.com/AiArt-HDU/HIDA.comで公開されています。 Facial sketch synthesis (FSS) aims to generate a vivid sketch portrait from a given facial photo. Existing FSS methods merely rely on 2D representations of facial semantic or appearance. However, professional human artists usually use outlines or shadings to covey 3D geometry. Thus facial 3D geometry (e.g. depth map) is extremely important for FSS. Besides, different artists may use diverse drawing techniques and create multiple styles of sketches; but the style is globally consistent in a sketch. Inspired by such observations, in this paper, we propose a novel Human-Inspired Dynamic Adaptation (HIDA) method. Specially, we propose to dynamically modulate neuron activations based on a joint consideration of both facial 3D geometry and 2D appearance, as well as globally consistent style control. Besides, we use deformable convolutions at coarse-scales to align deep features, for generating abstract and distinct outlines. Experiments show that HIDA can generate high-quality sketches in multiple styles, and significantly outperforms previous methods, over a large range of challenging faces. Besides, HIDA allows precise style control of the synthesized sketch, and generalizes well to natural scenes and other artistic styles. Our code and results have been released online at: https://github.com/AiArt-HDU/HIDA. | 翻訳日:2023-09-04 14:41:22 公開日:2023-09-01 |
# セマンティックグラウンドリングによる視覚言語課題に対するオブジェクト提案評価のミスアライメントへの取り組み Towards Addressing the Misalignment of Object Proposal Evaluation for Vision-Language Tasks via Semantic Grounding ( http://arxiv.org/abs/2309.00215v1 ) ライセンス: Link先を確認 | Joshua Feinglass and Yezhou Yang | (参考訳) オブジェクトの提案はビジョンランゲージ(VL)タスク(画像キャプション、視覚的質問応答など)の標準的な前処理ステップとして機能する。
VLタスクで生成されたオブジェクト提案のパフォーマンスは、現在、利用可能なすべてのアノテーションで評価されています。
我々の研究は、この現象の研究として役立ち、セマンティックグラウンドディングの有効性を探求し、その効果を緩和する。
そこで本研究では,アノテーション重要度スコアを閾値付けして選択した,利用可能なアノテーションのサブセットのみに対するオブジェクト提案の評価を提案する。
vlタスクに対するオブジェクトアノテーションの重要性は、画像を記述するテキストから関連する意味情報を抽出することで定量化される。
提案手法は,既存の手法と比較して,画像キャプションの指標と人間のアノテーションから選択したアノテーションとの整合性を大幅に向上することを示す。
最後に、scene graph generation (sgg)ベンチマークで使用されている現在の検出器をユースケースとして比較する。 Object proposal generation serves as a standard pre-processing step in Vision-Language (VL) tasks (image captioning, visual question answering, etc.). The performance of object proposals generated for VL tasks is currently evaluated across all available annotations, a protocol that we show is misaligned - higher scores do not necessarily correspond to improved performance on downstream VL tasks. Our work serves as a study of this phenomenon and explores the effectiveness of semantic grounding to mitigate its effects. To this end, we propose evaluating object proposals against only a subset of available annotations, selected by thresholding an annotation importance score. Importance of object annotations to VL tasks is quantified by extracting relevant semantic information from text describing the image. We show that our method is consistent and demonstrates greatly improved alignment with annotations selected by image captioning metrics and human annotation when compared against existing techniques. Lastly, we compare current detectors used in the Scene Graph Generation (SGG) benchmark as a use case, which serves as an example of when traditional object proposal evaluation techniques are misaligned. | 翻訳日:2023-09-04 14:41:02 公開日:2023-09-01 |
# 企業開示のセマンティックモニタリングのための大規模言語モデル:韓国のKOSPI企業トップ50を事例として Large Language Models for Semantic Monitoring of Corporate Disclosures: A Case Study on Korea's Top 50 KOSPI Companies ( http://arxiv.org/abs/2309.00208v1 ) ライセンス: Link先を確認 | Junwon Sung, Woojin Heo, Yunkyung Byun, Youngsam Kim | (参考訳) 人工知能の急速な進歩の中で、OpenAIのGPT-3.5-turboやGPT-4のような最先端の言語モデルは、複雑なタスクを自動化する前例のない機会を提供する。
本研究は、韓国の文脈における企業情報開示を意味論的に分析するこれらのモデルの有効性について考察する。
この調査は、市場資本化に基づく韓国のKOSPIに上場する上場企業上位50社に焦点を当て、17カ月にわたって月次公開サマリーを精査する。
各要約には、1(非常にネガティブ)から5(非常にポジティブ)までの尺度で感情評価が割り当てられた。
言語モデルの有効性を評価するため、その評価は人間の専門家が作成したものと比較した。
以上の結果より, GPT-3.5-turbo と GPT-4 の間に顕著な性能差が認められた。
スピアマン相関係数は0.61で、単純一致率は0.82で記録された。
本研究は、GPTモデルの評価特性に関する貴重な知見を提供し、自動化セマンティックモニタリング分野における今後のイノベーションの基盤となる。 In the rapidly advancing domain of artificial intelligence, state-of-the-art language models such as OpenAI's GPT-3.5-turbo and GPT-4 offer unprecedented opportunities for automating complex tasks. This research paper delves into the capabilities of these models for semantically analyzing corporate disclosures in the Korean context, specifically for timely disclosure. The study focuses on the top 50 publicly traded companies listed on the Korean KOSPI, based on market capitalization, and scrutinizes their monthly disclosure summaries over a period of 17 months. Each summary was assigned a sentiment rating on a scale ranging from 1(very negative) to 5(very positive). To gauge the effectiveness of the language models, their sentiment ratings were compared with those generated by human experts. Our findings reveal a notable performance disparity between GPT-3.5-turbo and GPT-4, with the latter demonstrating significant accuracy in human evaluation tests. The Spearman correlation coefficient was registered at 0.61, while the simple concordance rate was recorded at 0.82. This research contributes valuable insights into the evaluative characteristics of GPT models, thereby laying the groundwork for future innovations in the field of automated semantic monitoring. | 翻訳日:2023-09-04 14:40:43 公開日:2023-09-01 |
# 弱いファラデー回転測定の相関による量子非線形分光 Quantum nonlinear spectroscopy via correlations of weak Faraday-rotation measurements ( http://arxiv.org/abs/2309.00207v1 ) ライセンス: Link先を確認 | Brian Chung Hang Cheung, Ren-Bao Liu | (参考訳) ゆらぎの相関は、基本的な量子物理学と量子多体力学を研究する上で鍵となる。
また、量子技術におけるデコヒーレンスを理解し、戦うための有用な情報でもある。
非線形分光法とノイズスペクトロスコピーは揺らぎを特徴づける強力なツールであるが、高次相関の多くのタイプのうち、ごくわずかしかアクセスできない。
量子非線形分光法(QNS)と呼ばれる系統的な量子センシング手法は、スピン量子センサによる逐次弱測定を用いて、任意の種類の時間順序相関を抽出するために最近提案されている。
しかし、量子センサとしての中心スピンの要求は、通常は中心スピンが近接する少数の粒子とのみ相互作用するため、QNSの汎用性を制限し、単一スピンの測定には厳密な条件が必要である。
本稿では、コヒーレント光線の偏光(擬似スピン)をQNSの量子センサとして用いることを提案する。
ターゲット系(例えば透明磁性体)と相互作用した後、直線偏光光の小さなファラデー回転を測定することができ、ターゲット系における磁化の弱い測定となる。
一定数の計測ショットの相関差光子数を、材料内の磁気ゆらぎのある種のタイプと相関の順序に比例させることができる。
QNSのこのプロトコルは量子多体系の研究に有利である。 The correlations of fluctuations are key to studying fundamental quantum physics and quantum many-body dynamics. They are also useful information for understanding and combating decoherence in quantum technology. Nonlinear spectroscopy and noise spectroscopy are powerful tools to characterize fluctuations, but they can access only very few among the many types of higher-order correlations. A systematic quantum sensing approach, called quantum nonlinear spectroscopy (QNS), is recently proposed for extracting arbitrary types and orders of time-ordered correlations, using sequential weak measurement via a spin quantum sensor. However, the requirement of a central spin as the quantum sensor limits the versatility of the QNS since usually a central spin interacts only with a small number of particles in proximity and the measurement of single spins needs stringent conditions. Here we propose to employ the polarization (a pseudo-spin) of a coherent light beam as a quantum sensor for QNS. After interacting with a target system (such as a transparent magnetic material), the small Faraday rotation of the linearly polarized light can be measured, which constitutes a weak measurement of the magnetization in the target system. The correlated difference photon counts of a certain numbers of measurement shots can be made proportional to a certain type and order of correlations of the magnetic fluctuations in the material. This protocol of QNS is advantageous for studying quantum many-body systems. | 翻訳日:2023-09-04 14:40:24 公開日:2023-09-01 |
# DiffuGen:安定拡散モデルを用いたラベル付き画像データセット生成のための適応的アプローチ DiffuGen: Adaptable Approach for Generating Labeled Image Datasets using Stable Diffusion Models ( http://arxiv.org/abs/2309.00248v1 ) ライセンス: Link先を確認 | Michael Shenoda, Edward Kim | (参考訳) 高品質なラベル付き画像データセットの生成は、コンピュータビジョンの分野で正確で堅牢な機械学習モデルのトレーニングに不可欠である。
しかし、実際の画像を手動でラベル付けするプロセスは、しばしば時間と費用がかかる。
データセット生成に関わるこれらの課題に対処するために,安定拡散モデルのパワーを活用してラベル付き画像データセットを効率的に作成する,シンプルで適応可能なアプローチであるDiffuGenを導入する。
安定した拡散モデルを活用することで、我々のアプローチは生成されたデータセットの品質を保証するだけでなく、ラベル生成のための汎用的なソリューションも提供します。
本稿では,拡散モデルの能力と,教師なしと教師なしの2つの異なるラベリング手法を組み合わせたdiffugenの背後にある方法論を提案する。
DiffuGenは、適応可能な画像生成とテキストインバージョンのためにプロンプトテンプレートを採用し、拡散モデル機能を強化している。 Generating high-quality labeled image datasets is crucial for training accurate and robust machine learning models in the field of computer vision. However, the process of manually labeling real images is often time-consuming and costly. To address these challenges associated with dataset generation, we introduce "DiffuGen," a simple and adaptable approach that harnesses the power of stable diffusion models to create labeled image datasets efficiently. By leveraging stable diffusion models, our approach not only ensures the quality of generated datasets but also provides a versatile solution for label generation. In this paper, we present the methodology behind DiffuGen, which combines the capabilities of diffusion models with two distinct labeling techniques: unsupervised and supervised. Distinctively, DiffuGen employs prompt templating for adaptable image generation and textual inversion to enhance diffusion model capabilities. | 翻訳日:2023-09-04 14:32:16 公開日:2023-09-01 |
# 機械学習とディープラーニングを用いたアラビア語ツイートのスーシダリティ検出 Detecting Suicidality in Arabic Tweets Using Machine Learning and Deep Learning Techniques ( http://arxiv.org/abs/2309.00246v1 ) ライセンス: Link先を確認 | Asma Abdulsalam, Areej Alhothali, Saleh Al-Ghamdi | (参考訳) ソーシャルメディアプラットフォームは、世界中の人々が瞬時、オープン、頻繁に接続できるように、伝統的なコミュニケーション技術に革命をもたらした。
人々はソーシャルメディアを使って個人的な物語を共有し、意見を表明します。
死、自傷、苦難といったネガティブな感情は、ソーシャルメディア、特に若い世代の間で一般的に表現される。
その結果、自殺の考えを検出するためにソーシャルメディアを使うことは、最終的に他人の自傷や自殺を防ぎ、ソーシャルメディア上で自殺の考えが広まるのを止める適切な介入を提供するのに役立つ。
アラビア語ツイートの自殺思考を自動検出する能力を検討するために,新しいアラビア語自殺ツイートデータセットを開発し,単語の頻度と単語埋め込み機能を訓練したna\"ive bayes, support vector machine, k-nearest neighbor, random forest, xgboostを含むいくつかの機械学習モデルを調査し,アラビア語ツイートにおける自殺思考を識別する事前訓練されたディープラーニングモデル,araert,araelectra,alagpt2の能力を検討した。
その結果,文字 n-gram 特徴を訓練した svm と rf モデルは,86% の精度と f1 スコアが 79% の機械学習モデルで最高の性能を示した。
ディープラーニングモデルの結果、AraBertモデルは、他の機械学習モデルやディープラーニングモデルよりも優れており、精度は91\%、F1スコアは88%であり、アラビアのつぶやきデータセットにおける自殺的思考の検出を大幅に改善している。
われわれの知る限りでは、Twitterからアラビアの自殺検知データセットを開発し、アラビア語投稿の自殺検出にディープラーニングを用いた最初の研究である。 Social media platforms have revolutionized traditional communication techniques by enabling people globally to connect instantaneously, openly, and frequently. People use social media to share personal stories and express their opinion. Negative emotions such as thoughts of death, self-harm, and hardship are commonly expressed on social media, particularly among younger generations. As a result, using social media to detect suicidal thoughts will help provide proper intervention that will ultimately deter others from self-harm and committing suicide and stop the spread of suicidal ideation on social media. To investigate the ability to detect suicidal thoughts in Arabic tweets automatically, we developed a novel Arabic suicidal tweets dataset, examined several machine learning models, including Na\"ive Bayes, Support Vector Machine, K-Nearest Neighbor, Random Forest, and XGBoost, trained on word frequency and word embedding features, and investigated the ability of pre-trained deep learning models, AraBert, AraELECTRA, and AraGPT2, to identify suicidal thoughts in Arabic tweets. The results indicate that SVM and RF models trained on character n-gram features provided the best performance in the machine learning models, with 86% accuracy and an F1 score of 79%. The results of the deep learning models show that AraBert model outperforms other machine and deep learning models, achieving an accuracy of 91\% and an F1-score of 88%, which significantly improves the detection of suicidal ideation in the Arabic tweets dataset. To the best of our knowledge, this is the first study to develop an Arabic suicidality detection dataset from Twitter and to use deep-learning approaches in detecting suicidality in Arabic posts. | 翻訳日:2023-09-04 14:32:01 公開日:2023-09-01 |
# スマートグリッド環境下におけるビッグデータ・ニューラルネットワークによる都市電力消費量予測 City electric power consumption forecasting based on big data & neural network under smart grid background ( http://arxiv.org/abs/2309.00245v1 ) ライセンス: Link先を確認 | Zhengxian Chen, Maowei Wang, Conghu Li | (参考訳) 電力システムの発展に伴い、スマートグリッドはスマートシティの重要な部分となっている。
電力の合理的な伝達とスマートグリッドの電力供給の保証はスマートシティにとって非常に重要であり、スマートシティはスマートグリッドを通じてより良いサービスを提供することができる。
このうち、都市電力消費の予測と評価は、電力供給と規制、発電所の立地、送電損失の制御と密接に関連している。
本稿では,ビッグデータに基づいてニューラルネットワークを構築し,都市電力消費に対する様々な非線形要因の影響を考察する。
電力消費予測を実現するためにモデルを構築した。
この置換重要度試験に基づいて、都市電力消費の要因評価モデルを構築し、電力関連産業に重要な基準を提供する都市電力消費予測のコア特性値を得る。 With the development of the electric power system, the smart grid has become an important part of the smart city. The rational transmission of electric energy and the guarantee of power supply of the smart grid are very important to smart cities, smart cities can provide better services through smart grids. Among them, predicting and judging city electric power consumption is closely related to electricity supply and regulation, the location of power plants, and the control of electricity transmission losses. Based on big data, this paper establishes a neural network and considers the influence of various nonlinear factors on city electric power consumption. A model is established to realize the prediction of power consumption. Based on the permutation importance test, an evaluation model of the influencing factors of city electric power consumption is constructed to obtain the core characteristic values of city electric power consumption prediction, which can provide an important reference for electric power related industry. | 翻訳日:2023-09-04 14:31:25 公開日:2023-09-01 |
# NeuroSurgeon: サブネットワーク分析のためのツールキット NeuroSurgeon: A Toolkit for Subnetwork Analysis ( http://arxiv.org/abs/2309.00244v1 ) ライセンス: Link先を確認 | Michael A. Lepori, Ellie Pavlick, Thomas Serre | (参考訳) 説明可能性の分野における最近の進歩にもかかわらず、ニューラルネットワークが表現することを学ぶアルゴリズムについては不明な点が多い。
近年、訓練されたモデルを機能回路に分解して理解しようと試みている(csord\'as et al., 2020; lepori et al., 2023)。
この研究を進めるため、我々はhughingface transformers library(wolf et al., 2019)でモデル内のサブネットワークを発見して操作できるpythonライブラリであるneurosurgeonを開発した。
NeuroSurgeonはhttps://github.com/mlepori1/NeuroSurgeonで無料で利用できる。 Despite recent advances in the field of explainability, much remains unknown about the algorithms that neural networks learn to represent. Recent work has attempted to understand trained models by decomposing them into functional circuits (Csord\'as et al., 2020; Lepori et al., 2023). To advance this research, we developed NeuroSurgeon, a python library that can be used to discover and manipulate subnetworks within models in the Huggingface Transformers library (Wolf et al., 2019). NeuroSurgeon is freely available at https://github.com/mlepori1/NeuroSurgeon. | 翻訳日:2023-09-04 14:31:12 公開日:2023-09-01 |
# 移動ロボット運動定式化のためのスパイキングに基づくセルラーラーニングオートマタ(SCLA)アルゴリズム Spiking based Cellular Learning Automata (SCLA) algorithm for mobile robot motion formulation ( http://arxiv.org/abs/2309.00241v1 ) ライセンス: Link先を確認 | Vahid Pashaei Rad, Vahid Azimi Rad, Saleh Valizadeh Sotubadi | (参考訳) 本稿では,モバイルロボットがランダムな初期点から目標に到達するために,スパイキングに基づくセルラーラーラーニングオートマトンを表すsclaという新しい手法を提案する。
提案手法は,セルオートマトンとスパイキングニューラルネットワークを統合した結果である。
環境は同じ大きさの複数の正方形で構成され、ロボットは隣接する正方形のみを観察する。
ロボットは上下左右にしか動かない。
環境は学習オートマトンにフィードバックを返し、セルオートマトントレーニングにつながる次のステップで意思決定を最適化します。
同時に、スパイクニューラルネットワークを訓練して、経路の長期的改善と削減を実現する。
その結果,セルオートマトンとスパイキングニューラルネットワークの統合により,適切な経路の強化とトレーニング時間の短縮が実現できた。 In this paper a new method called SCLA which stands for Spiking based Cellular Learning Automata is proposed for a mobile robot to get to the target from any random initial point. The proposed method is a result of the integration of both cellular automata and spiking neural networks. The environment consists of multiple squares of the same size and the robot only observes the neighboring squares of its current square. It should be stated that the robot only moves either up and down or right and left. The environment returns feedback to the learning automata to optimize its decision making in the next steps resulting in cellular automata training. Simultaneously a spiking neural network is trained to implement long term improvements and reductions on the paths. The results show that the integration of both cellular automata and spiking neural network ends up in reinforcing the proper paths and training time reduction at the same time. | 翻訳日:2023-09-04 14:31:00 公開日:2023-09-01 |
# FactLLaMA: 自動Fact-Checkingのための外部知識を用いた命令追跡言語モデルの最適化 FactLLaMA: Optimizing Instruction-Following Language Models with External Knowledge for Automated Fact-Checking ( http://arxiv.org/abs/2309.00240v1 ) ライセンス: Link先を確認 | Tsun-Hin Cheung and Kin-Man Lam | (参考訳) 偽情報の拡散と戦う上で、自動事実チェックが重要な役割を果たす。
大規模言語モデル(LLM)とインストラクション追従型(InstructGPTやAlpaca)は、様々な自然言語処理タスクにおいて顕著なパフォーマンスを示している。
しかし、その知識が常に最新あるいは十分であるとは限らないため、事実チェックの誤りにつながる可能性がある。
この制限に対処するために,命令追従言語モデルのパワーと外部エビデンス検索を組み合わせ,事実チェック性能を向上させることを提案する。
我々のアプローチは、検索エンジンを利用して特定の入力クレームの適切な証拠を検索する。
この外部証拠は、事前訓練された言語モデルの知識を増強するための貴重な補足情報となる。
そして、この証拠を用いて、LLaMAと呼ばれるオープンソースの言語モデルを作成し、入力クレームの正確性をより正確に予測できるようにする。
提案手法を評価するために, RAWFCとLIARの2つのファクトチェックデータセットを用いて実験を行った。
その結果,本手法はファクトチェックタスクにおける最先端のパフォーマンスを実現する。
外部証拠を統合することで、モデルの知識と、利用可能な最も最新かつ十分なコンテキストとのギャップを橋渡しし、ファクトチェックの結果を改善することができます。
本研究は,誤報に対処し,オンラインプラットフォーム上での正確な情報の拡散を促進することにつながる。
リリース資料はhttps://thcheung.github.io/factllama.com/でアクセスできます。 Automatic fact-checking plays a crucial role in combating the spread of misinformation. Large Language Models (LLMs) and Instruction-Following variants, such as InstructGPT and Alpaca, have shown remarkable performance in various natural language processing tasks. However, their knowledge may not always be up-to-date or sufficient, potentially leading to inaccuracies in fact-checking. To address this limitation, we propose combining the power of instruction-following language models with external evidence retrieval to enhance fact-checking performance. Our approach involves leveraging search engines to retrieve relevant evidence for a given input claim. This external evidence serves as valuable supplementary information to augment the knowledge of the pretrained language model. Then, we instruct-tune an open-sourced language model, called LLaMA, using this evidence, enabling it to predict the veracity of the input claim more accurately. To evaluate our method, we conducted experiments on two widely used fact-checking datasets: RAWFC and LIAR. The results demonstrate that our approach achieves state-of-the-art performance in fact-checking tasks. By integrating external evidence, we bridge the gap between the model's knowledge and the most up-to-date and sufficient context available, leading to improved fact-checking outcomes. Our findings have implications for combating misinformation and promoting the dissemination of accurate information on online platforms. Our released materials are accessible at: https://thcheung.github.io/factllama. | 翻訳日:2023-09-04 14:30:44 公開日:2023-09-01 |
# ALJP:機械学習モデルを用いた個人事例におけるアラビア語の法的判断予測 ALJP: An Arabic Legal Judgment Prediction in Personal Status Cases Using Machine Learning Models ( http://arxiv.org/abs/2309.00238v1 ) ライセンス: Link先を確認 | Salwa Abbara, Mona Hafez, Aya Kazzaz, Areej Alhothali, Alhanouf Alsolami | (参考訳) 法的判断予測(LJP)は,事例記述に基づく判断結果の予測を目的としている。
数人の研究者が、法的職業の結果を予測することによって潜在的な顧客を支援する技術を開発した。
しかし、提案された技法はアラビア語では実施されず、英語、中国語、ヒンディー語でのみ実施された。
本稿では,特に夫婦関係の維持・解消の場合において,アラビア語のケーススクリプトから判断結果を予測するために,深層学習 (dl) と自然言語処理 (nlp) 技術を用いたシステムを開発した。
このシステムは、裁判官や弁護士が仕事や時間の効率を改善するのを手助けし、判決の格差を減らす。
さらに、訴訟、弁護士、法学の学生が、裁判の前にどんな事件でも起こりうる結果を分析するのに役立つ。
SVM(Support Vector Machine)、LR(Logistic regression)、LSTM(Long Short Term Memory)、Bidirectional Long Short-Term Memory(BiLSTM)などの異なる機械学習モデルを用いて、開発したデータセット上でTF-IDFや word2vec などの表現技術を用いています。
実験の結果,word2vecのsvmモデルとtf-idfのlrモデルでは,親権症例の判定と結婚の無効化をそれぞれ88%,78%の精度で予測できた。
さらに, TF-IDF を用いた word2vec モデルと BiLSTM モデルを用いた LR と SVM は, それぞれ88% と 69% の精度で, 留置症例の発症確率と婚姻数の減少を予測した。 Legal Judgment Prediction (LJP) aims to predict judgment outcomes based on case description. Several researchers have developed techniques to assist potential clients by predicting the outcome in the legal profession. However, none of the proposed techniques were implemented in Arabic, and only a few attempts were implemented in English, Chinese, and Hindi. In this paper, we develop a system that utilizes deep learning (DL) and natural language processing (NLP) techniques to predict the judgment outcome from Arabic case scripts, especially in cases of custody and annulment of marriage. This system will assist judges and attorneys in improving their work and time efficiency while reducing sentencing disparity. In addition, it will help litigants, lawyers, and law students analyze the probable outcomes of any given case before trial. We use a different machine and deep learning models such as Support Vector Machine (SVM), Logistic regression (LR), Long Short Term Memory (LSTM), and Bidirectional Long Short-Term Memory (BiLSTM) using representation techniques such as TF-IDF and word2vec on the developed dataset. Experimental results demonstrate that compared with the five baseline methods, the SVM model with word2vec and LR with TF-IDF achieve the highest accuracy of 88% and 78% in predicting the judgment on custody cases and annulment of marriage, respectively. Furthermore, the LR and SVM with word2vec and BiLSTM model with TF-IDF achieved the highest accuracy of 88% and 69% in predicting the probability of outcomes on custody cases and annulment of marriage, respectively. | 翻訳日:2023-09-04 14:30:18 公開日:2023-09-01 |
# 合成臨床ノートに基づく公開共有型臨床大言語モデル Publicly Shareable Clinical Large Language Model Built on Synthetic Clinical Notes ( http://arxiv.org/abs/2309.00237v1 ) ライセンス: Link先を確認 | Sunjun Kweon, Junu Kim, Jiyoun Kim, Sujeong Im, Eunbyeol Cho, Seongsu Bae, Jungwoo Oh, Gyubok Lee, Jong Hak Moon, Seng Chan You, Seungjin Baek, Chang Hoon Han, Yoon Bin Jung, Yohan Jo, Edward Choi | (参考訳) 患者の臨床ノートを扱うために調整された大規模言語モデルの開発は、厳格なプライバシー規制のためにこれらのノートのアクセシビリティと使用性が制限されることがしばしば妨げられている。
これらの課題に対処するため,我々はまず,生物医学文献から抽出した公開症例報告を用いて,大規模な臨床ノートを作成する。
次に、これらの合成ノートを使用して、専門的な臨床大言語モデルであるAsclepiusを訓練します。
asclepiusは合成データに基づいて訓練されているが、実際の臨床記録を用いて実世界のアプリケーションでの性能を評価する。
我々は、GPT-3.5-turboや他のオープンソースの代替品を含む、いくつかの大きな言語モデルに対してAsclepiusをベンチマークした。
合成ノートを用いたアプローチをさらに検証するために,Asclepiusと実際の臨床ノートで訓練した変種を比較した。
本研究は, ハイパフォーマンスな臨床言語モデルを構築する際に, 実物の代用として有効であることを示すものである。
この結論は、GPT-4と医療専門家による詳細な評価によって裏付けられている。
asclepiusの開発に使用される重み、コード、データを含むすべてのリソースは、将来の研究のために公開アクセス可能である。 The development of large language models tailored for handling patients' clinical notes is often hindered by the limited accessibility and usability of these notes due to strict privacy regulations. To address these challenges, we first create synthetic large-scale clinical notes using publicly available case reports extracted from biomedical literature. We then use these synthetic notes to train our specialized clinical large language model, Asclepius. While Asclepius is trained on synthetic data, we assess its potential performance in real-world applications by evaluating it using real clinical notes. We benchmark Asclepius against several other large language models, including GPT-3.5-turbo and other open-source alternatives. To further validate our approach using synthetic notes, we also compare Asclepius with its variants trained on real clinical notes. Our findings convincingly demonstrate that synthetic clinical notes can serve as viable substitutes for real ones when constructing high-performing clinical language models. This conclusion is supported by detailed evaluations conducted by both GPT-4 and medical professionals. All resources including weights, codes, and data used in the development of Asclepius are made publicly accessible for future research. | 翻訳日:2023-09-04 14:29:46 公開日:2023-09-01 |
# 画像ハイジャック: 逆画像は実行時に生成モデルを制御することができる Image Hijacking: Adversarial Images can Control Generative Models at Runtime ( http://arxiv.org/abs/2309.00236v1 ) ライセンス: Link先を確認 | Luke Bailey, Euan Ong, Stuart Russell, Scott Emmons | (参考訳) 基礎モデルは悪意のあるアクターから安全か?
本研究では,視覚言語モデル(VLM)への画像入力に着目した。
我々は、実行時に生成モデルを制御する画像ハイジャック、逆画像を発見する。
我々は,イメージハイジャックを作成する一般的な手法であるビヘイビアマッチングを導入し,それを用いて3種類の攻撃を探索する。
特定の文字列攻撃は、敵の選択の任意の出力を生成する。
リークコンテキスト攻撃は、コンテキストウィンドウから出力に情報をリークする。
ジェイルブレイク攻撃はモデルの安全訓練を回避します。
CLIPおよびLLaMA-2に基づく最先端のVLMであるLLaVA-2に対するこれらの攻撃について検討し、我々の攻撃タイプが90%以上成功していることを確認した。
さらに、攻撃は自動化され、小さな画像の摂動のみを必要とする。
これらの知見は、基礎モデルの安全性に対する深刻な懸念を引き起こす。
もし画像ハイジャックがCIFAR-10の敵の例と同じくらい防御が難しいなら、解が見つかるまでには何年もかかるかもしれない。 Are foundation models secure from malicious actors? In this work, we focus on the image input to a vision-language model (VLM). We discover image hijacks, adversarial images that control generative models at runtime. We introduce Behavior Matching, a general method for creating image hijacks, and we use it to explore three types of attacks. Specific string attacks generate arbitrary output of the adversary's choosing. Leak context attacks leak information from the context window into the output. Jailbreak attacks circumvent a model's safety training. We study these attacks against LLaVA-2, a state-of-the-art VLM based on CLIP and LLaMA-2, and find that all our attack types have above a 90\% success rate. Moreover, our attacks are automated and require only small image perturbations. These findings raise serious concerns about the security of foundation models. If image hijacks are as difficult to defend against as adversarial examples in CIFAR-10, then it might be many years before a solution is found -- if it even exists. | 翻訳日:2023-09-04 14:29:30 公開日:2023-09-01 |
# オブジェクト中心多重物体追跡 Object-Centric Multiple Object Tracking ( http://arxiv.org/abs/2309.00233v1 ) ライセンス: Link先を確認 | Zixu Zhao, Jiaze Wang, Max Horn, Yizhuo Ding, Tong He, Zechen Bai, Dominik Zietlow, Carl-Johann Simon-Gabriel, Bing Shuai, Zhuowen Tu, Thomas Brox, Bernt Schiele, Yanwei Fu, Francesco Locatello, Zheng Zhang, Tianjun Xiao | (参考訳) 教師なしオブジェクト中心の学習方法は、追加のローカライズ情報なしでシーンをエンティティに分割することを可能にし、マルチオブジェクトトラッキング(mot)パイプラインのアノテーション負担を軽減する優れた候補である。
オブジェクトは多くの場合、部分に分割され、時間とともに常に追跡されない。
実際、最先端モデルは、時間を通して関連付けのための追加のIDラベルを持つ教師付きオブジェクト検出に依存することにより、ピクセルレベルの精度と時間的一貫性を達成する。
本稿ではMOTのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適合させるインデックスマージモジュールと、オクルージョンを処理するために完全なオブジェクトプロトタイプを構築するオブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングにはスパース検出ラベル(0%-6.25%)しか必要としない。
自己監督型期待最大化に基づくオブジェクトアソシエーションの損失を考慮し,IDラベルは不要である。
私たちの実験では、既存のオブジェクト中心モデルと完全に監視された最先端モデルとのギャップを大幅に狭め、教師なしのトラッカーを上回っています。 Unsupervised object-centric learning methods allow the partitioning of scenes into entities without additional localization information and are excellent candidates for reducing the annotation burden of multiple-object tracking (MOT) pipelines. Unfortunately, they lack two key properties: objects are often split into parts and are not consistently tracked over time. In fact, state-of-the-art models achieve pixel-level accuracy and temporal consistency by relying on supervised object detection with additional ID labels for the association through time. This paper proposes a video object-centric model for MOT. It consists of an index-merge module that adapts the object-centric slots into detection outputs and an object memory module that builds complete object prototypes to handle occlusions. Benefited from object-centric learning, we only require sparse detection labels (0%-6.25%) for object localization and feature binding. Relying on our self-supervised Expectation-Maximization-inspired loss for object association, our approach requires no ID labels. Our experiments significantly narrow the gap between the existing object-centric model and the fully supervised state-of-the-art and outperform several unsupervised trackers. | 翻訳日:2023-09-04 14:29:15 公開日:2023-09-01 |
# 交絡状態における軌道角運動量の局所的識別 Local discrimination of orbital angular momentum in entangled states ( http://arxiv.org/abs/2309.00295v1 ) ライセンス: Link先を確認 | Simone Cialdi (1 and 2), Edoardo Suerra (1 and 2), Samuele Altilia (1 and 2), Stefano Olivares (1 and 2), Bruno Paroli (1 and 2), Marco A. C. Potenza (1 and 2), Mirko Siano (1 and 2), Matteo G. A. Paris (1 and 2) ((1) Universit\`a degli Studi di Milano, (2) Istituto Nazionale di Fisica Nucleare) | (参考訳) パラメトリックダウン変換により生じる量子放射の軌道角運動量に対するカロサイト結晶を用いた局所検出器の使用に対処する。
結晶中の状態の2つのレプリカ間の微細かつ制御された空間シフトの導入を利用して、識別が可能であることを示す。
我々は、この技術は、情報エンコーディングが軌道角運動量に基づいている長距離量子通信技術の将来の発展に利用できると信じている。 We address the use of a calcite crystal-based local detector to the discrimination of orbital angular momentum of quantum radiation produced by parametric down conversion. We demonstrate that a discrimination can be obtained exploiting the introduction of a fine and controlled spatial shift between two replicas of the state in the crystals. We believe that this technology could be used for future development of long-distance quantum communication techniques, where information encoding is based on orbital angular momentum. | 翻訳日:2023-09-04 14:24:05 公開日:2023-09-01 |
# 高速拡散em:ブラインド逆問題に対する拡散モデルとデコンボリューションへの応用 Fast Diffusion EM: a diffusion model for blind inverse problems with application to deconvolution ( http://arxiv.org/abs/2309.00287v1 ) ライセンス: Link先を確認 | Charles Laroche, Andr\'es Almansa, Eva Coupete | (参考訳) 拡散モデルを用いて逆問題を解くことは、研究の分野である。
現在の手法では、劣化が知られ、修復の質と多様性の観点から印象的な結果をもたらすと仮定している。
本研究では, これらのモデルの有効性を活用し, 復元画像と劣化モデルの未知パラメータを共同で推定する。
特に、よく知られた予測最小化(EM)推定法と拡散モデルに基づくアルゴリズムを設計した。
本手法は,拡散モデルから抽出したサンプルと最大化ステップを用いて,逆問題の対数類似度を近似し,未知のモデルパラメータを推定する。
最大化ステップでは、Plug \&Play Denoiserに基づいた新しいボケカーネル正規化も導入する。
拡散モデルの実行には時間がかかるため,アルゴリズムの高速バージョンを提供する。
ブラインド画像のデブラリングに関する広範囲な実験は,他の最先端手法と比較して,提案手法の有効性を示すものである。 Using diffusion models to solve inverse problems is a growing field of research. Current methods assume the degradation to be known and provide impressive results in terms of restoration quality and diversity. In this work, we leverage the efficiency of those models to jointly estimate the restored image and unknown parameters of the degradation model. In particular, we designed an algorithm based on the well-known Expectation-Minimization (EM) estimation method and diffusion models. Our method alternates between approximating the expected log-likelihood of the inverse problem using samples drawn from a diffusion model and a maximization step to estimate unknown model parameters. For the maximization step, we also introduce a novel blur kernel regularization based on a Plug \& Play denoiser. Diffusion models are long to run, thus we provide a fast version of our algorithm. Extensive experiments on blind image deblurring demonstrate the effectiveness of our method when compared to other state-of-the-art approaches. | 翻訳日:2023-09-04 14:23:58 公開日:2023-09-01 |
# メロディ教師なし事前学習によるシングルスピーカ発声音声合成の発声域向上 Enhancing the vocal range of single-speaker singing voice synthesis with melody-unsupervised pre-training ( http://arxiv.org/abs/2309.00284v1 ) ライセンス: Link先を確認 | Shaohuan Zhou, Xu Li, Zhiyong Wu, Ying Shan, Helen Meng | (参考訳) シングルスピーカーの歌声合成(SVS)は通常、歌手の声域外、または限られた訓練サンプルと関連付けられたピッチ値で過小評価される。
本研究は,先行研究に基づき,マルチシンガーデータセット上で実施したメロディなしマルチ話者事前学習法を提案し,音色類似度を低下させずに単一話者の声域を拡大する。
この事前学習方法は、音韻タイミング情報やピッチアノテーションのない音声と歌詞のペアのみを含む大規模マルチシンガーデータセットに展開することができる。
具体的には、事前学習段階において、音韻レベルの確率ベクトルを音韻タイミング情報として生成する音素予測器と、異なるシンガーの音色変化をモデル化する話者エンコーダを設計し、その音素レベルのf0値を直接推定してピッチ情報を提供する。
これらの事前訓練されたモデルパラメータは、単一話者の発声域を高めるための事前知識として微調整段階に配信される。
さらに、この研究は、合成された歌声の音質やリズムの自然さの向上にも貢献する。
合成音声のリズム的自然性を改善するための微分可能持続時間調整器と、音質を改善するための双方向フローモデルを導入する。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。 The single-speaker singing voice synthesis (SVS) usually underperforms at pitch values that are out of the singer's vocal range or associated with limited training samples. Based on our previous work, this work proposes a melody-unsupervised multi-speaker pre-training method conducted on a multi-singer dataset to enhance the vocal range of the single-speaker, while not degrading the timbre similarity. This pre-training method can be deployed to a large-scale multi-singer dataset, which only contains audio-and-lyrics pairs without phonemic timing information and pitch annotation. Specifically, in the pre-training step, we design a phoneme predictor to produce the frame-level phoneme probability vectors as the phonemic timing information and a speaker encoder to model the timbre variations of different singers, and directly estimate the frame-level f0 values from the audio to provide the pitch information. These pre-trained model parameters are delivered into the fine-tuning step as prior knowledge to enhance the single speaker's vocal range. Moreover, this work also contributes to improving the sound quality and rhythm naturalness of the synthesized singing voices. It is the first to introduce a differentiable duration regulator to improve the rhythm naturalness of the synthesized voice, and a bi-directional flow model to improve the sound quality. Experimental results verify that the proposed SVS system outperforms the baseline on both sound quality and naturalness. | 翻訳日:2023-09-04 14:23:42 公開日:2023-09-01 |
# SparseSat-NeRF:SparseSat-NeRF衛星画像のためのDense Depth Supervised Neural Radiance Fields SparseSat-NeRF: Dense Depth Supervised Neural Radiance Fields for Sparse Satellite Images ( http://arxiv.org/abs/2309.00277v1 ) ライセンス: Link先を確認 | Lulin Zhang, Ewelina Rupnik | (参考訳) 従来のマルチビューステレオマッチング(mvs)を用いたディジタル表面モデル生成は、非ランベルト曲面、非同期取得、あるいは不連続に対して性能が低下する。
neural radiance fields (nerf) は、連続的な体積表現を用いて表面ジオメトリを再構築するための新しいパラダイムを提供する。
NeRFは自己監督型であり、トレーニングに地平線幾何学を必要とせず、シーンに関する物理パラメータを表現するエレガントな方法を提供しており、MVSが失敗する困難なシナリオを修復する可能性がある。
しかし、NeRFとその変種は、地球観測衛星画像において稀な、説得力のあるシーンのジオメトリーを生成するために多くのビューを必要とする。
本稿では,SparseSat-NeRF(SpS-NeRF)について述べる。
SpS-NeRFは、従来の半言語MVSマッチングによって提供される相互相関類似度測定によって導かれる密集深度監視を用いる。
ステレオ・ステレオPleiades 1B/WorldView-3画像に対するアプローチの有効性を実証し,NeRFとSat-NeRFとの比較を行った。
コードはhttps://github.com/LulinZhang/SpS-NeRFで公開されている。 Digital surface model generation using traditional multi-view stereo matching (MVS) performs poorly over non-Lambertian surfaces, with asynchronous acquisitions, or at discontinuities. Neural radiance fields (NeRF) offer a new paradigm for reconstructing surface geometries using continuous volumetric representation. NeRF is self-supervised, does not require ground truth geometry for training, and provides an elegant way to include in its representation physical parameters about the scene, thus potentially remedying the challenging scenarios where MVS fails. However, NeRF and its variants require many views to produce convincing scene's geometries which in earth observation satellite imaging is rare. In this paper we present SparseSat-NeRF (SpS-NeRF) - an extension of Sat-NeRF adapted to sparse satellite views. SpS-NeRF employs dense depth supervision guided by crosscorrelation similarity metric provided by traditional semi-global MVS matching. We demonstrate the effectiveness of our approach on stereo and tri-stereo Pleiades 1B/WorldView-3 images, and compare against NeRF and Sat-NeRF. The code is available at https://github.com/LulinZhang/SpS-NeRF | 翻訳日:2023-09-04 14:23:14 公開日:2023-09-01 |
# RLAIF:AIフィードバックによる人間のフィードバックからの強化学習のスケールアップ RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback ( http://arxiv.org/abs/2309.00267v1 ) ライセンス: Link先を確認 | Harrison Lee, Samrat Phatale, Hassan Mansoor, Kellie Lu, Thomas Mesnard, Colton Bishop, Victor Carbune, Abhinav Rastogi | (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合に有効であるが、高品質な人選好ラベルの収集は重要なボトルネックである。
我々は、AI Feedback (RLAIF) からRLHF対RLの直接比較を行い、人間の代わりに市販のLLMで嗜好をラベル付けする手法である。
要約のタスクでは、人間の評価者はRLAIFとRLHFの両方の世代を、約70%のケースにおいてベースラインで制御された微調整モデルよりも好んでいる。
さらに、RLAIF vs. RLHFサマリーの評価を依頼されると、人間は両者を同等のレートで求める。
これらの結果から, RLHFのスケーラビリティ限界に対する潜在的な解決策として, RLAIFは人間レベルの性能が得られることが示唆された。 Reinforcement learning from human feedback (RLHF) is effective at aligning large language models (LLMs) to human preferences, but gathering high quality human preference labels is a key bottleneck. We conduct a head-to-head comparison of RLHF vs. RL from AI Feedback (RLAIF) - a technique where preferences are labeled by an off-the-shelf LLM in lieu of humans, and we find that they result in similar improvements. On the task of summarization, human evaluators prefer generations from both RLAIF and RLHF over a baseline supervised fine-tuned model in ~70% of cases. Furthermore, when asked to rate RLAIF vs. RLHF summaries, humans prefer both at equal rates. These results suggest that RLAIF can yield human-level performance, offering a potential solution to the scalability limitations of RLHF. | 翻訳日:2023-09-04 14:22:54 公開日:2023-09-01 |
# メラノーマ検出における機械学習の応用と「Ugly Duckling」と「Suspicious Naevi」の同定 Application of Machine Learning in Melanoma Detection and the Identification of 'Ugly Duckling' and Suspicious Naevi: A Review ( http://arxiv.org/abs/2309.00265v1 ) ライセンス: Link先を確認 | Fatima Al Zegair, Nathasha Naranpanawa, Brigid Betz-Stablein, Monika Janda, H. Peter Soyer, Shekhar S. Chandra | (参考訳) naeviとして知られる皮膚病変は、サイズ、形状、色など様々な特徴を有する。
悪性黒色腫(英語版)のモニタリングにおいて、"ugly duckling naevus"という概念は、近縁の他の病変と区別される特徴的な特徴を持つ病変を指す。
同一個体内の病変は、通常類似性を共有し、予測可能なパターンに従うため、アヒルのうなずきは異常で、癌性黒色腫の存在を示す可能性がある。
コンピュータ支援診断(CAD)は、機械学習技術と様々な患者分析手法を組み合わせることにより、研究開発分野において重要な役割を担っている。
専門職の不足に対応しながら、正確性を高め、意思決定を簡素化することを目的としている。
これらの自動システムは、専門知識が限られている皮膚がんの診断において特に重要である。
結果として、それらの使用は、医療における省エネ効果とコスト削減につながる可能性がある。
早期黒色腫と後期黒色腫を比較した際の生存率の急激な変化を考えると,早期発見は有効治療と患者の予後に不可欠である。
機械学習(ML)とディープラーニング(DL)技術は、皮膚がんの分類において人気を集め、課題に効果的に対処し、専門家と同等の結果を提供している。
この記事では、メラノーマと疑わしいnaeviを検出する現代の機械学習とディープラーニングアルゴリズムを広く取り上げる。
皮膚がんとさまざまなnaeviに関する一般的な情報から始まり、ai、ml、dl、cadを紹介する。
論文では、皮膚科医のパフォーマンスと比較してメラノーマの検出に畳み込みニューラルネットワーク(CNN)のような様々なML技術が成功したことを論じる。
最後に、UDnaevusの検出と疑わしいnaeviの同定のためのML手法を検討する。 Skin lesions known as naevi exhibit diverse characteristics such as size, shape, and colouration. The concept of an "Ugly Duckling Naevus" comes into play when monitoring for melanoma, referring to a lesion with distinctive features that sets it apart from other lesions in the vicinity. As lesions within the same individual typically share similarities and follow a predictable pattern, an ugly duckling naevus stands out as unusual and may indicate the presence of a cancerous melanoma. Computer-aided diagnosis (CAD) has become a significant player in the research and development field, as it combines machine learning techniques with a variety of patient analysis methods. Its aim is to increase accuracy and simplify decision-making, all while responding to the shortage of specialized professionals. These automated systems are especially important in skin cancer diagnosis where specialist availability is limited. As a result, their use could lead to life-saving benefits and cost reductions within healthcare. Given the drastic change in survival when comparing early stage to late-stage melanoma, early detection is vital for effective treatment and patient outcomes. Machine learning (ML) and deep learning (DL) techniques have gained popularity in skin cancer classification, effectively addressing challenges, and providing results equivalent to that of specialists. This article extensively covers modern Machine Learning and Deep Learning algorithms for detecting melanoma and suspicious naevi. It begins with general information on skin cancer and different types of naevi, then introduces AI, ML, DL, and CAD. The article then discusses the successful applications of various ML techniques like convolutional neural networks (CNN) for melanoma detection compared to dermatologists' performance. Lastly, it examines ML methods for UD naevus detection and identifying suspicious naevi. | 翻訳日:2023-09-04 14:22:39 公開日:2023-09-01 |
# フェデレーション学習改善のための学習メトリクスの活用 Leveraging Learning Metrics for Improved Federated Learning ( http://arxiv.org/abs/2309.00257v1 ) ライセンス: Link先を確認 | Andre Fu | (参考訳) 現在、連合環境では、説明可能な人工知能(xai)の新たな研究、特にモデルがいかにうまく学習しているかを決定するための新しい学習メトリクスを活用する学習スキームは存在しない。
これらの新しい学習指標の1つは「効果ランク(Effective Rank)」と呼ばれ、これは行列の特異値のシャノンエントロピーを測定することで、層がどれだけうまくマッピングされているかを測定することができる。
フェデレーション学習と学習指標である効果的なランクを結合することにより、この研究は、最初のフェデレーション学習メトリクス集約法である \textbf{(2)} を導出し、有効ランクが、有効ランクに依存する新しい重み集約スキームを開発するためのベースラインフェデレーション平均値 \cite{konevcny2016federated} と \textbf{(3)} によって、フェデレーション問題に適していることを示す。 Currently in the federated setting, no learning schemes leverage the emerging research of explainable artificial intelligence (XAI) in particular the novel learning metrics that help determine how well a model is learning. One of these novel learning metrics is termed `Effective Rank' (ER) which measures the Shannon Entropy of the singular values of a matrix, thus enabling a metric determining how well a layer is mapping. By joining federated learning and the learning metric, effective rank, this work will \textbf{(1)} give the first federated learning metric aggregation method \textbf{(2)} show that effective rank is well-suited to federated problems by out-performing baseline Federated Averaging \cite{konevcny2016federated} and \textbf{(3)} develop a novel weight-aggregation scheme relying on effective rank. | 翻訳日:2023-09-04 14:22:13 公開日:2023-09-01 |
# sortednet - あらゆるネットワークとその場所のネットワークのための場所 - マルチインワンニューラルネットワークをトレーニングするための汎用ソリューションを目指して SortedNet, a Place for Every Network and Every Network in its Place: Towards a Generalized Solution for Training Many-in-One Neural Networks ( http://arxiv.org/abs/2309.00255v1 ) ライセンス: Link先を確認 | Mojtaba Valipour, Mehdi Rezagholizadeh, Hossein Rajabzadeh, Marzieh Tahaei, Boxing Chen, and Ali Ghodsi | (参考訳) ディープラーニングモデルのサイズが大きくなるにつれて、メモリと計算の制約の下で最適なモデルを見つけることがますます重要になる。
通常、ニューラルネットワークのアーキテクチャと構成的ビルディングブロックはモジュラー方式で使用することができるが、トレーニングプロセスはこのモジュラリティを意識していない。
その結果、従来のニューラルネットワークトレーニングでは、推論中にモデルの計算負荷に適応する柔軟性が欠如している。
本稿では,様々な次元にまたがるディープニューラルネットワークのモジュール性を利用して,効率的な動的推論を行う汎用かつスケーラブルなソリューションであるSortedNetを提案する。
我々のトレーニングでは、パラメータを共有するサブモデルのネストアーキテクチャを検討し、それらをソートされ確率的な方法でメインモデルと一緒に訓練する。
このサブネットワークのソートトレーニングにより、単一のトレーニングラウンドを使用して、サブネットワークの数を数百にスケールすることが可能になります。
本研究では,学習効率を向上させるために,サブネットワークのランダムサンプリングと勾配蓄積を組み合わせた新しい更新手法を利用する。
さらに、学習のソートの性質は推論時に検索不要なサブネットワーク選択につながり、結果として生じるサブネットワークのネストアーキテクチャは最小限のストレージ要件につながり、推論時にサブネットワーク間を効率的に切り替える。
我々の一般的な動的トレーニングアプローチは、大規模言語モデルや事前学習された視覚モデルなど、様々なアーキテクチャやタスクにまたがって実証される。
実験結果は,最先端の動的トレーニング手法を上回りつつ,効率的なサブネットワークを実現するための提案手法の有効性を示した。
本研究は,160種類のサブモデルを同時にトレーニング可能であることを示し,モデル性能の96%を維持しながら提案手法の広範な拡張性を示す。 As the size of deep learning models continues to grow, finding optimal models under memory and computation constraints becomes increasingly more important. Although usually the architecture and constituent building blocks of neural networks allow them to be used in a modular way, their training process is not aware of this modularity. Consequently, conventional neural network training lacks the flexibility to adapt the computational load of the model during inference. This paper proposes SortedNet, a generalized and scalable solution to harness the inherent modularity of deep neural networks across various dimensions for efficient dynamic inference. Our training considers a nested architecture for the sub-models with shared parameters and trains them together with the main model in a sorted and probabilistic manner. This sorted training of sub-networks enables us to scale the number of sub-networks to hundreds using a single round of training. We utilize a novel updating scheme during training that combines random sampling of sub-networks with gradient accumulation to improve training efficiency. Furthermore, the sorted nature of our training leads to a search-free sub-network selection at inference time; and the nested architecture of the resulting sub-networks leads to minimal storage requirement and efficient switching between sub-networks at inference. Our general dynamic training approach is demonstrated across various architectures and tasks, including large language models and pre-trained vision models. Experimental results show the efficacy of the proposed approach in achieving efficient sub-networks while outperforming state-of-the-art dynamic training approaches. Our findings demonstrate the feasibility of training up to 160 different sub-models simultaneously, showcasing the extensive scalability of our proposed method while maintaining 96% of the model performance. | 翻訳日:2023-09-04 14:21:54 公開日:2023-09-01 |
# なぜuniversal adversarial attackは大規模言語モデルで機能するのか?
幾何学が答えかもしれない Why do universal adversarial attacks work on large language models?: Geometry might be the answer ( http://arxiv.org/abs/2309.00254v1 ) ライセンス: Link先を確認 | Varshini Subhash, Anna Bialas, Weiwei Pan, Finale Doshi-Velez | (参考訳) トランスフォーマーベースの大規模言語モデルは,社会においてますます普及しつつある。
しかし、敵攻撃の文脈において、彼らの内部作業を理解し、解釈するタスクは、ほとんど未解決のままである。
勾配に基づく普遍的な敵攻撃は、大きな言語モデルにおいて非常に効果的であり、入力に依存しない性質のため潜在的に危険であることが示されている。
この研究は、大規模言語モデルに対する普遍的敵対攻撃を説明する新しい幾何学的視点を示す。
117M パラメータ GPT-2 モデルを攻撃することにより、普遍的な敵のトリガーが、敵の訓練領域における意味情報にのみ近似したベクトルを埋め込むことができることを示す。
この仮説は、次元減少と隠蔽表現の類似度測定を含むホワイトボックスモデル解析によって支持される。
ユニバーサルアタックを駆動するメカニズムに関する新たな幾何学的視点は、LSMの内部動作や障害モードに関する深い洞察を得るのに役立ち、それらの緩和を可能にします。 Transformer based large language models with emergent capabilities are becoming increasingly ubiquitous in society. However, the task of understanding and interpreting their internal workings, in the context of adversarial attacks, remains largely unsolved. Gradient-based universal adversarial attacks have been shown to be highly effective on large language models and potentially dangerous due to their input-agnostic nature. This work presents a novel geometric perspective explaining universal adversarial attacks on large language models. By attacking the 117M parameter GPT-2 model, we find evidence indicating that universal adversarial triggers could be embedding vectors which merely approximate the semantic information in their adversarial training region. This hypothesis is supported by white-box model analysis comprising dimensionality reduction and similarity measurement of hidden representations. We believe this new geometric perspective on the underlying mechanism driving universal attacks could help us gain deeper insight into the internal workings and failure modes of LLMs, thus enabling their mitigation. | 翻訳日:2023-09-04 14:20:58 公開日:2023-09-01 |
# 自己注意型変換器を用いた医用画像診断 : 説明可能な医療用AIの展望 Interpretable Medical Imagery Diagnosis with Self-Attentive Transformers: A Review of Explainable AI for Health Care ( http://arxiv.org/abs/2309.00252v1 ) ライセンス: Link先を確認 | Tin Lai | (参考訳) 人工知能(AI)の最近の進歩は、医療の需要供給不均衡に対処するため、主要な医療サービスにおいて広く採用されている。
ビジョントランスフォーマー(ViT)は、自己注意モジュールの恩恵を受け、最先端のコンピュータビジョンモデルとして登場した。
しかしながら、従来の機械学習アプローチと比較して、ディープラーニングモデルは複雑であり、その動作に不確実性を引き起こす「ブラックボックス」として扱われることが多い。
説明可能な人工知能(XAI、Explainable Artificial Intelligence)とは、機械学習モデルの内部動作と、それが意思決定にどう影響するかを説明し解釈する手法である。
本稿では,近年のViTの進歩とViTの意思決定プロセスを理解するための解釈的アプローチを要約し,医用診断の透明性を実現する。 Recent advancements in artificial intelligence (AI) have facilitated its widespread adoption in primary medical services, addressing the demand-supply imbalance in healthcare. Vision Transformers (ViT) have emerged as state-of-the-art computer vision models, benefiting from self-attention modules. However, compared to traditional machine-learning approaches, deep-learning models are complex and are often treated as a "black box" that can cause uncertainty regarding how they operate. Explainable Artificial Intelligence (XAI) refers to methods that explain and interpret machine learning models' inner workings and how they come to decisions, which is especially important in the medical domain to guide the healthcare decision-making process. This review summarises recent ViT advancements and interpretative approaches to understanding the decision-making process of ViT, enabling transparency in medical diagnosis applications. | 翻訳日:2023-09-04 14:20:18 公開日:2023-09-01 |
# 多次元低次サロゲートモデリング Multi-fidelity reduced-order surrogate modeling ( http://arxiv.org/abs/2309.00325v1 ) ライセンス: Link先を確認 | Paolo Conti, Mengwu Guo, Andrea Manzoni, Attilio Frangi, Steven L. Brunton, J. Nathan Kutz | (参考訳) 制限された計算予算が与えられた偏微分方程式(pdes)の高忠実度数値シミュレーションは、与えられた系をモデル化するために評価されるパラメータ構成と時間ウィンドウの数を著しく制限することができる。
マルチフィデリティ・サロゲート・モデリングは、高フィデリティデータが制限されたり不足している場合の予測精度を高めるために、計算的に安価である、より精度の低い低フィデリティ・モデルを活用することを目的としている。
しかし、低忠実度モデルは、しばしば重要な定性的時空間的特徴を示すが、高忠実度モデルで観測される不安定性と臨界トランジェントの発生を正確に捉えられず、サロゲートモデルとして実用的でない。
この欠点に対処するために,次元の縮小と多元的ニューラルネットワークのサロゲートを組み合わせた新しいデータ駆動戦略を提案する。
鍵となる考え方は、古典的直交分解(POD)を高忠実度ソリューションスナップショットに適用して空間基底を生成し、多忠実長短項メモリ(LSTM)ネットワークを用いて、POD基底の減少状態時パラメータ依存性拡張係数のダイナミクスを近似することである。
低忠実度低減状態を高忠実度にマッピングすることで、提案された低次サロゲートモデルにより、時間とパラメータの変動を非インタラクティブな方法で効率良く回復することができる。
この手法の一般性とロバスト性は、粗いメッシュと/または時間ステップで低忠実度モデルを定義できるパラメータ化時間依存PDE問題と、不特定な物理的特徴によって証明される。
重要なことに、不安定性と過渡性の発生は、この代理モデリング技術によってよく捉えられる。 High-fidelity numerical simulations of partial differential equations (PDEs) given a restricted computational budget can significantly limit the number of parameter configurations considered and/or time window evaluated for modeling a given system. Multi-fidelity surrogate modeling aims to leverage less accurate, lower-fidelity models that are computationally inexpensive in order to enhance predictive accuracy when high-fidelity data are limited or scarce. However, low-fidelity models, while often displaying important qualitative spatio-temporal features, fail to accurately capture the onset of instability and critical transients observed in the high-fidelity models, making them impractical as surrogate models. To address this shortcoming, we present a new data-driven strategy that combines dimensionality reduction with multi-fidelity neural network surrogates. The key idea is to generate a spatial basis by applying the classical proper orthogonal decomposition (POD) to high-fidelity solution snapshots, and approximate the dynamics of the reduced states - time-parameter-dependent expansion coefficients of the POD basis - using a multi-fidelity long-short term memory (LSTM) network. By mapping low-fidelity reduced states to their high-fidelity counterpart, the proposed reduced-order surrogate model enables the efficient recovery of full solution fields over time and parameter variations in a non-intrusive manner. The generality and robustness of this method is demonstrated by a collection of parametrized, time-dependent PDE problems where the low-fidelity model can be defined by coarser meshes and/or time stepping, as well as by misspecified physical features. Importantly, the onset of instabilities and transients are well captured by this surrogate modeling technique. | 翻訳日:2023-09-04 14:12:26 公開日:2023-09-01 |
# ウィキペディア記事のリンク予測のためのテキストベースアプローチ A Text-based Approach For Link Prediction on Wikipedia Articles ( http://arxiv.org/abs/2309.00317v1 ) ライセンス: Link先を確認 | Anh Hoang Tran, Tam Minh Nguyen and Son T. Luu | (参考訳) 本稿では,ウィキペディア記事のリンク予測に関するDSAA 2023 Challengeで紹介する。
テキストから抽出したPOSタグ(part-of-speechタグ)機能を備えた従来の機械学習モデルを用いて、2つのノードにリンクがあるかどうかを予測する。
そして、これらのタグを使ってさまざまな機械学習モデルをテストする。
結果は0.99999でf1得点で獲得し,コンペティションで7位となった。
私たちのソースコードはこのリンクで公開されている。 https://github.com/tam1032/dsaa2023-challenge-link-prediction-ds-uit_sat This paper present our work in the DSAA 2023 Challenge about Link Prediction for Wikipedia Articles. We use traditional machine learning models with POS tags (part-of-speech tags) features extracted from text to train the classification model for predicting whether two nodes has the link. Then, we use these tags to test on various machine learning models. We obtained the results by F1 score at 0.99999 and got 7th place in the competition. Our source code is publicly available at this link: https://github.com/Tam1032/DSAA2023-Challenge-Link-prediction-DS-UIT_SAT | 翻訳日:2023-09-04 14:11:57 公開日:2023-09-01 |
# ARFA:時空間予測のための非対称受容野オートエンコーダモデル ARFA: An Asymmetric Receptive Field Autoencoder Model for Spatiotemporal Prediction ( http://arxiv.org/abs/2309.00314v1 ) ライセンス: Link先を確認 | Wenxuan Zhang, Xuechao Zou, Li Wu, Jianqiang Huang, Xiaoying Wang | (参考訳) 時空間予測は、歴史的文脈から学んだパラダイムによって将来のシーケンスを生成することを目的としている。
交通流の予測や天気予報など多くの領域において重要な意味を持つ。
しかし,従来の手法では,予測精度に悪影響を及ぼす同一の受容場を持つエンコーダとデコーダアーキテクチャを採用することが多いため,時空間相関処理の課題に直面している。
本稿では,この問題に対処する非対称受容場オートエンコーダ(ARFA)モデルを提案する。
具体的には、エンコーダとデコーダの異なる機能に合わせて、対応する受容体モジュールのサイズを設計する。
エンコーダでは,大域的時空間特徴抽出のためのカーネルモジュールを導入する。
デコーダでは,局所時空間情報再構成のためのカーネルモジュールを開発する。
気象予測データの不足に対処するために,中国内陸地域の降水特性に特有の大規模レーダーエコーデータセットであるrainbenchを構築し,降水予測を行った。
実験の結果,ARFAは2つの主流時空間予測データセットとRainBenchデータセットに対して一貫した最先端性能を実現し,アプローチの有効性を確認した。
この研究は受容的場の観点から新しい手法を探索するだけでなく、降水予測のためのデータサポートを提供し、時空間予測の将来研究を前進させる。 Spatiotemporal prediction aims to generate future sequences by paradigms learned from historical contexts. It holds significant importance in numerous domains, including traffic flow prediction and weather forecasting. However, existing methods face challenges in handling spatiotemporal correlations, as they commonly adopt encoder and decoder architectures with identical receptive fields, which adversely affects prediction accuracy. This paper proposes an Asymmetric Receptive Field Autoencoder (ARFA) model to address this issue. Specifically, we design corresponding sizes of receptive field modules tailored to the distinct functionalities of the encoder and decoder. In the encoder, we introduce a large kernel module for global spatiotemporal feature extraction. In the decoder, we develop a small kernel module for local spatiotemporal information reconstruction. To address the scarcity of meteorological prediction data, we constructed the RainBench, a large-scale radar echo dataset specific to the unique precipitation characteristics of inland regions in China for precipitation prediction. Experimental results demonstrate that ARFA achieves consistent state-of-the-art performance on two mainstream spatiotemporal prediction datasets and our RainBench dataset, affirming the effectiveness of our approach. This work not only explores a novel method from the perspective of receptive fields but also provides data support for precipitation prediction, thereby advancing future research in spatiotemporal prediction. | 翻訳日:2023-09-04 14:11:47 公開日:2023-09-01 |
# 黄斑変性研究に応用された異種報告結果決定要因に関する比較話題モデリング Comparative Topic Modeling for Determinants of Divergent Report Results Applied to Macular Degeneration Studies ( http://arxiv.org/abs/2309.00312v1 ) ライセンス: Link先を確認 | Lucas Cassiel Jacaruso | (参考訳) トピックモデリングとテキストマイニングは、自然言語処理のサブセットであり、メタ分析(MA)と体系的レビュー(SR)の実施に関係している。
証拠合成では、従来のNLP法は、SRとMAの必須フェーズを自動化するために、トピック固有の文献検索やレポートからの値抽出に用いられている。
そこで本研究では,同じ一般研究質問に対する矛盾した結果の報告を分析するための,比較トピックモデリング手法を提案する。
具体的には,有意な結果の報告にまたがって,その比例発生と分布の一貫性に応じてランク付けすることで,有意な結果と有意な関連を示すトピックを見つけることを目的とする。
本手法は, 補充栄養成分が黄斑変性(MD)に有益であるか否かを, 広視野で検討した。
8種類の化合物がMDに有意な効果を示す報告と特異的に関連していると同定された。
これらのうち6つは、検証のための後続の文献検索(オメガ-3脂肪酸、銅、ゼアキサンチン、ルテイン、亜鉛、硝酸)を行うことで、さらに有効性が支持された。
追記された文献検索(ナイアシンとモリブデン)で支えられていない2つの手法は,提案手法のランク付けシステムにおいて最も低いスコアを有しており,提案手法のスコアが関心度と相関する上で有効な指標であることが示唆された。
これらの結果から,提案手法は,広視野報告書の効果の理解に特異性を加え,今後の研究の課題を解明し,体系的かつスケーラブルな手法でエビデンス合成を導出する可能性が示唆された。 Topic modeling and text mining are subsets of Natural Language Processing with relevance for conducting meta-analysis (MA) and systematic review (SR). For evidence synthesis, the above NLP methods are conventionally used for topic-specific literature searches or extracting values from reports to automate essential phases of SR and MA. Instead, this work proposes a comparative topic modeling approach to analyze reports of contradictory results on the same general research question. Specifically, the objective is to find topics exhibiting distinct associations with significant results for an outcome of interest by ranking them according to their proportional occurrence and consistency of distribution across reports of significant results. The proposed method was tested on broad-scope studies addressing whether supplemental nutritional compounds significantly benefit macular degeneration (MD). Eight compounds were identified as having a particular association with reports of significant results for benefitting MD. Six of these were further supported in terms of effectiveness upon conducting a follow-up literature search for validation (omega-3 fatty acids, copper, zeaxanthin, lutein, zinc, and nitrates). The two not supported by the follow-up literature search (niacin and molybdenum) also had the lowest scores under the proposed methods ranking system, suggesting that the proposed method's score for a given topic is a viable proxy for its degree of association with the outcome of interest. These results underpin the proposed methods potential to add specificity in understanding effects from broad-scope reports, elucidate topics of interest for future research, and guide evidence synthesis in a systematic and scalable way. | 翻訳日:2023-09-04 14:11:28 公開日:2023-09-01 |
# リアルタイムモーションキャプチャのための単眼画像とスパースIMU信号の融合 Fusing Monocular Images and Sparse IMU Signals for Real-time Human Motion Capture ( http://arxiv.org/abs/2309.00310v1 ) ライセンス: Link先を確認 | Shaohua Pan, Qi Ma, Xinyu Yi, Weifeng Hu, Xiong Wang, Xingkang Zhou, Jijunnan Li, and Feng Xu | (参考訳) RGB画像や慣性信号がモーションキャプチャー(mocap)のタスクに使われてきたが、それらを組み合わせることは新しくて興味深いトピックである。
この組み合わせは相補的であり、オクルージョン、極端な照明/テクスチャ、視覚モキャップのアウト・オブ・ビュー、慣性モキャップのグローバルドリフトなど、一つのモード入力を使用するという固有の困難を解消できると考えている。
そこで本研究では,モノクロ画像とスパースIMUを融合してリアルタイムな人体モーションキャプチャを実現する手法を提案する。
本手法は,動作キャプチャにおける目標が異なるIMU信号を完全に探索する2つの座標戦略を含む。
具体的には、IMU信号をカメラ座標系に変換して画像情報と組み合わせるブランチに加えて、ボディルート座標系内のIMU信号から学習してボディポーズをよりよく推定するブランチもある。
さらに, 極端に入力された場合において, それぞれの欠点を補うための隠れ状態フィードバック機構が提案されている。
これにより,2種類の信号間を切り替えたり,異なるケースで組み合わせてロバストなモカプを実現することができる。
%) で, 異なる条件下でのモカプ結果の改善に役立てることができた。
定量的および定性的な結果から, 融合法を微妙に設計することにより, 最先端のビジョン, IMU, および大域的方向推定と局所的ポーズ推定の両方において, 組み合わせた手法よりも優れた性能を示すことが示された。
私たちのコードはhttps://shaohua-pan.github.io/robustcap-page/で調査できます。 Either RGB images or inertial signals have been used for the task of motion capture (mocap), but combining them together is a new and interesting topic. We believe that the combination is complementary and able to solve the inherent difficulties of using one modality input, including occlusions, extreme lighting/texture, and out-of-view for visual mocap and global drifts for inertial mocap. To this end, we propose a method that fuses monocular images and sparse IMUs for real-time human motion capture. Our method contains a dual coordinate strategy to fully explore the IMU signals with different goals in motion capture. To be specific, besides one branch transforming the IMU signals to the camera coordinate system to combine with the image information, there is another branch to learn from the IMU signals in the body root coordinate system to better estimate body poses. Furthermore, a hidden state feedback mechanism is proposed for both two branches to compensate for their own drawbacks in extreme input cases. Thus our method can easily switch between the two kinds of signals or combine them in different cases to achieve a robust mocap. %The two divided parts can help each other for better mocap results under different conditions. Quantitative and qualitative results demonstrate that by delicately designing the fusion method, our technique significantly outperforms the state-of-the-art vision, IMU, and combined methods on both global orientation and local pose estimation. Our codes are available for research at https://shaohua-pan.github.io/robustcap-page/. | 翻訳日:2023-09-04 14:10:57 公開日:2023-09-01 |
# 知識グラフ完成のための規則の集約について On the Aggregation of Rules for Knowledge Graph Completion ( http://arxiv.org/abs/2309.00306v1 ) ライセンス: Link先を確認 | Patrick Betz, Stefan L\"udtke, Christian Meilicke, Heiner Stuckenschmidt | (参考訳) 知識グラフ補完のためのルール学習アプローチは、純粋に神経モデルに対して効率的、解釈可能、競争的である。
ルール集約問題は、複数のルールによって同時に予測された候補事実に対する1つの妥当性スコアを求めることに関わる。
この問題はユビキタスであるが、データ駆動型ルール学習は、ノイズと大きなルールセットをもたらす可能性があるため、文献やその理論的基礎は、この文脈では研究されていない。
本研究では,既存のアグリゲーション手法を予測規則よりも辺縁推論演算として表現できることを実証する。
特に、最も信頼度の高い規則に基づいて候補を採点する共通Max-aggregation戦略が確率論的解釈を持つことを示す。
最後に,従来の戦略を組み合わせ,計算コストの高いアプローチと競合する,効率的で見過ごされたベースラインを提案する。 Rule learning approaches for knowledge graph completion are efficient, interpretable and competitive to purely neural models. The rule aggregation problem is concerned with finding one plausibility score for a candidate fact which was simultaneously predicted by multiple rules. Although the problem is ubiquitous, as data-driven rule learning can result in noisy and large rulesets, it is underrepresented in the literature and its theoretical foundations have not been studied before in this context. In this work, we demonstrate that existing aggregation approaches can be expressed as marginal inference operations over the predicting rules. In particular, we show that the common Max-aggregation strategy, which scores candidates based on the rule with the highest confidence, has a probabilistic interpretation. Finally, we propose an efficient and overlooked baseline which combines the previous strategies and is competitive to computationally more expensive approaches. | 翻訳日:2023-09-04 14:10:26 公開日:2023-09-01 |
# 材料シミュレーションのための効率的なサロゲートモデル:機械学習による組織特性の予測 Efficient Surrogate Models for Materials Science Simulations: Machine Learning-based Prediction of Microstructure Properties ( http://arxiv.org/abs/2309.00305v1 ) ライセンス: Link先を確認 | Binh Duong Nguyen, Pavlo Potapenko, Aytekin Dermici, Kishan Govinda, Stefan Sandfeld | (参考訳) いわゆる構造-属性関係の決定、理解、予測は、化学、生物学、気象学、物理学、工学、材料科学など多くの科学分野において重要な課題である。
構造は、例えば、物質、物質、物質一般の空間分布を指すが、性質は、通常、その構造の空間的詳細に非自明な方法で依存する結果として生じる特性である。
伝統的に、フォワードシミュレーションモデルはそのようなタスクに使われてきた。
近年,シミュレーションモデルの拡張や高速化や代理モデルとして,いくつかの機械学習アルゴリズムが科学分野に応用されている。
本研究では,材料科学分野からの2つの異なるデータセットに基づく6つの機械学習手法の開発・検討を行った。2次元イジングモデルによる磁区形成予測と,cahn-hilliardモデルからの2相微細構造の進化を表すデータである。
我々は,全てのモデルの精度とロバスト性を解析し,性能の違いの原因を明らかにする。
カスタマイズされた特徴を通してドメイン知識を含めることの影響を考察し、トレーニングデータの可用性と品質に基づく一般的な推奨事項を導出する。 Determining, understanding, and predicting the so-called structure-property relation is an important task in many scientific disciplines, such as chemistry, biology, meteorology, physics, engineering, and materials science. Structure refers to the spatial distribution of, e.g., substances, material, or matter in general, while property is a resulting characteristic that usually depends in a non-trivial way on spatial details of the structure. Traditionally, forward simulations models have been used for such tasks. Recently, several machine learning algorithms have been applied in these scientific fields to enhance and accelerate simulation models or as surrogate models. In this work, we develop and investigate the applications of six machine learning techniques based on two different datasets from the domain of materials science: data from a two-dimensional Ising model for predicting the formation of magnetic domains and data representing the evolution of dual-phase microstructures from the Cahn-Hilliard model. We analyze the accuracy and robustness of all models and elucidate the reasons for the differences in their performances. The impact of including domain knowledge through tailored features is studied, and general recommendations based on the availability and quality of training data are derived from this. | 翻訳日:2023-09-04 14:10:11 公開日:2023-09-01 |
# エンコーダデコーダを用いた識別可能な認知診断 Identifiable Cognitive Diagnosis with Encoder-decoder for Modelling Students' Performance ( http://arxiv.org/abs/2309.00300v1 ) ライセンス: Link先を確認 | Jiatong Li, Qi Liu, Fei Wang, Jiayu Liu, Zhenya Huang, Enhong Chen | (参考訳) 認知診断は、コンピュータ適応テストなど多くの分野の基礎となる試験質問に対する回答スコアに基づいて、学生の知識能力の診断を目的としている。
既存の認知診断モデル(CDM)は、診断結果を学生の反応の原因である学習可能な埋め込みと見なし、最適化を通じて診断結果を学習する能力応答パラダイムに従う。
しかし,このようなパラダイムは,学生の学習性能の定量化に有害な,特定不能な診断結果や説明可能性の過剰化問題につながる可能性がある。
これらの問題に対処するため,我々は新しい識別可能な認知診断フレームワークを提案する。
具体的には,まず,応答ログから識別可能かつ説明可能な特徴や質問の特徴を直接診断するフレキシブルな診断モジュールを提案する。
次に、一般予測モジュールを用いて、診断結果から応答ログを再構成し、後者の正確性を保証する。
さらに,本フレームワークの実装,すなわちID-CDMを提案する。
最後に,4つの公開実世界のデータセットを用いて,ID-CDMの診断結果の識別可能性,説明可能性,正確性を示す。 Cognitive diagnosis aims to diagnose students' knowledge proficiencies based on their response scores on exam questions, which is the basis of many domains such as computerized adaptive testing. Existing cognitive diagnosis models (CDMs) follow a proficiency-response paradigm, which views diagnostic results as learnable embeddings that are the cause of students' responses and learns the diagnostic results through optimization. However, such a paradigm can easily lead to unidentifiable diagnostic results and the explainability overfitting problem, which is harmful to the quantification of students' learning performance. To address these problems, we propose a novel identifiable cognitive diagnosis framework. Specifically, we first propose a flexible diagnostic module which directly diagnose identifiable and explainable examinee traits and question features from response logs. Next, we leverage a general predictive module to reconstruct response logs from the diagnostic results to ensure the preciseness of the latter. We furthermore propose an implementation of the framework, i.e., ID-CDM, to demonstrate the availability of the former. Finally, we demonstrate the identifiability, explainability and preciseness of diagnostic results of ID-CDM through experiments on four public real-world datasets. | 翻訳日:2023-09-04 14:09:51 公開日:2023-09-01 |
# コントラスト映像表現学習のための細粒度時空間運動アライメント Fine-Grained Spatiotemporal Motion Alignment for Contrastive Video Representation Learning ( http://arxiv.org/abs/2309.00297v1 ) ライセンス: Link先を確認 | Minghao Zhu, Xiao Lin, Ronghao Dang, Chengju Liu, and Qijun Chen | (参考訳) ビデオにおける最も重要な特性として、モーション情報は、堅牢で一般化されたビデオ表現に不可欠である。
動きのダイナミクスを注入するため,近年では,画質とコストのトレードオフを考慮した映像コントラスト学習において,フレーム差を運動情報源として採用している。
しかし、既存の作品は、モダリティ間の空間的および時間的弱アライメントに苦しむインスタンスレベルで動きの特徴を調整している。
本稿では、よく整列された重要な動き情報を導入可能な、 \textbf{Fi}ne-fine \textbf{M}otion \textbf{A}lignment (FIMA) フレームワークを提案する。
具体的には,まず,時空間領域における濃密なコントラスト学習フレームワークを開発し,画素レベルの運動監督を実現する。
次に,動きデコーダとフォアグラウンドサンプリング戦略を設計し,時間と空間の弱いアライメントを解消する。
さらに、フレームレベルの運動コントラスト損失を提示し、運動特徴の時間的多様性を改善する。
大規模な実験により、FIMAが学習した表現は、大きな動き認識能力を有し、UCF101、HMDB51、Diving48データセットの下流タスクにおける最先端または競合的な結果を達成することが示されている。
コードは \url{https://github.com/ZMHH-H/FIMA} で入手できる。 As the most essential property in a video, motion information is critical to a robust and generalized video representation. To inject motion dynamics, recent works have adopted frame difference as the source of motion information in video contrastive learning, considering the trade-off between quality and cost. However, existing works align motion features at the instance level, which suffers from spatial and temporal weak alignment across modalities. In this paper, we present a \textbf{Fi}ne-grained \textbf{M}otion \textbf{A}lignment (FIMA) framework, capable of introducing well-aligned and significant motion information. Specifically, we first develop a dense contrastive learning framework in the spatiotemporal domain to generate pixel-level motion supervision. Then, we design a motion decoder and a foreground sampling strategy to eliminate the weak alignments in terms of time and space. Moreover, a frame-level motion contrastive loss is presented to improve the temporal diversity of the motion features. Extensive experiments demonstrate that the representations learned by FIMA possess great motion-awareness capabilities and achieve state-of-the-art or competitive results on downstream tasks across UCF101, HMDB51, and Diving48 datasets. Code is available at \url{https://github.com/ZMHH-H/FIMA}. | 翻訳日:2023-09-04 14:09:33 公開日:2023-09-01 |
# 自動レースにおけるエンドツーエンドライダー駆動強化学習 End-to-end Lidar-Driven Reinforcement Learning for Autonomous Racing ( http://arxiv.org/abs/2309.00296v1 ) ライセンス: Link先を確認 | Meraj Mammadov | (参考訳) 強化学習(Reinforcement Learning, RL)は、自動化とロボット工学の分野における変革的なアプローチとして現れ、従来の手法では解決が難しい複雑な問題に対する強力なソリューションを提供する。
問題定義が解明され、定量化が難しいシナリオでは、RLのような学習ベースのソリューションが特に有用になる。
このような複雑さの例の1つは、高度な意思決定アルゴリズムを必要とする動的で予測不能な環境であるカーレースの領域に見ることができる。
本研究では,フィードフォワード生ライダーと速度データのみを用いて,シミュレーション環境でのレース環境をナビゲートするRLエージェントの開発と訓練に焦点をあてる。
シミュレーション環境で訓練されたエージェントのパフォーマンスは、実世界のレースシナリオで実験的に評価される。
この調査は、特に事前地図情報が利用できない環境での自動運転性能を向上させるrlアルゴリズムの実現可能性と潜在的な利点を強調するものである。 Reinforcement Learning (RL) has emerged as a transformative approach in the domains of automation and robotics, offering powerful solutions to complex problems that conventional methods struggle to address. In scenarios where the problem definitions are elusive and challenging to quantify, learning-based solutions such as RL become particularly valuable. One instance of such complexity can be found in the realm of car racing, a dynamic and unpredictable environment that demands sophisticated decision-making algorithms. This study focuses on developing and training an RL agent to navigate a racing environment solely using feedforward raw lidar and velocity data in a simulated context. The agent's performance, trained in the simulation environment, is then experimentally evaluated in a real-world racing scenario. This exploration underlines the feasibility and potential benefits of RL algorithm enhancing autonomous racing performance, especially in the environments where prior map information is not available. | 翻訳日:2023-09-04 14:09:07 公開日:2023-09-01 |
# 自律実験によるナノ粒子合成と化学知識の発見 Bespoke Nanoparticle Synthesis and Chemical Knowledge Discovery Via Autonomous Experimentations ( http://arxiv.org/abs/2309.00349v1 ) ライセンス: Link先を確認 | Hyuk Jun Yoo, Nayeon Kim, Heeseung Lee, Daeho Kim, Leslie Tiong Ching Ow, Hyobin Nam, Chansoo Kim, Seung Yong Lee, Kwan-Young Lee, Donghun Kim, and Sang Soo Han | (参考訳) 多くの合成変数を用いたナノマテリアル合成の最適化は、従来の組合せ探索が違法に高価であるため、非常に困難な作業であると考えられている。
本稿では,光学特性を目標としたナノ粒子(NP)の設計のための自律的な実験プラットフォームについて報告する。
このプラットフォームは、AI最適化モデリングのフィードバックに基づいて、NPのバッチ合成モジュールとUV-Vis分光モジュールの間をクローズループで動作させる。
銀 (Ag) NPを代表例として, 初期停止基準で実装したベイズ最適化器は, 所望の吸収スペクトルを持つAg NPを, わずか200回(合成試薬を5回)で効率よく生成できることを示した。
優れた材料開発効率に加えて、合成変数の解析により、Ag NP合成におけるクエン酸の効果を含む新しい化学が明らかにされる。
クエン酸の量は球状および板状NPの競合を制御する鍵であり、結果として吸収スペクトルの形状にも影響を及ぼす。
本研究は, 探索効率の向上と, 自律実験から蓄積したデータセットを解析し, 新たな化学知識の提供を目的とした。 The optimization of nanomaterial synthesis using numerous synthetic variables is considered to be extremely laborious task because the conventional combinatorial explorations are prohibitively expensive. In this work, we report an autonomous experimentation platform developed for the bespoke design of nanoparticles (NPs) with targeted optical properties. This platform operates in a closed-loop manner between a batch synthesis module of NPs and a UV- Vis spectroscopy module, based on the feedback of the AI optimization modeling. With silver (Ag) NPs as a representative example, we demonstrate that the Bayesian optimizer implemented with the early stopping criterion can efficiently produce Ag NPs precisely possessing the desired absorption spectra within only 200 iterations (when optimizing among five synthetic reagents). In addition to the outstanding material developmental efficiency, the analysis of synthetic variables further reveals a novel chemistry involving the effects of citrate in Ag NP synthesis. The amount of citrate is a key to controlling the competitions between spherical and plate-shaped NPs and, as a result, affects the shapes of the absorption spectra as well. Our study highlights both capabilities of the platform to enhance search efficiencies and to provide a novel chemical knowledge by analyzing datasets accumulated from the autonomous experimentations. | 翻訳日:2023-09-04 14:02:52 公開日:2023-09-01 |
# MuraNet:関係を考慮したマルチタスクフロアプラン認識 MuraNet: Multi-task Floor Plan Recognition with Relation Attention ( http://arxiv.org/abs/2309.00348v1 ) ライセンス: Link先を確認 | Lingxiao Huang, Jung-Hsuan Wu, Chiching Wei, Wilson Li | (参考訳) フロアプランデータにおける情報認識には,検出モデルとセグメンテーションモデルが必要となる。
しかし、複数のシングルタスクモデルに依存すると、複数のタスクが同時に存在する場合、関連する情報を効果的に利用できない可能性がある。
この課題に対処するために、フロアプランデータにおけるセグメンテーションと検出タスクのためのアテンションベースマルチタスクモデルであるMuraNetを紹介する。
muranetでは,セグメンテーション・デコーダ・ブランチとyoloxに基づくデカップリング検出ヘッドブランチの2つのブランチを分離したバックボーンとしてmuraと呼ばれる統一エンコーダを採用し,それぞれセグメンテーションと検出タスクを行う。
MuraNetのアーキテクチャは、壁、ドア、窓がフロアプランのアーキテクチャの主要な構造であるという事実を活用するように設計されている。
検出タスクとセグメンテーションタスクの両方でモデルを共同でトレーニングすることで、MuraNetは両方のタスクに関係のある機能を効果的に抽出し活用できると考えています。
U-NetやYOLOv3のようなシングルタスクモデルと比較して,MuraNetがトレーニング中の収束速度を改善することを示す。
さらに,各タスクにおける平均APとIoUの改善を観察し,MuraNetのアテンションベース統合バックボーンがフロアプラン認識タスクにおいて,より優れた特徴抽出を実現し,異なるタスクに対する分離多重ヘッドブランチの使用によりモデル性能がさらに向上することを示した。
提案したMuraNetモデルは,シングルタスクモデルの欠点に対処し,フロアプランデータ認識の精度と効率を向上させることができると考えている。 The recognition of information in floor plan data requires the use of detection and segmentation models. However, relying on several single-task models can result in ineffective utilization of relevant information when there are multiple tasks present simultaneously. To address this challenge, we introduce MuraNet, an attention-based multi-task model for segmentation and detection tasks in floor plan data. In MuraNet, we adopt a unified encoder called MURA as the backbone with two separated branches: an enhanced segmentation decoder branch and a decoupled detection head branch based on YOLOX, for segmentation and detection tasks respectively. The architecture of MuraNet is designed to leverage the fact that walls, doors, and windows usually constitute the primary structure of a floor plan's architecture. By jointly training the model on both detection and segmentation tasks, we believe MuraNet can effectively extract and utilize relevant features for both tasks. Our experiments on the CubiCasa5k public dataset show that MuraNet improves convergence speed during training compared to single-task models like U-Net and YOLOv3. Moreover, we observe improvements in the average AP and IoU in detection and segmentation tasks, respectively.Our ablation experiments demonstrate that the attention-based unified backbone of MuraNet achieves better feature extraction in floor plan recognition tasks, and the use of decoupled multi-head branches for different tasks further improves model performance. We believe that our proposed MuraNet model can address the disadvantages of single-task models and improve the accuracy and efficiency of floor plan data recognition. | 翻訳日:2023-09-04 14:02:34 公開日:2023-09-01 |
# 音楽ビデオ分野におけるコントラスト学習に向けて Towards Contrastive Learning in Music Video Domain ( http://arxiv.org/abs/2309.00347v1 ) ライセンス: Link先を確認 | Karel Veldkamp, Mariya Hendriksen, Zolt\'an Szl\'avik, Alexander Keijser | (参考訳) コントラスト学習は、画像キャプション検索や音声視覚表現学習など、様々な領域にわたるマルチモーダル表現を学習する強力な方法である。
本研究では,これらの知見が音楽ビデオの領域に一般化されるかどうかを検討する。
具体的には、オーディオおよびビデオモダリティのためのデュアルエンコーダを作成し、双方向のコントラスト損失を用いてトレーニングする。
実験では,55,000万曲の動画と100万曲の公開データセットを含む業界データセットを用いて,音楽タグづけやジャンル分類の下流課題における学習表現の質を評価する。
以上の結果から,コントラスト調整を行わない事前学習ネットワークは,両タスクで評価した場合のコントラスト学習アプローチよりも優れていることが示唆された。
コントラスト学習が音楽ビデオではうまくいかなかった理由をよりよく理解するために,学習表現の質的分析を行い,コントラスト学習が2つのモダリティから組込みを一体化することが困難になる理由を明らかにする。
これらの結果に基づき,今後の作業の方向性について概説する。
結果の再現性を高めるため、コードと事前学習したモデルを共有します。 Contrastive learning is a powerful way of learning multimodal representations across various domains such as image-caption retrieval and audio-visual representation learning. In this work, we investigate if these findings generalize to the domain of music videos. Specifically, we create a dual en-coder for the audio and video modalities and train it using a bidirectional contrastive loss. For the experiments, we use an industry dataset containing 550 000 music videos as well as the public Million Song Dataset, and evaluate the quality of learned representations on the downstream tasks of music tagging and genre classification. Our results indicate that pre-trained networks without contrastive fine-tuning outperform our contrastive learning approach when evaluated on both tasks. To gain a better understanding of the reasons contrastive learning was not successful for music videos, we perform a qualitative analysis of the learned representations, revealing why contrastive learning might have difficulties uniting embeddings from two modalities. Based on these findings, we outline possible directions for future work. To facilitate the reproducibility of our results, we share our code and the pre-trained model. | 翻訳日:2023-09-04 14:02:05 公開日:2023-09-01 |
# 一般化文字列ネットモデルにおける位相的および非位相的異質性 Topological and nontopological degeneracies in generalized string-net models ( http://arxiv.org/abs/2309.00343v1 ) ライセンス: Link先を確認 | Anna Ritz-Zwilling, Jean-No\"el Fuchs, Steven H. Simon, Julien Vidal | (参考訳) 一般化された文字列ネットモデルは、元の文字列ネット構成から生じるトポロジカル量子位相の集合を拡大するために最近提案されている。
本研究では, 頂点励起を考慮せず, 重要な同一性を満たすプラケット励起やフラクトンに制限する。
任意のユニタリ融合圏に付随する一般化文字列-ネットハミルトンのエネルギー準退化を計算する方法について説明する。
純粋に位相的である基底状態の退化とは対照的に、励起エネルギー準位は圏のドリンフェルト中心だけでなく、圏から定義されるチューブ代数から得られる内部乗法にも依存する。
非可換圏の場合、これらの内部多重性は超非位相的縮退をもたらす。
結果は任意の三価グラフと任意の向き付け可能な曲面に対して有効である。
非自明な例を例に紹介する。 Generalized string-net models have been recently proposed in order to enlarge the set of possible topological quantum phases emerging from the original string-net construction. In the present work, we do not consider vertex excitations and restrict to plaquette excitations, or fluxons, that satisfy important identities. We explain how to compute the energy-level degeneracies of the generalized string-net Hamiltonian associated to an arbitrary unitary fusion category. In contrast to the degeneracy of the ground state, which is purely topological, that of excited energy levels depends not only on the Drinfeld center of the category, but also on internal multiplicities obtained from the tube algebra defined from the category. For a noncommutative category, these internal multiplicities result in extra nontopological degeneracies. Our results are valid for any trivalent graph and any orientable surface. We illustrate our findings with nontrivial examples. | 翻訳日:2023-09-04 14:01:44 公開日:2023-09-01 |
# 位置埋め込みによるロバストポイントクラウド処理 Robust Point Cloud Processing through Positional Embedding ( http://arxiv.org/abs/2309.00339v1 ) ライセンス: Link先を確認 | Jianqiao Zheng, Xueqian Li, Sameera Ramasinghe, Simon Lucey | (参考訳) エンドツーエンドのトレーニングされたポイントごとの埋め込みは、検出やアライメントといった最先端の3Dポイントクラウド処理の重要な要素である。
pointnetや、より最近のpoint cloud transformer --とその変種 -- のようなメソッドは、すべて、学習されたポイント毎の埋め込みを使用する。
優れた性能にもかかわらず、そのようなアプローチはオフ・オブ・ディストリビューション(OOD)ノイズとアウトリージに敏感である。
本稿では,帯域幅の基準に基づく解析的ポイント毎の埋め込みの役割について検討する。
帯域幅の概念は、ポイント毎の別の埋め込み -- 位置埋め込み、特にランダムなフーリエ機能との接続を描画する。
ポイントクラウドの分類や登録といった下流タスクにおいて,いくつかのカテゴリのoodノイズを伴う強固な結果を示す。 End-to-end trained per-point embeddings are an essential ingredient of any state-of-the-art 3D point cloud processing such as detection or alignment. Methods like PointNet, or the more recent point cloud transformer -- and its variants -- all employ learned per-point embeddings. Despite impressive performance, such approaches are sensitive to out-of-distribution (OOD) noise and outliers. In this paper, we explore the role of an analytical per-point embedding based on the criterion of bandwidth. The concept of bandwidth enables us to draw connections with an alternate per-point embedding -- positional embedding, particularly random Fourier features. We present compelling robust results across downstream tasks such as point cloud classification and registration with several categories of OOD noise. | 翻訳日:2023-09-04 14:01:31 公開日:2023-09-01 |
# Gorini-Kossakowski-Sudarshan-Lindblad方程式の定常状態の特異性:簡単な証明 Uniqueness of steady states of Gorini-Kossakowski-Sudarshan-Lindblad equations: a simple proof ( http://arxiv.org/abs/2309.00335v1 ) ライセンス: Link先を確認 | Hironobu Yoshida | (参考訳) 我々はgorini-kossakowski-sudarshan-lindblad方程式の非平衡定常状態の一意性に対する十分条件の簡単な証明を示す。
本稿では,横場イジングモデル,xyzモデル,強結合モデルの例を用いて,十分条件の適用例を示す。 We present a simple proof of a sufficient condition for the uniqueness of non-equilibrium steady states of Gorini-Kossakowski-Sudarshan-Lindblad equations. We demonstrate the applications of the sufficient condition using examples of the transverse-field Ising model, the XYZ model, and the tight-binding model with dephasing. | 翻訳日:2023-09-04 14:01:19 公開日:2023-09-01 |
# 縮退定常状態からのジェネリック局所ハミルトニアンの回復 Recovery of a generic local Hamiltonian from a degenerate steady state ( http://arxiv.org/abs/2309.00334v1 ) ライセンス: Link先を確認 | Jing Zhou and D. L. Zhou | (参考訳) 量子コンピューティングにおけるトモグラフィー技術として、ハミルトニアン・ラーニング(HL)は量子システムの精度を検証する重要な方法を提供する。
しばしば、あるハミルトニアンを学ぶには、その定常状態からの測定が必要である。
しかし、すべてのハミルトニアンが定常状態から一意に決定できるわけではない。
HLの成功はハミルトン模型と州の階級に依存していることが明らかになった。
ここで、HLは固有状態によって分解される特定の種類の定常状態について解析し、ハミルトニアンの固有状態が未知となる。
この課題を克服するために,固有状態空間とその補空間の間の直交関係から情報を取り出し,直交空間方程式(ose)を構築した。
OSEの方程式数は、ハミルトニアンが一定の定常状態から回復できるかどうかを決定するために用いられる。
最後に,ハミルトニアンの対称性がHL法の実現可能性に与える影響について検討する。 As an important tomography technique in quantum computing, Hamiltonian Learning (HL) provides a significant method for verifying the accuracy of a quantum system. Often, learning a certain Hamiltonian requires the measurements from its steady states. However, not all the Hamiltonian can be uniquely determined from the steady state. It has been revealed that the success of HL depends on the Hamiltonian model and the rank of the state. Here, we analyze the HL with respect to a specific type of steady state that is decomposed by eigenstates with degeneracy, making the Hamiltonian's eigenstate unknown. To overcome this challenge, we extract information from the orthogonality relationship between the eigenstate space and its complement space, constructing the orthogonal space equation (OSE). The equation number of OSE can be utilized to determine whether a Hamiltonian can be recovered from a certain steady state. Finally, we investigate how symmetries in the Hamiltonian affect the feasibility of the HL method. | 翻訳日:2023-09-04 14:01:12 公開日:2023-09-01 |
# LSTMと注意機構を用いた人間の軌道予測 Human trajectory prediction using LSTM with Attention mechanism ( http://arxiv.org/abs/2309.00331v1 ) ライセンス: Link先を確認 | Amin Manafi Soltan Ahmadi, Samaneh Hoseini Semnani | (参考訳) 本稿では,Long Short-Term Memory(LSTM)ネットワークとアテンション機構を組み合わせた人間の軌道予測モデルを提案する。
そのため、モデルが予測を行う際に、どの入力データに焦点を当てるべきかを決定するために注意スコアを使用します。
各入力特徴に対して注意点を算出し、出力予測におけるその特徴のより大きな重要性を示す高得点を得る。
最初は、これらのスコアは、対象の人間の位置、速度、および隣人の位置と速度について決定される。
アテンションスコアを使用することで,入力データの最も関連性の高い情報を優先順位付けし,より正確な予測を行うことができる。
我々は、注意機構から注意点を抽出し、それを軌道予測モジュールに統合し、将来の軌道を予測する。
これを実現するために,注意スコアを抽出後処理し,位置情報と結合する新しい神経層を導入する。
我々は、ETHおよびUCYデータセットに対する我々のアプローチを評価し、最終変位誤差(FDE)と平均変位誤差(ADE)を用いてその性能を測定する。
提案アルゴリズムは,混み合った空間における歩行者の将来の軌道予測において,ソーシャルLSTMよりも優れていることを示す。
具体的には、文献における社会LSTM結果と比較してADEが6.2%、FDEが6.3%改善した。 In this paper, we propose a human trajectory prediction model that combines a Long Short-Term Memory (LSTM) network with an attention mechanism. To do that, we use attention scores to determine which parts of the input data the model should focus on when making predictions. Attention scores are calculated for each input feature, with a higher score indicating the greater significance of that feature in predicting the output. Initially, these scores are determined for the target human position, velocity, and their neighboring individual's positions and velocities. By using attention scores, our model can prioritize the most relevant information in the input data and make more accurate predictions. We extract attention scores from our attention mechanism and integrate them into the trajectory prediction module to predict human future trajectories. To achieve this, we introduce a new neural layer that processes attention scores after extracting them and concatenates them with positional information. We evaluate our approach on the publicly available ETH and UCY datasets and measure its performance using the final displacement error (FDE) and average displacement error (ADE) metrics. We show that our modified algorithm performs better than the Social LSTM in predicting the future trajectory of pedestrians in crowded spaces. Specifically, our model achieves an improvement of 6.2% in ADE and 6.3% in FDE compared to the Social LSTM results in the literature. | 翻訳日:2023-09-04 14:00:57 公開日:2023-09-01 |
# 冠動脈造影ctにおけるリスク階層化と次のステップ予測のための多タスク深層学習 Multitask Deep Learning for Accurate Risk Stratification and Prediction of Next Steps for Coronary CT Angiography Patients ( http://arxiv.org/abs/2309.00330v1 ) ライセンス: Link先を確認 | Juan Lu, Mohammed Bennamoun, Jonathon Stewart, JasonK.Eshraghian, Yanbin Liu, Benjamin Chow, Frank M.Sanfilippo and Girish Dwivedi | (参考訳) 冠状動脈疾患(CAD)のリスク層化と臨床的意思決定において,診断研究は重要な役割を担っている。
しかし、既存のツールの大部分は、主にゲートキーパーテストの選択に焦点を当てているが、下流のテストや治療に関する情報を含むシステムはわずかである。
冠動脈CT(Corary Computed Tomography Angiography)を施行した患者のリスク階層化と下流テスト選択を支援するマルチタスク深層学習モデルを提案する。
分析対象は2006年から2017年までのccta患者14,021名であった。
新しいマルチタスクディープラーニングフレームワークは,実世界のcctaレポートデータを扱うために,最先端の知覚モデルを拡張する。
提案モデルでは,CADのリスク層化においてAUCが0.76であり,下流試験では0.72AUCが得られた。
提案する深層学習モデルは,cadの可能性を正確に推定し,cctaデータに基づく推奨下流テストを提供する。
臨床実践においては、そのようなアプローチの利用は、リスク階層化と下流管理のパラダイムシフトをもたらす可能性がある。
表データにディープラーニングモデルを用いるという大きな進歩にもかかわらず、勾配ブースティング決定木を上回ることはなく、この分野ではさらなる研究が必要である。
しかし、ニューラルネットワークはツリーベースモデルよりもマルチタスク学習の恩恵を受けやすいようだ。
これは、表データを扱う際の単一タスク学習アプローチの欠点を相殺する可能性がある。 Diagnostic investigation has an important role in risk stratification and clinical decision making of patients with suspected and documented Coronary Artery Disease (CAD). However, the majority of existing tools are primarily focused on the selection of gatekeeper tests, whereas only a handful of systems contain information regarding the downstream testing or treatment. We propose a multi-task deep learning model to support risk stratification and down-stream test selection for patients undergoing Coronary Computed Tomography Angiography (CCTA). The analysis included 14,021 patients who underwent CCTA between 2006 and 2017. Our novel multitask deep learning framework extends the state-of-the art Perceiver model to deal with real-world CCTA report data. Our model achieved an Area Under the receiver operating characteristic Curve (AUC) of 0.76 in CAD risk stratification, and 0.72 AUC in predicting downstream tests. Our proposed deep learning model can accurately estimate the likelihood of CAD and provide recommended downstream tests based on prior CCTA data. In clinical practice, the utilization of such an approach could bring a paradigm shift in risk stratification and downstream management. Despite significant progress using deep learning models for tabular data, they do not outperform gradient boosting decision trees, and further research is required in this area. However, neural networks appear to benefit more readily from multi-task learning than tree-based models. This could offset the shortcomings of using single task learning approach when working with tabular data. | 翻訳日:2023-09-04 14:00:37 公開日:2023-09-01 |
# Mi-Go:OpenAIのWhisperのような音声認識モデルを評価するためのデータソースとしてYouTubeを使用するテストフレームワーク Mi-Go: Test Framework which uses YouTube as Data Source for Evaluating Speech Recognition Models like OpenAI's Whisper ( http://arxiv.org/abs/2309.00329v1 ) ライセンス: Link先を確認 | Tomasz Wojnar, Jaroslaw Hryszko, Adam Roman | (参考訳) 本稿では,汎用音声認識モデルの性能と適応性を評価するための新しいテストフレームワークであるmi-goについて紹介する。
このフレームワークはYouTubeをリッチで継続的に更新されたデータソースとして活用し、複数の言語、アクセント、方言、話し方、オーディオ品質レベルを考慮に入れている。
フレームワークの有効性を示すために、OpenAIが開発したWhisperモデルがテストオブジェクトとして採用された。
テストには合計124本のyoutubeビデオを使用し、すべてのwhisperモデルバージョンをテストする。
その結果、YouTubeは音声認識モデルにとって貴重なテストプラットフォームであり、その堅牢性、正確性、および多様な言語や音響条件への適応性を保証する。
さらに、機械が生成した字幕と人造字幕との対比により、Mi-Goフレームワークは検索エンジン最適化のようなYouTube字幕の誤用を特定できる。 This article introduces Mi-Go, a novel testing framework aimed at evaluating the performance and adaptability of general-purpose speech recognition machine learning models across diverse real-world scenarios. The framework leverages YouTube as a rich and continuously updated data source, accounting for multiple languages, accents, dialects, speaking styles, and audio quality levels. To demonstrate the effectiveness of the framework, the Whisper model, developed by OpenAI, was employed as a test object. The tests involve using a total of 124 YouTube videos to test all Whisper model versions. The results underscore the utility of YouTube as a valuable testing platform for speech recognition models, ensuring their robustness, accuracy, and adaptability to diverse languages and acoustic conditions. Additionally, by contrasting the machine-generated transcriptions against human-made subtitles, the Mi-Go framework can help pinpoint potential misuse of YouTube subtitles, like Search Engine Optimization. | 翻訳日:2023-09-04 14:00:13 公開日:2023-09-01 |
# 広告の長期記憶力 Long-Term Memorability On Advertisements ( http://arxiv.org/abs/2309.00378v1 ) ライセンス: Link先を確認 | Harini S I, Somesh Singh, Yaman K Singla, Aanisha Bhattacharyya, Veeky Baths, Changyou Chen, Rajiv Ratn Shah, Balaji Krishnamurthy | (参考訳) マーケターは広告に何十億ドルも費やすが、どう終わるのか?
購入時に、顧客が広告を見たブランドを認識できなければ、広告に費やされたお金は本質的に無駄になる。
マーケティングの重要性にもかかわらず、これまでML文学における広告の記憶可能性に関する研究は行われていない。
ほとんどの研究は、オブジェクトやアクションビデオのような特定のコンテンツタイプの短期リコール(5分)で行われている。
一方、広告業界は長期記憶力(数時間以上)だけを気にしており、広告はほとんど常にマルチモーダルであり、異なるモダリティ(テキスト、画像、ビデオ)を通して物語を描いている。
この動機により,276ブランドにわたる1203人の参加者と2205人の広告からなる,最初の大規模記憶力調査を行った。
さまざまな参加者のサブポピュレーションや広告タイプに対する統計的テストを実行すると、広告を記憶できるもの、コンテンツと人的要素の両方について興味深い洞察が得られます。
例えば、速く動くシーンを持つコマーシャルを使うブランドは、遅いシーン(p=8e-10)よりも記憶に残るものが多く、広告ブロッカーを使う人は、そうでないもの(p=5e-3)よりも広告の数が少ないことが分かる。
さらに、特定のオーディエンスに対するマーケティング資料の記憶可能性のシミュレーションを行い、最終的に作成を支援する動機から、LLMの現実的知識と視覚的エンコーダの視覚的知識を活用してコンテンツの記憶可能性を予測する新しいモデル、Sharinganを提案する。
文献中の顕著な記憶可能性データセット(画像とビデオの両方)すべてでモデルをテストし、それらすべてにわたって最先端のアートを実現する。
メモリタイプ、モダリティ、ブランド、アーキテクチャの選択に関する広範なアブレーション研究を行い、メモリを駆動する要因に関する洞察を得ます。 Marketers spend billions of dollars on advertisements but to what end? At the purchase time, if customers cannot recognize a brand for which they saw an ad, the money spent on the ad is essentially wasted. Despite its importance in marketing, until now, there has been no study on the memorability of ads in the ML literature. Most studies have been conducted on short-term recall (<5 mins) on specific content types like object and action videos. On the other hand, the advertising industry only cares about long-term memorability (a few hours or longer), and advertisements are almost always highly multimodal, depicting a story through its different modalities (text, images, and videos). With this motivation, we conduct the first large scale memorability study consisting of 1203 participants and 2205 ads covering 276 brands. Running statistical tests over different participant subpopulations and ad-types, we find many interesting insights into what makes an ad memorable - both content and human factors. For example, we find that brands which use commercials with fast moving scenes are more memorable than those with slower scenes (p=8e-10) and that people who use ad-blockers remember lower number of ads than those who don't (p=5e-3). Further, with the motivation of simulating the memorability of marketing materials for a particular audience, ultimately helping create one, we present a novel model, Sharingan, trained to leverage real-world knowledge of LLMs and visual knowledge of visual encoders to predict the memorability of a content. We test our model on all the prominent memorability datasets in literature (both images and videos) and achieve state of the art across all of them. We conduct extensive ablation studies across memory types, modality, brand, and architectural choices to find insights into what drives memory. | 翻訳日:2023-09-04 13:52:51 公開日:2023-09-01 |
# シナリオモデルによる貯水池システムの予測制御 Scenario-based model predictive control of water reservoir systems ( http://arxiv.org/abs/2309.00373v1 ) ライセンス: Link先を確認 | Raffaele Giuseppe Cestari, Andrea Castelletti, Simone Formentin | (参考訳) 貯水池システムの最適運用は、複数の相反する目的を含む課題である。
複雑さの主な原因は、水流入の存在であり、システムに外因性があり、非常に不確実な乱れとして機能する。
モデル予測制御(MPC)を用いる場合、最適水の放出は通常、流入の(予測された)軌道に基づいて計算される。
この選択は、実際の流入が予測と異なる場合、閉ループ性能を損なう可能性がある。
本研究では, 貯水池における確率的MPC手法として, 過去のデータから直接発生する可算的将来の流入量に基づいて制御を最適化する手法を, 初めて検討する。
このようなシナリオベースのmpc戦略により、コントローラはより慎重であり、干ばつ期間(例えば、干ばつレベルが乾燥限界以下になる)を相殺すると同時に、農業用水需要が満たされることを保証できる。
この手法の有効性は、イタリアのコモ湖からの実際の流入データを用いてモンテカルロ試験によって検証される。 The optimal operation of water reservoir systems is a challenging task involving multiple conflicting objectives. The main source of complexity is the presence of the water inflow, which acts as an exogenous, highly uncertain disturbance on the system. When model predictive control (MPC) is employed, the optimal water release is usually computed based on the (predicted) trajectory of the inflow. This choice may jeopardize the closed-loop performance when the actual inflow differs from its forecast. In this work, we consider - for the first time - a stochastic MPC approach for water reservoirs, in which the control is optimized based on a set of plausible future inflows directly generated from past data. Such a scenario-based MPC strategy allows the controller to be more cautious, counteracting droughty periods (e.g., the lake level going below the dry limit) while at the same time guaranteeing that the agricultural water demand is satisfied. The method's effectiveness is validated through extensive Monte Carlo tests using actual inflow data from Lake Como, Italy. | 翻訳日:2023-09-04 13:52:15 公開日:2023-09-01 |
# 点分布モデルにおける超音波画像スライスの局在について On the Localization of Ultrasound Image Slices within Point Distribution Models ( http://arxiv.org/abs/2309.00372v1 ) ライセンス: Link先を確認 | Lennart Bastian, Vincent B\"urgin, Ha Young Kim, Alexander Baumann, Benjamin Busam, Mahdi Saleh, Nassir Navab | (参考訳) 甲状腺疾患は高分解能超音波(us)で診断されることが多い。
縦断結節追跡は甲状腺形態の変化を監視する重要な診断プロトコルである。
しかし、この課題は、精神的な臓器の3D再構成を維持するという固有の課題のために、臨床医にかなりの認知負荷を課す。
そこで我々は, 超音波診断の容易化を図るために, 3次元形状表現内におけるUS画像スライスの自動位置決めを行うフレームワークを提案する。
提案手法は,US画像パッチと個人の甲状腺形状の3次元表面との共通潜時埋め込み空間,あるいは統計的形状モデル(SSM)の形での統計集約を,コントラッシブなメトリック学習により学習する。
クロスモダリティ・レジストレーション(cross-modality registration)とprocrustes analysis(procrustes analysis)を用いて,我々のモデルの特徴を利用して甲状腺形状の3dメッシュ表現にスライスを登録した。
患者固有の臓器の3次元表面トポロジとSSMの平均形状から画像のローカライズが可能であることを,我々のマルチモーダル登録フレームワークで実証した。
実験の結果,スライス位置は患者固有の3d解剖学的位置の1.2mm,ssmの4.6mmの範囲で予測でき,超音波画像取得時のスライス位置推定の有用性が示唆された。
コードは公開されている。 \href{https://github.com/vuenc/slice-to-shape}{https://github.com/vuenc/slice-to-shape} Thyroid disorders are most commonly diagnosed using high-resolution Ultrasound (US). Longitudinal nodule tracking is a pivotal diagnostic protocol for monitoring changes in pathological thyroid morphology. This task, however, imposes a substantial cognitive load on clinicians due to the inherent challenge of maintaining a mental 3D reconstruction of the organ. We thus present a framework for automated US image slice localization within a 3D shape representation to ease how such sonographic diagnoses are carried out. Our proposed method learns a common latent embedding space between US image patches and the 3D surface of an individual's thyroid shape, or a statistical aggregation in the form of a statistical shape model (SSM), via contrastive metric learning. Using cross-modality registration and Procrustes analysis, we leverage features from our model to register US slices to a 3D mesh representation of the thyroid shape. We demonstrate that our multi-modal registration framework can localize images on the 3D surface topology of a patient-specific organ and the mean shape of an SSM. Experimental results indicate slice positions can be predicted within an average of 1.2 mm of the ground-truth slice location on the patient-specific 3D anatomy and 4.6 mm on the SSM, exemplifying its usefulness for slice localization during sonographic acquisitions. Code is publically available: \href{https://github.com/vuenc/slice-to-shape}{https://github.com/vuenc/slice-to-shape} | 翻訳日:2023-09-04 13:51:47 公開日:2023-09-01 |
# 談話マーカは計算文理解に影響を及ぼすか? When Do Discourse Markers Affect Computational Sentence Understanding? ( http://arxiv.org/abs/2309.00368v1 ) ライセンス: Link先を確認 | Ruiqi Li, Liesbeth Allein, Damien Sileo, Marie-Francine Moens | (参考訳) 自動自然言語処理(NLP)の能力とユースケースは,ここ数年で大きく成長している。
人間が会話の接続をどう扱うかを理解するために多くの研究がなされてきたが、この現象は計算システムで実証されている。
したがって、顕微鏡下にNLPモデルを配置し、自然言語の複雑さの中で適切に理解し、処理し、理性を検証することが重要である。
本章では,自動文処理システムの背後にある主なメカニズムを段階的に紹介し,談話接続処理の評価に焦点を当てる。
英語の談話接続を理解できる9つの人気システムを評価し,文脈や言語理解タスクが接続理解に与える影響を分析する。
その結果、nlpシステムは全ての会話接続を等しく処理せず、異なる連結種の計算処理の複雑さは、人間の処理で見られる推定複雑性順序と常に一致しているとは限らない。
また、読解過程において人間は影響を受けやすいが、必ずしも最終理解性能には影響しないが、談話接続はNLPシステムの最終的な精度に大きな影響を及ぼす。
システムが学習するコネクティブのより豊富な知識は、不適切なコネクティブがそれに対して負の効果を持つ。
このことは,自然言語処理において,言論接続の正しい明示が重要であることを示唆する。 The capabilities and use cases of automatic natural language processing (NLP) have grown significantly over the last few years. While much work has been devoted to understanding how humans deal with discourse connectives, this phenomenon is understudied in computational systems. Therefore, it is important to put NLP models under the microscope and examine whether they can adequately comprehend, process, and reason within the complexity of natural language. In this chapter, we introduce the main mechanisms behind automatic sentence processing systems step by step and then focus on evaluating discourse connective processing. We assess nine popular systems in their ability to understand English discourse connectives and analyze how context and language understanding tasks affect their connective comprehension. The results show that NLP systems do not process all discourse connectives equally well and that the computational processing complexity of different connective kinds is not always consistently in line with the presumed complexity order found in human processing. In addition, while humans are more inclined to be influenced during the reading procedure but not necessarily in the final comprehension performance, discourse connectives have a significant impact on the final accuracy of NLP systems. The richer knowledge of connectives a system learns, the more negative effect inappropriate connectives have on it. This suggests that the correct explicitation of discourse connectives is important for computational natural language processing. | 翻訳日:2023-09-04 13:51:24 公開日:2023-09-01 |
# ギャップはどこへ行ったのか?
Long-Range Graphベンチマークの再評価 Where Did the Gap Go? Reassessing the Long-Range Graph Benchmark ( http://arxiv.org/abs/2309.00367v1 ) ライセンス: Link先を確認 | Jan T\"onshoff, Martin Ritzert, Eran Rosenbluth, Martin Grohe | (参考訳) 最近のLong-Range Graph Benchmark (LRGB, Dwivedi et al. 2022)では、頂点間の長距離相互作用に強く依存するグラフ学習タスクが導入された。
これらのタスクにおいて、Graph TransformerはMessage Passing GNN(MPGNN)を大幅に上回っている。
本稿では、LRGB上で複数のMPGNNベースラインとグラフトランスフォーマーGPS(Ramp\'a\v{s}ek et al. 2022)を再評価する。
厳密な実証分析により,サブオプティカルハイパーパラメータの選択により,報告される性能ギャップが過大評価されていることを実証した。
複数のデータセットにまたがるパフォーマンスギャップは、基本的なハイパーパラメータ最適化後に完全に消える。
さらに、LRGBの視覚データセットの機能正規化の欠如の影響を論じ、LRGBのリンク予測指標の急激な実装を強調した。
本論文の目的は,グラフ機械学習コミュニティにおける経験的厳密さのより高い基準を確立することである。 The recent Long-Range Graph Benchmark (LRGB, Dwivedi et al. 2022) introduced a set of graph learning tasks strongly dependent on long-range interaction between vertices. Empirical evidence suggests that on these tasks Graph Transformers significantly outperform Message Passing GNNs (MPGNNs). In this paper, we carefully reevaluate multiple MPGNN baselines as well as the Graph Transformer GPS (Ramp\'a\v{s}ek et al. 2022) on LRGB. Through a rigorous empirical analysis, we demonstrate that the reported performance gap is overestimated due to suboptimal hyperparameter choices. It is noteworthy that across multiple datasets the performance gap completely vanishes after basic hyperparameter optimization. In addition, we discuss the impact of lacking feature normalization for LRGB's vision datasets and highlight a spurious implementation of LRGB's link prediction metric. The principal aim of our paper is to establish a higher standard of empirical rigor within the graph machine learning community. | 翻訳日:2023-09-04 13:51:02 公開日:2023-09-01 |
# FederatedScope-LLM:フェデレートラーニングにおける大規模言語モデルのための包括的パッケージ FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large Language Models in Federated Learning ( http://arxiv.org/abs/2309.00363v1 ) ライセンス: Link先を確認 | Weirui Kuang, Bingchen Qian, Zitao Li, Daoyuan Chen, Dawei Gao, Xuchen Pan, Yuexiang Xie, Yaliang Li, Bolin Ding, Jingren Zhou | (参考訳) LLMは様々なNLPタスクに優れた機能を示した。
異なるエンティティは、細調整のLLMにより、特定の下流タスクにおけるそれらのLLMの性能をさらに向上させることができる。
いくつかのエンティティが同様の関心のあるタスクを持っているが、プライバシに関する規制のためにデータは共有できない場合、フェデレートラーニング(FL)は、異なるエンティティのデータを活用する主要なソリューションである。
しかしながら、連合学習環境におけるllmの微調整は、重要なコミュニケーションと計算リソースの消費の最適化、異なるタスクのためのデータ準備、異なる情報保護要求に対処する必要があるため、既存のflフレームワークからの十分なサポートを欠いている。
This paper first discusses these challenges of federated fine-tuning LLMs, and introduces our package FS-LLM as a main contribution, which consists of the following components: (1) we build an end-to-end benchmarking pipeline, automizing the processes of dataset preprocessing, federated fine-tuning execution, and performance evaluation on federated LLM fine-tuning; (2) we provide comprehensive federated parameter-efficient fine-tuning algorithm implementations and versatile programming interfaces for future extension in FL scenarios with low communication and computation costs, even without accessing the full model; (3) we adopt several accelerating and resource-efficient operators for fine-tuning LLMs with limited resources and the flexible pluggable sub-routines for interdisciplinary study.
我々は,fs-llm と benchmark advanced llm の有効性を検証するために,fl 設定における最新パラメーター効率の良い微調整アルゴリズムを用いた広範囲な実験を行い,研究コミュニティのための統合微調整 llm について貴重な知見を得た。
さらなる研究と採用を容易にするため、FS-LLMをhttps://github.com/alibaba/FederatedScope/tree/llmでリリースします。 LLMs have demonstrated great capabilities in various NLP tasks. Different entities can further improve the performance of those LLMs on their specific downstream tasks by fine-tuning LLMs. When several entities have similar interested tasks, but their data cannot be shared because of privacy concerns regulations, federated learning (FL) is a mainstream solution to leverage the data of different entities. However, fine-tuning LLMs in federated learning settings still lacks adequate support from existing FL frameworks because it has to deal with optimizing the consumption of significant communication and computational resources, data preparation for different tasks, and distinct information protection demands. This paper first discusses these challenges of federated fine-tuning LLMs, and introduces our package FS-LLM as a main contribution, which consists of the following components: (1) we build an end-to-end benchmarking pipeline, automizing the processes of dataset preprocessing, federated fine-tuning execution, and performance evaluation on federated LLM fine-tuning; (2) we provide comprehensive federated parameter-efficient fine-tuning algorithm implementations and versatile programming interfaces for future extension in FL scenarios with low communication and computation costs, even without accessing the full model; (3) we adopt several accelerating and resource-efficient operators for fine-tuning LLMs with limited resources and the flexible pluggable sub-routines for interdisciplinary study. We conduct extensive experiments to validate the effectiveness of FS-LLM and benchmark advanced LLMs with state-of-the-art parameter-efficient fine-tuning algorithms in FL settings, which also yields valuable insights into federated fine-tuning LLMs for the research community. To facilitate further research and adoption, we release FS-LLM at https://github.com/alibaba/FederatedScope/tree/llm. | 翻訳日:2023-09-04 13:50:45 公開日:2023-09-01 |
# コンテンツと行動の理解、シミュレート、最適化のための大規模コンテンツと行動モデル Large Content And Behavior Models To Understand, Simulate, And Optimize Content And Behavior ( http://arxiv.org/abs/2309.00359v1 ) ライセンス: Link先を確認 | Ashmit Khandelwal, Aditya Agrawal, Aanisha Bhattacharyya, Yaman K Singla, Somesh Singh, Uttaran Bhattacharya, Ishita Dasgupta, Stefano Petrangeli, Rajiv Ratn Shah, Changyou Chen, Balaji Krishnamurthy | (参考訳) シャノンは情報理論を紹介する論文の中で、コミュニケーションを技術、意味、効力の3つのレベルに分けた。
技術レベルは送信されたシンボルの正確な再構築に関係しているが、意味的および有効性レベルは推測された意味とその受信者への影響を扱う。
通信のおかげで、第一段階の問題はインターネットのような大きな進歩をもたらした。
大きな言語モデル(LLM)は第2の目標に向かって多少前進するが、第3のレベルはまだほとんど触れられていない。
第3の問題は、望ましい受信者の行動に対する通信の予測と最適化である。
LLMは、幅広いタスクにわたって広範な一般化能力を示すが、そのためには解決できない。
パフォーマンスが低かった理由の一つは、llmsのトレーニングコーパスに"behavior tokens"が欠けていることである。
行動トークンは、共有、いいね!、クリック、購入、リツイートなど、コミュニケーション上の受信者の行動を定義する。
LLMトレーニングのための事前処理データに対して、振る舞いトークンはノイズとしてコーパスから取り除かれることが多い。
そこで本稿では,llm訓練における行動トークンの再導入に向けた最初の進歩について述べる。
訓練されたモデルは、コンテンツ理解タスクでllmと同様の性能を示すこと以外は、行動シミュレーション、コンテンツシミュレーション、行動理解、行動ドメイン適応に関する一般化能力を示す。
2つのコーパス上の幅広いタスクを用いて、これらの機能について結果を示す。
これらのモデルをLCBM(Large Content and Behavior Models)と呼ぶ。
さらに,LCBMのさらなる研究を促進するため,コミュニケータ,メッセージ,対応する受信者行動を含むリポジトリであるCBC(Content Behavior Corpus)を新たにリリースした。 Shannon, in his seminal paper introducing information theory, divided the communication into three levels: technical, semantic, and effectivenss. While the technical level is concerned with accurate reconstruction of transmitted symbols, the semantic and effectiveness levels deal with the inferred meaning and its effect on the receiver. Thanks to telecommunications, the first level problem has produced great advances like the internet. Large Language Models (LLMs) make some progress towards the second goal, but the third level still remains largely untouched. The third problem deals with predicting and optimizing communication for desired receiver behavior. LLMs, while showing wide generalization capabilities across a wide range of tasks, are unable to solve for this. One reason for the underperformance could be a lack of "behavior tokens" in LLMs' training corpora. Behavior tokens define receiver behavior over a communication, such as shares, likes, clicks, purchases, retweets, etc. While preprocessing data for LLM training, behavior tokens are often removed from the corpora as noise. Therefore, in this paper, we make some initial progress towards reintroducing behavior tokens in LLM training. The trained models, other than showing similar performance to LLMs on content understanding tasks, show generalization capabilities on behavior simulation, content simulation, behavior understanding, and behavior domain adaptation. Using a wide range of tasks on two corpora, we show results on all these capabilities. We call these models Large Content and Behavior Models (LCBMs). Further, to spur more research on LCBMs, we release our new Content Behavior Corpus (CBC), a repository containing communicator, message, and corresponding receiver behavior. | 翻訳日:2023-09-04 13:50:18 公開日:2023-09-01 |
# 影響意思決定のダイナミクスにおける離散対数連続アルゴリズム Discrete Versus Continuous Algorithms in Dynamics of Affective Decision Making ( http://arxiv.org/abs/2309.00357v1 ) ライセンス: Link先を確認 | V.I. Yukalov and E.P. Yukalova | (参考訳) 感情的意思決定のダイナミクスは、長期記憶と短期記憶の異なるエージェントからなるインテリジェントネットワークとして考慮されている。
この考察は、選択肢の合理的な有用性と感情的な代替魅力を考慮に入れた確率論的感情決定理論に基づいている。
本研究の目的は,知的ネットワークにおける2つの多段階演算アルゴリズムの比較である。
数値解析により、ネットワークパラメータによって、連続的および離散的な操作に対する特性確率は、密接な、あるいは劇的に異なる振る舞いを示すことが示されている。
したがって、どのアルゴリズムが使われているかによっては、離散的または連続的な理論的予測とはかなり異なる場合があるため、実際的な問題を一意に定義することはできない。
この発見は、どのアルゴリズムが意思決定タスクの正しい分析に適しているかを理解するために重要である。
議論が行われ、インテリジェントなネットワークや感情的な人工知能を記述する上で、離散的な操作の方がより現実的であることが明らかとなった。 The dynamics of affective decision making is considered for an intelligent network composed of agents with different types of memory: long-term and short-term memory. The consideration is based on probabilistic affective decision theory, which takes into account the rational utility of alternatives as well as the emotional alternative attractiveness. The objective of this paper is the comparison of two multistep operational algorithms of the intelligent network: one based on discrete dynamics and the other on continuous dynamics. By means of numerical analysis, it is shown that, depending on the network parameters, the characteristic probabilities for continuous and discrete operations can exhibit either close or drastically different behavior. Thus, depending on which algorithm is employed, either discrete or continuous, theoretical predictions can be rather different, which does not allow for a uniquely defined description of practical problems. This finding is important for understanding which of the algorithms is more appropriate for the correct analysis of decision-making tasks. A discussion is given, revealing that the discrete operation seems to be more realistic for describing intelligent networks as well as affective artificial intelligence. | 翻訳日:2023-09-04 13:49:53 公開日:2023-09-01 |
# 選好誘発のための説明可能な能動的学習 Explainable Active Learning for Preference Elicitation ( http://arxiv.org/abs/2309.00356v1 ) ライセンス: Link先を確認 | Furkan Cant\"urk and Reyhan Aydo\u{g}an | (参考訳) 新しいユーザの好みに関する洞察を得て、その後に推奨をパーソナライズするためには、ユーザインタラクションの管理をインテリジェントに行う必要がある。
本研究では,既存のデータを利用したユーザプロファイリング手法の活用を阻害し,適切なユーザの存在や他のユーザデータへのアクセスが制限されたレコメンデーションシステムが,コールドスタート問題の特定のシナリオに注目した。
我々は,情報獲得を最小限のユーザ努力で最大化することを目的として,この問題を解決するためにアクティブラーニング(al)を採用している。
alは、大きなラベルのないセットから情報データを選択することで、oracleにラベル付けを依頼し、最終的には機械学習(ml)モデルを更新する。
我々は、説明的選好推論プロセスにおいて、教師なし、半教師付き、および教師付きMLの統合プロセスでALを運用する。
ユーザの好みを推定する基盤となるMLモデルを更新するために、ユーザからのフィードバック(提示された項目に関するシステムの説明のために)を情報的なサンプルから収集する。
デザインされたユーザインタラクションは、ユーザフィードバックをMLモデルに組み込むことで、システムのパーソナライズを容易にするとともに、レコメンデーションに関するシステムの説明を精査することで、ユーザの信頼を高める。
食品レコメンデーションのための選好提案手法を実装した。
短期的に有効性を評価するために人体実験を行い、2つの食品データセットのために作成した合成ユーザプロファイルに関するいくつかのAL戦略の実験を行った。
実験結果から,ユーザラベル付きデータに制限を課し,正確な説明を通じてユーザの信頼度を高めた。 Gaining insights into the preferences of new users and subsequently personalizing recommendations necessitate managing user interactions intelligently, namely, posing pertinent questions to elicit valuable information effectively. In this study, our focus is on a specific scenario of the cold-start problem, where the recommendation system lacks adequate user presence or access to other users' data is restricted, obstructing employing user profiling methods utilizing existing data in the system. We employ Active Learning (AL) to solve the addressed problem with the objective of maximizing information acquisition with minimal user effort. AL operates for selecting informative data from a large unlabeled set to inquire an oracle to label them and eventually updating a machine learning (ML) model. We operate AL in an integrated process of unsupervised, semi-supervised, and supervised ML within an explanatory preference elicitation process. It harvests user feedback (given for the system's explanations on the presented items) over informative samples to update an underlying ML model estimating user preferences. The designed user interaction facilitates personalizing the system by incorporating user feedback into the ML model and also enhances user trust by refining the system's explanations on recommendations. We implement the proposed preference elicitation methodology for food recommendation. We conducted human experiments to assess its efficacy in the short term and also experimented with several AL strategies over synthetic user profiles that we created for two food datasets, aiming for long-term performance analysis. The experimental results demonstrate the efficiency of the proposed preference elicitation with limited user-labeled data while also enhancing user trust through accurate explanations. | 翻訳日:2023-09-04 13:49:36 公開日:2023-09-01 |
# 分割方法:経時的脳MRI解析におけるデータ漏洩と主観的特徴の研究 How You Split Matters: Data Leakage and Subject Characteristics Studies in Longitudinal Brain MRI Analysis ( http://arxiv.org/abs/2309.00350v1 ) ライセンス: Link先を確認 | Dewinda Julianensi Rumala | (参考訳) ディープラーニングモデルは、医療画像分析の分野に革命をもたらし、診断と患者ケアの改善に大きな期待を与えている。
しかし、そのパフォーマンスは「データ漏洩」と呼ばれる隠れ穴のため、誤解を招くほど楽観的である。
本研究では,脳MRI解析に3次元畳み込みニューラルネットワーク(CNN)を用いた3次元医用画像におけるデータ漏洩について検討した。
3d cnnは2dのcnnに比べて漏れやすいように見えるが、クロスバリデーション(cv)中の不適切なデータ分割は、特に同じ被験者からの繰り返しスキャンを含む縦断画像データにおいて問題を引き起こす可能性がある。
縦型脳mri解析におけるデータ分割戦略の違いがモデル性能に与える影響を調査し,潜在的なデータ漏洩問題を明らかにする。
GradCAMビジュアライゼーション(GradCAM)は、モデルが診断機能とともに対象を識別することを学ぶ、アイデンティティの共有によるCNNモデルのショートカットを明らかにするのに役立つ。
本研究は,先行研究と一致し,医療画像解析における深層学習モデルの完全性と信頼性を確保するため,異なる対象からの保持データに基づいて,対象別分割と評価の重要性を強調する。 Deep learning models have revolutionized the field of medical image analysis, offering significant promise for improved diagnostics and patient care. However, their performance can be misleadingly optimistic due to a hidden pitfall called 'data leakage'. In this study, we investigate data leakage in 3D medical imaging, specifically using 3D Convolutional Neural Networks (CNNs) for brain MRI analysis. While 3D CNNs appear less prone to leakage than 2D counterparts, improper data splitting during cross-validation (CV) can still pose issues, especially with longitudinal imaging data containing repeated scans from the same subject. We explore the impact of different data splitting strategies on model performance for longitudinal brain MRI analysis and identify potential data leakage concerns. GradCAM visualization helps reveal shortcuts in CNN models caused by identity confounding, where the model learns to identify subjects along with diagnostic features. Our findings, consistent with prior research, underscore the importance of subject-wise splitting and evaluating our model further on hold-out data from different subjects to ensure the integrity and reliability of deep learning models in medical image analysis. | 翻訳日:2023-09-04 13:49:08 公開日:2023-09-01 |
# Hilbert-P'olya Conjecture に対するハミルトニアン A Hamiltonian for the Hilbert-P\'olya Conjecture ( http://arxiv.org/abs/2309.00405v1 ) ライセンス: Link先を確認 | Enderalp Yakaboylu | (参考訳) 我々は、リーマン予想(RH)の結果としてディリクレ境界で固有函数が消えるベリー・ケイト・ハミルトンの類似性変換を構築し、固有値はリーマンゼータ函数の非自明な零点の虚部に対応する。
逆に、その固有値の現実を証明できるならば、同値変換がベリー・キート・ハミルトニアンが自己随伴であるような領域上で有界で有界な有界な可逆であることを示すのに相当し、RH は従う。
後者をヒューリスティックに示そうとする試みとして、まず$su(1,1)$代数を導入し、次にメルリン空間において有効ハミルトニアンを定義し、ディリクレ境界条件は自身を積分境界条件として表す。
実効的なハミルトニアンは berry-keating hamiltonian, $\hat{h}_\text{bk}$ に変換でき、$\hat{h}_\text{bk}$ が自己随伴である領域を変更することなく変換できる。
本質的に、リーマンゼータ函数の非自明な零点は固有値方程式から従う: $\hat{H}_\text{BK} \, h_s (z) = \varepsilon_s \, h_s (z)$, 積分境界条件 $\int_0^\infty dz \, (1+ e^z)^{-1} h_s(z) = 0$ である。 We construct a similarity transformation of the Berry-Keating Hamiltonian, whose eigenfunctions vanish at the Dirichlet boundary as a consequence of the Riemann hypothesis (RH) so that the eigenvalues correspond to the imaginary parts of the nontrivial zeros of the Riemann zeta function. Conversely, if one is able to prove the reality of the eigenvalues, which corresponds to proving that the similarity transformation is bounded and boundedly invertible on the domain where the Berry-Keating Hamiltonian is self-adjoint, then the RH follows. In an attempt to show the latter heuristically, we first introduce an $su(1,1)$ algebra and then define an effective Hamiltonian in the Mellin space, where the Dirichlet boundary condition manifests itself as an integral boundary condition. The effective Hamiltonian can be transformed into the Berry-Keating Hamiltonian, $\hat{H}_\text{BK}$, without altering the domain on which $\hat{H}_\text{BK}$ is self-adjoint. In an essence, the nontrivial zeros of the Riemann zeta function follow from the eigenvalue equation, $\hat{H}_\text{BK} \, h_s (z) = \varepsilon_s \, h_s (z)$, with the integral boundary condition $\int_0^\infty dz \, (1+ e^z)^{-1} h_s(z) = 0$. | 翻訳日:2023-09-04 13:43:39 公開日:2023-09-01 |
# 学習可能な意味データ拡張によるきめ細かい認識 Fine-grained Recognition with Learnable Semantic Data Augmentation ( http://arxiv.org/abs/2309.00399v1 ) ライセンス: Link先を確認 | Yifan Pu, Yizeng Han, Yulin Wang, Junlan Feng, Chao Deng, Gao Huang | (参考訳) きめ細かい画像認識は、メタカテゴリ内の複数の下位カテゴリに属するオブジェクトの識別に焦点を当てた、長年にわたるコンピュータビジョンの課題である。
同じメタカテゴリに属する画像は、通常、類似した視覚的外観を共有するため、識別的視覚的手がかりがきめ細かいカテゴリーを識別する鍵となる。
一般に使用される画像レベルのデータ拡張技術は、一般的な画像分類問題において大きな成功を収めているが、微妙な領域に存在する識別的な視覚的手がかりを破壊する可能性があるため、細粒度シナリオではめったに適用されない。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
具体的には,画像特徴を意味的に意味のある方向に沿って翻訳することにより,多様な拡張サンプルを生成する。
サンプル毎の共分散行列を予測し、細粒画像に固有の大きなクラス内変動に対応する共分散予測ネットワークを用いて意味的方向を推定する。
さらに、共分散予測ネットワークをメタラーニング方法で分類ネットワークと共同最適化し、縮退した解問題を緩和する。
CUB-200-2011,Stanford Cars, FGVC Aircrafts, NABirdsの4つの競合する微粒化認識ベンチマーク実験により, この手法は, 一般的な分類ネットワーク(ResNets, DenseNets, EfficientNets, RegNets, ViT)における一般化性能を著しく向上することを示した。
最近の提案手法と組み合わせることで,cub-200-2011データセットの最先端性能を実現する。
ソースコードはリリースされます。 Fine-grained image recognition is a longstanding computer vision challenge that focuses on differentiating objects belonging to multiple subordinate categories within the same meta-category. Since images belonging to the same meta-category usually share similar visual appearances, mining discriminative visual cues is the key to distinguishing fine-grained categories. Although commonly used image-level data augmentation techniques have achieved great success in generic image classification problems, they are rarely applied in fine-grained scenarios, because their random editing-region behavior is prone to destroy the discriminative visual cues residing in the subtle regions. In this paper, we propose diversifying the training data at the feature-level to alleviate the discriminative region loss problem. Specifically, we produce diversified augmented samples by translating image features along semantically meaningful directions. The semantic directions are estimated with a covariance prediction network, which predicts a sample-wise covariance matrix to adapt to the large intra-class variation inherent in fine-grained images. Furthermore, the covariance prediction network is jointly optimized with the classification network in a meta-learning manner to alleviate the degenerate solution problem. Experiments on four competitive fine-grained recognition benchmarks (CUB-200-2011, Stanford Cars, FGVC Aircrafts, NABirds) demonstrate that our method significantly improves the generalization performance on several popular classification networks (e.g., ResNets, DenseNets, EfficientNets, RegNets and ViT). Combined with a recently proposed method, our semantic data augmentation approach achieves state-of-the-art performance on the CUB-200-2011 dataset. The source code will be released. | 翻訳日:2023-09-04 13:43:04 公開日:2023-09-01 |
# VideoGen: 高定義テキスト・ビデオ生成のための参照型遅延拡散手法 VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation ( http://arxiv.org/abs/2309.00398v1 ) ライセンス: Link先を確認 | Xin Li, Wenqing Chu, Ye Wu, Weihang Yuan, Fanglong Liu, Qi Zhang, Fu Li, Haocheng Feng, Errui Ding, Jingdong Wang | (参考訳) 本稿では,参照誘導潜在拡散を用いた高フレーム忠実性と強い時間的一貫性を有する高精細映像を生成できるテキスト対ビデオ生成手法であるvideogenを提案する。
テキストプロンプトからコンテンツ品質の高い画像を生成し、映像生成を導くための基準画像として、既成のテキスト対画像生成モデル(例えば、安定拡散)を利用する。
次に、参照画像とテキストプロンプトの両方に条件付けされた効率的な遅延拡散モジュールを導入し、遅延ビデオ表現を生成し、その後、時間分解能を改善するためのフローベースの時間的アップサンプリングステップを導入する。
最後に,拡張ビデオデコーダを用いて,潜在映像表現を高精細映像にマッピングする。
トレーニング中は,地上構造ビデオの最初のフレームを基準画像として,カスケード付き潜伏拡散モジュールのトレーニングを行う。
提案手法の主な特徴は,テキスト・ツー・イメージ・モデルによって生成された参照画像が視覚的忠実度を向上させること,拡散モデルが映像力学の学習に集中すること,ビデオデコーダがラベル付けされていないビデオデータよりも訓練され,高品質なビデオの恩恵を受けること,などである。
videogenは、質的および定量的評価の両方の観点から、テキスト対ビデオ生成の最先端を新たに設定する。 In this paper, we present VideoGen, a text-to-video generation approach, which can generate a high-definition video with high frame fidelity and strong temporal consistency using reference-guided latent diffusion. We leverage an off-the-shelf text-to-image generation model, e.g., Stable Diffusion, to generate an image with high content quality from the text prompt, as a reference image to guide video generation. Then, we introduce an efficient cascaded latent diffusion module conditioned on both the reference image and the text prompt, for generating latent video representations, followed by a flow-based temporal upsampling step to improve the temporal resolution. Finally, we map latent video representations into a high-definition video through an enhanced video decoder. During training, we use the first frame of a ground-truth video as the reference image for training the cascaded latent diffusion module. The main characterises of our approach include: the reference image generated by the text-to-image model improves the visual fidelity; using it as the condition makes the diffusion model focus more on learning the video dynamics; and the video decoder is trained over unlabeled video data, thus benefiting from high-quality easily-available videos. VideoGen sets a new state-of-the-art in text-to-video generation in terms of both qualitative and quantitative evaluation. | 翻訳日:2023-09-04 13:42:33 公開日:2023-09-01 |
# 数個の単一量子ビット計測による量子状態のテンソルネットワークモデル学習 Learning the tensor network model of a quantum state using a few single-qubit measurements ( http://arxiv.org/abs/2309.00397v1 ) ライセンス: Link先を確認 | Sergei S. Kuzmin, Varvara I. Mikhailova, Ivan V. Dyakonov, Stanislav S. Straupe | (参考訳) 人工量子システムの次元性は常に増大しているため、その特徴付けとベンチマークのための高効率な手法が要求される。
従来の量子トモグラフィーは、必要な測定数の指数関数的な増加のため、より大きなシステムでは失敗する。
この次元の呪いに対する概念的な解決策は、単純なアイデアに依存する - 量子状態の完全な記述は過剰であり、システムに関する実験的にアクセス可能な情報に置き換えられる。
ほぼ正しいPAC学習理論は、最近、量子ビット数にのみ線形にスケールするデータセットを用いて測定結果の正確な予測器を構築する問題にうまく適用されている。
本稿では,未知の量子系のテンソルネットワークモデルを学習する構成的かつ数値的に効率的なプロトコルを提案する。
本稿では,提案手法の限界と拡張性について論じる。 The constantly increasing dimensionality of artificial quantum systems demands for highly efficient methods for their characterization and benchmarking. Conventional quantum tomography fails for larger systems due to the exponential growth of the required number of measurements. The conceptual solution for this dimensionality curse relies on a simple idea - a complete description of a quantum state is excessive and can be discarded in favor of experimentally accessible information about the system. The probably approximately correct (PAC) learning theory has been recently successfully applied to a problem of building accurate predictors for the measurement outcomes using a dataset which scales only linearly with the number of qubits. Here we present a constructive and numerically efficient protocol which learns a tensor network model of an unknown quantum system. We discuss the limitations and the scalability of the proposed method. | 翻訳日:2023-09-04 13:42:10 公開日:2023-09-01 |
# PSPACE-Completeによる多変数TPTLの満足度検証 Satisfiability Checking of Multi-Variable TPTL with Unilateral Intervals Is PSPACE-Complete ( http://arxiv.org/abs/2309.00386v1 ) ライセンス: Link先を確認 | Shankara Narayanan Krishna, Khushraj Nanik Madnani, Rupak Majumdar, Paritosh K. Pandya | (参考訳) 時間命題時間論理(TPTL)の${0,\infty}$フラグメントの決定可能性について検討する。
TPTL$^{0,\infty}$ の満足度チェックは PSPACE 完全であることを示す。
さらに、その 1-変数の断片 (1-TPTL$^{0,\infty}$) でさえ、満足度チェックが EXPSPACE 完全であるMetric Interval Temporal Logic (MITL) よりも厳密に表現できる。
したがって、計算が容易で満足度チェックが可能な、厳密な表現力のある論理が存在する。
我々の知る限り、TPTL$^{0,\infty}$ は TPTL の最初の多変量フラグメントであり、満足度チェックは時間付き単語(例えば、有界変数、有界時間など)に境界や制限を課すことなく決定可能である。
PSPACE のメンバシップは、PSPACE に含まれることを証明した、片側超弱交換時間オートマタ (VWATA$^{0,\infty}$) と呼ばれる複数のクロックを持つ交代時間オートマタの新しい「非変動」サブクラスに対する空度チェック問題に還元することで得られる。
クロック数が与えられた VWATA$^{0,\infty}$ の大きさの多項式である非決定論的時間付きオートマトンをシミュレーションで構築することにより、これを示す。 We investigate the decidability of the ${0,\infty}$ fragment of Timed Propositional Temporal Logic (TPTL). We show that the satisfiability checking of TPTL$^{0,\infty}$ is PSPACE-complete. Moreover, even its 1-variable fragment (1-TPTL$^{0,\infty}$) is strictly more expressive than Metric Interval Temporal Logic (MITL) for which satisfiability checking is EXPSPACE complete. Hence, we have a strictly more expressive logic with computationally easier satisfiability checking. To the best of our knowledge, TPTL$^{0,\infty}$ is the first multi-variable fragment of TPTL for which satisfiability checking is decidable without imposing any bounds/restrictions on the timed words (e.g. bounded variability, bounded time, etc.). The membership in PSPACE is obtained by a reduction to the emptiness checking problem for a new "non-punctual" subclass of Alternating Timed Automata with multiple clocks called Unilateral Very Weak Alternating Timed Automata (VWATA$^{0,\infty}$) which we prove to be in PSPACE. We show this by constructing a simulation equivalent non-deterministic timed automata whose number of clocks is polynomial in the size of the given VWATA$^{0,\infty}$. | 翻訳日:2023-09-04 13:41:57 公開日:2023-09-01 |
# 単眼イベントカメラを用いた高密度ヴォクセル3次元再構成 Dense Voxel 3D Reconstruction Using a Monocular Event Camera ( http://arxiv.org/abs/2309.00385v1 ) ライセンス: Link先を確認 | Haodong Chen, Vera Chung, Li Tan, Xiaoming Chen | (参考訳) イベントカメラは、明るさの変化を捉える生物学的システムにインスパイアされたセンサーである。
これらの新興カメラは、高ダイナミックレンジ、高フレームレート、超低消費電力など、従来のフレームベースのカメラよりも多くの利点がある。
これらの利点により、イベントカメラはフレーム補間、セマンティックセグメンテーション、オドメトリー、SLAMといった様々な分野に適応してきている。
しかし、vrアプリケーションのための3dリコンストラクションにおける彼らの応用は過小評価されている。
本研究における従来手法は主に深度マップ推定による3次元再構成に焦点をあてた。
密集した3D再構成を実現する方法は一般に複数のカメラを必要とするが、単一のイベントカメラを利用する方法は半深度の結果しか得られない。
より密集した3D再構成を可能にする他の単一カメラ手法は、前述の方法や既存のStructure from Motion(SfM)やMulti-view Stereo(MVS)メソッドを組み込んだパイプラインの作成に依存している。
本稿では,単一イベントカメラのみを用いた高密度3次元再構成手法を提案する。
私たちの知る限りでは、私たちの仕事はこの点で最初の試みです。
提案手法は,既存手法のようなパイプラインを必要とせずに,視覚的に識別可能な高密度3次元再構成を実現できることを示す。
さらに、イベントカメラシミュレータを使用して、39,739ドルのオブジェクトスキャンを備えた合成データセットを作成しました。
このデータセットは、この分野の他の関連する研究を加速するのに役立つ。 Event cameras are sensors inspired by biological systems that specialize in capturing changes in brightness. These emerging cameras offer many advantages over conventional frame-based cameras, including high dynamic range, high frame rates, and extremely low power consumption. Due to these advantages, event cameras have increasingly been adapted in various fields, such as frame interpolation, semantic segmentation, odometry, and SLAM. However, their application in 3D reconstruction for VR applications is underexplored. Previous methods in this field mainly focused on 3D reconstruction through depth map estimation. Methods that produce dense 3D reconstruction generally require multiple cameras, while methods that utilize a single event camera can only produce a semi-dense result. Other single-camera methods that can produce dense 3D reconstruction rely on creating a pipeline that either incorporates the aforementioned methods or other existing Structure from Motion (SfM) or Multi-view Stereo (MVS) methods. In this paper, we propose a novel approach for solving dense 3D reconstruction using only a single event camera. To the best of our knowledge, our work is the first attempt in this regard. Our preliminary results demonstrate that the proposed method can produce visually distinguishable dense 3D reconstructions directly without requiring pipelines like those used by existing methods. Additionally, we have created a synthetic dataset with $39,739$ object scans using an event camera simulator. This dataset will help accelerate other relevant research in this field. | 翻訳日:2023-09-04 13:41:38 公開日:2023-09-01 |
# BatchPrompt: より少ないものに対応 BatchPrompt: Accomplish more with less ( http://arxiv.org/abs/2309.00384v1 ) ライセンス: Link先を確認 | Jianzhe Lin, Maurice Diesendruck, Liang Du, Robin Abraham | (参考訳) 多くのLDMは、命令ベースのプロンプトを使用してゼロショットまたは少数ショット推論を実行するように訓練されている。
これらのLCMのための作成プロンプトは、通常、ユーザが詳細なタスク記述、コンテキストと完了の例、推論のコンテキストの単一の例を提供する必要がある。
この通常のプロンプトベースラインは、この論文ではSinglePromptと呼ばれている。
しかし、推論のための各データポイントが必ずしも長さであるとは限らないNLPタスクの場合、命令のトークンカウントとプロンプトの少数ショット例はデータポイントよりも大幅に大きくなり、微調整BERTのようなエンコーダベースのモデルと比較してトークン/リソースの利用率が低下する可能性がある。
このコスト効率の問題は、推論速度と計算予算に影響し、LLMが提供する多くの利益に反する。
本稿では,複数のデータポイントを1つのプロンプトにバッチ化することで,先行問題を軽減することを目的としている。
この戦略はデータポイントの密度を増加させ、トークンの利用率を向上させる。
しかしながら,BatchPromptをネーティブに適用することは,我々の実験で見られるように,大幅な性能劣化のため非常に難しい。
また、プロンプト内で異なる位置に現れる同じデータポイントに対する様々な推測結果に気付きました。
トークン/リソース利用率が高いままの品質問題に対処するため,BatchPromptのバッチ置換とエンセブリングを導入し,トークン使用量が多いバッチ内のさまざまな位置に置かれるデータポイントから多数決で品質を回復する簡単な方法を提案する。
投票プロセスによる追加トークン使用量と相反するため,LLMが確実に処理するデータポイントに対して早期に投票処理を終了できる自己回帰誘導EArly Stoppingを提案する。 Many LLMs are trained to perform zero-shot or few-shot inference using instruction-based prompts. Crafting prompts for these LLMs typically requires the user to provide a detailed task description, examples of context and completion, and single example of context for inference. This regular prompt baseline is referred to as SinglePrompt in this paper. However, for NLP tasks where each data point for inference is not necessarily lengthy, the token count for instructions and few-shot examples in the prompt may be considerably larger than that of the data point, resulting in lower token-resource utilization compared with encoder-based models like fine-tuned BERT. This cost-efficiency issue, affecting inference speed and compute budget, counteracts the many benefits LLMs have to offer. This paper aims to alleviate the preceding problem by batching multiple data points into a single prompt, a prompting strategy we refer to as BatchPrompt. This strategy increases the density of data points, which in turn leads to improved token utilization. Applying BatchPrompt naively, however, is very challenging due to significant performance degradation, as observed in our experiments. We also noticed varying inference outcomes for the same data point appearing in different positions within a prompt. To address the quality issue while remain high token-resource utilization, we introduce Batch Permutation and Ensembling for BatchPrompt, a simple way that recovers labeling quality through majority votes from data points placed in varying positions in a batch at the price of more token usage. To counterbalance the additional token usage caused by the voting process, we further propose Self-reflection-guided EArly Stopping, which can terminate the voting process early for data points the LLM confidently handles. | 翻訳日:2023-09-04 13:41:14 公開日:2023-09-01 |
# データ保護のための透明性情報のクロスプロファイラ解析に向けて Towards Cross-Provider Analysis of Transparency Information for Data Protection ( http://arxiv.org/abs/2309.00382v1 ) ライセンス: Link先を確認 | Elias Gr\"unewald, Johannes M. Halkenh\"au{\ss}er, Nicola Leschke, Frank Pallas | (参考訳) 透明性と説明責任は、法的および技術的な観点から、現代のデータ保護にとって必須の原則である。
したがってGDPRのような規制は、例えば、目的仕様、保管期間、または個人データ処理の法的基盤を含む特定の透明性情報を提供する必要がある。
しかし、あまりにも頻繁に、この情報は事実上法的プライバシーポリシーに隠されており、データの対象が権利を行使することを妨げることが示されている。
本稿では,機械可読フォーマットとグラフデータサイエンス手法を活用し,サービスプロバイダ間の大規模透明性情報分析を可能にする新しい手法を提案する。
具体的には,データ転送を実証的に識別するための透過分析プラットフォーム(TAP)の構築,70以上の実世界のデータコントローラのクラスタ共有のエビデンスに基づく分析,さらには大規模データ共有シナリオのための合成透明性情報を用いたネットワークダイナミクスのシミュレーションなどを提案する。
我々は、高度な透明性情報分析のための一般的なアプローチ、クエリ可能な分析プラットフォームという形でのオープンソースアーキテクチャと実装、多彩な分析例を提供する。
これらの貢献は、データ主題に対するより透明なデータ処理、およびデータ保護当局に対するエビデンスベースの執行プロセスの道を開く。
今後の作業は、私たちの貢献に基づいて、隠れたデータ共有プラクティスに関するさらなる洞察を得ることができます。 Transparency and accountability are indispensable principles for modern data protection, from both, legal and technical viewpoints. Regulations such as the GDPR, therefore, require specific transparency information to be provided including, e.g., purpose specifications, storage periods, or legal bases for personal data processing. However, it has repeatedly been shown that all too often, this information is practically hidden in legalese privacy policies, hindering data subjects from exercising their rights. This paper presents a novel approach to enable large-scale transparency information analysis across service providers, leveraging machine-readable formats and graph data science methods. More specifically, we propose a general approach for building a transparency analysis platform (TAP) that is used to identify data transfers empirically, provide evidence-based analyses of sharing clusters of more than 70 real-world data controllers, or even to simulate network dynamics using synthetic transparency information for large-scale data-sharing scenarios. We provide the general approach for advanced transparency information analysis, an open source architecture and implementation in the form of a queryable analysis platform, and versatile analysis examples. These contributions pave the way for more transparent data processing for data subjects, and evidence-based enforcement processes for data protection authorities. Future work can build upon our contributions to gain more insights into so-far hidden data-sharing practices. | 翻訳日:2023-09-04 13:40:43 公開日:2023-09-01 |
# 置換不変エンコーダとより厳密な変動境界を持つ多モード生成モデルの学習 Learning multi-modal generative models with permutation-invariant encoders and tighter variational bounds ( http://arxiv.org/abs/2309.00380v1 ) ライセンス: Link先を確認 | Marcel Hirt, Domenico Campolo, Victoria Leong, Juan-Pablo Ortega | (参考訳) マルチモーダルデータに対する深い潜伏変数モデルの開発は、機械学習研究において長年のテーマであった。
マルチモーダル変分オートエンコーダ(vaes)は、複数のモダリティを共同で説明する潜在表現を学ぶ一般的な生成モデルクラスである。
このようなモデルの様々な目的関数が提案され、しばしばマルチモーダルデータ対数や情報理論的な考察から下界として動機付けられる。
異なるモダリティ部分集合から潜在変数を符号化するために、Product-of-Experts(PoE)またはMixture-of-Experts(MoE)アグリゲーションスキームが日常的に使われ、例えば、複数のモダリティにわたる生成品質や一貫性に関して異なるトレードオフをもたらすことが示されている。
本研究では,データログライクなバウンドを厳格に低減できる変分境界を考える。
我々は、置換不変ニューラルネットワークに基づく様々なモードから符号化された特徴を組み合わせることで、PoEやMoEアプローチを一般化するより柔軟なアグリゲーションスキームを開発する。
数値実験により,マルチモーダル変分境界と各種集約スキームのトレードオフを示す。
同定可能なモデルにおいて観測されたモダリティと潜在変数の真のジョイント分布を近似したい場合、より強固な変動境界とより柔軟な集約モデルが有益になることを示す。 Devising deep latent variable models for multi-modal data has been a long-standing theme in machine learning research. Multi-modal Variational Autoencoders (VAEs) have been a popular generative model class that learns latent representations which jointly explain multiple modalities. Various objective functions for such models have been suggested, often motivated as lower bounds on the multi-modal data log-likelihood or from information-theoretic considerations. In order to encode latent variables from different modality subsets, Product-of-Experts (PoE) or Mixture-of-Experts (MoE) aggregation schemes have been routinely used and shown to yield different trade-offs, for instance, regarding their generative quality or consistency across multiple modalities. In this work, we consider a variational bound that can tightly lower bound the data log-likelihood. We develop more flexible aggregation schemes that generalise PoE or MoE approaches by combining encoded features from different modalities based on permutation-invariant neural networks. Our numerical experiments illustrate trade-offs for multi-modal variational bounds and various aggregation schemes. We show that tighter variational bounds and more flexible aggregation models can become beneficial when one wants to approximate the true joint distribution over observed modalities and latent variables in identifiable models. | 翻訳日:2023-09-04 13:40:21 公開日:2023-09-01 |
# リスク推定に基づく半教師付き分類による異常検出 Anomaly detection with semi-supervised classification based on risk estimators ( http://arxiv.org/abs/2309.00379v1 ) ライセンス: Link先を確認 | Le Thi Khanh Hien, Sukanya Patra, and Souhaib Ben Taieb | (参考訳) 一級分類異常検出法の重大な制限は、ラベルなしトレーニングデータが通常のインスタンスのみを含むという仮定に依存することである。
この非現実的な仮定を克服するために,2つの新しい分類に基づく異常検出手法を提案する。
まず、偏りのないリスク推定器に基づく半教師付き浅層異常検出手法を提案する。
次に,非負(バイアス)リスク推定器を用いた半教師付き深部異常検出手法を提案する。
リスク最小化のための推定誤差境界と過剰リスク境界を確立する。
さらに,特定の損失関数の下での浅層モデルにおける経験的リスクの非負性を保証する適切な正規化パラメータを選択する手法を提案する。
広範な実験により,リスクに基づく異常検出手法の有効性が示唆された。 A significant limitation of one-class classification anomaly detection methods is their reliance on the assumption that unlabeled training data only contains normal instances. To overcome this impractical assumption, we propose two novel classification-based anomaly detection methods. Firstly, we introduce a semi-supervised shallow anomaly detection method based on an unbiased risk estimator. Secondly, we present a semi-supervised deep anomaly detection method utilizing a nonnegative (biased) risk estimator. We establish estimation error bounds and excess risk bounds for both risk minimizers. Additionally, we propose techniques to select appropriate regularization parameters that ensure the nonnegativity of the empirical risk in the shallow model under specific loss functions. Our extensive experiments provide strong evidence of the effectiveness of the risk-based anomaly detection methods. | 翻訳日:2023-09-04 13:39:55 公開日:2023-09-01 |
# ローエンド32ビットIoTデバイス上での高速KyberのためのPlanard Arithmeticの改良 Yet another Improvement of Plantard Arithmetic for Faster Kyber on Low-end 32-bit IoT Devices ( http://arxiv.org/abs/2309.00440v1 ) ライセンス: Link先を確認 | Junhao Huang, Haosong Zhao, Jipeng Zhang, Wangchen Dai, Lu Zhou, Ray C.C. Cheung, Cetin Kaya Koc, Donglong Chen | (参考訳) 本稿では、SIMD拡張のない2つのローエンド32ビットIoTプラットフォーム(ARM Cortex-M3とRISC-V)上でKyberの実装を高速化するPlanard演算の別の改良版を提案する。
具体的には、計算ステップを変更することなく、Planard演算の入力範囲をさらに拡大する。
Kyber のモジュラーに対して、Planard 算術を調整した後、定数によるPlanard 乗算の入力範囲は、TCHES2022 の元の設計よりも少なくとも2.45倍大きいことを示す。
次に, Cortex-M3 と RISC-V の2つの最適化手法を提案する。
プランタード算術はローエンド32ビットプラットフォーム上でモンゴメリー算術とバレット算術の両方に取って代わることを示す。
これらのプラットフォーム上でのインプット範囲の拡大とPlanard演算の効率的な実装により,NTT/INTTの最適化手法を提案する。
ローエンド32ビットプラットフォーム上で提案したPlanard演算の入力範囲を大きくすることで,NTT/INTTにおける係数のモジュラー化を最小化あるいは完全に排除する。
さらに,2つのメモリ最適化手法を提案し,cortex-m4に比較して,速度変換kyber実装のスタック使用率を23.50%から28.31%に削減した。
提案した最適化により、ローエンドIoTデバイス上でのスピードバージョン実装がより実現可能になった。
上記の最適化のおかげで、NTT/INTTの実装は最先端の作業と比べてかなりスピードアップしている。
全体として、メモリ制限されたIoTプラットフォーム上での速度変換Kyberの実装の適用性を示し、これらのプラットフォーム上でKyberの新しい速度記録を設定します。 This paper presents another improved version of Plantard arithmetic that could speed up Kyber implementations on two low-end 32-bit IoT platforms (ARM Cortex-M3 and RISC-V) without SIMD extensions. Specifically, we further enlarge the input range of the Plantard arithmetic without modifying its computation steps. After tailoring the Plantard arithmetic for Kyber's modulus, we show that the input range of the Plantard multiplication by a constant is at least 2.45 times larger than the original design in TCHES2022. Then, two optimization techniques for efficient Plantard arithmetic on Cortex-M3 and RISC-V are presented. We show that the Plantard arithmetic supersedes both Montgomery and Barrett arithmetic on low-end 32-bit platforms. With the enlarged input range and the efficient implementation of the Plantard arithmetic on these platforms, we propose various optimization strategies for NTT/INTT. We minimize or entirely eliminate the modular reduction of coefficients in NTT/INTT by taking advantage of the larger input range of the proposed Plantard arithmetic on low-end 32-bit platforms. Furthermore, we propose two memory optimization strategies that reduce 23.50% to 28.31% stack usage for the speed-version Kyber implementation when compared to its counterpart on Cortex-M4. The proposed optimizations make the speed-version implementation more feasible on low-end IoT devices. Thanks to the aforementioned optimizations, our NTT/INTT implementation shows considerable speedups compared to the state-of-the-art work. Overall, we demonstrate the applicability of the speed-version Kyber implementation on memory-constrained IoT platforms and set new speed records for Kyber on these platforms. | 翻訳日:2023-09-04 13:31:51 公開日:2023-09-01 |
# 街路網における都市ブロックアーティファクト検出のための形状に基づくヒューリスティック A shape-based heuristic for the detection of urban block artifacts in street networks ( http://arxiv.org/abs/2309.00438v1 ) ライセンス: Link先を確認 | Martin Fleischmann and Anastassia Vybornova | (参考訳) 街路網は都市のユビキタスな構成要素であり、その開発を導いており、街路網は多くの都市分析手法の重要な要素でもある。
しかし、そのグラフ表現は主に輸送目的のために設計されていることが多い。
この表現は、例えば形態解析、視覚ナビゲーション、ドローン飛行経路の場合など、輸送ネットワークを必須の事前処理ステップとして単純化する必要がある他のユースケースには適していない。
自動前処理手法の緊急需要は様々な分野から来ているが、まだ未解決の課題である。
本稿では,この課題に取り組むために,交通の縁で囲まれながら都市ブロックを表現しない「顔のアーティファクト」,すなわちジオメトリの識別のための,安価な計算ヒューリスティックを提案する。
このヒューリスティックは,形状コンパクト度測定値の周波数分布と街路網面ポリゴンの面積測定を組み合わせたものである。
本手法を世界131大都市で試行し, 分析対象都市の89%で顔のアーティファクトの同定に成功した。
別の目的で収集されたデータによって引き起こされるアーティファクトを検出するヒューリスティックは、自動化されたストリートネットワークの単純化ワークフローへの第一歩です。
さらに,提案するフェイスアーティファクト指数は,異なる地域における都市開発を導く構造規則の違いを明らかにする。 Street networks are ubiquitous components of cities, guiding their development and enabling movement from place to place; street networks are also the critical components of many urban analytical methods. However, their graph representation is often designed primarily for transportation purposes. This representation is less suitable for other use cases where transportation networks need to be simplified as a mandatory pre-processing step, e.g., in the case of morphological analysis, visual navigation, or drone flight routing. While the urgent demand for automated pre-processing methods comes from various fields, it is still an unsolved challenge. In this article, we tackle this challenge by proposing a cheap computational heuristic for the identification of "face artifacts", i.e., geometries that are enclosed by transportation edges but do not represent urban blocks. The heuristic is based on combining the frequency distributions of shape compactness metrics and area measurements of street network face polygons. We test our method on 131 globally sampled large cities and show that it successfully identifies face artifacts in 89% of analyzed cities. Our heuristic of detecting artifacts caused by data being collected for another purpose is the first step towards an automated street network simplification workflow. Moreover, the proposed face artifact index uncovers differences in structural rules guiding the development of cities in different world regions. | 翻訳日:2023-09-04 13:31:29 公開日:2023-09-01 |
# キーポイント検出学習による変形可能な物体のマッチング改善 Improving the matching of deformable objects by learning to detect keypoints ( http://arxiv.org/abs/2309.00434v1 ) ライセンス: Link先を確認 | Felipe Cadar and Welerson and Vaishnavi Kanagasabapathi and Guilherme Potje and Renato Martins and Erickson R. Nascimento | (参考訳) 本研究では,非剛性画像対応タスクにおける正しいマッチング数を増やすための新しい学習キーポイント検出手法を提案する。
注釈付き画像対と特定のディスクリプタ抽出器とのマッチングによって得られた真の対応を利用して、エンド・ツー・エンドの畳み込みニューラルネットワーク(CNN)をトレーニングし、検討されたディスクリプタにより適したキーポイント位置を見つける。
そこで,画像に幾何学的および測光的ワーピングを適用し,監視信号を生成し,検出器の最適化を可能にする。
実験により,本手法は,検出手法と併用して多数の記述子の平均マッチング精度を向上させるとともに,非剛体物体の実像における最先端のキーポイント検出器の性能を20p以上で向上させ,また,この課題に現在利用可能な最も優れたキーポイント検出器と同等に動作するオブジェクト検索の複雑な実世界のタスクにも適用できることを示した。
ソースコードとトレーニングされたモデルはhttps://github.com/verlab/LearningToDetect_PRL_2023で公開されている。 We propose a novel learned keypoint detection method to increase the number of correct matches for the task of non-rigid image correspondence. By leveraging true correspondences acquired by matching annotated image pairs with a specified descriptor extractor, we train an end-to-end convolutional neural network (CNN) to find keypoint locations that are more appropriate to the considered descriptor. For that, we apply geometric and photometric warpings to images to generate a supervisory signal, allowing the optimization of the detector. Experiments demonstrate that our method enhances the Mean Matching Accuracy of numerous descriptors when used in conjunction with our detection method, while outperforming the state-of-the-art keypoint detectors on real images of non-rigid objects by 20 p.p. We also apply our method on the complex real-world task of object retrieval where our detector performs on par with the finest keypoint detectors currently available for this task. The source code and trained models are publicly available at https://github.com/verlab/LearningToDetect_PRL_2023 | 翻訳日:2023-09-04 13:31:06 公開日:2023-09-01 |
# 光モーションキャプチャのための局所型ニューラルソルバー A Locality-based Neural Solver for Optical Motion Capture ( http://arxiv.org/abs/2309.00428v1 ) ライセンス: Link先を確認 | Xiaoyu Pan, Bowen Zheng, Xinwei Jiang, Guanglong Xu, Xianli Gu, Jingxiang Li, Qilong Kou, He Wang, Tianjia Shao, Kun Zhou and Xiaogang Jin | (参考訳) 本稿では,光学的モーションキャプチャデータのクリーニングと解決のための新しい局所学習手法を提案する。
雑音のあるマーカーデータから,マーカーや関節を異なる種類のノードとして扱い,グラフ畳み込み演算を用いてマーカーや関節の局所的な特徴を抽出し,それらをクリーンな動作に変換する,新しい異種グラフニューラルネットワークを提案する。
異常マーカー(例えば、閉塞または大きな追跡誤差)を扱うために、重要な洞察は、マーカーの運動がそのすぐ隣のマーカーの運動と強い相関を示すが、他のマーカー(例えば、局所性)との相関は小さく、欠落マーカーを効率的に満たすことができることである(例えば、閉塞により)。
また,アクセラレーションプロファイルを調べることにより,追跡誤差によるマーカー異常を識別する。
最後に,マスキングを用いてデータモデルの学習を行い,表現学習とデータ拡張に基づくトレーニングレジームを提案する。
マスキング・スキームは、実データでしばしば観測されるオクルードとノイズのマーカーを模倣することを目的としている。
最後に,本手法は様々なデータセットの複数のメトリクスに対して高い精度を実現することを示す。
本手法は, 閉塞マーカー位置誤差の予測精度を約20%向上させ, 再建した関節回転および位置の誤差を30%低減させる。
この論文のコードとデータはhttps://github.com/non-void/LocalMoCapで公開されている。 We present a novel locality-based learning method for cleaning and solving optical motion capture data. Given noisy marker data, we propose a new heterogeneous graph neural network which treats markers and joints as different types of nodes, and uses graph convolution operations to extract the local features of markers and joints and transform them to clean motions. To deal with anomaly markers (e.g. occluded or with big tracking errors), the key insight is that a marker's motion shows strong correlations with the motions of its immediate neighboring markers but less so with other markers, a.k.a. locality, which enables us to efficiently fill missing markers (e.g. due to occlusion). Additionally, we also identify marker outliers due to tracking errors by investigating their acceleration profiles. Finally, we propose a training regime based on representation learning and data augmentation, by training the model on data with masking. The masking schemes aim to mimic the occluded and noisy markers often observed in the real data. Finally, we show that our method achieves high accuracy on multiple metrics across various datasets. Extensive comparison shows our method outperforms state-of-the-art methods in terms of prediction accuracy of occluded marker position error by approximately 20%, which leads to a further error reduction on the reconstructed joint rotations and positions by 30%. The code and data for this paper are available at https://github.com/non-void/LocalMoCap. | 翻訳日:2023-09-04 13:30:47 公開日:2023-09-01 |
# CPSP:音素スーパービジョンによる音声概念の学習 CPSP: Learning Speech Concepts From Phoneme Supervision ( http://arxiv.org/abs/2309.00424v1 ) ライセンス: Link先を確認 | Chunyu Qiang, Hao Li, Yixin Tian, Ruibo Fu, Tao Wang, Longbiao Wang, Jianwu Dang | (参考訳) 最小教師付きテキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などの微粒な生成および認識タスクでは、音声から抽出された中間表現は、テキスト符号化と音響符号化の間にある情報を含むべきである。
言語内容は健全であり、話者のアイデンティティや音響的詳細といったパラ言語情報を削除する必要がある。
しかし,音声から微細な中間表現を抽出する既存の手法は,過剰な冗長性や次元の爆発といった問題に悩まされている。
さらに、音声分野における既存のコントラスト学習手法は、下流オーディオ分類タスクのグローバル記述情報を抽出することに焦点を当てており、TS、VC、ASRタスクには適さない。
これらの問題に対処するために,3つのエンコーダ,1つのデコーダ,コントラスト学習を用いて,音素と音声を連接したマルチモーダル空間に導入し,フレームレベルで音素と音声を接続する方法を学習する Contrastive Phoneme-Speech Pretraining (CPSP) という手法を提案する。
CPSPモデルは、210kの音声と音素のテキストペアで訓練され、最小限に制御されたTS、VC、ASRを達成する。
提案手法は,音声処理における下流タスクの微粒化と認識のための有望な解を提供する。
オーディオサンプルをWebサイトに提供する。 For fine-grained generation and recognition tasks such as minimally-supervised text-to-speech (TTS), voice conversion (VC), and automatic speech recognition (ASR), the intermediate representation extracted from speech should contain information that is between text coding and acoustic coding. The linguistic content is salient, while the paralinguistic information such as speaker identity and acoustic details should be removed. However, existing methods for extracting fine-grained intermediate representations from speech suffer from issues of excessive redundancy and dimension explosion. Additionally, existing contrastive learning methods in the audio field focus on extracting global descriptive information for downstream audio classification tasks, making them unsuitable for TTS, VC, and ASR tasks. To address these issues, we propose a method named Contrastive Phoneme-Speech Pretraining (CPSP), which uses three encoders, one decoder, and contrastive learning to bring phoneme and speech into a joint multimodal space, learning how to connect phoneme and speech at the frame level. The CPSP model is trained on 210k speech and phoneme text pairs, achieving minimally-supervised TTS, VC, and ASR. The proposed CPSP method offers a promising solution for fine-grained generation and recognition downstream tasks in speech processing. We provide a website with audio samples. | 翻訳日:2023-09-04 13:30:22 公開日:2023-09-01 |
# 制約論理プログラミングを用いた説明の宣言的推論 Declarative Reasoning on Explanations Using Constraint Logic Programming ( http://arxiv.org/abs/2309.00422v1 ) ライセンス: Link先を確認 | Laura State, Salvatore Ruggieri, Franco Turini | (参考訳) 不透明な機械学習(ML)モデルの説明は、ますます関連する問題となっている。
ai(xai)メソッドの現在の説明にはいくつかの欠点があり、背景知識の組み入れ不足や、ユーザとの抽象化と対話性の欠如などがあげられる。
本稿では,制約論理プログラミング(CLP)に基づく説明手法REASONXを提案する。
REASONXは、分析対象のMLモデルや、任意のブラックボックスモデルのグローバル/ローカルサロゲートモデルといった、宣言的で対話的な決定木の説明を提供することができる。
ユーザは、実例と対照的なインスタンスの特徴に対して線形制約とMILP最適化を使用して背景知識や常識知識を表現でき、制約プロジェクションを通じて様々なレベルの抽象化で回答制約と対話できる。
本稿では,ユーザに近いPythonレイヤとCLPレイヤで構成されるREASONXのアーキテクチャについて述べる。
REASONXのコア実行エンジンは論理理論の観点から宣言的意味論を持つPrologメタプログラムである。 Explaining opaque Machine Learning (ML) models is an increasingly relevant problem. Current explanation in AI (XAI) methods suffer several shortcomings, among others an insufficient incorporation of background knowledge, and a lack of abstraction and interactivity with the user. We propose REASONX, an explanation method based on Constraint Logic Programming (CLP). REASONX can provide declarative, interactive explanations for decision trees, which can be the ML models under analysis or global/local surrogate models of any black-box model. Users can express background or common sense knowledge using linear constraints and MILP optimization over features of factual and contrastive instances, and interact with the answer constraints at different levels of abstraction through constraint projection. We present here the architecture of REASONX, which consists of a Python layer, closer to the user, and a CLP layer. REASONX's core execution engine is a Prolog meta-program with declarative semantics in terms of logic theories. | 翻訳日:2023-09-04 13:29:55 公開日:2023-09-01 |
# 条件付き生存予測におけるエリアノームCOBRA Area-norm COBRA on Conditional Survival Prediction ( http://arxiv.org/abs/2309.00417v1 ) ライセンス: Link先を確認 | Rahul Goswami and Arabin Kr. Dey | (参考訳) 本稿は,条件付生存関数の計算のための回帰戦略の異なるバリエーションについて検討する。
我々は回帰に基づく弱い学習者を用いて,提案手法を開発した。
提案手法は2つの生存曲線間の面積として近接測度を用いる。
提案したモデルでは、ランダム生存林よりも優れた性能を発揮する構造を示している。
本稿では,組合せ回帰設定において最も重要な変数を選択する新しい手法について論じる。
我々は,変数の関連性を見出すための提案が有効であることを示すためのシミュレーション研究を行った。
また、モデルを説明するために3つの実生活データセットを使用します。 The paper explores a different variation of combined regression strategy to calculate the conditional survival function. We use regression based weak learners to create the proposed ensemble technique. The proposed combined regression strategy uses proximity measure as area between two survival curves. The proposed model shows a construction which ensures that it performs better than the Random Survival Forest. The paper discusses a novel technique to select the most important variable in the combined regression setup. We perform a simulation study to show that our proposition for finding relevance of the variables works quite well. We also use three real-life datasets to illustrate the model. | 翻訳日:2023-09-04 13:29:40 公開日:2023-09-01 |
# 個人化フェデレーション学習の促進 - グループプライバシ、公正性、その他 Advancing Personalized Federated Learning: Group Privacy, Fairness, and Beyond ( http://arxiv.org/abs/2309.00416v1 ) ライセンス: Link先を確認 | Filippo Galli, Kangsoo Jung, Sayan Biswas, Catuscia Palamidessi, Tommaso Cucinotta | (参考訳) Federated Learning(FL)は、機械学習モデルを分散的かつ協調的にトレーニングするためのフレームワークである。
トレーニング中、参加するクライアントのセットがデータをローカルに処理し、ローカル入力に対するコスト関数を最小化して得られたモデル更新のみを共有する。
flは、プライバシ保護機械学習への一歩として提案されたが、プライベート情報の漏洩、モデルのパーソナライゼーションの欠如、一部のグループにとってフェアなトレーニングモデルを持つ可能性などの問題に対して脆弱であることが示されている。
本稿では、flフレームワークでトレーニングされたモデルによって達成されたパーソナライゼーション、プライバシの保証、公平性の3つの相互作用について論じる。
差分プライバシーとその変種は、正式なプライバシー保証を提供するための最先端標準として研究され、適用されてきた。
しかしながら、flのクライアントは、異種コミュニティを表す非常に多様なデータセットを持っていることが多く、トレーニングされたモデルがユーザにとって公平な側面を維持することを保証しながら、機密情報を保護することが重要である。
この目的を達成するために、$d$-privacy(いわゆるメトリックプライバシ)を利用してグループプライバシの保証を導入する手法が提案される。
d$-privacy は、元のデータのトポロジカル分布を維持するためのメトリック指向の難読化アプローチに依存する微分プライバシーの局所化形式である。
この方法は、連合的なアプローチでパーソナライズされたモデルトレーニングを可能にし、正式なプライバシー保証を提供するだけでなく、古典的なflテンプレートでトレーニングされたグローバルモデルよりも、さまざまな標準メトリックで測定されたグループの公平性がはるかに優れている。
応用可能性に関する理論的正当化と,提案手法の動作を実証するための実世界のデータセットに対する実験的検証が提供される。 Federated learning (FL) is a framework for training machine learning models in a distributed and collaborative manner. During training, a set of participating clients process their data stored locally, sharing only the model updates obtained by minimizing a cost function over their local inputs. FL was proposed as a stepping-stone towards privacy-preserving machine learning, but it has been shown vulnerable to issues such as leakage of private information, lack of personalization of the model, and the possibility of having a trained model that is fairer to some groups than to others. In this paper, we address the triadic interaction among personalization, privacy guarantees, and fairness attained by models trained within the FL framework. Differential privacy and its variants have been studied and applied as cutting-edge standards for providing formal privacy guarantees. However, clients in FL often hold very diverse datasets representing heterogeneous communities, making it important to protect their sensitive information while still ensuring that the trained model upholds the aspect of fairness for the users. To attain this objective, a method is put forth that introduces group privacy assurances through the utilization of $d$-privacy (aka metric privacy). $d$-privacy represents a localized form of differential privacy that relies on a metric-oriented obfuscation approach to maintain the original data's topological distribution. This method, besides enabling personalized model training in a federated approach and providing formal privacy guarantees, possesses significantly better group fairness measured under a variety of standard metrics than a global model trained within a classical FL template. Theoretical justifications for the applicability are provided, as well as experimental validation on real-world datasets to illustrate the working of the proposed method. | 翻訳日:2023-09-04 13:29:30 公開日:2023-09-01 |
# 選択的シーンテキスト除去 Selective Scene Text Removal ( http://arxiv.org/abs/2309.00410v1 ) ライセンス: Link先を確認 | Hayato Mitani, Akisato Kimura, Seiichi Uchida | (参考訳) シーンテキスト削除(STR)は、シーン画像中のテキスト領域を削除する画像変換タスクである。
従来のSTRメソッドは、すべてのシーンテキストを削除する。
つまり、既存のメソッドは削除すべきテキストを選択できない。
本稿では,ユーザが指定したターゲット語のみを除去する,選択シーンテキスト削除(SSTR)という新しいタスク設定を提案する。
SSTRはSTRよりも複雑なタスクであるが、提案したマルチモジュール構造はSSTRの効率的なトレーニングを可能にする。
実験の結果,提案手法は期待通りに対象単語を除去できることがわかった。 Scene text removal (STR) is the image transformation task to remove text regions in scene images. The conventional STR methods remove all scene text. This means that the existing methods cannot select text to be removed. In this paper, we propose a novel task setting named selective scene text removal (SSTR) that removes only target words specified by the user. Although SSTR is a more complex task than STR, the proposed multi-module structure enables efficient training for SSTR. Experimental results show that the proposed method can remove target words as expected. | 翻訳日:2023-09-04 13:29:00 公開日:2023-09-01 |
# Transformer-Enhanced LSTM Network を用いたGNSS観測の学習によるNLOS検出と不確かさ予測 Learning-based NLOS Detection and Uncertainty Prediction of GNSS Observations with Transformer-Enhanced LSTM Network ( http://arxiv.org/abs/2309.00480v1 ) ライセンス: Link先を確認 | Haoming Zhang, Zhanxin Wang, Heike Vallery | (参考訳) グローバルナビゲーション衛星システム(GNSS)は、正確で一貫した車両位置決めのための輸送システムにおいて重要な役割を果たす。
しかし、GNSS観測は、都市キャニオンのような挑戦的な環境において、マルチパス効果や非視線受信(NLOS)により歪むことができる。
このような場合、故障したGNSS観測を分類・排除する従来の手法は失敗し、信頼性の低い状態推定と安全でないシステム操作につながる。
本研究では,GNSS観測を時空間モデル問題として解析することにより,NLOS受信を検出し,GNSS疑似乱誤差を予測するディープラーニング方式を提案する。
先行研究と比較して,long short-term memory (lstm) ネットワークを強化し,モデル性能と一般化を向上させるトランスフォーマチックアテンション機構を構築した。
提案するネットワークのトレーニングと評価のために,香港とアーヘンの都市から得られたラベル付きデータセットを用いた。
また、ライダーマップを用いたGNSS観測のラベル付けのためのデータセット生成プロセスも導入する。
実験では,提案するネットワークをディープラーニングモデルと古典的機械学習モデルと比較する。
さらに、ネットワークコンポーネントのアブレーション研究を行い、NLOS検出とデータアウトオブディストリビューションを状態推定器に統合する。
その結果,本ネットワークは他のモデルと比較して精度とリコール率が向上した。
さらに,提案手法は,NLOS観測の分類・排除により,実世界の車両位置の軌跡分散を回避する。 The global navigation satellite systems (GNSS) play a vital role in transport systems for accurate and consistent vehicle localization. However, GNSS observations can be distorted due to multipath effects and non-line-of-sight (NLOS) receptions in challenging environments such as urban canyons. In such cases, traditional methods to classify and exclude faulty GNSS observations may fail, leading to unreliable state estimation and unsafe system operations. This work proposes a Deep-Learning-based method to detect NLOS receptions and predict GNSS pseudorange errors by analyzing GNSS observations as a spatio-temporal modeling problem. Compared to previous works, we construct a transformer-like attention mechanism to enhance the long short-term memory (LSTM) networks, improving model performance and generalization. For the training and evaluation of the proposed network, we used labeled datasets from the cities of Hong Kong and Aachen. We also introduce a dataset generation process to label the GNSS observations using lidar maps. In experimental studies, we compare the proposed network with a deep-learning-based model and classical machine-learning models. Furthermore, we conduct ablation studies of our network components and integrate the NLOS detection with data out-of-distribution in a state estimator. As a result, our network presents improved precision and recall ratios compared to other models. Additionally, we show that the proposed method avoids trajectory divergence in real-world vehicle localization by classifying and excluding NLOS observations. | 翻訳日:2023-09-04 13:22:25 公開日:2023-09-01 |
# 多様な一貫性のある情報を探索するための非対称二重翼型マルチビュークラスタリングネットワーク Asymmetric double-winged multi-view clustering network for exploring Diverse and Consistent Information ( http://arxiv.org/abs/2309.00474v1 ) ライセンス: Link先を確認 | Qun Zheng, Xihong Yang, Siwei Wang, Xinru An, Qi Liu | (参考訳) 教師なしのシナリオでは、dcmvc(deep contrastive multi-view clustering)がホットな研究スポットとなり、異なるビュー間の潜在的な関係を掘り起こそうとしている。
既存のほとんどのDCMVCアルゴリズムは、浅い機能に関する多様な情報を無視しながら、深いセマンティックな特徴に対する一貫性情報の探索に重点を置いている。
このギャップを埋めるために、我々はCodingNetと呼ばれる新しいマルチビュークラスタリングネットワークを提案し、同時に多様な一貫性のある情報を探索する。
具体的には,従来のオートエンコーダに代えて,浅い特徴と深い特徴を分離して抽出する非対称構造ネットワークを設計する。
次に、浅い特徴の類似性行列をゼロ行列に合わせることにより、浅い特徴の多様性を保証し、マルチビューデータのより優れた記述を提供する。
さらに,ビュー機能レベルと擬似ラベルレベルの両方において,深い特徴の一貫性を維持する2つのコントラスト機構を提案する。
我々のフレームワークの有効性は、広く使用されている6つのベンチマークデータセットの広範な実験を通じて検証され、最先端のマルチビュークラスタリングアルゴリズムよりも優れている。 In unsupervised scenarios, deep contrastive multi-view clustering (DCMVC) is becoming a hot research spot, which aims to mine the potential relationships between different views. Most existing DCMVC algorithms focus on exploring the consistency information for the deep semantic features, while ignoring the diverse information on shallow features. To fill this gap, we propose a novel multi-view clustering network termed CodingNet to explore the diverse and consistent information simultaneously in this paper. Specifically, instead of utilizing the conventional auto-encoder, we design an asymmetric structure network to extract shallow and deep features separately. Then, by aligning the similarity matrix on the shallow feature to the zero matrix, we ensure the diversity for the shallow features, thus offering a better description of multi-view data. Moreover, we propose a dual contrastive mechanism that maintains consistency for deep features at both view-feature and pseudo-label levels. Our framework's efficacy is validated through extensive experiments on six widely used benchmark datasets, outperforming most state-of-the-art multi-view clustering algorithms. | 翻訳日:2023-09-04 13:22:01 公開日:2023-09-01 |
# オフザシェルフグラフベースインデックスの汎用的および実践的チューニング手法:UTOkyoチームによるSISAPインデクシングチャレンジレポート General and Practical Tuning Method for Off-the-Shelf Graph-Based Index: SISAP Indexing Challenge Report by Team UTokyo ( http://arxiv.org/abs/2309.00472v1 ) ライセンス: Link先を確認 | Yutaro Oguri and Yusuke Matsui | (参考訳) ANN (Approximate Nearest Neighbor) 探索のためのグラフベースのアルゴリズムの有効性にもかかわらず、そのようなシステムの最適チューニングは未だ不明である。
本研究は,グラフトラバーサルのベクトル,データベースサイズ,エントリポイントの次元に着目し,既定のグラフベースインデックスの性能をチューニングする手法を提案する。
ブラックボックス最適化アルゴリズムを用いて,要求されるリコールとクエリ毎秒(qps)のレベルを満たすための統合チューニングを行う。
我々はsisap 2023インデクシングチャレンジのタスクaに本手法を適用し,10mおよび30mトラックで2位となった。
ブリュート力法に比べて性能が大幅に向上する。
この研究は、グラフベースのインデックスに対して普遍的に適用可能なチューニング方法を提供し、より広い用途への競争の具体的条件を超えて拡張する。 Despite the efficacy of graph-based algorithms for Approximate Nearest Neighbor (ANN) searches, the optimal tuning of such systems remains unclear. This study introduces a method to tune the performance of off-the-shelf graph-based indexes, focusing on the dimension of vectors, database size, and entry points of graph traversal. We utilize a black-box optimization algorithm to perform integrated tuning to meet the required levels of recall and Queries Per Second (QPS). We applied our approach to Task A of the SISAP 2023 Indexing Challenge and got second place in the 10M and 30M tracks. It improves performance substantially compared to brute force methods. This research offers a universally applicable tuning method for graph-based indexes, extending beyond the specific conditions of the competition to broader uses. | 翻訳日:2023-09-04 13:21:39 公開日:2023-09-01 |
# 食品エネルギー推定のためのエンコーダデコーダフレームワークの改良 An Improved Encoder-Decoder Framework for Food EnergyEstimation ( http://arxiv.org/abs/2309.00468v1 ) ライセンス: Link先を確認 | Jack Ma and Jiangpeng He and Fengqing Zhu | (参考訳) 健康な生活を維持するためには食事の評価が不可欠である。
自動画像ベースの食事評価は、画像キャプチャ装置(携帯電話など)の普及による研究分野の増大である。
そこで本研究では,単一の単眼画像から食品エネルギーを推定する。
そこで我々は,エネルギー推定のための改良されたエンコーダ・デコーダ・フレームワークを用いて,この画像を食品エネルギー情報に埋め込まれた表現に変換し,デコーダがエネルギー情報を抽出する。
そこで本研究では,食シーン画像,食感セグメンテーションマスク,地中カロリー値を含む登録栄養士が検証した高品質な食品画像データセットをコンパイルする。
本手法は,MAPE法とMAE法でそれぞれ10\%以上,30kCal以上のカロリー推定法を改良する。 Dietary assessment is essential to maintaining a healthy lifestyle. Automatic image-based dietary assessment is a growing field of research due to the increasing prevalence of image capturing devices (e.g. mobile phones). In this work, we estimate food energy from a single monocular image, a difficult task due to the limited hard-to-extract amount of energy information present in an image. To do so, we employ an improved encoder-decoder framework for energy estimation; the encoder transforms the image into a representation embedded with food energy information in an easier-to-extract format, which the decoder then extracts the energy information from. To implement our method, we compile a high-quality food image dataset verified by registered dietitians containing eating scene images, food-item segmentation masks, and ground truth calorie values. Our method improves upon previous caloric estimation methods by over 10\% and 30 kCal in terms of MAPE and MAE respectively. | 翻訳日:2023-09-04 13:21:24 公開日:2023-09-01 |
# 物体検出における不確かさの校正評価のための理論的・実践的枠組み A Theoretical and Practical Framework for Evaluating Uncertainty Calibration in Object Detection ( http://arxiv.org/abs/2309.00464v1 ) ライセンス: Link先を確認 | Pedro Conde, Rui L. Lopes, Cristiano Premebida | (参考訳) ディープニューラルネットワークの普及により、機械学習システムは様々な現実世界のアプリケーションにますます存在感を増している。
その結果、これらの領域では信頼性の高いモデルに対する需要が高まっており、ディープラーニングの将来を考える場合、不確実性校正の問題が重要である。
これは、自律運転やロボット工学のような安全クリティカルな応用に一般的に存在する物体検出システムを考えると特に当てはまる。
そこで本研究では,不確実性校正の文脈で物体検出システムを評価するための新しい理論的,実用的な枠組みを提案する。
提案する不確実性校正指標のロバスト性は,代表的な実験によって示される。
提案されている不確実性校正メトリクスのコードは、以下のとおりである。 The proliferation of Deep Neural Networks has resulted in machine learning systems becoming increasingly more present in various real-world applications. Consequently, there is a growing demand for highly reliable models in these domains, making the problem of uncertainty calibration pivotal, when considering the future of deep learning. This is especially true when considering object detection systems, that are commonly present in safety-critical application such as autonomous driving and robotics. For this reason, this work presents a novel theoretical and practical framework to evaluate object detection systems in the context of uncertainty calibration. The robustness of the proposed uncertainty calibration metrics is shown through a series of representative experiments. Code for the proposed uncertainty calibration metrics at: https://github.com/pedrormconde/Uncertainty_Calibration_Object_Detection. | 翻訳日:2023-09-04 13:21:09 公開日:2023-09-01 |
# 連続学習者分析のための新しい指標 New metrics for analyzing continual learners ( http://arxiv.org/abs/2309.00462v1 ) ライセンス: Link先を確認 | Nicolas Michel, Giovanni Chierchia, Romain Negrel, Jean-Fran\c{c}ois Bercher, Toshihiko Yamasaki | (参考訳) ディープニューラルネットワークは、固定されたクラスから独立かつ同一に分散したデータに基づいてトレーニングした場合、驚くべきパフォーマンスを示している。
しかし,実世界のシナリオでは,複数の分類タスクが順次提示される連続的なデータストリーム上でモデルをトレーニングすることが望ましい。
このシナリオはcontinual learning(cl)と呼ばれ、新しいタスクを学習しながら古いタスクの知識を維持するのに苦労する標準学習アルゴリズムに挑戦する。
この安定性可塑性ジレンマはclの中心であり、安定性と可塑性を個別に測定するために複数の指標が提案されている。
しかし、どのモデルでも性能が低下する原因となる分類タスクの困難さは考慮されていない。
その意味で、現在のメトリクスのいくつかの制限を分析し、セットアップによって引き起こされる忘れの存在を特定する。
そこで本研究では,タスクの難易度を考慮した新しい指標を提案する。
ベンチマークデータセットの実験を通じて,提案手法が連続学習環境におけるモデルによって達成される安定性と塑性のトレードオフについて,新たな洞察を与えることを示す。 Deep neural networks have shown remarkable performance when trained on independent and identically distributed data from a fixed set of classes. However, in real-world scenarios, it can be desirable to train models on a continuous stream of data where multiple classification tasks are presented sequentially. This scenario, known as Continual Learning (CL) poses challenges to standard learning algorithms which struggle to maintain knowledge of old tasks while learning new ones. This stability-plasticity dilemma remains central to CL and multiple metrics have been proposed to adequately measure stability and plasticity separately. However, none considers the increasing difficulty of the classification task, which inherently results in performance loss for any model. In that sense, we analyze some limitations of current metrics and identify the presence of setup-induced forgetting. Therefore, we propose new metrics that account for the task's increasing difficulty. Through experiments on benchmark datasets, we demonstrate that our proposed metrics can provide new insights into the stability-plasticity trade-off achieved by models in the continual learning environment. | 翻訳日:2023-09-04 13:20:57 公開日:2023-09-01 |
# dacl10k:semantic bridge damage segmentationのベンチマーク dacl10k: Benchmark for Semantic Bridge Damage Segmentation ( http://arxiv.org/abs/2309.00460v1 ) ライセンス: Link先を確認 | Johannes Flotzinger, Philipp J. R\"osch, Thomas Braml | (参考訳) 鉄筋コンクリート欠陥(rcds)を確実に同定することは, 橋梁の構造的完全性, 交通安全, 長期耐久性を評価する上で重要な役割を担っている。
それでも、RCDを認識するためのデータセットは、サイズとクラスの多様性の観点からは小さく、実際のシナリオにおけるユーザビリティと、ベンチマークとしての彼らの役割を疑問視している。
この問題に対する我々の貢献は"dacl10k"であり、実世界の橋梁検査から得られる9,920個の画像からなる多ラベルセマンティックセグメンテーションのための非常に多様なRCDデータセットである。
dacl10kは12の損傷クラスと6つのブリッジコンポーネントを区別し、建物のアセスメントにおいて重要な役割を果たす。
さらに,dacl10kのベースラインモデルについて検討し,評価を行った。
最良のモデルはテスト集合上で平均交点オーバー結合 0.42 を達成する。
dacl10kは我々のベースラインと共に 研究者や実践者に公開され ブリッジ検査領域における セマンティックセグメンテーションのための 画像の数とクラスの多様性に関する 最大のデータセットを表します Reliably identifying reinforced concrete defects (RCDs)plays a crucial role in assessing the structural integrity, traffic safety, and long-term durability of concrete bridges, which represent the most common bridge type worldwide. Nevertheless, available datasets for the recognition of RCDs are small in terms of size and class variety, which questions their usability in real-world scenarios and their role as a benchmark. Our contribution to this problem is "dacl10k", an exceptionally diverse RCD dataset for multi-label semantic segmentation comprising 9,920 images deriving from real-world bridge inspections. dacl10k distinguishes 12 damage classes as well as 6 bridge components that play a key role in the building assessment and recommending actions, such as restoration works, traffic load limitations or bridge closures. In addition, we examine baseline models for dacl10k which are subsequently evaluated. The best model achieves a mean intersection-over-union of 0.42 on the test set. dacl10k, along with our baselines, will be openly accessible to researchers and practitioners, representing the currently biggest dataset regarding number of images and class diversity for semantic segmentation in the bridge inspection domain. | 翻訳日:2023-09-04 13:20:38 公開日:2023-09-01 |
# 医用画像分割における教師なしバイアス発見 Unsupervised bias discovery in medical image segmentation ( http://arxiv.org/abs/2309.00451v1 ) ライセンス: Link先を確認 | Nicol\'as Gaggion, Rodrigo Echeveste, Lucas Mansilla, Diego H. Milone, Enzo Ferrante | (参考訳) 近年、医学画像における解剖学的セグメンテーションの深層学習モデルは、性別や民族といった保護的属性の観点から定義された特定のサブ人口に対するバイアスを示すことが示されている。
この文脈では、深いセグメンテーションモデルの公平性の監査が重要となる。
しかし、このような監査プロセスは一般的に、ターゲットの人口に対して、特に開発からデプロイまで、必ずしも利用できないような、地道なセグメンテーションマスクへのアクセスを必要とする。
本稿では, 地中アノテーションを使わずに生体画像分割におけるモデルバイアスを予測できる新しい手法を提案する。
教師なしバイアス検出手法は,逆分類精度フレームワークを用いてセグメンテーション品質を推定する。
合成・現実的なシナリオにおける数値実験を通じて,本手法は,地中構造ラベルの欠如による公平性の問題の予測に成功し,この分野での斬新で価値のあるツールを構成することを示す。 It has recently been shown that deep learning models for anatomical segmentation in medical images can exhibit biases against certain sub-populations defined in terms of protected attributes like sex or ethnicity. In this context, auditing fairness of deep segmentation models becomes crucial. However, such audit process generally requires access to ground-truth segmentation masks for the target population, which may not always be available, especially when going from development to deployment. Here we propose a new method to anticipate model biases in biomedical image segmentation in the absence of ground-truth annotations. Our unsupervised bias discovery method leverages the reverse classification accuracy framework to estimate segmentation quality. Through numerical experiments in synthetic and realistic scenarios we show how our method is able to successfully anticipate fairness issues in the absence of ground-truth labels, constituting a novel and valuable tool in this field. | 翻訳日:2023-09-04 13:20:17 公開日:2023-09-01 |
# クーパー対スプリッターを用いたフェルミオン量子計算 Fermionic quantum computation with Cooper pair splitters ( http://arxiv.org/abs/2309.00447v1 ) ライセンス: Link先を確認 | Kostas Vilkelis, Antonio Manesco, Juan Daniel Torres Luna, Sebastian Miles, Michael Wimmer, Anton Akhmerov | (参考訳) 量子ビットではなく局所フェルミオンモード(LFM)を用いる普遍量子コンピュータの実践的実装を提案する。
我々の設計は、ハイブリッド超伝導島に結合した量子ドットトンネルと、ドット間の可変容量結合からなる。
クーパー対分割, 弾性コツネリング, クーロン相互作用のコヒーレント制御により, ブラヴィイとキタエフによって定義された量子ゲートの普遍的な集合を実現できることを示す。
最後に,本装置の限界の可能性について検討し,その克服に必要な実験をリストアップする。 We propose a practical implementation of a universal quantum computer that uses local fermionic modes (LFM) rather than qubits. Our design consists of quantum dots tunnel coupled by a hybrid superconducting island together with a tunable capacitive coupling between the dots. We show that coherent control of Cooper pair splitting, elastic cotunneling, and Coulomb interactions allows us to implement the universal set of quantum gates defined by Bravyi and Kitaev. Finally, we discuss possible limitations of the device and list necessary experimental efforts to overcome them. | 翻訳日:2023-09-04 13:20:02 公開日:2023-09-01 |
# ランダムに選択された測定設定部分集合を用いたループホールフリーベル試験 Loophole-free Bell tests with randomly chosen subsets of measurement settings ( http://arxiv.org/abs/2309.00442v1 ) ライセンス: Link先を確認 | Jaskaran Singh and Ad\'an Cabello | (参考訳) ループホールのない状態に到達するためには、検出効率が非常に低い2部量子非局所相関が必要であるが、実際の実験のためには、多くの測定設定が必要である。
これは、これらの設定のランダムなサブセットのみがテストされた場合、抜け穴のないベル非局所性について何が結論づけられるかという一般的な問題につながる。
本稿では,この問題に対処する手法を提案する。
いくつかのケースでは、抜け穴のないベル非局所性テストは、設定のわずかなランダムな割合でしか検出できないことが示されている。
報酬は高い検出効率である。
本手法は, 局所システムの寸法, 視認性, 検出効率を考慮し, 検出・ループホールフリーシステムに到達するために必要なコンテキストの分数を計算できる, ホールホールフリーベルテストの設計への新しいアプローチを可能にする。
この結果はまた、量子非局所性を古典的にシミュレートするコストについて異なる考え方を強制し、より多くのコンテキストを考慮すれば、必要なリソースの量を任意に大きくすることができることを示した。 There are bipartite quantum nonlocal correlations requiring very low detection efficiency to reach the loophole-free regime but that need too many measurement settings to be practical for actual experiments. This leads to the general problem of what can be concluded about loophole-free Bell nonlocality if only a random subset of these settings is tested. Here we develop a method to address this problem. We show that, in some cases, it is possible to detect loophole-free Bell nonlocality testing only a small random fraction of the settings. The prize to pay is a higher detection efficiency. The method allows for a novel approach to the design of loophole-free Bell tests in which, given the dimension of the local system, the visibility, and the detection efficiency available, one can calculate the fraction of the contexts needed to reach the detection-loophole-free regime. The results also enforce a different way of thinking about the costs of classically simulating quantum nonlocality, as it shows that the amount of resources that are needed can be made arbitrarily large simply by considering more contexts. | 翻訳日:2023-09-04 13:19:52 公開日:2023-09-01 |
# ランダムネットワークによるオンライン分散学習 Online Distributed Learning over Random Networks ( http://arxiv.org/abs/2309.00520v1 ) ライセンス: Link先を確認 | Nicola Bastianello, Diego Deplano, Mauro Franceschelli, Karl H. Johansson | (参考訳) 近年のマルチエージェントシステムの幅広いシナリオへの展開により,分散手法による学習問題の解決が可能になった。
このコンテキストでは、エージェントはローカルデータを収集し、データを直接共有することなく、モデルを協調的に訓練する。
分散学習はエージェントのプライバシ保護の利点を提供するが、適切なアルゴリズムの設計と分析に関していくつかの課題も生じている。
本研究は、実践的な実施によって動機づけられた以下の課題に特に焦点をあてる。
(i)地域データが時間とともに変化するオンライン学習
(ii)非同期エージェント計算
(iii)信頼できず、限定的な通信
(iv)局所計算に不備がある。
これらの課題に対処するため,我々は分散演算子理論 (DOT) 版であるALMM(Alternating Direction Method of Multipliers)を導入し,これをDOT-ADMMアルゴリズムと呼ぶ。
最適時変解の有界近傍に向けて、凸学習問題(線形回帰問題やロジスティック回帰問題など)の大規模クラスに対する線形率と収束し、近傍が−$\text{} にどのように依存するかを特徴付ける。
(i)--
(iv)$。
我々は、DOT-ADMMアルゴリズムと他の最先端アルゴリズムを比較した数値シミュレーションを用いて理論解析を相関させ、提案アルゴリズムだけが堅牢性を示すことを示す。
(i)--
(iv) The recent deployment of multi-agent systems in a wide range of scenarios has enabled the solution of learning problems in a distributed fashion. In this context, agents are tasked with collecting local data and then cooperatively train a model, without directly sharing the data. While distributed learning offers the advantage of preserving agents' privacy, it also poses several challenges in terms of designing and analyzing suitable algorithms. This work focuses specifically on the following challenges motivated by practical implementation: (i) online learning, where the local data change over time; (ii) asynchronous agent computations; (iii) unreliable and limited communications; and (iv) inexact local computations. To tackle these challenges, we introduce the Distributed Operator Theoretical (DOT) version of the Alternating Direction Method of Multipliers (ADMM), which we call the DOT-ADMM Algorithm. We prove that it converges with a linear rate for a large class of convex learning problems (e.g., linear and logistic regression problems) toward a bounded neighborhood of the optimal time-varying solution, and characterize how the neighborhood depends on~$\text{(i)--(iv)}$. We corroborate the theoretical analysis with numerical simulations comparing the DOT-ADMM Algorithm with other state-of-the-art algorithms, showing that only the proposed algorithm exhibits robustness to (i)--(iv). | 翻訳日:2023-09-04 13:11:38 公開日:2023-09-01 |
# 偏心誤差補正のための機械ビジョン法:適応拡張アルゴリズムに基づく A Machine Vision Method for Correction of Eccentric Error: Based on Adaptive Enhancement Algorithm ( http://arxiv.org/abs/2309.00514v1 ) ライセンス: Link先を確認 | Fanyi Wang, Pin Cao, Yihui Zhang, Haotian Hu, Yongying Yang | (参考訳) 大開口非球面光学素子の表面欠陥検出の手順では、機械的スピン軸と共軸となる素子の光学軸を正確に調整することが極めて重要である。
そこで本論文では,偏心誤差補正のための機械視法を提案する。
非球面光学素子の撮像特性が補正の失敗に繋がる可能性のある基準クロスヘア画像の重度のデフォーカスぼけに着目し,アダプティブエンハンスメントアルゴリズム(aea)を提案する。
aeaはgfa(advanced guided filter dark channel dehazing algorithm)とmdc-net(lightweight multi-scale densely connected network)から構成される。
GFAの増強効果は優れているが時間がかかり、MDC-Netの増強効果はわずかに劣るが、強いリアルタイムである。
AEAは修正手順ごとに数十回実行されるので、リアルタイムのパフォーマンスは非常に重要です。
したがって、定義評価関数smd2、gfa、mdc-netの実証的な閾値を高度かつわずかにぼやけたクロスヘア画像に適用することにより、できるだけの時間を節約しつつ、拡張効果を確保することができる。
AEAは時間消費性能において一定の堅牢性を持ち、GFAとMDC-Netを別々に実行するのに平均時間は0.2721sと0.0963sである。
また,本手法では偏心誤差を10um以内に低減できる。 In the procedure of surface defects detection for large-aperture aspherical optical elements, it is of vital significance to adjust the optical axis of the element to be coaxial with the mechanical spin axis accurately. Therefore, a machine vision method for eccentric error correction is proposed in this paper. Focusing on the severe defocus blur of reference crosshair image caused by the imaging characteristic of the aspherical optical element, which may lead to the failure of correction, an Adaptive Enhancement Algorithm (AEA) is proposed to strengthen the crosshair image. AEA is consisted of existed Guided Filter Dark Channel Dehazing Algorithm (GFA) and proposed lightweight Multi-scale Densely Connected Network (MDC-Net). The enhancement effect of GFA is excellent but time-consuming, and the enhancement effect of MDC-Net is slightly inferior but strongly real-time. As AEA will be executed dozens of times during each correction procedure, its real-time performance is very important. Therefore, by setting the empirical threshold of definition evaluation function SMD2, GFA and MDC-Net are respectively applied to highly and slightly blurred crosshair images so as to ensure the enhancement effect while saving as much time as possible. AEA has certain robustness in time-consuming performance, which takes an average time of 0.2721s and 0.0963s to execute GFA and MDC-Net separately on ten 200pixels 200pixels Region of Interest (ROI) images with different degrees of blur. And the eccentricity error can be reduced to within 10um by our method. | 翻訳日:2023-09-04 13:11:12 公開日:2023-09-01 |
# 2層ニューラルネットワークの大域最小値近傍の構造と勾配ダイナミクス Structure and Gradient Dynamics Near Global Minima of Two-layer Neural Networks ( http://arxiv.org/abs/2309.00508v1 ) ライセンス: Link先を確認 | Leyang Zhang, Yaoyu Zhang, Tao Luo | (参考訳) 軽微な仮定の下で、大域的ミニマ付近の2層ニューラルネットワークの損失景観の構造を調査し、完全な一般化を与えるパラメータの集合を決定し、その周りの勾配の流れを完全に特徴づける。
新たな手法により、複雑な損失景観の単純な側面を明らかにし、モデル、ターゲット関数、サンプル、初期化がトレーニングのダイナミクスにどう影響するかを明らかにする。
これらの結果に基づき、(過パラメータ化)ニューラルネットワークがうまく一般化できる理由を説明した。 Under mild assumptions, we investigate the structure of loss landscape of two-layer neural networks near global minima, determine the set of parameters which give perfect generalization, and fully characterize the gradient flows around it. With novel techniques, our work uncovers some simple aspects of the complicated loss landscape and reveals how model, target function, samples and initialization affect the training dynamics differently. Based on these results, we also explain why (overparametrized) neural networks could generalize well. | 翻訳日:2023-09-04 13:10:26 公開日:2023-09-01 |
# Rural Access Index: グローバルな研究 Rural Access Index: A global study ( http://arxiv.org/abs/2309.00505v1 ) ライセンス: Link先を確認 | Quan Sun, Wanjing Li and Qi Zhou | (参考訳) 国連持続可能な開発目標指標(sdg 9.1.1)の1つである農村アクセス指数(rai)は、全季節道路の2km以内に居住する農村人口の割合を表している。
農村住民の交通サービスへのアクセシビリティを反映し、道路インフラ改善のためのガイダンスを提供する。
RAIの評価における主な欠陥は、限られた研究領域、その不完全な意味、および他の影響要因との相関分析の欠如である。
これらの課題に対処するため, RAI を補完する指標として "Not-served Rural Population (NSRP)" を提案する。
マルチソースオープンデータを用いて、203カ国におけるRAIおよびNSRP指標の空間パターンを分析し、これらの2指標と他の10要因との相関について検討した。
主な発見は以下の通りである。
1)北アメリカ,ヨーロッパ,オセアニアは,比較的高いrai値 (>80%) と低いnsrp値 (<1 million) を示す。
対照的に、アフリカの地域はRAI値が比較的低く(40%)、NSRP値が高い(>500万)。
RAIとNSRPには負の相関がある。
2) 2つの指標の分布には空間的自己相関と重要な不均衡が存在する。
3)RAIは,GDP,教育などの国の発展の水準を示す要因と正の相関を示し,道路インフラの改善が貧困率を低下させ,教育へのアクセスを高める可能性を示唆している。
RAIとは対照的に、NSRPはこれらの要因と完全に負の相関を示す。 The Rural Access Index (RAI), one of the UN Sustainable Development Goal indicators (SDG 9.1.1), represents the proportion of the rural population residing within 2 km of all-season roads. It reflects the accessibility of rural residents to transportation services and could provide guidance for the improvement of road infrastructure. The primary deficiencies in assessing the RAI include the limited studying area, its incomplete meaning and the absence of correlation analysis with other influencing factors. To address these issues, this study proposes the "Not-served Rural Population (NSRP)" as a complementary indicator to RAI. Utilizing multi-source open data, we analysed the spatial patterns of RAI and NSRP indicators for 203 countries and then explored the correlation between these 2 indicators and other 10 relevant factors. The main findings are as follows: 1) North America, Europe, and Oceania exhibit relatively high RAI values (>80%) and low NSRP values (<1 million). In contrast, African regions have relatively low RAI values (<40%) and high NSRP values (>5 million). There is a negative correlation between RAI and NSRP. 2) There is spatial autocorrelation and significant imbalances in the distribution of these two indicators. 3) The RAI exhibit a positive correlation with the factors showing levels of the development of countries such as GDP, education, indicating that improving the road infrastructure could reduce the poverty rates and enhance access to education. And in contrast with RAI, NSRP exhibit the completely negative correlations with these factors. | 翻訳日:2023-09-04 13:10:17 公開日:2023-09-01 |
# 電力系統の監視・最適化における深層学習手法の適用 Application of Deep Learning Methods in Monitoring and Optimization of Electric Power Systems ( http://arxiv.org/abs/2309.00498v1 ) ライセンス: Link先を確認 | Ognjen Kundacina | (参考訳) 本論文は,電力系統の監視と最適化に使用されるアルゴリズムを進化させる手段として,ディープラーニング技術の利用を徹底的に検討する。
この論文の最初の大きな貢献は、グラフニューラルネットワークを電力系統の状態推定に応用することである。
この論文の第2の鍵となる側面は、動的分散ネットワーク再構成のための強化学習の利用である。
提案手法の有効性は,広範な実験とシミュレーションによって確認される。 This PhD thesis thoroughly examines the utilization of deep learning techniques as a means to advance the algorithms employed in the monitoring and optimization of electric power systems. The first major contribution of this thesis involves the application of graph neural networks to enhance power system state estimation. The second key aspect of this thesis focuses on utilizing reinforcement learning for dynamic distribution network reconfiguration. The effectiveness of the proposed methods is affirmed through extensive experimentation and simulations. | 翻訳日:2023-09-04 13:09:51 公開日:2023-09-01 |
# 誘電体基板上に堆積した実グラフェンシートからのカシミール-ポルダー力の大分離挙動 Large-Separation Behavior of the Casimir-Polder Force from Real Graphene Sheet Deposited on a Dielectric Substrate ( http://arxiv.org/abs/2309.00497v1 ) ライセンス: Link先を確認 | Galina L. Klimchitskaya and Vladimir M. Mostepanenko | (参考訳) 原子またはナノ粒子とグラフェン被覆誘電体基板の間のカシミール-ポルダー力は、大きな分離領域で研究されている。
エネルギーギャップと化学ポテンシャルの任意の値を持つグラフェンコーティングは、偏光テンソルの定式化を用いてディラックモデルの枠組みで記述される。
グラフェン被覆基板からのカシミール-ポルダー力は、エネルギーギャップと化学ポテンシャルの値とは無関係に、原子またはナノ粒子とグラフェンコーティングとの間の約5.6$\mu$m距離で大きな分離限界に達することが示されている。
しかしながら, カシミール・ポルダー力がプランク定数と光速に依存しない古典的な限界は, エネルギーギャップと化学ポテンシャルの値によってはるかに大きな分離で達成される可能性がある。
さらに,グラフェン被覆基板からのカシミール-ポルダー力の簡易な解析式を発見し,その適用範囲を決定した。
グラフェン被覆基板からの大分離カシミール-ポルダー力の漸近結果は, 化学ポテンシャルが高く, エネルギーギャップが小さいグラフェンシートの数値計算結果とよく一致していることが示された。
ナノテクノロジーとバイオエレクトロニクスの応用の可能性について論じる。 The Casimir-Polder force between atoms or nanoparticles and graphene-coated dielectric substrates is investigated in the region of large separations. Graphene coating with any value of the energy gap and chemical potential is described in the framework of the Dirac model using the formalism of the polarization tensor. It is shown that the Casimir-Polder force from a graphene-coated substrate reaches the limit of large separations at approximately 5.6 $\mu$m distance between an atom or a nanoparticle and graphene coating independently of the values of the energy gap and chemical potential. According to our results, however, the classical limit, where the Casimir-Polder force no longer depends on the Planck constant and the speed of light, may be attained at much larger separations depending on the values of the energy gap and chemical potential. In addition, we have found a simple analytic expression for the Casimir-Polder force from a graphene-coated substrate at large separations and determined the region of its applicability. It is demonstrated that the asymptotic results for the large-separation Casimir-Polder force from a graphene-coated substrate are in better agreement with the results of numerical computations for the graphene sheets with larger chemical potential and smaller energy gap. Possible applications of the obtained results in nanotechnology and bioelectronics are discussed. | 翻訳日:2023-09-04 13:09:45 公開日:2023-09-01 |
# コンピュータトモグラフィーのための多段階ディープラーニングアーチファクト削減 Multi-stage Deep Learning Artifact Reduction for Computed Tomography ( http://arxiv.org/abs/2309.00494v1 ) ライセンス: Link先を確認 | Jiayang Shi, Daniel M. Pelt, K. Joost Batenburg | (参考訳) コンピュータ断層撮影(ct)では、取得した一連の投影画像から物体の内部構造の画像を算出する。
これらの再構成画像の品質は正確な解析には不可欠であるが、この品質は様々な画像アーティファクトによって劣化させることができる。
取得した投影画像は、様々な画像領域に適用される複数のアーティファクト除去ステップ(例えば、投影画像の異常除去や再構成画像のノイズ除去)からなるパイプラインで処理されることが多い。
これらのアーティファクト削除メソッドは、特定のアーティファクトが他のドメインに比べて特定のドメインで削除しやすいという事実を利用する。
近年,CT画像のアーティファクト除去のためのディープラーニング手法が提案されている。
しかし,既存のCT深層学習法は再建後処理法として適用されている。
したがって、復元領域で除去が比較的難しい遺物は、これらの方法では効果的に除去できない。
代替として,従来のCT処理パイプラインと同様,ニューラルネットワークを複数の領域に適用する,人工物除去のための多段階ディープラーニング手法を提案する。
ニューラルネットワークは逐次的に効果的に訓練でき、簡単に使用でき、計算的に効率的に訓練できることを示す。
シミュレーションおよび実世界の実験データセットを用いた実験により,本手法はアーティファクトの削減に有効であり,深層学習に基づく後処理に優れていることが示された。 In Computed Tomography (CT), an image of the interior structure of an object is computed from a set of acquired projection images. The quality of these reconstructed images is essential for accurate analysis, but this quality can be degraded by a variety of imaging artifacts. To improve reconstruction quality, the acquired projection images are often processed by a pipeline consisting of multiple artifact-removal steps applied in various image domains (e.g., outlier removal on projection images and denoising of reconstruction images). These artifact-removal methods exploit the fact that certain artifacts are easier to remove in a certain domain compared with other domains. Recently, deep learning methods have shown promising results for artifact removal for CT images. However, most existing deep learning methods for CT are applied as a post-processing method after reconstruction. Therefore, artifacts that are relatively difficult to remove in the reconstruction domain may not be effectively removed by these methods. As an alternative, we propose a multi-stage deep learning method for artifact removal, in which neural networks are applied to several domains, similar to a classical CT processing pipeline. We show that the neural networks can be effectively trained in succession, resulting in easy-to-use and computationally efficient training. Experiments on both simulated and real-world experimental datasets show that our method is effective in reducing artifacts and superior to deep learning-based post-processing. | 翻訳日:2023-09-04 13:09:26 公開日:2023-09-01 |
# O-RANスライシングにおけるDRLの収束性に及ぼす予測の影響 How Does Forecasting Affect the Convergence of DRL Techniques in O-RAN Slicing? ( http://arxiv.org/abs/2309.00489v1 ) ライセンス: Link先を確認 | Ahmad M. Nagib, Hatem Abou-Zeid, and Hossam S. Hassanein | (参考訳) 仮想現実(VR)ゲームやメタバースサービスのような没入型アプリケーションの成功は、低レイテンシと信頼性の高い接続性に依存する。
シームレスなユーザエクスペリエンスを提供するため、open radio access network (o-ran)アーキテクチャと6gネットワークが重要な役割を果たすことが期待される。
O-RANパラダイムの重要なコンポーネントであるRANスライシングは、没入型サービスのニーズに基づいてネットワークリソースを割り当てることを可能にし、単一の物理インフラストラクチャ上で複数の仮想ネットワークを作成する。
O-RAN文献では、リソース割り当てを最適化するために、ディープ強化学習(DRL)アルゴリズムが一般的に使用されている。
しかし、ライブデプロイメントにおけるDRLの実践的採用は鈍化している。
これは主に、DRLエージェントが初期展開とネットワーク条件に大きな変化がある場合にも、遅い収束とパフォーマンスの不安定さに起因している。
本稿では,DRLに基づくスライシングエージェントの収束に及ぼす交通需要の時系列予測の影響について検討する。
そのために、実際のVRゲームトラフィックを含む複数のサービスをサポートする、徹底的な実験を行います。
そこで我々は,DRLの収束を高めるために,新しい予測支援型DRLアプローチとそのO-RAN実運用ワークフローを提案する。
提案手法は, 平均初期報酬値, 収束率, 収束シナリオ数において最大22.8%, 86.3%, 300%の改善を達成し, 実装ベースラインと比較してDRLエージェントの一般化性を高めた。
また,本手法は予測誤差に対して頑健であり,予測モデルが理想的でないことも示唆した。 The success of immersive applications such as virtual reality (VR) gaming and metaverse services depends on low latency and reliable connectivity. To provide seamless user experiences, the open radio access network (O-RAN) architecture and 6G networks are expected to play a crucial role. RAN slicing, a critical component of the O-RAN paradigm, enables network resources to be allocated based on the needs of immersive services, creating multiple virtual networks on a single physical infrastructure. In the O-RAN literature, deep reinforcement learning (DRL) algorithms are commonly used to optimize resource allocation. However, the practical adoption of DRL in live deployments has been sluggish. This is primarily due to the slow convergence and performance instabilities suffered by the DRL agents both upon initial deployment and when there are significant changes in network conditions. In this paper, we investigate the impact of time series forecasting of traffic demands on the convergence of the DRL-based slicing agents. For that, we conduct an exhaustive experiment that supports multiple services including real VR gaming traffic. We then propose a novel forecasting-aided DRL approach and its respective O-RAN practical deployment workflow to enhance DRL convergence. Our approach shows up to 22.8%, 86.3%, and 300% improvements in the average initial reward value, convergence rate, and number of converged scenarios respectively, enhancing the generalizability of the DRL agents compared with the implemented baselines. The results also indicate that our approach is robust against forecasting errors and that forecasting models do not have to be ideal. | 翻訳日:2023-09-04 13:09:02 公開日:2023-09-01 |
# 分子特性予測のための幾何アウェアライングラフトランスプレトレーニング Geometry-aware Line Graph Transformer Pre-training for Molecular Property Prediction ( http://arxiv.org/abs/2309.00483v1 ) ライセンス: Link先を確認 | Peizhen Bai, Xianyuan Liu, Haiping Lu | (参考訳) 近年, 深層学習による分子特性予測が注目されている。
ラベル付き分子の不足により、ラベルなしデータから一般化可能な分子表現を学習する自己教師付き学習手法への関心が高まっている。
分子は通常モデリングにおいて2次元トポロジカルグラフとして扱われるが、それらの3次元幾何学が分子機能を決定する上で非常に重要であることが判明した。
本稿では,2次元および3次元モダリティを用いた分子表現学習の促進を目的とした,新しい自己教師付き学習フレームワークであるgeometry-aware line graph transformer (galformer) pre-trainingを提案する。
具体的には、分子のトポロジ的および幾何学的情報を符号化する双モード線グラフ変換器のバックボーンを設計する。
デザインされたバックボーンは、両方のモダリティからグラフ構造をキャプチャする効果的な構造符号化を組み込んでいる。
次に,モダリティレベルとモダリティレベルの2つの補完的事前訓練タスクを考案した。
これらのタスクは、適切に管理された情報を提供し、ラベルのない分子から識別可能な2Dおよび3D知識を抽出する。
最後に,ダウンストリーム微調整による12のプロパティ予測ベンチマークにおいて,galformerを6つの最先端ベースラインに対して評価する。
実験の結果、Galformerは分類タスクと回帰タスクの両方のベースラインを一貫して上回り、その効果を示した。 Molecular property prediction with deep learning has gained much attention over the past years. Owing to the scarcity of labeled molecules, there has been growing interest in self-supervised learning methods that learn generalizable molecular representations from unlabeled data. Molecules are typically treated as 2D topological graphs in modeling, but it has been discovered that their 3D geometry is of great importance in determining molecular functionalities. In this paper, we propose the Geometry-aware line graph transformer (Galformer) pre-training, a novel self-supervised learning framework that aims to enhance molecular representation learning with 2D and 3D modalities. Specifically, we first design a dual-modality line graph transformer backbone to encode the topological and geometric information of a molecule. The designed backbone incorporates effective structural encodings to capture graph structures from both modalities. Then we devise two complementary pre-training tasks at the inter and intra-modality levels. These tasks provide properly supervised information and extract discriminative 2D and 3D knowledge from unlabeled molecules. Finally, we evaluate Galformer against six state-of-the-art baselines on twelve property prediction benchmarks via downstream fine-tuning. Experimental results show that Galformer consistently outperforms all baselines on both classification and regression tasks, demonstrating its effectiveness. | 翻訳日:2023-09-04 13:08:38 公開日:2023-09-01 |
# ライドバーグ原子配列の制限ヒルベルト空間における量子モンテカルロシミュレーション Quantum Monte Carlo simulations in the restricted Hilbert space of Rydberg atom arrays ( http://arxiv.org/abs/2309.00482v1 ) ライセンス: Link先を確認 | Pranay Patil | (参考訳) ライドバーグ原子配列は、多くのエキゾチック量子基底状態と相転移をシミュレートする強力なプラットフォームとして登場した。
同じ数値的検証のために、rydbergブロックの制約を強制することによって生成される縮小ヒルベルト空間で動作する多彩な量子モンテカルロサンプリング手法を開発した。
確率級数展開の枠組みを用いて、制限空間において作用素弦の構成空間が$d+1$次元のハードロッド気体として理解可能であることを示す。
このマッピングを用いて、ロッドの様々な非局所運動として可視化できるクラスタアルゴリズムを開発する。
我々は各更新の効率を個別に総合的に研究する。
このアルゴリズムの有用性を明らかにするために,kagom\'eリンク格子上で,rydberg原子配列の相図を効率的に生成し,関連するすべてのエネルギースケールよりもずっと小さい温度にすることができることを示した。
これはZ_2$スピン液体の存在が最近仮説化されているため、幅広い関心を集めている。 Rydberg atom arrays have emerged as a powerful platform to simulate a number of exotic quantum ground states and phase transitions. To verify the same numerically, we develop a versatile quantum Monte Carlo sampling technique which operates in the reduced Hilbert space generated by enforcing the constraint of a Rydberg blockade. We use the framework of stochastic series expansion and show that in the restricted space, the configuration space of operator strings can be understood as a hard rod gas in $d+1$ dimensions. We use this mapping to develop cluster algorithms which can be visualized as various non-local movements of rods. We study the efficiency of each of our updates individually and collectively. To elucidate the utility of the algorithm, we show that it can efficiently generate the phase diagram of a Rydberg atom array, to temperatures much smaller than all energy scales involved, on a Kagom\'e link lattice. This is of broad interest as the presence of a $Z_2$ spin liquid has been hypothesized recently. | 翻訳日:2023-09-04 13:08:18 公開日:2023-09-01 |
# 高次元線形回帰の解釈:バッテリデータに対するヌルスペースと正則化の効果 Interpretation of High-Dimensional Linear Regression: Effects of Nullspace and Regularization Demonstrated on Battery Data ( http://arxiv.org/abs/2309.00564v1 ) ライセンス: Link先を確認 | Joachim Schaeffer, Eric Lenz, William C. Chueh, Martin Z. Bazant, Rolf Findeisen, Richard D. Braatz | (参考訳) 高次元線形回帰は多くの科学分野で重要である。
本稿では,化学系や生物系からしばしば得られるような,下層の滑らかな潜伏過程の離散的な測定データについて考察する。
高次元での解釈は、ヌル空間とその正規化形状との相互作用が回帰係数を表わすため困難である。
データのヌル空間は$\mathbf{Xw}=\mathbf{0}$を満たすすべての係数を含むため、全く異なる係数が同じ予測をすることができる。
物理工学の知識から得られた回帰係数と係数を比較し,係数差のどの部分がヌル空間に近いかを理解する最適化式を開発した。
このヌルスペース法は、合成例とリチウムイオン電池データで試験される。
ケーススタディでは、正規化とz-scoringは設計上の選択であり、もし事前の物理的知識に対応して選択された場合、解釈可能な回帰結果をもたらす。
そうでなければ、ヌル空間と正規化の組み合わせは解釈可能性を妨げるものであり、真の基底線型モデルが存在する場合、真の係数に近い回帰係数を得ることができない。
さらに, 融合ラッソのようなヌル空間に直交する係数を生成できない回帰法は, 解釈可能性を向上させることができることを示した。
結論として、nullspaceの視点から得られた洞察は、高次元データ上に回帰モデルを構築するためのインフォームドデザインの選択と、システムの最適化や科学的理解の改善に重要である潜在的な線形モデルについての推論に役立つ。 High-dimensional linear regression is important in many scientific fields. This article considers discrete measured data of underlying smooth latent processes, as is often obtained from chemical or biological systems. Interpretation in high dimensions is challenging because the nullspace and its interplay with regularization shapes regression coefficients. The data's nullspace contains all coefficients that satisfy $\mathbf{Xw}=\mathbf{0}$, thus allowing very different coefficients to yield identical predictions. We developed an optimization formulation to compare regression coefficients and coefficients obtained by physical engineering knowledge to understand which part of the coefficient differences are close to the nullspace. This nullspace method is tested on a synthetic example and lithium-ion battery data. The case studies show that regularization and z-scoring are design choices that, if chosen corresponding to prior physical knowledge, lead to interpretable regression results. Otherwise, the combination of the nullspace and regularization hinders interpretability and can make it impossible to obtain regression coefficients close to the true coefficients when there is a true underlying linear model. Furthermore, we demonstrate that regression methods that do not produce coefficients orthogonal to the nullspace, such as fused lasso, can improve interpretability. In conclusion, the insights gained from the nullspace perspective help to make informed design choices for building regression models on high-dimensional data and reasoning about potential underlying linear models, which are important for system optimization and improving scientific understanding. | 翻訳日:2023-09-04 13:02:54 公開日:2023-09-01 |
# 可変量子ニューラルネットワークによるエクササイズ学習と量子実例Oracle Exact Learning with Tunable Quantum Neural Networks and a Quantum Example Oracle ( http://arxiv.org/abs/2309.00561v1 ) ライセンス: Link先を確認 | Viet Pham Ngoc and Herbert Wiklicky | (参考訳) 本稿では,一様量子例 oracle へのアクセスにより,量子完全学習フレームワークにおける可変量子ニューラルネットワークアーキテクチャについて検討する。
本稿では,振幅増幅を用いてネットワークを目標概念に正しく調整する手法を提案する。
我々は、正の$k$-juntas のクラスにこのアプローチを適用し、$o(n^22^k)$ の量子例が十分であり、より強固な上限が可能であることを示す実験結果が得られた。 In this paper, we study the tunable quantum neural network architecture in the quantum exact learning framework with access to a uniform quantum example oracle. We present an approach that uses amplitude amplification to correctly tune the network to the target concept. We applied our approach to the class of positive $k$-juntas and found that $O(n^22^k)$ quantum examples are sufficient with experimental results seemingly showing that a tighter upper bound is possible. | 翻訳日:2023-09-04 13:01:52 公開日:2023-09-01 |
# バンドの対話型および集中型微分プライバシー Interactive and Concentrated Differential Privacy for Bandits ( http://arxiv.org/abs/2309.00557v1 ) ライセンス: Link先を確認 | Achraf Azize, Debabrota Basu | (参考訳) バンドはインタラクティブな学習スキームやモダンな推薦システムにおいて重要な役割を果たす。
しかし、これらのシステムはセンシティブなユーザーデータに依存することが多く、プライバシーが重要な問題となっている。
本稿では,対話型微分プライバシー(DP)のレンズを用いて,信頼度の高い意思決定者との盗聴者のプライバシーについて検討する。
純粋な$\epsilon$-global DPの下でのバンディットはよく研究されているが、ゼロ集中DP(zCDP)下でのバンディットの理解に寄与している。
有限武装および線形バンディットに対する後悔の最小値と問題依存の下限を提供し、これらの設定において$\rho$-global zCDP のコストを定量化する。
これらの下限は、プライバシー予算$\rho$に基づく2つの厳しい体制を明らかにし、$\rho$-global zCDPが純粋な$\epsilon$-global DPよりも後悔の少ないことを示唆している。
AdaC-UCBとAdaC-GOPEの2つのZCDP帯域幅アルゴリズムを,それぞれ有限武装および線形帯域幅に対して提案する。
どちらのアルゴリズムもガウス機構と適応エピソードの共通のレシピを使用している。
AdaC-UCBは問題依存的後悔を乗法定数まで下げる一方、AdaC-GOPEは最小最大後悔を多対数因子まで下げることを示すために、これらのアルゴリズムの後悔を分析する。
最後に, 異なる条件下での理論的結果の実験的検証を行う。 Bandits play a crucial role in interactive learning schemes and modern recommender systems. However, these systems often rely on sensitive user data, making privacy a critical concern. This paper investigates privacy in bandits with a trusted centralized decision-maker through the lens of interactive Differential Privacy (DP). While bandits under pure $\epsilon$-global DP have been well-studied, we contribute to the understanding of bandits under zero Concentrated DP (zCDP). We provide minimax and problem-dependent lower bounds on regret for finite-armed and linear bandits, which quantify the cost of $\rho$-global zCDP in these settings. These lower bounds reveal two hardness regimes based on the privacy budget $\rho$ and suggest that $\rho$-global zCDP incurs less regret than pure $\epsilon$-global DP. We propose two $\rho$-global zCDP bandit algorithms, AdaC-UCB and AdaC-GOPE, for finite-armed and linear bandits respectively. Both algorithms use a common recipe of Gaussian mechanism and adaptive episodes. We analyze the regret of these algorithms to show that AdaC-UCB achieves the problem-dependent regret lower bound up to multiplicative constants, while AdaC-GOPE achieves the minimax regret lower bound up to poly-logarithmic factors. Finally, we provide experimental validation of our theoretical results under different settings. | 翻訳日:2023-09-04 13:01:36 公開日:2023-09-01 |
# 単一ディープラーニング顔形態変化攻撃検出における画像コンテキストの影響 Impact of Image Context for Single Deep Learning Face Morphing Attack Detection ( http://arxiv.org/abs/2309.00549v1 ) ライセンス: Link先を確認 | Joana Pimenta, Iurii Medvedev, Nuno Gon\c{c}alves | (参考訳) 技術進歩によるセキュリティ上の懸念の高まりは、生理的・行動的特性を利用して認識を高めるバイオメトリックなアプローチの普及につながった。
顔認識システム(FRS)は普及しているが、顔形態攻撃などの画像操作技術には依然として脆弱である。
本研究では,入力画像のアライメント設定が深層学習顔形態検出性能に及ぼす影響について検討した。
顔輪郭と画像コンテキストの相互関係を解析し,顔形態検出のための最適アライメント条件を提案する。 The increase in security concerns due to technological advancements has led to the popularity of biometric approaches that utilize physiological or behavioral characteristics for enhanced recognition. Face recognition systems (FRSs) have become prevalent, but they are still vulnerable to image manipulation techniques such as face morphing attacks. This study investigates the impact of the alignment settings of input images on deep learning face morphing detection performance. We analyze the interconnections between the face contour and image context and suggest optimal alignment conditions for face morphing detection. | 翻訳日:2023-09-04 13:01:10 公開日:2023-09-01 |
# 医療における信頼に値するAIのための自然な敵対的データセットの算出 Curating Naturally Adversarial Datasets for Trustworthy AI in Healthcare ( http://arxiv.org/abs/2309.00543v1 ) ライセンス: Link先を確認 | Sydney Pugh, Ivan Ruchkin, Insup Lee, James Weimer | (参考訳) ディープラーニングモデルは、時系列医療アプリケーションに対して有望な予測精度を示している。
しかし、これらのモデルの堅牢性を保証することは、信頼できるAIシステムを構築する上で不可欠である。
既存の研究は主に、入力データに知覚不能な摂動を加えることによって作られた合成敵の例に対する堅牢性に焦点を当てている。
しかし、これらの合成敵対例は、特に医療データの文脈において、最も困難な現実のシナリオを正確に反映していない。
したがって、合成敵例に対するロバスト性は、必ずしも自然に生じる敵例に対するロバスト性に変換されるとは限らない。
本稿では,モデルロバスト性を評価するために,自然敵例からなるデータセットをキュレートする手法を提案する。
この手法は、ノイズと安価で観察可能なラベルヒューリスティックを組み合わせた、自動化された弱教師付きラベルから得られる確率的ラベルに依存する。
これらのラベルに基づいて、本手法は入力データを逆順に順序付けし、この順序付けを用いて、ますます敵対的なデータセットのシーケンスを構築する。
6例の症例と3例の非医学的ケーススタディについての評価を行い,本手法の有効性と統計的妥当性を実証した。 Deep learning models have shown promising predictive accuracy for time-series healthcare applications. However, ensuring the robustness of these models is vital for building trustworthy AI systems. Existing research predominantly focuses on robustness to synthetic adversarial examples, crafted by adding imperceptible perturbations to clean input data. However, these synthetic adversarial examples do not accurately reflect the most challenging real-world scenarios, especially in the context of healthcare data. Consequently, robustness to synthetic adversarial examples may not necessarily translate to robustness against naturally occurring adversarial examples, which is highly desirable for trustworthy AI. We propose a method to curate datasets comprised of natural adversarial examples to evaluate model robustness. The method relies on probabilistic labels obtained from automated weakly-supervised labeling that combines noisy and cheap-to-obtain labeling heuristics. Based on these labels, our method adversarially orders the input data and uses this ordering to construct a sequence of increasingly adversarial datasets. Our evaluation on six medical case studies and three non-medical case studies demonstrates the efficacy and statistical validity of our approach to generating naturally adversarial datasets | 翻訳日:2023-09-04 13:01:02 公開日:2023-09-01 |
# ランダム点場における共鳴分布の効果的な媒体アプローチ Effective medium approach of the resonance distribution in a random point field ( http://arxiv.org/abs/2309.00542v1 ) ライセンス: Link先を確認 | David Gaspard and Jean-Marc Sparenberg | (参考訳) 前報では、ランダム点場における量子粒子の多重散乱に関連する波動数 $k$ の複素平面における共鳴極の分布を数値的に発見した。
この分布は2つの異なる構造を示しており、波長が散乱間距離よりも大きい場合のピークのセットと、実軸にほぼ平行なバンドのセットは、より大きい$k$である。
本稿では, 波動輸送理論に基づく詳細な理論的研究を行い, これらの構造の起源を説明し, 複素k$平面におけるそれらの位置を予測した。
まず、この障害に対する平均波動関数に対する有効波動方程式を用いて、小さい$k$でのピークを理解することができることを示す。
すると、大きな$k$ のバンドは、図式法から導かれる波動関数の平方モジュラスに対するbethe-salpeter方程式によって記述できる。
本研究は数値シミュレーションとの比較により裏付けられる。
最大のシミュレーションでは、乱れた媒体の大部分に量子の傷が見つかった。 In a previous paper, the distribution of resonance poles in the complex plane of the wavenumber $k$ associated to the multiple scattering of a quantum particle in a random point field was numerically discovered. This distribution presented two distinctive structures: a set of peaks at small $k$ when the wavelength is larger than the interscatterer distance, and a band almost parallel to the real axis at larger $k$. In this paper, a detailed theoretical study based on wave transport theory is proposed to explain the origin of these structures and to predict their location in the complex $k$ plane. First, it is shown that the peaks at small $k$ can be understood using an effective wave equation for the average wave function over the disorder. Then, that the band at large $k$ can be described by the Bethe-Salpeter equation for the square modulus of the wavefunction, which is derived from the diagrammatic method. This study is supported by careful comparisons with numerical simulations. The largest simulations revealed the presence of quantum scars in the bulk of the disordered medium. | 翻訳日:2023-09-04 13:00:46 公開日:2023-09-01 |
# 相関レンズ画像の解像度限界解析のための周期パターン Periodic patterns for resolution limit characterization of correlation plenoptic imaging ( http://arxiv.org/abs/2309.00538v1 ) ライセンス: Link先を確認 | Francesco Scattarella, Gianlorenzo Massaro, Bohumil Stoklasa, Milena D'Angelo, Francesco V. Pepe | (参考訳) 光の時空間相関の測定は、空間分解能と被写界深度との強いトレードオフのような標準画像の伝統的な制限を克服するための興味深いツールを提供する。
特に相関プレンオプティクスイメージングを用いて、シーン内の光の空間分布と方向の両方を検出でき、場の解像度と深さの両方を波光学によって課される基本的な限界に押し上げることができる。
これにより、異なる軸面の再焦点と3次元再構成を空間走査なしで行うことができる。
本研究は, この2階画像技術の解像度特性について, 標準画像と比較して深い洞察を与える周期的テストパターンを考察し, 特定の相関レンズ画像方式の解像度限界について検討する。 The measurement of the spatio-temporal correlations of light provides an interesting tool to overcome the traditional limitations of standard imaging, such as the strong trade-off between spatial resolution and depth of field. In particular, using correlation plenoptic imaging, one can detect both the spatial distribution and the direction of light in a scene, pushing both resolution and depth of field to the fundamental limit imposed by wave-optics. This allows one to perform refocusing of different axial planes and three-dimensional reconstruction without any spatial scanning. In the present work, we investigate the resolution limit in a particular correlation plenoptic imaging scheme, by considering periodic test patterns, which provide, through analytical results, a deeper insight in the resolution properties of this second-order imaging technique, also in comparison with standard imaging. | 翻訳日:2023-09-04 13:00:30 公開日:2023-09-01 |
# 離散コサイン変換(DCT)に基づく適応関数近似 Adaptive function approximation based on the Discrete Cosine Transform (DCT) ( http://arxiv.org/abs/2309.00530v1 ) ライセンス: Link先を確認 | Ana I. P\'erez-Neira, Marc Martinez-Gost, Miguel \'Angel Lagunas | (参考訳) 本稿では,記憶のない単変量および連続関数の近似の基底関数としてのコサインについて検討する。
本研究では、離散コサイン変換(DCT)の代わりに、教師付き学習を用いて近似係数を求める。
余弦基底関数の有限ダイナミクスと直交性のため、正規化リースト平均正方形 (NLMS) のような単純な勾配アルゴリズムは、その利点を生かし、制御され予測可能な収束時間と誤り調整を示すことができる。
その単純さから,提案手法は学習品質と複雑性の両面で最良と評価され,より複雑な教師付き学習システムで使用される魅力的な手法として提示される。
シミュレーションはアプローチのパフォーマンスを示しています。
この論文は、1973年にNasir Ahmed氏によるDCT出版50周年を記念している。 This paper studies the cosine as basis function for the approximation of univariate and continuous functions without memory. This work studies a supervised learning to obtain the approximation coefficients, instead of using the Discrete Cosine Transform (DCT). Due to the finite dynamics and orthogonality of the cosine basis functions, simple gradient algorithms, such as the Normalized Least Mean Squares (NLMS), can benefit from it and present a controlled and predictable convergence time and error misadjustment. Due to its simplicity, the proposed technique ranks as the best in terms of learning quality versus complexity, and it is presented as an attractive technique to be used in more complex supervised learning systems. Simulations illustrate the performance of the approach. This paper celebrates the 50th anniversary of the publication of the DCT by Nasir Ahmed in 1973. | 翻訳日:2023-09-04 13:00:16 公開日:2023-09-01 |
# trust your good friends: reciprocal neighborhood clusteringによるソースフリードメイン適応 Trust your Good Friends: Source-free Domain Adaptation by Reciprocal Neighborhood Clustering ( http://arxiv.org/abs/2309.00528v1 ) ライセンス: Link先を確認 | Shiqi Yang, Yaxing Wang, Joost van de Weijer, Luis Herranz, Shangling Jui, Jian Yang | (参考訳) ドメイン適応(da)は、ソースドメインとターゲットドメインの間のドメインシフトを緩和することを目的としている。
ほとんどのdaメソッドはソースデータにアクセスする必要があるが、しばしばそれは不可能である(データプライバシや知的財産など)。
本稿では、ソースデータがない場合に、ソース事前学習したモデルを対象領域に適応させる問題である、ソースフリードメイン適応(sfda)問題に対処する。
提案手法は,ソースドメイン分類器と一致しない可能性のある対象データに対して,いまだに明快なクラスタを形成するという観測に基づく。
対象データの局所親和性を定義し,局所親和性の高いデータ間のラベル一貫性を促進することで,この本質的な構造を捉える。
我々は、高い親和性が相互隣人に割り当てられるべきであると考えている。
より多くのコンテキストで情報を集約するために、小さな親和性値を持つ拡張された地区を考える。
さらに, 対象試料の周囲の密度を考慮し, 電位外れ値の負の影響を緩和できることを示した。
実験の結果,対象特徴の固有構造がドメイン適応のための重要な情報源であることを検証した。
本研究では, この地域構造を, 地域住民, 相互隣人, 及び拡張近所を考慮し, 効率的に把握できることを実証する。
最後に,複数の2次元画像と3次元ポイントクラウド認識データセットに対して,最先端の性能を実現する。 Domain adaptation (DA) aims to alleviate the domain shift between source domain and target domain. Most DA methods require access to the source data, but often that is not possible (e.g. due to data privacy or intellectual property). In this paper, we address the challenging source-free domain adaptation (SFDA) problem, where the source pretrained model is adapted to the target domain in the absence of source data. Our method is based on the observation that target data, which might not align with the source domain classifier, still forms clear clusters. We capture this intrinsic structure by defining local affinity of the target data, and encourage label consistency among data with high local affinity. We observe that higher affinity should be assigned to reciprocal neighbors. To aggregate information with more context, we consider expanded neighborhoods with small affinity values. Furthermore, we consider the density around each target sample, which can alleviate the negative impact of potential outliers. In the experimental results we verify that the inherent structure of the target features is an important source of information for domain adaptation. We demonstrate that this local structure can be efficiently captured by considering the local neighbors, the reciprocal neighbors, and the expanded neighborhood. Finally, we achieve state-of-the-art performance on several 2D image and 3D point cloud recognition datasets. | 翻訳日:2023-09-04 13:00:01 公開日:2023-09-01 |
# sqldepth: 一般化可能な自己教師付き微細構造単眼深度推定 SQLdepth: Generalizable Self-Supervised Fine-Structured Monocular Depth Estimation ( http://arxiv.org/abs/2309.00526v1 ) ライセンス: Link先を確認 | Youhong Wang, Yunji Liang, Hao Xu, Shaohui Jiao, Hongkai Yu | (参考訳) 近年,自律運転やロボット工学において,自己教師付き単眼深度推定が盛んに行われている。
しかし、既存のソリューションは、視覚的特徴から深度を推定し、より詳細なシーンの詳細を限定的な一般化で再現するのに苦慮している。
本稿では,動きから微粒なシーン構造を効果的に学習できる新しい手法であるSQLdepthを紹介する。
SQLdepthでは、機能マップから深度を推定するのではなく、自己コストのボリュームを構築し、そこから深度を推定する新しいセルフクエリー層(SQL)を提案する。
自費ボリュームは、1つのフレーム内のシーンの固有の幾何学を暗黙的に捉えます。
体積の個々のスライスは、相対空間内の点と物体の間の相対距離を表す。
最終的に、この体積は新しい復号法によって深さマップに圧縮される。
KITTIとCityscapesの実験結果から,本手法は,KITTIでは0.082$,KITTIでは0.052$,Cityscapesでは0.106$,9.9\%,5.5\%,4.5\%の誤差低減を実現していることがわかった。
さらに,学習複雑性の低減,計算効率の向上,一般化の向上,細粒度シーン詳細の復元機能を示す。
さらに、自己教師付き事前学習とメトリック微調整sqldepthは、既存の教師付きメソッドをかなりのマージンで越えることができる(absrel = $0.043$, $114\%$ error reduction)。
SQLにおける自己マッチング指向の相対的距離クエリは、SQLdepthの堅牢性とゼロショットの一般化能力を改善する。
コードとトレーニング済みのウェイトは公開されます。
コードは \href{https://github.com/hisfog/sqldepth-impl}{https://github.com/hisfog/sqldepth-impl} で入手できる。 Recently, self-supervised monocular depth estimation has gained popularity with numerous applications in autonomous driving and robotics. However, existing solutions primarily seek to estimate depth from immediate visual features, and struggle to recover fine-grained scene details with limited generalization. In this paper, we introduce SQLdepth, a novel approach that can effectively learn fine-grained scene structures from motion. In SQLdepth, we propose a novel Self Query Layer (SQL) to build a self-cost volume and infer depth from it, rather than inferring depth from feature maps. The self-cost volume implicitly captures the intrinsic geometry of the scene within a single frame. Each individual slice of the volume signifies the relative distances between points and objects within a latent space. Ultimately, this volume is compressed to the depth map via a novel decoding approach. Experimental results on KITTI and Cityscapes show that our method attains remarkable state-of-the-art performance (AbsRel = $0.082$ on KITTI, $0.052$ on KITTI with improved ground-truth and $0.106$ on Cityscapes), achieves $9.9\%$, $5.5\%$ and $4.5\%$ error reduction from the previous best. In addition, our approach showcases reduced training complexity, computational efficiency, improved generalization, and the ability to recover fine-grained scene details. Moreover, the self-supervised pre-trained and metric fine-tuned SQLdepth can surpass existing supervised methods by significant margins (AbsRel = $0.043$, $14\%$ error reduction). self-matching-oriented relative distance querying in SQL improves the robustness and zero-shot generalization capability of SQLdepth. Code and the pre-trained weights will be publicly available. Code is available at \href{https://github.com/hisfog/SQLdepth-Impl}{https://github.com/hisfog/SQLdepth-Impl}. | 翻訳日:2023-09-04 12:59:39 公開日:2023-09-01 |
# 量子認知モデリング:新しい応用とシステム研究の方向性 Quantum Cognitive Modeling: New Applications and Systems Research Directions ( http://arxiv.org/abs/2309.00597v1 ) ライセンス: Link先を確認 | Raghavendra Pradyumna Pothukuchi, Leon Lufkin, Yu Jun Shen, Alejandro Simon, Rome Thorstenson, Bernardo Eilert Trevisan, Michael Tu, Mudi Yang, Ben Foxman, Viswanatha Srinivas Pothukuchi, Gunnar Epping, Bryant J Jongkees, Thi Ha Kyaw, Jerome R Busemeyer, Jonathan D Cohen, Abhishek Bhattacharjee | (参考訳) 量子コンピューティングの利点を新しい領域に拡張することは、依然として困難な課題である。
量子アプリケーションはわずか数個のドメインに集中しており、量子スタックは、新しいアプリケーションの開発や実行の要求をサポートするために制限されている。
本稿では、新しいアプリケーションドメインと量子スタックを形成する新しい方向の両方を特定することで、この問題に対処します。
量子応用の新しいクラスとして計算認知モデルを導入する。
このようなモデルは人間の知性を理解し、複製するのに不可欠であり、我々の研究は量子コンピューティングとそれらを初めて結びつける。
次に、これらのアプリケーションを分析し、プログラマビリティと性能向上のために量子スタックを再設計する。
我々はゲートベースの量子コンピュータとアニーリングベースの量子コンピュータのデータを用いて、量子クラウドスケジューリングの2つの簡単なアイデアを研究する。
各システムにおいて、これらのアイデアは並列実行を可能にし、スループットを向上させることができる。
我々の研究は、量子コンピューティングが科学と社会に与える影響を拡大できる汎用量子システムの実現への貢献である。 Expanding the benefits of quantum computing to new domains remains a challenging task. Quantum applications are concentrated in only a few domains, and driven by these few, the quantum stack is limited in supporting the development or execution demands of new applications. In this work, we address this problem by identifying both a new application domain, and new directions to shape the quantum stack. We introduce computational cognitive models as a new class of quantum applications. Such models have been crucial in understanding and replicating human intelligence, and our work connects them with quantum computing for the first time. Next, we analyze these applications to make the case for redesigning the quantum stack for programmability and better performance. Among the research opportunities we uncover, we study two simple ideas of quantum cloud scheduling using data from gate-based and annealing-based quantum computers. On the respective systems, these ideas can enable parallel execution, and improve throughput. Our work is a contribution towards realizing versatile quantum systems that can broaden the impact of quantum computing on science and society. | 翻訳日:2023-09-04 12:51:39 公開日:2023-09-01 |
# 都市生活の時系列分析 Time Series Analysis of Urban Liveability ( http://arxiv.org/abs/2309.00594v1 ) ライセンス: Link先を確認 | Alex Levering, Diego Marcos, Devis Tuia | (参考訳) 本稿では,オランダの都市近郊における縦断的生活性変化をモニタリングする深層学習モデルについて検討する。
生活可能性基準データは、生活可能性スコア(Leefbaarometer)と組み合わせた指標に基づいて、国別年次調査によって定義される。
この参照データを年次高解像度空中画像と組み合わせることで、生鮮度を監視できる年次タイムステップを生成する。
我々は、2016年からの航空画像とleefbaarometerスコアで訓練された畳み込みニューラルネットワークを展開し、2012年と2020年の新たなタイムステップで生存性を予測する。
トレーニングに使用される都市(アムスターダム)とトレーニング中に見たことのない都市(アインシュタイン)は、特に異なる時間ステップでの画像取得の違いを考慮して、解釈が難しいいくつかの傾向を示す。
これは、期間にわたる生存率モニタリングの複雑さと、生存率のダイナミクスとは無関係な変更を補償するより洗練された方法の必要性を示している。 In this paper we explore deep learning models to monitor longitudinal liveability changes in Dutch cities at the neighbourhood level. Our liveability reference data is defined by a country-wise yearly survey based on a set of indicators combined into a liveability score, the Leefbaarometer. We pair this reference data with yearly-available high-resolution aerial images, which creates yearly timesteps at which liveability can be monitored. We deploy a convolutional neural network trained on an aerial image from 2016 and the Leefbaarometer score to predict liveability at new timesteps 2012 and 2020. The results in a city used for training (Amsterdam) and one never seen during training (Eindhoven) show some trends which are difficult to interpret, especially in light of the differences in image acquisitions at the different time steps. This demonstrates the complexity of liveability monitoring across time periods and the necessity for more sophisticated methods compensating for changes unrelated to liveability dynamics. | 翻訳日:2023-09-04 12:51:24 公開日:2023-09-01 |
# 高速かつレグレトな最適アーム同定法:基本極限と低複雑さアルゴリズム Fast and Regret Optimal Best Arm Identification: Fundamental Limits and Low-Complexity Algorithms ( http://arxiv.org/abs/2309.00591v1 ) ライセンス: Link先を確認 | Qining Zhang, Lei Ying | (参考訳) 本稿では,2つの目的を持つ確率的マルチアームバンディット(MAB)問題について考察する。
(i)最適腕に対する迅速な識別及びコミットメント、及び
(ii)連続ラウンドの連続で最大報酬を最大化すること。
それぞれの目的が個別によく研究されている、すなわち、最良の腕の識別である。
(i)及び後悔の最小化
(ii) 実用的重要性にもかかわらず, 両目的の同時実現は未解決の問題である。
本稿では,これら2つの目的を達成することを目的とした,emph{Regret Optimal Best Arm Identification} (ROBAI)を紹介する。
事前決定された停止時間と適応停止時間の両方の条件でroboaiを解くために、それぞれ$\mathsf{eocp}$アルゴリズムとその変種を示し、ガウスおよび一般のバンディットにおいて漸近的最適後悔を達成するだけでなく、事前決定された停止時間を持つ$\mathcal{o}(\log t)$ラウンドと適応停止時間で$\mathcal{o}(\log^2 t)$ラウンドの最適アームにコミットする。
さらに,robaiのコミットメント時間(サンプル複雑性に相当)に対する下限を特徴付け,$\mathsf{eocp}$とその変種が予め決定された停止時間に最適であり,適応停止時間にほぼ最適であることを示す。
数値計算の結果から、従来の$\mathsf{ucb}$ アルゴリズムが持つ興味深い ``over-exploration'' 現象が明らかになる。$\mathsf{eocp}$ は、$\mathsf{ucb}$ (\mathcal{o}(\log t)$ と$\mathcal{o}(t)$) よりもずっと早い探索を停止したにもかかわらず、より少ない後悔しか持たない。 This paper considers a stochastic multi-armed bandit (MAB) problem with dual objectives: (i) quick identification and commitment to the optimal arm, and (ii) reward maximization throughout a sequence of $T$ consecutive rounds. Though each objective has been individually well-studied, i.e., best arm identification for (i) and regret minimization for (ii), the simultaneous realization of both objectives remains an open problem, despite its practical importance. This paper introduces \emph{Regret Optimal Best Arm Identification} (ROBAI) which aims to achieve these dual objectives. To solve ROBAI with both pre-determined stopping time and adaptive stopping time requirements, we present the $\mathsf{EOCP}$ algorithm and its variants respectively, which not only achieve asymptotic optimal regret in both Gaussian and general bandits, but also commit to the optimal arm in $\mathcal{O}(\log T)$ rounds with pre-determined stopping time and $\mathcal{O}(\log^2 T)$ rounds with adaptive stopping time. We further characterize lower bounds on the commitment time (equivalent to sample complexity) of ROBAI, showing that $\mathsf{EOCP}$ and its variants are sample optimal with pre-determined stopping time, and almost sample optimal with adaptive stopping time. Numerical results confirm our theoretical analysis and reveal an interesting ``over-exploration'' phenomenon carried by classic $\mathsf{UCB}$ algorithms, such that $\mathsf{EOCP}$ has smaller regret even though it stops exploration much earlier than $\mathsf{UCB}$ ($\mathcal{O}(\log T)$ versus $\mathcal{O}(T)$), which suggests over-exploration is unnecessary and potentially harmful to system performance. | 翻訳日:2023-09-04 12:51:09 公開日:2023-09-01 |
# 離散形態的ニューラルネットワーク Discrete Morphological Neural Networks ( http://arxiv.org/abs/2309.00588v1 ) ライセンス: Link先を確認 | Diego Marcondes and Junior Barrera | (参考訳) 二元像作用素を設計する古典的なアプローチは数学的形態学(mm)である。
本稿では,二元画像解析のための離散形態ニューラルネットワーク(DMNN)を提案し,W-演算子を表現し,機械学習を用いて推定する。
dmnnアーキテクチャは形態素計算グラフで表現され、形態素演算子の古典的なヒューリスティックな設計と同様に設計されており、設計者は事前情報と理論知識に基づいてmm演算子とブール演算のセットを組み合わせる必要がある。
そして,アーキテクチャが修正されると,パラメータ(構造要素や最大間隔など)を手動で調整する代わりに,通常の機械学習手法による入力画像と出力画像のサンプルに基づいて,これらのパラメータをトレーニングする格子勾配勾配勾配アルゴリズム(LGDA)を提案する。
また,より効率的でスケーラブルなlgdaの確率的バージョンを提案する。
dmnnで表されるクラスは、対象演算子の期待する特性、すなわち事前情報、すなわち演算子のクラスの代数的性質によって表される意味論により、かなり一般的あるいは特殊化することができる。
本論文の主な貢献は,古典的ヒューリスティック設計と機械学習による自動設計という,形態的演算子設計の2つのパラダイムの融合である。
したがって、古典的ヒューリスティックな形態的演算子設計と機械学習を融合させる。
我々は、DMNNを用いて、ノイズのある桁の境界を認識し、将来の研究について多くの話題を論じる。 A classical approach to designing binary image operators is Mathematical Morphology (MM). We propose the Discrete Morphological Neural Networks (DMNN) for binary image analysis to represent W-operators and estimate them via machine learning. A DMNN architecture, which is represented by a Morphological Computational Graph, is designed as in the classical heuristic design of morphological operators, in which the designer should combine a set of MM operators and Boolean operations based on prior information and theoretical knowledge. Then, once the architecture is fixed, instead of adjusting its parameters (i.e., structural elements or maximal intervals) by hand, we propose a lattice gradient descent algorithm (LGDA) to train these parameters based on a sample of input and output images under the usual machine learning approach. We also propose a stochastic version of the LGDA that is more efficient, is scalable and can obtain small error in practical problems. The class represented by a DMNN can be quite general or specialized according to expected properties of the target operator, i.e., prior information, and the semantic expressed by algebraic properties of classes of operators is a differential relative to other methods. The main contribution of this paper is the merger of the two main paradigms for designing morphological operators: classical heuristic design and automatic design via machine learning. Thus, conciliating classical heuristic morphological operator design with machine learning. We apply the DMNN to recognize the boundary of digits with noise, and we discuss many topics for future research. | 翻訳日:2023-09-04 12:50:26 公開日:2023-09-01 |
# PolyGET: 変圧器を用いた精密および一般化力場による高分子シミュレーションの高速化 PolyGET: Accelerating Polymer Simulations by Accurate and Generalizable Forcefield with Equivariant Transformer ( http://arxiv.org/abs/2309.00585v1 ) ライセンス: Link先を確認 | Rui Feng, Huan Tran, Aubrey Toland, Binghong Chen, Qi Zhu, Rampi Ramprasad, Chao Zhang | (参考訳) 精度と効率の両立した高分子シミュレーションは難しい課題である。
ab initio法の精度と経験的力場の効率の両方を達成するために、機械学習(ml)力場が開発されている。
しかし、既存のML力場は通常シングル分子設定に限られており、シミュレーションは十分に堅牢ではない。
本稿では,ポリゲット(ポリゲット)について述べる。ポリゲット(ポリゲット)は,等変圧器を一般化した高分子力場のための新しいフレームワークである。
PolyGETは、Equivariant Transformerと呼ばれるディープラーニングモデルを用いて、原子間の複雑な量子相互作用をキャプチャし、様々なポリマーファミリーを一般化するように設計されている。
我々は,力とエネルギーを協調的に最適化する既存の手法とは異なる,力の最適化に特化した新しい訓練パラダイムを提案する。
この単純な力中心目的関数は、エネルギーと力の競合する目的を避けるため、異なるポリマーファミリー上で統一された力場mlモデルを学ぶことができる。
ポリゲットを24種類の異なるポリマーの大規模データセット上で評価し, 力の精度とロバストなmdシミュレーションにおいて最先端の性能を示した。
さらに、PolyGETは、参照ab initio DFT法に高い忠実度で大きなポリマーをシミュレートできると同時に、目に見えないポリマーに一般化することができる。 Polymer simulation with both accuracy and efficiency is a challenging task. Machine learning (ML) forcefields have been developed to achieve both the accuracy of ab initio methods and the efficiency of empirical force fields. However, existing ML force fields are usually limited to single-molecule settings, and their simulations are not robust enough. In this paper, we present PolyGET, a new framework for Polymer Forcefields with Generalizable Equivariant Transformers. PolyGET is designed to capture complex quantum interactions between atoms and generalize across various polymer families, using a deep learning model called Equivariant Transformers. We propose a new training paradigm that focuses exclusively on optimizing forces, which is different from existing methods that jointly optimize forces and energy. This simple force-centric objective function avoids competing objectives between energy and forces, thereby allowing for learning a unified forcefield ML model over different polymer families. We evaluated PolyGET on a large-scale dataset of 24 distinct polymer types and demonstrated state-of-the-art performance in force accuracy and robust MD simulations. Furthermore, PolyGET can simulate large polymers with high fidelity to the reference ab initio DFT method while being able to generalize to unseen polymers. | 翻訳日:2023-09-04 12:50:00 公開日:2023-09-01 |
# laminar: セマンティックコード検索とコード補完を備えた、新しいサーバレスストリームベースのフレームワーク Laminar: A New Serverless Stream-based Framework with Semantic Code Search and Code Completion ( http://arxiv.org/abs/2309.00584v1 ) ライセンス: Link先を確認 | Zaynab Zahra, Zihao Li, Rosa Filgueira | (参考訳) 本稿では、並列ストリームベースのデータフローライブラリであるdispel4pyに基づく、新しいサーバレスフレームワークであるLaminarを紹介する。
laminarは専用のレジストリを通じてストリーミングワークフローとコンポーネントを効率的に管理し、シームレスなサーバレスエクスペリエンスを提供する。
大規模な言語モデルを活用することで、Laminarはセマンティックコード検索、コードの要約、コード補完によってフレームワークを強化する。
この貢献は、ストリーミング計算の実行を単純化し、データストリームをより効率的に管理し、研究者と実践者の両方に価値のあるツールを提供することによって、サーバレスコンピューティングを強化する。 This paper introduces Laminar, a novel serverless framework based on dispel4py, a parallel stream-based dataflow library. Laminar efficiently manages streaming workflows and components through a dedicated registry, offering a seamless serverless experience. Leveraging large lenguage models, Laminar enhances the framework with semantic code search, code summarization, and code completion. This contribution enhances serverless computing by simplifying the execution of streaming computations, managing data streams more efficiently, and offering a valuable tool for both researchers and practitioners. | 翻訳日:2023-09-04 12:49:37 公開日:2023-09-01 |
# 大規模3次元PDEのための幾何インフォームドニューラル演算子 Geometry-Informed Neural Operator for Large-Scale 3D PDEs ( http://arxiv.org/abs/2309.00583v1 ) ライセンス: Link先を確認 | Zongyi Li, Nikola Borislavov Kovachki, Chris Choy, Boyi Li, Jean Kossaifi, Shourya Prakash Otta, Mohammad Amin Nabian, Maximilian Stadler, Christian Hundt, Kamyar Azizzadenesheli, Anima Anandkumar | (参考訳) 本稿では,ジオメトリの異なる大規模偏微分方程式の解作用素を学習するための高効率な手法であるgeometry-informed neural operator (gino)を提案する。
GINOは、入力形状の符号付き距離関数と、グラフとフーリエアーキテクチャに基づくニューラル演算子を使用して、ソリューション演算子を学習する。
グラフニューラル演算子は不規則な格子を処理し、それをフーリエニューラル演算子を効率的に適用できる通常の潜在格子に変換する。
GINOは離散化収束であり、訓練されたモデルは連続領域の任意の離散化に適用でき、離散化が洗練されるにつれて連続作用素に収束する。
本手法の性能を大規模シミュレーションで実証的に検証するため,レイノルズ数500万の3次元車両ジオメトリーの業界標準空力データセットを作成した。
この大規模3次元流体シミュレーションでは, 数値計算法は表面圧力を計算するのに高価である。
自動車表面の圧力を500データポイントのみを用いて予測する手法をginoに導入した。
コスト精度実験では、ドラッグ係数の計算に最適化されたGPUベースの計算流体力学(CFD)シミュレータと比較すると、26,000ドル以上のスピードアップが示されている。
ジオメトリと境界条件(入口速度)の新たな組み合わせをテストすると、GINOはディープニューラルネットワークアプローチと比較してエラー率を1/4削減する。 We propose the geometry-informed neural operator (GINO), a highly efficient approach to learning the solution operator of large-scale partial differential equations with varying geometries. GINO uses a signed distance function and point-cloud representations of the input shape and neural operators based on graph and Fourier architectures to learn the solution operator. The graph neural operator handles irregular grids and transforms them into and from regular latent grids on which Fourier neural operator can be efficiently applied. GINO is discretization-convergent, meaning the trained model can be applied to arbitrary discretization of the continuous domain and it converges to the continuum operator as the discretization is refined. To empirically validate the performance of our method on large-scale simulation, we generate the industry-standard aerodynamics dataset of 3D vehicle geometries with Reynolds numbers as high as five million. For this large-scale 3D fluid simulation, numerical methods are expensive to compute surface pressure. We successfully trained GINO to predict the pressure on car surfaces using only five hundred data points. The cost-accuracy experiments show a $26,000 \times$ speed-up compared to optimized GPU-based computational fluid dynamics (CFD) simulators on computing the drag coefficient. When tested on new combinations of geometries and boundary conditions (inlet velocities), GINO obtains a one-fourth reduction in error rate compared to deep neural network approaches. | 翻訳日:2023-09-04 12:49:27 公開日:2023-09-01 |
# 摂動下におけるロイドアルゴリズムの整合性 Consistency of Lloyd's Algorithm Under Perturbations ( http://arxiv.org/abs/2309.00578v1 ) ライセンス: Link先を確認 | Dhruv Patel and Hui Shen and Shankar Bhamidi and Yufeng Liu and Vladas Pipiras | (参考訳) 教師なし学習の文脈では、ロイドのアルゴリズムは最も広く使われているクラスタリングアルゴリズムの1つである。
これは、基底真理クラスタを用いた様々な設定下でのアルゴリズムの正確性を調査する多くの研究に影響を与えている。
特に2016年、Lu と Zhou は、亜ガウス混合からの$n$独立サンプルに対するロイドのアルゴリズムの誤クラスタリング速度は、アルゴリズムの適切な初期化を仮定して$O(\log(n))$反復の後に指数関数的に有界であることを示した。
しかし、多くのアプリケーションでは、真のサンプルは観測されず、適切なデータ行列上のスペクトルメソッドのような前処理パイプラインを通じてデータから学習する必要がある。
準ガウス混合の摂動サンプルに対するロイドのアルゴリズムの誤クラスタリング速度は、適切な初期化の仮定の下での$O(\log(n))$繰り返しの後に指数関数的に有界であり、その摂動は準ガウス雑音と比較して小さいことを示す。
地上の真理クラスタを持つ標準設定では、$k$-means$++$のようなアルゴリズムのバウンダリを導出し、優れた初期化を見つけ、その結果、クラスタリングの正しさにつながる。
sigclustのようなデータから派生したクラスタの統計学的意義を計測するパイプラインにおいて,結果の意義を示す。
これらの一般的な結果を用いて、スペクトルクラスタリングによるスパースネットワークの高次元時系列、多次元スケーリング、コミュニティ検出などを含む一連のアプリケーションにおいて、ロイズアルゴリズムの誤クラスタリング率に関する理論的保証を提供する。 In the context of unsupervised learning, Lloyd's algorithm is one of the most widely used clustering algorithms. It has inspired a plethora of work investigating the correctness of the algorithm under various settings with ground truth clusters. In particular, in 2016, Lu and Zhou have shown that the mis-clustering rate of Lloyd's algorithm on $n$ independent samples from a sub-Gaussian mixture is exponentially bounded after $O(\log(n))$ iterations, assuming proper initialization of the algorithm. However, in many applications, the true samples are unobserved and need to be learned from the data via pre-processing pipelines such as spectral methods on appropriate data matrices. We show that the mis-clustering rate of Lloyd's algorithm on perturbed samples from a sub-Gaussian mixture is also exponentially bounded after $O(\log(n))$ iterations under the assumptions of proper initialization and that the perturbation is small relative to the sub-Gaussian noise. In canonical settings with ground truth clusters, we derive bounds for algorithms such as $k$-means$++$ to find good initializations and thus leading to the correctness of clustering via the main result. We show the implications of the results for pipelines measuring the statistical significance of derived clusters from data such as SigClust. We use these general results to derive implications in providing theoretical guarantees on the misclustering rate for Lloyd's algorithm in a host of applications, including high-dimensional time series, multi-dimensional scaling, and community detection for sparse networks via spectral clustering. | 翻訳日:2023-09-04 12:49:03 公開日:2023-09-01 |
# 畳み込みニューラルネットワークにおける特徴学習のメカニズム Mechanism of feature learning in convolutional neural networks ( http://arxiv.org/abs/2309.00570v1 ) ライセンス: Link先を確認 | Daniel Beaglehole, Adityanarayanan Radhakrishnan, Parthe Pandit, Mikhail Belkin | (参考訳) 畳み込みニューラルネットワークが画像データから特徴をどのように学習するかを理解することは、機械学習とコンピュータビジョンの基本的な問題である。
本研究では,そのようなメカニズムを同定する。
我々は、任意の畳み込み層におけるフィルタの共分散が、その層への入力のパッチに対して取られる平均勾配外積(agop)に比例する、畳み込み神経特徴 ansatz を仮定する。
我々は,imagenetで事前学習したalexnet,vgg,resnetといった標準ニューラルネットワークの畳み込み層に対して,フィルタの共分散とパッチベースのアゴップとの相関度が高いことなど,ansatzの広範な実証的証拠を示す。
理論的な証拠も提供します
次に,畳み込み型カーネルマシンにおける深い機能学習を可能にするパッチベースの agop を用いて,結果の汎用性を示す。
得られたアルゴリズムを(Deep) ConvRFMと呼び、エッジ検出器の顕著な出現を含む深層畳み込みネットワークに類似した特徴を回復することを示す。
さらに,deep convrfmは,画像内の局所信号に適応できないなど,従来認識されていた畳み込みカーネルの制限を克服し,その結果,固定畳み込みカーネルに対する大幅な性能向上をもたらすことを見出した。 Understanding the mechanism of how convolutional neural networks learn features from image data is a fundamental problem in machine learning and computer vision. In this work, we identify such a mechanism. We posit the Convolutional Neural Feature Ansatz, which states that covariances of filters in any convolutional layer are proportional to the average gradient outer product (AGOP) taken with respect to patches of the input to that layer. We present extensive empirical evidence for our ansatz, including identifying high correlation between covariances of filters and patch-based AGOPs for convolutional layers in standard neural architectures, such as AlexNet, VGG, and ResNets pre-trained on ImageNet. We also provide supporting theoretical evidence. We then demonstrate the generality of our result by using the patch-based AGOP to enable deep feature learning in convolutional kernel machines. We refer to the resulting algorithm as (Deep) ConvRFM and show that our algorithm recovers similar features to deep convolutional networks including the notable emergence of edge detectors. Moreover, we find that Deep ConvRFM overcomes previously identified limitations of convolutional kernels, such as their inability to adapt to local signals in images and, as a result, leads to sizable performance improvement over fixed convolutional kernels. | 翻訳日:2023-09-04 12:48:28 公開日:2023-09-01 |
# 構造MRIからのアミロイド-β軸面PET合成 : アルツハイマー病スクリーニングのための画像翻訳アプローチ Amyloid-Beta Axial Plane PET Synthesis from Structural MRI: An Image Translation Approach for Screening Alzheimer's Disease ( http://arxiv.org/abs/2309.00569v1 ) ライセンス: Link先を確認 | Fernando Vega, Abdoljalil Addeh, M. Ethan MacDonald | (参考訳) 本研究では,構造MRIから合成アミロイドベータPET画像を生成するための画像翻訳モデルを構築した。
アミロイド-ベータPETと構造MRIの画像ペアを用いてモデルを訓練した。
その結果, 合成PET画像は, 形状, コントラスト, 全体的なSSIMおよびPSNRにおいて, 真実と高い類似性で生成できることが判明した。
本研究は,MRIのみからのアミロイドベータ情報へのアクセスを可能にするため,構造的かつ定量的な画像翻訳が可能であることを示す。 In this work, an image translation model is implemented to produce synthetic amyloid-beta PET images from structural MRI that are quantitatively accurate. Image pairs of amyloid-beta PET and structural MRI were used to train the model. We found that the synthetic PET images could be produced with a high degree of similarity to truth in terms of shape, contrast and overall high SSIM and PSNR. This work demonstrates that performing structural to quantitative image translation is feasible to enable the access amyloid-beta information from only MRI. | 翻訳日:2023-09-04 12:48:05 公開日:2023-09-01 |
# openins3d: 3d open-vocabulary instance segmentationのスナップとルックアップ OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation ( http://arxiv.org/abs/2309.00616v1 ) ライセンス: Link先を確認 | Zhening Huang, Xiaoyang Wu, Xi Chen, Hengshuang Zhao, Lei Zhu, Joan Lasenby | (参考訳) 現在の3次元オープンボキャブラリシーン理解手法は,3次元特徴を言語で学習するためのブリッジとして,よく整列した2次元画像を利用する。
しかし,2次元画像が欠落するシナリオでは,これらの手法の適用が困難になる。
本研究では,2次元画像入力を必要としないOpenIns3Dという全く新しいパイプラインを導入し,インスタンスレベルでの3次元オープン語彙シーン理解を実現する。
OpenIns3Dフレームワークは"Mask-Snap-Lookup"スキームを採用している。
mask"モジュールは、クラスに依存しないマスク提案を3dポイントクラウドで学習する。
Snap"モジュールは複数のスケールで合成シーンレベルの画像を生成し、2次元視覚言語モデルを利用して興味深いオブジェクトを抽出する。
ルックアップ」モジュールは、3dマスクと合成画像の正確な対応を含む「マスク2ピクセルマップ」の助けを借りて「スナップ」の結果を検索し、提案されたマスクにカテゴリ名を割り当てる。
この2Dインプットフリーで、訓練が容易で柔軟なアプローチは、広い範囲の屋内および屋外のデータセットに対して最先端の結果を得た。
さらにOpenIns3Dは、2D検出器を再訓練せずに簡単に切り替えることができる。
ODISE や GroundingDINO のような最先端の2次元オープンワールドモデルと統合すると、オープンボキャブラリのインスタンスセグメンテーションにおいてスーパーブな結果が観察される。
LLMで動くLISAのような2Dモデルと統合すると、複雑な推論や世界的知識を必要とするものを含む、非常に複雑なテキストクエリを処理する能力を示す。
コードとモデルは公開される予定だ。 Current 3D open-vocabulary scene understanding methods mostly utilize well-aligned 2D images as the bridge to learn 3D features with language. However, applying these approaches becomes challenging in scenarios where 2D images are absent. In this work, we introduce a completely new pipeline, namely, OpenIns3D, which requires no 2D image inputs, for 3D open-vocabulary scene understanding at the instance level. The OpenIns3D framework employs a "Mask-Snap-Lookup" scheme. The "Mask" module learns class-agnostic mask proposals in 3D point clouds. The "Snap" module generates synthetic scene-level images at multiple scales and leverages 2D vision language models to extract interesting objects. The "Lookup" module searches through the outcomes of "Snap" with the help of Mask2Pixel maps, which contain the precise correspondence between 3D masks and synthetic images, to assign category names to the proposed masks. This 2D input-free, easy-to-train, and flexible approach achieved state-of-the-art results on a wide range of indoor and outdoor datasets with a large margin. Furthermore, OpenIns3D allows for effortless switching of 2D detectors without re-training. When integrated with state-of-the-art 2D open-world models such as ODISE and GroundingDINO, superb results are observed on open-vocabulary instance segmentation. When integrated with LLM-powered 2D models like LISA, it demonstrates a remarkable capacity to process highly complex text queries, including those that require intricate reasoning and world knowledge. The code and model will be made publicly available. | 翻訳日:2023-09-04 12:42:15 公開日:2023-09-01 |
# Point-Bind & Point-LLM:3次元理解・生成・指導のためのマルチモーダリティ付きポイントクラウドのアライメント Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following ( http://arxiv.org/abs/2309.00615v1 ) ライセンス: Link先を確認 | Ziyu Guo, Renrui Zhang, Xiangyang Zhu, Yiwen Tang, Xianzheng Ma, Jiaming Han, Kexin Chen, Peng Gao, Xianzhi Li, Hongsheng Li, Pheng-Ann Heng | (参考訳) ポイントクラウドを2次元画像,言語,音声,ビデオと整合させる3次元マルチモーダリティモデルであるPoint-Bindを紹介する。
ImageBindによってガイドされ、我々は3Dとマルチモダリティのジョイント埋め込み空間を構築し、任意の3D生成、3D埋め込み算術、3Dオープンワールド理解など多くの有望なアプリケーションを可能にする。
さらに,3次元マルチモーダル命令に従って,最初の3次元大規模言語モデル(LLM)であるPoint-LLMを提案する。
パラメータ効率の良い微調整技術により、Point-LLMは3Dの命令データを必要としないが、より優れた3Dおよびマルチモーダルな質問応答能力を持つ、事前訓練されたLLM(例えばLLaMA)にPoint-Bindのセマンティクスを注入する。
私たちは、3Dポイントクラウドをマルチモダリティアプリケーションに拡張するコミュニティに光を当てることを願っています。
コードはhttps://github.com/ziyuguo99/point-bind_point-llmで入手できる。 We introduce Point-Bind, a 3D multi-modality model aligning point clouds with 2D image, language, audio, and video. Guided by ImageBind, we construct a joint embedding space between 3D and multi-modalities, enabling many promising applications, e.g., any-to-3D generation, 3D embedding arithmetic, and 3D open-world understanding. On top of this, we further present Point-LLM, the first 3D large language model (LLM) following 3D multi-modal instructions. By parameter-efficient fine-tuning techniques, Point-LLM injects the semantics of Point-Bind into pre-trained LLMs, e.g., LLaMA, which requires no 3D instruction data, but exhibits superior 3D and multi-modal question-answering capacity. We hope our work may cast a light on the community for extending 3D point clouds to multi-modality applications. Code is available at https://github.com/ZiyuGuo99/Point-Bind_Point-LLM. | 翻訳日:2023-09-04 12:41:48 公開日:2023-09-01 |
# 言語モデルに対する敵対的攻撃に対するベースライン防御 Baseline Defenses for Adversarial Attacks Against Aligned Language Models ( http://arxiv.org/abs/2309.00614v1 ) ライセンス: Link先を確認 | Neel Jain, Avi Schwarzschild, Yuxin Wen, Gowthami Somepalli, John Kirchenbauer, Ping-yeh Chiang, Micah Goldblum, Aniruddha Saha, Jonas Geiping, Tom Goldstein | (参考訳) 大きな言語モデルが急速に普及するにつれて、そのセキュリティ脆弱性を理解することが不可欠である。
最近の研究では、テキストオプティマイザがモデレーションとアライメントをバイパスするジェイルブレイクプロンプトを生成できることが示されている。
敵対的機械学習に関する豊富な仕事から、私たちは3つの質問でこれらの攻撃にアプローチする。
この新しいドメインでは、ベースライン防御技術はどのように機能するのか?
LLMのセキュリティはコンピュータビジョンとどう違うのか?
我々は,LLMに対する先進的な攻撃に対する基本的防御戦略を評価し,それぞれが実現可能かつ効果的である様々な設定について議論した。
特に,検出(複雑度ベース),入力前処理(paraphraseとretokenization),逆行訓練の3種類の防御について考察した。
ホワイトボックスとグレイボックスの設定を議論し、検討した各防御のロバスト性・性能上のトレードオフについて論じる。
驚くべきことに、私たちは、視覚など他のドメインで予想されるよりも、フィルタリングや前処理に成功しています。 As Large Language Models quickly become ubiquitous, their security vulnerabilities are critical to understand. Recent work shows that text optimizers can produce jailbreaking prompts that bypass moderation and alignment. Drawing from the rich body of work on adversarial machine learning, we approach these attacks with three questions: What threat models are practically useful in this domain? How do baseline defense techniques perform in this new domain? How does LLM security differ from computer vision? We evaluate several baseline defense strategies against leading adversarial attacks on LLMs, discussing the various settings in which each is feasible and effective. Particularly, we look at three types of defenses: detection (perplexity based), input preprocessing (paraphrase and retokenization), and adversarial training. We discuss white-box and gray-box settings and discuss the robustness-performance trade-off for each of the defenses considered. Surprisingly, we find much more success with filtering and preprocessing than we would expect from other domains, such as vision, providing a first indication that the relative strengths of these defenses may be weighed differently in these domains. | 翻訳日:2023-09-04 12:41:26 公開日:2023-09-01 |
# 拡散モデルを用いた反復多粒画像編集 Iterative Multi-granular Image Editing using Diffusion Models ( http://arxiv.org/abs/2309.00613v1 ) ライセンス: Link先を確認 | K J Joseph, Prateksha Udhayanan, Tripti Shukla, Aishwarya Agarwal, Srikrishna Karanam, Koustava Goswami, Balaji Vasan Srinivasan | (参考訳) テキスト誘導画像合成の最近の進歩は、創造的なプロフェッショナルが芸術的かつ美的な視覚的資産を生み出す方法を大きく変えた。
そのような創造的な取り組みを完全に支援するためには、プロセスは以下の能力を持つべきである。
1)世代を反復的に編集し
2)所望の変化(グローバル,ローカル,あるいはその中間)の空間的到達度を制御する。
我々は,この実用的問題設定を反復的多面的編集として定式化する。
画像合成と編集のための拡散ベースのモデルにはかなりの進歩があったが、それらはすべて1つのショット(反復編集機能がない)であり、自然にマルチグラニュラー制御(すなわち、ローカルからグローバルへの編集のスペクトル全体をカバーする)を与えない。
これらの欠点を克服するために, EMILIE: Iterative Multi-granular Image Editorを提案する。
emilie氏は新しい潜在反復戦略を導入し、反復的な編集を容易にするために事前訓練された拡散モデルを再利用した。
これはマルチグラニュラー制御のための勾配制御操作によって補完される。
新たに提案した設定を評価するためのベンチマークデータセットを提案する。
我々は、EMILIEの課題に適応した最近の最先端アプローチに対して、徹底的かつ質的に定量的に評価を行う。
この新しく特定された実用的な問題設定に私たちの仕事が注目されることを願っています。 Recent advances in text-guided image synthesis has dramatically changed how creative professionals generate artistic and aesthetically pleasing visual assets. To fully support such creative endeavors, the process should possess the ability to: 1) iteratively edit the generations and 2) control the spatial reach of desired changes (global, local or anything in between). We formalize this pragmatic problem setting as Iterative Multi-granular Editing. While there has been substantial progress with diffusion-based models for image synthesis and editing, they are all one shot (i.e., no iterative editing capabilities) and do not naturally yield multi-granular control (i.e., covering the full spectrum of local-to-global edits). To overcome these drawbacks, we propose EMILIE: Iterative Multi-granular Image Editor. EMILIE introduces a novel latent iteration strategy, which re-purposes a pre-trained diffusion model to facilitate iterative editing. This is complemented by a gradient control operation for multi-granular control. We introduce a new benchmark dataset to evaluate our newly proposed setting. We conduct exhaustive quantitatively and qualitatively evaluation against recent state-of-the-art approaches adapted to our task, to being out the mettle of EMILIE. We hope our work would attract attention to this newly identified, pragmatic problem setting. | 翻訳日:2023-09-04 12:41:07 公開日:2023-09-01 |
# 修正重力による宇宙体積のベイズ深度学習 Bayesian deep learning for cosmic volumes with modified gravity ( http://arxiv.org/abs/2309.00612v1 ) ライセンス: Link先を確認 | Jorge Enrique Garc\'ia-Farieta, H\'ector J Hort\'ua and Francisco-Shu Kitaura | (参考訳) 新しい世代の銀河サーベイは、宇宙スケールで重力をテストできる前例のないデータを提供します。
大規模構造のロバストな宇宙論的解析は、宇宙のウェブにエンコードされた非線形情報を利用する必要がある。
しかし、機械学習技術はそのようなツールを提供するが、不確実性の事前評価を提供していない。
本研究では,不確実性推定による深層ニューラルネットワークを用いて,修正重力(MG)シミュレーションから宇宙パラメータを抽出することを目的とした。
1つのベイズ最後の層(bll)と1つのベイズ層(fullb)の2つのケースを考慮して、ベイズニューラルネットワーク(bnns)を実装した。
128$^3$粒子を持つMpc側立方体体積256$h^{-1}$MpcをカバーするMG-PICOLAに依存する修正重力モデルを含む2000のダークマターのみの粒子メッシュからBNNを実空間密度場とパワースペクトルで訓練する。
BNNは$\Omega_m$と$\sigma_8$のパラメータを正確に予測し、それぞれがMGパラメータと相関する。
我々は、bnnが従来のニューラルネットワークの過大かつ過小評価問題を克服する十分な不確実性推定をもたらすことを見出した。
MGパラメータの存在は, MG予測の貧弱な説明の1つとして$\sigma_8$という大きな縮退をもたらすことが観察された。
MGを無視すると、相対誤差は$\Omega_m$と$\sigma_8$で少なくとも$30\%$にずれる。
さらに,密度場とパワースペクトル解析の結果と,計算時間を2倍に抑えるbll実験とfullb実験の比較結果の一致を報告した。
この研究は、完全な小さな宇宙の体積から非常に非線形な状態への宇宙パラメータを抽出する経路の設定に寄与する。 The new generation of galaxy surveys will provide unprecedented data allowing us to test gravity at cosmological scales. A robust cosmological analysis of the large-scale structure demands exploiting the nonlinear information encoded in the cosmic web. Machine Learning techniques provide such tools, however, do not provide a priori assessment of uncertainties. This study aims at extracting cosmological parameters from modified gravity (MG) simulations through deep neural networks endowed with uncertainty estimations. We implement Bayesian neural networks (BNNs) with an enriched approximate posterior distribution considering two cases: one with a single Bayesian last layer (BLL), and another one with Bayesian layers at all levels (FullB). We train both BNNs with real-space density fields and power-spectra from a suite of 2000 dark matter only particle mesh $N$-body simulations including modified gravity models relying on MG-PICOLA covering 256 $h^{-1}$ Mpc side cubical volumes with 128$^3$ particles. BNNs excel in accurately predicting parameters for $\Omega_m$ and $\sigma_8$ and their respective correlation with the MG parameter. We find out that BNNs yield well-calibrated uncertainty estimates overcoming the over- and under-estimation issues in traditional neural networks. We observe that the presence of MG parameter leads to a significant degeneracy with $\sigma_8$ being one of the possible explanations of the poor MG predictions. Ignoring MG, we obtain a deviation of the relative errors in $\Omega_m$ and $\sigma_8$ by at least $30\%$. Moreover, we report consistent results from the density field and power spectra analysis, and comparable results between BLL and FullB experiments which permits us to save computing time by a factor of two. This work contributes in setting the path to extract cosmological parameters from complete small cosmic volumes towards the highly nonlinear regime. | 翻訳日:2023-09-04 12:40:47 公開日:2023-09-01 |
# CityDreamer: 無制限3次元都市の構成生成モデル CityDreamer: Compositional Generative Model of Unbounded 3D Cities ( http://arxiv.org/abs/2309.00610v1 ) ライセンス: Link先を確認 | Haozhe Xie, Zhaoxi Chen, Fangzhou Hong, Ziwei Liu | (参考訳) 近年,3次元自然景観の研究が盛んに行われているが,3次元都市生成の領域はそれほど探検を受けていない。
これは、主に人間が都市環境の構造的歪みに敏感であるために、3D都市が生み出す大きな課題が原因である。
さらに、同じクラスの建造物である建物が、自然の場面で木のような比較的一貫した外観と比べ、より広い外観を示すため、3d都市の生成は3d自然シーンよりも複雑である。
このような課題に対処するために,我々は,道路,緑地,水域など他の背景オブジェクトからビルディングインスタンスの生成を分離した,非有界な3D都市を対象とした合成生成モデルであるCityDreamerを提案する。
さらに、OSMとGoogleEarthという2つのデータセットを構築し、そのレイアウトと外観の両方で生成された3D都市の現実性を高めるために、大量の実世界の都市画像を含む。
大規模な実験を通じて、CityDreamerは、さまざまな生活スタイルの3D都市を創造する最先端の手法よりも優れていることを証明した。 In recent years, extensive research has focused on 3D natural scene generation, but the domain of 3D city generation has not received as much exploration. This is due to the greater challenges posed by 3D city generation, mainly because humans are more sensitive to structural distortions in urban environments. Additionally, generating 3D cities is more complex than 3D natural scenes since buildings, as objects of the same class, exhibit a wider range of appearances compared to the relatively consistent appearance of objects like trees in natural scenes. To address these challenges, we propose CityDreamer, a compositional generative model designed specifically for unbounded 3D cities, which separates the generation of building instances from other background objects, such as roads, green lands, and water areas, into distinct modules. Furthermore, we construct two datasets, OSM and GoogleEarth, containing a vast amount of real-world city imagery to enhance the realism of the generated 3D cities both in their layouts and appearances. Through extensive experiments, CityDreamer has proven its superiority over state-of-the-art methods in generating a wide range of lifelike 3D cities. | 翻訳日:2023-09-04 12:40:15 公開日:2023-09-01 |
# copiloting the copilots: プログラムの自動修復のための補完エンジンを備えた大型言語モデルの使用 Copiloting the Copilots: Fusing Large Language Models with Completion Engines for Automated Program Repair ( http://arxiv.org/abs/2309.00608v1 ) ライセンス: Link先を確認 | Yuxiang Wei, Chunqiu Steven Xia, Lingming Zhang | (参考訳) 自動プログラム修復(APR)において、汎用プログラミング言語で現実世界のシステムに対して正しいパッチを合成することは困難である。
最近の大規模言語モデル(llm)は、様々なコーディングタスクの開発者を支援する上で有用な"コパイロット"であることが示されており、パッチ合成にも直接適用されている。
しかし、ほとんどのLLMはプログラムをトークンのシーケンスとして扱うため、ターゲットプログラミング言語の基本的なセマンティクス制約に無関係である。
この結果、多くの静的に無効なパッチが生まれ、この技術の実用性を妨げている。
そこで本稿では,修復プロセス中により有効なパッチを合成することにより,AIの"コパイロット"(LLM)をさらに協調するフレームワークであるRepilotを提案する。
我々の重要な洞察は、多くのLLMが自動回帰的に(トークン単位のトークン)出力を生成し、人間の記述プログラムに似ており、コンプリーションエンジンを通じて大幅に向上しガイドすることができるということである。
RepilotはLLMとCompletion Engineの相互作用を通じて、候補パッチを相乗的に合成する
1) LLMが提案する実用不可能なトークンを削除し、
2) 完了エンジンが提供する提案に基づいてトークンを積極的に完了させる。
広く使用されているDefects4j 1.2と2.0データセットのサブセットに対する評価では、Repilotがそれぞれ66と50のバグを修正し、14と16のバグを修正した。
さらに重要なことに、同じ世代の予算が与えられた場合、repilotはベースllmよりも正当で正しいパッチを生成することができる。 During Automated Program Repair (APR), it can be challenging to synthesize correct patches for real-world systems in general-purpose programming languages. Recent Large Language Models (LLMs) have been shown to be helpful "copilots" in assisting developers with various coding tasks, and have also been directly applied for patch synthesis. However, most LLMs treat programs as sequences of tokens, meaning that they are ignorant of the underlying semantics constraints of the target programming language. This results in plenty of statically invalid generated patches, impeding the practicality of the technique. Therefore, we propose Repilot, a framework to further copilot the AI "copilots" (i.e., LLMs) by synthesizing more valid patches during the repair process. Our key insight is that many LLMs produce outputs autoregressively (i.e., token by token), resembling human writing programs, which can be significantly boosted and guided through a Completion Engine. Repilot synergistically synthesizes a candidate patch through the interaction between an LLM and a Completion Engine, which 1) prunes away infeasible tokens suggested by the LLM and 2) proactively completes the token based on the suggestions provided by the Completion Engine. Our evaluation on a subset of the widely-used Defects4j 1.2 and 2.0 datasets shows that Repilot fixes 66 and 50 bugs, respectively, surpassing the best-performing baseline by 14 and 16 bugs fixed. More importantly, Repilot is capable of producing more valid and correct patches than the base LLM when given the same generation budget. | 翻訳日:2023-09-04 12:39:54 公開日:2023-09-01 |
# 最大エントロピーを持つ半古典的時空領域 A Semi-classical Spacetime Region with Maximum Entropy ( http://arxiv.org/abs/2309.00602v1 ) ライセンス: Link先を確認 | Yuki Yokokura | (参考訳) 4次元球面対称な静的時空領域を半古典的アインシュタイン方程式の量子の集まりと考え、自己重力を含むエントロピーを研究する。
十分に励起された状態に対して、エントロピーの非局所性と熱力学との整合性を考慮して、WKBのような方法でエントロピーを推定し、その上限を求める。
飽和条件は、距離が$\hbar$の非摂動解であるシュワルツシルト半径のすぐ外側にある、近プランク曲率と曲面を持つ密な構成として自己整合時空を一意に決定する。
最大エントロピーはブッソ境界を飽和させ、ベケンシュタイン・ホーキング公式と一致する。
したがって、地平線を持たない飽和構成を構築し、情報を内部に格納することで、このクラスにおけるブーッソ境界が検証される。 We consider a 4D spherically-symmetric static spacetime region as a collection of quanta in the semi-classical Einstein equation and study the entropy including the self-gravity. For sufficiently excited states, we estimate the entropy in a WKB-like method considering the non-locality of entropy and consistency with thermodynamics and find its upper bound. The saturation condition uniquely determines the self-consistent spacetime as a dense configuration with near-Planckian curvatures and a surface just outside the Schwarzschild radius, where the metric is a non-perturbative solution for $\hbar$. The maximum entropy then saturates the Bousso bound and coincides with the Bekenstein-Hawking formula. Thus, the Bousso bound in this class of spacetime is verified by constructing the saturating configuration that has no horizon and stores information inside. | 翻訳日:2023-09-04 12:39:29 公開日:2023-09-01 |
# Landau-Zener-St\"uckelberg-Majorana転移に基づく高速量子ゲート Fast quantum gates based on Landau-Zener-St\"uckelberg-Majorana transitions ( http://arxiv.org/abs/2309.00601v1 ) ライセンス: Link先を確認 | Joan J. Caceres, Daniel Dominguez and Maria Jose Sanchez | (参考訳) 高速な量子ゲートは、効率的かつエラー耐性の量子計算を可能にするために最重要となる。
本研究ではLandau-Zener-St\"uckelberg-Majorana(LSZM)の強力な駆動プロトコルを解析し,特に小さなギャップ量子ビットに着目した高速ゲートの実装に適した手法を提案する。
単一周期正弦波パルスを用いた単一キュービットと2つのキュービットゲートの実装のための特定の駆動パラメータのセットを決定するために解析方程式を導出する。
提案手法は,幅広いパラメータを実験的にスキャンする必要を回避し,解析的に予測された値の近くでデバイスを微調整することに集中できるようにする。
本研究では, パルスの振幅と周波数に対する緩和と脱コヒーレンスの依存性を解析し, 運転パラメータの最適条件を求め, 環境効果を緩和する。
我々の結果は、単一のqubit $X_{\frac{\pi}{2}}$,$Y_{\frac{\pi}{2}}$とIDゲートの研究に焦点を当てている。
また、ロバストなLZSM駆動プロトコルで実現可能な最も単純な2ビットゲートとして、$\sqrt{\rm{bSWAP}}$を提案する。 Fast quantum gates are of paramount importance for enabling efficient and error-resilient quantum computations. In the present work we analyze Landau-Zener-St\"uckelberg-Majorana (LSZM) strong driving protocols, tailored to implement fast gates with particular emphasis on small gap qubits. We derive analytical equations to determine the specific set of driving parameters for the implementation of single qubit and two qubit gates employing single period sinusoidal pulses. Our approach circumvents the need to scan experimentally a wide range of parameters and instead it allows to focus in fine-tuning the device near the analytically predicted values. We analyze the dependence of relaxation and decoherence on the amplitude and frequency of the pulses, obtaining the optimal regime of driving parameters to mitigate the effects of the environment. Our results focus on the study of the single qubit $X_{\frac{\pi}{2}}$, $Y_{\frac{\pi}{2}}$ and identity gates. Also, we propose the $\sqrt{\rm{bSWAP}}$ as the simplest two-qubit gate attainable through a robust LZSM driving protocol. | 翻訳日:2023-09-04 12:39:12 公開日:2023-09-01 |
# 回帰の校正説明 Calibrated Explanations for Regression ( http://arxiv.org/abs/2308.16245v2 ) ライセンス: Link先を確認 | Tuwe L\"ofstr\"om, Helena L\"ofstr\"om, Ulf Johansson, Cecilia S\"onstr\"od, Rudy Matela | (参考訳) 人工知能(AI)は現代の意思決定支援システム(DSS)の不可欠な部分であることが多い。
AIベースのDSSで使用される最高のパフォーマンス予測モデルには透明性がない。
説明可能な人工知能(XAI)は、人間のユーザーにその根拠を説明するAIシステムを構築することを目的としている。
XAIにおける局所的な説明は、特徴的重要性の観点から個々の予測の原因に関する情報を提供することができる。
しかし、既存の局所的説明手法の重大な欠点は、特徴の重要性に関連する不確実性を定量化できないことである。
本稿では,従来は分類のみをサポートしていたが,標準回帰と確率回帰,すなわち目標が任意のしきい値を超えている確率をサポートする特徴重要説明法(キャリブレーション説明法,キャリブレーション説明法)の拡張を提案する。
回帰の延長はCEのすべての利点を保ち、例えば、信頼区間を持つモデルから予測をキャリブレーションし、特徴の重要性を不確実に定量化し、事実的および反実的な説明を可能にする。
ce for standard regressionは、高速、信頼性、安定、堅牢な説明を提供する。
確率回帰のためのCEは、通常の回帰モデルから確率論的説明を作成する全く新しい方法を提供し、しきい値の動的選択を提供する。
安定性と速度に関する確率的回帰に対するCEの性能はLIMEに匹敵する。
この方法は、容易に理解可能な条件規則を持つモデル非依存である。
pythonの実装はgithubで無料で利用可能であり、pipを使ってインストールすると、この論文の結果が簡単に複製できる。 Artificial Intelligence (AI) is often an integral part of modern decision support systems (DSSs). The best-performing predictive models used in AI-based DSSs lack transparency. Explainable Artificial Intelligence (XAI) aims to create AI systems that can explain their rationale to human users. Local explanations in XAI can provide information about the causes of individual predictions in terms of feature importance. However, a critical drawback of existing local explanation methods is their inability to quantify the uncertainty associated with a feature's importance. This paper introduces an extension of a feature importance explanation method, Calibrated Explanations (CE), previously only supporting classification, with support for standard regression and probabilistic regression, i.e., the probability that the target is above an arbitrary threshold. The extension for regression keeps all the benefits of CE, such as calibration of the prediction from the underlying model with confidence intervals, uncertainty quantification of feature importance, and allows both factual and counterfactual explanations. CE for standard regression provides fast, reliable, stable, and robust explanations. CE for probabilistic regression provides an entirely new way of creating probabilistic explanations from any ordinary regression model and with a dynamic selection of thresholds. The performance of CE for probabilistic regression regarding stability and speed is comparable to LIME. The method is model agnostic with easily understood conditional rules. An implementation in Python is freely available on GitHub and for installation using pip making the results in this paper easily replicable. | 翻訳日:2023-09-04 10:56:35 公開日:2023-09-01 |
# モンテカルロ木探索による効率的かつ説明可能なグラフニューラルネットワーク探索 Efficient and Explainable Graph Neural Architecture Search via Monte-Carlo Tree Search ( http://arxiv.org/abs/2308.15734v2 ) ライセンス: Link先を確認 | Yuya Sasaki | (参考訳) グラフニューラルネットワーク(GNN)は、さまざまな領域でデータサイエンスタスクを実行する強力なツールである。
幅広いアプリケーションシナリオでGNNを使用しているが、研究者や実践者が多様なグラフで最適なGNNアーキテクチャを設計・選択することは、面倒な作業である。
人的労力と計算コストを削減するため、グラフニューラルネットワーク検索(Graph NAS)は、既存のコンポーネントを組み合わせた最適化GNNアーキテクチャの探索に使用されている。
しかし、様々なグラフに対する説明可能性、効率、適応性を満たすグラフNASメソッドは存在しない。
そこで我々は,ExGNASと呼ばれる,効率的かつ説明可能なグラフNAS手法を提案する。
(i)様々なグラフに適応可能な簡単な検索空間
(ii)決定過程を説明可能にした探索アルゴリズム。
探索空間はホモフィルグラフとヘテロフィルグラフを扱える基本関数のみを含む。
探索アルゴリズムは、ニューラルネットワークを使わずにモンテカルロ木探索により最適なgnnアーキテクチャを効率的に探索する。
検索空間とアルゴリズムの組み合わせにより,正確なGNNモデルと検索空間内の重要な機能を見つけることができる。
提案手法を,手作りの12のGNNアーキテクチャとグラフNASの3つの手法と比較した。
実験の結果、ExGNASはAUCを3.6まで増加させ、最先端のグラフNAS法と比較して実行時間を78倍に削減した。
さらに, 同好性グラフと異好性グラフにおけるGNNアーキテクチャの違いを分析する上で, ExGNASが有効であることを示す。 Graph neural networks (GNNs) are powerful tools for performing data science tasks in various domains. Although we use GNNs in wide application scenarios, it is a laborious task for researchers and practitioners to design/select optimal GNN architectures in diverse graphs. To save human efforts and computational costs, graph neural architecture search (Graph NAS) has been used to search for a sub-optimal GNN architecture that combines existing components. However, there are no existing Graph NAS methods that satisfy explainability, efficiency, and adaptability to various graphs. Therefore, we propose an efficient and explainable Graph NAS method, called ExGNAS, which consists of (i) a simple search space that can adapt to various graphs and (ii) a search algorithm that makes the decision process explainable. The search space includes only fundamental functions that can handle homophilic and heterophilic graphs. The search algorithm efficiently searches for the best GNN architecture via Monte-Carlo tree search without neural models. The combination of our search space and algorithm achieves finding accurate GNN models and the important functions within the search space. We comprehensively evaluate our method compared with twelve hand-crafted GNN architectures and three Graph NAS methods in four graphs. Our experimental results show that ExGNAS increases AUC up to 3.6 and reduces run time up to 78\% compared with the state-of-the-art Graph NAS methods. Furthermore, we show ExGNAS is effective in analyzing the difference between GNN architectures in homophilic and heterophilic graphs. | 翻訳日:2023-09-04 10:55:53 公開日:2023-09-01 |
# 産業人工知能のための確率的構成機械 Stochastic Configuration Machines for Industrial Artificial Intelligence ( http://arxiv.org/abs/2308.13570v3 ) ライセンス: Link先を確認 | Dianhui Wang and Matthew J. Felicetti | (参考訳) ニューラルネットワークが重要な役割を果たす産業人工知能(IAI)では、望ましい精度でリアルタイム予測モデルが期待されている。
iaiのニューラルネットワークは、大量の浮動小数点データを操作するために強力な高性能コンピューティングデバイスを必要とする。
本稿では,確率的構成ネットワーク(scns)に基づいて,産業用途に有用で有用な効率的なモデリングとデータサイズ削減を強調する,確率的構成マシン(scms)と呼ばれる新しいランダム化学習モデルを提案する。
SCN とランダムベクトル汎関数リンク (RVFL) ネットを二項化した実装と比較すると,SCM のモデル記憶は良好な予測性能を維持しつつ大幅に圧縮できる。
SCM学習者モデルとその学習アルゴリズムのアーキテクチャに加えて、この貢献の重要な部分として、モデルの複雑さを分析することによって、SCMの学習能力に関する理論的基盤を提供する。
いくつかのベンチマークデータセットと3つの産業応用で実験研究が行われている。
その結果,SCMは産業データ分析に大きく貢献する可能性が示唆された。 Real-time predictive modelling with desired accuracy is highly expected in industrial artificial intelligence (IAI), where neural networks play a key role. Neural networks in IAI require powerful, high-performance computing devices to operate a large number of floating point data. Based on stochastic configuration networks (SCNs), this paper proposes a new randomized learner model, termed stochastic configuration machines (SCMs), to stress effective modelling and data size saving that are useful and valuable for industrial applications. Compared to SCNs and random vector functional-link (RVFL) nets with binarized implementation, the model storage of SCMs can be significantly compressed while retaining favourable prediction performance. Besides the architecture of the SCM learner model and its learning algorithm, as an important part of this contribution, we also provide a theoretical basis on the learning capacity of SCMs by analysing the model's complexity. Experimental studies are carried out over some benchmark datasets and three industrial applications. The results demonstrate that SCM has great potential for dealing with industrial data analytics. | 翻訳日:2023-09-04 10:55:29 公開日:2023-09-01 |
# C-PMI: ターンレベル対話評価のための条件点相互情報 C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue Evaluation ( http://arxiv.org/abs/2306.15245v3 ) ライセンス: Link先を確認 | Liliang Ren, Mankeerat Sidhu, Qi Zeng, Revanth Gangi Reddy, Heng Ji, ChengXiang Zhai | (参考訳) 既存のチャットボットの参照フリーターンレベル評価メトリクスは、ユーザとシステム間のインタラクションを不十分に捉えている。
そのため、人間の評価と相関が低いことが多い。
本稿では,条件付きポイントワイズ相互情報(c-pmi)を利用して,与えられた評価次元に基づいて,システムとユーザとのターンレベル相互作用を測定する新しいモデル非依存手法を提案する。
広範に用いられているFED対話評価データセットの実験結果から,既存の評価システムと比較して,人間の判断との相関性を大幅に向上することが示された。
提案したC-PMIスコアラに負のログライクリフベースのスコアラを置き換えることで、FED評価基準の平均でスピアマン相関が62.6%高い値を得る。
私たちのコードはhttps://github.com/renll/C-PMIで公開されています。 Existing reference-free turn-level evaluation metrics for chatbots inadequately capture the interaction between the user and the system. Consequently, they often correlate poorly with human evaluations. To address this issue, we propose a novel model-agnostic approach that leverages Conditional Pointwise Mutual Information (C-PMI) to measure the turn-level interaction between the system and the user based on a given evaluation dimension. Experimental results on the widely used FED dialogue evaluation dataset demonstrate that our approach significantly improves the correlation with human judgment compared with existing evaluation systems. By replacing the negative log-likelihood-based scorer with our proposed C-PMI scorer, we achieve a relative 62.6% higher Spearman correlation on average for the FED evaluation metric. Our code is publicly available at https://github.com/renll/C-PMI. | 翻訳日:2023-09-04 10:55:13 公開日:2023-09-01 |
# GNFactor: 一般化可能なニューラルネットワークを用いたマルチタスクリアルロボット学習 GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields ( http://arxiv.org/abs/2308.16891v2 ) ライセンス: Link先を確認 | Yanjie Ze, Ge Yan, Yueh-Hua Wu, Annabella Macaluso, Yuying Ge, Jianglong Ye, Nicklas Hansen, Li Erran Li, Xiaolong Wang | (参考訳) ロボット工学における長年の問題であり、非構造化現実環境における視覚的な観察から多様な操作タスクを実行することができるエージェントを開発する。
この目的を達成するには、ロボットはシーンの3D構造と意味を包括的に理解する必要がある。
本稿では,マルチタスクロボット操作のための視覚行動クローニングエージェントである$\textbf{gnfactor}$,$\textbf{g}$eneralizable $\textbf{n}$eural feature $\textbf{f}$ields を提案する。
GNFactorは、再構成モジュールとしての一般化可能なニューラルネットワーク(GNF)と決定モジュールとしてのPerceiver Transformerを共同で最適化し、共有された深部3Dボクセル表現を活用する。
セマンティクスを3Dに組み込むため、再構成モジュールは視覚言語基盤モデル(\textit{e.g.}$, Stable Diffusion)を使用して、豊富なセマンティクス情報を深部3Dボクセルに蒸留する。
GNFactorを3つの実ロボットタスクで評価し、10のRLBenchタスクの詳細な改善を行い、限られた数の実演を行った。
GNFactorの強い一般化能力を実証し、現状の課題や目に見えない課題に対するGNFactorの大幅な改善を観察する。
プロジェクトのWebサイトはhttps://yanjieze.com/GNFactor/。 It is a long-standing problem in robotics to develop agents capable of executing diverse manipulation tasks from visual observations in unstructured real-world environments. To achieve this goal, the robot needs to have a comprehensive understanding of the 3D structure and semantics of the scene. In this work, we present $\textbf{GNFactor}$, a visual behavior cloning agent for multi-task robotic manipulation with $\textbf{G}$eneralizable $\textbf{N}$eural feature $\textbf{F}$ields. GNFactor jointly optimizes a generalizable neural field (GNF) as a reconstruction module and a Perceiver Transformer as a decision-making module, leveraging a shared deep 3D voxel representation. To incorporate semantics in 3D, the reconstruction module utilizes a vision-language foundation model ($\textit{e.g.}$, Stable Diffusion) to distill rich semantic information into the deep 3D voxel. We evaluate GNFactor on 3 real robot tasks and perform detailed ablations on 10 RLBench tasks with a limited number of demonstrations. We observe a substantial improvement of GNFactor over current state-of-the-art methods in seen and unseen tasks, demonstrating the strong generalization ability of GNFactor. Our project website is https://yanjieze.com/GNFactor/ . | 翻訳日:2023-09-04 10:50:53 公開日:2023-09-01 |
# FedDD: 異なるパラメータをドロップアウトしたコミュニケーション効率のフェデレーション学習を目指して FedDD: Toward Communication-efficient Federated Learning with Differential Parameter Dropout ( http://arxiv.org/abs/2308.16835v2 ) ライセンス: Link先を確認 | Zhiying Feng, Xu Chen, Qiong Wu, Wen Wu, Xiaoxi Zhang, and Qianyi Huang | (参考訳) フェデレーション学習(fl)は、モデルパラメータの頻繁な交換を必要とするため、特にクライアントのネットワーク環境が大きく変化する場合、通信遅延が長くなる。
さらにパラメータサーバは、パラメータをアップロードするために最も遅いクライアント(モデルサイズが最大で、計算能力が最低、ネットワーク状態が最悪)を待つ必要があるため、通信効率が著しく低下する可能性がある。
部分的なクライアント選択のような一般的なクライアント選択手法は、計算リソースの浪費を招き、グローバルモデルの一般化を弱める。
この問題に対処するため,本論文では,クライアント選択ではなくモデルパラメータドロップアウトのアプローチを提唱すると共に,差分パラメータドロップアウトを用いたフェデレート学習方式(feddd)の新たな枠組みを提案する。
異なるクライアントの不均一な条件に合わせたモデルパラメータのアップロード比率を最適化すると同時に、クライアントのドロップアウトレート制約に従属するオブジェクトをアップロードするための重要なモデルパラメータの適切なセットを選択する。
具体的には、システム不均一性、データ不均一性、およびクライアント間のモデル不均一性を考慮した凸最適化問題として、ドロップアウトレートの割り当てを定式化する。
アップロードされたパラメータ選択戦略は、アップロードする重要なパラメータをスピードアップ収束に優先する。
さらに,提案するfedddスキームの収束を理論的に解析する。
広範な性能評価により、提案手法は通信効率とモデル収束性の両方において優れた性能を達成でき、またレアクラスのデータに対して強い一般化能力を持つことが示された。 Federated Learning (FL) requires frequent exchange of model parameters, which leads to long communication delay, especially when the network environments of clients vary greatly. Moreover, the parameter server needs to wait for the slowest client (i.e., straggler, which may have the largest model size, lowest computing capability or worst network condition) to upload parameters, which may significantly degrade the communication efficiency. Commonly-used client selection methods such as partial client selection would lead to the waste of computing resources and weaken the generalization of the global model. To tackle this problem, along a different line, in this paper, we advocate the approach of model parameter dropout instead of client selection, and accordingly propose a novel framework of Federated learning scheme with Differential parameter Dropout (FedDD). FedDD consists of two key modules: dropout rate allocation and uploaded parameter selection, which will optimize the model parameter uploading ratios tailored to different clients' heterogeneous conditions and also select the proper set of important model parameters for uploading subject to clients' dropout rate constraints. Specifically, the dropout rate allocation is formulated as a convex optimization problem, taking system heterogeneity, data heterogeneity, and model heterogeneity among clients into consideration. The uploaded parameter selection strategy prioritizes on eliciting important parameters for uploading to speedup convergence. Furthermore, we theoretically analyze the convergence of the proposed FedDD scheme. Extensive performance evaluations demonstrate that the proposed FedDD scheme can achieve outstanding performances in both communication efficiency and model convergence, and also possesses a strong generalization capability to data of rare classes. | 翻訳日:2023-09-04 10:50:29 公開日:2023-09-01 |
# 非同期時空間グラフ畳み込みネットワークによる不規則交通時系列予測 Irregular Traffic Time Series Forecasting Based on Asynchronous Spatio-Temporal Graph Convolutional Network ( http://arxiv.org/abs/2308.16818v2 ) ライセンス: Link先を確認 | Weijia Zhang, Le Zhang, Jindong Han, Hao Liu, Jingbo Zhou, Yu Mei, Hui Xiong | (参考訳) 知的交通信号が支配する交差点における正確な交通予測は,効果的な知的交通信号制御システムの発展に不可欠である。
しかし、知的交差点が生み出す不規則な交通時系列により、交通予測タスクはずっと難解になり、3つの大きな課題が課せられる。
1)非同期空間依存性
2)交通データ間の不規則な時間依存、及び
3) 予測すべき可変長シーケンスは,現在のトラヒック予測手法の性能を著しく損なう。
この目的のために、将来の時間窓にインテリジェントな交差点に入るレーンの交通状態を予測するために、非同期時空間グラフ畳み込み nEtwoRk (ASeer) を提案する。
具体的には、交通拡散グラフを介してレーンをリンクすることにより、まず非同期グラフ拡散ネットワークを提案し、レーンの時間的ミスアラインな交通状態測定間の非同期空間依存性をモデル化する。
その後、不規則なトラフィック状態シーケンス内の時間依存性をキャプチャするために、各レーンの連続時間を埋め込むために学習可能なパーソナライズされた時間符号化を考案する。
次に,変換可能なフィルタサイズを有する時間対応畳み込みフィルタを導出するために,メタフィルタを学習する変換可能な時間対応畳み込みネットワークを提案する。
さらに、状態進化単位と半自己回帰予測器からなる半自己回帰予測ネットワークは、可変長のトラフィック状態列を効果的に効率的に予測するように設計されている。
2つの実世界のデータセットに対する大規模な実験は、6つのメトリクスでASeerの有効性を示している。 Accurate traffic forecasting at intersections governed by intelligent traffic signals is critical for the advancement of an effective intelligent traffic signal control system. However, due to the irregular traffic time series produced by intelligent intersections, the traffic forecasting task becomes much more intractable and imposes three major new challenges: 1) asynchronous spatial dependency, 2) irregular temporal dependency among traffic data, and 3) variable-length sequence to be predicted, which severely impede the performance of current traffic forecasting methods. To this end, we propose an Asynchronous Spatio-tEmporal graph convolutional nEtwoRk (ASeer) to predict the traffic states of the lanes entering intelligent intersections in a future time window. Specifically, by linking lanes via a traffic diffusion graph, we first propose an Asynchronous Graph Diffusion Network to model the asynchronous spatial dependency between the time-misaligned traffic state measurements of lanes. After that, to capture the temporal dependency within irregular traffic state sequence, a learnable personalized time encoding is devised to embed the continuous time for each lane. Then we propose a Transformable Time-aware Convolution Network that learns meta-filters to derive time-aware convolution filters with transformable filter sizes for efficient temporal convolution on the irregular sequence. Furthermore, a Semi-Autoregressive Prediction Network consisting of a state evolution unit and a semiautoregressive predictor is designed to effectively and efficiently predict variable-length traffic state sequences. Extensive experiments on two real-world datasets demonstrate the effectiveness of ASeer in six metrics. | 翻訳日:2023-09-04 10:49:56 公開日:2023-09-01 |
# Ref-Diff:生成モデルを用いたゼロショット参照画像セグメンテーション Ref-Diff: Zero-shot Referring Image Segmentation with Generative Models ( http://arxiv.org/abs/2308.16777v2 ) ライセンス: Link先を確認 | Minheng Ni, Yabo Zhang, Kailai Feng, Xiaoming Li, Yiwen Guo, Wangmeng Zuo | (参考訳) ゼロショット参照画像セグメンテーションは、与えられた参照記述に基づいたインスタンスセグメンテーションマスクを、このタイプのペアデータにトレーニングすることなく発見することを目的としているため、難しい課題である。
現在のゼロショット法は主に事前訓練された識別モデル(例えばCLIP)の使用に焦点を当てている。
しかし, 生成モデル(例えば, 安定拡散)は, 様々な視覚要素とテキスト記述の関係を理解できた可能性があり, この課題ではめったに研究されていない。
本研究では, 生成モデルからの微細なマルチモーダル情報を活用するReferring Diffusional segmentor (Ref-Diff) を提案する。
提案生成器がなければ、生成モデルだけで既存のSOTAの弱教師付きモデルに匹敵する性能が得られることを示す。
生成モデルと識別モデルの両方を組み合わせると、Ref-Diffはこれらの競合する手法をかなりの差で上回ります。
このことは、生成モデルがこのタスクに有益であり、より優れたセグメンテーションを参照するために識別モデルを補完できることを示している。
私たちのコードはhttps://github.com/kodenii/Ref-Diff.comで公開されています。 Zero-shot referring image segmentation is a challenging task because it aims to find an instance segmentation mask based on the given referring descriptions, without training on this type of paired data. Current zero-shot methods mainly focus on using pre-trained discriminative models (e.g., CLIP). However, we have observed that generative models (e.g., Stable Diffusion) have potentially understood the relationships between various visual elements and text descriptions, which are rarely investigated in this task. In this work, we introduce a novel Referring Diffusional segmentor (Ref-Diff) for this task, which leverages the fine-grained multi-modal information from generative models. We demonstrate that without a proposal generator, a generative model alone can achieve comparable performance to existing SOTA weakly-supervised models. When we combine both generative and discriminative models, our Ref-Diff outperforms these competing methods by a significant margin. This indicates that generative models are also beneficial for this task and can complement discriminative models for better referring segmentation. Our code is publicly available at https://github.com/kodenii/Ref-Diff. | 翻訳日:2023-09-04 10:49:27 公開日:2023-09-01 |
# ローカル化のためのロバストネットワークフェデレーション学習 Robust Networked Federated Learning for Localization ( http://arxiv.org/abs/2308.16737v2 ) ライセンス: Link先を確認 | Reza Mirzaeifard, Naveen K. D. Venkategowda, Stefan Werner | (参考訳) 本稿では,複数のデバイスに分散するフェデレーション環境において,本質的に非凸,非スムースである局所化の問題に対処する。
連合環境の分散した性質のため、分散学習はスケーラビリティと適応性に不可欠である。
さらに、これらの環境はしばしば外れたデータに苦しめられ、従来の手法、特に推定精度の維持とアルゴリズムの収束の確保に重大な課題がある。
これらの課題を軽減するために,分散サブ段階フレームワークに$L_1$-normのロバストな定式化を導入する手法を提案する。
提案手法は, 反復的な単純化や近似を使わずに, 計算効率を向上し, 推定精度を向上する。
提案手法は定常点に収束し,その有効性と信頼性を明らかにする。
数値シミュレーションにより,本手法の優れた性能,特に既往の最先端のローカライズ手法を超越した外乱環境において確認した。 This paper addresses the problem of localization, which is inherently non-convex and non-smooth in a federated setting where the data is distributed across a multitude of devices. Due to the decentralized nature of federated environments, distributed learning becomes essential for scalability and adaptability. Moreover, these environments are often plagued by outlier data, which presents substantial challenges to conventional methods, particularly in maintaining estimation accuracy and ensuring algorithm convergence. To mitigate these challenges, we propose a method that adopts an $L_1$-norm robust formulation within a distributed sub-gradient framework, explicitly designed to handle these obstacles. Our approach addresses the problem in its original form, without resorting to iterative simplifications or approximations, resulting in enhanced computational efficiency and improved estimation accuracy. We demonstrate that our method converges to a stationary point, highlighting its effectiveness and reliability. Through numerical simulations, we confirm the superior performance of our approach, notably in outlier-rich environments, which surpasses existing state-of-the-art localization methods. | 翻訳日:2023-09-04 10:49:10 公開日:2023-09-01 |
# Recommender AI Agent:対話型レコメンデーションのための大規模言語モデルの統合 Recommender AI Agent: Integrating Large Language Models for Interactive Recommendations ( http://arxiv.org/abs/2308.16505v2 ) ライセンス: Link先を確認 | Xu Huang, Jianxun Lian, Yuxuan Lei, Jing Yao, Defu Lian, Xing Xie | (参考訳) Recommenderモデルは、広範囲なユーザー行動データを活用することで、ドメイン固有のアイテムレコメンデーションを提供する。
軽量なドメインエキスパートとして振る舞う能力にもかかわらず、説明の提供や会話への参加といった多彩なタスクをこなすのに苦労しています。
一方、大規模言語モデル(LLM)は、命令理解、常識推論、ヒューマンインタラクションにおいて顕著な能力を示す、人工知能への重要な一歩である。
しかしながら、llmにはドメイン固有の項目カタログや行動パターンに関する知識が欠けている。
各領域の微調整 LLM は経済的でも効率的でもない。
本稿では,レコメンダモデルとLLMのギャップを埋め,それぞれの強みを組み合わせ,多目的かつ対話的なレコメンダシステムを構築する。
llmを脳として使用するinterecagentという効率的なフレームワークを導入し,ツールとしてレコメンデータモデルを推奨する。
まず LLM を InteRecAgent に変換するために必要な,最小限のツールについて概説する。
次に、メモリバス、動的デモ強化タスク計画、リフレクションといった重要なコンポーネントを組み込んだタスク実行のためのInteRecAgent内の効率的なワークフローを提案する。
InteRecAgentは、これらのIDベースの行列因数分解モデルのような従来のレコメンデータシステムにおいて、LLMの統合を通じて自然言語インタフェースによる対話型システムを実現する。
InteRecAgentは対話型レコメンデータシステムとしての性能を達成し,汎用LLMよりも優れていた。 Recommender models excel at providing domain-specific item recommendations by leveraging extensive user behavior data. Despite their ability to act as lightweight domain experts, they struggle to perform versatile tasks such as providing explanations and engaging in conversations. On the other hand, large language models (LLMs) represent a significant step towards artificial general intelligence, showcasing remarkable capabilities in instruction comprehension, commonsense reasoning, and human interaction. However, LLMs lack the knowledge of domain-specific item catalogs and behavioral patterns, particularly in areas that diverge from general world knowledge, such as online e-commerce. Finetuning LLMs for each domain is neither economic nor efficient. In this paper, we bridge the gap between recommender models and LLMs, combining their respective strengths to create a versatile and interactive recommender system. We introduce an efficient framework called InteRecAgent, which employs LLMs as the brain and recommender models as tools. We first outline a minimal set of essential tools required to transform LLMs into InteRecAgent. We then propose an efficient workflow within InteRecAgent for task execution, incorporating key components such as a memory bus, dynamic demonstration-augmented task planning, and reflection. InteRecAgent enables traditional recommender systems, such as those ID-based matrix factorization models, to become interactive systems with a natural language interface through the integration of LLMs. Experimental results on several public datasets show that InteRecAgent achieves satisfying performance as a conversational recommender system, outperforming general-purpose LLMs. | 翻訳日:2023-09-04 10:48:51 公開日:2023-09-01 |
# PivotNet: エンドツーエンドHDマップ構築のためのベクトル化Pivot Learning PivotNet: Vectorized Pivot Learning for End-to-end HD Map Construction ( http://arxiv.org/abs/2308.16477v2 ) ライセンス: Link先を確認 | Wenjie Ding, Limeng Qiao, Xi Qiu, Chi Zhang | (参考訳) ベクトル化された高精細マップのオンライン構築は、自動運転研究の分野でかなりの注目を集めている。
既存のほとんどのアプローチは、一定数の点を用いて変更可能なマップ要素をモデル化し、あるいは2段階の自己回帰的な方法で局所写像を予測する。
そこで本研究では,pivotnetという簡易かつ効果的なアーキテクチャを提案し,pivotベースの地図表現を統一し,直接集合予測パラダイムとして定式化する。
具体的には,まず,ネットワーク内の下位および幾何学的ポイントラインプリアーをエンコードする新しいポイント・ツー・ライン・マスクモジュールを提案する。
次に、よく設計されたピボット動的マッチングモジュールを提案し、シーケンスマッチングの概念を導入することにより、動的点列のトポロジーをモデル化する。
さらに,ベクトル化点予測の位置とトポロジを監督するために,動的ベクトル化シーケンス損失を提案する。
大規模な実験と改善により、PivotNetは少なくとも5.9 mAPのSOTAよりもはるかに優れていることが示されている。
コードはもうすぐ入手できる。 Vectorized high-definition map online construction has garnered considerable attention in the field of autonomous driving research. Most existing approaches model changeable map elements using a fixed number of points, or predict local maps in a two-stage autoregressive manner, which may miss essential details and lead to error accumulation. Towards precise map element learning, we propose a simple yet effective architecture named PivotNet, which adopts unified pivot-based map representations and is formulated as a direct set prediction paradigm. Concretely, we first propose a novel point-to-line mask module to encode both the subordinate and geometrical point-line priors in the network. Then, a well-designed pivot dynamic matching module is proposed to model the topology in dynamic point sequences by introducing the concept of sequence matching. Furthermore, to supervise the position and topology of the vectorized point predictions, we propose a dynamic vectorized sequence loss. Extensive experiments and ablations show that PivotNet is remarkably superior to other SOTAs by 5.9 mAP at least. The code will be available soon. | 翻訳日:2023-09-04 10:48:24 公開日:2023-09-01 |
# 自己サンプリング型メタSAM:メタラーニングによる医療画像の断片化 Self-Sampling Meta SAM: Enhancing Few-shot Medical Image Segmentation with Meta-Learning ( http://arxiv.org/abs/2308.16466v2 ) ライセンス: Link先を確認 | Yiming Zhang, Tianang Leng, Kun Han, Xiaohui Xie | (参考訳) SAM(Segment Anything Model)は汎用画像のセマンティックセグメンテーションに優れるが、医用画像に適用した場合、主に訓練データセットにおける医用画像の表現不足に起因するパフォーマンスが著しく低下する。
それでも、広く適用可能な包括的なデータセットやトレーニングモデルを集めることは、医用画像に共通する長い尾の問題のために特に困難である。
このギャップに対処するために、数ショットの医用画像分割のためのSelf-Sampling Meta SAM (SSM-SAM) フレームワークを提案する。
私たちのイノベーションは3つの重要なモジュールの設計にあります。
1) オンラインの高速勾配降下最適化器はメタラーナーによってさらに最適化され、新しいタスクへの迅速かつ堅牢な適応が保証される。
2)注意の配置を改善するために、よく整列した視覚プロンプトを提供するように設計された自己サンプリングモジュール
3) 異なるスライス間の関係を捉えるために, 医療用少数ショット学習用に設計された頑健な注意ベースデコーダ。
一般的な腹部CTデータセットとMRIデータセットの広範な実験により、提案手法は、数ショットのセグメンテーションにおいて最先端の手法よりも大幅に改善され、それぞれ10.21%と1.80%の改善が達成された。
そこで本研究では,対話型画像セグメンテーションにおけるオンライン適応の迅速化について,0.83分で新しい臓器に適応できる新しい手法を提案する。
コードは受け付け次第githubで公開されている。 While the Segment Anything Model (SAM) excels in semantic segmentation for general-purpose images, its performance significantly deteriorates when applied to medical images, primarily attributable to insufficient representation of medical images in its training dataset. Nonetheless, gathering comprehensive datasets and training models that are universally applicable is particularly challenging due to the long-tail problem common in medical images. To address this gap, here we present a Self-Sampling Meta SAM (SSM-SAM) framework for few-shot medical image segmentation. Our innovation lies in the design of three key modules: 1) An online fast gradient descent optimizer, further optimized by a meta-learner, which ensures swift and robust adaptation to new tasks. 2) A Self-Sampling module designed to provide well-aligned visual prompts for improved attention allocation; and 3) A robust attention-based decoder specifically designed for medical few-shot learning to capture relationship between different slices. Extensive experiments on a popular abdominal CT dataset and an MRI dataset demonstrate that the proposed method achieves significant improvements over state-of-the-art methods in few-shot segmentation, with an average improvements of 10.21% and 1.80% in terms of DSC, respectively. In conclusion, we present a novel approach for rapid online adaptation in interactive image segmentation, adapting to a new organ in just 0.83 minutes. Code is publicly available on GitHub upon acceptance. | 翻訳日:2023-09-04 10:48:05 公開日:2023-09-01 |
# materials informatics transformer: 解釈可能な材料特性予測のための言語モデル Materials Informatics Transformer: A Language Model for Interpretable Materials Properties Prediction ( http://arxiv.org/abs/2308.16259v2 ) ライセンス: Link先を確認 | Hongshuo Huang, Rishikesh Magar, Changwen Xu and Amir Barati Farimani | (参考訳) 近年, 自然言語処理, コンピュータビジョン, 分子モデリングなど, 様々な研究領域において, 大規模言語モデル(LLM)の顕著な能力が実証されている。
本研究では, LLMを材料特性予測に利用し, モデルであるMatInFormer(MatInFormer)を導入して, このパラダイムを拡張した。
具体的には,関連する空間群情報のトークン化を通じて結晶学の文法を学ぶ新しい手法を提案する。
さらに,金属有機フレームワーク(MOF)に関連するタスク固有データを組み込むことにより,MatInFormerの適応性について述べる。
注意の可視化を通じて、プロパティ予測中にモデルが優先する重要な特徴を明らかにする。
提案モデルの有効性は,14個の異なるデータセットに対して実験的に検証され,精度の高い材料特性予測による高スループットスクリーニングの可能性を示す。 Recently, the remarkable capabilities of large language models (LLMs) have been illustrated across a variety of research domains such as natural language processing, computer vision, and molecular modeling. We extend this paradigm by utilizing LLMs for material property prediction by introducing our model Materials Informatics Transformer (MatInFormer). Specifically, we introduce a novel approach that involves learning the grammar of crystallography through the tokenization of pertinent space group information. We further illustrate the adaptability of MatInFormer by incorporating task-specific data pertaining to Metal-Organic Frameworks (MOFs). Through attention visualization, we uncover the key features that the model prioritizes during property prediction. The effectiveness of our proposed model is empirically validated across 14 distinct datasets, hereby underscoring its potential for high throughput screening through accurate material property prediction. | 翻訳日:2023-09-04 10:47:35 公開日:2023-09-01 |
# ロバスト原則: 逆ロバストCNNのためのアーキテクチャ設計原則 Robust Principles: Architectural Design Principles for Adversarially Robust CNNs ( http://arxiv.org/abs/2308.16258v2 ) ライセンス: Link先を確認 | ShengYun Peng, Weilin Xu, Cory Cornelius, Matthew Hull, Kevin Li, Rahul Duggal, Mansi Phute, Jason Martin, Duen Horng Chau | (参考訳) 本研究の目的は,CNNの対立的ロバスト性に及ぼす建築要素の影響について,既存作品の多様な意見を統合することである。
目標を達成するために、3つの一般化可能なロバストなアーキテクチャ設計原則をまとめます。
(a)深さ及び幅構成の最適範囲
(b)パッチフィケーションステムステージよりも畳み込みを好むこと、
(c) 圧縮・励起ブロックと非パラメトリックスムーズな活性化関数を併用した頑健な残留ブロック設計。
広範にわたるデータセットスケール、敵対的トレーニング方法、モデルパラメータ、ネットワーク設計空間での広範な実験を通じて、当社の原則は一貫して著しくオートアタック精度を向上させる: cifar-10とcifar-100の1-3パーセンテージポイント(pp)、imagenetの4-9pp。
コードはhttps://github.com/poloclub/robust-principlesで公開されている。 Our research aims to unify existing works' diverging opinions on how architectural components affect the adversarial robustness of CNNs. To accomplish our goal, we synthesize a suite of three generalizable robust architectural design principles: (a) optimal range for depth and width configurations, (b) preferring convolutional over patchify stem stage, and (c) robust residual block design through adopting squeeze and excitation blocks and non-parametric smooth activation functions. Through extensive experiments across a wide spectrum of dataset scales, adversarial training methods, model parameters, and network design spaces, our principles consistently and markedly improve AutoAttack accuracy: 1-3 percentage points (pp) on CIFAR-10 and CIFAR-100, and 4-9 pp on ImageNet. The code is publicly available at https://github.com/poloclub/robust-principles. | 翻訳日:2023-09-04 10:47:20 公開日:2023-09-01 |