このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230809となっている論文です。

PDF登録状況(公開日: 20230809)

TitleAuthorsAbstract論文公表日・翻訳日
# 複数のボクサーの自動トラッキングを実現するAI

Towards AI enabled automated tracking of multiple boxers ( http://arxiv.org/abs/2311.11471v1 )

ライセンス: Link先を確認
A.S. Karthikeyan, Vipul Baghel, Anish Monsley Kirupakaran, John Warburton, Ranganathan Srinivasan, Babji Srinivasan, Ravi Sadananda Hegde(参考訳) 複数のトレーニングセッションにおけるボクサーの継続的な追跡は、よく知られた10ポイントマスシステムに必要な特性の定量化に役立つ。 しかしながら、複数のトレーニングセッションをまたいだ複数のアスリートの連続的な追跡は、記録されたビデオストリームにおいて正確に境界線を分割することが難しいため、依然として課題である。 さらに、異なる期間、あるいは同じ試合中であっても、同じ選手を再同定することは課題である。 一つの固定ビュービデオをトップビューでキャプチャする場合、さらに困難が増す。 本研究は,経済的な単一固定型トップビューカメラによるシステム構築の進展をまとめたものである。 具体的には,不正なid上昇やid切り換えを伴わないブイト遷移検出およびインブウ連続プレイヤー識別のための改良アルゴリズムについて述べる。 本誌のカスタム収集データ ~11 時間(セッション数45,bouts:189)から、遷移検出アルゴリズムは90%の精度を実現し、連続ID追跡はIDU=0,IDS=0。

Continuous tracking of boxers across multiple training sessions helps quantify traits required for the well-known ten-point-must system. However, continuous tracking of multiple athletes across multiple training sessions remains a challenge, because it is difficult to precisely segment bout boundaries in a recorded video stream. Furthermore, re-identification of the same athlete over different period or even within the same bout remains a challenge. Difficulties are further compounded when a single fixed view video is captured in top-view. This work summarizes our progress in creating a system in an economically single fixed top-view camera. Specifically, we describe improved algorithm for bout transition detection and in-bout continuous player identification without erroneous ID updation or ID switching. From our custom collected data of ~11 hours (athlete count: 45, bouts: 189), our transition detection algorithm achieves 90% accuracy and continuous ID tracking achieves IDU=0, IDS=0.
翻訳日:2024-01-15 15:58:18 公開日:2023-08-09
# 第1回iccv 2023ワークショップチャレンジトラック1 コンピュータビジョンのためのリソース効率の高いディープラーニング:予算モデルトレーニングチャレンジ

1st Place in ICCV 2023 Workshop Challenge Track 1 on Resource Efficient Deep Learning for Computer Vision: Budgeted Model Training Challenge ( http://arxiv.org/abs/2311.11470v1 )

ライセンス: Link先を確認
Youngjun Kwak, Seonghun Jeong, Yunseung Lee, Changick Kim(参考訳) 予算モデルトレーニングチャレンジは、リソース制限下で効率的な分類モデルをトレーニングすることを目的としている。 ImageNet-100において、この課題に対処するために、プロファイルとインスタンス化フェーズからなるシンプルなリソースを意識したバックボーン検索フレームワークについて述べる。 さらに,限られた資源の推測精度を高めるため,マルチレゾリューションアンサンブルを用いる。 プロファイルフェーズは時間とメモリの制約に従って、モデルの最適なバッチサイズ、最大エポック、自動混合精度(AMP)を決定する。 そして、インスタンス化フェーズは、プロファイルフェーズから決定されたパラメータでモデルを訓練する。 ドメイン内一般化を改善するため、マルチレゾリューションアンサンブルはランダムにフリップされた2解像度画像によって形成される。 我々は高価な実験で包括的な分析を行う。 我々は,コンピュータビジョンに関する国際会議 (ICCV) 2023 Workshop Challenge Track 1 on Resource Efficient Deep Learning for Computer Vision (RCV) で優勝した。

The budgeted model training challenge aims to train an efficient classification model under resource limitations. To tackle this task in ImageNet-100, we describe a simple yet effective resource-aware backbone search framework composed of profile and instantiation phases. In addition, we employ multi-resolution ensembles to boost inference accuracy on limited resources. The profile phase obeys time and memory constraints to determine the models' optimal batch-size, max epochs, and automatic mixed precision (AMP). And the instantiation phase trains models with the determined parameters from the profile phase. For improving intra-domain generalizations, the multi-resolution ensembles are formed by two-resolution images with randomly applied flips. We present a comprehensive analysis with expensive experiments. Based on our approach, we win first place in International Conference on Computer Vision (ICCV) 2023 Workshop Challenge Track 1 on Resource Efficient Deep Learning for Computer Vision (RCV).
翻訳日:2024-01-15 15:58:03 公開日:2023-08-09
# 脆弱性とライブラリのテキスト記述から脆弱なサードパーティライブラリを特定する

Identifying Vulnerable Third-Party Libraries from Textual Descriptions of Vulnerabilities and Libraries ( http://arxiv.org/abs/2307.08206v2 )

ライセンス: Link先を確認
Tianyu Chen, Lin Li, Bingjie Shan, Guangtai Liang, Ding Li, Qianxiang Wang, Tao Xie(参考訳) サードパーティライブラリから発生するセキュリティ脆弱性に対処するため、セキュリティ研究者はデータベースの監視と脆弱性レポートのキュレーション、例えばnational vulnerability database(nvd)を継続する。 アプリケーション開発者は、使用するライブラリの名前でデータベースを直接クエリすることで、脆弱なライブラリを識別できる。 しかしながら,脆弱性レポートの不完全性から,脆弱なライブラリのクエリ結果は信頼性に欠ける。 したがって、現在のアプローチは、脆弱なライブラリを名前付き認識(NER)タスクまたは極端なマルチラベル学習(XML)タスクとして識別するタスクをモデル化している。 これらのアプローチは、非常に不正確な結果に苦しめられ、ゼロショットライブラリ(すなわち、モデルトレーニング中に現れないライブラリ)を識別できない。 本稿では、脆弱性とライブラリの両方のテキスト記述から脆弱性のあるライブラリを最初に識別するVulLibMinerと、影響を受けるライブラリのJava脆弱性データセットであるVulLibを提案する。 VulLibMinerはTF-IDFマーカで、少数の候補ライブラリを効率的にスクリーニングし、BERT-FNNモデルでこれらの候補ライブラリを効果的に識別する。 verajava という名のデータセットと vullib データセットの両方で脆弱なライブラリを識別する 4 つの最先端/プラクティスアプローチを用いて vullibminer を評価した。 評価の結果,vullibminerは平均的なf1スコア0.561の脆弱なライブラリを効果的に識別できることがわかった。

To address security vulnerabilities arising from third-party libraries, security researchers maintain databases monitoring and curating vulnerability reports, e.g., the National Vulnerability Database (NVD). Application developers can identify vulnerable libraries by directly querying the databases with the name of each used library. However, the querying results of vulnerable libraries are not reliable due to the incompleteness of vulnerability reports. Thus, current approaches model the task of identifying vulnerable libraries as a named-entity-recognition (NER) task or an extreme multi-label learning (XML) task. These approaches suffer from highly inaccurate results and cannot identify zero-shot libraries (i.e., those not appearing during model training). To address these limitations, in this paper, we propose VulLibMiner, the first to identify vulnerable libraries from textual descriptions of both vulnerabilities and libraries, together with VulLib, a Java vulnerability dataset with their affected libraries. VulLibMiner consists of a TF-IDF matcher to efficiently screen out a small set of candidate libraries and a BERT-FNN model to identify vulnerable libraries from these candidates effectively. We evaluate VulLibMiner using four state-of-the-art/practice approaches of identifying vulnerable libraries on both their dataset named VeraJava and our VulLib dataset. Our evaluation results show that VulLibMiner can effectively identify vulnerable libraries with an average F1 score of 0.561 while the state-of-the-art/practice approaches achieve only 0.377.
翻訳日:2023-10-23 17:24:14 公開日:2023-08-09
# 自己保護ソフトウェアに対する不確実性認識適応へのpomdp法の適用

Using POMDP-based Approach to Address Uncertainty-Aware Adaptation for Self-Protecting Software ( http://arxiv.org/abs/2308.02134v2 )

ライセンス: Link先を確認
Ryan Liu, Ladan Tahvildari(参考訳) サイバー攻撃の進化によって引き起こされる脅威は、自己保護が可能なソフトウェアシステムに関する研究の増加につながった。 このドメインの1つのトピックは移動目標防衛(MTD)であり、攻撃者が脆弱性を悪用することを難しくするため、保護されたシステムのソフトウェア特性を変更する。 しかし、MTDの実装と展開は、しばしば実行時の不確実性の影響を受け、既存のMTD決定ソリューションはモデルパラメータの不確実性を無視し、自己適応を欠いている。 本稿では,部分観測可能なマルコフ決定プロセスとベイズ学習に基づく不確実性と自己適応型MTD決定エンジンのアプローチを提案する。 提案手法は, 状態パラメータとモデルパラメータの両面での不確実性を考慮し, 環境変動の把握と防衛戦略の改善が期待できる。 提案手法の有効性と課題を明らかにするための予備研究が提案されている。

The threats posed by evolving cyberattacks have led to increased research related to software systems that can self-protect. One topic in this domain is Moving Target Defense (MTD), which changes software characteristics in the protected system to make it harder for attackers to exploit vulnerabilities. However, MTD implementation and deployment are often impacted by run-time uncertainties, and existing MTD decision-making solutions have neglected uncertainty in model parameters and lack self-adaptation. This paper aims to address this gap by proposing an approach for an uncertainty-aware and self-adaptive MTD decision engine based on Partially Observable Markov Decision Process and Bayesian Learning techniques. The proposed approach considers uncertainty in both state and model parameters; thus, it has the potential to better capture environmental variability and improve defense strategies. A preliminary study is presented to highlight the potential effectiveness and challenges of the proposed approach.
翻訳日:2023-10-23 15:20:48 公開日:2023-08-09
# 再現性研究:simulinkモデルとプロジェクトを理解するためのコーパス

Replicability Study: Corpora For Understanding Simulink Models & Projects ( http://arxiv.org/abs/2308.01978v2 )

ライセンス: Link先を確認
Sohil Lal Shrestha and Shafiul Azam Chowdhury and Christoph Csallner(参考訳) 背景:MATLAB/Simulinkのような広く使われているモデルベース開発ツールに関する実証研究は、様々な産業においてツールの重要性にもかかわらず限られている。 目的: 本論文の目的は,simulinkモデルコーパスを用いたこれまでの実証研究の再現性の検討と,その結果のより新しいコーパスとより大きなコーパスへの一般化性の評価,およびプロプライエタリモデルとの比較である。 方法: 先行シミュリンクモデルに使用される手法とデータソースをレビューし,slnetを用いて先行分析を再現する。 さらに、コード生成シミュリンクモデルを決定するためのヒューリスティックを提案し、オープンソースモデルのプロプライエタリモデルとの類似性を評価する。 結果: SLNETの分析は, これまでの知見を裏付け, 矛盾し, モデルベース開発研究の貴重な資源としての可能性を強調した。 オープンソースSimulinkモデルは優れたモデリングプラクティスに従っており、プロプライエタリモデルに匹敵するサイズと特性を持つモデルを含んでいることがわかった。 また、9kコミット以上の208のgitリポジトリを収集して配布し、モデル進化の研究を促進しました。 結論: 複製研究は,従来のオープンソースコーパスをベースとした研究成果の一般化可能性に関する貴重な情報を含む,再生過程から学んだ実用的な洞察と教訓を提供する。 この研究は、自己完結的で再配布可能なSLNETの注目すべき属性に光を当てている。

Background: Empirical studies on widely used model-based development tools such as MATLAB/Simulink are limited despite the tools' importance in various industries. Aims: The aim of this paper is to investigate the reproducibility of previous empirical studies that used Simulink model corpora and to evaluate the generalizability of their results to a newer and larger corpus, including a comparison with proprietary models. Method: The study reviews methodologies and data sources employed in prior Simulink model studies and replicates the previous analysis using SLNET. In addition, we propose a heuristic for determining code-generating Simulink models and assess the open-source models' similarity to proprietary models. Results: Our analysis of SLNET confirms and contradicts earlier findings and highlights its potential as a valuable resource for model-based development research. We found that open-source Simulink models follow good modeling practices and contain models comparable in size and properties to proprietary models. We also collected and distribute 208 git repositories with over 9k commits, facilitating studies on model evolution. Conclusions: The replication study offers actionable insights and lessons learned from the reproduction process, including valuable information on the generalizability of research findings based on earlier open-source corpora to the newer and larger SLNET corpus. The study sheds light on noteworthy attributes of SLNET, which is self-contained and redistributable.
翻訳日:2023-10-23 15:20:13 公開日:2023-08-09
# 公共部門におけるオープンソースソフトウェア:25年とまだ幼年期

Open Source Software in the Public Sector: 25 years and still in its infancy ( http://arxiv.org/abs/2308.04766v1 )

ライセンス: Link先を確認
Johan Lin{\aa}ker, Gregorio Robles, Deborah Bryant, Sachiko Muto(参考訳) オープンソースソフトウェア(OSS)の採用とコラボレーションの普及は業界内で急増しており、商用製品や共有デジタルインフラストラクチャに広く普及している。 しかし、公共部門では、規制、文化、能力に関する課題を含む多くの障害のため、OSSの認識と採用がまだ初期段階にある。 この特別な問題は、研究と実践の両方がギャップを狭め、既存の知識を選択的に移行し、適応することの必要性を強調し、OSSが提供する潜在的な利益を公共セクターが完全に活用できるようにするための新しい知識を創出することである。

The proliferation of Open Source Software (OSS) adoption and collaboration has surged within industry, resulting in its ubiquitous presence in commercial offerings and shared digital infrastructure. However, in the public sector, both awareness and adoption of OSS is still in its infancy due to a number of obstacles including regulatory, cultural, and capacity-related challenges. This special issue is a call for action, highlighting the necessity for both research and practice to narrow the gap, selectively transfer and adapt existing knowledge, as well as generate new knowledge to enable the public sector to fully harness the potential benefits OSS has to offer.
翻訳日:2023-10-23 15:13:22 公開日:2023-08-09
# DroidDissector: Androidのマルウェア検出のための静的かつ動的解析ツール

DroidDissector: A Static and Dynamic Analysis Tool for Android Malware Detection ( http://arxiv.org/abs/2308.04170v2 )

ライセンス: Link先を確認
Ali Muzaffar, Hani Ragab Hassen, Hind Zantout, Michael A Lones(参考訳) DroidDissectorは静的機能と動的機能の両方を抽出するツールである。 その目的は、androidのマルウェア研究者とアナリストに、androidのマルウェア検出でもっとも広く使われている機能をすべて一箇所から抽出できる統合ツールを提供することだ。 静的解析モジュールは、マニフェストファイルとアプリケーションのソースコードの両方から機能を抽出し、パーミッション、APIコールグラフ、オプコードを含む幅広い機能を取得する。 動的解析モジュールはandroidの最新バージョン上で動作し、使用するシステムコール、ネットワークトラフィックの生成、apiコールの使用、アプリケーションによって生成されたログファイルの追跡によって、アプリケーションの完全な動作を分析する。

DroidDissector is an extraction tool for both static and dynamic features. The aim is to provide Android malware researchers and analysts with an integrated tool that can extract all of the most widely used features in Android malware detection from one location. The static analysis module extracts features from both the manifest file and the source code of the application to obtain a broad array of features that include permissions, API call graphs and opcodes. The dynamic analysis module runs on the latest version of Android and analyses the complete behaviour of an application by tracking the system calls used, network traffic generated, API calls used and log files produced by the application.
翻訳日:2023-10-23 15:13:12 公開日:2023-08-09
# 指を持ち上げる必要はないのか? ChatGPTによるコード生成の品質評価

No Need to Lift a Finger Anymore? Assessing the Quality of Code Generation by ChatGPT ( http://arxiv.org/abs/2308.04838v1 )

ライセンス: Link先を確認
Zhijie Liu, Yutian Tang, Xiapu Luo, Yuming Zhou, and Liang Feng Zhang(参考訳) 大規模言語モデル(LLM)は、機械翻訳、質問応答、要約など、様々な自然言語処理(NLP)タスクにまたがる印象的な機能を示している。 加えて、LLMは、特にコード生成の分野で、ソフトウェアエンジニアリングタスクをサポートする上でも非常に貴重である。 自動コード生成は、所定の仕様や要求に基づいてソースコードや実行可能なコードを自動的に生成し、開発者の生産性を向上させるプロセスである。 本研究では,最近普及しているLLMであるChatGPTを用いて,コード生成の系統的評価を行う。 評価では,ChatGPTが生成したコードスニペットを包括的に分析し,正確性,理解可能性,セキュリティの3つの重要な側面に注目した。 また、コード生成を容易にするマルチラウンドプロセス(すなわち、ChatGPTのダイアログ能力)にChatGPTが関与する能力についても検討する。 生成されたコードを掘り下げて実験結果を調べることで、コード生成タスクに対処するChatGPTのパフォーマンスに関する貴重な洞察を提供する。 全体として、ChatGPTベースのコード生成で生じる潜在的な問題や制限を明らかにし、AIとLLMベースのコード生成技術を改善するための基盤となる。

Large language models (LLMs) have demonstrated impressive capabilities across various natural language processing (NLP) tasks, such as machine translation, question answering, summarization, and so on. Additionally, LLMs are also highly valuable in supporting software engineering tasks, particularly in the field of code generation. Automatic code generation is a process of automatically generating source code or executable code based on given specifications or requirements, improving developer productivity. In this study, we perform a systematic empirical assessment of code generation using ChatGPT, a recent and popular LLM. Our evaluation encompasses a comprehensive analysis of code snippets generated by ChatGPT, focusing on three critical aspects: correctness, understandability, and security. We also specifically investigate ChatGPT's ability to engage in multi-round process (i.e., ChatGPT's dialog ability) of facilitating code generation. By delving into the generated code and examining the experimental results, this work provides valuable insights into the performance of ChatGPT in tackling code generation tasks. Overall, our findings uncover potential issues and limitations that arise in the ChatGPT-based code generation and lay the groundwork for improving AI and LLM-based code generation techniques.
翻訳日:2023-10-23 15:03:23 公開日:2023-08-09
# Adaptive Intellect Unleashed: 大規模言語モデルにおける知識伝達の可能性

Adaptive Intellect Unleashed: The Feasibility of Knowledge Transfer in Large Language Models ( http://arxiv.org/abs/2308.04788v1 )

ライセンス: Link先を確認
Qing Huang, Yishun Wu, Zhenchang Xing, He Jiang, Yu Cheng and Huan Jin(参考訳) ソフトウェア工学のタスクにおいて,LLMが学習データを超えて一般化するために必要な大規模言語モデル(LLM)の一般化能力を向上させるために,知識伝達を用いた最初の実証的研究を行う。 提案する一般知識伝達手法は,LLMがこれまでに遭遇した類似のAPIやコードスニペットに導出し,未知の知識に対するモデルの一般化能力を向上させる。 api推論、コードサンプル生成、fqn推論の3つのソフトウェアエンジニアリングタスクに適用し、メソッドに影響を与える重要な要素として転送スパン、転送戦略、転送アーキテクチャを見つける。 本研究は,様々なソフトウェア工学タスクにおける知識伝達の可能性とllmsの性能向上の可能性を示す。 知識伝達の有効性は目的のドメインやタスクによって異なり、階層戦略は直接伝達よりも効果的であり、AI-Chainは即座に設計においてCoTを上回る。 これらの発見の意義はソフトウェア工学のタスクを超えて広がり、知識伝達は自然言語タスクにおける未知の処理能力を高めることを示唆している。

We conduct the first empirical study on using knowledge transfer to improve the generalization ability of large language models (LLMs) in software engineering tasks, which often require LLMs to generalize beyond their training data. Our proposed general knowledge transfer approach guides the LLM towards a similar and familiar API or code snippet it has encountered before, improving the model's generalization ability for unseen knowledge. We apply this approach to three software engineering tasks: API inference, code example generation, and FQN inference, and find transfer span, transfer strategy, and transfer architecture as key factors affecting the method. Our findings demonstrate the feasibility of knowledge transfer and its potential to enhance LLMs' performance in various software engineering tasks. The effectiveness of knowledge transfer varies depending on the target domain and task, with the hierarchical strategy being more effective than direct transfer, and AI-Chain outperforming CoT in prompt design. The implications of these findings extend beyond software engineering tasks and suggest that knowledge transfer can enhance LLMs' ability to handle unknowns in any natural language task.
翻訳日:2023-10-23 15:03:02 公開日:2023-08-09
# rCanary: Rustの半自動メモリ管理境界を越えてメモリリークを検出する

rCanary: Detecting Memory Leaks Across Semi-automated Memory Management Boundary in Rust ( http://arxiv.org/abs/2308.04787v1 )

ライセンス: Link先を確認
Mohan Cui, Suran Sun, Hui Xu, Yangfan Zhou(参考訳) Rustは、コンパイル時検証によるメモリ安全性を保証する効果的なシステムプログラミング言語である。 新たなオーナシップベースのリソース管理モデルを採用し、リソースの割り当てを自動化する。 このモデルはメモリリークをなくすことが期待されている。 しかし, ユーザ介入による半自動管理は, 漏えいを起こす傾向がみられた。 アンセーフキーワードによるメモリ安全性保証を侵害するのとは対照的に、漏洩した境界はコンパイラの警告なしで暗黙的である。 本稿では,半自動境界における漏洩を検出する静的,非侵入的,完全自動モデルチェッカーであるrCanaryを提案する。 ヒープ割り当てでデータを抽象化するために正確なエンコーダを採用し、Booleanの適合性に基づいた洗練されたリークフリーメモリモデルを形式化する。 rCanaryはCargoの外部コンポーネントとして実装されており、MIRデータフローを介して制約を生成することができる。 著名なRustパッケージのプルリクエストから収集した,欠陥のあるパッケージベンチマークを使用して評価する。 その結果,これらすべての欠陥を許容できる偽陽性で思い出すことが可能であることが示唆された。 また、当社のツールをcrates.ioとGitHubから1200以上の現実世界のクレートに適用し、パッケージあたり8.4秒で脆弱性のある19のクレートを特定します。

Rust is an effective system programming language that guarantees memory safety via compile-time verifications. It employs a novel ownership-based resource management model to facilitate automated resource deallocation. It is anticipated that this model will eliminate memory leaks. However, we observed that user intervention driving semi-automated management is prone to introducing leaks. In contrast to violating memory-safety guarantees via the unsafe keyword, the leak breached boundary is implicit with no compiler alerting. In this paper, we present rCanary, a static, non-intrusive, and fully automated model checker to detect leaks across the semi-automated boundary. It adopts a precise encoder to abstract data with heap allocation and formalizes a refined leak-free memory model based on Boolean satisfiability. rCanary is implemented as an external component of Cargo and can generate constraints via MIR data flow. We evaluate it using flawed package benchmarks collected from the pull requests of prominent Rust packages. The results indicate it is possible to recall all these defects with acceptable false positives. We also apply our tool to more than 1,200 real-world crates from crates.io and GitHub, identifying 19 crates with potentially vulnerable leaks in 8.4 seconds per package.
翻訳日:2023-10-23 15:02:42 公開日:2023-08-09
# 危険はアキレスのヒールか? 非安全性rustプログラミングにおける安全性要件の包括的研究

Is unsafe an Achilles' Heel? A Comprehensive Study of Safety Requirements in Unsafe Rust Programming ( http://arxiv.org/abs/2308.04785v1 )

ライセンス: Link先を確認
Mohan Cui, Suran Sun, Hui Xu, Yangfan Zhou(参考訳) rustは、効率性とメモリ安全性を重視した、新たな強型プログラミング言語である。 Rustを採用するプロジェクトが増えれば、Unsafe Rustの使い方を知ることは、Rustセキュリティにとって極めて重要だ。 安全要件の記述は、Unsafe Rustプログラミングで統一する必要があります。 標準ライブラリの現在の安全でないAPIドキュメントには、一貫性や不十分さなど、さまざまなバリエーションがあった。 rustのセキュリティを強化するために、安全要件の体系的な記述をユーザが従うためのunsafe apiドキュメントを提案する。 本稿では,安全でない境界にまたがる安全要件に関する最初の包括的な実証研究を行った。 標準ライブラリでunsafe apiドキュメントを調査し,19のセーフティプロパティ(sp)を定義した。 そして、416のunsafe apiのデータラベリングを完了し、それらの相関を分析して解釈可能な結果を見つけました。 実際のユーザビリティとSPカバレッジを検証するため、2023-07-08まで既存のRust CVEを分類し、crates.ioエコシステムに対するstd unsafe API使用の統計分析を行った。 さらに、経験豊富なRustプログラマから4つの側面に関する洞察を得るために、ユーザ調査を実施しました。 最終的に50の有効な回答を得て,統計的に有意な分類を確認した。

Rust is an emerging, strongly-typed programming language focusing on efficiency and memory safety. With increasing projects adopting Rust, knowing how to use Unsafe Rust is crucial for Rust security. We observed that the description of safety requirements needs to be unified in Unsafe Rust programming. Current unsafe API documents in the standard library exhibited variations, including inconsistency and insufficiency. To enhance Rust security, we suggest unsafe API documents to list systematic descriptions of safety requirements for users to follow. In this paper, we conducted the first comprehensive empirical study on safety requirements across unsafe boundaries. We studied unsafe API documents in the standard library and defined 19 safety properties (SP). We then completed the data labeling on 416 unsafe APIs while analyzing their correlation to find interpretable results. To validate the practical usability and SP coverage, we categorized existing Rust CVEs until 2023-07-08 and performed a statistical analysis of std unsafe API usage toward the crates.io ecosystem. In addition, we conducted a user survey to gain insights into four aspects from experienced Rust programmers. We finally received 50 valid responses and confirmed our classification with statistical significance.
翻訳日:2023-10-23 15:02:24 公開日:2023-08-09
# コード検索モデル支援におけるニューラルマシン翻訳の有効性の評価と最適化:catベンチマークの検討

Evaluating and Optimizing the Effectiveness of Neural Machine Translation in Supporting Code Retrieval Models: A Study on the CAT Benchmark ( http://arxiv.org/abs/2308.04693v1 )

ライセンス: Link先を確認
Hung Phan and Ali Jannesari(参考訳) ニューラルマシン翻訳(nmt)はソフトウェア工学のタスクに広く適用されている。 コード検索におけるnmtの有効性は、ソース言語におけるトークンのシーケンスからターゲット言語におけるトークンのシーケンスへ学習する能力に依存している。 NMTは擬似コードからコードへの翻訳でうまく機能するが、自然言語クエリから、新しくキュレートされた実世界のコードドキュメント/実装データセットのソースコードへの変換を学ぶ上で、課題があるかもしれない。 本研究では,3つのJavaデータセットTLCodeSum,CodeSearchNet,Funcom,PythonデータセットPCSDを最適化したCATベンチマークを用いて,自然言語からコードへの翻訳におけるNMTの性能を分析した。 評価の結果,NMTの精度は低く,CrystalBLEUとMeteorが測定した。 ソースコードの複雑な表現を学習する際のNMTの責務を軽減するため,非終端ノードのサブセットを用いた抽象構文木(AST)の調整表現であるASTTrans表現を提案する。 従来のアプローチであるnmtは,meteorスコアが最大36%向上したコードトークン上でのasttrans表現の学習において,極めて優れたパフォーマンスを示す。 さらに, ASTTrans表現を利用して, GraphCodeBERT と UniXcoder を用いた最先端のコード検索プロセスからコード検索を行う。 我々の学習ASTTrans表現のNMTモデルは、これらの最先端コード検索プロセスの平均相互ランクを最大3.08%向上させ、CATベンチマークによるクエリの結果の23.08%を改善することができる。

Neural Machine Translation (NMT) is widely applied in software engineering tasks. The effectiveness of NMT for code retrieval relies on the ability to learn from the sequence of tokens in the source language to the sequence of tokens in the target language. While NMT performs well in pseudocode-to-code translation, it might have challenges in learning to translate from natural language query to source code in newly curated real-world code documentation/ implementation datasets. In this work, we analyze the performance of NMT in natural language-to-code translation in the newly curated CAT benchmark that includes the optimized versions of three Java datasets TLCodeSum, CodeSearchNet, Funcom, and a Python dataset PCSD. Our evaluation shows that NMT has low accuracy, measured by CrystalBLEU and Meteor metrics in this task. To alleviate the duty of NMT in learning complex representation of source code, we propose ASTTrans Representation, a tailored representation of an Abstract Syntax Tree (AST) using a subset of non-terminal nodes. We show that the classical approach NMT performs significantly better in learning ASTTrans Representation over code tokens with up to 36% improvement on Meteor score. Moreover, we leverage ASTTrans Representation to conduct combined code search processes from the state-of-the-art code search processes using GraphCodeBERT and UniXcoder. Our NMT models of learning ASTTrans Representation can boost the Mean Reciprocal Rank of these state-of-the-art code search processes by up to 3.08% and improve 23.08% of queries' results over the CAT benchmark.
翻訳日:2023-10-23 15:02:07 公開日:2023-08-09
# LLMを使用したRustコンパイルエラーの修正

Fixing Rust Compilation Errors using LLMs ( http://arxiv.org/abs/2308.05177v1 )

ライセンス: Link先を確認
Pantazis Deligiannis, Akash Lal, Nikita Mehrotra, Aseem Rastogi(参考訳) rustプログラミング言語は、安全性保証とともに、c/c++のような従来の安全でない代替言語よりも低レベルのシステムプログラミング言語にとって実行可能な選択肢として確立された。 これらの保証は、強力なオーナシップベースの型システムとクロージャやパターンマッチングなどの機能に対するプリミティブサポートから生まれており、コードがより簡潔で推論に適している。 これらのユニークなRust機能は、プログラマにとって急な学習曲線でもある。 本稿では,Large Language Models(LLMs)の創発的機能を活用し,Rustコンパイルエラーの修正を自動的に提案するRustAssistantというツールを提案する。 rust assistantでは、プロンプトテクニックとllmによるイテレーションを慎重に組み合わせて、修正の精度を高めている。 RustAssistantは、人気のあるオープンソースRustリポジトリの実際のコンパイルエラーに対して、約74%の驚くべきピーク精度を達成することができる。 さらなる研究を可能にするために、Rustコンパイルエラーのデータセットをリリースする予定です。

The Rust programming language, with its safety guarantees, has established itself as a viable choice for low-level systems programming language over the traditional, unsafe alternatives like C/C++. These guarantees come from a strong ownership-based type system, as well as primitive support for features like closures, pattern matching, etc., that make the code more concise and amenable to reasoning. These unique Rust features also pose a steep learning curve for programmers. This paper presents a tool called RustAssistant that leverages the emergent capabilities of Large Language Models (LLMs) to automatically suggest fixes for Rust compilation errors. RustAssistant uses a careful combination of prompting techniques as well as iteration with an LLM to deliver high accuracy of fixes. RustAssistant is able to achieve an impressive peak accuracy of roughly 74% on real-world compilation errors in popular open-source Rust repositories. We plan to release our dataset of Rust compilation errors to enable further research.
翻訳日:2023-10-23 14:51:31 公開日:2023-08-09
# SZZ実装の評価:Linuxカーネルに関する実証的研究

Evaluating SZZ Implementations: An Empirical Study on the Linux Kernel ( http://arxiv.org/abs/2308.05060v1 )

ライセンス: Link先を確認
Yunbo Lyu, Hong Jin Kang, Ratnadira Widyasari, Julia Lawall, David Lo(参考訳) SZZアルゴリズムはバグ修正コミットとバグを導入した以前のコミットを接続するために使用される。 このアルゴリズムには多くの応用があり、多くの変種が考案されている。 しかし、SZZアルゴリズムでは追跡できないいくつかのタイプのコミットがあり、"ghost commits"と呼ばれている。 これらのゴーストコミットがSZZアルゴリズムに与える影響の評価は依然として限られている。 さらに、これらのアルゴリズムは、バグトラッカーやバージョン管理履歴の情報から、ソフトウェア工学研究者によって作成されたデータセット上で評価されている。 2013年10月以降、Linuxカーネル開発者は、標準のプラクティスとして、対応するバグ誘発コミット(s)のコミット識別子にバグ修正パッチをラベル付けし始めた。 v6.1-rc5では、76,046対のバグ修正パッチとバグ発生コミットが利用可能である。 これは、ソフトウェアエンジニアリング研究者のバイアスとは独立して、プロジェクト開発者によって作成、レビューされた大規模なデータセット上でSZZアルゴリズムを評価するユニークな機会を提供する。 本稿では6つのSZZアルゴリズムを76,046対のバグ修正パッチとLinuxカーネルからのバグ導入コミットに適用する。 以上の結果から,SZZアルゴリズムは,Rosaらによる以前の結果と比較して,データセットのリコール率(13.8%)が大幅に低下し,個々のSZZアルゴリズムの相違が減少していることが判明した。 さらに、バグ修正コミットの17.47%がゴーストコミットであることがわかった。 最後に、バグフィックスコミットで修正または削除された行の変更履歴のすべてのコミットをトレースするトレースコミットszz(tc-szz)を提案する。 TC-SZZをゴーストコミットを除くすべての障害事例に適用すると、T-SZZが17.7%を特定できることがわかった。 さらに分析したところ、バグ誘発コミットの34.6%が機能履歴、27.5%がファイル履歴(機能履歴ではない)、そして...であった。

The SZZ algorithm is used to connect bug-fixing commits to the earlier commits that introduced bugs. This algorithm has many applications and many variants have been devised. However, there are some types of commits that cannot be traced by the SZZ algorithm, referred to as "ghost commits". The evaluation of how these ghost commits impact the SZZ algorithm remains limited. Moreover, these algorithms have been evaluated on datasets created by software engineering researchers from information in bug trackers and version controlled histories. Since Oct 2013, the Linux kernel developers have started labelling bug-fixing patches with the commit identifiers of the corresponding bug-inducing commit(s) as a standard practice. As of v6.1-rc5, 76,046 pairs of bug-fixing patches and bug-inducing commits are available. This provides a unique opportunity to evaluate the SZZ algorithm on a large dataset that has been created and reviewed by project developers, entirely independently of the biases of software engineering researchers. In this paper, we apply six SZZ algorithms to 76,046 pairs of bug-fixing patches and bug-introducing commits from the Linux kernel. Our findings reveal that SZZ algorithms experience a more significant decline in recall on our dataset (13.8%) as compared to prior findings reported by Rosa et al., and the disparities between the individual SZZ algorithms diminish. Moreover, we find that 17.47% of bug-fixing commits are ghost commits. Finally, we propose Tracing-Commit SZZ (TC-SZZ), that traces all commits in the change history of lines modified or deleted in bug-fixing commits. Applying TC-SZZ to all failure cases, excluding ghost commits, we found that TC-SZZ could identify 17.7% of them. Our further analysis found that 34.6% of bug-inducing commits were in the function history, 27.5% in the file history (but not in the function history), and...
翻訳日:2023-10-23 14:50:52 公開日:2023-08-09
# A/Bテスト: 体系的な文献レビュー

A/B Testing: A Systematic Literature Review ( http://arxiv.org/abs/2308.04929v1 )

ライセンス: Link先を確認
Federico Quin and Danny Weyns and Matthias Galster and Camila Costa Silva(参考訳) A/Bテストでは、エンドユーザーの視点で2種類のソフトウェアをフィールドで比較し、データ駆動による意思決定を可能にする。 実際に広く用いられているが、A/Bテストの最先端について包括的な研究は行われていない。 本報告では,141の初等研究を分析した系統的な文献レビューの結果を報告する。 その結果、A/Bテストの主なターゲットはアルゴリズムと視覚要素であることがわかった。 古典的なA/Bテストは支配的なテストである。 A/Bテストの設計には、コンセプトデザイナ、実験アーキテクト、セットアップ技術者の3つの主要な役割がある。 a/bテストの実行中に収集されるデータの主なタイプは、製品/システムデータとユーザ中心のデータである。 テスト結果の優位な利用は、機能選択、機能ロールアウト、継続的な機能開発である。 A/Bテスト実行において、ステークホルダーは2つの主要な役割を持っている。 オープンな問題の主な報告は、提案されたアプローチとユーザビリティの向上である。 A/Bテストにおける統計手法の採用の強化、A/Bテストのプロセスの改善、A/Bテストの自動化の強化。

In A/B testing two variants of a piece of software are compared in the field from an end user's point of view, enabling data-driven decision making. While widely used in practice, no comprehensive study has been conducted on the state-of-the-art in A/B testing. This paper reports the results of a systematic literature review that analyzed 141 primary studies. The results shows that the main targets of A/B testing are algorithms and visual elements. Single classic A/B tests are the dominating type of tests. Stakeholders have three main roles in the design of A/B tests: concept designer, experiment architect, and setup technician. The primary types of data collected during the execution of A/B tests are product/system data and user-centric data. The dominating use of the test results are feature selection, feature rollout, and continued feature development. Stakeholders have two main roles during A/B test execution: experiment coordinator and experiment assessor. The main reported open problems are enhancement of proposed approaches and their usability. Interesting lines for future research include: strengthen the adoption of statistical methods in A/B testing, improving the process of A/B testing, and enhancing the automation of A/B testing.
翻訳日:2023-10-23 14:49:47 公開日:2023-08-09
# チャットボットによるチャットセッションからのユーザ発話の参照方法の比較--ユーザのプライバシの懸念と知覚について

Comparing How a Chatbot References User Utterances from Previous Chatting Sessions: An Investigation of Users' Privacy Concerns and Perceptions ( http://arxiv.org/abs/2308.04879v1 )

ライセンス: Link先を確認
Samuel Rhys Cox and Yi-Chieh Lee and Wei Tsang Ooi(参考訳) チャットボットは過去の会話を記憶し、参照することができるが、これはユーザーのエンゲージメントを高めるか、プライバシーを侵害するか? このトレードオフを探るため,チャットボットがユーザとの以前の会話をどのように参照しているか,ユーザの認識やプライバシの懸念に対する影響について検討した。 対象間の3週間の縦断調査では,169人の被験者が,前者の発話を明示的に参照しないチャットボット(1-None),前者の発話を引用しない(2-Verbatim),前者の発話を口頭で参照する(3-Paraphrase)。 参加者は、動詞とパラフレーズのチャットボットをより賢く、魅力的だと感じた。 しかし、Verbatimチャットボットは参加者のプライバシーも懸念した。 なぜ人々が特定の条件を好むのか、プライバシーに懸念があるのかについての洞察を得るために、私たちは15人の参加者と半構造化されたインタビューを行った。 本研究は,従来のユーザの発話を参照するための適切な形式を設計者が選択し,対話スクリプティングの設計にインフォメーションすることを支援する。

Chatbots are capable of remembering and referencing previous conversations, but does this enhance user engagement or infringe on privacy? To explore this trade-off, we investigated the format of how a chatbot references previous conversations with a user and its effects on a user's perceptions and privacy concerns. In a three-week longitudinal between-subjects study, 169 participants talked about their dental flossing habits to a chatbot that either, (1-None): did not explicitly reference previous user utterances, (2-Verbatim): referenced previous utterances verbatim, or (3-Paraphrase): used paraphrases to reference previous utterances. Participants perceived Verbatim and Paraphrase chatbots as more intelligent and engaging. However, the Verbatim chatbot also raised privacy concerns with participants. To gain insights as to why people prefer certain conditions or had privacy concerns, we conducted semi-structured interviews with 15 participants. We discuss implications from our findings that can help designers choose an appropriate format to reference previous user utterances and inform in the design of longitudinal dialogue scripting.
翻訳日:2023-10-23 14:49:23 公開日:2023-08-09
# 生成モデルによる材料の多様性と有用性の評価

Evaluating the diversity and utility of materials proposed by generative models ( http://arxiv.org/abs/2309.12323v1 )

ライセンス: Link先を確認
Alexander New, Michael Pekala, Elizabeth A. Pogue, Nam Q. Le, Janna Domenico, Christine D. Piatko, Christopher D. Stiles(参考訳) 生成機械学習モデルは、科学的モデリングによって生成されたデータを使用して、大量の新しい素材構造を作成することができる。 本稿では, 逆設計プロセスの一部として, 物理誘導結晶生成モデル (PGCGM) をいかに利用できるかを評価する。 デフォルトの PGCGM の入力空間はパラメータの変動に対して滑らかではなく,材料最適化が困難で制限されていることを示す。 また,ほとんどの構造は,領域外データの問題から,別の特性予測モデルによって熱力学的に不安定であると予測されている。 本研究は, 逆設計を改善するために, 生成モデルをどのように改善するかを示唆する。

Generative machine learning models can use data generated by scientific modeling to create large quantities of novel material structures. Here, we assess how one state-of-the-art generative model, the physics-guided crystal generation model (PGCGM), can be used as part of the inverse design process. We show that the default PGCGM's input space is not smooth with respect to parameter variation, making material optimization difficult and limited. We also demonstrate that most generated structures are predicted to be thermodynamically unstable by a separate property-prediction model, partially due to out-of-domain data challenges. Our findings suggest how generative models might be improved to enable better inverse design.
翻訳日:2023-10-23 06:59:50 公開日:2023-08-09
# 暗号通貨の上昇と下落:ブロックチェーン技術の経済的・社会的価値の定義、機会の評価、メタバースの金融・サイバーセキュリティリスクの定義

The Rise and Fall of Cryptocurrencies: Defining the Economic and Social Values of Blockchain Technologies, assessing the Opportunities, and defining the Financial and Cybersecurity Risks of the Metaverse ( http://arxiv.org/abs/2309.12322v1 )

ライセンス: Link先を確認
Petar Radanliev(参考訳) この論文は「なぜ暗号通貨がクラッシュしているのか?」「なぜ暗号通貨がダウンしているのか?」という一般的な質問を文脈的に分析し、この研究は頻繁な市場の変動を超えて、暗号通貨が根本的に機能するかを解明し、暗号通貨の作り方に関するステップバイステップのプロセスを解明する。 この研究は、Metaverseの進化におけるブロックチェーン技術とその重要な役割を調べ、暗号通貨への投資方法、暗号マイニングの背後にあるメカニズム、暗号通貨を効果的に売買する戦略などのトピックに光を当てている。 学際的なアプローチを通じて、研究はフィンテック投資戦略の基本原則からメタバース内のブロックチェーンの包括的意味へと移行する。 金融分野における機械学習の可能性とリスクアセスメント手法を探求すると同時に、先進国と発展途上国がこれらの技術からより多くの利益を享受できるかどうかを批判的に評価している。 さらに、永続性と疑わしい暗号プロジェクトの両方を調査し、本物のブロックチェーンアプリケーションとPonziのようなスキームの間に明確な線を引く。 この結論は、本質的な価値の深い調査と、個々の投資家が直面する潜在的なリスクに関する著者の反省的なコメントによって示された、ブロックチェーン技術の継続的な支配を確証するものだ。

This paper contextualises the common queries of "why is crypto crashing?" and "why is crypto down?", the research transcends beyond the frequent market fluctuations to unravel how cryptocurrencies fundamentally work and the step-by-step process on how to create a cryptocurrency. The study examines blockchain technologies and their pivotal role in the evolving Metaverse, shedding light on topics such as how to invest in cryptocurrency, the mechanics behind crypto mining, and strategies to effectively buy and trade cryptocurrencies. Through an interdisciplinary approach, the research transitions from the fundamental principles of fintech investment strategies to the overarching implications of blockchain within the Metaverse. Alongside exploring machine learning potentials in financial sectors and risk assessment methodologies, the study critically assesses whether developed or developing nations are poised to reap greater benefits from these technologies. Moreover, it probes into both enduring and dubious crypto projects, drawing a distinct line between genuine blockchain applications and Ponzi-like schemes. The conclusion resolutely affirms the continuing dominance of blockchain technologies, underlined by a profound exploration of their intrinsic value and a reflective commentary by the author on the potential risks confronting individual investors.
翻訳日:2023-10-23 06:59:39 公開日:2023-08-09
# 固有ベクトルドリーム

Eigenvector Dreaming ( http://arxiv.org/abs/2308.13445v1 )

ライセンス: Link先を確認
Marco Benedetti and Louis Carillo and Enzo Marinari and Marc M\`ezard(参考訳) 連想記憶を実装するホップフィールド型ネットワークのパフォーマンス向上手順の中で、ヘビーアンアンラーニング(またはドリームニング)は、その単純さと明確な生物学的解釈を追求している。 しかし、それは明らかに分析的な理解に役立てるものではない。 ここでは、結合行列のスペクトルと固有ベクトルの単純な進化の観点から、Hebbian Unlearningを効果的に記述する方法を示す。 これらのアイデアを,計算的な観点から有効で,解析的にも元のスキームよりもはるかに透過的な新たなドリームアルゴリズムの設計に活用する。

Among the performance-enhancing procedures for Hopfield-type networks that implement associative memory, Hebbian Unlearning (or dreaming) strikes for its simplicity and its clear biological interpretation. Yet, it does not easily lend itself to a clear analytical understanding. Here we show how Hebbian Unlearning can be effectively described in terms of a simple evolution of the spectrum and the eigenvectors of the coupling matrix. We use these ideas to design new dreaming algorithms that are effective from a computational point of view, and are analytically far more transparent than the original scheme.
翻訳日:2023-09-03 21:42:00 公開日:2023-08-09
# 大規模言語モデルの予期せぬ能力について

On the Unexpected Abilities of Large Language Models ( http://arxiv.org/abs/2308.09720v1 )

ライセンス: Link先を確認
Stefano Nolfi(参考訳) 大規模な言語モデルでは、訓練対象のタスクとは直接関係のない幅広い能力、すなわち、人間が書いたテキストの次の単語を予測することができる。 本稿では、この間接的獲得プロセスの性質と、他の既知の間接的プロセスとの関係について論じる。 このような間接的獲得の重要な副作用は、統合能力の開発であると私は主張する。 大規模言語モデルで開発された能力がどの程度予測可能かについて議論する。 最後に,これらのシステムによって獲得された認知能力と人間の認知との関係について概説する。

Large language models are capable of displaying a wide range of abilities that are not directly connected with the task for which they are trained: predicting the next words of human-written texts. In this article, I discuss the nature of this indirect acquisition process and its relation to other known indirect processes. I argue that an important side effect of such indirect acquisition is the development of integrated abilities. I discuss the extent to which the abilities developed by large language models are predictable. Finally, I briefly discuss the relation between the cognitive skills acquired by these systems and human cognition.
翻訳日:2023-08-27 05:16:39 公開日:2023-08-09
# ブラックジャックの強化学習性能の変動

Variations on the Reinforcement Learning performance of Blackjack ( http://arxiv.org/abs/2308.07329v1 )

ライセンス: Link先を確認
Avish Buramdoyal, Tim Gebbie(参考訳) ブラックジャック(blackjack)または「21」は、カードベースの人気ゲームである。 ゲームの目的は、ディーラーより合計で21を超えることなく、ディーラーより高い手を得ることである。 理想的なブラックジャック戦略は、ギャンブラーの崩壊を避けながら、長期的に金融リターンを最大化する。 ブラックジャックの確率的環境と固有報酬構造は,環境変動の存在下での強化学習エージェントの理解を深めるための魅力的な問題である。 本稿では,最適遊びのためのq-learningソリューションを検討し,アルゴリズムの学習収束率をデッキサイズ関数として検討する。 また、ブラックジャックルールの普遍化を可能にするブラックジャックシミュレータを実装し、基本戦略とハイロシステムを用いてカードカウンタがハウスを倒産させ、環境変動がこの結果にどのように影響するかを示す。 我々の研究の新規性は、学習エージェント収束の文脈におけるデッキサイズの影響に関するこの概念的理解を配置することである。

Blackjack or "21" is a popular card-based game of chance and skill. The objective of the game is to win by obtaining a hand total higher than the dealer's without exceeding 21. The ideal blackjack strategy will maximize financial return in the long run while avoiding gambler's ruin. The stochastic environment and inherent reward structure of blackjack presents an appealing problem to better understand reinforcement learning agents in the presence of environment variations. Here we consider a q-learning solution for optimal play and investigate the rate of learning convergence of the algorithm as a function of deck size. A blackjack simulator allowing for universal blackjack rules is also implemented to demonstrate the extent to which a card counter perfectly using the basic strategy and hi-lo system can bring the house to bankruptcy and how environment variations impact this outcome. The novelty of our work is to place this conceptual understanding of the impact of deck size in the context of learning agent convergence.
翻訳日:2023-08-20 16:29:16 公開日:2023-08-09
# 電子健康記録の動的情報検索のための概念化機械学習

Conceptualizing Machine Learning for Dynamic Information Retrieval of Electronic Health Record Notes ( http://arxiv.org/abs/2308.08494v1 )

ライセンス: Link先を確認
Sharon Jiang, Shannon Shen, Monica Agrawal, Barbara Lam, Nicholas Kurtzman, Steven Horng, David Karger, David Sontag(参考訳) 臨床医が患者のメモや電子健康記録(ehrs)の文書化に費やす時間が多いことは、臨床医のバーンアウトの主要な原因である。 ドキュメンテーションプロセス中に関連文書を積極的に動的に検索することにより、関連する患者履歴を見つけるのに必要な労力を減らすことができる。 本研究では,特定の時点において,特定の臨床文脈における注記関連性の監督の源泉として,機械学習における EHR 監査ログの使用を概念化する。 本評価は,情報検索とノートライティングのユニークなパターンを持つ高明度設定である救急部における動的検索に焦点をあてる。 本手法は,個々のノート作成セッションでどのノートが読み込まれるかを予測するために0.963のAUCを実現できることを示す。 さらに,いくつかの臨床医とユーザスタディを行い,臨床医がより効率的に関連情報を検索するのに役立つことを発見した。 この要求された設定で我々のフレームワークとメソッドがうまく機能することを実証することは、他の臨床設定やデータモダリティ(例えば、ラボ、医薬品、イメージング)に翻訳するという概念の有望な証明である。

The large amount of time clinicians spend sifting through patient notes and documenting in electronic health records (EHRs) is a leading cause of clinician burnout. By proactively and dynamically retrieving relevant notes during the documentation process, we can reduce the effort required to find relevant patient history. In this work, we conceptualize the use of EHR audit logs for machine learning as a source of supervision of note relevance in a specific clinical context, at a particular point in time. Our evaluation focuses on the dynamic retrieval in the emergency department, a high acuity setting with unique patterns of information retrieval and note writing. We show that our methods can achieve an AUC of 0.963 for predicting which notes will be read in an individual note writing session. We additionally conduct a user study with several clinicians and find that our framework can help clinicians retrieve relevant information more efficiently. Demonstrating that our framework and methods can perform well in this demanding setting is a promising proof of concept that they will translate to other clinical settings and data modalities (e.g., labs, medications, imaging).
翻訳日:2023-08-20 16:21:11 公開日:2023-08-09
# TBIN:CTR予測のための長文行動データモデリング

TBIN: Modeling Long Textual Behavior Data for CTR Prediction ( http://arxiv.org/abs/2308.08483v1 )

ライセンス: Link先を確認
Shuwei Chen, Xiang Li, Jian Dong, Jin Zhang, Yongkang Wang and Xingxing Wang(参考訳) クリックスルー率(CTR)予測は、レコメンデーションの成功において重要な役割を果たす。 近年の言語モデル (LM) の発展に触発されて, ユーザ行動データをtextbf{textual} 形式で整理し, 意味レベルでのユーザ関心を理解するためにLMを用いて予測を改善する作業が急増した。 有望な一方で、これらの研究は lms における自己アテンションの二次計算オーバーヘッドを減らすために、テキストデータを切り離さなければならない。 しかし,長期間のユーザ行動データがCTR予測に大きく寄与することが研究されている。 さらに、これらの作業は通常、ユーザの多様な関心事を単一の特徴ベクトルに集約し、モデルの表現能力を妨げる。 本稿では, 局所性に敏感なハッシュアルゴリズムとシフトしたチャンクベースの自己アテンションを組み合わせることで, 上記の制限に対処する, エクストリームな \textbf{T}extual \textbf{B}ehavior-based \textbf{I}nterest Chunking \textbf{N}etwork (TBIN) を提案する。 その結果、ユーザの多様な興味が動的に活性化され、ターゲットアイテムに対するユーザの関心表現が生成される。 最後に、実世界の食品レコメンデーションプラットフォームにおけるオフラインおよびオンライン両方の実験の結果、TBINの有効性を示した。

Click-through rate (CTR) prediction plays a pivotal role in the success of recommendations. Inspired by the recent thriving of language models (LMs), a surge of works improve prediction by organizing user behavior data in a \textbf{textual} format and using LMs to understand user interest at a semantic level. While promising, these works have to truncate the textual data to reduce the quadratic computational overhead of self-attention in LMs. However, it has been studied that long user behavior data can significantly benefit CTR prediction. In addition, these works typically condense user diverse interests into a single feature vector, which hinders the expressive capability of the model. In this paper, we propose a \textbf{T}extual \textbf{B}ehavior-based \textbf{I}nterest Chunking \textbf{N}etwork (TBIN), which tackles the above limitations by combining an efficient locality-sensitive hashing algorithm and a shifted chunk-based self-attention. The resulting user diverse interests are dynamically activated, producing user interest representation towards the target item. Finally, the results of both offline and online experiments on real-world food recommendation platform demonstrate the effectiveness of TBIN.
翻訳日:2023-08-20 16:20:29 公開日:2023-08-09
# 脳波を用いた視線推定のための解釈と注意に基づく方法

An Interpretable and Attention-based Method for Gaze Estimation Using Electroencephalography ( http://arxiv.org/abs/2308.05768v1 )

ライセンス: Link先を確認
Nina Weng, Martyna Plomecka, Manuel Kaufmann, Ard Kastrati, Roger Wattenhofer, Nicolas Langer(参考訳) 眼球運動は、人間の精神過程、身体的幸福、行動の様々な側面に関する貴重な洞察を明らかにすることができる。 近年,脳波活動と眼球運動を同時に記録するデータセットがいくつか公開されている。 このことが脳活動に基づいて視線方向を予測する様々な手法の開発のきっかけとなった。 しかし、これらの方法のほとんどには解釈性が欠けており、技術受容が制限されている。 本稿では、脳波データから視線推定を行うための解釈可能なモデルを提案し、同時に測定された脳波(EEG)と視線追跡の大規模なデータセットを利用する。 より具体的には、脳波信号分析のための新しい注目に基づくディープラーニングフレームワークを提案する。 さらに,提案フレームワークを包括的に評価し,精度とロバスト性の観点から現在の手法よりも優れていることを示す。 最後に,分析結果を説明する可視化を行い,様々なアプリケーションにおける脳波データ解析の効率と有効性を改善するための注意メカニズムの可能性を強調した。

Eye movements can reveal valuable insights into various aspects of human mental processes, physical well-being, and actions. Recently, several datasets have been made available that simultaneously record EEG activity and eye movements. This has triggered the development of various methods to predict gaze direction based on brain activity. However, most of these methods lack interpretability, which limits their technology acceptance. In this paper, we leverage a large data set of simultaneously measured Electroencephalography (EEG) and Eye tracking, proposing an interpretable model for gaze estimation from EEG data. More specifically, we present a novel attention-based deep learning framework for EEG signal analysis, which allows the network to focus on the most relevant information in the signal and discard problematic channels. Additionally, we provide a comprehensive evaluation of the presented framework, demonstrating its superiority over current methods in terms of accuracy and robustness. Finally, the study presents visualizations that explain the results of the analysis and highlights the potential of attention mechanism for improving the efficiency and effectiveness of EEG data analysis in a variety of applications.
翻訳日:2023-08-14 16:04:33 公開日:2023-08-09
# クロスデータセット感情認識のための脳波に基づく感情スタイル伝達ネットワーク

EEG-based Emotion Style Transfer Network for Cross-dataset Emotion Recognition ( http://arxiv.org/abs/2308.05767v1 )

ライセンス: Link先を確認
Yijin Zhou, Fu Li, Yang Li, Youshuo Ji, Lijian Zhang, Yuanfang Chen, Wenming Zheng, Guangming Shi(参考訳) ABCIを実現する鍵として、脳波の感情認識は多くの研究者によって広く研究されている。 従来,脳波内感情認識の手法は良好であった。 しかし、ソースドメイン(トレーニングデータ)とターゲットドメイン(テストデータ)のEEGサンプル間のスタイルミスマッチは、大きなドメイン間差によって引き起こされる。 本稿では,eeg感情認識のクロスデータセットの課題を解決するために,e2stn(eeg-based emotion style transfer network)を提案する。 この表現は、データセット間の識別予測に役立つ。 具体的には、E2STNは、転送モジュール、転送評価モジュール、識別予測モジュールの3つのモジュールから構成される。 転送モジュールは、ソースドメインとターゲットドメインのドメイン固有の情報を符号化し、ソースドメインの感情パターンとターゲットドメインの統計特性を新しいスタイリングされたEEG表現に再構成する。 このプロセスでは、転送評価モジュールを用いて生成された表現を制約し、ソースおよびターゲットドメインからの2種類の補完情報をより正確に融合させ、歪みを避ける。 最後に、生成されたスタイリングされたEEG表現を最終分類のための識別予測モジュールに入力する。 広汎な実験により、E2STNは、クロスデータセットのEEG感情認識タスクにおける最先端のパフォーマンスを達成できることが示されている。

As the key to realizing aBCIs, EEG emotion recognition has been widely studied by many researchers. Previous methods have performed well for intra-subject EEG emotion recognition. However, the style mismatch between source domain (training data) and target domain (test data) EEG samples caused by huge inter-domain differences is still a critical problem for EEG emotion recognition. To solve the problem of cross-dataset EEG emotion recognition, in this paper, we propose an EEG-based Emotion Style Transfer Network (E2STN) to obtain EEG representations that contain the content information of source domain and the style information of target domain, which is called stylized emotional EEG representations. The representations are helpful for cross-dataset discriminative prediction. Concretely, E2STN consists of three modules, i.e., transfer module, transfer evaluation module, and discriminative prediction module. The transfer module encodes the domain-specific information of source and target domains and then re-constructs the source domain's emotional pattern and the target domain's statistical characteristics into the new stylized EEG representations. In this process, the transfer evaluation module is adopted to constrain the generated representations that can more precisely fuse two kinds of complementary information from source and target domains and avoid distorting. Finally, the generated stylized EEG representations are fed into the discriminative prediction module for final classification. Extensive experiments show that the E2STN can achieve the state-of-the-art performance on cross-dataset EEG emotion recognition tasks.
翻訳日:2023-08-14 16:04:17 公開日:2023-08-09
# 心不全患者における樹外特徴選択とランダム森林分類器のパワー解放による生存予測の改善

Unleashing the Power of Extra-Tree Feature Selection and Random Forest Classifier for Improved Survival Prediction in Heart Failure Patients ( http://arxiv.org/abs/2308.05765v1 )

ライセンス: Link先を確認
Md. Simul Hasan Talukder, Rejwan Bin Sulaiman, Mouli Bardhan Paul Angon(参考訳) 心臓不全は、世界中の何百万人もの人に影響を及ぼす生命の危険がある状態です。 患者の生存率を正確に予測する能力は、早期の介入を助け、患者の予後を改善する。 本研究では, ランダムフォレスト (rf) 分類器を併用した心不全患者の生存予測手法として, データプリプロセッシング手法とextra-tree (et) 特徴選択手法の活用の可能性を検討する。 ETの特徴選択の強みを活用することにより,心不全の生存に伴う有意な予測因子の同定を目指す。 一般のUCL心不全(HF)生存データセットを用いて,ET特徴選択アルゴリズムを用いて最も有用な特徴を同定する。 これらの特徴はRFのグリッドサーチの入力として使用される。 最後に、異なる行列を用いて調整されたRFモデルを訓練し評価した。 このアプローチは98.33%の精度で達成された。

Heart failure is a life-threatening condition that affects millions of people worldwide. The ability to accurately predict patient survival can aid in early intervention and improve patient outcomes. In this study, we explore the potential of utilizing data pre-processing techniques and the Extra-Tree (ET) feature selection method in conjunction with the Random Forest (RF) classifier to improve survival prediction in heart failure patients. By leveraging the strengths of ET feature selection, we aim to identify the most significant predictors associated with heart failure survival. Using the public UCL Heart failure (HF) survival dataset, we employ the ET feature selection algorithm to identify the most informative features. These features are then used as input for grid search of RF. Finally, the tuned RF Model was trained and evaluated using different matrices. The approach was achieved 98.33% accuracy that is the highest over the exiting work.
翻訳日:2023-08-14 16:03:33 公開日:2023-08-09
# 心臓MRIからの知識伝達による心電図診断の可能性

Unlocking the Diagnostic Potential of ECG through Knowledge Transfer from Cardiac MRI ( http://arxiv.org/abs/2308.05764v1 )

ライセンス: Link先を確認
\"Ozg\"un Turgut, Philip M\"uller, Paul Hager, Suprosanna Shit, Sophie Starck, Martin J. Menten, Eimo Martens, Daniel Rueckert(参考訳) 心電図(Electrocardiogram、ECG)は、心臓血管の健康を低コストかつ迅速に評価できる診断ツールである。 しかし, 心血管疾患の診断には, より詳細な心磁気共鳴(CMR)画像検査が好まれる。 心臓解剖を詳細に視覚化する一方、CMR画像は長期のスキャン時間と高コストのために広くは利用できない。 そこで本研究では,CMR画像からECG埋め込みへドメイン固有情報を転送する,自己教師付きコントラスト方式を提案する。 マルチモーダルコントラスト学習とマスキングデータモデリングを組み合わせることにより、心電図データのみから総合的な心臓スクリーニングを可能にする。 40,044人の英国バイオバンクの被験者のデータを用いた広範囲な実験において,本手法の有用性と一般化性を実証した。 各種心血管疾患の被検者固有のリスクを予測し,心電図データのみから異なる心臓表現型を決定する。 定性的分析では、学習したECG埋め込みが関心のあるCMR画像領域からの情報を組み込むことを示した。 ソースコードやトレーニング済みモデルの重みなど、パイプライン全体を公開しています。

The electrocardiogram (ECG) is a widely available diagnostic tool that allows for a cost-effective and fast assessment of the cardiovascular health. However, more detailed examination with expensive cardiac magnetic resonance (CMR) imaging is often preferred for the diagnosis of cardiovascular diseases. While providing detailed visualization of the cardiac anatomy, CMR imaging is not widely available due to long scan times and high costs. To address this issue, we propose the first self-supervised contrastive approach that transfers domain-specific information from CMR images to ECG embeddings. Our approach combines multimodal contrastive learning with masked data modeling to enable holistic cardiac screening solely from ECG data. In extensive experiments using data from 40,044 UK Biobank subjects, we demonstrate the utility and generalizability of our method. We predict the subject-specific risk of various cardiovascular diseases and determine distinct cardiac phenotypes solely from ECG data. In a qualitative analysis, we demonstrate that our learned ECG embeddings incorporate information from CMR image regions of interest. We make our entire pipeline publicly available, including the source code and pre-trained model weights.
翻訳日:2023-08-14 16:03:18 公開日:2023-08-09
# 機械学習による量子場理論の復号化

Decoding Quantum Field Theory with Machine Learning ( http://arxiv.org/abs/1910.03637v3 )

ライセンス: Link先を確認
Daniel Grimmer, Irene Melgarejo-Lermas, Jos\'e Polo-G\'omez and Eduardo Mart\'in-Mart\'inez(参考訳) 我々は、実験をデザインする技術的困難を回避し、その結果を量子場の基本的な特徴に関する具体的な主張に翻訳するために、機械学習技術をどのように利用できるかを実証する。 実際には、量子場の全ての測定は局所プローブによって行われる。 フィールドのほんの一部しか測定していないにもかかわらず、そのような局所的な測定はフィールドのグローバルな特徴の多くを明らかにする能力を持っている。 これは、量子場が環境と平衡するときに、スクランブルな方法ではあっても、グローバル情報をローカルに保存するからである。 ニューラルネットワークは、非常に単純なワンサイズ全局所測定プロトコルから生成されたデータから、この情報を解き放つように訓練できることを示す。 この一般的な主張を説明するために、フィールドの3つの非自明な特徴をケーススタディとして考察する。 a) 電界が定常状態にある限り、粒子検出器は、信号が電界から検出器に伝播する時間がある場合であっても、電界の境界条件を学習することができる。 b) 検出器は、加熱することなく、いかにして量子場の温度を決定することができるか、及び c) すべての二次作用素の第一モーメントと第二モーメントが一致する場合でも、検出器がどのようにフォック状態とコヒーレント状態とを区別できるか。 これらの例はそれぞれ、まったく同じ単純な固定ローカル測定プロトコルと機械学習のansatzがうまく使われている。 これは、ここで提案されている枠組みが場のほとんどあらゆる局所的な測定に適用でき、その場の大域的性質を全て1次元の方法で明らかにできるという主張を裏付けている。

We demonstrate how one can use machine learning techniques to bypass the technical difficulties of designing an experiment and translating its outcomes into concrete claims about fundamental features of quantum fields. In practice, all measurements of quantum fields are carried out through local probes. Despite measuring only a small portion of the field, such local measurements have the capacity to reveal many of the field's global features. This is because, when in equilibrium with their environments, quantum fields store global information locally, albeit in a scrambled way. We show that neural networks can be trained to unscramble this information from data generated from a very simple one-size-fits-all local measurement protocol. To illustrate this general claim we will consider three non-trivial features of the field as case studies: a) how, as long as the field is in a stationary state, a particle detector can learn about the field's boundary conditions even before signals have time to propagate from the boundary to the detector, b) how detectors can determine the temperature of the quantum field even without thermalizing with it, and c) how detectors can distinguish between Fock states and coherent states even when the first and second moments of all their quadrature operators match. Each of these examples uses the exact same simple fixed local measurement protocol and machine-learning ansatz successfully. This supports the claim that the framework proposed here can be applied to nearly any kind of local measurement on a quantum field to reveal nearly any of the field's global properties in a one-size-fits-all manner.
翻訳日:2023-08-11 17:02:03 公開日:2023-08-09
# マルチアトラス誘導3次元完全畳み込みネットワークアンサンブルによる脳分割

Brain segmentation based on multi-atlas guided 3D fully convolutional network ensembles ( http://arxiv.org/abs/1901.01381v2 )

ライセンス: Link先を確認
Jiong Wu and Xiaoying Tang(参考訳) 本研究では,構造磁気共鳴画像(mri)から脳の関心領域(rois)を分割するためのマルチアトラス誘導型3次元完全畳み込みネットワーク(fcn)モデル(m-fcn)を提案し,検証した。 既存の最先端の3D FCNセグメンテーションモデルの1つの大きな制限は、トレーニングとテストの間、しばしば一定の大きさのイメージパッチを適用し、異なる脳ROIの複雑な組織の外観パターンを見逃すことである。 この制限に対処するため、我々は各ROIの3次元FCNモデルを適応サイズのパッチとデコンボリューション層内の畳み込み層の組込み出力を用いて訓練し、局所的およびグローバルなコンテキストパターンをさらに捉えた。 さらに,M-FCNにおけるマルチアトラスに基づくガイダンスの導入により,画像とラベルの情報を組み合わせたセグメンテーションが実現された。 学習データに対するfcnモデルの過剰フィッティングを低減するために,学習手順においてアンサンブル戦略を採用した。 2つの脳MRIデータセットを用いて、それぞれ14の皮質下および心室構造と54の脳ROIのセグメンテーションを目的とした評価を行った。 提案手法のセグメンテーション結果と最先端のマルチアトラスベースセグメンテーション法と既存の3次元fcnセグメンテーションモデルとの比較を行った。 その結果,提案手法はセグメンテーション性能に優れていた。

In this study, we proposed and validated a multi-atlas guided 3D fully convolutional network (FCN) ensemble model (M-FCN) for segmenting brain regions of interest (ROIs) from structural magnetic resonance images (MRIs). One major limitation of existing state-of-the-art 3D FCN segmentation models is that they often apply image patches of fixed size throughout training and testing, which may miss some complex tissue appearance patterns of different brain ROIs. To address this limitation, we trained a 3D FCN model for each ROI using patches of adaptive size and embedded outputs of the convolutional layers in the deconvolutional layers to further capture the local and global context patterns. In addition, with an introduction of multi-atlas based guidance in M-FCN, our segmentation was generated by combining the information of images and labels, which is highly robust. To reduce over-fitting of the FCN model on the training data, we adopted an ensemble strategy in the learning procedure. Evaluation was performed on two brain MRI datasets, aiming respectively at segmenting 14 subcortical and ventricular structures and 54 brain ROIs. The segmentation results of the proposed method were compared with those of a state-of-the-art multi-atlas based segmentation method and an existing 3D FCN segmentation model. Our results suggested that the proposed method had a superior segmentation performance.
翻訳日:2023-08-11 17:01:40 公開日:2023-08-09
# 周波数分解型単一光子検出器のナノスケールアーキテクチャ

Nanoscale Architecture for Frequency-Resolving Single-Photon Detectors ( http://arxiv.org/abs/2205.05817v2 )

ライセンス: Link先を確認
Steve M. Young, Mohan Sarovar, Fran\c{c}ois L\'eonard(参考訳) 単一光子検出器は、いくつかの基礎科学および技術応用において重要な役割を果たす。 高性能化が進んでいるが、高性能を維持しつつ光子周波数を解消できる単一光子検出器はいまだに不足している。 量子シミュレーションにより、光検出器アーキテクチャにおける光子場と協調的に相互作用するナノスケール素子により、高効率、低ジッタ、高周波数分解能を同時に達成できることを示す。 本稿では,このような協調的相互作用が,このパフォーマンス体制に到達する上でいかに不可欠であるかを論じる。 可視域における1eV帯域での周波数分解能の潜在的な性能について, ほぼ完全な検出効率, 数百フェムト秒のジッタ, 数十MeVの周波数分解能を示す。 最後に、そのようなアーキテクチャの潜在的な物理的実現は量子ドットで機能化されたカーボンナノチューブに基づいて提示される。

Single photon detectors play a key role across several basic science and technology applications. While progress has been made in improving performance, single photon detectors that can maintain high performance while also resolving the photon frequency are still lacking. By means of quantum simulations, we show that nanoscale elements cooperatively interacting with the photon field in a photodetector architecture allow to simultaneously achieve high efficiency, low jitter, and high frequency resolution. We discuss how such cooperative interactions are essential to reach this performance regime, analyzing the factors that impact performance and trade-offs between metrics. We illustrate the potential performance for frequency resolution over a 1 eV bandwidth in the visible range, indicating near perfect detection efficiency, jitter of a few hundred femtoseconds, and frequency resolution of tens of meV. Finally, a potential physical realization of such an architecture is presented based on carbon nanotubes functionalized with quantum dots.
翻訳日:2023-08-11 16:57:14 公開日:2023-08-09
# VAEアンタングメントにおける再建損失の展望

Overlooked Implications of the Reconstruction Loss for VAE Disentanglement ( http://arxiv.org/abs/2202.13341v3 )

ライセンス: Link先を確認
Nathan Michlo, Richard Klein, Steven James(参考訳) 変分オートエンコーダ(VAE)を用いた非絡み合い表現の学習は、しばしば損失の正規化成分に起因する。 本稿では,vaesにおける絡み合いの主な要因として,データと損失の再構築期間の相互作用に注目した。 標準ベンチマークデータセットは,典型的vae再構成損失による主観的基底因子と知覚軸との意図しない相関を示す。 我々の研究は、この関係を利用して、与えられた再構成損失の下での敵対的データセットを構成する理論を提供する。 我々は,人間の直観的な基盤要因を維持しつつ,最先端のフレームワークの絡み合いを防止できる例データセットを構築して検証する。 最後に, 再度地中因子を知覚可能な復元損失の例を考案し, 乱れを再現する。 本研究は, ゆがみの主観的性質と, 地下構造因子, データ, 特に文献で認識されていない復元損失の相互作用を考慮することの重要性を明らかにした。

Learning disentangled representations with variational autoencoders (VAEs) is often attributed to the regularisation component of the loss. In this work, we highlight the interaction between data and the reconstruction term of the loss as the main contributor to disentanglement in VAEs. We show that standard benchmark datasets have unintended correlations between their subjective ground-truth factors and perceived axes in the data according to typical VAE reconstruction losses. Our work exploits this relationship to provide a theory for what constitutes an adversarial dataset under a given reconstruction loss. We verify this by constructing an example dataset that prevents disentanglement in state-of-the-art frameworks while maintaining human-intuitive ground-truth factors. Finally, we re-enable disentanglement by designing an example reconstruction loss that is once again able to perceive the ground-truth factors. Our findings demonstrate the subjective nature of disentanglement and the importance of considering the interaction between the ground-truth factors, data and notably, the reconstruction loss, which is under-recognised in the literature.
翻訳日:2023-08-11 16:56:58 公開日:2023-08-09
# 連続等方性測定による曲線位相空間のコヒーレント測定の実施法 I. Spin and the Kraus-operator geometry of $\mathrm{SL}(2,\mathbb{C})$

How to perform the coherent measurement of a curved phase space by continuous isotropic measurement. I. Spin and the Kraus-operator geometry of $\mathrm{SL}(2,\mathbb{C})$ ( http://arxiv.org/abs/2107.12396v3 )

ライセンス: Link先を確認
Christopher S. Jackson and Carlton M. Caves(参考訳) スピン系の一般化された$Q$関数は、スピンコヒーレント状態(SCS)正積値測定(POVM)で表される測定対象状態の結果確率分布とみなすことができる。 SCS POVM はスピン系の2次元位相空間表現に基本的であるため、SCS POVM がスピン系に対して3つのスピン成分 (E. Shojaee, C. S. Jackson, C. A. Riofrio, A. Kalev, I. H. Deutsch, Phys. Rev. Lett. 121, 130404 (2018)) の連続等方性測定によって実行可能であることが最近報告されている。 本稿では、連続等方性測定の理論的詳細を考察し、量子系に対する曲線位相空間対応の一般的な文脈に配置する。 この解析は、連続等方性測定の過程で発展するクラウス作用素の観点によるものである。 任意のスピン $j$ のクラウス作用素は、リー群 $\mathrm{sl}(2,{\mathbb c})\cong\mathrm{spin}(3,{\mathbb c})$ の元を表すことが示され、これは通常のユニタリ作用素の複素バージョンであり、$\mathrm{su}(2)\cong\mathrm{spin}(3,{\mathbb r})$ の元を表す。 したがって、関連するPOVM元は対称空間 $\mathrm{SU}(2)\backslash\mathrm{SL}(2,{\mathbb C})$ の点を表し、これは3つの双曲型として認識できる。 3つの等価確率的手法、(ウィナー)経路積分、(フォッカー・プランク)拡散方程式、および確率微分方程式を適用し、連続等方的POVMが SCS~\hbox{POVM} に素早く制限されることを示し、球面位相空間を基本リー群 $\mathrm{SL}(2,{\mathbb C})$ の境界に演算的に有意な方法で配置する。 kraus-operator-centric分析は表現独立であり、それゆえ幾何学的(スピン成分のスペクトル情報に依存しない)である。

The generalized $Q$-function of a spin system can be considered the outcome probability distribution of a state subjected to a measurement represented by the spin-coherent-state (SCS) positive-operator-valued measure (POVM). As fundamental as the SCS POVM is to the 2-sphere phase-space representation of spin systems, it has only recently been reported that the SCS POVM can be performed for any spin system by continuous isotropic measurement of the three total spin components [E. Shojaee, C. S. Jackson, C. A. Riofrio, A. Kalev, and I. H. Deutsch, Phys. Rev. Lett. 121, 130404 (2018)]. This article develops the theoretical details of the continuous isotropic measurement and places it within the general context of curved-phase-space correspondences for quantum systems. The analysis is in terms of the Kraus operators that develop over the course of a continuous isotropic measurement. The Kraus operators of any spin $j$ are shown to represent elements of the Lie group $\mathrm{SL}(2,{\mathbb C})\cong\mathrm{Spin}(3,{\mathbb C})$, a complex version of the usual unitary operators that represent elements of $\mathrm{SU}(2)\cong\mathrm{Spin}(3,{\mathbb R})$. Consequently, the associated POVM elements represent points in the symmetric space $\mathrm{SU}(2)\backslash\mathrm{SL}(2,{\mathbb C})$, which can be recognized as the 3-hyperboloid. Three equivalent stochastic techniques, (Wiener) path integral, (Fokker-Planck) diffusion equation, and stochastic differential equations, are applied to show that the continuous isotropic POVM quickly limits to the SCS~\hbox{POVM}, placing spherical phase space at the boundary of the fundamental Lie group $\mathrm{SL}(2,{\mathbb C})$ in an operationally meaningful way. The Kraus-operator-centric analysis is representation independent -- and therefore geometric (independent of any spectral information about the spin components).
翻訳日:2023-08-11 16:54:51 公開日:2023-08-09
# RALACs:インタラクションエンコーディングと光フローを用いた自動運転車の行動認識

RALACs: Action Recognition in Autonomous Vehicles using Interaction Encoding and Optical Flow ( http://arxiv.org/abs/2209.14408v2 )

ライセンス: Link先を確認
Eddy Zhou, Alex Zhuang, Alikasim Budhwani, Rowan Dempster, Quanquan Li, Mohammad Al-Sharman, Derek Rayside, and William Melek(参考訳) 自律走行車(AV)設定に適用すると、行動認識は環境モデルの状況認識を高めることができる。 これは特に、avsの伝統的な幾何学的記述やヒューリスティックが不十分なシナリオで一般的である。 しかしながら、伝統的に人間の行動認識は研究されてきたが、ノイズに富んだ、無修正の生のRGBデータへの適応性には限界がある。 行動認識のAVへの進歩と導入を促進するために,新たな2段階の行動認識システムであるRALACを提案する。 RALACは、道路シーンにおける行動認識の問題を定式化し、それと人間の行動認識の確立した分野とのギャップを埋める。 本研究は,エージェント間の関係をエンコードするために注目層がいかに有用かを示し,そのようなスキームがクラスに依存しないかを強調した。 さらに、道路上のエージェントの動的性質に対処するため、ralACsは、下流行動分類のためのエージェントトラックへの関心領域アライメント(ROI)適応のための新しいアプローチを構築している。 最後に,本手法では,アクティブエージェント検出の問題点も考慮し,道路シーンにおける関連エージェントの識別に光フローマップを融合する新たな応用法を提案する。 提案手法はICCV2021ロードチャレンジデータセットのベースラインを上回り,実際の車両プラットフォームに展開することにより,意思決定における行動認識の有用性に関する予備的な知見を提供する。

When applied to autonomous vehicle (AV) settings, action recognition can enhance an environment model's situational awareness. This is especially prevalent in scenarios where traditional geometric descriptions and heuristics in AVs are insufficient. However, action recognition has traditionally been studied for humans, and its limited adaptability to noisy, un-clipped, un-pampered, raw RGB data has limited its application in other fields. To push for the advancement and adoption of action recognition into AVs, this work proposes a novel two-stage action recognition system, termed RALACs. RALACs formulates the problem of action recognition for road scenes, and bridges the gap between it and the established field of human action recognition. This work shows how attention layers can be useful for encoding the relations across agents, and stresses how such a scheme can be class-agnostic. Furthermore, to address the dynamic nature of agents on the road, RALACs constructs a novel approach to adapting Region of Interest (ROI) Alignment to agent tracks for downstream action classification. Finally, our scheme also considers the problem of active agent detection, and utilizes a novel application of fusing optical flow maps to discern relevant agents in a road scene. We show that our proposed scheme can outperform the baseline on the ICCV2021 Road Challenge dataset and by deploying it on a real vehicle platform, we provide preliminary insight to the usefulness of action recognition in decision making.
翻訳日:2023-08-11 16:47:26 公開日:2023-08-09
# MetaMask: 自己監督学習のための次元的共同創設者の再考

MetaMask: Revisiting Dimensional Confounder for Self-Supervised Learning ( http://arxiv.org/abs/2209.07902v5 )

ライセンス: Link先を確認
Jiangmeng Li, Wenwen Qiang, Yanan Zhang, Wenyi Mo, Changwen Zheng, Bing Su, Hui Xiong(参考訳) 自己教師あり学習のアプローチとして、コントラスト学習は、入力サンプルの歪み間で共有される不変情報を学習することを目的としている。 対照的な学習は、サンプリング戦略とアーキテクチャ設計において継続的な進歩をもたらしてきたが、タスク関連情報の干渉とサンプルの非効率性の2つの持続的な欠陥は、自明な定数解の存在に関係している。 次元解析の観点からは,次元冗長性と次元共創者が現象の背後にある本質的な問題であることが分かり,我々の視点を支える実験的証拠を提供する。 さらに,メタ学習によって学習された次元マスクを省略して,次元冗長性に対する表現を学習するメタマスクを提案する。 メタマスクは, 次元冗長性問題に対処するために冗長性低減技術を採用し, 典型的な自己監督タスクにおけるマスク表現の性能向上を目的としたメタラーニングパラダイムを用いて訓練した, 共同創設者を含む特定の次元の勾配効果を低減するために, 次元マスクを革新的に導入する。 我々は,MetaMaskが典型的コントラスト法と比較して,下流分類の厳密なリスク境界が得られることを示すための理論解析を行った。 提案手法は,様々なベンチマークにおける最先端性能を実証的に達成する。

As a successful approach to self-supervised learning, contrastive learning aims to learn invariant information shared among distortions of the input sample. While contrastive learning has yielded continuous advancements in sampling strategy and architecture design, it still remains two persistent defects: the interference of task-irrelevant information and sample inefficiency, which are related to the recurring existence of trivial constant solutions. From the perspective of dimensional analysis, we find out that the dimensional redundancy and dimensional confounder are the intrinsic issues behind the phenomena, and provide experimental evidence to support our viewpoint. We further propose a simple yet effective approach MetaMask, short for the dimensional Mask learned by Meta-learning, to learn representations against dimensional redundancy and confounder. MetaMask adopts the redundancy-reduction technique to tackle the dimensional redundancy issue and innovatively introduces a dimensional mask to reduce the gradient effects of specific dimensions containing the confounder, which is trained by employing a meta-learning paradigm with the objective of improving the performance of masked representations on a typical self-supervised task. We provide solid theoretical analyses to prove MetaMask can obtain tighter risk bounds for downstream classification compared to typical contrastive methods. Empirically, our method achieves state-of-the-art performance on various benchmarks.
翻訳日:2023-08-11 16:47:01 公開日:2023-08-09
# 生成言語モデルによるタスク知識のオートマトン表現

Automaton-Based Representations of Task Knowledge from Generative Language Models ( http://arxiv.org/abs/2212.01944v5 )

ライセンス: Link先を確認
Yunhao Yang, Jean-Rapha\"el Gaglione, Cyrus Neary, Ufuk Topcu(参考訳) タスク知識のオートマトンに基づく表現は、シーケンシャルな意思決定問題の制御と計画において重要な役割を果たす。 しかし、このようなオートマトンを構築するのに必要な高度なタスク知識を得ることは、しばしば困難である。 一方、大規模生成言語モデル(GLM)は、関連するタスク知識を自動的に生成することができる。 しかし、GLMからのテキスト出力は正式な検証やシーケンシャルな意思決定には使用できない。 本稿では,タスク目標の簡単な自然言語記述から高レベルタスク知識を符号化する有限状態オートマトン(FSA)を構築する,GLM2FSAという新しいアルゴリズムを提案する。 GLM2FSAはまずGLMにクエリを送り、テキスト形式でタスク知識を抽出し、次にこのテキストベースの知識を表現するためのFSAを構築する。 提案アルゴリズムは,自然言語によるタスク記述とオートマトンに基づく表現のギャップを埋めるものであり,構築されたFSAはユーザ定義仕様に対して形式的に検証可能である。 そこで本研究では,検証の結果に基づいて,glmへのクエリを反復的に洗練する手法を提案する。 我々はglm2fsaの日常タスク(例えば道路横断)のオートマトンベース表現の構築と洗練、そして高度に専門化された知識を必要とするタスク(例えば、安全なマルチパーティ計算の実行)の能力を示す。

Automaton-based representations of task knowledge play an important role in control and planning for sequential decision-making problems. However, obtaining the high-level task knowledge required to build such automata is often difficult. Meanwhile, large-scale generative language models (GLMs) can automatically generate relevant task knowledge. However, the textual outputs from GLMs cannot be formally verified or used for sequential decision-making. We propose a novel algorithm named GLM2FSA, which constructs a finite state automaton (FSA) encoding high-level task knowledge from a brief natural-language description of the task goal. GLM2FSA first sends queries to a GLM to extract task knowledge in textual form, and then it builds an FSA to represent this text-based knowledge. The proposed algorithm thus fills the gap between natural-language task descriptions and automaton-based representations, and the constructed FSA can be formally verified against user-defined specifications. We accordingly propose a method to iteratively refine the queries to the GLM based on the outcomes, e.g., counter-examples, from verification. We demonstrate GLM2FSA's ability to build and refine automaton-based representations of everyday tasks (e.g., crossing a road), and also of tasks that require highly-specialized knowledge (e.g., executing secure multi-party computation).
翻訳日:2023-08-11 16:37:10 公開日:2023-08-09
# 関連施策の最近の展開に関する調査研究

A survey of some recent developments in measures of association ( http://arxiv.org/abs/2211.04702v2 )

ライセンス: Link先を確認
Sourav Chatterjee(参考訳) 本稿では,著者が導入した新たな相関係数に関連する関連尺度の最近の展開について調査する。 この係数を標準的なボレル空間(ポーランド空間を含む)へ直接拡張することは、これまでの文献で見落とされ、調査の終わりに提案されている。

This paper surveys some recent developments in measures of association related to a new coefficient of correlation introduced by the author. A straightforward extension of this coefficient to standard Borel spaces (which includes all Polish spaces), overlooked in the literature so far, is proposed at the end of the survey.
翻訳日:2023-08-11 16:35:47 公開日:2023-08-09
# 深部MRI再構成のための振り返り k-space Subsampling スキームについて

On Retrospective k-space Subsampling schemes For Deep MRI Reconstruction ( http://arxiv.org/abs/2301.08365v5 )

ライセンス: Link先を確認
George Yiasemis, Clara I. S\'anchez, Jan-Jakob Sonke, Jonas Teuwen(参考訳) 完全にサンプリングされたMRI$k$-spaceデータを取得するのに時間がかかる。 2次元直立線サブサンプリング方式は, 従来の高速化手法であるが, 深層学習(DL)を用いた場合, 特に加速係数が高い場合においても, しばしば不正確な再構成が生じる。 非直立線または非直交軌道はMRIスキャナーで代替のサブサンプリングオプションとして実装できる。 本研究は、訓練されたDLモデルにより生成された再構成加速MRIの画質に及ぼす$k$-spaceサブサンプリングスキームの影響について検討する。 Recurrent Variational Network (RecurrentVarNet) は、DLベースのMRI再構成アーキテクチャとして使われた。 3つのデータセットから得られた全サンプルのマルチコイルの$k$-space測定は、8つの異なるサブサンプリングスキームを用いて異なる加速度で振り返りにサブサンプリングされた。 実験は,各データセットサブサンプリングスキームペア毎に異なるモデルをトレーニングし,評価するスキームと,各データセットに対して,ランダムに8つのスキームにサブサンプリングされたデータに基づいて1つのモデルをトレーニングし,すべてのスキームでサブサンプリングされたデータに基づいて評価するマルチスキームの2つのフレームワークで実施された。 どちらのフレームワークでも、RecurrentVarNetsは非直線的なサブサンプルデータに基づいてトレーニングと評価を行い、特に高速なアクセラレーションにおいて優れた性能を示した。 マルチスキーの設定では, スキーム特有の実験と比較して, 線形サブサンプリングデータの再構成性能が向上した。 本研究は,非リクティリニアサブサンプリング計測に基づくdl法を用いて,スキャン時間と画質を最適化する可能性を示す。

Acquiring fully-sampled MRI $k$-space data is time-consuming, and collecting accelerated data can reduce the acquisition time. Employing 2D Cartesian-rectilinear subsampling schemes is a conventional approach for accelerated acquisitions; however, this often results in imprecise reconstructions, even with the use of Deep Learning (DL), especially at high acceleration factors. Non-rectilinear or non-Cartesian trajectories can be implemented in MRI scanners as alternative subsampling options. This work investigates the impact of the $k$-space subsampling scheme on the quality of reconstructed accelerated MRI measurements produced by trained DL models. The Recurrent Variational Network (RecurrentVarNet) was used as the DL-based MRI-reconstruction architecture. Cartesian, fully-sampled multi-coil $k$-space measurements from three datasets were retrospectively subsampled with different accelerations using eight distinct subsampling schemes: four Cartesian-rectilinear, two Cartesian non-rectilinear, and two non-Cartesian. Experiments were conducted in two frameworks: scheme-specific, where a distinct model was trained and evaluated for each dataset-subsampling scheme pair, and multi-scheme, where for each dataset a single model was trained on data randomly subsampled by any of the eight schemes and evaluated on data subsampled by all schemes. In both frameworks, RecurrentVarNets trained and evaluated on non-rectilinearly subsampled data demonstrated superior performance, particularly for high accelerations. In the multi-scheme setting, reconstruction performance on rectilinearly subsampled data improved when compared to the scheme-specific experiments. Our findings demonstrate the potential for using DL-based methods, trained on non-rectilinearly subsampled measurements, to optimize scan time and image quality.
翻訳日:2023-08-11 16:27:43 公開日:2023-08-09
# 熱力学的相関不等式

Thermodynamic correlation inequality ( http://arxiv.org/abs/2301.03060v3 )

ライセンス: Link先を確認
Yoshihiko Hasegawa(参考訳) 不確実性関係は、物理システムが実行できる操作に基本的な限界を与える。 このレターはマルコフ過程において、システムの現在の状態と将来の状態の関係を測定する相関関数を束縛する不確実性関係を示す。 得られた境界は、熱力学的相関不等式と呼ばれ、相関関数の変化は、マルコフ過程の活性の熱力学的測度である力学活性からなる上界を有する。 さらに, 得られた関係を線形応答関数に適用することにより, 摂動の効果を動的活動によって上から境界づけることができることを示した。

Uncertainty relations place fundamental limits on the operations that physical systems can perform. This Letter presents an uncertainty relation that bounds the correlation function, which measures the relationship between a system's current and future states, in Markov processes. The obtained bound, referred to as the thermodynamic correlation inequality, states that the change in the correlation function has an upper bound comprising the dynamical activity, a thermodynamic measure of the activity of a Markov process. Moreover, by applying the obtained relation to the linear response function, it is demonstrated that the effect of perturbation can be bounded from above by the dynamical activity.
翻訳日:2023-08-11 16:26:36 公開日:2023-08-09
# おしゃべりしよう! ChatGPTとの会話:技術・応用・限界

Let's have a chat! A Conversation with ChatGPT: Technology, Applications, and Limitations ( http://arxiv.org/abs/2302.13817v4 )

ライセンス: Link先を確認
Sakib Shahriar and Kadhim Hayawi(参考訳) 人間のような文を生成し、一貫性のあるエッセイを書くことができるAIベースのチャットボットの出現は、世界の注目を集めている。 本稿ではチャットボットの歴史的概要とチャット生成事前学習トランス(ChatGPT)を支える技術について述べる。 さらに、医療、教育、研究など様々な分野におけるChatGPTの応用の可能性を強調した。 有望な結果にもかかわらず、ChatGPTにはいくつかのプライバシーと倫理上の懸念がある。 さらに、現在のバージョンのChatGPTの重要な制限をいくつか強調する。 また、ChatGPTにその視点を提供して、答えようとするいくつかの質問に対する回答を提示するように求めます。

The emergence of an AI-powered chatbot that can generate human-like sentences and write coherent essays has caught the world's attention. This paper discusses the historical overview of chatbots and the technology behind Chat Generative Pre-trained Transformer, better known as ChatGPT. Moreover, potential applications of ChatGPT in various domains, including healthcare, education, and research, are highlighted. Despite promising results, there are several privacy and ethical concerns surrounding ChatGPT. In addition, we highlight some of the important limitations of the current version of ChatGPT. We also ask ChatGPT to provide its point of view and present its responses to several questions we attempt to answer.
翻訳日:2023-08-11 16:15:52 公開日:2023-08-09
# Inst-Inpaint:拡散モデルによる物体の除去指示

Inst-Inpaint: Instructing to Remove Objects with Diffusion Models ( http://arxiv.org/abs/2304.03246v2 )

ライセンス: Link先を確認
Ahmet Burak Yildirim, Vedat Baday, Erkut Erdem, Aykut Erdem, Aysegul Dundar(参考訳) image inpainting taskは、望ましくないピクセルを画像から消去し、意味的に一貫性があり、現実的な方法で埋めることを指す。 伝統的に、消したいピクセルはバイナリマスクで定義されている。 アプリケーションの観点からは、ユーザは削除したいオブジェクトのマスクを生成する必要がある。 本研究では,自然言語入力に基づいて除去対象を推定し,同時に除去する画像インペイントアルゴリズムに興味を持つ。 この目的のために、まず、このタスクのためにGQA-Inpaintというデータセットを構築します。 第2に,テキストプロンプトとして与えられた指示に基づいて画像からオブジェクトを削除することができる,新しいインペインティングフレームワークinst-inpaintを提案する。 我々は,様々なGANおよび拡散ベースラインを設定し,合成および実画像データセット上で実験を行った。 我々は,モデルの品質と精度を計測し,定量的かつ質的な改善を示す評価指標と比較した。

Image inpainting task refers to erasing unwanted pixels from images and filling them in a semantically consistent and realistic way. Traditionally, the pixels that are wished to be erased are defined with binary masks. From the application point of view, a user needs to generate the masks for the objects they would like to remove which can be time-consuming and prone to errors. In this work, we are interested in an image inpainting algorithm that estimates which object to be removed based on natural language input and removes it, simultaneously. For this purpose, first, we construct a dataset named GQA-Inpaint for this task. Second, we present a novel inpainting framework, Inst-Inpaint, that can remove objects from images based on the instructions given as text prompts. We set various GAN and diffusion-based baselines and run experiments on synthetic and real image datasets. We compare methods with different evaluation metrics that measure the quality and accuracy of the models and show significant quantitative and qualitative improvements.
翻訳日:2023-08-11 16:08:04 公開日:2023-08-09
# ロボットによる氷水境界探査のための高結合型ビジュアルDVL-慣性オドメトリー

Tightly-coupled Visual-DVL-Inertial Odometry for Robot-based Ice-water Boundary Exploration ( http://arxiv.org/abs/2303.17005v2 )

ライセンス: Link先を確認
Lin Zhao, Mingxi Zhou, Brice Loose(参考訳) AUV(Autonomous Underwater Vehicles)やROV(Remotely Operated Vehicles)などのロボット水中システムは、科学的な進歩のために氷水界面で生物地球化学データを収集するための有望なツールである。 しかし、状態推定、すなわちローカライゼーションは、特に水中を走行するロボットシステムにおいてよく知られた問題である。 本稿では,センサ故障に対するロバストな局所化精度を高めるために,密結合型多センサ融合フレームワークを提案する。 画像、ドップラー速度ログ(DVL)、慣性測定ユニット(IMU)、圧力センサを最先端のマルチステート制約カルマンフィルタ(MSCKF)に統合して状態推定を行う。 さらに、新しいキーフレームベースの状態クローン機構と新しいDVL支援機能拡張を示し、ローカライゼーション性能をさらに向上させる。 提案手法は,凍結氷下のフィールドで収集したデータセットを用いて検証し,他の6種類のセンサ融合装置と比較した。 全体として、キーフレーム有効化とDVL支援による特徴増強により、ルート平均二乗誤差が2m未満の場合に、走行距離が約200mの地上の真理経路と比較して最高の性能が得られる。

Robotic underwater systems, e.g., Autonomous Underwater Vehicles (AUVs) and Remotely Operated Vehicles (ROVs), are promising tools for collecting biogeochemical data at the ice-water interface for scientific advancements. However, state estimation, i.e., localization, is a well-known problem for robotic systems, especially, for the ones that travel underwater. In this paper, we present a tightly-coupled multi-sensors fusion framework to increase localization accuracy that is robust to sensor failure. Visual images, Doppler Velocity Log (DVL), Inertial Measurement Unit (IMU) and Pressure sensor are integrated into the state-of-art Multi-State Constraint Kalman Filter (MSCKF) for state estimation. Besides that a new keyframe-based state clone mechanism and a new DVL-aided feature enhancement are presented to further improve the localization performance. The proposed method is validated with a data set collected in the field under frozen ice, and the result is compared with 6 other different sensor fusion setups. Overall, the result with the keyframe enabled and DVL-aided feature enhancement yields the best performance with a Root-mean-square error of less than 2 m compared to the ground truth path with a total traveling distance of about 200 m.
翻訳日:2023-08-11 16:07:16 公開日:2023-08-09
# qubit cloakingによるQubit Readoutsの実現

Qubit readouts enabled by qubit cloaking ( http://arxiv.org/abs/2305.00895v2 )

ライセンス: Link先を確認
Manuel H. Mu\~noz-Arias, Crist\'obal Lled\'o, Alexandre Blais(参考訳) 時間依存ドライブは、回路量子力学における量子コンピューティングの取り組みにおいて重要な役割を果たす。 単一キュービットの制御、論理演算の絡み込み、およびキュービットの読み出しを可能にする。 しかし、それらの存在は、大きな交流スタークシフトや不要な量子ビット遷移のような有害な効果を招き、最終的には制御の低下や読み出しのフィデリティに反映される。 クビット・クローキングは、Lled\'o, Dassonneville, et alで導入された。 [arxiv:2211.05758] 駆動キャビティのコヒーレント光子集団から一時的にキュービットを分離し、キュービットに対する有害な影響を避けつつキャビティフィールドへの任意の変位を適用できるようにする。 キュービット読み出しでは、クローキングはキャビティフィールドのキュービット状態に依存した進化を期待して、原則として多数の光子でキャビティをプリアームすることを可能にし、読み出し戦略を改善することができる。 ここでは2つを詳しく見ていきます。 まず、キュービットクローキングと共に導入されたarm-and-release readoutでは、キャビティをアーミングした後、クローキング機構が解放され、キャビティフィールドは一定駆動振幅の印加下で進化する。 第2に、キャビティ駆動振幅が解放後にゆっくりと変調されるアーム・アンド・縦方向読み出し方式である。 これら2つのスキームは相互に補完し、分散相互作用と空洞崩壊率の値の標準分散読み出しよりも改善され、目標測定積分時間も改善されることを示す。 この結果から,標準回路QEDアーキテクチャを変更することなく,量子ビットの読み出しを改善することを提案する。

Time-dependent drives play a crucial role in quantum computing efforts with circuit quantum electrodynamics. They enable single-qubit control, entangling logical operations, as well as qubit readout. However, their presence can lead to deleterious effects such as large ac-Stark shifts and unwanted qubit transitions ultimately reflected into reduced control or readout fidelities. Qubit cloaking was introduced in Lled\'o, Dassonneville, et al. [arXiv:2211.05758] to temporarily decouple the qubit from the coherent photon population of a driven cavity, allowing for the application of arbitrary displacements to the cavity field while avoiding the deleterious effects on the qubit. For qubit readout, cloaking permits to prearm the cavity with an, in principle, arbitrarily large number of photons, in anticipation to the qubit-state-dependent evolution of the cavity field, allowing for improved readout strategies. Here we take a closer look at two of them. First, arm-and-release readout, introduced together with qubit cloaking, where after arming the cavity the cloaking mechanism is released and the cavity field evolves under the application of a constant drive amplitude. Second, an arm-and-longitudinal readout scheme, where the cavity drive amplitude is slowly modulated after the release. We show that the two schemes complement each other, offering an improvement over the standard dispersive readout for any values of the dispersive interaction and cavity decay rate, as well as any target measurement integration time. Our results provide a recommendation for improving qubit readout without changes to the standard circuit QED architecture.
翻訳日:2023-08-11 15:57:13 公開日:2023-08-09
# 第二応答理論:量子重ね合わせの伝播に関する理論的形式論

Second Response Theory: A Theoretical Formalism for the Propagation of Quantum Superpositions ( http://arxiv.org/abs/2306.07924v3 )

ライセンス: Link先を確認
Mart\'in A. Mosquera(参考訳) 一般電子量子状態の伝播は、分子系と外部駆動場との相互作用に関する情報を提供する。 これらは非断熱量子現象に関する理解を与えることもできる。 確立された手法は主に、当初は基底状態波動関数によってのみ記述された量子系を伝播することに焦点を当てている。 本研究では,前述した2次応答理論と呼ばれる結合クラスター理論内のサイズ拡張形式を拡張し,基底状態を含む異なる状態の一般線形結合によって記述された量子系を伝播させ,そのような伝播を時間依存型クラスター作用素の特殊集合でどのように行うかを示す。 我々の理論は、量子力学的観測値、確率、コヒーレンスを決定するために、数値的に正確な結果と強い整合性を示す。 本稿では, 2次応答理論における非定常状態と, 線形および二次応答理論における行列要素の予測能力について論じる。 本研究はまた、基底状態のクラスター振幅の潜在的な不安定性を持つシステムを扱う近似正規化手法についても論じ、標準ユニタリ理論の参照結果について、その近似を比較する。

The propagation of general electronic quantum states provides information of the interaction of molecular systems with external driving fields. These can also offer understandings regarding non-adiabatic quantum phenomena. Well established methods focus mainly on propagating a quantum system that is initially described exclusively by the ground state wavefunction. In this work, we expand a previously developed size-extensive formalism within coupled cluster theory, called second response theory, so it propagates quantum systems that are initially described by a general linear combination of different states, which can include the ground state, and show how with a special set of time-dependent cluster operators such propagations are performed. Our theory shows strong consistency with numerically exact results for the determination of quantum mechanical observables, probabilities, and coherences. We discuss unperturbed non-stationary states within second response theory and their ability to predict matrix elements that agree with those found in linear and quadratic response theories. This work also discusses an approximate regularized methodology to treat systems with potential instabilities in their ground-state cluster amplitudes, and compare such approximations with respect to reference results from standard unitary theory.
翻訳日:2023-08-11 15:49:59 公開日:2023-08-09
# 大規模事前訓練モデルにおける本質的疎結合の出現:重要度

The Emergence of Essential Sparsity in Large Pre-trained Models: The Weights that Matter ( http://arxiv.org/abs/2306.03805v2 )

ライセンス: Link先を確認
Ajay Jaiswal, Shiwei Liu, Tianlong Chen, Zhangyang Wang(参考訳) 大規模な事前学習型トランスフォーマーは、現代のディープラーニングにおけるショーステアラーであり、規模が大きくなるにつれてその内部に存在する相似パターンを理解することが重要である。 爆発的なパラメータ数によって、LTH(Lottery Ticket hypothesis)とその変種は、モデルサイズの増加に伴って悪化する反復的な列車-プルー・リトラクションルーチン(IMP)の高速計算とメモリボトルネックにより、それらの実用性を失っている。 本稿では,複数の大きな事前学習された視覚と言語トランスフォーマーにまたがるスパースパターンを包括的に研究する。 我々は,1ショットで最小の大きさの重みをリトレーニングせずに直接取り除く場合,性能低下がw.r.tよりもずっと早くなる急降下点で定義される本質的スパーシティの存在を提案する。 また,N:Mのスパーシティパターンと,現代の大規模言語モデル(Vicuna-7B)に有効であることを示す。 また, BERTの事前トレーニング中に急激なスペーサー化現象, すなわち, BERTは, 一定反復後の事前トレーニングにおいて, 突然, 急激なスペーサー化現象を示す。 さらに,より大量の事前学習データでトレーニングされたbertは,比較的少ないパラメータで知識を凝縮する能力が向上する傾向にあった。 最後に,学習前損失が本態性の空間性に及ぼす影響について検討し,自己教師付き学習(SSL)目標が教師付き学習(SL)よりも強い創発的スパシフィケーション特性を引き起こすことを明らかにする。 我々のコードは \url{https://github.com/VITA-Group/essential_sparsity} で利用可能です。

Large pre-trained transformers are show-stealer in modern-day deep learning, and it becomes crucial to comprehend the parsimonious patterns that exist within them as they grow in scale. With exploding parameter counts, Lottery Ticket Hypothesis (LTH) and its variants, have lost their pragmatism in sparsifying them due to high computation and memory bottleneck of repetitive train-prune-retrain routine of iterative magnitude pruning (IMP) which worsens with increasing model size. This paper comprehensively studies induced sparse patterns across multiple large pre-trained vision and language transformers. We propose the existence of -- essential sparsity defined with a sharp dropping point beyond which the performance declines much faster w.r.t the rise of sparsity level, when we directly remove weights with the smallest magnitudes in one-shot without re-training. We also find essential sparsity to hold valid for N:M sparsity patterns as well as on modern-scale large language models (Vicuna-7B). We also present an intriguing emerging phenomenon of abrupt sparsification during the pre-training of BERT, i.e., BERT suddenly becomes heavily sparse in pre-training after certain iterations. Moreover, our observations also indicate a counter-intuitive finding that BERT trained with a larger amount of pre-training data tends to have a better ability to condense knowledge in comparatively relatively fewer parameters. Lastly, we investigate the effect of the pre-training loss on essential sparsity and discover that self-supervised learning (SSL) objectives trigger stronger emergent sparsification properties than supervised learning (SL). Our codes are available at \url{https://github.com/VITA-Group/essential_sparsity}.
翻訳日:2023-08-11 15:49:14 公開日:2023-08-09
# レニアの新たな複雑さを捉え

Capturing Emerging Complexity in Lenia ( http://arxiv.org/abs/2305.09378v5 )

ライセンス: Link先を確認
Sanyam Jain, Aarati Shrestha and Stefano Nichele(参考訳) この研究プロジェクトは、デジタル生物の生態系をシミュレートする人工生命プラットフォームLeniaを調査する。 レニアの生態系は、移動し、消費し、成長し、再生できる単純な人工生物から成り立っている。 このプラットフォームは、様々な能力と行動を持つ多様な生物を生み出すためのスケーラブルで柔軟な環境を提供するため、人工生命と進化を研究するためのツールとして重要である。 レニアの複雑さを測定することは、まだ発見されていないレニアの行動を改善することを目的として、ルールの長期的な複雑な出現行動を測定するための指標を特定する研究の重要な側面である。 遺伝的アルゴリズムは、近辺やカーネルを遺伝子型として使用し、レニアの残りのパラメータを例えば成長関数のように固定し、個体群ごとに異なる行動を生成し、その結果生じる行動の複雑さを決定するために適合値を測定する。 まず,フレーム間のばらつきが高まるようなフィットネス機能として,時間とともに変化を利用する。 第2に,フレームの復元損失リストの変動が報われる自動エンコーダベースの適合性を用いる。 第3に、再構成フレームの画素密度のより高い変動が報われるような複合フィットネスを行う。 3つの実験はすべてpixel alive thresholdとフレームで調整されている。 最後に、500世代毎に各フィットネスの9つの実験を行った後、さらなる進化のスコープがあるような全ての実験から構成を選択し、2500世代にわたって実行します。 結果は、核の質量中心は、特定のピクセル集合と、核がガウス分布を達成しようとする境界とともに増加することを示している。 結果はhttps://s4nyam.github.io/evolenia/で入手できる。

This research project investigates Lenia, an artificial life platform that simulates ecosystems of digital creatures. Lenia's ecosystem consists of simple, artificial organisms that can move, consume, grow, and reproduce. The platform is important as a tool for studying artificial life and evolution, as it provides a scalable and flexible environment for creating a diverse range of organisms with varying abilities and behaviors. Measuring complexity in Lenia is a key aspect of the study, which identifies the metrics for measuring long-term complex emerging behavior of rules, with the aim of evolving better Lenia behaviors which are yet not discovered. The Genetic Algorithm uses neighborhoods or kernels as genotype while keeping the rest of the parameters of Lenia as fixed, for example growth function, to produce different behaviors respective to the population and then measures fitness value to decide the complexity of the resulting behavior. First, we use Variation over Time as a fitness function where higher variance between the frames are rewarded. Second, we use Auto-encoder based fitness where variation of the list of reconstruction loss for the frames is rewarded. Third, we perform combined fitness where higher variation of the pixel density of reconstructed frames is rewarded. All three experiments are tweaked with pixel alive threshold and frames used. Finally, after performing nine experiments of each fitness for 500 generations, we pick configurations from all experiments such that there is a scope of further evolution, and run it for 2500 generations. Results show that the kernel's center of mass increases with a specific set of pixels and together with borders the kernel try to achieve a Gaussian distribution. Results are available at https://s4nyam.github.io/evolenia/
翻訳日:2023-08-11 15:46:04 公開日:2023-08-09
# 強化学習の構造:調査とオープン問題

Structure in Reinforcement Learning: A Survey and Open Problems ( http://arxiv.org/abs/2306.16021v2 )

ライセンス: Link先を確認
Aditya Mohan, Amy Zhang, Marius Lindauer(参考訳) 関数近似のためのディープニューラルネットワーク(DNN)の表現能力に支えられた強化学習(RL)は、多くのアプリケーションでかなりの成功を収めている。 しかし、様々な現実のシナリオに対処する実践性は、多様で予測不可能なダイナミクス、ノイズ信号、そして大きな状態と行動空間によって特徴づけられる。 この制限は、データ効率の低下、一般化能力の制限、安全性保証の欠如、解釈可能性の欠如などの問題に起因している。 これらの課題を克服し、これらの重要な指標にまたがるパフォーマンスを改善するために、問題に関する構造的な情報をRL学習プロセスに組み込むことが期待できる。 RLの様々なサブフィールドは、そのような誘導バイアスを組み込む方法を提案している。 我々は,これらの多様な方法論を統一的な枠組みで満たし,学習問題における構造の役割に光を当て,それらの手法を構造を組み込む異なるパターンに分類する。 この包括的フレームワークを活用することで、構造化されたRLの課題に関する貴重な洞察を提供し、RL研究におけるデザインパターンの視点の基礎となる。 この新しい視点は、現実世界のシナリオをよりうまく処理できる、より効率的で効率的なRLアルゴリズムを開発するための将来の進歩と支援の道を開く。

Reinforcement Learning (RL), bolstered by the expressive capabilities of Deep Neural Networks (DNNs) for function approximation, has demonstrated considerable success in numerous applications. However, its practicality in addressing various real-world scenarios, characterized by diverse and unpredictable dynamics, noisy signals, and large state and action spaces, remains limited. This limitation stems from issues such as poor data efficiency, limited generalization capabilities, a lack of safety guarantees, and the absence of interpretability, among other factors. To overcome these challenges and improve performance across these crucial metrics, one promising avenue is to incorporate additional structural information about the problem into the RL learning process. Various sub-fields of RL have proposed methods for incorporating such inductive biases. We amalgamate these diverse methodologies under a unified framework, shedding light on the role of structure in the learning problem, and classify these methods into distinct patterns of incorporating structure. By leveraging this comprehensive framework, we provide valuable insights into the challenges of structured RL and lay the groundwork for a design pattern perspective on RL research. This novel perspective paves the way for future advancements and aids in developing more effective and efficient RL algorithms that can potentially handle real-world scenarios better.
翻訳日:2023-08-11 15:37:49 公開日:2023-08-09
# コンバージョン当たりの増益:Eコマース推進における昇降モデリングの対応転換

Incremental Profit per Conversion: a Response Transformation for Uplift Modeling in E-Commerce Promotions ( http://arxiv.org/abs/2306.13759v2 )

ライセンス: Link先を確認
Hugo Manuel Proen\c{c}a, Felipe Moraes(参考訳) プロモーションはEコマースプラットフォームにおいて重要な役割を担い、ユーザエンゲージメントを促進するために様々なコスト構造が採用されている。 本稿では,購入時にのみ費用が発生する応答依存コストによるプロモーションに焦点を当てた。 このようなプロモーションには割引やクーポンが含まれる。 既存のアップリフトモデルアプローチは、この課題に対処することを目的としているが、これらのアプローチでは、メタリーナーのような複数のモデルをトレーニングしたり、コストも利益もゼロの非変換個人から生じるゼロ膨張値による利益を見積もる場合の合併症に直面することが少なくない。 これらの課題に対処するために、単元経済におけるプロモーションキャンペーンの効率を向上する新たな指標であるIncremental Profit per Conversion(IPC)を導入する。 提案する応答変換により, ipc は変換データのみを必要とし, その拡張性, 1 モデルのみを推定できることを実証した。 その結果、ICCは上記の問題を解消しつつ、検索と購入データ間の多対一マッピングから生じる変換データセットやバイアスのクラス不均衡に関連するノイズを緩和する。 最後に,ディスカウントクーポンキャンペーンの合成シミュレーションから得られた結果を提示し,提案手法の有効性を検証した。

Promotions play a crucial role in e-commerce platforms, and various cost structures are employed to drive user engagement. This paper focuses on promotions with response-dependent costs, where expenses are incurred only when a purchase is made. Such promotions include discounts and coupons. While existing uplift model approaches aim to address this challenge, these approaches often necessitate training multiple models, like meta-learners, or encounter complications when estimating profit due to zero-inflated values stemming from non-converted individuals with zero cost and profit. To address these challenges, we introduce Incremental Profit per Conversion (IPC), a novel uplift measure of promotional campaigns' efficiency in unit economics. Through a proposed response transformation, we demonstrate that IPC requires only converted data, its propensity, and a single model to be estimated. As a result, IPC resolves the issues mentioned above while mitigating the noise typically associated with the class imbalance in conversion datasets and biases arising from the many-to-one mapping between search and purchase data. Lastly, we validate the efficacy of our approach by presenting results obtained from a synthetic simulation of a discount coupon campaign.
翻訳日:2023-08-11 15:37:11 公開日:2023-08-09
# 視覚・言語ナビゲーションにおけるデータ生成のスケーリング

Scaling Data Generation in Vision-and-Language Navigation ( http://arxiv.org/abs/2307.15644v2 )

ライセンス: Link先を確認
Zun Wang, Jialu Li, Yicong Hong, Yi Wang, Qi Wu, Mohit Bansal, Stephen Gould, Hao Tan, Yu Qiao(参考訳) 近年、言語誘導視覚ナビゲーションの研究により、トラバーサブル環境の多様性と一般化エージェントの訓練のための監督の量に対する大きな需要が示されている。 本稿では,HM3DとGibsonのデータセットから1200以上の写真リアル環境を適用し,Web上の完全アクセス可能なリソースを用いて490万の命令軌道対を合成する,大規模学習用データを生成するための効果的なパラダイムを提案する。 重要なことに,このパラダイムにおける各コンポーネントがエージェントの性能に及ぼす影響を調査し,エージェントの事前訓練と微調整に拡張データを適切に適用する方法を検討する。 我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。 目視環境と目視環境の間の長期にわたる一般化のギャップも1%未満に縮める(以前のベストメソッドでは8%)。 さらに,本パラダイムは, CVDN, REVERIE, R2Rにおける新しい最先端ナビゲーション結果を実現するために, 連続環境において異なるモデルを容易にする。

Recent research in language-guided visual navigation has demonstrated a significant demand for the diversity of traversable environments and the quantity of supervision for training generalizable agents. To tackle the common data scarcity issue in existing vision-and-language navigation datasets, we propose an effective paradigm for generating large-scale data for learning, which applies 1200+ photo-realistic environments from HM3D and Gibson datasets and synthesizes 4.9 million instruction trajectory pairs using fully-accessible resources on the web. Importantly, we investigate the influence of each component in this paradigm on the agent's performance and study how to adequately apply the augmented data to pre-train and fine-tune an agent. Thanks to our large-scale dataset, the performance of an existing agent can be pushed up (+11% absolute with regard to previous SoTA) to a significantly new best of 80% single-run success rate on the R2R test split by simple imitation learning. The long-lasting generalization gap between navigating in seen and unseen environments is also reduced to less than 1% (versus 8% in the previous best method). Moreover, our paradigm also facilitates different models to achieve new state-of-the-art navigation results on CVDN, REVERIE, and R2R in continuous environments.
翻訳日:2023-08-11 15:29:56 公開日:2023-08-09
# 複屈折準曲面を用いた偏光多重画像合成

Polarization Multi-Image Synthesis with Birefringent Metasurfaces ( http://arxiv.org/abs/2307.08106v2 )

ライセンス: Link先を確認
Dean Hazineh, Soon Wei Daniel Lim, Qi Guo, Federico Capasso, Todd Zickler(参考訳) 精密に設計されたナノ構造からなる光学メタ曲面は、光を操り、入射場の性質に基づいて異なる機能を実装する能力において大きな注目を集めている。 計算画像処理システムは、デジタルポストプロセッシングと組み合わせることで、特定のタスクに役立つ一連のコード化された測定値を生成するためにこの能力を利用し始めた。 これらの研究に触発されて、偏光子モザイク光センサを備えた複屈折型準曲面を用いて、光学的に符号化された4つの計測結果を単一の露光で捉える新しいシステムを導入する。 本研究では,デジタル空間フィルタリング操作を,空間フィルタサイズに依存しない4つの偏光チャネルにまたがるより単純な画素単位の和に置き換える,非コヒーレントな光電子フィルタリングのタスクに適用する。 空間フィルタを1つしか実現できない非一貫性光電子フィルタに関するこれまでの研究とは対照的に,単一キャプチャから連続的なフィルタファミリを実現し,ポストキャプチャ後のディジタル和重みを調整することで,家族からフィルタを選択できる。 ユーザが特定した空間フィルタのセットを実現するメタサーフェスを見つけるために,光効率と信号対雑音比の高い新しい正則化器を用いた勾配降下方式を導入する。 シミュレーションや試作プロトタイプの例をいくつか紹介する。その中には、深度や波長に一定の変動がある空間フィルターもある。 プロジェクトページはhttps://deanhazineh.github.io/publications/multi_image_ synthesis/mis_home.htmlを参照。

Optical metasurfaces composed of precisely engineered nanostructures have gained significant attention for their ability to manipulate light and implement distinct functionalities based on the properties of the incident field. Computational imaging systems have started harnessing this capability to produce sets of coded measurements that benefit certain tasks when paired with digital post-processing. Inspired by these works, we introduce a new system that uses a birefringent metasurface with a polarizer-mosaicked photosensor to capture four optically-coded measurements in a single exposure. We apply this system to the task of incoherent opto-electronic filtering, where digital spatial-filtering operations are replaced by simpler, per-pixel sums across the four polarization channels, independent of the spatial filter size. In contrast to previous work on incoherent opto-electronic filtering that can realize only one spatial filter, our approach can realize a continuous family of filters from a single capture, with filters being selected from the family by adjusting the post-capture digital summation weights. To find a metasurface that can realize a set of user-specified spatial filters, we introduce a form of gradient descent with a novel regularizer that encourages light efficiency and a high signal-to-noise ratio. We demonstrate several examples in simulation and with fabricated prototypes, including some with spatial filters that have prescribed variations with respect to depth and wavelength. Visit the Project Page at https://deanhazineh.github.io/publications/Multi_Image_Synthesis/MIS_Home.html
翻訳日:2023-08-11 15:27:36 公開日:2023-08-09
# d$-mon:強いアンハーモニーを持つトランスモン

$d$-mon: transmon with strong anharmonicity ( http://arxiv.org/abs/2308.02547v2 )

ライセンス: Link先を確認
Hrishikesh Patel, Vedangi Pathak, Oguzhan Can, Andrew C. Potter, Marcel Franz(参考訳) 本稿では, 平面型$c$軸ジョセフソン接合をベースとした新しい量子ビットアーキテクチャを提案する。例えば, 高速なT_c$キューレートBi$_2$Sr$_2$CaCu$_2$O$_{8+x}$, 従来の$s$-wave超伝導体などである。 トランスモン方式で操作すると、デバイスは「$d$-mon」と呼ばれ、オフセット電荷の変動に敏感になり、最も重要なのは、デバイス形状と印加磁束を通して広く調整可能な強い反調和性を持つエネルギー準位スペクトルを同時に提示する。 重要なことに、$d$-wave超伝導体に基づく以前の量子ビット設計とは異なり、提案装置は準粒子が完全にギャップがあり、長いコヒーレンス時間を達成することができる状態で動作する。

We propose a novel qubit architecture based on a planar $c$-axis Josephson junction between a thin flake $d$-wave superconductor ($d$SC), such as a high-$T_c$ cuprate Bi$_2$Sr$_2$CaCu$_2$O$_{8+x}$, and a conventional $s$-wave superconductor. When operated in the transmon regime the device -- that we call "$d$-mon" -- becomes insensitive to offset charge fluctuations and, importantly, exhibits at the same time energy level spectrum with strong anharmonicity that is widely tunable through the device geometry and applied magnetic flux. Crucially, unlike previous qubit designs based on $d$-wave superconductors the proposed device operates in a regime where quasiparticles are fully gapped and can be therefore expected to achieve long coherence times.
翻訳日:2023-08-11 15:16:33 公開日:2023-08-09
# 無線通信仕様情報合成のための基礎モデルの適用

Adapting Foundation Models for Information Synthesis of Wireless Communication Specifications ( http://arxiv.org/abs/2308.04033v2 )

ライセンス: Link先を確認
Manikanta Kotaru(参考訳) 現代の無線通信技術を理解し、開発し、研究するための既存のアプローチは、多くのWebページや技術仕様文書を精査し、必要な情報を収集し、それを合成する時間集約的で厳しいプロセスである。 本稿では,無線通信仕様の情報合成のための対話型人工知能であるNextGen Communications Copilotを提案する。 このシステムは、基盤モデルの最近の進歩の上に構築され、ドメイン固有データベース、コンテキスト抽出器、フィードバックメカニズムの3つの主要な追加コンポーネントで構成されている。 このシステムは、無線技術仕様のデータベースから抽出された簡潔でクエリ依存のコンテキスト情報と、専門家のフィードバックとデータコントリビューションのためのツールを付加する。 対象物の専門家によるクエリと参照応答のベンチマークデータセットを用いた評価では、ChatGPTのような最先端ツールによって達成された0.07と0.59の値と比較して、平均BLEUスコアとBERTScore F1測定値0.37と0.79との関連性および正確な回答を示した。

Existing approaches to understanding, developing and researching modern wireless communication technologies involves time-intensive and arduous process of sifting through numerous webpages and technical specification documents, gathering the required information and synthesizing it. This paper presents NextGen Communications Copilot, a conversational artificial intelligence tool for information synthesis of wireless communication specifications. The system builds on top of recent advancements in foundation models and consists of three key additional components: a domain-specific database, a context extractor, and a feedback mechanism. The system appends user queries with concise and query-dependent contextual information extracted from a database of wireless technical specifications and incorporates tools for expert feedback and data contributions. On evaluation using a benchmark dataset of queries and reference responses created by subject matter experts, the system demonstrated more relevant and accurate answers with an average BLEU score and BERTScore F1-measure of 0.37 and 0.79 respectively compared to the corresponding values of 0.07 and 0.59 achieved by state-of-the-art tools like ChatGPT.
翻訳日:2023-08-11 15:07:42 公開日:2023-08-09
# ビジュアルトラッキングのためのロバストオブジェクトモデリング

Robust Object Modeling for Visual Tracking ( http://arxiv.org/abs/2308.05140v1 )

ライセンス: Link先を確認
Yidong Cai, Jie Liu, Jie Tang, Gangshan Wu(参考訳) オブジェクトモデリングは最近のトラッキングフレームワークの中核となっている。 現在の人気タッカーはTransformerの注意を使ってテンプレート機能を別々に、あるいは検索領域と対話的に抽出する。 しかし,テンプレート学習にはテンプレート領域と検索領域間のコミュニケーションが欠如しており,識別対象特徴の抽出が困難である。 一方、インタラクティブなテンプレート学習はハイブリッドなテンプレート機能を生成し、乱雑な検索領域を通じてテンプレートに潜在的な障害をもたらす可能性がある。 両手法の利点を享受するため,視覚追跡のための頑健なオブジェクトモデリングフレームワーク(ROMTrack)を提案する。 その結果,対象対象物の固有の特徴と探索領域のガイダンスを組み合わせることで,有害な注意散らしを抑えることができる。 ターゲット関連の機能もハイブリッドテンプレートを使って抽出できるため、より堅牢なオブジェクトモデリングフレームワークが実現される。 さらにロバスト性を高めるために,ターゲットオブジェクトの常に変化する外観を表現する新しい変分トークンを提案する。 変分トークンはオブジェクトの変形や外観の変化に適応し、無視できる計算で全体的なパフォーマンスを高めることができる。 実験の結果、ROMTrackは複数のベンチマークで新しい最先端を設定できることがわかった。

Object modeling has become a core part of recent tracking frameworks. Current popular tackers use Transformer attention to extract the template feature separately or interactively with the search region. However, separate template learning lacks communication between the template and search regions, which brings difficulty in extracting discriminative target-oriented features. On the other hand, interactive template learning produces hybrid template features, which may introduce potential distractors to the template via the cluttered search regions. To enjoy the merits of both methods, we propose a robust object modeling framework for visual tracking (ROMTrack), which simultaneously models the inherent template and the hybrid template features. As a result, harmful distractors can be suppressed by combining the inherent features of target objects with search regions' guidance. Target-related features can also be extracted using the hybrid template, thus resulting in a more robust object modeling framework. To further enhance robustness, we present novel variation tokens to depict the ever-changing appearance of target objects. Variation tokens are adaptable to object deformation and appearance variations, which can boost overall performance with negligible computation. Experiments show that our ROMTrack sets a new state-of-the-art on multiple benchmarks.
翻訳日:2023-08-11 14:50:27 公開日:2023-08-09
# 無線カプセル内視鏡画像における弱監督型ブラディングセグメンテーションのための離散性に基づくアクティブラーニング

Discrepancy-based Active Learning for Weakly Supervised Bleeding Segmentation in Wireless Capsule Endoscopy Images ( http://arxiv.org/abs/2308.05137v1 )

ライセンス: Link先を確認
Fan Bai, Xiaohan Xing, Yutian Shen, Han Ma, Max Q.-H. Meng(参考訳) クラスアクティベーションマップ(CAM)をベースとした弱教師付き手法は,無線カプセル内視鏡(WCE)画像の低アノテーション化による出血セグメンテーションを実現するために応用されている。 しかし、CAMラベルは非常にうるさい傾向があり、医療画像のCAMラベルと地上の真実との間には不可分なギャップがある。 本稿では,カムと基底真理のギャップを若干のアノテーションで橋渡しする,deal(disrepancy-based active learning)アプローチを提案する。 具体的には、労働を解放するために、新しい離散デコーダモデルとCAMPUS(CAM、Pseudo-label、groUnd-truth Selection)の基準を設計し、ノイズの多いCAMを正確なモデル予測といくつかの人間ラベルに置き換える。 離散デコーダモデルは、標準、粗い、微妙な予測を生成する独自のスキームで訓練される。 また,CAMPUSの基準は,モデル発散とCAM発散に基づくCAMと基底真理のギャップを予測するために提案されている。 本手法をwceデータセット上で評価し,本手法が最先端のアクティブラーニング手法を上回っており,10%のラベル付きトレーニングデータを持つ完全注釈データセットでトレーニングした手法に匹敵する性能を示す。

Weakly supervised methods, such as class activation maps (CAM) based, have been applied to achieve bleeding segmentation with low annotation efforts in Wireless Capsule Endoscopy (WCE) images. However, the CAM labels tend to be extremely noisy, and there is an irreparable gap between CAM labels and ground truths for medical images. This paper proposes a new Discrepancy-basEd Active Learning (DEAL) approach to bridge the gap between CAMs and ground truths with a few annotations. Specifically, to liberate labor, we design a novel discrepancy decoder model and a CAMPUS (CAM, Pseudo-label and groUnd-truth Selection) criterion to replace the noisy CAMs with accurate model predictions and a few human labels. The discrepancy decoder model is trained with a unique scheme to generate standard, coarse and fine predictions. And the CAMPUS criterion is proposed to predict the gaps between CAMs and ground truths based on model divergence and CAM divergence. We evaluate our method on the WCE dataset and results show that our method outperforms the state-of-the-art active learning methods and reaches comparable performance to those trained with full annotated datasets with only 10% of the training data labeled.
翻訳日:2023-08-11 14:50:09 公開日:2023-08-09
# データ不純物が精神障害の検出性能に及ぼす影響の分析

Analyzing the Effect of Data Impurity on the Detection Performances of Mental Disorders ( http://arxiv.org/abs/2308.05133v1 )

ライセンス: Link先を確認
Rohan Kumar Gupta and Rohit Sinha(参考訳) 精神障害を自動的に識別する主要な方法は、伝統的にバイナリ分類器を用いている。 これらの分類器は、面接設定から得られた行動データを用いて訓練される。 このトレーニングプロセスでは、特定の障害を持つ個人からのデータがポジティブクラスに分類され、他のすべての参加者からのデータがネガティブクラスに分類される。 実際には、特定の精神疾患が同様の症状を共有しており、収集された行動データが複数の障害に関連する様々な属性を包含していることが広く認識されている。 その結果、対象の精神障害に関連する属性も、負のクラスに存在している可能性がある。 このデータ不純物は、関心の精神障害に対する分類器の準最適訓練につながる可能性がある。 本研究では,大うつ病性障害(mdd)と外傷後ストレス障害検出(ptsd)の文脈でこの仮説を検討する。 これらのデータ不純物除去により,MDDおよびPTSD検出性能は大幅に向上した。

The primary method for identifying mental disorders automatically has traditionally involved using binary classifiers. These classifiers are trained using behavioral data obtained from an interview setup. In this training process, data from individuals with the specific disorder under consideration are categorized as the positive class, while data from all other participants constitute the negative class. In practice, it is widely recognized that certain mental disorders share similar symptoms, causing the collected behavioral data to encompass a variety of attributes associated with multiple disorders. Consequently, attributes linked to the targeted mental disorder might also be present within the negative class. This data impurity may lead to sub-optimal training of the classifier for a mental disorder of interest. In this study, we investigate this hypothesis in the context of major depressive disorder (MDD) and post-traumatic stress disorder detection (PTSD). The results show that upon removal of such data impurity, MDD and PTSD detection performances are significantly improved.
翻訳日:2023-08-11 14:49:38 公開日:2023-08-09
# 胸部x線診断における性差は性差の原因か?

Are Sex-based Physiological Differences the Cause of Gender Bias for Chest X-ray Diagnosis? ( http://arxiv.org/abs/2308.05129v1 )

ライセンス: Link先を確認
Nina Weng, Siavash Bigdeli, Eike Petersen, Aasa Feragen(参考訳) 多くの研究が医療分野におけるAIアルゴリズムの公平性を評価しているが、予測性能の違いの原因はしばしば不明である。 このバイアスの原因に関する知識の欠如はバイアス緩和の効果を損なうものであり、単純なデータセットの分散がパフォーマンスのギャップを減らし、全てのパフォーマンスの違いを解決することができないという事実によって証明されている。 本研究では,機械学習を用いた胸部X線診断における性別バイアスの原因について検討する。 特に,乳房組織が肺の露出不足を招き,モデル性能を低下させるという仮説を考察する。 提案手法は,広く利用されている2つの公開データセットにおける患者1人あたりの録音の高度に歪んだ分布に対処すると同時に,ラベルエラーの影響を低減できる新しいサンプリング手法を提案する。 学習セットにおける疾患,データセット,性別表現間の性差の包括的分析は,データセットの不均衡がパフォーマンス差の唯一の原因ではないことを示している。 さらに、相対的なグループのパフォーマンスはデータセットによって大きく異なり、男性/女性グループのパフォーマンスに影響を与える重要なデータセット固有の要因を示している。 最後に,より具体的には乳房組織の影響について検討し,乳房を記録から抽出し,観察されたパフォーマンスギャップを解消しないことを示した。 以上の結果から,nihおよびchexpertデータセットの胸部x線分析における男女差の主な要因は,基本的な生理的差異ではなく,データセット固有の因子であることが示唆された。

While many studies have assessed the fairness of AI algorithms in the medical field, the causes of differences in prediction performance are often unknown. This lack of knowledge about the causes of bias hampers the efficacy of bias mitigation, as evidenced by the fact that simple dataset balancing still often performs best in reducing performance gaps but is unable to resolve all performance differences. In this work, we investigate the causes of gender bias in machine learning-based chest X-ray diagnosis. In particular, we explore the hypothesis that breast tissue leads to underexposure of the lungs and causes lower model performance. Methodologically, we propose a new sampling method which addresses the highly skewed distribution of recordings per patient in two widely used public datasets, while at the same time reducing the impact of label errors. Our comprehensive analysis of gender differences across diseases, datasets, and gender representations in the training set shows that dataset imbalance is not the sole cause of performance differences. Moreover, relative group performance differs strongly between datasets, indicating important dataset-specific factors influencing male/female group performance. Finally, we investigate the effect of breast tissue more specifically, by cropping out the breasts from recordings, finding that this does not resolve the observed performance gaps. In conclusion, our results indicate that dataset-specific factors, not fundamental physiological differences, are the main drivers of male--female performance gaps in chest X-ray analyses on widely used NIH and CheXpert Dataset.
翻訳日:2023-08-11 14:49:23 公開日:2023-08-09
# 選択的注意による推論コスト削減のための高レベル特徴並列化

High-Level Features Parallelization for Inference Cost Reduction Through Selective Attention ( http://arxiv.org/abs/2308.05128v1 )

ライセンス: Link先を確認
Andr\'e Peter Kelm, Lucas Schmidt, Tim Rolff, Christian Wilms, Ehsan Yaghoubi, Simone Frintrop(参考訳) 本研究では,ディープネットワークの高レベル機能を並列化し,クラス固有の機能を選択的にスキップあるいは選択し,推論コストを削減する。 これは、再トレーニングせずに選択したクラス固有の機能に集中できる能力が限られているため、ほとんどのディープラーニングメソッドに挑戦している。 本稿では,直列汎用低レベル機能と並列高レベル機能を備えた並列並列ハイブリッドアーキテクチャを提案する。 これは、多くのハイレベルな特徴がジェネリックではなくクラス固有であり、人間の脳における空間的および文脈的に分離された神経活性化を観察する最近の神経科学的な発見と関連しているという事実である。 私たちのアプローチは、カットアウトのユニークな機能を提供します。ネットワークの一部を選択して、リトレーニングを必要とせずに、関連するクラスのサブセットのみにフォーカスします。 高性能は維持されるが、推論のコストは大幅に削減できる。 いくつかの例では、パラメータの最大75ドル、パラメータの最大$がスキップされ、アプローチがタスク複雑性の変化に適応するにつれて、35ドル、$がより少ないGMAC(Giga multiply-accumulate)操作が使用される。 これは、パラメータの数、計算の複雑さを減少させ、したがって電力消費を最重要視するモバイル、産業、ロボットアプリケーションにとって重要である。 もうひとつの特徴は、人間の脳における選択的注意のメカニズムと同様に、処理が高レベルなクラス固有の特徴の強化または抑制によって直接影響されることである。 これは、クロスモーダルアプリケーション、セマンティクス事前知識の使用、および/またはコンテキスト認識処理に関係します。

In this work, we parallelize high-level features in deep networks to selectively skip or select class-specific features to reduce inference costs. This challenges most deep learning methods due to their limited ability to efficiently and effectively focus on selected class-specific features without retraining. We propose a serial-parallel hybrid architecture with serial generic low-level features and parallel high-level features. This accounts for the fact that many high-level features are class-specific rather than generic, and has connections to recent neuroscientific findings that observe spatially and contextually separated neural activations in the human brain. Our approach provides the unique functionality of cutouts: selecting parts of the network to focus on only relevant subsets of classes without requiring retraining. High performance is maintained, but the cost of inference can be significantly reduced. In some of our examples, up to $75\,\%$ of parameters are skipped and $35\,\%$ fewer GMACs (Giga multiply-accumulate) operations are used as the approach adapts to a change in task complexity. This is important for mobile, industrial, and robotic applications where reducing the number of parameters, the computational complexity, and thus the power consumption can be paramount. Another unique functionality is that it allows processing to be directly influenced by enhancing or inhibiting high-level class-specific features, similar to the mechanism of selective attention in the human brain. This can be relevant for cross-modal applications, the use of semantic prior knowledge, and/or context-aware processing.
翻訳日:2023-08-11 14:48:57 公開日:2023-08-09
# 物体検出におけるデータフリーモデル抽出攻撃

Data-Free Model Extraction Attacks in the Context of Object Detection ( http://arxiv.org/abs/2308.05127v1 )

ライセンス: Link先を確認
Harshit Shah, Aravindhan G, Pavan Kulkarni, Yuvaraj Govidarajulu, Manojkumar Parmar(参考訳) モデル抽出攻撃は、ターゲットモデルに対して特別にキュレートされたクエリを使用することで、モデルを盗むことに重点を置いている。 このタスクは、トレーニングデータまたはサロゲートデータセットの一部を使用して、ホワイトボックス環境でターゲットモデルを模倣した新しいモデルをトレーニングすることで、うまく実現されます。 しかし、実用的状況では、ターゲットモデルは、敵にアクセスできないプライベートデータセットでトレーニングされる。 データフリーなモデル抽出手法は、ジェネレータによって人工的にキュレートされたクエリを使用する場合のこの問題を置き換える。 我々は,物体検出における境界ボックス座標を予測するための回帰問題にまで及ぶ敵ブラックボックス攻撃を,我々の知る限りでは初めて提案する。 そこで本研究では,損失関数の定義と新規生成器の設定が,対象モデルを抽出する上で重要な要素であることを明らかにした。 提案したモデル抽出法は,妥当なクエリを用いて有意な結果が得られることがわかった。 このオブジェクト検出脆弱性の発見は、そのようなモデルを保護するための将来の展望をサポートするだろう。

A significant number of machine learning models are vulnerable to model extraction attacks, which focus on stealing the models by using specially curated queries against the target model. This task is well accomplished by using part of the training data or a surrogate dataset to train a new model that mimics a target model in a white-box environment. In pragmatic situations, however, the target models are trained on private datasets that are inaccessible to the adversary. The data-free model extraction technique replaces this problem when it comes to using queries artificially curated by a generator similar to that used in Generative Adversarial Nets. We propose for the first time, to the best of our knowledge, an adversary black box attack extending to a regression problem for predicting bounding box coordinates in object detection. As part of our study, we found that defining a loss function and using a novel generator setup is one of the key aspects in extracting the target model. We find that the proposed model extraction method achieves significant results by using reasonable queries. The discovery of this object detection vulnerability will support future prospects for securing such models.
翻訳日:2023-08-11 14:48:29 公開日:2023-08-09
# コミュニティ検出のための新しい2つのアプローチ:Omicron Lineage Variants PPIネットワークの事例

Two Novel Approaches to Detect Community: A Case Study of Omicron Lineage Variants PPI Network ( http://arxiv.org/abs/2308.05125v1 )

ライセンス: Link先を確認
Mamata Das, Selvakumar K., P.J.A. Alphonse(参考訳) タンパク質とタンパク質の相互作用を同定し解析する能力は、分子レベルでの生物学的プロセスの複雑な機構を理解する上で重要な役割を担っている。 ネットワーク分析を用いて、これらの相互作用の構造とダイナミクスについて多くを学ぶことができる。 ネットワークコミュニティの認識により,病原性の生物学的根源の理解を深めることができる。 この知識は、薬物発見の進歩を推進し、疾患治療のためのパーソナライズされた医療アプローチを促進する大きな可能性を秘めている。 本研究では,2つの新しいアルゴリズム(ABCDEとALCDE)と,Girvan-Newman, Louvain, Leiden, Label Propagationアルゴリズムという4つの広く認識されているアルゴリズムを用いて,B.1.1.529型(Omicron virus)のコミュニティを明らかにすることを目的とした。 これらのアルゴリズムはそれぞれこの分野で優位性を確立しており、複雑なネットワーク内のコミュニティを識別するためのユニークな視点を提供している。 また,ネットワークをグローバルな特性,統計概要,グラフ数,グラフレット,モジュールによる検証などによって比較する。 これらの手法を用いて,オミクロンウイルスネットワーク内に存在する構造構造と相互接続についてより深い知見を得た。

The capacity to identify and analyze protein-protein interactions, along with their internal modular organization, plays a crucial role in comprehending the intricate mechanisms underlying biological processes at the molecular level. We can learn a lot about the structure and dynamics of these interactions by using network analysis. We can improve our understanding of the biological roots of disease pathogenesis by recognizing network communities. This knowledge, in turn, holds significant potential for driving advancements in drug discovery and facilitating personalized medicine approaches for disease treatment. In this study, we aimed to uncover the communities within the variant B.1.1.529 (Omicron virus) using two proposed novel algorithm (ABCDE and ALCDE) and four widely recognized algorithms: Girvan-Newman, Louvain, Leiden, and Label Propagation algorithm. Each of these algorithms has established prominence in the field and offers unique perspectives on identifying communities within complex networks. We also compare the networks by the global properties, statistic summary, subgraph count, graphlet and validate by the modulaity. By employing these approaches, we sought to gain deeper insights into the structural organization and interconnections present within the Omicron virus network.
翻訳日:2023-08-11 14:48:11 公開日:2023-08-09
# 時空間的視覚的注意モデリングと理解のための階層表現

Hierarchical Representations for Spatio-Temporal Visual Attention Modeling and Understanding ( http://arxiv.org/abs/2308.05189v1 )

ライセンス: Link先を確認
Miguel-\'Angel Fern\'andez-Torres(参考訳) この博士号。 論文は,映像列における時空間的視覚的注意モデリングと理解のための階層表現の研究と開発に関するものである。 より具体的には,視覚注意のための2つの計算モデルを提案する。 まず,コンテキスト認識型視覚注意モデリングと理解のための生成確率モデルを提案する。 第2に,まずトップダウン時空間の視覚的注意を推定し,最終的に時間領域における注意をモデル化する深層ネットワークアーキテクチャを開発する。

This PhD. Thesis concerns the study and development of hierarchical representations for spatio-temporal visual attention modeling and understanding in video sequences. More specifically, we propose two computational models for visual attention. First, we present a generative probabilistic model for context-aware visual attention modeling and understanding. Secondly, we develop a deep network architecture for visual attention modeling, which first estimates top-down spatio-temporal visual attention, and ultimately serves for modeling attention in the temporal domain.
翻訳日:2023-08-11 14:40:14 公開日:2023-08-09
# PromptPaint: ペイント媒体のようなインタラクションによるテキストと画像のステアリング

PromptPaint: Steering Text-to-Image Generation Through Paint Medium-like Interactions ( http://arxiv.org/abs/2308.05184v1 )

ライセンス: Link先を確認
John Joon Young Chung, Eytan Adar(参考訳) 拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、画像を生成するためのシンプルで強力な方法を提供するが、この生成を導くことは依然として課題である。 言語を通して説明が難しい概念では、ユーザーはプロンプトを作成するのに苦労する。 さらに、これらのモデルの多くはエンドツーエンドシステムとして構築されており、反復的な画像形成のサポートが欠如している。 これに対し、T2I生成とカラーペイントの使い方をモデル化したインタラクションを組み合わせたPromptPaintを紹介します。 promptpaintを使えば、ユーザーは言語を超えて難しい概念を表現するプロンプトを混ぜることができる。 物理的キャンバスにペンキを層状に配置して色を反復的に調整するのと同じように、promplypaintも同様に、異なるキャンバス領域や生成プロセスの時間に対して異なるプロンプトを適用することができる。 一連の研究を通じて、プロンプトの混合、設計トレードオフ、生成モデルに対する社会技術的課題の異なるアプローチを特徴付ける。 promptpaintでは、将来のステアブル生成ツールに関する洞察を提供します。

While diffusion-based text-to-image (T2I) models provide a simple and powerful way to generate images, guiding this generation remains a challenge. For concepts that are difficult to describe through language, users may struggle to create prompts. Moreover, many of these models are built as end-to-end systems, lacking support for iterative shaping of the image. In response, we introduce PromptPaint, which combines T2I generation with interactions that model how we use colored paints. PromptPaint allows users to go beyond language to mix prompts that express challenging concepts. Just as we iteratively tune colors through layered placements of paint on a physical canvas, PromptPaint similarly allows users to apply different prompts to different canvas areas and times of the generative process. Through a set of studies, we characterize different approaches for mixing prompts, design trade-offs, and socio-technical challenges for generative models. With PromptPaint we provide insight into future steerable generative tools.
翻訳日:2023-08-11 14:40:01 公開日:2023-08-09
# 実時間ニューラルネットワークのためのFPGAリソース対応構造化プルーニング

FPGA Resource-aware Structured Pruning for Real-Time Neural Networks ( http://arxiv.org/abs/2308.05170v1 )

ライセンス: Link先を確認
Benjamin Ramhorst (Imperial College London), George A. Constantinides (Imperial College London), Vladimir Loncar (Massachusetts Institute of Technology)(参考訳) ニューラルネットワークは、画像分類、音声認識、科学分析、その他多くの応用分野において最先端のパフォーマンスを達成する。 リアルタイムシステムとIoT(Internet-of-Things)デバイスによって駆動される高速な計算と低消費電力の必要性がますます高まる中、FPGAはディープラーニング推論に適したデバイスとして登場した。 ニューラルネットワークの計算複雑性とメモリフットプリントが高いため、プルーニング、量子化、知識蒸留といった様々な圧縮技術が文献で提案されている。 プルーニングはニューラルネットワークをスパースし、乗算とメモリの数を減らします。 しかし、プルーニングはしばしば基盤となるハードウェアの特性を捉えず、非構造的なスパーシリティと負荷バランスの非効率を引き起こすため、リソース改善のボトルネックとなる。 資源対応テンソル構造を持つクナップサック問題として定式化することで,ハードウェア中心のプルーニングの定式化を提案する。 主な重点はリアルタイム推論であり、レイテンシは1$\mu$sで、fpga上のディープラーニング推論のためのオープンソースフレームワークであるhls4mlによって加速される。 cernの大型ハドロン衝突型加速器における実時間粒子の分類や高速画像の分類など、様々なタスクで評価され、デジタル信号処理ブロック(dsp)の利用率55%から92%、最大81%のブロックメモリ利用率(bram)の削減が可能となった。

Neural networks achieve state-of-the-art performance in image classification, speech recognition, scientific analysis and many more application areas. With the ever-increasing need for faster computation and lower power consumption, driven by real-time systems and Internet-of-Things (IoT) devices, FPGAs have emerged as suitable devices for deep learning inference. Due to the high computational complexity and memory footprint of neural networks, various compression techniques, such as pruning, quantization and knowledge distillation, have been proposed in literature. Pruning sparsifies a neural network, reducing the number of multiplications and memory. However, pruning often fails to capture properties of the underlying hardware, causing unstructured sparsity and load-balance inefficiency, thus bottlenecking resource improvements. We propose a hardware-centric formulation of pruning, by formulating it as a knapsack problem with resource-aware tensor structures. The primary emphasis is on real-time inference, with latencies in the order of 1$\mu$s, accelerated with hls4ml, an open-source framework for deep learning inference on FPGAs. Evaluated on a range of tasks, including real-time particle classification at CERN's Large Hadron Collider and fast image classification, the proposed method achieves a reduction ranging between 55% and 92% in the utilization of digital signal processing blocks (DSP) and up to 81% in block memory (BRAM) utilization.
翻訳日:2023-08-11 14:38:48 公開日:2023-08-09
# コンピュータビジョンにおける分類・オブジェクト検出・インスタンス分割のための統合対話型モデル評価

A Unified Interactive Model Evaluation for Classification, Object Detection, and Instance Segmentation in Computer Vision ( http://arxiv.org/abs/2308.05168v1 )

ライセンス: Link先を確認
Changjian Chen, Yukai Guo, Fengyuan Tian, Shilong Liu, Weikai Yang, Zhaowei Wang, Jing Wu, Hang Su, Hanspeter Pfister, Shixia Liu(参考訳) 既存のモデル評価ツールは、主に分類モデルの評価に焦点を当てており、オブジェクト検出のようなより複雑なモデルの評価のギャップを残している。 本稿では,コンピュータビジョンにおける分類,オブジェクト検出,インスタンス分割のための統一モデル評価を支援する,オープンソースのビジュアル分析ツールuni-evaluatorを開発した。 この手法の背後にある重要なアイデアは、異なるタスクにおける離散予測と連続予測の両方を統一確率分布として定式化することである。 これらの分布に基づいて 1) モデル性能の概要を提供するマトリックスベースの可視化 2) モデルが不十分な問題データサブセットを特定するための表の可視化。 3)関心のサンプルを表示するためのグリッド可視化。 これらの視覚化は、グローバルな概要から個々のサンプルへのモデル評価を容易にするために協力する。 2つのケーススタディは、モデル性能の評価および情報改善におけるユニ評価器の有効性を示す。

Existing model evaluation tools mainly focus on evaluating classification models, leaving a gap in evaluating more complex models, such as object detection. In this paper, we develop an open-source visual analysis tool, Uni-Evaluator, to support a unified model evaluation for classification, object detection, and instance segmentation in computer vision. The key idea behind our method is to formulate both discrete and continuous predictions in different tasks as unified probability distributions. Based on these distributions, we develop 1) a matrix-based visualization to provide an overview of model performance; 2) a table visualization to identify the problematic data subsets where the model performs poorly; 3) a grid visualization to display the samples of interest. These visualizations work together to facilitate the model evaluation from a global overview to individual samples. Two case studies demonstrate the effectiveness of Uni-Evaluator in evaluating model performance and making informed improvements.
翻訳日:2023-08-11 14:38:05 公開日:2023-08-09
# 弱いラベルを用いた拡張電波銀河の形態識別のための深層学習

Deep Learning for Morphological Identification of Extended Radio Galaxies using Weak Labels ( http://arxiv.org/abs/2308.05166v1 )

ライセンス: Link先を確認
Nikhel Gupta, Zeeshan Hayder, Ray P. Norris, Minh Huynh, Lars Petersson, X. Rosalind Wang, Heinz Andernach, B\"arbel S. Koribalski, Miranda Yew, and Evan J. Crawford(参考訳) 本研究は,複数成分の複雑な電波銀河に対する画素レベルマスクのラベル付けコストを低減させる,弱教師付きディープラーニングアルゴリズムの使用について論じる。 このアルゴリズムは、無線銀河の弱いクラスレベルラベルに基づいて、クラスアクティベーションマップ(cams)を取得するように訓練されている。 CAMは、赤外線銀河と赤外線ホストの位置のインスタンスセグメンテーションマスクを得るために、ピクセル間関係ネットワーク(IRNet)を使用してさらに洗練されている。 askap(australian square kmlometre array pathfinder)望遠鏡のデータ、特にemu( evolutionary map of the universe)のパイロットサーベイは、270平方度、rms感度25-35ドル/beamの空域をカバーしている。 弱教師付き深層学習アルゴリズムは、全銀河成分と赤外線ホスト銀河の位置を包含する拡張電波放射用マスクを含む画素レベルの情報を予測するのに高い精度が得られることを示す。 本稿では,複数のクラスをまたいだ平均平均精度(map)を用いて,結合(iou)しきい値0.5の標準交点における性能評価を行った。 本モデルでは,無線マスクと赤外線ホスト位置について,mAP$_{50}$が67.5\%,76.8\%となることを示す。 ネットワークアーキテクチャは以下のリンクにある。 https://github.com/nikhel1/gal-cam

The present work discusses the use of a weakly-supervised deep learning algorithm that reduces the cost of labelling pixel-level masks for complex radio galaxies with multiple components. The algorithm is trained on weak class-level labels of radio galaxies to get class activation maps (CAMs). The CAMs are further refined using an inter-pixel relations network (IRNet) to get instance segmentation masks over radio galaxies and the positions of their infrared hosts. We use data from the Australian Square Kilometre Array Pathfinder (ASKAP) telescope, specifically the Evolutionary Map of the Universe (EMU) Pilot Survey, which covered a sky area of 270 square degrees with an RMS sensitivity of 25-35 $\mu$Jy/beam. We demonstrate that weakly-supervised deep learning algorithms can achieve high accuracy in predicting pixel-level information, including masks for the extended radio emission encapsulating all galaxy components and the positions of the infrared host galaxies. We evaluate the performance of our method using mean Average Precision (mAP) across multiple classes at a standard intersection over union (IoU) threshold of 0.5. We show that the model achieves a mAP$_{50}$ of 67.5\% and 76.8\% for radio masks and infrared host positions, respectively. The network architecture can be found at the following link: https://github.com/Nikhel1/Gal-CAM
翻訳日:2023-08-11 14:37:50 公開日:2023-08-09
# 可換可観測体による第3量子化の拡張:散逸スピンボソンモデル

Extending third quantization with commuting observables: a dissipative spin-boson model ( http://arxiv.org/abs/2308.05160v1 )

ライセンス: Link先を確認
Luka Medic, Anton Ram\v{s}ak, Toma\v{z} Prosen(参考訳) ボソンとスピンの開量子系を記述するlindblad-gorini-kossakowski-sudarshan master方程式のスペクトルと初期値の問題を考える。 言うまでもなく、自由のスピン度は任意の有限レベル量子系に置き換えることができる。 単一開スピンボソンモデルの単純かつ非自明な例は、いくつかの詳細で研究されている。

We consider the spectral and initial value problem for the Lindblad-Gorini-Kossakowski-Sudarshan master equation describing an open quantum system of bosons and spins, where the bosonic parts of the Hamiltonian and Lindblad jump operators are quadratic and linear respectively, while the spins couple to bosons via mutually commuting spin operators. Needless to say, the spin degrees of freedom can be replaced by any set of finite-level quantum systems. A simple, yet non-trivial example of a single open spin-boson model is worked out in some detail.
翻訳日:2023-08-11 14:37:25 公開日:2023-08-09
# 弱結合捕獲型機械振動子の間接冷却

Indirect Cooling of Weakly Coupled Trapped-Ion Mechanical Oscillators ( http://arxiv.org/abs/2308.05158v1 )

ライセンス: Link先を確認
Pan-Yu Hou, Jenny J. Wu, Stephen D. Erickson, Giorgio Zarantonello, Adam D. Brandt, Daniel C. Cole, Andrew C. Wilson, Daniel H. Slichter, Dietrich Leibfried(参考訳) 閉じ込められたイオンの量子基底状態付近への移動を冷却することは、量子情報処理や量子メトロロジーにおける多くの応用において重要である。 しかし、閉じ込められたイオン結晶の特定の運動モードは、モードと冷却放射(通常レーザービーム)との相互作用が弱いかゼロであるため、冷却が困難である。 トラップ電位のパラメトリック変調を用いて, 弱い冷却放射相互作用のモードと強い冷却放射相互作用のモードを結合することにより, 前者を間接冷却することが可能となる。 このようにして、同じイオン種と混合イオン種の多イオン結晶における弱いあるいはゼロの冷却放射相互作用を持つ運動モードの準状態の冷却を実証する。特に、$^9$Be$^+$-$^9$Be$^+$, $^9$Be$^+$-$^{25}$Mg$^+$, $^9$Be$^+$-$^{25}$Mg$+$-$^9$Be$^+$-$^9$Be$^+$+$ このアプローチは、分子イオン、高荷電イオン、荷電基礎粒子、荷電マクロオブジェクトを含む結晶を含む特定の運動モードが効率的に冷却できない任意のクーロン結晶に適用することができる。

Cooling the motion of trapped ions to near the quantum ground state is crucial for many applications in quantum information processing and quantum metrology. However, certain motional modes of trapped-ion crystals can be difficult to cool due to weak or zero interaction between the modes and the cooling radiation, typically laser beams. We overcome this challenge by coupling a mode with weak cooling radiation interaction to one with strong cooling radiation interaction using parametric modulation of the trapping potential, thereby enabling indirect cooling of the former. In this way, we demonstrate near-ground-state cooling of motional modes with weak or zero cooling radiation interaction in multi-ion crystals of the same and mixed ion species, specifically $^9$Be$^+$-$^9$Be$^+$, $^9$Be$^+$-$^{25}$Mg$^+$, and $^9$Be$^+$-$^{25}$Mg$^+$-$^9$Be$^+$ crystals. This approach can be generally applied to any Coulomb crystal where certain motional modes cannot be directly cooled efficiently, including crystals containing molecular ions, highly-charged ions, charged fundamental particles, or charged macroscopic objects.
翻訳日:2023-08-11 14:37:12 公開日:2023-08-09
# 量子レゴ拡張パック:テンソルネットワークからの列挙器

Quantum Lego Expansion Pack: Enumerators from Tensor Networks ( http://arxiv.org/abs/2308.05152v1 )

ライセンス: Link先を確認
ChunJun Cao, Michael J. Gullans, Brad Lackey, Zitao Wang(参考訳) 量子量列挙多項式を最も一般的な形式で計算するための最初のテンソルネットワーク法を提供する。 帰結として、量子符号がその符号化マップの既知のテンソルネットワーク構造を持っている場合、その距離を計算するアルゴリズムを生成する。 非(pauli)安定化符号の場合、これはコード距離を計算するのに最適なアルゴリズムである。 縮退安定化符号では、現在の方法と比較して指数関数的な速度アップを提供することができる。 また, 異なる重み列挙器の応用例をいくつか紹介する。 特に、量子レゴ法から構築された任意のコードに対して、列挙子を使用して、その(最適)デコーダを1つのqubitまたはquditエラーチャネルに基づいて構築し、論理的エラー率を計算するためのそれらの応用について議論する。 原理の証明として,変形した表面符号,ホログラフィックペンタゴン符号,および(バイアスド)ポーリ雑音下での2次元ベーコン・ソール符号の正確な解析を行い,ブルート力により到達不能な大きさでのコヒーレント誤差の限定的な例を示す。

We provide the first tensor network method for computing quantum weight enumerator polynomials in the most general form. As a corollary, if a quantum code has a known tensor network construction of its encoding map, our method produces an algorithm that computes its distance. For non-(Pauli)-stabilizer codes, this constitutes the current best algorithm for computing the code distance. For degenerate stabilizer codes, it can provide up to an exponential speed up compared to the current methods. We also introduce a few novel applications of different weight enumerators. In particular, for any code built from the quantum lego method, we use enumerators to construct its (optimal) decoders under any i.i.d. single qubit or qudit error channels and discuss their applications for computing logical error rates. As a proof of principle, we perform exact analyses of the deformed surface codes, the holographic pentagon code, and the 2d Bacon-Shor code under (biased) Pauli noise and limited instances of coherent error at sizes that are inaccessible by brute force.
翻訳日:2023-08-11 14:36:37 公開日:2023-08-09
# 深層ニューラルネットワークを用いたパラメタライズド音源を用いた対話型3次元シーンの音響伝搬

Sound propagation in realistic interactive 3D scenes with parameterized sources using deep neural operators ( http://arxiv.org/abs/2308.05141v1 )

ライセンス: Link先を確認
Nikolas Borrel-Jensen, Somdatta Goswami, Allan P. Engsig-Karup, George Em Karniadakis, Cheol-Ho Jeong(参考訳) 移動源を持つ3ドルの仮想空間における音波伝搬シミュレーションの課題に対処し,仮想・拡張現実,ゲーム音声,空間コンピューティングに応用する。 波動方程式の解は回折や干渉といった波動現象を記述することができる。 しかし、数百の音源と受信位置を持つ従来の数値離散化法を用いてそれらをシミュレーションすることは困難であり、移動音源による音場刺激は非現実的である。 この制限を克服するため、線形波動方程式演算子を近似するディープ演算子ネットワークを提案する。 これにより、移動音源を持つ現実的な3次元音響シーンにおける音響伝搬の迅速な予測が可能となり、ミリ秒スケールの計算が可能となる。 コンパクトなサロゲートモデルを学ぶことにより、関連するすべてのソース/リスナーペアに対するインパルス応答のオフライン計算と格納を回避できる。 様々な複雑なシーンジオメトリを含む我々の実験は、0.02 Pa から 0.10 Pa までの根平均二乗誤差を持つ参照解と良好な一致を示した。 特に,本手法は,従来の機械学習手法が現実的な領域における完全波動場の正確な予測を達成していないため,パラダイムシフトを示す。 本研究は,仮想環境における没入型ユーザエクスペリエンスの研究を前進させ,深層ニューラルネットワークのさらなる探索を促進することを期待する。

We address the challenge of sound propagation simulations in $3$D virtual rooms with moving sources, which have applications in virtual/augmented reality, game audio, and spatial computing. Solutions to the wave equation can describe wave phenomena such as diffraction and interference. However, simulating them using conventional numerical discretization methods with hundreds of source and receiver positions is intractable, making stimulating a sound field with moving sources impractical. To overcome this limitation, we propose using deep operator networks to approximate linear wave-equation operators. This enables the rapid prediction of sound propagation in realistic 3D acoustic scenes with moving sources, achieving millisecond-scale computations. By learning a compact surrogate model, we avoid the offline calculation and storage of impulse responses for all relevant source/listener pairs. Our experiments, including various complex scene geometries, show good agreement with reference solutions, with root mean squared errors ranging from 0.02 Pa to 0.10 Pa. Notably, our method signifies a paradigm shift as no prior machine learning approach has achieved precise predictions of complete wave fields within realistic domains. We anticipate that our findings will drive further exploration of deep neural operator methods, advancing research in immersive user experiences within virtual environments.
翻訳日:2023-08-11 14:36:16 公開日:2023-08-09
# 言語トランスフォーマの復号化層サリエンシー

Decoding Layer Saliency in Language Transformers ( http://arxiv.org/abs/2308.05219v1 )

ライセンス: Link先を確認
Elizabeth M. Hou, Gregory Castanon(参考訳) 本稿では,分類タスクに適用する大規模言語モデルにおいて,テキストのsaliencyを識別する手法を提案する。 よりよく研究されている視覚ネットワークでは、サリエンシはネットワークの畳み込み層を通して自然に局所化されるが、現代のトランスフォーマースタックネットワークでは、自然言語を処理するのに使われていない。 そこで我々は,これらのネットワークに対して勾配法を適応させ,各階層のセマンティック・コヒーレンスを評価する手法を提案し,複数のベンチマーク分類データセット上でテキスト・サリエンシのための他の多くの手法よりも一貫した改善を示す。 私たちのアプローチでは、ラベル付きデータに対する追加のトレーニングやアクセスは必要ありません。

In this paper, we introduce a strategy for identifying textual saliency in large-scale language models applied to classification tasks. In visual networks where saliency is more well-studied, saliency is naturally localized through the convolutional layers of the network; however, the same is not true in modern transformer-stack networks used to process natural language. We adapt gradient-based saliency methods for these networks, propose a method for evaluating the degree of semantic coherence of each layer, and demonstrate consistent improvement over numerous other methods for textual saliency on multiple benchmark classification datasets. Our approach requires no additional training or access to labelled data, and is comparatively very computationally efficient.
翻訳日:2023-08-11 14:29:44 公開日:2023-08-09
# コンフォーメータを用いた単一チャネル音声の自動音声認識

Conformer-based Target-Speaker Automatic Speech Recognition for Single-Channel Audio ( http://arxiv.org/abs/2308.05218v1 )

ライセンス: Link先を確認
Yang Zhang, Krishna C. Puvvada, Vitaly Lavrukhin, Boris Ginsburg(参考訳) 本稿では,ts-asr(single channel target-speaker automatic speech recognition)のための非自己回帰型エンドツーエンド時間周波数ドメインアーキテクチャであるconf-tsasrを提案する。 このモデルは、TitaNetベースの話者埋め込みモジュール、Conformerベースのマスキング、およびASRモジュールで構成されている。 これらのモジュールは、他の話者からの音声を無視しながら、ターゲット話者を転写するように共同最適化されている。 トレーニングには、Connectionist Temporal Classification (CTC) の損失を使用し、スケール不変のスペクトログラム再構成損失を導入し、モデルがターゲット話者のスペクトログラムを混合から分離することを奨励する。 WSJ0-2mix-extr (4.2%) 上で, 最先端のターゲット話者単語誤り率 (TS-WER) を求める。 さらに、WSJ0-3mix-extr (12.4%)、LibriSpeech2Mix (4.2%)、LibriSpeech3Mix (7.6%)のデータセットを初めてTS-WERで報告し、TS-ASRの新しいベンチマークを確立した。 提案されたモデルはNVIDIA NeMoツールキットを通じてオープンソース化される。

We propose CONF-TSASR, a non-autoregressive end-to-end time-frequency domain architecture for single-channel target-speaker automatic speech recognition (TS-ASR). The model consists of a TitaNet based speaker embedding module, a Conformer based masking as well as ASR modules. These modules are jointly optimized to transcribe a target-speaker, while ignoring speech from other speakers. For training we use Connectionist Temporal Classification (CTC) loss and introduce a scale-invariant spectrogram reconstruction loss to encourage the model better separate the target-speaker's spectrogram from mixture. We obtain state-of-the-art target-speaker word error rate (TS-WER) on WSJ0-2mix-extr (4.2%). Further, we report for the first time TS-WER on WSJ0-3mix-extr (12.4%), LibriSpeech2Mix (4.2%) and LibriSpeech3Mix (7.6%) datasets, establishing new benchmarks for TS-ASR. The proposed model will be open-sourced through NVIDIA NeMo toolkit.
翻訳日:2023-08-11 14:29:29 公開日:2023-08-09
# 直線上の量子ウォークの確率分布に対する閉形式表現

Closed-form expressions for the probability distribution of quantum walk on a line ( http://arxiv.org/abs/2308.05213v1 )

ライセンス: Link先を確認
Mahesh N. Jayakody and Eliahu Cohen(参考訳) 量子ウォークの理論と応用研究は、その相対的な単純さと汎用性のおかげで、量子科学と技術に豊富である。 ここでは、直線上の量子ウォークの確率分布に対する閉形式式を導出する。 最も一般的な2状態の硬貨操作者と最も一般的な(純粋な)初期状態は導出で考慮される。 一般硬貨オペレーターは、アダマール、グローバー、フーリエの共通の選択を含んでいる。 解析には行列のパワー分解のためのフィボナッチ・ホーナー基底法を用いる。 さらに、混合初期状態も考慮し、直線上の量子ウォークの確率分布に対する閉形式表現を導出する。 導出の正確性を証明するため,我々は閉形式式を用いて直線上のアダマール歩行のシミュレーション確率分布を求める。 より広い視点を念頭において、我々の手法は、一般的な文脈における量子ビット系系の時間進化の正確な解析式を得るのに有用な数学的ツールとして機能する可能性があると論じる。

Theoretical and applied studies of quantum walks are abundant in quantum science and technology thanks to their relative simplicity and versatility. Here we derive closed-form expressions for the probability distribution of quantum walks on a line. The most general two-state coin operator and the most general (pure) initial state are considered in the derivation. The general coin operator includes the common choices of Hadamard, Grover, and Fourier coins. The method of Fibonacci-Horner basis for the power decomposition of a matrix is employed in the analysis. Moreover, we also consider mixed initial states and derive closed-form expression for the probability distribution of the Quantum walk on a line. To prove the accuracy of our derivations, we retrieve the simulated probability distribution of Hadamard walk on a line using our closed-form expressions. With a broader perspective in mind, we argue that our approach has the potential to serve as a helpful mathematical tool in obtaining precise analytical expressions for the time evolution of qubit-based systems in a general context.
翻訳日:2023-08-11 14:29:10 公開日:2023-08-09
# ルビジウムの変形マイクロ波遷移によるリドバーグ励起

Rydberg excitation through detuned microwave transition in rubidium ( http://arxiv.org/abs/2308.05212v1 )

ライセンス: Link先を確認
E. Brekke and C. Umland(参考訳) 温かいルビジウム蒸気中のrydberg状態の励起について検討した。 逆波長励起法を用いて、電磁誘導透過によるリドベルク状態間のマイクロ波カップリングの効果を観察する。 我々は、マイクロ波結合からリドバーグ状態の交流スタークシフトを観察し、二次リドバーグ状態への復調励起を示す。 これらの結果は、Rydberg状態を用いた様々な波動混合プロセスに必要な励起過程と状態選択の柔軟性を示す。

We study the excitation of Rydberg states in warm rubidium vapor. Using an inverted wavelength excitation scheme, we observe the effect of microwave coupling between Rydberg states through electromagnetically induced transparency. We observe AC stark shifts of the Rydberg states from the microwave coupling, and demonstrate detuned excitation to a secondary Rydberg state. These results show flexibility in excitation process and state selection necessary for a variety of wave-mixing processes using Rydberg states.
翻訳日:2023-08-11 14:28:56 公開日:2023-08-09
# 光の長寿命・高効率オプトメカニカルメモリ

A Long-lived and Efficient Optomechanical Memory for Light ( http://arxiv.org/abs/2308.05206v1 )

ライセンス: Link先を確認
Mads Bjerregaard Kristensen, Nenad Kralj, Eric Langman, Albert Schliesser(参考訳) 光学的に誘導される透過性に基づく光のメモリを実証する。 我々は,mhzの周波数で振動するソフトクランプ型メカニカル膜共振器の超低出力化を利用して,長い記憶時間を実現する。 室温では、古典的コヒーレントパルスに対して、寿命$T_1 \approx 23\,\mathrm{ms}$と検索効率$\eta \approx 40\%$を示す。 量子光の保存は適度な低温条件(約10\,\mathrm{k}$)で可能であると予測する。 このようなシステムは、フォノニックモードに光学情報を格納することで長寿命の光量子メモリとして機能する、新興の量子ネットワークで応用される可能性がある。

We demonstrate a memory for light based on optomechanically induced transparency. We achieve a long storage time by leveraging the ultra-low dissipation of a soft-clamped mechanical membrane resonator, which oscillates at MHz frequencies. At room temperature, we demonstrate a lifetime $T_1 \approx 23\,\mathrm{ms}$ and a retrieval efficiency $\eta \approx 40\%$ for classical coherent pulses. We anticipate storage of quantum light to be possible at moderate cryogenic conditions ($T\approx 10\,\mathrm{K}$). Such systems could find applications in emerging quantum networks, where they can serve as long-lived optical quantum memories by storing optical information in a phononic mode.
翻訳日:2023-08-11 14:28:48 公開日:2023-08-09
# フェルミオンとボソン以外の自由粒子

Free particles beyond fermions and bosons ( http://arxiv.org/abs/2308.05203v1 )

ライセンス: Link先を確認
Zhiyuan Wang and Kaden R. A. Hazzard(参考訳) 量子力学にはフェルミオンとボソンという2種類の素粒子交換統計があるが、2次元のエノンを除いては2種類の素粒子交換統計しかないと一般的に信じられている。 原則として、2次元の外側に広がるパラ統計学として知られる第2の例外は、フェルミオンやボソンと物理的に等価であると考えられている。 本稿では,フェルミオンやボソンと等価でない非自明な準統計学が物理系に存在できることを示す。 これらの新しい種類の同一粒子は、一般化された排他原理に従い、自由フェルミオンやボソンの系とは異なるエキゾチックな自由粒子熱力学をもたらす。 パラ粒子の第二量子化は、自然に解ける非相互作用理論を含み、局所性のような物理的制約を含む。 次に、自由パラ統計粒子が準粒子励起として現れる1次元量子スピンモデルの族を構築する。 これは、凝縮物質系における新しいタイプの準粒子の可能性を示し、より投機的に、以前は考えられていなかった素粒子のタイプの可能性を示す。

It is commonly believed that there are only two types of particle exchange statistics in quantum mechanics, fermions and bosons, with the exception of anyons in two dimension. In principle, a second exception known as parastatistics, which extends outside of two dimensions, has been considered but was believed to be physically equivalent to fermions and bosons. In this paper we show that nontrivial parastatistics inequivalent to either fermions or bosons can exist in physical systems. These new types of identical particles obey generalized exclusion principles, leading to exotic free-particle thermodynamics distinct from any system of free fermions and bosons. We formulate our theory by developing a second quantization of paraparticles, which naturally includes exactly solvable non-interacting theories, and incorporates physical constraints such as locality. We then construct a family of one-dimensional quantum spin models where free parastatistical particles emerge as quasiparticle excitations. This demonstrates the possibility of a new type of quasiparticle in condensed matter systems, and, more speculatively, the potential for previously unconsidered types of elementary particles.
翻訳日:2023-08-11 14:28:31 公開日:2023-08-09
# AIによる仕事の未来を創る:オンライン労働市場からの実証的証拠

"Generate" the Future of Work through AI: Empirical Evidence from Online Labor Markets ( http://arxiv.org/abs/2308.05201v1 )

ライセンス: Link先を確認
Jin Liu (1), Xingchen Xu (2), Yongjun Li (1) and Yong Tan (2) ((1) University of Science and Technology of China, (2) University of Washington)(参考訳) 汎用ジェネレーティブAIの出現により、労働市場への影響を明らかにすることへの関心はエスカレートする。 現存する経験的空白を橋渡しする試みとして、ChatGPTの立ち上げを外因性ショックと解釈し、オンライン労働市場におけるテキスト関連ジョブやフリーランサーへの影響を定量化するための差分差分(DID)アプローチを実装した。 以上の結果から,ChatGPTに直接露出したギグやフリーランサーの取引量は大きく減少した。 さらに、この減少は、特に過去の取引量や品質基準が比較的高い単位で顕著である。 しかし、サービス提供者の間では否定的な影響は経験されていない。 その後の分析では、新しい進歩に熟達したフリーランサーがaiテクノロジーを増強するサービスを提供することで、この転換期の間にかなりの利益が得られることが示されている。 したがって、ChatGPTの出現は、既存の職業を置き換える可能性があるが、大きな機会を広げ、仕事の未来を再構成する可能性ももたらしている。 この研究は、労働市場におけるLLMベースの生成AIの深い影響を探求する限られた実証的リポジトリに寄与し、労働者、雇用仲介業者、規制機関に貴重な洞察を与えている。

With the advent of general-purpose Generative AI, the interest in discerning its impact on the labor market escalates. In an attempt to bridge the extant empirical void, we interpret the launch of ChatGPT as an exogenous shock, and implement a Difference-in-Differences (DID) approach to quantify its influence on text-related jobs and freelancers within an online labor marketplace. Our results reveal a significant decrease in transaction volume for gigs and freelancers directly exposed to ChatGPT. Additionally, this decline is particularly marked in units of relatively higher past transaction volume or lower quality standards. Yet, the negative effect is not universally experienced among service providers. Subsequent analyses illustrate that freelancers proficiently adapting to novel advancements and offering services that augment AI technologies can yield substantial benefits amidst this transformative period. Consequently, even though the advent of ChatGPT could conceivably substitute existing occupations, it also unfolds immense opportunities and carries the potential to reconfigure the future of work. This research contributes to the limited empirical repository exploring the profound influence of LLM-based generative AI on the labor market, furnishing invaluable insights for workers, job intermediaries, and regulatory bodies navigating this evolving landscape.
翻訳日:2023-08-11 14:28:12 公開日:2023-08-09
# 歩行者軌道予測手法の評価と自律運転への応用

Evaluating Pedestrian Trajectory Prediction Methods for the Application in Autonomous Driving ( http://arxiv.org/abs/2308.05194v1 )

ライセンス: Link先を確認
Nico Uhlemann, Felix Fent, Markus Lienkamp(参考訳) 本稿では,歩行者軌道予測の分野における技術の現状を,その自律走行車への適用性に関して定速度モデル(CVM)とともに評価する。 評価は、平均変位誤差(ADE)と最終変位誤差(FDE)を報告した広く使われているETH/UCYデータセット上で行われる。 実世界のアプリケーションにおける要求に合致するため、最初に提案されたモデルの入力特性に修正を加える。 観測された動き履歴が予測性能に与える影響を調べるためのアブレーション研究を行い、その影響をよりよく理解した。 さらに、各モデルの推論時間を測定し、様々なエージェントに直面した場合、各モデルのスケーラビリティを評価する。 その結果,単一トラジェクタを生成する場合,単純なモデルでは競争力が保たれ,有用と考えられる機能によっては,アーキテクチャ全体のパフォーマンスにほとんど影響を与えないことがわかった。 これらの知見に基づいて,軌道予測アルゴリズムの今後の発展を導くための勧告が提案されている。

In this paper, the state of the art in the field of pedestrian trajectory prediction is evaluated alongside the constant velocity model (CVM) with respect to its applicability in autonomous vehicles. The evaluation is conducted on the widely-used ETH/UCY dataset where the Average Displacement Error (ADE) and the Final Displacement Error (FDE) are reported. To align with requirements in real-world applications, modifications are made to the input features of the initially proposed models. An ablation study is conducted to examine the influence of the observed motion history on the prediction performance, thereby establishing a better understanding of its impact. Additionally, the inference time of each model is measured to evaluate the scalability of each model when confronted with varying amounts of agents. The results demonstrate that simple models remain competitive when generating single trajectories, and certain features commonly thought of as useful have little impact on the overall performance across different architectures. Based on these findings, recommendations are proposed to guide the future development of trajectory prediction algorithms.
翻訳日:2023-08-11 14:27:30 公開日:2023-08-09
# 熱リドバーグ原子を用いたドップラー量子磁気測定

Doppler-Enhanced Quantum Magnetometry with thermal Rydberg atoms ( http://arxiv.org/abs/2308.05190v1 )

ライセンス: Link先を確認
Shovan Kanti Barik, Silpa B S, M Venkat Ramana, Shovan Dutta, and Sanjukta Roy(参考訳) 室温での量子干渉と熱ドップラーシフトを組み合わせて弱磁場を検知する方法を実験的に検討した。 我々は、プローブとカップリングレーザを用いて高励起リドバーグレベルに${}^{87}$Rb原子をポンプし、電磁誘導透明性(EIT)と呼ばれる遷移振幅の破壊的干渉によるプローブの狭い透過ピークを導いた。 このような装置では、ドップラーシフトの影響を最小限に抑えるために反プロパゲートレーザーを用いるのが慣例であるが、これとは対照的に、共プロパゲートアレンジでドップラーシフトを利用して磁場に対する応答を増強できることが示される。 特に,逆伝播の場合と比較して,伝送スペクトルのオーダー・オブ・マグニチュードの分割が大きいことを示す。 我々は,lindblad master方程式に基づく理論モデルとシミュレーションを用いて,この知見を説明し,一般化する。 この結果は、容易に展開できる室温プラットフォームで量子効果を磁気測定に利用するための道を開くものである。

We report experimental measurements showing how one can combine quantum interference and thermal Doppler shifts at room temperature to detect weak magnetic fields. We pump ${}^{87}$Rb atoms to a highly-excited, Rydberg level using a probe and a coupling laser, leading to narrow transmission peaks of the probe due to destructive interference of transition amplitudes, known as Electromagnetically Induced Transparency (EIT). While it is customary in such setups to use counterpropagating lasers to minimize the effect of Doppler shifts, here we show, on the contrary, that one can harness Doppler shifts in a copropagating arrangement to produce an enhanced response to a magnetic field. In particular, we demonstrate an order-of-magnitude bigger splitting in the transmission spectrum as compared to the counterpropagating case. We explain and generalize our findings with theoretical modelling and simulations based on a Lindblad master equation. Our results pave the way to using quantum effects for magnetometry in readily deployable room-temperature platforms.
翻訳日:2023-08-11 14:27:14 公開日:2023-08-09
# VQGANのベクトル量子化損失解析:画像-画像合成のためのシングルGPUアブレーション研究

Vector quantization loss analysis in VQGANs: a single-GPU ablation study for image-to-image synthesis ( http://arxiv.org/abs/2308.05242v1 )

ライセンス: Link先を確認
Luv Verma, Varun Mohan(参考訳) 本研究では,単一のnvidia a100 gpuを用いた画像合成に着目したベクトル量子化生成逆ネットワーク(vqgans)のアブレーション解析を行う。 現在の研究は、特に限られたリソースの制約の中で、エポック数、画像数、コードブックベクトルと潜在次元の属性など、様々な臨界パラメータのニュアンスド効果を探求している。 特に、我々はベクトル量子化損失に注目し、他のハイパーパラメータと損失成分(gan損失)を固定している。 これは離散的潜在空間のより深い理解と、その大きさが再構成にどのように影響するかを探究するために行われた。 しかし,本研究の結果は既存のベンチマークを上回るものではないものの,より小さなデータセットに対するVQGANの挙動,特にアーティファクト,コードブックサイズ最適化,主成分分析(PCA)との比較分析について,大きな光を当てた。 この研究はまた、2次元の位置エンコーディングを導入することで有望な方向性を明らかにし、明快さと過剰フィットのバランスに関して、アーチファクトの著しい削減と洞察を明らかにする。

This study performs an ablation analysis of Vector Quantized Generative Adversarial Networks (VQGANs), concentrating on image-to-image synthesis utilizing a single NVIDIA A100 GPU. The current work explores the nuanced effects of varying critical parameters including the number of epochs, image count, and attributes of codebook vectors and latent dimensions, specifically within the constraint of limited resources. Notably, our focus is pinpointed on the vector quantization loss, keeping other hyperparameters and loss components (GAN loss) fixed. This was done to delve into a deeper understanding of the discrete latent space, and to explore how varying its size affects the reconstruction. Though, our results do not surpass the existing benchmarks, however, our findings shed significant light on VQGAN's behaviour for a smaller dataset, particularly concerning artifacts, codebook size optimization, and comparative analysis with Principal Component Analysis (PCA). The study also uncovers the promising direction by introducing 2D positional encodings, revealing a marked reduction in artifacts and insights into balancing clarity and overfitting.
翻訳日:2023-08-11 14:19:20 公開日:2023-08-09
# 真空放射線と断熱ショートカット

Vacuum radiation versus shortcuts to adiabaticity ( http://arxiv.org/abs/2308.05241v1 )

ライセンス: Link先を確認
Ricardo R. Ancheyta(参考訳) 電磁場の非断熱力学は、量子真空から発生する光子をトリガーする。 adiabaticityへのショートカットは、フィールドの断熱力学を有限時間で模倣するプロトコルである。 ここでは、遷移性追跡アルゴリズムの反断熱的項が正確には、動的カシミール効果における光子生成の原因となる用語をキャンセルすることを示す。 この結果は、真空から光子を生成するエネルギーが近道のエネルギーコストに関係していることを示唆している。 さらに, この系が量子熱力学サイクルの下で動作する場合, 断熱的作業と断熱的作業の等価性を確認する。 最後に, この非報告観察を, 実効的ハミルトニアンアプローチを用いてのみ同定できることを明らかにした。

The nonadiabatic dynamic of the electromagnetic field triggers photons generation from the quantum vacuum. Shortcuts to adiabaticity, instead, are protocols that mimic the field's adiabatic dynamic in a finite time. Here, we show how the counterdiabatic term of the transitionless tracking algorithm cancels out, exactly, the term responsible for the photon production in the dynamical Casimir effect. This result suggests that the energy of producing photons out of the vacuum is related to the energetic cost of the shortcut. Furthermore, if the system operates under a quantum thermodynamic cycle, we confirm the equivalence between the adiabatic and nonadiabatic work outputs. Finally, our study reveals that identifying these unreported observations can only be possible using the so-called effective Hamiltonian approach.
翻訳日:2023-08-11 14:18:57 公開日:2023-08-09
# AI対応ソフトウェアとシステムアーキテクチャフレームワーク:スマートサイバー物理システム(CPS)に着目して

AI-Enabled Software and System Architecture Frameworks: Focusing on smart Cyber-Physical Systems (CPS) ( http://arxiv.org/abs/2308.05239v1 )

ライセンス: Link先を確認
Armin Moin, Atta Badii, Stephan G\"unnemann, Moharram Challenger(参考訳) ソフトウェア、システム、企業のためのいくつかのアーキテクチャフレームワークが文献で提案されている。 彼らは様々なステークホルダを特定し、ステークホルダーの懸念をフレーム化し対処するためにアーキテクチャの視点とビューを定義した。 しかしながら、データサイエンティストやデータエンジニアなど、データサイエンスと機械学習(ml)に関連する関心事に関するステークホルダーは、既存のアーキテクチャフレームワークには含まれていない。 そのため、彼らは、データサイエンスコミュニティの懸念に反応するアーキテクチャの観点や見解に対処できなかった。 本稿では,MLアーティファクトが広く普及している現代アプリケーションや組織の要件に適合するアーキテクチャフレームワークを確立することで,このギャップに対処する。 特に,ml対応サイバーフィジカルシステム(cpss)に着目し,ml対応cpsの評価・ベンチマーク基準と,モデリング・開発パイプラインを通じたユーザ支援を目的としたツールの評価・ベンチマーク基準という,効率的な開発・パフォーマンス評価のための2つのメリット基準を提案する。 本研究では,専門家インタビューやオンラインアンケートなど,文献レビューと調査機器に基づく実証的・質的研究手法を複数展開する。 我々は、提案フレームワークを考案し、検証するために、10か国25以上の組織から77人の専門家の意見を集め、分析し、統合する。

Several architecture frameworks for software, systems, and enterprises have been proposed in the literature. They identified various stakeholders and defined architecture viewpoints and views to frame and address stakeholder concerns. However, the stakeholders with data science and Machine Learning (ML) related concerns, such as data scientists and data engineers, are yet to be included in existing architecture frameworks. Therefore, they failed to address the architecture viewpoints and views responsive to the concerns of the data science community. In this paper, we address this gap by establishing the architecture frameworks adapted to meet the requirements of modern applications and organizations where ML artifacts are both prevalent and crucial. In particular, we focus on ML-enabled Cyber-Physical Systems (CPSs) and propose two sets of merit criteria for their efficient development and performance assessment, namely the criteria for evaluating and benchmarking ML-enabled CPSs, and the criteria for evaluation and benchmarking of the tools intended to support users through the modeling and development pipeline. In this study, we deploy multiple empirical and qualitative research methods based on literature review and survey instruments including expert interviews and an online questionnaire. We collect, analyze, and integrate the opinions of 77 experts from more than 25 organizations in over 10 countries to devise and validate the proposed framework.
翻訳日:2023-08-11 14:18:43 公開日:2023-08-09
# ファイナンシャル・フラッド検出:量子機械学習モデルの比較研究

Financial Fraud Detection: A Comparative Study of Quantum Machine Learning Models ( http://arxiv.org/abs/2308.05237v1 )

ライセンス: Link先を確認
Nouhaila Innan, Muhammad Al-Zafar Khan, and Mohamed Bennai(参考訳) 本研究では,ファイナンスにおける不正検出のための4つの量子機械学習(QML)モデルの比較研究を行った。 量子サポートベクトル分類器モデルが最も高い性能を示し,f1スコアは詐欺クラスと非詐欺クラスで0.98であった。 変分量子分類器、推定量子ニューラルネットワーク(QNN)、サンプラーQNNといった他のモデルは有望な結果を示し、金融アプリケーションに対するQML分類の可能性を示している。 一定の限界を示す一方で、その洞察は将来の拡張と最適化戦略の道を開いた。 しかし、より効率的な量子アルゴリズムや大規模で複雑なデータセットの必要性など、課題は存在する。 この記事は、現在の制限を克服するためのソリューションを提供し、不正検出における量子機械学習の分野に新たな洞察をもたらし、今後の開発に重要な意味を持つ。

In this research, a comparative study of four Quantum Machine Learning (QML) models was conducted for fraud detection in finance. We proved that the Quantum Support Vector Classifier model achieved the highest performance, with F1 scores of 0.98 for fraud and non-fraud classes. Other models like the Variational Quantum Classifier, Estimator Quantum Neural Network (QNN), and Sampler QNN demonstrate promising results, propelling the potential of QML classification for financial applications. While they exhibit certain limitations, the insights attained pave the way for future enhancements and optimisation strategies. However, challenges exist, including the need for more efficient Quantum algorithms and larger and more complex datasets. The article provides solutions to overcome current limitations and contributes new insights to the field of Quantum Machine Learning in fraud detection, with important implications for its future development.
翻訳日:2023-08-11 14:18:22 公開日:2023-08-09
# 土地利用と土地被覆マッピングのための空間ゲート多層パーセプトロン

Spatial Gated Multi-Layer Perceptron for Land Use and Land Cover Mapping ( http://arxiv.org/abs/2308.05235v1 )

ライセンス: Link先を確認
Ali Jamali, Swalpa Kumar Roy, Danfeng Hong, Peter M Atkinson, Pedram Ghamisi(参考訳) 畳み込みニューラルネットワーク(CNN)は、特徴の階層的抽出に広く利用されるモデルである。 視覚変換器(ViT)は、自己認識機構を用いて、CNNと比較して、グローバルな文脈情報の優れたモデリングを実現している。 しかし、その画像分類強度を実現するために、ViTは相当なトレーニングデータセットを必要とする。 利用可能なトレーニングデータが限られている場合、現在の高度な多層パーセプトロン(MLP)は、ディープCNNとViTの両方に対して実行可能な代替手段を提供することができる。 本稿では,正確な土地利用土地被覆(LULC)マッピングにMLPと空間ゲーティングユニット(SGU)の両方を効果的に活用する学習アルゴリズムであるSGU-MLPを開発した。 その結果、hybridsn, resnet, iformer, efficientformer, coatnetなど、いくつかのcnnおよびcnn-vitモデルに対するsgu-mlp分類アルゴリズムの優位性が示された。 提案されたSGU-MLPアルゴリズムは、ヒューストン、アメリカ、ベルリン、ドイツ、アウクスブルクの3つの実験を通して試験された。 SGU-MLP分類モデルはベンチマークCNNとCNN-ViTベースのアルゴリズムより一貫して優れていた。 例えばヒューストンの実験では、SGU-MLPが平均精度で、HybridSN、CoAtNet、Efficientformer、iFormer、ResNetを約15%、19%、20%、21%、25%で上回った。 コードはhttps://github.com/aj1365/SGUMLPで公開される。

Convolutional Neural Networks (CNNs) are models that are utilized extensively for the hierarchical extraction of features. Vision transformers (ViTs), through the use of a self-attention mechanism, have recently achieved superior modeling of global contextual information compared to CNNs. However, to realize their image classification strength, ViTs require substantial training datasets. Where the available training data are limited, current advanced multi-layer perceptrons (MLPs) can provide viable alternatives to both deep CNNs and ViTs. In this paper, we developed the SGU-MLP, a learning algorithm that effectively uses both MLPs and spatial gating units (SGUs) for precise land use land cover (LULC) mapping. Results illustrated the superiority of the developed SGU-MLP classification algorithm over several CNN and CNN-ViT-based models, including HybridSN, ResNet, iFormer, EfficientFormer and CoAtNet. The proposed SGU-MLP algorithm was tested through three experiments in Houston, USA, Berlin, Germany and Augsburg, Germany. The SGU-MLP classification model was found to consistently outperform the benchmark CNN and CNN-ViT-based algorithms. For example, for the Houston experiment, SGU-MLP significantly outperformed HybridSN, CoAtNet, Efficientformer, iFormer and ResNet by approximately 15%, 19%, 20%, 21%, and 25%, respectively, in terms of average accuracy. The code will be made publicly available at https://github.com/aj1365/SGUMLP
翻訳日:2023-08-11 14:18:08 公開日:2023-08-09
# 自動運転におけるV2Xに基づくリアルタイム物体検出のためのエッジとクラウドの活用

Leveraging the Edge and Cloud for V2X-Based Real-Time Object Detection in Autonomous Driving ( http://arxiv.org/abs/2308.05234v1 )

ライセンス: Link先を確認
Faisal Hawlader, Fran\c{c}ois Robinet, and Rapha\"el Frank(参考訳) 環境認識は、知覚モジュールから受信した情報が中核駆動決定に影響を与えるため、自律運転の重要な要素である。 自動運転のリアルタイム認識における際立った課題は、検出品質とレイテンシの最良のトレードオフを見つけることである。 計算とパワーの両面での大きな制約は、自動運転車のリアルタイム認識を考慮する必要がある。 より大きなオブジェクト検出モデルは最高の結果をもたらす傾向があるが、実行時にも遅い。 最も正確な検出器はローカルでリアルタイムに動作できないため、リソース制約の少ないエッジやクラウドプラットフォームに計算をオフロードする可能性を検討する。 オブジェクト検出モデルをトレーニングし、異なるオフロード戦略を評価するための合成データセットを作成する。 実ハードウェアとネットワークシミュレーションを用いて,予測品質とエンドツーエンド遅延のトレードオフを比較した。 ネットワーク上で生フレームを送信することで送信遅延が増大するため、JPEGとH.265圧縮を様々な品質で使用し、予測指標への影響を測定する。 クラウド上で適切な圧縮を行うモデルが,ローカル検出性能を上回りながらリアルタイムに実行可能であることを示す。

Environmental perception is a key element of autonomous driving because the information received from the perception module influences core driving decisions. An outstanding challenge in real-time perception for autonomous driving lies in finding the best trade-off between detection quality and latency. Major constraints on both computation and power have to be taken into account for real-time perception in autonomous vehicles. Larger object detection models tend to produce the best results, but are also slower at runtime. Since the most accurate detectors cannot run in real-time locally, we investigate the possibility of offloading computation to edge and cloud platforms, which are less resource-constrained. We create a synthetic dataset to train object detection models and evaluate different offloading strategies. Using real hardware and network simulations, we compare different trade-offs between prediction quality and end-to-end delay. Since sending raw frames over the network implies additional transmission delays, we also explore the use of JPEG and H.265 compression at varying qualities and measure their impact on prediction metrics. We show that models with adequate compression can be run in real-time on the cloud while outperforming local detection performance.
翻訳日:2023-08-11 14:17:36 公開日:2023-08-09
# SegMatch: 手術器具セグメンテーションのための半教師付き学習方法

SegMatch: A semi-supervised learning method for surgical instrument segmentation ( http://arxiv.org/abs/2308.05232v1 )

ライセンス: Link先を確認
Meng Wei, Charlie Budd, Luis C. Garcia-Peraza-Herrera, Reuben Dorent, Miaojing Shi, Tom Vercauteren(参考訳) 手術器具のセグメンテーションは、高度な外科的補助を提供し、コンピュータによる補助的介入を改善するためのキーイネーブルとして認識されている。 そこで本研究では,腹腔鏡およびロボット手術画像に対する高価なアノテーションの必要性を減らすための半教師付き学習法であるsegmatchを提案する。 SegMatchは、一貫性の正規化と擬似ラベリングを組み合わせた、広範な半教師付き分類パイプラインであるFixMatch上に構築され、セグメンテーションのために適応する。 提案したSegMatchでは,画像が弱化してセグメンテーションモデルに入力されて擬似ラベルを生成し,高信頼スコアの画素上での対向画像の出力に対して教師なしの損失を強制する。 セグメンテーションタスクへの適応は、我々が依存する増分関数の同値性と不変性を慎重に考慮することを含む。 強化の関連性を高めるため,手作り強化のみの使用から脱却し,訓練可能な対向増強戦略を導入する。 本アルゴリズムは,MICCAI Instrument Segmentation ChallengeデータセットであるRobust-MIS 2019とEndoVis 2017で評価した。 これらの課題において,トレーニングデータの利用率によって制限された完全教師付きアプローチの性能を上回ることができることを示す。 segmatchはまた、ラベル付きデータ比の異なる、最先端の半教師付き学習意味セグメンテーションモデルよりも優れている。

Surgical instrument segmentation is recognised as a key enabler to provide advanced surgical assistance and improve computer assisted interventions. In this work, we propose SegMatch, a semi supervised learning method to reduce the need for expensive annotation for laparoscopic and robotic surgical images. SegMatch builds on FixMatch, a widespread semi supervised classification pipeline combining consistency regularization and pseudo labelling, and adapts it for the purpose of segmentation. In our proposed SegMatch, the unlabelled images are weakly augmented and fed into the segmentation model to generate a pseudo-label to enforce the unsupervised loss against the output of the model for the adversarial augmented image on the pixels with a high confidence score. Our adaptation for segmentation tasks includes carefully considering the equivariance and invariance properties of the augmentation functions we rely on. To increase the relevance of our augmentations, we depart from using only handcrafted augmentations and introduce a trainable adversarial augmentation strategy. Our algorithm was evaluated on the MICCAI Instrument Segmentation Challenge datasets Robust-MIS 2019 and EndoVis 2017. Our results demonstrate that adding unlabelled data for training purposes allows us to surpass the performance of fully supervised approaches which are limited by the availability of training data in these challenges. SegMatch also outperforms a range of state-of-the-art semi-supervised learning semantic segmentation models in different labelled to unlabelled data ratios.
翻訳日:2023-08-11 14:17:17 公開日:2023-08-09
# 相対論的状態におけるスピンおよびスピン量子相関の諸問題に関する考察

A review on the questions of spin and spin quantum correlations in the relativistic regime ( http://arxiv.org/abs/2308.05231v1 )

ライセンス: Link先を確認
Shrobona Bagchi(参考訳) 量子相関は、現代の量子情報と計算理論の最も重要な側面の1つである。 しかし、量子相関の理解の大部分は非相対論的量子力学の分野にある。 量子情報と計算タスクを完全に発展させるためには、必然的に相対論的効果を考慮する必要がある。 この点において、スピンはほとんど全ての量子情報処理タスクでこれらの量子ビット演算を実装する中心的なツールの1つである。 この目的のために、相対論的量子力学と相対論的量子情報理論においてスピン状態が量子ビットとして振る舞うスピン理論を完全に理解し、特徴付けることが最も重要なのである。 この領域は、現在の芸術の状況として解決されるには程遠い。 本論文は、慣性系におけるスピンとスピンの量子相関の概念に関する最近の研究と、この概念に関するいくつかの明らかなパラドックスを考察する。 我々は主に、スピンの概念を特徴づけ、スピン密度行列を減らし、その結果、慣性参照フレームとそれに関連する明らかなパラドックスにおけるスピン量子相関を実験的に検証する問題に焦点を当てる。 もう一つの重要な側面は、非相対論的領域の概念を相対論的領域に拡張するために量子場理論のツールを使うことである。 本稿では,相対論的秘密共有理論の展開と,浄化の絡み合いに関する相関尺度について考察する。 また、これらの開発を量子情報処理タスクにどのようにマッピングするかを検討し、将来の約束について議論する。

Quantum correlations are one of the most important aspects of the modern day quantum information and computation theory. However, the majority of understanding of the quantum correlations is in the field of non-relativistic quantum mechanics. To develop the quantum information and computation tasks fully, one must inevitably take into account the relativistic effects. In this regard, the spin is one of the central tools to implement these qubit operations in almost all quantum information processing tasks. For this purpose, it is of paramount importance to understand and characterize fully the theory of spin in relativistic quantum mechanics and relativistic quantum information theory where the spin states act as qubit. This area is still far from being resolved as a current state of art. As a result, this article will explore the recent studies of the concepts of the spin and spin quantum correlations in inertial frames and some apparent paradoxes regarding this concept. We will mainly focus on the problem of characterizing the concept of spin, reduced spin density matrices and consequently spin quantum correlations in inertial reference frames and the apparent paradoxes involved therein, yet to be verified experimentally. Another important aspect is the use of tools of quantum field theory to extend concepts in non-relativistic domain to relativistic one. In this regard, we will analyze the development of the theory of relativistic secret sharing and a correlation measure namely the entanglement of purification. We will also explore how these developments may be mapped to quantum information processing task and discuss the future promises.
翻訳日:2023-08-11 14:16:50 公開日:2023-08-09
# エンドツーエンド光バックプロパゲーションを用いたニューラルネットワークのトレーニング

Training neural networks with end-to-end optical backpropagation ( http://arxiv.org/abs/2308.05226v1 )

ライセンス: Link先を確認
James Spall, Xianxin Guo, A. I. Lvovsky(参考訳) opticsは、機械学習のための次世代コンピューティングハードウェアのためのエキサイティングなルートであり、計算速度とエネルギー効率の両方において数桁の強化を約束している。 しかし、光学ニューラルネットワークの全容量に達するためには、推論だけでなく、トレーニングも光学的に行う必要がある。 ニューラルネットワークをトレーニングするための第一のアルゴリズムはバックプロパゲーションであり、推論のための情報フローとは反対の順序で計算が行われる。 デジタルコンピュータでは単純だが、特に非線形活性化関数を実装する光学素子の要求が矛盾するため、バックプロパゲーションの光学的実装はいまだ解明されていない。 本研究では, 驚くほど単純で汎用的なスキームで, 初めてこの問題に対処する。 活性化ユニットの役割には飽和吸収剤が用いられ、ポンププロブプロセスによって必要な特性が達成され、前方伝播信号がポンプとして、プローブとして後方に作用する。 提案手法は, 各種アナログプラットフォーム, 材料, ネットワーク構造に適用可能であり, トレーニングと推論の両方において, アナログ光学プロセスに完全に依存するニューラルネットワーク構築の可能性を示す。

Optics is an exciting route for the next generation of computing hardware for machine learning, promising several orders of magnitude enhancement in both computational speed and energy efficiency. However, to reach the full capacity of an optical neural network it is necessary that the computing not only for the inference, but also for the training be implemented optically. The primary algorithm for training a neural network is backpropagation, in which the calculation is performed in the order opposite to the information flow for inference. While straightforward in a digital computer, optical implementation of backpropagation has so far remained elusive, particularly because of the conflicting requirements for the optical element that implements the nonlinear activation function. In this work, we address this challenge for the first time with a surprisingly simple and generic scheme. Saturable absorbers are employed for the role of the activation units, and the required properties are achieved through a pump-probe process, in which the forward propagating signal acts as the pump and backward as the probe. Our approach is adaptable to various analog platforms, materials, and network structures, and it demonstrates the possibility of constructing neural networks entirely reliant on analog optical processes for both training and inference tasks.
翻訳日:2023-08-11 14:16:24 公開日:2023-08-09
# Alexa、ロボットで遊ぶ:初のAlexa Prize SimBot Challengeを実施

Alexa, play with robot: Introducing the First Alexa Prize SimBot Challenge on Embodied AI ( http://arxiv.org/abs/2308.05221v1 )

ライセンス: Link先を確認
Hangjie Shi, Leslie Ball, Govind Thattai, Desheng Zhang, Lucy Hu, Qiaozi Gao, Suhaila Shakiah, Xiaofeng Gao, Aishwarya Padmakumar, Bofei Yang, Cadence Chung, Dinakar Guthy, Gaurav Sukhatme, Karthika Arumugam, Matthew Wen, Osman Ipek, Patrick Lange, Rohan Khanna, Shreyas Pansare, Vasu Sharma, Chao Zhang, Cris Flagg, Daniel Pressel, Lavina Vaz, Luke Dai, Prasoon Goyal, Sattvik Sahai, Shaohua Liu, Yao Lu, Anna Gottardi, Shui Hu, Yang Liu, Dilek Hakkani-Tur, Kate Bland, Heather Rocker, James Jeun, Yadunandana Rao, Michael Johnston, Akshaya Iyengar, Arindam Mandal, Prem Natarajan, Reza Ghanadan(参考訳) Alexa Prizeプログラムは、多くの大学生に、SocialBot Grand ChallengeやTaskBot Challengeといった課題を通じて、会話エージェントを構築する才能を探求、実験、展示する権限を与えている。 マルチモーダル・エンボディの文脈では,会話エージェントの出現がますます進んでいるため,コンピュータビジョンや身体的エンボディメントに付加された会話対話の可能性を検討することが重要である。 本稿は,シミュレーションされた物理的環境下でタスクを完遂するロボットアシスタントの開発を,大学チームが競う新たな課題であるsimbot challengeについて述べる。 本稿では、オンラインとオフラインの両方のチャレンジフェーズを含むSimBot Challengeの概要を紹介する。 Alexa Arena、シミュレートされた環境、ビジョンと言語モデルの構築を加速するためにチームに提供されるMLツールキットなど、チームに提供するインフラストラクチャとサポートについて説明する。 参加者チームが研究課題を克服し、学んだ重要な教訓を抽出するために行ったアプローチを要約する。 最後に、競合するSimBotの性能分析を行う。

The Alexa Prize program has empowered numerous university students to explore, experiment, and showcase their talents in building conversational agents through challenges like the SocialBot Grand Challenge and the TaskBot Challenge. As conversational agents increasingly appear in multimodal and embodied contexts, it is important to explore the affordances of conversational interaction augmented with computer vision and physical embodiment. This paper describes the SimBot Challenge, a new challenge in which university teams compete to build robot assistants that complete tasks in a simulated physical environment. This paper provides an overview of the SimBot Challenge, which included both online and offline challenge phases. We describe the infrastructure and support provided to the teams including Alexa Arena, the simulated environment, and the ML toolkit provided to teams to accelerate their building of vision and language models. We summarize the approaches the participating teams took to overcome research challenges and extract key lessons learned. Finally, we provide analysis of the performance of the competing SimBots during the competition.
翻訳日:2023-08-11 14:16:03 公開日:2023-08-09
# 擬R'enyiエントロピーの和則

Sum rule for pseudo R\'enyi entropy ( http://arxiv.org/abs/2308.05261v1 )

ライセンス: Link先を確認
Wu-zhong Guo, Jiaju Zhang(参考訳) 密度行列を ||\phi\rangle$ と $|\psi\rangle$ で表される2つの状態間の遷移行列に一般化することで、絡み合いエントロピーに類似した擬エントロピーを定義することができる。 本稿では、$|\phi\rangle$ と $|\psi\rangle$ の重ね合わせ状態の縮小遷移行列と密度行列を含む作用素和則を導出する。 特別な応用として、擬R'enyiエントロピーが重ね合わせ状態のR'enyiエントロピーと関連していることを示す。 演算子和則の証明を提供し,有限次元系と量子場理論の両方においてその妥当性を検証する。 この結果は物理学、特に局所観測および非局所観測の対角行列要素に応用できる可能性がある。

By generalizing the density matrix to a transition matrix between two states, represented as $|\phi\rangle$ and $|\psi\rangle$, one can define the pseudo entropy analogous to the entanglement entropy. In this paper, we derive an operator sum rule involving the reduced transition matrix and density matrix of the superposition states of $|\phi\rangle$ and $|\psi\rangle$. As a special application, we demonstrate that the pseudo R\'enyi entropy is related to the R\'enyi entropy of the superposition states. We provide a proof of the operator sum rule and verify its validity in both finite-dimensional systems and quantum field theory. Our results have potential applications in physics, particularly involving off-diagonal matrix elements of local and non-local observables.
翻訳日:2023-08-11 14:08:48 公開日:2023-08-09
# ai4gcc -- トラック3: マルチエージェントrlの消費と課題

AI4GCC -- Track 3: Consumption and the Challenges of Multi-Agent RL ( http://arxiv.org/abs/2308.05260v1 )

ライセンス: Link先を確認
Marco Jiralerspong, Gauthier Gidel(参考訳) AI4GCCコンペティションは、機械学習と従来の経済政策分析を統合する方向への大胆な一歩を踏み出した。 以下は、提案された交渉プロトコルを識別・評価する競争力を高めるための2つの改善分野について述べる。 まず,評価基準の一部として,消費・利用性を考慮した付加指標の導入を提案する。 第2に,シミュレータにおけるエージェントの学習ダイナミクスと,提案する交渉プロトコルから得られた結果のゲーム理論特性について,さらなる検討を推奨する。 これらの提案が、コンペティション/シミュレーションの今後のイテレーションに利用可能になることを願っています。

The AI4GCC competition presents a bold step forward in the direction of integrating machine learning with traditional economic policy analysis. Below, we highlight two potential areas for improvement that could enhance the competition's ability to identify and evaluate proposed negotiation protocols. Firstly, we suggest the inclusion of an additional index that accounts for consumption/utility as part of the evaluation criteria. Secondly, we recommend further investigation into the learning dynamics of agents in the simulator and the game theoretic properties of outcomes from proposed negotiation protocols. We hope that these suggestions can be of use for future iterations of the competition/simulation.
翻訳日:2023-08-11 14:08:34 公開日:2023-08-09
# ウイルスイエローの早期検出の促進:サトウキビ畑における自動アフィド計数のためのハイブリッド畳み込みニューラルネットワークの開発

Advancing Early Detection of Virus Yellows: Developing a Hybrid Convolutional Neural Network for Automatic Aphid Counting in Sugar Beet Fields ( http://arxiv.org/abs/2308.05257v1 )

ライセンス: Link先を確認
Xumin Gao, Wenxin Xue, Callum Lennox, Mark Stevens, Junfeng Gao(参考訳) アブラムシは、サトウキビ畑でウイルスイエローを伝達する効率的なベクターである。 したがって、彼らの集団のタイムリーな監視と制御は、大規模なウイルスイエローの発生を防ぐために不可欠である。 しかしながら、最も一般的な実践であるアフィドのマニュアルカウントは、労働集約的で時間を要する。 さらに、アフィドカウントにおける2つの大きな課題は、アフィドは小さな物体であり、その密度分布はフィールドの異なる領域で異なることである。 これらの課題に対処するため,我々は,検出ネットワークと密度マップ推定ネットワークを統合するハイブリッド自動アフィッド計数ネットワークアーキテクチャを提案した。 アブラムシの分布密度が低い場合には、改良されたyolov5を使用してアブラムシを数える。 逆に、アブラムシの分布密度が高い場合は、その魔女はアブラムシを数えるためにcsrnetに移動する。 私たちの知る限りでは、これはタスクをカウントするための検出ネットワークと密度マップ推定ネットワークを統合する最初のフレームワークです。 比較実験により,提案手法はアフィドをカウントする他の方法よりも優れていることを確認した。 標準の2.93と4.01(標準)、34.19と38.66(高密度)の2つのアフィドデータセットに対して、MAEとRMSEの最低値を達成した。 さらに、改良されたyolov5のapは、元のyolov5よりも5%高い。 特に非常に小型のアブラムシや密集したアブラムシでは、改良されたyolov5の検出性能はオリジナルのyolov5よりもはるかに優れている。 この研究は、サトウキビ畑のアブラムシによって引き起こされるウイルスイエロースリスクに対する効果的な早期警告を提供し、サトウキビの成長に対する保護を提供し、サトウキビの収量を確保する。 データセットとプロジェクトコードは、https://github.com/junfenggaolab/counting-aphidsでリリースされる。

Aphids are efficient vectors to transmit virus yellows in sugar beet fields. Timely monitoring and control of their populations are thus critical to prevent the large-scale outbreak of virus yellows. However, the manual counting of aphids, which is the most common practice, is labor-intensive and time-consuming. Additionally, two of the biggest challenges in aphid counting are that aphids are small objects and their density distributions are varied in different areas of the field. To address these challenges, we proposed a hybrid automatic aphid counting network architecture which integrates the detection network and the density map estimation network. When the distribution density of aphids is low, it utilizes an improved Yolov5 to count aphids. Conversely, when the distribution density of aphids is high, its witches to CSRNet to count aphids. To the best of our knowledge, this is the first framework integrating the detection network and the density map estimation network for counting tasks. Through comparison experiments of counting aphids, it verified that our proposed approach outperforms all other methods in counting aphids. It achieved the lowest MAE and RMSE values for both the standard and high-density aphid datasets: 2.93 and 4.01 (standard), and 34.19 and 38.66 (high-density), respectively. Moreover, the AP of the improved Yolov5 is 5% higher than that of the original Yolov5. Especially for extremely small aphids and densely distributed aphids, the detection performance of the improved Yolov5 is significantly better than the original Yolov5. This work provides an effective early warning for the virus yellows risk caused by aphids in sugar beet fields, offering protection for sugar beet growth and ensuring sugar beet yield. The datasets and project code are released at: https://github.com/JunfengGaolab/Counting-Aphids.
翻訳日:2023-08-11 14:08:24 公開日:2023-08-09
# データ駆動型自律系グラフ生成装置

Data-driven Intra-Autonomous Systems Graph Generator ( http://arxiv.org/abs/2308.05254v1 )

ライセンス: Link先を確認
Caio Vinicius Dadauto, Nelson Luis Saldanha da Fonseca and Ricardo da Silva Torres(参考訳) 本稿では,インターネットにおける自律内システム(AS)を表す合成グラフの深層学習に基づく新しい生成手法について紹介する。 また、Internet Topology Data Kit (ITDK) プロジェクトであるInternet Graphs (IGraphs) から抽出された実際のASグラフの大規模なデータセットも提示されている。 IGraphsを作成するために,コミュニティ抽出のためのフィルタリカレント・マルチレベル(FRM)アルゴリズムを開発した。 DGGIは, 中心性, クラスタリング, 代替性, ノード次数の特性を正確に再現する合成グラフを生成する。 DGGIジェネレータは、既存のインターネットトポロジージェネレータをオーバーパフォーマンスする。 平均して、DGGIは最大平均離散度(MMD)の84.4%、95.1%、97.9%、94.7%を改善している。

This paper introduces a novel deep-learning based generator of synthetic graphs that represent intra-Autonomous System (AS) in the Internet, named Deep-generative graphs for the Internet (DGGI). It also presents a novel massive dataset of real intra-AS graphs extracted from the project Internet Topology Data Kit (ITDK), called Internet Graphs (IGraphs). To create IGraphs, the Filtered Recurrent Multi-level (FRM) algorithm for community extraction was developed. It is shown that DGGI creates synthetic graphs which accurately reproduce the properties of centrality, clustering, assortativity, and node degree. The DGGI generator overperforms existing Internet topology generators. On average, DGGI improves the Maximum Mean Discrepancy (MMD) metric 84.4%, 95.1%, 97.9%, and 94.7% for assortativity, betweenness, clustering, and node degree, respectively.
翻訳日:2023-08-11 14:07:50 公開日:2023-08-09
# 量子コンピュータのためのファジィゲージ理論

Fuzzy Gauge Theory for Quantum Computers ( http://arxiv.org/abs/2308.05253v1 )

ライセンス: Link先を確認
Andrei Alexandru and Paulo F. Bedaque and Andrea Carosso and Michael J. Cervia and Edison M. Murairi and Andy Sheng(参考訳) 連続ゲージ理論はそのボソニック自由度のため、無限次元局所ヒルベルト空間を持つ。 量子ビットベースのハードウェア上でこれらの自由度を符号化するには、ある種の「量子化」スキームが必要であり、有限個の自由度のみを使用して理論の振る舞いを近似する。 ファジィゲージ理論 (fuzzy gauge theory) と呼ばれるゲージ理論のための新しい量子化戦略を提案し、ファジィ$\sigma$-モデルの成功に基づく。 ファジィゲージ理論は正則ゲージ理論と同じ普遍性クラスに存在し、その場合、通常の空間連続体極限以外のいかなる極限も必要としないという議論を与える。 さらに,これらのモデルが量子シミュレーションに対して比較的資源効率が高いことを示す。

Continuous gauge theories, because of their bosonic degrees of freedom, have an infinite-dimensional local Hilbert space. Encoding these degrees of freedom on qubit-based hardware demands some sort of "qubitization" scheme, where one approximates the behavior of a theory while using only finitely many degrees of freedom. We propose a novel qubitization strategy for gauge theories, called "fuzzy gauge theory," building on the success of the fuzzy $\sigma$-model in earlier work. We provide arguments that the fuzzy gauge theory lies in the same universality class as regular gauge theory, in which case its use would obviate the need of any further limit besides the usual spatial continuum limit. Furthermore, we demonstrate that these models are relatively resource-efficient for quantum simulations.
翻訳日:2023-08-11 14:07:32 公開日:2023-08-09
# ディラック行列に基づく散逸モデルの研究

A study of dissipative models based on Dirac matrices ( http://arxiv.org/abs/2308.05245v1 )

ライセンス: Link先を確認
Jyotsna Gidugu and Daniel P. Arovas(参考訳) GKLSマスター方程式によって記述される, 強調の存在下で XX と YY を交互に結合する S=1/2 鎖を考える柴田と桂の最近の研究を一般化する。 これらのモデルは、キタエフの定式化で記述された非エルミート系と等価であり、非力学なz_2ゲージ場の存在下で2本脚のはしご上にホッピングする単一のマヨラナ種である。 我々の一般化には、正方格子上のディラックガンマ行列 ‘スピン’作用素と、キタエフ可解である非エルミート正方格子双層への写像が含まれる。 このモデルでは指数的に多くの非平衡定常状態を記述する。 ゲージ不変量の観点から、スピン自由度が2次元モデルにおいてどのように説明できるかを特定し、リウビリアンスペクトルの研究へと進む。 遺伝的アルゴリズムを用いて,リウビリアンギャップを推定し,システムサイズが大きければ最初の減衰モードを推定する。 第1の崩壊モードにおける遷移を観察し,柴田や桂のものと類似した。 その結果, 散逸強度の小さい値と大きな値に対する摂動解析とが一致した。

We generalize the recent work of Shibata and Katsura, who considered a S=1/2 chain with alternating XX and YY couplings in the presence of dephasing, the dynamics of which are described by the GKLS master equation. Their model is equivalent to a non-Hermitian system described by the Kitaev formulation in terms of a single Majorana species hopping on a two-leg ladder in the presence of a nondynamical Z_2 gauge field. Our generalization involves Dirac gamma matrix `spin' operators on the square lattice, and maps onto a non-Hermitian square lattice bilayer which is also Kitaev-solvable. We describe the exponentially many non-equilibrium steady states in this model. We identify how the spin degrees of freedom can be accounted for in the 2d model in terms of the gauge-invariant quantities and then proceed to study the Liouvillian spectrum. We use a genetic algorithm to estimate the Liouvillian gap and the first decay modes for large system sizes. We observe a transition in the first decay modes, similar to that found by Shibata and Katsura. The results we obtain are consistent with a perturbative analysis for small and large values of the dissipation strength.
翻訳日:2023-08-11 14:07:18 公開日:2023-08-09
# 超低次元グラフ表現のための階層的ブロック距離モデル

A Hierarchical Block Distance Model for Ultra Low-Dimensional Graph Representations ( http://arxiv.org/abs/2204.05885v2 )

ライセンス: Link先を確認
Nikolaos Nakis and Abdulkadir \c{C}elikkanat and Sune Lehmann J{\o}rgensen and Morten M{\o}rup(参考訳) グラフ表現学習(grl)は、複雑なネットワークの構造を特徴付け、リンク予測、ノード分類、ネットワーク再構築、コミュニティ検出などのタスクを実行するための中心となっている。 多くの生成型GRLモデルが提案されているが、多くのアプローチは大規模ネットワーク解析を阻害する計算要求を禁止しているが、複数のスケールで現れる構造を明示的に説明できるものは少なく、ホモフィリクスや推移性といった重要なネットワーク特性を明示的に尊重するものもある。 本稿では,階層ブロック距離モデル(HBDM)と呼ばれる,スケーラブルなグラフ表現学習手法を提案する。 HBDMは確率的ブロックモデリング(SBM)に似たマルチスケールのブロック構造を課し、推論階層全体を通して遅延距離モデル(LDM)を正確に近似することにより、ホモフィリと推移性を考慮した。 hbdmは自然に単部ネットワーク、有向ネットワーク、二部ネットワークに対応し、階層構造は大規模ネットワークの解析を可能にする線形時間と空間複雑性を保証するように設計されている。 我々は,数百万ノードからなる大規模ネットワーク上でのHBDMの性能を評価する。 重要なことは、提案したHBDMフレームワークが、下流タスクすべてにおいて、最近のスケーラブルなアプローチを著しく上回っていることだ。 驚くべきことに、我々は、正確な直接的および階層的なネットワークの可視化と解釈を容易にする、超低次元の埋め込みでさえも優れた性能を示す。

Graph Representation Learning (GRL) has become central for characterizing structures of complex networks and performing tasks such as link prediction, node classification, network reconstruction, and community detection. Whereas numerous generative GRL models have been proposed, many approaches have prohibitive computational requirements hampering large-scale network analysis, fewer are able to explicitly account for structure emerging at multiple scales, and only a few explicitly respect important network properties such as homophily and transitivity. This paper proposes a novel scalable graph representation learning method named the Hierarchical Block Distance Model (HBDM). The HBDM imposes a multiscale block structure akin to stochastic block modeling (SBM) and accounts for homophily and transitivity by accurately approximating the latent distance model (LDM) throughout the inferred hierarchy. The HBDM naturally accommodates unipartite, directed, and bipartite networks whereas the hierarchy is designed to ensure linearithmic time and space complexity enabling the analysis of very large-scale networks. We evaluate the performance of the HBDM on massive networks consisting of millions of nodes. Importantly, we find that the proposed HBDM framework significantly outperforms recent scalable approaches in all considered downstream tasks. Surprisingly, we observe superior performance even imposing ultra-low two-dimensional embeddings facilitating accurate direct and hierarchical-aware network visualization and interpretation.
翻訳日:2023-08-10 18:41:16 公開日:2023-08-09
# MetAug: メタ機能拡張によるコントラスト学習

MetAug: Contrastive Learning via Meta Feature Augmentation ( http://arxiv.org/abs/2203.05119v4 )

ライセンス: Link先を確認
Jiangmeng Li, Wenwen Qiang, Changwen Zheng, Bing Su, Hui Xiong(参考訳) 対照的な学習とは何か? 対照的な学習は情報的特徴、すなわち「堅い」(正または負の)特徴に大きく依存していると我々は主張する。 初期の作品には、複雑なデータ拡張と大規模なバッチサイズやメモリバンクを適用することで、より有益な機能が含まれている。 このような特徴を探求する上での鍵となる課題は、ランダムなデータ拡張を適用することで、ソースのマルチビューデータが生成されることである。 これにより、このような拡張データから得られた特徴の情報性が制限される。 そこで本研究では,潜在空間における特徴を直接拡張し,大量の入力データなしで識別表現を学習することを提案する。 我々は,エンコーダの性能を考慮し,そのネットワークパラメータを更新する拡張ジェネレータを構築するメタ学習手法を実行する。 しかし、入力データが不十分なため、エンコーダは崩壊した特徴を学習し、拡張生成器を誤動作させる可能性がある。 退化写像を学習するエンコーダを避けるため、目的関数に新たなマージンインジェクション正規化が追加される。 1つの勾配バックプロパゲーションステップで全ての特徴を対比するために、従来のコントラスト損失ではなく最適化駆動型統一コントラスト損失を採用する。 本手法は,いくつかのベンチマークデータセットにおいて最先端の結果を得る。

What matters for contrastive learning? We argue that contrastive learning heavily relies on informative features, or "hard" (positive or negative) features. Early works include more informative features by applying complex data augmentations and large batch size or memory bank, and recent works design elaborate sampling approaches to explore informative features. The key challenge toward exploring such features is that the source multi-view data is generated by applying random data augmentations, making it infeasible to always add useful information in the augmented data. Consequently, the informativeness of features learned from such augmented data is limited. In response, we propose to directly augment the features in latent space, thereby learning discriminative representations without a large amount of input data. We perform a meta learning technique to build the augmentation generator that updates its network parameters by considering the performance of the encoder. However, insufficient input data may lead the encoder to learn collapsed features and therefore malfunction the augmentation generator. A new margin-injected regularization is further added in the objective function to avoid the encoder learning a degenerate mapping. To contrast all features in one gradient back-propagation step, we adopt the proposed optimization-driven unified contrastive loss instead of the conventional contrastive loss. Empirically, our method achieves state-of-the-art results on several benchmark datasets.
翻訳日:2023-08-10 18:40:52 公開日:2023-08-09
# BoMD: ノイズの多い胸部X線分類のためのマルチラベルディスクリプタのバグ

BoMD: Bag of Multi-label Descriptors for Noisy Chest X-ray Classification ( http://arxiv.org/abs/2203.01937v5 )

ライセンス: Link先を確認
Yuanhong Chen, Fengbei Liu, Hu Wang, Chong Wang, Yu Tian, Yuyuan Liu, Gustavo Carneiro(参考訳) 深層学習法は、医用画像問題において顕著な分類精度を示しており、これは主に、クリーンラベルを手動でアノテートした大規模なデータセットが利用可能であることに起因する。 しかし, 手動注記のコストが高いことから, 新たな医用画像分類問題は, 放射線報告書から抽出された機械生成雑音ラベルに依存する必要があると考えられる。 実際、多くのチェストX線分類器(CXR)はすでにノイズラベルを持つデータセットからモデル化されているが、その訓練手順は一般にノイズラベルサンプルに対して堅牢ではないため、準最適モデルにつながる。 さらに、CXRデータセットは主にマルチラベルであるため、現在のマルチクラス問題用に設計されたノイズラベル学習手法は容易に適応できない。 本稿では,データセットからサンプルを検出・スムースにラベル付けし,一般的なマルチラベル分類器の訓練に使用する,ノイズの多いマルチラベルcxr学習のための新しい手法を提案する。 提案手法は,マルチラベル画像アノテーションからBERTモデルによって生成された意味記述子と類似性を促進するために,複数ラベル記述子の袋を最適化する。 ノイズの多いマルチラベルトレーニングセットとクリーンなテストセットに関する実験では、多くのcxrマルチラベル分類ベンチマークにおいて、最先端の精度と堅牢性が得られた。

Deep learning methods have shown outstanding classification accuracy in medical imaging problems, which is largely attributed to the availability of large-scale datasets manually annotated with clean labels. However, given the high cost of such manual annotation, new medical imaging classification problems may need to rely on machine-generated noisy labels extracted from radiology reports. Indeed, many Chest X-ray (CXR) classifiers have already been modelled from datasets with noisy labels, but their training procedure is in general not robust to noisy-label samples, leading to sub-optimal models. Furthermore, CXR datasets are mostly multi-label, so current noisy-label learning methods designed for multi-class problems cannot be easily adapted. In this paper, we propose a new method designed for the noisy multi-label CXR learning, which detects and smoothly re-labels samples from the dataset, which is then used to train common multi-label classifiers. The proposed method optimises a bag of multi-label descriptors (BoMD) to promote their similarity with the semantic descriptors produced by BERT models from the multi-label image annotation. Our experiments on diverse noisy multi-label training sets and clean testing sets show that our model has state-of-the-art accuracy and robustness in many CXR multi-label classification benchmarks.
翻訳日:2023-08-10 18:40:29 公開日:2023-08-09
# アンサンブルニューラルネットワークを用いた修正SIRD流行モデルにおけるパラメータ同定の逆問題

Inverse problem for parameters identification in a modified SIRD epidemic model using ensemble neural networks ( http://arxiv.org/abs/2203.00407v3 )

ライセンス: Link先を確認
Marian Petrica, Ionel Popescu(参考訳) 本稿では,古典的SIRモデルの拡張であるSIRDモデルのパラメータ同定手法を提案する。 さらに,本モデルでは,実際の感染者数と公式統計に記載された感染者数との比率であるパラメータを1つ含んでいる。 政府の決定など多くの要因により、学校を循環、開校、閉校するいくつかの変種があるため、モデルのパラメータが長期間一定であるという典型的な仮定は現実的ではない。 このようにして,短時間で機能する手法を創り出すことが目的である。 この範囲では、過去の7日間のデータに依存する推定にアプローチし、識別されたパラメータを用いて予測を行う。 パラメータの推定を行うために,ニューラルネットワークのアンサンブルの平均を提案する。 各ニューラルネットワークは、7日間sirdをランダムパラメータで解いて構築したデータベースに基づいて構築される。 このようにして、ネットワークはSIRDモデルの解からパラメータを学習する。 最後に、ルーマニアのCovid19の実際のデータからパラメータを推定するためにこのアンサンブルを使用し、それから10日から45日間の異なる期間の予測を、死者数のために説明します。 主な目的はルーマニアにおけるcovid-19の進化の分析にこのアプローチを適用することであったが、ハンガリー、チェコ、ポーランドなどでも同様の結果が得られた。 結果は、報告されたデータからモデルのパラメータを復元できることを保証する定理によって裏付けられている。 この方法論は、感染症の短期的な予測や、他の区画モデルを扱う一般的なツールとして使用できると信じています。

In this paper, we propose a parameter identification methodology of the SIRD model, an extension of the classical SIR model, that considers the deceased as a separate category. In addition, our model includes one parameter which is the ratio between the real total number of infected and the number of infected that were documented in the official statistics. Due to many factors, like governmental decisions, several variants circulating, opening and closing of schools, the typical assumption that the parameters of the model stay constant for long periods of time is not realistic. Thus our objective is to create a method which works for short periods of time. In this scope, we approach the estimation relying on the previous 7 days of data and then use the identified parameters to make predictions. To perform the estimation of the parameters we propose the average of an ensemble of neural networks. Each neural network is constructed based on a database built by solving the SIRD for 7 days, with random parameters. In this way, the networks learn the parameters from the solution of the SIRD model. Lastly we use the ensemble to get estimates of the parameters from the real data of Covid19 in Romania and then we illustrate the predictions for different periods of time, from 10 up to 45 days, for the number of deaths. The main goal was to apply this approach on the analysis of COVID-19 evolution in Romania, but this was also exemplified on other countries like Hungary, Czech Republic and Poland with similar results. The results are backed by a theorem which guarantees that we can recover the parameters of the model from the reported data. We believe this methodology can be used as a general tool for dealing with short term predictions of infectious diseases or in other compartmental models.
翻訳日:2023-08-10 18:40:05 公開日:2023-08-09
# imaginary hindsight experience replay: まばらな報酬タスクのためのモデルベース学習

Imaginary Hindsight Experience Replay: Curious Model-based Learning for Sparse Reward Tasks ( http://arxiv.org/abs/2110.02414v2 )

ライセンス: Link先を確認
Robert McCarthy, Qiang Wang, Stephen J. Redmond(参考訳) モデルベース強化学習は、データ効率が向上し、モデルフリーのロボットアプリケーションにとって有望な学習戦略である。 しかし、現在の最先端のモデルベースの手法は、設計や実装が難しいような形状の報酬信号に依存している。 そこで本研究では,複雑な報酬工学の必要性を先取りする,スパース・リワード・マルチゴールタスクに適したシンプルなモデルベース手法を提案する。 このアプローチはImaginary Hindsight Experience Replayと呼ばれ、想像データをポリシー更新に組み込むことで、現実世界のインタラクションを最小化する。 スパース・リワード・セッティングにおける探索を改善するため、このポリシーは標準のヒンズート・エクスペリエンス・リプレイで訓練され、好奇心に基づく本質的な報酬が与えられる。 評価を行うと、この手法はOpenAI Gym Fetch Roboticsのベンチマークにおける最先端のモデルフリー手法と比較して、平均データ効率が桁違いに向上する。

Model-based reinforcement learning is a promising learning strategy for practical robotic applications due to its improved data-efficiency versus model-free counterparts. However, current state-of-the-art model-based methods rely on shaped reward signals, which can be difficult to design and implement. To remedy this, we propose a simple model-based method tailored for sparse-reward multi-goal tasks that foregoes the need for complicated reward engineering. This approach, termed Imaginary Hindsight Experience Replay, minimises real-world interactions by incorporating imaginary data into policy updates. To improve exploration in the sparse-reward setting, the policy is trained with standard Hindsight Experience Replay and endowed with curiosity-based intrinsic rewards. Upon evaluation, this approach provides an order of magnitude increase in data-efficiency on average versus the state-of-the-art model-free method in the benchmark OpenAI Gym Fetch Robotics tasks.
翻訳日:2023-08-10 18:39:38 公開日:2023-08-09
# SANSformers:無意識モデルによる電子健康記録の自己監督型予測

SANSformers: Self-Supervised Forecasting in Electronic Health Records with Attention-Free Models ( http://arxiv.org/abs/2108.13672v3 )

ライセンス: Link先を確認
Yogesh Kumar, Alexander Ilin, Henri Salo, Sangita Kulathinal, Maarit K. Leinonen, Pekka Marttinen(参考訳) トランスフォーマーニューラルネットワークをElectronic Health Records (EHR)に応用することは、EHRデータの異なる多次元的なシーケンシャル構造のために困難であり、単純な線形モデルと比較すると、しばしば性能が低下する。 したがって、効率的な転送学習やスケーラビリティ向上といったトランスフォーマーの利点は、EHRアプリケーションでは十分に活用されていない。 これらの課題を克服するために,入射バイアスに特化して設計された新しい注意のないシーケンシャルモデルであるSANSformerを紹介した。 我々の主な応用分野は、医療資源を効果的に配分するための重要な課題である将来の医療利用を予測することである。 異なる患者サブグループを扱う場合、このタスクは特に困難になる。 これらのサブグループは、ユニークな健康軌道を特徴とし、まれな疾患を持つ患者など、しばしば小さなサイズで、特殊なモデリングアプローチを必要とする。 そこで我々は,GSP(Generative Summary Pretraining)と呼ぶ自己指導型事前学習戦略を採用した。 GSPは、過去の健康記録に基づいて、患者の過去における将来のウィンドウの要約統計を予測し、ERHデータのノイズと複雑な性質に対処する可能性を示す。 我々は、患者100万人近い包括的健康登録簿にモデルを事前訓練した後、特定のサブグループ予測タスクのためにそれらを微調整する。 我々の評価では、SANSformerは強いEHRベースラインを一貫して上回っている。 重要なことは、GSPプレトレーニング法は、特に小さな患者サブグループにおいて、モデル性能を大幅に向上させる。 本研究は, 幅広い患者集団にわたる医療利用予測の促進を目的とした, 個別注意フリーモデルと自己教師付き事前訓練の実質的な可能性の核心である。

The application of Transformer neural networks to Electronic Health Records (EHR) is challenging due to the distinct, multidimensional sequential structure of EHR data, often leading to underperformance when compared to simpler linear models. Thus, the advantages of Transformers, such as efficient transfer learning and improved scalability are not fully exploited in EHR applications. To overcome these challenges, we introduce SANSformer, a novel attention-free sequential model designed specifically with inductive biases to cater for the unique characteristics of EHR data. Our main application area is predicting future healthcare utilization, a crucial task for effectively allocating healthcare resources. This task becomes particularly difficult when dealing with divergent patient subgroups. These subgroups, characterized by unique health trajectories and often small in size, such as patients with rare diseases, require specialized modeling approaches. To address this, we adopt a self-supervised pretraining strategy, which we term Generative Summary Pretraining (GSP). GSP predicts summary statistics of a future window in the patient's history based on their past health records, thus demonstrating potential to deal with the noisy and complex nature of EHR data. We pretrain our models on a comprehensive health registry encompassing close to one million patients, before fine-tuning them for specific subgroup prediction tasks. In our evaluations, SANSformer consistently outshines strong EHR baselines. Importantly, our GSP pretraining method greatly enhances model performance, especially for smaller patient subgroups. Our findings underscore the substantial potential of bespoke attention-free models and self-supervised pretraining for enhancing healthcare utilization predictions across a broad range of patient groups.
翻訳日:2023-08-10 18:39:23 公開日:2023-08-09
# 完全通勤操作者戦略を持つ3XORゲームは、テンソル製品戦略が完璧であり、多項式時間で決定可能である

3XOR Games with Perfect Commuting Operator Strategies Have Perfect Tensor Product Strategies and are Decidable in Polynomial Time ( http://arxiv.org/abs/2010.16290v2 )

ライセンス: Link先を確認
Adam Bene Watts and J. William Helton(参考訳) 完全通勤操作戦略を持つ3XORゲームを考える。 任意の3xorゲームが与えられると、ゲームに対する完全可換作用素戦略の存在は多項式時間で決定できる。 以前はこの問題は決定不可能であった。 我々の証明は、3XORゲームが完全可換作用素戦略を持つことを示す構成へと導いており、3 qubit (8 次元) GHZ 状態を用いた完全テンソル積戦略を持つ。 これは完全3XORゲームにおいて、古典的戦略(古典的バイアス比によって定義される)よりも量子戦略の利点が有界であることを示している。 一般的な3XORの場合とは対照的に、最適量子戦略は高次元状態を必要とし、量子上の優位性に縛られない。 これらの結果を証明するために、まず、xorゲームの価値の決定と、右アングルコクセター群のクラスにおけるサブグループメンバーシップ問題の解との同値性を示す。 そして、この論文の大部分を消費する証明において、3XORゲームに対応する問題の事例を多項式時間で解くことができることを示す。

We consider 3XOR games with perfect commuting operator strategies. Given any 3XOR game, we show existence of a perfect commuting operator strategy for the game can be decided in polynomial time. Previously this problem was not known to be decidable. Our proof leads to a construction, showing a 3XOR game has a perfect commuting operator strategy iff it has a perfect tensor product strategy using a 3 qubit (8 dimensional) GHZ state. This shows that for perfect 3XOR games the advantage of a quantum strategy over a classical strategy (defined by the quantum-classical bias ratio) is bounded. This is in contrast to the general 3XOR case where the optimal quantum strategies can require high dimensional states and there is no bound on the quantum advantage. To prove these results, we first show equivalence between deciding the value of an XOR game and solving an instance of the subgroup membership problem on a class of right angled Coxeter groups. We then show, in a proof that consumes most of this paper, that the instances of this problem corresponding to 3XOR games can be solved in polynomial time.
翻訳日:2023-08-10 18:38:42 公開日:2023-08-09
# 並列近似法によるスパースおよび低ランク高次テンソル回帰

Sparse and Low-Rank High-Order Tensor Regression via Parallel Proximal Method ( http://arxiv.org/abs/1911.12965v2 )

ライセンス: Link先を確認
Jiaqi Zhang, Yinghao Cai, Zhaoyang Wang, and Beilun Wang(参考訳) 近年、神経科学における機能的磁気共鳴イメージング(fMRI)やビデオ解析におけるビデオなど、多くの現代的な応用においてテンソルデータ(あるいは多次元アレイ)が生み出されている。 近年、テンソル特徴と不定値応答の関係を予測するために多くの努力がなされている。 しかし、従来提案された手法はテンソルデータ内の構造情報を失うか、特に高次構造を持つ大規模データの場合、非常にコストがかかる。 このような問題に対処するため,Sparse and Low-rank Tensor Regression (SLTR)モデルを提案する。 我々のモデルは、テンソルの構造情報を保存するために$\ell_1$ノルムとテンソル核ノルムを直接適用することで、テンソル係数の空間性と低ランク性を強制する。 解法をスケーラブルかつ効率的にするために,SLTRでは,並列に実装可能な近位勾配法を採用している。 複数のシミュレーションデータセットと1つのビデオアクション認識データセット上でSLTRを評価する。 実験の結果,従来のモデルと比較して,SLTRの方がはるかに少ない時間でより良い解が得られることがわかった。 さらに,本モデルの予測は,ビデオデータセットに意味のある解釈を示す。

Recently, tensor data (or multidimensional array) have been generated in many modern applications, such as functional magnetic resonance imaging (fMRI) in neuroscience and videos in video analysis. Many efforts are made in recent years to predict the relationship between tensor features and univariate responses. However, previously proposed methods either lose structural information within tensor data or have prohibitively expensive time costs, especially for large-scale data with high-order structures. To address such problems, we propose the Sparse and Low-rank Tensor Regression (SLTR) model. Our model enforces sparsity and low-rankness of the tensor coefficient by directly applying $\ell_1$ norm and tensor nuclear norm, such that it preserves structural information of the tensor. To make the solving procedure scalable and efficient, SLTR makes use of the proximal gradient method, which can be easily implemented parallelly. We evaluate SLTR on several simulated datasets and one video action recognition dataset. Experiment results show that, compared with previous models, SLTR can obtain a better solution with much fewer time costs. Moreover, our model's predictions exhibit meaningful interpretations on the video dataset.
翻訳日:2023-08-10 18:37:31 公開日:2023-08-09
# 直進非巡回グラフとポセットの因果フーリエ解析

Causal Fourier Analysis on Directed Acyclic Graphs and Posets ( http://arxiv.org/abs/2209.07970v3 )

ライセンス: Link先を確認
Bastian Seifert and Chris Wendler and Markus P\"uschel(参考訳) 本稿では、エッジ重み付き有向非巡回グラフ(DAG)によってインデックスされた信号(またはデータ)に対して、フーリエ解析の新たな形式と関連する信号処理概念を提案する。 これは、フーリエ基底が私たちが定義するシフトと畳み込み作用素の適切な概念の固有分解をもたらすことを意味する。 DAGは、データ値間の因果関係をキャプチャする一般的なモデルであり、この場合、提案するフーリエ解析は、定義した線形性仮定の下で、その原因とデータを関連付ける。 フーリエ変換の定義は、重み付き dag の推移閉包を必要とし、そこでは辺重みの解釈によっていくつかの形式が可能となる。 例えば、影響レベル、距離、汚染分布などである。 我々のフレームワークは以前の GSP と異なり、DAG に特有であり、モエビウスの古典的インバージョン理論を組合せ論から活用し、拡張する。 原型アプリケーションでは、時間とともにエッジが変化する動的ネットワークをモデリングするDAGについて検討する。 具体的には、実世界の接触追跡データから得られたDAGに対する感染の拡散をモデル化し、フーリエ領域の空間性を想定したサンプルから感染信号を学習する。

We present a novel form of Fourier analysis, and associated signal processing concepts, for signals (or data) indexed by edge-weighted directed acyclic graphs (DAGs). This means that our Fourier basis yields an eigendecomposition of a suitable notion of shift and convolution operators that we define. DAGs are the common model to capture causal relationships between data values and in this case our proposed Fourier analysis relates data with its causes under a linearity assumption that we define. The definition of the Fourier transform requires the transitive closure of the weighted DAG for which several forms are possible depending on the interpretation of the edge weights. Examples include level of influence, distance, or pollution distribution. Our framework is different from prior GSP: it is specific to DAGs and leverages, and extends, the classical theory of Moebius inversion from combinatorics. For a prototypical application we consider DAGs modeling dynamic networks in which edges change over time. Specifically, we model the spread of an infection on such a DAG obtained from real-world contact tracing data and learn the infection signal from samples assuming sparsity in the Fourier domain.
翻訳日:2023-08-10 18:31:42 公開日:2023-08-09
# グローバル一貫性と局所相補性を考慮した複数ビューのモデル化

Modeling Multiple Views via Implicitly Preserving Global Consistency and Local Complementarity ( http://arxiv.org/abs/2209.07811v2 )

ライセンス: Link先を確認
Jiangmeng Li, Wenwen Qiang, Changwen Zheng, Bing Su, Farid Razzak, Ji-Rong Wen, Hui Xiong(参考訳) 自己教師付き学習技術は、複数のビューをモデリングすることで、ラベルのないデータから暗黙の知識をマイニングするためにしばしば使用されるが、複雑な、一貫性のないコンテキストで効果的な表現学習を行う方法は不明である。 そこで本研究では,厳密なグローバルビュー間一貫性と局所クロスビュー補完性を利用して,複数ビューから表現を包括的に学習する手法であるconsistency and complementarity network(coconet)を提案する。 グローバルステージでは、重要な知識はビュー間で暗黙的に共有され、そのような知識をデータから取得するためのエンコーダの強化によって、学習した表現の識別性が向上すると考えられる。 したがって、複数の視点のグローバルな一貫性を保つことは、共通知識の獲得を保証する。 CoCoNetは、一般化されたスライスされたワッサーシュタイン距離に基づく効率的な離散度測定を利用して、ビューの確率分布を整列する。 最後に,クロスビュー識別知識を結合するヒューリスティック相補性因子を提案し,エンコーダに対して,視点識別可能性だけでなく、クロスビュー相補情報も学習するよう指導する。 理論的には,提案したCoCoNetの情報理論に基づく分析を行う。 実験により,提案手法の改良効果を検証し,CoCoNetが最先端の自己管理手法よりも有意差で優れており,このような暗黙の一貫性と相補性保存正規化が潜在表現の識別可能性を高めることが証明された。

While self-supervised learning techniques are often used to mining implicit knowledge from unlabeled data via modeling multiple views, it is unclear how to perform effective representation learning in a complex and inconsistent context. To this end, we propose a methodology, specifically consistency and complementarity network (CoCoNet), which avails of strict global inter-view consistency and local cross-view complementarity preserving regularization to comprehensively learn representations from multiple views. On the global stage, we reckon that the crucial knowledge is implicitly shared among views, and enhancing the encoder to capture such knowledge from data can improve the discriminability of the learned representations. Hence, preserving the global consistency of multiple views ensures the acquisition of common knowledge. CoCoNet aligns the probabilistic distribution of views by utilizing an efficient discrepancy metric measurement based on the generalized sliced Wasserstein distance. Lastly on the local stage, we propose a heuristic complementarity-factor, which joints cross-view discriminative knowledge, and it guides the encoders to learn not only view-wise discriminability but also cross-view complementary information. Theoretically, we provide the information-theoretical-based analyses of our proposed CoCoNet. Empirically, to investigate the improvement gains of our approach, we conduct adequate experimental validations, which demonstrate that CoCoNet outperforms the state-of-the-art self-supervised methods by a significant margin proves that such implicit consistency and complementarity preserving regularization can enhance the discriminability of latent representations.
翻訳日:2023-08-10 18:31:21 公開日:2023-08-09
# 安全・共安全言語の一階述語論理

A first-order logic characterization of safety and co-safety languages ( http://arxiv.org/abs/2209.02307v5 )

ライセンス: Link先を確認
Alessandro Cimatti, Luca Geatti, Nicola Gigante, Angelo Montanari, Stefano Tonetta(参考訳) LTL(Linear Temporal Logic)は、コンピュータ科学の様々な分野において、最も一般的な時間論理の1つである。 LTL は反自由オメガオートマタ、星のないオメガ正規表現、(カンプの定理により)一階線形順序理論(FO-TLO)と等価である。 安全性(safety)とコセーフティ(co-safety)言語は、単語がそれぞれ言語に属さないか属さないかを確立するために有限プレフィックスが十分であり、モデル検査やltlのリアクティブ合成のような問題の複雑さを低下させる上で重要な役割を果たす。 SafetyLTL (resp., coSafetyLTL) はLTLの断片であり、安全(resp., co-safety)言語のみを認識する普遍的(resp., existential)時間的モダリティのみを許容する。 この論文の主な貢献は、safetyfoと呼ばれるfo-tloの断片と、ltl-definable safetyとco-safety languageに関して表現的に完結した2つのcosafetyfoの導入である。 我々は,これらがそれぞれSafetyLTLとcoSafetyLTLを正確に特徴付けることを証明し,その結果がカンプの定理に一致することを証明し,一階言語の観点からLTLの特徴付け(フラグメント)をより明確にする。 さらに、ltlで定義可能な安全言語がsafetyltlでも定義可能であることを直接的でコンパクトで自己完結した証明を与える。 副産物として,有限語および無限語で解釈された,明日の弱作用素SafetyLTLの表現力に関する興味深い結果が得られる。 さらに、有限語を解釈すると、明日の(弱明日)演算子を欠いたsafetyltl (resp. cosafetyltl) が有限語上のltlの安全(resp., co-safety)フラグメントをキャプチャする。

Linear Temporal Logic (LTL) is one of the most popular temporal logics, that comes into play in a variety of branches of computer science. Among the various reasons of its widespread use there are its strong foundational properties: LTL is equivalent to counter-free omega-automata, to star-free omega-regular expressions, and (by Kamp's theorem) to the First-Order Theory of Linear Orders (FO-TLO). Safety and co-safety languages, where a finite prefix suffices to establish whether a word does not belong or belongs to the language, respectively, play a crucial role in lowering the complexity of problems like model checking and reactive synthesis for LTL. SafetyLTL (resp., coSafetyLTL) is a fragment of LTL where only universal (resp., existential) temporal modalities are allowed, that recognises safety (resp., co-safety) languages only. The main contribution of this paper is the introduction of a fragment of FO-TLO, called SafetyFO, and of its dual coSafetyFO, which are expressively complete with respect to the LTL-definable safety and co-safety languages. We prove that they exactly characterize SafetyLTL and coSafetyLTL, respectively, a result that joins Kamp's theorem, and provides a clearer view of the characterization of (fragments of) LTL in terms of first-order languages. In addition, it gives a direct, compact, and self-contained proof that any safety language definable in LTL is definable in SafetyLTL as well. As a by-product, we obtain some interesting results on the expressive power of the weak tomorrow operator of SafetyLTL, interpreted over finite and infinite words. Moreover, we prove that, when interpreted over finite words, SafetyLTL (resp. coSafetyLTL) devoid of the tomorrow (resp., weak tomorrow) operator captures the safety (resp., co-safety) fragment of LTL over finite words.
翻訳日:2023-08-10 18:30:22 公開日:2023-08-09
# 非零ヘリシティバルクモードを持つエノン回転対称性のねじれ共振器を用いた超軽量アキソンの探索

Searching for Ultra-Light Axions with Twisted Cavity Resonators of Anyon Rotational Symmetry with Bulk Modes of Non-Zero Helicity ( http://arxiv.org/abs/2208.01640v3 )

ライセンス: Link先を確認
J. F. Bourhill, E. C. I. Paterson, M. Goryachev, M. E. Tobar(参考訳) m\"obius-ring共振器は、一面トポロジーを特徴とするよく研究され興味深い幾何学的構造である m\"obius strip に由来し、ねじれのないリング共振器(ボソン回転対称性を示す)に対してフェルミオン回転対称性を示すことが示されている(physrevlett.101.247701)。 本稿では,正三角形断面を用いたねじれ空洞構造の形成を通した新しい共振器について述べる。 以前のキャビティ共振器とは異なり、アノン共振器は真空中でゼロでない電磁ヘリシティを示すバルク共振モードの存在を許し、電気的および磁気的モード固有ベクトルのゼロでない重なりである$\int \mathbf{E}_p\cdot\mathbf{B}_p~d\tau$はキャビティ体積上に統合される。 アップコンバージョン限界において、これらの非零ヘリカルモードは、アクソン光子キラル異常に振幅変調サイドバンドを付加することにより、共振器帯域内の超軽量ダークマター軸に自然に結合することを示す。 そこで,超安定振動子構成にそのような共振器を実装し,振幅変動のフーリエスペクトルの信号を求めることにより,感度の高い暗黒物質実験を実現することができることを示す。 これにより外部磁場の典型的な要求が取り除かれ、超伝導材料を使用することで表面の損失を低減し、軸索に対する感度を高めることができる。

M\"obius-ring resonators stem from a well-studied and fascinating geometrical structure that features a one-sided topology; the M\"obius strip, and have been shown to exhibit fermion rotational symmetry with respect to a ring resonator with no twist (which exhibits boson rotational symmetry) (see PhysRevLett.101.247701). Here, we present a new type of resonator through the formation of twisted hollow structures using equilateral triangular cross-sections, which leads to the realization of a cavity with anyon rotational symmetry. Unlike all previous cavity resonators, the anyon resonator permits the existence of bulk resonant modes that exhibit non-zero electromagnetic helicity in vacuo, with a non-zero overlap of the electric and magnetic mode eigenvectors, $\int \mathbf{E}_p\cdot\mathbf{B}_p~d\tau$, integrated over the cavity volume. In the upconversion limit, we show that these non-zero helical modes couple naturally to ultra-light dark matter axions within the bandwidth of the resonator by adding amplitude-modulated sidebands through the axion-photon chiral anomaly. Thus, we show a sensitive ultra-light dark matter experiment may be realized by implementing such a resonator in an ultra-stable oscillator configuration and searching for signals in the Fourier spectrum of amplitude fluctuations. This removes the typical requirement for an external magnetic field and therefore permits the use of superconducting materials to reduce surface losses and enhance sensitivity to axions.
翻訳日:2023-08-10 18:29:21 公開日:2023-08-09
# 粒子-ホール対称系におけるスペクトル変動の普遍的遷移

Universal transition of spectral fluctuation in particle-hole symmetric system ( http://arxiv.org/abs/2207.14665v2 )

ライセンス: Link先を確認
Triparna Mondal and Shashi C. L. Srivastava(参考訳) ランダムマトリクス設定における粒子ホール対称性を有するマルチパラメトリック系のスペクトル特性について検討した。 本稿では,ポアソンからウィグナー・ダイソンへの交叉を,複雑性パラメータと呼ばれる効果的な単一パラメータの関数として,単一行列のスペクトル内における間隔の平均局所比で観察する。 スペーシングの平均局所比は、遷移全体の複雑性パラメータにおいて対数的に変化する。 この挙動は、粒子ホール対称性のような同じ行列制約を受ける異なるアンサンブルに対して普遍的である。 この依存の普遍性は、粒子-ホール対称性のアンサンブル結合系とキラル対称性のアンサンブル結合系を補間することによってさらに確立される。 補間アンサンブルごとに、振る舞いは複雑性パラメータの対数的のままである。 2次元su-schrieffer-heeger(ssh)モデルの場合のスペクトルゆらぎの普遍性と、可積分から非可積分限界への遷移中の間隔の比率に対する複雑性パラメータの対数依存性を検証する。

We study the spectral properties of a multiparametric system having particle-hole symmetry in random matrix setting. We observe a crossover from Poisson to Wigner-Dyson like behavior in average local ratio of spacing within a spectrum of single matrix as a function of effective single parameter referred to as complexity parameter. The average local ratio of spacing varies logarithmically in complexity parameter across the transition. This behavior is universal for different ensembles subjected to same matrix constraint like particle-hole symmetry. The universality of this dependence is further established by studying interpolating ensemble connecting systems with particle-hole symmetry to that with chiral symmetry. For each interpolating ensemble the behavior remains logarithmic in complexity parameter. We verify this universality of spectral fluctuation in case of a 2D Su-Schrieffer-Heeger (SSH) like model along with the logarithmic dependence on complexity parameter for ratio of spacing during transition from integrable to non-integrable limit.
翻訳日:2023-08-10 18:28:47 公開日:2023-08-09
# 対人ロバスト性は知覚に影響を及ぼすか?

Do Perceptually Aligned Gradients Imply Adversarial Robustness? ( http://arxiv.org/abs/2207.11378v3 )

ライセンス: Link先を確認
Roy Ganz, Bahjat Kawar and Michael Elad(参考訳) 逆ロバストな分類器は、非ロバストモデルが持たない特性 -- 知覚的に整列した勾配 (pag) を持つ。 彼らの入力に対する勾配は人間の知覚とよく一致している。 いくつかの研究は、PAGを堅牢なトレーニングの副産物とみなしているが、独立的な現象とみなし、独自の意味を研究していない。 本研究では,この特性に着目し,<emph{perceptually aligned gradientsimply robustness} を検証した。 そこで本研究では,訓練用分類器のPAGを直接促進し,そのような勾配を持つモデルが敵攻撃に対してより堅牢であるかどうかを検討する。 複数のデータセットとアーキテクチャに関する大規模な実験は、整列勾配を持つモデルが大きなロバスト性を示し、PAGとロバスト性の間の驚くべき双方向接続を明らかにすることを検証する。 最後に,グラデーションアライメントの改善はロバスト性の向上につながり,この観測を活用し,既存の対向訓練手法のロバスト性を高めることを示す。

Adversarially robust classifiers possess a trait that non-robust models do not -- Perceptually Aligned Gradients (PAG). Their gradients with respect to the input align well with human perception. Several works have identified PAG as a byproduct of robust training, but none have considered it as a standalone phenomenon nor studied its own implications. In this work, we focus on this trait and test whether \emph{Perceptually Aligned Gradients imply Robustness}. To this end, we develop a novel objective to directly promote PAG in training classifiers and examine whether models with such gradients are more robust to adversarial attacks. Extensive experiments on multiple datasets and architectures validate that models with aligned gradients exhibit significant robustness, exposing the surprising bidirectional connection between PAG and robustness. Lastly, we show that better gradient alignment leads to increased robustness and harness this observation to boost the robustness of existing adversarial training techniques.
翻訳日:2023-08-10 18:28:33 公開日:2023-08-09
# 3次元映像生成

3D-Aware Video Generation ( http://arxiv.org/abs/2206.14797v4 )

ライセンス: Link先を確認
Sherwin Bahmani, Jeong Joon Park, Despoina Paschalidou, Hao Tang, Gordon Wetzstein, Leonidas Guibas, Luc Van Gool, Radu Timofte(参考訳) 生成モデルは、多くの画像合成および編集タスクに不可欠なビルディングブロックとして登場した。 この分野での最近の進歩は、マルチビューまたは時間的一貫性を示す高品質な3Dまたはビデオコンテンツの生成を可能にしている。 本研究では,無条件で3D対応ビデオを生成する4D生成敵ネットワーク(GAN)について検討する。 ニューラル暗黙表現と時間認識判別器を組み合わせることで,モノクラービデオのみを教師する3D映像を合成するGANフレームワークを開発した。 提案手法は,既存の3DやビデオGANに匹敵する画質の画像を生成しながら,時空間レンダリングの新しい視覚効果を実現するために,分解可能な3D構造とモーションのリッチな埋め込みを学習する。

Generative models have emerged as an essential building block for many image synthesis and editing tasks. Recent advances in this field have also enabled high-quality 3D or video content to be generated that exhibits either multi-view or temporal consistency. With our work, we explore 4D generative adversarial networks (GANs) that learn unconditional generation of 3D-aware videos. By combining neural implicit representations with time-aware discriminator, we develop a GAN framework that synthesizes 3D video supervised only with monocular videos. We show that our method learns a rich embedding of decomposable 3D structures and motions that enables new visual effects of spatio-temporal renderings while producing imagery with quality comparable to that of existing 3D or video GANs.
翻訳日:2023-08-10 18:28:15 公開日:2023-08-09
# 協調型ハイブリッドアサインメントトレーニングによるDETR

DETRs with Collaborative Hybrid Assignments Training ( http://arxiv.org/abs/2211.12860v5 )

ライセンス: Link先を確認
Zhuofan Zong, Guanglu Song, Yu Liu(参考訳) 本稿では、一対一のセットマッチングを持つdetrの正のサンプルとして割り当てられるクエリが少なすぎると、エンコーダの出力がばらばらになり、エンコーダの識別的特徴学習と注意学習の副ビザが著しく損なわれるという観測結果を提供する。 そこで本研究では,より効率的かつ効率的なDETR型検出器を多目的ラベル割り当て方式で学習するための,新しい協調型ハイブリット割当てトレーニングスキームである$\mathcal{C}$o-DETRを提案する。 この新しいトレーニング方式は、atssや高速rcnnなどの1対1ラベル割り当てによって管理される複数の並列補助ヘッドを訓練することにより、エンドツーエンド検出器におけるエンコーダの学習能力を高めることができる。 また,これらの補助ヘッドから正座標を抽出することで,デコーダ内の正のサンプルのトレーニング効率を向上させることで,さらにカスタマイズした正の問い合わせを行う。 そこで本手法では,手作り非最大抑制(NMS)を必要とせずに,元の検出器に余分なパラメータや計算コストを導入する。 我々は,DAB-DETR,Deformable-DETR,DINO-Deformable-DETRなど,提案手法の有効性を評価するための広範囲な実験を行った。 最先端のDINO-Deformable-DETR with Swin-Lは、COCO val上で58.5%から59.5%APに改善できる。 驚いたことに、ViT-Lのバックボーンが組み込まれており、COCOテストデブでは66.0%AP、LVIS valでは67.9%APを達成し、モデルサイズをはるかに小さくしたクリアマージンで従来の手法より優れていた。 コードは \url{https://github.com/Sense-X/Co-DETR} で公開されている。

In this paper, we provide the observation that too few queries assigned as positive samples in DETR with one-to-one set matching leads to sparse supervision on the encoder's output which considerably hurt the discriminative feature learning of the encoder and vice visa for attention learning in the decoder. To alleviate this, we present a novel collaborative hybrid assignments training scheme, namely $\mathcal{C}$o-DETR, to learn more efficient and effective DETR-based detectors from versatile label assignment manners. This new training scheme can easily enhance the encoder's learning ability in end-to-end detectors by training the multiple parallel auxiliary heads supervised by one-to-many label assignments such as ATSS and Faster RCNN. In addition, we conduct extra customized positive queries by extracting the positive coordinates from these auxiliary heads to improve the training efficiency of positive samples in the decoder. In inference, these auxiliary heads are discarded and thus our method introduces no additional parameters and computational cost to the original detector while requiring no hand-crafted non-maximum suppression (NMS). We conduct extensive experiments to evaluate the effectiveness of the proposed approach on DETR variants, including DAB-DETR, Deformable-DETR, and DINO-Deformable-DETR. The state-of-the-art DINO-Deformable-DETR with Swin-L can be improved from 58.5% to 59.5% AP on COCO val. Surprisingly, incorporated with ViT-L backbone, we achieve 66.0% AP on COCO test-dev and 67.9% AP on LVIS val, outperforming previous methods by clear margins with much fewer model sizes. Codes are available at \url{https://github.com/Sense-X/Co-DETR}.
翻訳日:2023-08-10 18:20:27 公開日:2023-08-09
# 視覚探索のための学習型モデルベースプランニング

Learning-Augmented Model-Based Planning for Visual Exploration ( http://arxiv.org/abs/2211.07898v2 )

ライセンス: Link先を確認
Yimeng Li, Arnab Debnath, Gregory Stein, Jana Kosecka(参考訳) 我々は,事前定義された時間によって探索が制限された未発見環境における時間制限型ロボット探索の問題を考える。 学習型モデルベースプランニングを用いた新しい探索手法を提案する。 我々は,現在の地図上でフロンティアに関連する一連のサブゴールを生成し,これらのサブゴールを用いた探索のためのベルマン方程式を導出する。 視覚センシングと室内シーンの意味マッピングの進歩は、それぞれのフロンティアに関連する特性を推定するために深い畳み込みニューラルネットワークを訓練するために活用されている。 提案したモデルベースプランナは,時間的許諾があれば,全シーンを探索することが保証される。 habitat simulatorを用いた大規模疑似現実的屋内データセット(matterport3d)のアプローチを徹底的に評価した。 我々は,従来のRLに基づく探査手法と比較した。 提案手法は,2.1%,RLに基づく探査手法8.4%を網羅的に上回っている。

We consider the problem of time-limited robotic exploration in previously unseen environments where exploration is limited by a predefined amount of time. We propose a novel exploration approach using learning-augmented model-based planning. We generate a set of subgoals associated with frontiers on the current map and derive a Bellman Equation for exploration with these subgoals. Visual sensing and advances in semantic mapping of indoor scenes are exploited for training a deep convolutional neural network to estimate properties associated with each frontier: the expected unobserved area beyond the frontier and the expected timesteps (discretized actions) required to explore it. The proposed model-based planner is guaranteed to explore the whole scene if time permits. We thoroughly evaluate our approach on a large-scale pseudo-realistic indoor dataset (Matterport3D) with the Habitat simulator. We compare our approach with classical and more recent RL-based exploration methods. Our approach surpasses the greedy strategies by 2.1% and the RL-based exploration methods by 8.4% in terms of coverage.
翻訳日:2023-08-10 18:19:53 公開日:2023-08-09
# MLIC:学習画像圧縮のためのマルチ参照エントロピーモデル

MLIC: Multi-Reference Entropy Model for Learned Image Compression ( http://arxiv.org/abs/2211.07273v5 )

ライセンス: Link先を確認
Wei Jiang, Jiayu Yang, Yongqi Zhai, Peirong Ning, Feng Gao, Ronggang Wang(参考訳) 近年,学習画像の圧縮性能は著しく向上している。 潜在表現の分布を推定するエントロピーモデルは、速度分散性能の向上に重要な役割を果たしている。 しかし、ほとんどのエントロピーモデルは1次元の相関のみを捉えるが、潜在表現はチャネル回り、局所空間、大域的な空間相関を含む。 この問題に対処するため、Multi-Reference Entropy Model (MEM) と高度なバージョンMEM$^+$を提案する。 これらのモデルは潜在表現に存在する異なる種類の相関を捉える。 具体的には、まず潜在表現をスライスに分割する。 現在のスライスを復号する際には、予め復号されたスライスをコンテキストとして使用し、それまでのスライスのアテンションマップを用いて、現在のスライスにおける大域的相関を予測する。 ローカルコンテキストをキャプチャするために,性能劣化を回避する2つの拡張チェッカーボードコンテキストキャプチャ技術を導入する。 MEM と MEM$^+$ に基づいて,画像圧縮モデル MLIC と MLIC$^+$ を提案する。 我々のMLICおよびMLIC$^+$モデルは、PSNRで測定されたVTM-17.0と比較して、Kodakデータセット上でのBDレートが8.05\%$と11.39\%$に減少する。 私たちのコードはhttps://github.com/jiangweibeta/mlicで利用可能です。

Recently, learned image compression has achieved remarkable performance. The entropy model, which estimates the distribution of the latent representation, plays a crucial role in boosting rate-distortion performance. However, most entropy models only capture correlations in one dimension, while the latent representation contain channel-wise, local spatial, and global spatial correlations. To tackle this issue, we propose the Multi-Reference Entropy Model (MEM) and the advanced version, MEM$^+$. These models capture the different types of correlations present in latent representation. Specifically, We first divide the latent representation into slices. When decoding the current slice, we use previously decoded slices as context and employ the attention map of the previously decoded slice to predict global correlations in the current slice. To capture local contexts, we introduce two enhanced checkerboard context capturing techniques that avoids performance degradation. Based on MEM and MEM$^+$, we propose image compression models MLIC and MLIC$^+$. Extensive experimental evaluations demonstrate that our MLIC and MLIC$^+$ models achieve state-of-the-art performance, reducing BD-rate by $8.05\%$ and $11.39\%$ on the Kodak dataset compared to VTM-17.0 when measured in PSNR. Our code will be available at https://github.com/JiangWeibeta/MLIC.
翻訳日:2023-08-10 18:19:37 公開日:2023-08-09
# RaLiBEV:アンカーボックス自由物体検出システムのためのレーダーとLiDARのBEV融合学習

RaLiBEV: Radar and LiDAR BEV Fusion Learning for Anchor Box Free Object Detection System ( http://arxiv.org/abs/2211.06108v3 )

ライセンス: Link先を確認
Yanlong Yang, Jianan Liu, Tao Huang, Qing-Long Han, Gang Ma and Bing Zhu(参考訳) 自律走行システムでは、LiDARとレーダーは周囲環境の認識において重要な役割を果たす。 LiDARは正確な3D空間センシング情報を提供するが、霧のような悪天候では機能しない。 一方、レーダー信号はその波長によって雨滴や霧の粒子に遭遇する際には回折することができるが、大きなノイズに悩まされる。 最近の最先端の研究は、レーダーとLiDARの融合が悪天候の堅牢な検出につながることを明らかにしている。 既存の研究では、畳み込みニューラルネットワークアーキテクチャを採用して、各センサデータストリームから特徴を抽出し、それから2つの分岐機能を調整して集約して、オブジェクト検出結果を予測する。 しかし,これらの手法はラベル割り当てと融合戦略の簡単な設計のため,境界ボックス推定の精度が低い。 本稿では,レーダーレンジ方位熱マップとLiDAR点雲から得られた特徴を融合させて推定する,鳥眼視融合学習に基づくアンカーボックスフリー物体検出システムを提案する。 異なるラベル割り当て戦略は、前景や背景アンカーポイントの分類と対応する境界ボックスの回帰との整合性を促進するように設計されている。 さらに, 提案する物体検出器の性能を, 新規なインタラクティブトランスフォーマモジュールを用いてさらに向上させる。 本稿では,最近発表されたOxford Radar RobotCarデータセットを用いて,提案手法の優れた性能を示す。 本システムの平均精度は, 「クラー」 と「フォギー」 の訓練条件下で, 0.8 の IoU において, 13.1% と 19.0% で, 最先端の手法よりも有意に優れていた。

In autonomous driving systems, LiDAR and radar play important roles in the perception of the surrounding environment. LiDAR provides accurate 3D spatial sensing information but cannot work in adverse weather like fog. On the other hand, the radar signal can be diffracted when encountering raindrops or mist particles thanks to its wavelength, but it suffers from large noise. Recent state-of-the-art works reveal that fusion of radar and LiDAR can lead to robust detection in adverse weather. The existing works adopt convolutional neural network architecture to extract features from each sensor data stream, then align and aggregate the two branch features to predict object detection results. However, these methods have low accuracy of bounding box estimations due to a simple design of label assignment and fusion strategies. In this paper, we propose a bird's-eye view fusion learning-based anchor box-free object detection system, which fuses the feature derived from the radar range-azimuth heatmap and the LiDAR point cloud to estimate the possible objects. Different label assignment strategies have been designed to facilitate the consistency between the classification of foreground or background anchor points and the corresponding bounding box regressions. In addition, the performance of the proposed object detector is further enhanced by employing a novel interactive transformer module. The superior performance of the methods proposed in this paper has been demonstrated using the recently published Oxford Radar RobotCar dataset. Our system's average precision significantly outperforms the best state-of-the-art method by 13.1% and 19.0% at IoU of 0.8 under 'Clear+Foggy' training conditions for 'Clear' and 'Foggy' testing, respectively.
翻訳日:2023-08-10 18:19:09 公開日:2023-08-09
# アーティストのライクロール:テキスト間合成のためのテキストエンコーダにバックドアを注入する

Rickrolling the Artist: Injecting Backdoors into Text Encoders for Text-to-Image Synthesis ( http://arxiv.org/abs/2211.02408v3 )

ライセンス: Link先を確認
Lukas Struppek, Dominik Hintersdorf, Kristian Kersting(参考訳) 現在、テキストと画像の合成は研究者や一般大衆の間では非常に人気があるが、これらのモデルの安全性は無視されている。 多くのテキスト誘導画像生成モデルは、事前訓練された外部ソースからのテキストエンコーダに依存しており、ユーザーは検索されたモデルが約束通りに振る舞うと信じている。 残念ながら、そうではないかもしれない。 我々は,テキスト誘導生成モデルに対するバックドア攻撃を導入し,テキストエンコーダが大きな改ざんリスクをもたらすことを示した。 我々の攻撃はエンコーダをわずかに変更するだけで、クリーンなプロンプトで画像生成に不審なモデル動作が明らかになることはない。 例えば、非ラテン文字や絵文字のようなプロンプトに1文字のトリガーを挿入することで、敵はモデルをトリガーして、予め定義された属性を持つ画像や、隠された潜在的に有害な記述に従う画像を生成することができる。 安定拡散に対する攻撃の有効性を実証的に実証し、単一のバックドアの注入に要する時間は2分未満であることを強調した。 このアプローチを攻撃としてのみ表現するだけでなく、ヌードや暴力といった特定の概念に関連するフレーズをエンコーダに忘れさせ、画像生成をより安全にするのに役立つ。

While text-to-image synthesis currently enjoys great popularity among researchers and the general public, the security of these models has been neglected so far. Many text-guided image generation models rely on pre-trained text encoders from external sources, and their users trust that the retrieved models will behave as promised. Unfortunately, this might not be the case. We introduce backdoor attacks against text-guided generative models and demonstrate that their text encoders pose a major tampering risk. Our attacks only slightly alter an encoder so that no suspicious model behavior is apparent for image generations with clean prompts. By then inserting a single character trigger into the prompt, e.g., a non-Latin character or emoji, the adversary can trigger the model to either generate images with pre-defined attributes or images following a hidden, potentially malicious description. We empirically demonstrate the high effectiveness of our attacks on Stable Diffusion and highlight that the injection process of a single backdoor takes less than two minutes. Besides phrasing our approach solely as an attack, it can also force an encoder to forget phrases related to certain concepts, such as nudity or violence, and help to make image generation safer.
翻訳日:2023-08-10 18:18:40 公開日:2023-08-09
# 量子集合反転のための計算機実験のベイズ的逐次設計

Bayesian sequential design of computer experiments for quantile set inversion ( http://arxiv.org/abs/2211.01008v2 )

ライセンス: Link先を確認
Romain Ait Abdelmalek-Lomenech (L2S, GdR MASCOT-NUM), Julien Bect (L2S, GdR MASCOT-NUM), Vincent Chabridon (EDF R&D PRISME, GdR MASCOT-NUM), Emmanuel Vazquez (L2S, GdR MASCOT-NUM)(参考訳) 複雑な数値シミュレータのようなシステムを表す未知の多変量関数が決定論的入力と不確定入力の両方を取る。 我々の目的は、与えられた集合に属する確率(不確実な入力の分布に関する)が与えられた閾値未満である出力につながる決定論的入力の集合を推定することである。 この問題はQuantile Set Inversion (QSI)と呼ばれ、例えば十分に大きな確率で制約を満たす解の集合を探す際に、堅牢な(信頼性に基づく)最適化問題の文脈で発生する。 QSI問題を解決するために,ガウス過程モデリングとステップワイド不確実性低減(SUR)原理に基づくベイズ戦略を提案する。 いくつかの数値実験を通して提案したSUR戦略の性能と関心について述べる。

We consider an unknown multivariate function representing a system-such as a complex numerical simulator-taking both deterministic and uncertain inputs. Our objective is to estimate the set of deterministic inputs leading to outputs whose probability (with respect to the distribution of the uncertain inputs) of belonging to a given set is less than a given threshold. This problem, which we call Quantile Set Inversion (QSI), occurs for instance in the context of robust (reliability-based) optimization problems, when looking for the set of solutions that satisfy the constraints with sufficiently large probability. To solve the QSI problem, we propose a Bayesian strategy based on Gaussian process modeling and the Stepwise Uncertainty Reduction (SUR) principle, to sequentially choose the points at which the function should be evaluated to efficiently approximate the set of interest. We illustrate the performance and interest of the proposed SUR strategy through several numerical experiments.
翻訳日:2023-08-10 18:18:16 公開日:2023-08-09
# 3次元物体理解のためのワンショットニューラルフィールド

One-Shot Neural Fields for 3D Object Understanding ( http://arxiv.org/abs/2210.12126v3 )

ライセンス: Link先を確認
Valts Blukis, Taeyeop Lee, Jonathan Tremblay, Bowen Wen, In So Kweon, Kuk-Jin Yoon, Dieter Fox, Stan Birchfield(参考訳) 本稿では,ロボット工学のための統一的でコンパクトなシーン表現について述べる。シーン内の各オブジェクトは,幾何学や外観を捉えた潜在コードで表現される。 この表現は、新しいビューレンダリング、3D再構成(例えば、深度回復、点雲、ボクセルマップ)、衝突チェック、安定した把握予測といった様々なタスクのためにデコードできる。 我々は、大規模なマルチビューデータセットでカテゴリレベルの先行を学習し、1つか数つのビューから新しいオブジェクトを微調整するNeural Radiance Fields(NeRF)の最近の進歩を活用して、テスト時に単一のRGB入力画像から表現を構築する。 我々は,この表現をロボット工学に活用する方法を探るため,NeRFモデルを拡張した。 テスト時には、1つの視点からシーンを観察する単一のRGB入力画像から表現を構築する。 復元された表現は、隠蔽対象部分を含む新しいビューからのレンダリングを可能にし、安定した把握を成功させる。 Graspのポーズは、暗黙のグリップデコーダを使って、潜在表現から直接デコードできる。 シミュレーションと実世界の両方で実験を行い,このようなコンパクト表現を用いたロバストなロボット把持能力を示した。 ウェブサイト:https://nerfgrasp.github.io

We present a unified and compact scene representation for robotics, where each object in the scene is depicted by a latent code capturing geometry and appearance. This representation can be decoded for various tasks such as novel view rendering, 3D reconstruction (e.g. recovering depth, point clouds, or voxel maps), collision checking, and stable grasp prediction. We build our representation from a single RGB input image at test time by leveraging recent advances in Neural Radiance Fields (NeRF) that learn category-level priors on large multiview datasets, then fine-tune on novel objects from one or few views. We expand the NeRF model for additional grasp outputs and explore ways to leverage this representation for robotics. At test-time, we build the representation from a single RGB input image observing the scene from only one viewpoint. We find that the recovered representation allows rendering from novel views, including of occluded object parts, and also for predicting successful stable grasps. Grasp poses can be directly decoded from our latent representation with an implicit grasp decoder. We experimented in both simulation and real world and demonstrated the capability for robust robotic grasping using such compact representation. Website: https://nerfgrasp.github.io
翻訳日:2023-08-10 18:18:02 公開日:2023-08-09
# ベイズ型ニューラルネットワーク認識の不確実性に基づく分散判別器

An out-of-distribution discriminator based on Bayesian neural network epistemic uncertainty ( http://arxiv.org/abs/2210.10780v2 )

ライセンス: Link先を確認
Ethan Ancell, Christopher Bennett, Bert Debusschere, Sapan Agarwal, Park Hays, T. Patrick Xiao(参考訳) ニューラルネットワークは予測能力を高めて機械学習の分野に革命をもたらした。 ニューラルネットワークの予測の改善に加えて,ニューラルネットワークなどの機械学習手法による推定では,信頼性の高い不確かさの定量化が同時に求められている。 ベイジアンニューラルネットワーク(bnns)は、不確かさを定量化する機能を組み込んだ重要なタイプのニューラルネットワークである。 本稿では,BNNにおける失語症およびてんかんの不確実性とその計算方法について論じる。 画像中の事象の振幅を識別することを目的とした画像のサンプルデータセットでは、トレーニングデータセットでよく表現された画像では認識の不確かさが低くなり、よく表現されていない画像では高い傾向が示されている。 BNNにおけるOoD検出能力に影響を及ぼす要因を示す様々な実験とともに、BNNてんかん不確実性を伴うOoD検出アルゴリズムを紹介した。 認識的不確実性を有するood検出能力は,gan(generative adversarial network)の識別ネットワークにおけるood検出に匹敵するネットワークアーキテクチャを有する。

Neural networks have revolutionized the field of machine learning with increased predictive capability. In addition to improving the predictions of neural networks, there is a simultaneous demand for reliable uncertainty quantification on estimates made by machine learning methods such as neural networks. Bayesian neural networks (BNNs) are an important type of neural network with built-in capability for quantifying uncertainty. This paper discusses aleatoric and epistemic uncertainty in BNNs and how they can be calculated. With an example dataset of images where the goal is to identify the amplitude of an event in the image, it is shown that epistemic uncertainty tends to be lower in images which are well-represented in the training dataset and tends to be high in images which are not well-represented. An algorithm for out-of-distribution (OoD) detection with BNN epistemic uncertainty is introduced along with various experiments demonstrating factors influencing the OoD detection capability in a BNN. The OoD detection capability with epistemic uncertainty is shown to be comparable to the OoD detection in the discriminator network of a generative adversarial network (GAN) with comparable network architecture.
翻訳日:2023-08-10 18:17:41 公開日:2023-08-09
# XOR ゲームと XOR* ゲームを接続する

Connecting XOR and XOR* games ( http://arxiv.org/abs/2210.00397v3 )

ライセンス: Link先を確認
Lorenzo Catani, Ricardo Faleiro, Pierre-Emmanuel Emeriau, Shane Mansfield, Anna Pappa(参考訳) この研究では、XOR非局所ゲームとXOR*シーケンシャルゲームという、独占的なリソースを持つ2種類のゲームに焦点を当てる。 XORゲームは、非ローカルゲームにおいて広く研究されており、リソースシステムが制御された操作と最終的な測定の順序に従うゲームの種類の中で、XOR*ゲームが自然なものとして紹介されている。 XOR*のゲームには、$2\rightarrow 1$ quantum random access codes (QRAC) や[PRA 98,060302(2018)]でHenautらによって導入されたCHSH*ゲームがある。 プロセス理論のダイアグラム言語を用いて、ある仮定の下でこれらの2つのゲームのクラスは、それらの最適戦略とそれらの古典(ベル)と量子(トシレルソン)境界を結ぶ明示的な定理によって関連付けられることを証明する。 また、XOR* ゲームにおける変換の可逆性と資源システムの2次元性という2つの仮定が、明示的な反例を提供することで、定理の保持に厳密に必要であることを示す。 我々は、XOR/XOR*ゲーム対のいくつかの例と、XOR*ゲームにおける量子計算の利点を生かす可能性のあるリソースを詳細に議論することで結論付けた。

In this work we focus on two classes of games: XOR nonlocal games and XOR* sequential games with monopartite resources. XOR games have been widely studied in the literature of nonlocal games, and we introduce XOR* games as their natural counterpart within the class of games where a resource system is subjected to a sequence of controlled operations and a final measurement. Examples of XOR* games are $2\rightarrow 1$ quantum random access codes (QRAC) and the CHSH* game introduced by Henaut et al. in [PRA 98,060302(2018)]. We prove, using the diagrammatic language of process theories, that under certain assumptions these two classes of games can be related via an explicit theorem that connects their optimal strategies, and so their classical (Bell) and quantum (Tsirelson) bounds. We also show that two of such assumptions -- the reversibility of transformations and the bi-dimensionality of the resource system in the XOR* games -- are strictly necessary for the theorem to hold by providing explicit counterexamples. We conclude with several examples of pairs of XOR/XOR* games and by discussing in detail the possible resources that power the quantum computational advantages in XOR* games.
翻訳日:2023-08-10 18:17:26 公開日:2023-08-09
# 量子カオス二次ハミルトニアンの一般化熱分解

Generalized thermalization in quantum-chaotic quadratic Hamiltonians ( http://arxiv.org/abs/2210.00016v2 )

ライセンス: Link先を確認
Patrycja {\L}yd\.zba, Marcin Mierzejewski, Marcos Rigol, Lev Vidmar(参考訳) 非可積分(可積分)量子系における熱化(一般熱化)には、gibbs (generalized gibbs)アンサンブルの予測との平衡と一致という2つの成分が必要である。 単一粒子セクターにおける固有状態熱化を示す観測値は、量子カオス二次モデルの多体セクターにおいて平衡であることを示す。 驚くべきことに、同じ観測可能領域は、多体セクタにおいて固有熱化を示さない(指数関数的に多くの異常値が存在することを定めている)。 したがって、一般化ギブスアンサンブルは一般に、平衡後の期待値を記述するために必要であり、単粒子エネルギーの滑らかな関数であるラグランジュ乗算器によって特徴づけられる。

Thermalization (generalized thermalization) in nonintegrable (integrable) quantum systems requires two ingredients: equilibration and agreement with the predictions of the Gibbs (generalized Gibbs) ensemble. We prove that observables that exhibit eigenstate thermalization in single-particle sector equilibrate in many-body sectors of quantum-chaotic quadratic models. Remarkably, the same observables do not exhibit eigenstate thermalization in many-body sectors (we establish that there are exponentially many outliers). Hence, the generalized Gibbs ensemble is generally needed to describe their expectation values after equilibration, and it is characterized by Lagrange multipliers that are smooth functions of single-particle energies.
翻訳日:2023-08-10 18:16:59 公開日:2023-08-09
# 2kビットのクロス共振ゲートを実現するCryogenic CMOSコントロールエレクトロニクス

Using Cryogenic CMOS Control Electronics To Enable A Two-Qubit Cross-Resonance Gate ( http://arxiv.org/abs/2302.11538v2 )

ライセンス: Link先を確認
Devin L. Underwood, Joseph A. Glick, Ken Inoue, David J. Frank, John Timmerwilke, Emily Pritchett, Sudipto Chakraborty, Kevin Tien, Mark Yeck, John F. Bulzacchelli, Chris Baks, Pat Rosno, Raphael Robertazzi, Matthew Beck, Rajiv V. Joshi, Dorothy Wisnieff, Daniel Ramirez, Jeff Ruedinger, Scott Lekuch, Brian P. Gaucher and Daniel J. Friedman(参考訳) CMOS回路からなる量子制御エレクトロニクスは、次世代の量子コンピューティングシステムにとって重要な関心事である。 14nm FinFETで作製したCMOSベースのアプリケーション専用集積回路(ASIC)を用いて、量子ビット制御波形の生成とシーケンスを行い、固定周波数トランスモン間の2ビットクロス共鳴ゲートを実証した。 制御器は希釈冷凍機のT=4K段に熱的に固定され、測定電力は23mW/qubitであった。 出力周波数は4.5から5.5GHzで最大出力は-18dBmである。 RB (Randomized benchmarking) 実験により、シングルキュービットゲートではクリフォード (IPC) あたりの平均命令数は 1.71 であり、2キュービットゲートでは 17.51 IPC であった。 1ゲート当たり$\epsilon_{\text{1q}}$=8e-4、ゲート当たり$\epsilon_\text{2q}$=1.4e-2の1キュービット誤差を示す。 駆動誘起Z回転は回転エコー実験により観測され、この観測はCMOSチップから測定された過剰局所発振器(LO)リークに対する期待量子ビット挙動と一致している。 2ビットモデルハミルトニアンを用いて、スプリアス駆動によるZエラーの影響を数値的に評価し、測定されたRBデータと良好な一致を示した。 モデル化の結果,z誤差はパルス振幅と線形に変化することが示唆された。

Qubit control electronics composed of CMOS circuits are of critical interest for next generation quantum computing systems. A CMOS-based application specific integrated circuit (ASIC) fabricated in 14nm FinFET technology was used to generate and sequence qubit control waveforms and demonstrate a two-qubit cross resonance gate between fixed frequency transmons. The controller was thermally anchored to the T = 4K stage of a dilution refrigerator and the measured power was 23 mW per qubit under active control. The chip generated single--side banded output frequencies between 4.5 and 5.5 GHz with a maximum power output of -18 dBm. Randomized benchmarking (RB) experiments revealed an average number of 1.71 instructions per Clifford (IPC) for single-qubit gates, and 17.51 IPC for two-qubit gates. A single-qubit error per gate of $\epsilon_{\text{1Q}}$=8e-4 and two-qubit error per gate of $\epsilon_\text{2Q}$=1.4e-2 is shown. A drive-induced Z-rotation is observed by way of a rotary echo experiment; this observation is consistent with expected qubit behavior given measured excess local oscillator (LO) leakage from the CMOS chip. The effect of spurious drive induced Z-errors is numerically evaluated with a two-qubit model Hamiltonian, and shown to be in good agreement with measured RB data. The modeling results suggest the Z-error varies linearly with pulse amplitude.
翻訳日:2023-08-10 18:11:29 公開日:2023-08-09
# Sparse-View Tomography における自己監督型Sinogram Inpaintingを可能にする幾何学的制約

Geometric Constraints Enable Self-Supervised Sinogram Inpainting in Sparse-View Tomography ( http://arxiv.org/abs/2302.06436v2 )

ライセンス: Link先を確認
Fabian Wagner, Mareike Thies, Noah Maul, Laura Pfaff, Oliver Aust, Sabrina Pechmann, Christopher Syben, Andreas Maier(参考訳) CTスキャンの診断精度は、通常、誘発された患者線量、スキャン速度、画像品質によって制限される。 偏角断層撮影は放射線被曝を減少させ、データ取得を加速するが、画像のアーティファクトやノイズに苦しむ。 既存の画像処理アルゴリズムはCT再構成の品質を復元することができるが、大きなトレーニングデータセットを必要とする場合が多い。 本研究は、勾配に基づく最適化により、欠落した投影ビューを最適化する自己教師付き投影インペインティング手法を提案する。 投影データの独立したスタックを再構成することにより、ct画像領域で自己教師付き損失を算出し、投影幾何で制約された行方不明の断層画像ビューにマッチするように投影画像強度を直接最適化する。 実際のX線顕微鏡(XRM)を用いたX線トモグラフィマウスの骨スキャン実験により,PSNR/SSIMでは3.1-7.4%/7.7-17.6%の再現性を示した。 我々の手法は、トモグラフィー応用のためのフレキシブルな自己教師型プロジェクション塗装ツールとして適用できる。

The diagnostic quality of computed tomography (CT) scans is usually restricted by the induced patient dose, scan speed, and image quality. Sparse-angle tomographic scans reduce radiation exposure and accelerate data acquisition, but suffer from image artifacts and noise. Existing image processing algorithms can restore CT reconstruction quality but often require large training data sets or can not be used for truncated objects. This work presents a self-supervised projection inpainting method that allows optimizing missing projective views via gradient-based optimization. By reconstructing independent stacks of projection data, a self-supervised loss is calculated in the CT image domain and used to directly optimize projection image intensities to match the missing tomographic views constrained by the projection geometry. Our experiments on real X-ray microscope (XRM) tomographic mouse tibia bone scans show that our method improves reconstructions by 3.1-7.4%/7.7-17.6% in terms of PSNR/SSIM with respect to the interpolation baseline. Our approach is applicable as a flexible self-supervised projection inpainting tool for tomographic applications.
翻訳日:2023-08-10 18:10:52 公開日:2023-08-09
# 一次元自由フェルミオン格子模型の複素性成長

Complexity growth for one-dimensional free-fermionic lattice models ( http://arxiv.org/abs/2302.06305v3 )

ライセンス: Link先を確認
S. Aravinda and Ranjan Modak(参考訳) 複雑性は量子コンピューティングやシミュレーションにおいて非常に重要な役割を担っており、ユニタリ回路を実装するのに必要な最小ゲート数の尺度として機能する。 非相互作用フェルミオンの1次元格子モデルのユニタリダイナミクスに対する複雑性 (eisert, phys. rev. lett. 127, 020501 (2021)) の下限の研究を行った。 準粒子形式を用いて解析し, 境界は線形に成長し, 短距離のタイト結合ハミルトニアンの飽和度を求める。 初期ネール状態における境界が、密結合ハミルトニアンおよび長距離ホッピングモデルに対して最大であることの数値的証明を示す。 しかし、短距離モデルで観測される線形成長とは対照的に、バウンダリの増加は後続のサブ線形である。 非相互作用性フェルミオン格子モデルの複雑性の上界は計算され、下界の飽和時間を超えても線形に成長し、最後に飽和する。

Complexity plays a very important part in quantum computing and simulation where it acts as a measure of the minimal number of gates that are required to implement a unitary circuit. We study the lower bound of the complexity [Eisert, Phys. Rev. Lett. 127, 020501 (2021)] for the unitary dynamics of the one-dimensional lattice models of non-interacting fermions. We find analytically using quasiparticle formalism, the bound grows linearly in time and followed by a saturation for short-ranged tight-binding Hamiltonians. We show numerical evidence that for an initial Neel state the bound is maximum for tight-binding Hamiltonians as well as for the long-range hopping models. However, the increase of the bound is sub-linear in time for the later, in contrast to the linear growth observed for short-range models. The upper bound of the complexity in non-interacting fermionic lattice models is calculated, which grows linearly in time even beyond the saturation time of the lower bound, and finally, it also saturates.
翻訳日:2023-08-10 18:10:10 公開日:2023-08-09
# ディープラーニングに関するサーベイ:活性化からトランスフォーマーへ

A Survey of Deep Learning: From Activations to Transformers ( http://arxiv.org/abs/2302.00722v2 )

ライセンス: Link先を確認
Johannes Schneider and Michalis Vlachos(参考訳) 過去10年間、さまざまなアーキテクチャ、レイヤ、目的、最適化テクニックの出現により、ディープラーニングの顕著な進歩が見られた。 これらは、多種多様な注意、正規化、スキップ接続、トランスフォーマー、自己指導型学習方法などで構成されている。 私たちの目標は、ディープラーニングの基本的な理解を持つ個人に対する、これらのドメインにおける最近の重要な貢献に関する総合的な調査を提供することです。 我々の願望は、近年の影響力のある作品の統合的かつ包括的アプローチが、異なる深層学習領域間の新たなつながりの形成を促進することである。 議論では、過去10年間に成功したイノベーションの主要な戦略をまとめた複数のパターンについて論じます。 また,OpenAI の GPT-4 や Google の PaLM 2.0 など,最近開発されたクローズドソースモデルについても議論する。

The past decade has witnessed remarkable advancements in deep learning, owing to the emergence of various architectures, layers, objectives, and optimization techniques. These consist of a multitude of variations of attention, normalization, skip connections, transformer, and self-supervised learning methods, among others. Our goal is to furnish a comprehensive survey of significant recent contributions in these domains to individuals with a fundamental grasp of deep learning. Our aspiration is that an integrated and comprehensive approach of influential recent works will facilitate the formation of new connections between different areas of deep learning. In our discussion, we discuss multiple patterns that summarize the key strategies for many of the successful innovations over the last decade. We also include a discussion on recent commercially built, closed-source models such as OpenAI's GPT-4 and Google's PaLM 2.
翻訳日:2023-08-10 18:09:51 公開日:2023-08-09
# 格子場理論における量子コンピューティングの展望

Review on Quantum Computing for Lattice Field Theory ( http://arxiv.org/abs/2302.00467v2 )

ライセンス: Link先を確認
Lena Funcke, Tobias Hartung, Karl Jansen, Stefan K\"uhn(参考訳) 本稿では,量子コンピューティングを格子場理論に適用する最近の進歩を概観する。 量子コンピューティングは、有限バリオン密度、位相項、平衡外力学といったサイン・プロブレムが伴う規則のような、従来のモンテカルロのアプローチにほとんどアクセスできないパラメータ系における格子場理論をシミュレートする可能性を提供する。 1+1次元の格子ゲージ理論に関する最初の概念量子計算が達成され、(1+1)次元と(2+1)次元の格子ゲージ理論に対する最初の資源効率の量子アルゴリズムが開発された。 Lattice QCDを含む3+1次元格子ゲージ理論の量子計算への道は、量子ハードウェアと量子アルゴリズムの両方を改善するための漸進的なステップを必要とする。 これらの要件と最近の進歩を振り返って、主な課題と今後の方向性について論じる。

In these proceedings, we review recent advances in applying quantum computing to lattice field theory. Quantum computing offers the prospect to simulate lattice field theories in parameter regimes that are largely inaccessible with the conventional Monte Carlo approach, such as the sign-problem afflicted regimes of finite baryon density, topological terms, and out-of-equilibrium dynamics. First proof-of-concept quantum computations of lattice gauge theories in (1+1) dimensions have been accomplished, and first resource-efficient quantum algorithms for lattice gauge theories in (1+1) and (2+1) dimensions have been developed. The path towards quantum computations of (3+1)-dimensional lattice gauge theories, including Lattice QCD, requires many incremental steps of improving both quantum hardware and quantum algorithms. After reviewing these requirements and recent advances, we discuss the main challenges and future directions.
翻訳日:2023-08-10 18:09:39 公開日:2023-08-09
# 逆問題に対する深層学習における解釈因子化としてのSVDの出現

Emergence of the SVD as an interpretable factorization in deep learning for inverse problems ( http://arxiv.org/abs/2301.07820v2 )

ライセンス: Link先を確認
Shashank Sule, Richard G. Spencer and Wojciech Czaja(参考訳) 深層学習の枠組みの中で、重み行列の特異値分解(svd)が、デスクランブル変換(descrambling transformation)と組み合わせてニューラルネットワーク(nn)を解釈するためのツールとして現れることを実証する。 遅延最小化問題に渡されるデータの平均化効果を考慮し, NN重みのSVDと入力自己相関行列を用いて, 大規模データ限界におけるデクラーミング変換が表現可能であることを示す。 この事実を用いて、雑音パラメータ推定問題のクラスにおいて、SVDは、訓練されたネットワークが信号モデルを符号化する構造であることを示す。 我々は線形信号モデルと非線形信号モデルの両方による経験的証拠を用いて理論的知見を裏付ける。 また, 意味的発達の数学的理論であるsaxe2019mathematical} とニューラルネットワークの解釈可能性との関係を明らかにした。

Within the framework of deep learning we demonstrate the emergence of the singular value decomposition (SVD) of the weight matrix as a tool for interpretation of neural networks (NN) when combined with the descrambling transformation--a recently-developed technique for addressing interpretability in noisy parameter estimation neural networks \cite{amey2021neural}. By considering the averaging effect of the data passed to the descrambling minimization problem, we show that descrambling transformations--in the large data limit--can be expressed in terms of the SVD of the NN weights and the input autocorrelation matrix. Using this fact, we show that within the class of noisy parameter estimation problems the SVD may be the structure through which trained networks encode a signal model. We substantiate our theoretical findings with empirical evidence from both linear and non-linear signal models. Our results also illuminate the connections between a mathematical theory of semantic development \cite{saxe2019mathematical} and neural network interpretability.
翻訳日:2023-08-10 18:09:08 公開日:2023-08-09
# model ratatouille: 分散一般化のための多様なモデルのリサイクル

Model Ratatouille: Recycling Diverse Models for Out-of-Distribution Generalization ( http://arxiv.org/abs/2212.10445v3 )

ライセンス: Link先を確認
Alexandre Ram\'e, Kartik Ahuja, Jianyu Zhang, Matthieu Cord, L\'eon Bottou, David Lopez-Paz(参考訳) ファンデーションモデルは、AIシステムの構築方法を再定義している。 現在、実践者は機械学習ソリューションを構築するための標準的な手順に従う。事前訓練された基礎モデルから、対象とするタスクの重みを微調整する。 だからインターネットは、さまざまなタスクで微調整された一握りのファンデーションモデルによって群がっている: これらの個々の微調整は、互いに利益をもたらさずに、孤立して存在している。 当社の意見では、これらの特殊なモデルにはリッチで多様な機能が含まれています。 そこで本稿では,同一基礎モデルの複数の微調整を多様な補助タスクで再利用する新しい手法であるモデル・ラタトゥイユを提案する。 具体的には、これらの補助重みを目標タスクにおける多重並列微調整の初期化として再利用し、最終モデルを得るためにすべての微調整重みを平均化する。 このリサイクル戦略は, 補助作業の多様性を活かし, 重量の多様性を最大化することを目的としている。 経験上、分散の一般化のための参照ドメインベッドベンチマークにおける技術状態を改善する。 今後この研究は、オープンソースのソフトウェア開発と同様に、機械学習モデルを確実に更新するためにコミュニティが協力する、アップダブルな機械学習のパラダイムに寄与する。 私たちのコードはhttps://github.com/facebookresearch/modelratatouilleです。

Foundation models are redefining how AI systems are built. Practitioners now follow a standard procedure to build their machine learning solutions: from a pre-trained foundation model, they fine-tune the weights on the target task of interest. So, the Internet is swarmed by a handful of foundation models fine-tuned on many diverse tasks: these individual fine-tunings exist in isolation without benefiting from each other. In our opinion, this is a missed opportunity, as these specialized models contain rich and diverse features. In this paper, we thus propose model ratatouille, a new strategy to recycle the multiple fine-tunings of the same foundation model on diverse auxiliary tasks. Specifically, we repurpose these auxiliary weights as initializations for multiple parallel fine-tunings on the target task; then, we average all fine-tuned weights to obtain the final model. This recycling strategy aims at maximizing the diversity in weights by leveraging the diversity in auxiliary tasks. Empirically, it improves the state of the art on the reference DomainBed benchmark for out-of-distribution generalization. Looking forward, this work contributes to the emerging paradigm of updatable machine learning where, akin to open-source software development, the community collaborates to reliably update machine learning models. Our code is released: https://github.com/facebookresearch/ModelRatatouille.
翻訳日:2023-08-10 18:08:50 公開日:2023-08-09
# マンハッタンシーンの入射表現のための表面正規クラスタリング

Surface Normal Clustering for Implicit Representation of Manhattan Scenes ( http://arxiv.org/abs/2212.01331v3 )

ライセンス: Link先を確認
Nikola Popovic, Danda Pani Paudel, Luc Van Gool(参考訳) 暗黙的ニューラルフィールド表現を用いた新しいビュー合成と3次元モデリングは、マルチビューカメラの校正に非常に有効であることが示されている。 このような表現は、追加の幾何学的および意味的監督の恩恵を受けることが知られている。 追加の監視を利用する既存の方法の多くは、高密度のピクセルワイドラベルや、ローカライズされたシーン先行を必要とする。 これらの手法は、シーンの説明の観点で提供される高レベルな曖昧なシーン優先の恩恵を受けることができない。 本研究では,マンハッタンのシーンの幾何学的前兆を利用して,暗黙の神経放射場表現を改善することを目的とする。 より正確には、マンハッタンの屋内シーンに関する知識(調査中の)のみが、マンハッタンの座標フレームが未知の状態で、追加情報を持たないことがわかっていると仮定する。 このようなハイレベルな事前処理は、暗黙の神経野で明示的に導出される表面正規化を自己監督するために用いられる。 我々のモデリングにより、導出した正規項をクラスタリングし、それらの直交制約を自己超越のために利用することができる。 様々な屋内シーンのデータセットを徹底的に実験した結果,提案手法が確立したベースラインよりも有益であることが示された。 ソースコードはhttps://github.com/nikola3794/normal-clustering-nerfで入手できる。

Novel view synthesis and 3D modeling using implicit neural field representation are shown to be very effective for calibrated multi-view cameras. Such representations are known to benefit from additional geometric and semantic supervision. Most existing methods that exploit additional supervision require dense pixel-wise labels or localized scene priors. These methods cannot benefit from high-level vague scene priors provided in terms of scenes' descriptions. In this work, we aim to leverage the geometric prior of Manhattan scenes to improve the implicit neural radiance field representations. More precisely, we assume that only the knowledge of the indoor scene (under investigation) being Manhattan is known -- with no additional information whatsoever -- with an unknown Manhattan coordinate frame. Such high-level prior is used to self-supervise the surface normals derived explicitly in the implicit neural fields. Our modeling allows us to cluster the derived normals and exploit their orthogonality constraints for self-supervision. Our exhaustive experiments on datasets of diverse indoor scenes demonstrate the significant benefit of the proposed method over the established baselines. The source code will be available at https://github.com/nikola3794/normal-clustering-nerf.
翻訳日:2023-08-10 18:08:29 公開日:2023-08-09
# 自己破壊モデル--基礎モデルの有害な二重利用コストの増大

Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of Foundation Models ( http://arxiv.org/abs/2211.14946v2 )

ライセンス: Link先を確認
Peter Henderson, Eric Mitchell, Christopher D. Manning, Dan Jurafsky, Chelsea Finn(参考訳) 大規模でオープンソースのファンデーションモデルのエコシステムは、多くの新しい問題に機械学習を適用するために必要なラベル付きデータと技術的専門知識を減らした。 しかし、基礎モデルは明らかな二重利用リスクをもたらし、有害かつ有益な機械学習システムを構築するコストを無差別に削減する。 制限されたモデルアクセスやエクスポート制御のようなポリシーツールは、これらのデュアルユースリスクを軽減するために現在使われている主要な方法である。 本稿では,安全リリース戦略の可能性について検討し,オープンソース基盤モデルの下流利用をより正確に制御できる,基本的な新しい技術から,政策立案者とai研究者の両方が恩恵を受ける,と論じる。 基礎となるモデルに有害なタスクへの適応を阻害するメカニズムを付加し、望ましいタスクのパフォーマンスを犠牲にすることなく学習するタスクブロッキングパラダイムを提案する。 敵が有害な目的のためにツールを使用するのを防ぐメカニズムに触発された、結果のモデルを自己破壊モデルと呼んでいる。 本稿では,メタ学習と敵対的学習の手法を活用した自己破壊モデル学習のためのアルゴリズムを提案する。 小規模実験において,mlacは,職業分類を行うモデルの能力を損なうことなく,bert型モデルが性別識別に再利用されることをほとんど防げることを示した。

A growing ecosystem of large, open-source foundation models has reduced the labeled data and technical expertise necessary to apply machine learning to many new problems. Yet foundation models pose a clear dual-use risk, indiscriminately reducing the costs of building both harmful and beneficial machine learning systems. Policy tools such as restricted model access and export controls are the primary methods currently used to mitigate such dual-use risks. In this work, we review potential safe-release strategies and argue that both policymakers and AI researchers would benefit from fundamentally new technologies enabling more precise control over the downstream usage of open-source foundation models. We propose one such approach: the task blocking paradigm, in which foundation models are trained with an additional mechanism to impede adaptation to harmful tasks without sacrificing performance on desirable tasks. We call the resulting models self-destructing models, inspired by mechanisms that prevent adversaries from using tools for harmful purposes. We present an algorithm for training self-destructing models leveraging techniques from meta-learning and adversarial learning, which we call meta-learned adversarial censoring (MLAC). In a small-scale experiment, we show MLAC can largely prevent a BERT-style model from being re-purposed to perform gender identification without harming the model's ability to perform profession classification.
翻訳日:2023-08-10 18:08:13 公開日:2023-08-09
# 誤り度低減のための固定階層型フレームへのニューラル崩壊の誘導

Inducing Neural Collapse to a Fixed Hierarchy-Aware Frame for Reducing Mistake Severity ( http://arxiv.org/abs/2303.05689v2 )

ライセンス: Link先を確認
Tong Liang and Jim Davis(参考訳) 最近、神経崩壊と呼ばれる興味深い現象が発見されており、分類のためのディープニューラルネットワークの訓練の終盤において、クラス内のペナルティメイト特徴手段と関連するフラットクラスの分類器ベクトルは、単純等角タイトフレーム(etf)の頂点に崩壊する。 近年の研究では、関連する分類器重みを予め計算されたetfに固定し、神経崩壊を誘発し、不均衡なデータでトレーニングする際に学習した特徴の分離を最大化することで、この現象を生かそうと試みている。 本研究では,深層ニューラルネットワークの線形分類器をETFの代わりに階層認識フレーム(Hierarchy-Aware Frame, HAFrame)に固定し,コサイン類似性に基づく補助的損失を用いて階層認識特徴を学習することを提案する。 提案手法は,3~12の階層構造を持つ様々なスケールのデータセットにおいて,トップ1の精度を維持しつつ,モデル予測の誤り重大度を低減する。 コード:https://github.com/ltong1130ztr/HAFrame

There is a recently discovered and intriguing phenomenon called Neural Collapse: at the terminal phase of training a deep neural network for classification, the within-class penultimate feature means and the associated classifier vectors of all flat classes collapse to the vertices of a simplex Equiangular Tight Frame (ETF). Recent work has tried to exploit this phenomenon by fixing the related classifier weights to a pre-computed ETF to induce neural collapse and maximize the separation of the learned features when training with imbalanced data. In this work, we propose to fix the linear classifier of a deep neural network to a Hierarchy-Aware Frame (HAFrame), instead of an ETF, and use a cosine similarity-based auxiliary loss to learn hierarchy-aware penultimate features that collapse to the HAFrame. We demonstrate that our approach reduces the mistake severity of the model's predictions while maintaining its top-1 accuracy on several datasets of varying scales with hierarchies of heights ranging from 3 to 12. Code: https://github.com/ltong1130ztr/HAFrame
翻訳日:2023-08-10 17:59:14 公開日:2023-08-09
# テンソルネットワークを持つシュウィンガーモデルにおけるCP違反ダッデン相の探索

Exploring the CP-violating Dashen phase in the Schwinger model with tensor networks ( http://arxiv.org/abs/2303.03799v2 )

ライセンス: Link先を確認
Lena Funcke, Karl Jansen, Stefan K\"uhn(参考訳) QCDにおけるCP違反ダッデン相の (1+1) 次元類似性に着目して, 行列積状態を持つ2成分シュウィンガーモデルの相構造を数値解析した。 一方のフェルミオン風味の正の質量が他方のフェルミオン風味の負の質量に対応する点付近の2つのフレーバーシュウィンガー模型をシミュレートした。 以上の結果から, このモデルではCPを侵害するダッデン相転移が進行し, 平均電界の急激な変化と, ピオン凝縮の類似が生じることが示唆された。 体積の関数としての二部交絡エントロピーのスケーリングについて検討し、この遷移が一階ではないことを明確に示す。

We numerically study the phase structure of the two-flavor Schwinger model with matrix product states, focusing on the (1+1)-dimensional analog of the CP-violating Dashen phase in QCD. We simulate the two-flavor Schwinger model around the point where the positive mass of one fermion flavor corresponds to the negative mass of the other fermion flavor, which is a sign-problem afflicted regime for conventional Monte Carlo techniques. Our results indicate that the model undergoes a CP-violating Dashen phase transition at this point, which manifests itself in abrupt changes of the average electric field and the analog of the pion condensate in the model. Studying the scaling of the bipartite entanglement entropy as a function of the volume, we find clear indications that this transition is not of first order.
翻訳日:2023-08-10 17:58:44 公開日:2023-08-09
# 視覚的位置認識 : チュートリアル

Visual Place Recognition: A Tutorial ( http://arxiv.org/abs/2303.03281v2 )

ライセンス: Link先を確認
Stefan Schubert, Peer Neubert, Sourav Garg, Michael Milford, Tobias Fischer(参考訳) ローカライゼーションは移動ロボットにとって必須の機能である。 この分野で急速に成長している研究分野として、視覚位置認識(英語版)(vpr)がある。 本研究は視覚的位置認識に関する最初のチュートリアル論文である。 VPRの用語を統一し、先行研究を2つの重要な方向に補完する。 1)VPR問題の定式化,汎用アルゴリズムパイプライン,VPRアプローチの評価方法論,VPRの課題と対処方法など,新参者の分野への体系的な紹介を提供する。 2) VPR問題に精通した研究者への貢献として, 入力, データ処理, 出力に関する様々なVPR問題型の複雑さについて検討した。 チュートリアルではまた、VPRアルゴリズムの評価の背景にある微妙さについても論じている。例えば、単一のマッチングではなく、クエリ毎に一致するデータベースイメージをすべて見つけなければならないVPRシステムの評価である。 Pythonの実践的なコード例は、VPRの実装方法と評価方法を示す。

Localization is an essential capability for mobile robots. A rapidly growing field of research in this area is Visual Place Recognition (VPR), which is the ability to recognize previously seen places in the world based solely on images. This present work is the first tutorial paper on visual place recognition. It unifies the terminology of VPR and complements prior research in two important directions: 1) It provides a systematic introduction for newcomers to the field, covering topics such as the formulation of the VPR problem, a general-purpose algorithmic pipeline, an evaluation methodology for VPR approaches, and the major challenges for VPR and how they may be addressed. 2) As a contribution for researchers acquainted with the VPR problem, it examines the intricacies of different VPR problem types regarding input, data processing, and output. The tutorial also discusses the subtleties behind the evaluation of VPR algorithms, e.g., the evaluation of a VPR system that has to find all matching database images per query, as opposed to just a single match. Practical code examples in Python illustrate to prospective practitioners and researchers how VPR is implemented and evaluated.
翻訳日:2023-08-10 17:58:26 公開日:2023-08-09
# 単一精度ガス力学における最大エントロピーモーメント法の安定化

Stabilizing the Maximal Entropy Moment Method for Rarefied Gas Dynamics at Single-Precision ( http://arxiv.org/abs/2303.02898v2 )

ライセンス: Link先を確認
Candi Zheng, Wang Yang, Shiyi Chen(参考訳) 密度と希薄ガスの両方に有効な拡張流体力学方程式の開発は大きな課題である。 この課題の体系的な解決策は、気体分子速度分布のモーメントを伴う密度と希薄ガスの挙動を記述するモーメント法である。 モーメント法のうち、最大エントロピーモーメント法(mem)は、最大エントロピーを持つ速度分布を利用する、その適切さと安定性の点で際立っている。 しかし、そのような分布を見つけるには、不条件の計算要求最適化問題を解く必要がある。 この問題は、特に高速衝撃波のような流れに対して、数値精度が不十分なときに数値オーバーフローと分解を引き起こす。 また、最新のgpuが巨大な浮動小数点演算パワーで最適化を加速するのを防ぐ。 本稿では,MEMの安定化を目標とし,一精度で最新のGPU上での非常に強い通常の衝撃波をシミュレーションする。 本稿では,MEMのゲージ変換を提案する。 また, 分布の正準形式とニュートンの修正最適化法を適用し, 数値オーバーフローと破壊にも取り組む。 これらの手法により,従来の2倍精度のマッハ4を上回り,35モーメントMEMのマッハ10衝撃波の単精度GPUシミュレーションを達成した。 さらに、過精製空間メッシュはMEMの精度と安定性の両方を劣化させると主張した。 本研究は, 従来手法と比較して高い安定性を保ちながら, 単一精度で最新のGPU上での非常に強い通常の衝撃波をシミュレーションするための最大エントロピーモーメント法を実現する。

Developing extended hydrodynamics equations valid for both dense and rarefied gases remains a great challenge. A systematical solution for this challenge is the moment method describing both dense and rarefied gas behaviors with moments of gas molecule velocity distributions. Among moment methods, the maximal entropy moment method (MEM) stands out for its well-posedness and stability, which utilizes velocity distributions with maximized entropy. However, finding such distributions requires solving an ill-conditioned and computation-demanding optimization problem. This problem causes numerical overflow and breakdown when the numerical precision is insufficient, especially for flows like high-speed shock waves. It also prevents modern GPUs from accelerating optimization with their enormous single floating-point precision computation power. This paper aims to stabilize MEM, making it practical for simulating very strong normal shock waves on modern GPUs at single precision. We propose the gauge transformations for MEM, making the optimization less ill-conditioned. We also tackle numerical overflow and breakdown by adopting the canonical form of distribution and Newton's modified optimization method. With these techniques, we achieved a single-precision GPU simulation of a Mach 10 shock wave with 35 moments MEM, surpassing the previous double-precision results of Mach 4. Moreover, we argued that over-refined spatial mesh degrades both the accuracy and stability of MEM. Overall, this paper makes the maximal entropy moment method practical for simulating very strong normal shock waves on modern GPUs at single-precision, with significant stability improvement compared to previous methods.
翻訳日:2023-08-10 17:58:09 公開日:2023-08-09
# 双極子中心を含むダイヤモンドを用いた相互関連量子温度測定

Cross-correlated quantum thermometry using diamond containing dual-defect centers ( http://arxiv.org/abs/2303.00073v3 )

ライセンス: Link先を確認
Madhav Gupta, Tongtong Zhang, Lambert Yeung, Jiahua Zhang, Yayin Tan, Yau Chuen Yiu, Shuxiang Zhang, Qi Wang, Zhongqiang Wang, Zhiqin Chu(参考訳) マイクロ/ナノスケールでの非接触温度測定は、近代科学技術の幅広い分野において不可欠である。 窒素空隙(nv)中心は、スピン依存光発光を持つダイヤモンド欠陥の一種であり、最も有望なナノ温度計の1つとして認識されている。 しかし、この量子温度測定技術は摂動の可能性があり、その実際の温度感度は避けられないほど低下する。 そこで本研究では,nv中心とシリコン空孔(siv)中心の両方を含むバルクダイヤモンド試料を用いたクロスバリデーテッド光熱測定法を初めて開発した。 特に、全光学法を許容する後者は、nvベースの量子温度測定の摂動に影響を与えるものに対して本質的に免疫があり、そのためリアルタイムのクロス検証システムとして機能する。 概念実証として, 様々な磁場の影響を受けながら, 信頼性の高い温度測定を行った。 この多モード性アプローチは、生体細胞のような複雑な環境でのマイクロ/ナノスケールの量子温度測定に必要とされる測定温度の同期クロスバリデーションを可能にする。

The contactless temperature measurement at micro/nanoscale is vital to a broad range of fields in modern science and technology. The nitrogen vacancy (NV) center, a kind of diamond defect with unique spin-dependent photoluminescence, has been recognized as one of the most promising nanothermometers. However, this quantum thermometry technique has been prone to a number of possible perturbations, which will unavoidably degrade its actual temperature sensitivity. Here, for the first time, we have developed a cross-validated optical thermometry method using a bulk diamond sample containing both NV centers and silicon vacancy (SiV) centers. Particularly, the latter allowing all-optical method has been intrinsically immune to those influencing perturbations for the NV-based quantum thermometry, hence serving as a real-time cross validation system. As a proof-of-concept demonstration, we have shown a trustworthy temperature measurement under the influence of varying magnetic fields. This multi-modality approach allows a synchronized cross-validation of the measured temperature, which is required for micro/nanoscale quantum thermometry in complicated environments such as a living cell.
翻訳日:2023-08-10 17:57:13 公開日:2023-08-09
# 結晶構造に対する接続性最適化ネストグラフネットワーク

Connectivity Optimized Nested Graph Networks for Crystal Structures ( http://arxiv.org/abs/2302.14102v2 )

ライセンス: Link先を確認
Robin Ruff, Patrick Reiser, Jan St\"uhmer, Pascal Friederich(参考訳) グラフニューラルネットワーク(GNN)は、材料科学や化学における様々な応用に応用されている。 本稿では,結晶性(周期性)材料のグラフ構造を再カプセル化し,GNNモデルの性能に与える影響について検討する。 システムの全対称性を用いて原子数を減少させる表現として非対称単位セルを提案する。 これにより計算コストが大幅に削減され、精度を損なうことなく大きなグラフニューラルネットワークをトレーニングする時間が必要になった。 さらに,メッセージパッシングとライングラフテンプレートに基づく簡易かつ体系的に構築されたGNNアーキテクチャを用いて,幅広いタスクに適用可能な汎用アーキテクチャ(Nested Graph Network, NGN)を導入する。 提案するモデルがmatbenchベンチマークのすべてのタスクにおいて,最先端の結果を体系的に改善することを示す。 さらなる分析は、最適化された接続性とより深いメッセージ機能が改善の原因であることを示している。 非対称な単位セルと接続最適化は一般に(結晶)グラフネットワークに適用できるが、ネストグラフフレームワークはGNNアーキテクチャを体系的に比較する新しい方法を開く。

Graph neural networks (GNNs) have been applied to a large variety of applications in materials science and chemistry. Here, we recapitulate the graph construction for crystalline (periodic) materials and investigate its impact on the GNNs model performance. We suggest the asymmetric unit cell as a representation to reduce the number of atoms by using all symmetries of the system. This substantially reduced the computational cost and thus time needed to train large graph neural networks without any loss in accuracy. Furthermore, with a simple but systematically built GNN architecture based on message passing and line graph templates, we introduce a general architecture (Nested Graph Network, NGN) that is applicable to a wide range of tasks. We show that our suggested models systematically improve state-of-the-art results across all tasks within the MatBench benchmark. Further analysis shows that optimized connectivity and deeper message functions are responsible for the improvement. Asymmetric unit cells and connectivity optimization can be generally applied to (crystal) graph networks, while our suggested nested graph framework will open new ways of systematic comparison of GNN architectures.
翻訳日:2023-08-10 17:56:55 公開日:2023-08-09
# diversevul:深層学習に基づく脆弱性検出のための新しい脆弱なソースコードデータセット

DiverseVul: A New Vulnerable Source Code Dataset for Deep Learning Based Vulnerability Detection ( http://arxiv.org/abs/2304.00409v2 )

ライセンス: Link先を確認
Yizheng Chen, Zhoujie Ding, Lamya Alowain, Xinyun Chen, David Wagner(参考訳) 我々は、新しい脆弱なソースコードデータセットを提案し、リリースする。 セキュリティ問題サイトをクロールしてデータセットをキュレートし、対応するプロジェクトから脆弱性修正コミットとソースコードを抽出します。 新しいデータセットには,7,514コミットから抽出した150のcweと330,492の非vulnerable関数にまたがる18,945の脆弱な関数が含まれている。 われわれのデータセットは、これまでのすべてのデータセットの合計よりも295以上のプロジェクトをカバーしている。 新しいデータセットと過去のデータセットを組み合わせることで、ソフトウェア脆弱性の検出にディープラーニングを使用することによる課題の分析と、有望な研究方向性を示す。 4家族11のモデルアーキテクチャについて検討した。 以上の結果から,高い偽陽性率,低いF1スコア,ハードなCWEの検出が困難であるため,ディープラーニングは依然として脆弱性検出の準備ができていないことが明らかとなった。 特に,深層学習モデルの導入において重要な一般化課題を提示する。 トレーニングデータの量を増やすことで、脆弱性検出のためのディープラーニングモデルの性能が向上するだけでなく、プロジェクトの一般化能力の向上にも有効であることを示す。 また、将来的な研究の方向性も明らかにする。 大規模言語モデル(LLM)はMLベースの脆弱性検出において有望な研究方向であり,コード構造を持つグラフニューラルネットワーク(GNN)よりも優れていることを示す。 さらに、ソースコード固有の事前学習目標の開発は、脆弱性検出性能を改善するための有望な研究方向である。

We propose and release a new vulnerable source code dataset. We curate the dataset by crawling security issue websites, extracting vulnerability-fixing commits and source codes from the corresponding projects. Our new dataset contains 18,945 vulnerable functions spanning 150 CWEs and 330,492 non-vulnerable functions extracted from 7,514 commits. Our dataset covers 295 more projects than all previous datasets combined. Combining our new dataset with previous datasets, we present an analysis of the challenges and promising research directions of using deep learning for detecting software vulnerabilities. We study 11 model architectures belonging to 4 families. Our results show that deep learning is still not ready for vulnerability detection, due to high false positive rate, low F1 score, and difficulty of detecting hard CWEs. In particular, we demonstrate an important generalization challenge for the deployment of deep learning-based models. We show that increasing the volume of training data may not further improve the performance of deep learning models for vulnerability detection, but might be useful to improve the generalization ability to unseen projects. We also identify hopeful future research directions. We demonstrate that large language models (LLMs) are a promising research direction for ML-based vulnerability detection, outperforming Graph Neural Networks (GNNs) with code-structure features in our experiments. Moreover, developing source code specific pre-training objectives is a promising research direction to improve the vulnerability detection performance.
翻訳日:2023-08-10 17:51:27 公開日:2023-08-09
# マクロ量子力学のための軟磁性体の安定磁気浮上

Stable magnetic levitation of soft ferromagnets for macroscopic quantum mechanics ( http://arxiv.org/abs/2303.17847v2 )

ライセンス: Link先を確認
Maria Fuwa(参考訳) ソフト強磁性体の受動磁気浮上と3次元高調波トラップのためのシステムを提案する。 本プロトコルは垂直トラップにおける磁場勾配と水平トラップに対するマイスナー効果の有限サイズ効果を利用する。 数値的・解析的推定により, 本システムでは, q > 10^8 $ 以上の高い力学的 q-ファクタを許容し, 浮揚物体の量子制御が現在の技術の範囲内にあることを示す。 ソフト強磁性体の内部集合スピン励起の利用により、サブミリスケールの粒子を持つ量子力学的現象を実現できる。

We propose a system for passive magnetic levitation and three-dimensional harmonic trapping of soft ferromagnets. Our protocol utilizes the magnetic field gradient for vertical trapping, and the finite size effect of the Meissner effect for horizontal trapping. We provide numerical and analytical estimations of possible mechanical dissipations to show that our system allows high mechanical Q-factors above $ Q > 10^8 $, and quantum control of the levitated object is within reach of current technologies. The utilization of soft ferromagnet's internal collective spin excitation may allow quantum mechanical phenomena with particles as large as the sub-millimeter-scale.
翻訳日:2023-08-10 17:51:04 公開日:2023-08-09
# 初期化の効果について:2層ニューラルネットワークのスケーリングパス

On the Effect of Initialization: The Scaling Path of 2-Layer Neural Networks ( http://arxiv.org/abs/2303.17805v2 )

ライセンス: Link先を確認
Sebastian Neumayer and L\'ena\"ic Chizat and Michael Unser(参考訳) 教師付き学習において、正規化経路はゼロから初期化された勾配降下の最適化経路の便利な理論的プロキシとして用いられることがある。 本稿では,無限幅2層reluニューラルネットワークにおける重みの非ゼロ初期分布による正則化経路の修正について検討する。 非平衡最適輸送理論とのリンクを利用することで、2層ネットワークトレーニングの非凸性にもかかわらず、この問題は無限次元凸に対応することを証明している。 対応する機能最適化問題を定式化し,その主特性について検討する。 特に、初期化のスケールが$0$から$+\infty$の間であるので、関連する経路はいわゆるカーネルとリッチレジームの間で連続的に補間される。 数値実験により、我々の設定では、最適化パスのスケーリングパスと最終状態も同様に振る舞うことが確認される。

In supervised learning, the regularization path is sometimes used as a convenient theoretical proxy for the optimization path of gradient descent initialized from zero. In this paper, we study a modification of the regularization path for infinite-width 2-layer ReLU neural networks with nonzero initial distribution of the weights at different scales. By exploiting a link with unbalanced optimal-transport theory, we show that, despite the non-convexity of the 2-layer network training, this problem admits an infinite-dimensional convex counterpart. We formulate the corresponding functional-optimization problem and investigate its main properties. In particular, we show that, as the scale of the initialization ranges between $0$ and $+\infty$, the associated path interpolates continuously between the so-called kernel and rich regimes. Numerical experiments confirm that, in our setting, the scaling path and the final states of the optimization path behave similarly, even beyond these extreme points.
翻訳日:2023-08-10 17:50:53 公開日:2023-08-09
# データドリフトレンズによる学習における非侵襲的公正性

Non-Invasive Fairness in Learning through the Lens of Data Drift ( http://arxiv.org/abs/2303.17566v4 )

ライセンス: Link先を確認
Ke Yang and Alexandra Meliou(参考訳) 機械学習(ML)モデルは、多くの現代のデータシステムを動かすために広く使われている。 mlモデルは間違いなく強力なツールですが、不均衡なパフォーマンスと不公平な振る舞いをしばしば示します。 学習アルゴリズムがデータの傾向を識別しようとすると、多数派の傾向を自然に好んでおり、少数民族にとって不公平かつ不公平な結果をもたらすモデルとなっている。 我々の目標は、データや学習アルゴリズムを変更することなく、非侵襲的な介入のみを適用することで、MLモデルの公正性と信頼性を向上させることです。 異なる集団間の傾向のばらつきと、学習されたモデルと少数派の集団間の連続的な傾向は、データドリフトと類似しており、データの一部と訓練されたモデルとの整合性が低いことを示している。 このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的とする。 両手法とも、最近提案されたコンフォーマンス制約のプリミティブであるデータプロファイリングを利用する新しい手法を導入している。 7つの実世界のデータセットに対する実験評価から,diffair と confair の両方が ml モデルの公平性を向上させることが示された。 DifFairがエッジを持つシナリオを実演していますが、ConFairは最も実践的な影響があり、他のベースラインよりも優れています。 さらに,モデル非依存の手法として,重み付けが学習されたモデルと異なるモデルに対して使用しても,コンプレアは頑健であり,他の技術ではそうではない。

Machine Learning (ML) models are widely employed to drive many modern data systems. While they are undeniably powerful tools, ML models often demonstrate imbalanced performance and unfair behaviors. The root of this problem often lies in the fact that different subpopulations commonly display divergent trends: as a learning algorithm tries to identify trends in the data, it naturally favors the trends of the majority groups, leading to a model that performs poorly and unfairly for minority populations. Our goal is to improve the fairness and trustworthiness of ML models by applying only non-invasive interventions, i.e., without altering the data or the learning algorithm. We use a simple but key insight: the divergence of trends between different populations, and, consecutively, between a learned model and minority populations, is analogous to data drift, which indicates the poor conformance between parts of the data and the trained model. We explore two strategies (model-splitting and reweighing) to resolve this drift, aiming to improve the overall conformance of models to the underlying data. Both our methods introduce novel ways to employ the recently-proposed data profiling primitive of Conformance Constraints. Our experimental evaluation over 7 real-world datasets shows that both DifFair and ConFair improve the fairness of ML models. We demonstrate scenarios where DifFair has an edge, though ConFair has the greatest practical impact and outperforms other baselines. Moreover, as a model-agnostic technique, ConFair stays robust when used against different models than the ones on which the weights have been learned, which is not the case for other state of the art.
翻訳日:2023-08-10 17:50:40 公開日:2023-08-09
# 医療介入期間推定のためのプロンプト型多モードタブラルトランスコーダ

A Prompt-based Multimodal Tabular Transformer Encoder For Medical Intervention Duration Estimation ( http://arxiv.org/abs/2303.17408v2 )

ライセンス: Link先を確認
Yucheng Ruan, Xiang Lan, Daniel J. Tan, Hairil Rizal Abdullah, Mengling Feng(参考訳) 目的:本研究は,電子健康記録(ehrs)を用いた臨床判断支援における医療介入期間の推定に焦点をあてる。 既存のモデルの多くは構造化表データのみ用に設計されており、しばしばデータ破損の問題に悩まされる。 貴重な洞察を提供し、データ破損に抵抗する非構造化臨床自由テキストデータは、しばしば見過ごされる。 本研究の目的は, EHRと異なるデータモダリティを統合したマルチモーダル深層学習フレームワークを開発し, 医療介入推定において, EHRの予測能力を完全に活用することである。 Materials and Methods: Multimodal EHRデータに基づく医療介入期間推定のための新しいプロンプトベースの表型トランスフォーマーエンコーダフレームワークを提案する。 このフレームワークは、事前訓練された文エンコーダを利用して、様々な臨床データモダリティの言語表現を調和させ、さらに探索するために表型トランスフォーマーエンコーダを開発した。 結果: 2つのEHRデータセットのベースラインよりも優れた性能を示した。 さらに, RMSE曲線は, 劣化率の上昇とともに徐々に増加し, EHRにおけるデータ破壊に対するレジリエンスを示す。 考察:提案フレームワークの予測の有効性と堅牢性以外に,アブレーション研究は,医学的プロンプトや自由テキスト情報,事前学習された文エンコーダといった重要なコンポーネントの重要性を強調し,いずれもモデルの予測能力に寄与する。 結論: 本研究は, 言語の観点から多様なデータモダリティを取り入れ, 医療における深層学習モデルの信頼性を高めることにより, 医療介入推定の促進を図っている。

Objective: This study focuses on estimating the duration of medical interventions using electronic health records (EHRs) in clinical decision support. Most existing models were designed for structured tabular data only and often suffer from data corruption problem. The unstructured clinical free-text data that provides valuable insights and is more resistant to data corruption is often overlooked. The objective of this research is to develop a multimodal deep learning framework that integrates different data modalities from EHRs, thereby fully utilizing the predictive capability of EHRs for medical intervention estimation. Materials and Methods: A novel prompt-based tabular transformer encoder framework is proposed for medical intervention duration estimation based on multimodal EHR data. The framework leverages a pre-trained sentence encoder with medical prompts to harmonize language representations of various clinical data modalities, which a tabular transformer encoder is developed to further explore. Results: The developed model demonstrates superior performance compared to the baselines in two EHR datasets. Furthermore, the model exhibits resilience to data corruption in EHRs, with the RMSE curve increasing gradually with higher corruption rates. Discussion: Other than the predictive effectiveness and robustness of the proposed framework, the ablation study highlights the significance of critical components, such as medical prompts, free-text information, and the pre-trained sentence encoder, all contributing to the model's predictive ability. Conclusion: This research presents a promising pathway to enhance medical intervention estimation by incorporating diverse data modalities from language perspective, ultimately bolstering the reliability of deep learning models in clinical care.
翻訳日:2023-08-10 17:50:13 公開日:2023-08-09
# MaMMUT:マルチモーダルタスクのための共同学習のためのシンプルなアーキテクチャ

MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks ( http://arxiv.org/abs/2303.16839v3 )

ライセンス: Link先を確認
Weicheng Kuo, AJ Piergiovanni, Dahun Kim, Xiyang Luo, Ben Caine, Wei Li, Abhijit Ogale, Luowei Zhou, Andrew Dai, Zhifeng Chen, Claire Cui, Anelia Angelova(参考訳) 言語モデルの開発は、エンコーダデコーダからデコーダのみの設計に移行した。 さらに、最も一般的な2つのマルチモーダルタスクであるジェネレイティブタスクとコントラストタスクは、1つのアーキテクチャに適応するには非自明であり、さらに下流タスクへの適応が必要であることも観察した。 マルチモーダルタスクのためのデコーダのみのモデルを用いた新しい学習パラダイムを提案し,これらの異なる視覚言語タスクの協調学習に驚くほど効果的である。 これは、MaMMUTと呼ばれる単純なモデルで実現される。 単一の視覚エンコーダとテキストデコーダで構成されており、テキストデコーダに対する新しい2パスアプローチによって、対照的で生成的な学習を許容することができる。 これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間のモデルの重量共有を最大化する。 さらに、同じアーキテクチャにより、オープン語彙オブジェクト検出やビデオ言語タスクへの簡単な拡張が可能になる。 モデルは多種多様なタスクに取り組み、キャパシティは控えめである。 我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。 VQAとビデオキャプションで非常に競争力のある結果を示している。 アブレーションは我々のアプローチの柔軟性と利点を確認する。

The development of language models have moved from encoder-decoder to decoder-only designs. In addition, we observe that the two most popular multimodal tasks, the generative and contrastive tasks, are nontrivial to accommodate in one architecture, and further need adaptations for downstream tasks. We propose a novel paradigm of training with a decoder-only model for multimodal tasks, which is surprisingly effective in jointly learning of these disparate vision-language tasks. This is done with a simple model, called MaMMUT. It consists of a single vision encoder and a text decoder, and is able to accommodate contrastive and generative learning by a novel two-pass approach on the text decoder. We demonstrate that joint learning of these diverse objectives is simple, effective, and maximizes the weight-sharing of the model across these tasks. Furthermore, the same architecture enables straightforward extensions to open-vocabulary object detection and video-language tasks. The model tackles a diverse range of tasks, while being modest in capacity. Our model achieves the state of the art on image-text and text-image retrieval, video question answering and open-vocabulary detection tasks, outperforming much larger and more extensively trained foundational models. It shows very competitive results on VQA and Video Captioning, especially considering its capacity. Ablations confirm the flexibility and advantages of our approach.
翻訳日:2023-08-10 17:49:45 公開日:2023-08-09
# 非マルコフ浴における2つの量子ビット間の絡み合いの昇降

Rise and fall of entanglement between two qubits in a non-Markovian bath ( http://arxiv.org/abs/2303.13301v2 )

ライセンス: Link先を確認
Sayan Roy and Christian Otto and Rapha\"el Menu and Giovanna Morigi(参考訳) 振動子の線形鎖に結合した2つの量子ビット間の量子相関のダイナミクスを解析する。 鎖はキュービット間の相互作用を仲介し、非マルコフ貯水池として作用する。 このモデルは、鎖の初期状態がガウス的であるときに解析解に導出可能である。 分離可能な状態から始まる量子ビットの共起のダイナミクスを考察し、鎖スペクトルがギャップ化され、鎖が最初に熱状態にあることを仮定する。 スペクトルギャップに対する量子鎖結合の強さに依存する3つの関連するレジームを同定した。 これらは (i) 量子ビットが漸近的に絡み合っている弱結合状態 (二)収束が崩壊し、指数関数的に減衰した振幅で復活する強結合体制 (iii)鎖の熱励起によりコンカージェンスが急速に消失する熱減衰機構。 いずれの場合も、絡み合いが発生した場合、これは有限時間経過後に起こる。 この時間スケールは量子ビット距離に指数関数的に依存し、鎖のスペクトル特性によって決定される。 一方、エンタングル化不可逆崩壊は鎖とのカップリングによって引き起こされる散逸効果によるもので、鎖とキュービットの間の結合強度によって制御される。 この研究は、非マルコフ浴における絡み合いにつながる基本的なメカニズムを解明し、オープンシステムの量子コヒーレント力学を実現するための重要な資源を特定できる。

We analyse the dynamics of quantum correlations between two qubits coupled to a linear chain of oscillators. The chain mediates interactions between the qubits and acts as a non-Markovian reservoir. The the model is amenable to an analytical solution when the initial state of the chain is Gaussian}. We study the dynamics of the qubits concurrence starting from a separable state and assuming that the chain spectrum is gapped {and the chain is initially in a thermal state. We identify three relevant regimes that depend on the strength of the qubit-chain coupling in relation to the spectral gap. These are (i) the weak coupling regime, where the qubits are entangled at the asymptotics; (ii) the strong coupling regime, where the concurrence can exhibit collapses followed by revivals with exponentially attenuated amplitude; and (iii) the thermal damping regime, where the concurrence rapidly vanishes due to the chain's thermal excitations. In all cases, if entanglement is generated, this occurs after a finite time has elapsed. This time scale depends exponentially on the qubits distance and is determined by the spectral properties of the chain. Entanglement irreversible decay, on the other hand, is due to the dissipative effect induced by the coupling with the chain and is controlled by the coupling strength between the chain and qubits. This study unravels the basic mechanisms leading to entanglement in a non-Markovian bath and allows to identify the key resources for realising quantum coherent dynamics of open systems.
翻訳日:2023-08-10 17:49:24 公開日:2023-08-09
# 弱教師付き物体定位のための空間認識トークン

Spatial-Aware Token for Weakly Supervised Object Localization ( http://arxiv.org/abs/2303.10438v2 )

ライセンス: Link先を確認
Pingyu Wu, Wei Zhai, Yang Cao, Jiebo Luo, Zheng-Jun Zha(参考訳) 弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルの監督のみでオブジェクトをローカライズすることを目的とした課題である。 近年の研究では、視覚トランスフォーマーをwsolに適用し、セルフアテンションメカニズムの長距離特徴依存性を利用して大きな成功を収めている。 しかし,既存のトランスフォーマーに基づく手法は,分類特徴写像を局所化マップとして合成し,分類と局所化タスクの最適な衝突を引き起こす。 この問題に対処するために,タスク固有の空間認識トークン(SAT)を弱教師付き方式で条件付きで学習することを提案する。 具体的には、まず空間トークンを入力空間に導入し、局所化タスクの表現を集約する。 次に、クエリにより異なるパッチの前景確率を空間トークンが生成し、分類タスクから局所化知識を抽出する空間認識注意モジュールを構築する。 また、画像レベルラベルから得られる不均衡な画素レベル監督の問題に対して、バッチ領域損失と正規化損失を含む2つの空間制約により、この監督を補うように設計されている。 実験の結果、SATはCUB-200とImageNetの両方で、それぞれ98.45%と73.13%のGT-known Locを達成している。 トレーニングにImageNetから1つのクラスに1つの画像しか使わないという極端な設定下であっても、SATはSOTAメソッドを2.1%超えている。 コードとモデルはhttps://github.com/wpy1999/satで入手できる。

Weakly supervised object localization (WSOL) is a challenging task aiming to localize objects with only image-level supervision. Recent works apply visual transformer to WSOL and achieve significant success by exploiting the long-range feature dependency in self-attention mechanism. However, existing transformer-based methods synthesize the classification feature maps as the localization map, which leads to optimization conflicts between classification and localization tasks. To address this problem, we propose to learn a task-specific spatial-aware token (SAT) to condition localization in a weakly supervised manner. Specifically, a spatial token is first introduced in the input space to aggregate representations for localization task. Then a spatial aware attention module is constructed, which allows spatial token to generate foreground probabilities of different patches by querying and to extract localization knowledge from the classification task. Besides, for the problem of sparse and unbalanced pixel-level supervision obtained from the image-level label, two spatial constraints, including batch area loss and normalization loss, are designed to compensate and enhance this supervision. Experiments show that the proposed SAT achieves state-of-the-art performance on both CUB-200 and ImageNet, with 98.45% and 73.13% GT-known Loc, respectively. Even under the extreme setting of using only 1 image per class from ImageNet for training, SAT already exceeds the SOTA method by 2.1% GT-known Loc. Code and models are available at https://github.com/wpy1999/SAT.
翻訳日:2023-08-10 17:49:01 公開日:2023-08-09
# 画像中の2次元相互作用による3次元物体の接地

Grounding 3D Object Affordance from 2D Interactions in Images ( http://arxiv.org/abs/2303.10437v2 )

ライセンス: Link先を確認
Yuhang Yang, Wei Zhai, Hongchen Luo, Yang Cao, Jiebo Luo, Zheng-Jun Zha(参考訳) 接地3dオブジェクトアフォーダンスは、3d空間内の「動作可能性」領域を探究し、その領域は具体化エージェントの知覚と操作のリンクとなる。 既存の研究は主に視覚的なアプライアンスと幾何学的構造をつなぐことに焦点を当てており、例えば、オブジェクトに対する興味のあるインタラクティブな領域を宣言し、その領域とアプライアンスの間のマッピングを確立するためにアノテーションに依存する。 しかし、学習対象の余裕の本質は、その使い方を理解することであり、相互作用を分離する方法は、一般化において限られている。 通常、人間は、実演画像やビデオを通して、物理的世界の物価を知覚する能力を持っている。 画像内の2dインタラクションから3dオブジェクトアプライアンスを接地し、異なるソース間のインタラクションを通じてアプライアンスを予測するという課題に直面する。 この問題に対処するため,我々は,異なるソースからのオブジェクトの領域特性を整合させ,対話的コンテキストをモデル化するインタラクション駆動型3dアプライアンスグラウンドネットワーク (iag) を考案する。 さらに,提案タスクをサポートするために,PIAD(Point-Image Affordance Dataset)を収集する。 PIADに関する総合的な実験は,提案課題の信頼性と提案手法の優越性を実証している。 プロジェクトはhttps://github.com/yyvhang/iagnetで入手できる。

Grounding 3D object affordance seeks to locate objects' ''action possibilities'' regions in the 3D space, which serves as a link between perception and operation for embodied agents. Existing studies primarily focus on connecting visual affordances with geometry structures, e.g. relying on annotations to declare interactive regions of interest on the object and establishing a mapping between the regions and affordances. However, the essence of learning object affordance is to understand how to use it, and the manner that detaches interactions is limited in generalization. Normally, humans possess the ability to perceive object affordances in the physical world through demonstration images or videos. Motivated by this, we introduce a novel task setting: grounding 3D object affordance from 2D interactions in images, which faces the challenge of anticipating affordance through interactions of different sources. To address this problem, we devise a novel Interaction-driven 3D Affordance Grounding Network (IAG), which aligns the region feature of objects from different sources and models the interactive contexts for 3D object affordance grounding. Besides, we collect a Point-Image Affordance Dataset (PIAD) to support the proposed task. Comprehensive experiments on PIAD demonstrate the reliability of the proposed task and the superiority of our method. The project is available at https://github.com/yyvhang/IAGNet.
翻訳日:2023-08-10 17:48:32 公開日:2023-08-09
# 量子自然政策勾配:サンプル効率強化学習に向けて

Quantum Natural Policy Gradients: Towards Sample-Efficient Reinforcement Learning ( http://arxiv.org/abs/2304.13571v2 )

ライセンス: Link先を確認
Nico Meyer, Daniel D. Scherer, Axel Plinge, Christopher Mutschler, and Michael J. Hartmann(参考訳) 強化学習はAIにおける成長分野であり、多くの可能性がある。 知的行動は、試行錯誤と環境との相互作用を通じて自動的に学習される。 しかし、この学習プロセスはしばしばコストがかかる。 関数近似器として変分量子回路を使用することで、このコストを削減できる。 これを実現するために、量子フィッシャー情報行列の効率的な近似を利用する2階勾配に基づくルーチンである量子自然ポリシー勾配(QNPG)アルゴリズムを提案する。 我々は,QNPGがコンバージェンス速度と安定性に関するコンテキスト帯域環境の1次学習よりも優れており,サンプルの複雑さも低減できることを示した。 さらに,12kbitのハードウェアデバイス上でのトレーニングにより,本手法の実現可能性を示す。

Reinforcement learning is a growing field in AI with a lot of potential. Intelligent behavior is learned automatically through trial and error in interaction with the environment. However, this learning process is often costly. Using variational quantum circuits as function approximators potentially can reduce this cost. In order to implement this, we propose the quantum natural policy gradient (QNPG) algorithm -- a second-order gradient-based routine that takes advantage of an efficient approximation of the quantum Fisher information matrix. We experimentally demonstrate that QNPG outperforms first-order based training on Contextual Bandits environments regarding convergence speed and stability and moreover reduces the sample complexity. Furthermore, we provide evidence for the practical feasibility of our approach by training on a 12-qubit hardware device.
翻訳日:2023-08-10 17:39:39 公開日:2023-08-09
# 最寄り(qarn)の研究のための量子アルゴリズム

Quantum Algorithm for Researching the Nearest (QARN) ( http://arxiv.org/abs/2304.10976v2 )

ライセンス: Link先を確認
Karina Reshetova(参考訳) 大量のデータを今日まで処理することは、電力資源の不足によって困難を引き起こす。 古典的なアルゴリズムは一連のアクションを実装し、実行には一定の時間とRAMの形での空間を必要とする。 並列化は使用可能な場合、時間を取得するだけでなく、すべての並列アクションのバッファリングも必要である。 量子コンピューティングは、qubits、qudits、およびそれらの特性を持つ並列コンピューティングの魅力的な代替として機能する。 本論文で提案する量子アルゴリズムは, 初期要素を重ね合わせに格納することにより, 与えられた値に最も近い) 要素をランダムなデータ配列で探索することを可能にする。 これにより、すべての要素に対して同時に検索操作を実行でき、RAMの量を節約できる。

Processing large amounts of data to this day causes difficulties due to the lack of power resources. Classical algorithms implement a chain of actions, requiring a certain time to execute, as well as space in the form of RAM. Parallelization, if it can be used, allows to gain time, but also needs buffering of all parallel actions. Quantum computing acts as an attractive alternative to parallel computing with qubits, qudits and their distinctive properties. The quantum algorithm proposed in this paper allows to search for the best (closest to a given) element in a random data array by storing all its initial elements in a superposition. This allows to perform the search operations on all elements at the same time and due to the same to save the amount of RAM.
翻訳日:2023-08-10 17:39:27 公開日:2023-08-09
# 分割問題に対するグローバーのオラクルの位相的保護

Topologically protected Grover's oracle for the partition problem ( http://arxiv.org/abs/2304.10488v2 )

ライセンス: Link先を確認
Nikolai A. Sinitsyn and Bin Yan(参考訳) NPP(Number Partitioning Problem)はNP完全計算問題の1つである。 その明確な厳密解は一般に指数関数的に大きいn$ソリューション候補のチェックを必要とする。 ここでは、この問題の高速解への経路を$\sqrt{n}$ pseudo-adiabatic quantum annealing step で記述する。 量子アニーリングの有限持続時間による誤差は、アニーリング時間が対数的に$N$のみでスケールした場合に抑制できると主張する。 さらに,我々の断熱オラクルは,物理パラメータの小さな不確実性と遅い時間依存性やアニーリングプロトコルの選択に対して頑健であるという意味で,トポロジカルに保護されている。

The Number Partitioning Problem (NPP) is one of the NP-complete computational problems. Its definite exact solution generally requires a check of all $N$ solution candidates, which is exponentially large. Here we describe a path to the fast solution of this problem in $\sqrt{N}$ quasi-adiabatic quantum annealing steps. We argue that the errors due to the finite duration of the quantum annealing can be suppressed if the annealing time scales with $N$ only logarithmically. Moreover, our adiabatic oracle is topologically protected, in the sense that it is robust against small uncertainty and slow time-dependence of the physical parameters or the choice of the annealing protocol.
翻訳日:2023-08-10 17:39:15 公開日:2023-08-09
# 視覚異常セグメンテーションのためのニューラルアーキテクチャ探索

Neural Architecture Search for Visual Anomaly Segmentation ( http://arxiv.org/abs/2304.08975v3 )

ライセンス: Link先を確認
Tommie Kerssies, Joaquin Vanschoren(参考訳) 本稿では,視覚異常をセグメンテーションする複雑なタスクに対するニューラルネットワーク探索の最初の応用について述べる。 不均衡な異常画素, 異なる領域, 様々な種類の異常により, 異常セグメンテーション性能の測定は困難である。 第一に、地域重み付き平均精度(rwAP)尺度は、特定の最大偽陽性率に制限される必要のない既存の指標の代替として提案されている。 第2に、トレーニングなしで視覚異常の効率的なセグメンテーションを可能にするAutoPatchニューラルアーキテクチャ探索法を提案する。 トレーニング済みのスーパーネットを利用することで、ブラックボックス最適化アルゴリズムは計算複雑性を直接最小化し、異常な例の小さな検証セットの性能を最大化することができる。 最後に、広く研究されているMVTecデータセットに説得力のある結果が示され、AutoPatchが現在の最先端技術よりも計算複雑性が低く、異常の種類ごとに1つの例しか使用していないことを示した。 その結果,産業品質管理におけるスループットを最適化する自動機械学習の可能性が浮き彫りになった。 AutoPatchのコードは、https://github.com/tommiekerssies/AutoPatchで入手できる。

This paper presents the first application of neural architecture search to the complex task of segmenting visual anomalies. Measurement of anomaly segmentation performance is challenging due to imbalanced anomaly pixels, varying region areas, and various types of anomalies. First, the region-weighted Average Precision (rwAP) metric is proposed as an alternative to existing metrics, which does not need to be limited to a specific maximum false positive rate. Second, the AutoPatch neural architecture search method is proposed, which enables efficient segmentation of visual anomalies without any training. By leveraging a pre-trained supernet, a black-box optimization algorithm can directly minimize computational complexity and maximize performance on a small validation set of anomalous examples. Finally, compelling results are presented on the widely studied MVTec dataset, demonstrating that AutoPatch outperforms the current state-of-the-art with lower computational complexity, using only one example per type of anomaly. The results highlight the potential of automated machine learning to optimize throughput in industrial quality control. The code for AutoPatch is available at: https://github.com/tommiekerssies/AutoPatch
翻訳日:2023-08-10 17:39:02 公開日:2023-08-09
# 量子揺らぎは有限フェルミ液体中の集合多重フォノンを誘導する

Quantum fluctuations induce collective multiphonons in finite Fermi liquids ( http://arxiv.org/abs/2304.07380v2 )

ライセンス: Link先を確認
Petar Marevi\'c, David Regnier, Denis Lacroix(参考訳) 原子核における集合的マルチフォノン状態は、集合空間における量子揺らぎが独立粒子近似を超えると、高励起エネルギーで現れる。 核の四重極反応は、複数の多体軌道を混合する核時間依存密度汎関数理論の拡張を用いて研究される。 1つの軌道は第1集合量子の励起を説明できるが、第2および第3量子は軌道間の干渉によって現れる。 このスペクトルは、ほぼ調和的に観測され、実験で観測された、$^{40}$Caの巨大四重極共鳴の3つの量子量とよく一致している。 本研究は,他の自己結合系におけるマルチフォノン探索のためのガイダンスを提供し,有限フェルミ液体の内部励起に対する抵抗を示す。

We show that collective multiphonon states in atomic nuclei emerge at high excitation energies when quantum fluctuations in the collective space are included beyond the independent-particle approximation. The quadrupole response of a nucleus is studied using an extension of the nuclear time-dependent density-functional theory that mixes several many-body trajectories. While a single trajectory can account for the excitation of the first collective quantum, the second and the third quanta emerge due to the interference between trajectories. The collective spectrum, found as nearly harmonic, is in excellent agreement with the experimentally observed three quanta of the isoscalar giant quadrupole resonance in $^{40}$Ca. This study offers guidance for multiphonon searches in other self-bound systems and demonstrates the resistance to internal excitation of finite Fermi liquids.
翻訳日:2023-08-10 17:38:25 公開日:2023-08-09
# TextANIMAR:テキストベースの3D動物の細粒度検索

TextANIMAR: Text-based 3D Animal Fine-Grained Retrieval ( http://arxiv.org/abs/2304.06053v2 )

ライセンス: Link先を確認
Trung-Nghia Le, Tam V. Nguyen, Minh-Quan Le, Trong-Thuan Nguyen, Viet-Tham Huynh, Trong-Le Do, Khanh-Duy Le, Mai-Khiem Tran, Nhat Hoang-Xuan, Thang-Long Nguyen-Ho, Vinh-Tiep Nguyen, Tuong-Nghiem Diep, Khanh-Duy Ho, Xuan-Hieu Nguyen, Thien-Phuc Tran, Tuan-Anh Yang, Kim-Phat Tran, Nhu-Vinh Hoang, Minh-Quang Nguyen, E-Ro Nguyen, Minh-Khoi Nguyen-Nhat, Tuan-An To, Trung-Truc Huynh-Le, Nham-Tan Nguyen, Hoang-Chau Luong, Truong Hoai Phong, Nhat-Quynh Le-Pham, Huu-Phuc Pham, Trong-Vu Hoang, Quang-Binh Nguyen, Hai-Dang Nguyen, Akihiro Sugimoto, Minh-Triet Tran(参考訳) 3Dオブジェクトの検索は、近年ますます注目を集めている重要な課題だが、難しい課題である。 既存のアプローチではこの問題に対処する努力が続けられているが、画像やスケッチクエリといった制限された設定に制限されることが多い。 これらの制約を克服するため,本研究では,テキストによる3次元動物モデルの詳細な検索に焦点を当てた新しいSHRECチャレンジトラックを提案する。 従来のSHRECの課題トラックとは異なり、提案課題は極めて困難であり、参加者はテキストベースの検索問題に対処するための革新的なアプローチを開発する必要がある。 難易度が増大しているにもかかわらず、このタスクは実用上有用なアプリケーションを駆動し、3Dオブジェクトとのより直感的なインタラクションを促進する可能性があると考えている。 5つのグループがこの大会に参加し、合計114回の出場を果たした。 コンペで得られた結果は満足できるが、この課題によってもたらされる課題は、完全に解決されるにはほど遠い。 したがって、将来の研究と改善のための潜在的な領域についての洞察を提供する。 私たちは3dオブジェクト検索の境界を押し上げ、視覚言語技術によるよりユーザーフレンドリーなインタラクションを促進することができると信じています。 https://aichallenge.hcmus.edu.vn/textanimar

3D object retrieval is an important yet challenging task that has drawn more and more attention in recent years. While existing approaches have made strides in addressing this issue, they are often limited to restricted settings such as image and sketch queries, which are often unfriendly interactions for common users. In order to overcome these limitations, this paper presents a novel SHREC challenge track focusing on text-based fine-grained retrieval of 3D animal models. Unlike previous SHREC challenge tracks, the proposed task is considerably more challenging, requiring participants to develop innovative approaches to tackle the problem of text-based retrieval. Despite the increased difficulty, we believe this task can potentially drive useful applications in practice and facilitate more intuitive interactions with 3D objects. Five groups participated in our competition, submitting a total of 114 runs. While the results obtained in our competition are satisfactory, we note that the challenges presented by this task are far from fully solved. As such, we provide insights into potential areas for future research and improvements. We believe we can help push the boundaries of 3D object retrieval and facilitate more user-friendly interactions via vision-language technologies. https://aichallenge.hcmus.edu.vn/textanimar
翻訳日:2023-08-10 17:38:13 公開日:2023-08-09
# sketchanimar: スケッチに基づく3d動物の微細な検索

SketchANIMAR: Sketch-based 3D Animal Fine-Grained Retrieval ( http://arxiv.org/abs/2304.05731v2 )

ライセンス: Link先を確認
Trung-Nghia Le, Tam V. Nguyen, Minh-Quan Le, Trong-Thuan Nguyen, Viet-Tham Huynh, Trong-Le Do, Khanh-Duy Le, Mai-Khiem Tran, Nhat Hoang-Xuan, Thang-Long Nguyen-Ho, Vinh-Tiep Nguyen, Nhat-Quynh Le-Pham, Huu-Phuc Pham, Trong-Vu Hoang, Quang-Binh Nguyen, Trong-Hieu Nguyen-Mau, Tuan-Luc Huynh, Thanh-Danh Le, Ngoc-Linh Nguyen-Ha, Tuong-Vy Truong-Thuy, Truong Hoai Phong, Tuong-Nghiem Diep, Khanh-Duy Ho, Xuan-Hieu Nguyen, Thien-Phuc Tran, Tuan-Anh Yang, Kim-Phat Tran, Nhu-Vinh Hoang, Minh-Quang Nguyen, Hoai-Danh Vo, Minh-Hoa Doan, Hai-Dang Nguyen, Akihiro Sugimoto, Minh-Triet Tran(参考訳) 近年、3dオブジェクトの検索は、コンピュータビジョン、コンピュータグラフィックス、仮想現実、拡張現実といった幅広い応用により、非常に重要になっている。 しかし、3Dオブジェクトの検索は、形状、大きさ、テクスチャが異なり、多角形や頂点が多様である3Dモデルの複雑な性質により、大きな課題を呈している。 そこで本研究では,スケッチクエリを用いたデータセットからの3D動物モデルの検索と,利用可能なスケッチによる3Dモデルへのアクセスの迅速化に焦点を当てた,新しいSHRECチャレンジトラックを提案する。 さらに,本研究では,711種のユニークな3D動物モデルと140種類のスケッチクエリからなるANIMARという新しいデータセットを構築した。 コンクールでは,複雑で詳細なスケッチに基づいて3Dモデルを取得する必要がある。 8チーム204ランで満足のいく結果が得られました。 さらなる改善が必要であるが、提案課題は3Dオブジェクト検索の分野におけるさらなる研究を動機付ける可能性があり、幅広いアプリケーションに利益をもたらす可能性がある。 また,特徴抽出技術の改善やマッチング,検索性能評価のための多種多様なデータセット作成など,今後の研究分野に関する洞察も提供する。 英語) https://aichallenge.hcmus.edu.vn/sketchanimar

The retrieval of 3D objects has gained significant importance in recent years due to its broad range of applications in computer vision, computer graphics, virtual reality, and augmented reality. However, the retrieval of 3D objects presents significant challenges due to the intricate nature of 3D models, which can vary in shape, size, and texture, and have numerous polygons and vertices. To this end, we introduce a novel SHREC challenge track that focuses on retrieving relevant 3D animal models from a dataset using sketch queries and expedites accessing 3D models through available sketches. Furthermore, a new dataset named ANIMAR was constructed in this study, comprising a collection of 711 unique 3D animal models and 140 corresponding sketch queries. Our contest requires participants to retrieve 3D models based on complex and detailed sketches. We receive satisfactory results from eight teams and 204 runs. Although further improvement is necessary, the proposed task has the potential to incentivize additional research in the domain of 3D object retrieval, potentially yielding benefits for a wide range of applications. We also provide insights into potential areas of future research, such as improving techniques for feature extraction and matching and creating more diverse datasets to evaluate retrieval performance. https://aichallenge.hcmus.edu.vn/sketchanimar
翻訳日:2023-08-10 17:37:52 公開日:2023-08-09
# PlantDet: 3リバーソース領域におけるプラント検出のベンチマーク

PlantDet: A benchmark for Plant Detection in the Three-Rivers-Source Region ( http://arxiv.org/abs/2304.04963v3 )

ライセンス: Link先を確認
Huanhuan Li, Xuechao Zou, Yu-an Zhang, Jiangcai Zhaba, Guomei Li, Lamao Yongga(参考訳) 三川源地域は中国において非常に重要な自然保護区であり、多くの植物資源がある。 植物研究と知的植物管理の実践的要件を満たすため,三河水源地域(PTRS)における植物検出のためのデータセットを構築した。 21種類の高解像度画像を2160*3840ピクセルで6965枚、様々なセンサーやプラットフォームで撮影し、形状や大きさの異なる物体を特徴とする。 ptrsは植物間の密集した咬合、葉の分解能の変化、高機能な類似性などの課題を提示し、plantdetと呼ばれる新しい物体検出ネットワークの開発を促した。 このネットワークは、ウィンドウベースの効率的なセルフアテンションモジュール(stブロック)を使用して、複数のスケールでロバストな特徴表現を生成し、小さくて密集したオブジェクトの検出効率を向上させる。 実験により,提案するプラント検出ベンチマークの有効性を88.1%,平均平均精度(map)77.6%,基準値と比較して高いリコール率で検証した。 さらに,本手法は,小型オブジェクトの欠落を効果的に克服する。

The Three-River-Source region is a highly significant natural reserve in China that harbors a plethora of botanical resources. To meet the practical requirements of botanical research and intelligent plant management, we construct a dataset for Plant detection in the Three-River-Source region (PTRS). It comprises 21 types, 6965 high-resolution images of 2160*3840 pixels, captured by diverse sensors and platforms, and featuring objects of varying shapes and sizes. The PTRS presents us with challenges such as dense occlusion, varying leaf resolutions, and high feature similarity among plants, prompting us to develop a novel object detection network named PlantDet. This network employs a window-based efficient self-attention module (ST block) to generate robust feature representation at multiple scales, improving the detection efficiency for small and densely-occluded objects. Our experimental results validate the efficacy of our proposed plant detection benchmark, with a precision of 88.1%, a mean average precision (mAP) of 77.6%, and a higher recall compared to the baseline. Additionally, our method effectively overcomes the issue of missing small objects.
翻訳日:2023-08-10 17:37:32 公開日:2023-08-09
# InterFormer:リアルタイムインタラクティブイメージセグメンテーション

InterFormer: Real-time Interactive Image Segmentation ( http://arxiv.org/abs/2304.02942v2 )

ライセンス: Link先を確認
You Huang, Hao Yang, Ke Sun, Shengchuan Zhang, Liujuan Cao, Guannan Jiang, Rongrong Ji(参考訳) インタラクティブな画像セグメンテーションにより、アノテーションはセグメンテーションタスクのピクセルレベルのアノテーションを効率的に実行することができる。 しかし、既存のインタラクティブセグメンテーションパイプラインは、以下の2つの問題により、インタラクティブモデルの非効率な計算に苦しむ。 第一に、アノテーションの後のクリックは、アノテーションの前のクリックに対するモデルのフィードバックに基づいている。 このシリアル相互作用はモデルの並列性を利用できない。 次に、各インタラクションステップにおいて、モデルはスパース変数クリックとともに不変画像を処理し、非常に反復的で冗長なプロセスをもたらす。 そこで我々は,これらの問題に対処する新しいパイプラインに従うInterFormerという手法を提案する。 インターフォーマは、計算時間消費部、すなわち既存のプロセスから画像処理を抽出・前処理する。 具体的には、InterFormerは高速デバイスに大きな視覚変換器(ViT)を並列に前処理し、インタラクティブなセグメンテーションのためにインタラクティブなマルチヘッド自己注意(I-MSA)と呼ばれる軽量モジュールを使用する。 さらに、I-MSAモジュールの低消費電力デバイスへの展開は、インタラクティブセグメンテーションの実践的応用を拡張している。 I-MSAモジュールは、前処理した機能を利用して、リアルタイムでアノテータ入力に効率的に応答する。 複数のデータセットにおける実験は、計算効率とセグメンテーション品質の観点から従来の対話型セグメンテーションモデルを上回るinterformerの有効性を示し、cpuのみのデバイスでリアルタイムな高品質なインタラクティブセグメンテーションを実現する。 コードはhttps://github.com/youhuang67/interformerで入手できる。

Interactive image segmentation enables annotators to efficiently perform pixel-level annotation for segmentation tasks. However, the existing interactive segmentation pipeline suffers from inefficient computations of interactive models because of the following two issues. First, annotators' later click is based on models' feedback of annotators' former click. This serial interaction is unable to utilize model's parallelism capabilities. Second, in each interaction step, the model handles the invariant image along with the sparse variable clicks, resulting in a process that's highly repetitive and redundant. For efficient computations, we propose a method named InterFormer that follows a new pipeline to address these issues. InterFormer extracts and preprocesses the computationally time-consuming part i.e. image processing from the existing process. Specifically, InterFormer employs a large vision transformer (ViT) on high-performance devices to preprocess images in parallel, and then uses a lightweight module called interactive multi-head self attention (I-MSA) for interactive segmentation. Furthermore, the I-MSA module's deployment on low-power devices extends the practical application of interactive segmentation. The I-MSA module utilizes the preprocessed features to efficiently response to the annotator inputs in real-time. The experiments on several datasets demonstrate the effectiveness of InterFormer, which outperforms previous interactive segmentation models in terms of computational efficiency and segmentation quality, achieve real-time high-quality interactive segmentation on CPU-only devices. The code is available at https://github.com/YouHuang67/InterFormer.
翻訳日:2023-08-10 17:37:13 公開日:2023-08-09
# ゼロショットスケッチに基づく画像検索を改善するAdapt and Align

Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval ( http://arxiv.org/abs/2305.05144v3 )

ライセンス: Link先を確認
Shiyin Dong, Mingrui Zhu, Nannan Wang, Xinbo Gao(参考訳) ゼロショットスケッチに基づく画像検索(ZS-SBIR)は、スケッチや写真のドメイン横断性や、見えない画像分布と見えない画像分布のセマンティックなギャップによって困難である。 スケッチと写真ドメイン間で共有されるコンパクトな特徴空間を学習するために、様々な側面情報と学習戦略を持つ事前訓練されたモデルを微調整する以前の方法。 しかし、これらの取り組みはドメインを適応させ、見知らぬクラスから知識を移すのに不十分である。 本稿では,これらの課題に対処する効果的な `Adapt and Align'' アプローチを提案する。 具体的には、単純で軽量なドメインアダプタを挿入して、sketchドメインの新しい抽象概念を学び、クロスドメイン表現機能を改善する。 ゼロショットシナリオにおける画像-テキスト基盤モデル(例えばクリップ)の最近の進歩に触発されて、我々は学習した画像埋め込みをよりセマンティックなテキスト埋め込みで明示的に調整し、見慣れないクラスに望ましい知識伝達を達成する。 3つのベンチマークデータセットと2つの人気のあるバックボーンに関する大規模な実験は、検索精度と柔軟性の観点から、我々の手法の優位性を実証している。

Zero-shot sketch-based image retrieval (ZS-SBIR) is challenging due to the cross-domain nature of sketches and photos, as well as the semantic gap between seen and unseen image distributions. Previous methods fine-tune pre-trained models with various side information and learning strategies to learn a compact feature space that is shared between the sketch and photo domains and bridges seen and unseen classes. However, these efforts are inadequate in adapting domains and transferring knowledge from seen to unseen classes. In this paper, we present an effective ``Adapt and Align'' approach to address the key challenges. Specifically, we insert simple and lightweight domain adapters to learn new abstract concepts of the sketch domain and improve cross-domain representation capabilities. Inspired by recent advances in image-text foundation models (e.g., CLIP) on zero-shot scenarios, we explicitly align the learned image embedding with a more semantic text embedding to achieve the desired knowledge transfer from seen to unseen classes. Extensive experiments on three benchmark datasets and two popular backbones demonstrate the superiority of our method in terms of retrieval accuracy and flexibility.
翻訳日:2023-08-10 17:30:47 公開日:2023-08-09
# 島相における無人島と部分絡み合いエントロピー

Ownerless island and partial entanglement entropy in island phases ( http://arxiv.org/abs/2305.04259v2 )

ライセンス: Link先を確認
Debarshi Basu, Jiong Lin, Yizhou Lu and Qiang Wen(参考訳) 部分エンタングルメントエントロピー (PEE) の文脈において, 複数の2次元ホログラフィック・セットアップで実現された島相のエンタングルメント構造について検討した。 島相の自己エンコーディング特性はPEEの評価方法を変える。 本研究は, 島々からの貢献を考慮し, PEEの構築とバランスの取れた部分エンタングルメント・エントロピー (BPE) の一般処方を与える。 ここで、オーナーレスの島域は、島内にある$\text{Is}(AB)$ of $A\cup B$ だが、外部にある$\text{Is}(A)\cup \text{Is}(B)$は重要な役割を果たす。 注目すべきは、オーナーレス島の異なる割り当ての下では、異なるBPEが得られ、これは、$A\cup B$の絡み合いのくさび(EWCS)の異なるサドルに対応する。 割り当ては BPE を最小化するものを選択することで解決できる。 さらに,この課題の下では,オシッコを観察し,ホログラフィにおいてオシッコの幾何学的図面を与え,島外相の幾何学的図面と一致させる。

In the context of partial entanglement entropy (PEE), we study the entanglement structure of the island phases realized in several 2-dimensional holographic set-ups. The self-encoding property of the island phase changes the way we evaluate the PEE. With the contributions from islands taken into account, we give a generalized prescription to construct PEE and balanced partial entanglement entropy (BPE). Here the ownerless island region, which lies inside the island $\text{Is}(AB)$ of $A\cup B$ but outside $\text{Is}(A)\cup \text{Is}(B)$, plays a crucial role. Remarkably, we find that under different assignments for the ownerless island, we get different BPEs, which exactly correspond to different saddles of the entanglement wedge cross-section (EWCS) in the entanglement wedge of $A\cup B$. The assignments can be settled by choosing the one that minimizes the BPE. Furthermore, under this assignment we study the PEE and give a geometric picture for the PEE in holography, which is consistent with the geometric picture in the no-island phases.
翻訳日:2023-08-10 17:30:26 公開日:2023-08-09
# DocDiff:残差拡散モデルによる文書化

DocDiff: Document Enhancement via Residual Diffusion Models ( http://arxiv.org/abs/2305.03892v2 )

ライセンス: Link先を確認
Zongyuan Yang, Baolin Liu, Yongping Xiong, Lan Yi, Guibin Wu, Xiaojun Tang, Ziqi Liu, Junjie Zhou, Xing Zhang(参考訳) 文書画像からの分解を取り除くことで、視覚的品質と可読性が向上するだけでなく、多数の自動文書解析と認識タスクのパフォーマンスも向上する。 しかし、画素レベルの歪み低減に最適化された既存の回帰に基づく手法は、高周波情報の大幅な損失を伴い、歪んだテキストエッジやぼやけたテキストに繋がる。 この大きな不足を補うために,ドキュメントデブラリング,デノージング,ウォーターマークやアザラシの除去など,さまざまな難解なドキュメント拡張問題用に特別に設計された最初の拡散ベースのフレームワークであるdocdiffを提案する。 DocDiffは2つのモジュールから構成される: 一次低周波コンテンツを復元する粗い予測器(CP)と、拡散モデルを採用して、接地構造とCP予測画像の間の残差(テキストエッジを含む高周波情報)を予測する高周波残差補正(HRR)モジュールである。 DocDiffは、よく設計されたネットワークアーキテクチャ、最適化されたトレーニング損失目標、短時間で決定論的サンプリングプロセスの恩恵を受ける、コンパクトで効率的なモデルである。 大規模な実験により、DocDiffは複数のベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現し、劣化した文書画像の読みやすさと認識性を大幅に向上させることができる。 さらに,事前学習したDocDiffのHRRモジュールは,4.17Mパラメータしか持たないプラグアンドプレイで使用可能である。 追加のジョイントトレーニングなしでSOTAデブロアリング法によって生成されたテキストエッジを大幅に強化する。 利用可能なコード:https://github.com/Royalvice/DocDiff

Removing degradation from document images not only improves their visual quality and readability, but also enhances the performance of numerous automated document analysis and recognition tasks. However, existing regression-based methods optimized for pixel-level distortion reduction tend to suffer from significant loss of high-frequency information, leading to distorted and blurred text edges. To compensate for this major deficiency, we propose DocDiff, the first diffusion-based framework specifically designed for diverse challenging document enhancement problems, including document deblurring, denoising, and removal of watermarks and seals. DocDiff consists of two modules: the Coarse Predictor (CP), which is responsible for recovering the primary low-frequency content, and the High-Frequency Residual Refinement (HRR) module, which adopts the diffusion models to predict the residual (high-frequency information, including text edges), between the ground-truth and the CP-predicted image. DocDiff is a compact and computationally efficient model that benefits from a well-designed network architecture, an optimized training loss objective, and a deterministic sampling process with short time steps. Extensive experiments demonstrate that DocDiff achieves state-of-the-art (SOTA) performance on multiple benchmark datasets, and can significantly enhance the readability and recognizability of degraded document images. Furthermore, our proposed HRR module in pre-trained DocDiff is plug-and-play and ready-to-use, with only 4.17M parameters. It greatly sharpens the text edges generated by SOTA deblurring methods without additional joint training. Available codes: https://github.com/Royalvice/DocDiff
翻訳日:2023-08-10 17:30:02 公開日:2023-08-09
# 時間依存性調和ポテンシャルにおける波動関数の形状の進化

Evolution of the wave-function's shape in a time-dependent harmonic potential ( http://arxiv.org/abs/2305.03847v3 )

ライセンス: Link先を確認
Etera R. Livine(参考訳) 量子力学に対する効果的な操作的アプローチは波束の進化に焦点を合わせ、波関数は波束の形状とそのゆらぎを記述する余分な自由度を身に着けた古典的運動を表すものとして半古典的構造に見ることができる。 これらの量子ドレッシングは独立自由度であり、波動関数のより高いモーメントで数学的に符号化される。 1+1次元の時空における時間依存ポテンシャルを持つシュロディンガー方程式に従って発展するガウス波束の有効ダイナミクスを抽出し、二次不確かさに対する運動方程式を導出する方法を考察する。 次に、時間依存調和ポテンシャルにおける一般波動関数に対する全ての高次モーメントの進化を統合する方法を示す。

An effective operational approach to quantum mechanics is to focus on the evolution of wave-packets, for which the wave-function can be seen in the semi-classical regime as representing a classical motion dressed with extra degrees of freedom describing the shape of the wave-packet and its fluctuations. These quantum dressing are independent degrees of freedom, mathematically encoded in the higher moments of the wave-function. We review how to extract the effective dynamics for Gaussian wave-packets evolving according to the Schrodinger equation with time-dependent potential in a 1+1-dimensional spacetime, and derive the equations of motion for the quadratic uncertainty. We then show how to integrate the evolution of all the higher moments for a general wave-function in a time-dependent harmonic potential.
翻訳日:2023-08-10 17:29:32 公開日:2023-08-09
# AttentionViz: トランスフォーマーのアテンションをグローバルに見る

AttentionViz: A Global View of Transformer Attention ( http://arxiv.org/abs/2305.03210v2 )

ライセンス: Link先を確認
Catherine Yeh, Yida Chen, Aoyu Wu, Cynthia Chen, Fernanda Vi\'egas, Martin Wattenberg(参考訳) トランスフォーマーモデルは機械学習に革命をもたらすが、その内部動作は謎のままだ。 本研究では,トランスフォーマーの自己着脱機構を研究者が理解し,それらのモデルがシーケンスの要素間のリッチで文脈的な関係を学習できるようにするために,新たな可視化手法を提案する。 提案手法の背後にある主な考え方は,問合せとキーベクトルの組込みを可視化し,注意力を計算することである。 従来の注意可視化手法と異なり,複数の入力列にまたがるグローバルパターンの分析を可能にする。 インタラクティブな可視化ツールである attentionviz (デモ: http://attentionviz.com) を作成し、これらのクエリキー埋め込みに基づいて、言語と視覚トランスフォーマーの両方における注意のメカニズムを研究する。 いくつかのアプリケーションシナリオと専門家のフィードバックを通じて、モデル理解を改善し、クエリキーインタラクションに関する新たな洞察を提供するアプローチの有用性を実証する。

Transformer models are revolutionizing machine learning, but their inner workings remain mysterious. In this work, we present a new visualization technique designed to help researchers understand the self-attention mechanism in transformers that allows these models to learn rich, contextual relationships between elements of a sequence. The main idea behind our method is to visualize a joint embedding of the query and key vectors used by transformer models to compute attention. Unlike previous attention visualization techniques, our approach enables the analysis of global patterns across multiple input sequences. We create an interactive visualization tool, AttentionViz (demo: http://attentionviz.com), based on these joint query-key embeddings, and use it to study attention mechanisms in both language and vision transformers. We demonstrate the utility of our approach in improving model understanding and offering new insights about query-key interactions through several application scenarios and expert feedback.
翻訳日:2023-08-10 17:29:16 公開日:2023-08-09
# 機能エンジニアリングはマルウェア検出の量子機械学習に役立つか?

Can Feature Engineering Help Quantum Machine Learning for Malware Detection? ( http://arxiv.org/abs/2305.02396v2 )

ライセンス: Link先を確認
Ran Liu, Maksim Eren, Charles Nicholas(参考訳) マルウェア攻撃の増加と高度化に伴い、機械学習(ML)に基づくマルウェア検出システムの重要性が高まっている。 同時に、マルウェア分類で使用される多くの一般的なMLモデルが教師付きソリューションである。 これらの教師付き分類器は、しばしば新しいマルウェアによく一般化しない。 そのため、新しいマルウェアの標本を検出するために、頻繁に再訓練する必要がある。 本研究は,データサイズとマルウェア分類器の訓練時間を削減するための特徴選択戦略と組み合わせた,理論量子mlのハイブリッドフレームワークでこの問題に対処した。 予備的な結果は、XGBoostが選択したVQCがシミュレータで78.91%の精度でテストできることを示している。 XGBoostで選択された機能を使用してトレーニングされたモデルの平均精度は、IBM 5量子ビットマシンで74%(+-11.35%)であった。

With the increasing number and sophistication of malware attacks, malware detection systems based on machine learning (ML) grow in importance. At the same time, many popular ML models used in malware classification are supervised solutions. These supervised classifiers often do not generalize well to novel malware. Therefore, they need to be re-trained frequently to detect new malware specimens, which can be time-consuming. Our work addresses this problem in a hybrid framework of theoretical Quantum ML, combined with feature selection strategies to reduce the data size and malware classifier training time. The preliminary results show that VQC with XGBoost selected features can get a 78.91% test accuracy on the simulator. The average accuracy for the model trained using the features selected with XGBoost was 74% (+- 11.35%) on the IBM 5 qubits machines.
翻訳日:2023-08-10 17:28:59 公開日:2023-08-09
# 対称正定値多様体上の低複素部分空間線

Low-complexity subspace-descent over symmetric positive definite manifold ( http://arxiv.org/abs/2305.02041v2 )

ライセンス: Link先を確認
Yogesh Darmwal, Ketan Rajawat(参考訳) この研究は、対称正定値(spd)多様体上の関数の最小化のための低複素リーマン部分空間降下アルゴリズムをもたらす。 既存のリーマン勾配降下変種と異なり、提案手法は慎重に選択された部分空間を利用して、更新をイテレートのコレスキー因子とスパース行列の積として記述することができる。 結果として得られる更新は、spd多様体上のほとんど全てのリーマン最適化アルゴリズムで一般的に必要とされる行列指数や密行列乗法のようなコストのかかる行列演算を避ける。 さらに,多種多様な応用,例えば,カーネル・マトリックス・ラーニング,ガウス分布の共分散推定,楕円曲線分布の最大確率パラメータ推定,およびリーマン勾配を効率的に計算できるガウス混合モデル問題におけるパラメータ推定を同定する。 提案された一方向および多方向のリーマン部分空間降下変種は、既存のリーマン勾配降下変種すべてによって引き起こされる$\mathcal{o}(n)$ と$\mathcal{o}(n^2)$ の共役関係をそれぞれ負う。 また, 大規模共分散推定問題に対する数値実験により, 提案アルゴリズムの優れた実行時間と文毎の複雑性を実証した。

This work puts forth low-complexity Riemannian subspace descent algorithms for the minimization of functions over the symmetric positive definite (SPD) manifold. Different from the existing Riemannian gradient descent variants, the proposed approach utilizes carefully chosen subspaces that allow the update to be written as a product of the Cholesky factor of the iterate and a sparse matrix. The resulting updates avoid the costly matrix operations like matrix exponentiation and dense matrix multiplication, which are generally required in almost all other Riemannian optimization algorithms on SPD manifold. We further identify a broad class of functions, arising in diverse applications, such as kernel matrix learning, covariance estimation of Gaussian distributions, maximum likelihood parameter estimation of elliptically contoured distributions, and parameter estimation in Gaussian mixture model problems, over which the Riemannian gradients can be calculated efficiently. The proposed uni-directional and multi-directional Riemannian subspace descent variants incur per-iteration complexities of $\mathcal{O}(n)$ and $\mathcal{O}(n^2)$ respectively, as compared to the $\mathcal{O}(n^3)$ or higher complexity incurred by all existing Riemannian gradient descent variants. The superior runtime and low per-iteration complexity of the proposed algorithms is also demonstrated via numerical tests on large-scale covariance estimation problems.
翻訳日:2023-08-10 17:28:46 公開日:2023-08-09
# AI信仰の倫理へ向けて

Toward an Ethics of AI Belief ( http://arxiv.org/abs/2304.14577v4 )

ライセンス: Link先を確認
Winnie Ma, Vincent Valton(参考訳) AIにおける哲学研究は、主にAIの倫理に焦点を当てている。 本稿では, 信念の倫理学者であり, 機械学習科学者である我々は, AIの認識論, 特にAIの信念の倫理において, 哲学研究の新たな領域を追求する必要があることを示唆する。 ここでは,様々な方法で定義されてきた信念の倫理を,認識論におけるサブフィールドと呼ぶ。 このサブフィールドは、道徳的、実践的、その他の非倫理的信念の研究に関係している。 本論では、特定の信念が真である、正当化される、保証される、知識を構成するなど、様々な評価基準を満たしているかどうかに関する記述的疑問よりも、人間と人工的に信じるべきエージェントについて、信念の倫理における規範的疑問を主に扱う。 我々は、AI信念の倫理に応用できる(人間)信念の倫理における現在研究における4つのトピックについて提案する:AI信念のドクサスティックな誤り、道徳的に義務づけられた信念、AI信念に対する実践的および道徳的エンクローメント、AI信念に対する道徳的責任。 我々はまた、AI信仰研究の倫理として一般に認識されていない比較的初期段階の2つの哲学研究分野を示すが、それは様々な信念の道徳的・実践的な側面、すなわちAIの疫学的・倫理的非植民地化、そしてAIにおける疫学的不正を調査することによって、この分野に該当する。

Philosophical research in AI has hitherto largely focused on the ethics of AI. In this paper we, an ethicist of belief and a machine learning scientist, suggest that we need to pursue a novel area of philosophical research in AI - the epistemology of AI, and in particular an ethics of belief for AI. Here we take the ethics of belief, a field that has been defined in various ways, to refer to a sub-field within epistemology. This subfield is concerned with the study of possible moral, practical, and other non-alethic dimensions of belief. And in this paper, we will primarily be concerned with the normative question within the ethics of belief regarding what agents - both human and artificial - ought to believe, rather than with descriptive questions concerning whether certain beliefs meet various evaluative standards such as being true, being justified or warranted, constituting knowledge, and so on. We suggest four topics in extant work in the ethics of (human) belief that can be applied to an ethics of AI belief: doxastic wronging by AI; morally owed beliefs; pragmatic and moral encroachment on AI beliefs; and moral responsibility for AI beliefs. We also indicate two relatively nascent areas of philosophical research that haven't yet been generally recognized as ethics of AI belief research, but that do fall within this field of research in virtue of investigating various moral and practical dimensions of belief: the epistemic and ethical decolonization of AI; and epistemic injustice in AI.
翻訳日:2023-08-10 17:28:20 公開日:2023-08-09
# 分子動力学の集団変数同定のための最近のディープラーニング技術理解

Understanding recent deep-learning techniques for identifying collective variables of molecular dynamics ( http://arxiv.org/abs/2307.00365v2 )

ライセンス: Link先を確認
Wei Zhang, Christof Sch\"utte(参考訳) 高次元準安定分子系は、しばしばシステムのいくつかの特徴、すなわち集団変数(CV)によって特徴づけられる。 機械学習とディープラーニングの分野での急速な進歩により、様々な深層学習に基づくCV識別技術が近年開発され、複雑な分子系の正確なモデリングと効率的なシミュレーションを可能にしている。 本稿では,無限小ジェネレータの固有関数の計算や,基礎となるダイナミクスに関連付けられた転送演算子,あるいは再構成誤差の最小化によるオートエンコーダの学習など,CVを見つけるための2つの異なるカテゴリについて検討する。 この2つのアプローチの背後にある数学の簡潔な概観を示し、これらの2つのアプローチを例題として比較数値的研究を行う。

High-dimensional metastable molecular system can often be characterised by a few features of the system, i.e. collective variables (CVs). Thanks to the rapid advance in the area of machine learning and deep learning, various deep learning-based CV identification techniques have been developed in recent years, allowing accurate modelling and efficient simulation of complex molecular systems. In this paper, we look at two different categories of deep learning-based approaches for finding CVs, either by computing leading eigenfunctions of infinitesimal generator or transfer operator associated to the underlying dynamics, or by learning an autoencoder via minimisation of reconstruction error. We present a concise overview of the mathematics behind these two approaches and conduct a comparative numerical study of these two approaches on illustrative examples.
翻訳日:2023-08-10 17:20:30 公開日:2023-08-09
# 普遍量子計算のための論理量子ビットのハイブリッド雑音保護

Hybrid noise protection of logical qubits for universal quantum computation ( http://arxiv.org/abs/2306.15144v2 )

ライセンス: Link先を確認
Zhao-Ming Wang, Feng-Hua Ren, Mark S. Byrd, and Lian-Ao Wu(参考訳) 量子コンピュータは、あらゆる古典的マシンを超えるという約束を示す。 しかし、エラーはこの能力を制限するため、現在のマシンは、キュービット数の制限と制御の制限のため、エラー訂正コードを実装することができない。 したがって、動的デカップリング(DD)とノイズを制限する符号化はより有望である。 これらの理由から、標準的な量子誤り訂正符号のような大きなオーバーヘッドを必要とする戦略よりも多くの利点を持つ普遍量子計算のモデルを提案した。 まず、物理量子ビット上の個々のノイズから集団ノイズを分離し、その符号化に2つの量子ビットのみを用いるデコヒーレンスフリー部分空間(DFS)を用いる。 第二に、我々の浴モデルはスピンボソン型浴を用いるがマルコフ型を仮定しないため、非常に一般的である。 第三に、定常な大域磁場を使用するか、残りのノイズの多くを取り除き、符号化された量子ビット上の論理演算と通勤するDDパルスのセットを考案することができる。 これにより、ゲート操作を実装しながらノイズを除去できる。 量子計算におけるデコヒーレンス問題に対処するための効率的なアプローチを提供し、現在のいくつかの量子コンピューティングシステムで実験的に実行可能なハイブリッド保護戦略のために数値的支援がなされている。 これは、いくつかの現実的なパラメータ仮定で確実に実装できるゲート数の増加を期待する最近の超伝導量子ビットの実験によって強調されている。

Quantum computers now show the promise of surpassing any possible classical machine. However, errors limit this ability and current machines do not have the ability to implement error correcting codes due to the limited number of qubits and limited control. Therefore, dynamical decoupling (DD) and encodings that limit noise with fewer qubits are more promising. For these reasons, we put forth a model of universal quantum computation that has many advantages over strategies that require a large overhead such as the standard quantum error correcting codes. First, we separate collective noise from individual noises on physical qubits and use a decoherence-free subspace (DFS) that uses just two qubits for its encoding to eliminate collective noise. Second, our bath model is very general as it uses a spin-boson type bath but without any Markovian assumption. Third, we are able to either use a steady global magnetic field or to devise a set of DD pulses that remove much of the remaining noise and commute with the logical operations on the encoded qubit. This allows removal of noise while implementing gate operations. Numerical support is given for this hybrid protection strategy which provides an efficient approach to deal with the decoherence problems in quantum computation and is experimentally viable for several current quantum computing systems. This is emphasized by a recent experiment on superconducting qubits which shows promise for increasing the number of gates that can be implemented reliably with some realistic parameter assumptions.
翻訳日:2023-08-10 17:20:16 公開日:2023-08-09
# the false dawn: チップマクロ配置のためのgoogleの強化学習の再評価

The False Dawn: Reevaluating Google's Reinforcement Learning for Chip Macro Placement ( http://arxiv.org/abs/2306.09633v5 )

ライセンス: Link先を確認
Igor L. Markov(参考訳) Google 2021 Natureの論文で、シリコンチップの物理的設計のための強化学習(RL)が論争を引き起こした。 nature紙は、報告された結果を生成するために必要なほとんどの入力と、方法論におけるいくつかの重要なステップを支持した。 しかし、2つの異なる評価がギャップを埋め、Google RLが人間設計者より遅れており、よく知られたアルゴリズム(Simulated Annealing)、そして一般的な商用ソフトウェアよりも遅れており、実行に時間がかかることを実証した。 クロスチェックデータによると、Nature論文の完全性は、行動、分析、報告の誤りによって著しく損なわれている。 発表前、Googleは内部告発を却下した。

Reinforcement learning (RL) for physical design of silicon chips in a Google 2021 Nature paper stirred controversy due to poorly documented claims that raised eyebrows and attracted critical media coverage. The Nature paper withheld most inputs needed to produce reported results and some critical steps in the methodology. But two separate evaluations filled in the gaps and demonstrated that Google RL lags behind human designers, behind a well-known algorithm (Simulated Annealing), and also behind generally-available commercial software, while taking longer to run. Crosschecked data show that the integrity of the Nature paper is substantially undermined owing to errors in conduct, analysis and reporting. Before publishing, Google rebuffed internal allegations of fraud.
翻訳日:2023-08-10 17:19:51 公開日:2023-08-09
# diff-ttsg : 確率的統合音声合成とジェスチャ合成

Diff-TTSG: Denoising probabilistic integrated speech and gesture synthesis ( http://arxiv.org/abs/2306.09417v3 )

ライセンス: Link先を確認
Shivam Mehta, Siyang Wang, Simon Alexanderson, Jonas Beskow, \'Eva Sz\'ekely, Gustav Eje Henter(参考訳) 高自然度スコアを達成できる読解音声合成は、自然音声合成における研究の関心が高まっている。 しかし、人間の自発的な対面会話には、話し言葉と言葉以外の側面の両方がある(ここでは、協調的なジェスチャー)。 つい最近になって、これらの2つのモダリティを単一のシステムで共同で合成する方法の研究が始まった。 従来の技術では、人間の発話や動きの変動を捉えない非確率的手法を使用しており、過剰な人工物や準最適合成品質を生み出す危険性があった。 我々はdiff-ttsgと呼ばれる拡散に基づく最初の確率モデルを提案する。 我々の方法はスクラッチから小さなデータセットで訓練することができる。 さらに、統合音声とジェスチャー合成システムを評価するための一様・多様主観的一様テストのセットを記述し、提案手法の有効性を検証する。 ビデオ例、データ、コードについては、https://shivammehta25.github.io/Diff-TTSG/をご覧ください。

With read-aloud speech synthesis achieving high naturalness scores, there is a growing research interest in synthesising spontaneous speech. However, human spontaneous face-to-face conversation has both spoken and non-verbal aspects (here, co-speech gestures). Only recently has research begun to explore the benefits of jointly synthesising these two modalities in a single system. The previous state of the art used non-probabilistic methods, which fail to capture the variability of human speech and motion, and risk producing oversmoothing artefacts and sub-optimal synthesis quality. We present the first diffusion-based probabilistic model, called Diff-TTSG, that jointly learns to synthesise speech and gestures together. Our method can be trained on small datasets from scratch. Furthermore, we describe a set of careful uni- and multi-modal subjective tests for evaluating integrated speech and gesture synthesis systems, and use them to validate our proposed approach. Please see https://shivammehta25.github.io/Diff-TTSG/ for video examples, data, and code.
翻訳日:2023-08-10 17:19:34 公開日:2023-08-09
# knowledge-how & knowledge-that: ユーザマニュアルの機械理解のための新しいタスク

Knowing-how & Knowing-that: A New Task for Machine Comprehension of User Manuals ( http://arxiv.org/abs/2306.04187v2 )

ライセンス: Link先を確認
Hongru Liang, Jia Liu, Weihong Du, Dingnan Jin, Wenqiang Lei, Zujie Wen, Jiancheng Lv(参考訳) ユーザマニュアルの機械読解(MRC)は、カスタマーサービスにおいて大きな可能性を秘めている。 しかし、現在の手法では複雑な質問に答えるのが困難である。 そこで本研究では,ユーザマニュアルに関するファクトイドスタイル,プロシージャスタイル,一貫性のない質問に対して,モデルが答える必要があるタスクの知識方法と知識について紹介する。 我々はこの課題を,様々な質問の統一推論を支援するグラフTARAにおいて,ステップと事実を共同で表現することで解決する。 体系的なベンチマーク研究に向けて,ユーザマニュアルをタラスに自動解析し,実世界の質問に答えるモデルの能力をテストするアノテートデータセットを構築するヒューリスティックな手法を設計した。 実験の結果,ユーザマニュアルをタラスとして表現することは,ユーザマニュアルのmrcに対して望ましいソリューションであることがわかった。 TARAの詳細な調査では、ユーザマニュアルの今後の表現に関する問題や、より広範な影響が明らかにされている。 私たちの仕事がユーザマニュアルのmrcをより複雑で現実的なステージに移行できることを願っています。

The machine reading comprehension (MRC) of user manuals has huge potential in customer service. However, current methods have trouble answering complex questions. Therefore, we introduce the Knowing-how & Knowing-that task that requires the model to answer factoid-style, procedure-style, and inconsistent questions about user manuals. We resolve this task by jointly representing the steps and facts in a graph TARA, which supports a unified inference of various questions. Towards a systematical benchmarking study, we design a heuristic method to automatically parse user manuals into TARAs and build an annotated dataset to test the model's ability in answering real-world questions. Empirical results demonstrate that representing user manuals as TARAs is a desired solution for the MRC of user manuals. An in-depth investigation of TARA further sheds light on the issues and broader impacts of future representations of user manuals. We hope our work can move the MRC of user manuals to a more complex and realistic stage.
翻訳日:2023-08-10 17:19:17 公開日:2023-08-09
# 効率的な継続的制御のための時間階層アーキテクチャ

Temporally Layered Architecture for Efficient Continuous Control ( http://arxiv.org/abs/2305.18701v2 )

ライセンス: Link先を確認
Devdhar Patel, Terrence Sejnowski, Hava Siegelmann(参考訳) エネルギー消費を最小限に抑えた時間適応制御のための時間階層アーキテクチャ(TLA)を提案する。 TLAは、各レイヤが異なる時間スケールに集中できるように、時間的抽象化を達成するために、高速で遅いポリシーを一緒に重ねます。 我々の設計は、環境の要求に応じて異なる時間スケールで行動を実行する人間の脳の省エネ機構に依拠している。 我々は、省エネ以外にも、TLAは永続的な探索、必要な決定の少ない、不要な削減、行動反復の増加など、多くの利点を提供していることを実証した。 提案手法を一連の連続制御タスクで評価し,複数の重要な指標で測定した場合の既存手法に対するTLAの顕著な優位性を実証した。 また、連続制御ポリシーを定性的に評価する多目的スコアを導入し、TLAに対して極めて優れたスコアを示す。 私たちのトレーニングアルゴリズムは、遅い層と速い層の間の最小限の通信を利用して、両方のポリシーを同時にトレーニングします。

We present a temporally layered architecture (TLA) for temporally adaptive control with minimal energy expenditure. The TLA layers a fast and a slow policy together to achieve temporal abstraction that allows each layer to focus on a different time scale. Our design draws on the energy-saving mechanism of the human brain, which executes actions at different timescales depending on the environment's demands. We demonstrate that beyond energy saving, TLA provides many additional advantages, including persistent exploration, fewer required decisions, reduced jerk, and increased action repetition. We evaluate our method on a suite of continuous control tasks and demonstrate the significant advantages of TLA over existing methods when measured over multiple important metrics. We also introduce a multi-objective score to qualitatively assess continuous control policies and demonstrate a significantly better score for TLA. Our training algorithm uses minimal communication between the slow and fast layers to train both policies simultaneously, making it viable for future applications in distributed control.
翻訳日:2023-08-10 17:18:29 公開日:2023-08-09
# 低リソースレジームにおけるテキストデータ拡張としての逆語希釈

Adversarial Word Dilution as Text Data Augmentation in Low-Resource Regime ( http://arxiv.org/abs/2305.09287v2 )

ライセンス: Link先を確認
Junfan Chen, Richong Zhang, Zheyan Luo, Chunming Hu, Yongyi Mao(参考訳) データ拡張はテキスト分類、特にトレーニング中に各クラスのいくつかの例が利用できる低リソースのシステムで広く利用されている。 成功にもかかわらず、有効性を高める厳しいポジティブな例としてデータ拡張の生成は未検討である。 本稿では,低リソーステキスト分類モデルを効率的に学習するために,テキストデータ拡張としてハードポジティブな例を生成できるadversarial word dilution (awd)法を提案する。 テキストデータを増大させるという考え方は、未知語埋め込みと重み付けした混合によって強陽性語の埋め込みを減らし、分類モデルにより正と認識することが困難となる。 我々はラベルの指導により,制約付きmin-max最適化プロセスを通じて,希釈重みを相反的に学習する。 3つのベンチマークデータセットに関する実証研究は、awdがより効果的なデータ拡張を生成し、最先端のテキストデータ拡張方法を上回ることを示している。 追加の分析は、awdによって生成されたデータ拡張は解釈可能であり、さらなるトレーニングなしで柔軟に新しい例に拡張できることを示している。

Data augmentation is widely used in text classification, especially in the low-resource regime where a few examples for each class are available during training. Despite the success, generating data augmentations as hard positive examples that may increase their effectiveness is under-explored. This paper proposes an Adversarial Word Dilution (AWD) method that can generate hard positive examples as text data augmentations to train the low-resource text classification model efficiently. Our idea of augmenting the text data is to dilute the embedding of strong positive words by weighted mixing with unknown-word embedding, making the augmented inputs hard to be recognized as positive by the classification model. We adversarially learn the dilution weights through a constrained min-max optimization process with the guidance of the labels. Empirical studies on three benchmark datasets show that AWD can generate more effective data augmentations and outperform the state-of-the-art text data augmentation methods. The additional analysis demonstrates that the data augmentations generated by AWD are interpretable and can flexibly extend to new examples without further training.
翻訳日:2023-08-10 17:18:12 公開日:2023-08-09
# 脳腫瘍分離(BraTS)チャレンジ2023: 塗布による健康な脳組織の局所的合成

The Brain Tumor Segmentation (BraTS) Challenge 2023: Local Synthesis of Healthy Brain Tissue via Inpainting ( http://arxiv.org/abs/2305.08992v2 )

ライセンス: Link先を確認
Florian Kofler, Felix Meissen, Felix Steinbauer, Robert Graf, Eva Oswald, Ezequiel de da Rosa, Hongwei Bran Li, Ujjwal Baid, Florian Hoelzl, Oezguen Turgut, Izabela Horvath, Diana Waldmannstetter, Christina Bukas, Maruf Adewole, Syed Muhammad Anwar, Anastasia Janas, Anahita Fathi Kazerooni, Dominic LaBella, Ahmed W Moawad, Keyvan Farahani, James Eddy, Timothy Bergquist, Verena Chung, Russell Takeshi Shinohara, Farouk Dako, Walter Wiggins, Zachary Reitman, Chunhao Wang, Xinyang Liu, Zhifan Jiang, Ariana Familiar, Gian-Marco Conte, Elaine Johanson, Zeke Meier, Christos Davatzikos, John Freymann, Justin Kirby, Michel Bilello, Hassan M Fathallah-Shaykh, Roland Wiest, Jan Kirschke, Rivka R Colen, Aikaterini Kotrotsou, Pamela Lamontagne, Daniel Marcus, Mikhail Milchenko, Arash Nazeri, Marc-Andr\'e Weber, Abhishek Mahajan, Suyash Mohan, John Mongan, Christopher Hess, Soonmee Cha, Javier Villanueva-Meyer, Errol Colak, Priscila Crivellaro, Andras Jakab, Jake Albrecht, Udunna Anazodo, Mariam Aboian, Juan Eugenio Iglesias, Koen Van Leemput, Spyridon Bakas, Daniel Rueckert, Benedikt Wiestler, Ivan Ezhov, Marie Piraud, Bjoern Menze(参考訳) 脳MR画像の自動解析のための無数のアルゴリズムが臨床医の意思決定を支援するために利用可能である。 脳腫瘍患者の場合、画像取得の時系列は、通常、既に病理的なスキャンから始まります。 多くのアルゴリズムは正常な脳を分析し、病変を特徴とする画像に対する保証を提供しない。 例としては、脳解剖学的パーセレーション、組織分割、脳抽出のアルゴリズムに限らない。 このジレンマを解決するために,BraTS 2023の塗装課題を紹介する。 ここでの参加者の課題は、損傷した脳から健康な脳スキャンを合成するための塗装技術を探ることである。 以下の原稿はタスクの定式化、データセット、提出手順を含んでいる。 その後、課題の調査結果をまとめるために更新される。 このチャレンジは、カナダのバンクーバーで開催されたMICCAI 2023カンファレンスで開催されるBraTS 2023チャレンジの一部として組織されている。

A myriad of algorithms for the automatic analysis of brain MR images is available to support clinicians in their decision-making. For brain tumor patients, the image acquisition time series typically starts with a scan that is already pathological. This poses problems, as many algorithms are designed to analyze healthy brains and provide no guarantees for images featuring lesions. Examples include but are not limited to algorithms for brain anatomy parcellation, tissue segmentation, and brain extraction. To solve this dilemma, we introduce the BraTS 2023 inpainting challenge. Here, the participants' task is to explore inpainting techniques to synthesize healthy brain scans from lesioned ones. The following manuscript contains the task formulation, dataset, and submission procedure. Later it will be updated to summarize the findings of the challenge. The challenge is organized as part of the BraTS 2023 challenge hosted at the MICCAI 2023 conference in Vancouver, Canada.
翻訳日:2023-08-10 17:17:50 公開日:2023-08-09
# Retentive Network: 大規模言語モデルのためのトランスフォーマーの継承者

Retentive Network: A Successor to Transformer for Large Language Models ( http://arxiv.org/abs/2307.08621v4 )

ライセンス: Link先を確認
Yutao Sun, Li Dong, Shaohan Huang, Shuming Ma, Yuqing Xia, Jilong Xue, Jianyong Wang, Furu Wei(参考訳) 本研究では,大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。 理論上は再発と注意の関係を導出する。 次に,並列,リカレント,チャンク回りリカレントという3つの計算パラダイムをサポートするシーケンスモデリングのための保持機構を提案する。 具体的には、並列表現は並列性を訓練することができる。 リカレント表現は、低コストの$O(1)$推論を可能にし、パフォーマンスを犠牲にすることなく、デコードスループット、レイテンシ、GPUメモリを改善する。 チャンクワイズ・リカレント表現は、各チャンクを並列に符号化し、チャンクを反復的に要約する、線形複雑性を伴う効率的なロングシーケンスモデリングを容易にする。 言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストデプロイメント、効率的な推論を実現している。 RetNetは大きな言語モデルのためのTransformerの強力な後継となる。 コードはhttps://aka.ms/retnet.comから入手できる。

In this work, we propose Retentive Network (RetNet) as a foundation architecture for large language models, simultaneously achieving training parallelism, low-cost inference, and good performance. We theoretically derive the connection between recurrence and attention. Then we propose the retention mechanism for sequence modeling, which supports three computation paradigms, i.e., parallel, recurrent, and chunkwise recurrent. Specifically, the parallel representation allows for training parallelism. The recurrent representation enables low-cost $O(1)$ inference, which improves decoding throughput, latency, and GPU memory without sacrificing performance. The chunkwise recurrent representation facilitates efficient long-sequence modeling with linear complexity, where each chunk is encoded parallelly while recurrently summarizing the chunks. Experimental results on language modeling show that RetNet achieves favorable scaling results, parallel training, low-cost deployment, and efficient inference. The intriguing properties make RetNet a strong successor to Transformer for large language models. Code will be available at https://aka.ms/retnet.
翻訳日:2023-08-10 17:11:55 公開日:2023-08-09
# Ada3D : 効率的な3Dオブジェクト検出のための適応推論による空間冗長性の爆発

Ada3D : Exploiting the Spatial Redundancy with Adaptive Inference for Efficient 3D Object Detection ( http://arxiv.org/abs/2307.08209v2 )

ライセンス: Link先を確認
Tianchen Zhao, Xuefei Ning, Ke Hong, Zhongyuan Qiu, Pu Lu, Yali Zhao, Linfeng Zhang, Lipu Zhou, Guohao Dai, Huazhong Yang, Yu Wang(参考訳) ボクセルに基づく手法は、自律運転における3次元物体検出の最先端性能を達成した。 しかし、その計算とメモリの大幅なコストは、資源に制約のある車両への適用に困難をもたらす。 この高い資源消費の理由の1つは、ライダー点雲に多数の冗長な背景点が存在することであり、3Dボクセルと密度の高いBEVマップ表現の両方に空間的冗長性をもたらす。 そこで本研究では,入力レベルの空間冗長性を利用した適応推論フレームワークAda3Dを提案する。 Ada3Dは、軽量な重要予測器とライダー点雲のユニークな特性によって導かれる冗長な入力を適応的にフィルタリングする。 さらに,バッチ正規化を保存するsparsityを導入することで,bevの特徴を生かしたsparsityを利用する。 Ada3Dでは、3Dボクセルの40%の削減を実現し、精度を犠牲にすることなく2D BEV特徴マップの密度を100%から20%に下げる。 Ada3Dはモデル計算とメモリコストを5倍に削減し、それぞれ3Dと2Dのバックボーンに対して1.52x/1.45xのGPUレイテンシと1.5x/4.5xのGPUピークメモリ最適化を実現する。

Voxel-based methods have achieved state-of-the-art performance for 3D object detection in autonomous driving. However, their significant computational and memory costs pose a challenge for their application to resource-constrained vehicles. One reason for this high resource consumption is the presence of a large number of redundant background points in Lidar point clouds, resulting in spatial redundancy in both 3D voxel and dense BEV map representations. To address this issue, we propose an adaptive inference framework called Ada3D, which focuses on exploiting the input-level spatial redundancy. Ada3D adaptively filters the redundant input, guided by a lightweight importance predictor and the unique properties of the Lidar point cloud. Additionally, we utilize the BEV features' intrinsic sparsity by introducing the Sparsity Preserving Batch Normalization. With Ada3D, we achieve 40% reduction for 3D voxels and decrease the density of 2D BEV feature maps from 100% to 20% without sacrificing accuracy. Ada3D reduces the model computational and memory cost by 5x, and achieves 1.52x/1.45x end-to-end GPU latency and 1.5x/4.5x GPU peak memory optimization for the 3D and 2D backbone respectively.
翻訳日:2023-08-10 17:11:38 公開日:2023-08-09
# INFLECT-DGNN:動的グラフニューラルネットワークによるインフルエンサー予測

INFLECT-DGNN: Influencer Prediction with Dynamic Graph Neural Networks ( http://arxiv.org/abs/2307.08131v2 )

ライセンス: Link先を確認
Elena Tiukhova, Emiliano Penaloza, Mar\'ia \'Oskarsd\'ottir, Bart Baesens, Monique Snoeck, Cristi\'an Bravo(参考訳) 予測モデリングにネットワーク情報を活用することは、多くの領域で広まっている。 参照とターゲットマーケティングの領域において、インフルエンサー検出は、顧客ブランド関係の継続的な発展による動的ネットワーク表現の取り込みから大きな恩恵を受けることができる分野として際立っている。 グラフニューラルネットワーク(gnn)とリカレントニューラルネットワーク(rnn)と重み付き損失関数を組み合わせた,ダイナミックグラフニューラルネットワークによるインフルエンサー予測のための新たなフレームワークであるinflect-dgnnと,グラフデータに適応した合成マイノリティオーバーサンプリング技術(smote)と,注意深いローリングウィンドウ戦略を紹介する。 予測性能を評価するため、3つの都市のネットワークを用いたユニークな企業データセットを用いて、インフルエンサー予測のための利益主導評価手法を導出する。 この結果から, 時間特性の符号化にRNNを用いることで, 予測性能が大幅に向上したことを示す。 各種モデルの結果を比較して,グラフ表現,時間的依存,利益主導の手法による評価の重要性を示す。

Leveraging network information for predictive modeling has become widespread in many domains. Within the realm of referral and targeted marketing, influencer detection stands out as an area that could greatly benefit from the incorporation of dynamic network representation due to the ongoing development of customer-brand relationships. To elaborate this idea, we introduce INFLECT-DGNN, a new framework for INFLuencer prEdiCTion with Dynamic Graph Neural Networks that combines Graph Neural Networks (GNN) and Recurrent Neural Networks (RNN) with weighted loss functions, the Synthetic Minority Oversampling TEchnique (SMOTE) adapted for graph data, and a carefully crafted rolling-window strategy. To evaluate predictive performance, we utilize a unique corporate data set with networks of three cities and derive a profit-driven evaluation methodology for influencer prediction. Our results show how using RNN to encode temporal attributes alongside GNNs significantly improves predictive performance. We compare the results of various models to demonstrate the importance of capturing graph representation, temporal dependencies, and using a profit-driven methodology for evaluation.
翻訳日:2023-08-10 17:11:14 公開日:2023-08-09
# ソーシャルメディア上の摂食障害コンテンツの同定のためのサイト非依存型マルチモーダル深層学習モデル

A Novel Site-Agnostic Multimodal Deep Learning Model to Identify Pro-Eating Disorder Content on Social Media ( http://arxiv.org/abs/2307.06775v2 )

ライセンス: Link先を確認
Jonathan Feldman(参考訳) 過去10年間で、摂食障害の診断や摂食障害による死亡が急増し、新型コロナウイルス(covid-19)のパンデミックで絶頂期を迎えた。 この大きな成長は、パンデミックのストレス要因だけでなく、摂食障害を促進するコンテンツに溢れるソーシャルメディアへの露出の増加にも起因している。 本研究の目的は、ソーシャルメディア投稿が視覚データとテキストデータの組み合わせに基づいて摂食障害を促進するかどうかを判断できるマルチモーダル深層学習モデルを構築することである。 ツイートのラベル付きデータセットがtwitterから収集され、12のディープラーニングモデルがトレーニングされ、テストされた。 モデル性能に基づいて、最も効果的なディープラーニングモデルは、RoBERTa自然言語処理モデルとMaxViT画像分類モデルのマルチモーダル融合であり、それぞれ95.9%と0.959のF1スコアを得た。 roberta and maxvit fusion modelは、ソーシャルメディアサイトtumblrとredditの投稿のラベルのないデータセットを分類するためにデプロイされ、人工知能ベースの技術を使用しない以前の研究結果と類似した結果を生み出した。 さらに、このモデルは8つのtwitterハッシュタグからの未発見ツイートの時系列分析に使われ、2014年以来、摂食障害を促進するコンテンツの相対的豊富さは、それらのコミュニティで劇的に減少していることが判明した。 この減少にもかかわらず、2018年までに、摂食障害を助長するコンテンツは、これらのハッシュタグで新たに減少または増加していた。

Over the last decade, there has been a vast increase in eating disorder diagnoses and eating disorder-attributed deaths, reaching their zenith during the Covid-19 pandemic. This immense growth derived in part from the stressors of the pandemic but also from increased exposure to social media, which is rife with content that promotes eating disorders. This study aimed to create a multimodal deep learning model that can determine if a given social media post promotes eating disorders based on a combination of visual and textual data. A labeled dataset of Tweets was collected from Twitter, upon which twelve deep learning models were trained and tested. Based on model performance, the most effective deep learning model was the multimodal fusion of the RoBERTa natural language processing model and the MaxViT image classification model, attaining accuracy and F1 scores of 95.9% and 0.959, respectively. The RoBERTa and MaxViT fusion model, deployed to classify an unlabeled dataset of posts from the social media sites Tumblr and Reddit, generated results akin to those of previous research studies that did not employ artificial intelligence-based techniques, indicating that deep learning models can develop insights congruent to those of researchers. Additionally, the model was used to conduct a timeseries analysis of yet unseen Tweets from eight Twitter hashtags, uncovering that, since 2014, the relative abundance of content that promotes eating disorders has decreased drastically within those communities. Despite this reduction, by 2018, content that promotes eating disorders had either stopped declining or increased in ampleness anew on these hashtags.
翻訳日:2023-08-10 17:10:29 公開日:2023-08-09
# Go Beyond The Obvious: Detective Reasoning Puzzle Benchmarkによる人文科学とLLMの非形式的推論能力のギャップを探る

Go Beyond The Obvious: Probing the gap of INFORMAL reasoning ability between Humanity and LLMs by Detective Reasoning Puzzle Benchmark ( http://arxiv.org/abs/2307.05113v2 )

ライセンス: Link先を確認
Zhouhon Gu, Zihan Li, Lin Zhang, Zhuozhi Xiong, Haoning Ye, Yikai Zhang, Wenhao Huang, Xiaoxuan Zhu, Qianyu He, Rui Xu, Sihang Jiang, Shusen Wang, Zili Wang, Hongwei Feng, Zhixu Li, Yanghua Xiao(参考訳) インフォーマル推論能力は、常識、経験、直観に基づいて推論する能力であり、Humansは日常的に非公式な推論を使用して、大量の生命のような情報から意思決定に最も影響力のある要素を抽出し、言語モデルの急速な発展により、汎用人工知能の実現が期待されている。 Given the outstanding informal reasoning ability of humans, how much informal reasoning ability language models have has not been well studied by scholars.In order to explore the gap between humans and language models in informal reasoning ability, this paper constructs a Detective Reasoning Benchmark, which is an assembly of 1,200 questions gathered from accessible online resources, aims at evaluating the model's informal reasoning ability in real-life context.Considering the improvement of the model's informal reasoning ability restricted by the lack of benchmark, we further propose a Self-Question Prompt Framework that mimics human thinking to enhance the model's informal reasoning ability.The goals of self-question are to find key elements, deeply investigate the connections between these elements, encourage the relationship between each element and the problem, and finally, require the model to reasonably answer the problem.The experimental results show that human performance greatly outperforms the SoTA Language Models in Detective Reasoning Benchmark.Besides, Self-Question is proven to be the most effective prompt engineering in improving GPT-4's informal reasoning ability, but it still does not even surpass the lowest score made by human participants.Upon acceptance of the paper, the source code for the benchmark will be made publicly accessible.

Informal reasoning ability is the ability to reason based on common sense, experience, and intuition.Humans use informal reasoning every day to extract the most influential elements for their decision-making from a large amount of life-like information.With the rapid development of language models, the realization of general artificial intelligence has emerged with hope. Given the outstanding informal reasoning ability of humans, how much informal reasoning ability language models have has not been well studied by scholars.In order to explore the gap between humans and language models in informal reasoning ability, this paper constructs a Detective Reasoning Benchmark, which is an assembly of 1,200 questions gathered from accessible online resources, aims at evaluating the model's informal reasoning ability in real-life context.Considering the improvement of the model's informal reasoning ability restricted by the lack of benchmark, we further propose a Self-Question Prompt Framework that mimics human thinking to enhance the model's informal reasoning ability.The goals of self-question are to find key elements, deeply investigate the connections between these elements, encourage the relationship between each element and the problem, and finally, require the model to reasonably answer the problem.The experimental results show that human performance greatly outperforms the SoTA Language Models in Detective Reasoning Benchmark.Besides, Self-Question is proven to be the most effective prompt engineering in improving GPT-4's informal reasoning ability, but it still does not even surpass the lowest score made by human participants.Upon acceptance of the paper, the source code for the benchmark will be made publicly accessible.
翻訳日:2023-08-10 17:10:00 公開日:2023-08-09
# 時系列グラフニューラルネットワークに関する調査:予測,分類,インプット,異常検出

A Survey on Graph Neural Networks for Time Series: Forecasting, Classification, Imputation, and Anomaly Detection ( http://arxiv.org/abs/2307.03759v2 )

ライセンス: Link先を確認
Ming Jin, Huan Yee Koh, Qingsong Wen, Daniele Zambon, Cesare Alippi, Geoffrey I. Webb, Irwin King, Shirui Pan(参考訳) 時系列は、動的システムの計測を記録し、物理センサーとオンラインプロセス(仮想センサー)の両方によって大量に生成される主要なデータ型である。 したがって、時系列分析は、利用可能なデータに暗黙のうちに大量の情報を解き放つのに不可欠である。 グラフニューラルネットワーク(GNN)の最近の進歩により、時系列分析のためのGNNベースのアプローチが急増している。 これらのアプローチは、従来のニューラルネットワークベースの手法では難しい、時間的および変数間の関係を明示的にモデル化することができる。 本調査では,時系列解析(GNN4TS)のためのグラフニューラルネットワークの網羅的レビューを行い,予測,分類,異常検出,計算の4つの基本次元を網羅した。 我々の目標は、デザイナーや実践者がGNN4TSの理解を深め、アプリケーションを構築し、研究を進めることにある。 まず、GNN4TSの包括的なタスク指向分類を提供する。 そこで我々は,代表的研究成果を提示し,GNN4TSのメインストリーム応用を紹介する。 今後の研究方向性に関する総合的な議論が、調査を完了させる。 この調査は、gnnベースの時系列研究に関する膨大な知識をまとめたもので、基礎、実践的応用、時系列分析のためのグラフニューラルネットワークの機会を強調するものだ。

Time series are the primary data type used to record dynamic system measurements and generated in great volume by both physical sensors and online processes (virtual sensors). Time series analytics is therefore crucial to unlocking the wealth of information implicit in available data. With the recent advancements in graph neural networks (GNNs), there has been a surge in GNN-based approaches for time series analysis. These approaches can explicitly model inter-temporal and inter-variable relationships, which traditional and other deep neural network-based methods struggle to do. In this survey, we provide a comprehensive review of graph neural networks for time series analysis (GNN4TS), encompassing four fundamental dimensions: forecasting, classification, anomaly detection, and imputation. Our aim is to guide designers and practitioners to understand, build applications, and advance research of GNN4TS. At first, we provide a comprehensive task-oriented taxonomy of GNN4TS. Then, we present and discuss representative research works and introduce mainstream applications of GNN4TS. A comprehensive discussion of potential future research directions completes the survey. This survey, for the first time, brings together a vast array of knowledge on GNN-based time series research, highlighting foundations, practical applications, and opportunities of graph neural networks for time series analysis.
翻訳日:2023-08-10 17:09:37 公開日:2023-08-09
# 局所固有次元を用いた深部拡散モデルによる画像の検出

Detecting Images Generated by Deep Diffusion Models using their Local Intrinsic Dimensionality ( http://arxiv.org/abs/2307.02347v4 )

ライセンス: Link先を確認
Peter Lorenz, Ricard Durall and Janis Keuper(参考訳) 近年,非常にリアルな画像の視覚的合成に拡散モデルが適用されている。 これにより、悪質な目的に対する潜在的な懸念が高まる。 本稿では,合成画像の自動検出とそれに基づく生成ネットワークの同定のために,元来,敵対例の検出の文脈で開発された軽量なマルチローカル固有次元(multiLID)を提案する。 GAN生成画像に対してのみ動作する多くの既存の検出手法とは対照的に,提案手法は現実的なユースケースの多くにおいて,ほぼ完璧な検出結果を提供する。 既知のデータセットと新たに作成されたデータセットに関する広範な実験は、提案手法が拡散検出とモデル同定において優れていることを示している。 生成画像の検出に関する最近の出版物の実証的評価は、主に「lsun-bedroom」データセットに焦点を当てているため、画像サイズが異なる複数の拡散モデルからのサンプルを含む拡散生成画像の検出に関する包括的なベンチマークを確立する。

Diffusion models recently have been successfully applied for the visual synthesis of strikingly realistic appearing images. This raises strong concerns about their potential for malicious purposes. In this paper, we propose using the lightweight multi Local Intrinsic Dimensionality (multiLID), which has been originally developed in context of the detection of adversarial examples, for the automatic detection of synthetic images and the identification of the according generator networks. In contrast to many existing detection approaches, which often only work for GAN-generated images, the proposed method provides close to perfect detection results in many realistic use cases. Extensive experiments on known and newly created datasets demonstrate that the proposed multiLID approach exhibits superiority in diffusion detection and model identification. Since the empirical evaluations of recent publications on the detection of generated images are often mainly focused on the "LSUN-Bedroom" dataset, we further establish a comprehensive benchmark for the detection of diffusion-generated images, including samples from several diffusion models with different image sizes.
翻訳日:2023-08-10 17:09:02 公開日:2023-08-09
# mvdiffusion:対応認識拡散を用いた総合的多視点画像生成の実現

MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion ( http://arxiv.org/abs/2307.01097v3 )

ライセンス: Link先を確認
Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, Yasutaka Furukawa(参考訳) 本稿では,パノラマ画像や多視点画像(深度マップとポーズ)など,画素対ピクセル対応が利用可能なシナリオに対して,シンプルで効果的なマルチビュー画像生成手法であるMVDiffusionを紹介する。 反復的なイメージウォーピングとインペインティングに依存する以前のモデルとは異なり、mvdiffusionは、高解像度とリッチなコンテンツを含むグローバルアウェアネスを持つ全ての画像を同時に生成し、前モデルで広く普及したエラー蓄積を効果的に解決する。 MVDiffusionは特に、効果的なクロスビューインタラクションを可能にする対応対応型アテンション機構を組み込んでいる。 このメカニズムは3つの重要なモジュールを支える。 1)グローバル対応を維持しつつ低解像度画像を生成する生成モジュール 2)画像間の空間被覆を拡大する補間モジュール及び 3) 高解像度出力にスケールアップ可能なスーパーレゾリューションモジュール。 パノラマ画像に関しては、mvdiffusionは1024$\times$1024ピクセルの高解像度フォトリアリスティック画像を生成することができる。 幾何条件のマルチビュー画像生成では、MVDiffusionはシーンメッシュのテクスチャマップを生成する最初の方法を示す。 プロジェクトページはhttps://mvdiffusion.github.ioにある。

This paper introduces MVDiffusion, a simple yet effective multi-view image generation method for scenarios where pixel-to-pixel correspondences are available, such as perspective crops from panorama or multi-view images given geometry (depth maps and poses). Unlike prior models that rely on iterative image warping and inpainting, MVDiffusion concurrently generates all images with a global awareness, encompassing high resolution and rich content, effectively addressing the error accumulation prevalent in preceding models. MVDiffusion specifically incorporates a correspondence-aware attention mechanism, enabling effective cross-view interaction. This mechanism underpins three pivotal modules: 1) a generation module that produces low-resolution images while maintaining global correspondence, 2) an interpolation module that densifies spatial coverage between images, and 3) a super-resolution module that upscales into high-resolution outputs. In terms of panoramic imagery, MVDiffusion can generate high-resolution photorealistic images up to 1024$\times$1024 pixels. For geometry-conditioned multi-view image generation, MVDiffusion demonstrates the first method capable of generating a textured map of a scene mesh. The project page is at https://mvdiffusion.github.io.
翻訳日:2023-08-10 17:08:45 公開日:2023-08-09
# 雑音乱数行列モデルに対するクリロフ複雑性とスペクトル形状因子

Krylov Complexity and Spectral Form Factor for Noisy Random Matrix Models ( http://arxiv.org/abs/2307.15495v2 )

ライセンス: Link先を確認
Arpan Bhattacharyya, S. Shajidul Haque, Ghadir Jafari, Jeff Murugan, Dimakatso Rapotu(参考訳) 擬似ポテンシャルを持つ非ガウス RMT とガウス雑音を持つ RMT の2種類のランダム行列モデルのスペクトル特性について検討した。 我々は、量子クリロフの複雑性と、これらの両方のモデルのスペクトル形式因子を計算および解析する。 両モデルともデコヒーレンス効果により短時間でスペクトル形成因子の抑制効果を示すが,長期間の挙動が異なることが判明した。 特に、非ガウス RMT と RMT のノイズを伴うクリロフ複雑性がガウス RMT のノイズから逸脱することを示し、この偏差を物理的に解釈する。 オープン量子システムにおける量子カオスと量子情報に対する結果の意味と限界について議論する。 本研究は,スペクトル形状因子と非ガウス性および雑音に対する複雑性の異なる感性を示し,異なる時間領域における観察された違いに寄与する。

We study the spectral properties of two classes of random matrix models: non-Gaussian RMT with quartic and sextic potentials, and RMT with Gaussian noise. We compute and analyze the quantum Krylov complexity and the spectral form factor for both of these models. We find that both models show suppression of the spectral form factor at short times due to decoherence effects, but they differ in their long-time behavior. In particular, we show that the Krylov complexity for the non-Gaussian RMT and RMT with noise deviates from that of a Gaussian RMT, and provide a physical interpretation of this deviation. We discuss the implications and limitations of our results for quantum chaos and quantum information in open quantum systems. Our study reveals the distinct sensitivities of the spectral form factor and complexity to non-Gaussianity and noise, which contribute to the observed differences in the different time domains.
翻訳日:2023-08-10 17:01:50 公開日:2023-08-09
# Auto-Tables: 例を使わずにテーブルをリレーショナル化するマルチステップ変換の合成

Auto-Tables: Synthesizing Multi-Step Transformations to Relationalize Tables without Using Examples ( http://arxiv.org/abs/2307.14565v2 )

ライセンス: Link先を確認
Peng Li, Yeye He, Cong Yan, Yue Wang, Surajit Chaudhuri(参考訳) 各行がエンティティに対応し、各列が属性に対応しているリレーショナルテーブルは、リレーショナルデータベースにおけるテーブルの標準となっている。 しかし、そのような標準は「野生の」テーブルを扱うときに当然のことだとは考えられない。 実際のスプレッドシートテーブルとwebテーブルに関する調査では、このようなテーブルの30%以上がリレーショナル標準に準拠していないことが分かりました。 StackOverflowやExcel/Power-BI/Tableauフォーラムなど,多数のフォーラムの質問が証明しているように,技術的および非技術的ユーザにとって,プログラムに必要な変換は大きな問題ではない。 我々は,マルチステップ変換(Pythonや他の言語)でパイプラインを自動的に合成し,非リレーショナルテーブルを標準リレーショナル形式に変換して下流分析を行い,ユーザが手動でトランスフォーメーションをプログラムする必要をなくすオートテイブルシステムを開発した。 ユーザスプレッドシートとオンラインフォーラムから244の実際のテストケースを収集することで、この新しいタスクの広範なベンチマークをコンパイルする。 評価の結果, 自動テーブルはユーザからの入力を必要とせず, 70%以上のテストケースに対して, インタラクティブな速度で変換を効果的に合成できることが示唆された。

Relational tables, where each row corresponds to an entity and each column corresponds to an attribute, have been the standard for tables in relational databases. However, such a standard cannot be taken for granted when dealing with tables "in the wild". Our survey of real spreadsheet-tables and web-tables shows that over 30% of such tables do not conform to the relational standard, for which complex table-restructuring transformations are needed before these tables can be queried easily using SQL-based analytics tools. Unfortunately, the required transformations are non-trivial to program, which has become a substantial pain point for technical and non-technical users alike, as evidenced by large numbers of forum questions in places like StackOverflow and Excel/Power-BI/Tableau forums. We develop an Auto-Tables system that can automatically synthesize pipelines with multi-step transformations (in Python or other languages), to transform non-relational tables into standard relational forms for downstream analytics, obviating the need for users to manually program transformations. We compile an extensive benchmark for this new task, by collecting 244 real test cases from user spreadsheets and online forums. Our evaluation suggests that Auto-Tables can successfully synthesize transformations for over 70% of test cases at interactive speeds, without requiring any input from users, making this an effective tool for both technical and non-technical users to prepare data for analytics.
翻訳日:2023-08-10 17:01:35 公開日:2023-08-09
# mystique:レイアウト再利用のためにsvgチャートを分解する

Mystique: Deconstructing SVG Charts for Layout Reuse ( http://arxiv.org/abs/2307.13567v2 )

ライセンス: Link先を確認
Chen Chen, Bongshin Lee, Yunhai Wang, Yunjeong Chang, Zhicheng Liu(参考訳) 既存のチャートの再利用を容易にするため、従来の研究では、その視覚表現をエンコーディングなどの再利用可能なコンポーネントに分解することで、チャートの意味的理解を得る方法について検討した。 しかし、既存のデコンストラクションアプローチは主にチャートスタイルにフォーカスし、基本的なレイアウトのみを扱う。 本稿では、17種類のチャート型だけでなく、高度なレイアウト(例えば、小さな多重、ネストされたレイアウト)をカバーするため、長方形に基づくチャートレイアウトを分解する方法を検討する。 我々はMystiqueと呼ばれる対話型ツールを開発し、軸と伝説を抽出するための混合開始的アプローチを採用し、チャートのレイアウトを4つの意味的構成要素(マークグループ、空間関係、データエンコーディング、グラフィカル制約)に分解する。 Mystiqueはウィザードインターフェースを採用し、チャート作成者を一連のステップでガイドし、分解されたコンポーネントが自身のデータにどのようにマップするかを指定する。 150長方形のSVGチャートでは、Mistiqueは軸と伝説抽出の精度が85%以上、レイアウト分解の精度が96%以上である。 グラフ再現研究では、参加者は新しいデータセットで既存のチャートを簡単に再利用することができた。 我々はミスティークの限界と今後の研究方向について論じる。

To facilitate the reuse of existing charts, previous research has examined how to obtain a semantic understanding of a chart by deconstructing its visual representation into reusable components, such as encodings. However, existing deconstruction approaches primarily focus on chart styles, handling only basic layouts. In this paper, we investigate how to deconstruct chart layouts, focusing on rectangle-based ones, as they cover not only 17 chart types but also advanced layouts (e.g., small multiples, nested layouts). We develop an interactive tool, called Mystique, adopting a mixed-initiative approach to extract the axes and legend, and deconstruct a chart's layout into four semantic components: mark groups, spatial relationships, data encodings, and graphical constraints. Mystique employs a wizard interface that guides chart authors through a series of steps to specify how the deconstructed components map to their own data. On 150 rectangle-based SVG charts, Mystique achieves above 85% accuracy for axis and legend extraction and 96% accuracy for layout deconstruction. In a chart reproduction study, participants could easily reuse existing charts on new datasets. We discuss the current limitations of Mystique and future research directions.
翻訳日:2023-08-10 17:01:06 公開日:2023-08-09
# 距離ディキンウォークによるpsdコーンの効率的なサンプリング

Efficiently Sampling the PSD Cone with the Metric Dikin Walk ( http://arxiv.org/abs/2307.12943v2 )

ライセンス: Link先を確認
Yunbum Kook, Santosh S. Vempala(参考訳) 半定義プログラムは効率的な計算のフロンティアを表す。 半定値最適化には多くの進歩があり、中程度のインスタンスは、現在インテリアポイント法で解決可能であるが、半定値解をサンプリングする基本的な問題は、依然として非常に難しい課題である。 一般凸体をサンプリングするための既知の多項式時間アルゴリズムの半定サンプリングへの直接適用は、極めて高い実行時間をもたらす。 さらに、既知の一般的な方法は、前処理として高価な丸めフェーズを必要とする。 ここではダイキンウォークを分析し、まず一般的なメトリクスに適応し、次にアフィン制約のあるpsdコーンに適したメトリクスを考案する。 結果として生じる混合時間とステップ毎の複雑さはかなり小さく、計量の適切な選択により、制約数への依存を多元対数化することができる。 自己調和行列関数の洗練された概念を導入し、異なるメトリクスを組み合わせるためのルールを与える。 その過程で, サンプリングのための内点法の理論をさらに発展させる。

Semi-definite programs represent a frontier of efficient computation. While there has been much progress on semi-definite optimization, with moderate-sized instances currently solvable in practice by the interior-point method, the basic problem of sampling semi-definite solutions remains a formidable challenge. The direct application of known polynomial-time algorithms for sampling general convex bodies to semi-definite sampling leads to a prohibitively high running time. In addition, known general methods require an expensive rounding phase as pre-processing. Here we analyze the Dikin walk, by first adapting it to general metrics, then devising suitable metrics for the PSD cone with affine constraints. The resulting mixing time and per-step complexity are considerably smaller, and by an appropriate choice of the metric, the dependence on the number of constraints can be made polylogarithmic. We introduce a refined notion of self-concordant matrix functions and give rules for combining different metrics. Along the way, we further develop the theory of interior-point methods for sampling.
翻訳日:2023-08-10 17:00:46 公開日:2023-08-09
# WEPRO:ハイブリッド量子古典アルゴリズムの効率的な最適化のための重み予測

WEPRO: Weight Prediction for Efficient Optimization of Hybrid Quantum-Classical Algorithms ( http://arxiv.org/abs/2307.12449v2 )

ライセンス: Link先を確認
Satwik Kundu, Debarshi Kundu and Swaroop Ghosh(参考訳) 古典機械上での量子シミュレータの指数的実行時間と待ち行列深度、および実量子デバイスの高コストは、量子ニューラルネットワーク(QNN)、変分量子固有解法(VQE)、量子近似最適化アルゴリズム(QAOA)などの変分量子アルゴリズム(VQA)の効果的なトレーニングにおいて大きな課題となる。 これらの制約に対処するため、パラメータ重みの規則的傾向を利用してVQAの収束を加速する新しい手法、WEPRO(Weight Prediction)を提案する。 本稿では,最適予測性能のための2つの手法,naive prediction(nap)とadaptive prediction(adap)を提案する。 様々なデータセット上の複数のQNNモデルの広範な実験とトレーニングを通じて、WEPROは標準的なトレーニング手法と比較して約2.25\times$のスピードアップを提供し、ストレージと計算オーバーヘッドの少ない精度(最大2.3\%$以上)と損失(最大6.1\%$以下)を提供する。 また,分子基底エネルギー推定のためのVQEとグラフMaxCutのQAOAにおけるWEPROの有効性を評価した。 その結果、WEPROは従来の最適化手法と比較して最大3.1\times$VQEと2.91\times$QAOAの速度改善を実現し、トレーニングイテレーションあたりのショット数(繰り返し回路実行)を最大3.3\times$に削減した。

The exponential run time of quantum simulators on classical machines and long queue depths and high costs of real quantum devices present significant challenges in the effective training of Variational Quantum Algorithms (VQAs) like Quantum Neural Networks (QNNs), Variational Quantum Eigensolver (VQE) and Quantum Approximate Optimization Algorithm (QAOA). To address these limitations, we propose a new approach, WEPRO (Weight Prediction), which accelerates the convergence of VQAs by exploiting regular trends in the parameter weights. We introduce two techniques for optimal prediction performance namely, Naive Prediction (NaP) and Adaptive Prediction (AdaP). Through extensive experimentation and training of multiple QNN models on various datasets, we demonstrate that WEPRO offers a speedup of approximately $2.25\times$ compared to standard training methods, while also providing improved accuracy (up to $2.3\%$ higher) and loss (up to $6.1\%$ lower) with low storage and computational overheads. We also evaluate WEPRO's effectiveness in VQE for molecular ground-state energy estimation and in QAOA for graph MaxCut. Our results show that WEPRO leads to speed improvements of up to $3.1\times$ for VQE and $2.91\times$ for QAOA, compared to traditional optimization techniques, while using up to $3.3\times$ less number of shots (i.e., repeated circuit executions) per training iteration.
翻訳日:2023-08-10 17:00:31 公開日:2023-08-09
# 教育における人間とaiのハイブリッドエッセイのための境界の自動検出

Towards Automatic Boundary Detection for Human-AI Collaborative Hybrid Essay in Education ( http://arxiv.org/abs/2307.12267v2 )

ライセンス: Link先を確認
Zijie Zeng, Lele Sha, Yuheng Li, Kaixun Yang, Dragan Ga\v{s}evi\'c, Guanliang Chen(参考訳) 最近の大規模言語モデル(llm)、例えばchatgptは、特定の指示が提供されたときに、人間的かつ流動的な応答を生成することができる。 技術進歩によってもたらされる利便性を認める一方で、教育者は、学生がLSMを活用して執筆の課題を完了し、それらを元の作業として引き渡すのではないかと懸念している。 このような懸念から、多くのAIコンテンツ検出研究が実施されているが、これらの先行研究の多くは、テキストが完全に人間書きであるか、完全にAI生成であると仮定して、AIコンテンツ検出を分類問題としてモデル化した。 本研究では,人間と生成的LLM(ハイブリッドテキスト)が共同で検出対象のテキストを書けるような,希少かつ現実的な環境下でのAIコンテンツ検出について検討した。 まず,対象とするハイブリッドテキスト(境界検出)から人書きコンテンツとAI生成コンテンツ間の遷移点を特定することを目的とした。 そこで我々は,(1)エンコーダ訓練中にAI生成コンテンツと人書きコンテンツとを分離する2段階のアプローチを提案し,(2)隣り合う2つのプロトタイプ間の距離を計算し,その境界が互いに最も近い2つのプロトタイプの間に存在すると仮定した。 Through extensive experiments, we observed the following main findings: (1) the proposed approach consistently outperformed the baseline methods across different experiment settings; (2) the encoder training process can significantly boost the performance of the proposed approach; (3) when detecting boundaries for single-boundary hybrid essays, the proposed approach could be enhanced by adopting a relatively large prototype size, leading to a 22% improvement in the In-Domain evaluation and an 18% improvement in the Out-of-Domain evaluation.

The recent large language models (LLMs), e.g., ChatGPT, have been able to generate human-like and fluent responses when provided with specific instructions. While admitting the convenience brought by technological advancement, educators also have concerns that students might leverage LLMs to complete their writing assignments and pass them off as their original work. Although many AI content detection studies have been conducted as a result of such concerns, most of these prior studies modeled AI content detection as a classification problem, assuming that a text is either entirely human-written or entirely AI-generated. In this study, we investigated AI content detection in a rarely explored yet realistic setting where the text to be detected is collaboratively written by human and generative LLMs (i.e., hybrid text). We first formalized the detection task as identifying the transition points between human-written content and AI-generated content from a given hybrid text (boundary detection). Then we proposed a two-step approach where we (1) separated AI-generated content from human-written content during the encoder training process; and (2) calculated the distances between every two adjacent prototypes and assumed that the boundaries exist between the two adjacent prototypes that have the furthest distance from each other. Through extensive experiments, we observed the following main findings: (1) the proposed approach consistently outperformed the baseline methods across different experiment settings; (2) the encoder training process can significantly boost the performance of the proposed approach; (3) when detecting boundaries for single-boundary hybrid essays, the proposed approach could be enhanced by adopting a relatively large prototype size, leading to a 22% improvement in the In-Domain evaluation and an 18% improvement in the Out-of-Domain evaluation.
翻訳日:2023-08-10 16:59:59 公開日:2023-08-09
# LoLep: 局所学習平面と自己認識オクルージョン推論を用いた単一ビュービュー合成

LoLep: Single-View View Synthesis with Locally-Learned Planes and Self-Attention Occlusion Inference ( http://arxiv.org/abs/2307.12217v2 )

ライセンス: Link先を確認
Cong Wang, Yu-Ping Wang, Dinesh Manocha(参考訳) 本稿では,1枚のRGB画像から局所学習平面を回帰してシーンを正確に表現するLoLepを提案する。 深度情報がなければ、適切な平面位置の後退は難しい問題である。 この問題を解決するために、各ビンの複数の平面に対する局所オフセットを回帰する分散サンプリング器を設計し、各ビンに分散空間を分割する。 しかし,そのようなサンプルを用いただけでネットワークは収束しない。さらに,データセットの異なる分散分布と組み合わせた2つの最適化戦略を提案し,簡易かつ効果的な幾何的監督手法として,オクルージョン認識の再投影損失を提案する。 また、オクルージョン推論を改善する自己注意機構を導入し、大きな特徴マップに自己意識を適用する問題に対処するブロックサンプリング自己意識(BS-SA)モジュールを提案する。 提案手法の有効性を実証し,異なるデータセットで最新の結果を生成する。 MINEと比較して、LPIPSは4.8%-9.0%、RVは73.9%-83.5%である。 また,実世界の画像における性能評価を行い,その効果を示す。

We propose a novel method, LoLep, which regresses Locally-Learned planes from a single RGB image to represent scenes accurately, thus generating better novel views. Without the depth information, regressing appropriate plane locations is a challenging problem. To solve this issue, we pre-partition the disparity space into bins and design a disparity sampler to regress local offsets for multiple planes in each bin. However, only using such a sampler makes the network not convergent; we further propose two optimizing strategies that combine with different disparity distributions of datasets and propose an occlusion-aware reprojection loss as a simple yet effective geometric supervision technique. We also introduce a self-attention mechanism to improve occlusion inference and present a Block-Sampling Self-Attention (BS-SA) module to address the problem of applying self-attention to large feature maps. We demonstrate the effectiveness of our approach and generate state-of-the-art results on different datasets. Compared to MINE, our approach has an LPIPS reduction of 4.8%-9.0% and an RV reduction of 73.9%-83.5%. We also evaluate the performance on real-world images and demonstrate the benefits.
翻訳日:2023-08-10 16:59:26 公開日:2023-08-09
# RL-ViGen:視覚一般化のための強化学習ベンチマーク

RL-ViGen: A Reinforcement Learning Benchmark for Visual Generalization ( http://arxiv.org/abs/2307.10224v2 )

ライセンス: Link先を確認
Zhecheng Yuan, Sizhe Yang, Pu Hua, Can Chang, Kaizhe Hu, Xiaolong Wang, Huazhe Xu(参考訳) 視覚強化学習(Visual Reinforcement Learning, Visual RL)は、高次元の観察と相まって、分布外一般化という長年にわたる課題に直面してきた。 視覚的一般化問題の解決を目的としたアルゴリズムに重点を置いているにもかかわらず、デビルは孤立したタスクや一般化カテゴリに限定されており、エージェントの視覚的一般化能力の包括的な評価を損なうため、既存のベンチマークにあると論じる。 視覚一般化のための強化学習ベンチマーク(Reinforcement Learning Benchmark for Visual Generalization, RL-ViGen)は,多様なタスクと多種多様な一般化型を含み,より信頼性の高い結論の導出を容易にする。 さらに、RL-ViGenは最新の一般化ビジュアルRLアルゴリズムを統一されたフレームワークに組み込んでいる。 我々の願望は、RL-ViGenがこの領域で触媒として機能し、現実のシナリオに適した普遍的な視覚一般化RLエージェントの創出の基礎となることである。 コードへのアクセスと実装されたアルゴリズムはhttps://gemcollector.github.io/RL-ViGen/で提供されます。

Visual Reinforcement Learning (Visual RL), coupled with high-dimensional observations, has consistently confronted the long-standing challenge of out-of-distribution generalization. Despite the focus on algorithms aimed at resolving visual generalization problems, we argue that the devil is in the existing benchmarks as they are restricted to isolated tasks and generalization categories, undermining a comprehensive evaluation of agents' visual generalization capabilities. To bridge this gap, we introduce RL-ViGen: a novel Reinforcement Learning Benchmark for Visual Generalization, which contains diverse tasks and a wide spectrum of generalization types, thereby facilitating the derivation of more reliable conclusions. Furthermore, RL-ViGen incorporates the latest generalization visual RL algorithms into a unified framework, under which the experiment results indicate that no single existing algorithm has prevailed universally across tasks. Our aspiration is that RL-ViGen will serve as a catalyst in this area, and lay a foundation for the future creation of universal visual generalization RL agents suitable for real-world scenarios. Access to our code and implemented algorithms is provided at https://gemcollector.github.io/RL-ViGen/.
翻訳日:2023-08-10 16:58:22 公開日:2023-08-09
# 変数の代替:リスク-逆ポリシー勾配に対するジーニ偏差

An Alternative to Variance: Gini Deviation for Risk-averse Policy Gradient ( http://arxiv.org/abs/2307.08873v2 )

ライセンス: Link先を確認
Yudong Luo, Guiliang Liu, Pascal Poupart, Yangchen Pan(参考訳) 政策の回帰の分散を制限することは、その明確な数学的定義と容易に解釈できるため、リスク回避強化学習(RL)において一般的な選択である。 従来の手法では、全戻り値の分散を直接制限する。 最近の方法は、プロキシとしてのステップごとの報酬分散を制限する。 数値スケールに対する感受性や政策学習の妨げなど,これらの分散に基づく手法の限界を徹底的に検討し,代替リスク尺度であるジーニ偏差を代替手段として用いることを提案する。 我々は,この新しいリスク尺度の諸特性を調査し,その最小化のための政策勾配アルゴリズムを導出する。 リスク回避が明確に定義できる領域における経験的評価から,本アルゴリズムは分散に基づくリスク対策の限界を緩和し,他者が合理的な方針を学習できない場合,分散やgini偏差の面で低いリスクで高いリターンを達成することができることを示した。

Restricting the variance of a policy's return is a popular choice in risk-averse Reinforcement Learning (RL) due to its clear mathematical definition and easy interpretability. Traditional methods directly restrict the total return variance. Recent methods restrict the per-step reward variance as a proxy. We thoroughly examine the limitations of these variance-based methods, such as sensitivity to numerical scale and hindering of policy learning, and propose to use an alternative risk measure, Gini deviation, as a substitute. We study various properties of this new risk measure and derive a policy gradient algorithm to minimize it. Empirical evaluation in domains where risk-aversion can be clearly defined, shows that our algorithm can mitigate the limitations of variance-based risk measures and achieves high return with low risk in terms of variance and Gini deviation when others fail to learn a reasonable policy.
翻訳日:2023-08-10 16:58:01 公開日:2023-08-09
# AutoML4ETC: リアルタイム暗号化トラフィック分類のためのニューラルネットワークの自動検索

AutoML4ETC: Automated Neural Architecture Search for Real-World Encrypted Traffic Classification ( http://arxiv.org/abs/2308.02182v2 )

ライセンス: Link先を確認
Navid Malekghaini, Elham Akbari, Mohammad A. Salahuddin, Noura Limam, Raouf Boutaba, Bertrand Mathieu, Stephanie Moteau, Stephane Tuffin(参考訳) deep learning (dl) は、実験環境での暗号化されたネットワークトラフィックの分類にうまく適用されている。 しかし, 製造において, DL分類器の性能は時間とともに必然的に低下することが示されている。 新たなデータセットでモデルを再トレーニングすることで、パフォーマンスが部分的に向上することが示されている。 新しいデータセットのパフォーマンス期待に応えるために、手動でモデルアーキテクチャを再調整するのは時間がかかり、ドメインの専門知識が必要です。 暗号化トラヒック分類のための効率良く高性能なニューラルアーキテクチャを自動設計する新しいツールであるautoml4etcを提案する。 パケットヘッダバイトを用いた暗号化トラフィックのほぼリアルタイムな分類に特化して,新しい強力な検索空間を定義する。 検索空間上の異なる検索戦略により、AutoML4ETCは、Orangeモバイルネットワークから収集された公開ベンチマークデータセットや実世界のTLS、QUICトラフィックを含む、いくつかのデータセット上で最先端の暗号化されたトラフィック分類器を上回る、ニューラルネットワークを生成する。 より正確なことに加えて、AutoML4ETCのアーキテクチャはパラメータの数に関してはるかに効率的で軽量である。 最後に、将来の研究のためにAutoML4ETCを公開します。

Deep learning (DL) has been successfully applied to encrypted network traffic classification in experimental settings. However, in production use, it has been shown that a DL classifier's performance inevitably decays over time. Re-training the model on newer datasets has been shown to only partially improve its performance. Manually re-tuning the model architecture to meet the performance expectations on newer datasets is time-consuming and requires domain expertise. We propose AutoML4ETC, a novel tool to automatically design efficient and high-performing neural architectures for encrypted traffic classification. We define a novel, powerful search space tailored specifically for the near real-time classification of encrypted traffic using packet header bytes. We show that with different search strategies over our search space, AutoML4ETC generates neural architectures that outperform the state-of-the-art encrypted traffic classifiers on several datasets, including public benchmark datasets and real-world TLS and QUIC traffic collected from the Orange mobile network. In addition to being more accurate, AutoML4ETC's architectures are significantly more efficient and lighter in terms of the number of parameters. Finally, we make AutoML4ETC publicly available for future research.
翻訳日:2023-08-10 16:51:05 公開日:2023-08-09
# 連続対称性を持つ新しい畳み込みニューラルネットワークアーキテクチャ

A Novel Convolutional Neural Network Architecture with a Continuous Symmetry ( http://arxiv.org/abs/2308.01621v2 )

ライセンス: Link先を確認
Yao Liu, Hang Shao, Bing Bai(参考訳) 本稿では,準線形双曲型システムと呼ばれる偏微分方程式(pdes)のクラスに触発された新しい畳み込みニューラルネットワーク(convnet)アーキテクチャを提案する。 画像分類タスクで同等の性能を持つので、連続した対称性の群を通して重みを修正できる。 これは、アーキテクチャと重みが本質的に固定された従来のモデルから大きく変わります。 我々は、ニューラルネットワークの新たな望ましい特性として(内部)対称性を推進し、より広範なDeep LearningコミュニティにおけるConvNetの分析と解釈におけるPDE視点に注意を向けたい。

This paper introduces a new Convolutional Neural Network (ConvNet) architecture inspired by a class of partial differential equations (PDEs) called quasi-linear hyperbolic systems. With comparable performance on the image classification task, it allows for the modification of the weights via a continuous group of symmetry. This is a significant shift from traditional models where the architecture and weights are essentially fixed. We wish to promote the (internal) symmetry as a new desirable property for a neural network, and to draw attention to the PDE perspective in analyzing and interpreting ConvNets in the broader Deep Learning community.
翻訳日:2023-08-10 16:50:46 公開日:2023-08-09
# 運動インクリメントを用いた運動予測のための時空間分岐

Spatio-Temporal Branching for Motion Prediction using Motion Increments ( http://arxiv.org/abs/2308.01097v2 )

ライセンス: Link先を確認
Jiexin Wang, Yujie Zhou, Wenwen Qiang, Ying Ba, Bing Su, Ji-Rong Wen(参考訳) HMP(Human Motion Prediction)は多種多様な応用のために人気の高い研究トピックとして登場したが、将来的なポーズの確率的・周期的性質のため、依然として難しい課題である。 従来の手法は手作りの特徴と機械学習技術に依存しており、人間の動きの複雑なダイナミクスをモデル化するのに苦労することが多い。 近年の深層学習に基づく手法は、時空間的な動きの表現を学習することで成功しているが、これらのモデルはしばしば動きデータの信頼性を見落としている。 さらに、スケルトンノードの時間的および空間的依存性は異なる。 時間的関係は時間とともに動き情報を捉え、空間的関係は身体構造と異なるノード間の関係を記述する。 本稿では,時間領域と空間領域の特徴の学習を分離し,より多くの動き情報を抽出し,知識蒸留による相補的クロスドメイン知識学習を実現するhmpのためのインクリメンタル情報を用いた,新たな時空間分岐ネットワークを提案する。 本手法は, 雑音干渉を効果的に低減し, 時間的特徴と空間的特徴を別々に抽出することにより, 動きを特徴付ける表現的情報を提供する。 我々は,標準的なHMPベンチマークと最先端手法を予測精度で評価する。

Human motion prediction (HMP) has emerged as a popular research topic due to its diverse applications, but it remains a challenging task due to the stochastic and aperiodic nature of future poses. Traditional methods rely on hand-crafted features and machine learning techniques, which often struggle to model the complex dynamics of human motion. Recent deep learning-based methods have achieved success by learning spatio-temporal representations of motion, but these models often overlook the reliability of motion data. Additionally, the temporal and spatial dependencies of skeleton nodes are distinct. The temporal relationship captures motion information over time, while the spatial relationship describes body structure and the relationships between different nodes. In this paper, we propose a novel spatio-temporal branching network using incremental information for HMP, which decouples the learning of temporal-domain and spatial-domain features, extracts more motion information, and achieves complementary cross-domain knowledge learning through knowledge distillation. Our approach effectively reduces noise interference and provides more expressive information for characterizing motion by separately extracting temporal and spatial features. We evaluate our approach on standard HMP benchmarks and outperform state-of-the-art methods in terms of prediction accuracy.
翻訳日:2023-08-10 16:50:37 公開日:2023-08-09
# ねじれた銅酸化物ファンデルワールスヘテロ構造に基づく超伝導量子ビット

Superconducting qubit based on twisted cuprate van der Waals heterostructures ( http://arxiv.org/abs/2308.00839v2 )

ライセンス: Link先を確認
Valentina Brosco, Giuseppe Serpico, Valerii Vinokur, Nicola Poccia, Uri Vool(参考訳) van-der-waals (vdw) は2つの剥離された比較的ねじれた2つのフレーク(bi2212)の間の原子力学的に鋭い界面を利用して、新しいジョセフソン接合を作製できる。 約45^\circ$のツイスト角度の範囲において、接合は2対の層間トンネルが電流相関係を支配している状態を提供する。 ここでは、この新しい接合を用いて、フラワーモンと呼ぶ容量的に曲がりくねったクビットを実現することを提案する。 秩序パラメータの$d$-waveの性質は、荷電ノイズによる緩和と準粒子による散逸に対して固有の保護を与える。 この本質的に保護された量子ビットは、非伝統的な超伝導体に基づく新しい種類の高コヒーレンスハイブリッド超伝導量子デバイスへの道を開く。

Van-der-Waals (vdW) assembly enables the fabrication of novel Josephson junctions utilizing an atomically sharp interface between two exfoliated and relatively twisted $\rm{Bi_2Sr_2CaCu_2O_{8+x}}$ (Bi2212) flakes. In a range of twist angles around $45^\circ$, the junction provides a regime where the interlayer two-Cooper pair tunneling dominates the current-phase relation. Here we propose to employ this novel junction to realize a capacitively shunted qubit that we call flowermon. The $d$-wave nature of the order parameter endows the flowermon with inherent protection against charge-noise-induced relaxation and quasiparticle-induced dissipation. This inherently protected qubit paves the way to a new class of high-coherence hybrid superconducting quantum devices based on unconventional superconductors.
翻訳日:2023-08-10 16:50:15 公開日:2023-08-09
# 自己監督型画像デノイングのパワーを解き放つ:総合的なレビュー

Unleashing the Power of Self-Supervised Image Denoising: A Comprehensive Review ( http://arxiv.org/abs/2308.00247v2 )

ライセンス: Link先を確認
Dan Zhang, Fangfang Zhou, Yuanzhou Wei, Xiao Yang, Yuan Gu(参考訳) ディープラーニングの出現は、画像のデノイジング技術に革命的な変革をもたらした。 しかし、現実のシナリオにおける教師付き手法のためのノイズクリーンペアの獲得という永続的な課題は、より実践的な自己監督型イメージデノイングの探索を必要としている。 本稿では,この問題に対する効果的な解決法を提供する,自己教師付き画像分類法に着目した。 本総括的レビューでは,自己教師付き画像分割手法の最近の進歩を,一般法,ブラインドスポットネットワーク(bsn)に基づく方法,トランスフォーマティブ法という3つの異なるクラスに分類した。 各クラスについて,その実践的応用とともに簡潔な理論解析を提供する。 これらの手法の有効性を評価するため,古典的アルゴリズムをベンチマークとして,様々なデータセットに対して定量的および定性的な実験結果を示す。 また,本手法の限界を批判的に議論し,今後の研究に期待できる方向性を提案する。 自己監督型イメージデノベーションの最近の展開を概観することにより、このレビューはこの分野の研究者や実践者にとって貴重な情報源となり、この新興領域の理解を深め、さらなる進歩を促す。

The advent of deep learning has brought a revolutionary transformation to image denoising techniques. However, the persistent challenge of acquiring noise-clean pairs for supervised methods in real-world scenarios remains formidable, necessitating the exploration of more practical self-supervised image denoising. This paper focuses on self-supervised image denoising methods that offer effective solutions to address this challenge. Our comprehensive review thoroughly analyzes the latest advancements in self-supervised image denoising approaches, categorizing them into three distinct classes: General methods, Blind Spot Network (BSN)-based methods, and Transformer-based methods. For each class, we provide a concise theoretical analysis along with their practical applications. To assess the effectiveness of these methods, we present both quantitative and qualitative experimental results on various datasets, utilizing classical algorithms as benchmarks. Additionally, we critically discuss the current limitations of these methods and propose promising directions for future research. By offering a detailed overview of recent developments in self-supervised image denoising, this review serves as an invaluable resource for researchers and practitioners in the field, facilitating a deeper understanding of this emerging domain and inspiring further advancements.
翻訳日:2023-08-10 16:50:00 公開日:2023-08-09
# ESP:マルチエージェント強化学習に先立つ爆発的対称性

ESP: Exploiting Symmetry Prior for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2307.16186v2 )

ライセンス: Link先を確認
Xin Yu, Rongye Shi, Pu Feng, Yongkai Tian, Jie Luo, Wenjun Wu(参考訳) マルチエージェント強化学習(MARL)は近年,有望な成果を上げている。 しかし、既存の強化学習手法の多くは、モデルトレーニングに大量のデータを必要とする。 加えて、データ効率の強化学習は、現在のMARLアプローチでは無視される強い帰納バイアスを構築する必要がある。 本稿では,マルチエージェントシステムの対称性現象に触発されて,既存のmarl法にデータ拡張とよく設計された一貫性損失を統合することにより,事前知識を活用できる枠組みを提案する。 さらに、提案フレームワークはモデルに依存しず、現在のMARLアルゴリズムのほとんどに適用できる。 複数の課題に対する実験により,提案手法の有効性が示された。 さらに,本フレームワークを物理マルチロボットテストベッドに適用し,その優位性を示す。

Multi-agent reinforcement learning (MARL) has achieved promising results in recent years. However, most existing reinforcement learning methods require a large amount of data for model training. In addition, data-efficient reinforcement learning requires the construction of strong inductive biases, which are ignored in the current MARL approaches. Inspired by the symmetry phenomenon in multi-agent systems, this paper proposes a framework for exploiting prior knowledge by integrating data augmentation and a well-designed consistency loss into the existing MARL methods. In addition, the proposed framework is model-agnostic and can be applied to most of the current MARL algorithms. Experimental tests on multiple challenging tasks demonstrate the effectiveness of the proposed framework. Moreover, the proposed framework is applied to a physical multi-robot testbed to show its superiority.
翻訳日:2023-08-10 16:49:38 公開日:2023-08-09
# Hess et al へのコメント。 Phys Rev. Lett. {\displaystyle {\bf 130},207001 (2023)

Comment on Hess et al. Phys. Rev. Lett. {\bf 130}, 207001 (2023) ( http://arxiv.org/abs/2307.15813v2 )

ライセンス: Link先を確認
A. Antipov, W. Cole, K. Kalashnikov, F. Karimi, R. Lutchyn, C. Nayak, D. Pikulin, G. Winkler(参考訳) 本稿では,Hess et alで導入されたモデルについて述べる。 Phys Rev. Lett. bf 130, 207001 (2023) は位相的ギャッププロトコル (TGP) (Pikulin et al., arXiv:2103.12217, M. Aghaee et al., Phys) に失敗する。 a b 107, 245424 (2023)。 さらに,このモデルについて,tgpのベンチマーク方法について,より広い文脈で論じる。

In this comment, we show that the model introduced in Hess et al. Phys. Rev. Lett. {\bf 130}, 207001 (2023) fails the topological gap protocol (TGP) (Pikulin et al., arXiv:2103.12217 and M. Aghaee et al., Phys. Rev. B 107, 245424 (2023)). In addition, we discuss this model in the broader context of how the TGP has been benchmarked.
翻訳日:2023-08-10 16:49:28 公開日:2023-08-09
# 深いカオスレジームにおける量子平均値の計算

Computing Quantum Mean Values in the Deep Chaotic Regime ( http://arxiv.org/abs/2308.04655v1 )

ライセンス: Link先を確認
Gabriel M. Lando, Olivier Giraud, Denis Ullmo(参考訳) 量子作用素の平均値の時間発展を2つの困難に苦しめられた方法で研究する:$\hbar$の小さいことと、強固でユビキタスな古典的カオスの存在である。 数値は純粋に量子計算には高すぎるが、$\hbar \to 0$のように、半古典的手法である$\hbar$という小ささを利用する手法は、深いカオス体制における概念的および実践的困難に悩まされている。 我々は,これらの概念的問題に対処するアプローチを実装し,演算子の平均値に対する干渉寄与の起源を深く理解する。 深層カオス環境において,我々のアプローチは前例のない精度を持つが,典型的な半古典的手法(herman-kluk propagator)は数値雑音のみを生成する。 我々の研究は、カオス的な古典的極限を持つシステムの量子シミュレーションのための、より効率的で正確な手法の開発と採用の道を開いた。

We study the time evolution of mean values of quantum operators in a regime plagued by two difficulties: The smallness of $\hbar$ and the presence of strong and ubiquitous classical chaos. While numerics become too computationally expensive for purely quantum calculations as $\hbar \to 0$, methods that take advantage of the smallness of $\hbar$ -- that is, semiclassical methods -- suffer from both conceptual and practical difficulties in the deep chaotic regime. We implement an approach which addresses these conceptual problems, leading to a deeper understanding of the origin of the interference contributions to the operator's mean value. We show that in the deep chaotic regime our approach is capable of unprecedented accuracy, while a typical semiclassical method (the Herman-Kluk propagator) produces only numerical noise. Our work paves the way to the development and employment of more efficient and accurate methods for quantum simulations of systems with strongly chaotic classical limits.
翻訳日:2023-08-10 15:33:02 公開日:2023-08-09
# 不確実性スコアを用いた前立腺癌セグメンテーションにおけるディープラーニングモデルの性能評価

Assessing the performance of deep learning-based models for prostate cancer segmentation using uncertainty scores ( http://arxiv.org/abs/2308.04653v1 )

ライセンス: Link先を確認
Pablo Cesar Quihui-Rubio and Daniel Flores-Araiza and Gilberto Ochoa-Ruiz and Miguel Gonzalez-Mendoza and Christian Mata(参考訳) 本研究では,MRI画像から前立腺のセグメンテーションにおけるセグメンテーションと定量化の深層学習手法の比較に焦点を当てた。 目的は前立腺がんの検出と診断のワークフローを改善することである。 モンテカルロドロップアウトを付加した7種類のu-netベースのアーキテクチャを用いて, 中心領域, 周辺ゾーン, 遷移ゾーン, 腫瘍の自動分割と不確かさの推定を行った。 本研究におけるトップパフォーマンスモデルである注意r2u-netは,76.3%の結合平均交叉係数 (iou) と85%のdice類似度係数 (dsc) を達成する。 さらに、注意r2u-netは、他のモデルと比較して、遷移ゾーンと腫瘍の境界において、最も低い不確かさを示す。

This study focuses on comparing deep learning methods for the segmentation and quantification of uncertainty in prostate segmentation from MRI images. The aim is to improve the workflow of prostate cancer detection and diagnosis. Seven different U-Net-based architectures, augmented with Monte-Carlo dropout, are evaluated for automatic segmentation of the central zone, peripheral zone, transition zone, and tumor, with uncertainty estimation. The top-performing model in this study is the Attention R2U-Net, achieving a mean Intersection over Union (IoU) of 76.3% and Dice Similarity Coefficient (DSC) of 85% for segmenting all zones. Additionally, Attention R2U-Net exhibits the lowest uncertainty values, particularly in the boundaries of the transition zone and tumor, when compared to the other models.
翻訳日:2023-08-10 15:32:42 公開日:2023-08-09
# 心電図信号を用いた血行動態推定のための深部メトリック学習

Deep Metric Learning for the Hemodynamics Inference with Electrocardiogram Signals ( http://arxiv.org/abs/2308.04650v1 )

ライセンス: Link先を確認
Hyewon Jeong, Collin M. Stultz, Marzyeh Ghassemi(参考訳) 心不全は世界中の何百万人もの人々に影響を与え、生活の質や死亡率に大きな影響を与えている。 心不全患者の診断・治療における心圧の客観的評価は重要な方法である。 心臓カテーテル化は中心血行動態圧を推定するための金の基準であるが、本態性リスクを伴い、一部の患者にとって潜在的に危険な処置である。 心電図(ECG)のような非侵襲的な信号を活用するアプローチは、患者と外来の両方で心臓圧の定期的な推定を可能にすることを約束する。 心内圧(例えば、平均肺毛細血管圧(mPCWP))を教師付きで推定するために訓練された以前のモデルは、優れた識別能力を示したが、心不全コホートからのラベル付きデータセットに限られていた。 この問題に対処し、堅牢な表現を構築するために、ディープ・メトリック・ラーニング(DML)を適用し、限られたラベルを持つモデルの性能を向上させるための距離ベースマイニングによる新しい自己教師付きDMLを提案する。 我々は,自己教師付きコントラストベースラインと比較して高いmpcwpの分類を改善した自己教師付きdmlモデルを事前学習するために,総圧ラベルを伴わない540万以上の心電図を含むデータセットを用いた。 さらに,8,172mPCWPラベルを持つECGを用いた教師付きDMLモデルでは,教師付きベースラインと比較して,mPCWP回帰タスクの性能が有意に向上した。 さらに,DMLは,患者サブグループがデータセットに不足している場合でも,患者サブグループ間でパフォーマンスのよいモデルを生成することを示唆している。 私たちのコードはhttps://github.com/mandiehyewon/ssldmlで利用可能です。

Heart failure is a debilitating condition that affects millions of people worldwide and has a significant impact on their quality of life and mortality rates. An objective assessment of cardiac pressures remains an important method for the diagnosis and treatment prognostication for patients with heart failure. Although cardiac catheterization is the gold standard for estimating central hemodynamic pressures, it is an invasive procedure that carries inherent risks, making it a potentially dangerous procedure for some patients. Approaches that leverage non-invasive signals - such as electrocardiogram (ECG) - have the promise to make the routine estimation of cardiac pressures feasible in both inpatient and outpatient settings. Prior models trained to estimate intracardiac pressures (e.g., mean pulmonary capillary wedge pressure (mPCWP)) in a supervised fashion have shown good discriminatory ability but have been limited to the labeled dataset from the heart failure cohort. To address this issue and build a robust representation, we apply deep metric learning (DML) and propose a novel self-supervised DML with distance-based mining that improves the performance of a model with limited labels. We use a dataset that contains over 5.4 million ECGs without concomitant central pressure labels to pre-train a self-supervised DML model which showed improved classification of elevated mPCWP compared to self-supervised contrastive baselines. Additionally, the supervised DML model that is using ECGs with access to 8,172 mPCWP labels demonstrated significantly better performance on the mPCWP regression task compared to the supervised baseline. Moreover, our data suggest that DML yields models that are performant across patient subgroups, even when some patient subgroups are under-represented in the dataset. Our code is available at https://github.com/mandiehyewon/ssldml
翻訳日:2023-08-10 15:32:26 公開日:2023-08-09
# 最適化性能の向上: ガウスのCrunching Searchとパウエルの微分自由最適化法の新しいハイブリッド化

Enhancing Optimization Performance: A Novel Hybridization of Gaussian Crunching Search and Powell's Method for Derivative-Free Optimization ( http://arxiv.org/abs/2308.04649v1 )

ライセンス: Link先を確認
Benny Wong(参考訳) 本稿では,ガウス的Crunching Search (GCS) とパウエルの微分自由最適化手法のハイブリッド化による最適化性能向上手法を提案する。 GCSは従来のデリバティブフリーの最適化手法[1]で直面する課題を克服する上で有望であるが、必ずしも局所的な最小値を見つけるのに優れているとは限らない。 一方、伝統的なメソッドの中には、この点ではパフォーマンスが向上するものもある。 しかし、gcsは局所ミニマの罠を逃れ、グローバルミニマに近づくという強みを示している。 実験により,GCSを従来の微分自由最適化手法と組み合わせることで,各手法の利点を維持しつつ,性能を大幅に向上させることができることがわかった。 このハイブリッドアプローチは、複雑なシステムを最適化し、様々なアプリケーションで最適解を見つける新しい可能性を開く。

This research paper presents a novel approach to enhance optimization performance through the hybridization of Gaussian Crunching Search (GCS) and Powell's Method for derivative-free optimization. While GCS has shown promise in overcoming challenges faced by traditional derivative-free optimization methods [1], it may not always excel in finding the local minimum. On the other hand, some traditional methods may have better performance in this regard. However, GCS demonstrates its strength in escaping the trap of local minima and approaching the global minima. Through experimentation, we discovered that by combining GCS with certain traditional derivative-free optimization methods, we can significantly boost performance while retaining the respective advantages of each method. This hybrid approach opens up new possibilities for optimizing complex systems and finding optimal solutions in a range of applications.
翻訳日:2023-08-10 15:31:55 公開日:2023-08-09
# 中高地ドイツ語における言語横断構文解析--語彙化アプローチ

Cross-Lingual Constituency Parsing for Middle High German: A Delexicalized Approach ( http://arxiv.org/abs/2308.04645v1 )

ライセンス: Link先を確認
Ercong Nie, Helmut Schmid, Hinrich Sch\"utze(参考訳) 選挙区解析は自然言語処理(NLP)タスクの進行に重要な役割を果たしている。 しかし,注釈付きパースデータのみに頼った古代語の自動構文解析システムの訓練は,木バンクの構築に固有の課題のため,非常に難しい課題である。 言語的な専門知識が必要であり、利用可能な資源が不足している。 このハードルを克服するために、低リソースのターゲット言語に注釈付きデータを最小または全く必要としない言語間転送技術は、有望な解決策を提供する。 本研究では,実環境下でのMHGツリーバンクのアノテートがなければ,$\mathbf{M}$iddle $\mathbf{H}$igh $\mathbf{G}$erman $\mathbf{MHG}$に対する選挙区パーサの構築に焦点をあてる。 提案手法では,MHGと$\mathbf{M}$odern $\mathbf{G}$erman $\mathbf{MG}$の言語的連続性と構造的類似性を,MGツリーバンク資源の豊富さとともに活用する。 具体的には、$\mathit{delexicalization}$メソッドを用いることで、MGパースデータセット上の選挙区パーサをトレーニングし、MHGパースへの言語間転送を行う。 われわれは,MHGテストセットにおいて,F1スコア67.3%を達成し,顕著な性能を示した。 ゼロショットクロスランガルベースラインでは28.6%の差で最高の成績を残している。 これらの奨励的な結果は、MHGと同じような課題に直面している他の古代言語における自動構文解析の実践性と可能性を示している。

Constituency parsing plays a fundamental role in advancing natural language processing (NLP) tasks. However, training an automatic syntactic analysis system for ancient languages solely relying on annotated parse data is a formidable task due to the inherent challenges in building treebanks for such languages. It demands extensive linguistic expertise, leading to a scarcity of available resources. To overcome this hurdle, cross-lingual transfer techniques which require minimal or even no annotated data for low-resource target languages offer a promising solution. In this study, we focus on building a constituency parser for $\mathbf{M}$iddle $\mathbf{H}$igh $\mathbf{G}$erman $\mathbf{MHG}$ under realistic conditions, where no annotated MHG treebank is available for training. In our approach, we leverage the linguistic continuity and structural similarity between MHG and $\mathbf{M}$odern $\mathbf{G}$erman $\mathbf{MG}$, along with the abundance of MG treebank resources. Specifically, by employing the $\mathit{delexicalization}$ method, we train a constituency parser on MG parse datasets and perform cross-lingual transfer to MHG parsing. Our delexicalized constituency parser demonstrates remarkable performance on the MHG test set, achieving an F1-score of 67.3%. It outperforms the best zero-shot cross-lingual baseline by a margin of 28.6% points. These encouraging results underscore the practicality and potential for automatic syntactic analysis in other ancient languages that face similar challenges as MHG.
翻訳日:2023-08-10 15:31:39 公開日:2023-08-09
# 動的ニューラルネットワークを用いた長距離ジェスチャー認識

Long-Distance Gesture Recognition using Dynamic Neural Networks ( http://arxiv.org/abs/2308.04643v1 )

ライセンス: Link先を確認
Shubhang Bhatnagar, Sharath Gopal, Narendra Ahuja, Liu Ren(参考訳) ジェスチャーは人間と機械の間のコミュニケーションの重要な媒体となる。 既存のジェスチャー認識手法の大部分は、人間と機械が互いに非常に近い位置にあるシナリオに合わせて調整されている。 この近距離仮定は、例えば床掃除ロボットやドローンとのジェスチャーベースのインタラクションなど、いくつかの種類のインタラクションには当てはまらない。 短距離認識のための手法は、入力データのごく一部を占めるジェスチャーのため、長距離認識ではうまく機能しない。 彼らのパフォーマンスは、リソース制限された設定では特に悪く、限られた計算をジェスリングの主題に効果的に集中できない。 本稿では,遠距離からのジェスチャ認識のための新しい高精度かつ効率的な手法を提案する。 ダイナミックニューラルネットワークを使用して、入力センサデータのジェスチャーを含む空間領域から特徴を選択し、さらなる処理を行う。 これにより、ネットワークはジェスチャ認識に重要な機能に集中し、バックグラウンド機能を早期に破棄することができるため、他の技術に比べて計算効率が向上する。 LD-ConGR長距離データセットにおいて,認識精度と計算効率において従来の最先端手法よりも優れた性能を示す。

Gestures form an important medium of communication between humans and machines. An overwhelming majority of existing gesture recognition methods are tailored to a scenario where humans and machines are located very close to each other. This short-distance assumption does not hold true for several types of interactions, for example gesture-based interactions with a floor cleaning robot or with a drone. Methods made for short-distance recognition are unable to perform well on long-distance recognition due to gestures occupying only a small portion of the input data. Their performance is especially worse in resource constrained settings where they are not able to effectively focus their limited compute on the gesturing subject. We propose a novel, accurate and efficient method for the recognition of gestures from longer distances. It uses a dynamic neural network to select features from gesture-containing spatial regions of the input sensor data for further processing. This helps the network focus on features important for gesture recognition while discarding background features early on, thus making it more compute efficient compared to other techniques. We demonstrate the performance of our method on the LD-ConGR long-distance dataset where it outperforms previous state-of-the-art methods on recognition accuracy and compute efficiency.
翻訳日:2023-08-10 15:31:07 公開日:2023-08-09
# 大規模トラベリングセールスマン問題の解決のための階層的破壊と修復手法

A Hierarchical Destroy and Repair Approach for Solving Very Large-Scale Travelling Salesman Problem ( http://arxiv.org/abs/2308.04639v1 )

ライセンス: Link先を確認
Zhang-Hua Fu, Sipeng Sun, Jintong Ren, Tianshu Yu, Haoyu Zhang, Yuanyuan Liu, Lingxiao Huang, Xiang Yan, Pinyan Lu(参考訳) 大規模トラベリングセールスマン問題(TSP)では、既存のアルゴリズムは計算効率と解品質の両方において大きな課題に直面している。 この問題に対処するため、我々は階層的破壊・修復(HDR)アプローチを提案し、慎重に設計された破壊・修復操作を適用して初期解を改善する。 重要なイノベーティブな概念は階層型検索フレームワークで、部分エッジを再帰的に修正し、入力インスタンスをある種の等価保証の下で小さなtspに圧縮する。 このきちんとした検索フレームワークは、適切な時間内に高い競争力のあるソリューションを提供できる。 19の有名な大規模インスタンス(1万から1万の都市)に基づく公正な比較は、HDRが既存の最先端のTSPアルゴリズムに対して、効率性とソリューションの品質の両方において高い競争力を持っていることを示している。 特に、3,162,278都市と10,000,000都市を持つ2つの大規模インスタンスにおいて、HDRは以前LKHとその変種によって達成された世界記録(計算時間に関係なく最もよく知られた結果)を破り、HDRはLKHから完全に独立している。 最後に,階層探索フレームワークの重要性と妥当性を検証するためのアブレーション研究を行った。

For prohibitively large-scale Travelling Salesman Problems (TSPs), existing algorithms face big challenges in terms of both computational efficiency and solution quality. To address this issue, we propose a hierarchical destroy-and-repair (HDR) approach, which attempts to improve an initial solution by applying a series of carefully designed destroy-and-repair operations. A key innovative concept is the hierarchical search framework, which recursively fixes partial edges and compresses the input instance into a small-scale TSP under some equivalence guarantee. This neat search framework is able to deliver highly competitive solutions within a reasonable time. Fair comparisons based on nineteen famous large-scale instances (with 10,000 to 10,000,000 cities) show that HDR is highly competitive against existing state-of-the-art TSP algorithms, in terms of both efficiency and solution quality. Notably, on two large instances with 3,162,278 and 10,000,000 cities, HDR breaks the world records (i.e., best-known results regardless of computation time), which were previously achieved by LKH and its variants, while HDR is completely independent of LKH. Finally, ablation studies are performed to certify the importance and validity of the hierarchical search framework.
翻訳日:2023-08-10 15:30:51 公開日:2023-08-09
# GeoAdapt: 幾何学的優先度を用いたLiDAR位置認識における自己監督テスト時間適応

GeoAdapt: Self-Supervised Test-Time Adaption in LiDAR Place Recognition Using Geometric Priors ( http://arxiv.org/abs/2308.04638v1 )

ライセンス: Link先を確認
Joshua Knights, Stephen Hausler, Sridha Sridharan, Clinton Fookes, Peyman Moghadam(参考訳) ディープラーニングに基づくlidar位置認識アプローチは、トレーニングの分散とデータセットのテストにシフトがあり、トップパフォーマンスを達成するために再トレーニングが必要となる場合、パフォーマンスが著しく低下する。 しかし、新しい環境において正確な真理を得ることは、特に複雑な環境やgps不足環境では、非常に高価である。 この問題に対処するために,GeoAdaptを提案する。これは,未知の環境を自己管理的に再学習するための擬似ラベルを生成するための,新しい補助的分類ヘッドである。 geoadaptは以前の方法として幾何学的一貫性を使用し、生成された擬似ラベルのドメインシフトに対する堅牢性を改善し、テスト時適応アプローチのパフォーマンスと信頼性を改善します。 総合的な実験により、geoadaptは中程度から重度のドメインシフトにおける位置認識性能を著しく向上させ、完全に監督されたテスト時間適応アプローチと競合することが示された。 私たちのコードはhttps://github.com/csiro-robotics/geoadaptで利用可能です。

LiDAR place recognition approaches based on deep learning suffer a significant degradation in performance when there is a shift between the distribution of the training and testing datasets, with re-training often required to achieve top performance. However, obtaining accurate ground truth on new environments can be prohibitively expensive, especially in complex or GPS-deprived environments. To address this issue we propose GeoAdapt, which introduces a novel auxiliary classification head to generate pseudo-labels for re-training on unseen environments in a self-supervised manner. GeoAdapt uses geometric consistency as a prior to improve the robustness of our generated pseudo-labels against domain shift, improving the performance and reliability of our Test-Time Adaptation approach. Comprehensive experiments show that GeoAdapt significantly boosts place recognition performance across moderate to severe domain shifts, and is competitive with fully supervised test-time adaptation approaches. Our code will be available at https://github.com/csiro-robotics/GeoAdapt.
翻訳日:2023-08-10 15:30:26 公開日:2023-08-09
# 多変量時系列モデリングのためのスパースバイナリトランスフォーマ

Sparse Binary Transformers for Multivariate Time Series Modeling ( http://arxiv.org/abs/2308.04637v1 )

ライセンス: Link先を確認
Matt Gorbett, Hossein Shirazi, Indrakshi Ray(参考訳) 圧縮ニューラルネットワークは、新しいアプリケーションとより小さな計算環境をまたいでディープラーニングを可能にする可能性がある。 しかし、そのようなモデルが成功する学習タスクの範囲を理解することは十分に研究されていない。 本研究では,多変量時系列問題に対してスパースおよびバイナリ重み付き変換器を適用し,その軽量モデルが同一構造の高密度浮動小数点変換器に匹敵する精度を実現することを示す。 本モデルは,3つの時系列学習課題 – 分類,異常検出,単段階予測 – で良好な結果が得られる。 さらに,注意機構の計算複雑性を低減するため,モデル性能の低下がほとんどない2つの修正を適用した。 1) 分類タスクでは,クエリ,キー,値のアクティベーションに固定マスクを適用する。 2)1つの時点における出力予測に依存する予測・異常検出のために,現在の時間ステップでのみ計算が可能なアテンションマスクを提案する。 各圧縮技術とアテンション修正により、トランスフォーマーに必要なゼロでない操作の数が大幅に削減される。 我々は、パラメータ数、ビットサイズ、浮動小数点演算(flops)数を含む様々な測定値に対して、我々のアプローチの計算節約を計測し、ストレージサイズが53倍削減され、フロップが最大10.5倍削減されることを示した。

Compressed Neural Networks have the potential to enable deep learning across new applications and smaller computational environments. However, understanding the range of learning tasks in which such models can succeed is not well studied. In this work, we apply sparse and binary-weighted Transformers to multivariate time series problems, showing that the lightweight models achieve accuracy comparable to that of dense floating-point Transformers of the same structure. Our model achieves favorable results across three time series learning tasks: classification, anomaly detection, and single-step forecasting. Additionally, to reduce the computational complexity of the attention mechanism, we apply two modifications, which show little to no decline in model performance: 1) in the classification task, we apply a fixed mask to the query, key, and value activations, and 2) for forecasting and anomaly detection, which rely on predicting outputs at a single point in time, we propose an attention mask to allow computation only at the current time step. Together, each compression technique and attention modification substantially reduces the number of non-zero operations necessary in the Transformer. We measure the computational savings of our approach over a range of metrics including parameter count, bit size, and floating point operation (FLOPs) count, showing up to a 53x reduction in storage size and up to 10.5x reduction in FLOPs.
翻訳日:2023-08-10 15:30:07 公開日:2023-08-09
# 有害なAI音声の責任はどこにあるのか?

Where's the Liability in Harmful AI Speech? ( http://arxiv.org/abs/2308.04635v1 )

ライセンス: Link先を確認
Peter Henderson, Tatsunori Hashimoto, Mark Lemley(参考訳) 生成AI、特にテキストベースの「基礎モデル」(インターネットを含む膨大な情報に基づいて訓練された大規模なモデル)は、幅広い負債体制下で問題となるような音声を生成することができる。 機械学習の実践者は、このような問題のあるスピーチを識別し緩和するために、定期的に「赤いチーム」モデルを用いる。 重要な疑問は、これらのレッドチームによる行動が、米国法の下でモデル作成者や展開者に対して、安全メカニズムへの投資をインセンティブとする責任リスクを実際に与えているかどうかである。 我々は,3つの責任体制を検証し,これらをレッドチームモデル行動の一般的な例と結びつけた: 破壊, 犯罪行為に不可欠な言論, 誤った死である。 第230節の免疫分析や下流責任分析はアルゴリズム設計の技術的詳細に密にラップされていることが判明した。 そして、生成した音声に責任を持つモデル(とその関連パーティ)を見つけるための多くの障害があります。 私たちは、aiはこれらのシナリオにおいて責任からカテゴリー的に免れるべきではない、そして裁判所が既にきめ細かいプラットフォームアルゴリズムの複雑さに苦しむにつれ、上記の生成型aiの技術的詳細は、より厳密な疑問と共に浮上する、と主張している。 裁判所や政策立案者は、これらの問題を評価する際に、彼らが生み出す技術的デザインインセンティブについて慎重に考えるべきである。

Generative AI, in particular text-based "foundation models" (large models trained on a huge variety of information including the internet), can generate speech that could be problematic under a wide range of liability regimes. Machine learning practitioners regularly "red team" models to identify and mitigate such problematic speech: from "hallucinations" falsely accusing people of serious misconduct to recipes for constructing an atomic bomb. A key question is whether these red-teamed behaviors actually present any liability risk for model creators and deployers under U.S. law, incentivizing investments in safety mechanisms. We examine three liability regimes, tying them to common examples of red-teamed model behaviors: defamation, speech integral to criminal conduct, and wrongful death. We find that any Section 230 immunity analysis or downstream liability analysis is intimately wrapped up in the technical details of algorithm design. And there are many roadblocks to truly finding models (and their associated parties) liable for generated speech. We argue that AI should not be categorically immune from liability in these scenarios and that as courts grapple with the already fine-grained complexities of platform algorithms, the technical details of generative AI loom above with thornier questions. Courts and policymakers should think carefully about what technical design incentives they create as they evaluate these issues.
翻訳日:2023-08-10 15:29:41 公開日:2023-08-09
# 教師なし実世界単一画像に対するスコア優先による深い変動推定

Score Priors Guided Deep Variational Inference for Unsupervised Real-World Single Image Denoising ( http://arxiv.org/abs/2308.04682v1 )

ライセンス: Link先を確認
Jun Cheng, Tao Liu, Shan Tan(参考訳) コンピュータビジョンでは,実世界の単一画像デノイジングが不可欠かつ実用的である。 ベイズインバージョンとスコア先行値を組み合わせることで、単一画像の復調に有効であることが証明された。 さらに,既存のスコアに基づく実世界のデノベーション手法を適用するには,対象領域におけるスコア先行の明示的な編成だけでなく,後部推論のためのサンプリング手順を慎重に設計する必要がある。 これらの制限に対処するために,本研究では,実際の実世界デノイジングのためのスコア優先の深い変分推論,すなわち scorevi を提案する。 ガウス形式の深部変分画像後部を考慮し、容易にアクセス可能な最小限のMSE(Non-$i.i.d$ Gaussian denoisers)と変分サンプルに基づいてスコア先行を抽出し、変分画像後部を最適化する。 このような手順は、雑音化に先立って安価スコアを適応的に適用する。 さらに,非i.i.d.ガウス混合モデルと変動雑音を用いて実世界の雑音をモデル化する。 この方式はまた、多重画像先行と変動画像後部の画素ワイド融合を可能にする。 また,最適化において画像の重み付けを動的に調整するノイズ対応優先戦略を開発した。 提案手法は,他の単一画像ベースの実世界のデノベーション手法よりも優れ,データセットベースの教師なし手法に匹敵する性能を実現する。

Real-world single image denoising is crucial and practical in computer vision. Bayesian inversions combined with score priors now have proven effective for single image denoising but are limited to white Gaussian noise. Moreover, applying existing score-based methods for real-world denoising requires not only the explicit train of score priors on the target domain but also the careful design of sampling procedures for posterior inference, which is complicated and impractical. To address these limitations, we propose a score priors-guided deep variational inference, namely ScoreDVI, for practical real-world denoising. By considering the deep variational image posterior with a Gaussian form, score priors are extracted based on easily accessible minimum MSE Non-$i.i.d$ Gaussian denoisers and variational samples, which in turn facilitate optimizing the variational image posterior. Such a procedure adaptively applies cheap score priors to denoising. Additionally, we exploit a Non-$i.i.d$ Gaussian mixture model and variational noise posterior to model the real-world noise. This scheme also enables the pixel-wise fusion of multiple image priors and variational image posteriors. Besides, we develop a noise-aware prior assignment strategy that dynamically adjusts the weight of image priors in the optimization. Our method outperforms other single image-based real-world denoising methods and achieves comparable performance to dataset-based unsupervised methods.
翻訳日:2023-08-10 15:22:27 公開日:2023-08-09
# Sci-CoT:科学QAのための小規模モデルにおける知識蒸留強化のための大規模言語モデルの活用

Sci-CoT: Leveraging Large Language Models for Enhanced Knowledge Distillation in Small Models for Scientific QA ( http://arxiv.org/abs/2308.04679v1 )

ライセンス: Link先を確認
Yuhan Ma and Haiqi Jiang and Chenyou Fan(参考訳) 大規模言語モデル(LLM)は、幅広い下流タスクで優れたパフォーマンスを示している。 この能力は、その実質的なパラメータサイズと広範なコーパスでの事前トレーニングに起因する。 さらに、LLMは '`Chain-of-Thought (CoT) prompting'' というメソッドの利用により、複雑な推論タスクに対処する際の推論能力を向上した。 この方法は、最終回答の推論を導く中間推論ステップを生成するように設計されている。 しかし、これらの高度な推論能力は、最小100億のパラメータを持つモデルに出現し、計算資源が制約されている状況においてその有効性を制限することが重要である。 本稿では, LLMの推理能力を知識蒸留によりより小さなモデルに伝達する可能性について検討する。 具体的には,理性の生成過程と回答の推測を分離する2段階フレームワークであるsci-cotを提案する。 この方法では、解答推論段階でより効率的な理性の利用が可能となり、科学的質問応答タスクの性能が向上する。 Sci-CoTを利用すると、80万のパラメータモデルが、ARC-EasyデータセットにおけるBLOOM-176Bの性能を超えることができる。

Large Language Models (LLMs) have shown outstanding performance across wide range of downstream tasks. This competency is attributed to their substantial parameter size and pre-training on extensive corpus. Moreover, LLMs have exhibited enhanced reasoning capabilities in tackling complex reasoning tasks, owing to the utilization of a method named ``Chain-of-Thought (CoT) prompting''. This method is designed to generate intermediate reasoning steps that guide the inference of the final answer. However, it is essential to highlight that these advanced reasoning abilities appear to emerge in models with a minimum of 10 billion parameters, thereby limiting its efficacy in situations where computational resources are constrained. In this paper, we investigate the possibility of transferring the reasoning capabilities of LLMs to smaller models via knowledge distillation. Specifically, we propose Sci-CoT, a two-stage framework that separates the processes of generating rationales and inferring answers. This method enables a more efficient use of rationales during the answer inference stage, leading to improved performance on scientific question-answering tasks. Utilizing Sci-CoT, our 80-million parameter model is able to exceed the performance of BLOOM-176B in the ARC-Easy dataset under the few shot setting.
翻訳日:2023-08-10 15:21:59 公開日:2023-08-09
# 表情認識における顔面バイアスの対応

Addressing Racial Bias in Facial Emotion Recognition ( http://arxiv.org/abs/2308.04674v1 )

ライセンス: Link先を確認
Alex Fan, Xingshuo Xiao, Peter Washington(参考訳) 高次元入力と主観的ラベルで訓練された深層学習モデルの公平性は、複雑で実証された領域のままである。 データセットがしばしば人種的に不均衡なドメインである顔の感情認識は、人種集団間で異なる結果をもたらすモデルにつながる可能性がある。 本研究は、人種分布の異なるサブサンプリングトレーニングセットによる人種バイアスの分析と、これらのシミュレーションにおけるテスト性能の評価に焦点をあてる。 その結果, シミュレーションが人種的バランスに近づくにつれて, 顔つきの小さなデータセットが公平さとパフォーマンスの指標の両方を改善していることがわかった。 注目すべきは、f1-scoreは27.2\%$ポイント、人口統計学的パリティは平均で15.7\%$ポイント上昇である。 しかし、顔のばらつきが大きい大きなデータセットでは、公平度メトリクスは一般的に一定であり、人種間のバランスが異なる人種間でのテストパフォーマンスの同等性を達成するには不十分であることを示唆している。

Fairness in deep learning models trained with high-dimensional inputs and subjective labels remains a complex and understudied area. Facial emotion recognition, a domain where datasets are often racially imbalanced, can lead to models that yield disparate outcomes across racial groups. This study focuses on analyzing racial bias by sub-sampling training sets with varied racial distributions and assessing test performance across these simulations. Our findings indicate that smaller datasets with posed faces improve on both fairness and performance metrics as the simulations approach racial balance. Notably, the F1-score increases by $27.2\%$ points, and demographic parity increases by $15.7\%$ points on average across the simulations. However, in larger datasets with greater facial variation, fairness metrics generally remain constant, suggesting that racial balance by itself is insufficient to achieve parity in test performance across different racial groups.
翻訳日:2023-08-10 15:21:36 公開日:2023-08-09
# SSL-Auth: 自己教師型学習における事前学習エンコーダのためのFragile Watermarkingによる認証フレームワーク

SSL-Auth: An Authentication Framework by Fragile Watermarking for Pre-trained Encoders in Self-supervised Learning ( http://arxiv.org/abs/2308.04673v1 )

ライセンス: Link先を確認
Xiaobei Li, Changchun Yin, Liming Fang, Run Wang, Chenhao Lin(参考訳) ラベルなしデータセットを活用して強力なエンコーダを事前トレーニングする自己教師付き学習(SSL)は,近年,大きな成功を収めている。 これらのエンコーダは、様々なダウンストリームタスクの特徴抽出器として一般的に使われ、トレーニングプロセスに十分なデータと計算リソースを必要とする。 予め訓練されたエンコーダを商用利用することで、モデル所有者の知的財産を保護し、モデルの信頼性を確保することが重要となる。 近年の研究では、エンコーダはバックドア攻撃や敵攻撃などによって脅かされていることが示されている。 そのため,ユーザ保護のために,事前学習したエンコーダの完全性を検証するためのスキームが必要である。 本稿では,モデル性能を損なうことなくエンコーダの完全性を検証する最初の脆弱な透かし方式であるssl-authを提案する。 提案手法は,選択したキーサンプルを透かし情報として利用し,透かし情報を再構成する検証ネットワークを訓練し,エンコーダの完全性を検証する。 キーサンプルの復元結果を比較することで,修正されたモデルがオリジナルのモデルと類似した復元性能を示すべきではないため,悪意のある修正を効果的に検出することができる。 さまざまなモデルと多様なデータセットに対する広範囲な評価は、提案したSSL-Authの有効性と脆弱性を示している。

Self-supervised learning (SSL) which leverages unlabeled datasets for pre-training powerful encoders has achieved significant success in recent years. These encoders are commonly used as feature extractors for various downstream tasks, requiring substantial data and computing resources for their training process. With the deployment of pre-trained encoders in commercial use, protecting the intellectual property of model owners and ensuring the trustworthiness of the models becomes crucial. Recent research has shown that encoders are threatened by backdoor attacks, adversarial attacks, etc. Therefore, a scheme to verify the integrity of pre-trained encoders is needed to protect users. In this paper, we propose SSL-Auth, the first fragile watermarking scheme for verifying the integrity of encoders without compromising model performance. Our method utilizes selected key samples as watermark information and trains a verification network to reconstruct the watermark information, thereby verifying the integrity of the encoder. By comparing the reconstruction results of the key samples, malicious modifications can be effectively detected, as altered models should not exhibit similar reconstruction performance as the original models. Extensive evaluations on various models and diverse datasets demonstrate the effectiveness and fragility of our proposed SSL-Auth.
翻訳日:2023-08-10 15:21:20 公開日:2023-08-09
# スパイクニューラルネットワークのミニマックス最適化による資源制約モデル圧縮

Resource Constrained Model Compression via Minimax Optimization for Spiking Neural Networks ( http://arxiv.org/abs/2308.04672v1 )

ライセンス: Link先を確認
Jue Chen, Huan Yuan, Jianchao Tan, Bin Chen, Chengru Song, Di Zhang(参考訳) 脳にインスパイアされたスパイクニューラルネットワーク(snn)は、イベント駆動および高エネルギー効率の特徴を持ち、ニューロモルフィックチップなどのエッジデバイスにデプロイされる従来のニューラルネットワーク(ann)とは異なる。 これまでの作業は、モデルパフォーマンスを改善し、より大きく深いネットワークアーキテクチャをもたらすためのSNNのトレーニング戦略に重点を置いていた。 これらの複雑なネットワークをリソース制限されたエッジデバイスに直接展開することは困難である。 このような要求を満たすため、人々はSNNを非常に慎重に圧縮し、性能と計算効率のバランスをとる。 既存の圧縮手法では、重み付け標準等級を用いて繰り返し刈り取られたSNNや、その問題をスパース学習最適化として定式化した。 このスパース学習問題に対して,モデル性能と計算効率のバランスを改善するために,改良されたエンドツーエンドの Minimax 最適化手法を提案する。 また,SNNの圧縮と微調整は,特に極端な圧縮比において,逐次的よりも優れていることを示す。 圧縮されたSNNモデルは、様々なベンチマークデータセットやアーキテクチャ上での最先端(SOTA)性能を達成した。 私たちのコードは、https://github.com/chenjallen/Resource-Constrained-Compression-on-SNNで公開しています。

Brain-inspired Spiking Neural Networks (SNNs) have the characteristics of event-driven and high energy-efficient, which are different from traditional Artificial Neural Networks (ANNs) when deployed on edge devices such as neuromorphic chips. Most previous work focuses on SNNs training strategies to improve model performance and brings larger and deeper network architectures. It is difficult to deploy these complex networks on resource-limited edge devices directly. To meet such demand, people compress SNNs very cautiously to balance the performance and the computation efficiency. Existing compression methods either iteratively pruned SNNs using weights norm magnitude or formulated the problem as a sparse learning optimization. We propose an improved end-to-end Minimax optimization method for this sparse learning problem to better balance the model performance and the computation efficiency. We also demonstrate that jointly applying compression and finetuning on SNNs is better than sequentially, especially for extreme compression ratios. The compressed SNN models achieved state-of-the-art (SOTA) performance on various benchmark datasets and architectures. Our code is available at https://github.com/chenjallen/Resource-Constrained-Compression-on-SNN.
翻訳日:2023-08-10 15:20:57 公開日:2023-08-09
# 高速NeRF合成とレンダリングのための汎用的暗黙フレームワーク

A General Implicit Framework for Fast NeRF Composition and Rendering ( http://arxiv.org/abs/2308.04669v1 )

ライセンス: Link先を確認
Xinyu Gao, Ziyi Yang, Yunlu Zhao, Yuxiang Sun, Xiaogang Jin, Changqing Zou(参考訳) 近年、様々なニューラル・ラミアンス・フィールド法が高いレンダリング速度で顕著な成功を収めている。 しかし、現在の加速法は特殊であり、様々な暗黙的手法と互換性がないため、異なる種類のNeRF作品に対するリアルタイムな構成が妨げられる。 NeRFは放射線のサンプリングに依存しているため、一般的にはガイダンスを提供することができる。 我々は、NeRFオブジェクトを高速に構成する一般的な暗黙パイプラインを提案する。 この新手法により、複数のNeRFオブジェクトを任意の剛性変換とともにシームレスに配置、描画しながら、分析光源を用いて物体内または物体間の動的影を鋳造することができる。 主に,光線と暗黙表面との直接交叉計算を可能にすることで,物体間の空間的関係を迅速に決定するニューラル深度場(nedf)と呼ばれる新しい表面表現を導入する。 交叉ニューラルネットワークを用いて、空間構造によらず、NeRFを高速化するためにクエリし、提案手法は、NeRFオブジェクトのプログレッシブかつインタラクティブな合成を可能にする最初の方法である。 さらに、既存のNeRFワークのプレビュープラグインとしても機能する。

Recently, a variety of Neural radiance fields methods have garnered remarkable success in high render speed. However, current accelerating methods is specialized and not compatible for various implicit method, which prevent a real-time composition over different kinds of NeRF works. Since NeRF relies on sampling along rays, it's possible to provide a guidance generally. We propose a general implicit pipeline to rapidly compose NeRF objects. This new method enables the casting of dynamic shadows within or between objects using analytical light sources while allowing multiple NeRF objects to be seamlessly placed and rendered together with any arbitrary rigid transformations. Mainly, our work introduces a new surface representation known as Neural Depth Fields (NeDF) that quickly determines the spatial relationship between objects by allowing direct intersection computation between rays and implicit surfaces. It leverages an intersection neural network to query NeRF for acceleration instead of depending on an explicit spatial structure.Our proposed method is the first to enable both the progressive and interactive composition of NeRF objects. Additionally, it also serves as a previewing plugin for a range of existing NeRF works.
翻訳日:2023-08-10 15:20:36 公開日:2023-08-09
# スドウッド(Sudowoodo):中国語の歌詞の模倣システム。

Sudowoodo: a Chinese Lyric Imitation System with Source Lyrics ( http://arxiv.org/abs/2308.04665v1 )

ライセンス: Link先を確認
Yongzhu Chang, Rongsheng Zhang, Lin Jiang, Qihang Chen, Le Zhang, Jiashu Pu(参考訳) 歌詞生成は、キーワードや韻律などの正確な制御を用いて正確な歌詞を生成することに焦点を当てた、自然言語生成研究においてよく知られた応用である。 しかし、歌詞のスタイルや内容を模倣して新しい歌詞を書くことを含む歌詞の模倣は、並列コーパスが欠如しているため、依然として困難な課題である。 本稿では,中国語の歌詞のテキストをベースとした新歌詞生成システムである「textbf{\textit{Sudowoodo}}」を紹介する。 歌詞模倣のための並列学習コーパスの欠如問題に対処するために,ソース歌詞からキーワードに基づく歌詞モデルに基づく並列コーパスを構築するための新しい枠組みを提案する。 次に、ペア \textit{(new lyrics, source lyrics)を使用して、歌詞模倣モデルをトレーニングする。 推論過程において,生成した歌詞のフィルタリングとランク付けに後処理モジュールを使用し,高品質な歌詞を選択する。 音声情報を取り込んで、歌詞を音声にアレンジし、ボーナスとして曲を形成する。 人文評価の結果,我々のフレームワークはより優れた歌詞模倣を実現できることがわかった。 一方、システムとデモビデオは \href{https://Sudowoodo.apps-hp.danlu.netease.com/}{Sudowoodo} と \href{https://youtu.be/u5BBT_j1L5M}{https://youtu.be/u5BBT\_j1L5M} で公開されている。

Lyrics generation is a well-known application in natural language generation research, with several previous studies focusing on generating accurate lyrics using precise control such as keywords, rhymes, etc. However, lyrics imitation, which involves writing new lyrics by imitating the style and content of the source lyrics, remains a challenging task due to the lack of a parallel corpus. In this paper, we introduce \textbf{\textit{Sudowoodo}}, a Chinese lyrics imitation system that can generate new lyrics based on the text of source lyrics. To address the issue of lacking a parallel training corpus for lyrics imitation, we propose a novel framework to construct a parallel corpus based on a keyword-based lyrics model from source lyrics. Then the pairs \textit{(new lyrics, source lyrics)} are used to train the lyrics imitation model. During the inference process, we utilize a post-processing module to filter and rank the generated lyrics, selecting the highest-quality ones. We incorporated audio information and aligned the lyrics with the audio to form the songs as a bonus. The human evaluation results show that our framework can perform better lyric imitation. Meanwhile, the \textit{Sudowoodo} system and demo video of the system is available at \href{https://Sudowoodo.apps-hp.danlu.netease.com/}{Sudowoodo} and \href{https://youtu.be/u5BBT_j1L5M}{https://youtu.be/u5BBT\_j1L5M}.
翻訳日:2023-08-10 15:20:19 公開日:2023-08-09
# 合成病理組織を用いたCT画像における肺癌亜型の分類

Classification of lung cancer subtypes on CT images with synthetic pathological priors ( http://arxiv.org/abs/2308.04663v1 )

ライセンス: Link先を確認
Wentao Zhu and Yuan Jin and Gege Ma and Geng Chen and Jan Egger and Shaoting Zhang and Dimitris N. Metaxas(参考訳) 肺癌の病的亜型の正確な診断は, 経過観察および予後管理において重要である。 本稿では,CT画像から肺がんサブタイプを正確に分類するための自己生成型ハイブリッド特徴ネットワーク(SGHF-Net)を提案する。 本研究は,同症例のCT画像と病理画像間の画像パターンに,クロススケールな関連性が存在することを示す研究から着想を得て,深層ニューラルネットワークによる相互モダリティ関連を定量的にマッピングし,対応する画像に含まれる「ゴールドスタンダード」情報をCT画像から導出する病的特徴合成モジュール(PFSM)を開発した。 さらに,放射線学的特徴抽出モジュール(rfem)を設計し,ct画像情報を直接取得し,有効な特徴融合フレームワークで病理前駆体と統合することで,分類モデル全体がより指示的かつ特異的な病理関連特徴を生成し,最終的にはより正確な予測を行う。 提案モデルの優位性は、単一モダリティ入力に基づくマルチモダリティ画像情報を含むハイブリッド機能を自己生成する能力にある。 本モデルの有効性,適応性,一般化性を評価するために,大規模多施設データセット(病院3施設から829例)を用いて大規模実験を行い,本モデルと最先端(sota)分類モデルの比較を行った。 実験の結果, 肺がんの亜型分類において, 精度 (acc), 曲線下面積 (auc), およびf1得点の点で有意な精度改善が得られた。

The accurate diagnosis on pathological subtypes for lung cancer is of significant importance for the follow-up treatments and prognosis managements. In this paper, we propose self-generating hybrid feature network (SGHF-Net) for accurately classifying lung cancer subtypes on computed tomography (CT) images. Inspired by studies stating that cross-scale associations exist in the image patterns between the same case's CT images and its pathological images, we innovatively developed a pathological feature synthetic module (PFSM), which quantitatively maps cross-modality associations through deep neural networks, to derive the "gold standard" information contained in the corresponding pathological images from CT images. Additionally, we designed a radiological feature extraction module (RFEM) to directly acquire CT image information and integrated it with the pathological priors under an effective feature fusion framework, enabling the entire classification model to generate more indicative and specific pathologically related features and eventually output more accurate predictions. The superiority of the proposed model lies in its ability to self-generate hybrid features that contain multi-modality image information based on a single-modality input. To evaluate the effectiveness, adaptability, and generalization ability of our model, we performed extensive experiments on a large-scale multi-center dataset (i.e., 829 cases from three hospitals) to compare our model and a series of state-of-the-art (SOTA) classification models. The experimental results demonstrated the superiority of our model for lung cancer subtypes classification with significant accuracy improvements in terms of accuracy (ACC), area under the curve (AUC), and F1 score.
翻訳日:2023-08-10 15:19:51 公開日:2023-08-09
# マルチヘテロジニアスデータセット上で事前学習したディープカーネル学習とトランスフォーマによる効率的なベイズ最適化

Efficient Bayesian Optimization with Deep Kernel Learning and Transformer Pre-trained on Multiple Heterogeneous Datasets ( http://arxiv.org/abs/2308.04660v1 )

ライセンス: Link先を確認
Wenlong Lyu, Shoubo Hu, Jie Chuai, Zhitang Chen(参考訳) ベイズ最適化(BO)はブラックボックス最適化問題において広く採用されており、ブラックボックス応答関数を近似するために代理モデルに依存している。 ブラックボックス最適化タスクの数が増加し、さらに解決が困難になる中で、複数の先行タスクからサロゲートモデルを協調的に事前訓練する能力は、最適化効率をさらに高めるために待ち望まれている。 本稿では、トランスフォーマベースのエンコーダから学習した深い特徴に基づいて定義されたカーネルを持つガウス過程(gp)であるサロゲートを事前学習するための簡単な手法を提案する。 さらに,未知の入力変数に対応する入力トークンに対して,簡易かつ効果的なミックスアップ初期化戦略を提供し,新たなタスクの収束を加速する。 合成および実数値ベンチマーク問題に対する実験により,既存の手法に対する事前学習および転送bo戦略の有効性が示された。

Bayesian optimization (BO) is widely adopted in black-box optimization problems and it relies on a surrogate model to approximate the black-box response function. With the increasing number of black-box optimization tasks solved and even more to solve, the ability to learn from multiple prior tasks to jointly pre-train a surrogate model is long-awaited to further boost optimization efficiency. In this paper, we propose a simple approach to pre-train a surrogate, which is a Gaussian process (GP) with a kernel defined on deep features learned from a Transformer-based encoder, using datasets from prior tasks with possibly heterogeneous input spaces. In addition, we provide a simple yet effective mix-up initialization strategy for input tokens corresponding to unseen input variables and therefore accelerate new tasks' convergence. Experiments on both synthetic and real benchmark problems demonstrate the effectiveness of our proposed pre-training and transfer BO strategy over existing methods.
翻訳日:2023-08-10 15:19:21 公開日:2023-08-09
# どのトークンを使うか? 視覚トランスフォーマのトークン削減の検討

Which Tokens to Use? Investigating Token Reduction in Vision Transformers ( http://arxiv.org/abs/2308.04657v1 )

ライセンス: Link先を確認
Joakim Bruslund Haurum, Sergio Escalera, Graham W. Taylor, Thomas B. Moeslund(参考訳) ViT(Vision Transformer)の導入以来、研究者は、処理されたトークンの冗長な情報を除去することで、ViTをより効率的にすることを模索してきた。 この目標を達成するためにさまざまな方法が検討されているが、結果として生じる削減パターンと、それらのパターンがトークン削減メソッドやデータセット間でどのように異なるかは、まだ理解されていない。 このギャップを埋めるために、4つの画像分類データセットを用いて10種類のトークン削減手法の削減パターンを解明した。 異なる分類タスクでこれらの手法を体系的に比較することにより、Top-Kプルーニング法は驚くほど強力なベースラインであることが分かる。 異なる手法の詳細な分析により, バックボーンモデルの容量が変化すると, 縮小パターンは概ね一致せず, プルーニング方式の削減パターンは固定ラジアル方式とは大きく異なり, プルーニング方式の削減パターンは分類データセット間で相関することがわかった。 最後に、縮退パターンの類似性がモデル性能の適度なプロキシであることを示す。 プロジェクトページはhttps://vap.aau.dk/tokens.com。

Since the introduction of the Vision Transformer (ViT), researchers have sought to make ViTs more efficient by removing redundant information in the processed tokens. While different methods have been explored to achieve this goal, we still lack understanding of the resulting reduction patterns and how those patterns differ across token reduction methods and datasets. To close this gap, we set out to understand the reduction patterns of 10 different token reduction methods using four image classification datasets. By systematically comparing these methods on the different classification tasks, we find that the Top-K pruning method is a surprisingly strong baseline. Through in-depth analysis of the different methods, we determine that: the reduction patterns are generally not consistent when varying the capacity of the backbone model, the reduction patterns of pruning-based methods significantly differ from fixed radial patterns, and the reduction patterns of pruning-based methods are correlated across classification datasets. Finally we report that the similarity of reduction patterns is a moderate-to-strong proxy for model performance. Project page at https://vap.aau.dk/tokens.
翻訳日:2023-08-10 15:19:05 公開日:2023-08-09
# PDFマルウェア検出のための小サイズの特徴セット

A Feature Set of Small Size for the PDF Malware Detection ( http://arxiv.org/abs/2308.04704v1 )

ライセンス: Link先を確認
Ran Liu and Charles Nicholas(参考訳) 機械学習(ml)ベースのマルウェア検出システムは、マルウェアの脅威が増え、より洗練されていくにつれて、ますます重要になっている。 pdfファイルはしばしばフィッシング攻撃のベクターとして使われ、信頼性の高いデータリソースと見なされ、異なるプラットフォームでアクセス可能である。 そのため、研究者は様々なPDFマルウェア検出方法を開発した。 PDFマルウェアの検出性能は特徴選択の影響が大きい。 本研究ではPDFファイルのドメイン知識をあまり必要としない小さな機能セットを提案する。 提案する特徴を6種類の機械学習モデルを用いて評価する。 ランダムフォレストモデルを用いた場合の最適精度は99.75%である。 提案する機能セットは,わずか12の機能で構成され,pdfマルウェア検出の分野で最も簡潔な1つである。 ささやかなサイズにもかかわらず、私たちはより大きな機能セットを使用する最先端の技術に匹敵する結果を得ています。

Machine learning (ML)-based malware detection systems are becoming increasingly important as malware threats increase and get more sophisticated. PDF files are often used as vectors for phishing attacks because they are widely regarded as trustworthy data resources, and are accessible across different platforms. Therefore, researchers have developed many different PDF malware detection methods. Performance in detecting PDF malware is greatly influenced by feature selection. In this research, we propose a small features set that don't require too much domain knowledge of the PDF file. We evaluate proposed features with six different machine learning models. We report the best accuracy of 99.75% when using Random Forest model. Our proposed feature set, which consists of just 12 features, is one of the most conciseness in the field of PDF malware detection. Despite its modest size, we obtain comparable results to state-of-the-art that employ a much larger set of features.
翻訳日:2023-08-10 15:12:45 公開日:2023-08-09
# 特徴整合対称マルチモーダルネットワークによる連続的道路・シーン意味セグメンテーション

Continual Road-Scene Semantic Segmentation via Feature-Aligned Symmetric Multi-Modal Network ( http://arxiv.org/abs/2308.04702v1 )

ライセンス: Link先を確認
Francesco Barbato, Elena Camuffo, Simone Milani, Pietro Zanuttigh(参考訳) LiDARとカラーデータを組み合わせた最先端のマルチモーダルセマンティックセマンティックセマンティクスアプローチは、通常非対称な情報共有スキームの上に設計され、両方のモダリティが常に利用可能であると仮定する。 この強い仮定は、センサーが故障しがちな現実世界のシナリオや、取得した情報が信頼できないような悪条件(夜間、雨、霧など)に直面するようなシナリオには当てはまらないかもしれない。 さらに、これらのアーキテクチャは継続的な学習シナリオで失敗する傾向があります。 本研究では,機能表現と対称情報共有スキームを強固に結合することにより,入力モダリティの1つが欠落しても動作可能なマルチモーダル意味セグメンテーションのタスクを再構築する。 これにより、自動運転車の場合と同様に、安全クリティカルな設定でもモデルが信頼性を保ちます。 我々はSemanticKITTIデータセットに対する我々のアプローチを評価し、最も近い競合相手と比較した。 また,本手法の有効性を実証する手法として,アドホックな連続学習手法を導入し,その結果をクラスインクリメンタルな連続学習シナリオで示す。

State-of-the-art multimodal semantic segmentation approaches combining LiDAR and color data are usually designed on top of asymmetric information-sharing schemes and assume that both modalities are always available. Regrettably, this strong assumption may not hold in real-world scenarios, where sensors are prone to failure or can face adverse conditions (night-time, rain, fog, etc.) that make the acquired information unreliable. Moreover, these architectures tend to fail in continual learning scenarios. In this work, we re-frame the task of multimodal semantic segmentation by enforcing a tightly-coupled feature representation and a symmetric information-sharing scheme, which allows our approach to work even when one of the input modalities is missing. This makes our model reliable even in safety-critical settings, as is the case of autonomous driving. We evaluate our approach on the SemanticKITTI dataset, comparing it with our closest competitor. We also introduce an ad-hoc continual learning scheme and show results in a class-incremental continual learning scenario that prove the effectiveness of the approach also in this setting.
翻訳日:2023-08-10 15:12:34 公開日:2023-08-09
# gifd:特徴領域最適化を用いた生成勾配インバージョン法

GIFD: A Generative Gradient Inversion Method with Feature Domain Optimization ( http://arxiv.org/abs/2308.04699v1 )

ライセンス: Link先を確認
Hao Fang, Bin Chen, Xuan Wang, Zhi Wang, Shu-Tao Xia(参考訳) federated learning(fl)は、複数のクライアントがローカルデータから算出した勾配を中央サーバにアップロードできるようにすることで、クライアントのプライバシを保護する有望な分散機械学習フレームワークとして最近登場した。 例えば、攻撃者は事前訓練された生成的敵ネットワーク(gan)を事前知識として利用することで、共有勾配を反転させ、flシステムに対して機密データを回復することができる。 しかし、GANモデルの潜在空間における勾配反転攻撃は、その表現能力と一般化可能性を制限する。 これらの課題に対処するために、GANモデルを分解して中間層の特徴領域を探索する \textbf{G}radient \textbf{I}nversion over \textbf{F}eature \textbf{D}omains (GIFD) を提案する。 初期潜在コードのみを最適化するのではなく、最適化されたレイヤを初期潜在スペースから出力イメージに近い中間レイヤへと段階的に変更します。 さらに、探索範囲に小さな${l_1}$ボール制約を追加することで、非現実画像生成を避けるために正規化子を設計する。 gifdをout-of-distribution(ood)設定に拡張することで、ganとflタスクのトレーニングセットが同じデータ分散に従うという仮定を弱めます。 本手法は画素レベルの再構成が可能であり,既存手法よりも優れていることを示す。 特にgifdは、異なる防御戦略設定とバッチサイズで非常に汎用性が高い。

Federated Learning (FL) has recently emerged as a promising distributed machine learning framework to preserve clients' privacy, by allowing multiple clients to upload the gradients calculated from their local data to a central server. Recent studies find that the exchanged gradients also take the risk of privacy leakage, e.g., an attacker can invert the shared gradients and recover sensitive data against an FL system by leveraging pre-trained generative adversarial networks (GAN) as prior knowledge. However, performing gradient inversion attacks in the latent space of the GAN model limits their expression ability and generalizability. To tackle these challenges, we propose \textbf{G}radient \textbf{I}nversion over \textbf{F}eature \textbf{D}omains (GIFD), which disassembles the GAN model and searches the feature domains of the intermediate layers. Instead of optimizing only over the initial latent code, we progressively change the optimized layer, from the initial latent space to intermediate layers closer to the output images. In addition, we design a regularizer to avoid unreal image generation by adding a small ${l_1}$ ball constraint to the searching range. We also extend GIFD to the out-of-distribution (OOD) setting, which weakens the assumption that the training sets of GANs and FL tasks obey the same data distribution. Extensive experiments demonstrate that our method can achieve pixel-level reconstruction and is superior to the existing methods. Notably, GIFD also shows great generalizability under different defense strategy settings and batch sizes.
翻訳日:2023-08-10 15:12:11 公開日:2023-08-09
# グラフクラスタリングアルゴリズムを用いたCovid-19データセットの解析

An Analytical Study of Covid-19 Dataset using Graph-Based Clustering Algorithms ( http://arxiv.org/abs/2308.04697v1 )

ライセンス: Link先を確認
Mamata Das, P.J.A. Alphonse, Selvakumar K(参考訳) 新型コロナウイルス(COVID-19)と略称されるコロナウイルスは、2019年12月に中国武漢で最初に同定された新型ウイルスで、現在では世界中で流行している。 世界保健機関(who)によると、2019年から2021年4月までの死者数は3,124,905人。 この場合、多くの方法、AIベースの技術、機械学習アルゴリズムが研究され、このパンデミックから人々を救うために使われています。 SARS-CoVと2019-nCoVのSARS-CoV-2ウイルスが私たちの体に侵入し、細胞タンパク質の構造にいくつかの違いを引き起こしました。 タンパク質とタンパク質の相互作用(PPI)は、我々の細胞に必須のプロセスであり、医薬品の開発において非常に重要な役割を果たす。 本研究では,Covi-19データセットの92遺伝子から生成されたPPIネットワーク上でクラスタリングを行った。 我々は3つのグラフベースのクラスタリングアルゴリズムを用いてクラスタの解析を行った。

Corona VIrus Disease abbreviated as COVID-19 is a novel virus which is initially identified in Wuhan of China in December of 2019 and now this deadly disease has spread all over the world. According to World Health Organization (WHO), a total of 3,124,905 people died from 2019 to 2021, April. In this case, many methods, AI base techniques, and machine learning algorithms have been researched and are being used to save people from this pandemic. The SARS-CoV and the 2019-nCoV, SARS-CoV-2 virus invade our bodies, causing some differences in the structure of cell proteins. Protein-protein interaction (PPI) is an essential process in our cells and plays a very important role in the development of medicines and gives ideas about the disease. In this study, we performed clustering on PPI networks generated from 92 genes of the Covi-19 dataset. We have used three graph-based clustering algorithms to give intuition to the analysis of clusters.
翻訳日:2023-08-10 15:11:40 公開日:2023-08-09
# オルソペディックにおける説明可能なAI:挑戦、機会、展望

Explainable AI in Orthopedics: Challenges, Opportunities, and Prospects ( http://arxiv.org/abs/2308.04696v1 )

ライセンス: Link先を確認
Soheyla Amirian, Luke A. Carlson, Matthew F. Gong, Ines Lohse, Kurt R. Weiss, Johannes F. Plate, and Ahmad P. Tafti(参考訳) 人工知能(AI)は様々な分野で多くの成功を収めてきたが、医療分野での採用は、他の高度な設定に少し遅れている。 規制フレームワーク、患者のプライバシに関する懸念、データの多様性などだ。 しかし、医療、特に整形外科におけるAIの実装を妨げる重要な課題は、AIモデルに関する説明可能性と解釈性の欠如である。 整形外科における説明可能なAI(XAI)の課題に対処するには、透明性と解釈性を優先するAIモデルとアルゴリズムを開発する必要がある。 現在のコントリビューションは、整形外科の実践においてXAIに現れるいくつかの重要な課題と機会を概説している。 この研究は、XAIを整形外科に採用するための標準とガイドラインを確立するために、AI実践者、整形外科専門家、および規制機関間の学際的なコラボレーションの必要性を強調している。

While artificial intelligence (AI) has made many successful applications in various domains, its adoption in healthcare lags a little bit behind other high-stakes settings. Several factors contribute to this slower uptake, including regulatory frameworks, patient privacy concerns, and data heterogeneity. However, one significant challenge that impedes the implementation of AI in healthcare, particularly in orthopedics, is the lack of explainability and interpretability around AI models. Addressing the challenge of explainable AI (XAI) in orthopedics requires developing AI models and algorithms that prioritize transparency and interpretability, allowing clinicians, surgeons, and patients to understand the contributing factors behind any AI-powered predictive or descriptive models. The current contribution outlines several key challenges and opportunities that manifest in XAI in orthopedic practice. This work emphasizes the need for interdisciplinary collaborations between AI practitioners, orthopedic specialists, and regulatory entities to establish standards and guidelines for the adoption of XAI in orthopedics.
翻訳日:2023-08-10 15:11:23 公開日:2023-08-09
# パラメトリックPDEを解く有限要素演算子ネットワーク

Finite Element Operator Network for Solving Parametric PDEs ( http://arxiv.org/abs/2308.04690v1 )

ライセンス: Link先を確認
Jae Yong Lee, Seungchan Ko, Youngjoon Hong(参考訳) 偏微分方程式(PDE)は、物理学、工学、金融など、様々な分野における自然現象の理解と予測の基盤となる。 しかし、パラメトリック pdes の解法は効率的な数値解法を必要とする複雑なタスクである。 本稿では,有限要素演算子ネットワーク(FEONet)を用いたパラメトリックPDEの解法を提案する。 提案手法は,従来の数値手法,特に有限要素法と組み合わせて深層学習の力を利用して,ペア入力出力トレーニングデータがない場合にパラメトリックPDEを解く。 提案手法の有効性をいくつかのベンチマーク問題に適用し, 精度, 一般化, 計算柔軟性の観点から, 既存の最先端手法よりも優れていることを示す。 我々のFEONetフレームワークは、PDEが様々な境界条件と特異な振る舞いを持つ複雑なドメインのモデリングにおいて重要な役割を果たす様々な分野の応用の可能性を示している。 さらに, 数値解析における有限要素近似を利用して, 理論的収束解析を行った。

Partial differential equations (PDEs) underlie our understanding and prediction of natural phenomena across numerous fields, including physics, engineering, and finance. However, solving parametric PDEs is a complex task that necessitates efficient numerical methods. In this paper, we propose a novel approach for solving parametric PDEs using a Finite Element Operator Network (FEONet). Our proposed method leverages the power of deep learning in conjunction with traditional numerical methods, specifically the finite element method, to solve parametric PDEs in the absence of any paired input-output training data. We demonstrate the effectiveness of our approach on several benchmark problems and show that it outperforms existing state-of-the-art methods in terms of accuracy, generalization, and computational flexibility. Our FEONet framework shows potential for application in various fields where PDEs play a crucial role in modeling complex domains with diverse boundary conditions and singular behavior. Furthermore, we provide theoretical convergence analysis to support our approach, utilizing finite element approximation in numerical analysis.
翻訳日:2023-08-10 15:11:06 公開日:2023-08-09
# robot.txt制約下におけるwebページクローラ戦略

web crawler strategies for web pages under robot.txt restriction ( http://arxiv.org/abs/2308.04689v1 )

ライセンス: Link先を確認
Piyush Vyas, Akhilesh Chauhan, Tushar Mandge, Surbhi Hardikar(参考訳) 現在、誰もがworld wide webを知っていて、毎日インターネットで仕事をしている。 本稿では,ユーザが入力したキーワードを検索して検索する検索エンジンについて紹介する。 検索エンジンは、ネットサーファーに提供するための便利な検索結果として、異なる検索アルゴリズムを使用する。 ネットサーファーはトップの検索結果を検索するが、ウェブページの結果は検索エンジンよりも上位になったのか? 検索エンジンはどうやってデータベースの ウェブページを手に入れたの? 本稿では,これらすべての基本質問に対する回答について述べる。 本稿では,Webクローラのサーチエンジンとロボット排除プロトコルのルールを扱うWebクローラについても論じる。 webmasterはrobot.txtファイルで異なる制限事実を使用してwebクローラを指示する。

In the present time, all know about World Wide Web and work over the Internet daily. In this paper, we introduce the search engines working for keywords that are entered by users to find something. The search engine uses different search algorithms for convenient results for providing to the net surfer. Net surfers go with the top search results but how did the results of web pages get higher ranks over search engines? how the search engine got that all the web pages in the database? This paper gives the answers to all these kinds of basic questions. Web crawlers working for search engines and robot exclusion protocol rules for web crawlers are also addressed in this research paper. Webmaster uses different restriction facts in robot.txt file to instruct web crawler, some basic formats of robot.txt are also mentioned in this paper.
翻訳日:2023-08-10 15:10:49 公開日:2023-08-09
# 制約満足度と最適化問題としてのニュース中心クロスワードパズルの生成

Generating News-Centric Crossword Puzzles As A Constraint Satisfaction and Optimization Problem ( http://arxiv.org/abs/2308.04688v1 )

ライセンス: Link先を確認
Kaito Majima, Shotaro Ishihara(参考訳) クロスワードパズルは伝統的にエンターテイメントだけでなく、語彙や言語能力の獲得に使える教育ツールとしても機能してきた。 教育目的を高める1つの戦略はパーソナライゼーションであり、特定のトピックにより多くの単語を含めるなどである。 本稿では,ニュースに対する人々の興味を喚起する事例に注目し,ニュース中心のクロスワードパズルを自動的に生成する枠組みを提案する。 可能なシナリオを設計し,制約満足度と最適化の問題として,可能な限り多くのニュース由来の単語を含むプロトタイプを構築した。 実験では, いくつかの条件下で発生確率と時間について報告した。 その結果、ニュース中心のクロスワードパズルは、ニュース由来の単語がほとんどなくても生成できることがわかった。 本稿では,プロトタイプの質的評価を通じて現状の課題と今後の研究方向性を概説する。 制約満足度と最適化問題の定式化が教育応用として有用であることを示す最初の提案である。

Crossword puzzles have traditionally served not only as entertainment but also as an educational tool that can be used to acquire vocabulary and language proficiency. One strategy to enhance the educational purpose is personalization, such as including more words on a particular topic. This paper focuses on the case of encouraging people's interest in news and proposes a framework for automatically generating news-centric crossword puzzles. We designed possible scenarios and built a prototype as a constraint satisfaction and optimization problem, that is, containing as many news-derived words as possible. Our experiments reported the generation probabilities and time required under several conditions. The results showed that news-centric crossword puzzles can be generated even with few news-derived words. We summarize the current issues and future research directions through a qualitative evaluation of the prototype. This is the first proposal that a formulation of a constraint satisfaction and optimization problem can be beneficial as an educational application.
翻訳日:2023-08-10 15:10:37 公開日:2023-08-09
# 医用画像の分類と位置化による迅速なトレーニングデータ作成

Rapid Training Data Creation by Synthesizing Medical Images for Classification and Localization ( http://arxiv.org/abs/2308.04687v1 )

ライセンス: Link先を確認
Abhishek Kushwaha, Sarthak Gupta, Anish Bhanushali, Tathagato Rai Dastidar(参考訳) 医用画像解析における人工知能(ai)の利用は広く受け入れられているが、医療分野における注釈データ生成に必要な専門知識、時間、コストは、データと専門家のアノテーションの両方が利用可能でないため、著しく高い。 強い教師付きオブジェクトローカライゼーションモデルは、完全に注釈付けされたデータを必要とする。 これは医療画像の達成と検証が困難である。 本稿では,上記の問題を解決するために,任意の深層ニューラルネットワークを訓練するための実データ変換手法を提案する。 本手法は,弱教師付き局所化モデルと強教師付き局所化モデルの両方に有効性を示す。 弱教師付きモデルでは,生成データを用いて位置推定精度が著しく向上することを示す。 強い教師付きモデルの場合、このアプローチは実画像に対する徹底的なアノテーションの必要性を克服する。 後者のモデルでは、生成した画像でトレーニングされた精度は、完全に注釈付けされた実画像でトレーニングされた精度と密接に一致している。 この結果は、顕微鏡で得られたヒト尿サンプルの画像に示されている。

While the use of artificial intelligence (AI) for medical image analysis is gaining wide acceptance, the expertise, time and cost required to generate annotated data in the medical field are significantly high, due to limited availability of both data and expert annotation. Strongly supervised object localization models require data that is exhaustively annotated, meaning all objects of interest in an image are identified. This is difficult to achieve and verify for medical images. We present a method for the transformation of real data to train any Deep Neural Network to solve the above problems. We show the efficacy of this approach on both a weakly supervised localization model and a strongly supervised localization model. For the weakly supervised model, we show that the localization accuracy increases significantly using the generated data. For the strongly supervised model, this approach overcomes the need for exhaustive annotation on real images. In the latter model, we show that the accuracy, when trained with generated images, closely parallels the accuracy when trained with exhaustively annotated real images. The results are demonstrated on images of human urine samples obtained using microscopy.
翻訳日:2023-08-10 15:10:24 公開日:2023-08-09
# 動的量子相転移のための直交カタストロフィと量子速度制限

Orthogonality catastrophe and quantum speed limit for dynamical quantum phase transition ( http://arxiv.org/abs/2308.04686v1 )

ライセンス: Link先を確認
Zheng-Rong Zhu, Bin Shao, Jian Zou, Lian-Ao Wu(参考訳) 動的量子相転移のcreutzモデルにおける直交性カタストロフィーと量子速度限界について検討する。 我々は、特定の離散値に対して、ロシミットエコーの正確な零点が有限サイズ系に存在することを示した。 臨界点近傍のクエンチ力学解析におけるゼロエネルギーモードの役割を強調した。 また,Loschmidtエコーの第1完全零点の時間挙動と,システムサイズが大きくなるにつれて対応する量子速度制限時間についても検討する。 境界はタイトではないが、バンドギャップのスケーリング特性とシステムサイズに対するエネルギー分散に起因する可能性がある。 したがって、直交カタストロフィと量子速度制限の関係は、ロスキミットエコーの全形式を参照することによって確立される。 重要なこととして、静量子相転移の臨界点を検出するために量子速度制限を用いることと、ノイズ誘起量子速度制限の振幅の低下が考えられる。

We investigate the orthogonality catastrophe and quantum speed limit in the Creutz model for dynamical quantum phase transitions. We demonstrate that exact zeros of the Loschmidt echo can exist in finite-size systems for specific discrete values. We highlight the role of the zero-energy mode when analyzing quench dynamics near the critical point. We also examine the behavior of the time for the first exact zeros of the Loschmidt echo and the corresponding quantum speed limit time as the system size increases. While the bound is not tight, it can be attributed to the scaling properties of the band gap and energy variance with respect to system size. As such, we establish a relation between the orthogonality catastrophe and quantum speed limit by referencing the full form of the Loschmidt echo. Significantly, we find the possibility of using the quantum speed limit to detect the critical point of a static quantum phase transition, along with a decrease in the amplitude of noise induced quantum speed limit.
翻訳日:2023-08-10 15:10:06 公開日:2023-08-09
# TextPainter: ポスターデザインのためのビジュアルハーモニーとテキスト理解によるマルチモーダルテキスト画像生成

TextPainter: Multimodal Text Image Generation withVisual-harmony and Text-comprehension for Poster Design ( http://arxiv.org/abs/2308.04733v1 )

ライセンス: Link先を確認
Yifan Gao, Jinpeng Lin, Min Zhou, Chuanbin Liu, Hongtao Xie, Tiezheng Ge, Yuning Jiang(参考訳) テキストデザインはポスターデザインにおいて最も重要な手順の1つであり、視覚調和とテキスト概念を考慮したテキスト画像を設計するための人間の創造性と専門性に大きく依存している。 本研究は,文脈視覚情報と対応するテキストセマンティクスを利用してテキスト画像を生成する,新しいマルチモーダルアプローチであるtextpainterを紹介する。 具体的には、TextPainterは、グローバルな背景画像をスタイルのヒントとして捉え、テキスト画像生成を視覚調和で導く。 さらに,言語モデルを利用してテキスト理解モジュールを導入し,文レベルと単語レベルの両方のバリエーションを実現する。 さらに,約80Kのポスターに文レベルのバウンディングボックスとテキスト内容を付加したPosterT80Kデータセットを構築した。 このデータセットがマルチモーダルテキスト画像生成に関するさらなる研究の道を開くことを願っている。 広範に量的および質的な実験により、TextPainterはポスターの視覚的にも感覚的にも調和したテキストイメージを生成することができることを示した。

Text design is one of the most critical procedures in poster design, as it relies heavily on the creativity and expertise of humans to design text images considering the visual harmony and text-semantic. This study introduces TextPainter, a novel multimodal approach that leverages contextual visual information and corresponding text semantics to generate text images. Specifically, TextPainter takes the global-local background image as a hint of style and guides the text image generation with visual harmony. Furthermore, we leverage the language model and introduce a text comprehension module to achieve both sentence-level and word-level style variations. Besides, we construct the PosterT80K dataset, consisting of about 80K posters annotated with sentence-level bounding boxes and text contents. We hope this dataset will pave the way for further research on multimodal text image generation. Extensive quantitative and qualitative experiments demonstrate that TextPainter can generatevisually-and-semantically-harmonious text images for posters.
翻訳日:2023-08-10 15:02:58 公開日:2023-08-09
# JEN-1:全方向拡散モデルを用いたテキスト誘導ユニバーサル音楽生成

JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models ( http://arxiv.org/abs/2308.04729v1 )

ライセンス: Link先を確認
Peike Li, Boyu Chen, Yao Yao, Yikai Wang, Allen Wang, Alex Wang(参考訳) 音楽生成は、深い生成モデルの発展によって関心が高まりつつある。 しかし、テキストから音楽への記述を条件とした音楽の生成は、音楽構造の複雑さと高いサンプリングレート要求のため、依然として困難である。 タスクの重要性にもかかわらず、一般的な生成モデルは音楽の品質、計算効率、一般化の限界を示す。 本稿では,テキスト・音楽生成のための汎用高忠実度モデルであるJEN-1を紹介する。 JEN-1は自己回帰トレーニングと非自己回帰トレーニングの両方を取り入れた拡散モデルである。 テキストによる学習を通じて、JEN-1はテキスト誘導音楽生成、音楽のインペインティング、継続といった様々な世代タスクを実行する。 JEN-1はテキスト・音楽アライメントや音楽品質において、計算効率を保ちながら最先端の手法よりも優れた性能を示す。 私たちのデモはhttp://futureverse.com/research/jen/demos/jen1で利用可能です。

Music generation has attracted growing interest with the advancement of deep generative models. However, generating music conditioned on textual descriptions, known as text-to-music, remains challenging due to the complexity of musical structures and high sampling rate requirements. Despite the task's significance, prevailing generative models exhibit limitations in music quality, computational efficiency, and generalization. This paper introduces JEN-1, a universal high-fidelity model for text-to-music generation. JEN-1 is a diffusion model incorporating both autoregressive and non-autoregressive training. Through in-context learning, JEN-1 performs various generation tasks including text-guided music generation, music inpainting, and continuation. Evaluations demonstrate JEN-1's superior performance over state-of-the-art methods in text-music alignment and music quality while maintaining computational efficiency. Our demos are available at http://futureverse.com/research/jen/demos/jen1
翻訳日:2023-08-10 15:02:42 公開日:2023-08-09
# 変圧器を用いた回転不変3次元点集合の自己教師あり学習とその自己蒸留

Self-supervised Learning of Rotation-invariant 3D Point Set Features using Transformer and its Self-distillation ( http://arxiv.org/abs/2308.04725v1 )

ライセンス: Link先を確認
Takahiko Furuya, Zhoujie Chen, Ryutarou Ohbuchi, Zhenzhong Kuang(参考訳) 3dオブジェクトの回転に対する不変性は、3dポイントセットデータの解析において重要な特性である。 回転不変性を持つ従来の3D点集合DNNは、通常、ラベル付き3D点集合をトレーニングサンプルとして使用して教師あり学習により正確な3D形状特徴を得る。 しかし、3D点集合の急速な増加とラベル付けコストの高騰により、多数のラベルのない3D点集合から回転不変な3D形状特徴を学習するフレームワークが必要である。 本稿では,オブジェクトレベルでの高精度かつ回転不変な3次元点集合の特徴を得るための,新しい自己教師付き学習フレームワークを提案する。 提案する軽量DNNアーキテクチャでは,3Dオブジェクトを構成する部分形状の空間的レイアウトを保持するトークンと呼ばれる,複数のグローバルスケール領域に設定された入力3Dポイントを分解する。 トークンを精錬し,3d 点集合ごとに表現的回転不変特徴量に集約する自着機構を用いる。 我々のDNNは自己蒸留フレームワークによって生成された擬似ラベルを用いて効果的に訓練されている。 正確な特徴の学習を容易にするために,マルチクロップとカットミックスデータ拡張技術を組み合わせて,トレーニング用3次元点集合の多様化を提案する。 包括的評価を通じて,(1)教師付き学習用に設計された既存の回転不変dnnアーキテクチャは,自己教師付き学習シナリオにおいて必ずしも正確な3次元形状特徴を学習しないこと,(2)提案手法が既存のアルゴリズムよりも正確な回転不変3次元点集合特徴を学習できることを実証する。 コードはhttps://github.com/takahikof/RIPT_SDMMで入手できる。

Invariance against rotations of 3D objects is an important property in analyzing 3D point set data. Conventional 3D point set DNNs having rotation invariance typically obtain accurate 3D shape features via supervised learning by using labeled 3D point sets as training samples. However, due to the rapid increase in 3D point set data and the high cost of labeling, a framework to learn rotation-invariant 3D shape features from numerous unlabeled 3D point sets is required. This paper proposes a novel self-supervised learning framework for acquiring accurate and rotation-invariant 3D point set features at object-level. Our proposed lightweight DNN architecture decomposes an input 3D point set into multiple global-scale regions, called tokens, that preserve the spatial layout of partial shapes composing the 3D object. We employ a self-attention mechanism to refine the tokens and aggregate them into an expressive rotation-invariant feature per 3D point set. Our DNN is effectively trained by using pseudo-labels generated by a self-distillation framework. To facilitate the learning of accurate features, we propose to combine multi-crop and cut-mix data augmentation techniques to diversify 3D point sets for training. Through a comprehensive evaluation, we empirically demonstrate that, (1) existing rotation-invariant DNN architectures designed for supervised learning do not necessarily learn accurate 3D shape features under a self-supervised learning scenario, and (2) our proposed algorithm learns rotation-invariant 3D point set features that are more accurate than those learned by existing algorithms. Code will be available at https://github.com/takahikof/RIPT_SDMM
翻訳日:2023-08-10 15:02:29 公開日:2023-08-09
# JiangJun: 2プレーヤーゼロサムゲームにおける非遷移性に対処してXiangqiをマスターする

JiangJun: Mastering Xiangqi by Tackling Non-Transitivity in Two-Player Zero-Sum Games ( http://arxiv.org/abs/2308.04719v1 )

ライセンス: Link先を確認
Yang Li and Kun Xiong and Yingping Zhang and Jiangcheng Zhu and Stephen Mcaleer and Wei Pan and Jun Wang and Zonghong Dai and Yaodong Yang(参考訳) 本稿では,完全情報ゲームにおける非推移性について,特にチェスや将技に匹敵するゲームツリー複雑性に匹敵する中国の伝統的なボードゲームであるxiangqiに着目した経験的探索を行う。 人間のXiangqiプレイの1万以上のレコードを分析して、ゲーム戦略構造における推移的要素と非推移的要素の両方の存在を強調する。 非遷移性に対処するために,ナッシュ均衡を近似するために設計されたモンテカルロ木探索 (MCTS) とポリシー空間応答オラクル (PSRO) の革新的な組み合わせであるjiangJunアルゴリズムを導入する。 WeChatミニプログラムを用いてアルゴリズムを実証的に評価し,人間プレイヤーに対する99.41\%の勝利率でマスターレベルを達成する。 このアルゴリズムの有効性は、相対的な集団性能や可視化結果など、多くの指標によって確認されている。 私たちのプロジェクトサイトは \url{https://sites.google.com/view/jiangjun-site/} で利用可能です。

This paper presents an empirical exploration of non-transitivity in perfect-information games, specifically focusing on Xiangqi, a traditional Chinese board game comparable in game-tree complexity to chess and shogi. By analyzing over 10,000 records of human Xiangqi play, we highlight the existence of both transitive and non-transitive elements within the game's strategic structure. To address non-transitivity, we introduce the JiangJun algorithm, an innovative combination of Monte-Carlo Tree Search (MCTS) and Policy Space Response Oracles (PSRO) designed to approximate a Nash equilibrium. We evaluate the algorithm empirically using a WeChat mini program and achieve a Master level with a 99.41\% win rate against human players. The algorithm's effectiveness in overcoming non-transitivity is confirmed by a plethora of metrics, such as relative population performance and visualization results. Our project site is available at \url{https://sites.google.com/view/jiangjun-site/}.
翻訳日:2023-08-10 15:02:01 公開日:2023-08-09
# 非ユニタリボソン力学における変動束状態への吸収

Absorption to Fluctuating Bunching States in Non-Unitary Boson Dynamics ( http://arxiv.org/abs/2308.04716v1 )

ライセンス: Link先を確認
Ken Mochizuki and Ryusuke Hamazaki(参考訳) ボソンの雑音非一意力学は任意の初期状態を揺らぎ、全てのボソンが1つの時間依存モードを占有する新しい変動束状態へと誘導することを示す。 雑音のないシステムにおけるスペクトルギャップの一般化である雑音スペクトルギャップの概念を提案し、変動束状態への指数的に高速な吸収が漸近的に起こることを示した。 揺らぎ束縛状態は、時間非依存ジェネレータによって記述されるユニタリダイナミクスと非ユニタリダイナミクスに匹敵するノイズのない非ユニタリダイナミクスに特有のものである。 また、ゆらぎ束縛状態への緩和時間は、一般雑音非単位力学における雑音パラメータの関数として普遍的な電力法則に従うことを論じる。

We show that noisy non-unitary dynamics of bosons drives arbitrary initial states into a novel fluctuating bunching state, where all bosons occupy one time-dependent mode. We propose a concept of the noisy spectral gap, a generalization of the spectral gap in noiseless systems, and demonstrate that exponentially fast absorption to the fluctuating bunching state takes place asymptotically. The fluctuating bunching state is unique to noisy non-unitary dynamics with no counterpart in any unitary dynamics and non-unitary dynamics described by a time-independent generator. We also argue that the times of relaxation to the fluctuating bunching state obey a universal power law as functions of the noise parameter in generic noisy non-unitary dynamics.
翻訳日:2023-08-10 15:01:44 公開日:2023-08-09
# 事前学習型言語モデルによるスロット誘導とマルチレベルコントラスト学習

Slot Induction via Pre-trained Language Model Probing and Multi-level Contrastive Learning ( http://arxiv.org/abs/2308.04712v1 )

ライセンス: Link先を確認
Hoang H. Nguyen, Chenwei Zhang, Ye Liu, Philip S. Yu(参考訳) タスク指向対話(TOD)システムにおける最近の高度な手法(例えば、意図の検出とスロットフィリング)は、競争性能を達成するために大量の注釈データを必要とする。 実際、トークンレベルのアノテーション(スロットラベル)は時間がかかり、取得が困難です。 本研究では,トークンレベルのスロットアノテーションを明示せずにスロット境界を誘導することを目的としたスロット誘導(si)タスクについて検討する。 我々は,(1) PLMから抽出した教師なし意味知識と(2)TODから利用可能な文レベルの意図ラベル信号を活用するために,教師なし事前訓練言語モデル(PLM)探索とコントラスト学習機構を活用することを提案する。 提案手法は,2つのNLUベンチマークデータセット上でトークンレベルの教師付きモデルとのギャップを埋めることができ,SIタスクに有効であることが示されている。 新たなインテントに一般化されると、我々のSI目的はスロットラベルの表現も強化され、スロットフィリングタスクのパフォーマンスが向上する。

Recent advanced methods in Natural Language Understanding for Task-oriented Dialogue (TOD) Systems (e.g., intent detection and slot filling) require a large amount of annotated data to achieve competitive performance. In reality, token-level annotations (slot labels) are time-consuming and difficult to acquire. In this work, we study the Slot Induction (SI) task whose objective is to induce slot boundaries without explicit knowledge of token-level slot annotations. We propose leveraging Unsupervised Pre-trained Language Model (PLM) Probing and Contrastive Learning mechanism to exploit (1) unsupervised semantic knowledge extracted from PLM, and (2) additional sentence-level intent label signals available from TOD. Our approach is shown to be effective in SI task and capable of bridging the gaps with token-level supervised models on two NLU benchmark datasets. When generalized to emerging intents, our SI objectives also provide enhanced slot label representations, leading to improved performance on the Slot Filling tasks.
翻訳日:2023-08-10 15:01:32 公開日:2023-08-09
# Rationale 生成とDense Retrieval を用いた小型言語\\Model による未知の質問への回答

Answering Unseen Questions With Smaller Language\\Models Using Rationale Generation and Dense Retrieval ( http://arxiv.org/abs/2308.04711v1 )

ライセンス: Link先を確認
Tim Hartill, Diana Benavides-Prado, Michael Witbrock, Patricia J. Riddle(参考訳) 十分な説明的文脈が与えられると、より小さな言語モデルが、質問が訓練中に見当たらない短い質問応答タスクに対して強い推論能力を示すことが示される。 この設定でさらに改善する2つの方法を評価する。 どちらの手法も、より大きな言語モデルによって生成される有理性と、マルチホップ高密度検索システムから生成される長いコンテキストを組み合わせることに重点を置いている。 最初のメソッド($\textit{RR}$)では、Rationale Rankingモデルをトレーニングして、生成した有理性と検索されたコンテキストの両方を関連性および真理性に関してスコア付けする。 次に、これらのスコアを用いて、複数の組み合わせ戦略を用いて、両方の知識ソースから組み合わせたコンテキストを導出する。 2つ目の方法(\textit{RATD}$)では、検索強化トレーニングデータセットを使用してより小さな推論モデルをトレーニングし、部分的には明確で、多くの無関係な文を含むかもしれない長いテキストシーケンスから関連する情報を利用するのに熟練した。 一般的に、両方のメソッドは有効であるが、$\textit{ratd}$メソッドの方が適用が簡単で、私たちが焦点を当てている見えない設定で最も強い結果を生み出す。 たった4億4000万のパラメータを使った唯一の最善の推論モデルは、未発見の評価データセット(strategyqa 58.9 $\rightarrow$ 61.7 acc)の強力な比較基準によって、物質的に改善されます。 詳細はCommonsenseQA 63.6 $\rightarrow$ 72.7 acc. を参照のこと。 ARC-DA 31.6 $\rightarrow$ 52.1 F1, IIRC 25.5 $\rightarrow$ 27.3 F1 と、コンテキストの組み合わせ戦略を選択する際の各質問の事前知識を利用するバージョンは、さらに優れている。 提案したモデルは、通常、より大型のモデル(BLOOM 175BとStableVicuna 13B)に対して、数発のチェーンと数発の応答のみの設定の両方で直接のプロンプトより優れている。

When provided with sufficient explanatory context, smaller Language Models have been shown to exhibit strong reasoning ability on challenging short-answer question-answering tasks where the questions are unseen in training. We evaluate two methods for further improvement in this setting. Both methods focus on combining rationales generated by a larger Language Model with longer contexts created from a multi-hop dense retrieval system. The first method ($\textit{RR}$) involves training a Rationale Ranking model to score both generated rationales and retrieved contexts with respect to relevance and truthfulness. We then use the scores to derive combined contexts from both knowledge sources using a number of combinatory strategies. For the second method ($\textit{RATD}$) we train a smaller Reasoning model using retrieval-augmented training datasets such that it becomes proficient at utilising relevant information from longer text sequences that may be only partially evidential and frequently contain many irrelevant sentences. Generally we find that both methods are effective but that the $\textit{RATD}$ method is more straightforward to apply and produces the strongest results in the unseen setting on which we focus. Our single best Reasoning model using only 440 million parameters materially improves upon strong comparable prior baselines for unseen evaluation datasets (StrategyQA 58.9 $\rightarrow$ 61.7 acc., CommonsenseQA 63.6 $\rightarrow$ 72.7 acc., ARC-DA 31.6 $\rightarrow$ 52.1 F1, IIRC 25.5 $\rightarrow$ 27.3 F1) and a version utilising our prior knowledge of each type of question in selecting a context combination strategy does even better. Our proposed models also generally outperform direct prompts against much larger models (BLOOM 175B and StableVicuna 13B) in both few-shot chain-of-thought and few-shot answer-only settings.
翻訳日:2023-08-10 15:01:14 公開日:2023-08-09
# オープンソースの大言語モデルgpt-4とclaude 2の比較研究 : 腎学における多言語テスト

A Comparative Study of Open-Source Large Language Models, GPT-4 and Claude 2: Multiple-Choice Test Taking in Nephrology ( http://arxiv.org/abs/2308.04709v1 )

ライセンス: Link先を確認
Sean Wu, Michael Koo, Lesley Blum, Andy Black, Liyo Kao, Fabien Scalzo, Ira Kurtz(参考訳) 近年、特に大規模言語モデル(llm)の開発において、自然言語処理の分野で大きなブレークスルーが起きている。 これらのLSMは様々なベンチマークで顕著な性能を示した。 医療分野では、LSMや他の将来のAIモデルが果たす役割は、まだ不明だ。 将来これらのモデルが、適応的な医師訓練、医療共同パイロット応用、デジタル患者相互作用シナリオの一部として使われる可能性がある。 AIモデルが医療訓練や患者医療に参加する能力は、特定の医療分野の知識内容の熟達度に部分的に依存する。 本研究では,LSMの医学的知識能力,特に内科領域における多点検診能力について検討した。 我々は,複数のオープンソースのLCM(Koala 7B,Falcon 7B,Stable-Vicuna 13B,Orca Mini 13B)の性能を,腎学の分野における複数の質問に対するGPT-4とClaude 2と比較した。 腎学は、特に概念的に複雑な内科領域の例として選ばれた。 腎SAP (Nephrology Self-Assessment Program) に対する複数の質問に対する正しい回答を提供するためのLLMモデルの有効性について検討した。 858のNephSAPの複数の質問に正確に答えるオープンソースLLMの全体的な成功は17.1%25.5%であった。 一方、クロード2は54.4%を正解し、GPT-4は73.3%を獲得した。 GPT-4 や Claude 2 と比較して,現在広く使用されているオープンソース LLM はゼロショット推論能力に乏しいことを示す。 本研究の成果は, 臨床研修や患者医療の将来に有意な影響を及ぼす可能性がある。

In recent years, there have been significant breakthroughs in the field of natural language processing, particularly with the development of large language models (LLMs). These LLMs have showcased remarkable capabilities on various benchmarks. In the healthcare field, the exact role LLMs and other future AI models will play remains unclear. There is a potential for these models in the future to be used as part of adaptive physician training, medical co-pilot applications, and digital patient interaction scenarios. The ability of AI models to participate in medical training and patient care will depend in part on their mastery of the knowledge content of specific medical fields. This study investigated the medical knowledge capability of LLMs, specifically in the context of internal medicine subspecialty multiple-choice test-taking ability. We compared the performance of several open-source LLMs (Koala 7B, Falcon 7B, Stable-Vicuna 13B, and Orca Mini 13B), to GPT-4 and Claude 2 on multiple-choice questions in the field of Nephrology. Nephrology was chosen as an example of a particularly conceptually complex subspecialty field within internal medicine. The study was conducted to evaluate the ability of LLM models to provide correct answers to nephSAP (Nephrology Self-Assessment Program) multiple-choice questions. The overall success of open-sourced LLMs in answering the 858 nephSAP multiple-choice questions correctly was 17.1% - 25.5%. In contrast, Claude 2 answered 54.4% of the questions correctly, whereas GPT-4 achieved a score of 73.3%. We show that current widely used open-sourced LLMs do poorly in their ability for zero-shot reasoning when compared to GPT-4 and Claude 2. The findings of this study potentially have significant implications for the future of subspecialty medical training and patient care.
翻訳日:2023-08-10 15:00:36 公開日:2023-08-09
# 確率的ブラックボックス異常属性の生成摂動解析

Generative Perturbation Analysis for Probabilistic Black-Box Anomaly Attribution ( http://arxiv.org/abs/2308.04708v1 )

ライセンス: Link先を確認
Tsuyoshi Id\'e and Naoki Abe(参考訳) ここでは,各入力変数の帰属スコアの確率分布を計算することを目的として,ブラックボックス回帰設定における確率的帰属の課題に対処する。 トレーニングデータセットは利用できないと仮定される。 このタスクは、ブラックボックスモデル自体ではなくブラックボックス予測からの異常な逸脱を説明するため、標準的なXAI(説明可能なAI)シナリオとは異なる。 まず,Shapley値などの主流モデル非依存的説明手法が,その ``deviation-agnostic property' のため,この課題に適さないことを示す。 次に,確率的異常帰属のための新しい枠組みを提案し,帰属スコアを予測平均として計算するだけでなく,その不確かさを定量化する。 これは、観測された異常な観測を正常に戻す摂動の生成過程を考えることによって行われる。 本稿では,変数属性毎の分布を導出する変分ベイズアルゴリズムを提案する。 我々の知る限りでは、これは偏差に依存しない最初の確率的異常帰属フレームワークである。

We address the task of probabilistic anomaly attribution in the black-box regression setting, where the goal is to compute the probability distribution of the attribution score of each input variable, given an observed anomaly. The training dataset is assumed to be unavailable. This task differs from the standard XAI (explainable AI) scenario, since we wish to explain the anomalous deviation from a black-box prediction rather than the black-box model itself. We begin by showing that mainstream model-agnostic explanation methods, such as the Shapley values, are not suitable for this task because of their ``deviation-agnostic property.'' We then propose a novel framework for probabilistic anomaly attribution that allows us to not only compute attribution scores as the predictive mean but also quantify the uncertainty of those scores. This is done by considering a generative process for perturbations that counter-factually bring the observed anomalous observation back to normalcy. We introduce a variational Bayes algorithm for deriving the distributions of per variable attribution scores. To the best of our knowledge, this is the first probabilistic anomaly attribution framework that is free from being deviation-agnostic.
翻訳日:2023-08-10 15:00:07 公開日:2023-08-09
# マルチメディアレコメンデーションのためのパレート不変表現学習

Pareto Invariant Representation Learning for Multimedia Recommendation ( http://arxiv.org/abs/2308.04706v1 )

ライセンス: Link先を確認
Shanshan Huang, Haoxuan Li, Qingsong Li, Chunyuan Zheng, Li Liu(参考訳) マルチメディアレコメンデーションには、パーソナライズされたランキングタスクが含まれており、通常、マルチメディアコンテンツはジェネリックエンコーダを使って表現される。 しかし、これらの汎用表現は、ユーザの真の嗜好を明らかにするのに失敗する急激な相関をもたらす。 既存の研究は不変表現を学習することでこの問題を緩和しようとするが、独立分布(iid)と同一分布(ood)の均衡を見落としている。 本稿では,IID-OOD多目的最適化の観点から,不変表現(ユーザの注意を惹きつける固有の要因)と変動表現(他の要因)を同時に学習することにより,刺激的相関の影響を緩和するPareto Invariant Representation Learning(PaInvRL)というフレームワークを提案する。 具体的には、PaInvRLには3つの反復実行モジュールが含まれている。 (i)異種識別モジュールは、ユーザ・テーマ間相互作用の分布シフトを反映する異種環境を識別する。 (II)適応重み付き不変リスク最小化(IRM)と経験的リスク損失(ERM)を最小限に抑えたパレート最適解に基づいて不変マスクを学習する不変マスク生成モジュール (iii)変種表現とアイテム不変表現の両方を生成して、スプリアス相関を緩和し、環境分布内の一般化性能のバランスをとるマルチモーダルレコメンデーションモデルを訓練する変換モジュール。 提案したPaInvRLと3つの公開マルチメディアレコメンデーションデータセット(Movielens,Tiktok,Kwai)の最先端のレコメンデーションモデルを比較し,PaInvRLの内外の学習への適用性を検証する。

Multimedia recommendation involves personalized ranking tasks, where multimedia content is usually represented using a generic encoder. However, these generic representations introduce spurious correlations that fail to reveal users' true preferences. Existing works attempt to alleviate this problem by learning invariant representations, but overlook the balance between independent and identically distributed (IID) and out-of-distribution (OOD) generalization. In this paper, we propose a framework called Pareto Invariant Representation Learning (PaInvRL) to mitigate the impact of spurious correlations from an IID-OOD multi-objective optimization perspective, by learning invariant representations (intrinsic factors that attract user attention) and variant representations (other factors) simultaneously. Specifically, PaInvRL includes three iteratively executed modules: (i) heterogeneous identification module, which identifies the heterogeneous environments to reflect distributional shifts for user-item interactions; (ii) invariant mask generation module, which learns invariant masks based on the Pareto-optimal solutions that minimize the adaptive weighted Invariant Risk Minimization (IRM) and Empirical Risk (ERM) losses; (iii) convert module, which generates both variant representations and item-invariant representations for training a multi-modal recommendation model that mitigates spurious correlations and balances the generalization performance within and cross the environmental distributions. We compare the proposed PaInvRL with state-of-the-art recommendation models on three public multimedia recommendation datasets (Movielens, Tiktok, and Kwai), and the experimental results validate the effectiveness of PaInvRL for both within- and cross-environmental learning.
翻訳日:2023-08-10 14:59:49 公開日:2023-08-09
# 微分プライベートな合成双対データを用いた分散データからの協調学習

Collaborative Learning From Distributed Data With Differentially Private Synthetic Twin Data ( http://arxiv.org/abs/2308.04755v1 )

ライセンス: Link先を確認
Lukas Prediger, Joonas J\"alk\"o, Antti Honkela, Samuel Kaski(参考訳) センシティブなデータを保持する複数の当事者が協力して人口統計を学習しようとする状況を考えるが、センシティブなデータセットをプールすることは不可能である。 本稿では、各当事者がデータの差分プライベートな合成双対を共有する枠組みを提案する。 本研究は,英国バイオバンクによる実世界の健康データを用いた協調学習のための合成双生児データセットの合成可能性について検討する。 共有合成データによる協調学習に携わる参加者は、局所データのみを用いた場合に比べて、目標統計の正確な推定値が得られる。 この発見は、小さな異種データセットの難しい場合にまで及ぶ。 さらに、参加者が増えるほど、改善はより大きく、より一貫したものになる。 最後に、データ共有は、データが表示されていないグループを含むパーティが、そのグループに対してより適切な分析を行うのに特に役立ちます。 以上の結果から, 人工双生児の共有は, 個々のデータセットが小さかったり, 集団全体をうまく表現していない場合でも, プライバシー制約に違反することなく, センシティブなデータから学習できる有効な方法であると結論付けた。 バイオメディカル研究のボトルネックとして,分散センシティブデータの設定は,プライバシ保存型協調学習手法によって緩和できることが本研究で示されている。

Consider a setting where multiple parties holding sensitive data aim to collaboratively learn population level statistics, but pooling the sensitive data sets is not possible. We propose a framework in which each party shares a differentially private synthetic twin of their data. We study the feasibility of combining such synthetic twin data sets for collaborative learning on real-world health data from the UK Biobank. We discover that parties engaging in the collaborative learning via shared synthetic data obtain more accurate estimates of target statistics compared to using only their local data. This finding extends to the difficult case of small heterogeneous data sets. Furthermore, the more parties participate, the larger and more consistent the improvements become. Finally, we find that data sharing can especially help parties whose data contain underrepresented groups to perform better-adjusted analysis for said groups. Based on our results we conclude that sharing of synthetic twins is a viable method for enabling learning from sensitive data without violating privacy constraints even if individual data sets are small or do not represent the overall population well. The setting of distributed sensitive data is often a bottleneck in biomedical research, which our study shows can be alleviated with privacy-preserving collaborative learning methods.
翻訳日:2023-08-10 14:54:47 公開日:2023-08-09
# SAfER:効率的なロバストニューラルネットワーク推論のための層レベル感度評価

SAfER: Layer-Level Sensitivity Assessment for Efficient and Robust Neural Network Inference ( http://arxiv.org/abs/2308.04753v1 )

ライセンス: Link先を確認
Edouard Yvinec, Arnaud Dapogny, Kevin Bailly(参考訳) ディープニューラルネットワーク(DNN)は、ほとんどのコンピュータビジョンタスクにおいて優れたパフォーマンスを示す。 自動運転車や医療画像などの重要な応用には、その行動や意思決定の背後にある理由を調査する必要がある。 この静脈において、DNNの属性は、DNNの予測と入力の関係を研究することである。 帰属法は、dnnの最も関連する重みまたはニューロンを強調するために適応され、どの重みまたはニューロンを刈り取ることができるかをより効率的に選択できる。 しかし、これらのアプローチの制限は、重みは通常各層内で別々に比較されるが、いくつかの層は他の層よりも重要に見える。 本研究では,DNN層の重要性,すなわち層レベルで印加される精度w.r.t.摂動の感度を推定することを提案する。 そこで本研究では,本手法と今後の課題を評価するための新しいデータセットを提案する。 我々は、DNNのレイヤーの重要度を評価する方法に関する多くの基準をベンチマークし、その結果、DNNの効率向上のためのレイヤの予算化(DNNのプルーニングと量子化の応用)、およびハードウェアの障害に対する堅牢性(ビットスワップなど)について結論を導き出す。

Deep neural networks (DNNs) demonstrate outstanding performance across most computer vision tasks. Some critical applications, such as autonomous driving or medical imaging, also require investigation into their behavior and the reasons behind the decisions they make. In this vein, DNN attribution consists in studying the relationship between the predictions of a DNN and its inputs. Attribution methods have been adapted to highlight the most relevant weights or neurons in a DNN, allowing to more efficiently select which weights or neurons can be pruned. However, a limitation of these approaches is that weights are typically compared within each layer separately, while some layers might appear as more critical than others. In this work, we propose to investigate DNN layer importance, i.e. to estimate the sensitivity of the accuracy w.r.t. perturbations applied at the layer level. To do so, we propose a novel dataset to evaluate our method as well as future works. We benchmark a number of criteria and draw conclusions regarding how to assess DNN layer importance and, consequently, how to budgetize layers for increased DNN efficiency (with applications for DNN pruning and quantization), as well as robustness to hardware failure (e.g. bit swaps).
翻訳日:2023-08-10 14:54:25 公開日:2023-08-09
# スパイクニューラルネットワークの動的構造開発による連続学習の効率化

Enhancing Efficient Continual Learning with Dynamic Structure Development of Spiking Neural Networks ( http://arxiv.org/abs/2308.04749v1 )

ライセンス: Link先を確認
Bing Han, Feifei Zhao, Yi Zeng, Wenxuan Pan, Guobin Shen(参考訳) 子どもたちは、複数の認知タスクを逐次学習する能力を持っているため、人工知能の長期的な目標に対する大きな課題である。 既存の連続学習フレームワークは通常、ディープニューラルネットワーク(DNN)に適用され、より脳にインスパイアされたエネルギー効率の高いスパイクニューラルネットワーク(SNN)の探索が欠如している。 本研究では,子どもの成長・発達過程における連続学習機構を基礎として,スパイキングニューラルネットワーク(DSD-SNN)の動的構造開発を提案する。 一連のタスクを学習すると、dsd-snnは動的に新しいニューロンを新しいタスクに割り当てて成長させ、冗長なニューロンを刺激し、メモリ容量を増加させ、計算オーバーヘッドを減少させる。 さらに、重複する共有構造は、獲得したすべての知識を新しいタスクに迅速に活用し、複数のインクリメンタルタスクをサポートすることのできる単一のネットワークを(タスクごとに個別のサブネットワークマスクを使わずに)強化する。 提案モデルの有効性を,複数のクラスインクリメンタル学習とタスクインクリメンタル学習ベンチマークで検証した。 大規模な実験により、我々のモデルは性能、学習速度、メモリ容量を大幅に改善し、計算オーバーヘッドを低減できることを示した。 さらに,我々のDSD-SNNモデルは,DNNに基づく手法と同等の性能を達成し,既存のSNNに基づく連続学習手法のSOTA(State-of-the-art)性能を著しく向上させる。

Children possess the ability to learn multiple cognitive tasks sequentially, which is a major challenge toward the long-term goal of artificial general intelligence. Existing continual learning frameworks are usually applicable to Deep Neural Networks (DNNs) and lack the exploration on more brain-inspired, energy-efficient Spiking Neural Networks (SNNs). Drawing on continual learning mechanisms during child growth and development, we propose Dynamic Structure Development of Spiking Neural Networks (DSD-SNN) for efficient and adaptive continual learning. When learning a sequence of tasks, the DSD-SNN dynamically assigns and grows new neurons to new tasks and prunes redundant neurons, thereby increasing memory capacity and reducing computational overhead. In addition, the overlapping shared structure helps to quickly leverage all acquired knowledge to new tasks, empowering a single network capable of supporting multiple incremental tasks (without the separate sub-network mask for each task). We validate the effectiveness of the proposed model on multiple class incremental learning and task incremental learning benchmarks. Extensive experiments demonstrated that our model could significantly improve performance, learning speed and memory capacity, and reduce computational overhead. Besides, our DSD-SNN model achieves comparable performance with the DNNs-based methods, and significantly outperforms the state-of-the-art (SOTA) performance for existing SNNs-based continual learning methods.
翻訳日:2023-08-10 14:54:02 公開日:2023-08-09
# 大規模言語モデルによるユニバーサルファジング

Universal Fuzzing via Large Language Models ( http://arxiv.org/abs/2308.04748v1 )

ライセンス: Link先を確認
Chunqiu Steven Xia, Matteo Paltenghi, Jia Le Tian, Michael Pradel, Lingming Zhang(参考訳) ファジィングは、様々なソフトウェアシステムでバグや脆弱性を発見することに大きく成功しました。 プログラムや形式言語をインプット(例えば、コンパイラ、ランタイムエンジン、制約解決器、アクセス可能なapiを持つソフトウェアライブラリ)として採用するテストシステム(sut)は、ソフトウェア開発の基本的なビルディングブロックであるため、特に重要です。 しかし、そのようなシステムのための既存のファジィザは、しばしば特定の言語をターゲットにしているため、他の言語や同じ言語の他のバージョンにも容易に適用できない。 さらに、既存のファッジャによって生成された入力は、しばしば入力言語の特定の特徴に制限されるため、他の機能や新機能に関連するバグをほとんど明らかにできない。 本稿では,多種多様な入力言語を対象とし,それら言語の様々な特徴を多用できるという意味で,普遍的な最初のファザーであるfuzz4allを提案する。 fuzz4allの背後にある重要なアイデアは、入力生成および突然変異エンジンとして大規模な言語モデル(llms)を活用することである。 この可能性を実現するために,ファジングに適したllmプロンプトを生成する新しい自動プロンプト手法と,新たなファジング入力を生成するためにプロンプトを反復的に更新する新しいllm駆動ファジングループを提案する。 テスト中の9つのシステム(C、C++、Go、SMT2、Java、Python)を入力として評価する。 評価の結果、universal fuzzingは、既存の言語固有のfuzzersよりも高いカバレッジを達成している。 さらにFuzz4Allは、GCC、Clang、Z3、CVC5、OpenJDK、Qiskit量子コンピューティングプラットフォームなど、広く使用されているシステムで76のバグを特定している。

Fuzzing has achieved tremendous success in discovering bugs and vulnerabilities in various software systems. Systems under test (SUTs) that take in programming or formal language as inputs, e.g., compilers, runtime engines, constraint solvers, and software libraries with accessible APIs, are especially important as they are fundamental building blocks of software development. However, existing fuzzers for such systems often target a specific language, and thus cannot be easily applied to other languages or even other versions of the same language. Moreover, the inputs generated by existing fuzzers are often limited to specific features of the input language, and thus can hardly reveal bugs related to other or new features. This paper presents Fuzz4All, the first fuzzer that is universal in the sense that it can target many different input languages and many different features of these languages. The key idea behind Fuzz4All is to leverage large language models (LLMs) as an input generation and mutation engine, which enables the approach to produce diverse and realistic inputs for any practically relevant language. To realize this potential, we present a novel autoprompting technique, which creates LLM prompts that are wellsuited for fuzzing, and a novel LLM-powered fuzzing loop, which iteratively updates the prompt to create new fuzzing inputs. We evaluate Fuzz4All on nine systems under test that take in six different languages (C, C++, Go, SMT2, Java and Python) as inputs. The evaluation shows, across all six languages, that universal fuzzing achieves higher coverage than existing, language-specific fuzzers. Furthermore, Fuzz4All has identified 76 bugs in widely used systems, such as GCC, Clang, Z3, CVC5, OpenJDK, and the Qiskit quantum computing platform, with 47 bugs already confirmed by developers as previously unknown.
翻訳日:2023-08-10 14:53:34 公開日:2023-08-09
# デュアルスターク効果による波長可変高忠実度光子源

Wavelength-tunable high-fidelity entangled photon sources enabled by dual Stark effects ( http://arxiv.org/abs/2308.04744v1 )

ライセンス: Link先を確認
Chen Chen, Jun-Yong Yan, Hans-Georg Babin, Xing Lin, Wei Fang, Run-Ze Liu, Yong-Heng Huo, Wei E. I. Sha, Jiaxiang Zhang, Christian Heyn, Andreas D. Wieck, Arne Ludwig, Da-Wei Wang, Chao-Yuan Jin, Feng Liu(参考訳) 大規模量子インターネットの構築には、同一波長の複数の絡み合った光子源を含む量子リピータが必要である。 半導体量子ドットは、高忠実度で決定的に絡み合った光子対を生成することができる。 しかし、量子ドットベースの量子リピータの実現には、放射波長の不均一性とエクシトン微細構造分割誘起忠実度低減の2つの困難がある。 通常、これらの2つの要因は独立して調整できないため、同時に改善することは困難である。 本研究は, 液滴エッチングしたGaAs量子ドットを用いた波長可変光子源について, 交流と量子集束されたスターク効果を組み合わせた実験を行った。 放射波長は ~1 meV で調整でき、チューニング範囲全体で0.955(1) 以上の絡み合いを保っている。 我々の研究は、大規模量子インターネットと集積量子光学回路のための堅牢でスケーラブルなオンデマンド光子源への道を開いた。

The construction of a large-scale quantum internet requires quantum repeaters containing multiple entangled photon sources with identical wavelengths. Semiconductor quantum dots can generate entangled photon pairs deterministically with high fidelity. However, realizing quantum dot-based quantum repeaters faces two difficulties: the non-uniformity of emission wavelength and exciton fine-structure splitting induced fidelity reduction. Typically, these two factors are not independently tunable, making it challenging to achieve simultaneous improvement. In this work, we demonstrate wavelength-tunable entangled photon sources based on droplet-etched GaAs quantum dots through the combined use of the AC and quantum-confined Stark effects. The emission wavelength can be tuned by ~1 meV while preserving entanglement fidelity above 0.955(1) across the entire tuning range. Our work paves a way towards robust and scalable on-demand entangled photon sources for large-scale quantum internet and integrated quantum optical circuits.
翻訳日:2023-08-10 14:52:59 公開日:2023-08-09
# 古典量子プログラムの確率的振る舞いに関する局所的推論

Local Reasoning about Probabilistic Behaviour for Classical-Quantum Programs ( http://arxiv.org/abs/2308.04741v1 )

ライセンス: Link先を確認
Yuxin Deng, Huiling Wu, Ming Xu(参考訳) 古典的構成と量子的構成の両方でプログラムの機能的正当性を検証することは難しい課題である。 量子測定と非有界なループによる確率的振る舞いの存在は検証作業を大幅に複雑にする。 本稿では,確率特性を規定する分布公式を導入することにより,確率的挙動に関する局所的推論のための新しい量子ホア論理を提案する。 論理の証明規則は意味論的意味論に関して健全であることを示す。 論理の有効性を示すために, hhl と shor のアルゴリズムを含む非自明な量子アルゴリズムの正しさを正式に検証する。

Verifying the functional correctness of programs with both classical and quantum constructs is a challenging task. The presence of probabilistic behaviour entailed by quantum measurements and unbounded while loops complicate the verification task greatly. We propose a new quantum Hoare logic for local reasoning about probabilistic behaviour by introducing distribution formulas to specify probabilistic properties. We show that the proof rules in the logic are sound with respect to a denotational semantics. To demonstrate the effectiveness of the logic, we formally verify the correctness of non-trivial quantum algorithms including the HHL and Shor's algorithms.
翻訳日:2023-08-10 14:52:32 公開日:2023-08-09
# 量子ニューラルネットワークのランダム性エンハンスド表現性

Randomness-enhanced expressivity of quantum neural networks ( http://arxiv.org/abs/2308.04740v1 )

ライセンス: Link先を確認
Yadong Wu, Juan Yao, Pengfei Zhang and Xiaopeng Li(参考訳) 人工知能と量子コンピューティングのハイブリッドとして、量子ニューラルネットワーク(QNN)は、短期的、ノイズの多い中間規模量子(NISQ)デバイスへの有望な応用として注目されている。 従来のQNNは、量子状態のユニタリ演算と測定を行うパラメタライズド量子回路によって記述される。 本研究では,量子回路にランダム性を導入することにより,QNNの表現性を高める新しい手法を提案する。 具体的には,学習可能なアンサンブルプールからサンプリングされた単一キュービットゲートを含むランダム層を導入する。 QNNの予測は、測定結果の古典的な関数に対してアンサンブル平均で表現される。 本手法は,可観測学習を可能にするuhlmannの定理を用いて,任意の対象作用素を正確に近似できることを実証する。 提案手法は,観測可能学習,R'enyiエントロピー測定,画像認識など,広範な数値実験により実証された。 QNNSの表現性は、複数の学習タスクに対してランダム性を導入することで向上しており、量子機械学習に広く応用できる可能性がある。

As a hybrid of artificial intelligence and quantum computing, quantum neural networks (QNNs) have gained significant attention as a promising application on near-term, noisy intermediate-scale quantum (NISQ) devices. Conventional QNNs are described by parametrized quantum circuits, which perform unitary operations and measurements on quantum states. In this work, we propose a novel approach to enhance the expressivity of QNNs by incorporating randomness into quantum circuits. Specifically, we introduce a random layer, which contains single-qubit gates sampled from an trainable ensemble pooling. The prediction of QNN is then represented by an ensemble average over a classical function of measurement outcomes. We prove that our approach can accurately approximate arbitrary target operators using Uhlmann's theorem for majorization, which enables observable learning. Our proposal is demonstrated with extensive numerical experiments, including observable learning, R\'enyi entropy measurement, and image recognition. We find the expressivity of QNNS is enhanced by introducing randomness for multiple learning tasks, which could have broad application in quantum machine learning.
翻訳日:2023-08-10 14:52:15 公開日:2023-08-09
# ディープラーニング地震処理ワークフローのためのTransformerベースのネットワークの最適化

Optimizing a Transformer-based network for a deep learning seismic processing workflow ( http://arxiv.org/abs/2308.04739v1 )

ライセンス: Link先を確認
Randy Harsuko and Tariq Alkhalifah(参考訳) StorSeismicはTransformerをベースにした最近導入されたモデルで、事前訓練と微調整の訓練戦略を通じて様々な地震処理タスクに適応する。 オリジナルの実装では、StorSeismicは、自然言語処理(NLP)アプリケーションから借用された正弦波位置符号化と従来の自己認識機構を利用していた。 地震処理では良い結果を認めたが、効率と表現性の限界も示唆した。 相対的な位置エンコーディングと低ランクアテンション行列をバニラの代替として利用することにより,これら2つのキーコンポーネントの修正を提案する。 提案手法は現実的なマルムージおよびオフショアのフィールドデータに適用した処理タスクを逐次的戦略として検証し,正規移動(NMO)補正のための復調,直接到着除去,多重減衰,根平均二乗速度(V_{RMS}$)予測から導いた。 微調整タスクの事前トレーニングと競合結果の速さに加えて,バニラモデルと比較してトレーニングすべきパラメータも少ない。

StorSeismic is a recently introduced model based on the Transformer to adapt to various seismic processing tasks through its pretraining and fine-tuning training strategy. In the original implementation, StorSeismic utilized a sinusoidal positional encoding and a conventional self-attention mechanism, both borrowed from the natural language processing (NLP) applications. For seismic processing they admitted good results, but also hinted to limitations in efficiency and expressiveness. We propose modifications to these two key components, by utilizing relative positional encoding and low-rank attention matrices as replacements to the vanilla ones. The proposed changes are tested on processing tasks applied to a realistic Marmousi and offshore field data as a sequential strategy, starting from denoising, direct arrival removal, multiple attenuation, and finally root-mean-squared velocity ($V_{RMS}$) prediction for normal moveout (NMO) correction. We observe faster pretraining and competitive results on the fine-tuning tasks and, additionally, fewer parameters to train compared to the vanilla model.
翻訳日:2023-08-10 14:51:38 公開日:2023-08-09
# ケーススタディ: モバイルチームにおけるAI支援コード生成の利用

Case Study: Using AI-Assisted Code Generation In Mobile Teams ( http://arxiv.org/abs/2308.04736v1 )

ライセンス: Link先を確認
Mircea-Serban Vasiliniuc, Adrian Groza(参考訳) 本研究の目的は、KotlinやSwiftのようなネイティブなモバイル言語に焦点を当てた、実際のモバイル開発チームにおけるAI支援プログラミングのパフォーマンスを評価することである。 広範囲にわたるケーススタディでは、16人の参加者と2人のテクニカルレビュアーが参加し、チームの特定のフェーズ、具体的にはテクニカルインボーディングとテクニカルスタックスイッチでコード生成のために訓練されたllmの使用が与える影響を理解するように設計されている。 この研究では、各フェーズに専用の技術的問題を使用し、AI-Codeジェネレータを使用せずに参加者からソリューションを要求する。 マージ要求のコードレビュアーである実際の業界標準から抽出された、論文特有のメトリクスであるReviewerScoreを使用して、時間、正確性、技術的統合を測定する。 アウトプットは参加者からのフィードバックとともに変換され分析され、AI支援プログラミングツールの使用がプロジェクトへの参加や、モバイル開発、Android、iOSの2つのネイティブ開発環境間のスムーズな移行に影響を及ぼすかどうかを判断する。 調査は2023年5月から6月にかけて,ルーマニアの所有権と管理を備えた,cluj-napocaを拠点とするソフトウェア開発会社のモバイル部門で実施された。

The aim of this study is to evaluate the performance of AI-assisted programming in actual mobile development teams that are focused on native mobile languages like Kotlin and Swift. The extensive case study involves 16 participants and 2 technical reviewers, from a software development department designed to understand the impact of using LLMs trained for code generation in specific phases of the team, more specifically, technical onboarding and technical stack switch. The study uses technical problems dedicated to each phase and requests solutions from the participants with and without using AI-Code generators. It measures time, correctness, and technical integration using ReviewerScore, a metric specific to the paper and extracted from actual industry standards, the code reviewers of merge requests. The output is converted and analyzed together with feedback from the participants in an attempt to determine if using AI-assisted programming tools will have an impact on getting developers onboard in a project or helping them with a smooth transition between the two native development environments of mobile development, Android and iOS. The study was performed between May and June 2023 with members of the mobile department of a software development company based in Cluj-Napoca, with Romanian ownership and management.
翻訳日:2023-08-10 14:51:05 公開日:2023-08-09
# 反応拡散方程式に対する5点ステンシル畳み込みについて

Going Deeper with Five-point Stencil Convolutions for Reaction-Diffusion Equations ( http://arxiv.org/abs/2308.04735v1 )

ライセンス: Link先を確認
Yongho Kim, Yongho Choi(参考訳) 物理学的不定形ニューラルネットワークは、物理学的不定形損失が本質的には観測や離散化を必要としないため、大きな成功を収めた偏微分方程式に広く適用されている。 しかし、モデルパラメータの最適化は困難であり、これらのパラメータはそれぞれの異なる初期条件に対して訓練されなければならない。 2次反応拡散型方程式におけるこれらの課題を克服するために、五点ステンシル畳み込みニューラルネットワーク(FCNN)を使用することが考えられる。 fcnnは2つの連続したスナップショットを使用してトレーニングされ、タイムステップは与えられたスナップショットのステップサイズに対応する。 したがって、fcnnの時間発展は時間ステップに依存し、時間ステップはブローアップソリューションを避けるためにcfl条件を満たす必要がある。 本研究では,CFL条件のしきい値よりも長い時間ステップで時間進化を予測するために,大きな受容場を持つ深部FCNNを提案する。 我々のモデルを評価するために、様々な初期条件を持つ熱、フィッシャー方程式、アレン・カーンの方程式を考える。 深部FCNNは、爆発するFDMとは対照的に、一定の精度を維持していることを示す。

Physics-informed neural networks have been widely applied to partial differential equations with great success because the physics-informed loss essentially requires no observations or discretization. However, it is difficult to optimize model parameters, and these parameters must be trained for each distinct initial condition. To overcome these challenges in second-order reaction-diffusion type equations, a possible way is to use five-point stencil convolutional neural networks (FCNNs). FCNNs are trained using two consecutive snapshots, where the time step corresponds to the step size of the given snapshots. Thus, the time evolution of FCNNs depends on the time step, and the time step must satisfy its CFL condition to avoid blow-up solutions. In this work, we propose deep FCNNs that have large receptive fields to predict time evolutions with a time step larger than the threshold of the CFL condition. To evaluate our models, we consider the heat, Fisher's, and Allen-Cahn equations with diverse initial conditions. We demonstrate that deep FCNNs retain certain accuracies, in contrast to FDMs that blow up.
翻訳日:2023-08-10 14:50:41 公開日:2023-08-09
# SUnAA:アーチティパル解析を用いたスパースアンミックス

SUnAA: Sparse Unmixing using Archetypal Analysis ( http://arxiv.org/abs/2308.04771v1 )

ライセンス: Link先を確認
Behnood Rasti (HZDR), Alexandre Zouaoui (Thoth), Julien Mairal (Thoth), Jocelyn Chanussot (Thoth)(参考訳) 本稿では,アーキティパル解析(SUnAA)を用いた新しいスパースアンミックス手法を提案する。 まず,考古学的分析に基づく新しいモデルを設計する。 興味のあるエンドメンバーは、スペクトルライブラリによって提供されるエンドメンバーの凸結合であり、関心のあるエンドメンバーの数は知られていると仮定する。 次に,最小化問題を提案する。 従来のスパースアンミックス法とは異なり、最小化問題は非凸である。 アクティブセットアルゴリズムを用いて最適化目標を反復的に最小化する。 本手法は初期化に頑健であり,利害関係のエンドメンバー数のみを要求できる。 sunaaは2つのシミュレートデータセットを用いて評価され、信号から再構成エラーの観点から他の従来技術や先進技術よりも優れた性能が確認できる。 SUnAAはCupriteデータセットにも適用され、このデータセットに提供される地質図と視覚的に比較される。 定性的評価は, 従来のレグレッションベース・スパース・アンミックス法と比較して, 鉱物量の推定に成功し, 支配的鉱物の検出を著しく改善することを示した。 SUnAAのPython実装については、https://github.com/BehnoodRasti/SUnAAを参照してください。

This paper introduces a new sparse unmixing technique using archetypal analysis (SUnAA). First, we design a new model based on archetypal analysis. We assume that the endmembers of interest are a convex combination of endmembers provided by a spectral library and that the number of endmembers of interest is known. Then, we propose a minimization problem. Unlike most conventional sparse unmixing methods, here the minimization problem is non-convex. We minimize the optimization objective iteratively using an active set algorithm. Our method is robust to the initialization and only requires the number of endmembers of interest. SUnAA is evaluated using two simulated datasets for which results confirm its better performance over other conventional and advanced techniques in terms of signal-to-reconstruction error. SUnAA is also applied to Cuprite dataset and the results are compared visually with the available geological map provided for this dataset. The qualitative assessment demonstrates the successful estimation of the minerals abundances and significantly improves the detection of dominant minerals compared to the conventional regression-based sparse unmixing methods. The Python implementation of SUnAA can be found at: https://github.com/BehnoodRasti/SUnAA.
翻訳日:2023-08-10 14:42:54 公開日:2023-08-09
# オブジェクトは消滅しない:単一フレームオブジェクト位置予測によるビデオオブジェクト検出

Objects do not disappear: Video object detection by single-frame object location anticipation ( http://arxiv.org/abs/2308.04770v1 )

ライセンス: Link先を確認
Xin Liu, Fatemeh Karimi Nejadasl, Jan C. van Gemert, Olaf Booij, Silvia L. Pintea(参考訳) ビデオのオブジェクトは通常、連続的な滑らかな動きによって特徴づけられる。 連続的な滑らかな動きを3つの方法で活用する。 1)静的なキーフレームからオブジェクトの位置を予測し,オブジェクトの動きを監視源として利用することで精度を向上させる。 2)全フレームの小さなサブセットで高価な特徴計算のみを行うことで効率が向上した。 隣接するビデオフレームはしばしば冗長であるため、単一の静的キーフレームの機能のみを計算し、その後のフレーム内のオブジェクト位置を予測する。 3) キーフレームをアノテートし、キーフレーム間のスムーズな擬似動作を使用する、アノテーションコストの削減。 我々は、ImageNet VID、EPIC KITCHENS-55、YouTube-BoundingBoxes、Waymo Openデータセットの4つのデータセットに対して、計算効率、アノテーション効率、平均平均精度を改善した。 ソースコードはhttps://github.com/l-kid/videoobject-detection-by-location-anticipationで入手できます。

Objects in videos are typically characterized by continuous smooth motion. We exploit continuous smooth motion in three ways. 1) Improved accuracy by using object motion as an additional source of supervision, which we obtain by anticipating object locations from a static keyframe. 2) Improved efficiency by only doing the expensive feature computations on a small subset of all frames. Because neighboring video frames are often redundant, we only compute features for a single static keyframe and predict object locations in subsequent frames. 3) Reduced annotation cost, where we only annotate the keyframe and use smooth pseudo-motion between keyframes. We demonstrate computational efficiency, annotation efficiency, and improved mean average precision compared to the state-of-the-art on four datasets: ImageNet VID, EPIC KITCHENS-55, YouTube-BoundingBoxes, and Waymo Open dataset. Our source code is available at https://github.com/L-KID/Videoobject-detection-by-location-anticipation.
翻訳日:2023-08-10 14:42:38 公開日:2023-08-09
# 誘導ネットワーク:自己監督音源定位のためのオーディオ・ビジュアルモダリティギャップブリッジ

Induction Network: Audio-Visual Modality Gap-Bridging for Self-Supervised Sound Source Localization ( http://arxiv.org/abs/2308.04767v1 )

ライセンス: Link先を確認
Tianyu Liu, Peng Zhang, Wei Huang, Yufei Zha, Tao You, Yanning Zhang(参考訳) 自己教師付き音源定位は通常モダリティの不整合によって挑戦される。 近年の研究では、視覚的シナリオにおける音声と音源の整合性を確立するために、コントラッシブラーニングに基づく戦略が提案されている。 残念なことに、異なるモジュラリティ特徴における不均一性の影響に対する十分な注意は、このスキームをさらに改善することを制限しています。 本研究では,モーダリティギャップをより効果的に橋渡しするための誘導ネットワークを提案する。 視覚モダリティの勾配と音声モダリティを分離することにより、設計した誘導ベクトルで音源の識別的な視覚的表現をブートストラップ形式で学習することができ、オーディオモダリティを視覚モダリティと一貫して一致させることができる。 視覚重み付きコントラスト損失に加えて、誘導ネットワークのロバスト性を高めるために適応しきい値選択戦略を導入する。 SoundNet-Flickr と VGG-Sound Source のデータセットで実施された実体実験は、異なる挑戦シナリオにおける他の最先端の作業よりも優れたパフォーマンスを示している。 コードはhttps://github.com/Tahy1/AVINで入手できる。

Self-supervised sound source localization is usually challenged by the modality inconsistency. In recent studies, contrastive learning based strategies have shown promising to establish such a consistent correspondence between audio and sound sources in visual scenarios. Unfortunately, the insufficient attention to the heterogeneity influence in the different modality features still limits this scheme to be further improved, which also becomes the motivation of our work. In this study, an Induction Network is proposed to bridge the modality gap more effectively. By decoupling the gradients of visual and audio modalities, the discriminative visual representations of sound sources can be learned with the designed Induction Vector in a bootstrap manner, which also enables the audio modality to be aligned with the visual modality consistently. In addition to a visual weighted contrastive loss, an adaptive threshold selection strategy is introduced to enhance the robustness of the Induction Network. Substantial experiments conducted on SoundNet-Flickr and VGG-Sound Source datasets have demonstrated a superior performance compared to other state-of-the-art works in different challenging scenarios. The code is available at https://github.com/Tahy1/AVIN
翻訳日:2023-08-10 14:42:16 公開日:2023-08-09
# faceskin: 多属性分類のためのプライバシー保護型顔皮膚パッチデータセット

FaceSkin: A Privacy Preserving Facial skin patch Dataset for multi Attributes classification ( http://arxiv.org/abs/2308.04765v1 )

ライセンス: Link先を確認
Qiushi Guo, Shisha Liao(参考訳) 顔の皮膚画像には、年齢、人種、性別などの属性分類に有用な特徴として機能する豊富なテクスチャ情報が含まれている。 さらに、顔の皮膚画像は簡単に収集でき、プライバシーの懸念を最小限に抑えることができる。 しかし、十分な数の画像を持つ十分なラベル付きヒト皮膚データセットが利用できることは限られている。 この問題に対処するために、さまざまな年齢と人種を含むFaceSkinというデータセットを導入しました。 さらに,応用シナリオを広げるために,印刷紙,リプレイ,3Dマスクを含む2Dおよび3D攻撃画像から得られた合成皮膚パッチを組み込んだ。 我々は,FaceSkinデータセットを異なるカテゴリで評価し,属性分類の有効性を示す実験結果と,Face anti-spoofing や Age Estimation などの下流タスクの可能性を示す。

Human facial skin images contain abundant textural information that can serve as valuable features for attribute classification, such as age, race, and gender. Additionally, facial skin images offer the advantages of easy collection and minimal privacy concerns. However, the availability of well-labeled human skin datasets with a sufficient number of images is limited. To address this issue, we introduce a dataset called FaceSkin, which encompasses a diverse range of ages and races. Furthermore, to broaden the application scenarios, we incorporate synthetic skin-patches obtained from 2D and 3D attack images, including printed paper, replays, and 3D masks. We evaluate the FaceSkin dataset across distinct categories and present experimental results demonstrating its effectiveness in attribute classification, as well as its potential for various downstream tasks, such as Face anti-spoofing and Age estimation.
翻訳日:2023-08-10 14:41:57 公開日:2023-08-09
# 失語症患者の発話流速自動計測:読み上げ音声データを用いた最初の成果

Automatically measuring speech fluency in people with aphasia: first achievements using read-speech data ( http://arxiv.org/abs/2308.04763v1 )

ライセンス: Link先を確認
Lionel Fontan, Typhanie Prince (Praxiling, LNPL), Aleksandra Nowakowska (Praxiling), Halima Sahraoui (LNPL), Silvia Martinez-Ferreiro(参考訳) 背景: 言語病理医 (SLPs) は, 失語症患者の診断やモニタリングに, 発話流布の判断に依存することが多い。 しかし、そのような主観的手法は、信頼性の欠如と臨床費用の長期化を批判している。 目的: 本研究は, 失語症患者(pwa)の発声フラレンシ自動測定のための, 言語習得の分野で開発されたsignalprocessingalgorithmの妥当性を評価することを目的とした。 方法と手続き:20のPWAと5人の管理参加者が非営利組織やSLPネットワークを通じて採用されている。 参加者全員が、フランス語版ボストン診断失語症検査(英語版)から採取した文章を大声で読み上げながら録音された。 3つの訓練されたSLPは5点定性尺度で各文の流速を評価した。 前向きの発散分節とクラスタリングアルゴリズムを用いて、各文に対して、擬音節率、発声率、サイレントブレイク率、擬音節長の標準偏差の4つの自動予測器を計算した。 4つの予測器を多変量回帰モデル(多重線形回帰 - MLR と 2 つの非線形回帰モデル)に結合し,音声流速の平均SLP 評価を1話者アウト検証方式を用いて予測した。 結果と結果: 平均根平均二乗誤差は0.5。 mlrは、文章レベルでの基準格付けと相関係数 0.87 と、参加者毎のデータ集約時 0.93 とを算出した。 繰り返しに敏感な追加予測器の導入により、文レベルでは0.91、参加者レベルでは0.96の相関係数による予測がさらに向上した。 結論: 本研究で用いたアルゴリズムは, 読解課題における失語症患者の発話フラレンシーを評価するための費用対効果と信頼性を高めることができる。 自然発話の評価の展望について述べる。

Background: Speech and language pathologists (SLPs) often relyon judgements of speech fluency for diagnosing or monitoringpatients with aphasia. However, such subjective methods havebeen criticised for their lack of reliability and their clinical cost interms of time. Aims: This study aims at assessing the relevance of a signalprocessingalgorithm, initially developed in the field of language acquisition, for the automatic measurement of speech fluency in people with aphasia (PWA). Methods & Procedures: Twenty-nine PWA and five control participantswere recruited via non-profit organizations and SLP networks. All participants were recorded while reading out loud a set ofsentences taken from the French version of the Boston Diagnostic Aphasia Examination. Three trained SLPs assessed the fluency of each sentence on a five-point qualitative scale. A forward-backward divergence segmentation and a clustering algorithm were used to compute, for each sentence, four automatic predictors of speech fluency: pseudo-syllable rate, speech ratio, rate of silent breaks, and standard deviation of pseudo-syllable length. The four predictors were finally combined into multivariate regression models (a multiplelinear regression - MLR, and two non-linear models) to predict the average SLP ratings of speech fluency, using a leave-one speaker-out validation scheme. Outcomes & Results: All models achieved accurate predictions of speech fluency ratings, with average root-mean-square errors as low as 0.5. The MLR yielded a correlation coefficient of 0.87 with reference ratings at the sentence level, and of 0.93 when aggregating the data for each participant. The inclusion of an additional predictor sensitive to repetitions improved further the predictions with a correlation coefficient of 0.91 at the sentence level, and of 0.96 at the participant level. Conclusions: The algorithms used in this study can constitute a cost-effective and reliable tool for the assessment of the speech fluency of patients with aphasia in read-aloud tasks. Perspectives for the assessment of spontaneous speech are discussed.
翻訳日:2023-08-10 14:41:43 公開日:2023-08-09
# Tram-FL:分散学習のためのルーティングベースモデルトレーニング

Tram-FL: Routing-based Model Training for Decentralized Federated Learning ( http://arxiv.org/abs/2308.04762v1 )

ライセンス: Link先を確認
Kota Maejima, Takayuki Nishio, Asato Yamazaki, and Yuko Hara-Azumi(参考訳) 分散フェデレーション学習(dfl)では、ノード間通信や非独立分散(非iid)データからのかなりのトラフィックが、高精度なモデル獲得に挑戦している。 局所モデルを交換・集約するのではなく,ノード間で順次転送することで,グローバルモデルを漸進的に洗練する新しいDFL手法であるTram-FLを提案する。 また、最小転送量でモデル精度を向上させることを目的とした最適経路選択のための動的モデルルーティングアルゴリズムも導入する。 MNIST, CIFAR-10, IMDbデータセットを用いた実験により, 提案したルーティングを用いたトラムFLは, 非IID条件下で高いモデル精度を実現し, 通信コストを低減し, ベースラインより優れることを示した。

In decentralized federated learning (DFL), substantial traffic from frequent inter-node communication and non-independent and identically distributed (non-IID) data challenges high-accuracy model acquisition. We propose Tram-FL, a novel DFL method, which progressively refines a global model by transferring it sequentially amongst nodes, rather than by exchanging and aggregating local models. We also introduce a dynamic model routing algorithm for optimal route selection, aimed at enhancing model precision with minimal forwarding. Our experiments using MNIST, CIFAR-10, and IMDb datasets demonstrate that Tram-FL with the proposed routing delivers high model accuracy under non-IID conditions, outperforming baselines while reducing communication costs.
翻訳日:2023-08-10 14:41:10 公開日:2023-08-09
# 非IIDフェデレーション学習のための特徴マッチングデータ合成

Feature Matching Data Synthesis for Non-IID Federated Learning ( http://arxiv.org/abs/2308.04761v1 )

ライセンス: Link先を確認
Zijian Li, Yuchang Sun, Jiawei Shao, Yuyi Mao, Jessie Hui Wang, Jun Zhang(参考訳) federated learning(fl)は、中央サーバでデータを収集することなくエッジデバイス上でニューラルネットワークをトレーニングする、プライバシ保護パラダイムとして登場した。 しかし、flはデバイス間で非独立かつ同一の分散(非iid)データを扱うという固有の課題に遭遇する。 この課題に対処するため,本研究では,局所モデル以外の補助データを共有するハード特徴マッチングデータ合成(HFMDS)手法を提案する。 具体的には、実検体の本質的なクラス関連特徴を学習し、冗長な特徴を捨てることで合成データを生成し、非IID問題に効果的に取り組むのに役立つ。 より優れたプライバシー保護のために,本研究では,モデル一般化を改良するだけでなく,実際の特徴情報も消去する,実際の特徴を決定境界に向けて伝達する機能拡張手法を提案する。 提案手法をFLと統合することにより,データの不均一性を緩和するデータ拡張を伴う新しいFLフレームワークを提案する。 理論的解析は,提案手法が非IID課題の解決に有効であることを示す。 さらにシミュレーションの結果,提案したHFMDS-FLアルゴリズムは,様々なベンチマークデータセットの精度,プライバシ保護,計算コストにおいて,ベースラインよりも優れていた。

Federated learning (FL) has emerged as a privacy-preserving paradigm that trains neural networks on edge devices without collecting data at a central server. However, FL encounters an inherent challenge in dealing with non-independent and identically distributed (non-IID) data among devices. To address this challenge, this paper proposes a hard feature matching data synthesis (HFMDS) method to share auxiliary data besides local models. Specifically, synthetic data are generated by learning the essential class-relevant features of real samples and discarding the redundant features, which helps to effectively tackle the non-IID issue. For better privacy preservation, we propose a hard feature augmentation method to transfer real features towards the decision boundary, with which the synthetic data not only improve the model generalization but also erase the information of real features. By integrating the proposed HFMDS method with FL, we present a novel FL framework with data augmentation to relieve data heterogeneity. The theoretical analysis highlights the effectiveness of our proposed data synthesis method in solving the non-IID challenge. Simulation results further demonstrate that our proposed HFMDS-FL algorithm outperforms the baselines in terms of accuracy, privacy preservation, and computational cost on various benchmark datasets.
翻訳日:2023-08-10 14:40:54 公開日:2023-08-09
# 倫理のない自動運転: 意味、設計、実世界の実装

Automated Driving Without Ethics: Meaning, Design and Real-World Implementation ( http://arxiv.org/abs/2308.04760v1 )

ライセンス: Link先を確認
Katherine Evans (IRCAI), Nelson de Moura (ASTRA), Raja Chatila (ISIR), St\'ephane Chauvier (SND)(参考訳) 自動車の倫理(AV)は近年大きな注目を集めており、特に人間の危害が引き起こされる可能性のある事故時の意思決定方針について注意が向けられている。 After a discussion about the pertinence and cogency of the term 'artificial moral agent' to describe AVs that would accomplish these sorts of decisions, and starting from the assumption that human harm is unavoidable in some situations, a strategy for AV decision making is proposed using only pre-defined parameters to characterize the risk of possible accidents and also integrating the Ethical Valence Theory, which paints AV decision-making as a type of claim mitigation, into multiple possible decision rules to determine the most suitable action given the specific environment and decision context. このアプローチの目標は、モラル理論が自動車にどのように振る舞う必要があるかを定義することではなく、人間の「道徳的位置」に適合するフレキシブルな計算手法を提供することであり、自動車の意思決定の社会的受容性を評価するための評価ツールを提供することである。

The ethics of automated vehicles (AV) has received a great amount of attention in recent years, specifically in regard to their decisional policies in accident situations in which human harm is a likely consequence. After a discussion about the pertinence and cogency of the term 'artificial moral agent' to describe AVs that would accomplish these sorts of decisions, and starting from the assumption that human harm is unavoidable in some situations, a strategy for AV decision making is proposed using only pre-defined parameters to characterize the risk of possible accidents and also integrating the Ethical Valence Theory, which paints AV decision-making as a type of claim mitigation, into multiple possible decision rules to determine the most suitable action given the specific environment and decision context. The goal of this approach is not to define how moral theory requires vehicles to behave, but rather to provide a computational approach that is flexible enough to accommodate a number of human 'moral positions' concerning what morality demands and what road users may expect, offering an evaluation tool for the social acceptability of an automated vehicle's decision making.
翻訳日:2023-08-10 14:40:34 公開日:2023-08-09
# 視覚言語ナビゲーションのための鳥のEye-View Scene Graph

Bird's-Eye-View Scene Graph for Vision-Language Navigation ( http://arxiv.org/abs/2308.04758v1 )

ライセンス: Link先を確認
Rui Liu, Xiaohan Wang, Wenguan Wang, Yi Yang(参考訳) 人間の指示に従って3D環境をナビゲートするエージェントを必要とする視覚言語ナビゲーション(VLN)は、大きな進歩を見せている。 しかし、現在のエージェントはパノラマ観測に基づいて構築されており、3Dシーンの形状を認識できないため、容易にパノラマビューの曖昧な選択につながる。 これらの制約に対処するために,多段階のbev表現を利用して3次元検出を監督するbevシーングラフ(bev scene graph, bsg)を提案する。 ナビゲーション中、BSGは各ステップでローカルなBEV表現を構築し、そのトポロジ的関係に従って収集されたすべてのローカルなBEV表現を保存および整理するBEVベースのグローバルなシーンマップを維持する。 BSGに基づいて、エージェントは、局所的なBEVグリッドレベル決定スコアとグローバルグラフレベル決定スコアと、パノラマビューのサブビュー選択スコアとを組み合わせて予測し、より正確なアクション予測を行う。 提案手法はREVERIE, R2R, R4Rの最先端手法よりも優れており, VLNにおけるBEV知覚の可能性を示している。

Vision-language navigation (VLN), which entails an agent to navigate 3D environments following human instructions, has shown great advances. However, current agents are built upon panoramic observations, which hinders their ability to perceive 3D scene geometry and easily leads to ambiguous selection of panoramic view. To address these limitations, we present a BEV Scene Graph (BSG), which leverages multi-step BEV representations to encode scene layouts and geometric cues of indoor environment under the supervision of 3D detection. During navigation, BSG builds a local BEV representation at each step and maintains a BEV-based global scene map, which stores and organizes all the online collected local BEV representations according to their topological relations. Based on BSG, the agent predicts a local BEV grid-level decision score and a global graph-level decision score, combined with a sub-view selection score on panoramic views, for more accurate action prediction. Our approach significantly outperforms state-of-the-art methods on REVERIE, R2R, and R4R, showing the potential of BEV perception in VLN.
翻訳日:2023-08-10 14:40:17 公開日:2023-08-09
# 新しいドメインのための解釈可能で信頼性の高いオープン情報検索ツールの構築

Building Interpretable and Reliable Open Information Retriever for New Domains Overnight ( http://arxiv.org/abs/2308.04756v1 )

ライセンス: Link先を確認
Xiaodong Yu, Ben Zhou, Dan Roth(参考訳) 情報検索 (IR) または知識検索は、オープンドメイン質問応答 (QA) など、多くのダウンストリームタスクにとって重要な要素である。 簡潔さ、完全性、正確性を必要とするため、非常に難しい。 近年の高密度検索モデルでは、クエリや知識通路を高密度ベクトルで表現し、語彙的および意味的類似性を学習することで、ドメイン内IRおよびQAベンチマーク上でのSOTA(State-of-the-art)性能を実現している。 しかし、クエリは複数の側面やイベントの暗黙の知識に注意を必要とするため、単一の高密度ベクトルとエンドツーエンドの監視が常に最適であるとは限らない。 本研究では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。 より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。 高い解釈性とクロスドメインパフォーマンスのために、新しいドメインでIRを実行する必要のあるアプリケーションに使用するためのゴーツーシステムである。

Information retrieval (IR) or knowledge retrieval, is a critical component for many down-stream tasks such as open-domain question answering (QA). It is also very challenging, as it requires succinctness, completeness, and correctness. In recent works, dense retrieval models have achieved state-of-the-art (SOTA) performance on in-domain IR and QA benchmarks by representing queries and knowledge passages with dense vectors and learning the lexical and semantic similarity. However, using single dense vectors and end-to-end supervision are not always optimal because queries may require attention to multiple aspects and event implicit knowledge. In this work, we propose an information retrieval pipeline that uses entity/event linking model and query decomposition model to focus more accurately on different information units of the query. We show that, while being more interpretable and reliable, our proposed pipeline significantly improves passage coverages and denotation accuracies across five IR and QA benchmarks. It will be the go-to system to use for applications that need to perform IR on a new domain without much dedicated effort, because of its superior interpretability and cross-domain performance.
翻訳日:2023-08-10 14:39:55 公開日:2023-08-09
# ADMUS: 複数の知識ソースに対応可能なプログレッシブな質問回答フレームワーク

ADMUS: A Progressive Question Answering Framework Adaptable to Multiple Knowledge Sources ( http://arxiv.org/abs/2308.04800v1 )

ライセンス: Link先を確認
Yirui Zhan, Yanzeng Li, Minhao Zhang, Lei Zou(参考訳) ディープラーニングモデルの導入により、意味解析に基づく知識ベース質問応答(KBQA)システムは複雑な質問に対処する上で高いパフォーマンスを達成している。 しかしながら、既存のアプローチのほとんどは、実世界のシナリオ(例えばマルチテナントプラットフォーム)で異なるデータセットにシステムを適用するための高いコストを無視して、個々のベンチマークデータセットに対するモデルの有効性を高めることに重点を置いている。 そこで本研究では,多言語,多種多様なバックボーン知識ベース,異種質問応答データセットを含む多種多様なデータセットに対応するように設計された,プログレッシブナレッジベース質問応答フレームワークadmusを提案する。 この目的を達成するため、従来のKBQAシステムのアーキテクチャを分離し、このデータセットに依存しないフレームワークを提案する。 私たちのフレームワークは、最小限の労力で、新しいデータセットのシームレスな統合をサポートします。 ADUMSのユーザビリティを高めるため、我々は3段階からなるプログレッシブフレームワークを設計し、正確なクエリの実行、近似クエリの生成、大規模言語モデルからのオープンドメイン知識の検索を行う。 ADUMSのオンラインデモは、https://answer.gstore.cn/pc/index.htmlで公開されている。

With the introduction of deep learning models, semantic parsingbased knowledge base question answering (KBQA) systems have achieved high performance in handling complex questions. However, most existing approaches primarily focus on enhancing the model's effectiveness on individual benchmark datasets, disregarding the high costs of adapting the system to disparate datasets in real-world scenarios (e.g., multi-tenant platform). Therefore, we present ADMUS, a progressive knowledge base question answering framework designed to accommodate a wide variety of datasets, including multiple languages, diverse backbone knowledge bases, and disparate question answering datasets. To accomplish the purpose, we decouple the architecture of conventional KBQA systems and propose this dataset-independent framework. Our framework supports the seamless integration of new datasets with minimal effort, only requiring creating a dataset-related micro-service at a negligible cost. To enhance the usability of ADUMS, we design a progressive framework consisting of three stages, ranges from executing exact queries, generating approximate queries and retrieving open-domain knowledge referring from large language models. An online demonstration of ADUMS is available at: https://answer.gstore.cn/pc/index.html
翻訳日:2023-08-10 14:34:03 公開日:2023-08-09
# モバイルプライバシとセキュリティの強化 - Face Skin Patchベースのアンチスプーフィングアプローチ

Enhancing Mobile Privacy and Security: A Face Skin Patch-Based Anti-Spoofing Approach ( http://arxiv.org/abs/2308.04798v1 )

ライセンス: Link先を確認
Qiushi Guo(参考訳) 顔認識システム(FRS)はその利便性と高精度さからアクセス制御やモバイル決済などの分野で広く利用されている。 顔認識の安全性も高く評価されている。 顔認識のためのフェイスアンチスプーフィングシステム(fas)は、顔認識システムのセキュリティを強化するために使用される重要なコンポーネントである。 従来のfasは、識別情報を含む画像を使用してスプーフィングトレースを検出するが、これらの画像の送信と保存の間にプライバシーリークのリスクがある。 さらに、これらのプライバシーに敏感なデータの暗号化と復号化は、fasモデルによる推論よりも時間がかかり過ぎます。 そこで本研究では,顔の皮膚パッチ画像の入力として,プライバシ情報や暗号化や復号化を必要とせず,顔の皮膚パッチに基づく顔のスプーフィング防止アルゴリズムを提案する。 我々は,いくつかの公開データセットで実験を行い,本アルゴリズムが精度と速度の両方において優れていることを証明した。

As Facial Recognition System(FRS) is widely applied in areas such as access control and mobile payments due to its convenience and high accuracy. The security of facial recognition is also highly regarded. The Face anti-spoofing system(FAS) for face recognition is an important component used to enhance the security of face recognition systems. Traditional FAS used images containing identity information to detect spoofing traces, however there is a risk of privacy leakage during the transmission and storage of these images. Besides, the encryption and decryption of these privacy-sensitive data takes too long compared to inference time by FAS model. To address the above issues, we propose a face anti-spoofing algorithm based on facial skin patches leveraging pure facial skin patch images as input, which contain no privacy information, no encryption or decryption is needed for these images. We conduct experiments on several public datasets, the results prove that our algorithm has demonstrated superiority in both accuracy and speed.
翻訳日:2023-08-10 14:33:42 公開日:2023-08-09
# スパイク列車データに対する非パラメトリック分類規則のベイズリスク一貫性

Bayes Risk Consistency of Nonparametric Classification Rules for Spike Trains Data ( http://arxiv.org/abs/2308.04796v1 )

ライセンス: Link先を確認
Miros{\l}aw Pawlak, Mateusz Pabian, Dominik Rzepka(参考訳) Spikeの訓練データには、計算神経科学、イメージング、ストリーミングデータ、ファイナンスなどの応用が増えている。 スパイクトレインの機械学習戦略は、様々なニューラルネットワークと確率モデルに基づいている。 確率論的アプローチは、基礎となるスパイク生成モデルのパラメトリックまたは非パラメトリック仕様に依存する。 本稿では,非パラメトリック特定強度関数を特徴とするスパイクトレインデータの2クラス統計分類問題について考察する。 最適ベイズ則を導出し、次にプラグイン非パラメトリックカーネル分類器を形成する。 記録時間間隔の増大とトレーニングセットのサイズに関する制限を含む規則の漸近的特性を確立する。 特に、カーネル分類器のベイズ則への収束が証明される。 得られた結果は有限サンプルシミュレーション研究によって支持される。

Spike trains data find a growing list of applications in computational neuroscience, imaging, streaming data and finance. Machine learning strategies for spike trains are based on various neural network and probabilistic models. The probabilistic approach is relying on parametric or nonparametric specifications of the underlying spike generation model. In this paper we consider the two-class statistical classification problem for a class of spike train data characterized by nonparametrically specified intensity functions. We derive the optimal Bayes rule and next form the plug-in nonparametric kernel classifier. Asymptotical properties of the rules are established including the limit with respect to the increasing recording time interval and the size of a training set. In particular the convergence of the kernel classifier to the Bayes rule is proved. The obtained results are supported by a finite sample simulation studies.
翻訳日:2023-08-10 14:33:27 公開日:2023-08-09
# プラネタリーローバーの高速かつ最適学習に基づく経路計画法

A Fast and Optimal Learning-based Path Planning Method for Planetary Rovers ( http://arxiv.org/abs/2308.04792v1 )

ライセンス: Link先を確認
Yiming Ji, Yang Liu, Guanghu Xie, Zongwu Xie, Baoshi Cao(参考訳) インテリジェントな自律経路計画は、惑星探査機の探索効率を向上させるために不可欠である。 本稿では,標高マップにおける最適経路を高速に探索する学習に基づく手法であるnnppを提案する。 nnppモデルは、多数の事前注釈付き最適経路のデモンストレーションから、開始位置と目標位置に関する意味情報とマップ表現を学習し、地図上の最適経路に属するその可能性を表す各画素上の確率分布を生成する。 より具体的には、DEMから得られた勾配、粗さ、標高差から各格子セルのトラバースコストを算出する。 その後、ガウス分布を用いて開始位置とゴール位置を符号化し、モデル性能に対する異なる位置符号化パラメータを解析する。 トレーニング後、NNPPモデルは新しい地図上で経路計画を実行することができる。 実験の結果,NNPPモデルにより生成された誘導場は,同じハードウェア条件下での最適経路の探索時間を著しく短縮することができ,NNPPの利点は地図の規模によって増大することがわかった。

Intelligent autonomous path planning is crucial to improve the exploration efficiency of planetary rovers. In this paper, we propose a learning-based method to quickly search for optimal paths in an elevation map, which is called NNPP. The NNPP model learns semantic information about start and goal locations, as well as map representations, from numerous pre-annotated optimal path demonstrations, and produces a probabilistic distribution over each pixel representing the likelihood of it belonging to an optimal path on the map. More specifically, the paper computes the traversal cost for each grid cell from the slope, roughness and elevation difference obtained from the DEM. Subsequently, the start and goal locations are encoded using a Gaussian distribution and different location encoding parameters are analyzed for their effect on model performance. After training, the NNPP model is able to perform path planning on novel maps. Experiments show that the guidance field generated by the NNPP model can significantly reduce the search time for optimal paths under the same hardware conditions, and the advantage of NNPP increases with the scale of the map.
翻訳日:2023-08-10 14:33:18 公開日:2023-08-09
# PETformer:Placeholder-enhanced Transformerによる長期連続予測

PETformer: Long-term Time Series Forecasting via Placeholder-enhanced Transformer ( http://arxiv.org/abs/2308.04791v1 )

ライセンス: Link先を確認
Shengsheng Lin, Weiwei Lin, Wentai Wu, Songbo Wang, Yongxiang Wang,(参考訳) 近年,Transformerベースのモデルでは,長期的依存関係をモデル化できるため,長期的時系列予測(LTSF)タスクにおいて顕著な性能を示した。 しかし、特に最近の研究で、単純な線形モデルはトランスフォーマーベースのアプローチよりも優れていることが示されているため、LTSFタスクに対するトランスフォーマーの有効性は議論の余地がある。 これは、LTSFにおけるTransformerの適用に制限があることを示唆している。 そこで本研究では,ltsfにトランスフォーマーを適用する際の3つの課題,時間的連続性,情報密度,マルチチャネル関係について検討する。 そこで我々は,Placeholder Enhancement Technique(PET),Long Sub-Sequence Division(LSD),Multi-channel Separation and Interaction(MSI)の3つの革新的な手法を提案する。 これら3つの重要な設計はLTSFタスクに適した事前バイアスを導入している。 広範な実験により、PETformerはLTSFのために一般的に使用される8つのパブリックデータセット上で、最先端(SOTA)のパフォーマンスを達成し、現在利用可能な他のモデルよりも優れていることが示されている。 このことはTransformerがLTSFに強力な機能を持っていることを示している。

Recently, Transformer-based models have shown remarkable performance in long-term time series forecasting (LTSF) tasks due to their ability to model long-term dependencies. However, the validity of Transformers for LTSF tasks remains debatable, particularly since recent work has shown that simple linear models can outperform numerous Transformer-based approaches. This suggests that there are limitations to the application of Transformer in LTSF. Therefore, this paper investigates three key issues when applying Transformer to LTSF: temporal continuity, information density, and multi-channel relationships. Accordingly, we propose three innovative solutions, including Placeholder Enhancement Technique (PET), Long Sub-sequence Division (LSD), and Multi-channel Separation and Interaction (MSI), which together form a novel model called PETformer. These three key designs introduce prior biases suitable for LTSF tasks. Extensive experiments have demonstrated that PETformer achieves state-of-the-art (SOTA) performance on eight commonly used public datasets for LTSF, outperforming all other models currently available. This demonstrates that Transformer still possesses powerful capabilities in LTSF.
翻訳日:2023-08-10 14:33:00 公開日:2023-08-09
# zero/fewショット異常検出のためのマルチスケールメモリ比較

Multi-Scale Memory Comparison for Zero-/Few-Shot Anomaly Detection ( http://arxiv.org/abs/2308.04789v1 )

ライセンス: Link先を確認
Chaoqin Huang, Aofan Jiang, Ya Zhang, Yanfeng Wang(参考訳) 異常検出は幅広い用途、特に工業的欠陥検出において大きな注目を集めている。 データ収集の課題に対処するために、研究者はカテゴリごとに最小の正規画像を必要とするゼロ/フェーショット異常検出技術を導入した。 しかし、複雑な産業シナリオは、しばしば複数のオブジェクトを巻き込み、重大な課題を示す。 これを踏まえ,ゼロ/フェウショット異常検出のための簡易かつ強力なマルチスケールメモリ比較フレームワークを提案する。 このアプローチでは、グローバルなメモリバンクを使用して、画像全体の機能をキャプチャし、個々のメモリバンクは、単一のオブジェクトを含む単純化されたシーンに焦点を当てる。 本手法の有効性は,視覚異常・ノベルティ検出(VAND)競技において,ゼロショットトラックで4位,ゼロショットトラックで2位という顕著な成績により検証された。

Anomaly detection has gained considerable attention due to its broad range of applications, particularly in industrial defect detection. To address the challenges of data collection, researchers have introduced zero-/few-shot anomaly detection techniques that require minimal normal images for each category. However, complex industrial scenarios often involve multiple objects, presenting a significant challenge. In light of this, we propose a straightforward yet powerful multi-scale memory comparison framework for zero-/few-shot anomaly detection. Our approach employs a global memory bank to capture features across the entire image, while an individual memory bank focuses on simplified scenes containing a single object. The efficacy of our method is validated by its remarkable achievement of 4th place in the zero-shot track and 2nd place in the few-shot track of the Visual Anomaly and Novelty Detection (VAND) competition.
翻訳日:2023-08-10 14:32:39 公開日:2023-08-09
# PointMBF: 教師なしRGB-D Point Cloud登録のためのマルチスケール双方向統合ネットワーク

PointMBF: A Multi-scale Bidirectional Fusion Network for Unsupervised RGB-D Point Cloud Registration ( http://arxiv.org/abs/2308.04782v1 )

ライセンス: Link先を確認
Mingzhi Yuan, Kexue Fu, Zhihao Li, Yucong Meng, Manning Wang(参考訳) ポイントクラウド登録は、2つの非整列スキャン間の剛性変換を推定するタスクであり、多くのコンピュータビジョンアプリケーションにおいて重要な役割を果たす。 以前の学習に基づく作品は、実際には制限のある教師付き登録にフォーカスしている。 近年,安価なrgb-dセンサが開発され,rgb-dデータを用いて教師なし登録ができるようになった。 しかし、既存の教師なしの手法のほとんどは、rgb-dデータの補足情報を十分に活用しない一方向的な設計、またはrgb-dデータを融合する。 そこで本研究では,rgb画像と深度画像から生成した点雲との多元的双方向融合を実現するネットワークを提案する。 マルチスケールで視覚的特徴と幾何学的特徴を双方向に融合させることにより、対応推定のためのより独特な深い特徴を得ることができる。 ScanNetと3DMatchの大規模な実験により,本手法が新たな最先端性能を実現することを示す。 コードはhttps://github.com/phdymz/PointMBFでリリースされる

Point cloud registration is a task to estimate the rigid transformation between two unaligned scans, which plays an important role in many computer vision applications. Previous learning-based works commonly focus on supervised registration, which have limitations in practice. Recently, with the advance of inexpensive RGB-D sensors, several learning-based works utilize RGB-D data to achieve unsupervised registration. However, most of existing unsupervised methods follow a cascaded design or fuse RGB-D data in a unidirectional manner, which do not fully exploit the complementary information in the RGB-D data. To leverage the complementary information more effectively, we propose a network implementing multi-scale bidirectional fusion between RGB images and point clouds generated from depth images. By bidirectionally fusing visual and geometric features in multi-scales, more distinctive deep features for correspondence estimation can be obtained, making our registration more accurate. Extensive experiments on ScanNet and 3DMatch demonstrate that our method achieves new state-of-the-art performance. Code will be released at https://github.com/phdymz/PointMBF
翻訳日:2023-08-10 14:32:23 公開日:2023-08-09
# 3D-GPRに基づく低次距離検出のための多視点核融合と蒸留

Multi-View Fusion and Distillation for Subgrade Distresses Detection based on 3D-GPR ( http://arxiv.org/abs/2308.04779v1 )

ライセンス: Link先を確認
Chunpeng Zhou, Kangjie Ning, Haishuai Wang, Zhi Yu, Sheng Zhou, Jiajun Bu(参考訳) 3次元地中レーダ(3D-GPR)のサブグレード災害検出への応用が広く普及している。 検出の効率性と精度を高めるため、先駆的な研究は自動検出技術、特にディープラーニングの採用を試みた。 しかしながら、既存の研究は通常、GPRの従来の1DのAスキャン、2DのBスキャン、または3DのCスキャンデータに依存しており、空間情報不足または高い計算複雑性をもたらす。 これらの課題に対処するために,3D-GPRデータからの多視点情報を活用することで,サブグレードの難読度検出タスクを提案する。 さらに,a-scanデータやb-scanデータよりもリッチな空間情報を提供し,c-scanデータに比べて計算複雑性を低減した,元の3d-gprデータから派生した実際の多視点画像データセットを構築する。 次に,多視点GPRデータセットの最適利用を目的とした,新規な \textbf{M}ulti-\textbf{V}iew \textbf{V}usion と \textbf{D}istillation フレームワークである \textbf{GPR-MVFD} を開発した。 このフレームワークは、多視点蒸留と注意に基づく融合を巧みに取り入れ、サブグレードの苦難に対する重要な特徴抽出を容易にする。 さらに、モデルトレーニングを安定させ、各ブランチのパフォーマンス劣化を防止するために、自己適応学習機構を採用する。 新しいgprベンチマークで実施した広範囲な実験により,提案手法の有効性と有効性が実証された。 我々のフレームワークは、既存のGPRベースラインだけでなく、マルチビューラーニング、マルチモーダルラーニング、知識蒸留の分野で最先端の手法よりも優れています。 提案するフレームワークのソースコードと専門家アノテートラベルによる構築されたマルチビューGPRデータセットをリリースする。

The application of 3D ground-penetrating radar (3D-GPR) for subgrade distress detection has gained widespread popularity. To enhance the efficiency and accuracy of detection, pioneering studies have attempted to adopt automatic detection techniques, particularly deep learning. However, existing works typically rely on traditional 1D A-scan, 2D B-scan or 3D C-scan data of the GPR, resulting in either insufficient spatial information or high computational complexity. To address these challenges, we introduce a novel methodology for the subgrade distress detection task by leveraging the multi-view information from 3D-GPR data. Moreover, we construct a real multi-view image dataset derived from the original 3D-GPR data for the detection task, which provides richer spatial information compared to A-scan and B-scan data, while reducing computational complexity compared to C-scan data. Subsequently, we develop a novel \textbf{M}ulti-\textbf{V}iew \textbf{V}usion and \textbf{D}istillation framework, \textbf{GPR-MVFD}, specifically designed to optimally utilize the multi-view GPR dataset. This framework ingeniously incorporates multi-view distillation and attention-based fusion to facilitate significant feature extraction for subgrade distresses. In addition, a self-adaptive learning mechanism is adopted to stabilize the model training and prevent performance degeneration in each branch. Extensive experiments conducted on this new GPR benchmark demonstrate the effectiveness and efficiency of our proposed framework. Our framework outperforms not only the existing GPR baselines, but also the state-of-the-art methods in the fields of multi-view learning, multi-modal learning, and knowledge distillation. We will release the constructed multi-view GPR dataset with expert-annotated labels and the source codes of the proposed framework.
翻訳日:2023-08-10 14:32:04 公開日:2023-08-09
# 非負行列分解に基づくマルチモーダル・マルチビュークラスタリング

Multi-modal Multi-view Clustering based on Non-negative Matrix Factorization ( http://arxiv.org/abs/2308.04778v1 )

ライセンス: Link先を確認
Yasser Khalafaoui (Alteca, ETIS - UMR 8051, CY), Nistor Grozavu (ETIS - UMR 8051, CY), Basarab Matei (LIPN), Laurent-Walter Goix(参考訳) 関連オブジェクトを組み合わせることで、教師なし機械学習技術は、データセットの基盤となるパターンを明らかにすることを目的としている。 非負行列分解 (non- negative matrix factorization, nmf) は、要素の非負性に対する制約を2つの行列に分割することによってデータ行列を分割する手法である。 この手法は多くの注目を集めており、テキストマイニング、クラスタリング、言語モデリング、音楽の書き起こし、神経科学(遺伝子分離)など幅広い用途で使われている。 生成された行列の解釈は、負の値がないことでより簡単になる。 本稿では,マルチモーダルクラスタリングアルゴリズムを提案するとともに,複数の局所nmfモデルの協調解析を行うマルチモーダルマルチビュー非負行列分解法を提案する。 実験の結果,様々なデータセットを用いて評価した提案手法の価値が示され,その結果は最先端の手法と比較して非常に有望であることがわかった。

By combining related objects, unsupervised machine learning techniques aim to reveal the underlying patterns in a data set. Non-negative Matrix Factorization (NMF) is a data mining technique that splits data matrices by imposing restrictions on the elements' non-negativity into two matrices: one representing the data partitions and the other to represent the cluster prototypes of the data set. This method has attracted a lot of attention and is used in a wide range of applications, including text mining, clustering, language modeling, music transcription, and neuroscience (gene separation). The interpretation of the generated matrices is made simpler by the absence of negative values. In this article, we propose a study on multi-modal clustering algorithms and present a novel method called multi-modal multi-view non-negative matrix factorization, in which we analyze the collaboration of several local NMF models. The experimental results show the value of the proposed approach, which was evaluated using a variety of data sets, and the obtained results are very promising compared to state of art methods.
翻訳日:2023-08-10 14:31:27 公開日:2023-08-09
# e3-uav : 無人航空機用エッジ型エネルギー効率の高い物体検出システム

E3-UAV: An Edge-based Energy-Efficient Object Detection System for Unmanned Aerial Vehicles ( http://arxiv.org/abs/2308.04774v1 )

ライセンス: Link先を確認
Jiashun Suo, Xingzhou Zhang, Weisong Shi, Wei Zhou(参考訳) 深層学習技術の進歩により、無人航空機(UAV)による物体検出の応用は、車両の計数、火災検知、都市監視など、様々な分野に広がった。 既存の研究の多くは、UAVによる物体検出に固有の課題のサブセットに過ぎないが、エネルギー消費削減のための実用的なシステムを設計するための様々な側面のバランスをとる研究はほとんどない。 そこで我々は,UAVのためのエッジベースエネルギー効率の高い物体検出システムであるE3-UAVを提案する。 このシステムは、様々なUAVデバイス、エッジデバイス、および検出アルゴリズムを動的にサポートし、タスクの検出要求を満たすために必要な最もエネルギー効率の高い飛行パラメータ(飛行高度、飛行速度、検出アルゴリズム、サンプリングレートを含む)を決定することにより、エネルギー消費を最小限にすることを目的としている。 まず,実作業に対する効果的な評価指標を示し,数百の実飛行データに基づく透過的エネルギー消費モデルを構築し,エネルギー消費と飛行パラメータの関係を定式化する。 次に,多量の実飛行データに基づく軽量なエネルギー効率優先決定アルゴリズムを提案し,飛行パラメータの決定を支援する。 最後に,本システムの性能評価を行い,実世界のシナリオにおけるエネルギー消費を大幅に削減できることを示した。 さらに、UAVに基づく物体検出をさらに研究するために、研究者や技術者を支援する4つの洞察を提供する。

Motivated by the advances in deep learning techniques, the application of Unmanned Aerial Vehicle (UAV)-based object detection has proliferated across a range of fields, including vehicle counting, fire detection, and city monitoring. While most existing research studies only a subset of the challenges inherent to UAV-based object detection, there are few studies that balance various aspects to design a practical system for energy consumption reduction. In response, we present the E3-UAV, an edge-based energy-efficient object detection system for UAVs. The system is designed to dynamically support various UAV devices, edge devices, and detection algorithms, with the aim of minimizing energy consumption by deciding the most energy-efficient flight parameters (including flight altitude, flight speed, detection algorithm, and sampling rate) required to fulfill the detection requirements of the task. We first present an effective evaluation metric for actual tasks and construct a transparent energy consumption model based on hundreds of actual flight data to formalize the relationship between energy consumption and flight parameters. Then we present a lightweight energy-efficient priority decision algorithm based on a large quantity of actual flight data to assist the system in deciding flight parameters. Finally, we evaluate the performance of the system, and our experimental results demonstrate that it can significantly decrease energy consumption in real-world scenarios. Additionally, we provide four insights that can assist researchers and engineers in their efforts to study UAV-based object detection further.
翻訳日:2023-08-10 14:31:09 公開日:2023-08-09
# WaveNeRF:ウェーブレットに基づく一般化可能なニューラルラジアンス場

WaveNeRF: Wavelet-based Generalizable Neural Radiance Fields ( http://arxiv.org/abs/2308.04826v1 )

ライセンス: Link先を確認
Muyu Xu, Fangneng Zhan, Jiahui Zhang, Yingchen Yu, Xiaoqin Zhang, Christian Theobalt, Ling Shao and Shijian Lu(参考訳) neural radiance field (nerf) は暗黙的なシーン表現による新しいビュー合成において印象的な性能を示している。 しかし、通常、新しいシーンごとに密度の高いサンプル画像を必要とするため、スケーラビリティの低下に悩まされる。 いくつかの研究は、マルチビューステレオ(mvs)技術をnerfに統合することでこの問題を軽減することを試みているが、新しいシーンの微調整プロセスは複雑である。 特に、この微調整プロセスなしでレンダリング品質が著しく低下し、エラーは主に高周波の特徴を中心に現れる。 この観測結果から,ウェーブレット周波数分解をMVSとNeRFに統合したWaveNeRFを設計し,シーンごとの最適化を行うことなく,一般化可能ながら高品質な合成を実現する。 3D特徴量を生成する際に高周波情報を保存するために、WaveNeRFは、離散ウェーブレット変換を古典カスケードMVSに統合し、ウェーブレット領域にマルチビューステレオを構築する。 これにより、新しいハイブリッド・ニューラル・レンダラーを介して古典的NeRFに絡み合った周波数特徴を注入して忠実な高周波の詳細を得ることができ、高周波領域周辺のアーティファクトを抑えるために直感的な周波数誘導サンプリング戦略を設計することができる。 広範に研究された3つのベンチマーク実験により、WaveNeRFは3つの画像のみを入力として与えた場合に、より優れた一般化可能な放射場モデリングを実現することが示された。

Neural Radiance Field (NeRF) has shown impressive performance in novel view synthesis via implicit scene representation. However, it usually suffers from poor scalability as requiring densely sampled images for each new scene. Several studies have attempted to mitigate this problem by integrating Multi-View Stereo (MVS) technique into NeRF while they still entail a cumbersome fine-tuning process for new scenes. Notably, the rendering quality will drop severely without this fine-tuning process and the errors mainly appear around the high-frequency features. In the light of this observation, we design WaveNeRF, which integrates wavelet frequency decomposition into MVS and NeRF to achieve generalizable yet high-quality synthesis without any per-scene optimization. To preserve high-frequency information when generating 3D feature volumes, WaveNeRF builds Multi-View Stereo in the Wavelet domain by integrating the discrete wavelet transform into the classical cascade MVS, which disentangles high-frequency information explicitly. With that, disentangled frequency features can be injected into classic NeRF via a novel hybrid neural renderer to yield faithful high-frequency details, and an intuitive frequency-guided sampling strategy can be designed to suppress artifacts around high-frequency regions. Extensive experiments over three widely studied benchmarks show that WaveNeRF achieves superior generalizable radiance field modeling when only given three images as input.
翻訳日:2023-08-10 14:23:49 公開日:2023-08-09
# 混合型古典位相空間を持つキックトトップモデルにおける混合固有状態の分数のパワー-ロー崩壊

Power-law decay of the fraction of the mixed eigenstates in kicked top model with mixed-type classical phase space ( http://arxiv.org/abs/2308.04824v1 )

ライセンス: Link先を確認
Qian Wang and Marko Robnik(参考訳) 古典型相空間を持つ一般量子系における混合固有状態の性質は、理論的および実験的研究の両方で生じるいくつかの基本的な問題を理解するのに重要であるが、いまだに明確ではない。 ここで、最近の研究 [\v{c} に従う。 ~lozej {\it et al} である。 Phys rev. e {\bf 106}, 054203 (2022)] 時間依存ハミルトニアン系における混合固有状態の特徴について解析を行った。 量子カオスを研究するためのパラダイムモデルとして、キックドトップモデルは古典的および量子カオスの両方を示すことが知られている。 固有状態の型は位相空間重なり指数(英語版)を用いて同定され、古典位相空間の正則領域とカオス領域との重なりとして定義される。 混合固有状態は, 異なる相空間構造間の様々なトンネル現象により出現し, 規則的およびカオス的固有状態はそれぞれ, 相空間の不変トーラス成分とカオス成分と関連していることを示す。 本研究では, キック強度の異なるシステムサイズの増加に伴い, 位相空間重なり指数の確率分布がどのように変化するかを検討する。 特に, 混合状態の相対的な分画は, システムサイズが大きくなるにつれて, 正則状態とカオス固有状態のみが厳密な半古典的極限に残されていることを示す。 これにより,husimi関数の一様半古典的凝縮の原理をさらに検証し,berry-robnik像の正しさを確認する。

The properties of mixed eigenstates in a generic quantum system with classical counterpart that has mixed-type phase space, although important to understand several fundamental questions that arise in both theoretical and experimental studies, are still not clear. Here, following a recent work [\v{C}.~Lozej {\it et al}. Phys. Rev. E {\bf 106}, 054203 (2022)], we perform an analysis of the features of mixed eigenstates in a time-dependent Hamiltonian system, the celebrated kicked top model. As a paradigmatic model for studying quantum chaos, kicked top model is known to exhibit both classical and quantum chaos. The types of eigenstates are identified by means of the phase space overlap index, which is defined as the overlap of the Husimi function with regular and chaotic regions in classical phase space. We show that the mixed eigenstates appear due to various tunneling precesses between different phase space structures, while the regular and chaotic eigenstates are, respectively, associated with invariant tori and chaotic component in phase space. We examine how the probability distribution of the phase space overlap index evolves with increasing system size for different kicking strengths. In particular, we find that the relative fraction of mixed states exhibits a power-law decay as the system size increases, indicating that only purely regular and chaotic eigenstates are left in the strict semiclassical limit. We thus provide further verification of the principle of uniform semiclassical condensation of Husimi functions and confirm the correctness of the Berry-Robnik picture.
翻訳日:2023-08-10 14:23:07 公開日:2023-08-09
# 大規模中国語モデルの生成能力の評価

Evaluating the Generation Capabilities of Large Chinese Language Models ( http://arxiv.org/abs/2308.04823v1 )

ライセンス: Link先を確認
Hui Zeng, Jingyuan Xue, Meng Hao, Chen Sun, Bin Ning, Na Zhang(参考訳) 本稿では,幅広い学術分野にわたる大規模中国語モデルの生成能力を総合的に評価したCG-Evalについて述べる。 モデルの性能は, 理工学, 人文科学, 数学計算, 医療実践資格試験, 司法試験, 公認会計士試験の6分野において, 様々な種類の質問に対して, 正確かつ関連性の高い回答を得られる能力に基づいて評価された。 本稿では,複数の指標の重み付け和から導出した合成指標であるGscoreについて,参照に対してモデル生成の品質を測定する。 テストデータとテスト結果はhttp://cgeval.besteasy.com/で確認できる。

This paper presents CG-Eval, the first comprehensive evaluation of the generation capabilities of large Chinese language models across a wide range of academic disciplines. The models' performance was assessed based on their ability to generate accurate and relevant responses to different types of questions in six disciplines, namely, Science and Engineering, Humanities and Social Sciences, Mathematical Calculations, Medical Practitioner Qualification Examination, Judicial Examination, and Certified Public Accountant Examination. This paper also presents Gscore, a composite index derived from the weighted sum of multiple metrics to measure the quality of model's generation against a reference. The test data and test results can be found at http://cgeval.besteasy.com/.
翻訳日:2023-08-10 14:22:38 公開日:2023-08-09
# HyperCoil-Recon:MRI再構成のための適応コイル構成変更ネットワーク

HyperCoil-Recon: A Hypernetwork-based Adaptive Coil Configuration Task Switching Network for MRI Reconstruction ( http://arxiv.org/abs/2308.04821v1 )

ライセンス: Link先を確認
Sriprabha Ramanarayanan, Mohammad Al Fahim, Rahul G.S., Amrit Kumar Jethi, Keerthi Ram, Mohanasankar Sivaprakasam(参考訳) 高速MRI技術である並列イメージングは、研究中の解剖学に関してコイルの番号、位置、感度の設定に基づいて動的調整を行う。 従来のディープラーニングベースの画像再構成モデルは、計算リソースの欠如と、デプロイ時にモデルをトレーニングするための機械学習の専門知識を考慮すると、各構成でトレーニングや微調整が必要となる。 多様なデータセットの合同トレーニングは、分散した構成に不適合な単一の重みセットを学習する。 本稿では,マルチコートmri再構成のためのハイパーネットワーク型コイル構成タスクスイッチングネットワークであるhypercoil-reconを提案する。 ハイパーネットワークは、タスク固有の重みをレコンストラクションネットワークに推論し、埋め込む。 1)コイルの様々な視野における共通および異種画像の特徴の文脈知識を効果的に活用すること。 2) テスト時に設定を認識できないようにする。 実験によると我々のアプローチは 1)ランダムに変化するコイルの少ない数(すなわち7から11)で訓練した場合は32個のコイルまで、単一モデルで18個の構成で訓練した場合は120個の無傷な構成に、フライで適応する。 2)コイル構成特定モデルの性能に適合する。 3) 膝および脳データに対するPSNR/SSIMでは,約1dB/0.03,0.3dB/0.02の改善率を有する構成不変モデルよりも優れていた。 私たちのコードはhttps://github.com/sriprabhar/HyperCoil-Reconで利用可能です。

Parallel imaging, a fast MRI technique, involves dynamic adjustments based on the configuration i.e. number, positioning, and sensitivity of the coils with respect to the anatomy under study. Conventional deep learning-based image reconstruction models have to be trained or fine-tuned for each configuration, posing a barrier to clinical translation, given the lack of computational resources and machine learning expertise for clinicians to train models at deployment. Joint training on diverse datasets learns a single weight set that might underfit to deviated configurations. We propose, HyperCoil-Recon, a hypernetwork-based coil configuration task-switching network for multi-coil MRI reconstruction that encodes varying configurations of the numbers of coils in a multi-tasking perspective, posing each configuration as a task. The hypernetworks infer and embed task-specific weights into the reconstruction network, 1) effectively utilizing the contextual knowledge of common and varying image features among the various fields-of-view of the coils, and 2) enabling generality to unseen configurations at test time. Experiments reveal that our approach 1) adapts on the fly to various unseen configurations up to 32 coils when trained on lower numbers (i.e. 7 to 11) of randomly varying coils, and to 120 deviated unseen configurations when trained on 18 configurations in a single model, 2) matches the performance of coil configuration-specific models, and 3) outperforms configuration-invariant models with improvement margins of around 1 dB / 0.03 and 0.3 dB / 0.02 in PSNR / SSIM for knee and brain data. Our code is available at https://github.com/sriprabhar/HyperCoil-Recon
翻訳日:2023-08-10 14:22:27 公開日:2023-08-09
# 「この(賢い)町は、あまり大きくない」:スマートな小都市と持続可能な都市・地域開発のためのデジタル双生児

"This (Smart) Town Ain't Big Enough": Smart Small Towns and Digital Twins for Sustainable Urban and Regional Development ( http://arxiv.org/abs/2308.04819v1 )

ライセンス: Link先を確認
Gabriela Viale Pereira, Lukas Daniel Klausner, Lucy Temple, Thomas Delissen, Thomas Lampoltshammer, Torsten Priebe(参考訳) 今日の大きな課題の1つは、成長を促進するだけでなく、包括性、公正性、レジリエンスの促進を確実にする地域開発のためのガバナンス概念の作成である。 デジタル双子は、都市や地域のスマートで持続可能なソリューションを開発する上で、政策立案者を支援することができる。 SCiNDTiLAプロジェクト(下オーストリアのスマートシティーaNd Digital Twins)は、スマートシティの分野における最先端技術を定義し、相互依存、重要なコンポーネント、利害関係者を特定し、小規模都市と非都市の両方に適用可能なスマートシティのロードマップを提供する。 SCiNDTiLAは、複雑性理論の基礎と計算社会科学の手法を用いて、オーストリアの町や地域をスマートシティや地域としてモデル化し、社会技術交流のシステムとして、持続可能な開発に向けて政策決定を導く。

One of the major challenges today lies in the creation of governance concepts for regional development that not only promote growth but, at the same time, ensure promotion of inclusiveness, fairness, and resilience. Digital twins can support policymakers in developing smart, sustainable solutions for cities and regions and, therefore, urban and non-urban environments. The project SCiNDTiLA (Smart Cities aNd Digital Twins in Lower Austria) aims to define the state-of-the-art in the field of smart cities, identify interdependencies, critical components and stakeholders, and provide a roadmap for smart cities with application to both smaller-scale urban and non-urban environments. SCiNDTiLA uses the foundations of complexity theory and computational social science methods to model Austrian towns and regions as smart cities/regions and thus as systems of socio-technical interaction to guide policy decision-making toward sustainable development.
翻訳日:2023-08-10 14:22:01 公開日:2023-08-09
# ニューロシンボリックrdfと記述論理推論--最新技術と課題

Neuro-Symbolic RDF and Description Logic Reasoners: The State-Of-The-Art and Challenges ( http://arxiv.org/abs/2308.04814v1 )

ライセンス: Link先を確認
Gunjan Singh, Sumit Bhatia, Raghava Mutharaju(参考訳) オントロジーは様々な領域で使われており、RDFとOWLはオントロジー開発において顕著な標準である。 RDFは単純で柔軟性があり、OWLは詳細なドメイン知識の表現を可能にする。 しかし、オントロジーがより大きく、より表現豊かになるにつれて、推論の複雑さは増大し、伝統的な推論者は効率的に実行するのに苦労する。 最適化努力にもかかわらず、スケーラビリティは依然として問題である。 さらに、自動知識ベース構築の進歩は、しばしば騒々しく一貫性のない、大きく表現力豊かなオントロジーを生み出し、従来の推論者にとってさらなる課題を提起している。 これらの課題に対処するために、研究者はニューラルネットワークの学習能力とシンボリックシステムの推論能力を組み合わせたニューロシンボリックアプローチを探求した。 本稿では, rdf(s) が支持する神経-シンボリック推論, 記述論理 el と alc, owl 2 rl の分野における既存の文献の概要を述べる。

Ontologies are used in various domains, with RDF and OWL being prominent standards for ontology development. RDF is favored for its simplicity and flexibility, while OWL enables detailed domain knowledge representation. However, as ontologies grow larger and more expressive, reasoning complexity increases, and traditional reasoners struggle to perform efficiently. Despite optimization efforts, scalability remains an issue. Additionally, advancements in automated knowledge base construction have created large and expressive ontologies that are often noisy and inconsistent, posing further challenges for conventional reasoners. To address these challenges, researchers have explored neuro-symbolic approaches that combine neural networks' learning capabilities with symbolic systems' reasoning abilities. In this chapter,we provide an overview of the existing literature in the field of neuro-symbolic deductive reasoning supported by RDF(S), the description logics EL and ALC, and OWL 2 RL, discussing the techniques employed, the tasks they address, and other relevant efforts in this area.
翻訳日:2023-08-10 14:21:39 公開日:2023-08-09
# CLEVA: 中国語モデルによる評価プラットフォーム

CLEVA: Chinese Language Models EVAluation Platform ( http://arxiv.org/abs/2308.04813v1 )

ライセンス: Link先を確認
Yanyang Li, Jianqiao Zhao, Duo Zheng, Zi-Yuan Hu, Zhi Chen, Xiaohui Su, Yongfeng Huang, Shijia Huang, Dahua Lin, Michael R. Lyu, Liwei Wang(参考訳) 中国の大規模言語モデル(LLM)の継続的な出現に伴い、モデルの能力を評価する方法がますます大きな問題となっている。 モデルの性能を徹底的に評価する包括的な中国のベンチマークの欠如、標準化されず互換性のないプロンプト手順、そして汚染のリスクが現在の中国のLLMの評価において大きな課題となっている。 CLEVAは,中国のLLMを階層的に評価するためのユーザフレンドリーなプラットフォームである。 当社のプラットフォームでは,LLMのパフォーマンスをさまざまな面で評価するために,標準化されたワークフローを採用しています。 汚染を軽減するため、clevaは新しいデータのかなりの割合をキュレーションし、リーダーボードラウンドごとにユニークなサブセットを保証するサンプリング戦略を開発する。 マウスクリック数回とモデルAPIを必要とする使いやすいインターフェースと、最小限のコーディングで徹底的な評価を行うことができる。 23個の中国のLLMを含む大規模な実験は、CLEVAの有効性を実証している。

With the continuous emergence of Chinese Large Language Models (LLMs), how to evaluate a model's capabilities has become an increasingly significant issue. The absence of a comprehensive Chinese benchmark that thoroughly assesses a model's performance, the unstandardized and incomparable prompting procedure, and the prevalent risk of contamination pose major challenges in the current evaluation of Chinese LLMs. We present CLEVA, a user-friendly platform crafted to holistically evaluate Chinese LLMs. Our platform employs a standardized workflow to assess LLMs' performance across various dimensions, regularly updating a competitive leaderboard. To alleviate contamination, CLEVA curates a significant proportion of new data and develops a sampling strategy that guarantees a unique subset for each leaderboard round. Empowered by an easy-to-use interface that requires just a few mouse clicks and a model API, users can conduct a thorough evaluation with minimal coding. Large-scale experiments featuring 23 influential Chinese LLMs have validated CLEVA's efficacy.
翻訳日:2023-08-10 14:21:18 公開日:2023-08-09
# 両部グラフは、常識的知識による感情的推論を促進するために必要である

A Bipartite Graph is All We Need for Enhancing Emotional Reasoning with Commonsense Knowledge ( http://arxiv.org/abs/2308.04811v1 )

ライセンス: Link先を確認
Kailai Yang, Tianlin Zhang, Shaoxiong Ji, Sophia Ananiadou(参考訳) aiシステムのコンテキスト認識による感情推論能力は、特に会話において、ソーシャルメディアからのオンライン意見マイニングや共感対話システムといった応用において極めて重要である。 多くのシナリオで感情を伝えるという暗黙的な性質のため、コモンセンス知識は、発話意味論の充実と会話モデリングの強化に広く利用されている。 しかし, 従来の知識注入手法では, 経験的知識フィルタリングを行い, 発話との知識相互作用のための高度にカスタマイズされたアーキテクチャを設計している。 そこで本研究では,2部構成の不均一グラフ(bhg)法を提案する。 BHGでは、抽出した文脈対応発話表現と知識表現を異種ノードとしてモデル化する。 さらに2つの知識集約ノードタイプが提案され、自動知識フィルタリングと対話を行う。 bhgベースの知識注入は、直接多種多様な知識ソースに一般化することができる。 さらに,多次元不均一グラフ変換器(mhgt)を提案し,不必要な情報損失を防止するために,不均一ノードタイプの特徴空間と不等次元を保持したグラフ推論を行う。 実験により,BHG法は最先端知識注入法を著しく上回り,高い効率で汎用知識注入能力を示すことが示された。 さらに分析した結果,従来の経験的知識フィルタリング手法では,最も有用な知識情報の提供が保証されないことがわかった。 私たちのコードは、https://github.com/SteveKGYang/BHG.comで利用可能です。

The context-aware emotional reasoning ability of AI systems, especially in conversations, is of vital importance in applications such as online opinion mining from social media and empathetic dialogue systems. Due to the implicit nature of conveying emotions in many scenarios, commonsense knowledge is widely utilized to enrich utterance semantics and enhance conversation modeling. However, most previous knowledge infusion methods perform empirical knowledge filtering and design highly customized architectures for knowledge interaction with the utterances, which can discard useful knowledge aspects and limit their generalizability to different knowledge sources. Based on these observations, we propose a Bipartite Heterogeneous Graph (BHG) method for enhancing emotional reasoning with commonsense knowledge. In BHG, the extracted context-aware utterance representations and knowledge representations are modeled as heterogeneous nodes. Two more knowledge aggregation node types are proposed to perform automatic knowledge filtering and interaction. BHG-based knowledge infusion can be directly generalized to multi-type and multi-grained knowledge sources. In addition, we propose a Multi-dimensional Heterogeneous Graph Transformer (MHGT) to perform graph reasoning, which can retain unchanged feature spaces and unequal dimensions for heterogeneous node types during inference to prevent unnecessary loss of information. Experiments show that BHG-based methods significantly outperform state-of-the-art knowledge infusion methods and show generalized knowledge infusion ability with higher efficiency. Further analysis proves that previous empirical knowledge filtering methods do not guarantee to provide the most useful knowledge information. Our code is available at: https://github.com/SteveKGYang/BHG.
翻訳日:2023-08-10 14:21:02 公開日:2023-08-09
# 多人数動作予測のための連系変圧器

Joint-Relation Transformer for Multi-Person Motion Prediction ( http://arxiv.org/abs/2308.04808v1 )

ライセンス: Link先を確認
Qingyao Xu, Weibo Mao, Jingze Gong, Chenxin Xu, Siheng Chen, Weidi Xie, Ya Zhang, Yanfeng Wang(参考訳) 複数の人物の動き予測は、個々の過去の動きと他の人との相互作用の両方に動きが依存するため、難しい問題である。 トランスベースの手法はこの課題に有望な結果を示しているが、正確な相互作用モデリングに不可欠な骨格構造や対距離といった関節間の明示的な関係表現を欠いている。 本稿では、関係情報を利用して相互作用モデリングを強化し、将来の動き予測を改善する共同関係変換器を提案する。 関係情報は、相対距離と人内・人間の物理的制約を含む。 連接情報と連接情報とを融合させるため,両特徴の更新に注目する新しい連接融合層を設計する。 さらに,今後の距離を予測して関係情報を監督する。 実験の結果,3DPW-SoMoF/RCでは900ms VIMが13.4%向上し,CMU-Mpcap/MuPoTS-3Dデータセットでは17.8%/12.0%改善した。

Multi-person motion prediction is a challenging problem due to the dependency of motion on both individual past movements and interactions with other people. Transformer-based methods have shown promising results on this task, but they miss the explicit relation representation between joints, such as skeleton structure and pairwise distance, which is crucial for accurate interaction modeling. In this paper, we propose the Joint-Relation Transformer, which utilizes relation information to enhance interaction modeling and improve future motion prediction. Our relation information contains the relative distance and the intra-/inter-person physical constraints. To fuse relation and joint information, we design a novel joint-relation fusion layer with relation-aware attention to update both features. Additionally, we supervise the relation information by forecasting future distance. Experiments show that our method achieves a 13.4% improvement of 900ms VIM on 3DPW-SoMoF/RC and 17.8%/12.0% improvement of 3s MPJPE on CMU-Mpcap/MuPoTS-3D dataset.
翻訳日:2023-08-10 14:20:36 公開日:2023-08-09
# 一般化された無バイアスシーングラフ生成

Generalized Unbiased Scene Graph Generation ( http://arxiv.org/abs/2308.04802v1 )

ライセンス: Link先を確認
Xinyu Lyu, Lianli Gao, Junlin Xie, Pengpeng Zeng, Yulu Tian, Jie Shao, Heng Tao Shen(参考訳) 既存のUnbiased Scene Graph Generation (USGG) 手法は、概念レベルの不均衡を見越しながら、高周波クラスが稀なクラスの予測を支配している述語レベルの不均衡にのみ対処する。 実際、たとえ述語自体がバランスが取れているとしても、文脈の長い尾の分布(つまり主観と対象の組み合わせ)のために、その中に重要な概念不均衡が存在する。 この概念レベルの不均衡は、主対象対が本質的に複雑であるため、述語レベルの不均衡よりも広範で困難な問題を引き起こす。 そこで我々は, 述語レベルと概念レベルの両不均衡を考慮に入れた, 一般化されたアンバイアスドシーングラフ生成(G-USGG)という新たな研究課題を導入する。 そこで本研究では,mcl(multi-concept learning)フレームワークを提案する。 MCLはまず、異なる概念の量の観点から述語間の概念レベルの不均衡を定量化し、同じクラス内の複数の概念プロトタイプを表す。 その後、概念正規化(CR)技術を用いて概念プロトタイプを効果的に学習する。 さらに,異なる概念のバランスド・ラーニングを実現するために,sggモデルを導くバランスド・プロトティピカル・メモリ(bpm)を導入し,概念プロトタイプに対するバランスド・表現を生成する。 広範な実験により,vg-sggおよびoi-sggデータセットにおけるベンチマークモデルの性能向上におけるモデル非依存戦略の顕著な効果が証明された。

Existing Unbiased Scene Graph Generation (USGG) methods only focus on addressing the predicate-level imbalance that high-frequency classes dominate predictions of rare ones, while overlooking the concept-level imbalance. Actually, even if predicates themselves are balanced, there is still a significant concept-imbalance within them due to the long-tailed distribution of contexts (i.e., subject-object combinations). This concept-level imbalance poses a more pervasive and challenging issue compared to the predicate-level imbalance since subject-object pairs are inherently complex in combinations. Hence, we introduce a novel research problem: Generalized Unbiased Scene Graph Generation (G-USGG), which takes into account both predicate-level and concept-level imbalance. To the end, we propose the Multi-Concept Learning (MCL) framework, which ensures a balanced learning process across rare/ uncommon/ common concepts. MCL first quantifies the concept-level imbalance across predicates in terms of different amounts of concepts, representing as multiple concept-prototypes within the same class. It then effectively learns concept-prototypes by applying the Concept Regularization (CR) technique. Furthermore, to achieve balanced learning over different concepts, we introduce the Balanced Prototypical Memory (BPM), which guides SGG models to generate balanced representations for concept-prototypes. Extensive experiments demonstrate the remarkable efficacy of our model-agnostic strategy in enhancing the performance of benchmark models on both VG-SGG and OI-SGG datasets, leading to new state-of-the-art achievements in two key aspects: predicate-level unbiased relation recognition and concept-level compositional generability.
翻訳日:2023-08-10 14:20:18 公開日:2023-08-09
# 自動プロンプト最適化による感情条件付きテキスト生成

Emotion-Conditioned Text Generation through Automatic Prompt Optimization ( http://arxiv.org/abs/2308.04857v1 )

ライセンス: Link先を確認
Yarik Menchaca Resendiz and Roman Klinger(参考訳) 条件付き自然言語生成法は、しばしば高価な微調整を必要とするか、大きな言語モデルをゼロから訓練する必要がある。 どちらも、大量のデータと計算資源がなければ、良い結果につながる可能性は低い。 大きな言語モデルのパラメータを変更することなく、素早い学習は、有望な代替手段となる。 競争力のある結果を得る一方で、コスト効率のよいアプローチである。 この手順は現在ゼロショットテキストの分類と構造化予測のために確立されているが、条件付きテキスト生成ではほとんど注目されていない。 そこで本研究では,感情条件付きテキスト生成のための命令ファインダーモデルを用いた最初の自動プロンプト最適化手法を提案する。 提案手法では,トークンの追加,削除,置換によってプロンプトを変更する反復最適化手順を用いる。 目的関数として、生成されたテキストの条件変数の実現を測定するテキスト分類子のみを必要とする。 本手法は,イベントレポートに着目して感情条件付きテキスト生成の手法を評価し,最適化手順のシードとして機能する手動設計のプロンプトと比較する。 最適化されたプロンプトは0.75マクロ平均F1を達成して感情条件を満たす。

Conditional natural language generation methods often require either expensive fine-tuning or training a large language model from scratch. Both are unlikely to lead to good results without a substantial amount of data and computational resources. Prompt learning without changing the parameters of a large language model presents a promising alternative. It is a cost-effective approach, while still achieving competitive results. While this procedure is now established for zero- and few-shot text classification and structured prediction, it has received limited attention in conditional text generation. We present the first automatic prompt optimization approach for emotion-conditioned text generation with instruction-fine-tuned models. Our method uses an iterative optimization procedure that changes the prompt by adding, removing, or replacing tokens. As objective function, we only require a text classifier that measures the realization of the conditional variable in the generated text. We evaluate the method on emotion-conditioned text generation with a focus on event reports and compare it to manually designed prompts that also act as the seed for the optimization procedure. The optimized prompts achieve 0.75 macro-average F1 to fulfill the emotion condition in contrast to manually designed seed prompts with only 0.22 macro-average F1.
翻訳日:2023-08-10 14:14:20 公開日:2023-08-09
# 量子サポートベクトルマシンによる車両経路問題の解法

Solving The Vehicle Routing Problem via Quantum Support Vector Machines ( http://arxiv.org/abs/2308.04849v1 )

ライセンス: Link先を確認
Nishikanta Mohanty, Bikash K. Behera, and Christopher Ferrie(参考訳) 車両ルーティング問題 (VRP) は、様々な文脈での潜在的な使用により学術的な注目を集めた組合せ最適化問題の例である。 VRPは、最も効率的かつ経済的に複数のサイトに車両の配送を手配することを目指している。 量子機械学習は、量子効果の自然なスピードアップを利用して解を得る新しい方法を提供するが、多くの解と方法論は、vrpの優れた近似を提供するために古典的ツールを用いて修正されている。 本稿では,6量子ビット回路と12量子ビット回路を用いた3シティシナリオと4シティシナリオのVRPのハイブリッド量子機械学習手法の実装と試験を行う。 提案手法は, 量子支援ベクトルマシン (QSVM) を固定あるいは可変アンサッツ上の変分量子固有解器を用いて構成する。 異なるエンコーディング戦略が実験で使われ、vrpの定式化をqsvmに変換し、それを解決する。 IBM Qiskitフレームワークの複数のオプティマイザも評価され、比較されている。

The Vehicle Routing Problem (VRP) is an example of a combinatorial optimization problem that has attracted academic attention due to its potential use in various contexts. VRP aims to arrange vehicle deliveries to several sites in the most efficient and economical manner possible. Quantum machine learning offers a new way to obtain solutions by harnessing the natural speedups of quantum effects, although many solutions and methodologies are modified using classical tools to provide excellent approximations of the VRP. In this paper, we implement and test hybrid quantum machine learning methods for solving VRP of 3 and 4-city scenarios, which use 6 and 12 qubit circuits, respectively. The proposed method is based on quantum support vector machines (QSVMs) with a variational quantum eigensolver on a fixed or variable ansatz. Different encoding strategies are used in the experiment to transform the VRP formulation into a QSVM and solve it. Multiple optimizers from the IBM Qiskit framework are also evaluated and compared.
翻訳日:2023-08-10 14:13:57 公開日:2023-08-09
# マルチエージェント強化学習による連続通信のためのメッセージエンコーディング技術のスケーラビリティ

Scalability of Message Encoding Techniques for Continuous Communication Learned with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2308.04844v1 )

ライセンス: Link先を確認
Astrid Vanneste, Thomas Somers, Simon Vanneste, Kevin Mets, Tom De Schepper, Siegfried Mercelis, Peter Hellinckx(参考訳) 多くのマルチエージェントシステムは、目標を適切に達成するためにエージェント間通信を必要とする。 マルチエージェント強化学習手法を用いて行動プロトコルと共に通信プロトコルを学習することにより、エージェントは共有すべき情報を決定する柔軟性を得る。 しかし、エージェント数が増加すると、これらのメッセージに含まれる情報のエンコードを作成する必要があります。 本稿では,メッセージに含まれるべき情報量を増やし,エージェント数を増やす効果について検討する。 平均メッセージエンコーダとアテンションメッセージエンコーダの2つの異なるメッセージエンコーダに対して,これらの効果を評価する。 我々はマトリックス環境で実験を行う。 驚くべきことに、平均メッセージエンコーダは、アテンションメッセージエンコーダを一貫して上回っている。 したがって、平均メッセージエンコーダを使用するエージェントが使用する通信プロトコルを分析し、平均メッセージエンコーダを適用した後に重要な情報を失うのを避けるために、エージェントが通信ポリシーにおいて指数関数と対数関数の組み合わせを使用していると結論付けることができる。

Many multi-agent systems require inter-agent communication to properly achieve their goal. By learning the communication protocol alongside the action protocol using multi-agent reinforcement learning techniques, the agents gain the flexibility to determine which information should be shared. However, when the number of agents increases we need to create an encoding of the information contained in these messages. In this paper, we investigate the effect of increasing the amount of information that should be contained in a message and increasing the number of agents. We evaluate these effects on two different message encoding methods, the mean message encoder and the attention message encoder. We perform our experiments on a matrix environment. Surprisingly, our results show that the mean message encoder consistently outperforms the attention message encoder. Therefore, we analyse the communication protocol used by the agents that use the mean message encoder and can conclude that the agents use a combination of an exponential and a logarithmic function in their communication policy to avoid the loss of important information after applying the mean message encoder.
翻訳日:2023-08-10 14:13:42 公開日:2023-08-09
# 量子型粒子群最適化における多様性の解析と制御

Analyzing and controlling diversity in quantum-behaved particle swarm optimization ( http://arxiv.org/abs/2308.04840v1 )

ライセンス: Link先を確認
Li-Wei Li, Jun Sun, Chao Li, Wei Fang, Vasile Palade, Xiao-Jun Wu(参考訳) 本稿では,量子力学とPSOの概念に基づく最適化手法であるQPSO(quantum-behaved Particle Swarm Optimization)における個体群多様性の制御と解析の課題に対処する。 進化過程において多様性が果たす役割を深く理解するために、まず、粒子の位置の平均点とQPSOの適合値によって表現型多様性との距離で遺伝子型多様性を定義する。 そして,2種類の多様性と探索性能の相関関係を,いくつかのベンチマーク関数を用いて検証し,解析した結果,進化過程における探索性能との相関関係が強くなった。 最後に,得られた多様性分析に基づき,QPSOアルゴリズムの探索能力を向上させるために,平均点間距離の多様性を制御する2つの方法を提案する。 CEC 2005ベンチマークスイートのベンチマーク関数セット上で,多様性制御手法を導入したQPSOに関する実証的研究を行った。 提案手法の性能評価を行い,元のQPSOおよび他のPSOモデルと比較した。

This paper addresses the issues of controlling and analyzing the population diversity in quantum-behaved particle swarm optimization (QPSO), which is an optimization approach motivated by concepts in quantum mechanics and PSO. In order to gain an in-depth understanding of the role the diversity plays in the evolving process, we first define the genotype diversity by the distance to the average point of the particles' positions and the phenotype diversity by the fitness values for the QPSO. Then, the correlations between the two types of diversities and the search performance are tested and analyzed on several benchmark functions, and the distance-to-average-point diversity is showed to have stronger association with the search performance during the evolving processes. Finally, in the light of the performed diversity analyses, two strategies for controlling the distance-to-average-point diversities are proposed for the purpose of improving the search ability of the QPSO algorithm. Empirical studies on the QPSO with the introduced diversity control methods are performed on a set of benchmark functions from the CEC 2005 benchmark suite. The performance of the proposed methods are evaluated and compared with the original QPSO and other PSO variants.
翻訳日:2023-08-10 14:13:25 公開日:2023-08-09
# サプライズメモリによる固有の動機づけ

Intrinsic Motivation via Surprise Memory ( http://arxiv.org/abs/2308.04836v1 )

ライセンス: Link先を確認
Hung Le, Kien Do, Dung Nguyen, Svetha Venkatesh(参考訳) 我々は,既存のサプライズ駆動探索の限界に対処する強化学習における内在的な報酬のための新しい計算モデルを提案する。 報酬は驚きの規範というよりも、驚きの斬新さです。 本稿では,サプライズを記憶ネットワークの検索エラーとして推定し,サプライズを記憶・再構成する。 我々のサプライズメモリ(SM)は、サプライズベースの固有のモチベーターの能力を増強し、エージェントのエキサイティングな探索への関心を維持しながら、望ましくないアトラクションを予測不可能またはノイズの多い観測に還元する。 実験の結果,SMと各種のサプライズ予測器を組み合わせることで,探索行動の効率が向上し,ノイズTV,ナビゲーション,アタリゲームなどの粗末な報奨環境における最終性能が著しく向上することがわかった。

We present a new computing model for intrinsic rewards in reinforcement learning that addresses the limitations of existing surprise-driven explorations. The reward is the novelty of the surprise rather than the surprise norm. We estimate the surprise novelty as retrieval errors of a memory network wherein the memory stores and reconstructs surprises. Our surprise memory (SM) augments the capability of surprise-based intrinsic motivators, maintaining the agent's interest in exciting exploration while reducing unwanted attraction to unpredictable or noisy observations. Our experiments demonstrate that the SM combined with various surprise predictors exhibits efficient exploring behaviors and significantly boosts the final performance in sparse reward environments, including Noisy-TV, navigation and challenging Atari games.
翻訳日:2023-08-10 14:13:09 公開日:2023-08-09
# 移動中のビュー: 長編ビデオにおける効率的なビデオ認識

View while Moving: Efficient Video Recognition in Long-untrimmed Videos ( http://arxiv.org/abs/2308.04834v1 )

ライセンス: Link先を確認
Ye Tian, Mengyu Yang, Lanshan Zhang, Zhizhen Zhang, Yang Liu, Xiaohui Xie, Xirong Que, Wendong Wang(参考訳) 最近の効率的なビデオ認識のための適応手法は、主に"preview-then-recognition"の2段階のパラダイムに従っており、複数のビデオベンチマークで大きな成功を収めている。 しかし、この2段階のパラダイムでは、推論中に粗粒から細粒の生フレームを2回訪問し(並列化できない)、キャプチャされた時空間的特徴を第2段階では再利用できない(粒度が異なるため)ため、効率や計算最適化には不向きである。 この目的のために,人間の認識に触発されて,より効率的な長めの映像認識のための「移動中のビュー」という新しい認識パラダイムを提案する。 2段階のパラダイムとは対照的に、我々のパラダイムは生のフレームに一度だけアクセスする必要がある。 粗粒サンプリングと微細粒度認識の2相は統合時空間モデリングに結合され、優れた性能を示す。 さらに,ビデオ中のセマンティックな単位の性質について検討し,長めの動画における単位レベルとビデオレベルの時間的意味論を効率的に把握し,推論する階層的なメカニズムを提案する。 ロングトリミングビデオとショートトリミングビデオの両方を広範囲に実験した結果,本手法が精度と効率の面で最先端手法を上回っており,映像時空間モデリングにおける新たな効率と精度のトレードオフをもたらすことが示された。

Recent adaptive methods for efficient video recognition mostly follow the two-stage paradigm of "preview-then-recognition" and have achieved great success on multiple video benchmarks. However, this two-stage paradigm involves two visits of raw frames from coarse-grained to fine-grained during inference (cannot be parallelized), and the captured spatiotemporal features cannot be reused in the second stage (due to varying granularity), being not friendly to efficiency and computation optimization. To this end, inspired by human cognition, we propose a novel recognition paradigm of "View while Moving" for efficient long-untrimmed video recognition. In contrast to the two-stage paradigm, our paradigm only needs to access the raw frame once. The two phases of coarse-grained sampling and fine-grained recognition are combined into unified spatiotemporal modeling, showing great performance. Moreover, we investigate the properties of semantic units in video and propose a hierarchical mechanism to efficiently capture and reason about the unit-level and video-level temporal semantics in long-untrimmed videos respectively. Extensive experiments on both long-untrimmed and short-trimmed videos demonstrate that our approach outperforms state-of-the-art methods in terms of accuracy as well as efficiency, yielding new efficiency and accuracy trade-offs for video spatiotemporal modeling.
翻訳日:2023-08-10 14:12:54 公開日:2023-08-09
# TSSR: ニューラルネットワークのためのTrncated and Signed Square Root Activation関数

TSSR: A Truncated and Signed Square Root Activation Function for Neural Networks ( http://arxiv.org/abs/2308.04832v1 )

ライセンス: Link先を確認
Yuanhao Gong(参考訳) 活性化関数はニューラルネットワークの重要な構成要素である。 本稿では,Trncated and Signed Square Root (TSSR) 関数と呼ばれる新しいアクティベーション関数を提案する。 この関数は奇数、非線形、単調、微分可能であるため特異である。 その勾配は連続的であり、常に正である。 これらの特性のおかげで、ニューラルネットワークの数値安定性が向上する可能性がある。 いくつかの実験により、提案されたTSSRは、他の最先端のアクティベーション関数よりも性能が良いことが確認された。 提案する関数は,ニューラルネットワークモデルの開発に重要な意味を持ち,コンピュータビジョンや自然言語処理,音声認識といった分野の幅広い応用に適用することができる。

Activation functions are essential components of neural networks. In this paper, we introduce a new activation function called the Truncated and Signed Square Root (TSSR) function. This function is distinctive because it is odd, nonlinear, monotone and differentiable. Its gradient is continuous and always positive. Thanks to these properties, it has the potential to improve the numerical stability of neural networks. Several experiments confirm that the proposed TSSR has better performance than other stat-of-the-art activation functions. The proposed function has significant implications for the development of neural network models and can be applied to a wide range of applications in fields such as computer vision, natural language processing, and speech recognition.
翻訳日:2023-08-10 14:12:08 公開日:2023-08-09
# VAST: ゼロショットの表情でアバターを振動させる

VAST: Vivify Your Talking Avatar via Zero-Shot Expressive Facial Style Transfer ( http://arxiv.org/abs/2308.04830v1 )

ライセンス: Link先を確認
Liyang Chen, Zhiyong Wu, Runnan Li, Weihong Bao, Jun Ling, Xu Tan, Sheng Zhao(参考訳) 現在の音声顔生成法は主に音声-リップ同期に焦点を当てている。 しかし、顔の話し方に関する不十分な調査は、無命で単調なアバターに繋がる。 以前のほとんどの作品は、任意のビデオプロンプトから表現力のあるスタイルを模倣せず、生成されたビデオの信頼性を保証する。 本稿では,中性フォトリアリスティックアバターを生かすための教師なし変分スタイル伝達モデル(vast)を提案する。 提案モデルは,与えられた映像プロンプトから表情表現を抽出するスタイルエンコーダ,正確な音声関連動作をモデル化するハイブリッド表情デコーダ,スタイル空間を高度に表現的かつ有意義に拡張する変動スタイルエンコーダの3つの重要な構成要素から構成される。 顔のスタイル学習に関する本質的なデザインにより、任意のビデオプロンプトから表現力のある顔のスタイルを柔軟に捉え、それをゼロショットでパーソナライズした画像レンダラーに転送することができる。 実験により,提案手法はより鮮明な発話アバターの信頼性と表現性の向上に寄与することが示された。

Current talking face generation methods mainly focus on speech-lip synchronization. However, insufficient investigation on the facial talking style leads to a lifeless and monotonous avatar. Most previous works fail to imitate expressive styles from arbitrary video prompts and ensure the authenticity of the generated video. This paper proposes an unsupervised variational style transfer model (VAST) to vivify the neutral photo-realistic avatars. Our model consists of three key components: a style encoder that extracts facial style representations from the given video prompts; a hybrid facial expression decoder to model accurate speech-related movements; a variational style enhancer that enhances the style space to be highly expressive and meaningful. With our essential designs on facial style learning, our model is able to flexibly capture the expressive facial style from arbitrary video prompts and transfer it onto a personalized image renderer in a zero-shot manner. Experimental results demonstrate the proposed approach contributes to a more vivid talking avatar with higher authenticity and richer expressiveness.
翻訳日:2023-08-10 14:11:55 公開日:2023-08-09
# MixReorg: クロスモーダルな混合パッチ再編成は、オープンワールドセマンティックセマンティックセグメンテーションのための優れたマスク学習ツール

MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation ( http://arxiv.org/abs/2308.04829v1 )

ライセンス: Link先を確認
Kaixin Cai, Pengzhen Ren, Yi Zhu, Hang Xu, Jianzhuang Liu, Changlin Li, Guangrun Wang, Xiaodan Liang(参考訳) 近年、画像レベルのテキスト管理で訓練されたセマンティックセグメンテーションモデルは、オープンワールドのシナリオに挑戦する有望な結果を示している。 しかし、これらのモデルはまだ、ピクセルレベルでの細かな意味的アライメントの学習や、正確なオブジェクトマスクの予測に苦慮している。 この問題に対処するため,我々はmixreorgを提案する。mixreorgはセマンティックセグメンテーションのための新規で分かりやすい事前学習パラダイムであり,画像にまたがるパッチの再編成能力を高め,局所的な視覚的関連性とグローバルなセマンティックコヒーレンスの両方を探索する。 本手法では,パッチとテキストの対応を維持しつつ,画像パッチを混合することにより,きめ細かいパッチテキスト対データを生成する。 このモデルは、混合画像のセグメンテーション損失と、オリジナルと復元された特徴の2つの対比的損失を最小化するために訓練される。 mixreorgをマスク学習機とすることで、従来のテキスト教師付き意味セグメンテーションモデルは、オープンワールドセグメンテーションに不可欠な、高度に一般化されたピクセル・セグメンテーションアライメント能力を実現することができる。 大規模な画像テキストデータでトレーニングした後、MixReorgモデルは任意のカテゴリの視覚オブジェクトに直接適用することができる。 提案フレームワークは, PASCAL VOC2012, PASCAL Context, MS COCO, ADE20Kにおいて, GroupViTを5.0%, 6.2%, 2.5%, 3.4% mIoUで上回り, 高い性能を示す。

Recently, semantic segmentation models trained with image-level text supervision have shown promising results in challenging open-world scenarios. However, these models still face difficulties in learning fine-grained semantic alignment at the pixel level and predicting accurate object masks. To address this issue, we propose MixReorg, a novel and straightforward pre-training paradigm for semantic segmentation that enhances a model's ability to reorganize patches mixed across images, exploring both local visual relevance and global semantic coherence. Our approach involves generating fine-grained patch-text pairs data by mixing image patches while preserving the correspondence between patches and text. The model is then trained to minimize the segmentation loss of the mixed images and the two contrastive losses of the original and restored features. With MixReorg as a mask learner, conventional text-supervised semantic segmentation models can achieve highly generalizable pixel-semantic alignment ability, which is crucial for open-world segmentation. After training with large-scale image-text data, MixReorg models can be applied directly to segment visual objects of arbitrary categories, without the need for further fine-tuning. Our proposed framework demonstrates strong performance on popular zero-shot semantic segmentation benchmarks, outperforming GroupViT by significant margins of 5.0%, 6.2%, 2.5%, and 3.4% mIoU on PASCAL VOC2012, PASCAL Context, MS COCO, and ADE20K, respectively.
翻訳日:2023-08-10 14:11:37 公開日:2023-08-09
# 花見:動きのプロンプト学習による行動認識のためのCLIP適応

Seeing in Flowing: Adapting CLIP for Action Recognition with Motion Prompts Learning ( http://arxiv.org/abs/2308.04828v1 )

ライセンス: Link先を確認
Qiang Wang, Junlong Du, Ke Yan, Shouhong Ding(参考訳) Contrastive Language-Image Pre-Training (CLIP)は、最近「ゼロショット」トレーニングにおいて顕著な一般化を示し、多くの下流タスクに適用している。 より効率的で汎用的な行動認識手法を実現するために,CLIPの適応について検討する。 ビデオフレーム内を流れる動きの手がかりを明示的にモデル化することが鍵となる。 そこで我々は,動きと空間情報を同時にキャプチャする2ストリームモーションモデリングブロックを設計した。 そして、得られた動作手がかりを用いて、動的プロンプト学習者が人間の行動に関する多くの意味情報を含む動き認識プロンプトを生成する。 さらに,協調学習を実現するためのマルチモーダル通信ブロックを提案し,その性能をさらに向上させる。 我々はHMDB-51, UCF-101, Kinetics-400データセットについて広範な実験を行った。 提案手法は,既存の最先端の手法よりも「ファウショット」と「ゼロショット」の訓練に大きく差をつける。 また,学習可能なパラメータや計算コストを極端に少なくし,クローズドセットトレーニングの競争力も達成した。

The Contrastive Language-Image Pre-training (CLIP) has recently shown remarkable generalization on "zero-shot" training and has applied to many downstream tasks. We explore the adaptation of CLIP to achieve a more efficient and generalized action recognition method. We propose that the key lies in explicitly modeling the motion cues flowing in video frames. To that end, we design a two-stream motion modeling block to capture motion and spatial information at the same time. And then, the obtained motion cues are utilized to drive a dynamic prompts learner to generate motion-aware prompts, which contain much semantic information concerning human actions. In addition, we propose a multimodal communication block to achieve a collaborative learning and further improve the performance. We conduct extensive experiments on HMDB-51, UCF-101, and Kinetics-400 datasets. Our method outperforms most existing state-of-the-art methods by a significant margin on "few-shot" and "zero-shot" training. We also achieve competitive performance on "closed-set" training with extremely few trainable parameters and additional computational costs.
翻訳日:2023-08-10 14:11:00 公開日:2023-08-09
# マハラノビス距離を用いた非教師なし分布弁別検出

Unsupervised Out-of-Distribution Dialect Detection with Mahalanobis Distance ( http://arxiv.org/abs/2308.04886v1 )

ライセンス: Link先を確認
Sourya Dipta Das, Yash Vadi, Abhishek Unnam, Kuldeep Yadav(参考訳) ダイアレクト分類は、機械翻訳や音声認識などの様々な応用において、システム全体の性能を改善するために用いられる。 実世界のシナリオでは、デプロイされた方言分類モデルは、トレーニングデータ分布とは異なる異常な入力に遭遇する可能性がある。 これらのOODサンプルは、モデルトレーニング中にそのサンプルの方言が見えないため、予期せぬ出力につながる可能性がある。 アウト・オブ・ディストリビューション検出は、方言分類の文脈においてほとんど注目されていない新しい研究領域である。 そこで本研究では,非教師なしマハラノビス距離特徴量に基づく簡易な分布外サンプル検出法を提案する。 マルチタスク学習には,wav2vec 2.0トランスフォーマタを用いた方言分類モデルのすべての中間層からの潜在埋め込みを利用する。 提案手法は、他の最先端のOOD検出方法よりも優れている。

Dialect classification is used in a variety of applications, such as machine translation and speech recognition, to improve the overall performance of the system. In a real-world scenario, a deployed dialect classification model can encounter anomalous inputs that differ from the training data distribution, also called out-of-distribution (OOD) samples. Those OOD samples can lead to unexpected outputs, as dialects of those samples are unseen during model training. Out-of-distribution detection is a new research area that has received little attention in the context of dialect classification. Towards this, we proposed a simple yet effective unsupervised Mahalanobis distance feature-based method to detect out-of-distribution samples. We utilize the latent embeddings from all intermediate layers of a wav2vec 2.0 transformer-based dialect classifier model for multi-task learning. Our proposed approach outperforms other state-of-the-art OOD detection methods significantly.
翻訳日:2023-08-10 14:03:29 公開日:2023-08-09
# 母音調和の情報理論的特徴付け--単語リストに関する言語横断研究

Information-Theoretic Characterization of Vowel Harmony: A Cross-Linguistic Study on Word Lists ( http://arxiv.org/abs/2308.04885v1 )

ライセンス: Link先を確認
Julius Steuer and Badr Abdullah and Johann-Mattis List and Dietrich Klakow(参考訳) データ駆動型計算モデルを用いて母音調和を定量化するクロス言語研究を提案する。 具体的には,自然言語レキシコンにおける母音の予測可能性に基づく調和性の情報論的尺度を定義し,音素レベル言語モデル(plm)を用いて推定する。 それまでの定量的研究は、母音調和の分析において、屈折した単語形式に大きく依存していた。 代わりに、言語横断的に比較可能な補題形式を使ってモデルをトレーニングし、ほとんどあるいは全く反映せずに、より過小評価された言語をカバーできるようにします。 PLMのトレーニングデータは、言語毎に最大1000のエントリを持つワードリストで構成されています。 これまでに使用していたコーパスに比べてデータ量がかなり小さいにもかかわらず、本実験ではこの現象を示す言語群における母音の調和パターンをニューラルplmが捉えることを実証する。 また,本研究は,単語リストがタイポロジー研究に有用な資源であることを示し,低リソース・低研究言語に新たな可能性を提供する。

We present a cross-linguistic study that aims to quantify vowel harmony using data-driven computational modeling. Concretely, we define an information-theoretic measure of harmonicity based on the predictability of vowels in a natural language lexicon, which we estimate using phoneme-level language models (PLMs). Prior quantitative studies have relied heavily on inflected word-forms in the analysis of vowel harmony. We instead train our models using cross-linguistically comparable lemma forms with little or no inflection, which enables us to cover more under-studied languages. Training data for our PLMs consists of word lists with a maximum of 1000 entries per language. Despite the fact that the data we employ are substantially smaller than previously used corpora, our experiments demonstrate the neural PLMs capture vowel harmony patterns in a set of languages that exhibit this phenomenon. Our work also demonstrates that word lists are a valuable resource for typological research, and offers new possibilities for future studies on low-resource, under-studied languages.
翻訳日:2023-08-10 14:03:15 公開日:2023-08-09
# 頭蓋骨欠損の異種増強のための深層生成ネットワーク

Deep Generative Networks for Heterogeneous Augmentation of Cranial Defects ( http://arxiv.org/abs/2308.04883v1 )

ライセンス: Link先を確認
Kamil Kwarciak and Marek Wodzinski(参考訳) パーソナライズされた頭蓋インプラントの設計は、深層学習技術を用いたプロセス自動化という観点でホットな話題となっている、挑戦的で壮大な課題である。 主な課題は、可能性のある頭蓋骨の欠陥の多様性である。 適切なデータソースの欠如は、ディープラーニングアルゴリズムのデータ駆動性に悪影響を及ぼす。 したがって、この問題を克服する可能な解決策の1つは、合成データに依存することである。 本研究では,勾配ペナルティ(wgan-gp),変分オートエンコーダプリトレイン(vae/wgan-gp),イントロスペクティブ変分オートエンコーダ(introvae)を用いたwgan-gpハイブリッド(wgan-gp)の合成頭蓋骨を生成することにより,データセットを増強する深層生成モデルの3つのボリューム変動を提案する。 欠陥不均一性と頭蓋の現実的な形状とのトレードオフを達成できるような、互換性のある欠陥のある数十万の欠陥頭蓋骨を生成することが可能である。 得られた合成データをv-netを用いた欠陥分割により定量的に評価し,潜在空間探査により定性的に評価した。 人工的に生成した頭蓋骨は, 元の未発表データのみを用いた場合に比べて, セグメンテーション過程を高度に改善することを示す。 生成された頭蓋骨は、実際の医療に対するパーソナライズされた頭蓋インプラントの自動設計を改善する可能性がある。

The design of personalized cranial implants is a challenging and tremendous task that has become a hot topic in terms of process automation with the use of deep learning techniques. The main challenge is associated with the high diversity of possible cranial defects. The lack of appropriate data sources negatively influences the data-driven nature of deep learning algorithms. Hence, one of the possible solutions to overcome this problem is to rely on synthetic data. In this work, we propose three volumetric variations of deep generative models to augment the dataset by generating synthetic skulls, i.e. Wasserstein Generative Adversarial Network with Gradient Penalty (WGAN-GP), WGAN-GP hybrid with Variational Autoencoder pretraining (VAE/WGAN-GP) and Introspective Variational Autoencoder (IntroVAE). We show that it is possible to generate dozens of thousands of defective skulls with compatible defects that achieve a trade-off between defect heterogeneity and the realistic shape of the skull. We evaluate obtained synthetic data quantitatively by defect segmentation with the use of V-Net and qualitatively by their latent space exploration. We show that the synthetically generated skulls highly improve the segmentation process compared to using only the original unaugmented data. The generated skulls may improve the automatic design of personalized cranial implants for real medical cases.
翻訳日:2023-08-10 14:02:56 公開日:2023-08-09
# ナンシー・カートライトの信頼性再考:量子デバイスのノイズに対処

Revisiting Nancy Cartwright's Notion of Reliability: Addressing Quantum Devices' Noise ( http://arxiv.org/abs/2308.04881v1 )

ライセンス: Link先を確認
Galina Weinstein(参考訳) この論文は、Google Sycamore量子プロセッサによる実験を、"Debating the Reliability and Robustness of the Learned Hamiltonian in the Traversable Wormhole Experiment"(トラバーサブル・ウォームホール実験における学習されたハミルトンの信頼性とロバスト性に関する議論)というタイトルで論じる、私の以前公表した研究の補足として機能する。 前報では, 走査可能なワームホールへの双対として機能する量子系と, この興味をそそる現象のダイナミクスを正確に描写したスパースモデルの発見に向けた継続的な取り組みについて詳細に論じた。 本稿では,古典的な科学的実践や実験に深く根ざした,信頼性と再現性に関するNancy Cartwright氏の考えを適用した上で,重要な洞察を与える。 私は、GoogleのSycamore量子プロセッサや他のNuisy Intermediate-Scale Quantum (NISQ)デバイスのような量子デバイスの領域に適用すると、これらの確立された概念は慎重に適応と考慮を必要とすることを示します。 これらのシステムの固有のノイズと量子の性質は、信頼性と再現性に関する従来の視点を再考する必要のある複雑さをもたらす。 これらの複雑さを踏まえ、特に固有量子ノイズの存在下で、量子デバイスの信頼性を評価するニュアンスの性質を効果的に捉える手段として、「ノイズ信頼性」という用語を提案する。 この補足は、量子デバイスの信頼性を評価する際の課題と意義を強調し、量子実験とその様々な領域における潜在的な応用についてより深く理解することを目的としている。

This paper serves as an addendum to my previously published work, which delves into the experimentation with the Google Sycamore quantum processor under the title "Debating the Reliability and Robustness of the Learned Hamiltonian in the Traversable Wormhole Experiment." In the preceding publication, I extensively discussed the quantum system functioning as a dual to a traversable wormhole and the ongoing efforts to discover a sparse model that accurately depicts the dynamics of this intriguing phenomenon. In this paper, I bring to light an important insight regarding applying Nancy Cartwright's ideas about reliability and reproducibility, which are deeply rooted in classical scientific practices and experiments. I show that when applied to the realm of quantum devices, such as Google's Sycamore quantum processor and other Noisy Intermediate-Scale Quantum (NISQ) devices, these well-established notions demand careful adaptation and consideration. These systems' inherent noise and quantum nature introduce complexities that necessitate rethinking traditional perspectives on reliability and reproducibility. In light of these complexities, I propose the term "noisy reliability" as a means to effectively capture the nuanced nature of assessing the reliability of quantum devices, particularly in the presence of inherent quantum noise. This addendum seeks to enrich the discussion by highlighting the challenges and implications of assessing quantum device reliability, thereby contributing to a deeper understanding of quantum experimentation and its potential applications in various domains.
翻訳日:2023-08-10 14:02:32 公開日:2023-08-09
# 可視・長波赤外線パッチマッチングのための多領域特徴関係の学習

Learning multi-domain feature relation for visible and Long-wave Infrared image patch matching ( http://arxiv.org/abs/2308.04880v1 )

ライセンス: Link先を確認
Xiuwei Zhang, Yanping Li, Zhaoshuai Qi, Yi Sun, Yanning Zhang(参考訳) 近年,クロススペクトル画像パッチマッチングにおいて,学習に基づくアルゴリズムが有望な性能を達成しているが,実際的な応用には程遠い。 一方、多様なシーンを持つ大規模データセットの欠如は、そのパフォーマンスと一般化がデータセットのサイズと多様性に大きく依存している学習ベースのアルゴリズムのさらなる改善を招いている。 一方、空間領域における特徴関係はより強調されているが、特徴間のスケール依存は無視されることが多く、特にクロススペクトルパッチの顕著な外観変化に遭遇する場合に性能劣化が生じる。 これらの問題に対処するため、我々は、最も大きな可視・長波長赤外線画像パッチマッチングデータセットであるVL-CMIMを公表した。VL-CMIMは、厳密に整列された1300対の可視・LWIR画像と、小惑星、フィールド、国、建設、路面、水などの多様な場面をカバーする200万以上のパッチ対を含む。さらに、多領域特徴関係学習ネットワーク(MD-FRN)を提案する。 四分岐ネットワークから抽出した特徴を入力として、空間相関モジュール(scm)と多スケール適応アグリゲーションモジュール(msag)を介して空間領域とスケール領域の特徴関係をそれぞれ学習する。 マルチドメイン関係をさらに集約するために、学習した空間関係とスケール関係の特徴を交換し、さらにMSCRMとSCMに入力するディープドメイン対話機構(DIM)を適用する。 このメカニズムにより,インタラクティブなクロスドメイン特徴関係を学習することが可能となり,異なるモダリティによる外観変化に対するロバスト性が向上した。

Recently, learning-based algorithms have achieved promising performance on cross-spectral image patch matching, which, however, is still far from satisfactory for practical application. On the one hand, a lack of large-scale dataset with diverse scenes haunts its further improvement for learning-based algorithms, whose performances and generalization rely heavily on the dataset size and diversity. On the other hand, more emphasis has been put on feature relation in the spatial domain whereas the scale dependency between features has often been ignored, leading to performance degeneration especially when encountering significant appearance variations for cross-spectral patches. To address these issues, we publish, to be best of our knowledge, the largest visible and Long-wave Infrared (LWIR) image patch matching dataset, termed VL-CMIM, which contains 1300 pairs of strictly aligned visible and LWIR images and over 2 million patch pairs covering diverse scenes such as asteroid, field, country, build, street and water.In addition, a multi-domain feature relation learning network (MD-FRN) is proposed. Input by the features extracted from a four-branch network, both feature relations in spatial and scale domains are learned via a spatial correlation module (SCM) and multi-scale adaptive aggregation module (MSAG), respectively. To further aggregate the multi-domain relations, a deep domain interactive mechanism (DIM) is applied, where the learnt spatial-relation and scale-relation features are exchanged and further input into MSCRM and SCM. This mechanism allows our model to learn interactive cross-domain feature relations, leading to improved robustness to significant appearance changes due to different modality.
翻訳日:2023-08-10 14:01:52 公開日:2023-08-09
# 2台のカメラによるバドミントンコートの選手追跡

Tracking Players in a Badminton Court by Two Cameras ( http://arxiv.org/abs/2308.04872v1 )

ライセンス: Link先を確認
Young-Ching Chou, Shen-Ru Zhang, Bo-Wei Chen, Hong-Qi Chen, Cheng-Kuan Lin and Yu-Chee Tseng(参考訳) 本研究では,バドミントン裁判所における選手の多目的追跡(MOT)を簡易に行う手法を提案する。 私たちは2台の市販のカメラを活用しています。1台はコートの上部、もう1台はコートの側面にあります。 上部の1つはプレイヤーの軌跡を追跡することであり、側面の1つはプレイヤーのピクセルの特徴を分析することである。 隣り合うフレーム間の相関を計算し、2つのカメラの情報を関連付けることで、バドミントン奏者のモットを得る。 この2カメラアプローチは、バドミントンコートにおけるプレイヤーの排除と重複という課題に対処し、プレイヤーの軌跡追跡と多角解析を提供する。 このシステムはバドミントン選手の位置や動きに関する洞察を提供し、バドミントン選手がゲーム戦略を改善するためのコーチングやセルフトレーニングツールとして機能する。

This study proposes a simple method for multi-object tracking (MOT) of players in a badminton court. We leverage two off-the-shelf cameras, one on the top of the court and the other on the side of the court. The one on the top is to track players' trajectories, while the one on the side is to analyze the pixel features of players. By computing the correlations between adjacent frames and engaging the information of the two cameras, MOT of badminton players is obtained. This two-camera approach addresses the challenge of player occlusion and overlapping in a badminton court, providing player trajectory tracking and multi-angle analysis. The presented system offers insights into the positions and movements of badminton players, thus serving as a coaching or self-training tool for badminton players to improve their gaming strategies.
翻訳日:2023-08-10 14:01:17 公開日:2023-08-09
# 数学的アーティファクトには政治がある:事例から埋め込み倫理への旅

Mathematical Artifacts Have Politics: The Journey from Examples to Embedded Ethics ( http://arxiv.org/abs/2308.04871v1 )

ライセンス: Link先を確認
Dennis M\"uller, Maurice Chiodo(参考訳) 我々は、アーティファクトが政治を持つというラングドン・ウィンナーの考えを数学の領域に拡張する。 そのために、まず、政治を持つ数学的アーティファクトの存在を示す例のリストを提示します。 第2のステップでは、すべての数学的アーティファクトが政治を持っていることを示す議論を行います。 我々は、倫理を数学的カリキュラムに組み込むことの意味を示す。 数学的アーティファクトが政治を持つことを認めることが、数学者が数学の学生のためにより良いエクササイズを設計するのに役立つことを示す。

We extend Langdon Winner's idea that artifacts have politics into the realm of mathematics. To do so, we first provide a list of examples showing the existence of mathematical artifacts that have politics. In the second step, we provide an argument that shows that all mathematical artifacts have politics. We conclude by showing the implications for embedding ethics into mathematical curricula. We show how acknowledging that mathematical artifacts have politics can help mathematicians design better exercises for their mathematics students.
翻訳日:2023-08-10 14:01:02 公開日:2023-08-09
# 持続性を用いた神経細胞のデコレーション

Decorrelating neurons using persistence ( http://arxiv.org/abs/2308.04870v1 )

ライセンス: Link先を確認
Rub\'en Ballester, Carles Casacuberta, Sergio Escalera(参考訳) 本稿では,ニューロン間の高相関を低減し,ディープラーニングモデルの一般化能力を向上させる新しい手法を提案する。 このために、頂点が与えられたネットワーク(またはそれらのサンプル)のニューロンであるクリッドの最小スパンニングツリーの重みから計算された2つの正規化項を示し、エッジ上の重みは相関の相似性である。 我々は、この用語の有効性を検証するための広範な実験を行い、それらが人気のあるものより優れていることを示す。 また,ニューロン間のすべての相関関係のナイーブな最小化は,我々の正規化項よりも精度が低いことを証明し,実ネットワークのための神経科学研究で示されているように,冗長性が人工ニューラルネットワークにおいて重要な役割を果たすことを示唆する。 これにより、ニューロン全体の集合を考慮し、分類、データ生成、回帰といった深層学習タスクにおいてフィードフォワードアーキテクチャに適用可能な、最初の効果的なトポロジカルな永続性に基づく正規化用語を開発することができる。

We propose a novel way to improve the generalisation capacity of deep learning models by reducing high correlations between neurons. For this, we present two regularisation terms computed from the weights of a minimum spanning tree of the clique whose vertices are the neurons of a given network (or a sample of those), where weights on edges are correlation dissimilarities. We provide an extensive set of experiments to validate the effectiveness of our terms, showing that they outperform popular ones. Also, we demonstrate that naive minimisation of all correlations between neurons obtains lower accuracies than our regularisation terms, suggesting that redundancies play a significant role in artificial neural networks, as evidenced by some studies in neuroscience for real networks. We include a proof of differentiability of our regularisers, thus developing the first effective topological persistence-based regularisation terms that consider the whole set of neurons and that can be applied to a feedforward architecture in any deep learning task such as classification, data generation, or regression.
翻訳日:2023-08-10 14:00:54 公開日:2023-08-09
# InstantAvatar:表面レンダリングによる高能率3次元頭部再構成

InstantAvatar: Efficient 3D Head Reconstruction via Surface Rendering ( http://arxiv.org/abs/2308.04868v1 )

ライセンス: Link先を確認
Antonio Canela, Pol Caselles, Ibrar Malik, Gil Triginer Garces, Eduard Ramon, Jaime Garc\'ia, Jordi S\'anchez-Riera, Francesc Moreno-Noguer(参考訳) 近年のフルヘッド再構築の進歩は、単一シーンを表現するために、異なる表面やボリュームレンダリングを通じて、ニューラルネットワークを最適化することで得られる。 これらの技術は前例のない精度を達成するが、高価な最適化プロセスを必要とするため、数分、あるいは数時間かかる。 そこで本研究では,商品ハードウェア上で数秒で少数の画像からフルヘッドアバターを回収する手法であるinstantavatarを紹介する。 再建過程を高速化するために,ボクセルグリッド型ニューラルネットワーク表現と表面レンダラーを組み合わせたシステムを提案する。 特に、これら2つの手法のナイーブな組み合わせは、有効な解に収束しない不安定な最適化をもたらす。 この制限を克服するために,ボクセルグリッドに基づくアーキテクチャを用いて3次元頭部署名距離関数の事前分布を学習する新しい統計モデルを提案する。 この先行モデルと他の設計選択を組み合わせることで、100倍のスピードアップで最先端技術に匹敵する精度で3dヘッドレコンストラクションを実現するシステムが得られる。

Recent advances in full-head reconstruction have been obtained by optimizing a neural field through differentiable surface or volume rendering to represent a single scene. While these techniques achieve an unprecedented accuracy, they take several minutes, or even hours, due to the expensive optimization process required. In this work, we introduce InstantAvatar, a method that recovers full-head avatars from few images (down to just one) in a few seconds on commodity hardware. In order to speed up the reconstruction process, we propose a system that combines, for the first time, a voxel-grid neural field representation with a surface renderer. Notably, a naive combination of these two techniques leads to unstable optimizations that do not converge to valid solutions. In order to overcome this limitation, we present a novel statistical model that learns a prior distribution over 3D head signed distance functions using a voxel-grid based architecture. The use of this prior model, in combination with other design choices, results into a system that achieves 3D head reconstructions with comparable accuracy as the state-of-the-art with a 100x speed-up.
翻訳日:2023-08-10 14:00:35 公開日:2023-08-09
# シンボリックプランニングのための学習型一般化アクション

Learning Type-Generalized Actions for Symbolic Planning ( http://arxiv.org/abs/2308.04867v1 )

ライセンス: Link先を確認
Daniel Tanneberg, Michael Gienger(参考訳) シンボリックプランニングは、アクションの長いシーケンスを必要とする複雑なタスクを解決し、インテリジェントエージェントに複雑な振る舞いを与える強力なテクニックである。 このアプローチの欠点は、環境の状態とそれを変えることができるアクションを記述する適切な象徴表現の必要性である。 伝統的にそのような表現は、異なる問題領域に対する専門家によって慎重に設計され、異なる問題や環境の複雑さへの移動性を制限する。 本稿では,与えられたエンティティ階層を用いてシンボリックアクションを一般化し,類似した振る舞いを観察する新しい概念を提案する。 模擬グリッド型キッチン環境において,少数の観測結果から型一般化行動が学習され,新たな状況に一般化できることを示す。 計画中に追加のオンザフライ一般化機構を導入することで、長いシーケンス、新しいエンティティ、予期せぬ環境行動を含む未確認タスクの組み合わせを解決できる。

Symbolic planning is a powerful technique to solve complex tasks that require long sequences of actions and can equip an intelligent agent with complex behavior. The downside of this approach is the necessity for suitable symbolic representations describing the state of the environment as well as the actions that can change it. Traditionally such representations are carefully hand-designed by experts for distinct problem domains, which limits their transferability to different problems and environment complexities. In this paper, we propose a novel concept to generalize symbolic actions using a given entity hierarchy and observed similar behavior. In a simulated grid-based kitchen environment, we show that type-generalized actions can be learned from few observations and generalize to novel situations. Incorporating an additional on-the-fly generalization mechanism during planning, unseen task combinations, involving longer sequences, novel entities and unexpected environment behavior, can be solved.
翻訳日:2023-08-10 14:00:18 公開日:2023-08-09
# SLPT: Label-Limited Lesion Segmentation によるprompt Tuning

SLPT: Selective Labeling Meets Prompt Tuning on Label-Limited Lesion Segmentation ( http://arxiv.org/abs/2308.04911v1 )

ライセンス: Link先を確認
Fan Bai, Ke Yan, Xiaoyu Bai, Xinyu Mao, Xiaoli Yin, Jingren Zhou, Yu Shi, Le Lu, Max Q.-H. Meng(参考訳) 深層学習を用いた医用画像解析は、ラベル付きデータと高いアノテーションコストによってしばしば課題となる。 ラベル限定のシナリオでネットワーク全体を微調整することで、過度な適合性と準最適パフォーマンスにつながる可能性がある。 近年、プロンプトチューニングは、タスクに依存しない事前学習モデルへのプロンプトとしていくつかの追加の調整可能なパラメータを導入し、事前訓練されたモデルを維持しながら、ラベル付きデータからの監督を利用して、これらのパラメータのみを更新する、より有望な手法として登場した。 しかし、従来の研究は、最小限のアノテーションコストで最高のパフォーマンスを達成するために、アノテーションのために最も価値のある下流サンプルを選択することを目的として、下流タスクにおける選択的なラベル付けの重要性を見落としている。 そこで本稿では,選択的ラベリングとプロンプトチューニング(SLPT)を組み合わせることで,限定ラベルの性能向上を実現するフレームワークを提案する。 具体的には、プロンプトチューニングをガイドする機能対応プロンプト更新器と、TandEm Selective labeling(TESLA)戦略を導入する。 TESLAには、教師なしの多様性選択と、プロンプトベースの不確実性を用いた教師付き選択が含まれる。 さらに,TESLAのマルチプロンプトに基づく離散予測を実現するために,多様な視覚的プロンプトチューニング戦略を提案する。 肝腫瘍の分節法を評価し, 従来の微調整法を6%の可変パラメータで上回り, 5%のデータをラベル付けすることにより, 総データ性能の94%を達成した。

Medical image analysis using deep learning is often challenged by limited labeled data and high annotation costs. Fine-tuning the entire network in label-limited scenarios can lead to overfitting and suboptimal performance. Recently, prompt tuning has emerged as a more promising technique that introduces a few additional tunable parameters as prompts to a task-agnostic pre-trained model, and updates only these parameters using supervision from limited labeled data while keeping the pre-trained model unchanged. However, previous work has overlooked the importance of selective labeling in downstream tasks, which aims to select the most valuable downstream samples for annotation to achieve the best performance with minimum annotation cost. To address this, we propose a framework that combines selective labeling with prompt tuning (SLPT) to boost performance in limited labels. Specifically, we introduce a feature-aware prompt updater to guide prompt tuning and a TandEm Selective LAbeling (TESLA) strategy. TESLA includes unsupervised diversity selection and supervised selection using prompt-based uncertainty. In addition, we propose a diversified visual prompt tuning strategy to provide multi-prompt-based discrepant predictions for TESLA. We evaluate our method on liver tumor segmentation and achieve state-of-the-art performance, outperforming traditional fine-tuning with only 6% of tunable parameters, also achieving 94% of full-data performance by labeling only 5% of the data.
翻訳日:2023-08-10 13:55:03 公開日:2023-08-09
# ソフトウェア定義ネットワークにおけるサイバーセキュリティのためのadversarial deep reinforcement learning

Adversarial Deep Reinforcement Learning for Cyber Security in Software Defined Networks ( http://arxiv.org/abs/2308.04909v1 )

ライセンス: Link先を確認
Luke Borchjes, Clement Nyirenda, Louise Leenen(参考訳) 本稿では、ソフトウェア定義ネットワーク(SDN)における自律的セキュリティのためにDRLに敵対的学習を適用することによる、より堅牢なエージェントの訓練に、自律的攻撃的アプローチを活用することの影響に焦点を当てる。 2つのアルゴリズム、Double Deep Q-Networks(DDQN)とNeural Episodic Control to Deep Q-Network(NEC2DQNまたはN2D)を比較した。 NEC2DQNは2018年に提案され、Deep q-network (DQN) アルゴリズムの新たなメンバーである。 攻撃者は環境の完全な可観測性を持ち、学習プロセスに毒を加えるために状態操作を使用する因果攻撃にアクセスする。 攻撃の実装はホワイトボックス設定で行われ、攻撃者はディフェンダーのモデルや経験にアクセスすることができる。 最初のゲームではDDQNがディフェンダー、N2Dが攻撃者、2番目のゲームでは役割が逆転する。 ゲームは2回行われ、第一にアクティブな因果攻撃を行わず、第二にアクティブな因果攻撃を行う。 実行には、1セットが10ゲーム実行で構成される3セットのゲーム結果が記録される。 結果の前後を比較して、実際に改善や劣化があったかどうかを確認する。 その結果、アルゴリズムに微妙なパラメータ変更を加えると、攻撃者がゲームに勝つことができるため、攻撃者の役割が増大することが示された。 因果攻撃の導入による敵対的学習の実装は、アルゴリズムがネットワークをその強みに応じて守ることができることを示した。

This paper focuses on the impact of leveraging autonomous offensive approaches in Deep Reinforcement Learning (DRL) to train more robust agents by exploring the impact of applying adversarial learning to DRL for autonomous security in Software Defined Networks (SDN). Two algorithms, Double Deep Q-Networks (DDQN) and Neural Episodic Control to Deep Q-Network (NEC2DQN or N2D), are compared. NEC2DQN was proposed in 2018 and is a new member of the deep q-network (DQN) family of algorithms. The attacker has full observability of the environment and access to a causative attack that uses state manipulation in an attempt to poison the learning process. The implementation of the attack is done under a white-box setting, in which the attacker has access to the defender's model and experiences. Two games are played; in the first game, DDQN is a defender and N2D is an attacker, and in second game, the roles are reversed. The games are played twice; first, without an active causative attack and secondly, with an active causative attack. For execution, three sets of game results are recorded in which a single set consists of 10 game runs. The before and after results are then compared in order to see if there was actually an improvement or degradation. The results show that with minute parameter changes made to the algorithms, there was growth in the attacker's role, since it is able to win games. Implementation of the adversarial learning by the introduction of the causative attack showed the algorithms are still able to defend the network according to their strengths.
翻訳日:2023-08-10 13:54:34 公開日:2023-08-09
# GraphCC: データセンターの混雑制御のためのグラフ学習に基づく実践的アプローチ

GraphCC: A Practical Graph Learning-based Approach to Congestion Control in Datacenters ( http://arxiv.org/abs/2308.04905v1 )

ライセンス: Link先を確認
Guillermo Bern\'ardez, Jos\'e Su\'arez-Varela, Xiang Shi, Shihan Xiao, Xiangle Cheng, Pere Barlet-Ros, Albert Cabellos-Aparicio(参考訳) Congestion Control (CC)は、データセンターネットワーク(DCN)におけるトラフィックの最適化において、基本的な役割を果たす。 現在、DCNは主にDCTCPとDCQCNの2つの主要なCCプロトコルを実装している。 プロトコル -- とメインの変種 -- は、明示的な混雑通知(ecn)に基づいており、中間スイッチが混雑を検出するとパケットをマークする。 したがって、ECN構成はCCプロトコルの性能において重要な側面である。 現在、ネットワークの専門家は、平均ネットワーク性能を最適化するために慎重に選択された静的ecnパラメータを設定する。 しかし、今日の高速DCNは、ネットワーク状態(例えば、動的トラフィックワークロード、インキャストイベント、障害)を大きく変える、迅速かつ突然の変更を経験する。 これにより、低利用化と準最適性能がもたらされる。 本稿では,ネットワーク内CC最適化のための新しい機械学習ベースのフレームワークであるGraphCCを提案する。 我々の分散ソリューションは、MARL(Multi-agent Reinforcement Learning)とGNN(Graph Neural Networks)という新しい組み合わせに依存しており、広くデプロイされたECNベースのCCプロトコルと互換性がある。 GraphCCは、グローバルECN設定を最適化するために、隣人と通信するスイッチに分散エージェントをデプロイする。 当社の評価では、トレーニング中の新たなシナリオ(新しいトラフィックワークロード、障害、アップグレードなど)に適応するための、このソリューションの能力に注目しながら、さまざまなシナリオでgraphccのパフォーマンスをテストしています。 GraphCCを最先端のMARLベースのECNチューニングソリューション(ACC)と比較し、提案したソリューションがすべての評価シナリオで最先端のベースラインよりも優れており、フローコンプリート時間で最大20\%、バッファ占有率の大幅な削減(38.0-85.7\%$)を示しています。

Congestion Control (CC) plays a fundamental role in optimizing traffic in Data Center Networks (DCN). Currently, DCNs mainly implement two main CC protocols: DCTCP and DCQCN. Both protocols -- and their main variants -- are based on Explicit Congestion Notification (ECN), where intermediate switches mark packets when they detect congestion. The ECN configuration is thus a crucial aspect on the performance of CC protocols. Nowadays, network experts set static ECN parameters carefully selected to optimize the average network performance. However, today's high-speed DCNs experience quick and abrupt changes that severely change the network state (e.g., dynamic traffic workloads, incast events, failures). This leads to under-utilization and sub-optimal performance. This paper presents GraphCC, a novel Machine Learning-based framework for in-network CC optimization. Our distributed solution relies on a novel combination of Multi-agent Reinforcement Learning (MARL) and Graph Neural Networks (GNN), and it is compatible with widely deployed ECN-based CC protocols. GraphCC deploys distributed agents on switches that communicate with their neighbors to cooperate and optimize the global ECN configuration. In our evaluation, we test the performance of GraphCC under a wide variety of scenarios, focusing on the capability of this solution to adapt to new scenarios unseen during training (e.g., new traffic workloads, failures, upgrades). We compare GraphCC with a state-of-the-art MARL-based solution for ECN tuning -- ACC -- and observe that our proposed solution outperforms the state-of-the-art baseline in all of the evaluation scenarios, showing improvements up to $20\%$ in Flow Completion Time as well as significant reductions in buffer occupancy ($38.0-85.7\%$).
翻訳日:2023-08-10 13:54:07 公開日:2023-08-09
# StableVQA:ビデオの安定性のための深いノン参照品質評価モデル

StableVQA: A Deep No-Reference Quality Assessment Model for Video Stability ( http://arxiv.org/abs/2308.04904v1 )

ライセンス: Link先を確認
Tengchuan Kou, Xiaohong Liu, Wei Sun, Jun Jia, Xiongkuo Min, Guangtao Zhai, Ning Liu(参考訳) ビデオシャキネス(video shakiness)は、通常、不安定なカメラのホールドによって引き起こされる、ユーザー生成コンテンツ(ugc)ビデオの不快な歪みである。 近年,多くのビデオ安定化アルゴリズムが提案されているが,ビデオの安定性を総合的に評価できる具体的な精度の指標は存在しない。 実際、既存の品質評価モデルのほとんどは、ビデオ安定性の主観的な経験を考慮せずに、全体的な品質を評価する。 したがって、これらのモデルでは映像の安定性を明示的かつ正確に測定することはできない。 また,ビデオ品質評価(VQA-S)の開発を阻害する主観的スコアが利用可能な,様々な程度にぼやけたビデオを含む大規模ビデオデータベースは公開されていない。 そこで我々は,stabledbという新たなデータベースを構築した。このデータベースには1,952種類のシェークなugcビデオが含まれており,各ビデオは平均評価スコア(mos)を34名の被験者で評価する。 さらに,光学的フロー,セマンティック,ブラー特徴をそれぞれ取得する3つの特徴抽出器と,最終的な安定性を予測するための回帰層からなる新しいVQA-SモデルであるStableVQAを精巧に設計する。 広範囲な実験により、StableVQAは既存のVQA-Sモデルや一般的なVQAモデルよりも主観的意見との相関が高いことが示されている。 データベースとコードはhttps://github.com/qmme/stablevqaで入手できる。

Video shakiness is an unpleasant distortion of User Generated Content (UGC) videos, which is usually caused by the unstable hold of cameras. In recent years, many video stabilization algorithms have been proposed, yet no specific and accurate metric enables comprehensively evaluating the stability of videos. Indeed, most existing quality assessment models evaluate video quality as a whole without specifically taking the subjective experience of video stability into consideration. Therefore, these models cannot measure the video stability explicitly and precisely when severe shakes are present. In addition, there is no large-scale video database in public that includes various degrees of shaky videos with the corresponding subjective scores available, which hinders the development of Video Quality Assessment for Stability (VQA-S). To this end, we build a new database named StableDB that contains 1,952 diversely-shaky UGC videos, where each video has a Mean Opinion Score (MOS) on the degree of video stability rated by 34 subjects. Moreover, we elaborately design a novel VQA-S model named StableVQA, which consists of three feature extractors to acquire the optical flow, semantic, and blur features respectively, and a regression layer to predict the final stability score. Extensive experiments demonstrate that the StableVQA achieves a higher correlation with subjective opinions than the existing VQA-S models and generic VQA models. The database and codes are available at https://github.com/QMME/StableVQA.
翻訳日:2023-08-10 13:53:33 公開日:2023-08-09
# 微分方程式の真の発見に向けて

Towards true discovery of the differential equations ( http://arxiv.org/abs/2308.04901v1 )

ライセンス: Link先を確認
Alexander Hvatov and Roman Titov(参考訳) 機械学習のサブフィールドである微分方程式発見は、特に自然に関する応用において解釈可能なモデルを開発するために用いられる。 運動方程式の一般パラメトリック形式と適切な微分項を専門的に組み込むことで、アルゴリズムはデータから自動的に方程式を明らかにすることができる。 本稿では, 専門的入力を伴わない独立方程式発見のための前提条件とツールについて検討し, 方程式形式仮定の必要性を解消した。 我々は, 方程式形式を事前に知ることなく, 信頼できる方程式発見のための洞察を提供することを目的として, 適切な方程式が未知である場合の発見方程式の妥当性を評価する課題に焦点をあてる。

Differential equation discovery, a machine learning subfield, is used to develop interpretable models, particularly in nature-related applications. By expertly incorporating the general parametric form of the equation of motion and appropriate differential terms, algorithms can autonomously uncover equations from data. This paper explores the prerequisites and tools for independent equation discovery without expert input, eliminating the need for equation form assumptions. We focus on addressing the challenge of assessing the adequacy of discovered equations when the correct equation is unknown, with the aim of providing insights for reliable equation discovery without prior knowledge of the equation form.
翻訳日:2023-08-10 13:53:04 公開日:2023-08-09
# 空間-時間接続を有するヒストグラム誘導ビデオカラー化構造

Histogram-guided Video Colorization Structure with Spatial-Temporal Connection ( http://arxiv.org/abs/2308.04899v1 )

ライセンス: Link先を確認
Zheyuan Liu, Pan Mu, Hanning Xu, Cong Bai(参考訳) 動画のカラー化は、灰色がかったフレームからカラフルで可愛らしい結果を得ることを目的としています。 それでも、色付けされた結果の品質を維持しながら時間的一貫性を維持する方法はまだ難しい。 上記の問題に対処するため,時空間接続構造(ST-HVC)を用いたヒストグラム誘導ビデオカラー化を提案する。 クロマと動きの情報を完全に活用するために、ジョイントフローとヒストグラムモジュールを調整し、ヒストグラムとフローの特徴を統合する。 ぼかしとアーティファクトを管理するため,時間的詳細とフロー特徴の組み合わせに対応する組み合わせスキームを設計する。 さらに,ヒストグラム,フロー,シャープネス機能をu字型ネットワークで再結合する。 本手法は2つのビデオデータセットにおいて定量的および定性的に優れた性能を実現することを実証し,最先端画像と映像ベース手法を用いて広範囲比較を行った。

Video colorization, aiming at obtaining colorful and plausible results from grayish frames, has aroused a lot of interest recently. Nevertheless, how to maintain temporal consistency while keeping the quality of colorized results remains challenging. To tackle the above problems, we present a Histogram-guided Video Colorization with Spatial-Temporal connection structure (named ST-HVC). To fully exploit the chroma and motion information, the joint flow and histogram module is tailored to integrate the histogram and flow features. To manage the blurred and artifact, we design a combination scheme attending to temporal detail and flow feature combination. We further recombine the histogram, flow and sharpness features via a U-shape network. Extensive comparisons are conducted with several state-of-the-art image and video-based methods, demonstrating that the developed method achieves excellent performance both quantitatively and qualitatively in two video datasets.
翻訳日:2023-08-10 13:52:51 公開日:2023-08-09
# 大規模言語モデルを用いたソフトウェアサプライチェーンセキュリティ障害の解析に関する実証的研究

An Empirical Study on Using Large Language Models to Analyze Software Supply Chain Security Failures ( http://arxiv.org/abs/2308.04898v1 )

ライセンス: Link先を確認
Tanmay Singla, Dharun Anandayuvaraj, Kelechi G. Kalu, Taylor R. Schorlemmer, James C. Davis(参考訳) ますますソフトウェアシステムに依存するようになり、ソフトウェアサプライチェーンにおける侵害の結果はより厳しくなります。 solarwindsやshadowhammerなどの著名なサイバー攻撃は、財務とデータに大きな損失をもたらし、より強力なサイバーセキュリティの必要性を強調している。 将来の障害を防ぐ一つの方法は、過去の失敗を研究することです。 しかしながら、これらの障害を分析する従来の方法は、手動でレポートを読み、要約する必要がある。 自動サポートはコストを削減し、より多くの障害の分析を可能にする。 大規模言語モデル(LLM)のような自然言語処理(NLP)技術は、障害の分析を支援するために利用することができる。 本研究では,Large Language Models (LLMs) を用いて,過去のソフトウェアサプライチェーンの障害を分析した。 LLMを使って、Cloud Native Computing Foundation(CNCF)のメンバーが実施した69のソフトウェアサプライチェーンのセキュリティ障害を手動で解析しました。 我々は, LLMがこれらを, 妥協の種類, 意図, 自然, 影響の4つの次元に分類するプロンプトを開発した。 GPT3.5s分類の平均精度は68%、Bard分類では58%であった。 本報告では,LLMがソフトウェアサプライチェーンの障害を,手動アナリストの間でのコンセンサスに十分な内容のソース記事で効果的に特徴付けるが,人間アナリストに取って代わることはできない。 今後の作業はこの文脈でLLMのパフォーマンスを改善し、幅広い記事や失敗を研究することができる。

As we increasingly depend on software systems, the consequences of breaches in the software supply chain become more severe. High-profile cyber attacks like those on SolarWinds and ShadowHammer have resulted in significant financial and data losses, underlining the need for stronger cybersecurity. One way to prevent future breaches is by studying past failures. However, traditional methods of analyzing these failures require manually reading and summarizing reports about them. Automated support could reduce costs and allow analysis of more failures. Natural Language Processing (NLP) techniques such as Large Language Models (LLMs) could be leveraged to assist the analysis of failures. In this study, we assessed the ability of Large Language Models (LLMs) to analyze historical software supply chain breaches. We used LLMs to replicate the manual analysis of 69 software supply chain security failures performed by members of the Cloud Native Computing Foundation (CNCF). We developed prompts for LLMs to categorize these by four dimensions: type of compromise, intent, nature, and impact. GPT 3.5s categorizations had an average accuracy of 68% and Bard had an accuracy of 58% over these dimensions. We report that LLMs effectively characterize software supply chain failures when the source articles are detailed enough for consensus among manual analysts, but cannot yet replace human analysts. Future work can improve LLM performance in this context, and study a broader range of articles and failures.
翻訳日:2023-08-10 13:52:31 公開日:2023-08-09
# 水中画像強調のための伝送・カラー誘導ネットワーク

Transmission and Color-guided Network for Underwater Image Enhancement ( http://arxiv.org/abs/2308.04892v1 )

ライセンス: Link先を確認
Pan Mu, Jing Fang, Haotian Qian, Cong Bai(参考訳) 近年,海洋産業の継続的な発展に伴い,水中画像のエンハンスメントが注目されている。 残念ながら、水中の光の伝播は水体によって吸収され、懸濁粒子によって散乱され、色偏差とコントラストが低い。 これら2つの問題を解決するために,水中画像強調のための適応伝送および動的カラー誘導ネットワーク(atdcnet)を提案する。 特に,物理の知識を活用するために,適応送信指向モジュール (ATM) を設計し,ネットワークをより良く誘導する。 色ずれ問題に対処するため,画像色を後処理するために動的色誘導モジュール (dcm) を設計した。 さらに,注意を伴うEncoder-Decoder-based Compensation (EDC) 構造と,色復元とコントラスト強調を同時に行う多段機能融合機構を設計する。 複数のベンチマークデータセット上でATDCnetの最先端性能を示す大規模な実験。

In recent years, with the continuous development of the marine industry, underwater image enhancement has attracted plenty of attention. Unfortunately, the propagation of light in water will be absorbed by water bodies and scattered by suspended particles, resulting in color deviation and low contrast. To solve these two problems, we propose an Adaptive Transmission and Dynamic Color guided network (named ATDCnet) for underwater image enhancement. In particular, to exploit the knowledge of physics, we design an Adaptive Transmission-directed Module (ATM) to better guide the network. To deal with the color deviation problem, we design a Dynamic Color-guided Module (DCM) to post-process the enhanced image color. Further, we design an Encoder-Decoder-based Compensation (EDC) structure with attention and a multi-stage feature fusion mechanism to perform color restoration and contrast enhancement simultaneously. Extensive experiments demonstrate the state-of-the-art performance of the ATDCnet on multiple benchmark datasets.
翻訳日:2023-08-10 13:52:01 公開日:2023-08-09
# ターゲットとトラブル: 子どものwebサイト上での追跡と広告

Targeted and Troublesome: Tracking and Advertising on Children's Websites ( http://arxiv.org/abs/2308.04887v1 )

ライセンス: Link先を確認
Zahra Moti, Asuman Senol, Hamid Bostani, Frederik Zuiderveen Borgesius, Veelasha Moonsamy, Arunesh Mathur, Gunes Acar(参考訳) 現代のウェブでは、追跡者や広告主は同意なしにユーザーの詳細な行動プロファイルを構築し収益化することが多い。 ウェブ追跡機構や広告に関する様々な研究にもかかわらず、子供をターゲットにしたウェブサイトに焦点を当てた厳格な研究は行われていない。 そこで本研究では,子ども向けウェブサイトにおけるトラッキングと広告(ターゲット広告)の計測について述べる。 児童向けWebサイトの包括的リストが欠如していることから、私たちはまず、Webページのタイトルと記述に基づく多言語分類器を構築する。 この分類器を200万ページ以上に適用し、児童指向のWebサイトのリストをコンパイルする。 5つの点からこれらのサイトをクローリングし、トラッカー、指紋認証スクリプト、広告の頻度を測定します。 当社のクローラは、児童向けウェブサイトに表示された広告を検出し、いつでも広告開示ページをスクレイピングすることで広告ターゲティングが有効かどうかを判断する。 その結果、子ども向けウェブサイトの約90%には1つ以上のトラッカーが組み込まれており、約27%にはターゲット広告が含まれていることがわかった。 次に、広告から抽出した画像とテキストの両方を処理するMLパイプラインを開発することにより、児童向けウェブサイト上の不適切な広告を識別する。 このパイプラインでは、任意の検索語に対して意味的類似性クエリを実行し、デート、体重減少、メンタルヘルスに関連するサービスを促進する広告や、セックストイやおしゃべりのチャットサービスのための広告を明らかにすることができます。 これらの広告のいくつかは、反発的で性的に明示的なイメージを特徴とする。 要約すると、多くの広告主や児童向けウェブサイトでプライバシー規制に準拠せず、広告の安全性を損なう傾向が示唆されている。 子どもを保護し、より安全なオンライン環境を構築するためには、規制当局と利害関係者がより厳格な措置を採用し、強制する必要がある。

On the modern web, trackers and advertisers frequently construct and monetize users' detailed behavioral profiles without consent. Despite various studies on web tracking mechanisms and advertisements, there has been no rigorous study focusing on websites targeted at children. To address this gap, we present a measurement of tracking and (targeted) advertising on websites directed at children. Motivated by lacking a comprehensive list of child-directed (i.e., targeted at children) websites, we first build a multilingual classifier based on web page titles and descriptions. Applying this classifier to over two million pages, we compile a list of two thousand child-directed websites. Crawling these sites from five vantage points, we measure the prevalence of trackers, fingerprinting scripts, and advertisements. Our crawler detects ads displayed on child-directed websites and determines if ad targeting is enabled by scraping ad disclosure pages whenever available. Our results show that around 90% of child-directed websites embed one or more trackers, and about 27% contain targeted advertisements--a practice that should require verifiable parental consent. Next, we identify improper ads on child-directed websites by developing an ML pipeline that processes both images and text extracted from ads. The pipeline allows us to run semantic similarity queries for arbitrary search terms, revealing ads that promote services related to dating, weight loss, and mental health; as well as ads for sex toys and flirting chat services. Some of these ads feature repulsive and sexually explicit imagery. In summary, our findings indicate a trend of non-compliance with privacy regulations and troubling ad safety practices among many advertisers and child-directed websites. To protect children and create a safer online environment, regulators and stakeholders must adopt and enforce more stringent measures.
翻訳日:2023-08-10 13:51:43 公開日:2023-08-09
# 読解・読字障害における眼球運動理解のための大規模言語モデルと能動的推論の統合

Integrating large language models and active inference to understand eye movements in reading and dyslexia ( http://arxiv.org/abs/2308.04941v1 )

ライセンス: Link先を確認
Francesco Donnarumma, Mirco Frosolone and Giovanni Pezzulo(参考訳) 本稿では,階層的アクティブ推論を用いた新しい計算モデルを提案する。 このモデルは言語処理を階層的生成モデル上の推論として特徴付け、音節から文まで様々なレベルの粒度での予測と推論を容易にする。 提案手法は,現実的なテキスト予測のための大規模言語モデルの強みと,情報的テキスト情報に目の動きを導くアクティブ推論を組み合わせ,予測の検証を可能にする。 このモデルは、未知の単語と文の両方を読む能力を示し、読みの二重ルート理論における語彙経路と非語彙経路の区別を裏付ける。 特に本モデルでは,失読症などの読取時の眼球運動に対する不適応推論効果の探索が可能である。 この条件をシミュレートするために,読解過程における先行者の寄与を弱め,誤り推論とより断片化された読解スタイルを導出し,より少ないサッケードを特徴とする。 失読症者における眼球運動に関する経験的知見との整合性は、読影と眼球運動に基づく認知過程の理解を助けるモデルの可能性と、失読症に関連する読影障害が不適応な予測処理からどのように現れるかを明らかにする。 要約すると,本モデルは,読解・眼球運動に関わる複雑な認知過程の理解における重要な進歩であり,不適応推論のシミュレーションを通じて失読の理解と対処の可能性を示唆している。 この状態に関する貴重な洞察を提供し、治療のためのより効果的な介入の開発に寄与する可能性がある。

We present a novel computational model employing hierarchical active inference to simulate reading and eye movements. The model characterizes linguistic processing as inference over a hierarchical generative model, facilitating predictions and inferences at various levels of granularity, from syllables to sentences. Our approach combines the strengths of large language models for realistic textual predictions and active inference for guiding eye movements to informative textual information, enabling the testing of predictions. The model exhibits proficiency in reading both known and unknown words and sentences, adhering to the distinction between lexical and nonlexical routes in dual-route theories of reading. Notably, our model permits the exploration of maladaptive inference effects on eye movements during reading, such as in dyslexia. To simulate this condition, we attenuate the contribution of priors during the reading process, leading to incorrect inferences and a more fragmented reading style, characterized by a greater number of shorter saccades. This alignment with empirical findings regarding eye movements in dyslexic individuals highlights the model's potential to aid in understanding the cognitive processes underlying reading and eye movements, as well as how reading deficits associated with dyslexia may emerge from maladaptive predictive processing. In summary, our model represents a significant advancement in comprehending the intricate cognitive processes involved in reading and eye movements, with potential implications for understanding and addressing dyslexia through the simulation of maladaptive inference. It may offer valuable insights into this condition and contribute to the development of more effective interventions for treatment.
翻訳日:2023-08-10 13:44:23 公開日:2023-08-09
# マルチエージェント強化学習を用いたバックプロパゲーションを用いたコミュニケーション学習における離散化手法の奥行き解析

An In-Depth Analysis of Discretization Methods for Communication Learning using Backpropagation with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2308.04938v1 )

ライセンス: Link先を確認
Astrid Vanneste, Simon Vanneste, Kevin Mets, Tom De Schepper, Siegfried Mercelis, Peter Hellinckx(参考訳) エージェントが環境の完全な状態を観察できない場合、マルチエージェント強化学習ではコミュニケーションが不可欠である。 エージェント間の学習的なコミュニケーションを可能にする最も一般的なアプローチは、フィードバックの形式としてエージェント間の勾配を流すことができる、微分可能なコミュニケーションチャネルの使用である。 しかし、メッセージサイズを小さくするために離散メッセージを使用する場合、勾配は離散通信チャネルを流れることができないため、これは困難である。 以前の研究ではこの問題に対処する方法を提案していた。 しかし、これらの手法は異なるコミュニケーション学習アーキテクチャと環境でテストされており、比較が困難である。 本稿では,最先端の離散化手法と新しい手法の比較を行う。 この比較は、他のエージェントからの勾配を用いたコミュニケーション学習の文脈で行い、複数の環境でテストを実行する。 さらに、DIALとCOMAに基づくコミュニケーション学習手法であるCOMA-DIALについて、学習率のスケーリングと適応探索を拡張した。 COMA-DIALを使うことで、より複雑な環境で実験を行うことができます。 本報告では,ST-DRU法は,異なる環境における識別方法のすべてにおいて,最良の結果が得られることを示す。 それぞれの実験で最高のパフォーマンスまたは最も近いパフォーマンスを達成し、テストされた環境において失敗しない唯一の方法である。

Communication is crucial in multi-agent reinforcement learning when agents are not able to observe the full state of the environment. The most common approach to allow learned communication between agents is the use of a differentiable communication channel that allows gradients to flow between agents as a form of feedback. However, this is challenging when we want to use discrete messages to reduce the message size, since gradients cannot flow through a discrete communication channel. Previous work proposed methods to deal with this problem. However, these methods are tested in different communication learning architectures and environments, making it hard to compare them. In this paper, we compare several state-of-the-art discretization methods as well as a novel approach. We do this comparison in the context of communication learning using gradients from other agents and perform tests on several environments. In addition, we present COMA-DIAL, a communication learning approach based on DIAL and COMA extended with learning rate scaling and adapted exploration. Using COMA-DIAL allows us to perform experiments on more complex environments. Our results show that the novel ST-DRU method, proposed in this paper, achieves the best results out of all discretization methods across the different environments. It achieves the best or close to the best performance in each of the experiments and is the only method that does not fail on any of the tested environments.
翻訳日:2023-08-10 13:43:55 公開日:2023-08-09
# グラフェン二重量子ドットの輸送分光における複数のパウリブロックの機械学習

Machine learning unveils multiple Pauli blockades in the transport spectroscopy of bilayer graphene double-quantum dots ( http://arxiv.org/abs/2308.04937v1 )

ライセンス: Link先を確認
Anuranan Das, Adil Khan, Ankan Mukherjee and Bhaskaran Muralidharan(参考訳) 2次元物質量子ドットプラットフォームの輸送分光の最近の進歩は、スピンバレー量子ビットへのファーベントな関心を高めている。 この文脈では、二重量子ドット構造におけるパウリ封鎖は、マルチ量子ビットの初期化と操作の重要な基礎を形成する。 まず,二重量子ドット構造と実験結果に着目し,外部から供給されるゲート電圧と2次元系の物理的性質との複雑な相互作用を捉えるための理論的モデルを構築し,ポーリ封鎖を効果的にシミュレートした。 電子-光子相互作用などの外因性因子を輸送および考慮するためにマスター方程式を用いることで、パウリ封鎖の潜在的なすべての事象を徹底的に調査する。 注目すべきなのは 2つの驚くべき現象です (i)偏三角形内に複数の共鳴が存在すること、 (ii)ポーリの封鎖が複数発生。 機械学習アルゴリズムのトレーニングにモデルを活用することで,複数のパウリ封鎖体制をリアルタイムに検出する自動手法の開発に成功した。 数値的な予測とテストデータに対する検証により、パウリの障害発生場所と発生確率を特定する。 そこで本研究では,2次元材料プラットフォームを用いた将来の量子ビット実験の基礎として,パウリ封鎖の一般クラスを効果的に検出できることを提案する。

Recent breakthroughs in the transport spectroscopy of 2-D material quantum-dot platforms have engendered a fervent interest in spin-valley qubits. In this context, Pauli blockades in double quantum dot structures form an important basis for multi-qubit initialization and manipulation. Focusing on double quantum dot structures, and the experimental results, we first build theoretical models to capture the intricate interplay between externally fed gate voltages and the physical properties of the 2-D system in such an architecture, allowing us to effectively simulate Pauli blockades. Employing the master equations for transport and considering extrinsic factors such as electron-photon interactions, we thoroughly investigate all potential occurrences of Pauli blockades. Notably, our research reveals two remarkable phenomena: (i) the existence of multiple resonances within a bias triangle, and (ii) the occurrence of multiple Pauli blockades. Leveraging our model to train a machine learning algorithm, we successfully develop an automated method for real-time detection of multiple Pauli blockade regimes. Through numerical predictions and validations against test data, we identify where and how many Pauli blockades are likely to occur. We propose that our model can effectively detect the generic class of Pauli blockades in practical experimental setups and hence serves as the foundation for future experiments on qubits that utilize 2-D material platforms.
翻訳日:2023-08-10 13:43:36 公開日:2023-08-09
# JEDI:ビデオ行動認識のための半スーパービジョン・マルチデータセット学習者シナリオにおける共同専門家蒸留

JEDI: Joint Expert Distillation in a Semi-Supervised Multi-Dataset Student-Teacher Scenario for Video Action Recognition ( http://arxiv.org/abs/2308.04934v1 )

ライセンス: Link先を確認
Lucian Bicsi, Bogdan Alexe, Radu Tudor Ionescu, Marius Leordeanu(参考訳) 本研究では,複数の専門家の知識を効率的に組み合わせ,異なるデータセット上で学習し,個人,データセット,学生モデルのパフォーマンスを訓練し,改善するマルチデータセット半教師付き学習手法であるjediを提案する。 我々のアプローチは、データセット間の一般化とラベル付きデータの不足による教師付きトレーニングの制限という、現在の機械学習研究における2つの重要な問題に対処することで、これを実現する。 まず、学生モデルの初期セットを形成する独自のデータセットで事前訓練された、任意の数の専門家から始めます。 教師は、生徒の最後尾の層から特徴表現を連結することで即座に導出される。 そして、収束するまで、全モデルを学生教師による半教師付き学習シナリオで訓練する。 本研究は,生徒と教師の双方が訓練中に一般化能力を向上させることを示し,生徒と教師の協働による研修を行う。 提案手法を4つのビデオ行動認識データセットで検証する。 すべてのデータセットを統一された半教師付き設定で同時に考慮することで、初期専門家に対する大幅な改善を実証する。

We propose JEDI, a multi-dataset semi-supervised learning method, which efficiently combines knowledge from multiple experts, learned on different datasets, to train and improve the performance of individual, per dataset, student models. Our approach achieves this by addressing two important problems in current machine learning research: generalization across datasets and limitations of supervised training due to scarcity of labeled data. We start with an arbitrary number of experts, pretrained on their own specific dataset, which form the initial set of student models. The teachers are immediately derived by concatenating the feature representations from the penultimate layers of the students. We then train all models in a student-teacher semi-supervised learning scenario until convergence. In our efficient approach, student-teacher training is carried out jointly and end-to-end, showing that both students and teachers improve their generalization capacity during training. We validate our approach on four video action recognition datasets. By simultaneously considering all datasets within a unified semi-supervised setting, we demonstrate significant improvements over the initial experts.
翻訳日:2023-08-10 13:43:14 公開日:2023-08-09
# 歩数データでプライバシーリスクを定量化

You Are How You Walk: Quantifying Privacy Risks in Step Count Data ( http://arxiv.org/abs/2308.04933v1 )

ライセンス: Link先を確認
Bartlomiej Surma and Tahleen Rahman, Monique Breteler, Michael Backes and Yang Zhang(参考訳) ウェアラブルデバイスは今日の世界で大きな人気を集めています。 これらのデバイスは、ユーザーの心拍数や歩数など、プライバシーに敏感な大規模な健康データを収集するが、アカデミアではまだ必要な注意を払われていない。 本稿では,ステップカウントデータから生じるプライバシーリスクの定量化に関する最初の体系的研究を行う。 特に,性別の属性推定,年齢・教育,時間的リンク性などの2つの攻撃を提案する。 実生活のデータセットを広範囲に評価し,重要な洞察を得ることで,プライバシ攻撃の深刻さを実証する。 われわれの結果は、将来ウェアラブルデバイスのためのプライバシー保護エコシステムを導出するための一歩になると考えている。

Wearable devices have gained huge popularity in today's world. These devices collect large-scale health data from their users, such as heart rate and step count data, that is privacy sensitive, however it has not yet received the necessary attention in the academia. In this paper, we perform the first systematic study on quantifying privacy risks stemming from step count data. In particular, we propose two attacks including attribute inference for gender, age and education and temporal linkability. We demonstrate the severity of the privacy attacks by performing extensive evaluation on a real life dataset and derive key insights. We believe our results can serve as a step stone for deriving a privacy-preserving ecosystem for wearable devices in the future.
翻訳日:2023-08-10 13:42:56 公開日:2023-08-09
# GeodesicPSIM:ジオデシックパッチ類似性を利用したテクスチャマップによる静的メッシュの品質予測

GeodesicPSIM: Predicting the Quality of Static Mesh with Texture Map via Geodesic Patch Similarity ( http://arxiv.org/abs/2308.04928v1 )

ライセンス: Link先を確認
Qi Yang, Joel Jung, Xiaozhong Xu, and Shan Liu(参考訳) テクスチャマップを用いた静的メッシュは、工業生産と学術研究の両方で大きな注目を集めており、効果的で堅牢な客観的品質評価の緊急な要件となっている。 しかし、現在のモデルに基づく静的メッシュの品質指標には明らかな制限がある。そのほとんどは幾何学的情報のみを考慮し、色情報は無視され、メッシュの幾何学的トポロジーには厳格な制約がある。 イメージベースやポイントベースといった他のメトリクスは、投射やサンプリングといった先入観アルゴリズムの影響を受けやすく、彼らの最高のパフォーマンスを妨げている。 本稿では,静的メッシュの知覚品質を正確に予測する新しいモデルベース計量であるGeodesic Patch similarity(GeodesicPSIM)を提案する。 グループキーポイントを選択した後、効率的なメッシュクリーニングアルゴリズムによりクリーニングされた参照メッシュと歪メッシュの両方に基づいて1ホップ測地パッチを構築する。 2段階のパッチトリミングアルゴリズムとパッチテクスチャマッピングモジュールは、1ホップ測地線パッチのサイズを洗練し、メッシュ幾何学と色情報の関係を構築し、1ホップテクスチャ化された測地線パッチを生成する。 歪みを定量化するために,パッチ色平滑度,パッチ離散平均曲率,パッチ画素色平均およびばらつきの3種類の特徴を抽出した。 我々の知る限りでは、GeodesicPSIMは特にテクスチャマップを備えた静的メッシュ用に設計された最初のモデルベースのメトリクスである。 GeodesicPSIMは、新しく作成され、挑戦的なデータベース上で、画像ベース、ポイントベース、ビデオベースのメトリクスと比較して、最先端のパフォーマンスを提供する。 また,GeodesicPSIMの高パラメータの異なる設定を導入することで,ロバスト性を証明した。 アブレーション研究は3つの特徴とパッチクロッピングアルゴリズムの有効性も示している。

Static meshes with texture maps have attracted considerable attention in both industrial manufacturing and academic research, leading to an urgent requirement for effective and robust objective quality evaluation. However, current model-based static mesh quality metrics have obvious limitations: most of them only consider geometry information, while color information is ignored, and they have strict constraints for the meshes' geometrical topology. Other metrics, such as image-based and point-based metrics, are easily influenced by the prepossessing algorithms, e.g., projection and sampling, hampering their ability to perform at their best. In this paper, we propose Geodesic Patch Similarity (GeodesicPSIM), a novel model-based metric to accurately predict human perception quality for static meshes. After selecting a group keypoints, 1-hop geodesic patches are constructed based on both the reference and distorted meshes cleaned by an effective mesh cleaning algorithm. A two-step patch cropping algorithm and a patch texture mapping module refine the size of 1-hop geodesic patches and build the relationship between the mesh geometry and color information, resulting in the generation of 1-hop textured geodesic patches. Three types of features are extracted to quantify the distortion: patch color smoothness, patch discrete mean curvature, and patch pixel color average and variance. To the best of our knowledge, GeodesicPSIM is the first model-based metric especially designed for static meshes with texture maps. GeodesicPSIM provides state-of-the-art performance in comparison with image-based, point-based, and video-based metrics on a newly created and challenging database. We also prove the robustness of GeodesicPSIM by introducing different settings of hyperparameters. Ablation studies also exhibit the effectiveness of three proposed features and the patch cropping algorithm.
翻訳日:2023-08-10 13:42:45 公開日:2023-08-09
# 深層学習による冠状動脈血流予備量の予測

Deep Learning-Based Prediction of Fractional Flow Reserve along the Coronary Artery ( http://arxiv.org/abs/2308.04923v1 )

ライセンス: Link先を確認
Nils Hampe, Sanne G. M. van Velzen, Jean-Paul Aben, Carlos Collet, Ivana I\v{s}gum(参考訳) 機能的に有意な冠状動脈疾患(CAD)は、冠動脈のプラークの蓄積によって引き起こされ、冠動脈狭窄(冠動脈狭窄)により心筋への血流が著しく阻害される可能性がある。 機能的に有意な狭窄の存在を確立するための現在の基準は invasive fractional flow reserve (ffr) 測定である。 冠動脈造影ct (ccta) からの非侵襲的ffrの予測は, 侵襲的測定を避けるために行われている。 このため、高速な推論を特徴とする機械学習アプローチがますます発展している。 しかし、これらの手法は動脈1本あたりのFFR値を予測しており、狭窄位置や治療戦略に関する情報を提供していない。 CCTAスキャンを用いて,動脈のFFRを予測する深層学習法を提案する。 本研究は, 侵襲的FFRプルバック測定を施行した110例のCCTA画像を含む。 第一に、動脈の多平面再構成(MPR)を可変オートエンコーダに供給し、ルーメン領域と非教師なし動脈エンコーダを介して動脈を特徴付ける。 その後、畳み込みニューラルネットワーク(CNN)が動脈に沿ってFFRを予測する。 CNNは複数の損失関数によって制御されており、特に地球モーバー距離(EMD)にインスパイアされた損失関数はFFRの落下の正確な位置を予測し、ヒストグラムに基づく損失はFFR曲線の傾斜を明示的に監督する。 モデルのトレーニングと評価のために,8倍のクロスバリデーションを行った。 得られたFFR曲線は、ほとんどの場合、拡散と焦点CAD分布の区別を可能にする基準とよく一致している。 定量的評価により,ffrプルバック曲線 (aupc) 下の面積の平均絶対差は1.7。 この方法では、CCTAから動脈に沿って高速で正確なFFRの自動予測を行うことができる。

Functionally significant coronary artery disease (CAD) is caused by plaque buildup in the coronary arteries, potentially leading to narrowing of the arterial lumen, i.e. coronary stenosis, that significantly obstructs blood flow to the myocardium. The current reference for establishing the presence of a functionally significant stenosis is invasive fractional flow reserve (FFR) measurement. To avoid invasive measurements, non-invasive prediction of FFR from coronary CT angiography (CCTA) has emerged. For this, machine learning approaches, characterized by fast inference, are increasingly developed. However, these methods predict a single FFR value per artery i.e. they don't provide information about the stenosis location or treatment strategy. We propose a deep learning-based method to predict the FFR along the artery from CCTA scans. This study includes CCTA images of 110 patients who underwent invasive FFR pullback measurement in 112 arteries. First, a multi planar reconstruction (MPR) of the artery is fed to a variational autoencoder to characterize the artery, i.e. through the lumen area and unsupervised artery encodings. Thereafter, a convolutional neural network (CNN) predicts the FFR along the artery. The CNN is supervised by multiple loss functions, notably a loss function inspired by the Earth Mover's Distance (EMD) to predict the correct location of FFR drops and a histogram-based loss to explicitly supervise the slope of the FFR curve. To train and evaluate our model, eight-fold cross-validation was performed. The resulting FFR curves show good agreement with the reference allowing the distinction between diffuse and focal CAD distributions in most cases. Quantitative evaluation yielded a mean absolute difference in the area under the FFR pullback curve (AUPC) of 1.7. The method may pave the way towards fast, accurate, automatic prediction of FFR along the artery from CCTA.
翻訳日:2023-08-10 13:42:13 公開日:2023-08-09
# グリーンメタバースのサービス予約と価格:Stackelbergのゲームアプローチ

Service Reservation and Pricing for Green Metaverses: A Stackelberg Game Approach ( http://arxiv.org/abs/2308.04914v1 )

ライセンス: Link先を確認
Xumin Huang, Yuan Wu, Jiawen Kang, Jiangtian Nie, Weifeng Zhong, Dong In Kim, and Shengli Xie(参考訳) metaverseは、ユーザーがデジタルアバターを通じてコミュニケーションし、コラボレーションし、交流することができる。 時空間特性のため、Metaverseサービスプロバイダ(MSP)が冗長なデータ転送と処理を排除し、最終的に総エネルギー消費を削減できるように、共同でソフトウェアコンポーネントを実行することで、コロケーション利用者がよく機能する。 エネルギー効率のよいサービス提供は、緑と持続可能なMetaverseの実現に不可欠である。 この記事では、拡張現実(ar)アプリケーションを例に挙げて、この目標を達成します。 さらに,MSP からのオフロードサービスに対する利用者の予約方法や,料金を考慮したオフロードサービスの受け入れを合理的に決定できるため,MSP が最適な課金価格を決定するかという経済的課題についても検討した。 シングルリーダーマルチフォローのStackelbergゲームは、MSPとユーザの間で定式化され、各ユーザがオフロード確率を最適化し、時間、エネルギー消費および金銭コストの重み付けを最小化する。 計算結果から,提案方式は従来の方式と比較して,省エネ化を実現し,個別の合理性を満足できることがわかった。 最後に、いくつかの新興技術と持続可能なグリーンメタバースの結合について、オープンな方向性を特定し議論する。

Metaverse enables users to communicate, collaborate and socialize with each other through their digital avatars. Due to the spatio-temporal characteristics, co-located users are served well by performing their software components in a collaborative manner such that a Metaverse service provider (MSP) eliminates redundant data transmission and processing, ultimately reducing the total energy consumption. The energyefficient service provision is crucial for enabling the green and sustainable Metaverse. In this article, we take an augmented reality (AR) application as an example to achieve this goal. Moreover, we study an economic issue on how the users reserve offloading services from the MSP and how the MSP determines an optimal charging price since each user is rational to decide whether to accept the offloading service by taking into account the monetary cost. A single-leader multi-follower Stackelberg game is formulated between the MSP and users while each user optimizes an offloading probability to minimize the weighted sum of time, energy consumption and monetary cost. Numerical results show that our scheme achieves energy savings and satisfies individual rationality simultaneously compared with the conventional schemes. Finally, we identify and discuss open directions on how several emerging technologies are combined with the sustainable green Metaverse.
翻訳日:2023-08-10 13:41:43 公開日:2023-08-09
# LLaMA-E: マルチアスペクトインストラクションによるEコマースオーサリングの強化

LLaMA-E: Empowering E-commerce Authoring with Multi-Aspect Instruction Following ( http://arxiv.org/abs/2308.04913v1 )

ライセンス: Link先を確認
Kaize Shi, Xueyao Sun, Dingxian Wang, Yinlin Fu, Guandong Xu, Qing Li(参考訳) eコマースのオーサリングは、製品販売を促進するために魅力的な、豊富な、ターゲットとするプロモーションコンテンツを作成することを含む。 大規模言語モデル(LLM)の出現は革新的なパラダイムを導入し、このシナリオにおける様々なオーサリングタスクに対処するための統一されたソリューションを提供する。 しかし,一般コーパスで訓練されたLLMは,電子商取引製品や顧客特有の,複雑でパーソナライズされた機能に適合する際の限界を明らかにする。 さらに、GPT-3.5のようなLCMはリモートアクセシビリティを必要としており、送信中に膨大な顧客プライバシデータの保護に関する懸念が高まっている。 本稿では,多様なeコマースオーサリングタスクに着目した,統一的でカスタマイズされた命令フォロー言語モデルであるLLaMA-Eを提案する。 具体的には、ドメインの専門家は、広告生成、クエリ強化された製品タイトル書き換え、製品分類、購入意図の推測、一般的なQ&Aといったタスクからシード命令セットを作成する。 これらのタスクにより、モデルが顧客、売り手、プラットフォームの典型的なサービス側面をカバーする機能をインターリーブすることで、正確なEコマースオーサリング知識を包括的に理解することができる。 gpt-3.5は、シードインストラクションを拡張してラマエモデルのトレーニングセットを形成する教師モデルとして導入されている。 実験結果から,提案するラマ-eモデルは定量的・質的評価を行い,ゼロショットシーンにおいても有利性を示した。 我々の知る限りでは、この研究はLLMを特定のeコマースオーサリングシナリオに初めて提供するものである。

E-commerce authoring involves creating attractive, abundant, and targeted promotional content to drive product sales. The emergence of large language models (LLMs) introduces an innovative paradigm, offering a unified solution to address various authoring tasks within this scenario. However, mainstream LLMs trained on general corpora with common sense knowledge reveal limitations in fitting complex and personalized features unique to e-commerce products and customers. Furthermore, LLMs like GPT-3.5 necessitate remote accessibility, raising concerns about safeguarding voluminous customer privacy data during transmission. This paper proposes the LLaMA-E, the unified and customized instruction-following language models focusing on diverse e-commerce authoring tasks. Specifically, the domain experts create the seed instruction set from the tasks of ads generation, query-enhanced product title rewriting, product classification, purchase intent speculation, and general Q&A. These tasks enable the models to comprehensively understand precise e-commerce authoring knowledge by interleaving features covering typical service aspects of customers, sellers, and platforms. The GPT-3.5 is introduced as a teacher model, which expands the seed instructions to form a training set for the LLaMA-E models with various scales. The experimental results show that the proposed LLaMA-E models achieve state-of-the-art results in quantitative and qualitative evaluations, also exhibiting the advantage in zero-shot scenes. To the best of our knowledge, this study is the first to serve the LLMs to specific e-commerce authoring scenarios.
翻訳日:2023-08-10 13:41:20 公開日:2023-08-09
# ライブストリーミング製品認識のためのクロスビューセマンティクスアライメント

Cross-view Semantic Alignment for Livestreaming Product Recognition ( http://arxiv.org/abs/2308.04912v1 )

ライセンス: Link先を確認
Wenjie Yang, Yiyi Chen, Yan Li, Yanhua Cheng, Xudong Liu, Quan Chen, Han Li(参考訳) live commerceは、ライブストリーミングを通じて商品をオンラインで販売する行為だ。 オンライン製品に対する顧客のさまざまな要求は、Livestreaming Product Recognitionにさらなる課題をもたらす。 以前の作品は、ファッション服のデータやシングルモーダル入力の利用に重点を置いており、さまざまなカテゴリのマルチモーダルデータが存在する現実のシナリオを反映していない。 本稿では,34のカテゴリをカバーする大規模マルチモーダルデータセットであるLPR4Mについて述べる。 最大の公開データセットよりも大きい。 LPR4Mは様々なビデオとノイズモードのペアを含み、現実世界の問題に似た長い尾の分布を示す。 さらに、製品の画像やビデオビューから識別インスタンスの特徴を学習するために、cRoss-vIew semantiCalignedmEnt (RICE)モデルを提案する。 これはインスタンスレベルのコントラスト学習とクロスビューパッチレベルの機能伝達によって実現される。 クロスビューパッチ間の意味的不一致を罰するために,新しいパッチ特徴復元損失を提案する。 広範な実験がライスの有効性を実証し、データセットの多様性と表現力の重要性について洞察を与える。 データセットとコードはhttps://github.com/adxcreative/riceで入手できる。

Live commerce is the act of selling products online through live streaming. The customer's diverse demands for online products introduce more challenges to Livestreaming Product Recognition. Previous works have primarily focused on fashion clothing data or utilize single-modal input, which does not reflect the real-world scenario where multimodal data from various categories are present. In this paper, we present LPR4M, a large-scale multimodal dataset that covers 34 categories, comprises 3 modalities (image, video, and text), and is 50? larger than the largest publicly available dataset. LPR4M contains diverse videos and noise modality pairs while exhibiting a long-tailed distribution, resembling real-world problems. Moreover, a cRoss-vIew semantiC alignmEnt (RICE) model is proposed to learn discriminative instance features from the image and video views of the products. This is achieved through instance-level contrastive learning and cross-view patch-level feature propagation. A novel Patch Feature Reconstruction loss is proposed to penalize the semantic misalignment between cross-view patches. Extensive experiments demonstrate the effectiveness of RICE and provide insights into the importance of dataset diversity and expressivity. The dataset and code are available at https://github.com/adxcreative/RICE
翻訳日:2023-08-10 13:40:53 公開日:2023-08-09
# 量子ゆらぎの熱力学的視点

Thermodynamic perspective on quantum fluctuations ( http://arxiv.org/abs/2308.04951v1 )

ライセンス: Link先を確認
Akira Sone, Kanu Sinha, and Sebastian Deffner(参考訳) 大きなシステムと小さなシステムの主な違いは何ですか? 小スケールでは力学は揺らぎに支配されるが、大規模ではゆらぎは無関係である。 したがって、量子系の熱力学的に一貫した記述は、変動の性質と結果の完全な理解を必要とする。 本章では, 変動力とゆらぎ定理を別々に考慮した, 密接に関連する二つの研究分野について概説する。 現代研究におけるこれらのエキサイティングで活発な分野の要点に焦点を当て、お互いについて学ぶことに関心のある研究者のコミュニティの双方に指導的なエントリーポイントを提供しようとしている。

What is the major difference between large and small systems? At small length-scales the dynamics is dominated by fluctuations, whereas at large scales fluctuations are irrelevant. Therefore, any thermodynamically consistent description of quantum systems necessitates a thorough understanding of the nature and consequences of fluctuations. In this chapter, we outline two closely related fields of research that are commonly considered separately -- fluctuation forces and fluctuation theorems. Focusing on the main gist of these exciting and vivid fields of modern research, we seek to provide a instructive entry point for both communities of researchers interested in learning about the other.
翻訳日:2023-08-10 13:35:55 公開日:2023-08-09
# フェイクニュース検出における変換器ベースモデル(BERT, ALBERT, RoBERTa)の性能解析

Performance Analysis of Transformer Based Models (BERT, ALBERT and RoBERTa) in Fake News Detection ( http://arxiv.org/abs/2308.04950v1 )

ライセンス: Link先を確認
Shafna Fitria Nur Azizah, Hasan Dwi Cahyono, Sari Widya Sihwi, Wisnu Widiarto(参考訳) フェイクニュースは、ニュースメディア形式では偽物であるが、ニュース機関によって適切に処理されていない。 偽の素材は、重要な実体や個人を挑発したり、あるいはクリエーターの個人的な利益のためにも、社会に問題を引き起こす可能性がある。 ドメイン知識や時間制約が限られているため、偽ニュースや本当のニュースの排除は難しい。 調査によると、住民によって最も嫌悪や誤報に晒された地域のトップ3は、バンテン、DKIジャカルタ、西ジャワである。 変換器のモデルは、ディープラーニングアーキテクチャを利用した自然言語処理における人工知能(AI)の分野におけるアプローチを指す。 トランスフォーマーは、テキストを並列に処理し、リッチで文脈的な単語表現を生成する強力な注意メカニズムを実行します。 前回の研究では、BERTとして知られるトランスモデルの非トランスアプローチよりも優れた性能を示す。 しかし、ALBERTやRoBERTaとして知られる改良されたBERTモデルを使用することで、性能を向上できるという研究もある。 しかし、修正されたbertモデルはバハサインドネシアで偽ニュースを検出するためにはあまり研究されていない。 本研究では、これらのトランスフォーマーモデルを調査し、albertが87.6%の精度、86.9%の精度、86.9%のf1-score、および174.5のランタイム(s/epoch)で他モデルよりも優れていることを発見した。 ソースコード: https://github.com/shafna81/fakenewsdetection.git

Fake news is fake material in a news media format but is not processed properly by news agencies. The fake material can provoke or defame significant entities or individuals or potentially even for the personal interests of the creators, causing problems for society. Distinguishing fake news and real news is challenging due to limited of domain knowledge and time constraints. According to the survey, the top three areas most exposed to hoaxes and misinformation by residents are in Banten, DKI Jakarta and West Java. The model of transformers is referring to an approach in the field of artificial intelligence (AI) in natural language processing utilizing the deep learning architectures. Transformers exercise a powerful attention mechanism to process text in parallel and produce rich and contextual word representations. A previous study indicates a superior performance of a transformer model known as BERT over and above non transformer approach. However, some studies suggest the performance can be improved with the use of improved BERT models known as ALBERT and RoBERTa. However, the modified BERT models are not well explored for detecting fake news in Bahasa Indonesia. In this research, we explore those transformer models and found that ALBERT outperformed other models with 87.6% accuracy, 86.9% precision, 86.9% F1-score, and 174.5 run-time (s/epoch) respectively. Source code available at: https://github.com/Shafna81/fakenewsdetection.git
翻訳日:2023-08-10 13:35:44 公開日:2023-08-09
# 終末から終末にかけての分枝の相互促進

Branches Mutual Promotion for End-to-End Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2308.04949v1 )

ライセンス: Link先を確認
Lei Zhu, Hangzhou He, Xinliang Zhang, Qian Chen, Shuang Zeng, Qiushi Ren, Yanye Lu(参考訳) エンドツーエンドの弱い教師付きセマンティックセグメンテーションは、画像アノテーションのみに基づいた単段トレーニングプロセスでセグメンテーションモデルを最適化することを目的としている。 既存の方法は、オンライン訓練された分類ブランチを採用し、セグメント化ブランチを監督するための疑似アノテーションを提供する。 しかし、この戦略は、この2つのブランチが互いに助け合うのを妨げるため、分類ブランチが同時トレーニングプロセス全体を支配している。 本研究では,これらの2つのブランチを,分割マップを生成する多様な方法として捉え,相互の促進を達成するために,監督と運用の両方に相互作用を加えることにより,等しく扱う。 この目的のために、これらの2つのブランチの出力間の一貫性を強制するために、双方向の監視機構を精査する。 これにより、セグメンテーション枝は分類枝にフィードバックを与えて、局在種子の品質を高めることができる。 さらに,この2つのブランチ間のインタラクション操作を設計し,相互支援のための知識交換を行う。 実験の結果、既存のエンドツーエンドのセグメンテーション手法よりも優れています。

End-to-end weakly supervised semantic segmentation aims at optimizing a segmentation model in a single-stage training process based on only image annotations. Existing methods adopt an online-trained classification branch to provide pseudo annotations for supervising the segmentation branch. However, this strategy makes the classification branch dominate the whole concurrent training process, hindering these two branches from assisting each other. In our work, we treat these two branches equally by viewing them as diverse ways to generate the segmentation map, and add interactions on both their supervision and operation to achieve mutual promotion. For this purpose, a bidirectional supervision mechanism is elaborated to force the consistency between the outputs of these two branches. Thus, the segmentation branch can also give feedback to the classification branch to enhance the quality of localization seeds. Moreover, our method also designs interaction operations between these two branches to exchange their knowledge to assist each other. Experiments indicate our work outperforms existing end-to-end weakly supervised segmentation methods.
翻訳日:2023-08-10 13:35:10 公開日:2023-08-09
# 言語適応による非英語への大言語モデル外挿

Extrapolating Large Language Models to Non-English by Aligning Languages ( http://arxiv.org/abs/2308.04948v1 )

ライセンス: Link先を確認
Wenhao Zhu, Yunzhe Lv, Qingxiu Dong, Fei Yuan, Jingjing Xu, Shujian Huang, Lingpeng Kong, Jiajun Chen, Lei Li(参考訳) 不均衡なトレーニングデータ分布のため、大きな言語モデル(LLM)の言語能力は英語に偏っていることが多い。 本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化することを提案する。 翻訳タスクデータと言語間汎用タスクデータの両方を用いてLLaMA上で命令チューニングを行い、言語間モデル(x-LLaMA)を得る。 クロスリンガルベンチマークxquadとmlqaの実験の結果、x-llamaモデルは6つの非英語言語の平均で、alpacaを42.50%上回った。 中国のベンチマークc-evalでのさらなる実験により、x-llamaはalpacaを8.2%上回った。 また、翻訳データのターゲット側に非英語テキストを組み込むことは、非英語能力を高めるのに特に有効であることを見出した。 さらに,LLM内の意味的アライメントは,翻訳タスクデータのスケールアップとともにさらに強化され,基礎となるスケーリング法則の定式化が提案される。 翻訳データセット Flores-101 の評価結果から,<method は従来の LLaMA モデルよりもすべての評価方向で優れていた。 コードとデータは、https://github.com/OwenNJU/x-LLM.comで入手できる。

Due to the unbalanced training data distribution, the language ability of large language models (LLMs) is often biased towards English. In this paper, we propose to empower pre-trained LLMs on non-English languages by building semantic alignment across languages. We perform instruction-tuning on LLaMA with both translation task data and cross-lingual general task data to obtain cross-lingual models (x-LLaMA). Experiment results on cross-lingual benchmark XQUAD and MLQA show that x-LLaMA models outperform the English instruction-tuned counterpart (Alpaca) by 42.50% on average on six non-English languages. Further experiments on Chinese benchmark C-Eval show that x-LLaMA achieves significant improvement on Chinese humanities tasks, outperforming Alpaca by 8.2%. We also discover that incorporating non-English text on the target side of translation data is particularly effective for boosting non-English ability. Besides, we find that semantic alignment within LLM can be further strengthened as translation task data scales up and we present the formulation of the underlying scaling law. Evaluation results on translation dataset Flores-101 show that \method outperforms previous LLaMA-based models in all evaluated directions. Code and data will be available at: https://github.com/OwenNJU/x-LLM.
翻訳日:2023-08-10 13:34:39 公開日:2023-08-09
# 株価予測への知識の獲得と組み入れに関する調査

Methods for Acquiring and Incorporating Knowledge into Stock Price Prediction: A Survey ( http://arxiv.org/abs/2308.04947v1 )

ライセンス: Link先を確認
Liping Wang, Jiawei Li, Lifan Zhao, Zhizhuo Kou, Xiaohan Wang, Xinyi Zhu, Hao Wang, Yanyan Shen and Lei Chen(参考訳) 株価の予測は、本質的なボラティリティと株式市場の非線形性から、困難な研究課題となっている。 近年、外的知識を活用して株式市場を理解することにより、知識に富んだ株価予測手法が画期的な結果を示している。 これらの方法の重要性にもかかわらず、外部知識型の観点から過去の研究を体系的に合成する学術的な研究は乏しい。 具体的には、外部知識を異なるデータ構造でモデル化し、非グラフベースのフォーマットとグラフベースのフォーマットに分類する。 1) グラフに基づく知識は,個々の株式に特有な文脈情報及びマルチメディア記述を収集する。 2)グラフに基づく知識は,株式市場における相互依存情報と相互依存情報を取り込む。 本研究の目的は, さまざまな非構造化データソースから外部知識を取得し, 株価予測モデルに組み込む方法の体系的, 包括的記述を提供することである。 また,外部知識と歴史的価格特徴を融合する融合手法についても検討する。 さらに本論文では,関連するデータセットのコンピレーションと,この領域における今後の研究の方向性について述べる。

Predicting stock prices presents a challenging research problem due to the inherent volatility and non-linear nature of the stock market. In recent years, knowledge-enhanced stock price prediction methods have shown groundbreaking results by utilizing external knowledge to understand the stock market. Despite the importance of these methods, there is a scarcity of scholarly works that systematically synthesize previous studies from the perspective of external knowledge types. Specifically, the external knowledge can be modeled in different data structures, which we group into non-graph-based formats and graph-based formats: 1) non-graph-based knowledge captures contextual information and multimedia descriptions specifically associated with an individual stock; 2) graph-based knowledge captures interconnected and interdependent information in the stock market. This survey paper aims to provide a systematic and comprehensive description of methods for acquiring external knowledge from various unstructured data sources and then incorporating it into stock price prediction models. We also explore fusion methods for combining external knowledge with historical price features. Moreover, this paper includes a compilation of relevant datasets and delves into potential future research directions in this domain.
翻訳日:2023-08-10 13:33:53 公開日:2023-08-09
# SelectNAdapt: Few-Shot Domain Adaptationのセット選択をサポート

SelectNAdapt: Support Set Selection for Few-Shot Domain Adaptation ( http://arxiv.org/abs/2308.04946v1 )

ライセンス: Link先を確認
Youssef Dawoud, Gustavo Carneiro, and Vasileios Belagiannis(参考訳) トレイン(ソース)とテスト(ターゲット)ドメインデータの間で分布シフトが発生すると、ディープニューラルネットワークの一般化は脆弱になる。 ソースドメインで事前訓練されたディープニューラルネットワークを、ターゲットドメインからランダムに選択された注釈付きサポートセットを使用してターゲットドメインに適応することにより、この問題を緩和する。 本稿では、事前学習したソースモデルを対象領域に効果的に適応させることにより、サポートセットのランダム選択をさらに改善できると主張している。 あるいは、SelectNAdaptを提案する。SelectNAdaptは、対象のドメインサンプルの選択をキュレートするアルゴリズムで、アノテートされ、サポートセットに含まれる。 特に,kショット適応問題では,まず自己スーパービジョンを用いて対象ドメインデータの特徴を学習する。 次に,学習対象領域特徴のクラス毎のクラスタリングスキームを提案し,距離ベーススコアリング関数を用いてk代表対象サンプルを選択する。 最後に、セマンティックに類似したターゲットドメインサンプルをクラスタリングするために擬似ラベルを頼りにすることで、我々の選択設定を実践的な基盤に持ち込む。 本実験は,画像認識のための3つの領域適応ベンチマークにおいて,関連するアプローチや標準ランダム選択と比較して有望な結果を示した。

Generalisation of deep neural networks becomes vulnerable when distribution shifts are encountered between train (source) and test (target) domain data. Few-shot domain adaptation mitigates this issue by adapting deep neural networks pre-trained on the source domain to the target domain using a randomly selected and annotated support set from the target domain. This paper argues that randomly selecting the support set can be further improved for effectively adapting the pre-trained source models to the target domain. Alternatively, we propose SelectNAdapt, an algorithm to curate the selection of the target domain samples, which are then annotated and included in the support set. In particular, for the K-shot adaptation problem, we first leverage self-supervision to learn features of the target domain data. Then, we propose a per-class clustering scheme of the learned target domain features and select K representative target samples using a distance-based scoring function. Finally, we bring our selection setup towards a practical ground by relying on pseudo-labels for clustering semantically similar target domain samples. Our experiments show promising results on three few-shot domain adaptation benchmarks for image recognition compared to related approaches and the standard random selection.
翻訳日:2023-08-10 13:33:26 公開日:2023-08-09
# LLMeBench: LLMベンチマークを高速化するための柔軟なフレームワーク

LLMeBench: A Flexible Framework for Accelerating LLMs Benchmarking ( http://arxiv.org/abs/2308.04945v1 )

ライセンス: Link先を確認
Fahim Dalvi, Maram Hasanain, Sabri Boughorbel, Basel Mousi, Samir Abdaljalil, Nizi Nazar, Ahmed Abdelali, Shammur Absar Chowdhury, Hamdy Mubarak, Ahmed Ali, Majd Hawasly, Nadir Durrani, Firoj Alam(参考訳) 近年のLarge Language Models (LLMs) の発展と成功は,異なる言語における多様なNLPタスク間での性能評価を必要とする。 いくつかのフレームワークが開発され、公開されているが、特定のタスクやデータセットのカスタマイズ機能は、しばしば異なるユーザーにとって複雑である。 本研究では,LLMeBenchフレームワークを紹介する。 当初は、OpenAIのGPTおよびBLOOMモデルを用いて、アラビア語のNLPタスクを評価するために開発された。 このフレームワークは、ゼロと数ショットの学習設定も備えている。 新しいカスタムデータセットは10分以内で追加可能で、ユーザは自身のモデルAPIキーを使用して、手元にあるタスクを評価することができる。 このフレームワークは、約296Kのデータポイントを含む90の実験セットアップ内で53の公開データセットを使用して、31のユニークなNLPタスクですでにテストされている。 私たちはコミュニティ向けのフレームワークをオープンソース化する予定です(https://github.com/qcri/LLMeBench/)。 フレームワークのデモビデオがオンラインで公開されている(https://youtu.be/FkQn4UjYA0s)。

The recent development and success of Large Language Models (LLMs) necessitate an evaluation of their performance across diverse NLP tasks in different languages. Although several frameworks have been developed and made publicly available, their customization capabilities for specific tasks and datasets are often complex for different users. In this study, we introduce the LLMeBench framework. Initially developed to evaluate Arabic NLP tasks using OpenAI's GPT and BLOOM models; it can be seamlessly customized for any NLP task and model, regardless of language. The framework also features zero- and few-shot learning settings. A new custom dataset can be added in less than 10 minutes, and users can use their own model API keys to evaluate the task at hand. The developed framework has been already tested on 31 unique NLP tasks using 53 publicly available datasets within 90 experimental setups, involving approximately 296K data points. We plan to open-source the framework for the community (https://github.com/qcri/LLMeBench/). A video demonstrating the framework is available online (https://youtu.be/FkQn4UjYA0s).
翻訳日:2023-08-10 13:33:03 公開日:2023-08-09
# グレディ固有成分選択によるガウス画像異常検出

Gaussian Image Anomaly Detection with Greedy Eigencomponent Selection ( http://arxiv.org/abs/2308.04944v1 )

ライセンス: Link先を確認
Tetiana Gula, Jo\~ao P C Bertoldo(参考訳) 画像中の異常検出(AD)は、正常性から重要な逸脱を識別するものであり、コンピュータビジョンにおいて重要な問題である。 本稿では,EfficientNet モデルを組み込んだ事前学習型畳み込みニューラルネットワーク (CNN) を用いた AD の次元削減手法を提案する。 本稿では, 成分選択の重要性を考察し, 最適固有成分選択のための2種類の木探索手法を提案する。 本研究は,本手法の有効性を評価するために3つの主要な実験を行った。 第1の実験は、テストセットのパフォーマンスがコンポーネント選択に与える影響、第2の実験は、ある異常タイプをトレーニングし、他のすべてのタイプを評価した際のパフォーマンス、第3の実験は、最小数の画像を用いたトレーニングと、異常タイプに基づく選択の影響を調べる。 我々のアプローチは、各コンポーネントによって説明される分散の割合のみに焦点をあてるのではなく、最高のパフォーマンススコアを提供するコンポーネントの最適なサブセットを見つけることを目的としています。 提案手法は, 主成分分析 (PCA) と負成分分析 (NPCA) の両方を, 少ない成分を用いても検出精度において上回っていることを示す。 そこで本手法は,ADにおける従来の次元削減技術に代わる有望な代替手段であり,ADシステムの効率性と有効性を高める可能性を秘めている。

Anomaly detection (AD) in images, identifying significant deviations from normality, is a critical issue in computer vision. This paper introduces a novel approach to dimensionality reduction for AD using pre-trained convolutional neural network (CNN) that incorporate EfficientNet models. We investigate the importance of component selection and propose two types of tree search approaches, both employing a greedy strategy, for optimal eigencomponent selection. Our study conducts three main experiments to evaluate the effectiveness of our approach. The first experiment explores the influence of test set performance on component choice, the second experiment examines the performance when we train on one anomaly type and evaluate on all other types, and the third experiment investigates the impact of using a minimum number of images for training and selecting them based on anomaly types. Our approach aims to find the optimal subset of components that deliver the highest performance score, instead of focusing solely on the proportion of variance explained by each component and also understand the components behaviour in different settings. Our results indicate that the proposed method surpasses both Principal Component Analysis (PCA) and Negated Principal Component Analysis (NPCA) in terms of detection accuracy, even when using fewer components. Thus, our approach provides a promising alternative to conventional dimensionality reduction techniques in AD, and holds potential to enhance the efficiency and effectiveness of AD systems.
翻訳日:2023-08-10 13:32:47 公開日:2023-08-09
# 重要きめのノイズ適応を持つ微分プライベートグラフニューラルネットワーク

Differentially Private Graph Neural Network with Importance-Grained Noise Adaption ( http://arxiv.org/abs/2308.04943v1 )

ライセンス: Link先を確認
Yuxin Qi, Xi Lin, Jun Wu(参考訳) 差分プライバシーを持つグラフニューラルネットワーク(gnn)は、ノードが個人および機密情報を表すとき、グラフプライバシを保持するために提案されている。 しかし、既存の手法では、異なる重要性を持つノードが多様なプライバシー要求を生じさせ、一部のノードを過度に保護し、モデルの有用性を低下させる可能性があることを無視している。 本稿では,ノードがプライベートにしておく必要があるが,GNNのトレーニングに欠かせない個人情報を含む,重要度の高いプライバシの問題について検討する。 NAP-GNNは,ノード情報の保護のために,適応的差分プライバシーに基づくプライバシ保証付きノード重要度の高いプライバシ保存GNNアルゴリズムである。 まず,トポロジに基づくノード重要度推定(tnie)手法を提案する。 次に,ノードインポータンスグラインから近傍アグリゲーションを摂動させる適応的プライベートアグリゲーション法を提案する。 第3に,ノードワイズタスクに対する多層畳み込みを用いた適応残差接続モードにおいて,摂動アグリゲーションに基づくグラフ学習アルゴリズムのプライベートトレーニングを提案する。 理論的には、NAP-GNNはプライバシー保証を満足している。 実世界のグラフデータセットに対する実証実験は、NAP-GNNがプライバシと精度のトレードオフをより良く達成していることを示している。

Graph Neural Networks (GNNs) with differential privacy have been proposed to preserve graph privacy when nodes represent personal and sensitive information. However, the existing methods ignore that nodes with different importance may yield diverse privacy demands, which may lead to over-protect some nodes and decrease model utility. In this paper, we study the problem of importance-grained privacy, where nodes contain personal data that need to be kept private but are critical for training a GNN. We propose NAP-GNN, a node-importance-grained privacy-preserving GNN algorithm with privacy guarantees based on adaptive differential privacy to safeguard node information. First, we propose a Topology-based Node Importance Estimation (TNIE) method to infer unknown node importance with neighborhood and centrality awareness. Second, an adaptive private aggregation method is proposed to perturb neighborhood aggregation from node-importance-grain. Third, we propose to privately train a graph learning algorithm on perturbed aggregations in adaptive residual connection mode over multi-layers convolution for node-wise tasks. Theoretically analysis shows that NAP-GNN satisfies privacy guarantees. Empirical experiments over real-world graph datasets show that NAP-GNN achieves a better trade-off between privacy and accuracy.
翻訳日:2023-08-10 13:32:23 公開日:2023-08-09
# 効果的なコンテンツ作成に向けたaigc(artificial intelligence generated content)のための意味コミュニケーション

Semantic Communications for Artificial Intelligence Generated Content (AIGC) Toward Effective Content Creation ( http://arxiv.org/abs/2308.04942v1 )

ライセンス: Link先を確認
Guangyuan Liu, Hongyang Du, Dusit Niyato, Jiawen Kang, Zehui Xiong, Dong In Kim, and Xuemin (Sherman) Shen(参考訳) 人工知能生成コンテンツ(AIGC)サービスは、デジタルコンテンツ作成において大きな可能性を秘めている。 最小限の入力に基づくコンテンツ生成のようなAIGCの特有な能力は、特にセマンティックコミュニケーション(SemCom)との統合において大きな可能性を秘めている。 本稿では,AIGCとSemComの統合のための包括的概念モデルを開発した。 特に、コンテンツ生成レベルがセマンティックレベルの上に導入され、AIGCとSemComが相互に相互作用して有意義で効果的なコンテンツを生成する方法について、明確な概要を提供する。 さらに,aigcサービスに適した意味抽出・評価指標の協調最適化を考慮し,意味情報のエンコーダおよびデコーダとして,aigc技術を用いた新しいフレームワークを提案する。 このフレームワークは、生成されたさまざまなタイプのコンテンツ、必要な品質、使用する意味情報に適応することができる。 深層qネットワーク(dqn)を用いて,最適化問題の実現可能性とその収束特性に関する有用な知見を提供する事例研究を行った。

Artificial Intelligence Generated Content (AIGC) Services have significant potential in digital content creation. The distinctive abilities of AIGC, such as content generation based on minimal input, hold huge potential, especially when integrating with semantic communication (SemCom). In this paper, a novel comprehensive conceptual model for the integration of AIGC and SemCom is developed. Particularly, a content generation level is introduced on top of the semantic level that provides a clear outline of how AIGC and SemCom interact with each other to produce meaningful and effective content. Moreover, a novel framework that employs AIGC technology is proposed as an encoder and decoder for semantic information, considering the joint optimization of semantic extraction and evaluation metrics tailored to AIGC services. The framework can adapt to different types of content generated, the required quality, and the semantic information utilized. By employing a Deep Q Network (DQN), a case study is presented that provides useful insights into the feasibility of the optimization problem and its convergence characteristics.
翻訳日:2023-08-10 13:32:02 公開日:2023-08-09
# 変形再構成とクロスサブジェクト一貫性目標を用いた自己教師付きランドマーク学習

Self-supervised Landmark Learning with Deformation Reconstruction and Cross-subject Consistency Objectives ( http://arxiv.org/abs/2308.04987v1 )

ライセンス: Link先を確認
Chun-Hung Chao and Marc Niethammer(参考訳) 点分布モデル(英: Point Distribution Model, PDM)は、統計形状モデル(英: Statistical Shape Model, SSM)の基礎であり、形状を表現し、形状の変化を特徴付けるためのランドマーク点の集合に依存する。 本研究では, PDMの登録モデルからランドマーク点を抽出する自己教師型手法を提案する。 ランドマークが登録に最も影響を与えるポイントであるという仮定に基づいて、既存の作品は、変形に最も影響を及ぼすランドマークポイントを推定するために、少数のポイントを持つポイントベースの登録モデルを学ぶ。 しかし、このようなアプローチでは、変形をポイントベースの登録によって捉えることができ、品質のランドマークは変形キャプチャの目的だけで学習できると仮定する。 複雑な変形を持つデータは、限られた数の点のみを用いて影響のあるランドマークポイントを抽出する場合、ポイントベース登録で容易にモデル化できない。 さらに,既存の手法ではランドマーク一貫性が保証されていないため,対象データ用に調整された所定の登録モデルに基づいてランドマークを抽出することで,より正確な対応を得ることができる。 第2に,予測されたランドマークの解剖学的一貫性を確立するために,ランドマーク発見ロスを導入し,対象者間で解剖学的に一貫性のあるランドマークを予測するようにモデルに明示的に推奨する。 変形性関節症進行予測タスクの実験を行い,既存の画像ベースおよびポイントベースアプローチに勝ることを示す。

A Point Distribution Model (PDM) is the basis of a Statistical Shape Model (SSM) that relies on a set of landmark points to represent a shape and characterize the shape variation. In this work, we present a self-supervised approach to extract landmark points from a given registration model for the PDMs. Based on the assumption that the landmarks are the points that have the most influence on registration, existing works learn a point-based registration model with a small number of points to estimate the landmark points that influence the deformation the most. However, such approaches assume that the deformation can be captured by point-based registration and quality landmarks can be learned solely with the deformation capturing objective. We argue that data with complicated deformations can not easily be modeled with point-based registration when only a limited number of points is used to extract influential landmark points. Further, landmark consistency is not assured in existing approaches In contrast, we propose to extract landmarks based on a given registration model, which is tailored for the target data, so we can obtain more accurate correspondences. Secondly, to establish the anatomical consistency of the predicted landmarks, we introduce a landmark discovery loss to explicitly encourage the model to predict the landmarks that are anatomically consistent across subjects. We conduct experiments on an osteoarthritis progression prediction task and show our method outperforms existing image-based and point-based approaches.
翻訳日:2023-08-10 13:24:55 公開日:2023-08-09
# 多言語テキストデータ蒸留の探索

Exploring Multilingual Text Data Distillation ( http://arxiv.org/abs/2308.04982v1 )

ライセンス: Link先を確認
Shivam Sahni, Harsh Patel(参考訳) ディープラーニングの台頭に伴い、大規模なデータセットと複雑なモデルが一般化し、かなりの計算能力を必要としている。 これを解決するために、データ蒸留は、メモリと時間要件の低いモデルを迅速に訓練する技術として登場した。 しかし、テキストベースのデータセット上のデータ蒸留は、その離散的な性質のために困難が増しているため、あまり調査されていない。 さらに、既存のデータセット蒸留法は、しばしば新しいアーキテクチャに一般化するのに苦労する。 本稿では,言語モデルに基づく学習手法を用いた多言語テキスト分類データセットのためのデータ蒸留手法を提案する。 我々は,それらの性能を分類強度,構造間一般化の観点から分析する実験を行った。 さらに,これらの手法により生成されたデータ要約の言語固有の公平性について検討する。 我々のアプローチは既存の技術に基づいており、テキストデータ蒸留領域におけるクロスアーキテクチャの一般化を強化している。

With the rise of deep learning, large datasets and complex models have become common, requiring significant computing power. To address this, data distillation has emerged as a technique to quickly train models with lower memory and time requirements. However, data distillation on text-based datasets hasn't been explored much because of the challenges rising due to its discrete nature. Additionally, existing dataset distillation methods often struggle to generalize to new architectures. In the paper, we propose several data distillation techniques for multilingual text classification datasets using language-model-based learning methods. We conduct experiments to analyze their performance in terms of classification strength, and cross-architecture generalization. Furthermore, we investigate the language-specific fairness of the data summaries generated by these methods. Our approach builds upon existing techniques, enhancing cross-architecture generalization in the text data distillation domain.
翻訳日:2023-08-10 13:24:30 公開日:2023-08-09
# 人間の言語を監督する生体音響の伝達モデル

Transferable Models for Bioacoustics with Human Language Supervision ( http://arxiv.org/abs/2308.04978v1 )

ライセンス: Link先を確認
David Robinson, Adelaide Robinson, Lily Akrapongpisak(参考訳) 受動的音響モニタリングは、グローバルな生物多様性と人類学的影響を追跡するスケーラブルで非侵襲的な方法を提供する。 ディープラーニングはこのデータを処理するための重要なツールになっているが、現在のモデルは柔軟性がなく、典型的には少数の種しかカバーせず、データ不足によって制限されている。 本研究では,生物音響学の新しいモデルであるbiolingualを提案する。 まず、生物音響アーカイブをanimalspeakと呼ばれる言語音声データセットに集約し、100万以上のオーディオキャプチャペアが種、発声コンテキスト、動物の行動に関する情報を保持する。 このデータセットを用いて言語と音声の表現を接続した後、我々のモデルは、分類群をまたいだ1000種以上の呼び出しを識別し、ゼロショットで完全なバイオ音響タスクを完了し、自然なテキストクエリから動物の発声記録を検索することができる。 微調整されたとき、biolingualは動物の音のベンチマークで9つのタスクについて最新技術を設定する。 幅広い分類範囲と柔軟に人間の言語で問合せできる能力を考えると、このモデルは、世界の音響監視アーカイブのフリーテキスト検索を含む、生態学的監視と研究の新しいパラダイムを開くと信じている。 モデル、データセット、コードをオープンソースにしています。

Passive acoustic monitoring offers a scalable, non-invasive method for tracking global biodiversity and anthropogenic impacts on species. Although deep learning has become a vital tool for processing this data, current models are inflexible, typically cover only a handful of species, and are limited by data scarcity. In this work, we propose BioLingual, a new model for bioacoustics based on contrastive language-audio pretraining. We first aggregate bioacoustic archives into a language-audio dataset, called AnimalSpeak, with over a million audio-caption pairs holding information on species, vocalization context, and animal behavior. After training on this dataset to connect language and audio representations, our model can identify over a thousand species' calls across taxa, complete bioacoustic tasks zero-shot, and retrieve animal vocalization recordings from natural text queries. When fine-tuned, BioLingual sets a new state-of-the-art on nine tasks in the Benchmark of Animal Sounds. Given its broad taxa coverage and ability to be flexibly queried in human language, we believe this model opens new paradigms in ecological monitoring and research, including free-text search on the world's acoustic monitoring archives. We open-source our models, dataset, and code.
翻訳日:2023-08-10 13:24:21 公開日:2023-08-09
# Adversarial ModSecurity:ロバスト機械学習によるSQLインジェクション対策

Adversarial ModSecurity: Countering Adversarial SQL Injections with Robust Machine Learning ( http://arxiv.org/abs/2308.04964v1 )

ライセンス: Link先を確認
Biagio Montaruli, Luca Demetrio, Andrea Valenza, Battista Biggio, Luca Compagna, Davide Balzarotti, Davide Ariu, Luca Piras(参考訳) ModSecurityはOWASP Foundationによってメンテナンスされている標準のオープンソースWeb Application Firewall(WAF)として広く認識されている。 悪質なリクエストをCore Rule Setにマッチさせて検出し、よく知られた攻撃パターンを特定する。 CRSの各ルールは、対応する攻撃の重大度に基づいて、手動で重みを割り当て、発射ルールの重みの合計が所定のしきい値を超えた場合、要求を悪意として検出する。 本研究では、この単純な戦略がSQLインジェクション(SQLi)攻撃の検出にはほとんど効果がないことを示す。 これらの問題を克服するために、我々は、CRSルールを入力機能として使用するAdvModSecという堅牢な機械学習モデルを設計し、敵SQLi攻撃を検出するように訓練する。 実験の結果,保護されたWebサービスへのトラフィックをトレーニングしたAdvModSecは,検出と偽陽性率のトレードオフを向上し,CRSによるModSecurityのバニラバージョンの検出率を21%向上させることができた。 さらに,我々のアプローチは,敵のSQLi攻撃に対する敵の堅牢性を42%向上させることで,より堅牢で信頼性の高いWAFの構築を進めることができる。

ModSecurity is widely recognized as the standard open-source Web Application Firewall (WAF), maintained by the OWASP Foundation. It detects malicious requests by matching them against the Core Rule Set, identifying well-known attack patterns. Each rule in the CRS is manually assigned a weight, based on the severity of the corresponding attack, and a request is detected as malicious if the sum of the weights of the firing rules exceeds a given threshold. In this work, we show that this simple strategy is largely ineffective for detecting SQL injection (SQLi) attacks, as it tends to block many legitimate requests, while also being vulnerable to adversarial SQLi attacks, i.e., attacks intentionally manipulated to evade detection. To overcome these issues, we design a robust machine learning model, named AdvModSec, which uses the CRS rules as input features, and it is trained to detect adversarial SQLi attacks. Our experiments show that AdvModSec, being trained on the traffic directed towards the protected web services, achieves a better trade-off between detection and false positive rates, improving the detection rate of the vanilla version of ModSecurity with CRS by 21%. Moreover, our approach is able to improve its adversarial robustness against adversarial SQLi attacks by 42%, thereby taking a step forward towards building more robust and trustworthy WAFs.
翻訳日:2023-08-10 13:24:01 公開日:2023-08-09
# casciff:ソーシャルネットワークにおけるカスケード予測のためのクロスドメイン情報融合フレームワーク

CasCIFF: A Cross-Domain Information Fusion Framework Tailored for Cascade Prediction in Social Networks ( http://arxiv.org/abs/2308.04961v1 )

ライセンス: Link先を確認
Hongjun Zhu, Shun Yuan, Xin Liu, Kuo Chen, Chaolong Jia and Ying Qian(参考訳) 既存の情報カスケード予測のアプローチは,特徴駆動手法,ポイントプロセスに基づく手法,深層学習に基づく3つのカテゴリに分類される。 その中でも、優れた学習能力と表現能力によって特徴付けられる深層学習に基づく手法は、他の方法固有の欠点を緩和する。 しかし、現在のディープラーニング手法は、まだいくつかの永続的な課題に直面している。 特に、フェイクフォロワーや複雑なネットワーク構成などの要因により、ユーザ属性の正確な表現が問題となっている。 ユーザのアクティベーションの順序にフォーカスする以前のアルゴリズムは、アクティベーションタイミングによって提供される豊富な洞察を無視することが多い。 さらに,これらの手法は時間的・構造的側面の一体化に失敗することが多く,情報カスケード固有の伝播傾向を欠いているため,情報カスケード予測に適したクロスドメイン情報融合フレームワーク(CasCIFF)を提案する。 このフレームワークはマルチホップ近隣情報を利用してユーザ埋め込みを堅牢にする。 カスケードを組み込むとき、フレームワークは意図的にタイムスタンプを組み込んで、情報拡散の進化パターンをキャプチャする能力を持つ。 特に、CasCIFFは、ユーザ分類とカスケード予測のタスクをシームレスに統合されたフレームワークに統合し、マルチタスク学習の原則に根ざした戦略である、すべてのタスクに有用な共通の特徴の抽出を可能にする。

Existing approaches for information cascade prediction fall into three main categories: feature-driven methods, point process-based methods, and deep learning-based methods. Among them, deep learning-based methods, characterized by its superior learning and representation capabilities, mitigates the shortcomings inherent of the other methods. However, current deep learning methods still face several persistent challenges. In particular, accurate representation of user attributes remains problematic due to factors such as fake followers and complex network configurations. Previous algorithms that focus on the sequential order of user activations often neglect the rich insights offered by activation timing. Furthermore, these techniques often fail to holistically integrate temporal and structural aspects, thus missing the nuanced propagation trends inherent in information cascades.To address these issues, we propose the Cross-Domain Information Fusion Framework (CasCIFF), which is tailored for information cascade prediction. This framework exploits multi-hop neighborhood information to make user embeddings robust. When embedding cascades, the framework intentionally incorporates timestamps, endowing it with the ability to capture evolving patterns of information diffusion. In particular, the CasCIFF seamlessly integrates the tasks of user classification and cascade prediction into a consolidated framework, thereby allowing the extraction of common features that prove useful for all tasks, a strategy anchored in the principles of multi-task learning.
翻訳日:2023-08-10 13:23:34 公開日:2023-08-09
# 音源分離とロバスト対応学習を用いた音声プライバシー保護のための表現学習

Representation Learning for Audio Privacy Preservation using Source Separation and Robust Adversarial Learning ( http://arxiv.org/abs/2308.04960v1 )

ライセンス: Link先を確認
Diep Luong, Minh Tran, Shayan Gharib, Konstantinos Drossos, Tuomas Virtanen(参考訳) プライバシー保護は、スマート音響監視システムにおいて長年懸念されてきた問題であり、そこでは、システムの動作環境におけるターゲット信号とともに、音声を受動的に記録することができる。 本研究では,プライバシ保護においてよく用いられる2つのアプローチ,すなわちソース分離と逆表現学習の統合を提案する。 提案システムは,音声と非音声の区別を防止するために,音声記録の潜在表現を学習する。 当初、ソース分離ネットワークはプライバシーに敏感なデータをフィルタリングし、敵対的な学習プロセスの間、システムはフィルタリングされた信号のプライバシー保護表現を学習する。 提案手法の有効性を,情報源分離のないシステムと,敵対学習のないシステムと,その両方とを比較して示す。 総じて,提案手法は音源分離や逆学習のみを用い,音響監視タスクの性能を維持しつつ,音声のプライバシー保護を著しく向上できることが示唆された。

Privacy preservation has long been a concern in smart acoustic monitoring systems, where speech can be passively recorded along with a target signal in the system's operating environment. In this study, we propose the integration of two commonly used approaches in privacy preservation: source separation and adversarial representation learning. The proposed system learns the latent representation of audio recordings such that it prevents differentiating between speech and non-speech recordings. Initially, the source separation network filters out some of the privacy-sensitive data, and during the adversarial learning process, the system will learn privacy-preserving representation on the filtered signal. We demonstrate the effectiveness of our proposed method by comparing our method against systems without source separation, without adversarial learning, and without both. Overall, our results suggest that the proposed system can significantly improve speech privacy preservation compared to that of using source separation or adversarial learning solely while maintaining good performance in the acoustic monitoring task.
翻訳日:2023-08-10 13:23:10 公開日:2023-08-09
# アテンションネットワークを用いた分散強化学習による自律的分離保証の改善

Improving Autonomous Separation Assurance through Distributed Reinforcement Learning with Attention Networks ( http://arxiv.org/abs/2308.04958v1 )

ライセンス: Link先を確認
Marc W. Brittain, Luis E. Alvarez, Kara Breeden(参考訳) アドバンスト・エア・モビリティ(advanced air mobility, aam)は、車両の自律性と電化された航空機を用いて、従来未整備の市場間での自律的な輸送を提供する新しい効率的な輸送方法を導入する。 高濃度環境での低高度航空機の安全で効率的な航行には、監視、車両の動力学の知識、天候といった複雑な観測の統合が必要である。 これらの観測の処理と推論は、様々な不確実性の原因により、空域内の様々な航空機との協力を確保しながら課題を提起する。 これらの課題は、従来の分離保証技術の使用をリアルタイムに規制する上で、安全クリティカルな決定をする必要があることに伴う。 本稿では,AAM廊下内における自律的自己分離機能を実現するための分散強化学習フレームワークを提案する。 この問題はマルコフ決定プロセス(Markov Decision Process)として定式化され、サンプル効率の良いオフポリティ・ソフトアクター・クリティック(SAC)アルゴリズムへの新たな拡張を開発することで解決される。 可変長観測処理のためのアテンションネットワークと分散コンピューティングアーキテクチャを導入し,既存の手法と比較して高いトレーニングサンプルスループットを実現する。 提案手法は, 様々な不確実性源を有する高密度で動的環境において, 安全かつ効率的な航空機分離を実現することができることを示す。

Advanced Air Mobility (AAM) introduces a new, efficient mode of transportation with the use of vehicle autonomy and electrified aircraft to provide increasingly autonomous transportation between previously underserved markets. Safe and efficient navigation of low altitude aircraft through highly dense environments requires the integration of a multitude of complex observations, such as surveillance, knowledge of vehicle dynamics, and weather. The processing and reasoning on these observations pose challenges due to the various sources of uncertainty in the information while ensuring cooperation with a variable number of aircraft in the airspace. These challenges coupled with the requirement to make safety-critical decisions in real-time rule out the use of conventional separation assurance techniques. We present a decentralized reinforcement learning framework to provide autonomous self-separation capabilities within AAM corridors with the use of speed and vertical maneuvers. The problem is formulated as a Markov Decision Process and solved by developing a novel extension to the sample-efficient, off-policy soft actor-critic (SAC) algorithm. We introduce the use of attention networks for variable-length observation processing and a distributed computing architecture to achieve high training sample throughput as compared to existing approaches. A comprehensive numerical study shows that the proposed framework can ensure safe and efficient separation of aircraft in high density, dynamic environments with various sources of uncertainty.
翻訳日:2023-08-10 13:22:54 公開日:2023-08-09
# Ab initio Heterogenous Cryo-EM 3D 再建のためのACE-HetEM

ACE-HetEM for ab initio Heterogenous Cryo-EM 3D Reconstruction ( http://arxiv.org/abs/2308.04956v1 )

ライセンス: Link先を確認
Weijie Chen, Lin Yao, Zeqing Xia, Yuhang Wang(参考訳) 極低信号-雑音比 (SNR) と未知のポーズ (投影角度と画像変換) により, 2次元画像から3次元構造を再構成することは極めて困難である。 これらの課題に加えて、不均一なCryo-EM再構成にも追加の要件がある。 この問題に対する新たな解決策は、オートエンコーダアーキテクチャやその変種を用いて実装された、アモータライズ推論(amortized inference)と呼ばれる。 非amortizedメソッドのようにデータセット内のすべてのイメージに対して、正しいイメージ-ポーズ/コンフォーメーションマッピングを探す代わりに、償却推論は、ポーズやコンフォーメーションを表す適切な潜在空間にイメージをマッピングするエンコーダをトレーニングするだけでよい。 残念なことに、エンタングルな潜在空間を持つ標準無形参照法では、cryo-em画像からのコンフォメーションの分布やポーズの学習が困難である。 本稿では,非教師付きディープラーニングアーキテクチャであるACE-HetEMを提案する。 コンフォメーション分類の不整合とポーズ推定を明示的に強制するために,画像から画像へのタスクとポーズからポーズへのタスクという2つの交互なトレーニングタスクを設計した。 シミュレーションデータセットの結果,ace-hetemはポーズ推定の精度が同等であり,非amortized法よりも高い再現性が得られた。 さらに,ACE-HetEMは実実験データセットにも適用可能であることを示す。

Due to the extremely low signal-to-noise ratio (SNR) and unknown poses (projection angles and image translation) in cryo-EM experiments, reconstructing 3D structures from 2D images is very challenging. On top of these challenges, heterogeneous cryo-EM reconstruction also has an additional requirement: conformation classification. An emerging solution to this problem is called amortized inference, implemented using the autoencoder architecture or its variants. Instead of searching for the correct image-to-pose/conformation mapping for every image in the dataset as in non-amortized methods, amortized inference only needs to train an encoder that maps images to appropriate latent spaces representing poses or conformations. Unfortunately, standard amortized-inference-based methods with entangled latent spaces have difficulty learning the distribution of conformations and poses from cryo-EM images. In this paper, we propose an unsupervised deep learning architecture called "ACE-HetEM" based on amortized inference. To explicitly enforce the disentanglement of conformation classifications and pose estimations, we designed two alternating training tasks in our method: image-to-image task and pose-to-pose task. Results on simulated datasets show that ACE-HetEM has comparable accuracy in pose estimation and produces even better reconstruction resolution than non-amortized methods. Furthermore, we show that ACE-HetEM is also applicable to real experimental datasets.
翻訳日:2023-08-10 13:22:30 公開日:2023-08-09
# 無線パワーフェデレーション学習ネットワーク:ジョイントパワートランスファー、データセンシング、モデルトレーニング、リソースアロケーション

Wirelessly Powered Federated Learning Networks: Joint Power Transfer, Data Sensing, Model Training, and Resource Allocation ( http://arxiv.org/abs/2308.04953v1 )

ライセンス: Link先を確認
Mai Le and Dinh Thai Hoang and Diep N. Nguyen and Won-Joo Hwang and Quoc-Viet Pham(参考訳) federated learning (fl) は無線ネットワークで多くの成功を収めているが、モバイルデバイス(mds)のエネルギー制限とmdsでのトレーニングデータの可用性によって、flの実装は妨げられている。 持続可能なFLソリューションに向けた無線送電とモバイルクラウドセンシングの統合は、オープンな文献から完全に欠落している研究トピックである。 本研究は,s2fl(collaborative sensing-assisted sustainable fl)ネットワークにおける資源割当問題を初めて検討し,全体の完了時間を最小化することを目的とした。 本研究では,まずRF信号からエネルギー制限されたMDを抽出し,ユーザの参加に報奨を与えるとともに,環境からトレーニングデータを感知し,MDでローカルモデルを訓練し,そのモデル更新をサーバに送信する,実用的な収穫訓練・送信プロトコルについて検討する。 非凸目的関数、非凸制約、強い結合変数により、共同で電力転送、送信電力割り当て、データセンシング、帯域割り当て、ローカルモデルトレーニング、データ伝送を最適化する総完了時間最小化問題は複雑である。 本手法を用いて最適解を求めるために,計算効率の良い経路追従アルゴリズムを提案する。 特に、資源割当部分問題に対して内凸近似を開発し、その部分問題に対して反復的手法で代用する。 提案したS2FLアルゴリズムの有効性を,他のベンチマーク手法と比較して最大21.45%の完了時間で評価するシミュレーション結果が得られた。 さらに,周波数分割多重アクセス (FDMA) から非直交多重アクセス (NOMA) への拡張について検討し,NOMAが考慮したFLシステムの平均完了時間を8.36%高速化できることを示す。

Federated learning (FL) has found many successes in wireless networks; however, the implementation of FL has been hindered by the energy limitation of mobile devices (MDs) and the availability of training data at MDs. How to integrate wireless power transfer and mobile crowdsensing towards sustainable FL solutions is a research topic entirely missing from the open literature. This work for the first time investigates a resource allocation problem in collaborative sensing-assisted sustainable FL (S2FL) networks with the goal of minimizing the total completion time. We investigate a practical harvesting-sensing-training-transmitting protocol in which energy-limited MDs first harvest energy from RF signals, use it to gain a reward for user participation, sense the training data from the environment, train the local models at MDs, and transmit the model updates to the server. The total completion time minimization problem of jointly optimizing power transfer, transmit power allocation, data sensing, bandwidth allocation, local model training, and data transmission is complicated due to the non-convex objective function, highly non-convex constraints, and strongly coupled variables. We propose a computationally-efficient path-following algorithm to obtain the optimal solution via the decomposition technique. In particular, inner convex approximations are developed for the resource allocation subproblem, and the subproblems are performed alternatively in an iterative fashion. Simulation results are provided to evaluate the effectiveness of the proposed S2FL algorithm in reducing the completion time up to 21.45% in comparison with other benchmark schemes. Further, we investigate an extension of our work from frequency division multiple access (FDMA) to non-orthogonal multiple access (NOMA) and show that NOMA can speed up the total completion time 8.36% on average of the considered FL system.
翻訳日:2023-08-10 13:22:01 公開日:2023-08-09
# 一般化Few-shot Semantic Segmentationのためのプロトタイプカーネル学習とオープンセット前景知覚

Prototypical Kernel Learning and Open-set Foreground Perception for Generalized Few-shot Semantic Segmentation ( http://arxiv.org/abs/2308.04952v1 )

ライセンス: Link先を確認
Kai Huang, Feigege Wang, Ye Xi, Yutao Gao(参考訳) 汎用Few-shot Semantic Segmentation (GFSS)は、Few-shot Semantic Segmentation (FSS)を拡張して、評価中に未確認のクラスと見たクラスを同時にセグメントする。 以前の作品は、fssの制約された設定を排除するために追加の分岐または原型集約を利用する。 しかし,GFSSの低下に大きく寄与する表現分割と埋め込み偏見は,合成学的には考慮されていない。 上記の問題に対して,プロトタイプカーネル学習とオープンセット前景認識を併用することで対処する。 具体的には、学習可能なカーネル群が、モノクラスを担当する各カーネルとセグメンテーションを行うために提案されている。 そこで我々は,原型学習をベースクラスカーネルの更新にマージすることを検討した。 また、条件バイアスに基づく推論と協調する前景知覚モジュールを採用し、クラス非依存およびオープンセット前景検出を行い、埋め込み偏見を軽減し、新規なターゲットを背景として誤分類することを防止する。 さらに,本手法を,インクリメンタルストリームにおける新規クラスの知識を取り入れたCIFSS(Class Incremental Few-shot Semantic Segmentation)に適応させる。 PASCAL-5iとCOCO-20iデータセットの大規模な実験により、我々の手法は従来の最先端技術よりも優れた性能を示した。

Generalized Few-shot Semantic Segmentation (GFSS) extends Few-shot Semantic Segmentation (FSS) to simultaneously segment unseen classes and seen classes during evaluation. Previous works leverage additional branch or prototypical aggregation to eliminate the constrained setting of FSS. However, representation division and embedding prejudice, which heavily results in poor performance of GFSS, have not been synthetical considered. We address the aforementioned problems by jointing the prototypical kernel learning and open-set foreground perception. Specifically, a group of learnable kernels is proposed to perform segmentation with each kernel in charge of a stuff class. Then, we explore to merge the prototypical learning to the update of base-class kernels, which is consistent with the prototype knowledge aggregation of few-shot novel classes. In addition, a foreground contextual perception module cooperating with conditional bias based inference is adopted to perform class-agnostic as well as open-set foreground detection, thus to mitigate the embedding prejudice and prevent novel targets from being misclassified as background. Moreover, we also adjust our method to the Class Incremental Few-shot Semantic Segmentation (CIFSS) which takes the knowledge of novel classes in a incremental stream. Extensive experiments on PASCAL-5i and COCO-20i datasets demonstrate that our method performs better than previous state-of-the-art.
翻訳日:2023-08-10 13:21:28 公開日:2023-08-09
# ProWis: 実行時の気象シミュレーションアンサンブルの構築、管理、分析のためのビジュアルアプローチ

ProWis: A Visual Approach for Building, Managing, and Analyzing Weather Simulation Ensembles at Runtime ( http://arxiv.org/abs/2308.05019v1 )

ライセンス: Link先を確認
Carolina Veiga Ferreira de Souza, Suzanna Maria Bonnet, Daniel de Oliveira, Marcio Cataldi, Fabio Miranda, Marcos Lage(参考訳) 天気予報は意思決定に不可欠であり、通常数値モデルを用いて行われる。 数値気象モデルは、専門的な訓練と精巧なセットアップを必要とする複雑なツールであり、気象専門家にとっても難しい。 さらに、気象シミュレーションはデータ集約的な計算であり、完了するまで数時間から数日かかる可能性がある。 シミュレーションが完了すると、専門家は時空間および多変量の大量のデータを出力として分析する課題に直面します。 シミュレーション設定から結果の分析まで、気象シミュレーションはいくつかの手動およびエラーを起こしやすいステップを含む。 専門家がシミュレーションのアンサンブルを扱わなければならないとき、問題の複雑さは指数関数的に増加する。 気象専門家が実行時にシミュレーションアンサンブルを構築し、管理し、分析するのに役立つインタラクティブでプロヴァンス指向のシステムであるprowisを提案する。 本システムは,複数の大気変数と気象シナリオの探索を可能にするために,ループ内の人間的アプローチに従っている。 prowisは気象専門家との密接なコラボレーションによって構築され,ブラジルにおける降雨現象の2つのケーススタディを提示することにより,その効果を実証する。

Weather forecasting is essential for decision-making and is usually performed using numerical modeling. Numerical weather models, in turn, are complex tools that require specialized training and laborious setup and are challenging even for weather experts. Moreover, weather simulations are data-intensive computations and may take hours to days to complete. When the simulation is finished, the experts face challenges analyzing its outputs, a large mass of spatiotemporal and multivariate data. From the simulation setup to the analysis of results, working with weather simulations involves several manual and error-prone steps. The complexity of the problem increases exponentially when the experts must deal with ensembles of simulations, a frequent task in their daily duties. To tackle these challenges, we propose ProWis: an interactive and provenance-oriented system to help weather experts build, manage, and analyze simulation ensembles at runtime. Our system follows a human-in-the-loop approach to enable the exploration of multiple atmospheric variables and weather scenarios. ProWis was built in close collaboration with weather experts, and we demonstrate its effectiveness by presenting two case studies of rainfall events in Brazil.
翻訳日:2023-08-10 13:15:36 公開日:2023-08-09
# 未知のクラスはいつ、どうやって発見できるのか? スペクトル分析による確率的理解

When and How Does Known Class Help Discover Unknown Ones? Provable Understanding Through Spectral Analysis ( http://arxiv.org/abs/2308.05017v1 )

ライセンス: Link先を確認
Yiyou Sun, Zhenmei Shi, Yingyu Liang, Yixuan Li(参考訳) 新規クラス発見 (NCD) は、既知のクラスを持つラベル付きセットからの事前知識を活用することにより、ラベルなしセットで新しいクラスを推論することを目的としている。 その重要性にもかかわらず、NCDの理論的基盤は欠如している。 本稿では,新しいクラスをいつ,どのように発見できるかを定式化し,検討するための分析フレームワークを提供することで,ギャップを埋める。 NCD問題に対応して,新しいNCDスペクトルコントラスト損失(NSCL)によって学習可能なグラフ理論表現を導入する。 この目的を最小化することはグラフの隣接行列を分解し、証明可能な誤差境界を導出し、NCDに十分かつ必要な条件を与えることができる。 NSCLは、理論的な保証を享受しながら、実用的な使用にアピールする一般的なベンチマークデータセットにおいて、いくつかの強力なベースラインを適合または上回ることができる。

Novel Class Discovery (NCD) aims at inferring novel classes in an unlabeled set by leveraging prior knowledge from a labeled set with known classes. Despite its importance, there is a lack of theoretical foundations for NCD. This paper bridges the gap by providing an analytical framework to formalize and investigate when and how known classes can help discover novel classes. Tailored to the NCD problem, we introduce a graph-theoretic representation that can be learned by a novel NCD Spectral Contrastive Loss (NSCL). Minimizing this objective is equivalent to factorizing the graph's adjacency matrix, which allows us to derive a provable error bound and provide the sufficient and necessary condition for NCD. Empirically, NSCL can match or outperform several strong baselines on common benchmark datasets, which is appealing for practical usage while enjoying theoretical guarantees.
翻訳日:2023-08-10 13:15:16 公開日:2023-08-09
# オープンソースフェデレーション学習フレームワークにおけるバグの実証的研究

An Empirical Study of Bugs in Open-Source Federated Learning Framework ( http://arxiv.org/abs/2308.05014v1 )

ライセンス: Link先を確認
Weijie Shao and Yuyang Gao and Fu Song and Sen Chen and Lingling Fan(参考訳) ユーザのプライベートデータを保護するための分散機械学習ソリューションであるフェデレートラーニング(FL)は,近年,特に多くの国で厳格な法律や規則が施行されて以降,重要な学習パラダイムとなっている。 そのため、フェデレート学習の開発と適用を容易にするために、さまざまなFLフレームワークがリリースされている。 FLモデルとシステムのセキュリティとプライバシに関するかなりの研究にもかかわらず、FLフレームワークのセキュリティ問題はまだ体系的に研究されていない。 本稿では,1,112個のflフレームワークのバグに関する最初の実証研究を行い,その特性について検討する。 これらのバグは、github上の12のオープンソースflフレームワークから手動で収集、分類、ラベル付けされる。 具体的には,15の症状,12の根本原因,20のバグの修正パターンの分類法を構築し,23の論理コンポーネントと2つの主なアプリケーションシナリオの相関と分布を調査した。 本研究の結果から,9つの知見を提示し,その意義について考察し,FLフレームワークの開発者やセキュリティ研究者に対していくつかの提案を行った。

Federated learning (FL), as a decentralized machine learning solution to the protection of users' private data, has become an important learning paradigm in recent years, especially since the enforcement of stricter laws and regulations in most countries. Therefore, a variety of FL frameworks are released to facilitate the development and application of federated learning. Despite the considerable amount of research on the security and privacy of FL models and systems, the security issues in FL frameworks have not been systematically studied yet. In this paper, we conduct the first empirical study on 1,112 FL framework bugs to investigate their characteristics. These bugs are manually collected, classified, and labeled from 12 open-source FL frameworks on GitHub. In detail, we construct taxonomies of 15 symptoms, 12 root causes, and 20 fix patterns of these bugs and investigate their correlations and distributions on 23 logical components and two main application scenarios. From the results of our study, we present nine findings, discuss their implications, and propound several suggestions to FL framework developers and security researchers on the FL frameworks.
翻訳日:2023-08-10 13:14:58 公開日:2023-08-09
# MetRoBERTa: 従来の顧客関係管理データを活用したトランジットトピック対応言語モデルの開発

MetRoBERTa: Leveraging Traditional Customer Relationship Management Data to Develop a Transit-Topic-Aware Language Model ( http://arxiv.org/abs/2308.05012v1 )

ライセンス: Link先を確認
Michael Leong, Awad Abdelhalim, Jude Ha, Dianne Patterson, Gabriel L. Pincus, Anthony B. Harris, Michael Eichler, Jinhua Zhao(参考訳) 乗客調査や顧客関係管理(CRM)チャネル,近年ではソーシャルメディアを通じて,交通機関がサービスやイニシアチブの有効性をよりよく評価する上で,交通機関のフィードバックが重要である。 これらの機器で共有されたフィードバックを通じて、ライダーの体験を包括的に理解することは、しばしば困難である。 本稿では,従来のトランジットcrmフィードバックを活用し,トランジットトピックを認識可能な大規模言語モデル(llm)を開発し,展開することを提案する。 まず,ワシントン大都市圏交通局(wmata)が提供する6年間の顧客フィードバックコーパスで検出された11の広範な交通トピックのトレーニングデータセットを,半教師付き学習を用いて構築する。 次に、このデータセットを使用して、RoBERTaアーキテクチャに基づいた言語モデルをトレーニングし、徹底的に評価します。 LLM, MetRoBERTa をキーワードベースおよび語彙表現を用いた古典的機械学習手法と比較した。 提案手法は,すべての評価指標で比較し,平均トピック分類精度90%を提供する。 最後に、この作業の価値提案を提供し、言語モデルと追加のテキスト処理ツールを使って、twitterのようなオープンエンドのテキストソースに構造を追加する方法を示します。 本稿では,交通機関が顧客体験をよりよく理解し,改善できるように,交通機関のフィードバックを大規模に取り込み,視覚化し,報告するための,自動化され,一般化可能なアプローチの道筋を提供する。

Transit riders' feedback provided in ridership surveys, customer relationship management (CRM) channels, and in more recent times, through social media is key for transit agencies to better gauge the efficacy of their services and initiatives. Getting a holistic understanding of riders' experience through the feedback shared in those instruments is often challenging, mostly due to the open-ended, unstructured nature of text feedback. In this paper, we propose leveraging traditional transit CRM feedback to develop and deploy a transit-topic-aware large language model (LLM) capable of classifying open-ended text feedback to relevant transit-specific topics. First, we utilize semi-supervised learning to engineer a training dataset of 11 broad transit topics detected in a corpus of 6 years of customer feedback provided to the Washington Metropolitan Area Transit Authority (WMATA). We then use this dataset to train and thoroughly evaluate a language model based on the RoBERTa architecture. We compare our LLM, MetRoBERTa, to classical machine learning approaches utilizing keyword-based and lexicon representations. Our model outperforms those methods across all evaluation metrics, providing an average topic classification accuracy of 90%. Finally, we provide a value proposition of this work demonstrating how the language model, alongside additional text processing tools, can be applied to add structure to open-ended text sources of feedback like Twitter. The framework and results we present provide a pathway for an automated, generalizable approach for ingesting, visualizing, and reporting transit riders' feedback at scale, enabling agencies to better understand and improve customer experience.
翻訳日:2023-08-10 13:14:40 公開日:2023-08-09
# 多クラス深層svdd:異なる慣性圏を持つ天文学における異常検出アプローチ

Multi-Class Deep SVDD: Anomaly Detection Approach in Astronomy with Distinct Inlier Categories ( http://arxiv.org/abs/2308.05011v1 )

ライセンス: Link先を確認
P\'erez-Carrasco Manuel, Cabrera-Vives Guillermo, Hern\'andez-Garc\'ia Lorena, Forster Francisco, S\'anchez-S\'aez Paula, Mu\~noz Arancibia Alejandra, Astorga Nicol\'as, Bauer Franz, Bayo Amelia, C\'adiz-Leyton Martina, Catelan Marcio(参考訳) 現代のサーベイ望遠鏡が生成する天文学データの増加に伴い、これらのデータセットから知識を分析し抽出するためには、自動パイプラインと機械学習技術が重要になっている。 データ中の不規則パターンや予期せぬパターンを識別するタスクである異常検出は天文学の複雑な課題である。 本稿では,最先端の異常検出アルゴリズムであるdeep svddの拡張であるmulti-class deep support vector data description (mcdsvdd)を提案する。 MCDSVDDはニューラルネットワークを使用してデータをハイパースフィアにマッピングする。 これらの超球の中心から各サンプルの距離は、異常スコアを決定する。 ツウィッキー・トランジット・インスティテューション (zwicky transient facility) から得られた天文光曲線の大規模データセットにおける複数の異常検出アルゴリズムとの比較により,mcdsvddの有効性を評価した。 以上の結果から, 異常源の検出にMDCSVDDが有効であることが示唆された。 結果の再現に必要なコードとデータは、https://github.com/mperezcarrasco/anomalyalerceで公開されている。

With the increasing volume of astronomical data generated by modern survey telescopes, automated pipelines and machine learning techniques have become crucial for analyzing and extracting knowledge from these datasets. Anomaly detection, i.e. the task of identifying irregular or unexpected patterns in the data, is a complex challenge in astronomy. In this paper, we propose Multi-Class Deep Support Vector Data Description (MCDSVDD), an extension of the state-of-the-art anomaly detection algorithm One-Class Deep SVDD, specifically designed to handle different inlier categories with distinct data distributions. MCDSVDD uses a neural network to map the data into hyperspheres, where each hypersphere represents a specific inlier category. The distance of each sample from the centers of these hyperspheres determines the anomaly score. We evaluate the effectiveness of MCDSVDD by comparing its performance with several anomaly detection algorithms on a large dataset of astronomical light-curves obtained from the Zwicky Transient Facility. Our results demonstrate the efficacy of MCDSVDD in detecting anomalous sources while leveraging the presence of different inlier categories. The code and the data needed to reproduce our results are publicly available at https://github.com/mperezcarrasco/AnomalyALeRCE.
翻訳日:2023-08-10 13:14:14 公開日:2023-08-09
# マルチソース衛星SARと光学画像を用いた森林マッピングにおける深層学習モデル転送

Deep Learning Model Transfer in Forest Mapping using Multi-source Satellite SAR and Optical Images ( http://arxiv.org/abs/2308.05005v1 )

ライセンス: Link先を確認
Shaojia Ge, Oleg Antropov, Tuomas H\"ame, Ronald E. McRoberts, Jukka Miettinen(参考訳) 地中観測画像を用いた森林変動予測において,深層学習モデルが人気を集めている。 しかし,実際の林業在庫では,基準データセットはプロットやスタンドレベルの測定で表されることが多く,DLモデルのエンドツーエンドトレーニングのための高品質な壁間基準データはほとんど得られない。 トランスファーラーニングは、高品質の教育データが利用できる領域において、モデルの事前学習を可能にすることにより、ディープラーニングモデルを準最適トレーニングデータを持つ領域に拡張することを促進する。 本研究では,事前学習されたdlモデルのモデル移行(あるいはドメイン適応)をプロットレベル計測を用いて目標領域へ実行し,他の機械学習モデルと比較する。 従来開発されたUNetベースモデル(SeUNet)を用いて,森林構造と構成の異なる2つの異なるタイガサイトへのアプローチを実証した。 マルチソース地球観測(EO)データは、Copernicus Sentinel-1 CバンドSARとSentinel-2マルチスペクトル画像、JAXA ALOS-2 PALSAR-2 SARモザイクおよびTandEM-Xバイスタティック干渉レーダーデータの組み合わせで表される。 訓練訓練施設はフィンランド・ラップランドにあり、標的施設はフィンランド南部にある。 転送学習を活用することで、SeUNetの予測は2.70 m と R$^2$ 0.882 のルート平均二乗誤差(RMSE)を達成した。 このような森林固有のdlモデル転送は、森林構造に敏感な他の森林変数や他のeoデータソースにも適していると期待する。

Deep learning (DL) models are gaining popularity in forest variable prediction using Earth Observation images. However, in practical forest inventories, reference datasets are often represented by plot- or stand-level measurements, while high-quality representative wall-to-wall reference data for end-to-end training of DL models are rarely available. Transfer learning facilitates expansion of the use of deep learning models into areas with sub-optimal training data by allowing pretraining of the model in areas where high-quality teaching data are available. In this study, we perform a "model transfer" (or domain adaptation) of a pretrained DL model into a target area using plot-level measurements and compare performance versus other machine learning models. We use an earlier developed UNet based model (SeUNet) to demonstrate the approach on two distinct taiga sites with varying forest structure and composition. Multisource Earth Observation (EO) data are represented by a combination of Copernicus Sentinel-1 C-band SAR and Sentinel-2 multispectral images, JAXA ALOS-2 PALSAR-2 SAR mosaic and TanDEM-X bistatic interferometric radar data. The training study site is located in Finnish Lapland, while the target site is located in Southern Finland. By leveraging transfer learning, the prediction of SeUNet achieved root mean squared error (RMSE) of 2.70 m and R$^2$ of 0.882, considerably more accurate than traditional benchmark methods. We expect such forest-specific DL model transfer can be suitable also for other forest variables and other EO data sources that are sensitive to forest structure.
翻訳日:2023-08-10 13:13:54 公開日:2023-08-09
# 修正突然変異とクロスオーバー演算子を用いた直接微分方程式の発見

Directed differential equation discovery using modified mutation and cross-over operators ( http://arxiv.org/abs/2308.04996v1 )

ライセンス: Link先を確認
Elizaveta Ivanchik and Alexander Hvatov(参考訳) プロセスの起源を知る方程式の発見は、魅力的な見通しである。 しかし、ほとんどの方程式発見ツールはパラメータの限定的な制御を提供する勾配法に依存している。 別のアプローチとして、ほとんど全ての最適化段階を修正できる進化方程式発見がある。 本稿では, 化学や生物学などの分野に応用された進化的手法から着想を得て, 方程式探索アルゴリズムの進化演算子に導入可能な改良について検討する。 導電方程式探索と呼ばれる結果のアプローチは、従来の方法よりも正確な解に収束する能力を示している。 本研究では,バーガーズ方程式,波動方程式,コルテヴェーグ-ド・ブリーズ方程式に基づく実験を行った。

The discovery of equations with knowledge of the process origin is a tempting prospect. However, most equation discovery tools rely on gradient methods, which offer limited control over parameters. An alternative approach is the evolutionary equation discovery, which allows modification of almost every optimization stage. In this paper, we examine the modifications that can be introduced into the evolutionary operators of the equation discovery algorithm, taking inspiration from directed evolution techniques employed in fields such as chemistry and biology. The resulting approach, dubbed directed equation discovery, demonstrates a greater ability to converge towards accurate solutions than the conventional method. To support our findings, we present experiments based on Burgers', wave, and Korteweg--de Vries equations.
翻訳日:2023-08-10 13:13:22 公開日:2023-08-09
# IDiff-Face:Fizzy Identity-Conditioned Diffusion Modelによる合成顔認識

IDiff-Face: Synthetic-based Face Recognition through Fizzy Identity-Conditioned Diffusion Models ( http://arxiv.org/abs/2308.04995v1 )

ライセンス: Link先を確認
Fadi Boutros, Jonas Henry Grebe, Arjan Kuijper, Naser Dame(参考訳) 大規模な顔データベースが利用できることは、過去10年間の顔認識研究における重要な進歩に不可欠である。 しかし、法的・倫理的な懸念から、これらのデータベースの多くは作者によって最近取り消され、重要なリソースの1つなしで将来の顔認識研究の継続性に関する疑問が持ち上がった。 合成データセットは、顔認識開発のためのプライバシーに敏感な認証データに代わる有望な選択肢として登場した。 しかし、顔認識モデルを訓練するために使用される最近の合成データセットは、クラス内多様性の制限またはクラス内(アイデンティティ)識別の制限に悩まされており、真のデータに基づいて訓練されたモデルによって達成された精度から遠く離れた最適な精度が低い。 本稿では,顔認識訓練のためのリアルなアイデンティティ変動を伴う合成アイデンティティ生成のための条件付き潜在拡散モデルに基づく新しいアプローチであるidiff-faceを提案する。 広範な評価を通じて,提案手法は最先端のパフォーマンスの限界を押し上げ,例えば,ワイルド(lfw)ベンチマークにおけるラベル付き顔の98.00%精度を,95.40%の合成型顔認識ソリューションよりもはるかに上回っており,99.82%の精度で真正な顔認識へのギャップを橋渡ししている。

The availability of large-scale authentic face databases has been crucial to the significant advances made in face recognition research over the past decade. However, legal and ethical concerns led to the recent retraction of many of these databases by their creators, raising questions about the continuity of future face recognition research without one of its key resources. Synthetic datasets have emerged as a promising alternative to privacy-sensitive authentic data for face recognition development. However, recent synthetic datasets that are used to train face recognition models suffer either from limitations in intra-class diversity or cross-class (identity) discrimination, leading to less optimal accuracies, far away from the accuracies achieved by models trained on authentic data. This paper targets this issue by proposing IDiff-Face, a novel approach based on conditional latent diffusion models for synthetic identity generation with realistic identity variations for face recognition training. Through extensive evaluations, our proposed synthetic-based face recognition approach pushed the limits of state-of-the-art performances, achieving, for example, 98.00% accuracy on the Labeled Faces in the Wild (LFW) benchmark, far ahead from the recent synthetic-based face recognition solutions with 95.40% and bridging the gap to authentic-based face recognition with 99.82% accuracy.
翻訳日:2023-08-10 13:13:11 公開日:2023-08-09
# AspectMMKG: アスペクト認識エンティティを備えたマルチモーダル知識グラフ

AspectMMKG: A Multi-modal Knowledge Graph with Aspect-aware Entities ( http://arxiv.org/abs/2308.04992v1 )

ライセンス: Link先を確認
Jingdan Zhang, Jiaan Wang, Xiaodan Wang, Zhixu Li, Yanghua Xiao(参考訳) マルチモーダル知識グラフ(MMKG)は、さまざまなモーダルデータ(テキストや画像など)を組み合わせて、エンティティを包括的に理解する。 近年の大規模MMKGの進歩にもかかわらず、既存のMMKGはエンティティの多面的な性質を無視し、さまざまな観点からエンティティを理解する能力を制限する。 本稿では,アスペクト関連画像を持つ最初のMMKGであるAspectMMKGを構築する。 具体的には、知識ベースからアスペクト関連画像を集め、さらに知識ベースからアスペクト関連文をクエリとして抽出し、オンライン画像検索エンジンを介して多数のアスペクト関連画像を取得する。 最後に、AspectMMKGには2,380のエンティティ、18,139のエンティティアスペクト、645,383のアスペクト関連イメージが含まれている。 本稿では,エンティティ・アスペクト・リンク(EAL)下流タスクにおけるAspectMMKGのユーザビリティを実証し,従来のEALモデルがAspectMMKGの助けを借りて新たな最先端性能を実現することを示す。 AspectMMKGにおけるアスペクト関連画像の修正と拡張を目的としたアスペクト関連画像検索(AIR)モデルを提案する。 エンティティ画像,アスペクト,アスペクト情報を組み込んで,エンティティ画像とエンティティアスペクト関連画像の関係を学習するために,airモデルを訓練する。 実験結果は、エアモデルが与えられたエンティティ w.r.t の異なる側面に適した画像を取得することができることを示した。

Multi-modal knowledge graphs (MMKGs) combine different modal data (e.g., text and image) for a comprehensive understanding of entities. Despite the recent progress of large-scale MMKGs, existing MMKGs neglect the multi-aspect nature of entities, limiting the ability to comprehend entities from various perspectives. In this paper, we construct AspectMMKG, the first MMKG with aspect-related images by matching images to different entity aspects. Specifically, we collect aspect-related images from a knowledge base, and further extract aspect-related sentences from the knowledge base as queries to retrieve a large number of aspect-related images via an online image search engine. Finally, AspectMMKG contains 2,380 entities, 18,139 entity aspects, and 645,383 aspect-related images. We demonstrate the usability of AspectMMKG in entity aspect linking (EAL) downstream task and show that previous EAL models achieve a new state-of-the-art performance with the help of AspectMMKG. To facilitate the research on aspect-related MMKG, we further propose an aspect-related image retrieval (AIR) model, that aims to correct and expand aspect-related images in AspectMMKG. We train an AIR model to learn the relationship between entity image and entity aspect-related images by incorporating entity image, aspect, and aspect image information. Experimental results indicate that the AIR model could retrieve suitable images for a given entity w.r.t different aspects.
翻訳日:2023-08-10 13:12:49 公開日:2023-08-09
# 複合画像特徴の蒸留による前景物体探索

Foreground Object Search by Distilling Composite Image Feature ( http://arxiv.org/abs/2308.04990v1 )

ライセンス: Link先を確認
Bo Zhang and Jiacheng Sui and Li Niu(参考訳) Foreground Object Search (FOS) は、対象の背景画像に対して互換性のある前景オブジェクトを見つけることを目的としており、現実的な合成画像を生成する。 複合画像の適合性を予測するために判別器を用いることで,競合検索性能が向上するが,この手法には許容できない時間コストが伴う。 そこで本研究では, 蒸留合成法(DiscoFOS)による新しいFOS法を提案する。 具体的には、上記判別器が教師ネットワークとして機能する。 学生ネットワークは、2つのエンコーダを用いて前景特徴と背景特徴を抽出する。 その相互作用出力は、教師ネットワークからの合成画像特徴と一致するように強制される。 さらに,従来の研究ではデータセットを公開しなかったため,合成合成画像を用いたS-FOSDデータセットと実合成画像を用いたR-FOSDデータセットという,FOSタスクのための2つのデータセットをコントリビュートした。 2つのデータセットに関する広範な実験により,提案手法が従来手法よりも優れていることが示された。 データセットとコードはhttps://github.com/bcmi/Foreground-Object-Search-Dataset-FOSDで公開されている。

Foreground object search (FOS) aims to find compatible foreground objects for a given background image, producing realistic composite image. We observe that competitive retrieval performance could be achieved by using a discriminator to predict the compatibility of composite image, but this approach has unaffordable time cost. To this end, we propose a novel FOS method via distilling composite feature (DiscoFOS). Specifically, the abovementioned discriminator serves as teacher network. The student network employs two encoders to extract foreground feature and background feature. Their interaction output is enforced to match the composite image feature from the teacher network. Additionally, previous works did not release their datasets, so we contribute two datasets for FOS task: S-FOSD dataset with synthetic composite images and R-FOSD dataset with real composite images. Extensive experiments on our two datasets demonstrate the superiority of the proposed method over previous approaches. The dataset and code are available at https://github.com/bcmi/Foreground-Object-Search-Dataset-FOSD.
翻訳日:2023-08-10 13:12:24 公開日:2023-08-09
# RadGraph2:階層的情報抽出による放射線医学報告における疾患進展のモデル化

RadGraph2: Modeling Disease Progression in Radiology Reports via Hierarchical Information Extraction ( http://arxiv.org/abs/2308.05046v1 )

ライセンス: Link先を確認
Sameer Khanna, Adam Dejl, Kibo Yoon, Quoc Hung Truong, Hanh Duong, Agustina Saenz, Pranav Rajpurkar(参考訳) radgraph2は,疾患状態の変化やデバイス配置の経時的変化を捉えることに焦点を当てた,放射線レポートから情報を抽出する新しいデータセットである。 本稿では,その関係に基づいてエンティティを整理する階層スキーマを導入し,トレーニング中にこの階層を用いることで情報抽出モデルの性能が向上することを示す。 具体的には、dygie++フレームワークの修正を提案し、エンティティおよび関係抽出タスクで従来のモデルを上回るモデルhgieを作成しました。 RadGraph2は、オリジナルのRadGraphデータセットでトレーニングされたモデルと比較して、より広範なさまざまな発見をキャプチャし、関係抽出において優れたパフォーマンスを発揮することを実証する。 我々の研究は、疾患の進行を追跡し、医療領域におけるラベルの自然な階層を活用できる情報抽出モデルを開発するための基盤を提供する。

We present RadGraph2, a novel dataset for extracting information from radiology reports that focuses on capturing changes in disease state and device placement over time. We introduce a hierarchical schema that organizes entities based on their relationships and show that using this hierarchy during training improves the performance of an information extraction model. Specifically, we propose a modification to the DyGIE++ framework, resulting in our model HGIE, which outperforms previous models in entity and relation extraction tasks. We demonstrate that RadGraph2 enables models to capture a wider variety of findings and perform better at relation extraction compared to those trained on the original RadGraph dataset. Our work provides the foundation for developing automated systems that can track disease progression over time and develop information extraction models that leverage the natural hierarchy of labels in the medical domain.
翻訳日:2023-08-10 13:04:50 公開日:2023-08-09
# キセノフォニックイベントと難民人口-GDELTを用いて不均質なカバーで国を識別する

Xenophobic Events vs. Refugee Population -- Using GDELT to Identify Countries with Disproportionate Coverage ( http://arxiv.org/abs/2308.05038v1 )

ライセンス: Link先を確認
Himarsha R. Jayanetti, Erika Frydenlund, Michele C. Weigle(参考訳) 本研究では,2022年にメディアで報告されたキセノビック事象を調査するために,GDELT(Global Database of Events, Language, and Tone)データベースを用いた。 2,778個のユニークなイベントのデータセットを収集し、各ホスト国における難民人口の割合によってスケールされたイベントの頻度を示すコロープルスマップを作成した。 5万人以上の難民のうち、最大規模のイベント頻度を持つ上位10カ国を特定した。 強制移住者が多数存在するという信念がキセノビックな出来事をもたらすという信念とは対照的に,政治要因との関連が示唆された。 また,camoイベントデータに含まれる20個のルートイベントコードを"direct"または"indirect"に分類した。 2022年の難民に関する出来事の90%近くは「間接的」に分類された。

In this preliminary study, we used the Global Database of Events, Language, and Tone (GDELT) database to examine xenophobic events reported in the media during 2022. We collected a dataset of 2,778 unique events and created a choropleth map illustrating the frequency of events scaled by the refugee population's proportion in each host country. We identified the top 10 countries with the highest scaled event frequencies among those with more than 50,000 refugees. Contrary to the belief that hosting a significant number of forced migrants results in higher xenophobic incidents, our findings indicate a potential connection to political factors. We also categorized the 20 root event codes in the CAMEO event data as either "Direct" or "Indirect". Almost 90% of the events related to refugees in 2022 were classified as "Indirect".
翻訳日:2023-08-10 13:04:35 公開日:2023-08-09
# 好きなものを分離する

Separate Anything You Describe ( http://arxiv.org/abs/2308.05037v1 )

ライセンス: Link先を確認
Xubo Liu, Qiuqiang Kong, Yan Zhao, Haohe Liu, Yi Yuan, Yuzhuo Liu, Rui Xia, Yuxuan Wang, Mark D. Plumbley, Wenwu Wang(参考訳) 言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである。 LASSは、自然言語クエリが与えられたオーディオからターゲットの音を分離することを目的としており、デジタルオーディオアプリケーションに自然でスケーラブルなインターフェースを提供する。 LASSに関する最近の研究は、特定のソース(例えば、楽器、限られた種類のオーディオイベント)で有望な分離性能を達成したにもかかわらず、オープンドメインでのオーディオ概念の分離は不可能である。 本稿では,自然言語クエリを用いたオープンドメインオーディオソース分離の基礎モデルであるAudioSepを紹介する。 我々は,大規模マルチモーダルデータセット上でオーディオsepをトレーニングし,音声イベント分離,楽器分離,音声強調など,多数のタスクでその能力を広範囲に評価した。 AudioSepは、音声キャプションやテキストラベルをクエリとして使用することで、強い分離性能と印象的なゼロショット一般化能力を示し、従来の音声クエリーおよび言語クエリー音声分離モデルを大幅に上回る。 この作業の再現性のために、ソースコード、評価ベンチマーク、事前学習されたモデルをhttps://github.com/audio-agi/audiosep.orgでリリースします。

Language-queried audio source separation (LASS) is a new paradigm for computational auditory scene analysis (CASA). LASS aims to separate a target sound from an audio mixture given a natural language query, which provides a natural and scalable interface for digital audio applications. Recent works on LASS, despite attaining promising separation performance on specific sources (e.g., musical instruments, limited classes of audio events), are unable to separate audio concepts in the open domain. In this work, we introduce AudioSep, a foundation model for open-domain audio source separation with natural language queries. We train AudioSep on large-scale multimodal datasets and extensively evaluate its capabilities on numerous tasks including audio event separation, musical instrument separation, and speech enhancement. AudioSep demonstrates strong separation performance and impressive zero-shot generalization ability using audio captions or text labels as queries, substantially outperforming previous audio-queried and language-queried sound separation models. For reproducibility of this work, we will release the source code, evaluation benchmark and pre-trained model at: https://github.com/Audio-AGI/AudioSep.
翻訳日:2023-08-10 13:04:22 公開日:2023-08-09
# UTMシステムにおけるネットワーク型UAVのコラボレーティブ広帯域スペクトルセンシングとスケジューリング

Collaborative Wideband Spectrum Sensing and Scheduling for Networked UAVs in UTM Systems ( http://arxiv.org/abs/2308.05036v1 )

ライセンス: Link先を確認
Sravan Reddy Chintareddy, Keenan Roach, Kenny Cheung, Morteza Hashemi(参考訳) 本稿では,ネットワーク型無人航空機(uavs)の広帯域スペクトルセンシングとスケジューリングを協調的に行うためのデータ駆動フレームワークを提案する。 そこで本研究では,広帯域スペクトル検出のための多クラス分類問題を提案する。 スペクトルセンシングモジュールの精度を高めるため、無人航空機システム交通管理(UTM)エコシステム内のサーバにおいて、個々のUAVによるマルチクラス分類からの出力を融合させる。 スペクトルスケジューリングフェーズにおいて、検出されたスペクトル穴を二次ユーザ(UAV)に動的に割り当てるために強化学習(RL)ソリューションを利用する。 提案手法を評価するために,matlab lteツールボックスを用いて,選択した領域にベースステーション~(bs)位置を組み込んで,レイトレーシングを行い,i/qサンプルを用いて一次ユーザチャネル使用量をエミュレートし,ほぼ現実的に近い合成データセットを生成する総合シミュレーションフレームワークを構築した。 この評価手法は、航空機用ML/AIベースのスペクトル管理ソリューションの開発に使用できる大規模なスペクトルデータセットを生成するフレキシブルなフレームワークを提供する。

In this paper, we propose a data-driven framework for collaborative wideband spectrum sensing and scheduling for networked unmanned aerial vehicles (UAVs), which act as the secondary users to opportunistically utilize detected spectrum holes. To this end, we propose a multi-class classification problem for wideband spectrum sensing to detect vacant spectrum spots based on collected I/Q samples. To enhance the accuracy of the spectrum sensing module, the outputs from the multi-class classification by each individual UAV are fused at a server in the unmanned aircraft system traffic management (UTM) ecosystem. In the spectrum scheduling phase, we leverage reinforcement learning (RL) solutions to dynamically allocate the detected spectrum holes to the secondary users (i.e., UAVs). To evaluate the proposed methods, we establish a comprehensive simulation framework that generates a near-realistic synthetic dataset using MATLAB LTE toolbox by incorporating base-station~(BS) locations in a chosen area of interest, performing ray-tracing, and emulating the primary users channel usage in terms of I/Q samples. This evaluation methodology provides a flexible framework to generate large spectrum datasets that could be used for developing ML/AI-based spectrum management solutions for aerial devices.
翻訳日:2023-08-10 13:04:02 公開日:2023-08-09
# 専門家の負荷問題:高精度かつ手作業の少ないネットワーク

Expert load matters: operating networks at high accuracy and low manual effort ( http://arxiv.org/abs/2308.05035v1 )

ライセンス: Link先を確認
Sara Sangalli, Ertunc Erdil, Ender Konukoglu(参考訳) クリティカルなアプリケーションのための人間とAIのコラボレーションシステムでは、エラーを最小限に抑えるために、ユーザーは、決定がいつ人間の専門家に委譲されるべきかを判断するために、モデルの信頼性に基づいて運用ポイントを設定する必要がある。 モデル信頼性が運用ポイントよりも低いサンプルは、専門家が手動で分析し、ミスを避ける。 モデルが正確であるサンプルに対してのみ自信を持つべきであり、専門家に委譲されるサンプルの数は最小化されるべきである。 後者の側面は、医療など、利用可能な専門家時間が限られ、費用がかかるアプリケーションにとって特に重要です。 モデル精度と専門家に委譲されたサンプル数とのトレードオフは、信頼性演算特性(COC)曲線と呼ばれるROC曲線に類似した曲線で表すことができる。 本稿では,深部ニューラルネットワークは精度と専門的負荷の両方を考慮して訓練されるべきであり,そのために,このCOC曲線の下での面積を最大化する新たな補完的損失関数を提案する。 これは、ネットワークの精度の向上と、ヒトに委譲されたサンプル数の減少を同時に促進する。 分類のための複数のコンピュータビジョンと医用画像データセットで実験を行う。 その結果,提案した損失は分類精度を向上し,専門家に委譲し,分布外サンプルの検出や,既存の損失関数と比較してパーキャリブレーション性能が向上することを示した。

In human-AI collaboration systems for critical applications, in order to ensure minimal error, users should set an operating point based on model confidence to determine when the decision should be delegated to human experts. Samples for which model confidence is lower than the operating point would be manually analysed by experts to avoid mistakes. Such systems can become truly useful only if they consider two aspects: models should be confident only for samples for which they are accurate, and the number of samples delegated to experts should be minimized. The latter aspect is especially crucial for applications where available expert time is limited and expensive, such as healthcare. The trade-off between the model accuracy and the number of samples delegated to experts can be represented by a curve that is similar to an ROC curve, which we refer to as confidence operating characteristic (COC) curve. In this paper, we argue that deep neural networks should be trained by taking into account both accuracy and expert load and, to that end, propose a new complementary loss function for classification that maximizes the area under this COC curve. This promotes simultaneously the increase in network accuracy and the reduction in number of samples delegated to humans. We perform experiments on multiple computer vision and medical image datasets for classification. Our results demonstrate that the proposed loss improves classification accuracy and delegates less number of decisions to experts, achieves better out-of-distribution samples detection and on par calibration performance compared to existing loss functions.
翻訳日:2023-08-10 13:03:38 公開日:2023-08-09
# kairos: システム全体のプロヴァンスを用いた実用的侵入検出と調査

Kairos: : Practical Intrusion Detection and Investigation using Whole-system Provenance ( http://arxiv.org/abs/2308.05034v1 )

ライセンス: Link先を確認
Zijun Cheng, Qiujian Lv, Jinyuan Liang, Yan Wang, Degang Sun, Thomas Pasquier, Xueyuan Han(参考訳) 警告グラフは、システムの実行履歴を記述した構造化監査ログである。 最近の研究では、ホスト侵入検出のためのプロヴァンスグラフを分析する様々な手法が研究され、特に高度な永続的脅威に焦点を当てている。 Sifting through their design documents, we identify four common dimensions that drive the development of provenance-based intrusion detection systems (PIDSes): scope (can PIDSes detect modern attacks that infiltrate across application boundaries?), attack agnosticity (can PIDSes detect novel attacks without a priori knowledge of attack characteristics?), timeliness (can PIDSes efficiently monitor host systems as they run?), and attack reconstruction (can PIDSes distill attack activity from large provenance graphs so that sysadmins can easily understand and quickly respond to system intrusion?). KAIROSは4次元すべてでデシラタを同時に満足させる最初のPIDSであるが、既存のアプローチでは少なくとも1つを犠牲にして、同等な検出性能を達成するのに苦労している。 Kairosは、新しいグラフニューラルネットワークベースのエンコーダ-デコーダアーキテクチャを活用し、前兆グラフの構造変化の時間的進化を学び、各システムイベントの異常度を定量化する。 そして、この詳細な情報に基づいて攻撃フットプリントを再構築し、システム監査ログのストリーム上で悪意のあるアクティビティを正確に記述するコンパクトな要約グラフを生成する。 最先端のベンチマークデータセットを使用して、Kairosが従来のアプローチより優れていることを示す。

Provenance graphs are structured audit logs that describe the history of a system's execution. Recent studies have explored a variety of techniques to analyze provenance graphs for automated host intrusion detection, focusing particularly on advanced persistent threats. Sifting through their design documents, we identify four common dimensions that drive the development of provenance-based intrusion detection systems (PIDSes): scope (can PIDSes detect modern attacks that infiltrate across application boundaries?), attack agnosticity (can PIDSes detect novel attacks without a priori knowledge of attack characteristics?), timeliness (can PIDSes efficiently monitor host systems as they run?), and attack reconstruction (can PIDSes distill attack activity from large provenance graphs so that sysadmins can easily understand and quickly respond to system intrusion?). We present KAIROS, the first PIDS that simultaneously satisfies the desiderata in all four dimensions, whereas existing approaches sacrifice at least one and struggle to achieve comparable detection performance. Kairos leverages a novel graph neural network-based encoder-decoder architecture that learns the temporal evolution of a provenance graph's structural changes to quantify the degree of anomalousness for each system event. Then, based on this fine-grained information, Kairos reconstructs attack footprints, generating compact summary graphs that accurately describe malicious activity over a stream of system audit logs. Using state-of-the-art benchmark datasets, we demonstrate that Kairos outperforms previous approaches.
翻訳日:2023-08-10 13:03:14 公開日:2023-08-09
# 空中画像における密度作物誘導半教師対象検出

Density Crop-guided Semi-supervised Object Detection in Aerial Images ( http://arxiv.org/abs/2308.05032v1 )

ライセンス: Link先を確認
Akhil Meethal, Eric Granger, Marco Pedersoli(参考訳) 現代のオブジェクト検出器のトレーニングにおける重要なボトルネックの1つは、画像に存在するオブジェクトごとにバウンディングボックスアノテーションを作成する必要があるラベル付きイメージの必要性である。 このボトルネックは、アノテータがしばしば高解像度画像上にクラスターに分布する小さな物体をラベル付けしなければならない空中画像においてさらに悪化する。 近年,半教師対象検出において,擬似ラベルと弱強強化一貫性を訓練した平均教師のアプローチが人気を集めている。 しかし、このような半教師付き検出器の小さな物体がしばしば存在する空中画像への直接適応は、最適な結果をもたらすものではないかもしれない。 本稿では,訓練中の小物体のクラスターを同定し,それを利用して推論性能を向上させる密度作物誘導半監視検出器を提案する。 トレーニング中、ラベル付き画像とラベル付画像から識別されたクラスタの画像作物を使用してトレーニングセットを増強し、それによって小さなオブジェクトを検出し、ラベル付画像上の小さなオブジェクトに対して優れた擬似ラベルを生成する。 推定中、検出器は興味のある対象を検出できるだけでなく、小さな物体(密度作物)の密度の高い領域も検出できるため、入力された画像からの検出と画像作物からの検出を組み合わせることで、特に小さな物体に対して、より正確な予測が可能になる。 VisDrone と DOTA データセットの一般的なベンチマークに関する実証研究は、COCO スタイル AP における基本的な平均教師法よりも平均 2 % 以上向上した密度の作物誘導半監視検出器の有効性を示している。 私たちのコードは、https://github.com/akhilpm/DroneSSOD.comで利用可能です。

One of the important bottlenecks in training modern object detectors is the need for labeled images where bounding box annotations have to be produced for each object present in the image. This bottleneck is further exacerbated in aerial images where the annotators have to label small objects often distributed in clusters on high-resolution images. In recent days, the mean-teacher approach trained with pseudo-labels and weak-strong augmentation consistency is gaining popularity for semi-supervised object detection. However, a direct adaptation of such semi-supervised detectors for aerial images where small clustered objects are often present, might not lead to optimal results. In this paper, we propose a density crop-guided semi-supervised detector that identifies the cluster of small objects during training and also exploits them to improve performance at inference. During training, image crops of clusters identified from labeled and unlabeled images are used to augment the training set, which in turn increases the chance of detecting small objects and creating good pseudo-labels for small objects on the unlabeled images. During inference, the detector is not only able to detect the objects of interest but also regions with a high density of small objects (density crops) so that detections from the input image and detections from image crops are combined, resulting in an overall more accurate object prediction, especially for small objects. Empirical studies on the popular benchmarks of VisDrone and DOTA datasets show the effectiveness of our density crop-guided semi-supervised detector with an average improvement of more than 2\% over the basic mean-teacher method in COCO style AP. Our code is available at: https://github.com/akhilpm/DroneSSOD.
翻訳日:2023-08-10 13:02:52 公開日:2023-08-09
# 単眼画像からの道路ユーザ検出・追跡・予測のエンドツーエンドフレームワーク

An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images ( http://arxiv.org/abs/2308.05026v1 )

ライセンス: Link先を確認
Hao Cheng, Mengmeng liu, Lin Chen(参考訳) マルチオブジェクトの検出と追跡、軌道予測を含む知覚は、自動運転の主要な2つのタスクである。 しかし、現在では主に別々に研究されており、実際のシナリオにおける検出・追跡モジュールから抽出された軌道を考慮せずに、地上の真実軌道に基づいてほとんどの軌道予測モジュールが開発されている。 これらのノイズのある軌道は軌道予測器の性能に大きな影響を与え、重大な予測誤差を引き起こす可能性がある。 本稿では,ODTP (Online Detection, Tracking and Prediction) と呼ばれる検出・追跡・軌道予測のためのエンドツーエンドフレームワークを構築する。 トラジェクトリ予測器であるDCENet++を、地上の真実の軌跡を純粋に依存せずに直接検出結果に基づいて認識し、訓練するために、最先端のオンラインマルチオブジェクト追跡モデルであるQD-3DTを採用している。 本研究では,自律運転に広く利用されているnuScenesデータセット上でのODTPの性能を評価する。 大規模な実験によりODPTは高性能な終端軌道予測を実現することが示された。 DCENet++は、拡張された動的マップにより、ベースモデルよりも正確な軌跡を予測する。 また、ノイズ検出結果に基づいて訓練された他の生成的および決定論的軌道予測モデルと比較してもより堅牢である。

Perception that involves multi-object detection and tracking, and trajectory prediction are two major tasks of autonomous driving. However, they are currently mostly studied separately, which results in most trajectory prediction modules being developed based on ground truth trajectories without taking into account that trajectories extracted from the detection and tracking modules in real-world scenarios are noisy. These noisy trajectories can have a significant impact on the performance of the trajectory predictor and can lead to serious prediction errors. In this paper, we build an end-to-end framework for detection, tracking, and trajectory prediction called ODTP (Online Detection, Tracking and Prediction). It adopts the state-of-the-art online multi-object tracking model, QD-3DT, for perception and trains the trajectory predictor, DCENet++, directly based on the detection results without purely relying on ground truth trajectories. We evaluate the performance of ODTP on the widely used nuScenes dataset for autonomous driving. Extensive experiments show that ODPT achieves high performance end-to-end trajectory prediction. DCENet++, with the enhanced dynamic maps, predicts more accurate trajectories than its base model. It is also more robust when compared with other generative and deterministic trajectory prediction models trained on noisy detection results.
翻訳日:2023-08-10 13:02:26 公開日:2023-08-09
# 特徴変調変換器:画像超解像に先立つ高周波によるグローバル表現のクロスリファインメント

Feature Modulation Transformer: Cross-Refinement of Global Representation via High-Frequency Prior for Image Super-Resolution ( http://arxiv.org/abs/2308.05022v1 )

ライセンス: Link先を確認
Ao Li, Le Zhang, Yun Liu, Ce Zhu(参考訳) トランスフォーマーに基づく手法は、長距離依存関係を効果的に抽出することにより、単一画像超解像(SISR)において顕著なポテンシャルを示した。 しかし、この領域における現在の研究の多くは、高頻度プリエントを組み込むことの重要性を見越しながら、グローバル情報を取得するためにトランスフォーマーブロックの設計を優先している。 本研究では, 変圧器構造が低周波情報の取得に適しているが, 畳み込み処理と比較して高周波表現を構築できる能力に限界があることを, 一連の実験で明らかにした。 提案手法であるクロスリファインメント適応型特徴変調トランス (CRAFT) は, 畳み込み構造と変圧器構造の強度を統合する。 高周波情報を抽出する高周波強調残差ブロック(hferb)、グローバル情報をキャプチャするシフト長方形ウィンドウアテンションブロック(srwab)、グローバル表現を精錬するハイブリッド融合ブロック(hfb)の3つのキー成分からなる。 複数のデータセットに対する実験により、CRAFTはより少ないパラメータを使用しながら、最先端のメソッドを最大0.29dBで上回ります。 ソースコードはhttps://github.com/AVC2-UESTC/CRAFT-SR.gitで公開されている。

Transformer-based methods have exhibited remarkable potential in single image super-resolution (SISR) by effectively extracting long-range dependencies. However, most of the current research in this area has prioritized the design of transformer blocks to capture global information, while overlooking the importance of incorporating high-frequency priors, which we believe could be beneficial. In our study, we conducted a series of experiments and found that transformer structures are more adept at capturing low-frequency information, but have limited capacity in constructing high-frequency representations when compared to their convolutional counterparts. Our proposed solution, the cross-refinement adaptive feature modulation transformer (CRAFT), integrates the strengths of both convolutional and transformer structures. It comprises three key components: the high-frequency enhancement residual block (HFERB) for extracting high-frequency information, the shift rectangle window attention block (SRWAB) for capturing global information, and the hybrid fusion block (HFB) for refining the global representation. Our experiments on multiple datasets demonstrate that CRAFT outperforms state-of-the-art methods by up to 0.29dB while using fewer parameters. The source code will be made available at: https://github.com/AVC2-UESTC/CRAFT-SR.git.
翻訳日:2023-08-10 13:02:05 公開日:2023-08-09
# 拡散モデルがエラー伝播を引き起こすか? 理論解析と一貫性規則化

Do Diffusion Models Suffer Error Propagation? Theoretical Analysis and Consistency Regularization ( http://arxiv.org/abs/2308.05021v1 )

ライセンス: Link先を確認
Yangming Li, Zhaozhi Qian, Mihaela van der Schaar(参考訳) 拡散モデルはデータ合成において有望な性能を達成したが、それらのカスケード構造により、分散ミスマッチがデノナイジングモジュールの連鎖を通じて広がり拡大するエラー伝播に悩まされる可能性がある。 しかし、条件付きランダムフィールド(CRF)のような多くの逐次モデルではエラーの伝播が不要であるため、厳密な解析が期待できる。 本稿では,拡散モデルが誤り伝播によって実際に影響を受けることを実証的かつ理論的に検証し,この問題に対処するための正規化を提案する。 理論解析により,拡散モデルの全てのデノイングモジュールが耐故障性であるかどうかという問題に対処できることがわかった。 我々は洞察に富んだ遷移方程式を導出し、モジュールが入力エラーから回復できないことを示し、さらに次のモジュールにさらなるエラーを伝播させる。 本分析は, 拡散モデルの整合正則化手法に直接導出し, 前方プロセスと後方プロセスの分布ギャップを明示的に低減する。 さらに,正規化器の計算コストを削減するブートストラップアルゴリズムを導入する。 また,複数の画像データセットを用いた実験により,誤り伝播を効果的に処理し,バニラ拡散モデルの性能を大幅に向上させることを示した。

While diffusion models have achieved promising performances in data synthesis, they might suffer error propagation because of their cascade structure, where the distributional mismatch spreads and magnifies through the chain of denoising modules. However, a strict analysis is expected since many sequential models such as Conditional Random Field (CRF) are free from error propagation. In this paper, we empirically and theoretically verify that diffusion models are indeed affected by error propagation and we then propose a regularization to address this problem. Our theoretical analysis reveals that the question can be reduced to whether every denoising module of the diffusion model is fault-tolerant. We derive insightful transition equations, indicating that the module can't recover from input errors and even propagates additional errors to the next module. Our analysis directly leads to a consistency regularization scheme for diffusion models, which explicitly reduces the distribution gap between forward and backward processes. We further introduce a bootstrapping algorithm to reduce the computation cost of the regularizer. Our experimental results on multiple image datasets show that our regularization effectively handles error propagation and significantly improves the performance of vanilla diffusion models.
翻訳日:2023-08-10 13:01:42 公開日:2023-08-09
# オフライン設定のためのベイズ逆遷移学習

Bayesian Inverse Transition Learning for Offline Settings ( http://arxiv.org/abs/2308.05075v1 )

ライセンス: Link先を確認
Leo Benac, Sonali Parbhoo, Finale Doshi-Velez(参考訳) オフライン強化学習は、医療や教育などの領域におけるシーケンシャルな意思決定に一般的に使われ、報酬が知られ、バッチデータに基づいて遷移ダイナミクス$T$を推定する必要がある。 すべてのタスクにとって重要な課題は、価値関数に関して最善のアクションから遠く離れて、彼らが持っている不確実性を伝えるのに十分な情報を提供しないよう、安全に近いポリシーを生成するトランジションダイナミクス$t$の信頼性の高い見積もりをいかに学ぶかである。 専門家のデータを用いて,勾配のない遷移ダイナミクスの後方分布を確実に学習するために,デシデラタをキャプチャする新しい制約ベースアプローチを提案する。 その結果、制約を用いることで、高いパフォーマンスのポリシーを学習し、異なるデータセットに対するポリシーのばらつきを著しく低減することを示した。 また、不確実性推定とこれらの制約を組み合わせることで、より高いリターンを生み出すアクションの部分的なランク付けを推測し、より安全でより情報に富んだ計画方針の推測に役立ちます。

Offline Reinforcement learning is commonly used for sequential decision-making in domains such as healthcare and education, where the rewards are known and the transition dynamics $T$ must be estimated on the basis of batch data. A key challenge for all tasks is how to learn a reliable estimate of the transition dynamics $T$ that produce near-optimal policies that are safe enough so that they never take actions that are far away from the best action with respect to their value functions and informative enough so that they communicate the uncertainties they have. Using data from an expert, we propose a new constraint-based approach that captures our desiderata for reliably learning a posterior distribution of the transition dynamics $T$ that is free from gradients. Our results demonstrate that by using our constraints, we learn a high-performing policy, while considerably reducing the policy's variance over different datasets. We also explain how combining uncertainty estimation with these constraints can help us infer a partial ranking of actions that produce higher returns, and helps us infer safer and more informative policies for planning.
翻訳日:2023-08-10 12:55:46 公開日:2023-08-09
# Drones4Good:リモートセンシングとAIによる災害救助を支援する

Drones4Good: Supporting Disaster Relief Through Remote Sensing and AI ( http://arxiv.org/abs/2308.05074v1 )

ライセンス: Link先を確認
Nina Merkle, Reza Bahmanyar, Corentin Henry, Seyed Majid Azimi, Xiangtian Yuan, Simon Schopferer, Veronika Gstaiger, Stefan Auer, Anne Schneibel, Marc Wieland, Thomas Kraft(参考訳) 災害の余波に効果的に対応するため、救急サービスや救援組織は、被災地に関するタイムリーかつ正確な情報に頼っている。 リモートセンシングは、広域の迅速な調査を可能にすることにより、そのような情報収集に必要な時間と労力を大幅に削減する可能性がある。 これを実現するために、リモートセンシングされたデータから関連する情報を自動抽出することが主な課題である。 本稿では,ドローンデータとディープラーニング手法を組み合わせることで,状況評価の自動化と大規模化を実現する方法を示す。 さらに,無人ドローンによる支援配信の展開に向けて,オンボード画像処理技術の統合を実証する。 以上の結果から,現場における迅速かつ大規模画像解析の実現可能性を示し,機内画像処理により,ドローンによる支援の安全性が向上する可能性が示唆された。

In order to respond effectively in the aftermath of a disaster, emergency services and relief organizations rely on timely and accurate information about the affected areas. Remote sensing has the potential to significantly reduce the time and effort required to collect such information by enabling a rapid survey of large areas. To achieve this, the main challenge is the automatic extraction of relevant information from remotely sensed data. In this work, we show how the combination of drone-based data with deep learning methods enables automated and large-scale situation assessment. In addition, we demonstrate the integration of onboard image processing techniques for the deployment of autonomous drone-based aid delivery. The results show the feasibility of a rapid and large-scale image analysis in the field, and that onboard image processing can increase the safety of drone-based aid deliveries.
翻訳日:2023-08-10 12:55:26 公開日:2023-08-09
# 29アルゴリズム量子ビットによるトラップイオン量子コンピュータのベンチマーク

Benchmarking a trapped-ion quantum computer with 29 algorithmic qubits ( http://arxiv.org/abs/2308.05071v1 )

ライセンス: Link先を確認
Jwo-Sy Chen, Erik Nielsen, Matthew Ebert, Volkan Inlek, Kenneth Wright, Vandiver Chaplin, Andrii Maksymov, Eduardo P\'aez, Amrit Poudel, Peter Maunz, John Gamble(参考訳) 量子コンピュータの能力は急速に向上し、量子ビット数と品質は劇的に向上している。 様々なハードウェアアプローチの中で、閉じ込められたイオン量子プロセッサは量子コンピューティングの主要な技術であり、高忠実度演算とアーキテクチャを確立し、スケーリングを約束している。 ここでは、IonQ Forteシステムを徹底的にベンチマークし、一本鎖の30量子ビットトラップイオン量子コンピュータとして構成する。 我々は,30個の選択された2=435個のゲートペア間の直接ランダム化ベンチマーク(DRB)を用いて,コンポーネントレベルでの量子コンピュータ操作の性能を評価する。 次に、アプリケーション指向ベンチマークの結果を示し、アルゴリズム量子ビット(AQ)ベンチマークのスイートを、#AQ 29までパスすることを示す。 最後に、コンポーネントレベルのベンチマークを使用して、エラー緩和を含む直接シミュレーションを通じて、アプリケーションベンチマークデータを予測するためのシステムレベルのモデルを構築します。 システムレベルのモデルが観測結果とよく相関していることが分かるが、モデル外誤差が観測結果よりも高い性能をもたらすケースもある。 これは、量子コンピュータがより大きく、より高品質なデバイスに向かっていくにつれて、キャラクタリゼーションがより難しくなり、パフォーマンスをさらに押し上げるために必要な将来の作業が示唆される。

Quantum computers are rapidly becoming more capable, with dramatic increases in both qubit count and quality. Among different hardware approaches, trapped-ion quantum processors are a leading technology for quantum computing, with established high-fidelity operations and architectures with promising scaling. Here, we demonstrate and thoroughly benchmark the IonQ Forte system: configured here as a single-chain 30-qubit trapped-ion quantum computer with all-to-all operations. We assess the performance of our quantum computer operation at the component level via direct randomized benchmarking (DRB) across all 30 choose 2 = 435 gate pairs. We then show the results of application-oriented benchmarks, indicating that the system passes the suite of algorithmic qubit (AQ) benchmarks up to #AQ 29. Finally, we use our component-level benchmarking to build a system-level model to predict the application benchmarking data through direct simulation, including error mitigation. We find that the system-level model correlates well with the observations in many cases, though in some cases out-of-model errors lead to higher predicted performance than is observed. This highlights that as quantum computers move toward larger and higher-quality devices, characterization becomes more challenging, suggesting future work required to push performance further.
翻訳日:2023-08-10 12:55:14 公開日:2023-08-09
# 炭化herculaneum papyriのインク検出のための体積高速フーリエ畳み込み法

Volumetric Fast Fourier Convolution for Detecting Ink on the Carbonized Herculaneum Papyri ( http://arxiv.org/abs/2308.05070v1 )

ライセンス: Link先を確認
Fabio Quattrini, Vittorio Pippi, Silvia Cascianelli, Rita Cucchiara(参考訳) デジタル文書復元(DDR)の最近の進歩は、高度に損傷した文書を解析する大きなブレークスルーをもたらした。 その中でも,Herculaneum papyriコレクションのインクを自動的に検出する人工知能技術への関心が高まっている。 このコレクションは、カーボン化されたスクロールと文書の断片で構成されており、X線トモグラフィーによってデジタル化され、アドホックなディープラーニングベースのDDRソリューションの開発を可能にしている。 本研究では,ボリュームデータに対するFast Fourier Convolution演算子の修正を提案し,それをHerculaneum papyriのインク検出のためのセグメンテーションアーキテクチャに適用し,深層実験解析による適合性を実証する。 このタスクと提案するオペレーターのボリュームデータを含む他のタスクへの適用を促進するため、実装をリリースする(https://github.com/aimagelab/vffc)。

Recent advancements in Digital Document Restoration (DDR) have led to significant breakthroughs in analyzing highly damaged written artifacts. Among those, there has been an increasing interest in applying Artificial Intelligence techniques for virtually unwrapping and automatically detecting ink on the Herculaneum papyri collection. This collection consists of carbonized scrolls and fragments of documents, which have been digitized via X-ray tomography to allow the development of ad-hoc deep learning-based DDR solutions. In this work, we propose a modification of the Fast Fourier Convolution operator for volumetric data and apply it in a segmentation architecture for ink detection on the challenging Herculaneum papyri, demonstrating its suitability via deep experimental analysis. To encourage the research on this task and the application of the proposed operator to other tasks involving volumetric data, we will release our implementation (https://github.com/aimagelab/vffc)
翻訳日:2023-08-10 12:54:55 公開日:2023-08-09
# 幾何学習に基づく分節誤差推定用トランスネットワーク

Geometric Learning-Based Transformer Network for Estimation of Segmentation Errors ( http://arxiv.org/abs/2308.05068v1 )

ライセンス: Link先を確認
Sneha Sree C, Mohammad Al Fahim, Keerthi Ram, Mohanasankar Sivaprakasam(参考訳) 腫瘍や臓器の3次元ボリュームセグメンテーションには,多くのセグメンテーションネットワークが提案されている。 病院や臨床機関は、画像分割の専門家の努力を加速し、最小化しようとしている。 それでも、これらのネットワークでエラーが発生した場合、臨床医は生成されたセグメンテーションマップを手動で編集する必要がある。 3次元ボリュームとそのセグメンテーションマップを与えられた場合,セグメンテーションマップ内の誤領域を識別・測定する手法を提案する。 提案手法は,品質保証ツールとして,誤ボリューム分割マップから生成された3次元メッシュの任意の点やノードでの誤差を推定できる。 本研究では,ノードフォーマアーキテクチャに基づくグラフニューラルネットワークを用いた変圧器を提案し,任意の点におけるセグメンテーション誤差を計測・分類する。 我々は,人間の内耳小胞体構造の高分解能マイクロCTデータセットを用いて,誤った3次元分割図をシミュレートし,ネットワークの評価を行った。 我々のネットワークは、入力されたマイクロCTデータからノード中心の特徴を計算するための畳み込みエンコーダ、潜在グラフの埋め込みを学習するノードフォーマー、ノードの誤りを計算し分類するマルチ層パーセプトロン(MLP)を備えている。 我々のネットワークは,他のグラフニューラルネットワーク(GNN)に対して平均0.042の絶対誤差を達成し,他のGNNよりも79.53%の精度でノードの誤りを推定し,分類する。 また,ネットワーク全体の性能を改善するために,cnnエンコーダを事前学習するためのカスタムプリテキストタスクとして頂点正規予測を行った。 定性的分析は、誤りを正しく分類し、誤分類を減らすためのネットワークの効率を示す。

Many segmentation networks have been proposed for 3D volumetric segmentation of tumors and organs at risk. Hospitals and clinical institutions seek to accelerate and minimize the efforts of specialists in image segmentation. Still, in case of errors generated by these networks, clinicians would have to manually edit the generated segmentation maps. Given a 3D volume and its putative segmentation map, we propose an approach to identify and measure erroneous regions in the segmentation map. Our method can estimate error at any point or node in a 3D mesh generated from a possibly erroneous volumetric segmentation map, serving as a Quality Assurance tool. We propose a graph neural network-based transformer based on the Nodeformer architecture to measure and classify the segmentation errors at any point. We have evaluated our network on a high-resolution micro-CT dataset of the human inner-ear bony labyrinth structure by simulating erroneous 3D segmentation maps. Our network incorporates a convolutional encoder to compute node-centric features from the input micro-CT data, the Nodeformer to learn the latent graph embeddings, and a Multi-Layer Perceptron (MLP) to compute and classify the node-wise errors. Our network achieves a mean absolute error of ~0.042 over other Graph Neural Networks (GNN) and an accuracy of 79.53% over other GNNs in estimating and classifying the node-wise errors, respectively. We also put forth vertex-normal prediction as a custom pretext task for pre-training the CNN encoder to improve the network's overall performance. Qualitative analysis shows the efficiency of our network in correctly classifying errors and reducing misclassifications.
翻訳日:2023-08-10 12:54:38 公開日:2023-08-09
# AIの競争 - 統計的サンプリングを用いたロバストなランク付けソリューション

Competitions in AI -- Robustly Ranking Solvers Using Statistical Resampling ( http://arxiv.org/abs/2308.05062v1 )

ライセンス: Link先を確認
Chris Fawcett, Mauro Vallati, Holger H. Hoos, Alfonso E. Gerevini(参考訳) ソルバー競技は、AI以上の多くの問題を解決するために、最先端の技術を評価、推進する上で重要な役割を果たしている。 特に、AIの多くの分野において、競争は長い間研究と応用の指導に大きな影響を与えており、競争において高いランクにランク付けされるためにはかなりの重みがある。 しかし、競争の結果が特定の競争で使用されるものとは異なる問題インスタンスの集合に一般化できると期待できるだろうか? 統計的再サンプリング技術を用いて、ここで調査する質問です。 評価基準として使用するベンチマークインスタンスセットの微妙な変更に対しても,競合結果の標準的な解釈から得られるランキングは極めて敏感であり,それゆえ,下位のインスタンス分布から他のサンプルに移行することは期待できない。 この問題に対処するために,性能データの再サンプリングに基づく競争結果の統計的に有意義な分析手法を提案する。 提案手法は,競争スコアの信頼区間と,有界誤差のある統計的にロバストなソルバランキングを生成する。 近年のSAT、AI計画、コンピュータビジョンコンペティションに応用すると、簡単なスコアリングに基づく公式結果と比較して、解解器の性能とランクの逆転の統計的関係が頻繁に見られる。

Solver competitions play a prominent role in assessing and advancing the state of the art for solving many problems in AI and beyond. Notably, in many areas of AI, competitions have had substantial impact in guiding research and applications for many years, and for a solver to be ranked highly in a competition carries considerable weight. But to which extent can we expect competition results to generalise to sets of problem instances different from those used in a particular competition? This is the question we investigate here, using statistical resampling techniques. We show that the rankings resulting from the standard interpretation of competition results can be very sensitive to even minor changes in the benchmark instance set used as the basis for assessment and can therefore not be expected to carry over to other samples from the same underlying instance distribution. To address this problem, we introduce a novel approach to statistically meaningful analysis of competition results based on resampling performance data. Our approach produces confidence intervals of competition scores as well as statistically robust solver rankings with bounded error. Applied to recent SAT, AI planning and computer vision competitions, our analysis reveals frequent statistical ties in solver performance as well as some inversions of ranks compared to the official results based on simple scoring.
翻訳日:2023-08-10 12:54:09 公開日:2023-08-09
# センサデータ、方程式、自然言語を用いた文脈内演算子学習の促進

Prompting In-Context Operator Learning with Sensor Data, Equations, and Natural Language ( http://arxiv.org/abs/2308.05061v1 )

ライセンス: Link先を確認
Liu Yang, Tingwei Meng, Siting Liu, Stanley J. Osher(参考訳) 科学機械学習の領域が拡大する中で、コンテキスト内演算子学習は、重みを更新せずに推論段階におけるデータからの学習オペレーターの有意な可能性を示している。 しかし、現在のモデルがセンサーデータに過度に依存しているため、オペレーターに対する人間的洞察が不注意に見過ごされる可能性がある。 そこで本稿では,マルチモーダルパラダイムへのインコンテクスト演算子学習の変換について述べる。 本稿では,自然言語記述と方程式によって表現される操作者に関する人間知識を統合するための「カプセル」の利用を提案する。 本稿では,この手法が物理インフォームド学習の柔軟性と汎用性を広げるだけでなく,学習性能を大幅に向上させ,データニーズを低減させる方法について述べる。 さらに、言語モデルのようなアーキテクチャに基づいたマルチモーダル・インコンテキスト・オペレータ学習のためのより効率的なニューラルネットワークアーキテクチャ「ICON-LM」を導入する。 本稿では,科学的機械学習タスクにおける"icon-lm"の実現可能性を示す。

In the growing domain of scientific machine learning, in-context operator learning has demonstrated notable potential in learning operators from prompted data during inference stage without weight updates. However, the current model's overdependence on sensor data, may inadvertently overlook the invaluable human insight into the operator. To address this, we present a transformation of in-context operator learning into a multi-modal paradigm. We propose the use of "captions" to integrate human knowledge about the operator, expressed through natural language descriptions and equations. We illustrate how this method not only broadens the flexibility and generality of physics-informed learning, but also significantly boosts learning performance and reduces data needs. Furthermore, we introduce a more efficient neural network architecture for multi-modal in-context operator learning, referred to as "ICON-LM", based on a language-model-like architecture. We demonstrate the viability of "ICON-LM" for scientific machine learning tasks, which creates a new path for the application of language models.
翻訳日:2023-08-10 12:53:46 公開日:2023-08-09
# 従来のバック伝搬手法を再検討したニューラルネットワークの精度向上手法

A Novel Method for improving accuracy in neural network by reinstating traditional back propagation technique ( http://arxiv.org/abs/2308.05059v1 )

ライセンス: Link先を確認
Gokulprasath R(参考訳) ディープラーニングはコンピュータビジョン、自然言語処理、音声認識といった産業に革命をもたらした。 しかし、ディープニューラルネットワークをトレーニングする主要な方法であるバックプロパゲーションは、計算オーバーヘッドや勾配の消失といった課題に直面している。 本稿では,各層での計算勾配を不要とした新しい瞬時パラメータ更新手法を提案する。 提案手法は,学習を加速し,勾配問題を回避し,ベンチマークデータセット上で最先端の手法より優れる。 本研究は、効率的かつ効果的なディープニューラルネットワークトレーニングのための有望な方向性を示す。

Deep learning has revolutionized industries like computer vision, natural language processing, and speech recognition. However, back propagation, the main method for training deep neural networks, faces challenges like computational overhead and vanishing gradients. In this paper, we propose a novel instant parameter update methodology that eliminates the need for computing gradients at each layer. Our approach accelerates learning, avoids the vanishing gradient problem, and outperforms state-of-the-art methods on benchmark data sets. This research presents a promising direction for efficient and effective deep neural network training.
翻訳日:2023-08-10 12:53:26 公開日:2023-08-09
# PAT:高密度マルチラベル動作検出のための位置認識変換器

PAT: Position-Aware Transformer for Dense Multi-Label Action Detection ( http://arxiv.org/abs/2308.05051v1 )

ライセンス: Link先を確認
Faegheh Sardari, Armin Mustafa, Philip J. B. Jackson, and Adrian Hilton(参考訳) ビデオ中の複雑な時間的共起動作の依存関係をマルチスケールの時間的特徴を利用して学習するトランスフォーマーベースのネットワークであるPATを提案する。 既存の手法では、トランスフォーマーにおける自己保持機構は、堅牢な動作検出に不可欠な時間的位置情報を失う。 この問題に対処するために (i)自己着脱機構に相対的位置符号化を埋め込むこと、及び (ii)階層構造を用いた最近のトランスフォーマティブ・アプローチとは対照的に、新しい非階層ネットワークを設計することにより、マルチスケールな時間的関係を活用できる。 階層的なアプローチで複数のサブサンプリングプロセスで自己注意機構を結合すると、位置情報の損失が増加すると論じる。 提案手法は,2つの難解なマルチラベルベンチマークデータセットにおける性能評価を行い,パットは,カレードとマルチサムスデータセットでそれぞれ1.1%,0.6%の結果をそれぞれ改善し,26.5%,44.6%の新たな最先端マップを実現した。 また,提案するネットワークの異なる構成要素の影響を調べるため,広範なアブレーション実験を行った。

We present PAT, a transformer-based network that learns complex temporal co-occurrence action dependencies in a video by exploiting multi-scale temporal features. In existing methods, the self-attention mechanism in transformers loses the temporal positional information, which is essential for robust action detection. To address this issue, we (i) embed relative positional encoding in the self-attention mechanism and (ii) exploit multi-scale temporal relationships by designing a novel non hierarchical network, in contrast to the recent transformer-based approaches that use a hierarchical structure. We argue that joining the self-attention mechanism with multiple sub-sampling processes in the hierarchical approaches results in increased loss of positional information. We evaluate the performance of our proposed approach on two challenging dense multi-label benchmark datasets, and show that PAT improves the current state-of-the-art result by 1.1% and 0.6% mAP on the Charades and MultiTHUMOS datasets, respectively, thereby achieving the new state-of-the-art mAP at 26.5% and 44.6%, respectively. We also perform extensive ablation studies to examine the impact of the different components of our proposed network.
翻訳日:2023-08-10 12:53:17 公開日:2023-08-09
# Shorの量子ファクタリングアルゴリズムの大規模シミュレーション

Large-scale simulation of Shor's quantum factoring algorithm ( http://arxiv.org/abs/2308.05047v1 )

ライセンス: Link先を確認
Dennis Willsch, Madita Willsch, Fengping Jin, Hans De Raedt, Kristel Michielsen(参考訳) Shorのファクタリングアルゴリズムは、量子コンピューティングの最も期待されている応用の1つである。 しかし、今日の量子コンピュータの限られた能力は、ショールのアルゴリズムを非常に少ない数でしか研究できない。 ここでは、現在および短期量子ハードウェアでは到達できない数値に対して、Shorのアルゴリズムの性能を評価するために、GPUベースの大規模スーパーコンピュータがどのように使用できるかを示す。 まず,shorのオリジナルのファクタリングアルゴリズムについて検討する。 理論的な境界は成功確率がわずか3~4%であることを示唆しているが、十分条件に満たないにもかかわらず「幸運な」ケースの頻度が高いため、平均成功確率は50%以上であることがわかった。 第二に、Shorの量子アルゴリズムを1回だけ実行することで、成功確率を任意に1に近づけることのできる強力な後処理手法について検討する。 最後に,量子処理ハードウェアにおける典型的な誤差の存在下での処理後処理の有効性について検討する。 量子ファクタリングアルゴリズムは、異なるタイプのエラーに対して、特定の形の普遍性と回復力を示す。 私たちがgpuベースのスーパーコンピュータ上でshorのアルゴリズムを実行することで考慮した最大の半素数は、549755813701 = 712321 * 771781である。 我々は、任意の量子コンピューティングデバイス上のこの数よりも大きい非自明な半素数を単純化することなく、ファクタリングの課題を提起した。

Shor's factoring algorithm is one of the most anticipated applications of quantum computing. However, the limited capabilities of today's quantum computers only permit a study of Shor's algorithm for very small numbers. Here we show how large GPU-based supercomputers can be used to assess the performance of Shor's algorithm for numbers that are out of reach for current and near-term quantum hardware. First, we study Shor's original factoring algorithm. While theoretical bounds suggest success probabilities of only 3-4 %, we find average success probabilities above 50 %, due to a high frequency of "lucky" cases, defined as successful factorizations despite unmet sufficient conditions. Second, we investigate a powerful post-processing procedure, by which the success probability can be brought arbitrarily close to one, with only a single run of Shor's quantum algorithm. Finally, we study the effectiveness of this post-processing procedure in the presence of typical errors in quantum processing hardware. We find that the quantum factoring algorithm exhibits a particular form of universality and resilience against the different types of errors. The largest semiprime that we have factored by executing Shor's algorithm on a GPU-based supercomputer, without exploiting prior knowledge of the solution, is 549755813701 = 712321 * 771781. We put forward the challenge of factoring, without oversimplification, a non-trivial semiprime larger than this number on any quantum computing device.
翻訳日:2023-08-10 12:52:53 公開日:2023-08-09
# 放射界のシーン一般化型インタラクティブセグメンテーション

Scene-Generalizable Interactive Segmentation of Radiance Fields ( http://arxiv.org/abs/2308.05104v1 )

ライセンス: Link先を確認
Songlin Tang, Wenjie Pei, Xin Tao, Tanghui Jia, Guangming Lu, Yu-Wing Tai(参考訳) 既存のラディアンスフィールドにおけるインタラクティブセグメンテーション手法では、シーン固有の最適化が必要であり、異なるシーンをまたいで一般化できないため、適用性が大幅に制限される。 本研究は,SGISRF(Scene-Generalizable Interactive Segmentation in Radiance Fields)の最初の試みであり,複数視点の2D画像に対して,対話的なユーザクリック数回のみをガイドした,放射場で表現された新しい(見えない)シーンの3Dオブジェクトセグメンテーションを実現する新しいSGISRF法を提案する。 特に、提案したSGISRFは、特別に設計された3つの技術を用いて、3つの重要な課題に対処することに焦点を当てている。 まず,少ない2Dユーザクリックを情報的な3Dガイダンス表現にエンコードするために,クロスディメンションガイダンス伝搬法を考案する。 第2に, 不確実性解消型3dセグメンテーションモジュールは, 効率的かつ効果的な3dセグメンテーションを実現するために設計されている。 第3に,2次元マスクアノテーションのみを用いた2次元空間の監督による隠れた3次元分割誤差を明らかにし,修正する。 多様なシーンをカバーする2つの実世界の挑戦的ベンチマークの大規模な実験 1)提案手法の有効性とシーン一般化性 2) シーン固有の最適化を必要とする古典的手法と比較して, 性能がよい。

Existing methods for interactive segmentation in radiance fields entail scene-specific optimization and thus cannot generalize across different scenes, which greatly limits their applicability. In this work we make the first attempt at Scene-Generalizable Interactive Segmentation in Radiance Fields (SGISRF) and propose a novel SGISRF method, which can perform 3D object segmentation for novel (unseen) scenes represented by radiance fields, guided by only a few interactive user clicks in a given set of multi-view 2D images. In particular, the proposed SGISRF focuses on addressing three crucial challenges with three specially designed techniques. First, we devise the Cross-Dimension Guidance Propagation to encode the scarce 2D user clicks into informative 3D guidance representations. Second, the Uncertainty-Eliminated 3D Segmentation module is designed to achieve efficient yet effective 3D segmentation. Third, Concealment-Revealed Supervised Learning scheme is proposed to reveal and correct the concealed 3D segmentation errors resulted from the supervision in 2D space with only 2D mask annotations. Extensive experiments on two real-world challenging benchmarks covering diverse scenes demonstrate 1) effectiveness and scene-generalizability of the proposed method, 2) favorable performance compared to classical method requiring scene-specific optimization.
翻訳日:2023-08-10 12:45:52 公開日:2023-08-09
# ゼロショット自己監督型学習再構成によるマルチショット拡散強調MRIの改良

Improved Multi-Shot Diffusion-Weighted MRI with Zero-Shot Self-Supervised Learning Reconstruction ( http://arxiv.org/abs/2308.05103v1 )

ライセンス: Link先を確認
Jaejin Cho, Yohan Jun, Xiaoqing Wang, Caique Kobayashi, Berkin Bilgic(参考訳) 拡散MRIはエコープラナー画像(EPI)を用いて高速な取得時間で行うのが一般的である。 しかし、拡散強調画像の解像度は磁場の不均一性に関連するアーティファクトや、T2-およびT2*-緩和効果によって引き起こされるぼかしによって制限されることが多い。 これらの制約に対処するため、マルチショット EPI (msEPI) と並列イメージング技術が併用されることが多い。 それでも、複数のショット間の位相変化のため、msEPIの再構成は困難である。 本研究では,0-MIRID(Multi-shot Image Reconstruction for Improved Diffusion MRI)と呼ばれる新しいmsEPI再構成手法を提案する。 本手法は,深層学習に基づく画像正規化手法を組み込んだmsepiデータを共同で再構成する。 このネットワークは、仮想コイルを活用して画像再構成条件を改善するとともに、k空間と画像空間の両方にCNNデノイザを組み込んでいる。 自己教師付き学習手法を採用し,サンプルデータを3つのグループに分割することにより,本手法は現状の並列イメージング法よりも優れた結果が得られる。

Diffusion MRI is commonly performed using echo-planar imaging (EPI) due to its rapid acquisition time. However, the resolution of diffusion-weighted images is often limited by magnetic field inhomogeneity-related artifacts and blurring induced by T2- and T2*-relaxation effects. To address these limitations, multi-shot EPI (msEPI) combined with parallel imaging techniques is frequently employed. Nevertheless, reconstructing msEPI can be challenging due to phase variation between multiple shots. In this study, we introduce a novel msEPI reconstruction approach called zero-MIRID (zero-shot self-supervised learning of Multi-shot Image Reconstruction for Improved Diffusion MRI). This method jointly reconstructs msEPI data by incorporating deep learning-based image regularization techniques. The network incorporates CNN denoisers in both k- and image-spaces, while leveraging virtual coils to enhance image reconstruction conditioning. By employing a self-supervised learning technique and dividing sampled data into three groups, the proposed approach achieves superior results compared to the state-of-the-art parallel imaging method, as demonstrated in an in-vivo experiment.
翻訳日:2023-08-10 12:45:02 公開日:2023-08-09
# DOST -- 雑音ラベルを用いた多ラベル分類のためのドメイン従属型自己教師型トレーニング

DOST -- Domain Obedient Self-supervised Training for Multi Label Classification with Noisy Labels ( http://arxiv.org/abs/2308.05101v1 )

ライセンス: Link先を確認
Soumadeep Saha, Utpal Garain, Arijit Ukil, Arpan Pal, Sundeep Khandelwal(参考訳) ディープラーニング技術によってもたらされる注釈データに対する膨大な需要は、アノテーションノイズの問題を伴っている。 この問題は機械学習の文献で広く議論されているが、より複雑なノイズを特徴とする「マルチラベル分類」(MLC)タスクの文脈では比較的研究されていない。 さらに、問題のあるドメインに一定の論理的制約がある場合、ノイズの多いアノテーションはしばしば違反を悪化させ、専門家には受け入れられないシステムになる。 本稿では, MLCタスクにおけるドメインルール違反事件に対するラベルノイズの影響について検討し, 学習アルゴリズムにドメインルールを取り入れ, ノイズの影響を軽減する。 本稿では,ディープラーニングモデルがドメインルールに合致するだけでなく,重要なメトリクスにおける学習性能を改善し,アノテーションノイズの影響を最小限に抑えるドメイン指向自己教師付きトレーニング(dost)パラダイムを提案する。 この新しいアプローチでは、ドメインガイダンスを使用して、不正なアノテーションを検出し、自己管理された方法でルール違反の予測を検知する。 2つの大規模マルチラベル分類データセットで実施した実証研究は,提案手法がボード全体に改善をもたらすことを示し,ノイズの影響を完全に否定する。

The enormous demand for annotated data brought forth by deep learning techniques has been accompanied by the problem of annotation noise. Although this issue has been widely discussed in machine learning literature, it has been relatively unexplored in the context of "multi-label classification" (MLC) tasks which feature more complicated kinds of noise. Additionally, when the domain in question has certain logical constraints, noisy annotations often exacerbate their violations, making such a system unacceptable to an expert. This paper studies the effect of label noise on domain rule violation incidents in the MLC task, and incorporates domain rules into our learning algorithm to mitigate the effect of noise. We propose the Domain Obedient Self-supervised Training (DOST) paradigm which not only makes deep learning models more aligned to domain rules, but also improves learning performance in key metrics and minimizes the effect of annotation noise. This novel approach uses domain guidance to detect offending annotations and deter rule-violating predictions in a self-supervised manner, thus making it more "data efficient" and domain compliant. Empirical studies, performed over two large scale multi-label classification datasets, demonstrate that our method results in improvement across the board, and often entirely counteracts the effect of noise.
翻訳日:2023-08-10 12:44:29 公開日:2023-08-09
# LayoutLLM-T2I:テキスト・画像生成のためのLCMからのレイアウト誘導

LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation ( http://arxiv.org/abs/2308.05095v1 )

ライセンス: Link先を確認
Leigang Qu, Shengqiong Wu, Hao Fei, Liqiang Nie, Tat-Seng Chua(参考訳) テキスト対画像生成の分野では、最近の安定拡散の著しい進展により、新しいフォトリアリスティックな画像が豊富に生成できるようになった。 しかし、現在のモデルでは、複雑な自然のシーンにおける不整合問題(例えば、問題のある空間的関係理解と数値化失敗)に直面しており、これは高信頼のテキスト・画像生成を妨げる。 近年,詳細なガイダンス(スケッチやスクリッブルなど)を提供することで制御性の向上が試みられているが,ユーザが手動で手動で指示情報を提供する必要があるため,この問題は根本から取り組まれていない。 本研究では,任意のテキストプロンプトにセマンティックに一致した高忠実度画像を,ガイダンスなしで合成する。 この目的のために,レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。 具体的には、まず、大言語モデルに基づくコンテキスト内学習を通じて、所定のテキストプロンプトで条件付けられた粗粒度レイアウトを生成する。 その後,プロンプトと自動生成レイアウトに条件付けられた高精細度画像を合成する粒度オブジェクト相互作用拡散法を提案する。 広範な実験により,提案手法がレイアウトや画像生成の面で最先端モデルを上回ることを示した。 コードと設定は \url{https://layoutllm-t2i.github.io} で公開しています。

In the text-to-image generation field, recent remarkable progress in Stable Diffusion makes it possible to generate rich kinds of novel photorealistic images. However, current models still face misalignment issues (e.g., problematic spatial relation understanding and numeration failure) in complex natural scenes, which impedes the high-faithfulness text-to-image generation. Although recent efforts have been made to improve controllability by giving fine-grained guidance (e.g., sketch and scribbles), this issue has not been fundamentally tackled since users have to provide such guidance information manually. In this work, we strive to synthesize high-fidelity images that are semantically aligned with a given textual prompt without any guidance. Toward this end, we propose a coarse-to-fine paradigm to achieve layout planning and image generation. Concretely, we first generate the coarse-grained layout conditioned on a given textual prompt via in-context learning based on Large Language Models. Afterward, we propose a fine-grained object-interaction diffusion method to synthesize high-faithfulness images conditioned on the prompt and the automatically generated layout. Extensive experiments demonstrate that our proposed method outperforms the state-of-the-art models in terms of layout and image generation. Our code and settings are available at \url{https://layoutllm-t2i.github.io}.
翻訳日:2023-08-10 12:44:06 公開日:2023-08-09
# より高度なクラスターを用いてサブヒューマンスケールでの画像識別が可能となる

A degree of image identification at sub-human scales could be possible with more advanced clusters ( http://arxiv.org/abs/2308.05092v1 )

ライセンス: Link先を確認
Prateek Y J(参考訳) 本研究の目的は、現在利用可能な自己教師型学習技術が、人々が取得した感覚入力の程度と量を用いて、視覚画像の人間レベルの理解を達成できるかどうかを判断することである。 このトピックに関する初期の研究は、データボリュームのスケーリングのみを考慮していた。 ここでは、データのボリュームと画像の品質の両方をスケールします。 このスケーリング実験は、外部資金なしで行うことができる自己教師付き学習手法である。 データボリュームと画像解像度を同時にスケールアップすることで、人間以下のサイズでの人間レベルのアイテム検出性能を実現し、最大20万枚の画像を256ppiまでトレーニングしたビジョントランスフォーマーによるスケーリング実験を実施した。

The purpose of the research is to determine if currently available self-supervised learning techniques can accomplish human level comprehension of visual images using the same degree and amount of sensory input that people acquire from. Initial research on this topic solely considered data volume scaling. Here, we scale both the volume of data and the quality of the image. This scaling experiment is a self-supervised learning method that may be done without any outside financing. We find that scaling up data volume and picture resolution at the same time enables human-level item detection performance at sub-human sizes.We run a scaling experiment with vision transformers trained on up to 200000 images up to 256 ppi.
翻訳日:2023-08-10 12:43:44 公開日:2023-08-09
# 組織的バルクメールシステム - リモートワークにおける役割とパフォーマンス

Organizational Bulk Email Systems: Their Role and Performance in Remote Work ( http://arxiv.org/abs/2308.05085v1 )

ライセンス: Link先を確認
Ruoyan Kong, Haiyi Zhu, Joseph A. Konstan(参考訳) 新型コロナウイルスの感染拡大で多くの従業員が在宅勤務を余儀なくされた。 組織的メールは、この在宅勤務環境において、従業員に中心的な情報を伝える上で重要な役割を担っている。 受信者は、組織から受信したバルクメッセージを保持できず、受信者と送信者はどのバルクメッセージが重要であるかについて異なる意見を持ち、通信者はより良いターゲットと設計のための技術サポートを欠いている。 本稿ではまず,組織コミュニケーションシステムの評価,設計,プロトタイプ化に関する先行研究について概説する。 次に,最近の知見と組織コミュニケーション研究に有用な研究手法について概説する。 最後に,リモートワーク環境における組織コミュニケーションを研究するための研究課題を提案し,重要な課題と今後の研究方向性を提案する。

The COVID-19 pandemic has forced many employees to work from home. Organizational bulk emails now play a critical role to reach employees with central information in this work-from-home environment. However, we know from our own recent work that organizational bulk email has problems: recipients fail to retain the bulk messages they received from the organization; recipients and senders have different opinions on which bulk messages were important; and communicators lack technology support to better target and design messages. In this position paper, first we review the prior work on evaluating, designing, and prototyping organizational communication systems. Second we review our recent findings and some research techniques we found useful in studying organizational communication. Last we propose a research agenda to study organizational communications in remote work environment and suggest some key questions and potential study directions.
翻訳日:2023-08-10 12:43:33 公開日:2023-08-09
# ビデオ意味的ロールラベリングのための包括的時空間シーングラフの構築

Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic Role Labeling ( http://arxiv.org/abs/2308.05081v1 )

ライセンス: Link先を確認
Yu Zhao, Hao Fei, Yixin Cao, Bobo Li, Meishan Zhang, Jianguo Wei, Min Zhang, Tat-Seng Chua(参考訳) video semantic role labeling (vidsrl) は、予測可能イベント構造とイベント間の相互関係を認識することによって、所定のビデオからサルエントイベントを検出することを目的としている。 近年のVidSRLの手法が提案されているが、細粒度の空間的シーン知覚の欠如やビデオ時間性の不十分なモデリングなど、主に2つの大きな欠点に直面する可能性がある。 この目的に向けて、既存の動的シーングラフ構造に基づく新しい全体論的時空間グラフ(HostSG)を探索し、VidSRLのビデオの微細な空間的意味論と時間的ダイナミックスの両方をモデル化する。 HostSGに基づいて構築されたニッチターゲット型VidSRLフレームワークを提案する。 シーンイベントマッピング機構は、まず、下層のシーン構造と高レベルのイベントセマンティック構造とのギャップを埋めるために設計され、結果として全体的な階層的なシーンイベント(ICE)グラフ構造が形成される。 さらに、全体的な構造表現が最終タスク要求と最も一致するように、アイスグラフを最適化するために反復的な構造改善を行う。 最後に、VidSRLの3つのサブタスク予測を共同でデコードし、エンドツーエンドのパラダイムがエラーの伝搬を効果的に回避する。 ベンチマークデータセットでは、フレームワークが現在のベストパフォーマンスモデルを大幅に上回っています。 本手法の進歩をより深く理解するために,さらなる分析を行った。

Video Semantic Role Labeling (VidSRL) aims to detect the salient events from given videos, by recognizing the predict-argument event structures and the interrelationships between events. While recent endeavors have put forth methods for VidSRL, they can be mostly subject to two key drawbacks, including the lack of fine-grained spatial scene perception and the insufficiently modeling of video temporality. Towards this end, this work explores a novel holistic spatio-temporal scene graph (namely HostSG) representation based on the existing dynamic scene graph structures, which well model both the fine-grained spatial semantics and temporal dynamics of videos for VidSRL. Built upon the HostSG, we present a nichetargeting VidSRL framework. A scene-event mapping mechanism is first designed to bridge the gap between the underlying scene structure and the high-level event semantic structure, resulting in an overall hierarchical scene-event (termed ICE) graph structure. We further perform iterative structure refinement to optimize the ICE graph, such that the overall structure representation can best coincide with end task demand. Finally, three subtask predictions of VidSRL are jointly decoded, where the end-to-end paradigm effectively avoids error propagation. On the benchmark dataset, our framework boosts significantly over the current best-performing model. Further analyses are shown for a better understanding of the advances of our methods.
翻訳日:2023-08-10 12:43:19 公開日:2023-08-09
# 空間効率量子特異値変換による空間境界量子状態試験

Space-bounded quantum state testing via space-efficient quantum singular value transformation ( http://arxiv.org/abs/2308.05079v1 )

ライセンス: Link先を確認
Fran\c{c}ois Le Gall, Yupan Liu, Qisheng Wang(参考訳) Driven by exploring the power of quantum computation with a limited number of qubits, we present a novel complete characterization for space-bounded quantum computation, which encompasses settings with one-sided error (unitary coRQL) and two-sided error (BQL), approached from a quantum state testing perspective: - The first family of natural complete problems for unitary coRQL, i.e., space-bounded quantum state certification for trace distance and Hilbert-Schmidt distance; - A new family of natural complete problems for BQL, i.e., space-bounded quantum state testing for trace distance, Hilbert-Schmidt distance, and quantum entropy difference. 空間境界量子状態テスト問題では、2つの対数量子ビット量子回路(デバイス)を$q_0$と$q_1$と定義し、それぞれ$\rho_0$と$\rho_1$を作成し、 ``source code'' にアクセスする。 我々の目標は、特定の距離的測度に関して、$\rho_0$が$\epsilon_1$-close か$\epsilon_2$-farかを$\rho_1$から決定することである。 興味深いことに、選択した距離のような測度(QSZK完全かBQP完全か)に依存する計算硬度を示す時間境界状態試験問題とは異なり、この3つの測度を考慮すれば、空間境界状態試験問題は量子状態の作成と同じくらい容易である。 我々の結果は、主に、独立した関心を持つGily\'en, Su, Low, Wiebe (STOC 2019)によって導入された量子特異値変換(QSVT)の空間効率のよい変種の上に構築されている。 本手法は空間有界量子アルゴリズムを設計するための統一的なアプローチを提供する。 具体的には,任意の有界多項式に対する QSVT の実装は,射影ユニタリ符号化の特別な形式に必要な空間に関してのみ一定オーバーヘッドを生じさせることを示す。

Driven by exploring the power of quantum computation with a limited number of qubits, we present a novel complete characterization for space-bounded quantum computation, which encompasses settings with one-sided error (unitary coRQL) and two-sided error (BQL), approached from a quantum state testing perspective: - The first family of natural complete problems for unitary coRQL, i.e., space-bounded quantum state certification for trace distance and Hilbert-Schmidt distance; - A new family of natural complete problems for BQL, i.e., space-bounded quantum state testing for trace distance, Hilbert-Schmidt distance, and quantum entropy difference. In the space-bounded quantum state testing problem, we consider two logarithmic-qubit quantum circuits (devices) denoted as $Q_0$ and $Q_1$, which prepare quantum states $\rho_0$ and $\rho_1$, respectively, with access to their ``source code''. Our goal is to decide whether $\rho_0$ is $\epsilon_1$-close to or $\epsilon_2$-far from $\rho_1$ with respect to a specified distance-like measure. Interestingly, unlike time-bounded state testing problems, which exhibit computational hardness depending on the chosen distance-like measure (either QSZK-complete or BQP-complete), our results reveal that the space-bounded state testing problems, considering all three measures, are computationally as easy as preparing quantum states. Our results primarily build upon a space-efficient variant of the quantum singular value transformation (QSVT) introduced by Gily\'en, Su, Low, and Wiebe (STOC 2019), which is of independent interest. Our technique provides a unified approach for designing space-bounded quantum algorithms. Specifically, we show that implementing QSVT for any bounded polynomial that approximates a piecewise-smooth function incurs only a constant overhead in terms of the space required for special forms of the projected unitary encoding.
翻訳日:2023-08-10 12:42:54 公開日:2023-08-09
# フォールトトレランス前の量子コンピューティングの有用性に関するエビデンスの高速・収束的古典シミュレーション

Fast and converged classical simulations of evidence for the utility of quantum computing before fault tolerance ( http://arxiv.org/abs/2308.05077v1 )

ライセンス: Link先を確認
Tomislav Begu\v{s}i\'c, Johnnie Gray, Garnet Kin-Lic Chan(参考訳) 最近の量子シミュレーションでは、127キュービット[nature 618, 500 (2023)]のブロックイジングモデルの可観測性が、厳密な古典的シミュレーションの能力を超えている。 スパースパウリ力学とテンソルネットワークアルゴリズムに基づくいくつかの近似古典的手法は、これらの観測可能な順序を量子実験より桁違いに高速にシミュレートでき、また実験精度を超えて体系的に収束できることを示す。 我々の最も正確な手法は、シュリンガーとハイゼンベルクのテンソルネットワーク表現を混合したシュリンガーとハイゼンベルクのテンソルネットワーク表現を組み合わせることで、多くの実用目的のために収束した${<}0.01$の観測値において、効果的な波動関数-演算サンドイッチ結合次元${>}16,000,000$で期待値を計算する。 これにより,実験外挿における不正確さを同定し,古典的硬さを高めるために今後の実験方法を提案する。

A recent quantum simulation of observables of the kicked Ising model on 127 qubits [Nature 618, 500 (2023)] implemented circuits that exceed the capabilities of exact classical simulation. We show that several approximate classical methods, based on sparse Pauli dynamics and tensor network algorithms, can simulate these observables orders of magnitude faster than the quantum experiment, and can also be systematically converged beyond the experimental accuracy. Our most accurate technique combines a mixed Schr\"odinger and Heisenberg tensor network representation with the free entropy relation of belief propagation to compute expectation values with an effective wavefunction-operator sandwich bond dimension ${>}16,000,000$, achieving an absolute accuracy, without extrapolation, in the observables of ${<}0.01$, which is converged for many practical purposes. We thereby identify inaccuracies in the experimental extrapolations and suggest how future experiments can be implemented to increase the classical hardness.
翻訳日:2023-08-10 12:42:19 公開日:2023-08-09
# CHERIによるマイクロPythonインタプリタの性能向上

CHERI Performance Enhancement for the MicroPython Interpreter ( http://arxiv.org/abs/2308.05076v1 )

ライセンス: Link先を確認
Duncan Lowther, Dejice Jacob, Jeremy Singer(参考訳) マイクロPythonバイトコードインタプリタをCHERIベースのArm Morelloプラットフォームに移植した際、多くの重大なパフォーマンス劣化が発生しました。 本稿では、これらのパフォーマンス問題のいくつかを詳細に検討し、それぞれのケースにおいて、問題の原因、修正、および一連の標準pythonベンチマークに対するパフォーマンス改善を特徴付ける。 我々は,MorelloがCHERIの概念の原型的物理インスタンス化であることを認めているが,ネイティブポインタに対するアーキテクチャ機能の大きさが大きいため,ある種のソフトウェアが引き起こすランタイムオーバーヘッドを排除できることを示す。 今回のケースでは、AArch64の実行に対して、5x(最適化前)から2x(最適化後)までの幾何平均ベンチマークのスローダウンを削減します。 最悪のケースのスローダウンは100倍(最適化前)から2倍(最適化後)まで大幅に改善されている。 従来のCHERI移植プロジェクトでは、コンパイル時と実行時のエラーがポインタサイズの仮定によって露呈されるのに対して、そのような仮定のパフォーマンスへの影響に焦点を当てています。

During our port of the MicroPython bytecode interpreter to the CHERI-based Arm Morello platform, we encountered a number of serious performance degradations. This paper explores several of these of these performance issues in detail, in each case characterizing the cause of the problem, the fix, and the corresponding performance improvement over a set of standard Python benchmarks. While we recognize that Morello is a prototypical physical instantiation of the CHERI concept, we show that it is possible to eliminate certain kinds of software-induced runtime overhead that occur due to the larger size of architectural capabilities relative to native pointers. In our case, we reduce a geometric mean benchmark slowdown from 5x (before optimization) to 2x (after optimization) relative to AArch64 execution. The worst-case slowdowns are greatly improved, from 100x (before optimization) to 2x (after optimization). The key insight is that pointer size assumptions pervade systems code; whereas previous CHERI porting projects highlighted compile-time and execution-time errors exposed by pointer size assumptions, we instead focus on the performance implications of such assumptions.
翻訳日:2023-08-10 12:41:57 公開日:2023-08-09
# 広汎化メラノーマ検出のためのコンテクストデータ拡張の活用

Leveraging Contextual Data Augmentation for Generalizable Melanoma Detection ( http://arxiv.org/abs/2212.05116v3 )

ライセンス: Link先を確認
Nick DiSanto, Gavin Harding, Ethan Martinez, Benjamin Sanders(参考訳) 皮膚がん検出は長年にわたって重要な深層学習アプリケーションであるが、その評価はテスト画像の評価の文脈を無視することが多い。 従来のメラノーマ分類器は、テスト環境がトレーニングされた構造化画像と同等であると仮定している。 本稿ではこの概念に挑戦し、プロの皮膚科における重要な属性であるモールサイズが、メラノーマの自動検出において誤解を招く可能性があると論じる。 悪性黒色腫は良性黒色腫よりも大きい傾向にあるが、画像のコンテキストスケーリングが不可能な場合には、サイズのみに依存することは信頼性が低く、有害である。 本実装では,パラメータの過度な適合を防止し,メラノーマ検出アプリケーションの実環境利用をシミュレートするために,様々なデータ拡張手順を実行するカスタムモデルを提案する。 mole分類器の最も重要な特徴を強調するために、異なる形式のデータ拡張を使用する複数のカスタムモデルが実装されている。 これらの実装は、そのようなアプリケーションをデプロイする際にユーザーの予測不能を考慮することの重要性を強調している。 データを手動で修正する場合に必要となる注意は、データ損失とバイアスのある結論をもたらす可能性があるため、認識される。 また,皮膚科と深層学習コミュニティにおけるデータ拡張の重要性も考察した。

While skin cancer detection has been a valuable deep learning application for years, its evaluation has often neglected the context in which testing images are assessed. Traditional melanoma classifiers assume that their testing environments are comparable to the structured images they are trained on. This paper challenges this notion and argues that mole size, a critical attribute in professional dermatology, can be misleading in automated melanoma detection. While malignant melanomas tend to be larger than benign melanomas, relying solely on size can be unreliable and even harmful when contextual scaling of images is not possible. To address this issue, this implementation proposes a custom model that performs various data augmentation procedures to prevent overfitting to incorrect parameters and simulate real-world usage of melanoma detection applications. Multiple custom models employing different forms of data augmentation are implemented to highlight the most significant features of mole classifiers. These implementations emphasize the importance of considering user unpredictability when deploying such applications. The caution required when manually modifying data is acknowledged, as it can result in data loss and biased conclusions. Additionally, the significance of data augmentation in both the dermatology and deep learning communities is considered.
翻訳日:2023-08-10 10:58:29 公開日:2023-08-09
# フォールトトレラント量子計算の逆問題

A Converse for Fault-tolerant Quantum Computation ( http://arxiv.org/abs/2211.00697v4 )

ライセンス: Link先を確認
Uthirakalyani G and Anuj K. Nayak and Avhishek Chatterjee(参考訳) フォールトトレラントな量子計算の技術が改善を続ける中、次のような質問をするのも自然である。 本稿では,ユニタリ演算子を含む多数の演算クラスに対して$\epsilon$-accurate実装に必要な冗長性の下限を求める。 実際に関係している部分指数深度とサブ線形ゲートサイズの場合、冗長性の境界は既知の下界よりも厳密である。 我々は, 整合制約を満たす有限ブロック長量子通信問題に, フォールトトレラント計算を接続することにより, この境界を求める。 ここで得られる冗長性の下限は、非分解性雑音に対するノイズ閾値の上限を厳密に小さくする。 我々の境界は、ゲートの出力のノイズが非i.i.dである場合に直接延びるが、ゲート間のノイズはi.i.dである。

As techniques for fault-tolerant quantum computation keep improving, it is natural to ask: what is the fundamental lower bound on redundancy? In this paper, we obtain a lower bound on the redundancy required for $\epsilon$-accurate implementation of a large class of operations that includes unitary operators. For the practically relevant case of sub-exponential depth and sub-linear gate size, our bound on redundancy is tighter than the known lower bounds. We obtain this bound by connecting fault-tolerant computation with a set of finite blocklength quantum communication problems whose accuracy requirements satisfy a joint constraint. The lower bound on redundancy obtained here leads to a strictly smaller upper bound on the noise threshold for non-degradable noise. Our bound directly extends to the case where noise at the outputs of a gate are non-i.i.d. but noise across gates are i.i.d.
翻訳日:2023-08-10 10:57:43 公開日:2023-08-09
# lawin transformer: 大きなウィンドウアテンションによるマルチスケール表現によるセマンティクスセグメンテーショントランスフォーマの改善

Lawin Transformer: Improving Semantic Segmentation Transformer with Multi-Scale Representations via Large Window Attention ( http://arxiv.org/abs/2201.01615v4 )

ライセンス: Link先を確認
Haotian Yan and Chuang Zhang and Ming Wu(参考訳) マルチスケール表現はセマンティックセグメンテーションに不可欠である。 コミュニティは、マルチスケールな文脈情報を利用するセマンティックセグメンテーション畳み込みニューラルネットワーク(cnn)の隆盛を目撃している。 視覚変換器 (ViT) は画像分類において強力であり, セマンティックセグメンテーション (セマンティックセグメンテーション) も近年提案されている。 本稿では,ウィンドウアテンション機構によるセマンティックセグメンテーション ViT へのマルチスケール表現の導入に成功し,性能と効率をさらに向上する。 この目的のために、ローカルウィンドウがより広い範囲のコンテキストウインドウを、ほんの少しの計算オーバーヘッドでクエリできるような、大きなウィンドウアテンションを導入する。 クエリ領域に対するコンテキスト領域の比率を調節することにより、$\textit{large window attention}$でコンテキスト情報を複数のスケールでキャプチャできる。 さらに、空間ピラミッドプーリングのフレームワークは、$\textit{the large window attention}$と協調するために採用され、セマンティックセグメンテーション ViT のための新規デコーダ $\textbf{la}$rge $\textbf{win}$dow attention spatial pyramid pooling (LawinASPP) が提示される。 得られたViTであるLawin Transformerは、エンコーダとして効率的な階層型視覚変換器(HVT)、デコーダとしてLawinASPPから構成される。 実験の結果, ローリン変圧器は従来の方法よりも効率が良くなることがわかった。 Lawin Transformerはさらに、Cityscapes(84.4% mIoU)、ADE20K(56.2% mIoU)、COCO-Stuffデータセットに新しい最先端パフォーマンスを設定できる。 コードはhttps://github.com/yan-hao-tian/lawinでリリースされる。

Multi-scale representations are crucial for semantic segmentation. The community has witnessed the flourish of semantic segmentation convolutional neural networks (CNN) exploiting multi-scale contextual information. Motivated by that the vision transformer (ViT) is powerful in image classification, some semantic segmentation ViTs are recently proposed, most of them attaining impressive results but at a cost of computational economy. In this paper, we succeed in introducing multi-scale representations into semantic segmentation ViT via window attention mechanism and further improves the performance and efficiency. To this end, we introduce large window attention which allows the local window to query a larger area of context window at only a little computation overhead. By regulating the ratio of the context area to the query area, we enable the $\textit{large window attention}$ to capture the contextual information at multiple scales. Moreover, the framework of spatial pyramid pooling is adopted to collaborate with $\textit{the large window attention}$, which presents a novel decoder named $\textbf{la}$rge $\textbf{win}$dow attention spatial pyramid pooling (LawinASPP) for semantic segmentation ViT. Our resulting ViT, Lawin Transformer, is composed of an efficient hierachical vision transformer (HVT) as encoder and a LawinASPP as decoder. The empirical results demonstrate that Lawin Transformer offers an improved efficiency compared to the existing method. Lawin Transformer further sets new state-of-the-art performance on Cityscapes (84.4% mIoU), ADE20K (56.2% mIoU) and COCO-Stuff datasets. The code will be released at https://github.com/yan-hao-tian/lawin
翻訳日:2023-08-10 10:57:01 公開日:2023-08-09
# モバイルネット畳み込みに基づく軽量ターゲット検出アルゴリズム

A lightweight target detection algorithm based on Mobilenet Convolution ( http://arxiv.org/abs/2002.03729v4 )

ライセンス: Link先を確認
Nina Kuchuk, Shengquan Wang(参考訳) Target detection algorithm based on deep learning needs high computer GPU configuration, even need to use high performance deep learning workstation, this not only makes the cost increase, also greatly limits the realizability of the ground, this paper introduces a kind of lightweight algorithm for target detection under the condition of the balance accuracy and computational efficiency, MobileNet as Backbone performs parameter The processing speed is 30fps on the RTX2060 card for images with the CNN separator layer. rtx2060カードの処理速度は30fpsで、解像度は320*320である。

Target detection algorithm based on deep learning needs high computer GPU configuration, even need to use high performance deep learning workstation, this not only makes the cost increase, also greatly limits the realizability of the ground, this paper introduces a kind of lightweight algorithm for target detection under the condition of the balance accuracy and computational efficiency, MobileNet as Backbone performs parameter The processing speed is 30fps on the RTX2060 card for images with the CNN separator layer. The processing speed is 30fps on the RTX2060 card for images with a resolution of 320*320.
翻訳日:2023-08-10 10:56:20 公開日:2023-08-09
# 大規模行動空間を用いたオフポリティ評価のための二重ロバスト推定器

Doubly Robust Estimator for Off-Policy Evaluation with Large Action Spaces ( http://arxiv.org/abs/2308.03443v2 )

ライセンス: Link先を確認
Tatsuhiro Shimizu, Laura Forastiere(参考訳) 大規模行動空間を持つコンテキスト的帯域設定におけるオフ・ポリティ・アセスメント(OPE)について検討する。 ベンチマーク評価者は厳しいバイアスと分散トレードオフに苦しむ。 パラメトリックアプローチは正しいモデルを特定するのが難しいためバイアスに悩まされるが、重みのあるアプローチはばらつきに悩まされる。 これらの制限を克服するため、推定器の分散を緩和するためにMarginalized Inverse Propensity Scoring (MIPS) が提案された。 推定器をより正確にするために,mprの2重ロバストな推定器であるmarginalized doubly robust (mdr) estimatorを提案する。 理論的解析により,提案した推定器はMIPSよりも弱い仮定の下では偏りがなく,IPSに対する分散低減は維持されている。 実証実験は、既存の推定値に対するMDRの優位性を検証する。

We study Off-Policy Evaluation (OPE) in contextual bandit settings with large action spaces. The benchmark estimators suffer from severe bias and variance tradeoffs. Parametric approaches suffer from bias due to difficulty specifying the correct model, whereas ones with importance weight suffer from variance. To overcome these limitations, Marginalized Inverse Propensity Scoring (MIPS) was proposed to mitigate the estimator's variance via embeddings of an action. To make the estimator more accurate, we propose the doubly robust estimator of MIPS called the Marginalized Doubly Robust (MDR) estimator. Theoretical analysis shows that the proposed estimator is unbiased under weaker assumptions than MIPS while maintaining variance reduction against IPS, which was the main advantage of MIPS. The empirical experiment verifies the supremacy of MDR against existing estimators.
翻訳日:2023-08-10 10:51:54 公開日:2023-08-09
# 不規則サンプリング時系列のための時間パラメータ化された畳み込みニューラルネットワーク

Time-Parameterized Convolutional Neural Networks for Irregularly Sampled Time Series ( http://arxiv.org/abs/2308.03210v2 )

ライセンス: Link先を確認
Chrysoula Kosma, Giannis Nikolentzos, Michalis Vazirgiannis(参考訳) 不規則にサンプリングされた多変量時系列は、いくつかのアプリケーション領域においてユビキタスであり、スパース(sparse)、完全観測ではなく、異なる変数にわたる非整合観測をもたらす。 recurrent neural network (rnns)やconvolutional neural networks (cnns)のような標準的なシーケンシャルニューラルネットワークアーキテクチャは、観測時間間の定期的な間隔を考慮し、不規則な時系列モデリングに重大な挑戦をしている。 提案されたアーキテクチャのほとんどは不規則な時間間隔を扱うためにrnn変種を含んでいるが、畳み込みニューラルネットワークは不規則なサンプリング設定で十分に研究されていない。 本稿では,時間的に初期化されたカーネルを用いて畳み込み層をパラメータ化する。 このような時間の一般的な関数は、連続時間隠れダイナミクスの学習プロセスを強化し、畳み込み核重みに効率的に組み込むことができる。 そこで本研究では,バニラ畳み込みと同じような特性を持つが,不規則にサンプリングされた時系列に対して慎重に設計されている時間パラメータ畳み込みニューラルネットワーク(tpcnn)を提案する。 我々は,実世界の不規則な多変量時系列データセットを含む補間タスクと分類タスクについてTPCNNを評価する。 実験結果から,提案したTPCNNモデルの競合性能は,他の最先端手法よりも優れていた。 同時に, ネットワーク性能を向上させる学習可能な時間関数の組み合わせを活用し, この分野における畳み込みの初回適用を早めることにより, 入力系列の解釈可能性を実現する。

Irregularly sampled multivariate time series are ubiquitous in several application domains, leading to sparse, not fully-observed and non-aligned observations across different variables. Standard sequential neural network architectures, such as recurrent neural networks (RNNs) and convolutional neural networks (CNNs), consider regular spacing between observation times, posing significant challenges to irregular time series modeling. While most of the proposed architectures incorporate RNN variants to handle irregular time intervals, convolutional neural networks have not been adequately studied in the irregular sampling setting. In this paper, we parameterize convolutional layers by employing time-explicitly initialized kernels. Such general functions of time enhance the learning process of continuous-time hidden dynamics and can be efficiently incorporated into convolutional kernel weights. We, thus, propose the time-parameterized convolutional neural network (TPCNN), which shares similar properties with vanilla convolutions but is carefully designed for irregularly sampled time series. We evaluate TPCNN on both interpolation and classification tasks involving real-world irregularly sampled multivariate time series datasets. Our experimental results indicate the competitive performance of the proposed TPCNN model which is also significantly more efficient than other state-of-the-art methods. At the same time, the proposed architecture allows the interpretability of the input series by leveraging the combination of learnable time functions that improve the network performance in subsequent tasks and expedite the inaugural application of convolutions in this field.
翻訳日:2023-08-10 10:51:38 公開日:2023-08-09
# 複数参照時代に向けて -- NLG評価におけるデータ漏洩と限定参照多様性の対応

Towards Multiple References Era -- Addressing Data Leakage and Limited Reference Diversity in NLG Evaluation ( http://arxiv.org/abs/2308.03131v3 )

ライセンス: Link先を確認
Xianfeng Zeng, Yijin Liu, Fandong Meng and Jie Zhou(参考訳) BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。 しかし、最近の研究では、これらのマッチングベースのメトリクスと人間の評価との間に弱い相関関係が明らかになっている。 本稿では、マッチングベースのメトリクスにおけるパフォーマンスボトルネックは、参照の多様性の制限によって引き起こされる可能性があると推測する。 この問題に対処するために,これらの指標と人的評価との整合性を高めるために, textit{multiple references} を用いることを提案する。 wmtメトリックベンチマークでは、マルチリファレンスf200spbleuが従来のシングルリファレンスより7.2\%精度が向上している。 驚くべきことに、ニューラルネットワークベースのbertscoreを3.9\%の精度向上で上回っている。 さらに,大規模言語モデル (LLM) におけるデータ漏洩問題は,マルチリファレンス・メトリックによって大幅に軽減できることがわかった。 コードとデータは \url{https://github.com/sefazeng/llm-ref} でリリースします。

N-gram matching-based evaluation metrics, such as BLEU and chrF, are widely utilized across a range of natural language generation (NLG) tasks. However, recent studies have revealed a weak correlation between these matching-based metrics and human evaluations, especially when compared with neural-based metrics like BLEURT. In this paper, we conjecture that the performance bottleneck in matching-based metrics may be caused by the limited diversity of references. To address this issue, we propose to utilize \textit{multiple references} to enhance the consistency between these metrics and human evaluations. Within the WMT Metrics benchmarks, we observe that the multi-references F200spBLEU surpasses the conventional single-reference one by an accuracy improvement of 7.2\%. Remarkably, it also exceeds the neural-based BERTscore by an accuracy enhancement of 3.9\%. Moreover, we observe that the data leakage issue in large language models (LLMs) can be mitigated to a large extent by our multi-reference metric. We release the code and data at \url{https://github.com/SefaZeng/LLM-Ref}
翻訳日:2023-08-10 10:51:13 公開日:2023-08-09
# グラフニューラルネットワークとnonextensive entropyを用いたグローバル金融市場の異常検出

Anomaly Detection in Global Financial Markets with Graph Neural Networks and Nonextensive Entropy ( http://arxiv.org/abs/2308.02914v2 )

ライセンス: Link先を確認
Kleyton da Costa(参考訳) 異常検出は、特に多くの変数を持つシステムにおいて、難しい課題である。 異常は分析データと統計的に異なる傾向にあり、まれな事象、故障、システム誤用から生じる可能性がある。 本研究では,非集中エントロピーによる不確実性を考慮したグラフニューラルネットワーク(GNN)を用いて,グローバル金融市場の異常を検出する能力について検討した。 その結果,危機前後における高度に相関する資産の複雑構造は減少し,危機前後の非隣り合わせエントロピーパラメータでは統計的に異常数が異なることがわかった。

Anomaly detection is a challenging task, particularly in systems with many variables. Anomalies are outliers that statistically differ from the analyzed data and can arise from rare events, malfunctions, or system misuse. This study investigated the ability to detect anomalies in global financial markets through Graph Neural Networks (GNN) considering an uncertainty scenario measured by a nonextensive entropy. The main findings show that the complex structure of highly correlated assets decreases in a crisis, and the number of anomalies is statistically different for nonextensive entropy parameters considering before, during, and after crisis.
翻訳日:2023-08-10 10:50:54 公開日:2023-08-09
# Adapt and Decompose: Domain Adapted Least-to-Most PromptingによるText-to-SQLの効率的な一般化

Adapt and Decompose: Efficient Generalization of Text-to-SQL via Domain Adapted Least-To-Most Prompting ( http://arxiv.org/abs/2308.02582v3 )

ライセンス: Link先を確認
Aseem Arora, Shabbirhussain Bhaisaheb, Harshit Nigam, Manasi Patwardhan, Lovekesh Vig, Gautam Shroff(参考訳) Text-to-SQLセマンティックパーシングのクロスドメインとクロスコンポーネントの一般化は難しい課題である。 既存のLarge Language Model (LLM) ベースのソリューションは、自然言語(NL)テストクエリ毎に実行時のプロンプトを合成するために、トレーニングセットから少数ショットの例の推論時検索に依存する。 対照的に、トレーニングデータから最小限の少数のショットをオフラインでサンプリングするアルゴリズムを考案し、SQL節、演算子、関数を完全にカバーし、許容トークン長内でのドメインカバレッジを最大化する。 これにより、固定されたジェネリック・プロンプト (GP) の合成が可能となり、NLテストクエリに共通する様々な例のセットで、高価なテストタイムの例検索を避けることができる。 さらに、GPをターゲットデータベース領域(DA-GP)に自動適応させ、クロスドメインの一般化をよりうまく処理し、次いで、クロスコンポジションの一般化を扱うために分解されたLast-To-Most-Prompting(LTMP-DA-GP)を処理します。 LTMP-DA-GPの合成はオフラインタスクであり、人間の介入を最小限に抑えた新しいデータベースに対して1回ずつ実行される。 提案手法は,テキストからSQLへのタスクの一般化性を評価するために設計されたKaggleDBQAデータセット上で,優れた性能を示す。 さらに,GP 上での LTMP-DA-GP の性能改善を LLM や KaggleDBQA のデータベース上で一貫した性能向上を示し,本手法の有効性とモデルに依存しない利点を強調した。

Cross-domain and cross-compositional generalization of Text-to-SQL semantic parsing is a challenging task. Existing Large Language Model (LLM) based solutions rely on inference-time retrieval of few-shot exemplars from the training set to synthesize a run-time prompt for each Natural Language (NL) test query. In contrast, we devise an algorithm which performs offline sampling of a minimal set-of few-shots from the training data, with complete coverage of SQL clauses, operators and functions, and maximal domain coverage within the allowed token length. This allows for synthesis of a fixed Generic Prompt (GP), with a diverse set-of exemplars common across NL test queries, avoiding expensive test time exemplar retrieval. We further auto-adapt the GP to the target database domain (DA-GP), to better handle cross-domain generalization; followed by a decomposed Least-To-Most-Prompting (LTMP-DA-GP) to handle cross-compositional generalization. The synthesis of LTMP-DA-GP is an offline task, to be performed one-time per new database with minimal human intervention. Our approach demonstrates superior performance on the KaggleDBQA dataset, designed to evaluate generalizability for the Text-to-SQL task. We further showcase consistent performance improvement of LTMP-DA-GP over GP, across LLMs and databases of KaggleDBQA, highlighting the efficacy and model agnostic benefits of our prompt based adapt and decompose approach.
翻訳日:2023-08-10 10:50:42 公開日:2023-08-09
# Floss を用いた周期時系列表現学習の強化:周波数領域正規化アプローチ

Enhancing Representation Learning for Periodic Time Series with Floss: A Frequency Domain Regularization Approach ( http://arxiv.org/abs/2308.01011v3 )

ライセンス: Link先を確認
Chunwei Yang, Xiaoxu Chen, Lijun Sun, Hongyu Yang, Yuankai Wu(参考訳) 時系列解析は様々なアプリケーション領域において基本的な課題であり、深層学習アプローチはこの分野において顕著な性能を示している。 しかし、多くの実世界の時系列データは、既存のディープラーニングベースのソリューションによって適切に捉えられていない重要な周期的または準周期的ダイナミクスを示す。 この結果、関心のある動的振る舞いの完全な表現が得られなくなる。 このギャップに対処するために,周波数領域における学習表現を自動的に規則化するflossと呼ばれる教師なし手法を提案する。 Floss法はまず時系列から主要な周期を自動的に検出する。 その後、周期的シフトとスペクトル密度類似性尺度を用いて、周期的一貫性を持つ有意義な表現を学習する。 さらに、flossは教師なし、半教師なし、教師なしの学習フレームワークの両方に簡単に組み込むことができる。 フロスの有効性を実証するために,時系列分類,予測,異常検出に関する広範囲な実験を行った。 我々はFlossをいくつかの代表的なディープラーニングソリューションに組み込んで、設計選択を正当化し、周期的ダイナミクスを自動的に発見し、最先端のディープラーニングモデルを改善することができることを示す。

Time series analysis is a fundamental task in various application domains, and deep learning approaches have demonstrated remarkable performance in this area. However, many real-world time series data exhibit significant periodic or quasi-periodic dynamics that are often not adequately captured by existing deep learning-based solutions. This results in an incomplete representation of the underlying dynamic behaviors of interest. To address this gap, we propose an unsupervised method called Floss that automatically regularizes learned representations in the frequency domain. The Floss method first automatically detects major periodicities from the time series. It then employs periodic shift and spectral density similarity measures to learn meaningful representations with periodic consistency. In addition, Floss can be easily incorporated into both supervised, semi-supervised, and unsupervised learning frameworks. We conduct extensive experiments on common time series classification, forecasting, and anomaly detection tasks to demonstrate the effectiveness of Floss. We incorporate Floss into several representative deep learning solutions to justify our design choices and demonstrate that it is capable of automatically discovering periodic dynamics and improving state-of-the-art deep learning models.
翻訳日:2023-08-10 10:50:08 公開日:2023-08-09
# 有限分類モデルのためのエクササイズカーネル等価性

An Exact Kernel Equivalence for Finite Classification Models ( http://arxiv.org/abs/2308.00824v3 )

ライセンス: Link先を確認
Brian Bell, Michael Geyer, David Glickenstein, Amanda Fernandez, Juston Moore(参考訳) ニューラルネットワークとカーネル手法の同値性について検討し、勾配勾配をカーネルマシンとして訓練した有限サイズパラメトリック分類モデルの最初の正確な表現を導出する。 我々は、よく知られたニューラルタンジェントカーネル(NTK)と正確な表現を比較し、NTKや他の非コンパクトパスカーネルの定式化に対する近似誤差について議論する。 計算機の精度まで,実ネットワーク上でカーネルを計算できることを実験的に実証する。 私たちはこの正確なカーネルを使って、ニューラルネットワークによる予測、特にそれらの一般化方法に関する有益な洞察を提供することができることを示しています。

We explore the equivalence between neural networks and kernel methods by deriving the first exact representation of any finite-size parametric classification model trained with gradient descent as a kernel machine. We compare our exact representation to the well-known Neural Tangent Kernel (NTK) and discuss approximation error relative to the NTK and other non-exact path kernel formulations. We experimentally demonstrate that the kernel can be computed for realistic networks up to machine precision. We use this exact kernel to show that our theoretical contribution can provide useful insights into the predictions made by neural networks, particularly the way in which they generalize.
翻訳日:2023-08-10 10:49:50 公開日:2023-08-09
# 物理インフォームドニューラルネットワークによる次元の呪いへの取り組み

Tackling the Curse of Dimensionality with Physics-Informed Neural Networks ( http://arxiv.org/abs/2307.12306v3 )

ライセンス: Link先を確認
Zheyuan Hu, Khemraj Shukla, George Em Karniadakis, Kenji Kawaguchi(参考訳) 次元の呪い (CoD) は計算資源に重きを置き、次元が大きくなるにつれて計算コストが指数関数的に増加する。 これは60年以上前にRichard Bellman氏が最初に指摘したように、高次元PDEを解決する上で大きな課題となる。 近年、数値偏微分方程式(PDE)を高次元で解くことに成功したが、そのような計算は違法に高価であり、一般的な非線形PDEの高次元への真のスケーリングは達成されていない。 本稿では,任意の高次元PDEを解くために,物理インフォームドニューラルネットワーク(PINN)をスケールアップする新しい手法を提案する。 新しい手法はStochastic Dimension Gradient Descent (SDGD)と呼ばれ、PDEの勾配を異なる次元に対応するピースに分解し、トレーニングPINNの各イテレーションでこれらの次元のサブセットをランダムにサンプリングする。 提案手法の収束保証とその他の望ましい性質を理論的に証明する。 提案手法は,ピンスメッシュを使わずに1つのgpu上で非常に高速に,ハミルトン・ヤコビ・ベルマン(hjb)方程式やシュル(shr\"{o}dinger方程式など,多くの悪名高い高次元pdesを解くことができることを実験的に証明した。 例えば、sdgdとピンを用いた単一のgpu上で、非自明な非線形pdes(1つのhjb方程式と1つのブラックシェール方程式)を6時間で10万次元で解く。 SDGD は PINN の一般的な訓練手法であるため、SDGD は任意の高次元 PDE に対してスケールアップするために、現在および将来の PINN のどの変種にも適用することができる。

The curse-of-dimensionality (CoD) taxes computational resources heavily with exponentially increasing computational cost as the dimension increases. This poses great challenges in solving high-dimensional PDEs as Richard Bellman first pointed out over 60 years ago. While there has been some recent success in solving numerically partial differential equations (PDEs) in high dimensions, such computations are prohibitively expensive, and true scaling of general nonlinear PDEs to high dimensions has never been achieved. In this paper, we develop a new method of scaling up physics-informed neural networks (PINNs) to solve arbitrary high-dimensional PDEs. The new method, called Stochastic Dimension Gradient Descent (SDGD), decomposes a gradient of PDEs into pieces corresponding to different dimensions and samples randomly a subset of these dimensional pieces in each iteration of training PINNs. We theoretically prove the convergence guarantee and other desired properties of the proposed method. We experimentally demonstrate that the proposed method allows us to solve many notoriously hard high-dimensional PDEs, including the Hamilton-Jacobi-Bellman (HJB) and the Schr\"{o}dinger equations in thousands of dimensions very fast on a single GPU using the PINNs mesh-free approach. For instance, we solve nontrivial nonlinear PDEs (one HJB equation and one Black-Scholes equation) in 100,000 dimensions in 6 hours on a single GPU using SDGD with PINNs. Since SDGD is a general training methodology of PINNs, SDGD can be applied to any current and future variants of PINNs to scale them up for arbitrary high-dimensional PDEs.
翻訳日:2023-08-10 10:49:40 公開日:2023-08-09
# 大規模言語モデルを用いたテキスト分類の事前適応による教師なし校正

Unsupervised Calibration through Prior Adaptation for Text Classification using Large Language Models ( http://arxiv.org/abs/2307.06713v3 )

ライセンス: Link先を確認
Lautaro Estienne, Luciana Ferrer, Mat\'ias Vera, Pablo Piantanida(参考訳) 現在、さまざまな自然言語タスクが大規模言語モデル(llm)で処理されている。 これらのモデルは、通常、非常に大量の教師なしのテキストデータで訓練され、微調整、キャリブレーション、コンテキスト内学習などの手法を使用して下流の自然言語タスクを実行するように適合する。 そこで本研究では,ラベル付きサンプルとドメイン内サンプルクエリのみを必要とせず,テキスト分類タスクに事前クラス分布を適用する手法を提案する。 提案されたアプローチでは、llmをブラックボックスとして扱い、モデル後方をタスクに校正するステージを追加する。 提案手法は,適応データを用いずにキャリブレーションを行い,プロンプトと前回のアプローチで異なるトレーニングショット数に対して適応しないモデルよりも優れていた。

A wide variety of natural language tasks are currently being addressed with large-scale language models (LLMs). These models are usually trained with a very large amount of unsupervised text data and adapted to perform a downstream natural language task using methods like fine-tuning, calibration or in-context learning. In this work, we propose an approach to adapt the prior class distribution to perform text classification tasks without the need for labelled samples and only few in-domain sample queries. The proposed approach treats the LLM as a black box, adding a stage where the model posteriors are calibrated to the task. Results show that these methods outperform the un-adapted model for different number of training shots in the prompt and a previous approach were calibration is performed without using any adaptation data.
翻訳日:2023-08-10 10:49:08 公開日:2023-08-09
# 雑音量子光回路の最適化における二次速度アップ

A Quadratic Speedup in the Optimization of Noisy Quantum Optical Circuits ( http://arxiv.org/abs/2303.08879v3 )

ライセンス: Link先を確認
Robbe De Prins, Yuan Yao, Anuj Apte and Filippo M. Miatto(参考訳) 光子数分解(PNR)検出器を用いた線形光量子回路は、ガウス的ボソンサンプリング(GBS)と、ゴッテマン・キタエフ・プレスキル(GKP)、猫、NOON状態などの非ガウス的状態の生成に用いられている。 量子コンピューティングや量子力学の多くのスキームにおいて重要である。 PNR検出器を用いた古典的な最適化回路は、指数関数的に大きなヒルベルト空間のため困難であり、状態ベクトルが密度行列に置き換えられるにつれてデコヒーレンスの存在が二次的に困難である。 この問題に対処するために、ノイズのないケースに匹敵する複雑さを伴う検出確率、条件状態(回路パラメトリゼーションに関する勾配も含む)を計算するアルゴリズムのファミリーを導入する。 その結果、同じリソースを使って、これまでの2倍のモードで回路をシミュレートし、最適化することができる。 より正確には、検出モードが$D$および未検出モードが$U$の場合、我々のアルゴリズムの複雑さは$O(M^2 \prod_{i\in U} C_i^2 \prod_{i\in D} C_i)$であり、$O(M^2 \prod_{i \in D\cup U} C_i^2)$である。 特に,本手法では,全モードが検出される場合と同様に,検出確率を計算するための2次高速化を行う。 最後に、これらのアルゴリズムは実装され、オープンソースのフォトニック最適化ライブラリMrMustardで使用できる。

Linear optical quantum circuits with photon number resolving (PNR) detectors are used for both Gaussian Boson Sampling (GBS) and for the preparation of non-Gaussian states such as Gottesman-Kitaev-Preskill (GKP), cat and NOON states. They are crucial in many schemes of quantum computing and quantum metrology. Classically optimizing circuits with PNR detectors is challenging due to their exponentially large Hilbert space, and quadratically more challenging in the presence of decoherence as state vectors are replaced by density matrices. To tackle this problem, we introduce a family of algorithms that calculate detection probabilities, conditional states (as well as their gradients with respect to circuit parametrizations) with a complexity that is comparable to the noiseless case. As a consequence we can simulate and optimize circuits with twice the number of modes as we could before, using the same resources. More precisely, for an $M$-mode noisy circuit with detected modes $D$ and undetected modes $U$, the complexity of our algorithm is $O(M^2 \prod_{i\in U} C_i^2 \prod_{i\in D} C_i)$, rather than $O(M^2 \prod_{i \in D\cup U} C_i^2)$, where $C_i$ is the Fock cutoff of mode $i$. As a particular case, our approach offers a full quadratic speedup for calculating detection probabilities, as in that case all modes are detected. Finally, these algorithms are implemented and ready to use in the open-source photonic optimization library MrMustard.
翻訳日:2023-08-10 10:48:54 公開日:2023-08-09
# イベント匿名化による識別のない人物再識別

Person Re-Identification without Identification via Event Anonymization ( http://arxiv.org/abs/2308.04402v2 )

ライセンス: Link先を確認
Shafiq Ahmad, Pietro Morerio, Alessio Del Bue(参考訳) 公共空間における視覚的監視の大規模利用は、個人のプライバシーを犠牲にしつつ、リソース消費(エネルギー、帯域幅、計算)を増加させる。 ニューロモルフィック視覚センサ(イベントカメラ)は, 現場の被験者の詳細なRGB視覚情報を捉えないため, プライバシー問題に対する有効な解決策として近年検討されている。 しかし、最近のディープラーニングアーキテクチャは、イベントカメラからのイメージを高い忠実度で再構築することができ、イベントベースのビジョンアプリケーションに対するプライバシーに対する潜在的な脅威を再導入している。 本稿では,このような画像再構成攻撃から人間の身元を守るために,イベントストリームを匿名化することを目的とする。 そこで本研究では,プライバシを保護し,人物ReIdのような下流タスクを実行するという2つの目的に対して,エンドツーエンドネットワークアーキテクチャを共同で最適化する手法を提案する。 我々のネットワークは、イベントをスクランブルすることを学び、プライバシー攻撃者から回収された画像の劣化を強制する。 この作業では、私たちのアプローチのパフォーマンスを評価するために収集された最初のイベントベースの人物ReIdデータセットもコミュニティに提供します。 本手法を広範囲な実験により検証し,SoftBioデータセットと提案したEvent-ReIdデータセットからシミュレーションした合成イベントデータについて報告する。

Wide-scale use of visual surveillance in public spaces puts individual privacy at stake while increasing resource consumption (energy, bandwidth, and computation). Neuromorphic vision sensors (event-cameras) have been recently considered a valid solution to the privacy issue because they do not capture detailed RGB visual information of the subjects in the scene. However, recent deep learning architectures have been able to reconstruct images from event cameras with high fidelity, reintroducing a potential threat to privacy for event-based vision applications. In this paper, we aim to anonymize event-streams to protect the identity of human subjects against such image reconstruction attacks. To achieve this, we propose an end-to-end network architecture jointly optimized for the twofold objective of preserving privacy and performing a downstream task such as person ReId. Our network learns to scramble events, enforcing the degradation of images recovered from the privacy attacker. In this work, we also bring to the community the first ever event-based person ReId dataset gathered to evaluate the performance of our approach. We validate our approach with extensive experiments and report results on the synthetic event data simulated from the publicly available SoftBio dataset and our proposed Event-ReId dataset.
翻訳日:2023-08-10 10:43:23 公開日:2023-08-09
# ソーシャルプロセスマイニングを支援する企業コラボレーションシステムのためのイベント抽象化

Event Abstraction for Enterprise Collaboration Systems to Support Social Process Mining ( http://arxiv.org/abs/2308.04396v2 )

ライセンス: Link先を確認
Jonas Blatt, Patrick Delfmann, Petra Schubert(参考訳) プロセスマイニング(PM)の1つの目的は、情報システムのイベントログからプロセスモデルの発見である。 PMはプロセス指向のエンタープライズシステムに適用されているが、通信やドキュメント指向のエンタープライズコラボレーションシステム(ECS)には適していない。 ECSイベントログは非常に粒度が高く、その結果はスパゲッティモデルに適用される。 これに対する一般的な解決策は、発見アルゴリズムを実行する前に低レベルのログをより抽象的な高レベルのログに変換する、イベント抽象化である。 ECSログには、既存のイベント抽象化アプローチで完全に対処されていない特別な特徴がある。 このギャップをECSイベント抽象化(ECSEA)アプローチで埋めることを目指しており、記録された実際のユーザアクティビティ(ハイレベルトレース)とシステム生成の低レベルトレース(ECSから抽出した)を比較してモデルを訓練する。 このモデルにより、将来の低レベルトレースをPMに使用できる抽象化された高レベルログに変換することができる。 本評価は,アルゴリズムが正確な結果を生成することを示す。 ECSEAは、社会プロセスマイニング(Social Process Mining)と呼ばれるECSにおける協調作業活動の解釈に不可欠な前処理手法である。

One aim of Process Mining (PM) is the discovery of process models from event logs of information systems. PM has been successfully applied to process-oriented enterprise systems but is less suited for communication- and document-oriented Enterprise Collaboration Systems (ECS). ECS event logs are very fine-granular and PM applied to their logs results in spaghetti models. A common solution for this is event abstraction, i.e., converting low-level logs into more abstract high-level logs before running discovery algorithms. ECS logs come with special characteristics that have so far not been fully addressed by existing event abstraction approaches. We aim to close this gap with a tailored ECS event abstraction (ECSEA) approach that trains a model by comparing recorded actual user activities (high-level traces) with the system-generated low-level traces (extracted from the ECS). The model allows us to automatically convert future low-level traces into an abstracted high-level log that can be used for PM. Our evaluation shows that the algorithm produces accurate results. ECSEA is a preprocessing method that is essential for the interpretation of collaborative work activity in ECS, which we call Social Process Mining.
翻訳日:2023-08-10 10:43:02 公開日:2023-08-09
# DELFlow: 大規模クラウドのためのシーンフローの高精度学習

DELFlow: Dense Efficient Learning of Scene Flow for Large-Scale Point Clouds ( http://arxiv.org/abs/2308.04383v2 )

ライセンス: Link先を確認
Chensheng Peng, Guangming Wang, Xian Wan Lo, Xinrui Wu, Chenfeng Xu, Masayoshi Tomizuka, Wei Zhan, Hesheng Wang(参考訳) 点雲は自然に狭く、画像ピクセルは密度が高い。 不整合限界は、ポイントワイドシーンフロー推定のための両モードからの融合である。 従来の手法では,局所的な特徴集約のための最遠点サンプリング,kn,ボール問合せアルゴリズムに関わる距離計算とソートによるメモリ効率の非効率とオーバーヘッドのため,一時的推論によってシーン全体のシーンフローを予測することはほとんどなかった。 シーンフロー学習におけるこれらの問題を緩和するため、3次元座標を2次元グリッドに格納することにより、生点を濃密な形式に規則化する。 既存の作品でよく使われるサンプリング操作とは異なり,密度2次元表現 1)所定のシーンのほとんどのポイントを保存する。 2)効率の大幅な向上をもたらし、 3) 点と画素間の密度ギャップを排除し, 効率的な特徴融合を実現する。 また,複数の点を投影中に1つのグリッドにマッピング可能であることによる情報損失問題を軽減するための新しいワーピング投影手法を提案する。 十分な実験により,flyingthings3dとkittiデータセットの先行技術に匹敵する,本手法の有効性と有効性が実証された。

Point clouds are naturally sparse, while image pixels are dense. The inconsistency limits feature fusion from both modalities for point-wise scene flow estimation. Previous methods rarely predict scene flow from the entire point clouds of the scene with one-time inference due to the memory inefficiency and heavy overhead from distance calculation and sorting involved in commonly used farthest point sampling, KNN, and ball query algorithms for local feature aggregation. To mitigate these issues in scene flow learning, we regularize raw points to a dense format by storing 3D coordinates in 2D grids. Unlike the sampling operation commonly used in existing works, the dense 2D representation 1) preserves most points in the given scene, 2) brings in a significant boost of efficiency, and 3) eliminates the density gap between points and pixels, allowing us to perform effective feature fusion. We also present a novel warping projection technique to alleviate the information loss problem resulting from the fact that multiple points could be mapped into one grid during projection when computing cost volume. Sufficient experiments demonstrate the efficiency and effectiveness of our method, outperforming the prior-arts on the FlyingThings3D and KITTI dataset.
翻訳日:2023-08-10 10:42:41 公開日:2023-08-09
# 大規模言語モデルを用いた累積推論

Cumulative Reasoning with Large Language Models ( http://arxiv.org/abs/2308.04371v2 )

ライセンス: Link先を確認
Yifan Zhang, Jingqin Yang, Yang Yuan, Andrew Chi-Chih Yao(参考訳) 言語モデルは強力で多用途であるが、しばしば非常に複雑な問題に対処できない。 これは、複雑な問題を解決するには意図的な思考が必要であり、トレーニングの間は最小限の指導しか行われていないからである。 本稿では,言語モデルを累積的かつ反復的に活用し,人間の思考過程をエミュレートするCumulative Reasoning(CR)という新しい手法を提案する。 タスクを小さなコンポーネントに分解することで、CRは問題解決プロセスを合理化し、より管理しやすく、効果的にする。 論理推論タスクでは、CRは既存のメソッドを9.3%改善し、計算されたFOLIO wikiデータセットで98.04%の驚くべき精度を達成する。 24のゲームでは、crは94%の精度を実現しており、これは以前の最先端の方法に比べて20%の大幅な向上を示している。

While language models are powerful and versatile, they often fail to address highly complex problems. This is because solving complex problems requires deliberate thinking, which has been only minimally guided during training. In this paper, we propose a new method called Cumulative Reasoning (CR), which employs language models in a cumulative and iterative manner to emulate human thought processes. By decomposing tasks into smaller components, CR streamlines the problem-solving process, rendering it both more manageable and effective. For logical inference tasks, CR consistently outperforms existing methods with an improvement up to 9.3%, and achieves the astonishing accuracy of 98.04% on the curated FOLIO wiki dataset. In the context of the Game of 24, CR achieves an accuracy of 94%, which signifies a substantial enhancement of 20% over the previous state-of-the-art method.
翻訳日:2023-08-10 10:42:20 公開日:2023-08-09
# SLEM:超学習方程式モデリングを用いた経路モデリングと因果推論のための機械学習

SLEM: Machine Learning for Path Modeling and Causal Inference with Super Learner Equation Modeling ( http://arxiv.org/abs/2308.04365v2 )

ライセンス: Link先を確認
Matthew J. Vowels(参考訳) 因果推論は科学の重要な目標であり、観測データを用いて仮説的介入の予測に関する有意義な結論に達することができる。 経路モデル、構造方程式モデル(SEM)、より一般的には、DAG(Directed Acyclic Graphs)は、現象の根底にある因果構造に関する仮定を明確に特定する手段を提供する。 関数形式とパラメトリック形式についてほとんど仮定しないDAGとは異なり、SEMは線型性を仮定する。 これにより機能的不特定が生じ、研究者が信頼性の高い効果サイズ推定を行うのを防ぐことができる。 これとは対照的に,機械学習のスーパーラーナーアンサンブルを統合するパスモデリング技術であるSuper Learner Equation Modelingを提案する。 我々は,SEMと比較した場合の線形モデルに対する因果効果の一貫性と不偏性の評価,および非線形関係を扱う場合のSEMに対する優位性を実証的に示す。 オープンソースのコードとサンプルを使ったチュートリアルノートブックを提供し,メソッドの使いやすさを強調する。

Causal inference is a crucial goal of science, enabling researchers to arrive at meaningful conclusions regarding the predictions of hypothetical interventions using observational data. Path models, Structural Equation Models (SEMs), and, more generally, Directed Acyclic Graphs (DAGs), provide a means to unambiguously specify assumptions regarding the causal structure underlying a phenomenon. Unlike DAGs, which make very few assumptions about the functional and parametric form, SEM assumes linearity. This can result in functional misspecification which prevents researchers from undertaking reliable effect size estimation. In contrast, we propose Super Learner Equation Modeling, a path modeling technique integrating machine learning Super Learner ensembles. We empirically demonstrate its ability to provide consistent and unbiased estimates of causal effects, its competitive performance for linear models when compared with SEM, and highlight its superiority over SEM when dealing with non-linear relationships. We provide open-source code, and a tutorial notebook with example usage, accentuating the easy-to-use nature of the method.
翻訳日:2023-08-10 10:42:06 公開日:2023-08-09
# Apple Vision Pro for Healthcare:「究極のディスプレイ」? --正確さのワンダーランドに入る

Apple Vision Pro for Healthcare: "The Ultimate Display"? -- Entering the Wonderland of Precision ( http://arxiv.org/abs/2308.04313v2 )

ライセンス: Link先を確認
Jan Egger, Christina Gsaxner, Xiaojun Chen, Jiang Bian, Jens Kleesiek, Behrus Puladi(参考訳) 2023年6月のWorldwide Developers Conference (WWDC)で、AppleはVision Proを発表した。 Vision ProはMR(Mixed Reality)ヘッドセットで、より具体的にはVR(Virtual Reality)デバイスで、VST(Video See-Through)機能が追加されている。 VST機能は、Vision Proを拡張現実(Augmented Reality, AR)デバイスに変える。 AR機能は、カメラを介して現実世界をユーザーの目の前で(VR)スクリーンにストリーミングすることで実現される。 もちろんこれはユニークではなく、Varjo XR-3のような他のデバイスと似ている。 それでもVision Proには、ヘッドセットの装着者の目が「外」に表示されるインサイド・アウト・スクリーンや、デジタルクラウンと呼ばれる上部のボタンなど、デジタルコンテンツを物理的空間とシームレスにブレンドできる機能があります。 さらに、バッテリへのケーブル以外は接続されていないため、varjo xr-3と比較してヘッドセットはより機敏になる。 これは、1965年にイヴァン・サザーランドがスケッチした「Ultimate Display」に近いかもしれない。 Ultimate Displayのような一般向けにはまだ公開されていないが、この観点からは、ARがまだ医療分野で直面しているいくつかの臨床的課題を克服できるかどうかを見極めるとともに、Vision Proが臨床医を不可欠なタスクで支援し、患者とより多くの時間を過ごすことができるかどうかを議論したい。

At the Worldwide Developers Conference (WWDC) in June 2023, Apple introduced the Vision Pro. The Vision Pro is a Mixed Reality (MR) headset, more specifically it is a Virtual Reality (VR) device with an additional Video See-Through (VST) capability. The VST capability turns the Vision Pro also into an Augmented Reality (AR) device. The AR feature is enabled by streaming the real world via cameras to the (VR) screens in front of the user's eyes. This is of course not unique and similar to other devices, like the Varjo XR-3. Nevertheless, the Vision Pro has some interesting features, like an inside-out screen that can show the headset wearers' eyes to "outsiders" or a button on the top, called "Digital Crown", that allows you to seamlessly blend digital content with your physical space by turning it. In addition, it is untethered, except for the cable to the battery, which makes the headset more agile, compared to the Varjo XR-3. This could actually come closer to the "Ultimate Display", which Ivan Sutherland had already sketched in 1965. Not available to the public yet, like the Ultimate Display, we want to take a look into the crystal ball in this perspective to see if it can overcome some clinical challenges that - especially - AR still faces in the medical domain, but also go beyond and discuss if the Vision Pro could support clinicians in essential tasks to spend more time with their patients.
翻訳日:2023-08-10 10:41:48 公開日:2023-08-09
# 構造化背景知識と誘導推論を用いたCNN隠れニューロン活性化の理解

Understanding CNN Hidden Neuron Activations Using Structured Background Knowledge and Deductive Reasoning ( http://arxiv.org/abs/2308.03999v2 )

ライセンス: Link先を確認
Abhilekha Dalal, Md Kamruzzaman Sarker, Adrita Barua, Eugene Vasserman, Pascal Hitzler(参考訳) 正確な解釈は、深層学習システムが入力に関係していると内部的に何が検出されているかという問題に対する洞察を与え、深層学習システムのブラックボックス文字を模倣する。 その技術は、隠れたノードの活性化は、人間にとって意味のある方法で解釈可能であるが、隠れたニューロンの活性化の解釈を仮説化し検証できる体系的な自動化手法は、過小評価されていることを示している。 本稿では,そのような方法を提供し,意味のある解釈を提供することを示す。 提案手法は,ウィキペディアの概念階層から学習した約200万クラスの大規模バックグラウンド知識と,セマンティックWeb分野のアプリケーション向けに開発された記述論理に基づく概念推論と呼ばれるシンボリック推論手法をベースとする。 以上より,畳み込みニューラルネットワークの密集層内の個々のニューロンに,背景知識から有意なラベルを仮説と検証プロセスを通じて自動的に付加できることを示す。

A major challenge in Explainable AI is in correctly interpreting activations of hidden neurons: accurate interpretations would provide insights into the question of what a deep learning system has internally detected as relevant on the input, demystifying the otherwise black-box character of deep learning systems. The state of the art indicates that hidden node activations can, in some cases, be interpretable in a way that makes sense to humans, but systematic automated methods that would be able to hypothesize and verify interpretations of hidden neuron activations are underexplored. In this paper, we provide such a method and demonstrate that it provides meaningful interpretations. Our approach is based on using large-scale background knowledge approximately 2 million classes curated from the Wikipedia concept hierarchy together with a symbolic reasoning approach called Concept Induction based on description logics, originally developed for applications in the Semantic Web field. Our results show that we can automatically attach meaningful labels from the background knowledge to individual neurons in the dense layer of a Convolutional Neural Network through a hypothesis and verification process.
翻訳日:2023-08-10 10:41:23 公開日:2023-08-09
# ALFA -- 病院全体にわたる病理画像分類の一般化を促進するためのあらゆる特徴抽象化の活用

ALFA -- Leveraging All Levels of Feature Abstraction for Enhancing the Generalization of Histopathology Image Classification Across Unseen Hospitals ( http://arxiv.org/abs/2308.03936v2 )

ライセンス: Link先を確認
Milad Sikaroudi, Maryam Hosseini, Shahryar Rahnamayan, H.R. Tizhoosh(参考訳) 画像分類の汎用性の向上を目標として,機能抽象化のあらゆるレベルを生かした徹底的な手法を提案する。 本手法は,前文課題として機能する病理組織学的シナリオにおける共通分布シフトを伴う拡張型自己スーパービジョンを組み込んだものである。 これにより、トレーニングラベルに頼ることなく、トレーニングイメージから不変機能を導出し、異なる抽象化レベルをカバーできる。 その後の抽象化レベルに移行し、さまざまな研修病院における不変機能のさらなる抽出を容易にするために、ドメインアライメントモジュールを使用する。 参加病院の特徴を高度に表現するために、エンコーダは診断ラベルとは独立して病院ラベルを分類するよう訓練される。 それぞれのエンコーダの機能はその後、冗長性を最小化し、特徴を分離するために切り離される。 この表現は、広い範囲のセマンティック情報にまたがるものであり、異なる分布から見えない画像に対するロバスト性の向上を示すモデルの開発を可能にする。 PACSデータセット(ドメイン一般化ベンチマーク)、MHISTデータセットに病理組織特異的ジッタを適用した合成データセット(分布シフトの異なる異なるドメインを定義する)、およびTCGAの4つの画像リポジトリから得られた腎細胞癌データセットから得られた実験結果から、提案モデルが様々な画像粒度の管理に適していることが示された。 そこで,新たな病院画像に直面すると,一般化性が向上した。

We propose an exhaustive methodology that leverages all levels of feature abstraction, targeting an enhancement in the generalizability of image classification to unobserved hospitals. Our approach incorporates augmentation-based self-supervision with common distribution shifts in histopathology scenarios serving as the pretext task. This enables us to derive invariant features from training images without relying on training labels, thereby covering different abstraction levels. Moving onto the subsequent abstraction level, we employ a domain alignment module to facilitate further extraction of invariant features across varying training hospitals. To represent the highly specific features of participating hospitals, an encoder is trained to classify hospital labels, independent of their diagnostic labels. The features from each of these encoders are subsequently disentangled to minimize redundancy and segregate the features. This representation, which spans a broad spectrum of semantic information, enables the development of a model demonstrating increased robustness to unseen images from disparate distributions. Experimental results from the PACS dataset (a domain generalization benchmark), a synthetic dataset created by applying histopathology-specific jitters to the MHIST dataset (defining different domains with varied distribution shifts), and a Renal Cell Carcinoma dataset derived from four image repositories from TCGA, collectively indicate that our proposed model is adept at managing varying levels of image granularity. Thus, it shows improved generalizability when faced with new, out-of-distribution hospital images.
翻訳日:2023-08-10 10:41:04 公開日:2023-08-09
# mirage:ミラーゲートを用いた量子回路分解と経路協調設計

MIRAGE: Quantum Circuit Decomposition and Routing Collaborative Design using Mirror Gates ( http://arxiv.org/abs/2308.03874v2 )

ライセンス: Link先を確認
Evan McKinney, Michael Hatridge, Alex K. Jones(参考訳) 効率的な大規模量子コンピュータの構築は、キュービット接続性とノイズの多いハードウェア操作のため、大きな課題である。 量子ゲートが物理的に連結された量子ビット上にあることを保証すると同時に、$\texttt{SWAP}$ゲートを最小化し、同時にネイティブな$\textit{basis gates}$への効率的な分解を見つけることが重要である。 この多面最適化の目標は、典型的には回路深度を最小化し、可能な限りの実行精度を達成することである。 本研究では,$\textit{mirror gates}$を用いた分解を改善しながら$\texttt{swap}$ gatesを最小化する協調設計およびトランスパイル手法である$\textit{mirror gates}$を提案する。 ミラーゲートは同じ物理相互作用を利用するが、出力が反転すると、異なるまたは$\textit{mirrored}$量子演算を実現する。 最近、$\sqrt{\textt{iSWAP}}$が$\texttt{CNOT}$よりも優れた分解の利点を持つ強力な基底ゲートとして注目されていることから、$\textt{iSWAP}$ ゲートファミリを実装するシステムがどのようにミラーゲートの恩恵を受けるかを示す。 さらに$\textit{MIRAGE}$は、$\texttt{SWAP}$sを最小化するのではなく、ミラーゲートを使用してルーティングの圧力を減らし、真の回路深さを減らす。 我々はミラーゲートを用いた$\sqrt{\texttt{iswap}}$と$\sqrt[4]{\texttt{iswap}}$の分解の利点について検討する。 また,MIRAGE内における異なる攻撃レベルのミラー置換を受け入れる新たな欲求的アプローチについても述べる。 最後に、平方格子トポロジを使用する$\texttt{iSWAP}$システムの場合、$\textit{MIRAGE}$は平均59.9%の$\texttt{SWAP}$ゲートを排除し、回路深さを29.6%削減する。

Building efficient large-scale quantum computers is a significant challenge due to limited qubit connectivities and noisy hardware operations. Transpilation is critical to ensure that quantum gates are on physically linked qubits, while minimizing $\texttt{SWAP}$ gates and simultaneously finding efficient decomposition into native $\textit{basis gates}$. The goal of this multifaceted optimization step is typically to minimize circuit depth and to achieve the best possible execution fidelity. In this work, we propose $\textit{MIRAGE}$, a collaborative design and transpilation approach to minimize $\texttt{SWAP}$ gates while improving decomposition using $\textit{mirror gates}$. Mirror gates utilize the same underlying physical interactions, but when their outputs are reversed, they realize a different or $\textit{mirrored}$ quantum operation. Given the recent attention to $\sqrt{\texttt{iSWAP}}$ as a powerful basis gate with decomposition advantages over $\texttt{CNOT}$, we show how systems that implement the $\texttt{iSWAP}$ family of gates can benefit from mirror gates. Further, $\textit{MIRAGE}$ uses mirror gates to reduce routing pressure and reduce true circuit depth instead of just minimizing $\texttt{SWAP}$s. We explore the benefits of decomposition for $\sqrt{\texttt{iSWAP}}$ and $\sqrt[4]{\texttt{iSWAP}}$ using mirror gates, including both expanding Haar coverage and conducting a detailed fault rate analysis trading off circuit depth against approximate gate decomposition. We also describe a novel greedy approach accepting mirror substitution at different aggression levels within MIRAGE. Finally, for $\texttt{iSWAP}$ systems that use square-lattice topologies, $\textit{MIRAGE}$ provides an average of 29.6\% reduction in circuit depth by eliminating an average of 59.9% $\texttt{SWAP}$ gates, which ultimately improves the practical applicability of our algorithm.
翻訳日:2023-08-10 10:40:40 公開日:2023-08-09
# モバイルサプライ: Recommender システムの Jigsaw の最後のピース

Mobile Supply: The Last Piece of Jigsaw of Recommender System ( http://arxiv.org/abs/2308.03855v2 )

ライセンス: Link先を確認
Zhenhao Jiang, Biao Zeng, Hao Feng, Jin Liu, Jie Zhang, Jia Jia, Ning Hu(参考訳) 推薦システムはオンラインプラットフォームの基本機能である。 携帯電話のコンピューティング能力の発達に伴い、データ転送遅延とページネーショントリガ機構の問題に対処するため、一部の研究者はユーザのモバイルデバイスに推奨アルゴリズムをデプロイした。 しかし、既存のエッジサイドモバイルランキングでは、ページネーショントリガ機構の問題は完全には解決できない。 モバイルランキングは現在のページ上の項目のみをソートすることができ、固定された候補項目のセットはモバイルランキングのパフォーマンスを制限する。 さらに、ユーザが現在のページで関心のあるアイテムを見た後、ユーザはリフレッシュして、新しいページのアイテムを取得します。 これは、ユーザが現在のページの左項目に満足していないため、ユーザの没入感に影響を与えます。 ページネーショントリガ機構の問題に対処するため,モバイル・サプライというレコメンデータ・システムのパイプラインにおいて,完全に新しいモジュールを提案する。 推薦システムのパイプラインは、"retrival->pre- rank->level->re- rank->Mobile supply->mobile ranking"に拡張されている。 具体的には、リスト値とポイントワイドパラダイムの概念を導入し、リストワイド推定を近似し、現在のページのモバイルランキングによって達成される最大収益を計算する。 また,デバイス対応モバイルランキングという新たなモバイルランキング手法を,新たなパイプラインに合わせたモバイルデバイスの違いを考慮して設計した。 大規模なオフラインおよびオンライン実験は提案手法の優位性を示し,モバイルサプライがエッジ側レコメンデータシステムとユーザエクスペリエンスをより向上させることができることを示す。 モバイルサプライは大規模なオンラインフードプラットフォームのホームページに展開されており、当社のビジネスでかなりの利益を上げています。

Recommendation system is a fundamental functionality of online platforms. With the development of computing power of mobile phones, some researchers have deployed recommendation algorithms on users' mobile devices to address the problems of data transmission delay and pagination trigger mechanism. However, the existing edge-side mobile rankings cannot completely solve the problem of pagination trigger mechanism. The mobile ranking can only sort the items on the current page, and the fixed set of candidate items limits the performance of the mobile ranking. Besides, after the user has viewed the items of interest to the user on the current page, the user refresh to get a new page of items. This will affect the user's immersive experience because the user is not satisfied with the left items on the current page. In order to address the problem of pagination trigger mechanism, we propose a completely new module in the pipeline of recommender system named Mobile Supply. The pipeline of recommender system is extended to "retrival->pre-ranking->ranking->re-ranking->Mobile Supply->mobile ranking". Specifically, we introduce the concept of list value and use point-wise paradigm to approximate list-wise estimation to calculate the maximum revenue that can be achieved by mobile ranking for the current page. We also design a new mobile ranking approach named device-aware mobile ranking considering the differences of mobile devices tailored to the new pipeline. Extensive offline and online experiments show the superiority of our proposed method and prove that Mobile Supply can further improve the performance of edge-side recommender system and user experience. Mobile Supply has been deployed on the homepage of a large-scale online food platform and has yielded considerable profits in our business.
翻訳日:2023-08-10 10:39:53 公開日:2023-08-09