このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230824となっている論文です。

PDF登録状況(公開日: 20230824)

TitleAuthorsAbstract論文公表日・翻訳日
# Max-SMTによるフレキシブルかつ最適依存関係管理

Flexible and Optimal Dependency Management via Max-SMT ( http://arxiv.org/abs/2203.13737v4 )

ライセンス: Link先を確認
Donald Pinckney, Federico Cassano, Arjun Guha, Jon Bell, Massimiliano Culpo, Todd Gamblin(参考訳) NPMのようなパッケージマネージャはソフトウェア開発に不可欠になっている。 NPMリポジトリには200万以上のパッケージがあり、毎週43億回ダウンロードされている。 残念ながら、NPM依存性解決器にはいくつかの欠点がある。 1) NPMは欲張りで、しばしば最新の依存関係のインストールに失敗する。 2) NPMのアルゴリズムは、重複した依存関係と肥大化したコードをもたらす。 3) NPMの脆弱性修正アルゴリズムも欲張りで、新たな脆弱性も導入できる。 4) 依存関係を複製するNPMの能力はステートフルなフレームワークを壊し、回避に多くの注意を要する。 既存のツールはこれらの問題に対処しようとするが、脆弱であるか、依存性ツリーへのポストホックな変更に依存しているか、最適性を保証していないか、構成不可能である。 PacSolveは依存性解決のための統一フレームワークで、カスタマイズ可能な制約と最適化の目標を実現する。 私たちはPacSolveを使って、NPMの完全なドロップイン代替であるMaxNPMを構築しています。 我々は,NPMエコシステムのパッケージを多用したMaxNPMを評価し,それが可能であることを示す。 1) NPMの監査ツールよりも33%のケースで依存関係の脆弱性を減らす。 2)14%のケースでNPMよりも新しい依存関係を選択する。 3)21%の場合、NPMよりも依存関係が少ない。 すべてのコードとデータはオープンで利用可能です。

Package managers such as NPM have become essential for software development. The NPM repository hosts over 2 million packages and serves over 43 billion downloads every week. Unfortunately, the NPM dependency solver has several shortcomings. 1) NPM is greedy and often fails to install the newest versions of dependencies; 2) NPM's algorithm leads to duplicated dependencies and bloated code, which is particularly bad for web applications that need to minimize code size; 3) NPM's vulnerability fixing algorithm is also greedy, and can even introduce new vulnerabilities; and 4) NPM's ability to duplicate dependencies can break stateful frameworks and requires a lot of care to workaround. Although existing tools try to address these problems they are either brittle, rely on post hoc changes to the dependency tree, do not guarantee optimality, or are not composable. We present PacSolve, a unifying framework and implementation for dependency solving which allows for customizable constraints and optimization goals. We use PacSolve to build MaxNPM, a complete, drop-in replacement for NPM, which empowers developers to combine multiple objectives when installing dependencies. We evaluate MaxNPM with a large sample of packages from the NPM ecosystem and show that it can: 1) reduce more vulnerabilities in dependencies than NPM's auditing tool in 33% of cases; 2) chooses newer dependencies than NPM in 14% of cases; and 3) chooses fewer dependencies than NPM in 21% of cases. All our code and data is open and available.
翻訳日:2023-10-24 15:39:35 公開日:2023-08-24
# npm-follower: NPMエコシステムを追跡する完全なデータセット

npm-follower: A Complete Dataset Tracking the NPM Ecosystem ( http://arxiv.org/abs/2308.12545v1 )

ライセンス: Link先を確認
Donald Pinckney, Federico Cassano, Arjun Guha, Jonathan Bell(参考訳) ソフトウェア開発者は一般的にアプリケーションを構築するのに大量の依存ネットワークに依存します。 例えば、NPMパッケージリポジトリには300万以上のパッケージがあり、毎週数千億ダウンロードが提供されている。 パッケージ、依存関係、公開コードの構造と性質を理解するには、研究者が簡単にメタデータやパッケージのコードにアクセスできるようにするデータセットが必要である。 しかし、NPMデータセット構築に関する事前の作業は、一般的に2つの制限がある。 1)メタデータのみをスクラップし、 2) NPMから削除されたパッケージやバージョンはスクラップできない。 2022年7月から2023年5月までに33万以上のパッケージがnpmから削除された。 このデータは、セキュリティとマルウェアに関する重要な疑問にしばしば関連するため、研究者にとって重要なものだ。 我々は、npm-followerというデータセットとクローリングアーキテクチャを公開時にすべてのパッケージとバージョンのメタデータとコードをアーカイブし、後に削除されるデータを保持することができる。 現在、データセットには3500万以上のパッケージが含まれており、月間100万バージョンの割合で成長している。 このデータセットは、メタデータまたはプログラム分析に関する質問に答える研究者が簡単に使用できるように設計されている。 コードとデータセットはhttps://dependencies.science.com/で利用可能である。

Software developers typically rely upon a large network of dependencies to build their applications. For instance, the NPM package repository contains over 3 million packages and serves tens of billions of downloads weekly. Understanding the structure and nature of packages, dependencies, and published code requires datasets that provide researchers with easy access to metadata and code of packages. However, prior work on NPM dataset construction typically has two limitations: 1) only metadata is scraped, and 2) packages or versions that are deleted from NPM can not be scraped. Over 330,000 versions of packages were deleted from NPM between July 2022 and May 2023. This data is critical for researchers as it often pertains to important questions of security and malware. We present npm-follower, a dataset and crawling architecture which archives metadata and code of all packages and versions as they are published, and is thus able to retain data which is later deleted. The dataset currently includes over 35 million versions of packages, and grows at a rate of about 1 million versions per month. The dataset is designed to be easily used by researchers answering questions involving either metadata or program analysis. Both the code and dataset are available at https://dependencies.science.
翻訳日:2023-10-23 12:56:50 公開日:2023-08-24
# シンボリック実行における量子化器による状態マージ

State Merging with Quantifiers in Symbolic Execution ( http://arxiv.org/abs/2308.12068v2 )

ライセンス: Link先を確認
David Trabish, Noam Rinetzky, Sharon Shoham, Vaibhav Sharma(参考訳) シンボル実行における状態マージの適用性を阻害する制約符号化爆発の問題に対処する。 具体的には、状態統合時に導入された解離の数とif-then-else式を減らすことを目的とする。 主なアイデアは、経路制約で検出される同様の一様構造に従って、シンボリック状態をマージグループに動的に分割することであり、マージされた経路制約とメモリを量子化器を用いて効率的にエンコードできる。 量子化制約を解くことの複雑さに対処するため,多くのケースにおいて解時間を短縮する特殊な解法を提案する。 評価の結果,本手法が性能向上につながる可能性が示唆された。

We address the problem of constraint encoding explosion which hinders the applicability of state merging in symbolic execution. Specifically, our goal is to reduce the number of disjunctions and if-then-else expressions introduced during state merging. The main idea is to dynamically partition the symbolic states into merging groups according to a similar uniform structure detected in their path constraints, which allows to efficiently encode the merged path constraint and memory using quantifiers. To address the added complexity of solving quantified constraints, we propose a specialized solving procedure that reduces the solving time in many cases. Our evaluation shows that our approach can lead to significant performance gains.
翻訳日:2023-10-23 12:54:27 公開日:2023-08-24
# 業界における要件の品質保証:なぜ、なぜ、どのように?

Requirements Quality Assurance in Industry: Why, What and How? ( http://arxiv.org/abs/2308.12825v1 )

ライセンス: Link先を確認
Michael Unterkalmsteiner, Tony Gorschek(参考訳) コンテキストとモチベーション: 自然言語は業界における要件を特定する上で最も一般的な形式です。 仕様の品質は、さまざまな利害関係者を対象とした要件を定式化するライターの能力に依存する。 意図を伝える手段としての要求の中心的な役割を考えると、その品質を保証することは、潜在的な無駄につながる誤解を減らすために不可欠である。 問題:要件仕様の品質保証は、主に専門知識とドメイン知識を必要とする手作業です。 しかし、この要求される認知プロセスは、そもそも発生すべきでない、自明な品質の問題にも悩まされる。 主な考え方: 人間の視点から品質の側面を検証する認知的負荷を特徴付ける要求品質保証複雑性の分類法を提案し,機械の観点からの複雑性と精度の自動化を提案する。 貢献: この分類が実現され、検証されると、自動要求品質保証サポートの意思決定フレームワークの基礎となることができます。

Context and Motivation: Natural language is the most common form to specify requirements in industry. The quality of the specification depends on the capability of the writer to formulate requirements aimed at different stakeholders: they are an expression of the customer's needs that are used by analysts, designers and testers. Given this central role of requirements as a mean to communicate intention, assuring their quality is essential to reduce misunderstandings that lead to potential waste. Problem: Quality assurance of requirement specifications is largely a manual effort that requires expertise and domain knowledge. However, this demanding cognitive process is also congested by trivial quality issues that should not occur in the first place. Principal ideas: We propose a taxonomy of requirements quality assurance complexity that characterizes cognitive load of verifying a quality aspect from the human perspective, and automation complexity and accuracy from the machine perspective. Contribution: Once this taxonomy is realized and validated, it can serve as the basis for a decision framework of automated requirements quality assurance support.
翻訳日:2023-10-23 12:48:58 公開日:2023-08-24
# ソフトウェアスタートアップ - 研究の先駆者

Software Startups -- A Research Agenda ( http://arxiv.org/abs/2308.12816v1 )

ライセンス: Link先を確認
Michael Unterkalmsteiner, Pekka Abrahamsson, Xiaofeng Wang, Anh Nguyen-Duc, Syed M. Ali Shah, Sohaib Shahid Bajwa, Guido H. Baltes, Kieran Conboy, Eoin Cullina, Denis Dennehy, Henry Edison, Carlos Fern\'andez-S\'anchez, Juan Garbajosa, Tony Gorschek, Eriks Klotins, Laura Hokkanen, Fabio Kon, Ilaria Lunesu, Michele Marchesi, Lorraine Morgan, Markku Oivo, Christoph Selig, Pertti Sepp\"anen, Roger Sweetman, Pasi Tyrv\"ainen, Christina Ungerer, Agust\'in Yag\"ue(参考訳) ソフトウェアスタートアップ企業は、限られた時間枠と少ないリソースで、持続可能でスケーラブルなビジネスモデルを探しながら、革新的なソフトウェア集約製品を開発する。 ソフトウェアスタートアップは、従来の成熟したソフトウェア企業とは全く異なるが、マイクロ、小規模、中規模の企業でも、ソフトウェアエンジニアリング研究に関連する新たな課題を導入している。 本稿では,スタートアップにおけるソフトウェアエンジニアリング,特にスタートアップエンジニアリング活動のサポート,スタートアップの進化モデルとパターン,エコシステムとイノベーションハブ,ソフトウェアスタートアップの人間的側面,スタートアップ以外の環境におけるスタートアップ概念の適用,スタートアップ研究の方法論と理論に関する70以上の研究課題について論じる。 私たちはこの研究を、ソフトウェアスタートアップ研究における過去の研究と結びつけ、動機付けし、将来の方向性を指摘している。 この研究アジェンダの著者は、ソフトウェア工学やコンピュータサイエンスを専攻しているが、ソフトウェアスタートアップに対する彼らの関心は、課題に対する視点を広げるだけでなく、多分野の研究から生まれる機会も広げる。 私たちの聴衆は主にソフトウェア工学の研究者であり、学際的な境界を越えるコラボレーションや研究を刺激することを目指しています。 このリサーチアジェンダでは、ソフトウェアスタートアップの現在のニーズの幅広い範囲をカバーできると考えています。

Software startup companies develop innovative, software-intensive products within limited time frames and with few resources, searching for sustainable and scalable business models. Software startups are quite distinct from traditional mature software companies, but also from micro-, small-, and medium-sized enterprises, introducing new challenges relevant for software engineering research. This paper's research agenda focuses on software engineering in startups, identifying, in particular, 70+ research questions in the areas of supporting startup engineering activities, startup evolution models and patterns, ecosystems and innovation hubs, human aspects in software startups, applying startup concepts in non-startup environments, and methodologies and theories for startup research. We connect and motivate this research agenda with past studies in software startup research, while pointing out possible future directions. While all authors of this research agenda have their main background in Software Engineering or Computer Science, their interest in software startups broadens the perspective to the challenges, but also to the opportunities that emerge from multi-disciplinary research. Our audience is therefore primarily software engineering researchers, even though we aim at stimulating collaborations and research that crosses disciplinary boundaries. We believe that with this research agenda we cover a wide spectrum of the software startup industry current needs.
翻訳日:2023-10-23 12:48:43 公開日:2023-08-24
# 医療ルールwebサービスのための自動テスト生成:ノルウェーのがん登録簿におけるケーススタディ

Automated Test Generation for Medical Rules Web Services: A Case Study at the Cancer Registry of Norway ( http://arxiv.org/abs/2308.12805v1 )

ライセンス: Link先を確認
Christoph Laaber, Tao Yue, Shaukat Ali, Thomas Schwitalla, Jan F. Nyg{\aa}rd(参考訳) ノルウェーがん登録 (CRN) は、ノルウェーのがん患者に関するデータを収集、キュレート、管理し、対話的で人道的な社会技術決定支援ソフトウェアシステムによって支援している。 このソフトウェアシステムの自動テストは避けられないが、現在はCRNの実践に限られている。 そこで本研究では,AIベースのシステムレベルのテストツールであるEvoMasterを,CRNのソフトウェアシステムをテストする上での有効性で評価する産業ケーススタディを提案する。 特に、我々は、CRNの重要なコンポーネントであるCRNの医療ルールエンジンであるGURIに焦点を当てています。 我々は、EvoMasterのブラックボックスとホワイトボックスツールでGURIをテストし、コードカバレッジ、見つかったエラー、ドメイン固有のルールカバレッジに関するテストの有効性を調査します。 その結果、evomasterツールはすべて同じようなコードカバレッジ(約19%の行、13%のブランチ、20%のメソッド)を達成し、同様のエラー(guriのコードの1つ)を見つけることができた。 ドメイン固有のカバレッジに関しては、EvoMasterのブラックボックスツールは、アグリゲーションルールの100%、バリデーションルールの12.86%から25.81%、そして多様なルール実行結果、すなわち、アグリゲーションルールの86.84%から89.95%、バリデーションルールの0.93%から1.72%、アグリゲーションルールの1.70%から3.12%、バリデーションルールの1.58%から3.74%が失敗するテストを生成するのに最も効果的である。 さらに、ルールの10バージョン間で結果が一致していることも観察します。 これらの結果に基づいて、我々はEvoMasterのブラックボックスツールを使ってGURIをテストすることを推奨する。 それでもEvoMasterは、テストの有効性をさらに向上するために、ドメイン固有の最適化目標を採用するように拡張する必要がある。 最後に、学習した教訓と潜在的研究の方向性をまとめ、一般に適用できると考えている。

The Cancer Registry of Norway (CRN) collects, curates, and manages data related to cancer patients in Norway, supported by an interactive, human-in-the-loop, socio-technical decision support software system. Automated software testing of this software system is inevitable; however, currently, it is limited in CRN's practice. To this end, we present an industrial case study to evaluate an AI-based system-level testing tool, i.e., EvoMaster, in terms of its effectiveness in testing CRN's software system. In particular, we focus on GURI, CRN's medical rule engine, which is a key component at the CRN. We test GURI with EvoMaster's black-box and white-box tools and study their test effectiveness regarding code coverage, errors found, and domain-specific rule coverage. The results show that all EvoMaster tools achieve a similar code coverage; i.e., around 19% line, 13% branch, and 20% method; and find a similar number of errors; i.e., 1 in GURI's code. Concerning domain-specific coverage, EvoMaster's black-box tool is the most effective in generating tests that lead to applied rules; i.e., 100% of the aggregation rules and between 12.86% and 25.81% of the validation rules; and to diverse rule execution results; i.e., 86.84% to 89.95% of the aggregation rules and 0.93% to 1.72% of the validation rules pass, and 1.70% to 3.12% of the aggregation rules and 1.58% to 3.74% of the validation rules fail. We further observe that the results are consistent across 10 versions of the rules. Based on these results, we recommend using EvoMaster's black-box tool to test GURI since it provides good results and advances the current state of practice at the CRN. Nonetheless, EvoMaster needs to be extended to employ domain-specific optimization objectives to improve test effectiveness further. Finally, we conclude with lessons learned and potential research directions, which we believe are generally applicable.
翻訳日:2023-10-23 12:48:20 公開日:2023-08-24
# ワイルドにおけるソリッドリティイベントロギングの実践を理解する

Understanding Solidity Event Logging Practices in the Wild ( http://arxiv.org/abs/2308.12788v1 )

ライセンス: Link先を確認
Lantian Li, Yejian Liang, Zhihao Liu, Zhongxing Yu(参考訳) ロギングメッセージを書くことは、よく確立された従来のプログラミングプラクティスであり、幅広いソフトウェア開発活動において不可欠である。 solidityプログラミングのロギングメカニズムは、ハイレベルなイベント機能によって実現されているが、これまでは、ソリティイベントロギングのプラクティスを理解するための研究が不足していた。 このギャップを埋めるため,本稿では,githubにホストされている2,915のポピュラーなsolidityプロジェクトを用いて,現在のsolidityイベントロギングプラクティスの定量的特徴を初めて提供する。 この研究は、イベントロギングの広範性、現在のイベントロギングプラクティスの良さ、特にイベントロギングコードの進化の理由を方法論的に調査し、8つのオリジナルかつ重要な発見を提供する。 この発見には、多数の独立したイベントログコード修正が存在すること、および独立したイベントログコード修正のさまざまなカテゴリの根本的な理由は多様である(例えば、バグ修正とガス節約)。 さらに、調査結果の意味も示しています。これらの意味は、イベントロギングプラクティスを改善するために、開発者、研究者、ツールビルダー、言語デザイナを啓蒙するものです。 この研究の潜在的メリットを説明するために,概念実証チェッカを開発した。このチェッカーは,35の人気のあるgithubプロジェクトで余分なガスを消費する問題イベントログコードを効果的に検出し,9人のプロジェクトオーナが検出した問題をすでに確認している。

Writing logging messages is a well-established conventional programming practice, and it is of vital importance for a wide variety of software development activities. The logging mechanism in Solidity programming is enabled by the high-level event feature, but up to now there lacks study for understanding Solidity event logging practices in the wild. To fill this gap, we in this paper provide the first quantitative characteristic study of the current Solidity event logging practices using 2,915 popular Solidity projects hosted on GitHub. The study methodically explores the pervasiveness of event logging, the goodness of current event logging practices, and in particular the reasons for event logging code evolution, and delivers 8 original and important findings. The findings notably include the existence of a large percentage of independent event logging code modifications, and the underlying reasons for different categories of independent event logging code modifications are diverse (for instance, bug fixing and gas saving). We additionally give the implications of our findings, and these implications can enlighten developers, researchers, tool builders, and language designers to improve the event logging practices. To illustrate the potential benefits of our study, we develop a proof-of-concept checker on top of one of our findings and the checker effectively detects problematic event logging code that consumes extra gas in 35 popular GitHub projects and 9 project owners have already confirmed the detected issues.
翻訳日:2023-10-23 12:47:36 公開日:2023-08-24
# コンテナベースのサービスを理解する - 依存関係とパフォーマンスの視点

Understanding Container-based Services under Software Aging: Dependability and Performance Views ( http://arxiv.org/abs/2308.12784v1 )

ライセンス: Link先を確認
Jing Bai, Xiaolin Chang, Fumio Machida, Kishor S. Trivedi(参考訳) マイクロサービスアーキテクチャの鍵となるコンテナ技術は、クラウドとエッジコンピューティングに広く適用されている。 オペレーティングシステム(OS)の長期的かつ継続的な実行 コンテナベースのサービスは、ソフトウェア老朽化に遭遇し、パフォーマンスが劣化し、システム障害の原因となる。 os再活性化技術はソフトウェア老化の影響を緩和するが、再活性化トリガー間隔を慎重に決定し、再活性化によるダウンタイムコストを低減する必要がある。 本稿では,コンテナベースサービスの信頼性と性能に対するosの回収効果を定量的に評価するための,包括的半マルコフベースアプローチを提案する。 既存の研究とは対照的に、イベントの時間間隔の分布を指数関数的に制限したり、バックアップリソースが常に有効であると仮定したりしない。 本研究では,コンテナベースのサービスの性能を最大化あるいは最小化できる最適なCon-tainer-migrationトリガ間隔を示す。

Container technology, as the key enabler behind microservice architectures, is widely applied in Cloud and Edge Computing. A long and continuous running of operating system (OS) host-ing container-based services can encounter software aging that leads to performance deterioration and even causes system fail-ures. OS rejuvenation techniques can mitigate the impact of software aging but the rejuvenation trigger interval needs to be carefully determined to reduce the downtime cost due to rejuve-nation. This paper proposes a comprehensive semi-Markov-based approach to quantitatively evaluate the effect of OS reju-venation on the dependability and the performance of a con-tainer-based service. In contrast to the existing studies, we nei-ther restrict the distributions of time intervals of events to be exponential nor assume that backup resources are always avail-able. Through the numerical study, we show the optimal con-tainer-migration trigger intervals that can maximize the de-pendability or minimize the performance of a container-based service.
翻訳日:2023-10-23 12:47:08 公開日:2023-08-24
# 効果的なバグ位置推定のための意味フローグラフによる事前学習コード表現

Pre-training Code Representation with Semantic Flow Graph for Effective Bug Localization ( http://arxiv.org/abs/2308.12773v1 )

ライセンス: Link先を確認
Yali Du, Zhongxing Yu(参考訳) 自然言語処理における事前学習の大きな成功により、プログラミング言語の事前学習モデルは近年、コードインテリジェンスを促進するために広く利用されている。 特に、BERTはバグローカライゼーションタスクに使われており、印象的な結果が得られている。 しかし、BERTベースのバグローカライゼーション技術には2つの問題がある。 まず、ソースコード上の事前訓練されたBERTモデルは、プログラムコードの深い意味を適切に捉えていない。 第2に,バグローカライズモデル全体としては,変更セットの表現に対する対照学習における大規模負のサンプルの必要性を無視し,類似度推定におけるバグレポートと変更セットの語彙的類似性を無視する。 この2つの問題を 1) コードセマンティクスをコンパクトかつ適切にキャプチャする,セマンティックフローグラフ(Semantic Flow Graph, SFG) という,新規な多ラベルコードグラフ表現を提案する。 2)SFGに基づくSemanticCodeBERTの設計と訓練 3)HMCBL(Hierarchical Momentum Contrastive Bug Localization Technique)を設計する。 評価結果から,本手法はバグローカライゼーションにおける最先端性能を実現する。

Enlightened by the big success of pre-training in natural language processing, pre-trained models for programming languages have been widely used to promote code intelligence in recent years. In particular, BERT has been used for bug localization tasks and impressive results have been obtained. However, these BERT-based bug localization techniques suffer from two issues. First, the pre-trained BERT model on source code does not adequately capture the deep semantics of program code. Second, the overall bug localization models neglect the necessity of large-scale negative samples in contrastive learning for representations of changesets and ignore the lexical similarity between bug reports and changesets during similarity estimation. We address these two issues by 1) proposing a novel directed, multiple-label code graph representation named Semantic Flow Graph (SFG), which compactly and adequately captures code semantics, 2) designing and training SemanticCodeBERT based on SFG, and 3) designing a novel Hierarchical Momentum Contrastive Bug Localization technique (HMCBL). Evaluation results show that our method achieves state-of-the-art performance in bug localization.
翻訳日:2023-10-23 12:46:52 公開日:2023-08-24
# VM-based Multi-Domain Service Function Chain のセミマルコフモデルに基づく依存性評価に向けて

Towards Semi-Markov Model-based Dependability Evaluation of VM-based Multi-Domain Service Function Chain ( http://arxiv.org/abs/2308.12748v1 )

ライセンス: Link先を確認
Lina Liu, Jing Bai, Xiaolin Chang, Fumio Machida, Kishor S. Trivedi, Haoran Zhu(参考訳) NFVネットワークでは、複数のドメインにわたる仮想マシン(VM)にサービス機能(SF)をデプロイし、エンドツーエンドのネットワークサービス提供のためにサービス機能チェーン(MSFC)を形成することができる。 しかしながら、VMベースのMSFCのソフトウェアコンポーネントは、長期間の運用の後、ソフトウェア老化の問題を経験したい。 本稿では,VM ベースの MSFC 上でのソフトウェア老化のダメージを軽減するために,積極的に回復する手法の有効性を定量的に検討する。 我々は,故障時間と復旧時間が一般的な分布に従うことを条件に,sfs,vm,仮想マシンモニタ(vmms)の動作をソフトウェア老化からリカバリまでキャプチャするセミマルコフモデルを開発した。 我々は,VMM がホストする VM 上で動作する複数の SF からなる VM ベースの MSFC の定常可用性と信頼性の計算式を導出する。 感度分析は潜在的な依存性のボトルネックを特定するためにも行われる。

In NFV networks, service functions (SFs) can be deployed on virtual machines (VMs) across multiple domains and then form a service function chain (MSFC) for end-to-end network service provision. However, any software component in a VM-based MSFC must experience software aging issue after a long period of operation. This paper quantitatively investigates the capability of proactive rejuvenation techniques in reducing the damage of software aging on a VM-based MSFC. We develop a semi-Markov model to capture the behaviors of SFs, VMs and virtual machine monitors (VMMs) from software aging to recovery under the condition that failure times and recovery times follow general distributions. We derive the formulas for calculating the steady-state availability and reliability of the VM-based MSFC composed of multiple SFs running on VMs hosted by VMMs. Sensitivity analysis is also conducted to identify potential dependability bottlenecks.
翻訳日:2023-10-23 12:46:33 公開日:2023-08-24
# 一貫性のないメソッド名をどうやって検出するのか? コードレビューの観点からの実証的研究

How are We Detecting Inconsistent Method Names? An Empirical Study from Code Review Perspective ( http://arxiv.org/abs/2308.12701v1 )

ライセンス: Link先を確認
Kisub Kim, Xin Zhou, Dongsun Kim, Julia Lawall, Kui Liu, Tegawend\'e F. Bissyand\'e, Jacques Klein, Jaekwon Lee, and David Lo(参考訳) 適切なメソッドの命名はプログラムコードを理解しやすくし、ソフトウェアの保守性を高める。 しかし、コミュニケーション不足やソフトウェア開発ライフサイクルにおける慣例に精通していないため、開発者は一貫性のない名前を使うことがある。 この問題に対処するため、メソッド名の不整合をチェックし、一貫性のある名前を推奨する自動ツールの開発に多くの研究が費やされている。 しかしながら、既存のデータセットは一般的に、なぜメソッド名が不適切で変更が必要なのか、正確な詳細を示さない。 このような情報は、適切なメソッド名のレコメンデーションを改善するための有用なヒントとなる。 そこで、コードレビューと名前の変更を一致させて、サンプルメソッド命名ベンチマークReName4Jを構築した。 次に、rename4jに基づく一貫性と一貫性のないメソッド名の検出と推奨において、最先端の技術がどのように機能するかに関する実証研究を行う。 この研究の主な目的は、完全なベンチマークを提案するのではなく、レビューされた名前に基づいて異なる視点を明らかにすることである。 既存のテクニックは、レビュー駆動ベンチマークでは、一貫性のないチェックとレコメンデーションの両方でパフォーマンスが低いことが分かりました。 今後の研究で考慮すべき既存の技術の評価における潜在的なバイアスをさらに特定する。

Proper naming of methods can make program code easier to understand, and thus enhance software maintainability. Yet, developers may use inconsistent names due to poor communication or a lack of familiarity with conventions within the software development lifecycle. To address this issue, much research effort has been invested into building automatic tools that can check for method name inconsistency and recommend consistent names. However, existing datasets generally do not provide precise details about why a method name was deemed improper and required to be changed. Such information can give useful hints on how to improve the recommendation of adequate method names. Accordingly, we construct a sample method-naming benchmark, ReName4J, by matching name changes with code reviews. We then present an empirical study on how state-of-the-art techniques perform in detecting or recommending consistent and inconsistent method names based on ReName4J. The main purpose of the study is to reveal a different perspective based on reviewed names rather than proposing a complete benchmark. We find that the existing techniques underperform on our review-driven benchmark, both in inconsistent checking and the recommendation. We further identify potential biases in the evaluation of existing techniques, which future research should consider thoroughly.
翻訳日:2023-10-23 12:46:16 公開日:2023-08-24
# ChatGPTを用いたプロンプト強化ソフトウェア脆弱性検出

Prompt-Enhanced Software Vulnerability Detection Using ChatGPT ( http://arxiv.org/abs/2308.12697v1 )

ライセンス: Link先を確認
Chenyuan Zhang, Hao Liu, Jiutian Zeng, Kejing Yang, Yuhong Li, Hui Li(参考訳) 経済的および社会的損失を引き起こすソフトウェア脆弱性の増加に伴い、自動脆弱性検出はソフトウェア開発とメンテナンスにおいて不可欠になっている。 近年、GPTのような大規模言語モデル(LLM)は、その驚くべきインテリジェンスによって大きな注目を集めており、脆弱性検出にChatGPTを使うことを検討する研究もある。 しかし、ChatGPTに対する設計質問は、脆弱性検出に適した特定のプロンプト設計なしでは単純であるため、LLMの特性を十分に考慮していない。 本稿では,さまざまなプロンプトデザインのchatgptを用いたソフトウェア脆弱性検出性能に関する調査を行う。 まず,基礎的なプロンプトに様々な改良を加えることで,従来の作業を補完する。 さらに、構造的およびシーケンシャルな補助情報を組み込んで、プロンプト設計を改善する。 さらに,マルチラウンド対話を記憶し,脆弱性検出に適したプロンプトを設計するchatgptの機能を活用する。 chatgptを用いたプロンプトエンハンスド脆弱性検出の有効性を実証するために,2つの脆弱性データセットについて広範な実験を行った。 また,脆弱性検出にChatGPTを用いることのメリットとメリットを分析した。

With the increase in software vulnerabilities that cause significant economic and social losses, automatic vulnerability detection has become essential in software development and maintenance. Recently, large language models (LLMs) like GPT have received considerable attention due to their stunning intelligence, and some studies consider using ChatGPT for vulnerability detection. However, they do not fully consider the characteristics of LLMs, since their designed questions to ChatGPT are simple without a specific prompt design tailored for vulnerability detection. This paper launches a study on the performance of software vulnerability detection using ChatGPT with different prompt designs. Firstly, we complement previous work by applying various improvements to the basic prompt. Moreover, we incorporate structural and sequential auxiliary information to improve the prompt design. Besides, we leverage ChatGPT's ability of memorizing multi-round dialogue to design suitable prompts for vulnerability detection. We conduct extensive experiments on two vulnerability datasets to demonstrate the effectiveness of prompt-enhanced vulnerability detection using ChatGPT. We also analyze the merit and demerit of using ChatGPT for vulnerability detection.
翻訳日:2023-10-23 12:45:42 公開日:2023-08-24
# マルチモーダルダンス即興認識のためのコンポーネントアテンションネットワーク

Component attention network for multimodal dance improvisation recognition ( http://arxiv.org/abs/2310.05938v1 )

ライセンス: Link先を確認
Jia Fu, Jiarui Tan, Wenjie Yin, Sepideh Pashami, M{\aa}rten Bj\"orkman(参考訳) ダンス即興は芸術において活発な研究テーマである。 即興ダンスの動作解析は、その独特のダイナミクスのために困難である。 データ駆動ダンスモーション分析(認識と生成を含む)は骨格データに限られることが多い。 しかし、オーディオなどの他のモダリティのデータを記録し、下流のタスクに役立てることができる。 本稿では,ダンス即興の文脈における人間動作認識のためのマルチモーダル融合法の適用と性能について検討する。 本稿では,マルチモーダル融合のための注意ベースモデルであるコンポーネント・アテンション・ネットワーク(canet)を提案する。 1) CANetとのフィーチャ融合 2)canetおよびgraph convolutional network(gcn)を用いたモデル融合、及び 3)投票戦略との後期融合。 異なる融合法における各モードの影響を分析し,臨界時間的特徴と成分的特徴を識別するために,徹底的な実験を行った。 提案手法は2つのベースライン法を上回っており,ダンスにおける即興分析の可能性を示している。

Dance improvisation is an active research topic in the arts. Motion analysis of improvised dance can be challenging due to its unique dynamics. Data-driven dance motion analysis, including recognition and generation, is often limited to skeletal data. However, data of other modalities, such as audio, can be recorded and benefit downstream tasks. This paper explores the application and performance of multimodal fusion methods for human motion recognition in the context of dance improvisation. We propose an attention-based model, component attention network (CANet), for multimodal fusion on three levels: 1) feature fusion with CANet, 2) model fusion with CANet and graph convolutional network (GCN), and 3) late fusion with a voting strategy. We conduct thorough experiments to analyze the impact of each modality in different fusion methods and distinguish critical temporal or component features. We show that our proposed model outperforms the two baseline methods, demonstrating its potential for analyzing improvisation in dance.
翻訳日:2023-10-23 04:04:12 公開日:2023-08-24
# 運動量空間における量子渦の同定

Identification of quantum vortices in momentum space ( http://arxiv.org/abs/2310.05937v1 )

ライセンス: Link先を確認
Nikolay V. Larionov, Vasily M. Molchanovskiy(参考訳) 超短パルスレーザーによる2次元水素原子のバリア抑制イオン化により形成された量子渦を理論的に検討した。 運動量表現における光電子の波動関数の解析式を用いて,確率フラックス密度について検討した。 この場合、フラックスの標準定義と代替定義の両方が使用される。 後者は波動関数の位相に対する感度のため、運動量空間における量子渦を同定することができる。

The quantum vortices formed as a result of barrier-suppression ionization of a two-dimensional hydrogen atom by an ultrashort laser pulse are theoretically investigated. Using an analytical expression for the wave function of a photoelectron in the momentum representation, the probability flux density is investigated. In this case, both the standard definition of a flux and an alternative one are used. The latter, due to the sensitivity to the phase of the wave function, makes it possible to identify quantum vortices in the momentum space.
翻訳日:2023-10-23 04:04:00 公開日:2023-08-24
# 技術的、疑似科学、行動的コンプライアンス:プライバシーリスク評価のリスク。 NISTのプライバシリスク評価方法論からの教訓

Technocracy, pseudoscience and performative compliance: the risks of privacy risk assessments. Lessons from NIST's Privacy Risk Assessment Methodology ( http://arxiv.org/abs/2310.05936v1 )

ライセンス: Link先を確認
Ero Balsa(参考訳) プライバシリスクアセスメントは、組織に設計によるプライバシの実施を奨励する、客観的で原則化された方法だと言われている。 彼らはGDPRによって具現化されているように、コラボレーションガバナンスの新しい規制モデルの中心である。 しかし、既存のガイドラインや手法はあいまいであり、プライバシー侵害に関する実証的な証拠はほとんどない。 本稿では,米国NISTのプライバシ・リスク・アセスメント・方法論を綿密に分析し,敵組織が行動的コンプライアンスに携わる無数の機会を生み出す複数の裁量サイトを明らかにする。 分析の結果,プライバシリスクアセスメントが成功する前提は,特に組織のインセンティブや規制当局の監査能力に左右されないことが示された。 我々は、基本的に実用的かつ技術的アプローチの限界と落とし穴を強調し、代替案について議論し、政策と研究の目的を明確にする。

Privacy risk assessments have been touted as an objective, principled way to encourage organizations to implement privacy-by-design. They are central to a new regulatory model of collaborative governance, as embodied by the GDPR. However, existing guidelines and methods remain vague, and there is little empirical evidence on privacy harms. In this paper we conduct a close analysis of US NIST's Privacy Risk Assessment Methodology, highlighting multiple sites of discretion that create countless opportunities for adversarial organizations to engage in performative compliance. Our analysis shows that the premises on which the success of privacy risk assessments depends do not hold, particularly in regard to organizations' incentives and regulators auditing capabilities. We highlight the limitations and pitfalls of what is essentially a utilitarian and technocratic approach, leading us to discuss alternatives and a realignment of our policy and research objectives.
翻訳日:2023-10-23 04:03:53 公開日:2023-08-24
# デジタル社会における子どもの安全 -権利と研究倫理のアプローチ-

Security for Children in the Digital Society -- A Rights-based and Research Ethics Approach ( http://arxiv.org/abs/2309.12340v1 )

ライセンス: Link先を確認
Laura Schelenz, Ingrid Stapf, Jessica Heesen(参考訳) 本稿では,デジタルワールドにおける子どもの安全に関するプロジェクト「SIKID-Security for Children in the Digital World」の初歩的な視点と研究成果について述べる。 このプロジェクトは、人工知能の開発のためのヨーロッパのフレームワークと、アルゴリズムによるオンラインコミュニケーションの過程で生じるセキュリティリスクから子どもを守ることに焦点を当てた、ドイツの状況にある。 このプロジェクトは、関連する利害関係者のネットワークを強化し、規制措置を探求し、政策立案者に通知し、子どもの安全問題に対する子どもの権利アプローチをオンラインで開発するとともに、児童に対するサイバーグルームや性的暴力などのオンライン被害について子供と研究を行うための研究倫理的アプローチを開発する。

In this position paper, we present initial perspectives and research results from the project "SIKID - Security for Children in the Digital World." The project is situated in a German context with a focus on European frameworks for the development of Artificial Intelligence and the protection of children from security risks arising in the course of algorithm-mediated online communication. The project strengthens networks of relevant stakeholders, explores regulatory measures and informs policy makers, and develops a children's rights approach to questions of security for children online while also developing a research ethics approach for conducting research with children on online harms such as cybergrooming and sexual violence against children.
翻訳日:2023-10-01 13:04:57 公開日:2023-08-24
# 電子健康記録に基づく大規模言語モデルを訓練する医療機関の考察

Considerations for health care institutions training large language models on electronic health records ( http://arxiv.org/abs/2309.12339v1 )

ライセンス: Link先を確認
Weipeng Zhou, Danielle Bitterman, Majid Afshar, Timothy A. Miller(参考訳) ChatGPTのような大規模言語モデル(LLM)は、フィールド全体に励起科学者がいる。医学では、電子健康記録(EHR)データに基づいてトレーニングされたLSMの潜在的な応用が興奮の源となっている。 しかし、医療機関が自身のデータに基づいてLSMをトレーニングすることに関心があるのであれば、まずは難しい疑問があります — LLMをスクラッチからトレーニングするか、あるいはオープンソースモデルから微調整すべきか? 事前定義された予算を持つ医療機関にとって、最大のLCMは何か。 本研究では,これらの質問に対して,データセットのサイズ,モデルサイズ,コストをEHRデータを用いたLLMトレーニングで分析して答える。 この分析は、データスケール、計算スケール、トレーニング予算の観点からこれらの問題を考えるためのフレームワークを提供する。

Large language models (LLMs) like ChatGPT have excited scientists across fields; in medicine, one source of excitement is the potential applications of LLMs trained on electronic health record (EHR) data. But there are tough questions we must first answer if health care institutions are interested in having LLMs trained on their own data; should they train an LLM from scratch or fine-tune it from an open-source model? For healthcare institutions with a predefined budget, what are the biggest LLMs they can afford? In this study, we take steps towards answering these questions with an analysis on dataset sizes, model sizes, and costs for LLM training using EHR data. This analysis provides a framework for thinking about these questions in terms of data scale, compute scale, and training budgets.
翻訳日:2023-10-01 13:04:45 公開日:2023-08-24
# 動的メモリ学習によるモデル反転攻撃

Model Inversion Attack via Dynamic Memory Learning ( http://arxiv.org/abs/2309.00013v1 )

ライセンス: Link先を確認
Gege Qi and YueFeng Chen and Xiaofeng Mao and Binyuan Hui and Xiaodan Li and Rong Zhang and Hui Xue(参考訳) Model Inversion(MI)攻撃は、ターゲットモデルからプライベートトレーニングデータを復元することを目的としており、実際にはDNNのデプロイに関するセキュリティ上の懸念を提起している。 生成的逆境モデルの最近の進歩は、ターゲットデータによく似た高忠実で知覚的に現実的な画像を生成する能力から、mi攻撃において特に効果的である。 本研究では, 歴史的に学習された知識を活用し, 様々な世代を誘導するために, サンプル(訓練中)と相互作用する動的メモリモデルインバージョンアタック(dmmia)を提案する。 DMMIAは、複数の学習可能なプロトタイプによるターゲット関連概念を表すクラス内多中心表現(IMR)と、記憶されたサンプルを学習されたプロトタイプとして特徴付けるクラス間識別表現(IDR)である。 その結果、我々のDMMIAはより情報的な表現を持ち、より多様性があり差別的な結果をもたらす。 複数のベンチマーク実験により、DMMIAは最先端MI攻撃法よりも優れた性能を示した。

Model Inversion (MI) attacks aim to recover the private training data from the target model, which has raised security concerns about the deployment of DNNs in practice. Recent advances in generative adversarial models have rendered them particularly effective in MI attacks, primarily due to their ability to generate high-fidelity and perceptually realistic images that closely resemble the target data. In this work, we propose a novel Dynamic Memory Model Inversion Attack (DMMIA) to leverage historically learned knowledge, which interacts with samples (during the training) to induce diverse generations. DMMIA constructs two types of prototypes to inject the information about historically learned knowledge: Intra-class Multicentric Representation (IMR) representing target-related concepts by multiple learnable prototypes, and Inter-class Discriminative Representation (IDR) characterizing the memorized samples as learned prototypes to capture more privacy-related information. As a result, our DMMIA has a more informative representation, which brings more diverse and discriminative generated results. Experiments on multiple benchmarks show that DMMIA performs better than state-of-the-art MI attack methods.
翻訳日:2023-09-10 03:55:49 公開日:2023-08-24
# 3d分子コンフォメーションのための統一された力中心事前トレーニング

May the Force be with You: Unified Force-Centric Pre-Training for 3D Molecular Conformations ( http://arxiv.org/abs/2308.14759v1 )

ライセンス: Link先を確認
Rui Feng, Qi Zhu, Huan Tran, Binghong Chen, Aubrey Toland, Rampi Ramprasad, Chao Zhang(参考訳) 近年の研究では、3次元分子表現のための事前学習モデルが期待されている。 しかし、既存の事前学習モデルは、主に平衡データに焦点を合わせ、主に非平衡コンフォメーションを見落としている。 これらの手法を非平衡データに拡張することは、その訓練目的が局所エネルギーミニマであるコンフォーメーションの仮定に依存するため困難である。 このギャップに対処するために、平衡データとオフ平衡データの両方をカバーする3次元分子配座のための力中心事前学習モデルを提案する。 オフバランスデータでは,モデルが原子間力から直接学習する。 平衡データに対して, ゼロフォース正則化法と強制制御法を導入し, 近平衡力を近似する。 我々は、1500万以上の多様なコンフォメーションを持つ3次元分子表現のための統一事前学習モデルを得る。 実験により, プレトレーニング目標により, プレトレーニングされた等変変圧器モデルと比較して, 力の精度が約3倍向上することを示した。 平衡データに正規化を組み込むことにより,バニラ等価変圧器における不安定MDシミュレーションの問題を解消し,NequIPの2.45倍の速度で最先端のシミュレーション性能を実現する。 分子エンコーダとして、我々の事前学習モデルは、最先端特性予測タスクでオンパー性能を達成する。

Recent works have shown the promise of learning pre-trained models for 3D molecular representation. However, existing pre-training models focus predominantly on equilibrium data and largely overlook off-equilibrium conformations. It is challenging to extend these methods to off-equilibrium data because their training objective relies on assumptions of conformations being the local energy minima. We address this gap by proposing a force-centric pretraining model for 3D molecular conformations covering both equilibrium and off-equilibrium data. For off-equilibrium data, our model learns directly from their atomic forces. For equilibrium data, we introduce zero-force regularization and forced-based denoising techniques to approximate near-equilibrium forces. We obtain a unified pre-trained model for 3D molecular representation with over 15 million diverse conformations. Experiments show that, with our pre-training objective, we increase forces accuracy by around 3 times compared to the un-pre-trained Equivariant Transformer model. By incorporating regularizations on equilibrium data, we solved the problem of unstable MD simulations in vanilla Equivariant Transformers, achieving state-of-the-art simulation performance with 2.45 times faster inference time than NequIP. As a powerful molecular encoder, our pre-trained model achieves on-par performance with state-of-the-art property prediction tasks.
翻訳日:2023-09-03 21:21:22 公開日:2023-08-24
# 深部ニューラルネットワーク検証のためのDPLL(T)フレームワーク

A DPLL(T) Framework for Verifying Deep Neural Networks ( http://arxiv.org/abs/2307.10266v2 )

ライセンス: Link先を確認
Hai Duong, Linhan Li, ThanhVu Nguyen, Matthew Dwyer(参考訳) Deep Neural Networks (DNN)は、現実世界の問題を解決する効果的なアプローチとして登場した。 しかし、人書きのソフトウェアのように、自動生成されたDNNにはバグがあり、攻撃を受けることができる。 これにより、効果的でスケーラブルなDNN検証技術やツールの開発において、近年多くの関心を集めている。 本稿では,DNN検証に対する新しい制約解決手法であるNeuralSATを紹介する。 NeuralSATの設計は、(矛盾した)節の学習、抽象化、理論解を含む現代のSMT解決法であるDPLL(T)アルゴリズムに従っており、したがってNeuralSATはDNNのSMTフレームワークとみなすことができる。 予備的な結果は、NeuralSATのプロトタイプが最先端技術と競合していることを示している。 我々は、適切な最適化とエンジニアリングにより、最新のSAT/SMTソルバのパワーと成功をDNN検証にもたらすことを願っている。 NeuralSAT は https://github.com/dynaroars/neuralsat

Deep Neural Networks (DNNs) have emerged as an effective approach to tackling real-world problems. However, like human-written software, automatically-generated DNNs can have bugs and be attacked. This thus attracts many recent interests in developing effective and scalable DNN verification techniques and tools. In this work, we introduce a NeuralSAT, a new constraint solving approach to DNN verification. The design of NeuralSAT follows the DPLL(T) algorithm used modern SMT solving, which includes (conflict) clause learning, abstraction, and theory solving, and thus NeuralSAT can be considered as an SMT framework for DNNs. Preliminary results show that the NeuralSAT prototype is competitive to the state-of-the-art. We hope, with proper optimization and engineering, NeuralSAT will carry the power and success of modern SAT/SMT solvers to DNN verification. NeuralSAT is avaliable from: https://github.com/dynaroars/neuralsat
翻訳日:2023-08-29 22:52:52 公開日:2023-08-24
# VQA療法 : 視覚的接地による回答の違いを探る

VQA Therapy: Exploring Answer Differences by Visually Grounding Answers ( http://arxiv.org/abs/2308.11662v2 )

ライセンス: Link先を確認
Chongyan Chen, Samreen Anjum, Danna Gurari(参考訳) 視覚的な質問応答は、画像に関する質問に対する回答を予測するタスクである。 異なる人々が視覚的な質問に対して異なる回答を提供できることを考えれば、答えの根拠を持つ理由をよりよく理解することを目指している。 VQAAnswerTherapyと呼ばれる、視覚的な各質問に対して、それぞれのユニークな答えを視覚的に根拠付ける最初のデータセットを紹介します。 次に,視覚的質問が1つの回答グラウンドを持つかどうかを予測し,すべての回答グラウンドを局所化する2つの新しい問題を提案する。 我々は、これらの新しい問題の現代的アルゴリズムをベンチマークし、成功と苦闘の場所を示す。 データセットと評価サーバはhttps://vizwiz.org/tasks-and-datasets/vqa-answer-therapy/で公開されている。

Visual question answering is a task of predicting the answer to a question about an image. Given that different people can provide different answers to a visual question, we aim to better understand why with answer groundings. We introduce the first dataset that visually grounds each unique answer to each visual question, which we call VQAAnswerTherapy. We then propose two novel problems of predicting whether a visual question has a single answer grounding and localizing all answer groundings. We benchmark modern algorithms for these novel problems to show where they succeed and struggle. The dataset and evaluation server can be found publicly at https://vizwiz.org/tasks-and-datasets/vqa-answer-therapy/.
翻訳日:2023-08-29 20:47:35 公開日:2023-08-24
# Project Aria:エゴセントリックなマルチモーダルAI研究のための新しいツール

Project Aria: A New Tool for Egocentric Multi-Modal AI Research ( http://arxiv.org/abs/2308.13561v1 )

ライセンス: Link先を確認
Kiran Somasundaram, Jing Dong, Huixuan Tang, Julian Straub, Mingfei Yan, Michael Goesele, Jakob Julian Engel, Renzo De Nardi, Richard Newcombe(参考訳) 将来の拡張現実(ar)デバイスで利用可能なエゴセントリックでマルチモーダルなデータは、機械知覚に特有の課題と機会を提供する。 これらの将来のデバイスは、常に利用可能なコンテキスト認識およびパーソナライズされたaiアプリケーションをサポートするために、社会的に受け入れられるフォームファクターとして、一日中ウェアラブルである必要がある。 meta reality labs researchの私たちのチームは、この分野の研究の促進と加速を目的として、エゴセントリックでマルチモーダルなデータ記録とストリーミングデバイスであるaria deviceを開発しました。 本稿では、センサ構成を含むAriaデバイスハードウェアと、そのようなデータの記録と処理を可能にする対応するソフトウェアツールについて述べる。

Egocentric, multi-modal data as available on future augmented reality (AR) devices provides unique challenges and opportunities for machine perception. These future devices will need to be all-day wearable in a socially acceptable form-factor to support always available, context-aware and personalized AI applications. Our team at Meta Reality Labs Research built the Aria device, an egocentric, multi-modal data recording and streaming device with the goal to foster and accelerate research in this area. In this paper, we describe the Aria device hardware including its sensor configuration and the corresponding software tools that enable recording and processing of such data.
翻訳日:2023-08-29 20:38:37 公開日:2023-08-24
# 因果推論のための機械学習

Machine Unlearning for Causal Inference ( http://arxiv.org/abs/2308.13559v1 )

ライセンス: Link先を確認
Vikas Ramachandra and Mohit Sethi(参考訳) 機械学習モデルは、予測やデータからの洞察の導出に重要な役割を果たし、因果推論にますます使われている。 ユーザのプライバシを維持するためには、モデルが与えられたユーザ(マシンアンラーニング)に関する学習/キャプチャ情報の一部を忘れることが重要である。 本稿では, 因果推論のための機械学習の概念, 特に確率スコアマッチングと治療効果推定について紹介し, 上記の未学習要件に基づき, 因果解析のための機械学習モデルの性能を洗練・改善することを目的とする。 本稿では,ニューラルネットワークを用いた確率スコアモデルを用いた機械学習手法を提案する。 この研究で使用されるデータセットはLalondeデータセットであり、ジョブトレーニングプログラムの処理効果を評価するために広く使われているデータセットである。 この方法論では、最初のproensityスコアモデルを元のデータセットでトレーニングし、インスタンスを選択的に削除して、マッチしたインスタンスペアを生成する。 傾向スコアマッチングに基づく。 これらの誤り集合は再訓練されたモデルを評価するために使用され、不要な関連を排除できる。 保持セットを用いてモデルの実際の再訓練を行う。 実験の結果,機械学習手法の有効性が示された。 アンラーニング前後の確率スコアの分布とヒストグラム解析は、アンラーニングプロセスがデータに与える影響についての洞察を提供する。 本研究は,因果推論にマシンアンラーニング手法を適用する最初の試みである。

Machine learning models play a vital role in making predictions and deriving insights from data and are being increasingly used for causal inference. To preserve user privacy, it is important to enable the model to forget some of its learning/captured information about a given user (machine unlearning). This paper introduces the concept of machine unlearning for causal inference, particularly propensity score matching and treatment effect estimation, which aims to refine and improve the performance of machine learning models for causal analysis given the above unlearning requirements. The paper presents a methodology for machine unlearning using a neural network-based propensity score model. The dataset used in the study is the Lalonde dataset, a widely used dataset for evaluating the effectiveness i.e. the treatment effect of job training programs. The methodology involves training an initial propensity score model on the original dataset and then creating forget sets by selectively removing instances, as well as matched instance pairs. based on propensity score matching. These forget sets are used to evaluate the retrained model, allowing for the elimination of unwanted associations. The actual retraining of the model is performed using the retain set. The experimental results demonstrate the effectiveness of the machine unlearning approach. The distribution and histogram analysis of propensity scores before and after unlearning provide insights into the impact of the unlearning process on the data. This study represents the first attempt to apply machine unlearning techniques to causal inference.
翻訳日:2023-08-29 20:38:26 公開日:2023-08-24
# コンピュータビジョンのためのフェデレーション学習

Federated Learning for Computer Vision ( http://arxiv.org/abs/2308.13558v1 )

ライセンス: Link先を確認
Yassine Himeur, Iraklis Varlamis, Hamza Kheddar, Abbes Amira, Shadi Atalla, Yashbir Singh, Faycal Bensaali and Wathiq Mansoor(参考訳) コンピュータビジョン(CV)は、機械学習(ML)ツールを幅広いタスクに活用することで、社会を変革する上で重要な役割を果たしている。 しかし、MLモデルをトレーニングする大規模なデータセットの必要性は、集中型MLアルゴリズムの課題を生み出している。 処理に必要な膨大な計算負荷と、中央のクラウドサーバにデータの保存と処理に関連する潜在的なプライバシーリスクにより、これらのアルゴリズムは厳しい負担を負うことになる。 これらの問題に対処するために、フェデレーション学習(fl)が有望なソリューションとして登場し、モデルをローカルにトレーニングし、全体的なパフォーマンスを改善するために交換することで、プライバシの保護を可能にした。 さらに、計算負荷は複数のクライアントに分散され、中央サーバの負荷が軽減される。 本稿では,本稿の著者の知識を活かし,cvアプリケーションにおけるflの最近の進歩を論じる最初のレビューを行い,従来の集中型学習パラダイムと比較する。 さまざまな CV タスクにおける現在の FL アプリケーションの概要を提供し、FL の利点と CV 実装の課題を強調している。 そこで本稿では,cvにおけるfl技術の分類法を提案し,その応用とセキュリティの脅威を概説する。 また、CVタスクのFLスキームにブロックチェーンを実装する際のプライバシー上の懸念についても論じ、既存のプライバシー保護手法を要約している。 CVアプリケーションにおけるFLおよびブロックチェーンの可能性をさらに活用するために、オープンな研究課題と今後の研究方向性を明らかにする。

Computer Vision (CV) is playing a significant role in transforming society by utilizing machine learning (ML) tools for a wide range of tasks. However, the need for large-scale datasets to train ML models creates challenges for centralized ML algorithms. The massive computation loads required for processing and the potential privacy risks associated with storing and processing data on central cloud servers put these algorithms under severe strain. To address these issues, federated learning (FL) has emerged as a promising solution, allowing privacy preservation by training models locally and exchanging them to improve overall performance. Additionally, the computational load is distributed across multiple clients, reducing the burden on central servers. This paper presents, to the best of the authors' knowledge, the first review discussing recent advancements of FL in CV applications, comparing them to conventional centralized training paradigms. It provides an overview of current FL applications in various CV tasks, emphasizing the advantages of FL and the challenges of implementing it in CV. To facilitate this, the paper proposes a taxonomy of FL techniques in CV, outlining their applications and security threats. It also discusses privacy concerns related to implementing blockchain in FL schemes for CV tasks and summarizes existing privacy preservation methods. Moving on, the paper identifies open research challenges and potential future research directions to further exploit the potential of FL and blockchain in CV applications.
翻訳日:2023-08-29 20:38:05 公開日:2023-08-24
# 質量分布が不明な剛体像からの3次元回転ダイナミクス予測のための学習

Learning to predict 3D rotational dynamics from images of a rigid body with unknown mass distribution ( http://arxiv.org/abs/2308.14666v1 )

ライセンス: Link先を確認
Justice Mason, Christine Allen-Blanchette, Nicholas Zolman, Elizabeth Davison, Naomi Ehrich Leonard(参考訳) 多くの実世界の環境では、低次元の測定がなければ、自由に回転する3次元剛体の画像観察が可能である。 しかし、画像データの高次元性は、力学を学ぶために古典的推定技術を使うことを妨げる。 標準的な深層学習法の有用性は、剛体のイメージが体内の質量の分布について何も明らかにしないため、最初の角速度とともに、身体がどのように回転するかを決定するため、制限される。 画像列から3次元回転力学を推定・予測する物理インフォームドニューラルネットワークモデルを提案する。 これを多段階予測パイプラインを用いて実現し、個々の画像を$\mathbf{so}(3)$ に準同型な潜在表現にマッピングし、潜在対からの角速度を計算し、ハミルトニアン運動方程式を用いて将来の潜在状態を予測する。 本研究では, 立方体, プリズム, 衛星を含む回転物体の合成画像列を, 均一な質量分布と不均一な質量分布を持つ新しい回転剛体データセットに適用した。

In many real-world settings, image observations of freely rotating 3D rigid bodies, may be available when low-dimensional measurements are not. However, the high-dimensionality of image data precludes the use of classical estimation techniques to learn the dynamics. The usefulness of standard deep learning methods is also limited because an image of a rigid body reveals nothing about the distribution of mass inside the body, which, together with initial angular velocity, is what determines how the body will rotate. We present a physics-informed neural network model to estimate and predict 3D rotational dynamics from image sequences. We achieve this using a multi-stage prediction pipeline that maps individual images to a latent representation homeomorphic to $\mathbf{SO}(3)$, computes angular velocities from latent pairs, and predicts future latent states using the Hamiltonian equations of motion. We demonstrate the efficacy of our approach on new rotating rigid-body datasets of sequences of synthetic images of rotating objects, including cubes, prisms and satellites, with unknown uniform and non-uniform mass distributions.
翻訳日:2023-08-29 13:15:46 公開日:2023-08-24
# オンラインメトリクス学習のための多層フレームワーク

A Multilayer Framework for Online Metric Learning ( http://arxiv.org/abs/1805.05510v3 )

ライセンス: Link先を確認
Wenbin Li, Yanfang Liu, Jing Huo, Yinghuan Shi, Yang Gao, Lei Wang and Jiebo Luo(参考訳) オンラインメトリック学習は、分類と検索に広く応用されている。 与えられたマージンを持つ異種インスタンスから分離される類似のインスタンスを制限することで、データから適切なメトリックを自動的に学習することができる。 しかし、既存のオンラインメトリック学習アルゴリズムは、特にデータ分布が複雑である場合、実世界の分類において限られた性能を有する。 そこで本研究では,オンラインメトリック学習のための多層フレームワークを提案し,インスタンス間の非線形類似性を捉える。 従来のオンラインメトリック学習とは異なり、提案されているマルチレイヤオンラインメトリック学習(mloml)は、オンラインメトリック学習アルゴリズムをメートル法レイヤとして取り、複雑なデータ分散のための非線形層に従う複数の階層的メトリック空間を学習する。 さらに, 前方伝搬(FP)戦略と後方伝搬(BP)戦略を用いて, 階層的計量層を訓練する。 提案したMLOMLの計量層を構築するために,新しいMahalanobisベースのオンラインメトリックラーニング(MOML)アルゴリズムを,受動攻撃戦略と1パス三重項構成戦略に基づいて提案する。 さらに,MLOMLの学習能力は,学習データに制限がある場合にも,従来のオンラインメトリック学習よりも優れていた。 学習プロセスをより説明しやすく理論的に保証するために、理論的解析を提供する。 提案したMLOMLは、いくつかの優れた特性を享受し、実際にメトリクスを漸進的に学習し、ベンチマークデータセットでより良いパフォーマンスを発揮する。 提案したMLOMLのこれらの特性を検証するために、異なる設定による大規模な実験が行われた。

Online metric learning has been widely applied in classification and retrieval. It can automatically learn a suitable metric from data by restricting similar instances to be separated from dissimilar instances with a given margin. However, the existing online metric learning algorithms have limited performance in real-world classifications, especially when data distributions are complex. To this end, this paper proposes a multilayer framework for online metric learning to capture the nonlinear similarities among instances. Different from the traditional online metric learning, which can only learn one metric space, the proposed Multi-Layer Online Metric Learning (MLOML) takes an online metric learning algorithm as a metric layer and learns multiple hierarchical metric spaces, where each metric layer follows a nonlinear layers for the complicated data distribution. Moreover, the forward propagation (FP) strategy and backward propagation (BP) strategy are employed to train the hierarchical metric layers. To build a metric layer of the proposed MLOML, a new Mahalanobis-based Online Metric Learning (MOML) algorithm is presented based on the passive-aggressive strategy and one-pass triplet construction strategy. Furthermore, in a progressively and nonlinearly learning way, MLOML has a stronger learning ability than traditional online metric learning in the case of limited available training data. To make the learning process more explainable and theoretically guaranteed, theoretical analysis is provided. The proposed MLOML enjoys several nice properties, indeed learns a metric progressively, and performs better on the benchmark datasets. Extensive experiments with different settings have been conducted to verify these properties of the proposed MLOML.
翻訳日:2023-08-28 18:37:46 公開日:2023-08-24
# ニューラルネットワークの訓練における局所弾性のダイナミクス

Dynamics of Local Elasticity During Training of Neural Nets ( http://arxiv.org/abs/2111.01166v3 )

ライセンス: Link先を確認
Soham Dan, Anirbit Mukherjee, Avirup Das and Phanideep Gampa(参考訳) 近年では、重み空間における神経訓練路の特性、すなわち「局所弾性」($s_{\rm rel}$)が分離されている。 局所弾性は、サンプルデータポイントが他のデータでの予測に与える影響の伝播を定量化しようとする。 本研究では,既存の$S_{\rm rel}$という概念を包括的に研究し,分類設定における本来の定義について指摘する制限に対処する新たな定義を提案する。 SVHN, CIFAR-10, CIFAR-100のさまざまな最先端ニューラルネットワークトレーニングにおいて, 従来の定義とは対照的に, 新たな提案である$S_{\rm rel}$が, サンプルデータと同じクラス内での予測変更よりも優先される重み更新の特性をはるかに強く検出することを示した。 神経回帰実験では、最初の$s_{\rm rel}$ は2ドルのフェーズの振る舞いを示し、$s_{\rm rel}$ が急速に変化するときに初期弾性フェーズを経由し、$s_{\rm rel}$ が大きくなると最終的に非弾性フェーズとなることを実証する。 これらの特性のいくつかは、モデル予測クラス上で勾配フローを介して回帰を行う様々な例で解析的に再現できることを示す。

In the recent past, a property of neural training trajectories in weight-space had been isolated, that of "local elasticity" (denoted as $S_{\rm rel}$). Local elasticity attempts to quantify the propagation of the influence of a sampled data point on the prediction at another data. In this work, we embark on a comprehensive study of the existing notion of $S_{\rm rel}$ and also propose a new definition that addresses the limitations that we point out for the original definition in the classification setting. On various state-of-the-art neural network training on SVHN, CIFAR-10 and CIFAR-100 we demonstrate how our new proposal of $S_{\rm rel}$, as opposed to the original definition, much more sharply detects the property of the weight updates preferring to make prediction changes within the same class as the sampled data. In neural regression experiments we demonstrate that the original $S_{\rm rel}$ reveals a $2-$phase behavior -- that the training proceeds via an initial elastic phase when $S_{\rm rel}$ changes rapidly and an eventual inelastic phase when $S_{\rm rel}$ remains large. We show that some of these properties can be analytically reproduced in various instances of doing regression via gradient flows on model predictor classes.
翻訳日:2023-08-28 18:34:31 公開日:2023-08-24
# UnShadowNet:照明批判的指導によるシャドー除去のためのコントラスト学習

UnShadowNet: Illumination Critic Guided Contrastive Learning For Shadow Removal ( http://arxiv.org/abs/2203.15441v2 )

ライセンス: Link先を確認
Subhrajyoti Dasgupta, Arindam Das, Senthil Yogamani, Sudip Das, Ciaran Eising, Andrei Bursuc and Ujjwal Bhattacharya(参考訳) シャドウはしばしば自然現象に遭遇し、例えば自動運転のような実用的な環境でのコンピュータビジョン知覚システムの性能を著しく阻害する。 これに対する解決策は、知覚系の処理の前に画像から影領域を取り除くことである。 しかし、そのようなソリューションのトレーニングには、取得が難しいアライメントされたシャドウ画像と非シャドウ画像のペアが必要となる。 対照学習を用いて訓練した弱教師付きシャドウ除去フレームワークUnShadowNetを導入する。 照明評論家によって敵対的に訓練された照明ネットワークの指導の下、抽出された影の除去に責任を持つデシャドワーネットワークと、さらにアーティファクトを除去するための改良ネットワークとからなる。 我々は,unshadownet を完全な教師付き設定に容易に拡張できることを示す。 UnShadowNetは、3つの公開シャドウデータセット(ISTD、調整されたISTD、SRD)に対して、弱い設定と完全に管理された設定の両方において、既存の最先端のアプローチより優れている。

Shadows are frequently encountered natural phenomena that significantly hinder the performance of computer vision perception systems in practical settings, e.g., autonomous driving. A solution to this would be to eliminate shadow regions from the images before the processing of the perception system. Yet, training such a solution requires pairs of aligned shadowed and non-shadowed images which are difficult to obtain. We introduce a novel weakly supervised shadow removal framework UnShadowNet trained using contrastive learning. It is composed of a DeShadower network responsible for the removal of the extracted shadow under the guidance of an Illumination network which is trained adversarially by the illumination critic and a Refinement network to further remove artefacts. We show that UnShadowNet can be easily extended to a fully-supervised set-up to exploit the ground-truth when available. UnShadowNet outperforms existing state-of-the-art approaches on three publicly available shadow datasets (ISTD, adjusted ISTD, SRD) in both the weakly and fully supervised setups.
翻訳日:2023-08-28 18:23:15 公開日:2023-08-24
# 信号と1/f周波数雑音の判別のためのデュアル共振器動インダクタンス検出器

Dual-Resonator Kinetic-Inductance Detector for Distinction between Signal and 1/f Frequency Noise ( http://arxiv.org/abs/2202.11310v3 )

ライセンス: Link先を確認
N. Foroozani, B. Sarabi, S. H. Moseley, T. Stevenson, E. J. Wollack, O. Noroozian and K. D. Osborn(参考訳) 量子情報デバイスに類似した天文学的インダクタンス検出器(kids)は、材料による性能制限ノイズを経験する。 特に、1/f(周波数)ノイズは、回路誘電体および材料界面の2レベルシステム欠陥(TLS)から生じる支配的なノイズメカニズムである。 ここでは、1/f雑音制限KIDに対して信号対雑音(または雑音等価電力)を改善するために設計されたデュアル共振器KID(DuRKID)を提案する。 まず、DuRKIDの図式化回路を示し、次に意図した動作、最初の測定、理論、議論について説明する。 この回路は、2つの超伝導共振器で4つのコンデンサの電気容量橋を共有し、それぞれTLSをホストする。 このデバイスはモードのハイブリダイゼーションを使用して動作することを意図しており、tlsはどのコンデンサに存在するかによってどちらかのモードに結合する。 対照的に、意図されたKID信号はインダクタに向けられ、ハイブリダイゼーションにより両方の(ハイブリダイド化された)モードで相関周波数が変化する。 したがって、光子信号とTLS周波数ノイズを区別することができる。 ハイブリダイゼーションを実現するために、スズインダクタを電流バイアスして、一方のベア共振器モードのチューニングを他方と縮退させ、所望の共振器モードの周波数チューニングとハイブリダイゼーションを期待通りに行うことができる。 伝送線路に対する2共振器の共振器結合と非意図結合も測定によって特徴づけられる。 この理論では、量子情報科学モードに基づき、4ポートsパラメータを計算し、デバイスの1/f周波数ノイズをシミュレートする。 この研究により、DuRKIDは1/fノイズに制限されたKID検出器よりも大きく、基本的な性能上の優位性を示すことが明らかとなった。

Astronomical Kinetic Inductance Detectors (KIDs), similar to quantum information devices, experience performance limiting noise from materials. In particular, 1/f (frequency) noise can be a dominant noise mechanism, which arises from Two-Level System defects (TLSs) in the circuit dielectrics and material interfaces. Here we present a Dual-Resonator KID (DuRKID), which is designed for improved signal to noise (or noise equivalent power) relative to 1/f-noise limited KIDs. We first show the DuRKID schematic, fabricated circuit, and we follow with a description of the intended operation, first measurements, theory, and discussion. The circuit consists of two superconducting resonators sharing an electrical capacitance bridge of 4 capacitors, each of which hosts TLSs. The device is intended to operate using hybridization of the modes, which causes TLSs to either couple to one mode or the other, depending upon which capacitor they reside in. In contrast, the intended KID signal is directed to an inductor, and due to hybridization this causes correlated frequency changes in both (hybridized) modes. Therefore, one can distinguish photon signal from TLS frequency noise. To achieve hybridization, a TiN inductor is current biased to allow tuning of one bare resonator mode into degeneracy with the other and measurements show that the intended resonator modes frequency tune and hybridize as expected. The interresonator coupling and unintentional coupling of the 2 resonators to transmission lines are also characterized in measurements. In the theory, based on a quantum-information-science modes, we calculate the 4-port S parameters and simulate the 1/f frequency noise of the device. The study reveals that the DuRKID can exhibit a large and fundamental performance advantage over 1/f-noise-limited KID detectors.
翻訳日:2023-08-28 18:21:50 公開日:2023-08-24
# 文法に基づく基底辞書学習

Grammar-Based Grounded Lexicon Learning ( http://arxiv.org/abs/2202.08806v2 )

ライセンス: Link先を確認
Jiayuan Mao, Haoyue Shi, Jiajun Wu, Roger P. Levy, Joshua B. Tenenbaum(参考訳) 本稿では,文法に基づく接地辞書学習(G2L2)について述べる。 G2L2の中核には、各単語を構文型のタプルとニューロシンボリックセマンティックプログラムにマッピングする辞書エントリのコレクションがある。 例えば、shiny という単語は形容詞の構文型を持ち、そのニューロシンボリックな意味プログラムは記号形式 {\lambda}x を持つ。 これはshiNYの概念がニューラルネットワークの埋め込みと関連付けられており、光沢のあるオブジェクトを分類するために使用される。 入力文が与えられた後、G2L2はまず各トークンに関連する辞書エントリを検索する。 次に、構文に基づいた語彙的意味を合成することにより、実行可能な神経シンボリックプログラムとして文の意味を導出する。 回収された意味プログラムは、接地入力で実行することができる。 指数関数的に成長する合成空間における学習を容易にするために,学習時間を削減するために,導出上の局所辺縁化を行う合同解析および期待実行アルゴリズムを提案する。 視覚的推論と言語駆動ナビゲーションの2つの領域でG2L2を評価する。 その結果、g2l2は少量のデータから新しい単語合成に一般化できることがわかった。

We present Grammar-Based Grounded Lexicon Learning (G2L2), a lexicalist approach toward learning a compositional and grounded meaning representation of language from grounded data, such as paired images and texts. At the core of G2L2 is a collection of lexicon entries, which map each word to a tuple of a syntactic type and a neuro-symbolic semantic program. For example, the word shiny has a syntactic type of adjective; its neuro-symbolic semantic program has the symbolic form {\lambda}x. filter(x, SHINY), where the concept SHINY is associated with a neural network embedding, which will be used to classify shiny objects. Given an input sentence, G2L2 first looks up the lexicon entries associated with each token. It then derives the meaning of the sentence as an executable neuro-symbolic program by composing lexical meanings based on syntax. The recovered meaning programs can be executed on grounded inputs. To facilitate learning in an exponentially-growing compositional space, we introduce a joint parsing and expected execution algorithm, which does local marginalization over derivations to reduce the training time. We evaluate G2L2 on two domains: visual reasoning and language-driven navigation. Results show that G2L2 can generalize from small amounts of data to novel compositions of words.
翻訳日:2023-08-28 18:21:16 公開日:2023-08-24
# 機械学習による腎臓結石の生体内認識について

On the in vivo recognition of kidney stones using machine learning ( http://arxiv.org/abs/2201.08865v2 )

ライセンス: Link先を確認
Francisco Lopez-Tiro, Vincent Estrade, Jacques Hubert, Daniel Flores-Araiza, Miguel Gonzalez-Mendoza, Gilberto Ochoa-Ruiz, Christian Daul(参考訳) 腎臓結石の種類を決定することで、尿学者は腎結石の再発を避けるための治療を処方することができる。 自動in-vivo画像ベース分類法は,診断の第一段階として必要となる腎臓結石型を即時に同定するための重要なステップとなる。 文献では、前生検データ(すなわち、非常に制御されたシーンと画像取得条件)で、自動腎臓結石分類が実際に実現可能であることが示されている。 本研究は,6つの浅い機械学習手法と3つの深層学習アーキテクチャの腎臓結石認識性能を,尿管内視鏡で取得した尿路結石4種類の生検画像を用いて比較した。 この貢献は、試験された腎臓結石分類器のデータベースの構築と設計について詳述している。 Inception v3アーキテクチャ(それぞれ0.97、0.98、0.97の重み付き精度、リコール、F1スコア)で最高の結果が得られたとしても、適切な色空間とテクスチャの特徴を選択することで、浅い機械学習手法で最も有望なディープラーニング手法の性能を綿密に評価することができる(XGBoost分類器は重み付き精度、リコール、F1スコア値0.96)。 本論文は尿管スコピックで得られた画像から抽出される最も識別性の高い特徴を探索する最初の論文である。

Determining the type of kidney stones allows urologists to prescribe a treatment to avoid recurrence of renal lithiasis. An automated in-vivo image-based classification method would be an important step towards an immediate identification of the kidney stone type required as a first phase of the diagnosis. In the literature it was shown on ex-vivo data (i.e., in very controlled scene and image acquisition conditions) that an automated kidney stone classification is indeed feasible. This pilot study compares the kidney stone recognition performances of six shallow machine learning methods and three deep-learning architectures which were tested with in-vivo images of the four most frequent urinary calculi types acquired with an endoscope during standard ureteroscopies. This contribution details the database construction and the design of the tested kidney stones classifiers. Even if the best results were obtained by the Inception v3 architecture (weighted precision, recall and F1-score of 0.97, 0.98 and 0.97, respectively), it is also shown that choosing an appropriate colour space and texture features allows a shallow machine learning method to approach closely the performances of the most promising deep-learning methods (the XGBoost classifier led to weighted precision, recall and F1-score values of 0.96). This paper is the first one that explores the most discriminant features to be extracted from images acquired during ureteroscopies.
翻訳日:2023-08-28 18:20:38 公開日:2023-08-24
# スケーラブルフォトニック変調器を用いた高忠実トラップイオン量子ビット演算

High-fidelity trapped-ion qubit operations with scalable photonic modulators ( http://arxiv.org/abs/2210.14368v2 )

ライセンス: Link先を確認
Craig W. Hogle, Daniel Dominguez, Mark Dong, Andrew Leenheer, Hayden J. McGuinness, Brandon P. Ruzic, Matt Eichenfield, Daniel Stick(参考訳) 閉じ込められたイオンと中性原子による実験は、通常、個々の原子に向けられた光の位相、周波数、振幅を制御するために光学変調器を用いる。 これらの要素は高価で、かさばる、かなりの電力を消費し、しばしばフリースペースI/Oチャネルに依存します。 閉じ込められたイオン量子コンピュータのような多イオンシステムや、時計やセンサーのような小型展開可能なデバイスをサポートするためには、これらの要素は最終的にマイクロファブリケーションされ、物理的に分離されたコンポーネント間の光結合による損失を避けるために理想的にはモノリシックでなければならない。 本研究では,表面電極型イオントラップとモノリシックな結合が可能な光変調器の設計,試作,試験を行う。 これらのデバイスは、ピエゾ-オプトメカニカルフォトニック集積回路をマルチステージマッハ-ツェンダー変調器として構成し、別々のチップ上で1つの捕捉イオンに供給される光の強度を制御するために使用される。 我々は、数百のマルチゲートシーケンスを用いた量子トモグラフィを用いて、量子コンピューティングに関連するゲートエラーのタイプや大きさに対する忠実さの感度を高め、変調器の性能をより良く評価し、最終的に99.7%を超える単一量子ビットゲートフィデルを測定する。

Experiments with trapped ions and neutral atoms typically employ optical modulators in order to control the phase, frequency, and amplitude of light directed to individual atoms. These elements are expensive, bulky, consume substantial power, and often rely on free-space I/O channels, all of which pose scaling challenges. To support many-ion systems like trapped-ion quantum computers or miniaturized deployable devices like clocks and sensors, these elements must ultimately be microfabricated, ideally monolithically with the trap to avoid losses associated with optical coupling between physically separate components. In this work we design, fabricate, and test an optical modulator capable of monolithic integration with a surface-electrode ion trap. These devices consist of piezo-optomechanical photonic integrated circuits configured as multi-stage Mach-Zehnder modulators that are used to control the intensity of light delivered to a single trapped ion on a separate chip. We use quantum tomography employing hundreds of multi-gate sequences to enhance the sensitivity of the fidelity to the types and magnitudes of gate errors relevant to quantum computing and better characterize the performance of the modulators, ultimately measuring single qubit gate fidelities that exceed 99.7%.
翻訳日:2023-08-28 18:13:05 公開日:2023-08-24
# 微分プライベート拡散モデル

Differentially Private Diffusion Models ( http://arxiv.org/abs/2210.09929v2 )

ライセンス: Link先を確認
Tim Dockhorn, Tianshi Cao, Arash Vahdat, Karsten Kreis(参考訳) 現代の機械学習モデルは、ますます大きなトレーニングデータセットに依存しているが、データはプライバシーに敏感なドメインに限定されることが多い。 機密データに対して差分プライバシー(DP)でトレーニングされた生成モデルは、この課題を回避し、代わりに合成データへのアクセスを提供する。 本稿では,最近の拡散モデル(dms)の成功に基づき,微分プライベート拡散モデル(dpdms)を導入し,微分プライベート確率勾配降下(dp-sgd)を用いたプライバシーを強制する。 本稿では,DPDMにおいて重要な要素であるDMパラメータ化とサンプリングアルゴリズムについて検討し,DMの訓練に適したDP-SGDの強力な修正であるノイズ多重性を提案する。 我々は,新しいDPDMを画像生成ベンチマークで検証し,すべての実験で最先端の性能を実現する。 さらに、標準ベンチマークでは、dpdm生成合成データで訓練された分類器はタスク固有のdp-sgd訓練された分類器と同等の性能を発揮する。 プロジェクトページとコード:https://nv-tlabs.github.io/DPDM。

While modern machine learning models rely on increasingly large training datasets, data is often limited in privacy-sensitive domains. Generative models trained with differential privacy (DP) on sensitive data can sidestep this challenge, providing access to synthetic data instead. We build on the recent success of diffusion models (DMs) and introduce Differentially Private Diffusion Models (DPDMs), which enforce privacy using differentially private stochastic gradient descent (DP-SGD). We investigate the DM parameterization and the sampling algorithm, which turn out to be crucial ingredients in DPDMs, and propose noise multiplicity, a powerful modification of DP-SGD tailored to the training of DMs. We validate our novel DPDMs on image generation benchmarks and achieve state-of-the-art performance in all experiments. Moreover, on standard benchmarks, classifiers trained on DPDM-generated synthetic data perform on par with task-specific DP-SGD-trained classifiers, which has not been demonstrated before for DP generative models. Project page and code: https://nv-tlabs.github.io/DPDM.
翻訳日:2023-08-28 18:12:42 公開日:2023-08-24
# 内部リワード強化学習

Internally Rewarded Reinforcement Learning ( http://arxiv.org/abs/2302.00270v3 )

ライセンス: Link先を確認
Mengdi Li, Xufeng Zhao, Jae Hee Lee, Cornelius Weber, Stefan Wermter(参考訳) 政策学習の報奨信号が、政策に依存して協調的に最適化される内部報酬モデルによって生成される強化学習のクラスについて検討する。 この政策と報酬モデルとの相互依存は、未熟な報酬モデルからの報酬信号がうるさく、政策学習を妨げるため、不安定な学習プロセスにつながる。 この学習セットを$\textit{internally rewarded reinforcement learning}$ (irrl)と呼んでいます。 本稿では、IRRLを公式に定式化し、IRRLに属する問題のクラスを示す。 本稿では,irrlにおける報酬関数の効果を理論的に導出し,経験的に解析し,これらの解析からクリップ型報酬関数を提案する。 実験結果から,提案する報酬関数は,報奨ノイズの影響を低減し,様々なタスクのベースラインと比較して,より高速に収束し,高いパフォーマンスが得られることを示した。

We study a class of reinforcement learning problems where the reward signals for policy learning are generated by an internal reward model that is dependent on and jointly optimized with the policy. This interdependence between the policy and the reward model leads to an unstable learning process because reward signals from an immature reward model are noisy and impede policy learning, and conversely, an under-optimized policy impedes reward estimation learning. We call this learning setting $\textit{Internally Rewarded Reinforcement Learning}$ (IRRL) as the reward is not provided directly by the environment but $\textit{internally}$ by a reward model. In this paper, we formally formulate IRRL and present a class of problems that belong to IRRL. We theoretically derive and empirically analyze the effect of the reward function in IRRL and based on these analyses propose the clipped linear reward function. Experimental results show that the proposed reward function can consistently stabilize the training process by reducing the impact of reward noise, which leads to faster convergence and higher performance compared with baselines in diverse tasks.
翻訳日:2023-08-28 18:02:34 公開日:2023-08-24
# 観測不能条件下での予測アルゴリズムのロバスト設計と評価

Robust Design and Evaluation of Predictive Algorithms under Unobserved Confounding ( http://arxiv.org/abs/2212.09844v4 )

ライセンス: Link先を確認
Ashesh Rambachan and Amanda Coston and Edward Kennedy(参考訳) 予測アルゴリズムは、人間の意思決定者による選択により、結果が選択的に観察される設定において、連続的な決定を通知する。 意思決定者の選択と結果に影響を及ぼす、観察されていない共同設立者がしばしば存在する。 そこで本研究では,予測アルゴリズムのロバストな設計と評価のための統一手法を提案する。 提案手法では,無選択単位と選択単位間の平均値が,観測された共変量およびニュアンスパラメータを同定し,プロキシ結果や機器変数などの欠落データを計算するための一般的な経験的戦略を定式化する。 本研究では,結果の条件付き確率,予測アルゴリズムの平均二乗誤差,真/偽陽性率,その他多くの推定性能推定値の広いクラスにおける境界について,デバイアス付き機械学習推定器を開発した。 オーストラリアの大手金融機関の行政データセットにおいて、未観測の共起に関する様々な仮定が、デフォルトリスク予測やセンシティブなグループ間での信用スコアの評価に有意義な変化をもたらすかを説明する。

Predictive algorithms inform consequential decisions in settings where the outcome is selectively observed given some choices made by human decision makers. There often exists unobserved confounders that affected the decision maker's choice and the outcome. We propose a unified methodology for the robust design and evaluation of predictive algorithms in selectively observed data under such unobserved confounding. Our approach imposes general assumptions on how much the outcome may vary on average between unselected and selected units conditional on observed covariates and identified nuisance parameters, formalizing popular empirical strategies for imputing missing data such as proxy outcomes and instrumental variables. We develop debiased machine learning estimators for the bounds on a large class of predictive performance estimands, such as the conditional likelihood of the outcome, a predictive algorithm's mean square error, true/false positive rate, and many others, under these assumptions. In an administrative dataset from a large Australian financial institution, we illustrate how varying assumptions on unobserved confounding leads to meaningful changes in default risk predictions and evaluations of credit scores across sensitive groups.
翻訳日:2023-08-28 18:01:19 公開日:2023-08-24
# SceneRF: 放射場を用いた自己監督単眼3次元シーン再構成

SceneRF: Self-Supervised Monocular 3D Scene Reconstruction with Radiance Fields ( http://arxiv.org/abs/2212.02501v4 )

ライセンス: Link先を確認
Anh-Quan Cao and Raoul de Charette(参考訳) 1枚の2D画像からの3D再構成は文献で広く取り上げられたが、訓練時の深度管理に依存しており、適用性は制限された。 深度への依存を緩和するために,画像列のみを用いた自己教師付き単眼シーン再構築手法であるSceneRFを提案する。 近年のニューラルレイディアンス場(NeRF)の進歩により,鮮明な深度最適化と,大規模シーンを効率的に処理するための新しい確率的サンプリング戦略が得られた。 推論では、単一の入力画像で融合した新しい奥行き図を暗示し、3次元シーン再構成を得る。 室内バンドルフュージョンと屋外セマンティックキティを用いた新しい深度ビューの合成とシーン再構築のベースラインを網羅した実験を行った。 コードはhttps://astra-vision.github.io/scenerfで入手できる。

3D reconstruction from a single 2D image was extensively covered in the literature but relies on depth supervision at training time, which limits its applicability. To relax the dependence to depth we propose SceneRF, a self-supervised monocular scene reconstruction method using only posed image sequences for training. Fueled by the recent progress in neural radiance fields (NeRF) we optimize a radiance field though with explicit depth optimization and a novel probabilistic sampling strategy to efficiently handle large scenes. At inference, a single input image suffices to hallucinate novel depth views which are fused together to obtain 3D scene reconstruction. Thorough experiments demonstrate that we outperform all baselines for novel depth views synthesis and scene reconstruction, on indoor BundleFusion and outdoor SemanticKITTI. Code is available at https://astra-vision.github.io/SceneRF .
翻訳日:2023-08-28 18:00:23 公開日:2023-08-24
# スパース条件付きフローマッチングによる効率的なビデオ予測

Efficient Video Prediction via Sparsely Conditioned Flow Matching ( http://arxiv.org/abs/2211.14575v2 )

ライセンス: Link先を確認
Aram Davtyan, Sepehr Sameni, Paolo Favaro(参考訳) 本稿では,拡散モデルに対する効率的な代替手段である潜時流マッチングに基づく映像予測のための新しい生成モデルを提案する。 従来の作業とは対照的に、画像生成プロセスの各統合ステップにおいて、過去のフレームの小さなランダムなセットだけを条件にすることで、トレーニング中の過去のモデリングやベイでの推論のコストを高く保ちます。 さらに,高解像度ビデオの生成とトレーニングの高速化を目的として,事前学習VQGANの潜時空間で作業を行う。 最後に,従来のノイズフレームを用いた流れodeの初期条件を近似する。 これにより、統合ステップの数を削減し、推論時にサンプリングを高速化できる。 ビデオ予測のためのモデルランダムフレーム条件付きフロー統合、あるいは、要するにriverと呼んでいます。 RIVERは、従来の一般的なビデオ予測ベンチマークよりも、桁違いに少ない計算資源を必要とするが、性能が優れていることを示す。

We introduce a novel generative model for video prediction based on latent flow matching, an efficient alternative to diffusion-based models. In contrast to prior work, we keep the high costs of modeling the past during training and inference at bay by conditioning only on a small random set of past frames at each integration step of the image generation process. Moreover, to enable the generation of high-resolution videos and to speed up the training, we work in the latent space of a pretrained VQGAN. Finally, we propose to approximate the initial condition of the flow ODE with the previous noisy frame. This allows to reduce the number of integration steps and hence, speed up the sampling at inference time. We call our model Random frame conditioned flow Integration for VidEo pRediction, or, in short, RIVER. We show that RIVER achieves superior or on par performance compared to prior work on common video prediction benchmarks, while requiring an order of magnitude fewer computational resources.
翻訳日:2023-08-28 18:00:03 公開日:2023-08-24
# WSSL: イメージインペインティングのための軽量な自己教師型学習フレームワーク

WSSL: Weighted Self-supervised Learning Framework For Image-inpainting ( http://arxiv.org/abs/2211.13856v2 )

ライセンス: Link先を確認
Shubham Gupta, Rahul Kunigal Ravishankar, Madhoolika Gangaraju, Poojasree Dwarkanath and Natarajan Subramanyam(参考訳) 画像の塗装は、画像の失われた部分を再生する過程である。 改良されたアルゴリズムベースの手法は優れた結果を示したが、2つの大きな欠点がある。 見えないデータでテストしても、うまく機能しない。 画像のグローバルなコンテキストをキャプチャできないため、視覚的に見当たらない結果になる。 本稿では,これらの問題に対処するために,新たな自己教師型学習フレームワークであるWeighted Self-Supervised Learning (WSSL)を提案する。 複数の重み付けされたプレテキストタスクから機能を学ぶためにWSSLを設計しました。 これらの機能はダウンストリームタスク、イメージインペインティングに利用されます。 また,このフレームワークの性能を向上し,より視覚的に魅力的な画像を生成するため,画像インパインティングのための新たな損失関数を提案する。 損失関数は、再構成損失と知覚損失関数の両方を利用して画像を再生する。 我々の実験では、WSSLは従来の手法よりも優れており、損失関数はより良い結果をもたらす。

Image inpainting is the process of regenerating lost parts of the image. Supervised algorithm-based methods have shown excellent results but have two significant drawbacks. They do not perform well when tested with unseen data. They fail to capture the global context of the image, resulting in a visually unappealing result. We propose a novel self-supervised learning framework for image-inpainting: Weighted Self-Supervised Learning (WSSL) to tackle these problems. We designed WSSL to learn features from multiple weighted pretext tasks. These features are then utilized for the downstream task, image-inpainting. To improve the performance of our framework and produce more visually appealing images, we also present a novel loss function for image inpainting. The loss function takes advantage of both reconstruction loss and perceptual loss functions to regenerate the image. Our experimentation shows WSSL outperforms previous methods, and our loss function helps produce better results.
翻訳日:2023-08-28 17:59:44 公開日:2023-08-24
# veil: 弱教師付き物体検出のための字幕から抽出された画像ラベル

VEIL: Vetting Extracted Image Labels from In-the-Wild Captions for Weakly-Supervised Object Detection ( http://arxiv.org/abs/2303.09608v2 )

ライセンス: Link先を確認
Arushi Rai, Adriana Kovashka(参考訳) 大規模視覚言語データセットの使用は、ラベルノイズがローカライゼーションに悪影響を及ぼすため、オブジェクト検出に限られる。 従来の手法では、このような大規模なデータセットが事前トレーニングにどのように使用できるかを示しており、ローカライゼーションのための初期信号を提供することができるが、少なくともいくつかのカテゴリにおいて境界データのクリーン化なしには不十分である。 ノイズキャプションから抽出したラベルを"ベット"する手法を提案し,それを弱教師付きオブジェクト検出(WSOD)に利用する。 キャプション中のラベルノイズの種類を分析し,抽出されたラベルが実際に画像に存在するか否かを予測する分類器を訓練する。 分類器はデータセット境界とカテゴリをまたいだ一般化を行う。 分類器を5つのデータセット上で11のベースラインと比較し、PASCAL VOCで評価した場合、ラベルベッティングを30%31.2から40.5mAPにすることなくWSODを改善することができることを示した。

The use of large-scale vision-language datasets is limited for object detection due to the negative impact of label noise on localization. Prior methods have shown how such large-scale datasets can be used for pretraining, which can provide initial signal for localization, but is insufficient without clean bounding-box data for at least some categories. We propose a technique to "vet" labels extracted from noisy captions, and use them for weakly-supervised object detection (WSOD). We conduct analysis of the types of label noise in captions, and train a classifier that predicts if an extracted label is actually present in the image or not. Our classifier generalizes across dataset boundaries and across categories. We compare the classifier to eleven baselines on five datasets, and demonstrate that it can improve WSOD without label vetting by 30% (31.2 to 40.5 mAP when evaluated on PASCAL VOC)
翻訳日:2023-08-28 17:54:07 公開日:2023-08-24
# pdsketch: 計画型ドメインプログラミングと学習の統合

PDSketch: Integrated Planning Domain Programming and Learning ( http://arxiv.org/abs/2303.05501v2 )

ライセンス: Link先を確認
Jiayuan Mao, Tom\'as Lozano-P\'erez, Joshua B. Tenenbaum, Leslie Pack Kaelbling(参考訳) 本稿では,柔軟で汎用的なロボット構築に向けたモデル学習とオンライン計画手法について検討する。 具体的には,基盤となる環境遷移モデルにおける局所性とスパーシティ構造をどのように活用し,モデル一般化,データ効率,ランタイム効率を向上させるかを検討する。 我々は PDSketch という新しいドメイン定義言語を提案する。 ユーザは、tensorflowやpytorchを使って畳み込みニューラルネットワークのカーネルサイズと隠れた寸法を指定するのと同じような方法で、オブジェクトや機能依存といった移行モデルにおいて、柔軟にハイレベルな構造を定義することができる。 移行モデルの詳細は、トレーニング可能なニューラルネットワークによって満たされる。 定義された構造と学習パラメータに基づいて、PDSketchは追加のトレーニングなしでドメインに依存しない計画ヒューリスティックを自動的に生成する。 派生したヒューリスティックは、新しい目標のためのパフォーマンスタイムプランニングを加速する。

This paper studies a model learning and online planning approach towards building flexible and general robots. Specifically, we investigate how to exploit the locality and sparsity structures in the underlying environmental transition model to improve model generalization, data-efficiency, and runtime-efficiency. We present a new domain definition language, named PDSketch. It allows users to flexibly define high-level structures in the transition models, such as object and feature dependencies, in a way similar to how programmers use TensorFlow or PyTorch to specify kernel sizes and hidden dimensions of a convolutional neural network. The details of the transition model will be filled in by trainable neural networks. Based on the defined structures and learned parameters, PDSketch automatically generates domain-independent planning heuristics without additional training. The derived heuristics accelerate the performance-time planning for novel goals.
翻訳日:2023-08-28 17:53:15 公開日:2023-08-24
# ViewRefer: GPTとプロトタイプガイダンスによる3次元視覚グラウンドの多視点知識

ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with GPT and Prototype Guidance ( http://arxiv.org/abs/2303.16894v3 )

ライセンス: Link先を確認
Zoey Guo, Yiwen Tang, Ray Zhang, Dong Wang, Zhigang Wang, Bin Zhao, Xuelong Li(参考訳) マルチビュー入力からの3dシーンの理解は、3dビジュアルグラウンドにおけるビューの不一致を緩和することが証明されている。 しかし、既存の手法は通常、テキストモダリティに埋め込まれたビューキューを無視し、異なるビューの相対的な重要性を測ることに失敗する。 本稿では,テキストと3Dモダリティの両方からビュー知識を把握する方法を探索する3次元視覚基盤のための多視点フレームワークであるViewReferを提案する。 テキストブランチでは、ViewReferはGPTのような大規模言語モデルの多様な言語知識を活用して、単一の基底テキストを複数の幾何学的記述に拡張する。 一方、3次元モードでは、ビュー間でのオブジェクトの相互作用を促進するために、ビュー間の注意を伴うトランスフォーマー融合モジュールが導入された。 さらに,様々な視点からシーン非依存の知識を記憶し,より堅牢なテキスト機能を備えたビューガイド付アテンションモジュールと,最終予測時のビューガイド付スコアリング戦略という2つの視点からフレームワークを強化する,学習可能なマルチビュープロトタイプのセットも提示する。 設計したパラダイムでは、ViewReferは3つのベンチマークで優れたパフォーマンスを達成し、Sr3D、Nr3D、ScanReferでは+2.8%、+1.5%、+1.35%という2番目のベットを上回ります。

Understanding 3D scenes from multi-view inputs has been proven to alleviate the view discrepancy issue in 3D visual grounding. However, existing methods normally neglect the view cues embedded in the text modality and fail to weigh the relative importance of different views. In this paper, we propose ViewRefer, a multi-view framework for 3D visual grounding exploring how to grasp the view knowledge from both text and 3D modalities. For the text branch, ViewRefer leverages the diverse linguistic knowledge of large-scale language models, e.g., GPT, to expand a single grounding text to multiple geometry-consistent descriptions. Meanwhile, in the 3D modality, a transformer fusion module with inter-view attention is introduced to boost the interaction of objects across views. On top of that, we further present a set of learnable multi-view prototypes, which memorize scene-agnostic knowledge for different views, and enhance the framework from two perspectives: a view-guided attention module for more robust text features, and a view-guided scoring strategy during the final prediction. With our designed paradigm, ViewRefer achieves superior performance on three benchmarks and surpasses the second-best by +2.8%, +1.5%, and +1.35% on Sr3D, Nr3D, and ScanRefer.
翻訳日:2023-08-28 17:41:16 公開日:2023-08-24
# 対称性シフトによる量子コンピュータの分子電子ハミルトニアン符号化コストの低減

Reducing the molecular electronic Hamiltonian encoding costs on quantum computers by symmetry shifts ( http://arxiv.org/abs/2304.13772v2 )

ライセンス: Link先を確認
Ignacio Loaiza, Artur F. Izmaylov(参考訳) 量子位相推定(QPE)による分子電子ハミルトニアンのエネルギー推定の計算コストは、ハミルトニアンの最大値と最小値の違いによって増大する。 本研究では、ハミルトニアンのノルムを特定の対称性の標的状態の固有スペクトルを変更することなく減少させる前処理手順を提案する。 新しい手順であるBlock-Invariant Symmetry Shift (BLISS) は作用素 T を構築し、H-T を実装するコストは H のそれと比較すると削減されるが、H-T は H と同じ方法で利子の部分空間に作用する。 BLISS性能は、LCU(Linear Combination of Unitary)に基づく小さな分子の集合上のQPEアプローチに対して実証される。 目標とする状態の集合を示す対称性として電子の数を用いると、BLISSはいくつかのLCU分解に対して非シフトバージョンと比較して2つの1ノルムの減少係数を与えた。

Computational cost of energy estimation for molecular electronic Hamiltonians via Quantum Phase Estimation (QPE) grows with the difference between the largest and smallest eigenvalues of the Hamiltonian. In this work we propose a preprocessing procedure that reduces the norm of the Hamiltonian without changing its eigenspectrum for the target states of a particular symmetry. The new procedure, Block-Invariant Symmetry Shift (BLISS), builds an operator T such that the cost of implementing H-T is reduced compared to that of H, yet H-T acts on the subspaces of interest the same way as H does. BLISS performance is demonstrated for Linear Combination of Unitaries (LCU)-based QPE approaches on a set of small molecules. Using the number of electrons as the symmetry specifying the target set of states, BLISS provided a factor of 2 reduction of 1-norm for several LCU decompositions compared to their unshifted versions.
翻訳日:2023-08-28 17:34:01 公開日:2023-08-24
# 非線形フォトニック結晶を用いたリートロッター積公式で定義されるコヒーレント圧縮様状態の生成

Generation of a coherent squeezed like state defined with the Lie-Trotter product formula using a nonlinear photonic crystal ( http://arxiv.org/abs/2304.11373v2 )

ライセンス: Link先を確認
Hiroo Azuma(参考訳) 本稿では,非線形フォトニック結晶を用いたコヒーレント励起光の発生方法について検討する。 フォトニック結晶は入射光の群速度を減少させるため、二階非線形光感受性$\chi^{(2)}$の材料からなる場合、非線形材料とそれを通過する光との相互作用は強化され、発光光の量子状態は大幅に縮小される。 これにより、非線形フォトニック結晶を配置した共振共振器を備えたコヒーレント励起光を生成することができる。 このコヒーレント圧縮様状態はリートロッター積公式で定義され、その数学的表現は従来のコヒーレント圧縮状態と異なる。 提案手法の物理パラメータを調整することにより,スケズレベル15.9dBのコヒーレント圧縮状態が得られることを示す。 光子の平均個数をビームスプリッタに1個または2個ずつ与え、圧縮光の流れを一対の絡み合った光に分割することにより、その絡み合いを定量的に推定する。 本論文は、H. Azuma, J. Physの続編である。 d:appl。 Phys 55, 315106 (2022).

In this paper, we investigate how to generate coherent squeezed like light using a nonlinear photonic crystal. Because the photonic crystal reduces the group velocity of the incident light, if it is composed of a material with a second-order nonlinear optical susceptibility $\chi^{(2)}$, the interaction between the nonlinear material and the light passing through it strengthens and the quantum state of the emitted light is largely squeezed. Thus, we can generate a coherent squeezed like light with a resonating cavity in which the nonlinear photonic crystal is placed. This coherent squeezed like state is defined with the Lie-Trotter product formula and its mathematical expression is different from those of conventional coherent squeezed states. We show that we can obtain this coherent squeezed like state with a squeezing level 15.9 dB practically by adjusting physical parameters for our proposed method. Feeding the squeezed light whose average number of photons is given by one or two into a beam splitter and splitting the flow of the squeezed light into a pair of entangled light beams, we estimate their entanglement quantitatively. This paper is a sequel to H. Azuma, J. Phys. D: Appl. Phys. 55, 315106 (2022).
翻訳日:2023-08-28 17:33:13 公開日:2023-08-24
# 臨床リスクスコアのパフォーマンスの格差を隠蔽する粗いレースデータ

Coarse race data conceals disparities in clinical risk score performance ( http://arxiv.org/abs/2304.09270v2 )

ライセンス: Link先を確認
Rajiv Movva, Divya Shanmugam, Kaihua Hou, Priya Pathak, John Guttag, Nikhil Garg, Emma Pierson(参考訳) 米国での医療データはしばしば患者の粗い人種のみを記録しており、例えば、インドと中国の両方の患者は一般的に「アジア人」と表記される。 しかし、この粗い符号化が、粒状人種群における臨床リスクスコアのパフォーマンスの有意義な相違を隠蔽するかどうかは不明である。 ここではそれを示します。 418kの救急受診者からのデータを用いて,26群にまたがる臨床リスクスコアのパフォーマンス格差を3つの結果,5つのリスクスコア,4つのパフォーマンス指標で評価した。 結果と指標から,粗いレースグループにおいて,リスクスコアが顕著なパフォーマンス格差を示すことが示された。 実際、粗いグループ内のパフォーマンスのばらつきは、しばしば粗いグループ間のばらつきを *exceeds* する。 これらの相違がなぜ生じるのかを考察し、結果率、特徴分布、特徴と結果の関係が粒度群によって大きく異なることを明らかにする。 以上の結果から, 医療提供者, 病院システム, 機械学習研究者は, 粗い人種データの代わりに粒度の人種データを収集し, リリースし, 使用することに努めるべきである。

Healthcare data in the United States often records only a patient's coarse race group: for example, both Indian and Chinese patients are typically coded as "Asian." It is unknown, however, whether this coarse coding conceals meaningful disparities in the performance of clinical risk scores across granular race groups. Here we show that it does. Using data from 418K emergency department visits, we assess clinical risk score performance disparities across 26 granular groups for three outcomes, five risk scores, and four performance metrics. Across outcomes and metrics, we show that the risk scores exhibit significant granular performance disparities within coarse race groups. In fact, variation in performance within coarse groups often *exceeds* the variation between coarse groups. We explore why these disparities arise, finding that outcome rates, feature distributions, and the relationships between features and outcomes all vary significantly across granular groups. Our results suggest that healthcare providers, hospital systems, and machine learning researchers should strive to collect, release, and use granular race data in place of coarse race data, and that existing analyses may significantly underestimate racial disparities in performance.
翻訳日:2023-08-28 17:32:51 公開日:2023-08-24
# 決定論的目的を持つブラックボックス変分推論:より速く、より正確で、さらにブラックボックス

Black Box Variational Inference with a Deterministic Objective: Faster, More Accurate, and Even More Black Box ( http://arxiv.org/abs/2304.05527v3 )

ライセンス: Link先を確認
Ryan Giordano, Martin Ingram, Tamara Broderick(参考訳) 自動微分変分推論(ADVI)は、複数の現代の確率的プログラミング言語において、高速で使いやすい後部近似を提供する。 しかし、確率最適化器には明確な収束基準がなく、チューニングパラメータが必要である。 さらにadviは平均場変動ベイズ(mfvb)の後方不確かさの少ない推定を継承している。 これらの問題に対処するために, 決定論的ADVI (DADVI) を導入する。 DADVIは、難解なMFVBの目的を固定されたモンテカルロ近似(英語版)に置き換え、これは確率最適化の文献で「サンプル平均近似」(SAA)として知られている技法である。 近似的だが決定論的な目的を最適化することにより、DADVIはオフザシェルフの2階最適化を使用でき、標準平均場ADVIとは異なり、線形応答(LR)を介してより正確な後続共分散を実現できる。 既存の最悪のケース理論とは対照的に、DADVIとSAAは、非常に高次元であっても比較的少数のサンプルでうまく機能するが、そのような好ましい結果は平均場ADVIに比例しすぎる変動近似にまで拡張できないことも示している。 DADVIがデフォルト設定(ADVIとは違って)で適切な解を確実に見つけ出すような現実世界の様々な問題を示し、LR共分散とともに、通常標準のADVIよりも高速で正確である。

Automatic differentiation variational inference (ADVI) offers fast and easy-to-use posterior approximation in multiple modern probabilistic programming languages. However, its stochastic optimizer lacks clear convergence criteria and requires tuning parameters. Moreover, ADVI inherits the poor posterior uncertainty estimates of mean-field variational Bayes (MFVB). We introduce "deterministic ADVI" (DADVI) to address these issues. DADVI replaces the intractable MFVB objective with a fixed Monte Carlo approximation, a technique known in the stochastic optimization literature as the "sample average approximation" (SAA). By optimizing an approximate but deterministic objective, DADVI can use off-the-shelf second-order optimization, and, unlike standard mean-field ADVI, is amenable to more accurate posterior covariances via linear response (LR). In contrast to existing worst-case theory, we show that, on certain classes of common statistical problems, DADVI and the SAA can perform well with relatively few samples even in very high dimensions, though we also show that such favorable results cannot extend to variational approximations that are too expressive relative to mean-field ADVI. We show on a variety of real-world problems that DADVI reliably finds good solutions with default settings (unlike ADVI) and, together with LR covariances, is typically faster and more accurate than standard ADVI.
翻訳日:2023-08-28 17:31:17 公開日:2023-08-24
# 視覚トランスフォーマーを用いた開語彙物体検出のための領域認識事前学習

Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision Transformers ( http://arxiv.org/abs/2305.07011v3 )

ライセンス: Link先を確認
Dahun Kim, Anelia Angelova, Weicheng Kuo(参考訳) 本稿では,画像レベルのプリトレーニングとオープンボキャブラリオブジェクト検出のギャップを埋めるために,画像テキストプリトレーニングレシピであるro-vit(region-aware open-vocabulary vision transformers)を提案する。 プレトレーニング段階では,画像全体の位置埋め込みを使わずに,位置埋め込みの領域をランダムに収穫・再サイズすることを提案する。 これは検出微調整フェーズにおける領域レベルでの位置埋め込みの使用に合致する。 さらに,比較学習におけるソフトマックスクロスエントロピー損失を焦点損失に置き換え,情報的かつ難解な例をよりよく学習する。 最後に、新しいオブジェクト提案の最近の進歩を活用して、オープン語彙検出の微調整を改善する。 LVIS と COCO の開語彙検出ベンチマークとゼロショット転送における全モデルの評価を行った。 RO-ViT は LVIS 上の最先端の 34.1 $AP_r$ を達成し、競合するゼロショット転送検出に加えて、+7.8 ポイントの最良のアプローチを超える。 驚いたことに、RO-ViTは画像レベルの表現も改善し、COCOとFlickrの画像テキスト検索ベンチマーク上の12のメトリクスのうち9のテクニックの状態を達成している。

We present Region-aware Open-vocabulary Vision Transformers (RO-ViT) - a contrastive image-text pretraining recipe to bridge the gap between image-level pretraining and open-vocabulary object detection. At the pretraining phase, we propose to randomly crop and resize regions of positional embeddings instead of using the whole image positional embeddings. This better matches the use of positional embeddings at region-level in the detection finetuning phase. In addition, we replace the common softmax cross entropy loss in contrastive learning with focal loss to better learn the informative yet difficult examples. Finally, we leverage recent advances in novel object proposals to improve open-vocabulary detection finetuning. We evaluate our full model on the LVIS and COCO open-vocabulary detection benchmarks and zero-shot transfer. RO-ViT achieves a state-of-the-art 34.1 $AP_r$ on LVIS, surpassing the best existing approach by +7.8 points in addition to competitive zero-shot transfer detection. Surprisingly, RO-ViT improves the image-level representation as well and achieves the state of the art on 9 out of 12 metrics on COCO and Flickr image-text retrieval benchmarks, outperforming competitive approaches with larger models.
翻訳日:2023-08-28 17:22:36 公開日:2023-08-24
# 埋め込みを用いた科学用ドメイン固有チャットボット

Domain-specific ChatBots for Science using Embeddings ( http://arxiv.org/abs/2306.10067v2 )

ライセンス: Link先を確認
Kevin G. Yager(参考訳) 大規模言語モデル(LLM)は、多数のタスクを処理できる強力な機械学習システムとして登場した。 これらのシステムのチューニングされたバージョンがチャットボットに変換され、さまざまなトピックのユーザクエリに応答し、情報的かつ創造的な応答を提供する。 しかし、これらの分野の知識が不完全なため、科学領域における厳密さやソーシングの必要性とは対照的なため、物理科学研究への応用は依然として限られている。 ここでは,既存の手法とソフトウェアツールを組み合わせることで,ドメイン固有のチャットボットを実現する方法を示す。 このシステムは既存のフォーマットで科学文書を取り込み、テキスト埋め込みルックアップを使用して、応答を構成する際にllmにドメイン固有のコンテキスト情報を提供する。 同様に,既存の画像埋め込み手法が出版物の検索や検索に利用可能であることを実証する。 これらの結果は、LSMは研究の加速にすでに物理科学者が使用するのに適していることを確認した。

Large language models (LLMs) have emerged as powerful machine-learning systems capable of handling a myriad of tasks. Tuned versions of these systems have been turned into chatbots that can respond to user queries on a vast diversity of topics, providing informative and creative replies. However, their application to physical science research remains limited owing to their incomplete knowledge in these areas, contrasted with the needs of rigor and sourcing in science domains. Here, we demonstrate how existing methods and software tools can be easily combined to yield a domain-specific chatbot. The system ingests scientific documents in existing formats, and uses text embedding lookup to provide the LLM with domain-specific contextual information when composing its reply. We similarly demonstrate that existing image embedding methods can be used for search and retrieval across publication figures. These results confirm that LLMs are already suitable for use by physical scientists in accelerating their research efforts.
翻訳日:2023-08-28 17:14:04 公開日:2023-08-24
# 急激な建物被害評価ワークフロー:ミシシッピ州ローリングフォークでの2023年の竜巻イベントの実施

Rapid building damage assessment workflow: An implementation for the 2023 Rolling Fork, Mississippi tornado event ( http://arxiv.org/abs/2306.12589v2 )

ライセンス: Link先を確認
Caleb Robinson, Simone Fobi Nsutezo, Anthony Ortiz, Tina Sederholm, Rahul Dodhia, Cameron Birge, Kasie Richards, Kris Pitcher, Paulo Duarte, Juan M. Lavista Ferres(参考訳) 自然災害後の高解像度衛星画像からの迅速かつ正確な建物損傷評価は,第一応答者への情報提供と最適化に不可欠である。 しかし、災害固有の被害のばらつき、衛星画像の多様性、広範囲なラベル付きデータセットの破壊などによって生じる課題のため、このような建物被害評価を自動で行うことは簡単ではない。 そこで本稿では,災害後の建物被害評価モデルを迅速に訓練するためのヒューマン・イン・ザ・ループ・ワークフローを提案する。 この記事では,2023年3月にミシシッピ州ローリングフォークで行われた竜巻イベントにおいて,アメリカ赤十字社と共同で実施した,このワークフローを用いたケーススタディについて詳述する。 提案手法の精度は0.86, 損傷建物は0.80であった。 このワークフローは、衛星画像のシーン毎に2時間以内でエンドツーエンドに実装され、リアルタイムデプロイメントの可能性を強調した。

Rapid and accurate building damage assessments from high-resolution satellite imagery following a natural disaster is essential to inform and optimize first responder efforts. However, performing such building damage assessments in an automated manner is non-trivial due to the challenges posed by variations in disaster-specific damage, diversity in satellite imagery, and the dearth of extensive, labeled datasets. To circumvent these issues, this paper introduces a human-in-the-loop workflow for rapidly training building damage assessment models after a natural disaster. This article details a case study using this workflow, executed in partnership with the American Red Cross during a tornado event in Rolling Fork, Mississippi in March, 2023. The output from our human-in-the-loop modeling process achieved a precision of 0.86 and recall of 0.80 for damaged buildings when compared to ground truth data collected post-disaster. This workflow was implemented end-to-end in under 2 hours per satellite imagery scene, highlighting its potential for real-time deployment.
翻訳日:2023-08-28 16:59:50 公開日:2023-08-24
# 量子非i.d.源の安定性検証

Stability Verification of Quantum non-i.i.d. sources ( http://arxiv.org/abs/2308.03875v4 )

ライセンス: Link先を確認
Esteban Mart\'inez-Vargas(参考訳) 非i.d.d.の量子源の安定性検証の問題を紹介する。 この問題は、与えられた量子源が安定であるか、常に所望の量子状態を生成するか、偏差に苦しむかを確認することである。 安定性は誤差の空間性に関連する統計的概念である。 この問題は、Pallisterらによって最初に提案された量子検証の問題と密接に関連している。 アル しかし、[1]は元の問題の概念を拡張している。 我々は、マルコフ状態と呼ばれるこれらの非i.d.源に由来する状態の族を紹介する。 これらのソースは、より粗い以前のアプローチではなく、標準からの統計的偏差を許容するので、i.d.ソースよりも汎用性が高い。 定理1では、マルコフ状態が変化源よりもテンソル積でよく説明されていないことが証明される。 定理2では、さらに2つのマルコフ状態の間のトレース距離上の下界、または逆にこれらの状態間の忠実性の上界を提供する。 これは、源の安定性性を決定する能力の束縛であり、源から得られる結果の数である n に関してこれを指数関数的に確認することがより容易であることを示す。

We introduce the problem of stability verification of quantum sources which are non-i.i.d.. The problem consists in ascertaining whether a given quantum source is stable or not, in the sense that it produces always a desired quantum state or if it suffers deviations. Stability is a statistical notion related to the sparsity of errors. This problem is closely related to the problem of quantum verification first proposed by Pallister et. al. [1], however, it extends the notion of the original problem. We introduce a family of states that come from these non-i.i.d. sources which we call a Markov state. These sources are more versatile than the i.i.d. ones as they allow statistical deviations from the norm instead of the more coarse previous approach. We prove in theorem 1 that the Markov states are not well described with tensor products over a changing source. In theorem 2 we further provide a lower bound on the trace distance between two Markov states, or conversely, an upper bound on the fidelity between these states. This is a bound on the capacity of determining the stability property of the source, which shows that it is exponentially easier to ascertain this with respect to n, the number of outcomes from the source.
翻訳日:2023-08-28 16:54:13 公開日:2023-08-24
# セミスーパービジョンオブジェクト検出のためのトレーニングベースモデル再構成と表現分離

Training-based Model Refinement and Representation Disagreement for Semi-Supervised Object Detection ( http://arxiv.org/abs/2307.13755v3 )

ライセンス: Link先を確認
Seyed Mojtaba Marvasti-Zadeh, Nilanjan Ray, Nadir Erbilgin(参考訳) 半教師付きオブジェクト検出(SSOD)は,限られたラベル付きデータと広範囲なラベル付きデータを利用することで,既存のオブジェクト検出の性能と一般化を向上することを目的としている。 多くの進歩にもかかわらず、最近のSSOD法は、古典的指数移動平均(EMA)戦略によるモデル改良の不適切さ、訓練後期の教師・学生モデルのコンセンサス(特色を失うこと)、ノイズ/ミスリードの擬似ラベルによって、いまだに挑戦されている。 本稿では,従来のEMAの限界とコンセンサス問題に対処するための,新しいトレーニングベースモデル改良(TMR)ステージと,シンプルで効果的な表現不一致(RD)戦略を提案する。 Teacher-StudentモデルのTMRステージは、軽量なスケーリング操作を最適化し、モデルの重みを洗練し、学習パターンがラベルなしのデータから過度に適合したり忘れたりするのを防ぐ。 一方、RD戦略はこれらのモデルを分散させ、学生モデルに補完的な表現を探求するよう促すのに役立つ。 提案手法は確立されたSSOD法に統合可能であり,カスケード回帰を伴う2つのベースライン法を用いて実証的に検証し,より信頼性の高い擬似ラベルを生成する。 SSOD法に対する我々のアプローチの優れた性能を示す大規模な実験を行った。 具体的には,COCO標準,COCO付加およびパスカルVOCデータセット上で平均mAPマージン2.23,2.1,3.36(&2.07,1.9,3.27)で,Unbiased-Teacher-v2(&Unbiased-Teacher-v1)法をそれぞれ上回っている。

Semi-supervised object detection (SSOD) aims to improve the performance and generalization of existing object detectors by utilizing limited labeled data and extensive unlabeled data. Despite many advances, recent SSOD methods are still challenged by inadequate model refinement using the classical exponential moving average (EMA) strategy, the consensus of Teacher-Student models in the latter stages of training (i.e., losing their distinctiveness), and noisy/misleading pseudo-labels. This paper proposes a novel training-based model refinement (TMR) stage and a simple yet effective representation disagreement (RD) strategy to address the limitations of classical EMA and the consensus problem. The TMR stage of Teacher-Student models optimizes the lightweight scaling operation to refine the model's weights and prevent overfitting or forgetting learned patterns from unlabeled data. Meanwhile, the RD strategy helps keep these models diverged to encourage the student model to explore complementary representations. Our approach can be integrated into established SSOD methods and is empirically validated using two baseline methods, with and without cascade regression, to generate more reliable pseudo-labels. Extensive experiments demonstrate the superior performance of our approach over state-of-the-art SSOD methods. Specifically, the proposed approach outperforms the baseline Unbiased-Teacher-v2 (& Unbiased-Teacher-v1) method by an average mAP margin of 2.23, 2.1, and 3.36 (& 2.07, 1.9, and 3.27) on COCO-standard, COCO-additional, and Pascal VOC datasets, respectively.
翻訳日:2023-08-28 16:51:41 公開日:2023-08-24
# AI音楽生成ツールとモデルに関する調査

A Survey of AI Music Generation Tools and Models ( http://arxiv.org/abs/2308.12982v1 )

ライセンス: Link先を確認
Yueyue Zhu, Jared Baca, Banafsheh Rekabdar, Reza Rawassizadeh(参考訳) 本研究では,研究プロジェクトと商用アプリケーションの両方を含む,AI音楽生成ツールに関する総合的な調査を行う。 本研究では,音楽生成手法をパラメータベース,テキストベース,視覚ベースの3つのカテゴリに分類した。 調査では,レギュラーリスナーからプロのミュージシャンまで,多岐にわたるユーザを対象として,これらのツールの多様な可能性と機能について紹介した。 それぞれのツールに独自のメリットと制限があることに気付きました。 その結果、ツール選択プロセス中に考慮すべきこれらの要素の包括的なリストをまとめました。 さらに、我々の調査は、AI音楽生成の基盤となるメカニズムと課題に関する重要な洞察を提供する。

In this work, we provide a comprehensive survey of AI music generation tools, including both research projects and commercialized applications. To conduct our analysis, we classified music generation approaches into three categories: parameter-based, text-based, and visual-based classes. Our survey highlights the diverse possibilities and functional features of these tools, which cater to a wide range of users, from regular listeners to professional musicians. We observed that each tool has its own set of advantages and limitations. As a result, we have compiled a comprehensive list of these factors that should be considered during the tool selection process. Moreover, our survey offers critical insights into the underlying mechanisms and challenges of AI music generation.
翻訳日:2023-08-28 16:34:42 公開日:2023-08-24
# 著者表現学習はスティリスティックな特徴を捉えることができるか?

Can Authorship Representation Learning Capture Stylistic Features? ( http://arxiv.org/abs/2308.11490v2 )

ライセンス: Link先を確認
Andrew Wang, Cristina Aggazzotti, Rebecca Kotula, Rafael Rivera Soto, Marcus Bishop, Nicholas Andrews(参考訳) 著者のスタイルを執筆内容から自動的に切り離すことは、計算言語学において長く、おそらくは不可能な問題である。 同時に、著者のラベルを付けた大きなテキストコーポラが利用可能になり、著者の帰属のために純粋にデータ駆動の方法で著者の表現を学習できるようになった。 しかし、このサロゲートタスクの成功は、著者がトピックのような他の潜在変数と関連付けられるので、そのような表現が書き込みスタイルをキャプチャすることを保証するものではない。 これらの表現が伝達する情報の性質をよりよく理解し、特に筆記スタイルを主にエンコードする仮説を検証するために、我々は一連の標的実験を通じてこれらの表現を体系的に調査する。 これらの実験の結果,サロゲートオーサシップ予測タスクで学んだ表現は書体に敏感であることが示唆された。 その結果、著者シップ表現は、トピックドリフトのような特定の種類のデータシフトに対して堅牢であることが期待できる。 さらに,スタイル転送のようなスタイル表現を必要とする下流アプリケーションへの扉を開く可能性も示唆した。

Automatically disentangling an author's style from the content of their writing is a longstanding and possibly insurmountable problem in computational linguistics. At the same time, the availability of large text corpora furnished with author labels has recently enabled learning authorship representations in a purely data-driven manner for authorship attribution, a task that ostensibly depends to a greater extent on encoding writing style than encoding content. However, success on this surrogate task does not ensure that such representations capture writing style since authorship could also be correlated with other latent variables, such as topic. In an effort to better understand the nature of the information these representations convey, and specifically to validate the hypothesis that they chiefly encode writing style, we systematically probe these representations through a series of targeted experiments. The results of these experiments suggest that representations learned for the surrogate authorship prediction task are indeed sensitive to writing style. As a consequence, authorship representations may be expected to be robust to certain kinds of data shift, such as topic drift over time. Additionally, our findings may open the door to downstream applications that require stylistic representations, such as style transfer.
翻訳日:2023-08-28 16:32:25 公開日:2023-08-24
# LibreFace: 深層表情解析のためのオープンソースツールキット

LibreFace: An Open-Source Toolkit for Deep Facial Expression Analysis ( http://arxiv.org/abs/2308.10713v2 )

ライセンス: Link先を確認
Di Chang, Yufeng Yin, Zongjian Li, Minh Tran, Mohammad Soleymani(参考訳) 表情解析は人間とコンピュータの相互作用にとって重要なツールである。 本稿では,表情解析のためのオープンソースのツールキットLibreFaceを紹介する。 このオープンソースのツールボックスは、顔認識ユニット(AU)検出、AU強度推定、表情認識など、ディープラーニングモデルによる顔の動作のリアルタイムおよびオフライン分析を提供する。 これを実現するために, 大規模事前学習ネットワークの利用, 機能的知識蒸留, タスク固有の微調整など, 様々な手法を応用した。 これらの手法は,視覚情報を利用して表情を効果的かつ正確に分析し,リアルタイム対話型アプリケーションの実装を容易にする。 動作単位(au)の強度推定では、openface 2.0の性能よりも7%高いdisfa上のパーソン相関係数(pcc) 0.63 を達成し、openface 2.0よりも2倍高速に動作する高い効率の推論を維持した。 コンパクトであるにもかかわらず,AffecNet,FFHQ,RAF-DB上での最先端の表情解析手法と競合する性能を示す。 私たちのコードはhttps://github.com/ihp-lab/LibreFaceでリリースされます。

Facial expression analysis is an important tool for human-computer interaction. In this paper, we introduce LibreFace, an open-source toolkit for facial expression analysis. This open-source toolbox offers real-time and offline analysis of facial behavior through deep learning models, including facial action unit (AU) detection, AU intensity estimation, and facial expression recognition. To accomplish this, we employ several techniques, including the utilization of a large-scale pre-trained network, feature-wise knowledge distillation, and task-specific fine-tuning. These approaches are designed to effectively and accurately analyze facial expressions by leveraging visual information, thereby facilitating the implementation of real-time interactive applications. In terms of Action Unit (AU) intensity estimation, we achieve a Pearson Correlation Coefficient (PCC) of 0.63 on DISFA, which is 7% higher than the performance of OpenFace 2.0 while maintaining highly-efficient inference that runs two times faster than OpenFace 2.0. Despite being compact, our model also demonstrates competitive performance to state-of-the-art facial expression analysis methods on AffecNet, FFHQ, and RAF-DB. Our code will be released at https://github.com/ihp-lab/LibreFace
翻訳日:2023-08-28 16:31:47 公開日:2023-08-24
# 機械学習による希薄データセットからの瞬き量子エミッタの効率的なキャラクタリゼーション

Efficient characterization of blinking quantum emitters from scarce data sets via machine learning ( http://arxiv.org/abs/2308.13027v1 )

ライセンス: Link先を確認
G. Landry and C. Bradac(参考訳) シングルフォトンエミッターは量子技術の核となる構成要素であり、量子コンピューティングや通信からメトロロジーやセンシングまで、確立され、発展しつつある。 その性質にかかわらず、量子エミッタは、蛍光間欠性または光点滅を普遍的に表示する: 環境との相互作用により、エミッタは、それぞれ高次および低次光電子放出事象と相関するオン状態とオフ状態の間を量子ジャンプする。 光リンクのメカニズムとダイナミクスの理解と定量化は、基本的な理由と実践上の理由の両方において重要である。 しかしながら、瞬き時間トレースの分析は、しばしばデータの不足によって苦しめられる。 点滅エミッターは、従来の統計方法では撮影できないほど短すぎる時間スケールで蛍光を吸収しなくなる。 本稿では,この問題を直接解決する機械学習に基づく2つのアプローチを示す。 統計的推論に基づく従来の手法に比べて, データの10倍, データの20倍の精度で, スイッチングレートを85%精度で抽出できる多機能回帰アルゴリズムと遺伝的アルゴリズムを提案する。 我々のアルゴリズムは, 測定可能な点滅システムの範囲を効果的に拡張し, トラッピングダイナミクスを探索するには短すぎると考えられるものに拡張する。 したがって、光架橋の物理的メカニズムをよりよく理解するための強力なツールであり、この現象を緩和または活用する量子エミッターに基づく応用に実用的な利点がある。

Single photon emitters are core building blocks of quantum technologies, with established and emerging applications ranging from quantum computing and communication to metrology and sensing. Regardless of their nature, quantum emitters universally display fluorescence intermittency or photoblinking: interaction with the environment can cause the emitters to undergo quantum jumps between on and off states that correlate with higher and lower photoemission events, respectively. Understanding and quantifying the mechanism and dynamics of photoblinking is important for both fundamental and practical reasons. However, the analysis of blinking time traces is often afflicted by data scarcity. Blinking emitters can photo-bleach and cease to fluoresce over time scales that are too short for their photodynamics to be captured by traditional statistical methods. Here, we demonstrate two approaches based on machine learning that directly address this problem. We present a multi-feature regression algorithm and a genetic algorithm that allow for the extraction of blinking on/off switching rates with >85% accuracy, and with >10x less data and >20x higher precision than traditional methods based on statistical inference. Our algorithms effectively extend the range of surveyable blinking systems and trapping dynamics to those that would otherwise be considered too short-lived to be investigated. They are therefore a powerful tool to help gain a better understanding of the physical mechanism of photoblinking, with practical benefits for applications based on quantum emitters that rely on either mitigating or harnessing the phenomenon.
翻訳日:2023-08-28 16:23:32 公開日:2023-08-24
# Pseudo-Choi States のシャドウトモグラフィーによるハミルトン学習

Hamiltonian Learning via Shadow Tomography of Pseudo-Choi States ( http://arxiv.org/abs/2308.13020v1 )

ライセンス: Link先を確認
Juan Castaneda and Nathan Wiebe(参考訳) 我々は、choi-jamiolkowski同型に類似した手順を用いて、状態におけるハミルトニアンを符号化する疑似choi状態と呼ばれる資源を通してハミルトニアンを学ぶ新しいアプローチを導入する。 我々は、これらの擬Choi状態を生成するための効率的な方法として、$e^{-iHt}$とその逆の形の時間的進化を問合せ、M$の項を持つハミルトニアンに対して、$\widetilde{O}\left(\frac{M}{t^2\epsilon^2}\right)$$$t \le \frac{1}{2\left\lVert H \right\rVert}$を使用する2$-normの古典的なシャドウトモグラフィーにより、ハミルトン係数を推定できることを示す。 さらに、古典的なシャドウトモグラフィーを駆使して、このコスト(より多くのキュービットの価格で)を$\widetilde{O}\left(\frac{M}{t\epsilon}\right)$に削減する量子平均推定を推奨する別のアプローチを示す。 さらに、状態準備プロトコルにアクセスできない場合には、$\widetilde{O}\left(\frac{\alpha^4M}{\epsilon^2}\right)$の擬似Choi状態のコピーを使って、ハミルトニアンが学習可能であることを示す。 定数 $\alpha$ はハミルトニアンのノルムに依存し、$\alpha$ のスケーリングは正規化されたハミルトニアンの擬似チョイ状態を用いることで二次的に改善することができる。 最後に,我々の学習プロセスは,資源状態のエラーやハミルトニアンクラスのエラーに対して頑健であることを示す。 具体的には、真のハミルトニアンが再構成の中に存在すると信じているより多くの項を含むとすると、我々の手法は、同定されていないハミルトン項が存在し、まだハミルトニアンで知られている用語を正確に見積もっていることを示す。

We introduce a new approach to learn Hamiltonians through a resource that we call the pseudo-Choi state, which encodes the Hamiltonian in a state using a procedure that is analogous to the Choi-Jamiolkowski isomorphism. We provide an efficient method for generating these pseudo-Choi states by querying a time evolution unitary of the form $e^{-iHt}$ and its inverse, and show that for a Hamiltonian with $M$ terms the Hamiltonian coefficients can be estimated via classical shadow tomography within error $\epsilon$ in the $2$-norm using $\widetilde{O}\left(\frac{M}{t^2\epsilon^2}\right)$ queries to the state preparation protocol, where $t \le \frac{1}{2\left\lVert H \right\rVert}$. We further show an alternative approach that eschews classical shadow tomography in favor of quantum mean estimation that reduces this cost (at the price of many more qubits) to $\widetilde{O}\left(\frac{M}{t\epsilon}\right)$. Additionally, we show that in the case where one does not have access to the state preparation protocol, the Hamiltonian can be learned using $\widetilde{O}\left(\frac{\alpha^4M}{\epsilon^2}\right)$ copies of the pseudo-Choi state. The constant $\alpha$ depends on the norm of the Hamiltonian, and the scaling in terms of $\alpha$ can be improved quadratically if using pseudo-Choi states of the normalized Hamiltonian. Finally, we show that our learning process is robust to errors in the resource states and to errors in the Hamiltonian class. Specifically, we show that if the true Hamiltonian contains more terms than we believe are present in the reconstruction, then our methods give an indication that there are Hamiltonian terms that have not been identified and will still accurately estimate the known terms in the Hamiltonian.
翻訳日:2023-08-28 16:23:08 公開日:2023-08-24
# Mumsnet上でのワクチン接種に関する議論の構造と感性追跡

Tracking the Structure and Sentiment of Vaccination Discussions on Mumsnet ( http://arxiv.org/abs/2308.13014v1 )

ライセンス: Link先を確認
Miguel E. P. Silva, Rigina Skeva, Thomas House, Caroline Jay(参考訳) 世界保健機関(who)は、予防接種運動を2019年に世界保健機関(who)による世界保健機関(who)への脅威のトップ10の1つに挙げた。 新型コロナウイルス(COVID-19)のパンデミックでは、予防接種が順守されているにもかかわらず、特定のコミュニティは依然として高い拒絶率を示した。 オンラインソーシャルメディアは、予防接種に関する議論の場として特定されている。 本研究では,イギリス在住の親を対象にしたウェブサイトであるMumsnetのディスカッションフォーラムにおいて,ワクチン接種に関する議論を行う。 予防接種に関する議論を社会的相互作用のネットワークとして表現することにより、ネットワーク分析の手法を用いてこれらの議論、すなわちネットワーク比較を特徴付けることができる。 グラフレットに基づくネットワーク比較(小さなネットワークサブグラフ)を用いて、Mumsnetのトポロジカルな構造ワクチンに関する議論が、特に新型コロナウイルスの前後でどのように異なるかを示す。 また,議論の内容に対する感情分析を行い,予防接種に対する感情が時間とともにどのように変化するかを示す。 本研究は,ネットワーク構造の違いと感情変化との関連を強調し,ネットワーク比較を感情分析から結論を導き,強化するためのツールとして利用できることを示す。

Vaccination is one of the most impactful healthcare interventions in terms of lives saved at a given cost, leading the anti-vaccination movement to be identified as one of the top 10 threats to global health in 2019 by the World Health Organization. This issue increased in importance during the COVID-19 pandemic where, despite good overall adherence to vaccination, specific communities still showed high rates of refusal. Online social media has been identified as a breeding ground for anti-vaccination discussions. In this work, we study how vaccination discussions are conducted in the discussion forum of Mumsnet, a United Kingdom based website aimed at parents. By representing vaccination discussions as networks of social interactions, we can apply techniques from network analysis to characterize these discussions, namely network comparison, a task aimed at quantifying similarities and differences between networks. Using network comparison based on graphlets -- small connected network subgraphs -- we show how the topological structure vaccination discussions on Mumsnet differs over time, in particular before and after COVID-19. We also perform sentiment analysis on the content of the discussions and show how the sentiment towards vaccinations changes over time. Our results highlight an association between differences in network structure and changes to sentiment, demonstrating how network comparison can be used as a tool to guide and enhance the conclusions from sentiment analysis.
翻訳日:2023-08-28 16:22:13 公開日:2023-08-24
# 極値理論を用いた強化学習における極リスク軽減

Extreme Risk Mitigation in Reinforcement Learning using Extreme Value Theory ( http://arxiv.org/abs/2308.13011v1 )

ライセンス: Link先を確認
Karthik Somayaji NS, Yu Wang, Malachi Schram, Jan Drgona, Mahantesh Halappanavar, Frank Liu, Peng Li(参考訳) リスク感応性強化学習(RL)は、現実のシナリオにRLエージェントを配置することへの関心が高まり、近年大きな注目を集めている。 リスク認識の重要な側面は、破滅的な結果をもたらす可能性のある非常に稀なリスクイベント(リワード)をモデル化することである。 このような頻繁な発生は、このようなリスクの高いイベントを正確に捉えようとするデータ駆動型メソッドにとって大きな課題となる。 リスクを意識したRL手法は存在するが、リスク回避のレベルはこれらの稀な事象をモデル化する際の状態-作用値関数推定の精度に大きく依存している。 本研究は, 状態-作用値関数分布によって予測される極端値の予測を洗練することに着目し, 非常に稀でリスクの高い事象に直面すると, rlエージェントの弾力性を高めることを目的とする。 これを実現するために、パラメータ化分布として状態-作用値関数分布の極端な値を定式化し、極値理論(EVT)の原理から着想を得た。 本手法は, EVTに基づくパラメータ化を利用して, 発生頻度の低い問題に効果的に対処する。 重要なことは、他のリスク-逆アルゴリズムとは対照的に、これらのパラメータ化分布を用いる利点を理論的に示すことである。 提案手法は,異なるリスクシナリオを含む様々なベンチマークタスクにおいて,他のリスク逆RLアルゴリズムよりも優れていることを示す。

Risk-sensitive reinforcement learning (RL) has garnered significant attention in recent years due to the growing interest in deploying RL agents in real-world scenarios. A critical aspect of risk awareness involves modeling highly rare risk events (rewards) that could potentially lead to catastrophic outcomes. These infrequent occurrences present a formidable challenge for data-driven methods aiming to capture such risky events accurately. While risk-aware RL techniques do exist, their level of risk aversion heavily relies on the precision of the state-action value function estimation when modeling these rare occurrences. Our work proposes to enhance the resilience of RL agents when faced with very rare and risky events by focusing on refining the predictions of the extreme values predicted by the state-action value function distribution. To achieve this, we formulate the extreme values of the state-action value function distribution as parameterized distributions, drawing inspiration from the principles of extreme value theory (EVT). This approach effectively addresses the issue of infrequent occurrence by leveraging EVT-based parameterization. Importantly, we theoretically demonstrate the advantages of employing these parameterized distributions in contrast to other risk-averse algorithms. Our evaluations show that the proposed method outperforms other risk averse RL algorithms on a diverse range of benchmark tasks, each encompassing distinct risk scenarios.
翻訳日:2023-08-28 16:21:48 公開日:2023-08-24
# アンタングル表現を用いた一般化可能なゼロショット話者適応音声合成

Generalizable Zero-Shot Speaker Adaptive Speech Synthesis with Disentangled Representations ( http://arxiv.org/abs/2308.13007v1 )

ライセンス: Link先を確認
Wenbin Wang, Yang Song, Sanjay Jha(参考訳) 音声合成のほとんどの研究は、データベース内話者のための高品質な音声の合成に焦点が当てられているが、同様に必要だが未解決の問題は、限られた参照データ、すなわち話者適応音声合成でデータセット外である話者に対する音声の合成である。 多くの研究が、この課題を対象としたゼロショット話者適応テキスト対音声変換アプローチを提案している。 しかし、現在のアプローチのほとんどが、分布外データにおけるモデルの一般性が悪いため、未熟な話者(すなわち、訓練データセットにない話者)の音声合成において、自然性や話者の類似性の低下に苦しんでいる。 この問題に対処するために,一般化可能なゼロショット話者適応音声変換モデルであるGZS-TVを提案する。 gzs-tvは、モデル一般化を改善するために話者埋め込み抽出と音色変換の両方に乱れ表現学習を導入し、変分オートエンコーダの表現学習能力を活用して話者エンコーダを強化する。 実験により,gzs-tvは未認識話者の性能低下を低減し,複数のデータセットにおいて,すべてのベースラインモデルを上回ることを示した。

While most research into speech synthesis has focused on synthesizing high-quality speech for in-dataset speakers, an equally essential yet unsolved problem is synthesizing speech for unseen speakers who are out-of-dataset with limited reference data, i.e., speaker adaptive speech synthesis. Many studies have proposed zero-shot speaker adaptive text-to-speech and voice conversion approaches aimed at this task. However, most current approaches suffer from the degradation of naturalness and speaker similarity when synthesizing speech for unseen speakers (i.e., speakers not in the training dataset) due to the poor generalizability of the model in out-of-distribution data. To address this problem, we propose GZS-TV, a generalizable zero-shot speaker adaptive text-to-speech and voice conversion model. GZS-TV introduces disentangled representation learning for both speaker embedding extraction and timbre transformation to improve model generalization and leverages the representation learning capability of the variational autoencoder to enhance the speaker encoder. Our experiments demonstrate that GZS-TV reduces performance degradation on unseen speakers and outperforms all baseline models in multiple datasets.
翻訳日:2023-08-28 16:21:29 公開日:2023-08-24
# 流れ方程式を用いた長時間量子力学の解法

Unraveling long-time quantum dynamics using flow equations ( http://arxiv.org/abs/2308.13005v1 )

ライセンス: Link先を確認
S. J. Thomson and J. Eisert(参考訳) 強相関系における多体量子力学の研究は極めて困難である。 これまでに2次元量子システムの非平衡ダイナミクスをシミュレーションできる数値解法がいくつか存在し、その一部が複雑性理論の障害を反映している。 本研究では,連続一元流法と新たに開発されたスクランブル変換法を組み合わせることで,この障害を克服できる新しい手法を提案する。 我々は、ハミルトニアンをほぼ対角化するという偏見を克服し、比較的長い間信頼できる予測を導き出せない。 逆に, 局所化相と非局所化相の両方で良好に動作し, 無限温度自己相関関数を含む数量の信頼性の高い予測を行うことを示した。 我々は,停止誤差の厳密な漸進的境界により,この知見を補完する。 このアプローチは、実際には、中間スケールの時間進化の探索は、一般的に想定される、短期的な量子シミュレータよりも実現可能であることを示している。

The study of many-body quantum dynamics in strongly-correlated systems is extremely challenging. To date few numerical methods exist which are capable of simulating the non-equilibrium dynamics of two-dimensional quantum systems, in part reflecting complexity theoretic obstructions. In this work, we present a new technique able to overcome this obstacle, by combining continuous unitary flow techniques with the newly developed method of scrambling transforms. We overcome the prejudice that approximately diagonalizing the Hamiltonian cannot lead to reliable predictions for relatively long times. To the contrary, we show that the method works well in both localized and delocalized phases, and makes reliable predictions for a number of quantities including infinite-temperature autocorrelation functions. We complement our findings with rigorous incremental bounds on the truncation error. This approach shows that in practice, the exploration of intermediate-scale time evolution may be more feasible than is commonly assumed, challenging near-term quantum simulators.
翻訳日:2023-08-28 16:21:05 公開日:2023-08-24
# 360度ビデオサリエンシー予測のための球面視覚トランスフォーマ

Spherical Vision Transformer for 360-degree Video Saliency Prediction ( http://arxiv.org/abs/2308.13004v1 )

ライセンス: Link先を確認
Mert Cokelek, Nevrez Imamoglu, Cagri Ozcinar, Erkut Erdem, Aykut Erdem(参考訳) 全視野(FOV)を捉えた全方向ビデオ(ODV)への関心が高まり、コンピュータビジョンにおいて360度の精度予測の重要性が高まっている。 しかし、人間の視界を360度で予測することは、球面の歪み、高解像度、ラベル付きデータの制限など、ユニークな課題をもたらす。 タンジェント画像表現を利用した全方位ビデオのための新しい視覚変換器モデルSalViT360を提案する。 本稿では,全方位映像を効果的に理解できる球面形状認識型時空間自己着機構を提案する。 さらに,逆射影後の予測におけるアーティファクトを削減するために,投影に基づく360度高密度予測モデルに対する一貫性に基づく教師なし正規化項を提案する。 提案手法は,全方位サリエンシー予測に接する画像を用いた最初の手法であり,odvサリエンシーデータセットを用いた実験により,その効果を示す。

The growing interest in omnidirectional videos (ODVs) that capture the full field-of-view (FOV) has gained 360-degree saliency prediction importance in computer vision. However, predicting where humans look in 360-degree scenes presents unique challenges, including spherical distortion, high resolution, and limited labelled data. We propose a novel vision-transformer-based model for omnidirectional videos named SalViT360 that leverages tangent image representations. We introduce a spherical geometry-aware spatiotemporal self-attention mechanism that is capable of effective omnidirectional video understanding. Furthermore, we present a consistency-based unsupervised regularization term for projection-based 360-degree dense-prediction models to reduce artefacts in the predictions that occur after inverse projection. Our approach is the first to employ tangent images for omnidirectional saliency prediction, and our experimental results on three ODV saliency datasets demonstrate its effectiveness compared to the state-of-the-art.
翻訳日:2023-08-28 16:20:49 公開日:2023-08-24
# 重力の重力検出と量子化

Graviton detection and the quantization of gravity ( http://arxiv.org/abs/2308.12988v1 )

ライセンス: Link先を確認
Daniel Carney, Valerie Domcke, Nicholas L. Rodd(参考訳) 我々はダイソンが質問した質問を再考する:「グラビトンは検出可能か? ダイソンの元々の感覚と、より現代的な測定理論的な感覚の両方において、単一の重力子に敏感な検出器を構築することが可能であり、実際に様々な既存および近距離の重力波検出器がこれを達成できることを実証する。 しかし、そのような信号は重力場の量子化と一致しているが、量子光学による結果に基づいて、同じ信号が古典的な重力波を通してどのように説明できるかを示す。 重力放射の定量化を実証するために必要となる測定方法の概要と、重力波のクリック数や干渉計での重力ノイズの観測を単純に数えることよりも、なぜかなり難しいのかを説明する。

We revisit a question asked by Dyson: "Is a graviton detectable?" We demonstrate that in both Dyson's original sense and in a more modern measurement-theoretic sense, it is possible to construct a detector sensitive to single gravitons, and in fact a variety of existing and near-term gravitational wave detectors can achieve this. However, while such a signal would be consistent with the quantization of the gravitational field, we draw on results from quantum optics to show how the same signal could just as well be explained via classical gravitational waves. We outline the kind of measurements that would be needed to demonstrate quantization of gravitational radiation and explain why these are substantially more difficult than simply counting graviton clicks or observing gravitational noise in an interferometer, and likely impossible to perform in practice.
翻訳日:2023-08-28 16:20:15 公開日:2023-08-24
# 不均一なコルドン信号挙動を用いた周辺制御:半モデル依存強化学習アプローチ

Perimeter Control with Heterogeneous Cordon Signal Behaviors: A Semi-Model Dependent Reinforcement Learning Approach ( http://arxiv.org/abs/2308.12985v1 )

ライセンス: Link先を確認
Jiajie Yu, Pierre-Antoine Laharotte, Yu Han, Ludovic Leclercq(参考訳) 保護ネットワーク(pn)の移動流を監視することにより,過飽和状況における都市道路網の制御に対処すべく周辺制御(pc)戦略が提案されている。 コードン信号の均一な測定速度は、交差点レベルでの局所的な交通状態の多様性を無視しており、深刻な局所的な交通渋滞を引き起こし、ネットワークの安定性を損なう可能性がある。 本稿では,マルチエージェント強化学習(marl, semi-model dependent multi-agent reinforcement learning)フレームワークを提案する。 提案手法は,MARLに基づく信号制御手法と集中フィードバックPCポリシを統合し,PNのコードン信号に適用する。 2段階のシステムとして動作し、フィードバックPC戦略によりPN内の全体のトラフィック状態を検出し、MARLフレームワーク内のエージェントによって制御されるコードン信号にローカル命令を分散する。 それぞれのコードン信号は独立して動作し、pn用のslackと分散pcを生成する。 モデルフリーとモデルベースの組み合わせは、rl訓練プロセスから学習したローカル信号制御ポリシーの完全性に違反することなく、pcフィードバック報酬でローカルエージェントのアクション値関数を再構成することで達成される。 微視的交通環境における需要パターンの異なる数値実験を通して,提案するpc戦略 (a)は堅牢性、スケーラビリティ、転送性を示す。 b) ネットワークスループットの向上, コードンキューの削減, 二酸化炭素排出量の削減など, 最先端のモデルベースPC戦略よりも優れていた。

Perimeter Control (PC) strategies have been proposed to address urban road network control in oversaturated situations by monitoring transfer flows of the Protected Network (PN). The uniform metering rate for cordon signals in existing studies ignores the variety of local traffic states at the intersection level, which may cause severe local traffic congestion and ruin the network stability. This paper introduces a semi-model dependent Multi-Agent Reinforcement Learning (MARL) framework to conduct PC with heterogeneous cordon signal behaviors. The proposed strategy integrates the MARL-based signal control method with centralized feedback PC policy and is applied to cordon signals of the PN. It operates as a two-stage system, with the feedback PC strategy detecting the overall traffic state within the PN and then distributing local instructions to cordon signals controlled by agents in the MARL framework. Each cordon signal acts independently and differently, creating a slack and distributed PC for the PN. The combination of the model-free and model-based methods is achieved by reconstructing the action-value function of the local agents with PC feedback reward without violating the integrity of the local signal control policy learned from the RL training process. Through numerical tests with different demand patterns in a microscopic traffic environment, the proposed PC strategy (a) is shown robustness, scalability, and transferability, (b) outperforms state-of-the-art model-based PC strategies in increasing network throughput, reducing cordon queue and carbon emission.
翻訳日:2023-08-28 16:19:59 公開日:2023-08-24
# 言語と方言間の血縁関係の語彙的多様性

Lexical Diversity in Kinship Across Languages and Dialects ( http://arxiv.org/abs/2308.13056v1 )

ライセンス: Link先を確認
Hadi Khalilia, G\'abor Bella, Abed Alhakim Freihat, Shandy Darma, Fausto Giunchiglia(参考訳) 言語は様々な方法で世界を記述することが知られている。 語彙全体にわたって多様性は広がり、語彙的ギャップや非翻訳性のような現象を通して現れる。 しかし、多言語語彙データベースのような計算資源では、多様性はほとんど表現されない。 本稿では,言語多様性に関する内容の計算レキシコンを充実させる手法を提案する。 1つのケーススタディは7つのアラビア語方言を扱っており、もう1つのケーススタディは3つのインドネシア語を扱っている。 本研究は, 閲覧可能かつダウンロード可能な計算資源として提供され, キンシップ用語に関する先行言語研究を拡張し, 言語的および文化的に密接なコミュニティにおいても多様性の範囲に関する洞察を提供する。

Languages are known to describe the world in diverse ways. Across lexicons, diversity is pervasive, appearing through phenomena such as lexical gaps and untranslatability. However, in computational resources, such as multilingual lexical databases, diversity is hardly ever represented. In this paper, we introduce a method to enrich computational lexicons with content relating to linguistic diversity. The method is verified through two large-scale case studies on kinship terminology, a domain known to be diverse across languages and cultures: one case study deals with seven Arabic dialects, while the other one with three Indonesian languages. Our results, made available as browseable and downloadable computational resources, extend prior linguistics research on kinship terminology, and provide insight into the extent of diversity even within linguistically and culturally close communities.
翻訳日:2023-08-28 16:03:21 公開日:2023-08-24
# リコメンデーションシステムのためのマルチBERT

Multi-BERT for Embeddings for Recommendation System ( http://arxiv.org/abs/2308.13050v1 )

ライセンス: Link先を確認
Shashidhar Reddy Javaji, Krutika Sarode(参考訳) 本稿では,SBERT(Sentence-BERT)とRoBERTa(最先端の自然言語処理モデル)を組み合わせた文書埋め込み手法を提案する。 本手法では,文をトークンとして扱い,それらの埋め込みを生成し,文書内の文内関係と文間関係の両方をキャプチャする。 書籍推薦タスクにおいて本モデルを評価し,よりセマンティックにリッチで正確な文書埋め込みを生成する上での有効性を実証する。 提案手法の性能を評価するため,Goodreadsデータセットを用いた書籍推薦タスクの実験を行った。 我々は,Multi-BERTモデルを用いた文書埋め込みとSBERTのみを用いた文書埋め込みを比較した。 評価基準として精度を用いて, 生成した埋め込みの品質を比較した。 以上の結果から,本モデルは生成した埋め込みの品質においてSBERTより一貫して優れていた。 さらに,本モデルでは,文書内のより微妙な意味関係を捉えることができ,より正確なレコメンデーションが得られた。 全体として,提案手法の有効性を実証し,レコメンデーションシステムの性能向上に有望な方向性であることを示唆する。

In this paper, we propose a novel approach for generating document embeddings using a combination of Sentence-BERT (SBERT) and RoBERTa, two state-of-the-art natural language processing models. Our approach treats sentences as tokens and generates embeddings for them, allowing the model to capture both intra-sentence and inter-sentence relations within a document. We evaluate our model on a book recommendation task and demonstrate its effectiveness in generating more semantically rich and accurate document embeddings. To assess the performance of our approach, we conducted experiments on a book recommendation task using the Goodreads dataset. We compared the document embeddings generated using our MULTI-BERT model to those generated using SBERT alone. We used precision as our evaluation metric to compare the quality of the generated embeddings. Our results showed that our model consistently outperformed SBERT in terms of the quality of the generated embeddings. Furthermore, we found that our model was able to capture more nuanced semantic relations within documents, leading to more accurate recommendations. Overall, our results demonstrate the effectiveness of our approach and suggest that it is a promising direction for improving the performance of recommendation systems
翻訳日:2023-08-28 16:03:08 公開日:2023-08-24
# ベイジアン探査網

Bayesian Exploration Networks ( http://arxiv.org/abs/2308.13049v1 )

ライセンス: Link先を確認
Mattie Fellows, Brandon Kaplowitz, Christian Schroeder de Witt and Shimon Whiteson(参考訳) ベイズ強化学習(RL)は、不確実性の下でのシーケンシャルな意思決定に原則的でエレガントなアプローチを提供する。 特に、ベイズエージェントは、頻繁な方法の主要な病理である探索/探索ジレンマに直面しない。 ベイズ RL の鍵となる課題は、おもちゃの領域でしか扱えないベイズ最適化ポリシーを学習する計算複雑性である。 本稿では,この課題に対処する新しいモデルフリーアプローチを提案する。 高次元状態遷移分布における不確かさをモデルベースアプローチのようにモデル化するのではなく、一次元ベルマン作用素における不確かさをモデル化する。 理論的分析により,既存のモデルフリーアプローチは,mdpを通じて認識論的不確実性が伝播しないか,あるいはすべての履歴条件付きポリシではなく,一連の文脈的ポリシを最適化しないことが明らかとなった。 どちらの近似も任意にベイズ準最適となるような方針を与える。 これらの問題を克服するために,ベルマン作用素のアレタリック不確実性(密度推定)とエピステミック不確実性(変動推論)の両方をモデル化するために,正規化フローを用いたベイズ探索ネットワーク(BEN)を導入する。 完全最適化の限界において、BENは真のベイズ最適化ポリシーを学習するが、変分期待最大化と同様に、部分最適化は我々のアプローチを引き付けることができる。 実証的な結果は、BENが既存のモデルフリーアプローチが失敗するタスクにおいて、真のベイズ最適化ポリシーを学習できることを示しています。

Bayesian reinforcement learning (RL) offers a principled and elegant approach for sequential decision making under uncertainty. Most notably, Bayesian agents do not face an exploration/exploitation dilemma, a major pathology of frequentist methods. A key challenge for Bayesian RL is the computational complexity of learning Bayes-optimal policies, which is only tractable in toy domains. In this paper we propose a novel model-free approach to address this challenge. Rather than modelling uncertainty in high-dimensional state transition distributions as model-based approaches do, we model uncertainty in a one-dimensional Bellman operator. Our theoretical analysis reveals that existing model-free approaches either do not propagate epistemic uncertainty through the MDP or optimise over a set of contextual policies instead of all history-conditioned policies. Both approximations yield policies that can be arbitrarily Bayes-suboptimal. To overcome these issues, we introduce the Bayesian exploration network (BEN) which uses normalising flows to model both the aleatoric uncertainty (via density estimation) and epistemic uncertainty (via variational inference) in the Bellman operator. In the limit of complete optimisation, BEN learns true Bayes-optimal policies, but like in variational expectation-maximisation, partial optimisation renders our approach tractable. Empirical results demonstrate that BEN can learn true Bayes-optimal policies in tasks where existing model-free approaches fail.
翻訳日:2023-08-28 16:02:48 公開日:2023-08-24
# 不完全観測データによる因果効果の連合学習

Federated Learning of Causal Effects from Incomplete Observational Data ( http://arxiv.org/abs/2308.13047v1 )

ライセンス: Link先を確認
Thanh Vinh Vo, Young lee, Tze-Yun Leong(参考訳) 分散データソースと不完全なデータソースは、現実世界のアプリケーションで広く使われています。 これらのソースは、プライバシの制約により単一のエンティティに統合することはできず、内部に欠落する値の存在は、因果推定値にバイアスをもたらす可能性がある。 我々は,不完全データからのフェデレーション因果推論のための新しいアプローチを導入し,複数の分散データおよび不完全データソースから因果効果を推定する。 我々のアプローチは、損失関数を複数のコンポーネントに切り離し、それぞれが欠落した値を持つ特定のデータソースに対応する。 提案手法では,無作為な仮定の欠落データに対して,因果推定値の高次統計量も推定する。 本手法は,分散データソースから検出された共同設立者の条件分布を回復し,因果効果を同定する。 本フレームワークは,情報源間で生データを共有することなく異種因果効果を推定し,プライバシーリスクを軽減する。 本手法の有効性はシミュレーションおよび実世界のインスタンスの収集によって実証され,その可能性と実用性を示す。

Decentralized and incomplete data sources are prevalent in real-world applications, posing a formidable challenge for causal inference. These sources cannot be consolidated into a single entity owing to privacy constraints, and the presence of missing values within them can potentially introduce bias to the causal estimands. We introduce a new approach for federated causal inference from incomplete data, enabling the estimation of causal effects from multiple decentralized and incomplete data sources. Our approach disentangles the loss function into multiple components, each corresponding to a specific data source with missing values. Our approach accounts for the missing data under the missing at random assumption, while also estimating higher-order statistics of the causal estimands. Our method recovers the conditional distribution of missing confounders given the observed confounders from the decentralized data sources to identify causal effects. Our framework estimates heterogeneous causal effects without the sharing of raw training data among sources, which helps to mitigate privacy risks. The efficacy of our approach is demonstrated through a collection of simulated and real-world instances, illustrating its potential and practicality.
翻訳日:2023-08-28 16:02:21 公開日:2023-08-24
# 単一光子量子レンジ:シーケンシャルデコーディングが高次元エンタングルメントを満たすとき

Single Photon Quantum Ranging: When Sequential Decoding Meets High Dimensional Entanglement ( http://arxiv.org/abs/2308.13045v1 )

ライセンス: Link先を確認
Armanpreet Pannu, Han Liu, Amr S. Helmy and Hesham El Gamal(参考訳) モード毎の低雑音レベルと低反射率(高損失)状態における量子レンジ問題について考察する。 本稿では, 単一光子伝送戦略に焦点をあて, 送信機における高次元時間ビン絡み合わせと検出器における逐次決定ルールを慎重に構成した新しい手法を提案する。 解析結果から, 単一光子古典法, 従来提案されていた2モード圧縮真空レンジリング法, ブロックベースの古典的スキームなどと比較して, この手法から, 様々な操作パラメータで活用できる重要な性能向上が得られた。 このパフォーマンス上の利益は 1)高次元時間ビン絡み合わされた信号が単一の光子と非常に微細な範囲分解能を提供する能力 2) 誤差の確率の制約を受ける透過光子の平均数を最小化する逐次決定規則の能力。 分析は低エネルギー/低騒音に限られるが、提案手法の優れた性能はより広範なシナリオにまで拡張され、さらなる解析的および実験的研究の動機となるだろうと推測する。

We consider the quantum ranging problem in the low noise level per mode and low reflectivity (high loss) regime. We focus on single photon transmission strategies and propose a novel approach that combines high dimensional time-bin entanglement at the transmitter with a carefully constructed sequential decision rule at the detector. Our analytical results establish the significant performance gains that can be leveraged from this approach in a range of operating parameters, as compared to the single photon classical approach, the two-mode squeezed vacuum ranging scheme proposed earlier, and even the block-based classical scheme. One can attribute this performance gain to 1) the ability of the high dimensional time-bin entangled signaling to offer a very fine range resolution with a single transmitted photon and 2) the ability of the sequential decision rule to minimize the average number of transmitted photon subject to a constraint on the probability of error. While our analysis is limited to the low energy/low noise regime, we conjecture that the proposed approach's superior performance extends to a wider range of scenarios which should motivate further analytical and experimental investigations.
翻訳日:2023-08-28 16:02:02 公開日:2023-08-24
# 学習型アイハイト適応によるプレキャプチャ環境における知覚と没入の促進

Enhancing Perception and Immersion in Pre-Captured Environments through Learning-Based Eye Height Adaptation ( http://arxiv.org/abs/2308.13042v1 )

ライセンス: Link先を確認
Qi Feng, Hubert P. H. Shum, Shigeo Morishima(参考訳) 全方位カメラを用いた没入型環境は、幅広いバーチャルリアリティ応用を提供する。 従来の研究では、自我中心の仮想環境における目の高さを操作することは、距離知覚と浸漬に大きな影響を与えることが示されている。 しかし, 撮影終了後の視線変化が困難であったため, 実環境における視線の高さの影響は少なくなった。 この影響を探るために,まず,複数の眼高を持つ実環境を捉え,被験者に自己中心距離と没入距離を判断するパイロット研究を提案する。 もし大きな影響が確認できれば、ユーザの目の高さに事前キャプチャされた実世界の環境を適応させる効果的なイメージベースアプローチが望ましいだろう。 本研究は,眼高の変化を伴う全方位画像に対して,新しい視点を合成するための学習的アプローチを提案する。 このアプローチでは,2つのフォーマットで深度とセマンティックセグメンテーションを学習するマルチタスクアーキテクチャを採用し,高い品質の深度とセマンティックセグメンテーションを生成し,その影響を緩和する。 全方位認識による奥行き画像の改良により,眼高適応のための自然および現実的な視覚を合成する。 定量的・質的評価は最先端の手法に好適な結果を示し,実世界の実環境における知覚と没入性の改善を検証する。

Pre-captured immersive environments using omnidirectional cameras provide a wide range of virtual reality applications. Previous research has shown that manipulating the eye height in egocentric virtual environments can significantly affect distance perception and immersion. However, the influence of eye height in pre-captured real environments has received less attention due to the difficulty of altering the perspective after finishing the capture process. To explore this influence, we first propose a pilot study that captures real environments with multiple eye heights and asks participants to judge the egocentric distances and immersion. If a significant influence is confirmed, an effective image-based approach to adapt pre-captured real-world environments to the user's eye height would be desirable. Motivated by the study, we propose a learning-based approach for synthesizing novel views for omnidirectional images with altered eye heights. This approach employs a multitask architecture that learns depth and semantic segmentation in two formats, and generates high-quality depth and semantic segmentation to facilitate the inpainting stage. With the improved omnidirectional-aware layered depth image, our approach synthesizes natural and realistic visuals for eye height adaptation. Quantitative and qualitative evaluation shows favorable results against state-of-the-art methods, and an extensive user study verifies improved perception and immersion for pre-captured real-world environments.
翻訳日:2023-08-28 16:01:42 公開日:2023-08-24
# ビデオカプセル内視鏡と人工知能の交点--機械学習を用いたユニークな課題への対処

The intersection of video capsule endoscopy and artificial intelligence: addressing unique challenges using machine learning ( http://arxiv.org/abs/2308.13035v1 )

ライセンス: Link先を確認
Shan Guleria, Benjamin Schwartz, Yash Sharma, Philip Fernandes, James Jablonski, Sodiq Adewole, Sanjana Srivastava, Fisher Rhoads, Michael Porter, Michelle Yeghyayan, Dylan Hyatt, Andrew Copland, Lubaina Ehsan, Donald Brown, Sana Syed(参考訳) 導入: 技術的負担と時間集約的レビュープロセスは, ビデオカプセル内視鏡(VCE)の実用性を制限する。 人工知能(AI)はこれらの制限に対処しようとしているが、AIとVCEの交差点は最初に克服しなければならない課題を明らかにしている。 私たちは対処すべき課題を5つ挙げた。 チャレンジ#1: VCEデータは確率的であり、重要なアーティファクトを含んでいる。 チャレンジ2: VCEの解釈はコストがかかる。 チャレンジ3: VCEデータは本質的に不均衡である。 チャレンジ#4:既存のVCE AIMLTは計算に煩雑である。 チャレンジ5: 臨床医は、自分のプロセスを説明することができないAIMLTを受け入れることをためらっている。 方法: VCEデータの分類作業に対する畳み込みニューラルネットワーク(CNN)の適用をテストするために,解剖学的ランドマーク検出モデルを用いた。 また、VCEデータのエキスパートアノテーションを支援するツールも作成しました。 次に、マルチフレームアプローチ、グラフ表現に基づくCNN、メタ学習に基づく数ショットアプローチなど、さまざまなアプローチを用いたより精巧なモデルを作成しました。 結果: フル長VCE映像で使用する場合、CNNは解剖学的ランドマーク(99.1%)を正確に識別し、CNNが決定に用いた各フレームの部分を示す勾配重み付きクラスのアクティベーションマッピングを作成した。 教師付き学習(精度89.9%、感度91.1%)、マイショットモデル(精度90.8%、精度91.4%、感度90.9%)、マルチフレームモデル(精度97.5%、精度91.5%、感度94.8%)は良好であった。 議論: これらの5つの課題のうちの1つは、AIベースのモデルによって対処されます。 臨床の信頼性向上を目的とした軽量モデルによる高性能化を目標とした。

Introduction: Technical burdens and time-intensive review processes limit the practical utility of video capsule endoscopy (VCE). Artificial intelligence (AI) is poised to address these limitations, but the intersection of AI and VCE reveals challenges that must first be overcome. We identified five challenges to address. Challenge #1: VCE data are stochastic and contains significant artifact. Challenge #2: VCE interpretation is cost-intensive. Challenge #3: VCE data are inherently imbalanced. Challenge #4: Existing VCE AIMLT are computationally cumbersome. Challenge #5: Clinicians are hesitant to accept AIMLT that cannot explain their process. Methods: An anatomic landmark detection model was used to test the application of convolutional neural networks (CNNs) to the task of classifying VCE data. We also created a tool that assists in expert annotation of VCE data. We then created more elaborate models using different approaches including a multi-frame approach, a CNN based on graph representation, and a few-shot approach based on meta-learning. Results: When used on full-length VCE footage, CNNs accurately identified anatomic landmarks (99.1%), with gradient weighted-class activation mapping showing the parts of each frame that the CNN used to make its decision. The graph CNN with weakly supervised learning (accuracy 89.9%, sensitivity of 91.1%), the few-shot model (accuracy 90.8%, precision 91.4%, sensitivity 90.9%), and the multi-frame model (accuracy 97.5%, precision 91.5%, sensitivity 94.8%) performed well. Discussion: Each of these five challenges is addressed, in part, by one of our AI-based models. Our goal of producing high performance using lightweight models that aim to improve clinician confidence was achieved.
翻訳日:2023-08-28 16:01:11 公開日:2023-08-24
# 微調整Llama 2 GPTモデルを用いた財務情報分析

Financial News Analytics Using Fine-Tuned Llama 2 GPT Model ( http://arxiv.org/abs/2308.13032v1 )

ライセンス: Link先を確認
Bohdan M. Pavlyshenko(参考訳) 本稿では,金融ニュースのマルチタスク解析におけるLlama 2 Large Language Model(LLM)の微調整の可能性を検討する。 微調整にはPEFT/LoRAベースのアプローチが用いられた。 調査では、金融市場の観点からテキストを分析し、テキストの要点を強調し、テキストを要約し、適切な感情で名前付きエンティティを抽出する。 その結果、微調整されたllama 2モデルは、特定の応答構造を持つマルチタスクファイナンシャルニュース分析を実行でき、応答の一部が構造化テキストとなり、データの一部がjsonフォーマットでさらなる処理が可能であることが判明した。 名前付きエンティティの抽出された感情は、定量的なターゲット変数を持つ教師付き機械学習モデルにおける予測的特徴と見なすことができる。

The paper considers the possibility to fine-tune Llama 2 Large Language Model (LLM) for the multitask analysis of financial news. For fine-tuning, the PEFT/LoRA based approach was used. In the study, the model was fine-tuned for the following tasks: analysing a text from financial market perspectives, highlighting main points of a text, summarizing a text and extracting named entities with appropriate sentiments. The obtained results show that the fine-tuned Llama 2 model can perform a multitask financial news analysis with a specified structure of response, part of response can be a structured text and another part of data can have JSON format for further processing. Extracted sentiments for named entities can be considered as predictive features in supervised machine learning models with quantitative target variables.
翻訳日:2023-08-28 16:00:40 公開日:2023-08-24
# universal adiabatic quantum computingを用いたニューラルネットワークのトレーニング

Training Neural Networks with Universal Adiabatic Quantum Computing ( http://arxiv.org/abs/2308.13028v1 )

ライセンス: Link先を確認
Steve Abel, Juan Carlos Criado, Michael Spannowsky(参考訳) ニューラルネットワーク(NN)のトレーニングは、かなりの時間とリソースを必要とする計算集約的なタスクである。 本稿では, adiabatic quantum computing (aqc) を用いたnnトレーニングにおける新しい手法を提案する。 本稿では,ゲート量子コンピュータに実装可能な汎用的なaqc手法を提案する。 このアプローチは、連続、離散、二重みを持つ様々なニューラルネットワークに適用する。 以上の結果から,AQCは損失関数の最小値の発見を極めて効率的に行うことができ,古典的学習法に代わる有望な代替手段を提供する。

The training of neural networks (NNs) is a computationally intensive task requiring significant time and resources. This paper presents a novel approach to NN training using Adiabatic Quantum Computing (AQC), a paradigm that leverages the principles of adiabatic evolution to solve optimisation problems. We propose a universal AQC method that can be implemented on gate quantum computers, allowing for a broad range of Hamiltonians and thus enabling the training of expressive neural networks. We apply this approach to various neural networks with continuous, discrete, and binary weights. Our results indicate that AQC can very efficiently find the global minimum of the loss function, offering a promising alternative to classical training methods.
翻訳日:2023-08-28 16:00:27 公開日:2023-08-24
# MeTooムーブメントにおけるTwitter上のジェンダーベーストックス音声の探索 : 混合手法によるアプローチ

Exploring Gender-Based Toxic Speech on Twitter in Context of the #MeToo movement: A Mixed Methods Approach ( http://arxiv.org/abs/2308.13076v1 )

ライセンス: Link先を確認
Sayak Saha Roy, Ohad Gilbar, Christina Palantza, Maxine Davis, Shirin Nilizadeh(参考訳) MeToo運動は、セクシャルハラスメントや暴行を取り巻く大衆の言論を助長し、生存者に自分の話を共有させ、加害者を非難する権限を与えた。 本研究は、ソーシャルメディアプラットフォームであるTwitter上で、女性や男性に対する敵意の高まりという形で、潜在的なネガティブな影響について検討することを目的としている。 2017年10月から2020年1月にかけて、twitter上で自身の性的虐待体験を公表するか、その運動に関する議論に従事した47.1万人以上の個人が共有したツイートを分析し、運動の開始以来、女性と男性の両方に対する男女間の敵対関係の全体的増加を明らかにする。 また、#MeTooムーブメントを形成する16の重要な実生活イベントを監視し、これらのイベントがどのように、Twitter上の反対のジェンダーをターゲットにしたネガティブな議論を増幅したかを特定する。 さらに,性別に基づく敵対的ツイートのサブセットをテーマとして内容分析を行い,#MeToo運動に関する男女双方の怒りと恨みの表現を動機づける繰り返しテーマや動機の特定を支援する。 本研究は、オンラインの談話における社会運動の影響を微妙に理解することの必要性を浮き彫りにし、デジタル空間における性に基づく敵対性に対処することの重要性を強調する。

The #MeToo movement has catalyzed widespread public discourse surrounding sexual harassment and assault, empowering survivors to share their stories and holding perpetrators accountable. While the movement has had a substantial and largely positive influence, this study aims to examine the potential negative consequences in the form of increased hostility against women and men on the social media platform Twitter. By analyzing tweets shared between October 2017 and January 2020 by more than 47.1k individuals who had either disclosed their own sexual abuse experiences on Twitter or engaged in discussions about the movement, we identify the overall increase in gender-based hostility towards both women and men since the start of the movement. We also monitor 16 pivotal real-life events that shaped the #MeToo movement to identify how these events may have amplified negative discussions targeting the opposite gender on Twitter. Furthermore, we conduct a thematic content analysis of a subset of gender-based hostile tweets, which helps us identify recurring themes and underlying motivations driving the expressions of anger and resentment from both men and women concerning the #MeToo movement. This study highlights the need for a nuanced understanding of the impact of social movements on online discourse and underscores the importance of addressing gender-based hostility in the digital sphere.
翻訳日:2023-08-28 15:52:21 公開日:2023-08-24
# surgnn:グラフニューラルネットワークを用いた視覚的なシーン理解と手術スキルの評価

SurGNN: Explainable visual scene understanding and assessment of surgical skill using graph neural networks ( http://arxiv.org/abs/2308.13073v1 )

ライセンス: Link先を確認
Shuja Khalid, Frank Rudzicz(参考訳) 本稿では,グラフニューラルネットワーク(gnns)を用いて視覚シーン理解と手術スキル評価の強化について検討する。 gnnを用いてグラフ構造として表現された手術手順の複雑な視覚データを解析することにより、関連する特徴を抽出し、手術スキルを予測することができる。 さらに、GNNは解釈可能な結果を提供し、予測されたスキルメトリクスに寄与する特定のアクション、計器、解剖学的構造を明らかにする。 これは外科教育者や研修生にとって非常に有益であり、外科的パフォーマンスと成果に寄与する要因についての貴重な洞察を提供する。 SurGNNは2つの並行アプローチを提案している。 また,他の手術スキル評価手法についても簡潔に解説し,手術専門知識の複雑さを捉える際の手作りの特徴の限界を強調する。 提案手法を用いて,EndoVis19およびカスタムデータセットの最先端結果を実現する。 コードの実装はhttps://github.com/<redacted>で確認できる。

This paper explores how graph neural networks (GNNs) can be used to enhance visual scene understanding and surgical skill assessment. By using GNNs to analyze the complex visual data of surgical procedures represented as graph structures, relevant features can be extracted and surgical skill can be predicted. Additionally, GNNs provide interpretable results, revealing the specific actions, instruments, or anatomical structures that contribute to the predicted skill metrics. This can be highly beneficial for surgical educators and trainees, as it provides valuable insights into the factors that contribute to successful surgical performance and outcomes. SurGNN proposes two concurrent approaches -- one supervised and the other self-supervised. The paper also briefly discusses other automated surgical skill evaluation techniques and highlights the limitations of hand-crafted features in capturing the intricacies of surgical expertise. We use the proposed methods to achieve state-of-the-art results on EndoVis19, and custom datasets. The working implementation of the code can be found at https://github.com/<redacted>.
翻訳日:2023-08-28 15:51:55 公開日:2023-08-24
# 高効率拡散分解確率モデルを用いた低線量PETの全線量PET合成

Full-dose PET Synthesis from Low-dose PET Using High-efficiency Diffusion Denoising Probabilistic Model ( http://arxiv.org/abs/2308.13072v1 )

ライセンス: Link先を確認
Shaoyan Pan, Elham Abouei, Junbo Peng, Joshua Qian, Jacob F Wynne, Tonghe Wang, Chih-Wei Chang, Justin Roper, Jonathon A Nye, Hui Mao, Xiaofeng Yang(参考訳) 電離放射線に伴うリスクを低減するためには,PET画像における放射線被曝の低減が必要である。 しかし、これは画像のコントラストと定量化に有害な影響を及ぼす。 低線量データから合成された高品質なPET画像は、放射線照射を減らす解決策を提供する。 PET-CM(PET Consistency Model, PET-CM)は, 最新の拡散型合成モデルに匹敵する合成品質を得るが, 効率は向上する。 複数の時間ステップで全線量PET画像にガウスノイズを加える前処理と、PETシフトウインドウ・ビジョン・トランスフォーマー(PET-VIT)ネットワークを用いた逆拡散処理により、対応する低線量PETで条件付けられた復調手順を学習する。 PET-CMでは, 逆処理によりガウス雑音を直接フルドーズPETに分解する整合関数が学習される。 PET線量1/8と1/4のみを用いて全線量画像生成におけるPET-CMの評価を行った。 1/8線量とフルドーズ画像との比較では, PET-CMは正常平均絶対誤差 (NMAE) 1.233/-0.131%, ピーク信号-雑音比 (PSNR) 33.915+/-0.933dB, 構造類似度指数 (SSIM) 0.964+/-0.009, 正常交差相関 (NCC) 0.968+/-0.011, 平均生成時間は62秒であった。 これは,PET-CMを用いた最新拡散モデルに比べて12倍高速である。 NMAE 1.058+/-0.092%、PSNR 35.548+/-0.805dB、SSIM 0.978+/-0.005、NCC 0.981+/-0.007 のフルドーズ画像実験でもPET-CMは競争力がある。

To reduce the risks associated with ionizing radiation, a reduction of radiation exposure in PET imaging is needed. However, this leads to a detrimental effect on image contrast and quantification. High-quality PET images synthesized from low-dose data offer a solution to reduce radiation exposure. We introduce a diffusion-model-based approach for estimating full-dose PET images from low-dose ones: the PET Consistency Model (PET-CM) yielding synthetic quality comparable to state-of-the-art diffusion-based synthesis models, but with greater efficiency. There are two steps: a forward process that adds Gaussian noise to a full dose PET image at multiple timesteps, and a reverse diffusion process that employs a PET Shifted-window Vision Transformer (PET-VIT) network to learn the denoising procedure conditioned on the corresponding low-dose PETs. In PET-CM, the reverse process learns a consistency function for direct denoising of Gaussian noise to a clean full-dose PET. We evaluated the PET-CM in generating full-dose images using only 1/8 and 1/4 of the standard PET dose. Comparing 1/8 dose to full-dose images, PET-CM demonstrated impressive performance with normalized mean absolute error (NMAE) of 1.233+/-0.131%, peak signal-to-noise ratio (PSNR) of 33.915+/-0.933dB, structural similarity index (SSIM) of 0.964+/-0.009, and normalized cross-correlation (NCC) of 0.968+/-0.011, with an average generation time of 62 seconds per patient. This is a significant improvement compared to the state-of-the-art diffusion-based model with PET-CM reaching this result 12x faster. In the 1/4 dose to full-dose image experiments, PET-CM is also competitive, achieving an NMAE 1.058+/-0.092%, PSNR of 35.548+/-0.805dB, SSIM of 0.978+/-0.005, and NCC 0.981+/-0.007 The results indicate promising low-dose PET image quality improvements for clinical applications.
翻訳日:2023-08-28 15:51:39 公開日:2023-08-24
# 多変量時系列異常検出:派手なアルゴリズムと欠陥評価手法

Multivariate Time Series Anomaly Detection: Fancy Algorithms and Flawed Evaluation Methodology ( http://arxiv.org/abs/2308.13068v1 )

ライセンス: Link先を確認
Mohamed El Amine Sehili and Zonghua Zhang(参考訳) 多変量時系列(mvts)異常検出は,近年,産学界と産学界の両方から多大な研究成果が寄せられてきた,長年にわたる困難な研究課題である。 しかし、文学の慎重な研究により、我々はそのことに気づく。 1)コミュニティは活発であるが、コンピュータビジョン(CV)や自然言語処理(NLP)といった他の兄弟の機械学習コミュニティほど組織化されていない。 2) 提案手法の多くは, 不適切なプロトコルや高度に欠陥のあるプロトコルを用いて評価されている。 したがって、欠陥のあるプロトコルは、いわゆる \paプロトコルであり、ランダムな推測によって、これまでに開発された \emph{all} アルゴリズムを体系的に上回ることができる。 本稿では,よりロバストなプロトコルを用いた最近のアルゴリズムをレビュー・評価し,mvts異常検出の文脈において,正常に優れたプロトコルがいかに弱みを持つか,どのように軽減するかについて議論する。 また、ベンチマークデータセット、実験設計、多くの作業で観察する評価方法論に関する懸念も共有しています。 さらに,一般的なベンチマークデータセットに基づく最近の多くのディープラーニング(dl)アプローチを驚くほど上回る,主成分分析(pca)に基づく単純かつ挑戦的なベースラインアルゴリズムを提案する。 この研究の主な目的は、ますます複雑で「ファンシエ」なアルゴリズムの設計に重きを置くのではなく、データ、実験設計、評価方法論、結果解釈可能性といった研究の重要な側面に対してより多くの努力を促すことである。

Multivariate Time Series (MVTS) anomaly detection is a long-standing and challenging research topic that has attracted tremendous research effort from both industry and academia recently. However, a careful study of the literature makes us realize that 1) the community is active but not as organized as other sibling machine learning communities such as Computer Vision (CV) and Natural Language Processing (NLP), and 2) most proposed solutions are evaluated using either inappropriate or highly flawed protocols, with an apparent lack of scientific foundation. So flawed is one very popular protocol, the so-called \pa protocol, that a random guess can be shown to systematically outperform \emph{all} algorithms developed so far. In this paper, we review and evaluate many recent algorithms using more robust protocols and discuss how a normally good protocol may have weaknesses in the context of MVTS anomaly detection and how to mitigate them. We also share our concerns about benchmark datasets, experiment design and evaluation methodology we observe in many works. Furthermore, we propose a simple, yet challenging, baseline algorithm based on Principal Components Analysis (PCA) that surprisingly outperforms many recent Deep Learning (DL) based approaches on popular benchmark datasets. The main objective of this work is to stimulate more effort towards important aspects of the research such as data, experiment design, evaluation methodology and result interpretability, instead of putting the highest weight on the design of increasingly more complex and "fancier" algorithms.
翻訳日:2023-08-28 15:50:54 公開日:2023-08-24
# 因果オウム: 大きな言語モデルでは因果性は話されるが因果性ではない

Causal Parrots: Large Language Models May Talk Causality But Are Not Causal ( http://arxiv.org/abs/2308.13067v1 )

ライセンス: Link先を確認
Matej Ze\v{c}evi\'c and Moritz Willig and Devendra Singh Dhami and Kristian Kersting(参考訳) スケールはAIを実現するために必要なすべてであり、因果モデルまでもカバーしている、という主張もある。 大規模言語モデル(LLM)が因果関係にはならないことを明確にし、なぜそうでないと感じるのかを理由づける。 この目的のために、我々はメタSCMと呼ぶ構造因果モデル(SCM)の新たなサブグループを定義し、その変数内の他のSCMに関する因果事実を符号化する。 LLMが因果推論に成功している場合には、LLMが最終的に訓練された自然言語における因果事実間の相関を明らかにするメタSCMが基礎となっていると推測した。 もし我々の仮説が正しいなら、llmはデータに埋め込まれた因果知識を単に暗唱する点で、オウムのようなものであることを暗示します。 我々の経験的分析は、現在のLSMがさらに弱い「因果オウム」であることを示す証拠を提供する。 '

Some argue scale is all what is needed to achieve AI, covering even causal models. We make it clear that large language models (LLMs) cannot be causal and give reason onto why sometimes we might feel otherwise. To this end, we define and exemplify a new subgroup of Structural Causal Model (SCM) that we call meta SCM which encode causal facts about other SCM within their variables. We conjecture that in the cases where LLM succeed in doing causal inference, underlying was a respective meta SCM that exposed correlations between causal facts in natural language on whose data the LLM was ultimately trained. If our hypothesis holds true, then this would imply that LLMs are like parrots in that they simply recite the causal knowledge embedded in the data. Our empirical analysis provides favoring evidence that current LLMs are even weak `causal parrots.'
翻訳日:2023-08-28 15:50:27 公開日:2023-08-24
# 多段VAEによる分子特性の客観的向上

Objective-Agnostic Enhancement of Molecule Properties via Multi-Stage VAE ( http://arxiv.org/abs/2308.13066v1 )

ライセンス: Link先を確認
Chenghui Zhou, Barnabas Poczos(参考訳) 変異オートエンコーダ(VAE)は医薬品発見の一般的な方法であり、その性能を改善するために様々なアーキテクチャやパイプラインが提案されている。 しかし,高次元空間に埋め込まれた低次元多様体(Dai and Wipf, 2019)上にデータを埋め込んだ場合,VAE法は粗悪な多様体回復に悩まされることが知られている。 薬物発見におけるその影響は、幾らか未発見である。 本稿では,合成データセット上の多様体の回復を改善する多段階的VAEアプローチを創薬分野に適用することを検討する。 我々は,chemblデータセットを用いた多段階vae手法を実験的に評価し,その特性予測器をトレーニングパイプラインに組み込むことなく,既存の手法から実質的に生成分子の性質統計を改善する能力を示す。 我々はさらに、異なるタンパク質をターゲットとした2つのキュレートされた、はるかに小さな分子データセットでモデルを微調整する。 実験の結果, 多段階のVAEが生成する活性分子数は, 1段階の等価分子に比べて増加した。 これら2つの課題のそれぞれに対して,学習対象の指標を直接学習対象に組み込むための学習特性予測器を用いた手法が基本となる。

Variational autoencoder (VAE) is a popular method for drug discovery and various architectures and pipelines have been proposed to improve its performance. However, VAE approaches are known to suffer from poor manifold recovery when the data lie on a low-dimensional manifold embedded in a higher dimensional ambient space [Dai and Wipf, 2019]. The consequences of it in drug discovery are somewhat under-explored. In this paper, we explore applying a multi-stage VAE approach, that can improve manifold recovery on a synthetic dataset, to the field of drug discovery. We experimentally evaluate our multi-stage VAE approach using the ChEMBL dataset and demonstrate its ability to improve the property statistics of generated molecules substantially from pre-existing methods without incorporating property predictors into the training pipeline. We further fine-tune our models on two curated and much smaller molecule datasets that target different proteins. Our experiments show an increase in the number of active molecules generated by the multi-stage VAE in comparison to their one-stage equivalent. For each of the two tasks, our baselines include methods that use learned property predictors to incorporate target metrics directly into the training objective and we discuss complications that arise with this methodology.
翻訳日:2023-08-28 15:50:10 公開日:2023-08-24
# 動的回路を用いた高速ロングランジエンタングルメント

Efficient Long-Range Entanglement using Dynamic Circuits ( http://arxiv.org/abs/2308.13065v1 )

ライセンス: Link先を確認
Elisa B\"aumer, Vinay Tripathi, Derek S. Wang, Patrick Rall, Edward H. Chen, Swarnadeep Majumder, Alireza Seif, Zlatko K. Minev(参考訳) 量子シミュレーションは伝統的にユニタリダイナミクスに依存しており、本質的には複雑な絡み合った状態の生成に効率上の制約を課している。 原則として、これらの制限は非単体動的回路に取って代わることができる。 これらの回路は条件付きフィードフォワード操作と併用して測定を行い、長距離エンタングゲートの有望なアプローチ、短期ハードウェアのより効率的な接続、より効率的な状態準備を提供する。 本稿では,大規模量子デバイス上での長距離絡み合いを実現するための浅層動的回路の有用性について検討する。 具体的には,最大101キュービットまでのCNOTゲートの伝送を99個の中間回路計測結果に送受信し,グリーンベルガー・ホルン・ゼリンジャー(GHZ)状態の真の絡み合いを図った。 前者では、動的回路がユニタリ回路よりも優れていることを観察する。 後者では、コンパイルされた量子回路の命令を集計することにより、動的回路のポテンシャルを完全に解き放つために対処しなければならない障害を詳述するエラー予算を提供する。 今後の展望として,大規模量子デバイスにおける長距離絡み合いの発生に動的回路が有効であることを期待する。

Quantum simulation traditionally relies on unitary dynamics, inherently imposing efficiency constraints on the generation of intricate entangled states. In principle, these limitations can be superseded by non-unitary, dynamic circuits. These circuits exploit measurements alongside conditional feed-forward operations, providing a promising approach for long-range entangling gates, higher effective connectivity of near-term hardware, and more efficient state preparations. Here, we explore the utility of shallow dynamic circuits for creating long-range entanglement on large-scale quantum devices. Specifically, we study two tasks: CNOT gate teleportation between up to 101 qubits by feeding forward 99 mid-circuit measurement outcomes, and the preparation of Greenberger-Horne-Zeilinger (GHZ) states with genuine entanglement. In the former, we observe that dynamic circuits can outperform their unitary counterparts. In the latter, by tallying instructions of compiled quantum circuits, we provide an error budget detailing the obstacles that must be addressed to unlock the full potential of dynamic circuits. Looking forward, we expect dynamic circuits to be useful for generating long-range entanglement in the near term on large-scale quantum devices.
翻訳日:2023-08-28 15:49:48 公開日:2023-08-24
# ポートフォリオ選択のためのgrover検索

Grover Search for Portfolio Selection ( http://arxiv.org/abs/2308.13063v1 )

ライセンス: Link先を確認
A. Ege Yilmaz, Stefan Stettler, Thomas Ankenbrand, Urs Rhyner(参考訳) 我々は、Groverのアルゴリズムで投資家の好みに合うように設計された明示的なオラクルを提示する。 具体的には、オラクルはリターンと標準偏差がそれぞれ一定の閾値を超えるポートフォリオを選択する。 oracleの潜在的なユースケースのひとつは、最高のシャープ比のポートフォリオを選択することだ。 我々はこれらのアルゴリズムを量子シミュレータを用いて実装した。

We present explicit oracles designed to be used in Grover's algorithm to match investor preferences. Specifically, the oracles select portfolios with returns and standard deviations exceeding and falling below certain thresholds, respectively. One potential use case for the oracles is selecting portfolios with the best Sharpe ratios. We have implemented these algorithms using quantum simulators.
翻訳日:2023-08-28 15:49:24 公開日:2023-08-24
# ZeroLeak: スケーラブルで費用対効果の高いサイドチャネルパッチにLLMを使用する

ZeroLeak: Using LLMs for Scalable and Cost Effective Side-Channel Patching ( http://arxiv.org/abs/2308.13062v1 )

ライセンス: Link先を確認
M. Caner Tol and Berk Sunar(参考訳) セキュリティクリティカルなソフトウェア、例えばOpenSSLには、リソースや専門家が不足しているため、パッチが残っていない多くのサイドチャネルリークがある。 開発者がコードを自動的に生成するためにLLM(Large Language Models)に依存しているため、コード開発のペースが加速するにつれて状況は悪化する。 本研究では,マイクロアーキテクチャのサイドチャネルリークによる脆弱性コードに対するパッチ生成におけるLLMの使用について検討する。 本研究では,ゼロショット学習によるプロンプトを注意深く作成することにより,強力なllmの生成能力について検討する。 すべての生成されたコードはリーク検出ツールによって動的に解析され、秘密の依存したアクセスまたはブランチからリークされた命令レベルで情報漏洩を特定できる。 慎重に作られたプロンプトは、脆弱なコードの候補置換を生成するために使用され、その後、正確性と漏洩回復性のために分析される。 コスト/パフォーマンスの観点からは、APIのGPT4ベースの構成コストは脆弱性の修正に対してわずか数セントである。 その結果,llmベースのパッチ適用はコスト効率がはるかに高く,スケーラブルなソリューションが得られた。 最後に、我々が提案するフレームワークは、特に脆弱性検出ツールやLSMが成熟するにつれて、時間とともに改善する。

Security critical software, e.g., OpenSSL, comes with numerous side-channel leakages left unpatched due to a lack of resources or experts. The situation will only worsen as the pace of code development accelerates, with developers relying on Large Language Models (LLMs) to automatically generate code. In this work, we explore the use of LLMs in generating patches for vulnerable code with microarchitectural side-channel leakages. For this, we investigate the generative abilities of powerful LLMs by carefully crafting prompts following a zero-shot learning approach. All generated code is dynamically analyzed by leakage detection tools, which are capable of pinpointing information leakage at the instruction level leaked either from secret dependent accesses or branches or vulnerable Spectre gadgets, respectively. Carefully crafted prompts are used to generate candidate replacements for vulnerable code, which are then analyzed for correctness and for leakage resilience. From a cost/performance perspective, the GPT4-based configuration costs in API calls a mere few cents per vulnerability fixed. Our results show that LLM-based patching is far more cost-effective and thus provides a scalable solution. Finally, the framework we propose will improve in time, especially as vulnerability detection tools and LLMs mature.
翻訳日:2023-08-28 15:49:19 公開日:2023-08-24
# 軽量畳み込みニューラルネットワークにおけるデータ側効率

Data-Side Efficiencies for Lightweight Convolutional Neural Networks ( http://arxiv.org/abs/2308.13057v1 )

ライセンス: Link先を確認
Bryan Bo Cao, Lawrence O'Gorman, Michael Coss, Shubham Jain(参考訳) 画像分類とオブジェクト検出の2つの重要な視覚的タスクに対するデータ側属性の選択が、軽量畳み込みニューラルネットワークの選択や設計にどのように役立つかを検討する。 実験により,4つのデータ属性 – クラス数,オブジェクト色,画像解像度,オブジェクトスケール – が,ニューラルネットワークモデルのサイズと効率に与える影響を示す。 計量学習に基づくクラス内およびクラス間類似度メトリクスは、これらの属性の評価を軽量モデルの実現に向けて導くために定義される。 これらのメトリクスを用いた評価は、完全な推論テストの実行よりも30倍の計算を必要とすることが示されている。 例えば、ロボットパス計画アプリケーションの軽量モデルを選択するためのメトリクスと手法を適用し、プリメソッドモデルよりも66%の計算削減と3.5%の精度向上を達成する。

We examine how the choice of data-side attributes for two important visual tasks of image classification and object detection can aid in the choice or design of lightweight convolutional neural networks. We show by experimentation how four data attributes - number of classes, object color, image resolution, and object scale affect neural network model size and efficiency. Intra- and inter-class similarity metrics, based on metric learning, are defined to guide the evaluation of these attributes toward achieving lightweight models. Evaluations made using these metrics are shown to require 30x less computation than running full inference tests. We provide, as an example, applying the metrics and methods to choose a lightweight model for a robot path planning application and achieve computation reduction of 66% and accuracy gain of 3.5% over the pre-method model.
翻訳日:2023-08-28 15:48:58 公開日:2023-08-24
# EgoBlur: Ariaの責任あるイノベーション

EgoBlur: Responsible Innovation in Aria ( http://arxiv.org/abs/2308.13093v1 )

ライセンス: Link先を確認
Nikhil Raina, Guruprasad Somasundaram, Kang Zheng, Steve Saarinen, Jeff Messiner, Mark Schwesinger, Luis Pesqueira, Ishita Prasad, Edward Miller, Prince Gupta, Mingfei Yan, Richard Newcombe, Carl Ren, Omkar M Parkhi(参考訳) Project Ariaは、Egocentric AIのフロンティアを、プライバシー第一のアプローチで意図的に設計された眼鏡を使って、大規模な現実世界のデータ収集で推進している。 メガネで記録された傍観者のプライバシーを守るため、我々の研究プロトコルは、傍観者の顔と車のナンバープレートを取り除くai匿名化モデルによって記録されたビデオが処理されることを保証するように設計されている。 検出された顔及びナンバープレート領域は、これらの個人識別情報(PII)領域が曖昧になるようにガウスぼけで処理される。 このプロセスは、ビデオの匿名化バージョンが研究目的で保持されることを保証するのに役立つ。 project ariaでは、最先端の匿名化システムegoblurを開発しました。 本稿では,最近リリースされたCasual Conversations V2データセット上でのResponsible AI分析を含む,業界や学界の他の最先端システムと比較した,課題のあるデータセットに対するEgoBlurの広範な分析を行う。

Project Aria pushes the frontiers of Egocentric AI with large-scale real-world data collection using purposely designed glasses with privacy first approach. To protect the privacy of bystanders being recorded by the glasses, our research protocols are designed to ensure recorded video is processed by an AI anonymization model that removes bystander faces and vehicle license plates. Detected face and license plate regions are processed with a Gaussian blur such that these personal identification information (PII) regions are obscured. This process helps to ensure that anonymized versions of the video is retained for research purposes. In Project Aria, we have developed a state-of-the-art anonymization system EgoBlur. In this paper, we present extensive analysis of EgoBlur on challenging datasets comparing its performance with other state-of-the-art systems from industry and academia including extensive Responsible AI analysis on recently released Casual Conversations V2 dataset.
翻訳日:2023-08-28 15:44:00 公開日:2023-08-24
# シャノンの下限定理の量子アナログ

Quantum Analog of Shannon's Lower Bound Theorem ( http://arxiv.org/abs/2308.13091v1 )

ライセンス: Link先を確認
Saugata Basu and Laxmi Parida(参考訳) シャノンは、ブール関数のほとんど全てが$\Theta(2^n/n)$の回路を必要とすることを示した。 この古典的結果の量子アナログを証明する。 古典的な場合とは異なり、我々が許容する固定サイズの量子回路の数は数え切れないほど無限である。 我々の主なツールは、実代数幾何学における古典的な結果であり、多くの変数における実多項式の任意の有限集合の可換符号条件の個数の境界である。

Shannon proved that almost all Boolean functions require a circuit of size $\Theta(2^n/n)$. We prove a quantum analog of this classical result. Unlike in the classical case the number of quantum circuits of any fixed size that we allow is uncountably infinite. Our main tool is a classical result in real algebraic geometry bounding the number of realizable sign conditions of any finite set of real polynomials in many variables.
翻訳日:2023-08-28 15:43:41 公開日:2023-08-24
# 熱水蒸気中の種間スピンノイズ相関

Inter-species spin-noise correlations in hot atomic vapors ( http://arxiv.org/abs/2308.13090v1 )

ライセンス: Link先を確認
K. Mouloudakis, F. Vouzinas, A. Margaritakis, A. Koutsimpela, G. Mouloudakis, V. Koutrouli, M. Skotiniotis, G. P. Tsironis, M. Loulakis, M. W. Mitchell, G. Vasilakis, I. K. Kominis(参考訳) スピン交換衝突に支配される非偏極アルカリ金属蒸気のスピンノイズ相関に関する実験的および理論的研究を報告した。 強い不等時的種間相関を観測し,第一原理理論モデルを用いて考察した。 2つの原子種はスピン先行周波数が異なるため、双種蒸気はスピン相関の様々なサブタイプを解き放つために、追加の実験的なハンドルである応用磁場を利用することができる。 特に、測定された相互相関スペクトルと自己相関スペクトルは、原子内、原子間、種内および種間相関を含む多くのスピン力学的効果に光を当てた。 2つのスピン種がスピン交換衝突によって強く結合する低磁場下では、60\%$を超える相関係数が観測されている。 このような自然発生的相関の理解は、量子センシング用途で用いられる単一種または複数種のスピン偏極アルカリ金属蒸気による量子エンハンス測定の設計を動機付けることができる。

We report an experimental and theoretical study of spin noise correlations in a $^{87}$Rb-$^{133}$Cs unpolarized alkali-metal vapor dominated by spin-exchange collisions. We observe strong unequal-time inter-species correlations and account for these with a first-principles theoretical model. Since the two atomic species have different spin precession frequencies, the dual-species vapor enables the use of an additional experimental handle, the applied magnetic field, for untangling various sub-types of spin correlations. In particular, the measured cross-correlation and auto-correlation spectra shed light on a number of spin-dynamic effects involving intra-atom, inter-atom, intra-species and inter-species correlations. Cross-correlation coefficients exceeding $60\%$ have been observed at low-magnetic fields, where the two spin species couple strongly via spin-exchange collisions. The understanding of such spontaneously generated correlations can motivate the design of quantum-enhanced measurements with single or multi-species spin-polarized alkali-metal vapors used in quantum sensing applications.
翻訳日:2023-08-28 15:43:31 公開日:2023-08-24
# 立体的アプローチに向けて:学際レンズを用いたNLPモデルにおけるソシオドモグラフィーの理解

Towards a Holistic Approach: Understanding Sociodemographic Biases in NLP Models using an Interdisciplinary Lens ( http://arxiv.org/abs/2308.13089v1 )

ライセンス: Link先を確認
Pranav Narayanan Venkit(参考訳) 様々な社会技術ソリューションにおける自然言語処理(NLP)の利用と応用の急速な成長は、偏見の包括的理解の必要性と社会への影響を浮き彫りにした。 NLPにおけるバイアスの研究は拡大しているが、注意を要するいくつかの課題が続いている。 これには、人種や性別を超えた社会デミックバイアスに限定された焦点、主にモデルに焦点を絞った分析の範囲、技術中心の実装アプローチが含まれる。 本稿では,これらの課題に対処し,NLPのバイアスを理解するための学際的アプローチを提案する。 研究は3つの面に分かれ、それぞれがNLPの偏見の特定の側面を探索している。

The rapid growth in the usage and applications of Natural Language Processing (NLP) in various sociotechnical solutions has highlighted the need for a comprehensive understanding of bias and its impact on society. While research on bias in NLP has expanded, several challenges persist that require attention. These include the limited focus on sociodemographic biases beyond race and gender, the narrow scope of analysis predominantly centered on models, and the technocentric implementation approaches. This paper addresses these challenges and advocates for a more interdisciplinary approach to understanding bias in NLP. The work is structured into three facets, each exploring a specific aspect of bias in NLP.
翻訳日:2023-08-28 15:43:03 公開日:2023-08-24
# 自律型フォーミュラSAE車の強化学習制御に向けたレース

Racing Towards Reinforcement Learning based control of an Autonomous Formula SAE Car ( http://arxiv.org/abs/2308.13088v1 )

ライセンス: Link先を確認
Aakaash Salvaji, Harry Taylor, David Valencia, Trevor Gee, Henry Williams(参考訳) 自律ナビゲーション研究の人気が高まり、フォーミュラ・学生(FS)イベントはイベントリストにドライバーレス・ビークル(DV)カテゴリーを導入している。 本稿では、これらの競技において、自動FSレースカーのエンドツーエンド制御にDeep Reinforcement Learning (RL)を活用するための最初の研究について述べる。 turtlebot2 プラットフォーム上のフルスケール設計に類似したトラック上で,最先端の rl アルゴリズムをシミュレーションしてトレーニングする。 その結果,本手法はシミュレーションでレースを学習し,物理プラットフォーム上で現実の競馬場に移動することに成功した。 最後に,提案手法の限界と,rlをフルスケールの自律型fsレーシングに適用するための今後の方向性について考察する。

With the rising popularity of autonomous navigation research, Formula Student (FS) events are introducing a Driverless Vehicle (DV) category to their event list. This paper presents the initial investigation into utilising Deep Reinforcement Learning (RL) for end-to-end control of an autonomous FS race car for these competitions. We train two state-of-the-art RL algorithms in simulation on tracks analogous to the full-scale design on a Turtlebot2 platform. The results demonstrate that our approach can successfully learn to race in simulation and then transfer to a real-world racetrack on the physical platform. Finally, we provide insights into the limitations of the presented approach and guidance into the future directions for applying RL toward full-scale autonomous FS racing.
翻訳日:2023-08-28 15:42:46 公開日:2023-08-24
# ShiELD: 炭素・排水・エネルギー対応データセンター管理のための持続可能なハイブリッド進化学習フレームワーク

SHIELD: Sustainable Hybrid Evolutionary Learning Framework for Carbon, Wastewater, and Energy-Aware Data Center Management ( http://arxiv.org/abs/2308.13086v1 )

ライセンス: Link先を確認
Sirui Qi, Dejan Milojicic, Cullen Bash, Sudeep Pasricha(参考訳) 今日のクラウドデータセンタは、堅牢なデータサービスを提供するために、地理的に分散されることが多い。 しかし、これらの地理的に分散したデータセンター(GDDC)は、二酸化炭素排出量の増加と水の使用量の増加によって環境に重大な影響を及ぼす。 さらに、これらのデータセンターを運用するエネルギーコストも上昇している。 本稿では、機械学習誘導局所探索と分解に基づく進化アルゴリズムを統合したShielDと呼ばれるハイブリッドワークロード管理フレームワークを用いて、GDDCの二酸化炭素排出量、水量、エネルギーコストを最適化する新しいフレームワークを提案する。 本フレームワークは,GDDCおよびデータセンター運用における負荷分散をインテリジェントに管理するための,発電・利用・コスト・環境影響の地理的要因と時間的差異を考察する。 実験結果から,パレート・ハイパーボリュームの34.4倍の速度アップと2.1倍の改善を実現し,炭素フットプリントの最大3.7倍,水フットプリントの最大1.8倍,エネルギーコストの最大1.3倍,全目的物(炭素,水,コスト)の最大4.8倍の累積改善を実現した。

Today's cloud data centers are often distributed geographically to provide robust data services. But these geo-distributed data centers (GDDCs) have a significant associated environmental impact due to their increasing carbon emissions and water usage, which needs to be curtailed. Moreover, the energy costs of operating these data centers continue to rise. This paper proposes a novel framework to co-optimize carbon emissions, water footprint, and energy costs of GDDCs, using a hybrid workload management framework called SHIELD that integrates machine learning guided local search with a decomposition-based evolutionary algorithm. Our framework considers geographical factors and time-based differences in power generation/use, costs, and environmental impacts to intelligently manage workload distribution across GDDCs and data center operation. Experimental results show that SHIELD can realize 34.4x speedup and 2.1x improvement in Pareto Hypervolume while reducing the carbon footprint by up to 3.7x, water footprint by up to 1.8x, energy costs by up to 1.3x, and a cumulative improvement across all objectives (carbon, water, cost) of up to 4.8x compared to the state-of-the-art.
翻訳日:2023-08-28 15:42:01 公開日:2023-08-24
# $\mathbb{Z}_N$ 物質場を持つ格子ゲージ理論

$\mathbb{Z}_N$ lattice gauge theories with matter fields ( http://arxiv.org/abs/2308.13083v1 )

ライセンス: Link先を確認
Kaustubh Roy and Elio J. K\"onig(参考訳) 特定の量子材料のエキゾチックな現象論とプログラム可能な量子エミュレータの最近の進歩に動機付けられ、ここでは、$\mathbb Z_N$格子ゲージ理論におけるフェルミオンとボソンを研究する。 正確な可溶性モデルの族を導入し、それらの直交(半金属)基底状態、励起スペクトル、相関関数を特徴付ける。 さらに、適切に導出されたファインマン図式規則の集合とアンダーソンの直交大災害に関連する物理を借りて積分可能性破壊摂動を研究する。 基底状態の文脈では、押河のフラックス挿入引数に従ってルッティンガーの定理を再検討し、さらにフェルミオングリーン函数における零点のルッティンガー曲面の存在を実証する。 摂動を包含すると、ゲージセクターにおけるある種の励起を凝縮することで直交金属から正規状態への遷移を、いわゆる ``$e$- Particles'' と呼ぶ。 さらに、双対 ``$m$- Particle'' の励起における力学の影響について論じ、最終的には電荷ニュートラルハドロン$N$-粒子境界状態を形成する。 本稿では,最も重要な位相に対する解析的議論とモデルの位相境界に対する推定について述べる。 具体的には、準-1D $\mathbb Z_N$格子ゲージ理論と鋭い区別において、再正規化群論は、位相図形が創発的分解$U(1)$位相を含んでいないことを意味する。 したがって、格子QED問題に関して、$N<\infty$を持つ$\mathbb Z_N$量子エミュレータは、中間長スケールでの近似解によく用いられる。

Motivated by the exotic phenomenology of certain quantum materials and recent advances in programmable quantum emulators, we here study fermions and bosons in $\mathbb Z_N$ lattice gauge theories. We introduce a family of exactly soluble models, and characterize their orthogonal (semi-)metallic ground states, the excitation spectrum, and the correlation functions. We further study integrability breaking perturbations using an appropriately derived set of Feynman diagrammatic rules and borrowing physics associated to Anderson's orthogonality catastrophe. In the context of the ground states, we revisit Luttinger's theorem following Oshikawa's flux insertion argument and furthermore demonstrate the existence of a Luttinger surface of zeros in the fermionic Green's function. Upon inclusion of perturbations, we address the transition from the orthogonal metal to the normal state by condensation of certain excitations in the gauge sectors, so-called ``$e$-particles''. We furthermore discuss the effect of dynamics in the dual ``$m$-particle'' excitations, which ultimately leads to the formation of charge-neutral hadronic $N$-particle bound states. We present analytical arguments for the most important phases and estimates for phase boundaries of the model. Specifically, and in sharp distinction to quasi-1D $\mathbb Z_N$ lattice gauge theories, renormalization group arguments imply that the phase diagram does not include an emergent deconfining $U(1)$ phase. Therefore, in regards to lattice QED problems, $\mathbb Z_N$ quantum emulators with $N<\infty$ can at best be used for approximate solutions at intermediate length scales.
翻訳日:2023-08-28 15:41:27 公開日:2023-08-24
# 時間的行動局所化モデルのベンチマークデータ効率と計算効率

Benchmarking Data Efficiency and Computational Efficiency of Temporal Action Localization Models ( http://arxiv.org/abs/2308.13082v1 )

ライセンス: Link先を確認
Jan Warchocki, Teodor Oprescu, Yunhan Wang, Alexandru Damacus, Paul Misterka, Robert-Jan Bruintjes, Attila Lengyel, Ombretta Strafforello, Jan van Gemert(参考訳) 時間的アクションローカライゼーションでは、入力ビデオが与えられた場合、目標は、どのアクションを含むか、どこから始まり、どこで終わるかを予測することである。 現在の最先端のディープラーニングモデルのトレーニングとテストには、大量のデータと計算能力へのアクセスが必要である。 しかし、そのようなデータの収集は困難であり、計算資源は限られている可能性がある。 この研究は、データ量や計算能力に制約された設定において、現在の深部時間的行動ローカライゼーションモデルがどのように機能するかを探索し、測定する。 トレーニングセットのサブセット上で各モデルをトレーニングすることで,データの効率を測定する。 TemporalMaxerはデータ制限設定で他のモデルよりも優れています。 さらに、トレーニング時間に制限がある場合には、TriDetを推奨します。 推論中のモデルの効率をテストするために,各モデルに異なる長さの動画を渡す。 我々はTemporalMaxerが最小の計算リソースを必要とすることを発見した。

In temporal action localization, given an input video, the goal is to predict which actions it contains, where they begin, and where they end. Training and testing current state-of-the-art deep learning models requires access to large amounts of data and computational power. However, gathering such data is challenging and computational resources might be limited. This work explores and measures how current deep temporal action localization models perform in settings constrained by the amount of data or computational power. We measure data efficiency by training each model on a subset of the training set. We find that TemporalMaxer outperforms other models in data-limited settings. Furthermore, we recommend TriDet when training time is limited. To test the efficiency of the models during inference, we pass videos of different lengths through each model. We find that TemporalMaxer requires the least computational resources, likely due to its simple architecture.
翻訳日:2023-08-28 15:40:57 公開日:2023-08-24
# エージェントモデルに基づく固定ステップ単クロックシミュレーションの形式的仕様用語

Formal specification terminology for demographic agent-based models of fixed-step single-clocked simulations ( http://arxiv.org/abs/2308.13081v1 )

ライセンス: Link先を確認
Atiyah Elsheikh(参考訳) この文書は、デモグラフィの分野におけるエージェントベースモデル(abms)のサブセットの数学的仕様に対する適切な形式的用語を示している。 ABMのシミュレーションは固定ステップの単一クロックパターンに従う。 提案された用語はモデル理解をさらに改善し、仕様のスタンドアロンの方法論として機能し、オプションで重要な(デポジトリの)abmのドキュメントを作成することができる。 それにもかかわらず、さらなる拡張によって、この用語が、多くの曖昧さの源を減少させ、他のモデラーによるモデルの複製を妨げるために、広く使われているモデルドキュメントと通信o.d.プロトコル(grimm and et al., 2020, amouroux et al., 2010)と統合できる可能性は想像できる。 単独の親モデル [gostoli and silverman, 2020] の大部分が簡略化された人口統計モデルドキュメントが,形式用語のイラストとして[elsheikh, 2023b]に別々に公開されている。 このモデルは、Agens.jl julia package [Datseris et al., 2022]に基づくユリア語[Elsheikh, 2023a]で実装された。

This document presents adequate formal terminology for the mathematical specification of a subset of Agent Based Models (ABMs) in the field of Demography. The simulation of the targeted ABMs follows a fixed-step single-clocked pattern. The proposed terminology further improves the model understanding and can act as a stand-alone methodology for the specification and optionally the documentation of a significant set of (demographic) ABMs. Nevertheless, it is imaginable the this terminology probably with further extensions can be merged with the largely-informal widely-used model documentation and communication O.D.D. protocol [Grimm and et al., 2020, Amouroux et al., 2010] to reduce many sources of ambiguity, hindering model replications by other modelers. A published demographic model documentation, largely simplified version of the Lone Parent Model [Gostoli and Silverman, 2020] is separately published in [Elsheikh, 2023b] as illustration for the formal terminology. The model was implemented in the Julia language [Elsheikh, 2023a] based on the Agents.jl julia package [Datseris et al., 2022].
翻訳日:2023-08-28 15:40:42 公開日:2023-08-24
# マルチモーダル学習を改善するモダリティ構造保存

Preserving Modality Structure Improves Multi-Modal Learning ( http://arxiv.org/abs/2308.13077v1 )

ライセンス: Link先を確認
Swetha Sirnam, Mamshad Nayeem Rizve, Nina Shvetsova, Hilde Kuehne, Mubarak Shah(参考訳) 大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、共同マルチモーダル表現空間に意味論的に意味のある埋め込みを学習することができる。 これらの共同埋め込みは、検索や分類のようなゼロショットのクロスモーダルなタスクを可能にする。 しかし、これらの手法はモダリティ固有の埋め込みに存在する意味構造を無視するため、ドメイン外のデータをうまく一般化するのに苦労することが多い。 この文脈において,ジョイント埋め込み空間におけるモダリティ固有の関係を保ちながら,一般化性を向上させるための新しい意味構造保存一貫性アプローチを提案する。 サンプル間のモーダリティ特有の意味関係を捉えるために,複数のアンカーを学習し,それらのアンカーとの関係に関してサンプル間の多面的な関係を表現することを提案する。 各サンプルに複数のアンカーを割り当てるために,新しいマルチアサインメントシンクホーン-ノックアルゴリズムを提案する。 実験により,提案手法は意味論的に意味のあるアンカーを自己指導的に学習することを示した。 さらに,msr-vttとyoucook2データセットの評価により,提案するマルチアンカー割当方式が最先端性能を実現し,ドメイン内データセットとドメイン外データセットの両方に一般化できることを実証した。 コード: https://github.com/swetha5/multi_sinkhorn_knopp

Self-supervised learning on large-scale multi-modal datasets allows learning semantically meaningful embeddings in a joint multi-modal representation space without relying on human annotations. These joint embeddings enable zero-shot cross-modal tasks like retrieval and classification. However, these methods often struggle to generalize well on out-of-domain data as they ignore the semantic structure present in modality-specific embeddings. In this context, we propose a novel Semantic-Structure-Preserving Consistency approach to improve generalizability by preserving the modality-specific relationships in the joint embedding space. To capture modality-specific semantic relationships between samples, we propose to learn multiple anchors and represent the multifaceted relationship between samples with respect to their relationship with these anchors. To assign multiple anchors to each sample, we propose a novel Multi-Assignment Sinkhorn-Knopp algorithm. Our experimentation demonstrates that our proposed approach learns semantically meaningful anchors in a self-supervised manner. Furthermore, our evaluation on MSR-VTT and YouCook2 datasets demonstrates that our proposed multi-anchor assignment based solution achieves state-of-the-art performance and generalizes to both inand out-of-domain datasets. Code: https://github.com/Swetha5/Multi_Sinkhorn_Knopp
翻訳日:2023-08-28 15:40:22 公開日:2023-08-24
# 在庫管理のためのビジネスメトリックアウェア予測

Business Metric-Aware Forecasting for Inventory Management ( http://arxiv.org/abs/2308.13118v1 )

ライセンス: Link先を確認
Helen Zhou, Sercan O. Arik, Jingtao Wang(参考訳) 時系列予測はビジネス計画において重要な役割を果たす。 しかし、予測者は一般的に下流のビジネス目標に依存しない目標を最適化するので、ビジネスの好みに合致しない予測を生成できる。 本稿では,従来の予測指標の最適化が,下流ビジネスのパフォーマンスの最適化につながることを実証する。 在庫管理の設定に着目し,共通下流ビジネスメトリクスのプロキシをエンドツーエンドの微分可能な方法で最適化し,効率的な計算手順を導出する。 そして、エンドツーエンドの最適化が標準的なビジネスに依存しない予測指標(単純なスケーリングモデルでは最大45.7%、LSTMエンコーダ/デコーダモデルでは最大54.0%)の最適化よりも優れていることを実証的に示す。 最後に、我々の調査結果が他のビジネスコンテキストにどのように役立つかについて議論する。

Time-series forecasts play a critical role in business planning. However, forecasters typically optimize objectives that are agnostic to downstream business goals and thus can produce forecasts misaligned with business preferences. In this work, we demonstrate that optimization of conventional forecasting metrics can often lead to sub-optimal downstream business performance. Focusing on the inventory management setting, we derive an efficient procedure for computing and optimizing proxies of common downstream business metrics in an end-to-end differentiable manner. We explore a wide range of plausible cost trade-off scenarios, and empirically demonstrate that end-to-end optimization often outperforms optimization of standard business-agnostic forecasting metrics (by up to 45.7% for a simple scaling model, and up to 54.0% for an LSTM encoder-decoder model). Finally, we discuss how our findings could benefit other business contexts.
翻訳日:2023-08-28 15:31:31 公開日:2023-08-24
# 多言語知識蒸留を用いた古代ギリシア語の文埋め込みモデル

Sentence Embedding Models for Ancient Greek Using Multilingual Knowledge Distillation ( http://arxiv.org/abs/2308.13116v1 )

ライセンス: Link先を確認
Kevin Krahn, Derrick Tate, Andrew C. Lamicela(参考訳) 文脈言語モデルは古代ギリシア語やラテン語など古典言語で訓練され、補題化、形態素タグ付け、音声タグ付けの一部、著者の帰属、文字ミスの検出などが行われている。 しかし、これらの歴史的言語に対する高品質な文埋め込みモデルは、訓練データがないため、はるかに困難である。 本研究では,古代ギリシア語テキストの文埋め込みを生成するために,多言語知識蒸留手法を用いてBERTモデルを訓練する。 高リソース言語に対する最先端の文埋め込みアプローチは、大量のデータセットを使用するが、我々の蒸留アプローチは、我々の古代ギリシアのモデルが比較的少量の翻訳文データを使用しながら、これらのモデルの特性を継承することを可能にする。 文埋め込みアライメント法を用いて並列文データセットを構築し、古代ギリシアの文書を英語の翻訳と整列させ、このデータセットを使ってモデルを訓練する。 翻訳検索,意味的類似性,意味的検索タスクに関するモデルを評価し,翻訳バイアスを調査した。 トレーニングと評価データセットはhttps://github.com/kevinkrahn/ancient-greek-datasetsで無償公開しています。

Contextual language models have been trained on Classical languages, including Ancient Greek and Latin, for tasks such as lemmatization, morphological tagging, part of speech tagging, authorship attribution, and detection of scribal errors. However, high-quality sentence embedding models for these historical languages are significantly more difficult to achieve due to the lack of training data. In this work, we use a multilingual knowledge distillation approach to train BERT models to produce sentence embeddings for Ancient Greek text. The state-of-the-art sentence embedding approaches for high-resource languages use massive datasets, but our distillation approach allows our Ancient Greek models to inherit the properties of these models while using a relatively small amount of translated sentence data. We build a parallel sentence dataset using a sentence-embedding alignment method to align Ancient Greek documents with English translations, and use this dataset to train our models. We evaluate our models on translation search, semantic similarity, and semantic retrieval tasks and investigate translation bias. We make our training and evaluation datasets freely available at https://github.com/kevinkrahn/ancient-greek-datasets .
翻訳日:2023-08-28 15:31:14 公開日:2023-08-24
# 大規模言語モデルに対するベイズ低位適応

Bayesian low-rank adaptation for large language models ( http://arxiv.org/abs/2308.13111v1 )

ライセンス: Link先を確認
Adam X. Yang, Maxime Robeyns, Xi Wang, Laurence Aitchison(参考訳) パラメータ効率細調整(PEFT)は大規模言語モデル(LLM)のコスト効率向上のための新しいパラダイムとして登場し、ローランク適応(LoRA)が広く採用されている。 しかし、細調整されたLLMは、特に小さなデータセットで細調整された場合、過信されることが多い。 ベイズ的手法は、不確実性を推定する固有の能力を持ち、過信を緩和し校正を強化する強力なツールとして機能する。 本研究では,LoRAパラメータにLaplace近似を適用し,微調整LDMの校正を著しく促進する,単純で効果的なベイズ法であるLaplace-LoRAを紹介する。

Parameter-efficient fine-tuning (PEFT) has emerged as a new paradigm for cost-efficient fine-tuning of large language models (LLMs), with low-rank adaptation (LoRA) being a widely adopted choice. However, fine-tuned LLMs often become overconfident especially on when fine-tuned on smaller datasets. Bayesian methods, with their inherent ability to estimate uncertainty, serve as potent tools to mitigate overconfidence and enhance calibration. In this work, we introduce Laplace-LoRA, a straightforward yet effective Bayesian method, which applies the Laplace approximation to the LoRA parameters and, considerably boosts the calibration of fine-tuned LLMs.
翻訳日:2023-08-28 15:30:55 公開日:2023-08-24
# 電子カルテの生存分析における時間的識別性の対比学習

Contrastive Learning of Temporal Distinctiveness for Survival Analysis in Electronic Health Records ( http://arxiv.org/abs/2308.13104v1 )

ライセンス: Link先を確認
Mohsen Nayebi Kerdabadi, Arya Hadizadeh Moghaddam, Bin Liu, Mei Liu, Zijun Yao(参考訳) 生存分析は多くの医療決定において重要な役割を担い、そこでは、関心事のリスク予測が患者の医療旅行に対する情報的展望を支える。 データ検閲の存在を前提として、サバイバル分析の効果的な方法は、検閲されたデータと観測されたデータのペアワイズ時間一致を強制することであり、検閲前の時間間隔を教師あり学習のための部分的に観察された時間-イベントラベルとして活用することを目的としている。 既存の研究では、主に順序付け目的を追求するランク付け手法が採用されているが、データに対比して識別的埋め込みを学習するコントラスト的手法は、生存分析のために徹底的に研究されていない。 そこで,本稿では,検閲データと観察データの両方から生存期間を利用して,時間的特有性を定義し,適応性のある硬度を持つ負のサンプルペアを構築可能な,オントロジーに配慮したコントラシブ・サバイバル(OTCSurv)分析フレームワークを提案する。 具体的には、まずオントロジエンコーダとシーケンシャルセルフアテンションエンコーダを用いて、時系列のERHデータをリッチコンテキストで表現する。 第2に,硬さを認識できる負のサンプリング機構を用いて,教師付き環境での生存期間の変動を捉えるために,時間的コントラストロスを設計する。 最後に、コントラストタスクを複数の損失コンポーネントを持つ時間-イベント予測タスクに組み込む。 急性腎障害(AKI)を発症する危険のある入院患者のリスクを予測するために,大規模なEHRデータセットを用いて広範囲にわたる実験を行った。 提案モデルの有効性と説明性は,包括的定量的および定性的研究によって検証される。

Survival analysis plays a crucial role in many healthcare decisions, where the risk prediction for the events of interest can support an informative outlook for a patient's medical journey. Given the existence of data censoring, an effective way of survival analysis is to enforce the pairwise temporal concordance between censored and observed data, aiming to utilize the time interval before censoring as partially observed time-to-event labels for supervised learning. Although existing studies mostly employed ranking methods to pursue an ordering objective, contrastive methods which learn a discriminative embedding by having data contrast against each other, have not been explored thoroughly for survival analysis. Therefore, in this paper, we propose a novel Ontology-aware Temporality-based Contrastive Survival (OTCSurv) analysis framework that utilizes survival durations from both censored and observed data to define temporal distinctiveness and construct negative sample pairs with adjustable hardness for contrastive learning. Specifically, we first use an ontological encoder and a sequential self-attention encoder to represent the longitudinal EHR data with rich contexts. Second, we design a temporal contrastive loss to capture varying survival durations in a supervised setting through a hardness-aware negative sampling mechanism. Last, we incorporate the contrastive task into the time-to-event predictive task with multiple loss components. We conduct extensive experiments using a large EHR dataset to forecast the risk of hospitalized patients who are in danger of developing acute kidney injury (AKI), a critical and urgent medical condition. The effectiveness and explainability of the proposed model are validated through comprehensive quantitative and qualitative studies.
翻訳日:2023-08-28 15:30:43 公開日:2023-08-24
# ニューラルネットワークのためのハイブリッド遺伝的アルゴリズムとヒルクライミング最適化

Hybrid Genetic Algorithm and Hill Climbing Optimization for the Neural Network ( http://arxiv.org/abs/2308.13099v1 )

ライセンス: Link先を確認
Krutika Sarode, Shashidhar Reddy Javaji(参考訳) 本稿では,CIFAR-100データセット上での畳み込みニューラルネットワーク(CNN)を最適化するための遺伝的アルゴリズムとヒルクライミングアルゴリズムを組み合わせたハイブリッドモデルを提案する。 提案モデルはCNNモデルのハイパーパラメータを表す染色体の集団を利用する。 遺伝的アルゴリズムは、新しい子孫を生み出すために適合した染色体の選択と育種に使用される。 次にヒルクライミングアルゴリズムを子孫に適用し、ハイパーパラメータをさらに最適化する。 変異操作は個体群を多様化させ、アルゴリズムが局所光学系に詰まるのを防ぐために導入される。 遺伝的アルゴリズムは検索空間のグローバル検索と探索に使われ、ヒルクライミングは期待できる解の局所最適化に使われている。 目的関数は、CIFAR-100テストセット上のトレーニングニューラルネットワークの精度である。 ハイブリッドモデルの性能を,標準遺伝的アルゴリズムとヒルクライミングアルゴリズムとの比較により評価した。 実験の結果,提案したハイブリッドモデルでは,標準アルゴリズムよりも少ない世代で精度が向上していることがわかった。 したがって、提案するハイブリッドモデルは、大規模データセット上でcnnモデルを最適化するための有望なアプローチとなり得る。

In this paper, we propose a hybrid model combining genetic algorithm and hill climbing algorithm for optimizing Convolutional Neural Networks (CNNs) on the CIFAR-100 dataset. The proposed model utilizes a population of chromosomes that represent the hyperparameters of the CNN model. The genetic algorithm is used for selecting and breeding the fittest chromosomes to generate new offspring. The hill climbing algorithm is then applied to the offspring to further optimize their hyperparameters. The mutation operation is introduced to diversify the population and to prevent the algorithm from getting stuck in local optima. The Genetic Algorithm is used for global search and exploration of the search space, while Hill Climbing is used for local optimization of promising solutions. The objective function is the accuracy of the trained neural network on the CIFAR-100 test set. The performance of the hybrid model is evaluated by comparing it with the standard genetic algorithm and hill-climbing algorithm. The experimental results demonstrate that the proposed hybrid model achieves better accuracy with fewer generations compared to the standard algorithms. Therefore, the proposed hybrid model can be a promising approach for optimizing CNN models on large datasets.
翻訳日:2023-08-28 15:30:13 公開日:2023-08-24
# CompaCT:高色DICOM医用画像のロスレス圧縮のためのフラクタルベースヒューリスティック・ピクセル・セグメンテーション

CompaCT: Fractal-Based Heuristic Pixel Segmentation for Lossless Compression of High-Color DICOM Medical Images ( http://arxiv.org/abs/2308.13097v1 )

ライセンス: Link先を確認
Taaha Khan(参考訳) 医療画像圧縮は、現代のデジタルデータベースで普及しているため、広く研究されているデータ処理分野である。 このドメインは、主にDICOMフォーマットで医師による正確な分析のために、1ピクセルあたり12ビットの高色深度を必要とする。 フィルタリングによる画像の標準ラスター圧縮はよく知られているが、非特殊化実装のため医療領域では最適ではない。 本研究では,動的に拡張されたデータ処理のために,空間的特徴量と画素集中度パターンを対象とするロスレス医用画像圧縮アルゴリズム,compactを提案する。 このアルゴリズムはフラクタルピクセルトラバーサルと、前処理のためのピクセルブロック間のセグメンテーションとメッシュ化の新しいアプローチを組み合わせたものである。 さらに、完全圧縮パイプラインのこの概念にデルタおよびエントロピー符号化を適用する。 提案手法は, フラクタル分割前処理により得られたデータ圧縮により, 画像圧縮結果が向上し, 復元精度は損なわれないことを示す。 CompaCTは、業界標準圧縮技術(JPEG2000、RLE、ZIP、PNG)の効率に対して3954個の高色CTスキャンの圧縮比で評価される。 その復元性能は、圧縮後のロスレス画像回復を検証するためにエラーメトリクスで評価される。 その結果、CompaCTは、業界標準の圧縮システムよりも37%の空間効率で、医用画像の圧縮とロスレス再構成が可能であった。

Medical image compression is a widely studied field of data processing due to its prevalence in modern digital databases. This domain requires a high color depth of 12 bits per pixel component for accurate analysis by physicians, primarily in the DICOM format. Standard raster-based compression of images via filtering is well-known; however, it remains suboptimal in the medical domain due to non-specialized implementations. This study proposes a lossless medical image compression algorithm, CompaCT, that aims to target spatial features and patterns of pixel concentration for dynamically enhanced data processing. The algorithm employs fractal pixel traversal coupled with a novel approach of segmentation and meshing between pixel blocks for preprocessing. Furthermore, delta and entropy coding are applied to this concept for a complete compression pipeline. The proposal demonstrates that the data compression achieved via fractal segmentation preprocessing yields enhanced image compression results while remaining lossless in its reconstruction accuracy. CompaCT is evaluated in its compression ratios on 3954 high-color CT scans against the efficiency of industry-standard compression techniques (i.e., JPEG2000, RLE, ZIP, PNG). Its reconstruction performance is assessed with error metrics to verify lossless image recovery after decompression. The results demonstrate that CompaCT can compress and losslessly reconstruct medical images, being 37% more space-efficient than industry-standard compression systems.
翻訳日:2023-08-28 15:29:55 公開日:2023-08-24
# 不確実性量子化によるマルチミリオン原子系の電子構造予測

Electronic Structure Prediction of Multi-million Atom Systems Through Uncertainty Quantification Enabled Transfer Learning ( http://arxiv.org/abs/2308.13096v1 )

ライセンス: Link先を確認
Shashank Pathrudkar, Ponkrshnan Thiagarajan, Shivang Agarwal, Amartya S. Banerjee, Susanta Ghosh(参考訳) 基底状態電子密度 - コーン・シャム密度汎関数理論(KS-DFT)シミュレーションを用いて取得できる - には豊富な物質情報が含まれており、機械学習(ML)モデルによる予測は魅力的である。 しかし、ks-dftの計算コストは、トレーニングデータ生成を安定させる傾向があり、多くのスケールやシステム構成に適用可能な精度の高いmlモデルを開発するのが困難である。 本稿では、ベイズニューラルネットワークを用いたこれらの基本的な課題に対処し、移行学習を用いてトレーニングデータのマルチスケールな性質を活用する。 我々のMLモデルは、単純なスカラー製品を含む記述子を使用し、熱化によるシステム構成を包括的にサンプリングし、電子密度予測の不確かさを定量化する。 我々のモデルはデータ生成コストを著しく低減し、信頼性と精度を検証すれば、欠陥のあるシステム、異なる合金組成、前例のない数百万の原子スケールを含む、トレーニング以上の多様なバルクシステムの予測を可能にする。

The ground state electron density - obtainable using Kohn-Sham Density Functional Theory (KS-DFT) simulations - contains a wealth of material information, making its prediction via machine learning (ML) models attractive. However, the computational expense of KS-DFT scales cubically with system size which tends to stymie training data generation, making it difficult to develop quantifiably accurate ML models that are applicable across many scales and system configurations. Here, we address these fundamental challenges using Bayesian neural networks and employ transfer learning to leverage the multi-scale nature of the training data. Our ML models employ descriptors involving simple scalar products, comprehensively sample system configurations through thermalization, and quantify uncertainty in electron density predictions. We show that our models incur significantly lower data generation costs while allowing confident - and when verifiable, accurate - predictions for a wide variety of bulk systems well beyond training, including systems with defects, different alloy compositions, and at unprecedented, multi-million-atom scales.
翻訳日:2023-08-28 15:29:30 公開日:2023-08-24
# 複数音韻プロンプトペアを用いたCLIPによる画像品質評価

Interpretable Image Quality Assessment via CLIP with Multiple Antonym-Prompt Pairs ( http://arxiv.org/abs/2308.13094v1 )

ライセンス: Link先を確認
Takamichi Miyata(参考訳) 基準画像品質評価(NR-IQA)は、対応する原画像なしで画像の知覚品質を推定するタスクである。 タスク固有のトレーニングがなければ、ゼロショットでこのタスクを実行するのはさらに難しくなります。 本稿では,画像とテキストのプロンプトの相関関係を推定するために,事前学習された視覚言語モデルの能力を利用する新しいゼロショットかつ解釈可能なNRIQA法を提案する。 提案手法は, 画像品質に応じて慎重に選択された記述特徴に対応する, 素早いペアリング戦略と複数のアントロニム・プロンプトペアを用いる。 これにより、画像の知覚的品質評価だけでなく、品質評価の根拠となる原因を特定することができる。 実験の結果,提案手法は既存のゼロショットNR-IQA法よりも精度が高く,知覚的品質劣化の原因を評価することができることがわかった。

No reference image quality assessment (NR-IQA) is a task to estimate the perceptual quality of an image without its corresponding original image. It is even more difficult to perform this task in a zero-shot manner, i.e., without task-specific training. In this paper, we propose a new zero-shot and interpretable NRIQA method that exploits the ability of a pre-trained visionlanguage model to estimate the correlation between an image and a textual prompt. The proposed method employs a prompt pairing strategy and multiple antonym-prompt pairs corresponding to carefully selected descriptive features corresponding to the perceptual image quality. Thus, the proposed method is able to identify not only the perceptual quality evaluation of the image, but also the cause on which the quality evaluation is based. Experimental results show that the proposed method outperforms existing zero-shot NR-IQA methods in terms of accuracy and can evaluate the causes of perceptual quality degradation.
翻訳日:2023-08-28 15:29:09 公開日:2023-08-24
# スピン鎖の局所作用素絡み合い

Local Operator Entanglement in Spin Chains ( http://arxiv.org/abs/2012.14609v4 )

ライセンス: Link先を確認
Eric Mascot, Masahiro Nozaki, Masaki Tezuka(参考訳) 局所摂動が量子系全体に与える影響を理解することは、熱化のような非平衡現象を理解するための基本的なステップである。 この非平衡現象の知識は量子計算に応用され、多くの量子コンピュータは計算に非平衡過程を用いる。 本稿では,磁場を伴う一次元イジングモデルと無秩序ハイゼンベルクモデルにおける時間発展作用素とパウリスピン作用素の相互情報と二成分作用素の相互関係について検討し,量子回路の性質について検討する。 イジングモデルでは、早期進化は有効光円錐像を定性的に追従し、後期値はランダムな純粋な状態に対するページ値によってよく説明される。 強障害を有するハイゼンベルクモデルでは,多体局在化は情報の伝播や非局在化を防ぐ。 また,大規模障害領域におけるハイゼンベルクモデルに対する二項および三項作用素相互情報の進化を記述する効果的なイジング・ハミルトニアンも発見する。

Understanding how and whether local perturbations can affect the entire quantum system is a fundamental step in understanding non-equilibrium phenomena such as thermalization. This knowledge of non-equilibrium phenomena is applicable for quantum computation, as many quantum computers employ non-equilibrium processes for computations. In this paper, we investigate the evolution of bi- and tripartite operator mutual information of the time-evolution operator and the Pauli spin operators in the one-dimensional Ising model with magnetic field and the disordered Heisenberg model to study the properties of quantum circuits. In the Ising model, the early-time evolution qualitatively follows an effective light cone picture, and the late-time value is well described by Page's value for a random pure state. In the Heisenberg model with strong disorder, we find that many-body localization prevents the information from propagating and being delocalized. We also find an effective Ising Hamiltonian that describes the time evolution of bi- and tripartite operator mutual information for the Heisenberg model in the large disorder regime.
翻訳日:2023-08-25 19:17:36 公開日:2023-08-24
# 分布自由相関型SQ学習のための多項式法

The Polynomial Method is Universal for Distribution-Free Correlational SQ Learning ( http://arxiv.org/abs/2010.11925v3 )

ライセンス: Link先を確認
Aravind Gollakota, Sushrut Karmalkar, Adam Klivans(参考訳) PACおよび非依存モデルにおけるブール関数クラスに対する分布自由学習の問題点を考察する。 Malach と Shalev-Shwartz (2022) による DNF 式を学習するための厳密な相関 SQ (CSQ) 下界を与える美しい研究を一般化し、各関数クラスのしきい値あるいは近似次数に対する下界が、それぞれPAC あるいは無知学習のCSQ 下界を暗示する新しい証明を与える。 このような境界は、Feldman (2008, 2012) と Sherstov (2008, 2011) の事前の結果を組み合わせることで暗黙的に従うが、我々の知識では、我々がこれまでこの形式になかった正確な文が現れる。 さらに、我々の証明は単純で、ほとんど自己完結している。 これらの下界は、PACや非依存学習のためのSQモデルにおける閾値の上界や近似次数を用いて対応する正の値と一致し、この意味では、多項式法は分布のないCSQ学習において、普遍的で最も有望なアプローチであることを示す。

We consider the problem of distribution-free learning for Boolean function classes in the PAC and agnostic models. Generalizing a beautiful work of Malach and Shalev-Shwartz (2022) that gave tight correlational SQ (CSQ) lower bounds for learning DNF formulas, we give new proofs that lower bounds on the threshold or approximate degree of any function class directly imply CSQ lower bounds for PAC or agnostic learning respectively. While such bounds implicitly follow by combining prior results by Feldman (2008, 2012) and Sherstov (2008, 2011), to our knowledge the precise statements we give had not appeared in this form before. Moreover, our proofs are simple and largely self-contained. These lower bounds match corresponding positive results using upper bounds on the threshold or approximate degree in the SQ model for PAC or agnostic learning, and in this sense these results show that the polynomial method is a universal, best-possible approach for distribution-free CSQ learning.
翻訳日:2023-08-25 19:16:57 公開日:2023-08-24
# UCB帯域における最適対外攻撃

Near Optimal Adversarial Attack on UCB Bandits ( http://arxiv.org/abs/2008.09312v6 )

ライセンス: Link先を確認
Shiliang Zuo(参考訳) 私は、報酬が敵対的腐敗の対象となる確率的多腕バンディット問題を研究する。 私は、ucbアルゴリズムを用いた学習者を操作する新しい攻撃戦略を提案する。ここでは、$t$がラウンド数である$\widehat{o}(\sqrt{\log t})$という累積コストで、非最適ターゲットarm $t - o(t)$を引く。 また、累積攻撃コストに対する最初の下限も証明します。 下限は$O(\log \log T)$ factorまでの上限値と一致し、提案した攻撃戦略がほぼ最適であることを示す。

I study a stochastic multi-arm bandit problem where rewards are subject to adversarial corruption. I propose a novel attack strategy that manipulates a learner employing the UCB algorithm into pulling some non-optimal target arm $T - o(T)$ times with a cumulative cost that scales as $\widehat{O}(\sqrt{\log T})$, where $T$ is the number of rounds. I also prove the first lower bound on the cumulative attack cost. The lower bound matches the upper bound up to $O(\log \log T)$ factors, showing the proposed attack strategy to be near optimal.
翻訳日:2023-08-25 19:16:33 公開日:2023-08-24
# 全光位相検索顕微鏡の微分顕微鏡設計

Differentiable Microscopy Designs an All Optical Phase Retrieval Microscope ( http://arxiv.org/abs/2203.14944v4 )

ライセンス: Link先を確認
Kithmini Herath, Udith Haputhanthri, Ramith Hettiarachchi, Hasindu Kariyawasam, Raja N. Ahmad, Azeem Ahmad, Balpreet S. Ahluwalia, Chamira U. S. Edussooriya, Dushan N. Wadduwage(参考訳) 16世紀後半から、科学者は様々な用途に新しい顕微鏡を改良し開発してきた。 ゼロから新しいアーキテクチャを構築するには、かなりの科学的専門知識と創造性が必要であり、しばしば数年や数十年に及ぶ。 本研究では,光学顕微鏡のためのトップダウン設計パラダイムを導入する「微分可能顕微鏡」という代替手法を提案する。 実例として全光位相探索を用い,データ駆動型顕微鏡設計の有効性を$\partial\mu$で示す。 さらに,生体サンプルを含む複数のデータセットにまたがる学習設計の一貫した優位性を示すため,競合する手法との包括的比較を行った。 我々の考えを裏付けるために、我々は学習した設計の1つの機能について実験的に検証し、概念実証を提供する。 提案された微分可能な顕微鏡フレームワークは、新しい光学系を設計する創造的なプロセスを補完するものであり、おそらくは従来と変わらないがより良い光学設計につながるだろう。

Since the late 16th century, scientists have continuously innovated and developed new microscope types for various applications. Creating a new architecture from the ground up requires substantial scientific expertise and creativity, often spanning years or even decades. In this study, we propose an alternative approach called "Differentiable Microscopy," which introduces a top-down design paradigm for optical microscopes. Using all-optical phase retrieval as an illustrative example, we demonstrate the effectiveness of data-driven microscopy design through $\partial\mu$. Furthermore, we conduct comprehensive comparisons with competing methods, showcasing the consistent superiority of our learned designs across multiple datasets, including biological samples. To substantiate our ideas, we experimentally validate the functionality of one of the learned designs, providing a proof of concept. The proposed differentiable microscopy framework supplements the creative process of designing new optical systems and would perhaps lead to unconventional but better optical designs.
翻訳日:2023-08-25 19:12:33 公開日:2023-08-24
# monodetr:3次元物体検出のための深さ誘導変圧器

MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection ( http://arxiv.org/abs/2203.13310v4 )

ライセンス: Link先を確認
Renrui Zhang, Han Qiu, Tai Wang, Ziyu Guo, Xuanzhuo Xu, Ziteng Cui, Yu Qiao, Peng Gao, Hongsheng Li(参考訳) モノキュラーな3dオブジェクト検出は、自動運転における長年の課題だった。 既存の手法のほとんどは、まずオブジェクトセンタをローカライズし、次に隣接する特徴によって3d属性を予測する従来の2d検出器に従っている。 しかし、シーンレベルの3次元空間構造を理解するには局所的な視覚的特徴だけでは不十分であり、長距離物体間深度関係を無視する。 本稿では,深度誘導型TRansformer(MonoDETR)を用いたモノクロ検出のための最初のDETRフレームワークを紹介する。 我々は,バニラ変圧器を深度認識に修正し,文脈的深度手がかりによる全検出プロセスを導出する。 具体的には,物体の出現をキャプチャする視覚エンコーダと並行して,前景深度マップを予測し,奥行きエンコーダを特殊化し,非局所深度埋め込みを抽出する。 そこで,3次元オブジェクト候補を学習可能なクエリとして定式化し,深度誘導型デコーダを提案する。 このように、各オブジェクトクエリは、画像上の奥行き誘導領域から適応的に3D属性を推定し、もはや局所的な視覚的特徴に制約されない。 モノクルイメージを入力としてKITTIベンチマークでは、MonoDETRは最先端のパフォーマンスを実現し、追加の深度アノテーションを必要としない。 さらに、深さ誘導モジュールをプラグアンドプレイすることで、nuScenesデータセット上の多視点3Dオブジェクト検出器を強化し、より優れた一般化能力を示す。 コードはhttps://github.com/ZrrSkywalker/MonoDETRで入手できる。

Monocular 3D object detection has long been a challenging task in autonomous driving. Most existing methods follow conventional 2D detectors to first localize object centers, and then predict 3D attributes by neighboring features. However, only using local visual features is insufficient to understand the scene-level 3D spatial structures and ignores the long-range inter-object depth relations. In this paper, we introduce the first DETR framework for Monocular DEtection with a depth-guided TRansformer, named MonoDETR. We modify the vanilla transformer to be depth-aware and guide the whole detection process by contextual depth cues. Specifically, concurrent to the visual encoder that captures object appearances, we introduce to predict a foreground depth map, and specialize a depth encoder to extract non-local depth embeddings. Then, we formulate 3D object candidates as learnable queries and propose a depth-guided decoder to conduct object-scene depth interactions. In this way, each object query estimates its 3D attributes adaptively from the depth-guided regions on the image and is no longer constrained to local visual features. On KITTI benchmark with monocular images as input, MonoDETR achieves state-of-the-art performance and requires no extra dense depth annotations. Besides, our depth-guided modules can also be plug-and-play to enhance multi-view 3D object detectors on nuScenes dataset, demonstrating our superior generalization capacity. Code is available at https://github.com/ZrrSkywalker/MonoDETR.
翻訳日:2023-08-25 19:12:17 公開日:2023-08-24
# トランスベース事前学習言語モデルを用いた制御可能なテキスト生成に関する調査

A Survey of Controllable Text Generation using Transformer-based Pre-trained Language Models ( http://arxiv.org/abs/2201.05337v5 )

ライセンス: Link先を確認
Hanqing Zhang, Haolin Song, Shaoyu Li, Ming Zhou, Dawei Song(参考訳) 制御可能なテキスト生成(CTG)は、自然言語生成(NLG)分野における新興分野である。 実用上の制約をよりよく満たす高度なテキスト生成技術を開発する上で重要であると考えられている。 近年、大規模な事前学習言語モデル(PLM)を用いた手法、特に広く使われているトランスフォーマーベースのPLMは、NLGの新しいパラダイムとなり、より多種多様な流動的なテキストを生成することができる。 しかし、ディープニューラルネットワークの解釈可能性に限界があるため、これらの手法の制御性を保証する必要がある。 この目的のために、トランスフォーマーベースのPLMを用いた制御可能なテキスト生成は、急速に成長するが、新しい研究ホットスポットとなっている。 近年の3~4年間で、様々なタイプの制御制約を必要とするCTGタスクをターゲットにした多様なアプローチが出現している。 本稿では,この分野における共通課題,主なアプローチ,評価手法について,系統的な批判的考察を行う。 最後に、この分野が直面している課題について議論し、様々な将来的な方向性を提示する。 我々の知る限りでは、トランスフォーマーベースのPLMの観点から最先端CTG技術の概要をまとめた最初の調査論文である。 関連分野の研究者や実践者が、学術的および技術的フロンティアを迅速に追跡し、その領域の風景と将来の研究のロードマップを提供するのに役立つことを期待している。

Controllable Text Generation (CTG) is emerging area in the field of natural language generation (NLG). It is regarded as crucial for the development of advanced text generation technologies that better meet the specific constraints in practical applications. In recent years, methods using large-scale pre-trained language models (PLMs), in particular the widely used transformer-based PLMs, have become a new paradigm of NLG, allowing generation of more diverse and fluent text. However, due to the limited level of interpretability of deep neural networks, the controllability of these methods need to be guaranteed. To this end, controllable text generation using transformer-based PLMs has become a rapidly growing yet challenging new research hotspot. A diverse range of approaches have emerged in the recent 3-4 years, targeting different CTG tasks that require different types of controlled constraints. In this paper, we present a systematic critical review on the common tasks, main approaches, and evaluation methods in this area. Finally, we discuss the challenges that the field is facing, and put forward various promising future directions. To the best of our knowledge, this is the first survey paper to summarize the state-of-the-art CTG techniques from the perspective of Transformer-based PLMs. We hope it can help researchers and practitioners in the related fields to quickly track the academic and technological frontier, providing them with a landscape of the area and a roadmap for future research.
翻訳日:2023-08-25 19:11:25 公開日:2023-08-24
# マルチモーダル画像合成と編集: 生成的ai時代

Multimodal Image Synthesis and Editing: The Generative AI Era ( http://arxiv.org/abs/2112.13592v6 )

ライセンス: Link先を確認
Fangneng Zhan, Yingchen Yu, Rongliang Wu, Jiahui Zhang, Shijian Lu, Lingjie Liu, Adam Kortylewski, Christian Theobalt, Eric Xing(参考訳) 実世界の様々なモダリティに情報が存在するため、コンピュータビジョンやディープラーニング研究において、マルチモーダル情報間の効果的な相互作用と融合がマルチモーダルデータの生成と認識に重要な役割を果たしている。 マルチモーダル情報間の相互作用をモデル化するスーパーパワーにより、近年はマルチモーダル画像合成と編集がホットな研究トピックとなっている。 ネットワークトレーニングのための明確なガイダンスを提供する代わりに、マルチモーダルガイダンスは直感的で柔軟な画像合成と編集の手段を提供する。 一方で,マルチモーダルな特徴のアライメント,高解像度画像の合成,忠実な評価指標など,いくつかの課題に直面している。 本研究では,近年のマルチモーダル画像合成・編集・分類学の進歩を,データモダリティやモデルタイプに応じて包括的に把握する。 まず、画像合成と編集における異なるガイダンスモダリティの紹介から始め、そのモデルタイプに応じて多モード画像合成と編集アプローチを広範囲に記述する。 その後、ベンチマークデータセットと評価メトリクスおよび対応する実験結果について述べる。 最後に,現在の研究課題と今後の研究の方向性について考察する。 この調査に関連するプロジェクトはhttps://github.com/fnzhan/generative-aiで入手できる。

As information exists in various modalities in real world, effective interaction and fusion among multimodal information plays a key role for the creation and perception of multimodal data in computer vision and deep learning research. With superb power in modeling the interaction among multimodal information, multimodal image synthesis and editing has become a hot research topic in recent years. Instead of providing explicit guidance for network training, multimodal guidance offers intuitive and flexible means for image synthesis and editing. On the other hand, this field is also facing several challenges in alignment of multimodal features, synthesis of high-resolution images, faithful evaluation metrics, etc. In this survey, we comprehensively contextualize the advance of the recent multimodal image synthesis and editing and formulate taxonomies according to data modalities and model types. We start with an introduction to different guidance modalities in image synthesis and editing, and then describe multimodal image synthesis and editing approaches extensively according to their model types. After that, we describe benchmark datasets and evaluation metrics as well as corresponding experimental results. Finally, we provide insights about the current research challenges and possible directions for future research. A project associated with this survey is available at https://github.com/fnzhan/Generative-AI.
翻訳日:2023-08-25 19:10:47 公開日:2023-08-24
# プログラマブル量子機器の資源としての非互換性

Incompatibility as a resource for programmable quantum instruments ( http://arxiv.org/abs/2112.03717v6 )

ライセンス: Link先を確認
Kaiyuan Ji and Eric Chitambar(参考訳) 量子楽器は、古典的および量子的なアウトプットを持つ過程を取り入れているため、最も一般的な量子測定のタイプである。 多くのシナリオでは、実験者が欲しがるたびに多くの可能な機器の1つを実装できる 'オンデマンド' デバイスを持つことが望ましい。 本稿では、PID(Programmable instrument device)などのオブジェクトについて言及し、資源理論の観点からPIDについて考察する。 物理的に重要なPIDのクラスは、実装に量子メモリを必要としないもので、これらはこの資源理論において自然に「自由」である。 さらに、これらの自由対象は、チャネルステアリングの理論において、正確には非ステアブルチャネル集合のクラスに対応する。 従来の測定不整合性の概念はこの理論の資源として現れ、なぜなら、不整合楽器群を制御するPIDは量子メモリを構築する必要があるからである。 我々は、追加の量子メモリを必要としないプロセスを用いて、PIDの非互換性事前順序付けを行う。 所定のPIDを用いてゲームがどれだけうまくプレイできるかに基づいて、そのような変換が可能な場合に必要な十分な条件が導出される。 結論として,本研究は非互換性の操作的特徴付けを提供し,最も一般的な量子楽器の非互換性に関する半デバイス非依存テストを提供する。

Quantum instruments represent the most general type of quantum measurement, as they incorporate processes with both classical and quantum outputs. In many scenarios, it may be desirable to have some ``on-demand'' device that is capable of implementing one of many possible instruments whenever the experimenter desires. We refer to such objects as programmable instrument devices (PIDs), and this paper studies PIDs from a resource-theoretic perspective. A physically important class of PIDs are those that do not require quantum memory to implement, and these are naturally ``free'' in this resource theory. Additionally, these free objects correspond precisely to the class of unsteerable channel assemblages in the theory of channel steering. The traditional notion of measurement incompatibility emerges as a resource in this theory since any PID controlling an incompatible family of instruments requires quantum memory to build. We identify an incompatibility pre-ordering of PIDs based on whether one can be transformed into another using processes that do not require additional quantum memory. Necessary and sufficient conditions are derived for when such transformations are possible based on how well certain guessing games can be played using a given PID. Ultimately our results provide an operational characterization of incompatibility, and they offer semi-device-independent tests for incompatibility in the most general types of quantum instruments.
翻訳日:2023-08-25 19:10:29 公開日:2023-08-24
# チープ空間変換を用いたプルーンドフィルタの再構成

Reconstructing Pruned Filters using Cheap Spatial Transformations ( http://arxiv.org/abs/2110.12844v3 )

ライセンス: Link先を確認
Roy Miles and Krystian Mikolajczyk(参考訳) 安価な空間変換を用いた畳み込み層の効率的な代替手段を提案する。 この構成は、学習された畳み込みフィルタの固有の空間的冗長性を利用して、より高いパラメータ効率を実現し、その密集したカウンターパートの最上位精度を維持している。 これらのネットワークのトレーニングは一般化されたプルーニング問題としてモデル化され、プルーニングフィルタは非プルーニングフィルタの集合からの安価な変換に置き換えられる。 提案手法では, 過剰な特徴圧縮を回避し, 変換された特徴の表現性を向上するため, 提案する層を効率的に実装する。 これらのネットワークはcifar-10とimagenet-1kの両方のデータセットで最先端のpruningモデルに匹敵する性能や性能を実現できる。

We present an efficient alternative to the convolutional layer using cheap spatial transformations. This construction exploits an inherent spatial redundancy of the learned convolutional filters to enable a much greater parameter efficiency, while maintaining the top-end accuracy of their dense counter-parts. Training these networks is modelled as a generalised pruning problem, whereby the pruned filters are replaced with cheap transformations from the set of non-pruned filters. We provide an efficient implementation of the proposed layer, followed by two natural extensions to avoid excessive feature compression and to improve the expressivity of the transformed features. We show that these networks can achieve comparable or improved performance to state-of-the-art pruning models across both the CIFAR-10 and ImageNet-1K datasets.
翻訳日:2023-08-25 19:10:07 公開日:2023-08-24
# HCDG:医療画像セグメンテーションに基づく領域一般化のための階層的一貫性フレームワーク

HCDG: A Hierarchical Consistency Framework for Domain Generalization on Medical Image Segmentation ( http://arxiv.org/abs/2109.05742v4 )

ライセンス: Link先を確認
Yijun Yang, Shujun Wang, Lei Zhu, Lequan Yu(参考訳) 現代のディープニューラルネットワークは、現実世界のアプリケーションにデプロイする際、知識の伝達とさまざまなドメインの一般化に苦労している。 現在、ドメイン一般化(DG)は、複数のドメインから普遍的な表現を学習し、目に見えないドメインにおけるネットワーク一般化能力を改善するために導入されている。 しかし、従来のDG法は、異なる整合性スキーム間の相乗的正規化を考慮せずに、データレベルの整合性スキームにのみフォーカスする。 本稿では,ドメイン・ジェネリゼーション(HCDG)のための新しい階層的一貫性フレームワークを提案する。 特にExtrinsic Consistencyでは、複数のソースドメインにわたる知識を活用して、データレベルの一貫性を実現しています。 このような一貫性をさらに高めるため、新しい振幅ガウス混合戦略をドメインアップと呼ばれるフーリエベースのデータ拡張に設計する。 Intrinsic Consistencyでは、デュアルタスクシナリオの下で同じインスタンスに対してタスクレベルの一貫性を実行します。 提案するhcdgフレームワークを2つの医用画像分割タスク、すなわち眼球レンズカップ/ディスクセグメンテーションと前立腺mriセグメンテーションについて評価した。 HCDGフレームワークの有効性と汎用性について検討した。

Modern deep neural networks struggle to transfer knowledge and generalize across diverse domains when deployed to real-world applications. Currently, domain generalization (DG) is introduced to learn a universal representation from multiple domains to improve the network generalization ability on unseen domains. However, previous DG methods only focus on the data-level consistency scheme without considering the synergistic regularization among different consistency schemes. In this paper, we present a novel Hierarchical Consistency framework for Domain Generalization (HCDG) by integrating Extrinsic Consistency and Intrinsic Consistency synergistically. Particularly, for the Extrinsic Consistency, we leverage the knowledge across multiple source domains to enforce data-level consistency. To better enhance such consistency, we design a novel Amplitude Gaussian-mixing strategy into Fourier-based data augmentation called DomainUp. For the Intrinsic Consistency, we perform task-level consistency for the same instance under the dual-task scenario. We evaluate the proposed HCDG framework on two medical image segmentation tasks, i.e., optic cup/disc segmentation on fundus images and prostate MRI segmentation. Extensive experimental results manifest the effectiveness and versatility of our HCDG framework.
翻訳日:2023-08-25 19:09:54 公開日:2023-08-24
# Trip-ROMA: トリプレットとランダムマッピングによる自己監督型学習

Trip-ROMA: Self-Supervised Learning with Triplets and Random Mappings ( http://arxiv.org/abs/2107.10419v3 )

ライセンス: Link先を確認
Wenbin Li, Xuesong Yang, Meihao Kong, Lei Wang, Jing Huo, Yang Gao and Jiebo Luo(参考訳) 対照的な自己教師あり学習(ssl)メソッド、例えばmocoやsimclrは教師なし視覚表現学習で大きな成功を収めている。 それらは多数の負のペアに依存しており、大きなメモリバンクまたは大きなバッチを必要とする。 BYOLやSimSiamのような最近の非競合的なSSLメソッドは、負のペアを捨てようと試みており、性能も顕著である。 負のペアを使わずに崩壊した解を避けるために、これらの方法は非自明な非対称性設計を必要とする。 しかし、小さなデータレジームでは、十分な数の負のペアを得ることができないし、負のペアが全く使われていない場合の過剰フィッティング問題も効果的に回避できない。 この状況に対処するために、負の対は依然として重要であるが、概して各正の対に対して十分であると主張する。 単純なトリプレットベース損失(trip)は,大規模なバッチや非対称性設計を必要とせずに,驚くほど優れた性能を達成できることを示す。 さらに,小さなデータレジームにおける過剰フィッティング問題を緩和し,トリップの効果をさらに高めるために,サンプルを他の空間にランダムにマッピングし,これらランダムに投影されたサンプルに三重項で示されるのと同じ関係を満足させる単純なプラグ・アンド・プレイランダムマッピング(roma)戦略を提案する。 三重項に基づく損失をランダムマッピングと統合し,提案手法であるTrip-ROMAを提案する。 ImageNet-1Kと7つの小さなデータセットで、教師なし表現学習や教師なし数ショット学習を含む大規模な実験が行われた。 彼らはTrip-ROMAの有効性を実証し、ROMAが他のSSLメソッドをさらに効果的に強化できることを一貫して示している。 コードはhttps://github.com/WenbinLee/Trip-ROMA.comで入手できる。

Contrastive self-supervised learning (SSL) methods, such as MoCo and SimCLR, have achieved great success in unsupervised visual representation learning. They rely on a large number of negative pairs and thus require either large memory banks or large batches. Some recent non-contrastive SSL methods, such as BYOL and SimSiam, attempt to discard negative pairs and have also shown remarkable performance. To avoid collapsed solutions caused by not using negative pairs, these methods require non-trivial asymmetry designs. However, in small data regimes, we can not obtain a sufficient number of negative pairs or effectively avoid the over-fitting problem when negatives are not used at all. To address this situation, we argue that negative pairs are still important but one is generally sufficient for each positive pair. We show that a simple Triplet-based loss (Trip) can achieve surprisingly good performance without requiring large batches or asymmetry designs. Moreover, to alleviate the over-fitting problem in small data regimes and further enhance the effect of Trip, we propose a simple plug-and-play RandOm MApping (ROMA) strategy by randomly mapping samples into other spaces and requiring these randomly projected samples to satisfy the same relationship indicated by the triplets. Integrating the triplet-based loss with random mapping, we obtain the proposed method Trip-ROMA. Extensive experiments, including unsupervised representation learning and unsupervised few-shot learning, have been conducted on ImageNet-1K and seven small datasets. They successfully demonstrate the effectiveness of Trip-ROMA and consistently show that ROMA can further effectively boost other SSL methods. Code is available at https://github.com/WenbinLee/Trip-ROMA.
翻訳日:2023-08-25 19:09:33 公開日:2023-08-24
# ハードウェアのトレーニングを可能にする時間的および空間的局所的なスパイクベースバックプロパゲーションアルゴリズム

A temporally and spatially local spike-based backpropagation algorithm to enable training in hardware ( http://arxiv.org/abs/2207.09755v2 )

ライセンス: Link先を確認
Anmol Biswas, Vivek Saraswat, Udayan Ganguly(参考訳) spiking neural networks(snn)は、分類タスクのハードウェア効率のよいアーキテクチャとして登場した。 スパイクベースの符号化の課題は、スパイクを用いた普遍的なトレーニング機構が欠如していることである。 非スパイキング人工ニューラルネットワーク(ANN)で使用される強力なバックプロパゲーション(BP)技術を採用する試みはいくつかある。 2) ネイティブスパイクベースの学習に向けての大きな進歩は, 段階的前方/後方パスを有するスパイク時間依存塑性(STDP)を用いた近似バックプロパゲーションの利用である。 しかし、勾配と重み更新計算のためのそのような位相間の情報転送は、外部記憶と計算アクセスを必要とする。 これは標準的なニューロモルフィックハードウェア実装の課題である。 本稿では,合成ニューロンを用いた確率的SNNベースのバックプロップ(SSNN-BP)アルゴリズムを提案する。 符号付き勾配値はスパイクベース表現の課題であるが、勾配信号を正と負のストリームに分割することでこの問題に取り組む。 提案手法はBP ANNベースラインに十分に長いスパイクトレインで接近することを示す。 最後に, 最善のソフトマックスクロスエントロピー損失関数は, 勝者がオール(wta)ルールを強制する抑制的な側方接続によって実現可能であることを示す。 MNIST, Fashion-MNIST, Extended MNIST, 時間エンコードされた画像データセット, ニューロモルフィックなMNISTデータセットなど, 静的な画像データセットに対して, 等価なアーキテクチャと正規化パラメータを持つANNと同等の性能で, 優れた一般化を示す。 したがって、SSNN-BPは純粋にスパイクベースのニューロモルフィックハードウェアとのBP互換を可能にする。

Spiking Neural Networks (SNNs) have emerged as a hardware efficient architecture for classification tasks. The challenge of spike-based encoding has been the lack of a universal training mechanism performed entirely using spikes. There have been several attempts to adopt the powerful backpropagation (BP) technique used in non-spiking artificial neural networks (ANN): (1) SNNs can be trained by externally computed numerical gradients. (2) A major advancement towards native spike-based learning has been the use of approximate Backpropagation using spike-time dependent plasticity (STDP) with phased forward/backward passes. However, the transfer of information between such phases for gradient and weight update calculation necessitates external memory and computational access. This is a challenge for standard neuromorphic hardware implementations. In this paper, we propose a stochastic SNN based Back-Prop (SSNN-BP) algorithm that utilizes a composite neuron to simultaneously compute the forward pass activations and backward pass gradients explicitly with spikes. Although signed gradient values are a challenge for spike-based representation, we tackle this by splitting the gradient signal into positive and negative streams. We show that our method approaches BP ANN baseline with sufficiently long spike-trains. Finally, we show that the well-performing softmax cross-entropy loss function can be implemented through inhibitory lateral connections enforcing a Winner Take All (WTA) rule. Our SNN with a 2-layer network shows excellent generalization through comparable performance to ANNs with equivalent architecture and regularization parameters on static image datasets like MNIST, Fashion-MNIST, Extended MNIST, and temporally encoded image datasets like Neuromorphic MNIST datasets. Thus, SSNN-BP enables BP compatible with purely spike-based neuromorphic hardware.
翻訳日:2023-08-25 19:03:25 公開日:2023-08-24
# 二元系ボース-アインシュタイン凝縮体のポラロン

Polarons in Binary Bose-Einstein Condensates ( http://arxiv.org/abs/2206.13738v6 )

ライセンス: Link先を確認
Ning Liu and Z. C. Tu(参考訳) ボースポラロン(英: Bose polaron)は、不純物とボース=アインシュタイン凝縮物の間の相互作用によって形成される準粒子である。 本稿では、一般化されたボゴリューボフ変換を用いた実効的な Fr\"{o}hlich Hamiltonian を導出する。 Fr\"{o}hlich Hamiltonian は、不純物密度結合(ID)と不純物スピン結合(IS)の2種類の効果的な相互作用を含んでいる。 さらに,IDとIS結合によって誘導されるボースポラロンの関連性を調べるために,Lee-Low-Pines変分法を用いる。 これらの性質には基底状態エネルギー、有効質量、仮想フォノンの平均数が含まれる。 その結果,IS結合による地中エネルギーの寄与は,不可解境界付近でゼロに減少することがわかった。 さらに、IS結合の増大はより多くの仮想フォノンを誘導し、不純物の移動を阻害し、ボースポラロンの有効質量が著しく増加する。

Bose polarons are quasiparticles formed through the interaction between impurities and Bose-Einstein condensates. In this paper, we derive an effective Fr\"{o}hlich Hamiltonian using the generalized Bogoliubov transformation. The effective Fr\"{o}hlich Hamiltonian encompasses two types of effective interactions: impurity-density (ID) coupling and impurity-spin (IS) coupling. Furthermore, we employ the Lee-Low-Pines variational approach to investigate the relevant properties of Bose polarons induced by the ID and IS coupling. These properties include the ground state energy, effective mass, and average number of virtual phonons. Our findings reveal that the contribution resulting from IS couplings to the ground energy decreases to zero near the miscible-immiscible boundary. Additionally, the increase of the IS coupling induces a greater number of virtual phonons, impeding the movement of impurities and leading to a significant increase in the effective mass of Bose polarons.
翻訳日:2023-08-25 19:02:54 公開日:2023-08-24
# 視覚異常検出のためのオートエンコーダによる自己教師付きトレーニング

Self-Supervised Training with Autoencoders for Visual Anomaly Detection ( http://arxiv.org/abs/2206.11723v4 )

ライセンス: Link先を確認
Alexander Bauer, Shinichi Nakajima, Klaus-Robert M\"uller(参考訳) ディープオートエンコーダは、教師なしの方法で非線形次元の減少を学習するための効果的なツールを提供する。 近年,視覚領域における異常検出作業に用いられている。 異常のない例を用いて再構成誤差を最適化することにより、対応するネットワークがアプリケーションフェーズ内の異常領域を正確に再構成できない、という考え方が一般的である。 この目標は通常、ボトルネック層のサイズを減らすか、アクティベーションに間隔制約を課すことによって、ネットワークのキャパシティを制御することで対処される。 しかし、どちらの手法も異常信号の再構成を明示的に罰しないため、しばしば検出が困難になる。 本稿では,訓練中に識別情報の使用を可能にするが,正規例のデータ多様体に焦点をあてた自己教師付き学習方式を適用することで,この問題に取り組む。 入力画像毎に1回のフォワードパスを必要とするトレーニングや予測では,このアプローチによる推論が非常に効率的であることを強調する。 MVTec ADデータセットを用いた実験では,高い検出性能と局所化性能を示した。 特にテクスチャ・サブセットでは,近年の異常検出法を顕著な差で一貫して上回っている。

Deep autoencoders provide an effective tool for learning non-linear dimensionality reduction in an unsupervised way. Recently, they have been used for the task of anomaly detection in the visual domain. By optimizing for the reconstruction error using anomaly-free examples, the common belief is that a corresponding network should fail to accurately reconstruct anomalous regions in the application phase. This goal is typically addressed by controlling the capacity of the network, either by reducing the size of the bottleneck layer or by enforcing sparsity constraints on the activations. However, neither of these techniques does explicitly penalize reconstruction of anomalous signals often resulting in poor detection. We tackle this problem by adapting a self-supervised learning regime that allows the use of discriminative information during training but focuses on the data manifold of normal examples. We emphasize that inference with our approach is very efficient during training and prediction requiring a single forward pass for each input image. Our experiments on the MVTec AD dataset demonstrate high detection and localization performance. On the texture-subset, in particular, our approach consistently outperforms recent anomaly detection methods by a significant margin.
翻訳日:2023-08-25 19:02:36 公開日:2023-08-24
# 線形モデル下での人口比パリティ制約付きミニマックス最適回帰

Demographic Parity Constrained Minimax Optimal Regression under Linear Model ( http://arxiv.org/abs/2206.11546v3 )

ライセンス: Link先を確認
Kazuto Fukuchi, Jun Sakuma(参考訳) 統計学的パリティ制約のある回帰問題に関連するミニマックス最適誤差を線形モデルの文脈で検討する。 提案モデルは, chzhen と schreuder (2022) が提示したモデルと比較して, 幅広い識別バイアス源を包含する。 分析の結果,このモデルに基づく人口統計学的パリティ制約付き回帰問題に対するminimax最適誤差は,$\theta(\frac{dm}{n})$,$n$がサンプルサイズ,$d$が次元を表す,$m$が機密属性から生じる人口統計学的グループ数を表す,という特徴が得られた。 さらに,モデル内に存在するバイアスが大きいほど,ミニマックス誤差が増大することを示す。

We explore the minimax optimal error associated with a demographic parity-constrained regression problem within the context of a linear model. Our proposed model encompasses a broader range of discriminatory bias sources compared to the model presented by Chzhen and Schreuder (2022). Our analysis reveals that the minimax optimal error for the demographic parity-constrained regression problem under our model is characterized by $\Theta(\frac{dM}{n})$, where $n$ denotes the sample size, $d$ represents the dimensionality, and $M$ signifies the number of demographic groups arising from sensitive attributes. Moreover, we demonstrate that the minimax error increases in conjunction with a larger bias present in the model.
翻訳日:2023-08-25 19:02:20 公開日:2023-08-24
# 効率的なアダム:コミュニケーション効率の良い分散アダム

Efficient-Adam: Communication-Efficient Distributed Adam ( http://arxiv.org/abs/2205.14473v2 )

ライセンス: Link先を確認
Congliang Chen, Li Shen, Wei Liu and Zhi-Quan Luo(参考訳) 分散適応確率勾配法は、ディープラーニングモデルの訓練など、大規模非凸最適化に広く用いられている。 しかし、$\varepsilon$-stationary 点を求める際の通信複雑性は、非凸条件ではほとんど分析されていない。 本研究では,確率的非凸最適化のためのパラメータサーバモデルにおいて,通信効率の高い分散Adamを新たに提案する。 具体的には,作業者とサーバ間の通信コストを削減するため,双方向量子化方式を効率的なadamに組み込む。 同時に、サーバとワーカの両方の双方向量子化によるバイアスを低減するために、双方向エラーフィードバック戦略を採用します。 加えて,量子化演算子のクラスで提案する効率的なadamの反復複雑性を確立し,$\varepsilon$-stationary point が達成された場合,サーバとワーカー間の通信の複雑さをさらに特徴づける。 最後に,おもちゃの確率凸最適化問題を解くために効率的なadamを適用し,実世界のビジョンと言語タスクでディープラーニングモデルをトレーニングする。 理論的な保証とともに広範な実験は、効率的なアダムの利点を正当化する。

Distributed adaptive stochastic gradient methods have been widely used for large-scale nonconvex optimization, such as training deep learning models. However, their communication complexity on finding $\varepsilon$-stationary points has rarely been analyzed in the nonconvex setting. In this work, we present a novel communication-efficient distributed Adam in the parameter-server model for stochastic nonconvex optimization, dubbed {\em Efficient-Adam}. Specifically, we incorporate a two-way quantization scheme into Efficient-Adam to reduce the communication cost between the workers and server. Simultaneously, we adopt a two-way error feedback strategy to reduce the biases caused by the two-way quantization on both the server and workers, respectively. In addition, we establish the iteration complexity for the proposed Efficient-Adam with a class of quantization operators, and further characterize its communication complexity between the server and workers when an $\varepsilon$-stationary point is achieved. Finally, we apply Efficient-Adam to solve a toy stochastic convex optimization problem and train deep learning models on real-world vision and language tasks. Extensive experiments together with a theoretical guarantee justify the merits of Efficient Adam.
翻訳日:2023-08-25 19:01:44 公開日:2023-08-24
# 医用画像における構造分割のためのグローバルバイナリマスクの活用

Leveraging Global Binary Masks for Structure Segmentation in Medical Images ( http://arxiv.org/abs/2205.09107v2 )

ライセンス: Link先を確認
Mahdieh Kazemimoghadam, Zi Yang, Lin Ma, Mingli Chen, Weiguo Lu and Xuejun Gu(参考訳) 医用画像セグメンテーションのための深層学習(DL)モデルは,入力画像の強度変化の影響を強く受けており,主に画像の強度情報を利用した推論による一般化が欠如している。 十分なトレーニングデータを取得することは、モデルのアプリケーションを制限する別の課題である。 医療画像における臓器の解剖学的形状と位置情報の一貫性を活用することを提案した。 我々は,臓器分割のためのグローバルなバイナリマスクを通して,解剖学的パターンを再現する枠組みを導入した。 2)グローバルバイナリマスクは,トレーニングデータ不足を軽減するための位置/形状の手がかりとして機能する追加チャネルとして,臓器の位置と形状情報を排他的に符号化する唯一のモデル(U-Net)入力であった。 脳と心臓のct画像の2つのデータセットをそれぞれ26:10:10と12:3:5に分割し、トレーニング、検証、テストを行った。 グローバルな二乗マスクを専門に訓練した結果、ディースのスコアは0.77(0.06)と0.85(0.04)となり、平均ユークリッド距離は3.12(1.43)mmと2.5(0.93)mmであり、それぞれ脳と心臓の構造における基底真理の中心である。 結果として、驚くべき位置と形状の情報がグローバルバイナリマスクを通じて符号化されていることが示される。 グローバル・バイナリ・マスクを組み込むことで、訓練データの小さなサブセットでct画像のみを訓練したモデルと比較して精度が著しく向上し、脳と心臓データセットの1-8のトレーニングケースでは、それぞれ4.3-125.3%と1.3-48.1%向上した。 この結果から,グローバルなバイナリマスクを用いた一般化可能なモデルの構築と,データ不足のトレーニングを補完するメリットが示唆された。

Deep learning (DL) models for medical image segmentation are highly influenced by intensity variations of input images and lack generalization due to primarily utilizing pixels' intensity information for inference. Acquiring sufficient training data is another challenge limiting models' applications. We proposed to leverage the consistency of organs' anatomical shape and position information in medical images. We introduced a framework leveraging recurring anatomical patterns through global binary masks for organ segmentation. Two scenarios were studied.1) Global binary masks were the only model's (i.e. U-Net) input, forcing exclusively encoding organs' position and shape information for segmentation/localization.2) Global binary masks were incorporated as an additional channel functioning as position/shape clues to mitigate training data scarcity. Two datasets of the brain and heart CT images with their ground-truth were split into (26:10:10) and (12:3:5) for training, validation, and test respectively. Training exclusively on global binary masks led to Dice scores of 0.77(0.06) and 0.85(0.04), with the average Euclidian distance of 3.12(1.43)mm and 2.5(0.93)mm relative to the center of mass of the ground truth for the brain and heart structures respectively. The outcomes indicate that a surprising degree of position and shape information is encoded through global binary masks. Incorporating global binary masks led to significantly higher accuracy relative to the model trained on only CT images in small subsets of training data; the performance improved by 4.3-125.3% and 1.3-48.1% for 1-8 training cases of the brain and heart datasets respectively. The findings imply the advantages of utilizing global binary masks for building generalizable models and to compensate for training data scarcity.
翻訳日:2023-08-25 19:01:24 公開日:2023-08-24
# FlexFringe:確率的オートマタ学習によるソフトウェア行動モデリング

FlexFringe: Modeling Software Behavior by Learning Probabilistic Automata ( http://arxiv.org/abs/2203.16331v3 )

ライセンス: Link先を確認
Sicco Verwer and Christian Hammerschmidt(参考訳) 本稿ではFlexFringeで利用可能な確率的決定論的有限オートマトン学習法の効率的な実装について述べる。 これらはステートマージのためのよく知られた戦略を実装しており、実際のパフォーマンスを改善するためのいくつかの修正が含まれている。 実験により,これらのアルゴリズムはデフォルト実装よりも競争結果と大幅な改善が得られた。 また、FlexFringeを使ってソフトウェアログから解釈可能なモデルを学習し、これらを異常検出に利用する方法を実証する。 より複雑なモデルを学習することで、異常検出におけるFlexFringeの性能が向上し、ニューラルネットに基づく既存のソリューションよりも優れていることを示す。

We present the efficient implementations of probabilistic deterministic finite automaton learning methods available in FlexFringe. These implement well-known strategies for state-merging including several modifications to improve their performance in practice. We show experimentally that these algorithms obtain competitive results and significant improvements over a default implementation. We also demonstrate how to use FlexFringe to learn interpretable models from software logs and use these for anomaly detection. Although less interpretable, we show that learning smaller more convoluted models improves the performance of FlexFringe on anomaly detection, outperforming an existing solution based on neural nets.
翻訳日:2023-08-25 19:00:12 公開日:2023-08-24
# 自己注意誘導による拡散モデルのサンプル品質改善

Improving Sample Quality of Diffusion Models Using Self-Attention Guidance ( http://arxiv.org/abs/2210.00939v6 )

ライセンス: Link先を確認
Susung Hong, Gyuseong Lee, Wooseok Jang, Seungryong Kim(参考訳) 拡散モデル(DDM)はその例外的な世代品質と多様性に注目されている。 この成功は主に、分類器や分類器フリーガイダンスのような、クラスまたはテキスト条件拡散誘導手法の使用によるものである。 本稿では,従来のガイダンス手法を超越した,より包括的な視点を提案する。 この一般的な観点から, 生成画像の品質向上のために, 新たな条件およびトレーニングフリー戦略を導入する。 簡単な解法として、ブラーガイダンスは、その微細な情報と構造に対する中間サンプルの適合性を向上し、拡散モデルにより適度なガイダンススケールで高品質なサンプルを生成することができる。 これを改善するために、自己注意誘導(SAG)は拡散モデルの中間的な自己注意マップを用いて安定性と有効性を高める。 具体的には、SAGは各イテレーションで拡散モデルが関与する領域のみを逆向きに曖昧にし、それに従って誘導する。 実験の結果,sagはadm,iddpm,stable diffusion,ditなど様々な拡散モデルの性能を向上させることがわかった。 さらに,従来の指導手法とSAGを組み合わせることで,さらなる改善が期待できる。

Denoising diffusion models (DDMs) have attracted attention for their exceptional generation quality and diversity. This success is largely attributed to the use of class- or text-conditional diffusion guidance methods, such as classifier and classifier-free guidance. In this paper, we present a more comprehensive perspective that goes beyond the traditional guidance methods. From this generalized perspective, we introduce novel condition- and training-free strategies to enhance the quality of generated images. As a simple solution, blur guidance improves the suitability of intermediate samples for their fine-scale information and structures, enabling diffusion models to generate higher quality samples with a moderate guidance scale. Improving upon this, Self-Attention Guidance (SAG) uses the intermediate self-attention maps of diffusion models to enhance their stability and efficacy. Specifically, SAG adversarially blurs only the regions that diffusion models attend to at each iteration and guides them accordingly. Our experimental results show that our SAG improves the performance of various diffusion models, including ADM, IDDPM, Stable Diffusion, and DiT. Moreover, combining SAG with conventional guidance methods leads to further improvement.
翻訳日:2023-08-25 18:53:28 公開日:2023-08-24
# gaussian differential privacyを用いた個人プライバシー会計

Individual Privacy Accounting with Gaussian Differential Privacy ( http://arxiv.org/abs/2209.15596v2 )

ライセンス: Link先を確認
Antti Koskela, Marlon Tobaben and Antti Honkela(参考訳) 個別のプライバシ会計は、分析に関わる各関係者に対して、差分プライバシー(DP)損失を個別に制限することを可能にする。 これは、個々のプライバシの損失が、各データアクセスの最悪のケース境界を考慮に入れたdpバウンダリよりもかなり小さいため、情報を提供する。 個別のプライバシ損失を原則的に説明するためには,データアクセス時に発生する損失を最悪の損失よりも小さくすることができるランダム化機構の適応的な構成のためのプライバシ会計士が必要である。 この種の分析はフェルドマンとzrnic (2021) によって r\'enyi differential privacy (rdp) に対して行われたが、いわゆる最適プライバシー会計士には未だ行われていない。 我々は,最も汎用的なdp機構の1つであるガウス機構の最適境界を与えるガウス微分プライバシーを用いて,注意深い解析を行うことで,この方向への第一歩を踏み出す。 このアプローチは、ホッケースティックの発散に対するある種のスーパーマーチンゲールの決定と、フェルドマンとZrnicによるR'enyi発散に基づく完全適応型組成の拡張に基づいている。 また、いわゆるプライバシー損失分布を用いて、個々の$(\varepsilon,\delta)$-privacy損失を測定することを検討する。 ブラックウェルの定理の助けを借りて、RDP解析を用いて近似的個人$(\varepsilon,\delta)$-accountantを構築することができる。

Individual privacy accounting enables bounding differential privacy (DP) loss individually for each participant involved in the analysis. This can be informative as often the individual privacy losses are considerably smaller than those indicated by the DP bounds that are based on considering worst-case bounds at each data access. In order to account for the individual privacy losses in a principled manner, we need a privacy accountant for adaptive compositions of randomised mechanisms, where the loss incurred at a given data access is allowed to be smaller than the worst-case loss. This kind of analysis has been carried out for the R\'enyi differential privacy (RDP) by Feldman and Zrnic (2021), however not yet for the so-called optimal privacy accountants. We make first steps in this direction by providing a careful analysis using the Gaussian differential privacy which gives optimal bounds for the Gaussian mechanism, one of the most versatile DP mechanisms. This approach is based on determining a certain supermartingale for the hockey-stick divergence and on extending the R\'enyi divergence-based fully adaptive composition results by Feldman and Zrnic. We also consider measuring the individual $(\varepsilon,\delta)$-privacy losses using the so-called privacy loss distributions. With the help of the Blackwell theorem, we can then make use of the RDP analysis to construct an approximative individual $(\varepsilon,\delta)$-accountant.
翻訳日:2023-08-25 18:53:10 公開日:2023-08-24
# 統計的適応のための繰り返しニューラルネットワークの学習ダイナミクスを加速するインターニューロロン

Interneurons accelerate learning dynamics in recurrent neural networks for statistical adaptation ( http://arxiv.org/abs/2209.10634v2 )

ライセンス: Link先を確認
David Lipshutz, Cengiz Pehlevan, Dmitri B. Chklovskii(参考訳) 脳の初期の感覚システムは、ニューロン間の繰り返し通信を必要とする入力統計に急速に適応する。 機械的には、そのような繰り返し通信はしばしば間接的であり、局所的な介在物によって媒介される。 本研究では,リカレント通信と直接リカレント接続を比較することで,リカレント通信を仲介する計算上の利点について検討する。 この目的のために、統計的に入力をホワイトにする数学的に扱いやすい2つのリカレントリニアニューラルネットワークについて検討する。 対応する連続的なシナプス力学を解析し、ネットワークを数値的にシミュレーションすることにより、相互ニューロンを持つネットワークは、その初期化のスペクトルに対数的に(線形に)スケールするネットワークにおけるシナプス力学の収束時間という観点から、直接再帰接続を持つネットワークよりも初期化に頑健であることを示す。 以上の結果から,インターニューロンは入力統計の変化に迅速に適応するために計算上有用であることが示唆された。 興味深いことに、インターニューロンのネットワークは、直接リカレント接続を持つネットワークのホワイト化目的のオーバーパラメタ化解であり、この結果は、オーバーパラメタ化フィードフォワード線形ニューラルネットワークで観測される暗黙的加速現象のリカレントリニアニューラルネットワーク類似物と見なすことができる。

Early sensory systems in the brain rapidly adapt to fluctuating input statistics, which requires recurrent communication between neurons. Mechanistically, such recurrent communication is often indirect and mediated by local interneurons. In this work, we explore the computational benefits of mediating recurrent communication via interneurons compared with direct recurrent connections. To this end, we consider two mathematically tractable recurrent linear neural networks that statistically whiten their inputs -- one with direct recurrent connections and the other with interneurons that mediate recurrent communication. By analyzing the corresponding continuous synaptic dynamics and numerically simulating the networks, we show that the network with interneurons is more robust to initialization than the network with direct recurrent connections in the sense that the convergence time for the synaptic dynamics in the network with interneurons (resp. direct recurrent connections) scales logarithmically (resp. linearly) with the spectrum of their initialization. Our results suggest that interneurons are computationally useful for rapid adaptation to changing input statistics. Interestingly, the network with interneurons is an overparameterized solution of the whitening objective for the network with direct recurrent connections, so our results can be viewed as a recurrent linear neural network analogue of the implicit acceleration phenomenon observed in overparameterized feedforward linear neural networks.
翻訳日:2023-08-25 18:52:47 公開日:2023-08-24
# 平均対称性-観測された位相相

Average Symmetry-Protected Topological Phases ( http://arxiv.org/abs/2209.02723v2 )

ライセンス: Link先を確認
Ruochen Ma and Chong Wang(参考訳) 対称性保護トポロジカル(SPT)相は、関連する対称性が破壊されない限り、トポロジカルに非自明な多体量子状態である。 本研究では、SPT相は平均対称性にもよく定義されており、焼成障害は局所的に対称性を損なうが、平均化によって対称性を回復する。 例えば、不完全な格子を持つ結晶SPT相である。 具体的には、量子状態の混乱したアンサンブルに対する平均SPTの概念を定義する。 次に、平均対称性の領域壁(およびより一般的な欠陥)を低次元位相状態で装飾する、装飾されたドメインウォールアプローチを用いて、平均SPT位相の大規模な分類と特徴付けを行う。 すると、装飾された領域の壁が$(0+1)d$よりも次元が高い場合、そのような平均的なSPTの境界状態はほぼ確実に長距離絡み合っており、システムサイズが無限大に近づくと1ドルに近づく。 これは t'Hooft 異常の概念を平均対称性に一般化し、「平均異常」をダブする。 平均異常はリーブ・シュルツ・マティス(英語版)(LSM)の定理に類似した格子系の制約として表すこともできるが、平均格子対称性のみを持つ。 我々はまた、この問題を、短距離の絡み合いを自身で許容できる「量子障害」に一般化し、密度行列と量子チャネルに基づいて純粋にそのような一般化平均SPTの理論を開発する。 この結果から, 平均対称性に付随する位相量子現象は, 通常の正確な対称性と同程度に富むことが示唆された。

Symmetry-protected topological (SPT) phases are many-body quantum states that are topologically nontrivial as long as the relevant symmetries are unbroken. In this work we show that SPT phases are also well defined for average symmetries, where quenched disorders locally break the symmetries, but restore the symmetries upon disorder averaging. An example would be crystalline SPT phases with imperfect lattices. Specifically, we define the notion of average SPT for disordered ensembles of quantum states. We then classify and characterize a large class of average SPT phases using a decorated domain wall approach, in which domain walls (and more general defects) of the average symmetries are decorated with lower dimensional topological states. We then show that if the decorated domain walls have dimension higher than $(0+1)d$, then the boundary states of such average SPT will almost certainly be long-range entangled, with probability approaching $1$ as the system size approaches infinity. This generalizes the notion of t'Hooft anomaly to average symmetries, which we dub "average anomaly". The average anomaly can also manifest as constraints on lattice systems similar to the Lieb-Schultz-Mattis (LSM) theorems, but with only average lattice symmetries. We also generalize our problem to "quantum disorders" that can admit short-range entanglement on their own, and develop a theory of such generalized average SPTs purely based on density matrices and quantum channels. Our results indicate that topological quantum phenomena associated with average symmetries can be at least as rich as those with ordinary exact symmetries.
翻訳日:2023-08-25 18:52:17 公開日:2023-08-24
# 量子回路とテンソルネットワークの相乗効果--実用的な量子優位への競争の短縮

Synergy Between Quantum Circuits and Tensor Networks: Short-cutting the Race to Practical Quantum Advantage ( http://arxiv.org/abs/2208.13673v2 )

ライセンス: Link先を確認
Manuel S. Rudolph, Jacob Miller, Danial Motlagh, Jing Chen, Atithi Acharya, Alejandro Perdomo-Ortiz(参考訳) 近年のブレークスルーにより、ノイズの多い中間スケール量子(nisq)デバイスが、古典的に難解なサンプリングタスクで量子優位を達成することが証明されているが、より実効的な計算問題を解決するためにこれらのデバイスを使用することは依然として課題である。 実用的な量子優位性を実現するための提案は、一般的にパラメタライズド量子回路(PQC)であり、量子シミュレーションや機械学習を通じて様々な問題の解を見つけるためにパラメータを最適化することができる。 しかし、実世界の問題に対するPQCのトレーニングは、主にランダムに初期化された量子回路の最適化環境におけるバレンプラトー現象のために、重要な実践的課題である。 本稿では,PQCの事前最適化初期化を実現するために,古典計算資源を活用するスケーラブルな手法を提案する。 特定の最適化タスクが与えられた場合、この手法はまずテンソルネットワーク(TN)シミュレーションを用いて有望な量子状態を特定し、次に高性能な分解手順を用いてPQCのゲートパラメータに変換する。 この学習された初期化は不毛高原を避け、古典的資源の増加を量子回路のトレーニングにおける性能と速度の向上に効果的に翻訳する。 古典的コンピュータを用いて限られた量子資源を増強する方法を示すことにより、量子コンピューティングにおける量子モデルと量子モデルとの相乗効果を実証し、実用的な量子優位性を実現するために現代の量子ハードウェアの力を活用するための新しい道を開く。

While recent breakthroughs have proven the ability of noisy intermediate-scale quantum (NISQ) devices to achieve quantum advantage in classically-intractable sampling tasks, the use of these devices for solving more practically relevant computational problems remains a challenge. Proposals for attaining practical quantum advantage typically involve parametrized quantum circuits (PQCs), whose parameters can be optimized to find solutions to diverse problems throughout quantum simulation and machine learning. However, training PQCs for real-world problems remains a significant practical challenge, largely due to the phenomenon of barren plateaus in the optimization landscapes of randomly-initialized quantum circuits. In this work, we introduce a scalable procedure for harnessing classical computing resources to provide pre-optimized initializations for PQCs, which we show significantly improves the trainability and performance of PQCs on a variety of problems. Given a specific optimization task, this method first utilizes tensor network (TN) simulations to identify a promising quantum state, which is then converted into gate parameters of a PQC by means of a high-performance decomposition procedure. We show that this learned initialization avoids barren plateaus, and effectively translates increases in classical resources to enhanced performance and speed in training quantum circuits. By demonstrating a means of boosting limited quantum resources using classical computers, our approach illustrates the promise of this synergy between quantum and quantum-inspired models in quantum computing, and opens up new avenues to harness the power of modern quantum hardware for realizing practical quantum advantage.
翻訳日:2023-08-25 18:51:48 公開日:2023-08-24
# 変圧器を用いたシーン表現学習による強化学習による自律運転意思決定

Augmenting Reinforcement Learning with Transformer-based Scene Representation Learning for Decision-making of Autonomous Driving ( http://arxiv.org/abs/2208.12263v2 )

ライセンス: Link先を確認
Haochen Liu, Zhiyu Huang, Xiaoyu Mo, and Chen Lv(参考訳) インタラクティブな交通参加者の確率的性質と道路構造の複雑さにより、都市自律運転の意思決定は困難である。 強化学習(rl)に基づく意思決定手法は都市運転のシナリオをうまく扱うことができるが、サンプル効率の低下と適応性の低下に苦しむ。 本稿では,シーン表現符号化と逐次予測潜在蒸留によりRL判定能力を向上させるScene-Rep Transformerを提案する。 具体的には、マルチステージトランスフォーマー(MST)エンコーダを構築し、エゴ車とその隣人間の相互作用意識だけでなく、エージェントとその候補経路間の相互作用意識をモデル化する。 自己教師型学習目標を持つシーケンシャル潜水変圧器(SLT)を用いて,将来の予測情報を潜水場表現に蒸留し,探索空間の低減とトレーニングの高速化を図る。 ソフトアクター・クリティック(SAC)に基づく最終決定モジュールは、Scene-Rep Transformerから精細化された潜在シーン表現を入力として駆動動作を出力する。 このフレームワークは、密集したトラフィックを伴う5つのシミュレート都市シナリオで検証され、その性能は、成功率、安全性、効率の観点から、データ効率とパフォーマンスの大幅な改善によって定量的に示される。 定性的な結果は、我々のフレームワークが近隣のエージェントの意図を抽出し、意思決定を助け、より多様な運転行動を提供できることを示している。

Decision-making for urban autonomous driving is challenging due to the stochastic nature of interactive traffic participants and the complexity of road structures. Although reinforcement learning (RL)-based decision-making scheme is promising to handle urban driving scenarios, it suffers from low sample efficiency and poor adaptability. In this paper, we propose Scene-Rep Transformer to improve the RL decision-making capabilities with better scene representation encoding and sequential predictive latent distillation. Specifically, a multi-stage Transformer (MST) encoder is constructed to model not only the interaction awareness between the ego vehicle and its neighbors but also intention awareness between the agents and their candidate routes. A sequential latent Transformer (SLT) with self-supervised learning objectives is employed to distill the future predictive information into the latent scene representation, in order to reduce the exploration space and speed up training. The final decision-making module based on soft actor-critic (SAC) takes as input the refined latent scene representation from the Scene-Rep Transformer and outputs driving actions. The framework is validated in five challenging simulated urban scenarios with dense traffic, and its performance is manifested quantitatively by the substantial improvements in data efficiency and performance in terms of success rate, safety, and efficiency. The qualitative results reveal that our framework is able to extract the intentions of neighbor agents to help make decisions and deliver more diversified driving behaviors.
翻訳日:2023-08-25 18:51:20 公開日:2023-08-24
# 学習後量子化のための適応活性化ラウンドリング

Efficient Adaptive Activation Rounding for Post-Training Quantization ( http://arxiv.org/abs/2208.11945v3 )

ライセンス: Link先を確認
Zhengyi Li, Cong Guo, Zhanda Zhu, Yangjie Zhou, Yuxian Qiu, Xiaotian Gao, Jingwen Leng, Minyi Guo(参考訳) トレーニング後の量子化は、量子化されたニューラルネットワークのデプロイの利便性のために、注目を集めている。 ラウンドリング・トゥ・ネアレストはdnn量子化の一般的な方法であるが、以前の研究は重み量子化に適用するときにその準最適性を示している。 従来の重み量子化誤差よりも出力誤差を利用した重み量子化方式を提案する。 我々の研究は、同様のラウンドリングの課題が活性化量子化にも及んでいることを示している。 一般化が容易であるにもかかわらず、課題は活性化のダイナミックな性質にある。 アダプティブ・ラウンドは様々なアクティベーションのために期待され、メソッドは実行時のオーバーヘッドを受ける。 そこで本研究では,アクティベーションの丸めスキームを調整して出力誤差を低減できる新しい視点を持つ量子化フレームワークを提案する。 ラウンドリング・トゥ・アレスト動作の一定のラウンドリング境界0.5を使用する代わりに、アダプティブ・バウンダリングによるアクティベーション・ラウンドングを変更するためのアクティベーション値として境界を機能させる。 ランタイムのオーバーヘッドに対処するために、粒度の粗い境界関数を使用します。 最後に,境界関数を最適化する枠組みを提案する。 広範な実験により、aquantは最先端の著作物に比べて顕著な改善を達成し、2ビットの重量とアクティベーションの量子化の下でresnet-18の精度を60.31%まで向上させた。

Post-training quantization attracts increasing attention due to its convenience in deploying quantized neural networks. Although rounding-to-nearest remains the prevailing method for DNN quantization, prior research has demonstrated its suboptimal nature when applied to weight quantization. They propose optimizing weight rounding schemes by leveraging output error rather than the traditional weight quantization error. Our study reveals that similar rounding challenges also extend to activation quantization. Despite the easy generalization, the challenges lie in the dynamic nature of activation. Adaptive rounding is expected for varying activations and the method is subjected to runtime overhead. To tackle this, we propose the AQuant quantization framework with a novel perspective to reduce output error by adjusting rounding schemes of activations. Instead of using the constant rounding border 0.5 of the rounding-to-nearest operation, we make the border become a function w.r.t. the activation value to change the activation rounding by the adaptive border. To deal with the runtime overhead, we use a coarse-grained version of the border function. Finally, we introduce our framework to optimize the border function. Extensive experiments show that AQuant achieves notable improvements compared to state-of-the-art works and pushes the accuracy of ResNet-18 up to 60.31% under the 2-bit weight and activation quantization.
翻訳日:2023-08-25 18:50:54 公開日:2023-08-24
# 深層ネットワークにおける実世界のロバスト性向上のためのグラディエント統合

Unifying Gradients to Improve Real-world Robustness for Deep Networks ( http://arxiv.org/abs/2208.06228v2 )

ライセンス: Link先を確認
Yingwen Wu, Sizhe Chen, Kun Fang, Xiaolin Huang(参考訳) ディープニューラルネットワーク(dnn)の広範な適用は、実世界の堅牢性、すなわち、dnnがブラックボックスの敵対的攻撃に抵抗するかどうか、あるいはスコアベースのクエリアタック(sqas)が最も脅威となるかどうかに、より多くの注意を払う必要がある。 SQAに対する防御には、SQAと同じ出力情報を共有するユーザのために、サービス目的のために、わずかながら巧妙な出力のバリエーションが必要です。 本稿では,異なるサンプルに対して類似したより弱い攻撃方向をSQAが探すことができるように,異なるデータの統一勾配(UniG)による実世界防御を提案する。 このようなユニバーサルアタックの摂動は入力固有の摂動よりも攻撃性が低いと確認されているため、unigは攻撃者がねじれて情報的な攻撃方向を指示することで現実世界のdnnを保護する。 プラグアンドプレイの製品モジュールであるHadamardでUniGを効率的に実装する。 5つのSQA、2つのアダプティブアタック、7つの防御ベースラインに関する広範な実験によると、UniGはCIFAR10とImageNetの正確さを損なうことなく、現実世界のロバスト性を大幅に改善する。 例えば、UniGは2500-query Square攻撃の下で77.80%の精度のモデルを維持しているが、最先端の対角訓練モデルはCIFAR10で67.34%しか持たない。 同時に、UniGは比較されたすべてのベースラインをクリーンな精度で上回り、モデル出力の最小修正を実現する。 コードはhttps://github.com/snowien/unig-pytorchでリリースされる。

The wide application of deep neural networks (DNNs) demands an increasing amount of attention to their real-world robustness, i.e., whether a DNN resists black-box adversarial attacks, among which score-based query attacks (SQAs) are most threatening since they can effectively hurt a victim network with the only access to model outputs. Defending against SQAs requires a slight but artful variation of outputs due to the service purpose for users, who share the same output information with SQAs. In this paper, we propose a real-world defense by Unifying Gradients (UniG) of different data so that SQAs could only probe a much weaker attack direction that is similar for different samples. Since such universal attack perturbations have been validated as less aggressive than the input-specific perturbations, UniG protects real-world DNNs by indicating attackers a twisted and less informative attack direction. We implement UniG efficiently by a Hadamard product module which is plug-and-play. According to extensive experiments on 5 SQAs, 2 adaptive attacks and 7 defense baselines, UniG significantly improves real-world robustness without hurting clean accuracy on CIFAR10 and ImageNet. For instance, UniG maintains a model of 77.80% accuracy under 2500-query Square attack while the state-of-the-art adversarially-trained model only has 67.34% on CIFAR10. Simultaneously, UniG outperforms all compared baselines in terms of clean accuracy and achieves the smallest modification of the model output. The code is released at https://github.com/snowien/UniG-pytorch.
翻訳日:2023-08-25 18:50:29 公開日:2023-08-24
# 量子状態の有限コピーによる高い妥当性の絡み合い検証

High validity entanglement verification with finite copies of a quantum state ( http://arxiv.org/abs/2208.01983v2 )

ライセンス: Link先を確認
Pawel Cieslinski, Jan Dziewior, Lukas Knips, Waldemar Klobus, Jasmin Meinecke, Tomasz Paterek, Harald Weinfurter, Wieslaw Laskowski(参考訳) 多部量子状態の絡み合いを検出することは本質的に確率的なプロセスであり、典型的には少数の測定サンプルを持つ。 絡み合い検出の信頼性のレベルは、測定された信号が分離可能な状態から来る確率によって検出スキームの有効性を定量化することができ、ビッグデータセットに有意義なメリットの指標を提供する。 しかし, 限られたサンプルサイズでは, 実験結果の重大な誤解を避けるためには, 分離可能な状態が測定信号を引き起こす確率を考慮すべきであるだけでなく, 信号が絡み合った状態から生じた可能性, すなわち検出スキームの効率性に関する情報を含めるべきである。 我々はこれを明示的に示し,小規模データセットの妥当性と効率を最適化する一般的な手法を提案する。 この方法は任意の絡み合い目撃者に適用でき、相関関数に対する有限統計効果の分析モデルに基づいている。 一例として、状態の20個のコピーだけで、絡み合い検証の妥当性と効率を保証できるような設定あたりの最適設定数とクリックの分布を導出する。 この分析は、頻繁主義者とベイズ的アプローチの両方を考慮に入れている。

Detecting entanglement of multipartite quantum states is an inherently probabilistic process, typically with a small number of measured samples. The level of confidence in entanglement detection can be used to quantify the validity of the detection scheme via the probability that the measured signal is coming from a separable state, and provides a meaningful figure of merit for big data sets. Yet, for limited sample sizes, to avoid serious misinterpretations of the experimental results, one should not only consider the probability that a separable state gave rise to the measured signal but should also include information about the probability that the signal came from an entangled state, i.e. the efficiency of the detection scheme. We demonstrate this explicitly and propose a general method to optimize both the validity and the efficiency in small data sets. The method is applicable to arbitrary entanglement witnesses and is based on an analytical model of finite statistics effects on correlation functions. As an example, we derive the optimal number of measurement settings and distribution of clicks per setting that guarantee high validity and efficiency of entanglement verification with only 20 copies of a state. The analysis takes into account both a Frequentist as well as Bayesian approach.
翻訳日:2023-08-25 18:49:48 公開日:2023-08-24
# ゲートキーパーAIとデータの規制:DMA、GDPRなどの下での透明性、アクセス、公正性

Regulating Gatekeeper AI and Data: Transparency, Access, and Fairness under the DMA, the GDPR, and beyond ( http://arxiv.org/abs/2212.04997v2 )

ライセンス: Link先を確認
Philipp Hacker, Johann Cordes and Janina Rochon(参考訳) 人工知能は、ビジネスや行政の文脈での利用が増えているだけでなく、EUが取り組みを先導し、その規制の競争も進行中である。 しかし、既存の文献とは対照的に、この記事では、デジタル経済におけるAIアプリケーションに対する最も広範囲で効果的なEUのルールは、提案されたAI法には含まれないが、デジタル市場法(Digital Markets Act)に規定されている。 我々は、開示要件、AIトレーニングデータの規制、アクセスルール、公正なランキングの制度の4つの主要な領域にわたる、AIモデルとその基盤となるデータに対するDMAおよび関連するEUの行動の影響を分析する。 論文は、公正性は、DMAの意味では、これまでAIと法律の交点における奨学金が主に焦点を当ててきた、伝統的に保護された非差別法のカテゴリーを越えていることを示している。 むしろ、競争法と知的財産法から知られているFRAND基準に基づいて、公正なランク付けに関するDMA規定を解釈し、洗練する。 さらに,cjeu法学に基づいて,従来の非差別法と競争法の両方における非差別概念の一貫性のある解釈を見いだせることを示す。 最後のパートでは、DMA以降における透明性、アクセス、公平性の包括的なフレームワークに関する具体的な提案をスケッチしている。

Artificial intelligence is not only increasingly used in business and administration contexts, but a race for its regulation is also underway, with the EU spearheading the efforts. Contrary to existing literature, this article suggests, however, that the most far-reaching and effective EU rules for AI applications in the digital economy will not be contained in the proposed AI Act - but have just been enacted in the Digital Markets Act. We analyze the impact of the DMA and related EU acts on AI models and their underlying data across four key areas: disclosure requirements; the regulation of AI training data; access rules; and the regime for fair rankings. The paper demonstrates that fairness, in the sense of the DMA, goes beyond traditionally protected categories of non-discrimination law on which scholarship at the intersection of AI and law has so far largely focused on. Rather, we draw on competition law and the FRAND criteria known from intellectual property law to interpret and refine the DMA provisions on fair rankings. Moreover, we show how, based on CJEU jurisprudence, a coherent interpretation of the concept of non-discrimination in both traditional non-discrimination and competition law may be found. The final part sketches specific proposals for a comprehensive framework of transparency, access, and fairness under the DMA and beyond.
翻訳日:2023-08-25 18:44:08 公開日:2023-08-24
# PointCaM: オープンセットのクラウド学習のためのカットアンドミクス

PointCaM: Cut-and-Mix for Open-Set Point Cloud Learning ( http://arxiv.org/abs/2212.02011v2 )

ライセンス: Link先を確認
Jie Hong, Shi Qiu, Weihao Li, Saeed Anwar, Mehrtash Harandi, Nick Barnes and Lars Petersson(参考訳) ポイント・クラウド・ラーニングは注目されているが、既存のほとんどのポイント・クラウド・モデルは未知のオブジェクトの避けられない存在に対処する実用的な能力を欠いている。 本稿では主に,未知のクラスからのデータなしでモデルをトレーニングし,推論段階においてそれらを識別する,オープンセット環境下でのポイントクラウド学習について論じる。 基本的に,未知点シミュレータと未知点推定モジュールからなる新しいポイントカット・アンド・ミクス機構を用いて,オープンセットのクラウド学習を解決することを提案する。 具体的には,Unknown-Point Simulatorを用いて,部分的既知のデータの幾何学的文脈を操作することにより,トレーニング段階における分布外データをシミュレートする。 これに基づいて、Unknown-Point Estimatorモジュールは、既知のデータを識別するために、ポイントクラウドの機能コンテキストを活用することを学ぶ。 広範な実験により,オープンセット・ポイント・クラウド・ラーニングの有効性と提案手法の有効性が示された。 私たちのコードは \url{https://github.com/ShiQiu0419/pointcam} で利用可能です。

Point cloud learning is receiving increasing attention, however, most existing point cloud models lack the practical ability to deal with the unavoidable presence of unknown objects. This paper mainly discusses point cloud learning under open-set settings, where we train the model without data from unknown classes and identify them in the inference stage. Basically, we propose to solve open-set point cloud learning using a novel Point Cut-and-Mix mechanism consisting of Unknown-Point Simulator and Unknown-Point Estimator modules. Specifically, we use the Unknown-Point Simulator to simulate out-of-distribution data in the training stage by manipulating the geometric context of partial known data. Based on this, the Unknown-Point Estimator module learns to exploit the point cloud's feature context for discriminating the known and unknown data. Extensive experiments show the plausibility of open-set point cloud learning and the effectiveness of our proposed solutions. Our code is available at \url{https://github.com/ShiQiu0419/pointcam}.
翻訳日:2023-08-25 18:43:43 公開日:2023-08-24
# ニューラルフーリエフィルタバンク

Neural Fourier Filter Bank ( http://arxiv.org/abs/2212.01735v4 )

ライセンス: Link先を確認
Zhijie Wu and Yuhe Jin and Kwang Moo Yi(参考訳) 本稿では, 効率的かつ高精度な再構築手法を提案する。 ウェーブレットに触発されて、信号が空間的にも周波数的にも分解されるニューラルフィールドを学習する。 空間分解のための最近のグリッドベースのパラダイムに従っているが、既存の作業とは異なり、フーリエ特徴エンコーディングを通じて各グリッドに特定の周波数を格納することを推奨している。 次に、正の活性化を持つ多層パーセプトロンを適用し、これらフーリエエンコードされた特徴を適切な層に配置することで、高周波数成分を低周波成分の上に順次蓄積し、最終的な出力を形成する。 本手法は,2次元画像整合,3次元形状再構成,神経放射場など,複数のタスクにおけるモデルコンパクト性と収束速度に関する技術よりも優れていることを示す。 私たちのコードはhttps://github.com/ubc-vision/nffbで利用可能です。

We present a novel method to provide efficient and highly detailed reconstructions. Inspired by wavelets, we learn a neural field that decompose the signal both spatially and frequency-wise. We follow the recent grid-based paradigm for spatial decomposition, but unlike existing work, encourage specific frequencies to be stored in each grid via Fourier features encodings. We then apply a multi-layer perceptron with sine activations, taking these Fourier encoded features in at appropriate layers so that higher-frequency components are accumulated on top of lower-frequency components sequentially, which we sum up to form the final output. We demonstrate that our method outperforms the state of the art regarding model compactness and convergence speed on multiple tasks: 2D image fitting, 3D shape reconstruction, and neural radiance fields. Our code is available at https://github.com/ubc-vision/NFFB.
翻訳日:2023-08-25 18:43:26 公開日:2023-08-24
# fiesta: 正確なファイバセグメンテーションのための自動エンコーダ

FIESTA: Autoencoders for accurate fiber segmentation in tractography ( http://arxiv.org/abs/2212.00143v3 )

ライセンス: Link先を確認
F\'elix Dumais, Jon Haitz Legarreta, Carl Lemaire, Philippe Poulin, Fran\c{c}ois Rheault, Laurent Petit, Muhamed Barakovic, Stefano Magon, Maxime Descoteaux, Pierre-Marc Jodoin (for the Alzheimer's Disease Neuroimaging Initiative)(参考訳) ホワイトマター束のセグメンテーションは、神経疾患、神経外科、老化といった領域における脳の構造的結合を研究する現代の道筋学の基盤である。 本研究では,信頼度が高く,ロバストで,完全自動化され,容易に半自動調整されたパイプラインであるfiesta (fiber segmentation in tractography using autoencoder)を提案する。 このパイプラインは、オートエンコーダが、流線形フィルタリング、バンドルセグメンテーション、気道図の流線形生成にどのように役立つかを実証した以前の作業に基づいて構築されている。 提案手法は,被写体バンドルとアトラスバンドルの潜在空間シードによる生成的サンプリングにより,追跡の難しいバンドルを回収することで,バンドルのセグメンテーション範囲を改善する。 オートエンコーダベースのモデリングとコントラスト学習を組み合わせて、流線形の潜在空間を学習する。 提案手法は,標準空間(MNI)におけるバンドルのアトラスを用いて,各トラクトグラムストリームラインのオートエンコーダ遅延距離と,バンドルのアトラスに近接するバンドル間の距離を用いて,新しいトラクトグラムを分割する。 オートエンコーダを用いて、解剖学的に正しい状態で各バンドルの空間的カバレッジを増大させる新しいストリームラインを生成することにより、オブジェクト内バンドルの信頼性が向上する。 提案手法はRecoBundles, RecoBundlesX, TractSeg, White Matter Analysis, XTRACTなどの最先端の仮想解剖法よりも信頼性が高いことを示す。 我々のフレームワークは、ある解剖学的バンドル定義から別の解剖学的バンドル定義への移行を可能にする。 これらの結果から,本フレームワークは現状のバンドルセグメンテーションフレームワークの実用性とユーザビリティの向上を図っている。

White matter bundle segmentation is a cornerstone of modern tractography to study the brain's structural connectivity in domains such as neurological disorders, neurosurgery, and aging. In this study, we present FIESTA (FIbEr Segmentation in Tractography using Autoencoders), a reliable and robust, fully automated, and easily semi-automatically calibrated pipeline based on deep autoencoders that can dissect and fully populate white matter bundles. This pipeline is built upon previous works that demonstrated how autoencoders can be used successfully for streamline filtering, bundle segmentation, and streamline generation in tractography. Our proposed method improves bundle segmentation coverage by recovering hard-to-track bundles with generative sampling through the latent space seeding of the subject bundle and the atlas bundle. A latent space of streamlines is learned using autoencoder-based modeling combined with contrastive learning. Using an atlas of bundles in standard space (MNI), our proposed method segments new tractograms using the autoencoder latent distance between each tractogram streamline and its closest neighbor bundle in the atlas of bundles. Intra-subject bundle reliability is improved by recovering hard-to-track streamlines, using the autoencoder to generate new streamlines that increase the spatial coverage of each bundle while remaining anatomically correct. Results show that our method is more reliable than state-of-the-art automated virtual dissection methods such as RecoBundles, RecoBundlesX, TractSeg, White Matter Analysis and XTRACT. Our framework allows for the transition from one anatomical bundle definition to another with marginal calibration efforts. Overall, these results show that our framework improves the practicality and usability of current state-of-the-art bundle segmentation framework.
翻訳日:2023-08-25 18:43:04 公開日:2023-08-24
# ローカルバランシングによるマルチトライメトロポリスの改善

Improving multiple-try Metropolis with local balancing ( http://arxiv.org/abs/2211.11613v2 )

ライセンス: Link先を確認
Philippe Gagnon, Florian Maire, Giacomo Zanella(参考訳) マルチトライメトロポリス(multiple-try metropolis、mtm)はマルコフ連鎖モンテカルロ法であり、並列コンピューティングに適応できるという特徴を持つ。 各イテレーションで、マルコフ連鎖の次の状態の候補をサンプリングし、重み関数に基づいてそれらの1つをランダムに選択する。 正準重み関数は対象密度に比例する。 我々は, この重み関数が高次元, 特に収束相における病理学的挙動を誘導することを示す。 そこで本稿では,Zanella (2020) の局所平衡分布に類似した重み関数を用いることにより,これらの病態を示さないMDMアルゴリズムを提案する。 これらのアルゴリズムを理論的に解析するために、各イテレーションで無限個の候補をサンプリングするMTMアルゴリズムと、有限個の候補をサンプリングするMTMアルゴリズムとの相違を考慮した理想スキームの高次元的性能について検討する。 前者では局所的バランスが重要であり, 高速収束を実現する上で有効であるのに対し, 後者では標準的および新規な重み関数が同様の性能を発揮する。 数値実験には、MTMイテレーションにおける並列コンピューティングの利用を有益なものにする、計算に精通したフォワードモデルを含む精密医療の応用が含まれる。

Multiple-try Metropolis (MTM) is a popular Markov chain Monte Carlo method with the appealing feature of being amenable to parallel computing. At each iteration, it samples several candidates for the next state of the Markov chain and randomly selects one of them based on a weight function. The canonical weight function is proportional to the target density. We show both theoretically and empirically that this weight function induces pathological behaviours in high dimensions, especially during the convergence phase. We propose to instead use weight functions akin to the locally-balanced proposal distributions of Zanella (2020), thus yielding MTM algorithms that do not exhibit those pathological behaviours. To theoretically analyse these algorithms, we study the high-dimensional performance of ideal schemes that can be thought of as MTM algorithms which sample an infinite number of candidates at each iteration, as well as the discrepancy between such schemes and the MTM algorithms which sample a finite number of candidates. Our analysis unveils a strong distinction between the convergence and stationary phases: in the former, local balancing is crucial and effective to achieve fast convergence, while in the latter, the canonical and novel weight functions yield similar performance. Numerical experiments include an application in precision medicine involving a computationally-expensive forward model, which makes the use of parallel computing within MTM iterations beneficial.
翻訳日:2023-08-25 18:42:29 公開日:2023-08-24
# VeriCompress: 検証されたロバスト圧縮ニューラルネットワークの合成をスクラッチから効率化するツール

VeriCompress: A Tool to Streamline the Synthesis of Verified Robust Compressed Neural Networks from Scratch ( http://arxiv.org/abs/2211.09945v6 )

ライセンス: Link先を確認
Sawinder Kaur, Yi Xiao, Asif Salekin(参考訳) AIの広範な統合により、安全クリティカルなシナリオのために、エッジや同様のリミテッドリソースプラットフォームにニューラルネットワーク(NN)がデプロイされる。 しかし、nnの脆弱さは信頼できる推論に関する懸念を引き起こす。 さらに、制約付きプラットフォームはコンパクトネットワークを要求する。 本研究は,ロバスト性を保証する圧縮モデルの探索とトレーニングを自動化するツールであるvericompressを紹介する。 これらのモデルは安全クリティカルなアプリケーションに適しているため、事前定義されたアーキテクチャとサイズ制限に準拠し、リソース制限のあるプラットフォームにデプロイ可能である。 この方法は、最先端のアプローチよりも2~3倍高速にモデルを訓練し、関連するベースラインアプローチを15.1ポイントと9.8ポイントの平均精度と堅牢性向上で上回った。 リソース制限のあるジェネリックプラットフォームにデプロイする場合、これらのモデルは、5-8倍のメモリと2-4倍の推論時間を必要とする。 MNIST, CIFAR, SVHN, および関連する歩行者検出データセットを含む, さまざまなモデルアーキテクチャおよびデータセットに対する包括的評価では, 計算オーバーヘッドを減らした圧縮されたロバストモデルを特定するVeriCompressの能力を示す。 これにより、エッジ上の安全クリティカルなアプリケーションやiotプラットフォームの開発など、エンドユーザにとって価値のあるツールとしての可能性が高まり、それぞれのドメインにおいて、安全クリティカルでリソース制約のあるプラットフォームに適したモデルの開発が可能になる。

AI's widespread integration has led to neural networks (NNs) deployment on edge and similar limited-resource platforms for safety-critical scenarios. Yet, NN's fragility raises concerns about reliable inference. Moreover, constrained platforms demand compact networks. This study introduces VeriCompress, a tool that automates the search and training of compressed models with robustness guarantees. These models are well-suited for safety-critical applications and adhere to predefined architecture and size limitations, making them deployable on resource-restricted platforms. The method trains models 2-3 times faster than the state-of-the-art approaches, surpassing relevant baseline approaches by average accuracy and robustness gains of 15.1 and 9.8 percentage points, respectively. When deployed on a resource-restricted generic platform, these models require 5-8 times less memory and 2-4 times less inference time than models used in verified robustness literature. Our comprehensive evaluation across various model architectures and datasets, including MNIST, CIFAR, SVHN, and a relevant pedestrian detection dataset, showcases VeriCompress's capacity to identify compressed verified robust models with reduced computation overhead compared to current standards. This underscores its potential as a valuable tool for end users, such as developers of safety-critical applications on edge or Internet of Things platforms, empowering them to create suitable models for safety-critical, resource-constrained platforms in their respective domains.
翻訳日:2023-08-25 18:42:06 公開日:2023-08-24
# ゼノ効果を用いたマルチ量子ビット量子ゲート

A Multi-Qubit Quantum Gate Using the Zeno Effect ( http://arxiv.org/abs/2211.05988v2 )

ライセンス: Link先を確認
Philippe Lewalle, Leigh S. Martin, Emmanuel Flurin, Song Zhang, Eliya Blumenthal, Shay Hacohen-Gourgy, Daniel Burgarth, K. Birgitta Whaley(参考訳) 繰り返し観測されるゼノ効果は量子系の力学を凍結させ、量子力学の象徴的な奇性として機能する。 測定が部分空間内の状態と区別できない場合、その部分空間内のダイナミクスは著しく変化し、非自明な振る舞いをもたらす。 そこで,このような測定により,単一ビット制御のみの非干渉系を2ビットあるいは複数ビットのエンタングゲートに変換し,これをゼノゲートと呼ぶ。 ゲートは、ある特定の非局所部分空間内に位置するシステム上に幾何位相を付与することで機能する。 我々は,複数の非イデアル条件下でのゲート忠実度に対する単純な閉形式表現を導出し,回路およびキャビティQEDシステムにおいてゲートが実装可能であることを示す。 より具体的には、マルコフ的および非マルコフ的読み出し規則の両方において、分散的読み出しによるゲートの機能を説明し、ゲートを理想的に実現するための長手読み出し条件を導出する。

The Zeno effect, in which repeated observation freezes the dynamics of a quantum system, stands as an iconic oddity of quantum mechanics. When a measurement is unable to distinguish between states in a subspace, the dynamics within that subspace can be profoundly altered, leading to non-trivial behavior. Here we show that such a measurement can turn a non-interacting system with only single-qubit control into a two- or multi-qubit entangling gate, which we call a Zeno gate. The gate works by imparting a geometric phase on the system, conditioned on it lying within a particular nonlocal subspace. We derive simple closed-form expressions for the gate fidelity under a number of non-idealities and show that the gate is viable for implementation in circuit and cavity QED systems. More specifically, we illustrate the functioning of the gate via dispersive readout in both the Markovian and non-Markovian readout regimes, and derive conditions for longitudinal readout to ideally realize the gate.
翻訳日:2023-08-25 18:41:38 公開日:2023-08-24
# ベイジアンニューラルネットワークによるオフショア風構造に対する農業用仮想負荷モニタリング

Farm-wide virtual load monitoring for offshore wind structures via Bayesian neural networks ( http://arxiv.org/abs/2211.00642v2 )

ライセンス: Link先を確認
N. Hlaing, Pablo G. Morato, F. d. N. Santos, W. Weijtjens, C. Devriendt, P. Rigo(参考訳) オフショアの風構造は、その活動期間を通じて劣化するメカニズムを伴っている。 物理に基づく劣化モデルによって構造要素の劣化進化を推定できるとしても、プロセスに関わる不確実性はライフサイクル管理決定の選択を妨げている。 このシナリオでは、効率的なモニタリングシステムを通じて関連する情報の収集によって不確実性の低減が可能になり、最終的にはより最適なライフサイクル決定が導かれる。 しかしながら、農場のすべての風力タービンで実施される完全な監視装置は、実用的で経済的制約のために実現不可能になる可能性がある。 さらに、いくつかの負荷監視システムは、数年間の海洋環境暴露の後、しばしば欠陥となる。 上記の懸念に対処するため、フリートリーダー風力タービンによる農場全体の仮想負荷監視スキームは魅力的なソリューションを提供する。 完全装備の風力タービンから取得したデータにより、モデルは訓練され、デプロイされ、非監視の風力タービンの負荷予測が得られ、そこから標準データのみが利用可能となる。 本稿では,ベイジアンニューラルネットワーク(BNN)を介して構成された仮想負荷監視フレームワークを提案し,BNNデータに基づく仮想監視モデルの構築,トレーニング,デプロイに必要な実装の詳細について述べる。 bnnは、その決定論的対応とは対照的に、発生した負荷予測に関連する不確かさを本質的に発表し、非監視風力タービンで発生する不正確な負荷推定を検出できるようにする。 提案した仮想負荷モニタリングは, 実運用型洋上風力発電における実験キャンペーンを通じて徹底的に検証され, BNNモデルの有効性が実証された。

Offshore wind structures are subject to deterioration mechanisms throughout their operational lifetime. Even if the deterioration evolution of structural elements can be estimated through physics-based deterioration models, the uncertainties involved in the process hurdle the selection of lifecycle management decisions. In this scenario, the collection of relevant information through an efficient monitoring system enables the reduction of uncertainties, ultimately driving more optimal lifecycle decisions. However, a full monitoring instrumentation implemented on all wind turbines in a farm might become unfeasible due to practical and economical constraints. Besides, certain load monitoring systems often become defective after a few years of marine environment exposure. Addressing the aforementioned concerns, a farm-wide virtual load monitoring scheme directed by a fleet-leader wind turbine offers an attractive solution. Fetched with data retrieved from a fully-instrumented wind turbine, a model can be trained and then deployed, thus yielding load predictions of non-fully monitored wind turbines, from which only standard data remains available. In this paper, we propose a virtual load monitoring framework formulated via Bayesian neural networks (BNNs) and we provide relevant implementation details needed for the construction, training, and deployment of BNN data-based virtual monitoring models. As opposed to their deterministic counterparts, BNNs intrinsically announce the uncertainties associated with generated load predictions and allow to detect inaccurate load estimations generated for non-fully monitored wind turbines. The proposed virtual load monitoring is thoroughly tested through an experimental campaign in an operational offshore wind farm and the results demonstrate the effectiveness of BNN models for fleet-leader-based farm-wide virtual monitoring.
翻訳日:2023-08-25 18:41:20 公開日:2023-08-24
# 任意の位相空間における量子速度限界

Quantum speed limits in arbitrary phase spaces ( http://arxiv.org/abs/2210.14278v2 )

ライセンス: Link先を確認
Weiquan Meng and Zhenyu Xu(参考訳) 量子速度制限(qsls)は、任意の物理過程における量子状態の進化速度の上限を提供する。 ストラトノビッチ・ワイル対応に基づき、連続変数系と有限次元離散量子系の両方に適用可能な任意の位相空間に有界な普遍QSLを導出する。 このQSL境界は、例えば位相空間における単モード自由場や$N$レベルの量子システムのようないくつかの典型的な例で示されるように、ウィグナー位相空間やヒルベルト空間よりも厳密な特定の位相空間における速度制限境界の決定を可能にする。 このqslバウンドはまた、量子情報や量子光学における応用に関連する位相空間の速度制限を調べる実験的に実現可能な方法を提供する。

Quantum speed limits (QSLs) provide an upper bound for the speed of evolution of quantum states in any physical process. Based on the Stratonovich-Weyl correspondence, we derive a universal QSL bound in arbitrary phase spaces that is applicable for both continuous variable systems and finite-dimensional discrete quantum systems. This QSL bound allows the determination of speed limit bounds in specific phase spaces that are tighter than those in Wigner phase space or Hilbert space under the same metric, as illustrated by several typical examples, e.g., a single-mode free field and $N$-level quantum systems in phase spaces. This QSL bound also provides an experimentally realizable way to examine the speed limit in phase spaces relevant to applications in quantum information and quantum optics.
翻訳日:2023-08-25 18:40:56 公開日:2023-08-24
# 適応融合による係り受け強化事前学習モデルによる意味マッチングの改善

Improving Semantic Matching through Dependency-Enhanced Pre-trained Model with Adaptive Fusion ( http://arxiv.org/abs/2210.08471v5 )

ライセンス: Link先を確認
Jian Song, Di Liang, Rumei Li, Yuntao Li, Sirui Wang, Minlong Peng, Wei Wu, Yongxin Yu(参考訳) BERTのようなトランスフォーマーベースの事前学習モデルはセマンティックセンテンスマッチングに大きな進歩を遂げた。 一方、依存関係事前知識は複数のNLPタスクにおいて一般的な利点を示している。 しかし、複雑なセマンティックマッチング関係をより良くモデル化するために、依存関係事前構造を事前訓練されたモデルに効率的に統合する方法はまだ未定である。 本稿では,事前学習したモデルに依存性構造を明示的に導入し,セマンティック情報と適応的に融合する<textbf{D}ependency-Enhanced \textbf{A}daptive \textbf{F}usion \textbf{A}ttention (\textbf{DAFA})を提案する。 具体的には、 DAFA はまず、注意重みを調整するための依存性行列を構築するために、構造に敏感なパラダイムを提案する。 得られた依存情報と元の意味信号を統合するために、適応的な融合モジュールを採用する。 さらにdafaは注意計算フローを再構築し、より良い解釈性を提供する。 bertに適用することで、10の公開データセットで最先端あるいは競争力のあるパフォーマンスを実現し、セマンティックマッチングタスクで依存性構造を適応的に活用するメリットを実証する。

Transformer-based pre-trained models like BERT have achieved great progress on Semantic Sentence Matching. Meanwhile, dependency prior knowledge has also shown general benefits in multiple NLP tasks. However, how to efficiently integrate dependency prior structure into pre-trained models to better model complex semantic matching relations is still unsettled. In this paper, we propose the \textbf{D}ependency-Enhanced \textbf{A}daptive \textbf{F}usion \textbf{A}ttention (\textbf{DAFA}), which explicitly introduces dependency structure into pre-trained models and adaptively fuses it with semantic information. Specifically, \textbf{\emph{(i)}} DAFA first proposes a structure-sensitive paradigm to construct a dependency matrix for calibrating attention weights. It adopts an adaptive fusion module to integrate the obtained dependency information and the original semantic signals. Moreover, DAFA reconstructs the attention calculation flow and provides better interpretability. By applying it on BERT, our method achieves state-of-the-art or competitive performance on 10 public datasets, demonstrating the benefits of adaptively fusing dependency structure in semantic matching task.
翻訳日:2023-08-25 18:40:41 公開日:2023-08-24
# 誰も残っていない:現実世界のフェデレーション・クラス・インクリメンタル・ラーニング

No One Left Behind: Real-World Federated Class-Incremental Learning ( http://arxiv.org/abs/2302.00903v2 )

ライセンス: Link先を確認
Jiahua Dong, Hongliu Li, Yang Cong, Gan Sun, Yulun Zhang, Luc Van Gool(参考訳) Federated Learning(FL)は、分散化されたローカルクライアントのモデルパラメータを集約する、ホットコラボレーティブなトレーニングフレームワークである。 しかし、ほとんどのFLメソッドは、FLフレームワークのデータカテゴリが事前に知られ、固定されていることを不当に仮定する。 さらに、他のクライアントが目に見えない新しいカテゴリを収集する新しいローカルクライアントも、FLトレーニングに不規則に導入することができる。 これらの問題により、グローバルモデルでは、古いカテゴリを記憶する限られたメモリの下で、ローカルクライアントが新しいカテゴリを連続的に受け取ると、古いカテゴリを壊滅的に忘れてしまう。 以上の課題に対処するため,我々はLGA(Local-Global Anti-forgetting)モデルを提案する。 ローカルおよびグローバルな破滅的な忘れ物に対処することで、新しいクラスを継続的に学習するローカルクライアントが残されることを保証します。 具体的には, 局所的クライアントの不均衡を克服し, 局所的リテインティングを克服するために, カテゴリー均衡勾配適応補償損失とカテゴリー勾配誘起意味蒸留損失について検討した。 それらは、異なるタスク内で一貫したクラス関係を確保しながら、忘れやすい、忘れやすいカテゴリの異種忘れ速度のバランスをとることができる。 さらに、プロキシサーバは、異なるクライアント間の非IIDクラス不均衡に起因するグローバルな忘れに対処するように設計されている。 ローカルクライアントから収集した新たなカテゴリを,自己監督型プロトタイプ拡張によりプロトタイプイメージに拡張し,局所側セマンティック蒸留損失の最良のグローバルモデルを選択するためのロバスト性を向上させる。 代表的なデータセットに関する実験は、比較手法に対するモデルの優れた性能を検証する。 コードはhttps://github.com/jiahuadong/lgaで入手できる。

Federated learning (FL) is a hot collaborative training framework via aggregating model parameters of decentralized local clients. However, most FL methods unreasonably assume data categories of FL framework are known and fixed in advance. Moreover, some new local clients that collect novel categories unseen by other clients may be introduced to FL training irregularly. These issues render global model to undergo catastrophic forgetting on old categories, when local clients receive new categories consecutively under limited memory of storing old categories. To tackle the above issues, we propose a novel Local-Global Anti-forgetting (LGA) model. It ensures no local clients are left behind as they learn new classes continually, by addressing local and global catastrophic forgetting. Specifically, considering tackling class imbalance of local client to surmount local forgetting, we develop a category-balanced gradient-adaptive compensation loss and a category gradient-induced semantic distillation loss. They can balance heterogeneous forgetting speeds of hard-to-forget and easy-to-forget old categories, while ensure consistent class-relations within different tasks. Moreover, a proxy server is designed to tackle global forgetting caused by Non-IID class imbalance between different clients. It augments perturbed prototype images of new categories collected from local clients via self-supervised prototype augmentation, thus improving robustness to choose the best old global model for local-side semantic distillation loss. Experiments on representative datasets verify superior performance of our model against comparison methods. The code is available at https://github.com/JiahuaDong/LGA.
翻訳日:2023-08-25 18:34:03 公開日:2023-08-24
# universal soldier: バックドア攻撃を検出するためにuniversal adversarial perturbationを使用する

Universal Soldier: Using Universal Adversarial Perturbations for Detecting Backdoor Attacks ( http://arxiv.org/abs/2302.00747v3 )

ライセンス: Link先を確認
Xiaoyun Xu, Oguzhan Ersoy, Stjepan Picek(参考訳) ディープラーニングモデルは、多くの機械学習タスクで優れたパフォーマンスを達成します。 しかし、敵の例や毒殺(バックドア)攻撃などセキュリティ関連の問題に苦しんでいる。 ディープラーニングモデルは、バックドアデータによるトレーニングや、内部ネットワークパラメータの変更によって悪用される。 そして、クリーンな入力を受けると、バックドアモデルが期待通りに実行されるが、「トリガー」と呼ばれる予め設計されたパターンで押されたバックドア入力を受けると誤分類される。 残念ながら、トリガーの事前知識なしでは、クリーンモデルとバックドアモデルの区別が難しい。 本稿では,特定のタイプの攻撃,uap(universal adversarial perturbation)とバックドアトリガーとの類似性を利用したバックドア検出手法を提案する。 バックドアモデルから生成されたUAPは、クリーンモデルからのUAPよりもモデルを誤解させるのに、より少ない摂動を必要とする。 バックドアモデルのUAPは、バックドアトリガによって構築されたすべてのクラスからターゲットクラスへのショートカットを利用する傾向がある。 UAPによるバックドア検出(USB)とリバースエンジニアリング潜在的なバックドアトリガのためのUniversal Soldierという新しい手法を提案する。 複数のデータセットでトレーニングされた345モデルの実験では、usbが注入されたバックドアを効果的に検出し、最先端の方法と同等あるいは優れた結果を提供することが示された。

Deep learning models achieve excellent performance in numerous machine learning tasks. Yet, they suffer from security-related issues such as adversarial examples and poisoning (backdoor) attacks. A deep learning model may be poisoned by training with backdoored data or by modifying inner network parameters. Then, a backdoored model performs as expected when receiving a clean input, but it misclassifies when receiving a backdoored input stamped with a pre-designed pattern called "trigger". Unfortunately, it is difficult to distinguish between clean and backdoored models without prior knowledge of the trigger. This paper proposes a backdoor detection method by utilizing a special type of adversarial attack, universal adversarial perturbation (UAP), and its similarities with a backdoor trigger. We observe an intuitive phenomenon: UAPs generated from backdoored models need fewer perturbations to mislead the model than UAPs from clean models. UAPs of backdoored models tend to exploit the shortcut from all classes to the target class, built by the backdoor trigger. We propose a novel method called Universal Soldier for Backdoor detection (USB) and reverse engineering potential backdoor triggers via UAPs. Experiments on 345 models trained on several datasets show that USB effectively detects the injected backdoor and provides comparable or better results than state-of-the-art methods.
翻訳日:2023-08-25 18:33:37 公開日:2023-08-24
# バイオインフォマティクスに基づく機械学習のためのアンダーソン加速度

Anderson Acceleration For Bioinformatics-Based Machine Learning ( http://arxiv.org/abs/2302.00347v2 )

ライセンス: Link先を確認
Sarwan Ali, Prakash Chourasia, and Murray Patterson(参考訳) andersonaccelerate (aa) は反復アルゴリズムの収束を加速するよく知られた手法であり、ディープラーニングや最適化など様々な分野の応用がある。 これらの分野での人気にもかかわらず、古典的な機械学習分類器におけるAAの有効性は十分に研究されていない。 特にタブラルデータは、ディープラーニングモデルに特有の課題を示しており、古典的な機械学習モデルは、これらのシナリオでよりよく機能することが知られている。 しかし、これらのモデルの収束解析は限定的な注目を集めている。 このギャップに対処するため,AAを組み込んだサポートベクトルマシン(SVM)分類器を実装,収束を高速化する。 生物学領域からのいくつかのデータセットに対するアンダーソン加速度とアンダーソン加速度によるSVMの性能評価を行い、AAの使用が収束を著しく改善し、反復数が増えるにつれてトレーニング損失を減少させることを示した。 以上の知見は,単純な機械学習分類器の学習におけるアンダーソン加速の可能性について有望な視点を示し,この分野におけるさらなる研究の重要性を裏付けるものである。 この環境でのAAの有効性を示すことにより、古典的な機械学習におけるAAの応用を探求する研究をさらに進めることを目指している。

Anderson acceleration (AA) is a well-known method for accelerating the convergence of iterative algorithms, with applications in various fields including deep learning and optimization. Despite its popularity in these areas, the effectiveness of AA in classical machine learning classifiers has not been thoroughly studied. Tabular data, in particular, presents a unique challenge for deep learning models, and classical machine learning models are known to perform better in these scenarios. However, the convergence analysis of these models has received limited attention. To address this gap in research, we implement a support vector machine (SVM) classifier variant that incorporates AA to speed up convergence. We evaluate the performance of our SVM with and without Anderson acceleration on several datasets from the biology domain and demonstrate that the use of AA significantly improves convergence and reduces the training loss as the number of iterations increases. Our findings provide a promising perspective on the potential of Anderson acceleration in the training of simple machine learning classifiers and underscore the importance of further research in this area. By showing the effectiveness of AA in this setting, we aim to inspire more studies that explore the applications of AA in classical machine learning.
翻訳日:2023-08-25 18:33:11 公開日:2023-08-24
# 可変線トレーシングと機械学習を用いたメガピクセル画像を用いたマルチモード光パイプ上の効率的なデータ転送

Efficient data transport over multimode light-pipes with Megapixel images using differentiable ray tracing and Machine-learning ( http://arxiv.org/abs/2301.06496v3 )

ライセンス: Link先を確認
Joowon Lim, Jannes Gladrow, Douglas Kelly, Greg O'Shea, Govert Verkes, Ioan Stefanovici, Sebastian Nowozin, and Benn Thomsen(参考訳) マルチモードファイバを通して送信される画像の回収は、光を効率よく閉じ込め輸送する能力によって、関心が高まりつつある。 本稿では,大規模デジタル画像(ページ)の機械学習による復号化を行い,光ストレージアプリケーションのページ容量を最大化する。 ミリサイズの正方形断面導波路を用いて、8ビット空間光変調器を画像化し、データをシンボルの行列として提示する。 通常、デコーダは空間的にスクランブルされたデータでn個のシンボルをデコードするために禁忌のO(n^2)計算スケーリングを発生させる。 しかし、セットアップのデジタル双対とu-netを組み合わせることで、効率的な畳み込み操作のみを使用して66kbまで取得することができる。 トレーニング可能なレイトレーシング系と固有モード系双生児を比較し,光学的欠陥に適応してシミュレーションと実験のギャップを克服する能力により,前者の方が優れていることを示す。 我々は、von-mises分布に基づく微分可能な相互情報推定器を用いてパイプラインのエンドツーエンドを訓練し、一般に位相符号化チャネルに適用する。

Retrieving images transmitted through multi-mode fibers is of growing interest, thanks to their ability to confine and transport light efficiently in a compact system. Here, we demonstrate machine-learning-based decoding of large-scale digital images (pages), maximizing page capacity for optical storage applications. Using a millimeter-sized square cross-section waveguide, we image an 8-bit spatial light modulator, presenting data as a matrix of symbols. Normally, decoders will incur a prohibitive O(n^2) computational scaling to decode n symbols in spatially scrambled data. However, by combining a digital twin of the setup with a U-Net, we can retrieve up to 66 kB using efficient convolutional operations only. We compare trainable ray-tracing-based with eigenmode-based twins and show the former to be superior thanks to its ability to overcome the simulation-to-experiment gap by adjusting to optical imperfections. We train the pipeline end-to-end using a differentiable mutual-information estimator based on the von-Mises distribution, generally applicable to phase-coding channels.
翻訳日:2023-08-25 18:32:50 公開日:2023-08-24
# 時空結晶としての地球:量子スケール現象のマクロ的な性質は、量子物理学を時間的に共鳴してホスト星に局在させる

Earth as a time crystal: macroscopic nature of a quantum-scale phenomenon exposes quantum physics as tidally-resonantly localized to host star ( http://arxiv.org/abs/2301.02578v3 )

ライセンス: Link先を確認
Mensur Omerbashich(参考訳) 古データの周期性の主張は多く、非常に議論の的であり、パネロゾイク (0-541 My) の大量絶滅は地球上の生命を不可能にする。 この期間のハントは、地質学的時間スケールを軌道周波数に結びつけるジオクロノロジーの近代化と一致し、高調波からの天体信号の分離を可能にした。 そこで, 地磁気極性, クレーター, 絶滅現象) を惑星の古力学の指標として示し, 多数の天体の非調和運動が2{\pi}-相シフト軸プレセッションp=26 kyとそのPi=2{\pi}p/i; i=1の地球の共鳴応答を誘導することを示した。 古データの周期性には 共鳴的に責任がある この準周期的性質は、p'/4-ロックステップによってp'=41-kyの斜度に共トリガーされる。 GPTS-95における2{\pi}p (and so Pi) の抑制後の残差分析は、南大西洋異常点における時間スケールの校正を逆転させ、終末カンパニア (0-83 My) まで延長し、古いエポックから報告された地球-火星惑星共鳴の弱い信号の発見に成功した。 残余信号は26.5マイ・ランピノ周期であり、破砕偏向と反転反転のキャリア波である。 地球の (2{\pi}p, pi) 共鳴応答はミラノコビッチ理論の長いエネルギー移動機構であるが、基本系の性質 - 2{\pi}-相シフト、1/4ロックステップ、離散時間変換対称性 (多重/ハロウィーン周期) - は量子時間結晶の典型例であるが、巨視的に見える。 地球の逆転と膨張のメカニズムとして以前に主張されていた破滅的な地球力学現象である。 地球-月-太陽共振系は、量子のような全てのサブスケール共鳴のトーンを設定するので、あらゆる解釈における量子物理学は、地球近傍の外では根本的に異なり可変である。

Claims of paleodata periodicity are many and so controversial that superimposing Phanerozoic (0-541 My) mass-extinction periods renders life on Earth impossible. This period hunt coincided with geochronology modernization tying geological timescales to orbital frequencies, enabling separation of astronomical signals from harmonics. I thus show on diverse data (geomagnetic polarity, cratering, extinction episodes) as a proxy of planetary paleodynamics that many-body subharmonic entrainment induces Earth's resonant response to astronomical forcing so that 2{\pi}-phase-shifted axial precession p=26 ky and its Pi=2{\pi}p/i; i=1...n harmonics get resonantly responsible for paleodata periodicity. This quasiperiodic nature of strata is co-triggered by a p'/4-lockstep to p'=41-ky obliquity. For verification, residuals analysis after suppressing 2{\pi}p (and so Pi) in GPTS-95 polarity reversals timescale's calibration at the South Atlantic Anomaly, extending to end-Campanian (0-83 My), successfully detected weak signals of Earth-Mars planetary resonances reported previously from older epochs. The only residual signal is 26.5-My Rampino period - carrier wave of crushing deflections and transformative reversals. While the Earth's (2{\pi}p, Pi) resonant response is the long-sought energy transfer mechanism of Milankovitch theory, fundamental system properties - 2{\pi}-phase-shift, 1/4 lockstep to a forcer, and discrete time translation symmetry (multiplied/halved periods) - typical of a quantum time crystal, appear macroscopic. The surprising cross-scale outcome confirms planetary precession is a cataclysmic geodynamic phenomenon claimed previously as the mechanism for Earth's reversals and expansion. As the Earth-Moon-Sun resonant system sets the tone for all subscale resonances like the quantum, quantum physics in any interpretation is fundamentally different and variable outside Earth's vicinity.
翻訳日:2023-08-25 18:31:42 公開日:2023-08-24
# 教師なしマニフォールド線形化とクラスタリング

Unsupervised Manifold Linearizing and Clustering ( http://arxiv.org/abs/2301.01805v2 )

ライセンス: Link先を確認
Tianjiao Ding, Shengbang Tong, Kwan Ho Ryan Chan, Xili Dai, Yi Ma, Benjamin D. Haeffele(参考訳) 機械学習とコンピュータビジョンにおける基本課題である低次元多様体の結合に近いデータの線形表現を同時にクラスタリングし学習する問題を考える。 多様体が線型部分空間であると仮定すると、これは過去20年間に広く研究されてきた部分空間クラスタリングの古典的な問題に還元される。 残念なことに、自然画像のような現実世界の多くのデータセットは線形部分空間によって十分に近似できない。 一方、一般の非線形多様体の和集合から線型部分空間の和へ(同じ多様体からの点が同じ部分空間に写像される)データが写像されるような、データの適切な変換を多くの研究が学ぼうとしている。 しかし、多くの既存の研究は、サンプルのクラスタへのメンバシップに関する知識を仮定したり、高いサンプリング密度を必要としたり、理論上は自明な表現を学ぶために示されるといった制限がある。 本稿では,最先端のサブスペースクラスタリング結果にインスパイアされた,データ表現と新しい二重確率クラスタメンバシップの両方について,最大符号化率低減指標の最適化を提案する。 このような表現とメンバシップのパラメータ化を行い、効率的なミニバッチとワンショット初期化を可能にします。 CIFAR-10, -20, -100, TinyImageNet-200データセットを用いた実験により,提案手法は最先端のディープクラスタリング手法よりもはるかに正確でスケーラブルであり,さらに遅延線形表現を学習していることがわかった。

We consider the problem of simultaneously clustering and learning a linear representation of data lying close to a union of low-dimensional manifolds, a fundamental task in machine learning and computer vision. When the manifolds are assumed to be linear subspaces, this reduces to the classical problem of subspace clustering, which has been studied extensively over the past two decades. Unfortunately, many real-world datasets such as natural images can not be well approximated by linear subspaces. On the other hand, numerous works have attempted to learn an appropriate transformation of the data, such that data is mapped from a union of general non-linear manifolds to a union of linear subspaces (with points from the same manifold being mapped to the same subspace). However, many existing works have limitations such as assuming knowledge of the membership of samples to clusters, requiring high sampling density, or being shown theoretically to learn trivial representations. In this paper, we propose to optimize the Maximal Coding Rate Reduction metric with respect to both the data representation and a novel doubly stochastic cluster membership, inspired by state-of-the-art subspace clustering results. We give a parameterization of such a representation and membership, allowing efficient mini-batching and one-shot initialization. Experiments on CIFAR-10, -20, -100, and TinyImageNet-200 datasets show that the proposed method is much more accurate and scalable than state-of-the-art deep clustering methods, and further learns a latent linear representation of the data.
翻訳日:2023-08-25 18:30:51 公開日:2023-08-24
# DexBERT: Androidバイトコードの効率的,タスク非依存,きめ細かい表現学習

DexBERT: Effective, Task-Agnostic and Fine-grained Representation Learning of Android Bytecode ( http://arxiv.org/abs/2212.05976v2 )

ライセンス: Link先を確認
Tiezhu Sun (1), Kevin Allix (1), Kisub Kim (2), Xin Zhou (2), Dongsun Kim (3), David Lo (2), Tegawend\'e F. Bissyand\'e (1) and Jacques Klein (1) ((1) University of Luxembourg, (2) Singapore Management University, (3) Kyungpook National University)(参考訳) 機械学習(ML)によって、多数のソフトウェアエンジニアリングタスクの自動化が可能になった。 MLをソフトウェアアーチファクト(ソースや実行可能なコードなど)に適用することの中心は、それらを学習に適した形式に変換することです。 伝統的に、研究者は、しばしば不正確で一般的に不完全である専門家の知識に基づいて、手動で選択した機能に頼ってきた。 表現学習により、MLは自動的に適切な表現と関連する特徴を選択できる。 しかし、Android関連のタスクでは、apk2vecのような既存のモデルはアプリケーション全体のレベルにフォーカスしている。 私たちの研究は、これらの2つの制限を緩和するために、バイトコードの効率的でタスクに依存しない、きめ細かい普遍的な表現を調査する新しい研究の一部です。 このような表現は、様々な低レベル下流タスク(例えば、クラスレベルで)に関連する情報をキャプチャすることを目的としている。 我々は自然言語処理の分野に触発され、普遍表現の問題は、文に関する抽象的な意味情報を様々なタスクで再利用することを目的として、BERTのようなユニバーサル言語モデルを構築することで解決された。 我々は,Androidアプリケーションで使用される主要なバイナリフォーマットであるDEXバイトコードのチャンクを表現するために,BERTライクな言語モデルであるDexBERTを提案する。 DexBERT が DEX 言語をモデル化できるかどうかを実証的に評価し,その妥当性を3つのクラスレベルのソフトウェアエンジニアリングタスク(悪意のあるコードローカライゼーション,欠陥予測,コンポーネントタイプ分類)で評価した。 また、サイズが大きく異なるアプリへのキャタリングの問題に対処する戦略を実験し、その手法を用いて与えられたタスクに関連する情報を調査する一例を示した。

The automation of a large number of software engineering tasks is becoming possible thanks to Machine Learning (ML). Central to applying ML to software artifacts (like source or executable code) is converting them into forms suitable for learning. Traditionally, researchers have relied on manually selected features, based on expert knowledge which is sometimes imprecise and generally incomplete. Representation learning has allowed ML to automatically choose suitable representations and relevant features. Yet, for Android-related tasks, existing models like apk2vec focus on whole-app levels, or target specific tasks like smali2vec, which limits their applicability. Our work is part of a new line of research that investigates effective, task-agnostic, and fine-grained universal representations of bytecode to mitigate both of these two limitations. Such representations aim to capture information relevant to various low-level downstream tasks (e.g., at the class-level). We are inspired by the field of Natural Language Processing, where the problem of universal representation was addressed by building Universal Language Models, such as BERT, whose goal is to capture abstract semantic information about sentences, in a way that is reusable for a variety of tasks. We propose DexBERT, a BERT-like Language Model dedicated to representing chunks of DEX bytecode, the main binary format used in Android applications. We empirically assess whether DexBERT is able to model the DEX language and evaluate the suitability of our model in three distinct class-level software engineering tasks: Malicious Code Localization, Defect Prediction, and Component Type Classification. We also experiment with strategies to deal with the problem of catering to apps having vastly different sizes, and we demonstrate one example of using our technique to investigate what information is relevant to a given task.
翻訳日:2023-08-25 18:30:23 公開日:2023-08-24
# コンピュータビジョンにおけるアルゴリズムの進歩

Algorithmic progress in computer vision ( http://arxiv.org/abs/2212.05153v4 )

ライセンス: Link先を確認
Ege Erdil and Tamay Besiroglu(参考訳) コンピュータビジョンにおける最もよく知られたテストベッドであるImageNetの画像分類のアルゴリズム的進歩について検討する。 我々は、ニューラルスケーリング法則の作業によって知らされるモデルを推定し、計算、データ、アルゴリズムのスケーリングにおける進捗の分解を推測する。 シェープ値を用いて性能向上を図った結果,アルゴリズムの改良はコンピュータビジョンの進歩における計算のスケーリングと同じくらい重要であった。 我々の推定では、アルゴリズムの革新は、主に、データ強化アルゴリズムの進歩ではなく、計算増強アルゴリズムの進歩(研究者が少ない計算でより良いパフォーマンスを得ることを可能にする)の形式を採っている。 計算推論アルゴリズムの進歩はムーアの法則に付随する速度の2倍以上の速さで実現されていることが判明した。 特に,9ヶ月毎の計算要件(95%信頼区間:4~25ヶ月)を計算・提示するイノベーションが半減していると推定した。

We investigate algorithmic progress in image classification on ImageNet, perhaps the most well-known test bed for computer vision. We estimate a model, informed by work on neural scaling laws, and infer a decomposition of progress into the scaling of compute, data, and algorithms. Using Shapley values to attribute performance improvements, we find that algorithmic improvements have been roughly as important as the scaling of compute for progress computer vision. Our estimates indicate that algorithmic innovations mostly take the form of compute-augmenting algorithmic advances (which enable researchers to get better performance from less compute), not data-augmenting algorithmic advances. We find that compute-augmenting algorithmic advances are made at a pace more than twice as fast as the rate usually associated with Moore's law. In particular, we estimate that compute-augmenting innovations halve compute requirements every nine months (95\% confidence interval: 4 to 25 months).
翻訳日:2023-08-25 18:29:53 公開日:2023-08-24
# 平等処理:説明分布を用いた公正度測定

Equal Treatment: Measuring Fairness using Explanation Distributions ( http://arxiv.org/abs/2303.08040v2 )

ライセンス: Link先を確認
Carlos Mougan, Laura State, Antonio Ferrara, Salvatore Ruggieri, Steffen Staab(参考訳) 自由主義志向の政治哲学は、全ての個人が保護された特徴とは独立して扱われるべきである。 機械学習における関連する研究は、平等な治療の概念を平等な結果の言葉に翻訳し、人口統計学的パリティ(統計的パリティとも呼ばれる)として測定した。 分析の結果,平等な結果と平等な治療という2つの概念が相違していることが判明した。 我々は平等な治療のための新しい公式化を提案する。 (i)分類を説明するシェープリー値などの予測に特徴値の影響を考慮する。 (ii)説明の分布を定めること、及び (iii)保護特性の異なる個体群間の説明分布の比較 等価治療の概念の理論的性質を示し, 等価治療検査者のAUCに基づく分類器2サンプル試験を考案する。 合成データと自然データに等しい処理の形式化について検討する。 これはメソッドとチュートリアルを備えたオープンソースのpythonパッケージです。

Liberalism-oriented political philosophy reasons that all individuals should be treated equally independently of their protected characteristics. Related work in machine learning has translated the concept of equal treatment into terms of equal outcome and measured it as demographic parity (also called statistical parity). Our analysis reveals that the two concepts of equal outcome and equal treatment diverge; therefore, demographic parity does not faithfully represent the notion of equal treatment. We propose a new formalization for equal treatment by (i) considering the influence of feature values on predictions, such as computed by Shapley values explaining classifications, (ii) defining distributions of explanations, and (iii) comparing explanation distributions between populations with different protected characteristics. We show the theoretical properties of our notion of equal treatment and devise a classifier two-sample test based on the AUC of an equal treatment inspector. We study our formalization of equal treatment on synthetic and natural data. We release explanationspace, an open-source Python package with methods and tutorials.
翻訳日:2023-08-25 18:23:16 公開日:2023-08-24
# 統一モデルによる化学反応前訓練と条件分子生成のギャップの橋渡し

Bridging the Gap between Chemical Reaction Pretraining and Conditional Molecule Generation with a Unified Model ( http://arxiv.org/abs/2303.06965v3 )

ライセンス: Link先を確認
Bo Qiang, Yiran Zhou, Yuheng Ding, Ningfeng Liu, Song Song, Liangren Zhang, Bo Huang, Zhenming Liu(参考訳) 化学反応は薬物設計と有機化学研究の基本的な構成要素である。 近年,化学反応の基本ルールを効率的に把握できる大規模ディープラーニングフレームワークの必要性が高まっている。 本稿では,反応表現学習と分子生成タスクの両方に対処し,より総合的なアプローチを可能にする統一的な枠組みを提案する。 有機化学機構にインスパイアされた我々は,モデルに誘導バイアスを組み込むことのできる,新しい事前学習フレームワークを開発した。 我々のフレームワークは、下流タスクに挑戦する最先端の成果を達成する。 化学知識を持つことによって、我々の生成枠組みは、少数の反応テンプレートに依存する現在の分子生成モデルの制限を克服した。 広範な実験において,本モデルは高品質の合成可能な薬物様構造を生成する。 全体として、我々の研究は、さまざまな反応ベースのアプリケーションのための大規模なディープラーニングフレームワークに向けて大きな一歩を踏み出した。

Chemical reactions are the fundamental building blocks of drug design and organic chemistry research. In recent years, there has been a growing need for a large-scale deep-learning framework that can efficiently capture the basic rules of chemical reactions. In this paper, we have proposed a unified framework that addresses both the reaction representation learning and molecule generation tasks, which allows for a more holistic approach. Inspired by the organic chemistry mechanism, we develop a novel pretraining framework that enables us to incorporate inductive biases into the model. Our framework achieves state-of-the-art results on challenging downstream tasks. By possessing chemical knowledge, our generative framework overcome the limitations of current molecule generation models that rely on a small number of reaction templates. In the extensive experiments, our model generates synthesizable drug-like structures of high quality. Overall, our work presents a significant step toward a large-scale deep-learning framework for a variety of reaction-based applications.
翻訳日:2023-08-25 18:23:02 公開日:2023-08-24
# 事前学習型GANとVAEの特徴学習

Feature Unlearning for Pre-trained GANs and VAEs ( http://arxiv.org/abs/2303.05699v2 )

ライセンス: Link先を確認
Saemi Moon, Seunghyuk Cho, Dongwoo Kim(参考訳) 我々は,事前学習された画像生成モデルであるGANとVAEから特徴非学習の問題に取り組む。 学習対象がトレーニングセットのサブセットである一般的な未学習タスクとは異なり、訓練前の生成モデルから顔画像のヘアスタイルのような特定の特徴を解放することを目指している。 対象特徴が画像の局所領域にのみ表示されるため、事前学習されたモデルから全体像を学習すると、画像の残りの領域で他の詳細が失われる可能性がある。 学習すべき特徴を特定するために,対象特徴を含むランダムに生成した画像を収集する。 次に,対象特徴に対応する潜在表現を特定し,その表現を用いて事前学習したモデルを微調整する。 MNISTとCelebAデータセットの実験により,元のモデルの忠実さを維持しながら,ターゲット特徴の除去に成功した。 敵対的な攻撃によるさらなる実験は、未発見のモデルは悪意のある当事者の存在下でより堅牢であることを示している。

We tackle the problem of feature unlearning from a pre-trained image generative model: GANs and VAEs. Unlike a common unlearning task where an unlearning target is a subset of the training set, we aim to unlearn a specific feature, such as hairstyle from facial images, from the pre-trained generative models. As the target feature is only presented in a local region of an image, unlearning the entire image from the pre-trained model may result in losing other details in the remaining region of the image. To specify which features to unlearn, we collect randomly generated images that contain the target features. We then identify a latent representation corresponding to the target feature and then use the representation to fine-tune the pre-trained model. Through experiments on MNIST and CelebA datasets, we show that target features are successfully removed while keeping the fidelity of the original models. Further experiments with an adversarial attack show that the unlearned model is more robust under the presence of malicious parties.
翻訳日:2023-08-25 18:22:50 公開日:2023-08-24
# 連続および離散空間における疎ガウス過程による回帰からの効率的なセンサ配置

Efficient Sensor Placement from Regression with Sparse Gaussian Processes in Continuous and Discrete Spaces ( http://arxiv.org/abs/2303.00028v4 )

ライセンス: Link先を確認
Kalvik Jakkala, Srinivas Akella(参考訳) センサ配置問題は温度や降水などの相関現象を監視する際に発生する一般的な問題である。 この問題に対する既存のアプローチでは、計算コストが高く、大きな問題にはスケールできない離散最適化手法が一般的に用いられる。 相関環境におけるセンサ配置問題を,スパースガウス過程(SGP)を用いて効率的に解ける回帰問題に還元することで解決する。 提案手法は,センサが所定の位置のサブセットに制限されるような離散的なセンサ配置問題と,センサを境界のある連続領域に配置できる連続的なセンサ配置問題の両方を扱うことができる。 さらに,センサを扱うアプローチを,非点視野と統合観察で一般化した。 実世界の3つのデータセットに対する実験結果から,我々の手法はセンサ配置を生成し,従来と同等かそれ以上の再現品質を実現し,精度は大幅に向上した。 我々の計算効率の良いアプローチは、情報経路計画アルゴリズムのための大規模センサー配置と高速ロボットセンサ配置の両方を可能にする。

The sensor placement problem is a common problem that arises when monitoring correlated phenomena, such as temperature and precipitation. Existing approaches to this problem typically use discrete optimization methods, which are computationally expensive and cannot scale to large problems. We address the sensor placement problem in correlated environments by reducing it to a regression problem that can be efficiently solved using sparse Gaussian processes (SGPs). Our approach can handle both discrete sensor placement problems-where sensors are limited to a subset of a given set of locations-and continuous sensor placement problems-where sensors can be placed anywhere in a bounded continuous region. We further generalize our approach to handle sensors with a non-point field of view and integrated observations. Our experimental results on three real-world datasets show that our approach generates sensor placements that result in reconstruction quality that is consistently on par or better than the prior state-of-the-art approach while being significantly faster. Our computationally efficient approach enables both large-scale sensor placement and fast robotic sensor placement for informative path planning algorithms.
翻訳日:2023-08-25 18:22:11 公開日:2023-08-24
# バンド非対称性による一次元弱局在の抑制

Suppression of one-dimensional weak localization by band asymmetry ( http://arxiv.org/abs/2302.13816v2 )

ライセンス: Link先を確認
Kartikeya Arora, Rajeev Singh, Pavan Hosur(参考訳) エネルギー分散により時間反転および反転対称性を破る金属の異常誘起局在を, ベリー相を欠いた, $\epsilon_{k}\neq\epsilon_{-k}$を用いて検討した。 摂動性障害では, 左右の移動者のフェルミ速度のミスマッチにより, 局所性の弱さが抑制されている。 この解析結果を明らかにするために,アンダーソン局在長よりも短い鎖のクエンチ数値 -- 再帰グリーン関数法を用いて計算し,有限であることが証明された -- を行い,バンド非対称性による参加率の飽和値の急上昇を見出し,非局在化傾向を示す。 興味深いことに、弱障害強度 $\eta$ に対して、従来の対称バンドよりも非対称バンドに対して $\xi\propto1/\eta^{2}$ のスケーリング挙動に適合する。

We investigate disorder-induced localization in metals that break time-reversal and inversion symmetries through their energy dispersion, $\epsilon_{k}\neq\epsilon_{-k}$, but lack Berry phases. In the perturbative regime of disorder, we show that weak localization is suppressed due to a mismatch of the Fermi velocities of left and right movers. To substantiate this analytical result, we perform quench numerics on chains shorter than the Anderson localization length -- the latter computed and verified to be finite using the recursive Green's function method -- and find a sharp rise in the saturation value of the participation ratio due to band asymmetry, indicating a tendency to delocalize. Interestingly, for weak disorder strength $\eta$, we see a better fit to the scaling behavior $\xi\propto1/\eta^{2}$ for asymmetric bands than conventional symmetric ones.
翻訳日:2023-08-25 18:21:51 公開日:2023-08-24
# 創発的非局所対応を伴う対称非エルミート皮膚効果

Symmetric non-Hermitian skin effect with emergent nonlocal correspondence ( http://arxiv.org/abs/2302.13213v2 )

ライセンス: Link先を確認
Zhi-Yuan Wang, Jian-Song Hong, and Xiong-Jun Liu(参考訳) 非エルミート皮膚効果(英: non-Hermitian skin effect, NHSE)とは、非エルミート系の多くの固有状態が開境界に局在していることをいう。 ここでは、局所粒子ホール対称性(PHS)により、皮膚モードは異なる境界上に均等に分散されなければならないという普遍的な現象を予測し、非エルミート系に特有の新しい非局所化を示す。 我々は、非エルミート系を二次ヒルベルト空間内の拡張エルミートハミルトニアンと接続し、スキンモードを位相的ゼロモード、phsを多くの体物理学の観点から創発的非局所対称性にマッピングすることによって、創発的非局所対称性保護nhseのジェネリック理論を開発する。 NHSEは摂動に対して頑丈である。 コールド原子実験で利用できる全ての物理次元の予測現象を観測するための光学ラマン格子モデルを提案する。

The non-Hermitian skin effect (NHSE) refers to that an extensive number of eigenstates of a non-Hermitian system are localized in open boundaries. Here we predict a universal phenomenon that with local particle-hole(-like) symmetry (PHS) the skin modes must be equally distributed on different boundaries, manifesting a novel nonlocalization of the local PHS, which is unique to non-Hermitian systems. We develop a generic theory for the emergent nonlocal symmetry-protected NHSE by connecting the non-Hermitian system to an extended Hermitian Hamiltonian in a quadruplicate Hilbert space, which maps the skin modes to the topological zero modes and the PHS to an emergent nonlocal symmetry in the perspective of many body physics. The predicted NHSE is robust against perturbations. We propose optical Raman lattice models to observe the predicted phenomena in all physical dimensions, which are accessible with cold-atom experiments.
翻訳日:2023-08-25 18:21:33 公開日:2023-08-24
# 通信-プライバシー-accuracy トレードオフを$f$-differential privacyで破る

Breaking the Communication-Privacy-Accuracy Tradeoff with $f$-Differential Privacy ( http://arxiv.org/abs/2302.09624v2 )

ライセンス: Link先を確認
Richeng Jin, Zhonggen Su, Caijun Zhong, Zhaoyang Zhang, Tony Quek, Huaiyu Dai(参考訳) 本稿では,複数のユーザの協調的なデータ分析を,プライバシの懸念と限られた通信能力で調整するフェデレーションデータ分析問題を考える。 一般に採用されている圧縮方式は、通信効率を向上しながら、ローカルデータに情報損失を導入しており、そのような離散的な値付け機構がプライバシー保護を提供するかどうかについては未解決の問題である。 本稿では,f$-differential privacy (dp) のレンズを通して,有限出力空間を持つ離散値機構の局所的微分プライバシー保証について検討する。 具体的には、プライバシ保存のために提案される二項ノイズや二項メカニズム、およびクローズドフォーム表現においてデータ圧縮のために提案される手話に基づく手法など、様々な離散的なメカニズムの厳密な$f$-DP保証を導出することにより、既存の文献を前進させる。 さらに,スペーシングによるプライバシの増幅について検討し,第3次確率圧縮機を提案する。 プライバシ増幅のための圧縮を活用することで、分散平均推定の一般的なユースケースにおいて、通信コストに対する精度(平均二乗誤差)の依存性を取り除き、プライバシ、通信、精度の3方向トレードオフを破ることで、既存の方法を改善する。 最後に,提案機構のビザンチン弾性とそのフェデレート学習への応用について述べる。

We consider a federated data analytics problem in which a server coordinates the collaborative data analysis of multiple users with privacy concerns and limited communication capability. The commonly adopted compression schemes introduce information loss into local data while improving communication efficiency, and it remains an open problem whether such discrete-valued mechanisms provide any privacy protection. In this paper, we study the local differential privacy guarantees of discrete-valued mechanisms with finite output space through the lens of $f$-differential privacy (DP). More specifically, we advance the existing literature by deriving tight $f$-DP guarantees for a variety of discrete-valued mechanisms, including the binomial noise and the binomial mechanisms that are proposed for privacy preservation, and the sign-based methods that are proposed for data compression, in closed-form expressions. We further investigate the amplification in privacy by sparsification and propose a ternary stochastic compressor. By leveraging compression for privacy amplification, we improve the existing methods by removing the dependency of accuracy (in terms of mean square error) on communication cost in the popular use case of distributed mean estimation, therefore breaking the three-way tradeoff between privacy, communication, and accuracy. Finally, we discuss the Byzantine resilience of the proposed mechanism and its application in federated learning.
翻訳日:2023-08-25 18:21:13 公開日:2023-08-24
# トレーニング領域外のPINNの一般化とそれに影響を与えるハイパーパラメータについて

On the Generalization of PINNs outside the training domain and the Hyperparameters influencing it ( http://arxiv.org/abs/2302.07557v2 )

ライセンス: Link先を確認
Andrea Bonfanti, Roberto Santana, Marco Ellero, Babak Gholami(参考訳) 物理情報ニューラルネットワーク(英: Physics-Informed Neural Networks、PINN)は、微分方程式の解を、解データなしでエミュレートするよう訓練されたニューラルネットワークアーキテクチャである。 それらは、柔軟で有望な設定のため、現在科学文献でユビキタスである。 しかし、利用可能な研究のごく一部は、そのようなアーキテクチャとその機能をより定量的に理解することを目的とした実践的研究を提供している。 本稿では,トレーニング領域外におけるPINN予測の挙動を実証的に分析する。 第一の目的は、トレーニングエリア外でPINNが一貫した予測を提供するシナリオを調査することである。 以下、ピンのアルゴリズム構成が一般化の可能性に影響を及ぼすかどうかを評価し、予測に対するそれぞれの効果を示す。 本研究で得られた結果は,ピンとドメイン分解および/または適応的トレーニング戦略を組み合わせたアーキテクチャに非常に関連性のある,洞察に富み,時には直観に反する視点を返す。

Physics-Informed Neural Networks (PINNs) are Neural Network architectures trained to emulate solutions of differential equations without the necessity of solution data. They are currently ubiquitous in the scientific literature due to their flexible and promising settings. However, very little of the available research provides practical studies that aim for a better quantitative understanding of such architecture and its functioning. In this paper, we perform an empirical analysis of the behavior of PINN predictions outside their training domain. The primary goal is to investigate the scenarios in which a PINN can provide consistent predictions outside the training area. Thereinafter, we assess whether the algorithmic setup of PINNs can influence their potential for generalization and showcase the respective effect on the prediction. The results obtained in this study returns insightful and at times counterintuitive perspectives which can be highly relevant for architectures which combines PINNs with domain decomposition and/or adaptive training strategies.
翻訳日:2023-08-25 18:20:49 公開日:2023-08-24
# 階層的自己回帰言語モデルによる高次元縦型電子健康記録の合成

Synthesize High-dimensional Longitudinal Electronic Health Records via Hierarchical Autoregressive Language Model ( http://arxiv.org/abs/2304.02169v2 )

ライセンス: Link先を確認
Brandon Theodorou, Cao Xiao, and Jimeng Sun(参考訳) リアルかつプライバシを保護した合成電子健康記録(EHR)は、機械学習(ML)モデリングと統計分析のための実際のEHRの代替となる。 しかし,ehr(high-fidelity and granular electronic health record)データの生成は,高次元データに固有の複雑さが原因で既存の手法では課題となっている。 本稿では, 階層型自己回帰言語mOdel(HALO)を提案する。これは, 現実のEHRの統計特性を保存し, プライバシーを考慮せずに正確なMLモデルのトレーニングに使用できる。 階層的自己回帰モデルとして設計されたhalo法は, 医用コード, 臨床訪問, 患者記録の確率密度関数を生成し, 変数選択や集計を必要とせず, 元の非集約形式のehrデータを生成する。 さらに,このモデルでは,高品質な連続変数を連続的かつ確率的に生成する。 我々は, HALOが高次元疾患コード確率(d >10,000), 訪問中の疾患共起確率(d > 1000,000), 連続訪問における条件付き確率(d > 5,000,000)で高忠実性EHRデータを生成し, 実EHRデータと比較して0.9R2以上の相関を達成できることを実証した。 このパフォーマンスにより、合成データに基づいてトレーニングされた下流MLモデルを、実データでトレーニングされたモデルに匹敵する精度を達成することができる(HALOデータでは0.938 AUROC、実データでは0.943)。 最後に、実データと合成データの組み合わせにより、実際のEHRデータのみを使用することで達成された以上のMLモデルの精度を高める。

Synthetic electronic health records (EHRs) that are both realistic and preserve privacy can serve as an alternative to real EHRs for machine learning (ML) modeling and statistical analysis. However, generating high-fidelity and granular electronic health record (EHR) data in its original, highly-dimensional form poses challenges for existing methods due to the complexities inherent in high-dimensional data. In this paper, we propose Hierarchical Autoregressive Language mOdel (HALO) for generating longitudinal high-dimensional EHR, which preserve the statistical properties of real EHR and can be used to train accurate ML models without privacy concerns. Our HALO method, designed as a hierarchical autoregressive model, generates a probability density function of medical codes, clinical visits, and patient records, allowing for the generation of realistic EHR data in its original, unaggregated form without the need for variable selection or aggregation. Additionally, our model also produces high-quality continuous variables in a longitudinal and probabilistic manner. We conducted extensive experiments and demonstrate that HALO can generate high-fidelity EHR data with high-dimensional disease code probabilities (d > 10,000), disease co-occurrence probabilities within visits (d > 1,000,000), and conditional probabilities across consecutive visits (d > 5,000,000) and achieve above 0.9 R2 correlation in comparison to real EHR data. This performance then enables downstream ML models trained on its synthetic data to achieve comparable accuracy to models trained on real data (0.938 AUROC with HALO data vs. 0.943 with real data). Finally, using a combination of real and synthetic data enhances the accuracy of ML models beyond that achieved by using only real EHR data.
翻訳日:2023-08-25 18:12:53 公開日:2023-08-24
# 対向温度の1対の熱貯水池を用いた光子数スクイーズ状態の光学的調製

Optomechanical preparation of photon number-squeezed states with a pair of thermal reservoirs of opposite temperatures ( http://arxiv.org/abs/2304.01745v2 )

ライセンス: Link先を確認
Baiqiang Zhu, Keye Zhang and Weiping Zhang(参考訳) 光子数列状態は基本的な量子研究において重要な価値を持ち、量子論において幅広い応用がある。 その準備機構のほとんどは、量子力学の精密な制御を必要とし、散逸に対する耐性が低い。 我々は、これらの抑制の対象とならないメカニズムを提案する。 一般的なアプローチとは対照的に、正温度と負温度の貯水池によって誘導される2種類の散逸の自己分散を利用して、光子数の部分ポアソン統計分布を持つ定常状態を生成する。 また,この機構を空洞オプトメカニクスシステムを用いて実装する方法を示す。 合成した光子数列状態の質は, 種々の光力学系に対する現実的なパラメータと組み合わせた理論モデルによって推定される。

Photon number-squeezed states are of significant value in fundamental quantum research and have a wide range of applications in quantum metrology. Most of their preparation mechanisms require precise control of quantum dynamics and are less tolerant to dissipation. We propose a mechanism that is not subject to these restraints. In contrast to common approaches, we exploit the self-balancing between two types of dissipation induced by positive- and negative-temperature reservoirs to generate steady states with sub-Poissonian statistical distributions of photon numbers. We also show how to implement this mechanism with cavity optomechanical systems. The quality of the prepared photon number-squeezed state is estimated by our theoretical model combined with realistic parameters for various typical optomechanical systems.
翻訳日:2023-08-25 18:12:22 公開日:2023-08-24
# Zolly:人間のメッシュ再建のためのズーム焦点長の補正

Zolly: Zoom Focal Length Correctly for Perspective-Distorted Human Mesh Reconstruction ( http://arxiv.org/abs/2303.13796v3 )

ライセンス: Link先を確認
Wenjia Wang, Yongtao Ge, Haiyi Mei, Zhongang Cai, Qingping Sun, Yanjun Wang, Chunhua Shen, Lei Yang, Taku Komura(参考訳) 野生での単視RGB画像のキャリブレーションが難しいため、既存の3次元メッシュ再構成(3DHMR)手法では、焦点距離が一定であり、背景環境の文脈に基づいて推定することは困難であり、カメラが人体に近づいたときの視界カメラ投影による胴体、手、顔の歪みの問題に対処できない。 単純焦点距離の仮定は、不正確な定式化された射影行列でこの課題を害することができる。 そこで本稿では,遠近像に着目した最初の3dhmr法であるzollyを提案する。 私たちのアプローチは、主に人体のカメラセンターへの相対的な位置によって引き起こされる遠近的歪みの理由を分析することから始まります。 本研究では,人体の2次元密歪スケールを記述する新しいカメラモデルと,新しい2次元表現である歪み画像を提案する。 次に,環境文脈特徴よりも歪みスケール特徴から距離を推定する。 その後、歪み特徴と画像特徴を統合し、ボディメッシュを再構築する。 正しい投影行列を定式化し、人体の位置を特定するために、遠近法と弱視投影損失を同時に利用する。 既存のデータセットは、このタスクを処理できないため、最初の合成データセットPDHumanを提案し、このタスクに適した2つの実世界のデータセットを拡張する。 広範な実験により、zollyはパースペクティブディストリクトデータセットと標準ベンチマーク(3dpw)の両方において、既存の最先端のメソッドよりも優れていることが示されている。

As it is hard to calibrate single-view RGB images in the wild, existing 3D human mesh reconstruction (3DHMR) methods either use a constant large focal length or estimate one based on the background environment context, which can not tackle the problem of the torso, limb, hand or face distortion caused by perspective camera projection when the camera is close to the human body. The naive focal length assumptions can harm this task with the incorrectly formulated projection matrices. To solve this, we propose Zolly, the first 3DHMR method focusing on perspective-distorted images. Our approach begins with analysing the reason for perspective distortion, which we find is mainly caused by the relative location of the human body to the camera center. We propose a new camera model and a novel 2D representation, termed distortion image, which describes the 2D dense distortion scale of the human body. We then estimate the distance from distortion scale features rather than environment context features. Afterwards, we integrate the distortion feature with image features to reconstruct the body mesh. To formulate the correct projection matrix and locate the human body position, we simultaneously use perspective and weak-perspective projection loss. Since existing datasets could not handle this task, we propose the first synthetic dataset PDHuman and extend two real-world datasets tailored for this task, all containing perspective-distorted human images. Extensive experiments show that Zolly outperforms existing state-of-the-art methods on both perspective-distorted datasets and the standard benchmark (3DPW).
翻訳日:2023-08-25 18:11:50 公開日:2023-08-24
# 量的医用画像分割のための効率的なmlp置換による畳み込みの促進

Boosting Convolution with Efficient MLP-Permutation for Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2303.13111v3 )

ライセンス: Link先を確認
Yi Lin, Xiao Fang, Dong Zhang, Kwang-Ting Cheng, Hao Chen(参考訳) 近年、ビジョントランスフォーマー(ViT)の出現により、特に3Dボリューム画像セグメント化(Vol-MedSeg)において、3Dデータセットベンチマークが大幅に進歩している。 同時に、多層パーセプトロン(MLP)ネットワークは、リソース集約型の自己保持モジュールを除外したにもかかわらず、ViTに匹敵する結果により、研究者の間で人気を取り戻している。 本稿では,畳み込みニューラルネットワーク(CNN)とMLPの両方の長所を生かした,Vol-MedSeg用の新しい可変ハイブリッドネットワークPHNetを提案する。 PHNetは2次元CNNと3次元CNNを組み合わせて局所的な特徴を抽出することにより,3次元ボリュームデータの固有等方性問題に対処する。 さらに,位置情報を保存しながら長距離依存を捉える効率的な多層透過型パーセプトロン(mlpp)モジュールを提案する。 これは、入力テンソルを異なる軸に沿って置換する軸分解演算によって実現され、位置情報の分離エンコーディングを可能にする。 さらに、MLPPはトークンセグメンテーション操作でVol-MedSegのMLPの分解感度問題に取り組み、より小さなトークンに分割して個別に処理する。 大規模な実験結果から、PHNetは、広く使われているが挑戦的なCOVID-19-20とSynapseベンチマークにおいて、計算コストの低い最先端の手法よりも優れていることが確認された。 アブレーション研究は、PHNetがCNNとMLPの両方の強度を活用できることを示す。

Recently, the advent of vision Transformer (ViT) has brought substantial advancements in 3D dataset benchmarks, particularly in 3D volumetric medical image segmentation (Vol-MedSeg). Concurrently, multi-layer perceptron (MLP) network has regained popularity among researchers due to their comparable results to ViT, albeit with the exclusion of the resource-intensive self-attention module. In this work, we propose a novel permutable hybrid network for Vol-MedSeg, named PHNet, which capitalizes on the strengths of both convolution neural networks (CNNs) and MLP. PHNet addresses the intrinsic isotropy problem of 3D volumetric data by employing a combination of 2D and 3D CNNs to extract local features. Besides, we propose an efficient multi-layer permute perceptron (MLPP) module that captures long-range dependence while preserving positional information. This is achieved through an axis decomposition operation that permutes the input tensor along different axes, thereby enabling the separate encoding of the positional information. Furthermore, MLPP tackles the resolution sensitivity issue of MLP in Vol-MedSeg with a token segmentation operation, which divides the feature into smaller tokens and processes them individually. Extensive experimental results validate that PHNet outperforms the state-of-the-art methods with lower computational costs on the widely-used yet challenging COVID-19-20 and Synapse benchmarks. The ablation study also demonstrates the effectiveness of PHNet in harnessing the strengths of both CNNs and MLP.
翻訳日:2023-08-25 18:11:22 公開日:2023-08-24
# VAD:効率的な自律運転のためのベクトル的シーン表現

VAD: Vectorized Scene Representation for Efficient Autonomous Driving ( http://arxiv.org/abs/2303.12077v3 )

ライセンス: Link先を確認
Bo Jiang, Shaoyu Chen, Qing Xu, Bencheng Liao, Jiajie Chen, Helong Zhou, Qian Zhang, Wenyu Liu, Chang Huang, Xinggang Wang(参考訳) 自律運転は、信頼できる軌道計画のために周囲の環境を包括的に理解する必要がある。 以前の作品では、高密度ラスタ化シーン表現(エージェント占有率やセマンティックマップなど)を使用して計画を行い、計算集約的で、インスタンスレベルの構造情報を見逃している。 本稿では,運転シーンを完全ベクトル化表現としてモデル化した,エンドツーエンドの自律走行ベクトル化パラダイムであるvadを提案する。 提案するベクトル化パラダイムには2つの大きな利点がある。 一方、VADはベクトル化されたエージェントの動きとマップ要素を明示的なインスタンスレベルの計画制約として利用し、計画の安全性を効果的に改善する。 一方、VADは計算集約的なラスタ化表現と手作業で設計された後処理のステップを取り除き、従来のエンドツーエンドの計画手法よりもはるかに高速である。 VADは、nuScenesデータセット上で最先端のエンドツーエンドプランニングパフォーマンスを達成し、以前のベストメソッドを大きなマージンで上回る。 我々のベースモデルであるVAD-Baseは平均衝突速度を29.0%削減し、2.5倍速く走らせる。 さらに、軽量なVAD-Tinyは推論速度(最大9.3倍)を大幅に改善し、計画性能も同等に向上した。 VADの優れた性能と高い効率は、自動運転システムの現実的な展開に不可欠であると考えています。 コードとモデルはhttps://github.com/hustvl/vadで入手できる。

Autonomous driving requires a comprehensive understanding of the surrounding environment for reliable trajectory planning. Previous works rely on dense rasterized scene representation (e.g., agent occupancy and semantic map) to perform planning, which is computationally intensive and misses the instance-level structure information. In this paper, we propose VAD, an end-to-end vectorized paradigm for autonomous driving, which models the driving scene as a fully vectorized representation. The proposed vectorized paradigm has two significant advantages. On one hand, VAD exploits the vectorized agent motion and map elements as explicit instance-level planning constraints which effectively improves planning safety. On the other hand, VAD runs much faster than previous end-to-end planning methods by getting rid of computation-intensive rasterized representation and hand-designed post-processing steps. VAD achieves state-of-the-art end-to-end planning performance on the nuScenes dataset, outperforming the previous best method by a large margin. Our base model, VAD-Base, greatly reduces the average collision rate by 29.0% and runs 2.5x faster. Besides, a lightweight variant, VAD-Tiny, greatly improves the inference speed (up to 9.3x) while achieving comparable planning performance. We believe the excellent performance and the high efficiency of VAD are critical for the real-world deployment of an autonomous driving system. Code and models are available at https://github.com/hustvl/VAD for facilitating future research.
翻訳日:2023-08-25 18:10:24 公開日:2023-08-24
# 複数の時効拡散オートエンコーダ

Pluralistic Aging Diffusion Autoencoder ( http://arxiv.org/abs/2303.11086v2 )

ライセンス: Link先を確認
Peipei Li, Rui Wang, Huaibo Huang, Ran He, Zhaofeng He(参考訳) 複数のプラプティブルな老化パターンが与えられた入力に対応する可能性があるため、顔の老化は不適切な問題である。 ほとんどの既存手法は、しばしば一つの決定論的推定を生成する。 本稿では,老化パターンの多様性を高めるために,クリップ駆動型多元的老化拡散オートエンコーダ (pada) を提案する。 まず, 拡散モデルを用いて, 逐次デノージング逆プロセスを通じて, 様々な低レベルな老化詳細を生成する。 第2に, 年齢情報を共通CLIP潜伏空間の確率分布として表現する多種多様な高次老化パターンを捉えるための確率的老化埋め込み(PAE)を提案する。 テキスト誘導KL分割損失は、この学習を導くために設計されている。 本手法は,オープンワールドの高齢化テキストと任意の未知の顔画像に基づいて,多元的顔老化を実現する。 質的,定量的な実験により,より多様で高品質な老化結果が得られた。

Face aging is an ill-posed problem because multiple plausible aging patterns may correspond to a given input. Most existing methods often produce one deterministic estimation. This paper proposes a novel CLIP-driven Pluralistic Aging Diffusion Autoencoder (PADA) to enhance the diversity of aging patterns. First, we employ diffusion models to generate diverse low-level aging details via a sequential denoising reverse process. Second, we present Probabilistic Aging Embedding (PAE) to capture diverse high-level aging patterns, which represents age information as probabilistic distributions in the common CLIP latent space. A text-guided KL-divergence loss is designed to guide this learning. Our method can achieve pluralistic face aging conditioned on open-world aging texts and arbitrary unseen face images. Qualitative and quantitative experiments demonstrate that our method can generate more diverse and high-quality plausible aging results.
翻訳日:2023-08-25 18:10:02 公開日:2023-08-24
# 動的デカップリングによって保護された非断熱幾何ゲートに基づくシリコン空洞中心の量子計算

Quantum computation in silicon-vacancy centers based on nonadiabatic geometric gates protected by dynamical decoupling ( http://arxiv.org/abs/2303.10053v3 )

ライセンス: Link先を確認
M.-R. Yun, Jin-Lei Wu, L.-L. Yan, Yu Jia, S.-L. Su, C.-X Shan(参考訳) 強いゼロフォノン線放出、狭い不均一拡大、安定した光遷移周波数のため、ダイヤモンド中の負電荷シリコン空孔(SiV)中心からなる量子系は普遍的な量子計算を開発することが期待されている。 本研究では,1次元導波管内に設置されたSiV中心を用いて,量子ゲートを非断熱幾何学的に実現し,動的デカップリング(DD)によって保護される量子計算を初めて実施することを提案する。 このスキームは、誤差を制御するのに堅牢な幾何学的量子計算の特徴と、環境影響に敏感なDDの利点を有する。 さらに、シリコン空洞中心の長寿命基底状態における量子ビットの符号化は自然放出の影響を低減できる。 数値シミュレーションは、量子計算のためのSiV中心系の実用性とDDパルスによる量子ゲートの堅牢性向上を示す。 このスキームは、固体系における高忠実度幾何量子計算への有望な経路を提供するかもしれない。

Due to strong zero-phonon line emission, narrow inhomogeneous broadening, and stable optical transition frequencies, the quantum system consisting of negatively charged silicon-vacancy (SiV) centers in diamond is highly expected to develop universal quantum computation. We propose to implement quantum computation for the first time using SiV centers placed in a one-dimensional phononic waveguide, for which quantum gates are realized in a nonadiabatic geometric way and protected by dynamical decoupling (DD). The scheme has the feature of geometric quantum computation that is robust to control errors and the advantage of DD that is insensitive to environmental impact. Furthermore, the encoding of qubits in long-lifetime ground states of silicon-vacancy centers can reduce the effect of spontaneous emission. Numerical simulations demonstrate the practicability of the SiV center system for quantum computation and the robustness improvement of quantum gates by DD pulses. This scheme may provide a promising path toward high-fidelity geometric quantum computation in solid-state systems.
翻訳日:2023-08-25 18:09:45 公開日:2023-08-24
# 学生のt分布の混合による多目的眼疾患スクリーニング

Reliable Multimodality Eye Disease Screening via Mixture of Student's t Distributions ( http://arxiv.org/abs/2303.09790v3 )

ライセンス: Link先を確認
Ke Zou and Tian Lin and Xuedong Yuan and Haoyu Chen and Xiaojing Shen and Meng Wang and Huazhu Fu(参考訳) 眼科では多彩な眼疾患スクリーニングが重要であり、それぞれのパフォーマンスを補完するために様々な情報源からの情報を統合している。 しかし、既存の手法は各一様性の信頼性を評価するのに弱いため、信頼できないモダリティを直接融合させるとスクリーニングエラーが発生する可能性がある。 そこで本研究では,眼疾患スクリーニングのためのマルチモーダル・ビジュアル・フュージョン・パイプラインであるeyemostを紹介し,ユニモーダリティに対する信頼性を評価,多分散融合の観点からのマルチモーダリティ情報をエレガントに統合する。 具体的には,ユニモダリティの局所的不確かさと融合モダリティのグローバルな不確実性の両方を推定し,信頼性の高い分類結果を得る。 さらに重要なのは、学生の$t$分布の混合案が適応的に異なるモダリティを統合し、モデルに重い尾を持つ特性を付与し、堅牢性と信頼性を高めることである。 パブリックデータセットと社内データセットの両方の実験結果から,我々のモデルは現在の手法よりも信頼性が高いことがわかった。 さらに、EyeMostはデータ品質判別器として機能する可能性があり、多目的眼疾患スクリーニングのための信頼性の高い意思決定を可能にする。

Multimodality eye disease screening is crucial in ophthalmology as it integrates information from diverse sources to complement their respective performances. However, the existing methods are weak in assessing the reliability of each unimodality, and directly fusing an unreliable modality may cause screening errors. To address this issue, we introduce a novel multimodality evidential fusion pipeline for eye disease screening, EyeMoSt, which provides a measure of confidence for unimodality and elegantly integrates the multimodality information from a multi-distribution fusion perspective. Specifically, our model estimates both local uncertainty for unimodality and global uncertainty for the fusion modality to produce reliable classification results. More importantly, the proposed mixture of Student's $t$ distributions adaptively integrates different modalities to endow the model with heavy-tailed properties, increasing robustness and reliability. Our experimental findings on both public and in-house datasets show that our model is more reliable than current methods. Additionally, EyeMost has the potential ability to serve as a data quality discriminator, enabling reliable decision-making for multimodality eye disease screening.
翻訳日:2023-08-25 18:09:28 公開日:2023-08-24
# 都市空間時間予測の効率化に向けて:統一図書館と性能ベンチマーク

Towards Efficient and Comprehensive Urban Spatial-Temporal Prediction: A Unified Library and Performance Benchmark ( http://arxiv.org/abs/2304.14343v5 )

ライセンス: Link先を確認
Jiawei Jiang, Chengkai Han, Wenjun Jiang, Wayne Xin Zhao, Jingyuan Wang(参考訳) 深層学習技術が進歩し、都市空間時空間データが蓄積するにつれて、都市空間時空間予測問題を解決するための深層学習モデルが増えている。 しかし、既存の分野には、さまざまなフォーマットで、使いづらいオープンソースのデータ、コードとデータをオープンに利用可能にする論文、さまざまなフレームワークやプラットフォームを使用するオープンソースモデルなど、制限があり、比較が難しい。 これらのメソッドを実装し評価するには、標準化されたフレームワークが緊急に必要です。 これらの課題に対処するため、都市空間時空間予測の総合的なレビューを行い、原子ファイルと呼ばれる空間時空間データの統一記憶形式を提案する。 また、libcityは、研究者に信頼できる実験ツールと便利な開発フレームワークを提供するオープンソースライブラリである。 本図書館では,65の空間-時間予測モデルを再現し,55の空間-時間データセットを収集した。 LibCityを用いて、異なるモデルやコンポーネントの有効性を検証する一連の実験を行い、将来有望な技術開発と研究の方向性を時空間予測のために要約した。 公平なモデル比較を可能にし、統一されたデータストレージフォーマットを設計し、新しいモデルの開発プロセスを簡単にすることで、libcityは空間-時間予測分野に大きな貢献をする準備が整っている。

As deep learning technology advances and more urban spatial-temporal data accumulates, an increasing number of deep learning models are being proposed to solve urban spatial-temporal prediction problems. However, there are limitations in the existing field, including open-source data being in various formats and difficult to use, few papers making their code and data openly available, and open-source models often using different frameworks and platforms, making comparisons challenging. A standardized framework is urgently needed to implement and evaluate these methods. To address these issues, we provide a comprehensive review of urban spatial-temporal prediction and propose a unified storage format for spatial-temporal data called atomic files. We also propose LibCity, an open-source library that offers researchers a credible experimental tool and a convenient development framework. In this library, we have reproduced 65 spatial-temporal prediction models and collected 55 spatial-temporal datasets, allowing researchers to conduct comprehensive experiments conveniently. Using LibCity, we conducted a series of experiments to validate the effectiveness of different models and components, and we summarized promising future technology developments and research directions for spatial-temporal prediction. By enabling fair model comparisons, designing a unified data storage format, and simplifying the process of developing new models, LibCity is poised to make significant contributions to the spatial-temporal prediction field.
翻訳日:2023-08-25 18:03:41 公開日:2023-08-24
# 肯定的AI:ウェルビーイング・アライン・人工知能設計の鍵となる課題

Positive AI: Key Challenges for Designing Wellbeing-aligned Artificial Intelligence ( http://arxiv.org/abs/2304.12241v2 )

ライセンス: Link先を確認
Willem van der Maden, Derek Lomas, Malak Sadek, Paul Hekkert(参考訳) 人工知能(AI)は社会を急速に変革させ、その肯定的な影響を確実にする緊急の必要性を生み出している。 本稿では、人間の幸福を積極的に支援するAIシステムを設計する問題として、この問題に対してポジティブなデザインアプローチを取ります。 しかし、健全なAIシステムの設計は困難である。 この記事では、知識の欠如とモチベーションの欠如という2つのカテゴリにわたる12の課題を特定するために、サイバーネティックな視点を採用します。 知識障壁には、概念化、測定、幸福のために最適化し、適切なAIアクションを設計する際の課題が含まれる。 モチベーション障壁には、不正なインセンティブ、財務と広報のリスク、幸福に関するデータアクセス防止(第三者)研究の欠如などが含まれる。 これらの課題に対処するため、我々は、研究課題における重要な教訓を捉えました。 1)AIシステムの健康への影響に関する科学的理解の進展、及び 2) 福祉の促進と維持を目的として意図的に設計されるAIシステムの設計行動を導く。

Artificial Intelligence (AI) is rapidly transforming society, creating an urgent need to ensure its positive impact. In this article, we take a positive design approach towards this issue, viewing it as a matter of designing AI systems that actively support human wellbeing. However, designing wellbeing-aligned AI systems is difficult. This article adopts a cybernetic perspective to identify twelve key challenges across two categories: lack of knowledge and lack of motivation. Knowledge barriers include challenges in conceptualizing, measuring, and optimizing for wellbeing, then designing appropriate AI actions. Motivation barriers include misaligned incentives, financial and publicity risks, and a lack of data access preventing (third-party) research on wellbeing. To address these challenges we have captured our key takeaways in a research agenda related to 1) advancing the scientific understanding of the impact of AI systems on wellbeing, and 2) guiding design actions on how AI systems might be intentionally designed to promote and sustain wellbeing.
翻訳日:2023-08-25 18:03:17 公開日:2023-08-24
# 自己指導型学習と情報理論を圧縮するか否か : レビュー

To Compress or Not to Compress- Self-Supervised Learning and Information Theory: A Review ( http://arxiv.org/abs/2304.09355v4 )

ライセンス: Link先を確認
Ravid Shwartz-Ziv and Yann LeCun(参考訳) \begin{abstract} Deep Neural Networkは教師付き学習タスクに優れるが、広範なラベル付きデータの必要性によって制約される。 自己組織化学習は有望な代替手段として現れ、明確なラベルなしでモデルを学習できる。 情報理論、特に情報ボトルネックの原則は、ディープニューラルネットワークを形成する上で重要である。 この原則は、圧縮と関連する情報の保存の間のトレードオフの最適化に焦点を当て、監督されたコンテキストにおける効率的なネットワーク設計の基礎を提供する。 しかし、自己指導学習におけるその正確な役割と適応性は未だ不明である。 本研究では,情報理論の観点から,自己指導型学習のアプローチを精査し,自己指導型情報理論学習問題をカプセル化する統一的な枠組みを導入する。 我々は,結束物語,現代自己管理方法論,スポットライト研究の道と固有の課題について,既存の研究をまとめる。 さらに,情報理論量の経験的評価とその推定方法について考察する。 全体としては,情報理論,自己教師付き学習,ディープニューラルネットワークの交点を徹底的に検討する。

\begin{abstract} Deep neural networks excel in supervised learning tasks but are constrained by the need for extensive labeled data. Self-supervised learning emerges as a promising alternative, allowing models to learn without explicit labels. Information theory, and notably the information bottleneck principle, has been pivotal in shaping deep neural networks. This principle focuses on optimizing the trade-off between compression and preserving relevant information, providing a foundation for efficient network design in supervised contexts. However, its precise role and adaptation in self-supervised learning remain unclear. In this work, we scrutinize various self-supervised learning approaches from an information-theoretic perspective, introducing a unified framework that encapsulates the self-supervised information-theoretic learning problem. We weave together existing research into a cohesive narrative, delve into contemporary self-supervised methodologies, and spotlight potential research avenues and inherent challenges. Additionally, we discuss the empirical evaluation of information-theoretic quantities and their estimation methods. Overall, this paper furnishes an exhaustive review of the intersection of information theory, self-supervised learning, and deep neural networks.
翻訳日:2023-08-25 18:02:23 公開日:2023-08-24
# 顔認証エッジケースに取り組む - 奥行き解析とヒューマンマシン融合アプローチ-

Tackling Face Verification Edge Cases: In-Depth Analysis and Human-Machine Fusion Approach ( http://arxiv.org/abs/2304.08134v4 )

ライセンス: Link先を確認
Martin Knoche and Gerhard Rigoll(参考訳) 現在、顔認識システムは複数のデータセットで人間のパフォーマンスを上回っている。 しかし、マシンが正しく分類できないエッジケースは依然として存在する。 本稿では,顔認証タスクにおける機械と操作者の組合せの効果について検討する。 まず、いくつかの最先端モデルのエッジケースに注目して、共通のデータセットの困難な設定を見つける。 次に,選択タスクの参加者60名を対象に,人間による調査を行い,詳細な分析を行った。 最後に、機械と人間の意思決定を組み合わせることで、様々なベンチマークデータセットにおける最先端の顔認証システムの性能をさらに向上できることを実証する。 コードとデータはgithubで公開されている。

Nowadays, face recognition systems surpass human performance on several datasets. However, there are still edge cases that the machine can't correctly classify. This paper investigates the effect of a combination of machine and human operators in the face verification task. First, we look closer at the edge cases for several state-of-the-art models to discover common datasets' challenging settings. Then, we conduct a study with 60 participants on these selected tasks with humans and provide an extensive analysis. Finally, we demonstrate that combining machine and human decisions can further improve the performance of state-of-the-art face verification systems on various benchmark datasets. Code and data are publicly available on GitHub.
翻訳日:2023-08-25 18:01:35 公開日:2023-08-24
# 単一光子光ビスタビリティ

Single photon optical bistability ( http://arxiv.org/abs/2304.07530v2 )

ライセンス: Link先を確認
Igor E. Protsenko, Alexander V. Uskov(参考訳) 本稿では,Fabry-Perot干渉計(FPI)の光波長サイズキャビティ,非線形Kerr媒体,および外部量子場に励起される光子数個について,その安定性について検討する。 定常平均光子数、不安定領域、フィールド及び光子数変動スペクトルの分析式を得る。 異なるスペクトルを持つFPIキャビティ場の複数の定常状態は、例えばフォトニック結晶キャビティと半導体ドープガラス非線形媒体を有するFPIにおいて現実的な条件で可能である。

We investigate the bistability in a small Fabry-Perot interferometer (FPI) with the optical wavelength size cavity, the nonlinear Kerr medium and only a few photons, on average, excited by the external quantum field. Analytical expressions for the stationary mean photon number, the bistability domain, the field and the photon number fluctuation spectra are obtained. Multiple stationary states of the FPI cavity field with different spectra are possible at realistic conditions, for example, in the FPI with the photonic crystal cavity and the semiconductor-doped glass nonlinear medium.
翻訳日:2023-08-25 18:01:24 公開日:2023-08-24
# 超対称量子力学、多光子代数とコヒーレント状態

Supersymmetric Quantum Mechanics, multiphoton algebras and coherent states ( http://arxiv.org/abs/2304.05461v2 )

ライセンス: Link先を確認
Juan D Garc\'ia-Mu\~noz and David J Fern\'andez C and F Vergara-M\'endez(参考訳) 無限離散スペクトルを持つ一次元ハミルトニアンに対する多光子代数とその関連するk次のSUSYパートナーについて研究する。 どちらの場合も、そのような代数は多光子消滅と生成作用素、および適当な数作用素の函数であるハミルトニアンによって生成される。 得られた代数は、以前に研究された対応する単光子代数の多項式変形であることが判明した。 消滅作用素の固有状態であるbarut-girardelloコヒーレント状態を求め、それらの不確かさ関係を関連する二次数を用いて探究する。

The multiphoton algebras for one-dimensional Hamiltonians with infinite discrete spectrum, and for their associated kth-order SUSY partners are studied. In both cases, such an algebra is generated by the multiphoton annihilation and creation operators, as well as by Hamiltonians which are functions of an appropriate number operator. The algebras obtained turn out to be polynomial deformations of the corresponding single-photon algebra previously studied. The Barut-Girardello coherent states, which are eigenstates of the annihilation operator, are obtained and their uncertainty relations are explored by means of the associated quadratures.
翻訳日:2023-08-25 18:00:54 公開日:2023-08-24
# HyperTab: 小さなタブラルデータセットを用いたディープラーニングのためのハイパーネットワークアプローチ

HyperTab: Hypernetwork Approach for Deep Learning on Small Tabular Datasets ( http://arxiv.org/abs/2304.03543v2 )

ライセンス: Link先を確認
Witold Wydma\'nski, Oleksii Bulenok, Marek \'Smieja(参考訳) ディープラーニングは、コンピュータビジョンや自然言語処理など、多くの領域で顕著なパフォーマンスを達成したが、表形式のデータセットにおける古典的な浅いメソッドよりも優れていることは疑問視されている。 XGBoostやRandom Forestsのような木のようなアンサンブルのパフォーマンスを、1kサンプル未満の小さなデータセットで超越することは特に困難である。 この課題に対処するために、ハイパーネットワークベースのアプローチであるHyperTabを導入する。 ランダムフォレストとニューラルネットワークの利点を組み合わせることで、ハイパータブはニューラルネットワークのアンサンブルを生成します。 各ビューがデータ拡張の役割を担っているため、トレーニング可能なパラメータの数を一定に保ちながら、トレーニングサンプルの数を事実上増加させ、モデルオーバーフィッティングを防止する。 さまざまなサンプルとドメインの40以上の表型データセット上でハイパータブを評価し,そのパフォーマンスを現在の最先端を表す浅層および深層学習モデルと比較した。 hypertabは(統計的に有意な差がある)小さなデータで他のメソッドを一貫して上回っており、より大きなデータセットでそれと同等のスコアを示している。 コードはhttps://pypi.org/project/hypertab/でダウンロードできます。

Deep learning has achieved impressive performance in many domains, such as computer vision and natural language processing, but its advantage over classical shallow methods on tabular datasets remains questionable. It is especially challenging to surpass the performance of tree-like ensembles, such as XGBoost or Random Forests, on small-sized datasets (less than 1k samples). To tackle this challenge, we introduce HyperTab, a hypernetwork-based approach to solving small sample problems on tabular datasets. By combining the advantages of Random Forests and neural networks, HyperTab generates an ensemble of neural networks, where each target model is specialized to process a specific lower-dimensional view of the data. Since each view plays the role of data augmentation, we virtually increase the number of training samples while keeping the number of trainable parameters unchanged, which prevents model overfitting. We evaluated HyperTab on more than 40 tabular datasets of a varying number of samples and domains of origin, and compared its performance with shallow and deep learning models representing the current state-of-the-art. We show that HyperTab consistently outranks other methods on small data (with a statistically significant difference) and scores comparable to them on larger datasets. We make a python package with the code available to download at https://pypi.org/project/hypertab/
翻訳日:2023-08-25 18:00:42 公開日:2023-08-24
# CCDWT-GAN:文書画像二元化のための離散ウェーブレット変換を用いたカラーチャネルに基づく生成逆ネットワーク

CCDWT-GAN: Generative Adversarial Networks Based on Color Channel Using Discrete Wavelet Transform for Document Image Binarization ( http://arxiv.org/abs/2305.17420v2 )

ライセンス: Link先を確認
Rui-Yang Ju, Yu-Shian Lin, Jen-Shiun Chiang, Chih-Chia Chen, Wei-Han Chen, Chun-Tse Chien(参考訳) 色劣化文書画像からテキスト情報を抽出することが重要な研究領域である。 古文書の保存が長引くことで、ページ染色、紙の黄色化、インクの出血など、様々な種類の劣化が生じた。 この種の劣化は特徴抽出のための画像処理に大きく影響した。 本稿では,離散ウェーブレット変換(CCDWT-GAN)を用いたカラーチャネルに基づく生成逆ネットワークを用いた新規性手法を提案する。 提案手法は,画像の前処理,画像強調,画像二元化の3段階を含む。 最初のステップでは、低低域(LL)サブバンド画像を保持するために離散ウェーブレット変換(DWT)を適用し、画質を向上させる。 その後、元の入力画像を4つのシングルチャンネルカラー(赤、緑、青、グレー)に分割し、敵ネットワークを個別に訓練する。 大域的特徴と局所的特徴の抽出のために,画像強調ステージからの出力画像と入力画像全体を用いて,敵ネットワークを独立に訓練し,これら2つの結果を最終出力として合成する。 画像強調とバイナライゼーションの段階がモデル性能に与える影響を検証するため,アブレーション実験を行った。 本研究は,提案手法とDIBCOおよびH-DIBCO(Handwriting)文書画像バイナリ化コンペティション)データセットを用いたSOTA法の性能を比較した。 実験の結果、CCDWT-GANは複数のベンチマークデータセットで上位2つの性能を達成した。 特に,DIBCO 2013 と 2016 のデータセットでは,それぞれ 95.24 と 91.46 の F-measure (FM) 値が得られた。

To efficiently extract textual information from color degraded document images is a significant research area. The prolonged imperfect preservation of ancient documents has led to various types of degradation, such as page staining, paper yellowing, and ink bleeding. These types of degradation badly impact the image processing for features extraction. This paper introduces a novelty method employing generative adversarial networks based on color channel using discrete wavelet transform (CCDWT-GAN). The proposed method involves three stages: image preprocessing, image enhancement, and image binarization. In the initial step, we apply discrete wavelet transform (DWT) to retain the low-low (LL) subband image, thereby enhancing image quality. Subsequently, we divide the original input image into four single-channel colors (red, green, blue, and gray) to separately train adversarial networks. For the extraction of global and local features, we utilize the output image from the image enhancement stage and the entire input image to train adversarial networks independently, and then combine these two results as the final output. To validate the positive impact of the image enhancement and binarization stages on model performance, we conduct an ablation study. This work compares the performance of the proposed method with other state-of-the-art (SOTA) methods on DIBCO and H-DIBCO ((Handwritten) Document Image Binarization Competition) datasets. The experimental results demonstrate that CCDWT-GAN achieves a top two performance on multiple benchmark datasets. Notably, on DIBCO 2013 and 2016 dataset, our method achieves F-measure (FM) values of 95.24 and 91.46, respectively.
翻訳日:2023-08-25 17:52:04 公開日:2023-08-24
# 確率生成関数による離散モデルに関する厳密なベイズ推論:確率的プログラミングアプローチ

Exact Bayesian Inference on Discrete Models via Probability Generating Functions: A Probabilistic Programming Approach ( http://arxiv.org/abs/2305.17058v2 )

ライセンス: Link先を確認
Fabian Zaiser, Andrzej S. Murawski, Luke Ong(参考訳) 離散統計モデルに対する正確なベイズ推定法を提案する。これは無限サポートや連続前兆であっても、多くの離散推論問題に対する厳密な解を見つけることができる。 このようなモデルを表現するために、離散的かつ連続的なサンプリング、離散的観測、アフィン関数、(確率的)分岐、イベントの条件付けをサポートする確率的プログラミング言語を導入する。 我々の鍵となるツールは確率生成関数であり、プログラムによって定義可能な分布のコンパクトな閉形式表現を提供し、後確率、期待、分散、より高いモーメントの正確な計算を可能にする。 提案手法は精度が高く,完全自動化されており,自動微分 (特にテイラー多項式) を用いるが,計算機代数学は不要である。 実験の結果,実世界の実例での性能は近似誤差を回避しつつ近似モンテカルロ法と競合することが示された。

We present an exact Bayesian inference method for discrete statistical models, which can find exact solutions to many discrete inference problems, even with infinite support and continuous priors. To express such models, we introduce a probabilistic programming language that supports discrete and continuous sampling, discrete observations, affine functions, (stochastic) branching, and conditioning on events. Our key tool is probability generating functions: they provide a compact closed-form representation of distributions that are definable by programs, thus enabling the exact computation of posterior probabilities, expectation, variance, and higher moments. Our inference method is provably correct, fully automated and uses automatic differentiation (specifically, Taylor polynomials), but does not require computer algebra. Our experiments show that its performance on a range of real-world examples is competitive with approximate Monte Carlo methods, while avoiding approximation errors.
翻訳日:2023-08-25 17:51:34 公開日:2023-08-24
# データ駆動二次多様体を用いたハミルトン系のシンプレクティックモデル還元

Symplectic model reduction of Hamiltonian systems using data-driven quadratic manifolds ( http://arxiv.org/abs/2305.15490v2 )

ライセンス: Link先を確認
Harsh Sharma, Hongliang Mu, Patrick Buchfink, Rudy Geelen, Silke Glas, Boris Kramer(参考訳) この研究は、データ駆動二次多様体を用いた高次元ハミルトン系のシンプレクティックモデル還元のための2つの新しいアプローチを示す。 古典的シンプレクティックモデル還元手法では、線形シンプレクティック部分空間を用いて低次元座標系における高次元系状態を表現する。 これらの近似はハミルトン系のシンプレクティックな性質を尊重するが、線形基底近似はゆっくりと崩壊するコルモゴロフ$N$-幅、特に波動型問題では大きな基底サイズを必要とする。 本研究では,最近開発された二次多様体に基づく2つの異なるモデル還元法を提案する。 提案手法の中心に位置する状態近似への二次項の追加により、手前の問題における本質的な低次元性を表現することができる。 どちらのアプローチも、トレーニングデータの範囲外で設定の予測を発行する上で有効であり、線形シンプレクティック最小次モデルよりも正確なソリューションを提供する。

This work presents two novel approaches for the symplectic model reduction of high-dimensional Hamiltonian systems using data-driven quadratic manifolds. Classical symplectic model reduction approaches employ linear symplectic subspaces for representing the high-dimensional system states in a reduced-dimensional coordinate system. While these approximations respect the symplectic nature of Hamiltonian systems, linear basis approximations can suffer from slowly decaying Kolmogorov $N$-width, especially in wave-type problems, which then requires a large basis size. We propose two different model reduction methods based on recently developed quadratic manifolds, each presenting its own advantages and limitations. The addition of quadratic terms to the state approximation, which sits at the heart of the proposed methodologies, enables us to better represent intrinsic low-dimensionality in the problem at hand. Both approaches are effective for issuing predictions in settings well outside the range of their training data while providing more accurate solutions than the linear symplectic reduced-order models.
翻訳日:2023-08-25 17:50:51 公開日:2023-08-24
# 敵の摂動に対する高精度かつセキュアな検出器を目指して

Towards an Accurate and Secure Detector against Adversarial Perturbations ( http://arxiv.org/abs/2305.10856v2 )

ライセンス: Link先を確認
Chao Wang, Shuren Qi, Zhiqiu Huang, Yushu Zhang, Rushi Lan, Xiaochun Cao(参考訳) 深層ニューラルネットワークの敵対的摂動に対する脆弱性は、コンピュータビジョンコミュニティで広く認識されている。 セキュリティの観点からは、一般的なディープラーニング・アズ・ア・サービス(DLaaS)フレームワークなど、現代のビジョンシステムにとって重要なリスクとなる。 既成の深層モデルを修正せずに保護するために、現在のアルゴリズムは通常、自然・人工データの識別的分解によって敵のパターンを検出する。 しかし、これらの分解は周波数や空間的識別性に偏りがあり、敵のパターンを包括的に捉えることができない。 より真面目な話として、(第二の)攻撃(すなわち、検出器を回避し、モデルを騙す)に成功した攻撃は、敵が検出器を完全に認識している(すなわち、ケルクホフの原理)という仮定の下で実用的である。 このような事実に触発されて,秘密鍵を用いた空間周波数判別分解に頼って,高精度かつセキュアな対向検波器を提案する。 上記の作品を2つの側面で拡張しています。 1) 導入したKrawtchoukベースにより、空間周波数の識別性が向上し、共通三角法やウェーブレット法よりも対向パターンの捕捉に適している。 2) 秘密鍵を持つ擬似ランダム関数により, 分解のための広範囲なパラメータが生成され, 防御的敵攻撃を阻止する。 理論的および数値解析により、多くの最先端アルゴリズムに対する検出器の精度と安全性が向上したことを示す。

The vulnerability of deep neural networks to adversarial perturbations has been widely perceived in the computer vision community. From a security perspective, it poses a critical risk for modern vision systems, e.g., the popular Deep Learning as a Service (DLaaS) frameworks. For protecting off-the-shelf deep models while not modifying them, current algorithms typically detect adversarial patterns through discriminative decomposition of natural-artificial data. However, these decompositions are biased towards frequency or spatial discriminability, thus failing to capture adversarial patterns comprehensively. More seriously, successful defense-aware (secondary) adversarial attack (i.e., evading the detector as well as fooling the model) is practical under the assumption that the adversary is fully aware of the detector (i.e., the Kerckhoffs's principle). Motivated by such facts, we propose an accurate and secure adversarial example detector, relying on a spatial-frequency discriminative decomposition with secret keys. It expands the above works on two aspects: 1) the introduced Krawtchouk basis provides better spatial-frequency discriminability and thereby is more suitable for capturing adversarial patterns than the common trigonometric or wavelet basis; 2) the extensive parameters for decomposition are generated by a pseudo-random function with secret keys, hence blocking the defense-aware adversarial attack. Theoretical and numerical analysis demonstrates the increased accuracy and security of our detector with respect to a number of state-of-the-art algorithms.
翻訳日:2023-08-25 17:50:17 公開日:2023-08-24
# Structure-CLIP:マルチモーダルな構造表現を実現するためのシーングラフ知識を目指して

Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations ( http://arxiv.org/abs/2305.06152v2 )

ライセンス: Link先を確認
Yufeng Huang, Jiji Tang, Zhuo Chen, Rongsheng Zhang, Xinfeng Zhang, Weijie Chen, Zeng Zhao, Zhou Zhao, Tangjie Lv, Zhipeng Hu, Wen Zhang(参考訳) 大規模視覚言語事前学習は、マルチモーダル理解と生成タスクにおいて大きな成果を上げている。 しかしながら、既存のメソッドは、構造化された表現、すなわちオブジェクト、属性、関係の表現を必要とする画像-テキストマッチングタスクでは、よく機能しない。 以前のモデルは『宇宙飛行士は馬に乗る』と『馬は宇宙飛行士に乗る』を区別できない。 これは、マルチモーダルシナリオにおける表現の学習において、構造化知識を完全に活用できないためである。 本稿では、SGK(Scene Graph Knowledge)を統合し、マルチモーダルな構造化表現を強化するエンドツーエンドフレームワークであるStructure-CLIPを提案する。 まず、シーングラフを用いて意味論的ネガティブな例の構築を導くことにより、構造化表現の学習に重点が置かれる。 さらに、SGKを入力として活用し、構造化表現をさらに強化するために知識エンハンスエンコーダ(KEE)を提案する。 提案手法の有効性を検証するため,提案手法を前述のアプローチで事前学習し,下流タスクで実験を行う。 実験の結果、Structure-CLIPはVG-AttributionとVG-Relationのデータセット上で、それぞれ12.5%と4.1%の精度でSOTA(State-of-the-art)性能を達成した。 一方, MSCOCOの結果から, 構造CLIPは汎用表現の能力を維持しつつ, 構造表現を著しく向上させることが示された。 私たちのコードはもうすぐ利用可能になるでしょう。

Large-scale vision-language pre-training has achieved significant performance in multi-modal understanding and generation tasks. However, existing methods often perform poorly on image-text matching tasks that require structured representations, i.e., representations of objects, attributes, and relations. Previous models cannot make a distinction between ``An astronaut rides a horse" and ``A horse rides an astronaut". This is because they fail to fully leverage structured knowledge when learning representations in multi-modal scenarios. In this paper, we present an end-to-end framework Structure-CLIP, which integrates Scene Graph Knowledge (SGK) to enhance multi-modal structured representations. Firstly, we use scene graphs to guide the construction of semantic negative examples, which results in an increased emphasis on learning structured representations. Moreover, a Knowledge-Enhance Encoder (KEE) is proposed to leverage SGK as input to further enhance structured representations. To verify the effectiveness of the proposed framework, we pre-train our model with the aforementioned approaches and conduct experiments on downstream tasks. Experimental results demonstrate that Structure-CLIP achieves state-of-the-art (SOTA) performance on VG-Attribution and VG-Relation datasets, with 12.5% and 4.1% ahead of the multi-modal SOTA model respectively. Meanwhile, the results on MSCOCO indicate that Structure-CLIP significantly enhances the structured representations while maintaining the ability of general representations. Our code will be available soon.
翻訳日:2023-08-25 17:49:51 公開日:2023-08-24
# 量子信号処理によるロバストブラックボックス量子状態生成

Robust black-box quantum-state preparation via quantum signal processing ( http://arxiv.org/abs/2305.04705v2 )

ライセンス: Link先を確認
Lorenzo Laneve(参考訳) ブラックボックスの量子状態準備は、量子状態の準備の変種であり、(量子)オラクルとして与えられる振幅$c(x)$で$n$-qubit状態 $|\psi_c\rangle \propto \sum_x c(x) |x\rangle$を構築したい。 この変種は、量子状態が短く単純な古典的記述を持つ場合に特に有用である。 量子信号処理(QSP)と量子特異値変換(QSVT)という最近の手法を用いて,量子ビットの多項式数とオラクル呼び出しを用いて,$|\psi_c\rangle$を構成する新しいアルゴリズムを構築する。 多くの状態に対して、これは深さと幅の両方で$n$の多項式であるアルゴリズムに変換される。

Black-box quantum-state preparation is a variant of quantum-state preparation where we want to construct an $n$-qubit state $|\psi_c\rangle \propto \sum_x c(x) |x\rangle$ with the amplitudes $c(x)$ given as a (quantum) oracle. This variant is particularly useful when the quantum state has a short and simple classical description. We use recent techniques, namely quantum signal processing (QSP) and quantum singular value transform (QSVT), to construct a new algorithm that uses a polynomial number of qubits and oracle calls to construct $|\psi_c\rangle$. For a large class of states, this translates to an algorithm that is polynomial in $n$, both in depth and width.
翻訳日:2023-08-25 17:49:22 公開日:2023-08-24
# 近似量子誤差補正、共分散対称性およびそれらの関係

Approximate quantum error correction, covariance symmetry, and their relation ( http://arxiv.org/abs/2305.02162v2 )

ライセンス: Link先を確認
Hao Dai(参考訳) 信頼性の高い量子計算を行うには、量子誤差補正が不可欠である。 ある場合には、物理系の連続共分散対称性は正確な誤差補正を不可能にすることがある。 本研究では,情報理論の観点から近似誤差補正と共分散対称性について検討する。 一般符号化とノイズチャネルに対して、近似量子誤差補正の性能を特徴づける不忠実という量を定義し、対応するチョイ状態の非対称性測度から一般リー群に対する符号化チャネルの非共分散を定量化する。 特に、符号化チャネルが等方性である場合、不確かさと非共分散の間のトレードオフ関係を導出する。 さらに、ランダムコードの種類に対する平均不忠実性と非共分散測度を計算する。

To perform reliable quantum computation, quantum error correction is indispensable. In certain cases, continuous covariance symmetry of the physical system can make exact error correction impossible. In this work we study the approximate error correction and covariance symmetry from the information-theoretic perspective. For general encoding and noise channels, we define a quantity named infidelity to characterize the performance of the approximate quantum error correction and quantify the noncovariance of an encoding channel with respect to a general Lie group from the asymmetry measure of the corresponding Choi state. In particular, when the encoding channel is isometric, we derive a trade-off relation between infidelity and noncovariance. Furthermore, we calculate the average infidelity and noncovariance measure for a type of random code.
翻訳日:2023-08-25 17:49:03 公開日:2023-08-24
# 血圧測定技術に関する調査研究 : バイアスの潜在的源への取り組み

A Survey on Blood Pressure Measurement Technologies: Addressing Potential Sources of Bias ( http://arxiv.org/abs/2306.08451v2 )

ライセンス: Link先を確認
Seyedeh Somayyeh Mousavi and Matthew A. Reyna and Gari D. Clifford and Reza Sameni(参考訳) 心臓血管疾患の予防, 診断, 治療, 管理において, 臨床および止血環境における定期的な血圧モニタリングが重要な役割を担っている。 近年, 降圧性bp測定装置の普及は, 高血圧の頻度の増加とそれに伴うリスク, 臨床状況が主な要因となっている。 最近のガイドラインでは、定期的な臨床訪問や自宅でのBPモニタリングが推奨されている。 このBP測定技術の利用の増加は、BP値が設定全体にわたって精度が高いという重大な懸念を引き起こしている。 本調査では, カフベースのBPモニタリング技術を中心に, 測定やデバイスエラー, 人口統計, 身体習慣などの要因により, BP測定が有意なバイアスやばらつきを生じさせるかを強調した。 これら固有のバイアスにより、人工知能(AI)を用いた新しい世代のカフベースのBPデバイスの開発が大きな可能性を秘めている。 本稿では, BP関連研究における広範な臨床文献と, 電子カルテで利用可能なBP記録の収集をAI支援技術が活用できる今後の道筋について述べる。 これらのリソースは、ディープラーニングやベイジアン推論などの機械学習アプローチと組み合わせて、BP測定バイアスを除去し、個別化されたBP関連心血管リスク指標を提供する。

Regular blood pressure (BP) monitoring in clinical and ambulatory settings plays a crucial role in the prevention, diagnosis, treatment, and management of cardiovascular diseases. Recently, the widespread adoption of ambulatory BP measurement devices has been driven predominantly by the increased prevalence of hypertension and its associated risks and clinical conditions. Recent guidelines advocate for regular BP monitoring as part of regular clinical visits or even at home. This increased utilization of BP measurement technologies has brought up significant concerns, regarding the accuracy of reported BP values across settings. In this survey, focusing mainly on cuff-based BP monitoring technologies, we highlight how BP measurements can demonstrate substantial biases and variances due to factors such as measurement and device errors, demographics, and body habitus. With these inherent biases, the development of a new generation of cuff-based BP devices which use artificial-intelligence (AI) has significant potential. We present future avenues where AI-assisted technologies can leverage the extensive clinical literature on BP-related studies together with the large collections of BP records available in electronic health records. These resources can be combined with machine learning approaches, including deep learning and Bayesian inference, to remove BP measurement biases and to provide individualized BP-related cardiovascular risk indexes.
翻訳日:2023-08-25 17:42:51 公開日:2023-08-24
# E2E-LOAD: エンドツーエンドのオンラインアクション検出

E2E-LOAD: End-to-End Long-form Online Action Detection ( http://arxiv.org/abs/2306.07703v2 )

ライセンス: Link先を確認
Shuqiang Cao, Weixin Luo, Bairui Wang, Wei Zhang, Lin Ma(参考訳) 近年、オンラインアクション検出(oad)のための機能ベースアプローチへの傾向が高まっている。 しかしながら、これらのアプローチには、トレーニング可能なバックボーンの潜在的な能力を無視した固定バックボーン設計による制限がある。 本稿では,OADの長期的理解と効率的なオンライン推論という大きな課題に対処するために,E2E-LOADと呼ばれる最初のエンドツーエンドOADモデルを提案する。 具体的には,提案手法はすべてのフレームで共有される初期空間モデルを採用し,計算コストの低い推論のための長いシーケンスキャッシュを維持する。 また, 長尺および短尺のモデリングを効果的に行うための非対称空間-時空間モデルも提案する。 さらに,空間空間探索を高速化する新しい効率的な推論機構を提案する。 大規模なアブレーション研究と実験により,提案手法の有効性と有効性を示した。 特に、72.4%~(+1.2%)、90.3%~(+0.7%)、48.1%~(+26.0%)のmAPをTHMOUS14、TVSeries、HDDでそれぞれ17.3 (+12.6) FPSを達成する。 ソースコードは一般公開される予定だ。

Recently, there has been a growing trend toward feature-based approaches for Online Action Detection (OAD). However, these approaches have limitations due to their fixed backbone design, which ignores the potential capability of a trainable backbone. In this paper, we propose the first end-to-end OAD model, termed E2E-LOAD, designed to address the major challenge of OAD, namely, long-term understanding and efficient online reasoning. Specifically, our proposed approach adopts an initial spatial model that is shared by all frames and maintains a long sequence cache for inference at a low computational cost. We also advocate an asymmetric spatial-temporal model for long-form and short-form modeling effectively. Furthermore, we propose a novel and efficient inference mechanism that accelerates heavy spatial-temporal exploration. Extensive ablation studies and experiments demonstrate the effectiveness and efficiency of our proposed method. Notably, we achieve 17.3 (+12.6) FPS for end-to-end OAD with 72.4%~(+1.2%), 90.3%~(+0.7%), and 48.1%~(+26.0%) mAP on THMOUS14, TVSeries, and HDD, respectively, which is 3x faster than previous approaches. The source code will be made publicly available.
翻訳日:2023-08-25 17:42:31 公開日:2023-08-24
# 医用視覚言語理解・生成のためのマルチモーダル事前学習 : 新しいベンチマークによる実証的研究

Multi-modal Pre-training for Medical Vision-language Understanding and Generation: An Empirical Study with A New Benchmark ( http://arxiv.org/abs/2306.06494v2 )

ライセンス: Link先を確認
Li Xu, Bo Liu, Ameer Hamza Khan, Lu Fan, Xiao-Ming Wu(参考訳) MSCOCOのような大規模で包括的で汎用的な視覚言語(VL)データセットが利用可能になったことで、視覚言語事前学習(VLP)は研究の活発な領域となり、視覚探索応答などの様々なVLタスクに有効であることが証明された。 しかし,これまでの医療領域におけるvlpの研究は少ない。 医用VLタスクにおけるVLPの総合的な視点を提供するため、統合視覚言語変換器を用いて、VLPの性能に影響を与える重要な要因を研究するための徹底的な実験的な分析を行った。 提案するRadioGraphy Captions(RGC)は,オープンアクセス型オンラインデータベースMedPixから収集した18,434枚の画像キャプチャ対を含む,高品質で多モードなラジオグラフィデータセットである。 RGCは、事前トレーニングデータセットや、医療報告の生成と医用画像テキスト検索のための新しいベンチマークとして使用できる。 RGCやその他の利用可能なデータセットを事前トレーニングに活用することにより、将来の医療用VLP研究と、様々な医療用VLタスクのための新しい強力なベースラインをガイドできるいくつかの重要な洞察を開拓する。

With the availability of large-scale, comprehensive, and general-purpose vision-language (VL) datasets such as MSCOCO, vision-language pre-training (VLP) has become an active area of research and proven to be effective for various VL tasks such as visual-question answering. However, studies on VLP in the medical domain have so far been scanty. To provide a comprehensive perspective on VLP for medical VL tasks, we conduct a thorough experimental analysis to study key factors that may affect the performance of VLP with a unified vision-language Transformer. To allow making sound and quick pre-training decisions, we propose RadioGraphy Captions (RGC), a high-quality, multi-modality radiographic dataset containing 18,434 image-caption pairs collected from an open-access online database MedPix. RGC can be used as a pre-training dataset or a new benchmark for medical report generation and medical image-text retrieval. By utilizing RGC and other available datasets for pre-training, we develop several key insights that can guide future medical VLP research and new strong baselines for various medical VL tasks.
翻訳日:2023-08-25 17:42:08 公開日:2023-08-24
# 準同型付き期待完備グラフ表現

Expectation-Complete Graph Representations with Homomorphisms ( http://arxiv.org/abs/2306.05838v2 )

ライセンス: Link先を確認
Pascal Welke, Maximilian Thiessen, Fabian Jogl, Thomas G\"artner(参考訳) 期待多項式時間で計算でき、期待値のすべての非同型グラフを識別できる新しいランダムグラフ埋め込みについて検討する。 従来のグラフ埋め込みは表現力に制限があり、全てのグラフを区別できないか、全てのグラフに対して効率的に計算できない。 グラフ上の任意の関数を近似できるためには、資源の増加とともに任意に表現される効率的な代替案に興味がある。 本手法は無限次元準同型数ベクトルによるグラフ同型のlov\'asz'キャラクタリゼーションに基づいている。 実験による評価は,いくつかのベンチマークグラフ学習タスクにおける競合結果を示す。

We investigate novel random graph embeddings that can be computed in expected polynomial time and that are able to distinguish all non-isomorphic graphs in expectation. Previous graph embeddings have limited expressiveness and either cannot distinguish all graphs or cannot be computed efficiently for every graph. To be able to approximate arbitrary functions on graphs, we are interested in efficient alternatives that become arbitrarily expressive with increasing resources. Our approach is based on Lov\'asz' characterisation of graph isomorphism through an infinite dimensional vector of homomorphism counts. Our empirical evaluation shows competitive results on several benchmark graph learning tasks.
翻訳日:2023-08-25 17:41:45 公開日:2023-08-24
# PromptBench: 対向的プロンプトにおける大規模言語モデルのロバスト性評価に向けて

PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts ( http://arxiv.org/abs/2306.04528v3 )

ライセンス: Link先を確認
Kaijie Zhu, Jindong Wang, Jiaheng Zhou, Zichen Wang, Hao Chen, Yidong Wang, Linyi Yang, Wei Ye, Neil Zhenqiang Gong, Yue Zhang, Xing Xie(参考訳) 学界や業界全体にわたる大規模言語モデル(llm)への依存の高まりは、プロンプトに対する強固さを包括的に理解する必要がある。 この重要なニーズに応えて、LLMの反発性を測定するために設計された堅牢性ベンチマークであるPromptBenchを紹介する。 本研究は、文字、単語、文、意味といった複数のレベルにわたるプロンプトを標的とした、敵対的なテキスト攻撃を多用する。 これらのプロンプトは、感情分析、自然言語推論、読み理解、機械翻訳、数学の問題解決といった様々なタスクで使用される。 本研究は,8つのタスクと13のデータセットに対して,合計567,084個のサンプルを用いて,4,032個の逆のプロンプトを生成する。 以上の結果より,現代のLDMは敵のプロンプトに弱いことが示唆された。 さらに,素早い堅牢性と伝達性の背後にあるミステリーを理解するため,包括的解析を行った。 そして、洞察に富んだロバストネス分析と、プロンプト・コンポジションのための実用的なレコメンデーションを提供し、研究者と日々のユーザの両方に有益です。 私たちはコード、プロンプト、方法論を使って、敵のプロンプトを公にアクセスできるようにし、この重要な分野における協調的な探索を可能にし、促進します。

The increasing reliance on Large Language Models (LLMs) across academia and industry necessitates a comprehensive understanding of their robustness to prompts. In response to this vital need, we introduce PromptBench, a robustness benchmark designed to measure LLMs' resilience to adversarial prompts. This study uses a plethora of adversarial textual attacks targeting prompts across multiple levels: character, word, sentence, and semantic. These prompts are then employed in diverse tasks, such as sentiment analysis, natural language inference, reading comprehension, machine translation, and math problem-solving. Our study generates 4,032 adversarial prompts, meticulously evaluated over 8 tasks and 13 datasets, with 567,084 test samples in total. Our findings demonstrate that contemporary LLMs are vulnerable to adversarial prompts. Furthermore, we present comprehensive analysis to understand the mystery behind prompt robustness and its transferability. We then offer insightful robustness analysis and pragmatic recommendations for prompt composition, beneficial to both researchers and everyday users. We make our code, prompts, and methodologies to generate adversarial prompts publicly accessible, thereby enabling and encouraging collaborative exploration in this pivotal field: https://github.com/microsoft/promptbench.
翻訳日:2023-08-25 17:41:24 公開日:2023-08-24
# バイオメディカルタスクにおけるchatgptの評価 : 微調整生成トランスとの比較

Evaluation of ChatGPT on Biomedical Tasks: A Zero-Shot Comparison with Fine-Tuned Generative Transformers ( http://arxiv.org/abs/2306.04504v3 )

ライセンス: Link先を確認
Israt Jahan, Md Tahmid Rahman Laskar, Chun Peng, Jimmy Huang(参考訳) ChatGPTはOpenAIが開発した大規模言語モデルである。 様々なタスクにまたがる優れたパフォーマンスにもかかわらず、バイオメディカル領域におけるその能力に関する先行研究はまだ行われていない。 そこで本稿は,関係抽出,文書分類,質問応答,要約など,様々な生体医学的タスクにおけるchatgptの性能を評価することを目的とする。 我々の知る限りでは、生物医学領域におけるChatGPTの広範な評価を行う最初の作品である。 興味深いことに、トレーニングセットが小さいバイオメディカルデータセットでは、ゼロショットChatGPTは、BioGPTやBioBARTのような最先端の微調整生成トランスモデルよりも優れています。 このことは、ChatGPTの大規模なテキストコーパスでの事前学習が、生体医学領域においてもかなり専門化していることを示している。 以上の結果から,chatgptは大量の注釈データを持たない生体医学領域の様々なタスクに有用なツールとなる可能性が示唆された。

ChatGPT is a large language model developed by OpenAI. Despite its impressive performance across various tasks, no prior work has investigated its capability in the biomedical domain yet. To this end, this paper aims to evaluate the performance of ChatGPT on various benchmark biomedical tasks, such as relation extraction, document classification, question answering, and summarization. To the best of our knowledge, this is the first work that conducts an extensive evaluation of ChatGPT in the biomedical domain. Interestingly, we find based on our evaluation that in biomedical datasets that have smaller training sets, zero-shot ChatGPT even outperforms the state-of-the-art fine-tuned generative transformer models, such as BioGPT and BioBART. This suggests that ChatGPT's pre-training on large text corpora makes it quite specialized even in the biomedical domain. Our findings demonstrate that ChatGPT has the potential to be a valuable tool for various tasks in the biomedical domain that lack large annotated data.
翻訳日:2023-08-25 17:41:03 公開日:2023-08-24
# ANN構造を改善するためのヨードニューラルネットワークへの変換

Transforming to Yoked Neural Networks to Improve ANN Structure ( http://arxiv.org/abs/2306.02157v3 )

ライセンス: Link先を確認
Xinshun Liu and Yizhi Fang and Yichao Jiang(参考訳) 既存のほとんどの古典的人工ニューラルネットワーク(ANN)は、ニューラルネットワークを模倣する木構造として設計されている。 本稿では,ニューラルネットワークを特徴付けるのに,木の接続性は十分ではないと論じる。 木の同じレベルのノードは互いに接続できない、すなわちこれらの神経ユニットは互いに情報を共有できない、これはANNの大きな欠点である。 近年、ANNは有向非巡回グラフ(DAG)のようなより複雑な構造へと大幅に改善されているが、これらの手法はANNに対して一方向および非巡回バイアスを持つ。 本稿では,神経モジュールを定式化するために,同じレベルのノードをヨークスする ann の同じレベルのノードに対して,双方向完全グラフを構築する手法を提案する。 われわれのモデルを略してYNNと呼んでいる。 YNNは情報伝達を著しく促進し、明らかに手法の性能向上に寄与する。 我々のYNNは、従来のANNよりもずっとよくニューラルネットワークを模倣することができます。 本稿では、ANNの既存の構造バイアスを分析し、そのような構造バイアスを効率的に除去するモデルYNNを提案する。 我々のモデルでは、ノードは特徴の集約と変換を行い、エッジは情報の流れを決定する。 さらに,接続性の分布に補助的なスパーシティ制約を課し,重要な接続に焦点をあてる学習構造を促進する。 最後に、最適化された構造に基づいて、YNNモデルの計算負担を軽減するため、最小カット法に基づく小さなニューラルモジュール構造も設計する。 この学習プロセスは、既存のネットワークと異なるタスクと互換性がある。 得られた定量的実験結果は,学習した接続性が従来のnn構造よりも優れていることを示唆する。

Most existing classical artificial neural networks (ANN) are designed as a tree structure to imitate neural networks. In this paper, we argue that the connectivity of a tree is not sufficient to characterize a neural network. The nodes of the same level of a tree cannot be connected with each other, i.e., these neural unit cannot share information with each other, which is a major drawback of ANN. Although ANN has been significantly improved in recent years to more complex structures, such as the directed acyclic graph (DAG), these methods also have unidirectional and acyclic bias for ANN. In this paper, we propose a method to build a bidirectional complete graph for the nodes in the same level of an ANN, which yokes the nodes of the same level to formulate a neural module. We call our model as YNN in short. YNN promotes the information transfer significantly which obviously helps in improving the performance of the method. Our YNN can imitate neural networks much better compared with the traditional ANN. In this paper, we analyze the existing structural bias of ANN and propose a model YNN to efficiently eliminate such structural bias. In our model, nodes also carry out aggregation and transformation of features, and edges determine the flow of information. We further impose auxiliary sparsity constraint to the distribution of connectedness, which promotes the learned structure to focus on critical connections. Finally, based on the optimized structure, we also design small neural module structure based on the minimum cut technique to reduce the computational burden of the YNN model. This learning process is compatible with the existing networks and different tasks. The obtained quantitative experimental results reflect that the learned connectivity is superior to the traditional NN structure.
翻訳日:2023-08-25 17:40:26 公開日:2023-08-24
# 1次元ローゼン・モースIIハミルトニアンのSUSYパートナーと$S$-行列極

SUSY partners and $S$-matrix poles of the one dimensional Rosen-Morse II Hamiltonian ( http://arxiv.org/abs/2306.01912v2 )

ライセンス: Link先を確認
Carlos San Mill\'an, Manuel Gadella, \c{S}eng\"ul Kuru, Javier Negro(参考訳) 一次元可解ハミルトニアンのリストの中で、ローゼン-モースIIポテンシャルを持つハミルトニアンが見つかる。 第一の目的は、このポテンシャルに対応する散乱行列を分析することである。 冗長極や反有界極の種類に対応する一連の極を含むことを示す。 場合によっては、境界状態が存在し、これは与えられたパラメータの値に依存する。 そして、原ハミルトニアン上で、基底状態(有界な状態が存在する状況の場合)の波動関数や、反有界状態や冗長状態に由来する他の解を用いて異なる超対称変換を行う。 我々はこれらの変換の性質について研究する。

Among the list of one dimensional solvable Hamiltonians, we find the Hamiltonian with the Rosen--Morse II potential. The first objective is to analyze the scattering matrix corresponding to this potential. We show that it includes a series of poles corresponding to the types of redundant poles or anti-bound poles. In some cases, there are even bound states and this depends on the values of given parameters. Then, we perform different supersymmetric transformations on the original Hamiltonian either using the ground state (for those situations where there are bound states) wave functions, or other solutions that come from anti-bound states or redundant states. We study the properties of these transformations.
翻訳日:2023-08-25 17:40:00 公開日:2023-08-24
# 自己制御型プロンプト:基礎的モデル適応

Self-regulating Prompts: Foundational Model Adaptation without Forgetting ( http://arxiv.org/abs/2307.06948v2 )

ライセンス: Link先を確認
Muhammad Uzair Khattak, Syed Talal Wasim, Muzammal Naseer, Salman Khan, Ming-Hsuan Yang and Fahad Shahbaz Khan(参考訳) プロンプト学習は、様々な下流タスクのためのCLIPなどの微調整基盤モデルの効率的な代替手段として登場した。 従来、タスク固有の目的、すなわちクロスエントロピー損失を使用してトレーニングされた場合、下流のデータ分布に過度に適合する傾向があり、凍結したCLIPからタスクに依存しない一般的な特徴を捉えることは困難である。 これにより、モデルの本来の一般化能力が失われる。 この問題に対処するため,本研究では,PromptSRC(Prompting with Self-regulating Constraints)と呼ばれる自己規則化フレームワークを導入する。 PromptSRCは、以下の3つのアプローチを用いて、タスク固有およびタスク非依存の汎用表現を最適化するプロンプトをガイドする。 (a)凍結モデルとの相互合意の最大化による誘導表現の規制 (b)トレーニングコース上のプロンプトの自己感覚で調整し、その補完的な強みを符号化すること (c)ビジュアルブランチとのサンプル多様性の不均衡を軽減するために、テキスト多様性で調整する。 我々の知る限り、これは、事前訓練されたモデル特徴、プロンプト中の訓練軌跡、テキストの多様性に共同で参加することで過度な適合を避ける、プロンプト学習のための最初の正規化フレームワークである。 PromptSRCは、CLIPの一般化を損なうことなく、下流タスクのパフォーマンスを最大化する表現空間の学習を促す。 我々は4つのベンチマークで広範囲な実験を行い,promptsrcは従来の手法と比較して良好に機能する。 私たちのコードと事前トレーニングされたモデルは、https://github.com/muzairkhattak/PromptSRCで公開されています。

Prompt learning has emerged as an efficient alternative for fine-tuning foundational models, such as CLIP, for various downstream tasks. Conventionally trained using the task-specific objective, i.e., cross-entropy loss, prompts tend to overfit downstream data distributions and find it challenging to capture task-agnostic general features from the frozen CLIP. This leads to the loss of the model's original generalization capability. To address this issue, our work introduces a self-regularization framework for prompting called PromptSRC (Prompting with Self-regulating Constraints). PromptSRC guides the prompts to optimize for both task-specific and task-agnostic general representations using a three-pronged approach by: (a) regulating prompted representations via mutual agreement maximization with the frozen model, (b) regulating with self-ensemble of prompts over the training trajectory to encode their complementary strengths, and (c) regulating with textual diversity to mitigate sample diversity imbalance with the visual branch. To the best of our knowledge, this is the first regularization framework for prompt learning that avoids overfitting by jointly attending to pre-trained model features, the training trajectory during prompting, and the textual diversity. PromptSRC explicitly steers the prompts to learn a representation space that maximizes performance on downstream tasks without compromising CLIP generalization. We perform extensive experiments on 4 benchmarks where PromptSRC overall performs favorably well compared to the existing methods. Our code and pre-trained models are publicly available at: https://github.com/muzairkhattak/PromptSRC.
翻訳日:2023-08-25 17:32:01 公開日:2023-08-24
# Video-FocalNets:ビデオ行動認識のための時空間修正

Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action Recognition ( http://arxiv.org/abs/2307.06947v3 )

ライセンス: Link先を確認
Syed Talal Wasim, Muhammad Uzair Khattak, Muzammal Naseer, Salman Khan, Mubarak Shah, Fahad Shahbaz Khan(参考訳) 最近のビデオ認識モデルは、長距離時空間モデリングにTransformerモデルを使用している。 ビデオトランスフォーマーの設計は、高い計算コストでグローバルコンテキストをモデル化できるセルフアテンションに基づいている。 比較として、ビデオの畳み込み設計は効率的な代替手段を提供するが、長距離依存モデリングは欠如している。 この研究は、両方の設計のベストを達成するために、ローカルコンテキストとグローバルコンテキストの両方をモデル化した、ビデオ認識のための効率的かつ効率的なアーキテクチャであるVideo-FocalNetを提案する。 Video-FocalNetは、より効率的な自己注意の相互作用と集約ステップを反転させる、時空間焦点変調アーキテクチャに基づいている。 さらに、アグリゲーションステップとインタラクションステップは、効率的な畳み込みと、ビデオ表現上の自己注意処理よりも計算コストの低い要素乗算演算を用いて実装される。 焦点変調に基づく時空間空間モデルの設計空間を広範に検討し、並列空間および時空間符号化設計が最適選択であることを示す。 video-focalnetsは、5つの大規模データセット(kinetics-400, kinetics-600, ss-v2, dive-48, activitynet-1.3)でビデオ認識のための最先端のトランスフォーマモデルに対して、低い計算コストで優れた性能を発揮する。 私たちのコード/モデルはhttps://github.com/talalwasim/video-focalnetsでリリースしています。

Recent video recognition models utilize Transformer models for long-range spatio-temporal context modeling. Video transformer designs are based on self-attention that can model global context at a high computational cost. In comparison, convolutional designs for videos offer an efficient alternative but lack long-range dependency modeling. Towards achieving the best of both designs, this work proposes Video-FocalNet, an effective and efficient architecture for video recognition that models both local and global contexts. Video-FocalNet is based on a spatio-temporal focal modulation architecture that reverses the interaction and aggregation steps of self-attention for better efficiency. Further, the aggregation step and the interaction step are both implemented using efficient convolution and element-wise multiplication operations that are computationally less expensive than their self-attention counterparts on video representations. We extensively explore the design space of focal modulation-based spatio-temporal context modeling and demonstrate our parallel spatial and temporal encoding design to be the optimal choice. Video-FocalNets perform favorably well against the state-of-the-art transformer-based models for video recognition on five large-scale datasets (Kinetics-400, Kinetics-600, SS-v2, Diving-48, and ActivityNet-1.3) at a lower computational cost. Our code/models are released at https://github.com/TalalWasim/Video-FocalNets.
翻訳日:2023-08-25 17:31:33 公開日:2023-08-24
# 遅延下におけるMin-Max最適化

Min-Max Optimization under Delays ( http://arxiv.org/abs/2307.06886v2 )

ライセンス: Link先を確認
Arman Adibi, Aritra Mitra, and Hamed Hassani(参考訳) コミュニケーションが重要な役割を果たす大規模機械学習では、遅延と非同期性は避けられない。 このように、いくつかの研究は遅延勾配を伴う確率的最適化を広範囲に分析している。 しかし、我々が認識している限り、min-max最適化の類似理論は存在せず、敵意の強固さ、ゲーム理論、強化学習の応用により最近人気を集めている。 このギャップにより、遅延勾配更新を伴う標準のmin-max最適化アルゴリズムの性能について検討する。 まず, 遅延が小さい場合でも, 遅延がない場合の収束が保証される単純なインスタンスに対して, 勾配外(\texttt{EG})のような顕著なアルゴリズムが発散することを示す。 その結果,min-max最適化アルゴリズムの遅延バージョンを注意深く解析する必要性が示唆された。 したがって、適切な技術的仮定の下では、遅延更新を伴う勾配降下(\texttt{gda})および \texttt{eg} が凸凹および強い凸強凸凹設定のためのサドル点への収束を保証し続けることが証明される。 私たちの複雑性は、透過的な方法で、遅延による収束の遅さを明らかにします。

Delays and asynchrony are inevitable in large-scale machine-learning problems where communication plays a key role. As such, several works have extensively analyzed stochastic optimization with delayed gradients. However, as far as we are aware, no analogous theory is available for min-max optimization, a topic that has gained recent popularity due to applications in adversarial robustness, game theory, and reinforcement learning. Motivated by this gap, we examine the performance of standard min-max optimization algorithms with delayed gradient updates. First, we show (empirically) that even small delays can cause prominent algorithms like Extra-gradient (\texttt{EG}) to diverge on simple instances for which \texttt{EG} guarantees convergence in the absence of delays. Our empirical study thus suggests the need for a careful analysis of delayed versions of min-max optimization algorithms. Accordingly, under suitable technical assumptions, we prove that Gradient Descent-Ascent (\texttt{GDA}) and \texttt{EG} with delayed updates continue to guarantee convergence to saddle points for convex-concave and strongly convex-strongly concave settings. Our complexity bounds reveal, in a transparent manner, the slow-down in convergence caused by delays.
翻訳日:2023-08-25 17:31:06 公開日:2023-08-24
# DoReMi:計画実行ミスソーシングの検出と復元による接地言語モデル

DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment ( http://arxiv.org/abs/2307.00329v2 )

ライセンス: Link先を確認
Yanjiang Guo, Yen-Jen Wang, Lihan Zha, Zheyuan Jiang, Jianyu Chen(参考訳) 大きな言語モデルは膨大な量の意味知識をエンコードし、顕著な理解と推論能力を持っている。 従来の研究では、言語モデルによって生成されたシーケンスが論理的に正しいことと現実的に実行可能であることを保証するために、ロボットタスクで言語モデルを構築する方法が検討されてきた。 しかし、環境変動や不完全なコントローラ設計のため、低レベルの実行は高レベルの計画から逸脱する可能性がある。 本稿では,計画と実行の間の不一致を即時に検出し,リカバリするための新しい言語モデル基盤フレームワークであるdoremiを提案する。 具体的には、LLMは計画ステップの計画と生成の両方に利用されます。 これらの制約は計画実行上のミスアライメントを示し、低レベルのスキル実行中に制約をチェックするために視覚質問応答(VQA)モデルを使用します。 もしある誤認識が発生した場合、我々の手法は、誤認識から回復するために言語モデルを呼び出す。 ロボットアームやヒューマノイドロボットを含む様々な複雑なタスクの実験により、より高いタスク成功率とより短いタスク完了時間をもたらすことが示されている。 DoReMiのビデオはhttps://sites.google.com/view/doremi-paperで見ることができる。

Large language models encode a vast amount of semantic knowledge and possess remarkable understanding and reasoning capabilities. Previous research has explored how to ground language models in robotic tasks to ensure that the sequences generated by the language model are both logically correct and practically executable. However, low-level execution may deviate from the high-level plan due to environmental perturbations or imperfect controller design. In this paper, we propose DoReMi, a novel language model grounding framework that enables immediate Detection and Recovery from Misalignments between plan and execution. Specifically, LLMs are leveraged for both planning and generating constraints for planned steps. These constraints can indicate plan-execution misalignments and we use a vision question answering (VQA) model to check constraints during low-level skill execution. If certain misalignment occurs, our method will call the language model to re-plan in order to recover from misalignments. Experiments on various complex tasks including robot arms and humanoid robots demonstrate that our method can lead to higher task success rates and shorter task completion times. Videos of DoReMi are available at https://sites.google.com/view/doremi-paper.
翻訳日:2023-08-25 17:30:33 公開日:2023-08-24
# 歴史的英語の大規模意味的類似性データセット

A Massive Scale Semantic Similarity Dataset of Historical English ( http://arxiv.org/abs/2306.17810v2 )

ライセンス: Link先を確認
Emily Silcock, Melissa Dell(参考訳) タスクの多様性は、意味的類似性データに基づいて訓練された言語モデルを使用する。 セマンティックな類似性をキャプチャするさまざまなデータセットがあるが、それらは現代のWebデータから構築されているか、あるいは人間アノテーションによって過去10年間に作成された比較的小さなデータセットである。 本研究は、1920年から1989年までの70年間に渡り、約4億件のポジティブなセマンティックな類似性ペアを含む大規模なセマンティックな類似性データセットを構築するために、地元紙のコピーライトから新たにデジタル化された新しい情報源を利用する。 歴史的に、アメリカの地方新聞の約半数はap通信のようなニュースワイヤーから来ていた。 地元の新聞はnewswireの記事を再現したが、彼らは独自の見出しを書き、関連する記事の抽象的な要約を形成した。 我々は文書レイアウトと言語理解を利用して記事と見出しを関連付ける。 次に、深層神経法を用いて、ノイズや橋梁の存在下で、どの記事が同じソースからのものであるかを検出する。 再現された記事の見出しは、ポジティブな意味的類似性対を形成する。 その結果公開されたHEADLINESデータセットは、既存のほとんどのセマンティック類似性データセットよりも大幅に大きく、はるかに長い時間にわたってカバーされている。 対照的に訓練されたセマンティックな類似性モデルが、空間と時間にわたるセマンティックな変化の研究を含む様々なタスクに応用される。

A diversity of tasks use language models trained on semantic similarity data. While there are a variety of datasets that capture semantic similarity, they are either constructed from modern web data or are relatively small datasets created in the past decade by human annotators. This study utilizes a novel source, newly digitized articles from off-copyright, local U.S. newspapers, to assemble a massive-scale semantic similarity dataset spanning 70 years from 1920 to 1989 and containing nearly 400M positive semantic similarity pairs. Historically, around half of articles in U.S. local newspapers came from newswires like the Associated Press. While local papers reproduced articles from the newswire, they wrote their own headlines, which form abstractive summaries of the associated articles. We associate articles and their headlines by exploiting document layouts and language understanding. We then use deep neural methods to detect which articles are from the same underlying source, in the presence of substantial noise and abridgement. The headlines of reproduced articles form positive semantic similarity pairs. The resulting publicly available HEADLINES dataset is significantly larger than most existing semantic similarity datasets and covers a much longer span of time. It will facilitate the application of contrastively trained semantic similarity models to a variety of tasks, including the study of semantic change across space and time.
翻訳日:2023-08-25 17:30:16 公開日:2023-08-24
# 24 ETD と ExoClock データセットを組み合わせた WASP-12b と更新エフェメリスの新しい市民科学曲線

24 New Citizen Science Light Curves of WASP-12b and Updated Ephemeris by Combining with ETD and ExoClock Datasets ( http://arxiv.org/abs/2306.17473v3 )

ライセンス: Link先を確認
Avinash S. Nediyedath, Martin J. Fowler, K. Davis, P. Das, D. Lalla, Bryan E. Martin, S. Dixon, P. Lewin, Andre O. Kovacs, A. Odasso, M. Primm, A. Norris(参考訳) 世界中のNASA市民科学者はExOplanet Transit Interpretation Code(EXOTIC)を使用して、天体物理学センターが運営する6インチ望遠鏡によって撮影されたWASP-12の71セットの時系列画像を削減した。 これらのセットのうち24は、NASA Exoplanet WatchのウェブサイトにアップロードされたWASP-12bのクリーントランジット光曲線である。 我々は、NASAのExoplanet Archiveの先行データを用いて、惑星の固有点を計算し、ETD(Exoplanet Transit Database)とExoClockの観測と組み合わせた。 太陽系外惑星ウォッチ、etd、外時計データセットを組み合わせることで、wasp-12bの2454508.97872 +/- 0.00003と1.0914196 +/- 1.7325322e-08の軌道周期が更新され、将来の宇宙望遠鏡観測に利用できる。

NASA citizen scientists from all over the world have used EXOplanet Transit Interpretation Code (EXOTIC) to reduce 71 sets of time-series images of WASP-12 taken by the 6-inch telescope operated by the Centre of Astrophysics | Harvard & Smithsonian MicroObservatory. Of these sets, 24 result in clean Transit light curves of the WASP-12b which are uploaded to the NASA Exoplanet Watch website. We use priors from the NASA Exoplanet Archive to calculate the ephemeris of the planet and combine it with ETD (Exoplanet Transit Database) and ExoClock observations. Combining the Exoplanet Watch, ETD, and Exoclock datasets gives an updated ephemeris for the WASP-12b system of 2454508.97872 +/- 0.00003 with an orbital period of 1.0914196 +/- 1.7325322e-08 days which can be used to inform future space telescope observations.
翻訳日:2023-08-25 17:29:54 公開日:2023-08-24
# グラフラドリング: 中間的コミュニケーションを伴わない極めて単純な並列GNNトレーニング

Graph Ladling: Shockingly Simple Parallel GNN Training without Intermediate Communication ( http://arxiv.org/abs/2306.10466v2 )

ライセンス: Link先を確認
Ajay Jaiswal, Shiwei Liu, Tianlong Chen, Ying Ding, Zhangyang Wang(参考訳) グラフは一様であり、GNNはグラフを学習するためのニューラルネットワークの強力なファミリーである。 その人気にもかかわらず、gnnの拡張は、不健全な勾配、過剰なスモーニング、情報のスカッシュといった一般的な問題に苦しめられ、それがしばしば標準以下のパフォーマンスに繋がる。 本研究では,GNNのキャパシティを拡張・拡張することなく拡張し,複数の小・大規模グラフにまたがる性能向上を図ることに興味がある。 最近のモデルスープの興味深い現象に触発されて、複数の大規模言語事前学習モデルの微調整重量をより良いミニマにマージできることが示唆され、モデルスープの基本を利用して、GNNスケーリング時のメモリボトルネックやトレーサビリティの問題を緩和する。 より具体的には、現在のGNNをさらに深めたり広げたりするのではなく、GNNに適したモデルスープ、すなわち強力なGNNを構築するためのデータ中心の視点を示すことを提案する。 ジャイアントグラフデータを分割することで,中間的なコミュニケーションを必要とせず,複数の独立かつ並列に訓練された弱いgnn(gnn)を構築し,その強度を欲張りな補間スーププロシージャで組み合わせ,最先端のパフォーマンスを実現する。 Jiongなど,同時分散GNNトレーニング作業と比較する。 2023年、エポック毎に異なるサブグラフをサンプリングして各スープ成分を訓練し、そのサブモデルが完全に訓練された後にのみマージされる。 さらに,最先端のグラフサンプリングと大規模グラフ処理が可能なグラフ分割アプローチを活用し,多種多様なモデルスープ調製手法を提供する。 コードは以下の通り: \url{https://github.com/VITA-Group/graph_ladling}。

Graphs are omnipresent and GNNs are a powerful family of neural networks for learning over graphs. Despite their popularity, scaling GNNs either by deepening or widening suffers from prevalent issues of unhealthy gradients, over-smoothening, information squashing, which often lead to sub-standard performance. In this work, we are interested in exploring a principled way to scale GNNs capacity without deepening or widening, which can improve its performance across multiple small and large graphs. Motivated by the recent intriguing phenomenon of model soups, which suggest that fine-tuned weights of multiple large-language pre-trained models can be merged to a better minima, we argue to exploit the fundamentals of model soups to mitigate the aforementioned issues of memory bottleneck and trainability during GNNs scaling. More specifically, we propose not to deepen or widen current GNNs, but instead present a data-centric perspective of model soups tailored for GNNs, i.e., to build powerful GNNs. By dividing giant graph data, we build multiple independently and parallelly trained weaker GNNs (soup ingredient) without any intermediate communication, and combine their strength using a greedy interpolation soup procedure to achieve state-of-the-art performance. Compared to concurrent distributed GNN training works such as Jiong et. al. 2023, we train each soup ingredient by sampling different subgraphs per epoch and their respective sub-models are merged only after being fully trained (rather than intermediately so). Moreover, we provide a wide variety of model soup preparation techniques by leveraging state-of-the-art graph sampling and graph partitioning approaches that can handle large graphs. Codes are available at: \url{https://github.com/VITA-Group/graph_ladling}.
翻訳日:2023-08-25 17:29:23 公開日:2023-08-24
# イタリアの料理人はインドで機械工学を学べますか。 シナリオと場所に関する行動認識の一般化

What can a cook in Italy teach a mechanic in India? Action Recognition Generalisation Over Scenarios and Locations ( http://arxiv.org/abs/2306.08713v2 )

ライセンス: Link先を確認
Chiara Plizzari, Toby Perrett, Barbara Caputo, Dima Damen(参考訳) 行動認識のために訓練されたモデルは、これまで見つからなかったシナリオや、これまで見つからなかった場所で実行されたアクションをうまく分類できるだろうか? この質問に答えるために、大規模ego4dデータセットからの1.1mのビデオクリップを含む、シナリオとロケーションデータセット(argo1m)に対するアクション認識の一般化を紹介する。 認識モデルは、10以上の提案されたテスト分割を一般化するのに苦労し、各シナリオは目に見えない場所にある。 そこで我々は,他のドメインからの動画のクロスインスタンス再構成として,各ビデオを表現するCIRを提案する。 レコンストラクションはテキストナレーションと組み合わせて、ドメインの一般化可能な表現の学習を導く。 我々は、CIRが全てのテスト分割に先立つ領域一般化よりも優れていることを示すARGO1Mに関する広範な分析と改善を提供する。 コードとデータ: https://chiaraplizz.github.io/what-can-a-cook/

We propose and address a new generalisation problem: can a model trained for action recognition successfully classify actions when they are performed within a previously unseen scenario and in a previously unseen location? To answer this question, we introduce the Action Recognition Generalisation Over scenarios and locations dataset (ARGO1M), which contains 1.1M video clips from the large-scale Ego4D dataset, across 10 scenarios and 13 locations. We demonstrate recognition models struggle to generalise over 10 proposed test splits, each of an unseen scenario in an unseen location. We thus propose CIR, a method to represent each video as a Cross-Instance Reconstruction of videos from other domains. Reconstructions are paired with text narrations to guide the learning of a domain generalisable representation. We provide extensive analysis and ablations on ARGO1M that show CIR outperforms prior domain generalisation works on all test splits. Code and data: https://chiaraplizz.github.io/what-can-a-cook/.
翻訳日:2023-08-25 17:28:49 公開日:2023-08-24
# クラス増分学習のための不均一な予測補償

Heterogeneous Forgetting Compensation for Class-Incremental Learning ( http://arxiv.org/abs/2308.03374v2 )

ライセンス: Link先を確認
Jiahua Dong, Wenqi Liang, Yang Cong, Gan Sun(参考訳) クラスインクリメンタルラーニング (CIL) は, 過去のカテゴリーにおける破滅的な忘れを克服しつつ, 新しいクラスを連続的に学習する上で, 顕著な成功を収めた。 しかし、既存のCIL法の多くは、すべての古いカテゴリが同じ忘れるペースを持ち、異なる古いクラス間で不均一性を忘れることによる負の影響を無視していると不当に仮定している。 上記の課題を克服するため,我々は,表現面と勾配面の両方から,忘れやすい,忘れにくい古いカテゴリのヘテロジニアスな忘れることを解決できる,新しいヘテロジニアス・フォーティング・補償(hfc)モデルを開発した。 具体的には、表現的側面からの不均一な忘れを緩和するタスク意味集約ブロックを設計する。 各タスク内のローカルカテゴリ情報を集約し、タスク共有グローバル表現を学習する。 さらに,2つの新しいプラグ・アンド・プレイ損失,すなわち,勾配バランスの欠如補償損失と勾配バランスの関係蒸留損失を発生させ,勾配の欠落を緩和する。 彼らは、古いカテゴリの不均一性を忘れることと不均一な関係の整合性を正すために勾配バランスの補正を考える。 いくつかの代表的なデータセットの実験では、HFCモデルの有効性が示されている。 コードはhttps://github.com/JiahuaDong/HFCで入手できる。

Class-incremental learning (CIL) has achieved remarkable successes in learning new classes consecutively while overcoming catastrophic forgetting on old categories. However, most existing CIL methods unreasonably assume that all old categories have the same forgetting pace, and neglect negative influence of forgetting heterogeneity among different old classes on forgetting compensation. To surmount the above challenges, we develop a novel Heterogeneous Forgetting Compensation (HFC) model, which can resolve heterogeneous forgetting of easy-to-forget and hard-to-forget old categories from both representation and gradient aspects. Specifically, we design a task-semantic aggregation block to alleviate heterogeneous forgetting from representation aspect. It aggregates local category information within each task to learn task-shared global representations. Moreover, we develop two novel plug-and-play losses: a gradient-balanced forgetting compensation loss and a gradient-balanced relation distillation loss to alleviate forgetting from gradient aspect. They consider gradient-balanced compensation to rectify forgetting heterogeneity of old categories and heterogeneous relation consistency. Experiments on several representative datasets illustrate effectiveness of our HFC model. The code is available at https://github.com/JiahuaDong/HFC.
翻訳日:2023-08-25 17:20:05 公開日:2023-08-24
# 交互量子ウォークによる決定論的空間探索への普遍的アプローチ

Universal approach to deterministic spatial search via alternating quantum walks ( http://arxiv.org/abs/2307.16133v4 )

ライセンス: Link先を確認
Qingwen Wang, Ying Jiang, Shiguang Feng, and Lvzhou Li(参考訳) 空間探索は、グラフ上のマークされた頂点を見つけることを目的とした量子計算において重要な問題である。 本稿では,様々なグラフ上の決定論的量子探索アルゴリズムを交互に設計する手法を提案する。 私たちのアプローチは、異なるグラフのインスタンス固有の分析を必要としないため、普遍的です。 我々は、ジョンソングラフ、ルークグラフ、完全二乗グラフ、完全二部グラフに対して、量子アルゴリズムが100〜%の成功確率を持つマークされた頂点を見つけ、古典的アルゴリズムよりも二次的な高速化を達成することを証明して、このアプローチの柔軟性を強調する。 これは、既存の結果を証明する別の簡潔な方法を与えるだけでなく、より一般的なグラフで新しい興味深い発見をもたらす。

Spatial search is an important problem in quantum computation, which aims to find a marked vertex on a graph. We propose a novel approach for designing deterministic quantum search algorithms on a variety of graphs via alternating quantum walks. Our approach is universal because it does not require an instance-specific analysis for different graphs. We highlight the flexibility of our approach by proving that for Johnson graphs, rook graphs, complete-square graphs and complete bipartite graphs, our quantum algorithms can find the marked vertex with $100\%$ success probability and achieve quadratic speedups over classical algorithms. This not only gives an alternative succinct way to prove the existing results, but also leads to new interesting findings on more general graphs.
翻訳日:2023-08-25 17:19:44 公開日:2023-08-24
# effortc:スパーストライベクター放射場

Strivec: Sparse Tri-Vector Radiance Fields ( http://arxiv.org/abs/2307.13226v2 )

ライセンス: Link先を確認
Quankai Gao, Qiangeng Xu, Hao Su, Ulrich Neumann, Zexiang Xu(参考訳) Strivecは,局所テンソル特徴格子の分散化とコンパクト化を図った3次元シーンを放射場としてモデル化したニューラル表現である。 提案手法は, テンソルグリッドをモデル化するために, テンソル分解を利用する。 本研究では,大域テンソルを用いたテンソルのベクトル行列分解に着目したテンソルRFとは対照的に,局所テンソルの雲を利用して従来のCANDECOMP/PARAFAC(CP)分解を適用し,各テンソルを空間軸に沿って局所的特徴分布を表現し,局所的ニューラルネットワークをコンパクトに符号化する3つのベクトルに分解する。 また,多スケールテンソル格子を用いて幾何学と外観の共通性を発見し,複数の局所スケールにおける三ベクトル分解と空間的コヒーレンスを利用する。 最終放射場特性は、全てのスケールにわたる複数の局所テンソルからの神経的特徴の集約によって回帰される。 高速な粗い再構成により3次元シーンの空間性を生かし, 実際のシーンの周囲に微小に3ベクトルテンソルを配置する。 本研究では,テンソRFやInstant-NGPなど,従来の手法よりもはるかに少ないパラメータでレンダリング品質を向上できることを示す。

We propose Strivec, a novel neural representation that models a 3D scene as a radiance field with sparsely distributed and compactly factorized local tensor feature grids. Our approach leverages tensor decomposition, following the recent work TensoRF, to model the tensor grids. In contrast to TensoRF which uses a global tensor and focuses on their vector-matrix decomposition, we propose to utilize a cloud of local tensors and apply the classic CANDECOMP/PARAFAC (CP) decomposition to factorize each tensor into triple vectors that express local feature distributions along spatial axes and compactly encode a local neural field. We also apply multi-scale tensor grids to discover the geometry and appearance commonalities and exploit spatial coherence with the tri-vector factorization at multiple local scales. The final radiance field properties are regressed by aggregating neural features from multiple local tensors across all scales. Our tri-vector tensors are sparsely distributed around the actual scene surface, discovered by a fast coarse reconstruction, leveraging the sparsity of a 3D scene. We demonstrate that our model can achieve better rendering quality while using significantly fewer parameters than previous methods, including TensoRF and Instant-NGP.
翻訳日:2023-08-25 17:19:29 公開日:2023-08-24
# R2Det: 正確な3Dオブジェクト検出のためのレンジビューの省略

R2Det: Redemption from Range-view for Accurate 3D Object Detection ( http://arxiv.org/abs/2307.11482v2 )

ライセンス: Link先を確認
Yihan Wang, Qiao Yan and Yi Wang(参考訳) LiDARベースの3Dオブジェクト検出は、自動運転において最重要となる。 近年の鳥眼ビュー(BEV)と点ベース法は,視線ビューに比べて優れた性能を示した。 本稿では,3次元物体の正確な検出のために,レンジビュー表現を活用して3次元点の強調を行う。 具体的には,R2M(Redemption from Range-view Module)を導入し,2次元視点から3次元視点への3次元表面テクスチャ強調のためのプラグアンドプレイ手法を提案する。 R2Mは,2次元特徴抽出のためのBasicBlock,3次元受容場を拡張するための階層化(HD)メタカーネル,3次元表面テクスチャ情報を復元するための特徴点再空白(FPR)を備える。 R2Mは、最先端のLiDARベースの3Dオブジェクト検出器にシームレスに統合され、KITTI valセットの容易性、適度性、難易度においてそれぞれ1.39%、1.67%、および1.97%のmAP改善を達成できる。 さらに,R2Mに基づいて,R2Detector (R2Det) とSynchronous-Grid RoI Poolingを併用して,ボックスの精密化を提案する。 R2Detは、KITTIベンチマークとWaymo Open Datasetの両方で、既存のレンジビューベースの手法よりも大幅に優れている。 コードは公開される予定だ。

LiDAR-based 3D object detection is of paramount importance for autonomous driving. Recent trends show a remarkable improvement for bird's-eye-view (BEV) based and point-based methods as they demonstrate superior performance compared to range-view counterparts. This paper presents an insight that leverages range-view representation to enhance 3D points for accurate 3D object detection. Specifically, we introduce a Redemption from Range-view Module (R2M), a plug-and-play approach for 3D surface texture enhancement from the 2D range view to the 3D point view. R2M comprises BasicBlock for 2D feature extraction, Hierarchical-dilated (HD) Meta Kernel for expanding the 3D receptive field, and Feature Points Redemption (FPR) for recovering 3D surface texture information. R2M can be seamlessly integrated into state-of-the-art LiDAR-based 3D object detectors as preprocessing and achieve appealing improvement, e.g., 1.39%, 1.67%, and 1.97% mAP improvement on easy, moderate, and hard difficulty level of KITTI val set, respectively. Based on R2M, we further propose R2Detector (R2Det) with the Synchronous-Grid RoI Pooling for accurate box refinement. R2Det outperforms existing range-view-based methods by a significant margin on both the KITTI benchmark and the Waymo Open Dataset. Codes will be made publicly available.
翻訳日:2023-08-25 17:19:02 公開日:2023-08-24
# OpenPose を用いた検査における注意点検出装置

A Video-based Detector for Suspicious Activity in Examination with OpenPose ( http://arxiv.org/abs/2307.11413v2 )

ライセンス: Link先を確認
Reuben Moyo, Stanley Ndebvu, Michael Zimba, Jimmy Mbelwa(参考訳) 試験は学習過程の重要な部分であり、学術機関は学生やファシリテーターからの不正行為を防止し、その完全性を維持するために重要なリソースを投入している。 しかし、不正行為は試験のセットアップで盛んになり、その完全性を損なうことになる。 すべての生徒を監視するためにインヴィゲータに依存する伝統的な方法は非実用的で非効率である。 この問題に対処するためには,学生の疑わしい活動を監視するために,試験セッションを継続的に記録する必要がある。 しかし、これらの録音はインヴィゲータが効果的に分析するには長すぎることが多く、疲労は重要な詳細を見逃してしまう可能性がある。 範囲を広げるために、インヴィゲータは頭上固定カメラやウェアラブルカメラを使うことができた。 本稿では,自動化を利用して映像を分析し,検査中の不審な活動を効率的に検出するフレームワークを提案する。 我々は,OpenPoseフレームワークと畳み込みニューラルネットワーク(CNN)を用いて,試験中にオブジェクトを交換する学生を特定した。 この検出システムは,学術的完全性,公平性,質の高い教育の不正防止と促進に不可欠である。

Examinations are a crucial part of the learning process, and academic institutions invest significant resources into maintaining their integrity by preventing cheating from students or facilitators. However, cheating has become rampant in examination setups, compromising their integrity. The traditional method of relying on invigilators to monitor every student is impractical and ineffective. To address this issue, there is a need to continuously record exam sessions to monitor students for suspicious activities. However, these recordings are often too lengthy for invigilators to analyze effectively, and fatigue may cause them to miss significant details. To widen the coverage, invigilators could use fixed overhead or wearable cameras. This paper introduces a framework that uses automation to analyze videos and detect suspicious activities during examinations efficiently and effectively. We utilized the OpenPose framework and Convolutional Neural Network (CNN) to identify students exchanging objects during exams. This detection system is vital in preventing cheating and promoting academic integrity, fairness, and quality education for institutions.
翻訳日:2023-08-25 17:18:32 公開日:2023-08-24
# CNOS:CADベースの新しいオブジェクトセグメンテーションのための強力なベースライン

CNOS: A Strong Baseline for CAD-based Novel Object Segmentation ( http://arxiv.org/abs/2307.11067v3 )

ライセンス: Link先を確認
Van Nguyen Nguyen, Tomas Hodan, Georgy Ponimatkin, Thibault Groueix, Vincent Lepetit(参考訳) CADモデルを用いて,RGB画像中の未確認オブジェクトを分割する手法を提案する。 最近の強力な基盤モデルであるDINOv2とSegment Anythingを活用して、記述子を作成し、与えられた入力RGBイメージのバイナリマスクを含む提案を生成する。 CADモデルから生成された参照記述子と提案を一致させることで、モーダルマスクとともに正確なオブジェクトID割り当てを実現する。 我々は,本手法がCADに基づく新しいオブジェクトセグメンテーションにおいて,BOP課題の7つのコアデータセットに対する既存のアプローチを19.8%のAPで上回り,最先端の成果を達成できることを実験的に実証した。 ソースコードはhttps://github.com/nv-nguyen/cnosで入手できます。

We propose a simple three-stage approach to segment unseen objects in RGB images using their CAD models. Leveraging recent powerful foundation models, DINOv2 and Segment Anything, we create descriptors and generate proposals, including binary masks for a given input RGB image. By matching proposals with reference descriptors created from CAD models, we achieve precise object ID assignment along with modal masks. We experimentally demonstrate that our method achieves state-of-the-art results in CAD-based novel object segmentation, surpassing existing approaches on the seven core datasets of the BOP challenge by 19.8% AP using the same BOP evaluation protocol. Our source code is available at https://github.com/nv-nguyen/cnos.
翻訳日:2023-08-25 17:18:13 公開日:2023-08-24
# 高忠実性トーキング・ポートレート合成のための効率的な領域認識ニューラルラジアンスフィールド

Efficient Region-Aware Neural Radiance Fields for High-Fidelity Talking Portrait Synthesis ( http://arxiv.org/abs/2307.09323v2 )

ライセンス: Link先を確認
Jiahe Li, Jiawei Zhang, Xiao Bai, Jun Zhou, Lin Gu(参考訳) 本稿では,高速収束,リアルタイムレンダリング,モデルサイズの少ない最先端性能を同時に達成できる,新たな条件付きニューラルネットワークラミアンスフィールド(nerf)ベースのトーキングポートレート合成アーキテクチャであるer-nerfを提案する。 我々の考えは、空間領域の不平等な寄与を明示的に活用し、話し言葉のポートレートモデリングをガイドすることである。 具体的には、3つの平面ハッシュエンコーダで空の空間領域をプルーニングすることで、コンパクトで表現性の高いNeRFベースのTri-Plane Hash Representationを導入する。 音声音声に対して,注意機構により領域認識条件を生成できる領域注意モジュールを提案する。 MLPベースのエンコーダを用いて暗黙的にクロスモーダル関係を学習する既存の方法とは異なり、アテンションメカニズムは音声特徴と空間領域との明示的な接続を構築し、局所的な動きの先行を捉える。 さらに,頭部ポーズの複素変換を空間座標にマッピングすることにより,頭部-トルソ分離問題を最適化するために,直接かつ高速に適応的なポーズ符号化を導入する。 広範にわたる実験により,従来の手法に比べて高精細で高効率で,高忠実度とオーディオリップの同期性が向上することを実証した。

This paper presents ER-NeRF, a novel conditional Neural Radiance Fields (NeRF) based architecture for talking portrait synthesis that can concurrently achieve fast convergence, real-time rendering, and state-of-the-art performance with small model size. Our idea is to explicitly exploit the unequal contribution of spatial regions to guide talking portrait modeling. Specifically, to improve the accuracy of dynamic head reconstruction, a compact and expressive NeRF-based Tri-Plane Hash Representation is introduced by pruning empty spatial regions with three planar hash encoders. For speech audio, we propose a Region Attention Module to generate region-aware condition feature via an attention mechanism. Different from existing methods that utilize an MLP-based encoder to learn the cross-modal relation implicitly, the attention mechanism builds an explicit connection between audio features and spatial regions to capture the priors of local motions. Moreover, a direct and fast Adaptive Pose Encoding is introduced to optimize the head-torso separation problem by mapping the complex transformation of the head pose into spatial coordinates. Extensive experiments demonstrate that our method renders better high-fidelity and audio-lips synchronized talking portrait videos, with realistic details and high efficiency compared to previous methods.
翻訳日:2023-08-25 17:17:58 公開日:2023-08-24
# フロー誘導制御線描画生成

Flow-Guided Controllable Line Drawing Generation ( http://arxiv.org/abs/2307.07540v2 )

ライセンス: Link先を確認
Chengyu Fang, Xianfeng Han(参考訳) 本稿では,人工知能と芸術の魅力的な交点と見なすことができるベクトルフロー認識および線制御可能な画像対画像翻訳アーキテクチャを提案することにより,写真から自動制御可能な芸術的キャラクタ線描画の問題を検討する。 具体的には,まず画像対フローネットワーク(i2fnet)を用いて,ベクトル流れ場を学習ベースで効率的かつロバストに作成する手法を提案する。 次に,学習ベクトルフローと入力画像フローから特徴を融合し,線の空間的コヒーレンスを保証するためのdfg(double flow generator)フレームワークを提案する。 一方,制御可能な文字線描画生成を可能にするために,ライン制御行列(LCM)をDFGに統合し,ライン制御レグレッサ(LCR)を訓練し,ラインの厚み,滑らかさ,連続性といった細部を精巧に制御することで,異なるスタイルで描画を合成する。 最後に,Fourier Transformation Lossを設計し,その点の周波数領域からの文字列生成をさらに制約する。 定量的・定性的な実験により,本手法は知覚的に現実的な特徴を有する高分解能文字線描画画像の生成において優れた性能が得られることを示す。

In this paper, we investigate the problem of automatically controllable artistic character line drawing generation from photographs by proposing a Vector Flow Aware and Line Controllable Image-to-Image Translation architecture, which can be viewed as an appealing intersection between Artificial Intelligence and Arts. Specifically, we first present an Image-to-Flow network (I2FNet) to efficiently and robustly create the vector flow field in a learning-based manner, which can provide a direction guide for drawing lines. Then, we introduce our well-designed Double Flow Generator (DFG) framework to fuse features from learned vector flow and input image flow guaranteeing the spatial coherence of lines. Meanwhile, in order to allow for controllable character line drawing generation, we integrate a Line Control Matrix (LCM) into DFG and train a Line Control Regressor (LCR) to synthesize drawings with different styles by elaborately controlling the level of details, such as thickness, smoothness, and continuity, of lines. Finally, we design a Fourier Transformation Loss to further constrain the character line generation from the frequency domain view of the point. Quantitative and qualitative experiments demonstrate that our approach can obtain superior performance in producing high-resolution character line-drawing images with perceptually realistic characteristics.
翻訳日:2023-08-25 17:17:33 公開日:2023-08-24
# MoCLIM:Omics-Inference Modelingを用いたマルチオミクスコントラスト学習による正確な癌サブタイピングを目指して

MoCLIM: Towards Accurate Cancer Subtyping via Multi-Omics Contrastive Learning with Omics-Inference Modeling ( http://arxiv.org/abs/2308.09725v2 )

ライセンス: Link先を確認
Ziwei Yang, Zheng Chen, Yasuko Matsubara, Yasushi Sakurai(参考訳) 精密医学は基本的に、不規則な生化学的機構とがんのサブタイプの間の因果関係を確立することを目的としている。 omicsベースのがんのサブタイプは、がんにおける多段階プロセスの生化学的産物を記録するため、革新的なアプローチとして現れてきた。 本稿では,マルチオミクスデータの可能性を十分に活用し,がんのサブタイピング結果を改善することに焦点を当て,表現学習フレームワークmoclimを開発した。 MoCLIMは独自のオミクスモーダルから情報的特徴を抽出する。 異なるオミクスモダリティの対照的な学習によって伝達される統一された表現を用いて、与えられたがんのサブタイプを下位の潜伏空間に適切にまとめることができる。 このコントラストは、生物学的ネットワークで観察されるオミクス間推論の投影と解釈できる。 6つのがんデータセットに対する実験結果から,本手法はより少ない高次元がん症例において,データ適合性とサブタイプ性能を著しく向上することが示された。 さらに, 様々な医療評価を最終要素として取り入れ, 医療分析における高い解釈性を提供する。

Precision medicine fundamentally aims to establish causality between dysregulated biochemical mechanisms and cancer subtypes. Omics-based cancer subtyping has emerged as a revolutionary approach, as different level of omics records the biochemical products of multistep processes in cancers. This paper focuses on fully exploiting the potential of multi-omics data to improve cancer subtyping outcomes, and hence developed MoCLIM, a representation learning framework. MoCLIM independently extracts the informative features from distinct omics modalities. Using a unified representation informed by contrastive learning of different omics modalities, we can well-cluster the subtypes, given cancer, into a lower latent space. This contrast can be interpreted as a projection of inter-omics inference observed in biological networks. Experimental results on six cancer datasets demonstrate that our approach significantly improves data fit and subtyping performance in fewer high-dimensional cancer instances. Moreover, our framework incorporates various medical evaluations as the final component, providing high interpretability in medical analysis.
翻訳日:2023-08-25 17:10:43 公開日:2023-08-24
# MIPS-Fusion: スケーラブルかつロバストなオンラインニューラルRGB-D再構成のためのマルチインプシットサブマップ

MIPS-Fusion: Multi-Implicit-Submaps for Scalable and Robust Online Neural RGB-D Reconstruction ( http://arxiv.org/abs/2308.08741v2 )

ライセンス: Link先を確認
Yijie Tang, Jiazhao Zhang, Zhinan Yu, He Wang, Kai Xu(参考訳) 我々は,新しいニューラル暗黙表現-multi-implicit-submapに基づく,堅牢でスケーラブルなオンラインRGB-D再構成手法であるMIPS-Fusionを紹介する。 既存のニューラルネットワークRGB-D再構成手法とは違い,機能グリッドの余分な格納により,単一ニューラルマップの柔軟性やスケーラビリティが欠如しているため,分割・コンカ設計の難しさに対処する純粋ニューラル表現を提案する。 本手法では,脳神経サブマップを走査軌道に沿って漸進的に割り当て,局所的な神経束調整で効率的に学習する。 サブマップはバックエンド最適化で個別に洗練することができ、同時に最適化してサブマップレベルのループクロージャを実現することができる。 一方,ランダム化と勾配に基づくポーズ最適化を組み合わせたハイブリッドトラッキング手法を提案する。 学習プロセスにいくつかの重要な設計を持つニューラルネットワークのトラッキングでは、初めてランダム化最適化が可能となり、高速なカメラの動きでも効率的で堅牢なトラッキングが可能になる。 広範に評価した結果,本手法は大規模シーンや高速カメラ動作において,芸術水準よりも高いコンストラクション品質が得られることがわかった。

We introduce MIPS-Fusion, a robust and scalable online RGB-D reconstruction method based on a novel neural implicit representation -- multi-implicit-submap. Different from existing neural RGB-D reconstruction methods lacking either flexibility with a single neural map or scalability due to extra storage of feature grids, we propose a pure neural representation tackling both difficulties with a divide-and-conquer design. In our method, neural submaps are incrementally allocated alongside the scanning trajectory and efficiently learned with local neural bundle adjustments. The submaps can be refined individually in a back-end optimization and optimized jointly to realize submap-level loop closure. Meanwhile, we propose a hybrid tracking approach combining randomized and gradient-based pose optimizations. For the first time, randomized optimization is made possible in neural tracking with several key designs to the learning process, enabling efficient and robust tracking even under fast camera motions. The extensive evaluation demonstrates that our method attains higher reconstruction quality than the state of the arts for large-scale scenes and under fast camera motions.
翻訳日:2023-08-25 17:10:00 公開日:2023-08-24
# 画像復元のための粗粒拡散トランスの学習

Learning A Coarse-to-Fine Diffusion Transformer for Image Restoration ( http://arxiv.org/abs/2308.08730v2 )

ライセンス: Link先を確認
Liyan Wang, Qinyu Yang, Cong Wang, Wei Wang, Jinshan Pan, Zhixun Su(参考訳) 近年,様々な視覚課題における拡散モデルの性能が顕著に向上している。 しかし, 得られた劣化観測からより鮮明な詳細で鮮明な画像を復元することを目的とした画像復元では, 不正確な雑音推定による予測結果の回復に失敗する可能性がある。 さらに、単純な制約ノイズは、複雑な劣化情報を効果的に学習できないため、モデルの容量を阻害する。 そこで本稿では,画像復元のための粗粒拡散トランス(c2f-dft)を提案する。 具体的には,このC2F-DFTには拡散自己注意(DFSA)と拡散フィードフォワードネットワーク(DFN)が含まれている。 dfsaとdfnはそれぞれ長距離拡散依存性を捕捉し、階層拡散表現を学習し、より良い修復を容易にする。 粗い訓練段階において,我々のC2F-DFTはノイズを推定し,サンプリングアルゴリズムにより最終クリーン画像を生成する。 修復の質をさらに高めるため,簡易かつ効果的な訓練手法を提案する。 まず, 粗トレーニング拡散モデルを用いて復元結果の生成を行い, 不正確な騒音推定によって生じる不満足な結果を改善するためのモデル最適化を行う。 拡張実験により,C2F-DFTは拡散型修復法IR-SDEを著しく上回り,3ドルのタスクにおいて,トランスフォーマーをベースとした最先端手法と比較して高い性能を示した。 コードはhttps://github.com/wlydlut/C2F-DFTで公開されている。

Recent years have witnessed the remarkable performance of diffusion models in various vision tasks. However, for image restoration that aims to recover clear images with sharper details from given degraded observations, diffusion-based methods may fail to recover promising results due to inaccurate noise estimation. Moreover, simple constraining noises cannot effectively learn complex degradation information, which subsequently hinders the model capacity. To solve the above problems, we propose a coarse-to-fine diffusion Transformer (C2F-DFT) for image restoration. Specifically, our C2F-DFT contains diffusion self-attention (DFSA) and diffusion feed-forward network (DFN) within a new coarse-to-fine training scheme. The DFSA and DFN respectively capture the long-range diffusion dependencies and learn hierarchy diffusion representation to facilitate better restoration. In the coarse training stage, our C2F-DFT estimates noises and then generates the final clean image by a sampling algorithm. To further improve the restoration quality, we propose a simple yet effective fine training scheme. It first exploits the coarse-trained diffusion model with fixed steps to generate restoration results, which then would be constrained with corresponding ground-truth ones to optimize the models to remedy the unsatisfactory results affected by inaccurate noise estimation. Extensive experiments show that C2F-DFT significantly outperforms diffusion-based restoration method IR-SDE and achieves competitive performance compared with Transformer-based state-of-the-art methods on $3$ tasks, including deraining, deblurring, and real denoising. The code is available at https://github.com/wlydlut/C2F-DFT.
翻訳日:2023-08-25 17:09:41 公開日:2023-08-24
# 自然言語はグラフに必要なもの

Natural Language is All a Graph Needs ( http://arxiv.org/abs/2308.07134v3 )

ライセンス: Link先を確認
Ruosong Ye, Caiqi Zhang, Runhui Wang, Shuyuan Xu, Yongfeng Zhang(参考訳) ChatGPTのような大規模な事前学習言語モデルの出現は、人工知能の様々な研究分野に革命をもたらした。 トランスフォーマーベースの大規模言語モデル(LLM)は、コンピュータビジョンと自然言語処理の分野を統合するためにCNNとRNNを徐々に置き換えている。 画像やビデオ、テキストなど、比較的独立したデータと比較すると、graphは構造的および関係的な情報を含むデータの一種である。 一方、自然言語は最も表現力のある媒体の1つであり、複雑な構造を記述するのに優れている。 しかし、グラフ学習問題を生成言語モデリングフレームワークに組み込む作業は依然として非常に限られている。 大規模言語モデルの重要性が高まり続けており、グラフの基礎モデルとしてLLMがGNNを置き換えることができるかどうかを検討することが不可欠である。 本稿では、自然言語命令に基づいて高度にスケーラブルなプロンプトを体系的に設計するインストラクションGLM(Instruction-finetuned Graph Language Model)を提案する。 提案手法は, ogbn-arxiv, Cora, PubMedデータセット上のGNNベースラインを全て越え, 提案手法の有効性を実証し, グラフ機械学習の基礎モデルとして生成可能な大規模言語モデルに光を当てる。

The emergence of large-scale pre-trained language models, such as ChatGPT, has revolutionized various research fields in artificial intelligence. Transformers-based large language models (LLMs) have gradually replaced CNNs and RNNs to unify fields of computer vision and natural language processing. Compared with the data that exists relatively independently such as images, videos or texts, graph is a type of data that contains rich structural and relational information. Meanwhile, natural language, as one of the most expressive mediums, excels in describing complex structures. However, existing work on incorporating graph learning problems into the generative language modeling framework remains very limited. As the importance of large language models continues to grow, it becomes essential to explore whether LLMs can also replace GNNs as the foundation model for graphs. In this paper, we propose InstructGLM (Instruction-finetuned Graph Language Model), systematically design highly scalable prompts based on natural language instructions, and use natural language to describe the geometric structure and node features of the graph for instruction tuning an LLM to perform learning and inference on graphs in a generative manner. Our method exceeds all competitive GNN baselines on ogbn-arxiv, Cora and PubMed datasets, which demonstrates the effectiveness of our method and sheds light on generative large language models as the foundation model for graph machine learning.
翻訳日:2023-08-25 17:08:50 公開日:2023-08-24
# 医用画像における深層学習のための小さなデータセットを用いたDealing:コントラスト法とマスクオートエンコーダ法の比較によるCTスキャンの自己監督評価

Dealing with Small Datasets for Deep Learning in Medical Imaging: An Evaluation of Self-Supervised Pre-Training on CT Scans Comparing Contrastive and Masked Autoencoder Methods for Convolutional Models ( http://arxiv.org/abs/2308.06534v2 )

ライセンス: Link先を確認
Daniel Wolf, Tristan Payer, Catharina Silvia Lisson, Christoph Gerhard Lisson, Meinrad Beer, Timo Ropinski, Michael G\"otz(参考訳) 医用画像の深層学習は、診断ミスのリスクを最小限に抑え、放射線医の作業量を減らし、診断を加速する可能性がある。 このようなディープラーニングモデルのトレーニングには,すべてのトレーニングサンプルに対するアノテーションを備えた,大規模かつ正確なデータセットが必要です。 しかし、医療画像領域では、アノテーションの複雑さやアクセスの制限、病気の希少さなどにより、特定のタスクのための注釈付きデータセットは少ないことが多い。 この課題に対処するために、ディープラーニングモデルは、自己教師付き学習の分野からのメソッドを使用するアノテーションなしで、大規模なイメージデータセットで事前トレーニングすることができる。 事前トレーニング後、小さな注釈付きデータセットは、特定のタスクのためにモデルを微調整するのに十分です。 医療画像における自己教師付き事前学習の最も一般的なアプローチは、コントラスト学習に基づいている。 しかし、近年の自然画像処理の研究は、マスク付きオートエンコーダアプローチに強い可能性を示している。 我々の研究は、医学画像上の畳み込みニューラルネットワーク(CNN)のためのマスク付きオートエンコーダアプローチ "SparK" と比較した。 そこで我々は,大規模無注釈CT画像データセットといくつかのCT分類タスクを事前訓練した。 医用画像における十分なアノテートトレーニングデータを取得することの難しさから,小データセットの微調整において自己教師付き事前学習法がどのように機能するかを評価することが特に重要である。 微調整のためのトレーニングデータセットサイズを段階的に縮小させることにより,事前学習の種類によって異なる効果が得られた。 SparK事前学習法は、対照的な方法よりもトレーニングデータセットサイズに対して堅牢である。 そこで本研究では,小さな注釈付きデータセットのみを用いたSparKプリトレーニングを提案する。

Deep learning in medical imaging has the potential to minimize the risk of diagnostic errors, reduce radiologist workload, and accelerate diagnosis. Training such deep learning models requires large and accurate datasets, with annotations for all training samples. However, in the medical imaging domain, annotated datasets for specific tasks are often small due to the high complexity of annotations, limited access, or the rarity of diseases. To address this challenge, deep learning models can be pre-trained on large image datasets without annotations using methods from the field of self-supervised learning. After pre-training, small annotated datasets are sufficient to fine-tune the models for a specific task. The most popular self-supervised pre-training approaches in medical imaging are based on contrastive learning. However, recent studies in natural image processing indicate a strong potential for masked autoencoder approaches. Our work compares state-of-the-art contrastive learning methods with the recently introduced masked autoencoder approach "SparK" for convolutional neural networks (CNNs) on medical images. Therefore we pre-train on a large unannotated CT image dataset and fine-tune on several CT classification tasks. Due to the challenge of obtaining sufficient annotated training data in medical imaging, it is of particular interest to evaluate how the self-supervised pre-training methods perform when fine-tuning on small datasets. By experimenting with gradually reducing the training dataset size for fine-tuning, we find that the reduction has different effects depending on the type of pre-training chosen. The SparK pre-training method is more robust to the training dataset size than the contrastive methods. Based on our results, we propose the SparK pre-training for medical imaging tasks with only small annotated datasets.
翻訳日:2023-08-25 17:08:23 公開日:2023-08-24
# 離散集合上の関数から量子チャネルを生成する

Generating quantum channels from functions on discrete sets ( http://arxiv.org/abs/2308.06084v2 )

ライセンス: Link先を確認
A. C. Quillen, Nathan Skerrett(参考訳) 高忠実度で量子状態を高速に初期化する量子コンピュータの最近の能力を用いて、離散集合上で動作する関数を用いて量子チャネルの単純なクラスを作成する。 関数の中に存在する固定点と周期軌道は、関連する量子チャネル内で固定点と周期軌道を生成する。 周期的二重化のような現象は、ロジスティックマップの切り離されたバージョンから構築された6 qubit dephasingチャネルで見ることができる。 解離部分集合を用いて、部分空間内のコヒーレンスを保持する離散関数生成チャネルを構築することができる。 シンドローム検出は初期化量子レジスタを使用するため、誤り訂正手順はこのクラスに属することができる。 関数生成チャネルの可能な応用は、ハイブリッド古典/量子アルゴリズムである。 これらのチャネルが量子コンピュータ上の非可逆関数の反復を含む古典的な計算にどのように役立つのかをユークリッドアルゴリズムを用いて説明し、2つの整数の最大公約数を求める。

Using the recent ability of quantum computers to initialize quantum states rapidly with high fidelity, we use a function operating on a discrete set to create a simple class of quantum channels. Fixed points and periodic orbits, that are present in the function, generate fixed points and periodic orbits in the associated quantum channel. Phenomenology such as periodic doubling is visible in a 6 qubit dephasing channel constructed from a truncated version of the logistic map. Using disjoint subsets, discrete function-generated channels can be constructed that preserve coherence within subspaces. Error correction procedures can be in this class as syndrome detection uses an initialized quantum register. A possible application for function-generated channels is in hybrid classical/quantum algorithms. We illustrate how these channels can aid in carrying out classical computations involving iteration of non-invertible functions on a quantum computer with the Euclidean algorithm for finding the greatest common divisor of two integers.
翻訳日:2023-08-25 17:07:55 公開日:2023-08-24
# 周波数制限されたアイデンティティ非依存攻撃による顔暗号化

Face Encryption via Frequency-Restricted Identity-Agnostic Attacks ( http://arxiv.org/abs/2308.05983v2 )

ライセンス: Link先を確認
Xin Dong, Rui Wang, Siyuan Liang, Aishan Liu, Lihua Jing(参考訳) 何十億という人々が毎日、ソーシャルメディアでライブ画像を共有している。 しかし、悪意のあるコレクターは、深層顔認識システムを使用して、これらの画像から生体情報(例えば顔)を容易に盗む。 顔情報漏洩を減らすために、知覚不能な摂動を導入することで、敵対的な攻撃を用いて暗号化された顔写真を生成する研究が行われている。 しかし、既存の研究は、より強力なブラックボックスシナリオの実現可能性と、より自然な視覚的な外観を必要としており、プライバシー保護の可能性に挑戦している。 これらの問題に対処するために,個人情報にアクセスせずに顔画像の暗号化を行う周波数制限付きアイデンティティ非依存(fria)フレームワークを提案する。 弱いブラックボックスシナリオの実現可能性については、複数の顔認識モデルにおける平均特徴の表現が類似していることに逆らって、インターネットからクロールしたデータセットを通じて平均特徴をターゲットとして利用し、未知の顔認識システムの同一性にも依存せず、人間の視覚システムによってより視覚的に知覚される低周波摂動について述べる。 これにより,低周波顔面領域の摂動を離散コサイン変換によって制限し,視覚的自然性を保証する。 複数の顔認識モデルを用いた広範囲な実験により,本手法は,高いブラックボックス攻撃成功率を96%としつつ,より自然な暗号化顔生成において,他の最先端手法よりも優れていることが示された。 さらに,実世界のブラックボックス商用APIを用いてFRIAの有効性を検証する。 私たちのコードはhttps://github.com/XinDong10/FRIAで確認できます。

Billions of people are sharing their daily live images on social media everyday. However, malicious collectors use deep face recognition systems to easily steal their biometric information (e.g., faces) from these images. Some studies are being conducted to generate encrypted face photos using adversarial attacks by introducing imperceptible perturbations to reduce face information leakage. However, existing studies need stronger black-box scenario feasibility and more natural visual appearances, which challenge the feasibility of privacy protection. To address these problems, we propose a frequency-restricted identity-agnostic (FRIA) framework to encrypt face images from unauthorized face recognition without access to personal information. As for the weak black-box scenario feasibility, we obverse that representations of the average feature in multiple face recognition models are similar, thus we propose to utilize the average feature via the crawled dataset from the Internet as the target to guide the generation, which is also agnostic to identities of unknown face recognition systems; in nature, the low-frequency perturbations are more visually perceptible by the human vision system. Inspired by this, we restrict the perturbation in the low-frequency facial regions by discrete cosine transform to achieve the visual naturalness guarantee. Extensive experiments on several face recognition models demonstrate that our FRIA outperforms other state-of-the-art methods in generating more natural encrypted faces while attaining high black-box attack success rates of 96%. In addition, we validate the efficacy of FRIA using real-world black-box commercial API, which reveals the potential of FRIA in practice. Our codes can be found in https://github.com/XinDong10/FRIA.
翻訳日:2023-08-25 17:07:43 公開日:2023-08-24
# GeodesicPSIM:ジオデシックパッチ類似性を利用したテクスチャマップによる静的メッシュの品質予測

GeodesicPSIM: Predicting the Quality of Static Mesh with Texture Map via Geodesic Patch Similarity ( http://arxiv.org/abs/2308.04928v2 )

ライセンス: Link先を確認
Qi Yang, Joel Jung, Xiaozhong Xu, and Shan Liu(参考訳) テクスチャマップを用いた静的メッシュは、工業生産と学術研究の両方で大きな注目を集めており、効果的で堅牢な客観的品質評価の緊急な要件となっている。 しかし、現在のモデルに基づく静的メッシュの品質指標には明らかな制限がある。そのほとんどは幾何学的情報のみを考慮し、色情報は無視され、メッシュの幾何学的トポロジーには厳格な制約がある。 イメージベースやポイントベースといった他のメトリクスは、投射やサンプリングといった先入観アルゴリズムの影響を受けやすく、彼らの最高のパフォーマンスを妨げている。 本稿では,静的メッシュの知覚品質を正確に予測する新しいモデルベース計量であるGeodesic Patch similarity(GeodesicPSIM)を提案する。 グループキーポイントを選択した後、効率的なメッシュクリーニングアルゴリズムによりクリーニングされた参照メッシュと歪メッシュの両方に基づいて1ホップ測地パッチを構築する。 2段階のパッチトリミングアルゴリズムとパッチテクスチャマッピングモジュールは、1ホップ測地線パッチのサイズを洗練し、メッシュ幾何学と色情報の関係を構築し、1ホップテクスチャ化された測地線パッチを生成する。 歪みを定量化するために,パッチ色平滑度,パッチ離散平均曲率,パッチ画素色平均およびばらつきの3種類の特徴を抽出した。 我々の知る限りでは、GeodesicPSIMは特にテクスチャマップを備えた静的メッシュ用に設計された最初のモデルベースのメトリクスである。 GeodesicPSIMは、新しく作成され、挑戦的なデータベース上で、画像ベース、ポイントベース、ビデオベースのメトリクスと比較して、最先端のパフォーマンスを提供する。 また,GeodesicPSIMの高パラメータの異なる設定を導入することで,ロバスト性を証明した。 アブレーション研究は3つの特徴とパッチクロッピングアルゴリズムの有効性も示している。

Static meshes with texture maps have attracted considerable attention in both industrial manufacturing and academic research, leading to an urgent requirement for effective and robust objective quality evaluation. However, current model-based static mesh quality metrics have obvious limitations: most of them only consider geometry information, while color information is ignored, and they have strict constraints for the meshes' geometrical topology. Other metrics, such as image-based and point-based metrics, are easily influenced by the prepossessing algorithms, e.g., projection and sampling, hampering their ability to perform at their best. In this paper, we propose Geodesic Patch Similarity (GeodesicPSIM), a novel model-based metric to accurately predict human perception quality for static meshes. After selecting a group keypoints, 1-hop geodesic patches are constructed based on both the reference and distorted meshes cleaned by an effective mesh cleaning algorithm. A two-step patch cropping algorithm and a patch texture mapping module refine the size of 1-hop geodesic patches and build the relationship between the mesh geometry and color information, resulting in the generation of 1-hop textured geodesic patches. Three types of features are extracted to quantify the distortion: patch color smoothness, patch discrete mean curvature, and patch pixel color average and variance. To the best of our knowledge, GeodesicPSIM is the first model-based metric especially designed for static meshes with texture maps. GeodesicPSIM provides state-of-the-art performance in comparison with image-based, point-based, and video-based metrics on a newly created and challenging database. We also prove the robustness of GeodesicPSIM by introducing different settings of hyperparameters. Ablation studies also exhibit the effectiveness of three proposed features and the patch cropping algorithm.
翻訳日:2023-08-25 17:07:13 公開日:2023-08-24
# GPTEval: ChatGPT と GPT-4 の評価に関する調査

GPTEval: A Survey on Assessments of ChatGPT and GPT-4 ( http://arxiv.org/abs/2308.12488v1 )

ライセンス: Link先を確認
Rui Mao, Guanyi Chen, Xulang Zhang, Frank Guerin, Erik Cambria(参考訳) ChatGPTの出現は、社会・経済システムを破壊する可能性についての多くの憶測を引き起こしている。 その驚くべき言語能力は、異なる領域におけるその業績について、学者の間で強い好奇心を喚起した。 様々な課題や規律においてChatGPTとGPT-4の能力を評価する研究が数多く行われている。 しかし,集合的アセスメントの結果をまとめた総括的レビューは欠落している。 本調査の目的は,ChatGPTとGPT-4の事前評価を,言語,推論能力,科学的知識,倫理的考察を中心に徹底的に分析することである。 さらに, 既存の評価手法の検討を行い, 大規模言語モデルの評価に関する今後の研究への提言を述べる。

The emergence of ChatGPT has generated much speculation in the press about its potential to disrupt social and economic systems. Its astonishing language ability has aroused strong curiosity among scholars about its performance in different domains. There have been many studies evaluating the ability of ChatGPT and GPT-4 in different tasks and disciplines. However, a comprehensive review summarizing the collective assessment findings is lacking. The objective of this survey is to thoroughly analyze prior assessments of ChatGPT and GPT-4, focusing on its language and reasoning abilities, scientific knowledge, and ethical considerations. Furthermore, an examination of the existing evaluation methods is conducted, offering several recommendations for future research in evaluating large language models.
翻訳日:2023-08-25 15:59:09 公開日:2023-08-24
# 非軸数論理に基づく逐次学習モデル

A Model of Sequential Learning based on Non-Axiomatic Logic ( http://arxiv.org/abs/2308.12486v1 )

ライセンス: Link先を確認
Bowen Xu(参考訳) 逐次学習は知的エージェントの基本的な機能である。 本技術報告では,非公理論理で解釈可能な逐次学習モデルを提案する。 学習手順は仮説化、修正、リサイクルの3つのステップを含み、不十分な知識と資源の仮定の下で機能する。 現在の設計には制限があるが、いくつかの単純なケースで有効であることが証明されている。

Sequential learning is a fundamental function of an intelligent agent. This technical report introduces a model of sequential learning, which is interpretable through Non-Axiomatic Logic. The learning procedure includes three steps, hypothesizing, revising, and recycling, and can work under the Assumption of Insufficient Knowledge and Resources. Although there are limitations for the current design, the model has been proven effective in some simple cases.
翻訳日:2023-08-25 15:58:58 公開日:2023-08-24
# 知識蒸留に基づくオフライン組込み・低消費電力デバイスにおける長期記憶を用いた転倒検出

Fall Detection using Knowledge Distillation Based Long short-term memory for Offline Embedded and Low Power Devices ( http://arxiv.org/abs/2308.12481v1 )

ライセンス: Link先を確認
Hannah Zhou, Allison Chen, Celine Buer, Emily Chen, Kayleen Tang, Lauryn Gong, Zhiqi Liu, Jianbin Tang(参考訳) 本稿では,知識蒸留に基づくLSTM(Long Short-Term Memory)モデルを用いて,非意図的転倒検出のための低コストで低消費電力な手法を提案する。 さまざまなセンサーから収集された時系列データの分析に重点を置いたこのソリューションは、リアルタイム検出機能を提供し、落下の迅速かつ信頼性の高い識別を可能にする。 著者らは,異なるセンサに基づく転倒検出モデルを調査し,その精度と性能を比較した。 さらに、モデルの精度を高めるために知識蒸留技術を採用し、より少ない電力を消費する精密な構成を生み出した。 その結果、本提案手法は、この臨界領域における将来の進歩のためのエネルギー効率の高い落下検知システムの開発に有効な方法である。

This paper presents a cost-effective, low-power approach to unintentional fall detection using knowledge distillation-based LSTM (Long Short-Term Memory) models to significantly improve accuracy. With a primary focus on analyzing time-series data collected from various sensors, the solution offers real-time detection capabilities, ensuring prompt and reliable identification of falls. The authors investigate fall detection models that are based on different sensors, comparing their accuracy rates and performance. Furthermore, they employ the technique of knowledge distillation to enhance the models' precision, resulting in refined accurate configurations that consume lower power. As a result, this proposed solution presents a compelling avenue for the development of energy-efficient fall detection systems for future advancements in this critical domain.
翻訳日:2023-08-25 15:58:52 公開日:2023-08-24
# 抑うつ検出のための注意型音響特徴融合ネットワーク

Attention-Based Acoustic Feature Fusion Network for Depression Detection ( http://arxiv.org/abs/2308.12478v1 )

ライセンス: Link先を確認
Xiao Xu, Yang Wang, Xinru Wei, Fei Wang, Xizhe Zhang(参考訳) 一般的な精神障害であるうつ病は、個人に大きな影響を与え、社会的な影響を与える。 障害の複雑さと多様性は、迅速かつ効果的な検出を必要とするが、それでも難しい課題となる。 この状況は、検出方法の改善に対する緊急の要求を強調している。 高度な機械学習パラダイムによる聴覚データの利用は、有望な研究の方向性を示す。 しかし、既存の技術は主に1次元の特徴モデルに依存しており、様々な音声特性に隠された情報の多さを無視する可能性がある。 そこで本研究では,抑うつ検出のための注意型音響特徴融合ネットワーク(abafnet)を提案する。 ABAFnetは、4つの異なる音響特徴を包括的ディープラーニングモデルに組み合わせ、多層的特徴を効果的に統合しブレンドする。 本稿では,これらの特徴を効果的に合成することにより,性能を向上させるための新しい重量調整モジュールを提案する。 提案手法の有効性は,CNRACとCS-NRACの2つの臨床音声データベースに対する広範な検証により確認され,うつ病検出法やサブタイプ分類法よりも優れていた。 さらに詳細な分析により、各特徴の重要な役割が確認され、音声による抑うつ検出におけるMFCC関連の特徴の重要性が強調される。

Depression, a common mental disorder, significantly influences individuals and imposes considerable societal impacts. The complexity and heterogeneity of the disorder necessitate prompt and effective detection, which nonetheless, poses a difficult challenge. This situation highlights an urgent requirement for improved detection methods. Exploiting auditory data through advanced machine learning paradigms presents promising research directions. Yet, existing techniques mainly rely on single-dimensional feature models, potentially neglecting the abundance of information hidden in various speech characteristics. To rectify this, we present the novel Attention-Based Acoustic Feature Fusion Network (ABAFnet) for depression detection. ABAFnet combines four different acoustic features into a comprehensive deep learning model, thereby effectively integrating and blending multi-tiered features. We present a novel weight adjustment module for late fusion that boosts performance by efficaciously synthesizing these features. The effectiveness of our approach is confirmed via extensive validation on two clinical speech databases, CNRAC and CS-NRAC, thereby outperforming previous methods in depression detection and subtype classification. Further in-depth analysis confirms the key role of each feature and highlights the importance of MFCCrelated features in speech-based depression detection.
翻訳日:2023-08-25 15:58:30 公開日:2023-08-24
# American Stories: 歴史的アメリカ新聞の大規模構造化されたテキストデータセット

American Stories: A Large-Scale Structured Text Dataset of Historical U.S. Newspapers ( http://arxiv.org/abs/2308.12477v1 )

ライセンス: Link先を確認
Melissa Dell, Jacob Carlson, Tom Bryan, Emily Silcock, Abhishek Arora, Zejiang Shen, Luca D'Amico-Wong, Quan Le, Pablo Querubin, Leander Heldring(参考訳) 既存のアメリカのパブリックドメイン新聞のテキストデータセットは、しばしば新聞スキャンの複雑なレイアウトを認識しておらず、結果としてデジタル化されたコンテンツは記事、見出し、キャプション、広告、その他のレイアウト領域のテキストをスクランブルする。 OCRの品質も低い。 本研究では,新聞画像から記事の全文を抽出するための新しい深層学習パイプラインを開発し,米国議会図書館のパブリックドメイン・クロニリング・アメリカコレクションの2000万近いスキャンに適用する。 パイプラインにはレイアウト検出、レジリエビリティ分類、カスタムocr、複数のバウンディングボックスにまたがる記事テキストの関連付けが含まれる。 高いスケーラビリティを実現するため、携帯電話用に設計された効率的なアーキテクチャで構築されている。 その結果得られたAmerican Storiesデータセットは、大きな言語モデルの事前トレーニングに使用可能な高品質なデータを提供し、歴史的英語と歴史的世界知識の理解を深める。 このデータセットは、検索強化された言語モデルの外部データベースに追加され、政治的出来事の解釈から、人々の祖先の生活に関する微妙な情報まで、より広くアクセスできるようになる。 さらに、構造化記事テキストは、話題分類、再生コンテンツの検出、ニュースストーリークラスタリングなど、一般的な社会科学アプリケーションのためのトランスフォーマティブベースの手法の使用を容易にする。 最後に、American Storiesは、マルチモーダルレイアウト分析モデルやその他のマルチモーダルアプリケーションを革新するための巨大な銀品質データセットを提供する。

Existing full text datasets of U.S. public domain newspapers do not recognize the often complex layouts of newspaper scans, and as a result the digitized content scrambles texts from articles, headlines, captions, advertisements, and other layout regions. OCR quality can also be low. This study develops a novel, deep learning pipeline for extracting full article texts from newspaper images and applies it to the nearly 20 million scans in Library of Congress's public domain Chronicling America collection. The pipeline includes layout detection, legibility classification, custom OCR, and association of article texts spanning multiple bounding boxes. To achieve high scalability, it is built with efficient architectures designed for mobile phones. The resulting American Stories dataset provides high quality data that could be used for pre-training a large language model to achieve better understanding of historical English and historical world knowledge. The dataset could also be added to the external database of a retrieval-augmented language model to make historical information - ranging from interpretations of political events to minutiae about the lives of people's ancestors - more widely accessible. Furthermore, structured article texts facilitate using transformer-based methods for popular social science applications like topic classification, detection of reproduced content, and news story clustering. Finally, American Stories provides a massive silver quality dataset for innovating multimodal layout analysis models and other multimodal applications.
翻訳日:2023-08-25 15:57:59 公開日:2023-08-24
# マスクオートエンコーダは効率的なクラスインクリメンタル学習者である

Masked Autoencoders are Efficient Class Incremental Learners ( http://arxiv.org/abs/2308.12510v1 )

ライセンス: Link先を確認
Jiang-Tian Zhai, Xialei Liu, Andrew D. Bagdanov, Ke Li, Ming-Ming Cheng(参考訳) クラスインクリメンタルラーニング(CIL)は,過去の知識の破滅的な忘れを回避しつつ,新しいクラスを逐次学習することを目的としている。 本稿では,CIL の学習に Masked Autoencoders (MAE) を用いることを提案する。 MAEはもともと、再構成された教師なし学習を通じて有用な表現を学ぶように設計されており、教師付き損失と容易に統合することができる。 さらにMAEは、CILの過去のタスクの例をより効率的に保存するために、ランダムに選択されたパッチから元の入力イメージを確実に再構築することができる。 また、画像レベルと埋め込みレベルの融合から学習するための双方向のMAEフレームワークを提案し、高品質な再構成画像とより安定した表現を生成する。 実験の結果,CIFAR-100, ImageNet-Subset, ImageNet-Fullの最先端技術よりも優れた性能を示した。 コードはhttps://github.com/scok30/MAE-CILで入手できる。

Class Incremental Learning (CIL) aims to sequentially learn new classes while avoiding catastrophic forgetting of previous knowledge. We propose to use Masked Autoencoders (MAEs) as efficient learners for CIL. MAEs were originally designed to learn useful representations through reconstructive unsupervised learning, and they can be easily integrated with a supervised loss for classification. Moreover, MAEs can reliably reconstruct original input images from randomly selected patches, which we use to store exemplars from past tasks more efficiently for CIL. We also propose a bilateral MAE framework to learn from image-level and embedding-level fusion, which produces better-quality reconstructed images and more stable representations. Our experiments confirm that our approach performs better than the state-of-the-art on CIFAR-100, ImageNet-Subset, and ImageNet-Full. The code is available at https://github.com/scok30/MAE-CIL .
翻訳日:2023-08-25 15:46:51 公開日:2023-08-24
# リモートセンシング画像テキスト検索のためのパラメータ効率の高い転送学習

Parameter-Efficient Transfer Learning for Remote Sensing Image-Text Retrieval ( http://arxiv.org/abs/2308.12509v1 )

ライセンス: Link先を確認
Yuan Yuan, Yang Zhan, and Zhitong Xiong(参考訳) 視覚・言語事前学習(vlp)モデルは最近人気が高まっている。 特定のデータセットを微調整することで、様々なタスクで大幅なパフォーマンス改善が観測されている。 しかしながら、VLPモデルの完全な微調整は、大量の計算資源を消費するだけでなく、環境への影響も大きい。 さらに、リモートセンシング(RS)データが常に更新されているため、フル微調整は現実世界のアプリケーションには実用的ではないかもしれない。 本稿では,画像検索タスクにおいて,自然領域からrsドメインへ視覚的言語知識を効果的かつ効率的に転送するためのパラメータ効率の高い転送学習(petl)手法について検討する。 この目的のために、以下の貢献を行う。 1)プレトレーニングされたCLIPモデル,マルチモーダルリモートセンシングアダプタ,ハイブリッドマルチモーダルコントラスト(HMMC)学習目的を含む,RS画像テキスト検索(RSITR)タスクのための,新規で洗練されたPETLフレームワークを構築した。 2)RSデータにおける高モード内類似性の問題に対処するため,単純で効果的なHMMC損失を設計する。 3) petlベースのrs画像テキスト検索のための包括的実証研究を行う。 本研究は,提案手法が有望であり,実用的な応用の可能性を示すものである。 4) RSITRタスク上でのPETL手法の広範な評価を行った。 提案モデルではトレーニングパラメータが0.16万であり, 完全微調整に比べて98.9%のパラメータ削減が可能であり, トレーニングコストを大幅に削減できる。 検索性能は従来の手法を7~13%超え,完全微調整よりも高い性能を示した。 この作業は、視覚言語タスクのための新しいアイデアと有用な洞察を提供する。

Vision-and-language pre-training (VLP) models have experienced a surge in popularity recently. By fine-tuning them on specific datasets, significant performance improvements have been observed in various tasks. However, full fine-tuning of VLP models not only consumes a significant amount of computational resources but also has a significant environmental impact. Moreover, as remote sensing (RS) data is constantly being updated, full fine-tuning may not be practical for real-world applications. To address this issue, in this work, we investigate the parameter-efficient transfer learning (PETL) method to effectively and efficiently transfer visual-language knowledge from the natural domain to the RS domain on the image-text retrieval task. To this end, we make the following contributions. 1) We construct a novel and sophisticated PETL framework for the RS image-text retrieval (RSITR) task, which includes the pretrained CLIP model, a multimodal remote sensing adapter, and a hybrid multi-modal contrastive (HMMC) learning objective; 2) To deal with the problem of high intra-modal similarity in RS data, we design a simple yet effective HMMC loss; 3) We provide comprehensive empirical studies for PETL-based RS image-text retrieval. Our results demonstrate that the proposed method is promising and of great potential for practical applications. 4) We benchmark extensive state-of-the-art PETL methods on the RSITR task. Our proposed model only contains 0.16M training parameters, which can achieve a parameter reduction of 98.9% compared to full fine-tuning, resulting in substantial savings in training costs. Our retrieval performance exceeds traditional methods by 7-13% and achieves comparable or better performance than full fine-tuning. This work can provide new ideas and useful insights for RS vision-language tasks.
翻訳日:2023-08-25 15:46:34 公開日:2023-08-24
# FFEINR:時空間超解像のためのフロー特徴強調インシシットニューラル表現法

FFEINR: Flow Feature-Enhanced Implicit Neural Representation for Spatio-temporal Super-Resolution ( http://arxiv.org/abs/2308.12508v1 )

ライセンス: Link先を確認
Chenyue Jiao, Chongke Bi and Lu Yang(参考訳) 大規模な数値シミュレーションはテラバイトやペタバイトまでデータを生成することができる。 データ削減の有望な方法として、超解像(SR)は科学的な可視化コミュニティで広く研究されている。 しかし、そのほとんどは深層畳み込みニューラルネットワーク(CNN)やGAN(Generative Adversarial Network)に基づいており、ネットワークを構築する前にスケール係数を決定する必要がある。 結果として、単一のトレーニングセッションは固定要素のみをサポートし、一般化能力が劣る。 これらの問題に対処するために,フローフィールドデータの時空間超解像のための特徴強調インプリシトニューラルネットワーク表現(FFEINR)を提案する。 モデル構造とサンプリング解像度の観点から、暗黙的な神経表現を最大限に活用することができる。 ニューラル表現は、周期的活性化関数を備えた完全連結ネットワークに基づいており、軽量なモデルを得ることができる。 学習された連続表現は、低解像度フローフィールド入力データを任意の空間的および時間的解像度にデコードし、柔軟なアップサンプリングを可能にする。 FFEINRのトレーニングプロセスは,フローフィールドのコンテキスト情報を補完する入力層の機能拡張を導入することで促進され,提案手法の有効性を示すために,異なるハイパーパラメータを設定することで,異なるデータセット上で一連の実験を行う。 その結果,FFEINRはトリリニア補間法よりも有意に良好な結果が得られた。

Large-scale numerical simulations are capable of generating data up to terabytes or even petabytes. As a promising method of data reduction, super-resolution (SR) has been widely studied in the scientific visualization community. However, most of them are based on deep convolutional neural networks (CNNs) or generative adversarial networks (GANs) and the scale factor needs to be determined before constructing the network. As a result, a single training session only supports a fixed factor and has poor generalization ability. To address these problems, this paper proposes a Feature-Enhanced Implicit Neural Representation (FFEINR) for spatio-temporal super-resolution of flow field data. It can take full advantage of the implicit neural representation in terms of model structure and sampling resolution. The neural representation is based on a fully connected network with periodic activation functions, which enables us to obtain lightweight models. The learned continuous representation can decode the low-resolution flow field input data to arbitrary spatial and temporal resolutions, allowing for flexible upsampling. The training process of FFEINR is facilitated by introducing feature enhancements for the input layer, which complements the contextual information of the flow field.To demonstrate the effectiveness of the proposed method, a series of experiments are conducted on different datasets by setting different hyperparameters. The results show that FFEINR achieves significantly better results than the trilinear interpolation method.
翻訳日:2023-08-25 15:46:04 公開日:2023-08-24
# CGMI: 構成可能な汎用マルチエージェントインタラクションフレームワーク

CGMI: Configurable General Multi-Agent Interaction Framework ( http://arxiv.org/abs/2308.12503v1 )

ライセンス: Link先を確認
Shi Jinxin, Zhao Jiabao, Wang Yilei, Wu Xingjiao, Li Jiawen, He Liang(参考訳) 大規模言語モデル(LLM)の強力な能力から、LLMに基づくエージェントは、ドメイン固有のタスクに対処し、人間の振る舞いをエミュレートする可能性を示している。 しかし、これらのエージェントが生成するコンテンツは、ドメインの専門知識が限られており、効果的な認知アーキテクチャが欠如しているため、表面的なもののままである。 そこで本稿では,人間のインタラクションを現実のシナリオで再現するcgmi(general multi-agent interaction)フレームワークを提案する。 具体的には,エージェントパーソナリティの割り当て,検出,維持のための木構造化手法を提案する。 さらに,メモリ,リフレクション,計画モジュールを含むact*モデルに基づくスキルライブラリを備えた認知アーキテクチャを設計した。 また,仮想環境の現実性を高めるために汎用エージェントも統合した。 CGMIフレームワークを用いて,教師と生徒の教室での交流をシミュレーションした。 実験は,教育方法論,カリキュラム,学生のパフォーマンスといった側面が実際の教室環境に密接に反映していることを示す。 私たちは仕事をオープンソース化します。

Benefiting from the powerful capabilities of large language models (LLMs), agents based on LLMs have shown the potential to address domain-specific tasks and emulate human behaviors. However, the content generated by these agents remains somewhat superficial, owing to their limited domain expertise and the absence of an effective cognitive architecture. To address this, we present the Configurable General Multi-Agent Interaction (CGMI) framework, designed to replicate human interactions in real-world scenarios. Specifically, we propose a tree-structured methodology for the assignment, detection, and maintenance of agent personality. Additionally, we designed a cognitive architecture equipped with a skill library based on the ACT* model, which contains memory, reflection, and planning modules. We have also integrated general agents to augment the virtual environment's realism. Using the CGMI framework, we simulated numerous classroom interactions between teacher and students. The experiments indicate that aspects such as the teaching methodology, curriculum, and student performance closely mirror real classroom settings. We will open source our work.
翻訳日:2023-08-25 15:45:40 公開日:2023-08-24
# DD-GCN:人行動認識のための拡散グラフ畳み込みネットワーク

DD-GCN: Directed Diffusion Graph Convolutional Network for Skeleton-based Human Action Recognition ( http://arxiv.org/abs/2308.12501v1 )

ライセンス: Link先を確認
Chang Li, Qian Huang, Yingchi Mao(参考訳) Graph Convolutional Networks (GCNs) は骨格に基づく人間の行動認識に広く利用されている。 GCNに基づく手法では、時空間グラフは運動パターンのキャプチャに基本となる。 しかしながら、既存のアプローチでは物理的依存性を無視し、gcnsの表現能力を制限するジョイント間の時空間相関を同期化している。 これらの問題を解決するために,行動モデリングのための有向拡散グラフを構築し,グラフ畳み込み核の重み付け機構を最適化するアクティビティ分割戦略を導入する。 さらに,時空間同期エンコーダを用いて時空間セマンティクスを組込む手法を提案する。 最後に,行動認識のためのダイレクト拡散グラフ畳み込みネットワーク(DD-GCN)を提案し,NTU-RGB+D,NTU-RGB+D 120,NW-UCLAの3つの公開データセットの実験を行った。

Graph Convolutional Networks (GCNs) have been widely used in skeleton-based human action recognition. In GCN-based methods, the spatio-temporal graph is fundamental for capturing motion patterns. However, existing approaches ignore the physical dependency and synchronized spatio-temporal correlations between joints, which limits the representation capability of GCNs. To solve these problems, we construct the directed diffusion graph for action modeling and introduce the activity partition strategy to optimize the weight sharing mechanism of graph convolution kernels. In addition, we present the spatio-temporal synchronization encoder to embed synchronized spatio-temporal semantics. Finally, we propose Directed Diffusion Graph Convolutional Network (DD-GCN) for action recognition, and the experiments on three public datasets: NTU-RGB+D, NTU-RGB+D 120, and NW-UCLA, demonstrate the state-of-the-art performance of our method.
翻訳日:2023-08-25 15:45:23 公開日:2023-08-24
# 偽情報、ボット、悪意あるキャンペーン:ソーシャルメディア操作の非神秘化

False Information, Bots and Malicious Campaigns: Demystifying Elements of Social Media Manipulations ( http://arxiv.org/abs/2308.12497v1 )

ライセンス: Link先を確認
Mohammad Majid Akhtar, Rahat Masood, Muhammad Ikram, Salil S. Kanhere(参考訳) しばしば政治的、イデオロギー的、財政的な利益のために、偽情報やオンラインソーシャルネットワーク(OSN)に対する永続的な操作攻撃が急速に広がり、OSNの開放性に影響を与えている。 様々な分野の研究者がOSNの異なる操作トリガー要素(OSNの情報拡散の理解やアカウントの自動動作の検出など)を調査してきたが、これらの要素間の相互関係の包括的概要を示すために、これらの研究は統合されていない。 特に、ユーザ心理学、ボットの普及、偽情報検出に関するその戦術は、以前の研究で見過ごされてきた。 この研究のギャップに対処するため,本稿では様々な分野からの洞察を合成し,操作環境の包括的分析を行う。 虚偽情報、ボット、悪意あるキャンペーンを含むソーシャルメディア操作(SMM)の主要な要素を統合することにより、各SMM要素を広範囲に検証する。 先行研究の体系的な調査を通じて、共通点を特定し、既存のギャップを強調し、この分野の貴重な洞察を抽出する。 本研究は,ソーシャルメディア操作を効果的に解決するための学際的研究の必要性を浮き彫りにして,今後の研究努力を指導し,osnプロバイダの安全性と完全性を確保するための支援を行う。

The rapid spread of false information and persistent manipulation attacks on online social networks (OSNs), often for political, ideological, or financial gain, has affected the openness of OSNs. While researchers from various disciplines have investigated different manipulation-triggering elements of OSNs (such as understanding information diffusion on OSNs or detecting automated behavior of accounts), these works have not been consolidated to present a comprehensive overview of the interconnections among these elements. Notably, user psychology, the prevalence of bots, and their tactics in relation to false information detection have been overlooked in previous research. To address this research gap, this paper synthesizes insights from various disciplines to provide a comprehensive analysis of the manipulation landscape. By integrating the primary elements of social media manipulation (SMM), including false information, bots, and malicious campaigns, we extensively examine each SMM element. Through a systematic investigation of prior research, we identify commonalities, highlight existing gaps, and extract valuable insights in the field. Our findings underscore the urgent need for interdisciplinary research to effectively combat social media manipulations, and our systematization can guide future research efforts and assist OSN providers in ensuring the safety and integrity of their platforms.
翻訳日:2023-08-25 15:45:06 公開日:2023-08-24
# 機能的MRI解析のための多視点特徴強調によるソースフリー協調領域適応

Source-Free Collaborative Domain Adaptation via Multi-Perspective Feature Enrichment for Functional MRI Analysis ( http://arxiv.org/abs/2308.12495v1 )

ライセンス: Link先を確認
Yuqi Fang, Jinjian Wu, Qianqian Wang, Shijun Qiu, Andrea Bozoki, Huaicheng Yan, Mingxia Liu(参考訳) 安静時機能MRI(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。 既存の研究は通常、スキャナー/プロトコールの違いなどのサイト効果によって生じる重要なクロスサイト/ドメインデータの異種性に悩まされる。 ソースデータの可用性に大きく依存して、ソースドメインとターゲットドメイン間のfMRIの不均一性を低減するための多くの手法が提案されている。 しかし、複数サイト研究におけるプライバシーの懸念やデータストレージの負担から、ソースデータを取得することは困難である。 この目的のために、fMRI解析のためのソースフリーコラボレーティブドメイン適応(SCDA)フレームワークを設計し、事前訓練されたソースモデルと未ラベルのターゲットデータのみにアクセスできるようにする。 具体的には,マルチパースペクティブ・フィーチャー・エンリッチメント法 (MFE) を対象fMRI解析のために開発し,複数ビューからラベル付けされていない対象データのfMRI特徴を動的にキャプチャする。 各ブランチには、データフィードモジュール、時空間機能エンコーダ、クラス予測器がある。 相互整合性制約は、堅牢な表現学習のためにこれらの分岐から生成された同じ入力の潜在特徴のペアワイズ整合性を促進するように設計されている。 ソースデータのない効率的なドメイン間知識伝達を容易にするため,事前学習したソースモデルのパラメータを用いてMFEを初期化する。 また,3つの大規模補助データベースから3,806個のラベル付きfmriを用いた教師なし事前学習戦略を導入する。 3つの公開データセットと1つのプライベートデータセットの実験結果から,クロススキャナおよびクロススタディ予測タスクにおける本手法の有効性が示された。 大規模rs-fmriデータで事前トレーニングされたモデルが公開された。

Resting-state functional MRI (rs-fMRI) is increasingly employed in multi-site research to aid neurological disorder analysis. Existing studies usually suffer from significant cross-site/domain data heterogeneity caused by site effects such as differences in scanners/protocols. Many methods have been proposed to reduce fMRI heterogeneity between source and target domains, heavily relying on the availability of source data. But acquiring source data is challenging due to privacy concerns and/or data storage burdens in multi-site studies. To this end, we design a source-free collaborative domain adaptation (SCDA) framework for fMRI analysis, where only a pretrained source model and unlabeled target data are accessible. Specifically, a multi-perspective feature enrichment method (MFE) is developed for target fMRI analysis, consisting of multiple collaborative branches to dynamically capture fMRI features of unlabeled target data from multiple views. Each branch has a data-feeding module, a spatiotemporal feature encoder, and a class predictor. A mutual-consistency constraint is designed to encourage pair-wise consistency of latent features of the same input generated from these branches for robust representation learning. To facilitate efficient cross-domain knowledge transfer without source data, we initialize MFE using parameters of a pretrained source model. We also introduce an unsupervised pretraining strategy using 3,806 unlabeled fMRIs from three large-scale auxiliary databases, aiming to obtain a general feature encoder. Experimental results on three public datasets and one private dataset demonstrate the efficacy of our method in cross-scanner and cross-study prediction tasks. The model pretrained on large-scale rs-fMRI data has been released to the public.
翻訳日:2023-08-25 15:44:39 公開日:2023-08-24
# MOFA: モバイルデバイス上の画像復元のためのモデル簡易ロードマップ

MOFA: A Model Simplification Roadmap for Image Restoration on Mobile Devices ( http://arxiv.org/abs/2308.12494v1 )

ライセンス: Link先を確認
Xiangyu Chen, Ruiwen Zhen, Shuai Li, Xiaotian Li and Guanghui Wang(参考訳) 画像復元は、劣化した画像から高品質な画像を復元することを目的としており、ディープラーニング技術によって大きな進歩を遂げている。 この技術は、モバイル写真などのタスクにモバイルデバイスに広く適用されている。 メモリ制約やランタイム要件といったモバイルデバイスのリソース制限を考えると、デプロイメント中のモデルの効率性が最優先される。 それにもかかわらず、以前のほとんどの研究は主に単一モジュールの効率を分析し、個別に改善することに集中してきた。 本稿では,異なる層間の効率について検討する。 我々は,PSNR(Peak Signal-to-Noise Ratio)とSSIM(Structural similarity Index)を同時に増加させながら,展開前の画像復元モデルをさらに高速化するロードマップを提案する。 ロードマップはまず、フロープ非感受性層上の部分畳み込みにより多くのパラメータを追加することで、モデルキャパシティを増加させる。 そして、モデル速度を加速するために、部分的な奥行きの畳み込みと、アップサンプリング/ダウンサンプリング層を分離する。 大規模な実験では,複数の画像復元データセット上でPSNRとSSIMを増大させながら,ランタイムを最大13%減らし,パラメータ数を最大23%減らした。 我々のメソッドのソースコードは、 \href{https://github.com/xiangyu8/MOFA}{https://github.com/xiangyu8/MOFA} で入手できる。

Image restoration aims to restore high-quality images from degraded counterparts and has seen significant advancements through deep learning techniques. The technique has been widely applied to mobile devices for tasks such as mobile photography. Given the resource limitations on mobile devices, such as memory constraints and runtime requirements, the efficiency of models during deployment becomes paramount. Nevertheless, most previous works have primarily concentrated on analyzing the efficiency of single modules and improving them individually. This paper examines the efficiency across different layers. We propose a roadmap that can be applied to further accelerate image restoration models prior to deployment while simultaneously increasing PSNR (Peak Signal-to-Noise Ratio) and SSIM (Structural Similarity Index). The roadmap first increases the model capacity by adding more parameters to partial convolutions on FLOPs non-sensitive layers. Then, it applies partial depthwise convolution coupled with decoupling upsampling/downsampling layers to accelerate the model speed. Extensive experiments demonstrate that our approach decreases runtime by up to 13% and reduces the number of parameters by up to 23%, while increasing PSNR and SSIM on several image restoration datasets. Source Code of our method is available at \href{https://github.com/xiangyu8/MOFA}{https://github.com/xiangyu8/MOFA}.
翻訳日:2023-08-25 15:44:11 公開日:2023-08-24
# ECG分類のためのニューラルネットワークスケール最適化

Optimizing Neural Network Scale for ECG Classification ( http://arxiv.org/abs/2308.12492v1 )

ライセンス: Link先を確認
Byeong Tak Lee, Yong-Yeon Jo, Joon-Myoung Kwon(参考訳) 本研究では、心電図(ECG)解析のためのResidual Neural Network(ResNet)を対象とするCNNのスケーリングについて検討する。 ECG信号は時系列データであるが、CNNベースのモデルはECG分析において異なるアーキテクチャを持つ他のニューラルネットワークよりも優れていることが示されている。 しかし、ECG分析におけるこれまでのほとんどの研究は、ネットワークスケーリング最適化の重要性を見落としており、性能が大幅に向上している。 本研究では,層深さ,チャネル数,コンボリューションカーネルサイズといった重要なパラメータの影響を調べることで,ResNetのスケールアップに有効な手法を探索し,実証した。 実験により、より浅いネットワーク、より多くのチャネル、より小さいカーネルサイズによりECG分類の性能が向上することが判明した。 最適なネットワークスケールは、目標とするタスクによって異なるかもしれないが、我々の発見は、より効率的で正確なモデルを得るための洞察を提供する。 実際に、我々の発見に基づくより狭い検索空間がより高い性能をもたらすことを示す。

We study scaling convolutional neural networks (CNNs), specifically targeting Residual neural networks (ResNet), for analyzing electrocardiograms (ECGs). Although ECG signals are time-series data, CNN-based models have been shown to outperform other neural networks with different architectures in ECG analysis. However, most previous studies in ECG analysis have overlooked the importance of network scaling optimization, which significantly improves performance. We explored and demonstrated an efficient approach to scale ResNet by examining the effects of crucial parameters, including layer depth, the number of channels, and the convolution kernel size. Through extensive experiments, we found that a shallower network, a larger number of channels, and smaller kernel sizes result in better performance for ECG classifications. The optimal network scale might differ depending on the target task, but our findings provide insight into obtaining more efficient and accurate models with fewer computing resources or less time. In practice, we demonstrate that a narrower search space based on our findings leads to higher performance.
翻訳日:2023-08-25 15:43:46 公開日:2023-08-24
# multipa:クローズドおよびオープン応答シナリオのためのマルチタスク音声発音評価システム

MultiPA: a multi-task speech pronunciation assessment system for a closed and open response scenario ( http://arxiv.org/abs/2308.12490v1 )

ライセンス: Link先を確認
Yu-Wen Chen, Zhou Yu, Julia Hirschberg(参考訳) 自動発音評価の設計は、それぞれ強度と制限のある閉かつオープンな応答シナリオに分類することができる。 両方のシナリオで機能する能力を持つシステムは、多様な学習ニーズに対応し、より正確で総合的な発音スキルの評価を提供する。 本研究では,MultiPAと呼ばれるマルチタスク発音評価モデルを提案する。 MultiPAは、よりシンプルなフォーマット要件と、他のニューラルネットワークモデルとの互換性が向上する、Kaldiベースのシステムに代わるものだ。 従来のオープン応答システムと比較して、MultiPAは文レベルと単語レベルの両方で評価を含む幅広い評価を提供する。 実験の結果、MultiPAはクローズドレスポンスのシナリオで作業すると同等の性能を発揮し、オープンレスポンスで直接使用するとより堅牢な性能を維持します。

The design of automatic speech pronunciation assessment can be categorized into closed and open response scenarios, each with strengths and limitations. A system with the ability to function in both scenarios can cater to diverse learning needs and provide a more precise and holistic assessment of pronunciation skills. In this study, we propose a Multi-task Pronunciation Assessment model called MultiPA. MultiPA provides an alternative to Kaldi-based systems in that it has simpler format requirements and better compatibility with other neural network models. Compared with previous open response systems, MultiPA provides a wider range of evaluations, encompassing assessments at both the sentence and word-level. Our experimental results show that MultiPA achieves comparable performance when working in closed response scenarios and maintains more robust performance when directly used for open responses.
翻訳日:2023-08-25 15:43:29 公開日:2023-08-24
# FedSoL:フェデレートラーニングにおけるグローバルアライメントと地域一般性

FedSoL: Bridging Global Alignment and Local Generality in Federated Learning ( http://arxiv.org/abs/2308.12532v1 )

ライセンス: Link先を確認
Gihun Lee, Minchan Jeong, Sangmook Kim, Jaehoon Oh, Se-Young Yun(参考訳) フェデレーション学習(fl)は、グローバルモデルを構築するために個々のクライアントからローカルにトレーニングされたモデルを集約する。 flはデータプライバシを備えたモデル学習を可能にするが、クライアントデータ分散が異種である場合、パフォーマンスが著しく低下することが多い。 従来のFLアルゴリズムの多くは、様々な近位制限を導入してこの問題に対処してきた。 これらの制限は、地域学習のグローバル目標からの逸脱を制限することによって、グローバルアライメントを促進することを目的としている。 しかし、それらは本来、本来のローカルな目的に干渉することによって、ローカルな学習を制限する。 近年,局所学習の一般性向上に向けた新たなアプローチが出現している。 スムーズな損失環境の中でローカルモデルを得ることで、このアプローチは、クライアントの異なるローカル目的間の競合を緩和する。 しかし、地域学習はグローバルな目標を考慮していないため、安定したグローバルアライメントは保証されていない。 本研究では,グローバルアライメントの概念と局所的一般性を組み合わせたFedSoL(Federated Stability on Learning)を提案する。 FedSoLでは、局所学習は近位摂動に対して頑健なパラメータ領域を求める。 この戦略は、パラメータ更新の本来のローカル目的を維持しながら、局所学習における暗黙の近位制限効果を導入する。 実験の結果,FedSoLは様々な設定で常に最先端の性能を実現していることがわかった。

Federated Learning (FL) aggregates locally trained models from individual clients to construct a global model. While FL enables learning a model with data privacy, it often suffers from significant performance degradation when client data distributions are heterogeneous. Many previous FL algorithms have addressed this issue by introducing various proximal restrictions. These restrictions aim to encourage global alignment by constraining the deviation of local learning from the global objective. However, they inherently limit local learning by interfering with the original local objectives. Recently, an alternative approach has emerged to improve local learning generality. By obtaining local models within a smooth loss landscape, this approach mitigates conflicts among different local objectives of the clients. Yet, it does not ensure stable global alignment, as local learning does not take the global objective into account. In this study, we propose Federated Stability on Learning (FedSoL), which combines both the concepts of global alignment and local generality. In FedSoL, the local learning seeks a parameter region robust against proximal perturbations. This strategy introduces an implicit proximal restriction effect in local learning while maintaining the original local objective for parameter update. Our experiments show that FedSoL consistently achieves state-of-the-art performance on various setups.
翻訳日:2023-08-25 15:37:48 公開日:2023-08-24
# CARE: 共同エンティティと関係抽出のための共用ネットワーク

CARE: Co-Attention Network for Joint Entity and Relation Extraction ( http://arxiv.org/abs/2308.12531v1 )

ライセンス: Link先を確認
Wenjun Kong and Yamei Xia(参考訳) 統合エンティティと関係抽出は、名前付きエンティティ認識と関係抽出という2つのサブタスクからなる情報抽出の基本的なタスクである。 既存の関節抽出法の多くは、2つのサブタスク間の特徴混乱や不適切な相互作用の問題に悩まされている。 本研究では,共同エンティティと関係抽出(care)のための協調ネットワークを提案する。 提案手法では,各サブタスクの表現を個別に学習し,機能の重複を回避する。 提案手法のコアとなるのは,2つのサブタスク間の双方向相互作用をキャプチャするコアテンションモジュールである。 3つの共同エンティティ関係抽出ベンチマークデータセット(nyt, webnlg, scierc)に関する広範な実験により,提案モデルが既存のベースラインモデルよりも優れた性能を達成していることが示された。

Joint entity and relation extraction is the fundamental task of information extraction, consisting of two subtasks: named entity recognition and relation extraction. Most existing joint extraction methods suffer from issues of feature confusion or inadequate interaction between two subtasks. In this work, we propose a Co-Attention network for joint entity and Relation Extraction (CARE). Our approach involves learning separate representations for each subtask, aiming to avoid feature overlap. At the core of our approach is the co-attention module that captures two-way interaction between two subtasks, allowing the model to leverage entity information for relation prediction and vice versa, thus promoting mutual enhancement. Extensive experiments on three joint entity-relation extraction benchmark datasets (NYT, WebNLG and SciERC) show that our proposed model achieves superior performance, surpassing existing baseline models.
翻訳日:2023-08-25 15:37:32 公開日:2023-08-24
# SieveNet: メッシュネットワークのポイントベース機能の選択

SieveNet: Selecting Point-Based Features for Mesh Networks ( http://arxiv.org/abs/2308.12530v1 )

ライセンス: Link先を確認
Shengchao Yuan, Yishun Dou, Rui Shi, Bingbing Ni, Zhong Zheng(参考訳) メッシュは3dコンピュータビジョンやグラフィックスで広く使われているが、その不規則なトポロジーは、既存のニューラルネットワークアーキテクチャに適用する上での課題を提起する。 メッシュニューラルネットワークの最近の進歩は、生のメッシュのみを入力とする先駆的手法の境界を再利用し、押し上げることに変わります。 リメッシングはメッシュネットワークアーキテクチャの設計を著しく促進するレギュラートポロジを提供するが、そのようなリメッシングプロキシから抽出された特徴は、基礎となる幾何学を忠実に維持し、その後のニューラルネットワークの能力を制限するのに苦労する可能性がある。 この問題に対処するため,我々は正則トポロジーと厳密な幾何学の両方を考慮した新しいパラダイムであるsievenetを提案する。 具体的には、構造メッシュトポロジーを用いて、元のメッシュ表面における歪み認識点サンプリングによる正確な幾何情報を再現する。 さらに,本手法は手作りの機能工学の必要性を排除し,視覚変換器などの既製のネットワークアーキテクチャを活用できる。 分類・分節タスクに関する総合的な実験結果は,本手法の有効性と優位性を示す。

Meshes are widely used in 3D computer vision and graphics, but their irregular topology poses challenges in applying them to existing neural network architectures. Recent advances in mesh neural networks turn to remeshing and push the boundary of pioneer methods that solely take the raw meshes as input. Although the remeshing offers a regular topology that significantly facilitates the design of mesh network architectures, features extracted from such remeshed proxies may struggle to retain the underlying geometry faithfully, limiting the subsequent neural network's capacity. To address this issue, we propose SieveNet, a novel paradigm that takes into account both the regular topology and the exact geometry. Specifically, this method utilizes structured mesh topology from remeshing and accurate geometric information from distortion-aware point sampling on the surface of the original mesh. Furthermore, our method eliminates the need for hand-crafted feature engineering and can leverage off-the-shelf network architectures such as the vision transformer. Comprehensive experimental results on classification and segmentation tasks well demonstrate the effectiveness and superiority of our method.
翻訳日:2023-08-25 15:37:17 公開日:2023-08-24
# UISOUND System for VoxCeleb Speaker Recognition Challenge 2023 (英語)

UNISOUND System for VoxCeleb Speaker Recognition Challenge 2023 ( http://arxiv.org/abs/2308.12526v1 )

ライセンス: Link先を確認
Yu Zheng, Yajun Zhang, Chuanying Niu, Yibin Zhan, Yanhua Long, Dongxing Xu(参考訳) 本報告では、VoxCeleb Speaker Recognition Challenge 2023(VoxSRC 2023)のトラック1とトラック2のUNISOUND申請について述べる。 同じシステムをトラック1とトラック2に送信し、VoxCeleb2-devでのみトレーニングする。 大規模なResNetとRepVGGアーキテクチャがこの課題のために開発されている。 一致度測定係数(CMF)による類似度スコアにおける音声出力の安定性を利用した整合性を考慮したスコアキャリブレーション手法を提案する。 CMFはこの課題で大きなパフォーマンス向上をもたらします。 我々の最終システムは6つのモデルの融合であり、トラック1では1位、トラック2ではVoxSRC 2023で2位となる。 私たちの申請の minDCF は 0.0855 であり、EER は 1.5880% である。

This report describes the UNISOUND submission for Track1 and Track2 of VoxCeleb Speaker Recognition Challenge 2023 (VoxSRC 2023). We submit the same system on Track 1 and Track 2, which is trained with only VoxCeleb2-dev. Large-scale ResNet and RepVGG architectures are developed for the challenge. We propose a consistency-aware score calibration method, which leverages the stability of audio voiceprints in similarity score by a Consistency Measure Factor (CMF). CMF brings a huge performance boost in this challenge. Our final system is a fusion of six models and achieves the first place in Track 1 and second place in Track 2 of VoxSRC 2023. The minDCF of our submission is 0.0855 and the EER is 1.5880%.
翻訳日:2023-08-25 15:37:00 公開日:2023-08-24
# 変分量子固有解法を用いた効率的な分子シミュレーションのための部分量子ハミルトニアンの研究

On The Study Of Partial Qubit Hamiltonian For Efficient Molecular Simulation Using Variational Quantum Eigensolvers ( http://arxiv.org/abs/2308.12524v1 )

ライセンス: Link先を確認
Harshdeep Singh, Sabyashachi Mishra, Sonjoy Majumder(参考訳) 量子コンピューティングは量子化学、特に単純な分子のシミュレーションや基底状態エネルギー、双極子モーメントなどの特性の評価に広く用いられている。 フェルミイオン空間から量子ビット空間への分子ハミルトニアン変換は、一連のポーリ弦を与え、エネルギー計算はこれら全ての個々の弦の期待値の評価を伴います。 これは量子化学におけるVQEの応用に大きなボトルネックをもたらす。 フェルミオンハミルトニアンとは異なり、量子ハミルトニアンの項は加法であり、本論文ではこの性質を利用して単純な分子の部分量子ハミルトニアンから情報を抽出し、より効率的な変分量子固有ソルバを設計するための新しいアプローチを記述する。 部分的(キュービット)ハミルトニアンアプローチ(pha)では、キュービットハミルトニアンは、そのエネルギーに対する相対的貢献を理解するために、短期的に研究され、部分ハミルトニアンは、ハミルトニアン全体を解決できるより少ないポーリ弦で構成される。 phaで分子をシミュレートし、停止したハミルトニアンの計算コストをはるかに低くすることができる。 さらに、PHAによる測定の結果は、量子回路が導入したノイズによる誤差を縮める。 また,より複雑な系に対して,簡単な部分的ハミルトニアンを用いて適切な初期状態を求めるための初期化手法としてphaを応用できることを実証した。 この研究の結果は、量子コンピューティングの分野における潜在的な進歩と、量子化学におけるその実装を示す可能性がある。

Quantum computing is being extensively used in quantum chemistry, especially in simulating simple molecules and evaluating properties like the ground state energy, dipole moment, etc. The transformation of a molecular Hamiltonian from the fermionic space to the qubit space provides us with a series of Pauli strings and the energy calculation involves the evaluation of the expectation values of all these individual strings. This introduces a major bottleneck for applications of VQEs in quantum chemistry. Unlike the fermionic Hamiltonian, the terms in a qubit Hamiltonian are additive and the present paper exploits this property to describe a new approach for extracting information from the partial qubit Hamiltonian of simple molecules to design more efficient variational quantum eigensolvers. In the partial (qubit) Hamiltonian approach (PHA), the qubit Hamiltonian is studied term-by-term to understand their relative contributions to the overall energy and a partial Hamiltonian is constructed with fewer Pauli strings that can resolve the entire Hamiltonian. With PHA, we can simulate molecules at a much lower computational cost with a truncated Hamiltonian. Additionally, the outcomes of the measurements with PHA quench the error due to noise introduced by the quantum circuits. We have also demonstrated the application of PHA as an initialization technique, where the simple partial Hamiltonian can be used to find a suitable initial state for a more complex system. The results of this study have the potential to demonstrate the potential advancement in the field of quantum computing and its implementation in quantum chemistry.
翻訳日:2023-08-25 15:36:46 公開日:2023-08-24
# ロングテール認識のための一様分布カテゴリプロトタイプ視覚言語フレームワーク

Uniformly Distributed Category Prototype-Guided Vision-Language Framework for Long-Tail Recognition ( http://arxiv.org/abs/2308.12522v1 )

ライセンス: Link先を確認
Siming Fu, Xiaoxuan He, Xinpeng Ding, Yuchen Cao, Hualiang Wang(参考訳) 近年,大規模事前学習型視覚言語モデルでは,長期認識におけるクラス不均衡を緩和する利点がある。 しかし、ロングテールデータ分布は、ヘッドとテールの間の距離が2つのテールカテゴリ間の距離よりもはるかに大きい表現空間を壊す可能性がある。 この不均一な特徴空間分布は、一様分散テストセット上で不明瞭で分離不能な決定境界を示し、その性能を低下させる。 これらの課題に対処するために、データ不均衡に起因する特徴空間バイアスを効果的に軽減する一意のプロトタイプ誘導視覚言語フレームワークを提案する。 特に,超球面上に均一に分布するカテゴリプロトタイプの集合を生成する。 画像テキストマッチングのためのカテゴリプロトタイプ誘導メカニズムにより、異なるクラスの特徴は、特徴空間における均一な分布を維持し、クラス境界を改善するこれらの個別かつ均一に分散したカテゴリプロトタイプに収束する。 さらに、提案した非関連テキストフィルタリングおよび属性拡張モジュールにより、無関係なノイズテキストを無視し、キー属性情報により集中し、フレームワークの堅牢性を高めることができる。 画像認識の微調整段階において、学習可能な分類器の正のバイアス問題に対処するため、ヘッドクラスの性能を維持しながらテールクラスの性能を補うクラス特徴量誘導型分類器を設計する。 提案手法は,長期学習における従来の視覚言語手法よりも高い性能を示し,最先端の性能を実現する。

Recently, large-scale pre-trained vision-language models have presented benefits for alleviating class imbalance in long-tailed recognition. However, the long-tailed data distribution can corrupt the representation space, where the distance between head and tail categories is much larger than the distance between two tail categories. This uneven feature space distribution causes the model to exhibit unclear and inseparable decision boundaries on the uniformly distributed test set, which lowers its performance. To address these challenges, we propose the uniformly category prototype-guided vision-language framework to effectively mitigate feature space bias caused by data imbalance. Especially, we generate a set of category prototypes uniformly distributed on a hypersphere. Category prototype-guided mechanism for image-text matching makes the features of different classes converge to these distinct and uniformly distributed category prototypes, which maintain a uniform distribution in the feature space, and improve class boundaries. Additionally, our proposed irrelevant text filtering and attribute enhancement module allows the model to ignore irrelevant noisy text and focus more on key attribute information, thereby enhancing the robustness of our framework. In the image recognition fine-tuning stage, to address the positive bias problem of the learnable classifier, we design the class feature prototype-guided classifier, which compensates for the performance of tail classes while maintaining the performance of head classes. Our method outperforms previous vision-language methods for long-tailed learning work by a large margin and achieves state-of-the-art performance.
翻訳日:2023-08-25 15:36:15 公開日:2023-08-24
# 自律意思決定者としての大規模言語モデル

Large Language Model as Autonomous Decision Maker ( http://arxiv.org/abs/2308.12519v1 )

ライセンス: Link先を確認
Yining Ye, Xin Cong, Yujia Qin, Yankai Lin, Zhiyuan Liu, Maosong Sun(参考訳) 大きな言語モデル(LLM)は印象的な言語理解と文脈内学習能力を示すが、その意思決定能力は実際のタスクを解く際のタスク固有の専門家知識のガイダンスに大きく依存している。 自律的意思決定者としてのLLMの可能性を解き明かすため,本論文では,自己判断能力を備えた JuDec による LLM の自律的判断と意思決定のための探索を可能にする手法を提案する。 具体的には、judecにおいて、eloベースの自己判断機構は、eloスコアを決定ステップに割り当て、2つの解をペアで比較し、それに応じて決定探索プロセスを最適な解へと導くように設計されている。 toolbenchデータセットの実験結果は、judecがベースラインよりも優れていることを示し、さまざまなタスクでパスレートが10%以上向上していることを示している。 高品質なソリューションを提供し、コストを削減する(ChatGPT APIコール)。

While large language models (LLMs) exhibit impressive language understanding and in-context learning abilities, their decision-making ability still heavily relies on the guidance of task-specific expert knowledge when solving real-world tasks. To unleash the potential of LLMs as autonomous decision makers, this paper presents an approach JuDec to endow LLMs with the self-judgment ability, enabling LLMs to achieve autonomous judgment and exploration for decision making. Specifically, in JuDec, Elo-based Self-Judgment Mechanism is designed to assign Elo scores to decision steps to judge their values and utilities via pairwise comparisons between two solutions and then guide the decision-searching process toward the optimal solution accordingly. Experimental results on the ToolBench dataset demonstrate JuDec's superiority over baselines, achieving over 10% improvement in Pass Rate on diverse tasks. It offers higher-quality solutions and reduces costs (ChatGPT API calls), highlighting its effectiveness and efficiency.
翻訳日:2023-08-25 15:35:48 公開日:2023-08-24
# RewardsだけでなくConstraintsも:レッグロボットのロコモーションへの応用

Not Only Rewards But Also Constraints: Applications on Legged Robot Locomotion ( http://arxiv.org/abs/2308.12517v1 )

ライセンス: Link先を確認
Yunho Kim, Hyunsik Oh, Jeonghyun Lee, Jinhyeok Choi, Gwanghyeon Ji, Moonkyu Jung, Donghoon Youm, Jemin Hwangbo(参考訳) ニューラルネットワークを使ってコントローラを設計し、モデルフリーの強化学習でトレーニングすることで、複雑なロボットシステムにおける印象的な制御性能を示している。 しかし、これらの優れた動作スタイルと高いタスク性能を持つコントローラは、多数の報酬項を設計し、適切な報酬係数を決定するため、多大な報酬工学によって開発されている。 本研究では,複雑なロボットシステムのためのニューラルネットワークコントローラをトレーニングするための,報酬と制約の両方からなる新しい強化学習フレームワークを提案する。 エンジニアが制約に対する意図を適切に反映し、最小の計算オーバーヘッドで処理できるように、2つの制約タイプと効率的なポリシー最適化アルゴリズムが提案されている。 学習フレームワークは、異なる形態と物理的特性を持つ複数の脚を持つロボットに対して、困難な地形を横断する移動制御器の訓練に応用される。 大規模なシミュレーションと実世界の実験により、単一の報酬係数だけをチューニングすることで、パフォーマンスコントローラをかなり少ない報酬工学で訓練できることが示される。 さらに、制約の解釈可能性と一般化性のおかげで、より単純で直感的なエンジニアリングプロセスが利用できる。 要約ビデオはhttps://youtu.be/KAlm3yskhvM.comで公開されている。

Several earlier studies have shown impressive control performance in complex robotic systems by designing the controller using a neural network and training it with model-free reinforcement learning. However, these outstanding controllers with natural motion style and high task performance are developed through extensive reward engineering, which is a highly laborious and time-consuming process of designing numerous reward terms and determining suitable reward coefficients. In this work, we propose a novel reinforcement learning framework for training neural network controllers for complex robotic systems consisting of both rewards and constraints. To let the engineers appropriately reflect their intent to constraints and handle them with minimal computation overhead, two constraint types and an efficient policy optimization algorithm are suggested. The learning framework is applied to train locomotion controllers for several legged robots with different morphology and physical attributes to traverse challenging terrains. Extensive simulation and real-world experiments demonstrate that performant controllers can be trained with significantly less reward engineering, by tuning only a single reward coefficient. Furthermore, a more straightforward and intuitive engineering process can be utilized, thanks to the interpretability and generalizability of constraints. The summary video is available at https://youtu.be/KAlm3yskhvM.
翻訳日:2023-08-25 15:35:29 公開日:2023-08-24
# グラフ上のカイラル量子ウォークにおける制御輸送

Controlled transport in chiral quantum walks on graphs ( http://arxiv.org/abs/2308.12516v1 )

ライセンス: Link先を確認
Yi-Cong Yu and Xiaoming Cai(参考訳) グラフ上のカイラル連続時間量子ウォーク(ctqws)の新しい輸送特性について検討する。 ゲージ変換を用いることで、キラルチェーン上のctqwsは非キラルチェーンのそれと同値であるが、初期波パケットから追加モーメントを持つことを示す。 これは[New J. Phys. 23 083005(2021)]で数値的に研究された新しい輸送現象を説明する。 これに基づいて,Y接合グラフ上のキラルCTQWの解析を深く掘り下げ,キラル性を考慮した位相を導入する。 この位相は、y-接合グラフの鎖間の非対称輸送と有向完全輸送の両方を制御する上で重要な役割を果たす。 我々はこれらの特徴を,Y接合グラフ上のキラル連続時間量子ウォーク(CTQW)の包括的検討により系統的に解析する。 解析の結果,Y-ジャンクショングラフ上のCTQWは3つの波動関数の組み合わせとしてモデル化でき,それぞれが3つの有効開鎖上で独立に進化することがわかった。 格子散乱理論を構築することにより、電位シフト境界と相互作用した後のウェーブパケットの位相シフトを計算する。 以上の結果から,これらの相転移の相互作用が量子輸送の促進と抑制につながることが示された。 有向完全輸送あるいは100%効率の明示的な条件は解析的に導出される。 我々の理論は二分木探索アルゴリズムの量子バージョン構築に応用できる。

We investigate novel transport properties of chiral continuous-time quantum walks (CTQWs) on graphs. By employing a gauge transformation, we demonstrate that CTQWs on chiral chains are equivalent to those on non-chiral chains, but with additional momenta from initial wave packets. This explains the novel transport phenomenon numerically studied in [New J. Phys. 23, 083005(2021)]. Building on this, we delve deeper into the analysis of chiral CTQWs on the Y-junction graph, introducing phases to account for the chirality. The phase plays a key role in controlling both asymmetric transport and directed complete transport among the chains in the Y-junction graph. We systematically analyze these features through a comprehensive examination of the chiral continuous-time quantum walk (CTQW) on a Y-junction graph. Our analysis shows that the CTQW on Y-junction graph can be modeled as a combination of three wave functions, each of which evolves independently on three effective open chains. By constructing a lattice scattering theory, we calculate the phase shift of a wave packet after it interacts with the potential-shifted boundary. Our results demonstrate that the interplay of these phase shifts leads to the observed enhancement and suppression of quantum transport. The explicit condition for directed complete transport or 100% efficiency is analytically derived. Our theory has applications in building quantum versions of binary tree search algorithms.
翻訳日:2023-08-25 15:35:07 公開日:2023-08-24
# I3DOD: プロンプティングによるインクリメンタル3Dオブジェクト検出を目指して

I3DOD: Towards Incremental 3D Object Detection via Prompting ( http://arxiv.org/abs/2308.12512v1 )

ライセンス: Link先を確認
Wenqi Liang, Gan Sun, Chenxi Liu, Jiahua Dong and Kangru Wang(参考訳) 3Dオブジェクト検出は、ロボットシステム、自律運転、拡張現実など、多くの分野で大きなパフォーマンスを実現している。 しかし、既存のほとんどのメソッドは、クラスインクリメンタルシナリオの実行時に古いクラスを壊滅的に忘れてしまう可能性がある。 一方,現在のクラスインクリメンタルな3Dオブジェクト検出手法では,オブジェクトの局所化情報とカテゴリ意味情報の関係を無視し,古いモデルの知識がすべて信頼できると仮定している。 上記の課題に対処するため,我々は,プロンプト,すなわち i3dod を指導する新しいインクリメンタルな 3d オブジェクト検出フレームワークを提案する。 具体的には,対象の局所化情報とカテゴリー意味情報の対応関係を学習するためのタスク共有プロンプト機構を提案する。 現在のタスクでトレーニングした後、これらのプロンプトはプロンプトプールに格納され、次のタスクで古いクラスの関係を実行します。 さらに, 負の知識を抽出し, 信頼度の高い3D知識を新しい検出モデルに伝達する, 信頼度の高い動的蒸留法を考案し, 特徴空間における応答関係を捕捉し, 新規な3Dクラスを学習する際にモデルの可塑性を保護するための関係性を考察した。 最後に、2つのベンチマークデータセットの総合的な実験を行い、mAP@0.25で最先端のオブジェクト検出手法を0.6%から2.7%上回った。

3D object detection has achieved significant performance in many fields, e.g., robotics system, autonomous driving, and augmented reality. However, most existing methods could cause catastrophic forgetting of old classes when performing on the class-incremental scenarios. Meanwhile, the current class-incremental 3D object detection methods neglect the relationships between the object localization information and category semantic information and assume all the knowledge of old model is reliable. To address the above challenge, we present a novel Incremental 3D Object Detection framework with the guidance of prompting, i.e., I3DOD. Specifically, we propose a task-shared prompts mechanism to learn the matching relationships between the object localization information and category semantic information. After training on the current task, these prompts will be stored in our prompt pool, and perform the relationship of old classes in the next task. Moreover, we design a reliable distillation strategy to transfer knowledge from two aspects: a reliable dynamic distillation is developed to filter out the negative knowledge and transfer the reliable 3D knowledge to new detection model; the relation feature is proposed to capture the responses relation in feature space and protect plasticity of the model when learning novel 3D classes. To the end, we conduct comprehensive experiments on two benchmark datasets and our method outperforms the state-of-the-art object detection methods by 0.6% - 2.7% in terms of mAP@0.25.
翻訳日:2023-08-25 15:34:45 公開日:2023-08-24
# ガウス過程に基づくベイズ量子キャラクタリゼーション

Gaussian Process-based Bayesian Quantum Characterization ( http://arxiv.org/abs/2308.12552v1 )

ライセンス: Link先を確認
Mohammad Motamed and N. Anders Petersson(参考訳) 本稿では、実験データと実験の動的モデリングの両方から不確実性を考慮したベイズ量子キャラクタリゼーションフレームワークを提案する。 動的モデルの不確かさを無視すると、量子データに存在する不確実性と矛盾する予測に繋がる可能性があることを実証する。 ローレンス・リバモア国立研究所(Lawrence Livermore National Laboratory)でタンタルベースのトランスモンデバイスを特徴付けるためにベイズフレームワークが提案され応用されている。 我々は,この手法がラムゼー計測プロトコルに適用されたlindbladのマスター方程式の予測能力をどのように向上させるか,ガウス過程によってモデル化の不確かさを表現できるかを実証する。

We present a Bayesian quantum characterization framework that takes into account uncertainties from both experimental data and the dynamical modeling of the experiment. We demonstrate that ignoring dynamical model uncertainty may lead to predictions that are inconsistent with the uncertainty present in quantum data. A Bayesian framework is proposed and applied to characterize a tantalum-based transmon device at Lawrence Livermore National Laboratory. We demonstrate how modeling uncertainty can be represented by a Gaussian process within the Bayesian framework, and how this approach improves the predictive capability of Lindblad's master equations applied to the Ramsey measurement protocol.
翻訳日:2023-08-25 15:27:15 公開日:2023-08-24
# 騒音時系列学習のための協調学習手法

A Co-training Approach for Noisy Time Series Learning ( http://arxiv.org/abs/2308.12551v1 )

ライセンス: Link先を確認
Weiqi Zhang, Jianfeng Zhang, Jia Li, Fugee Tsung(参考訳) 本研究は,堅牢な時系列表現学習に焦点を当てる。 実世界の時系列はノイズが多く、同じ時系列の異なる視点からの補完情報がノイズの入力を分析しながら重要な役割を果たすと仮定する。 これに基づいて、2つの異なるエンコーダを通して入力時系列の2つのビューを作成する。 エンコーダを学習するために,協調学習に基づくコントラスト学習を反復的に実施する。 我々の実験は、このコトレーニングアプローチが性能を著しく向上させることを示した。 特に,異なる視点からの補完的情報を活用することで,提案手法はデータノイズや腐敗の影響を軽減できる。 非教師なしおよび半教師なしの設定における4つの時系列ベンチマークにおける経験的評価は、ts-cotが既存の手法よりも優れていることを示している。 さらに、TS-CoTが学んだ表現は、微調整によって下流タスクにうまく転送できる。

In this work, we focus on robust time series representation learning. Our assumption is that real-world time series is noisy and complementary information from different views of the same time series plays an important role while analyzing noisy input. Based on this, we create two views for the input time series through two different encoders. We conduct co-training based contrastive learning iteratively to learn the encoders. Our experiments demonstrate that this co-training approach leads to a significant improvement in performance. Especially, by leveraging the complementary information from different views, our proposed TS-CoT method can mitigate the impact of data noise and corruption. Empirical evaluations on four time series benchmarks in unsupervised and semi-supervised settings reveal that TS-CoT outperforms existing methods. Furthermore, the representations learned by TS-CoT can transfer well to downstream tasks through fine-tuning.
翻訳日:2023-08-25 15:27:02 公開日:2023-08-24
# 特徴抽出とマッチングの同期:3次元オブジェクト追跡のための単一分岐フレームワーク

Synchronize Feature Extracting and Matching: A Single Branch Framework for 3D Object Tracking ( http://arxiv.org/abs/2308.12549v1 )

ライセンス: Link先を確認
Teli Ma, Mengmeng Wang, Jimin Xiao, Huifeng Wu, Yong Liu(参考訳) Siameseネットワークは3次元LiDARオブジェクトトラッキングのためのデファクトベンチマークフレームワークであり、テンプレートと検索領域からそれぞれ特徴を抽出する共有パラメトリックエンコーダを備えている。 このパラダイムはテンプレートと検索領域の相互相関/類似性をモデル化するために追加のマッチングネットワークに大きく依存する。 本稿では,従来のシアームのパラダイムを禁止し,特徴抽出とマッチングを同期する新しい単一分岐フレームワークsynctrackを提案し,テンプレートと検索領域で2回エンコーダの転送を回避し,マッチングネットワークの余分なパラメータを導入する。 同期機構はトランスフォーマーの動的親和性に基づいており、理論的に関連性の詳細な解析を行う。 さらに,この同期に基づき,テンプレートと探索領域の注意関係の監督下で,ランダム/ファーストポイントサンプリング (fps) 法をサンプリングに置き換え,新しい注意ポイントサンプリング戦略をトランスフォーマ層 (apst) に導入する。 ポイントワイズサンプリングと特徴学習を結びつけることで、より独特で幾何学的な特徴をスパースポイントで追跡するのに有益である。 2つのベンチマークデータセット(KITTIとNuScenes)の大規模な実験は、SyncTrackがリアルタイムトラッキングにおける最先端のパフォーマンスを達成することを示している。

Siamese network has been a de facto benchmark framework for 3D LiDAR object tracking with a shared-parametric encoder extracting features from template and search region, respectively. This paradigm relies heavily on an additional matching network to model the cross-correlation/similarity of the template and search region. In this paper, we forsake the conventional Siamese paradigm and propose a novel single-branch framework, SyncTrack, synchronizing the feature extracting and matching to avoid forwarding encoder twice for template and search region as well as introducing extra parameters of matching network. The synchronization mechanism is based on the dynamic affinity of the Transformer, and an in-depth analysis of the relevance is provided theoretically. Moreover, based on the synchronization, we introduce a novel Attentive Points-Sampling strategy into the Transformer layers (APST), replacing the random/Farthest Points Sampling (FPS) method with sampling under the supervision of attentive relations between the template and search region. It implies connecting point-wise sampling with the feature learning, beneficial to aggregating more distinctive and geometric features for tracking with sparse points. Extensive experiments on two benchmark datasets (KITTI and NuScenes) show that SyncTrack achieves state-of-the-art performance in real-time tracking.
翻訳日:2023-08-25 15:26:54 公開日:2023-08-24
# 小児の表情認識のためのハイブリッドモデル

Hybrid Models for Facial Emotion Recognition in Children ( http://arxiv.org/abs/2308.12547v1 )

ライセンス: Link先を確認
Rafael Zimmer and Marcos Sobral and Helio Azevedo(参考訳) 本稿では,ロボット遠隔操作による小児セラピーにおける心理士支援のための感情認識技術について述べる。 心理学の分野では、ロボット工学やコンピュータ科学の最近の進歩により、エージェント介在療法の利用が増加している。 具体的には、身体的会話エージェント(ECA)を仲介ツールとして用いることで、注意欠陥過活動障害(ADHD)、自閉症スペクトラム障害(ASD)、さらには武力衝突、自然災害、その他の状況の地域において身体的に利用できない子供と、プロフェッショナルが接触するのを助けることができる。 この文脈では、感情認識は精神療法士にとって重要なフィードバックである。 本稿では,まず,子どもの感情認識に関する書誌研究の結果について述べる。 本研究は,コミュニティが広く使用しているアルゴリズムとデータセットの概観を明らかにした。 そこで,本論文の書誌研究の結果に基づいて,子どもの感情を非制御環境において識別する能力を向上させるために,光流動特性の密集した手法を用いた。 畳み込みニューラルネットワークのハイブリッドモデルの出力から、2つの中間特徴を最終分類器で処理する前に融合する。 提案されたアーキテクチャはhybridcnnfusionと呼ばれる。 最後に,ブラジルの子どものデータセットを用いて,子どもの感情認識における最初の結果を示す。

This paper focuses on the use of emotion recognition techniques to assist psychologists in performing children's therapy through remotely robot operated sessions. In the field of psychology, the use of agent-mediated therapy is growing increasingly given recent advances in robotics and computer science. Specifically, the use of Embodied Conversational Agents (ECA) as an intermediary tool can help professionals connect with children who face social challenges such as Attention Deficit Hyperactivity Disorder (ADHD), Autism Spectrum Disorder (ASD) or even who are physically unavailable due to being in regions of armed conflict, natural disasters, or other circumstances. In this context, emotion recognition represents an important feedback for the psychotherapist. In this article, we initially present the result of a bibliographical research associated with emotion recognition in children. This research revealed an initial overview on algorithms and datasets widely used by the community. Then, based on the analysis carried out on the results of the bibliographical research, we used the technique of dense optical flow features to improve the ability of identifying emotions in children in uncontrolled environments. From the output of a hybrid model of Convolutional Neural Network, two intermediary features are fused before being processed by a final classifier. The proposed architecture was called HybridCNNFusion. Finally, we present the initial results achieved in the recognition of children's emotions using a dataset of Brazilian children.
翻訳日:2023-08-25 15:26:28 公開日:2023-08-24
# CALM : 言語モデルバイアスの総合評価のためのマルチタスクベンチマーク

CALM : A Multi-task Benchmark for Comprehensive Assessment of Language Model Bias ( http://arxiv.org/abs/2308.12539v1 )

ライセンス: Link先を確認
Vipul Gupta, Pranav Narayanan Venkit, Hugo Lauren\c{c}on, Shomir Wilson, Rebecca J. Passonneau(参考訳) 言語モデル(LM)がますます強力になるにつれて、社会的な偏見と害の可能性を定量化し比較することが重要である。 事前バイアス測定データセットは、手動で設計されたテンプレートの摂動に敏感であり、信頼できない。 信頼性を実現するために,3つのタスクにまたがるlmsのバイアスを定量化するベンチマークデータセットである言語モデルバイアス(calm)の包括的評価を紹介する。 ウィキペディアやニュース記事など、さまざまなドメインにまたがる16の既存のデータセットを統合して、224のテンプレートをフィルタリングし、78,400のデータセットを構築します。 平均意味的類似度やテンプレート長の変動といった指標に基づいて,CALMの多様性を事前データセットと比較し,小さな摂動に対する感度を検証した。 我々のデータセットは従来のデータセットよりも多様で信頼性が高いため、モデルのバイアスを確実に評価するために必要な言語的変動の幅をよりよく捉えている。 Llama-2のような6つの著名なLM群を含む20の大規模言語モデルを評価する。 オプトとブルームという2つのlm級数において、より大きいパラメータモデルはより低いパラメータモデルよりもバイアスが高いことが判明した。 t0シリーズのモデルが最もバイアスが少ないことが分かりました。 さらに,モデルシリーズのモデルサイズの増加に伴い,性別と人種バイアスのトレードオフがみられた。 コードはhttps://github.com/vipulgupta1011/calmで入手できる。

As language models (LMs) become increasingly powerful, it is important to quantify and compare them for sociodemographic bias with potential for harm. Prior bias measurement datasets are sensitive to perturbations in their manually designed templates, therefore unreliable. To achieve reliability, we introduce the Comprehensive Assessment of Language Model bias (CALM), a benchmark dataset to quantify bias in LMs across three tasks. We integrate 16 existing datasets across different domains, such as Wikipedia and news articles, to filter 224 templates from which we construct a dataset of 78,400 examples. We compare the diversity of CALM with prior datasets on metrics such as average semantic similarity, and variation in template length, and test the sensitivity to small perturbations. We show that our dataset is more diverse and reliable than previous datasets, thus better capture the breadth of linguistic variation required to reliably evaluate model bias. We evaluate 20 large language models including six prominent families of LMs such as Llama-2. In two LM series, OPT and Bloom, we found that larger parameter models are more biased than lower parameter models. We found the T0 series of models to be the least biased. Furthermore, we noticed a tradeoff between gender and racial bias with increasing model size in some model series. The code is available at https://github.com/vipulgupta1011/CALM.
翻訳日:2023-08-25 15:26:05 公開日:2023-08-24
# 画像融合のための相互誘導動的ネットワーク

Mutual-Guided Dynamic Network for Image Fusion ( http://arxiv.org/abs/2308.12538v1 )

ライセンス: Link先を確認
Yuanshen Guan, Ruikang Xu, Mingde Yao, Lizhi Wang, Zhiwei Xiong(参考訳) 画像融合は、様々な条件下で撮影された複数の画像から高品質な画像を生成することを目的としている。 このタスクの鍵となる問題は、融合結果の無関係情報をフィルタリングしながら補完情報を保存することである。 しかし、既存の手法では静的畳み込みニューラルネットワーク(cnns)を活用することでこの問題に対処しており、特徴抽出中に固有の2つの制限、すなわち空間的変動コンテンツの処理ができず、複数の入力からのガイダンスが欠如している。 本稿では,画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。 具体的には,相互誘導型クロスアテンション(mgca)モジュールと動的フィルタ予測器からなる適応的特徴抽出のための相互誘導型動的フィルタ(mgdf)の設計を行った。 さらに,抽出した特徴の局所的およびグローバル的情報を効果的に融合する並列特徴融合(PFF)モジュールを導入する。 共有構造情報を同時に保存しながら抽出した特徴間の冗長性をさらに低減するため,正規化相互情報(NMI)の最小化と推定勾配マスクを組み合わせた新たな損失関数を考案した。 5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。 コードとモデルは、https://github.com/Guanys-dar/MGDNで公開されている。

Image fusion aims to generate a high-quality image from multiple images captured under varying conditions. The key problem of this task is to preserve complementary information while filtering out irrelevant information for the fused result. However, existing methods address this problem by leveraging static convolutional neural networks (CNNs), suffering two inherent limitations during feature extraction, i.e., being unable to handle spatial-variant contents and lacking guidance from multiple inputs. In this paper, we propose a novel mutual-guided dynamic network (MGDN) for image fusion, which allows for effective information utilization across different locations and inputs. Specifically, we design a mutual-guided dynamic filter (MGDF) for adaptive feature extraction, composed of a mutual-guided cross-attention (MGCA) module and a dynamic filter predictor, where the former incorporates additional guidance from different inputs and the latter generates spatial-variant kernels for different locations. In addition, we introduce a parallel feature fusion (PFF) module to effectively fuse local and global information of the extracted features. To further reduce the redundancy among the extracted features while simultaneously preserving their shared structural information, we devise a novel loss function that combines the minimization of normalized mutual information (NMI) with an estimated gradient mask. Experimental results on five benchmark datasets demonstrate that our proposed method outperforms existing methods on four image fusion tasks. The code and model are publicly available at: https://github.com/Guanys-dar/MGDN.
翻訳日:2023-08-25 15:25:43 公開日:2023-08-24
# HuBo-VLM:HUman Robotインタラクションタスク用に設計された統合ビジョン言語モデル

HuBo-VLM: Unified Vision-Language Model designed for HUman roBOt interaction tasks ( http://arxiv.org/abs/2308.12537v1 )

ライセンス: Link先を確認
Zichao Dong, Weikun Zhang, Xufeng Huang, Hang Ji, Xin Zhan, Junbo Chen(参考訳) 人間のロボットのインタラクションは、人間の指示に従ってロボットを誘導する、エキサイティングなタスクだ。 人間の自然言語と機械コードの間には大きなギャップがあるため、人間のロボットとのインタラクションモデルは極めて困難である。 さらに、ロボットのセンサからの視覚情報受信は、ロボットが知覚する難しい言語でもある。 本研究は,ロボットの物体検出や視覚の接地を含む人間のロボットのインタラクションに関連する知覚課題を統一トランスフォーマーによる視覚言語モデルを用いて解決するために提案する。 Talk2Carベンチマークの大規模な実験は、我々のアプローチの有効性を実証している。 コードはhttps://github.com/dzcgaara/HuBo-VLMで公開されている。

Human robot interaction is an exciting task, which aimed to guide robots following instructions from human. Since huge gap lies between human natural language and machine codes, end to end human robot interaction models is fair challenging. Further, visual information receiving from sensors of robot is also a hard language for robot to perceive. In this work, HuBo-VLM is proposed to tackle perception tasks associated with human robot interaction including object detection and visual grounding by a unified transformer based vision language model. Extensive experiments on the Talk2Car benchmark demonstrate the effectiveness of our approach. Code would be publicly available in https://github.com/dzcgaara/HuBo-VLM.
翻訳日:2023-08-25 15:25:15 公開日:2023-08-24
# 非古典的性質の保存における重力猫状態の利点

Advantage of gravitational cat states in preserving non-classical characteristics ( http://arxiv.org/abs/2308.12536v1 )

ライセンス: Link先を確認
Atta ur Rahman, Liu Aoxiang, Saeed haddadi, Cong-Feng Qiao(参考訳) 量子相関性を維持するために, 重力猫状態の資源性について検討する。 本研究では, 熱場, 古典確率場, 一般崩壊場, パワーロー騒音場などの異なる条件下での重力猫状態のダイナミクスについて検討する。 特に、2つのキュービットにおけるワンウェイステアビリティ、ベル非局所性、絡み合い、純度が主な焦点です。 また,量子相関のダイナミクスと状態の純度に関する弱い測定反転プロトコルについても論じた。 以上の結果から,重力猫状態は量子相関を保ち,量子情報処理プロトコルの展開に優れた資源の1つであることが示唆された。

We investigate how resourceful gravitational cat states are to preserve quantum correlations. In this regard, we explore the dynamics of gravitational cat states under different situations such as thermal, classical stochastic, general decaying, and power-law noisy fields. In particular, the one-way steerability, Bell non-locality, entanglement, and purity in two qubits are our main focus. We also address the weak measurement reversal protocol on the dynamics of quantum correlations and purity of the state. Our results show that the gravitational cat states have a reliable and better capacity to preserve quantum correlations and remain one of the good resources for the deployment of quantum information processing protocols.
翻訳日:2023-08-25 15:25:06 公開日:2023-08-24
# scp:球座標ベースの学習点クラウド圧縮

SCP: Spherical-Coordinate-based Learned Point Cloud Compression ( http://arxiv.org/abs/2308.12535v1 )

ライセンス: Link先を確認
Ao Luo, Linxin Song, Keisuke Nonaka, Kyohei Unno, Heming Sun, Masayuki Goto, Jiro Katto(参考訳) 近年,学習ポイントクラウド圧縮の課題が注目されている。 重要なタイプの点雲、すなわち回転するLiDAR点雲は、車両上でLiDARを回転させることによって生成される。 この過程は、点雲内の多数の円形形状と方位角不変性をもたらす。 しかし、これら2つの特徴は、以前の手法では見過ごされていた。 本稿では,Spherical-Coordinate-based learned Point cloud compression (SCP)と呼ばれるモデルに依存しない手法を提案する。 さらに,球面座標系Octree内における遠隔領域の復元誤差を軽減するため,SCP用マルチレベルOctreeを提案する。 SCPは優れた普遍性を示し、様々な学習点クラウド圧縮技術に適用できる。 実験の結果、PSNR BD-Rateでは、SCPが従来の最先端手法を29.14%上回ることがわかった。

In recent years, the task of learned point cloud compression has gained prominence. An important type of point cloud, the spinning LiDAR point cloud, is generated by spinning LiDAR on vehicles. This process results in numerous circular shapes and azimuthal angle invariance features within the point clouds. However, these two features have been largely overlooked by previous methodologies. In this paper, we introduce a model-agnostic method called Spherical-Coordinate-based learned Point cloud compression (SCP), designed to leverage the aforementioned features fully. Additionally, we propose a multi-level Octree for SCP to mitigate the reconstruction error for distant areas within the Spherical-coordinate-based Octree. SCP exhibits excellent universality, making it applicable to various learned point cloud compression techniques. Experimental results demonstrate that SCP surpasses previous state-of-the-art methods by up to 29.14% in point-to-point PSNR BD-Rate.
翻訳日:2023-08-25 15:24:54 公開日:2023-08-24
# rgb熱的意味セグメンテーションのためのチャネルと空間関係伝達ネットワーク

Channel and Spatial Relation-Propagation Network for RGB-Thermal Semantic Segmentation ( http://arxiv.org/abs/2308.12534v1 )

ライセンス: Link先を確認
Zikun Zhou, Shukun Wu, Guoqing Zhu, Hongpeng Wang, Zhenyu He(参考訳) RGB-Thermal (RGB-T)セマンティックセマンティックセマンティックセマンティクスは、RGBベースのセマンティクスがRGB画像品質の低下によって妨げられるような低照度条件に対処する大きな可能性を示している。 RGB-Tセマンティックセグメンテーションの鍵は、RGBと熱画像の相補的性質を効果的に活用することである。 既存のアルゴリズムの多くは、一方向の強化または双方向のアグリゲーションの方法で結合、要素の和、注意操作を通じて、特徴空間におけるRGBと熱情報を融合する。 しかし、それらは通常、特徴融合中のRGBと熱画像の間のモダリティギャップを見落とし、一方のモダリティが他方を汚染するモダリティ固有の情報をもたらす。 本稿では,RGB-TセマンティックセグメンテーションのためのChannel and Spatial Relation-Propagation Network (CSRPNet)を提案する。 我々のCSRPNetはまず、RGBと熱的特徴からモダリティ共有特徴を捉えるために、チャネルと空間次元で関係伝播を行う。 CSRPNetは、一方のモダリティから取得したモダリティ共有特徴と他方のモダリティから取得した入力特徴を集約し、汚染問題なく入力特徴を強化する。 融合しながら、強化されたRGBと熱的特徴はそれぞれ、インタラクティブな特徴融合のためのRGBまたは熱的特徴抽出層に供給される。 また,多層特徴を集約してセマンティックおよび境界予測のための2つの洗練された特徴を生成する,デュアルパス・ケースケード機能改善モジュールを導入する。 CSRPNetは最先端のアルゴリズムに対して好適に動作することを示した。

RGB-Thermal (RGB-T) semantic segmentation has shown great potential in handling low-light conditions where RGB-based segmentation is hindered by poor RGB imaging quality. The key to RGB-T semantic segmentation is to effectively leverage the complementarity nature of RGB and thermal images. Most existing algorithms fuse RGB and thermal information in feature space via concatenation, element-wise summation, or attention operations in either unidirectional enhancement or bidirectional aggregation manners. However, they usually overlook the modality gap between RGB and thermal images during feature fusion, resulting in modality-specific information from one modality contaminating the other. In this paper, we propose a Channel and Spatial Relation-Propagation Network (CSRPNet) for RGB-T semantic segmentation, which propagates only modality-shared information across different modalities and alleviates the modality-specific information contamination issue. Our CSRPNet first performs relation-propagation in channel and spatial dimensions to capture the modality-shared features from the RGB and thermal features. CSRPNet then aggregates the modality-shared features captured from one modality with the input feature from the other modality to enhance the input feature without the contamination issue. While being fused together, the enhanced RGB and thermal features will be also fed into the subsequent RGB or thermal feature extraction layers for interactive feature fusion, respectively. We also introduce a dual-path cascaded feature refinement module that aggregates multi-layer features to produce two refined features for semantic and boundary prediction. Extensive experimental results demonstrate that CSRPNet performs favorably against state-of-the-art algorithms.
翻訳日:2023-08-25 15:24:40 公開日:2023-08-24
# 検索モデルと大規模言語モデルの統合戦略の探求

Exploring the Integration Strategies of Retriever and Large Language Models ( http://arxiv.org/abs/2308.12574v1 )

ライセンス: Link先を確認
Ye Liu, Semih Yavuz, Rui Meng, Meghana Moorthy, Shafiq Joty, Caiming Xiong, Yingbo Zhou(参考訳) 検索されたパスとChatGPTsのような大きな言語モデル(LLMs)の統合は、オープンドメインの質問応答の改善に大きく貢献している。 しかし, 解答過程に解答経路を組み込むための最適手法については, いまだ探索の欠如が残っている。 本稿では,このギャップを補うために,検索したパスをLLMと組み合わせ,回答生成を向上させる方法を検討した。 まず、一般的に使用される連結アプローチの限界を検討する。 驚くべきことに、このアプローチは、たとえ正しいドキュメントがトップkの検索された文の中に含まれているとしても、しばしば"未知の"出力を生成する。 この問題に対処するために,検索したパスをLLMと統合するための4つの代替戦略を検討する。 これらの戦略には、連鎖推論を利用する2つのシングルラウンド手法と、フィードバックループを含む2つのマルチラウンド戦略が含まれる。 総合的な分析と実験を通じて, LLMの回答生成能力を高めるために, 検索したパスを効果的に活用する方法を考察した。

The integration of retrieved passages and large language models (LLMs), such as ChatGPTs, has significantly contributed to improving open-domain question answering. However, there is still a lack of exploration regarding the optimal approach for incorporating retrieved passages into the answer generation process. This paper aims to fill this gap by investigating different methods of combining retrieved passages with LLMs to enhance answer generation. We begin by examining the limitations of a commonly-used concatenation approach. Surprisingly, this approach often results in generating "unknown" outputs, even when the correct document is among the top-k retrieved passages. To address this issue, we explore four alternative strategies for integrating the retrieved passages with the LLMs. These strategies include two single-round methods that utilize chain-of-thought reasoning and two multi-round strategies that incorporate feedback loops. Through comprehensive analyses and experiments, we provide insightful observations on how to effectively leverage retrieved passages to enhance the answer generation capability of LLMs.
翻訳日:2023-08-25 15:18:27 公開日:2023-08-24
# 連続状態環境における条件付きカーネル模倣学習

Conditional Kernel Imitation Learning for Continuous State Environments ( http://arxiv.org/abs/2308.12573v1 )

ライセンス: Link先を確認
Rishabh Agrawal, Nathan Dahlin, Rahul Jain, Ashutosh Nayyar(参考訳) 模倣学習(il)は、より広範な強化学習(rl)方法論において重要なパラダイムである。 ほとんどのRLとは異なり、報酬フィードバックの可用性を前提としない。 報酬の推論とシェーピングは、特に人間の専門家によるデモンストレーションデータでは、困難でエラーやすい方法であることが知られている。 行動クローニングや逆強化学習のような古典的な手法は、特に連続状態空間問題において深刻な問題である推定誤差に非常に敏感である。 一方、現在最先端のILアルゴリズムは、行動ポリシー学習問題を、追加のオンラインインタラクションデータを必要とする分散マッチング問題に変換する。 本稿では,連続状態空間環境における模倣学習の課題を,観察された行動のみに基づいて,遷移ダイナミクス情報へのアクセスや報酬構造,あるいは最も重要なのは環境との付加的な相互作用なしに検討する。 本手法はマルコフバランス方程式に基づいて,新しい条件付き核密度推定に基づく模倣学習フレームワークを導入する。 条件付きカーネル密度推定器を用いて環境の遷移力学を推定し、環境の確率的バランス方程式を満足させようとする。 我々は,基本的な漸近的整合性要件を満たす推定器を確立する。 連続状態ベンチマーク環境に関する一連の数値実験を通して、多くの最先端ILアルゴリズムよりも一貫して優れた経験的性能を示す。

Imitation Learning (IL) is an important paradigm within the broader reinforcement learning (RL) methodology. Unlike most of RL, it does not assume availability of reward-feedback. Reward inference and shaping are known to be difficult and error-prone methods particularly when the demonstration data comes from human experts. Classical methods such as behavioral cloning and inverse reinforcement learning are highly sensitive to estimation errors, a problem that is particularly acute in continuous state space problems. Meanwhile, state-of-the-art IL algorithms convert behavioral policy learning problems into distribution-matching problems which often require additional online interaction data to be effective. In this paper, we consider the problem of imitation learning in continuous state space environments based solely on observed behavior, without access to transition dynamics information, reward structure, or, most importantly, any additional interactions with the environment. Our approach is based on the Markov balance equation and introduces a novel conditional kernel density estimation-based imitation learning framework. It involves estimating the environment's transition dynamics using conditional kernel density estimators and seeks to satisfy the probabilistic balance equations for the environment. We establish that our estimators satisfy basic asymptotic consistency requirements. Through a series of numerical experiments on continuous state benchmark environments, we show consistently superior empirical performance over many state-of-the-art IL algorithms.
翻訳日:2023-08-25 15:18:11 公開日:2023-08-24
# StreamMapNet: ベクトル化オンラインHDマップ構築のためのストリーミングマッピングネットワーク

StreamMapNet: Streaming Mapping Network for Vectorized Online HD Map Construction ( http://arxiv.org/abs/2308.12570v1 )

ライセンス: Link先を確認
Tianyuan Yuan, Yicheng Liu, Yue Wang, Yilun Wang, Hang Zhao(参考訳) 高精細(HD)マップは自動運転システムの安全性に不可欠である。 既存の技術では、カメラ画像とオンボードセンサーを使ってベクトル化された高精度マップを生成するが、それらはシングルフレーム入力に依存している。 このアプローチは、主に時間情報の欠如により、閉塞のような複雑なシナリオにおける安定性と性能を制限する。 さらに、より広い知覚範囲に適用すると、その性能は低下する。 本稿では,ビデオの時系列時間的モデリングに適応した新しいオンラインマッピングパイプラインStreamMapNetを提案する。 StreamMapNetはマルチポイントアテンションと時間情報を利用して、安定性の高い大規模ローカルHDマップの構築を可能にし、既存のメソッドの制限に対処する。 さらに,オンラインHDマップ構築ベンチマークとデータセットであるArgoverse2とnuScenesについて批判的に検討し,既存の評価プロトコルに有意な偏りがあることを明らかにする。 我々は,地理的スパンに応じてベンチマークを分割し,公平かつ正確な評価を促進することを提案する。 実験の結果、streammapnetはすべての設定で既存のメソッドを大きく上回り、オンライン推論速度は14.2$ fpsである。

High-Definition (HD) maps are essential for the safety of autonomous driving systems. While existing techniques employ camera images and onboard sensors to generate vectorized high-precision maps, they are constrained by their reliance on single-frame input. This approach limits their stability and performance in complex scenarios such as occlusions, largely due to the absence of temporal information. Moreover, their performance diminishes when applied to broader perception ranges. In this paper, we present StreamMapNet, a novel online mapping pipeline adept at long-sequence temporal modeling of videos. StreamMapNet employs multi-point attention and temporal information which empowers the construction of large-range local HD maps with high stability and further addresses the limitations of existing methods. Furthermore, we critically examine widely used online HD Map construction benchmark and datasets, Argoverse2 and nuScenes, revealing significant bias in the existing evaluation protocols. We propose to resplit the benchmarks according to geographical spans, promoting fair and precise evaluations. Experimental results validate that StreamMapNet significantly outperforms existing methods across all settings while maintaining an online inference speed of $14.2$ FPS.
翻訳日:2023-08-25 15:17:51 公開日:2023-08-24
# 中国の医療機能回復のための小型・高速BERT

A Small and Fast BERT for Chinese Medical Punctuation Restoration ( http://arxiv.org/abs/2308.12568v1 )

ライセンス: Link先を確認
Tongtao Ling, Chen Liao, Zhipeng Yu, Lei Chen, Shilei Huang, Yi Liu(参考訳) 臨床ディクテーションでは、明示的な句読点のない自動音声認識(asr)後の発話は、ディクテーションされた報告の誤解につながる可能性がある。 ASRを用いた正確な臨床報告を行うには,自動句読点修復が必要である。 実践的なシナリオを考慮し、我々は「訓練と微調整」のパラダイムに基づく中国医学的句読点回復のための高速で軽量な事前訓練モデルを提案する。 本研究では,教師付きコントラスト学習と新たな補助事前学習タスク(punctuation mark prediction)を組み込んだ事前学習モデルを蒸留し,句読点復元に適合させた。 各種蒸留モデルを用いた実験により, 現状の中国RoBERTaと比較して10パーセントのモデルサイズで95%の性能が得られた。

In clinical dictation, utterances after automatic speech recognition (ASR) without explicit punctuation marks may lead to the misunderstanding of dictated reports. To give a precise and understandable clinical report with ASR, automatic punctuation restoration is required. Considering a practical scenario, we propose a fast and light pre-trained model for Chinese medical punctuation restoration based on 'pretraining and fine-tuning' paradigm. In this work, we distill pre-trained models by incorporating supervised contrastive learning and a novel auxiliary pre-training task (Punctuation Mark Prediction) to make it well-suited for punctuation restoration. Our experiments on various distilled models reveal that our model can achieve 95% performance while 10% model size relative to state-of-the-art Chinese RoBERTa.
翻訳日:2023-08-25 15:17:33 公開日:2023-08-24
# 汚染データを用いた多変量時系列異常検出:生理学的信号への応用

Multivariate Time-Series Anomaly Detection with Contaminated Data: Application to Physiological Signals ( http://arxiv.org/abs/2308.12563v1 )

ライセンス: Link先を確認
Thi Kieu Khanh Ho and Narges Armanfard(参考訳) 主流の教師なし異常検出アルゴリズムは、しばしば学術データセットで優れているが、クリーンなトレーニングデータを含む制御された実験条件のため、実際の性能は制限されている。 実用的な異常検出における一般的な問題であるノイズによるトレーニングの課題は、しばしば見過ごされている。 先駆的な試みとして,感覚時系列異常検出(TSAD)におけるラベルレベルのノイズの領域について検討した。 本稿では,トレーニングデータを異常で汚染した場合に,新しいかつ実用的な非教師付きTSADを提案する。 TSAD-Cと呼ばれるアプローチでは、トレーニングフェーズ中に異常ラベルにアクセスできない。 TSAD-Cは、トレーニングデータに存在する異常(いわゆるノイズ)を補正する除染器、純粋な正規データのサロゲートとみなすことができる除染データ内の長期内および変数間の依存関係をキャプチャする可変依存性モデリングモジュール、異常を検出する異常スコーリングモジュールの3つのモジュールを含む。 広く使われている3つの生理的データセットについて広範な実験を行った結果、既存の手法を超越したアプローチが実証され、この分野における新たな最先端のパフォーマンスが確立された。

Mainstream unsupervised anomaly detection algorithms often excel in academic datasets, yet their real-world performance is restricted due to the controlled experimental conditions involving clean training data. Addressing the challenge of training with noise, a prevalent issue in practical anomaly detection, is frequently overlooked. In a pioneering endeavor, this study delves into the realm of label-level noise within sensory time-series anomaly detection (TSAD). This paper presents a novel and practical end-to-end unsupervised TSAD when the training data are contaminated with anomalies. The introduced approach, called TSAD-C, is devoid of access to abnormality labels during the training phase. TSAD-C encompasses three modules: a Decontaminator to rectify the abnormalities (aka noise) present in the training data, a Variable Dependency Modeling module to capture both long-term intra- and inter-variable dependencies within the decontaminated data that can be considered as a surrogate of the pure normal data, and an Anomaly Scoring module to detect anomalies. Our extensive experiments conducted on three widely used physiological datasets conclusively demonstrate that our approach surpasses existing methodologies, thus establishing a new state-of-the-art performance in the field.
翻訳日:2023-08-25 15:17:20 公開日:2023-08-24
# 解釈可能な予測のための大言語と多モーダルモデルを用いた変分情報探索

Variational Information Pursuit with Large Language and Multimodal Models for Interpretable Predictions ( http://arxiv.org/abs/2308.12562v1 )

ライセンス: Link先を確認
Kwan Ho Ryan Chan, Aditya Chattopadhyay, Benjamin David Haeffele, Rene Vidal(参考訳) 変分情報追跡 (v-ip) は、タスクに最も有益であるデータに関するタスク関連、ユーザ定義、および解釈可能なクエリの短いチェーンを順次選択することによって、解釈可能な予測を行うためのフレームワークである。 これは予測モデルに組み込みで解釈可能であるが、任意のタスクにV-IPを適用するには、ドメインの専門家による密集した概念ラベル付きデータサンプルが必要である。 本研究では,V-IPフレームワークをFM(Foundational Models)で拡張し,この制限に対処する。 より具体的には、まずLarge Language Models(LLM)を利用してタスク関連解釈可能な概念の十分に大きな候補セットを生成し、次にLarge Multimodal Modelsを使用して各データサンプルを、生成された概念セットの各概念とセマンティックな類似性でアノテートする。 コンセプション・ボトルネック・モデル(CBM)のような他の解釈可能な設計フレームワークでは、反復的および非識別的概念を取り除き、良好な解釈性とテスト性能を持つ必要があるが、数学的かつ経験的に、十分な情報的およびタスク関連クエリ(概念)セットを用いて、提案したFM+V-IPメソッドはいかなる種類の概念フィルタリングも必要としないことを正当化する。 さらに, FM+V-IP と LLM の生成した概念は, 注釈付き概念を用いた V-IP よりも優れたテスト性能を達成できることを示す。 最後に、CBMのような他の解釈可能な設計フレームワークと比較すると、FM+V-IPはフィルタまたはフィルタされていないコンセプトセットの両方のケースにおいて、少ない数のコンセプト/クエリを使用して競合するテスト性能を達成することができる。

Variational Information Pursuit (V-IP) is a framework for making interpretable predictions by design by sequentially selecting a short chain of task-relevant, user-defined and interpretable queries about the data that are most informative for the task. While this allows for built-in interpretability in predictive models, applying V-IP to any task requires data samples with dense concept-labeling by domain experts, limiting the application of V-IP to small-scale tasks where manual data annotation is feasible. In this work, we extend the V-IP framework with Foundational Models (FMs) to address this limitation. More specifically, we use a two-step process, by first leveraging Large Language Models (LLMs) to generate a sufficiently large candidate set of task-relevant interpretable concepts, then using Large Multimodal Models to annotate each data sample by semantic similarity with each concept in the generated concept set. While other interpretable-by-design frameworks such as Concept Bottleneck Models (CBMs) require an additional step of removing repetitive and non-discriminative concepts to have good interpretability and test performance, we mathematically and empirically justify that, with a sufficiently informative and task-relevant query (concept) set, the proposed FM+V-IP method does not require any type of concept filtering. In addition, we show that FM+V-IP with LLM generated concepts can achieve better test performance than V-IP with human annotated concepts, demonstrating the effectiveness of LLMs at generating efficient query sets. Finally, when compared to other interpretable-by-design frameworks such as CBMs, FM+V-IP can achieve competitive test performance using fewer number of concepts/queries in both cases with filtered or unfiltered concept sets.
翻訳日:2023-08-25 15:16:58 公開日:2023-08-24
# NOVA: 動的物体のニューラルネットワーク合成のためのノーベルビュー拡張

NOVA: NOvel View Augmentation for Neural Composition of Dynamic Objects ( http://arxiv.org/abs/2308.12560v1 )

ライセンス: Link先を確認
Dakshit Agrawal, Jiajie Xu, Siva Karthik Mustikovela, Ioannis Gkioulekas, Ashish Shrivastava, Yuning Chai(参考訳) 静的シーンにおける動的物体の3次元写真リアルな合成のためのNeRFをトレーニングするためのノベルビュー拡張(NOVA)戦略を提案する。 従来の作業と比較して、新しいビューや時間に複数の動的オブジェクトを3Dシーンに挿入する際のブレンディングアーティファクトを著しく削減し、光学的フローのような基底的真理のモダリティを必要とせずに同等のPSNRを実現し、全般的に神経合成の容易さ、柔軟性、スケーラビリティを提供する。 コードベースはGitHubにあります。

We propose a novel-view augmentation (NOVA) strategy to train NeRFs for photo-realistic 3D composition of dynamic objects in a static scene. Compared to prior work, our framework significantly reduces blending artifacts when inserting multiple dynamic objects into a 3D scene at novel views and times; achieves comparable PSNR without the need for additional ground truth modalities like optical flow; and overall provides ease, flexibility, and scalability in neural composition. Our codebase is on GitHub.
翻訳日:2023-08-25 15:16:20 公開日:2023-08-24
# 双曲音声-視覚ゼロショット学習

Hyperbolic Audio-visual Zero-shot Learning ( http://arxiv.org/abs/2308.12558v1 )

ライセンス: Link先を確認
Jie Hong, Zeeshan Hayder, Junlin Han, Pengfei Fang, Mehrtash Harandi and Lars Petersson(参考訳) オーディオ視覚ゼロショット学習は、トレーニング中に存在しないクラスから、対応するオーディオシーケンスとビデオシーケンスのペアからなるサンプルを分類することを目的としている。 音声・視覚データの解析により,双曲変換を用いて曲率を考慮した幾何学的学習を行うことの潜在的な利点が示され,より複雑な階層的データ構造を探索することを目的とした。 提案手法では,双曲空間における映像特徴と音声特徴のクロスモダリティアライメントを組み込んだ新しい損失関数を用いる。 さらに,双曲射影に対する多重適応曲率の利用について検討する。 この課題に対する実験結果から, ゼロショット学習の双曲的アプローチは, VGGSound-GZSL, UCF-GZSL, ActivityNet-GZSLの3つのデータセットにおいて, それぞれ約3.0%, 7.0%, 5.3%の高調波平均(HM)改善を実現していることがわかった。

Audio-visual zero-shot learning aims to classify samples consisting of a pair of corresponding audio and video sequences from classes that are not present during training. An analysis of the audio-visual data reveals a large degree of hyperbolicity, indicating the potential benefit of using a hyperbolic transformation to achieve curvature-aware geometric learning, with the aim of exploring more complex hierarchical data structures for this task. The proposed approach employs a novel loss function that incorporates cross-modality alignment between video and audio features in the hyperbolic space. Additionally, we explore the use of multiple adaptive curvatures for hyperbolic projections. The experimental results on this very challenging task demonstrate that our proposed hyperbolic approach for zero-shot learning outperforms the SOTA method on three datasets: VGGSound-GZSL, UCF-GZSL, and ActivityNet-GZSL achieving a harmonic mean (HM) improvement of around 3.0%, 7.0%, and 5.3%, respectively.
翻訳日:2023-08-25 15:16:09 公開日:2023-08-24
# 深層強化学習によるコミュニティ間エネルギー相互作用最適スケジューリング

Deep Reinforcement Learning-driven Cross-Community Energy Interaction Optimal Scheduling ( http://arxiv.org/abs/2308.12554v1 )

ライセンス: Link先を確認
Yang Li, Fanjin Bu, Zhen Yang, Bin Wang, Meng Han(参考訳) In order to coordinate energy interactions among various communities and energy conversions among multi-energy subsystems within the multi-community integrated energy system under uncertain conditions, and achieve overall optimization and scheduling of the comprehensive energy system, this paper proposes a comprehensive scheduling model that utilizes a multi-agent deep reinforcement learning algorithm to learn load characteristics of different communities and make decisions based on this knowledge. このモデルでは、統合エネルギーシステムのスケジューリング問題をマルコフ決定プロセスに変換し、マルチコミュニティとマルチエネルギーサブシステムの間の複雑なエネルギー結合関係をモデル化する必要のないデータ駆動型深部強化学習アルゴリズムを用いて解決する。 シミュレーションの結果, 提案手法は, 異なるコミュニティの負荷特性を効果的に把握し, 相補的特徴を利用して適切なエネルギー相互作用を調整できることが示唆された。 これにより風速は16.3%から0%に低下し、全体の運転コストは5445.6元に低下し、経済と環境面で大きな利益をもたらした。

In order to coordinate energy interactions among various communities and energy conversions among multi-energy subsystems within the multi-community integrated energy system under uncertain conditions, and achieve overall optimization and scheduling of the comprehensive energy system, this paper proposes a comprehensive scheduling model that utilizes a multi-agent deep reinforcement learning algorithm to learn load characteristics of different communities and make decisions based on this knowledge. In this model, the scheduling problem of the integrated energy system is transformed into a Markov decision process and solved using a data-driven deep reinforcement learning algorithm, which avoids the need for modeling complex energy coupling relationships between multi-communities and multi-energy subsystems. The simulation results show that the proposed method effectively captures the load characteristics of different communities and utilizes their complementary features to coordinate reasonable energy interactions among them. This leads to a reduction in wind curtailment rate from 16.3% to 0% and lowers the overall operating cost by 5445.6 Yuan, demonstrating significant economic and environmental benefits.
翻訳日:2023-08-25 15:15:48 公開日:2023-08-24
# Dataset Shiftを責めるな! 勾配とクロスエントロピーによるショートカット学習

Don't blame Dataset Shift! Shortcut Learning due to Gradients and Cross Entropy ( http://arxiv.org/abs/2308.12553v1 )

ライセンス: Link先を確認
Aahlad Puli, Lily Zhang, Yoav Wald, Rajesh Ranganath(参考訳) ショートカット学習の一般的な説明は、ショートカットはトレーニング分布では予測を改善するが、テスト分布では改善しないと仮定する。 したがって、標準ERMと呼ばれるクロスエントロピーの典型的な勾配に基づく最適化によって訓練されたモデルは、ショートカットを利用する。 しかし、安定した機能がトレーニングディストリビューションのラベルを決定し、ショートカットが知覚タスクのような追加情報を提供していない場合でも、デフォルトERMはショートカット学習を表示する。 デフォルトのERMの損失を、安定機能だけでゼロにすることができると、なぜそのようなソリューションが好まれるのか? 線形知覚タスクを研究した結果、デフォルトermのマージンを最大化する選好は、過剰パラメータ化なしにも、安定な特徴よりも近道に依存するモデルに繋がることを示した。 この知見は、デフォルトERMのマックスマージンに対する暗黙の帰納バイアスが知覚タスクには適さないことを示唆している。 代わりに、均一なマージンに対する帰納的バイアスを開発し、このバイアスが線形知覚タスクにおける完全安定な特徴にのみ依存することを保証していることを示す。 我々は一様マージン解を奨励する損失関数をマージン制御 (marg-ctrl) と呼ぶ。 MARG-CTRLは様々な視覚や言語タスクにおけるショートカット学習を緩和し、より優れた帰納バイアスが、知覚タスクにおける高価な2段階のショートカット緩和方法の必要性を排除できることを示した。

Common explanations for shortcut learning assume that the shortcut improves prediction under the training distribution but not in the test distribution. Thus, models trained via the typical gradient-based optimization of cross-entropy, which we call default-ERM, utilize the shortcut. However, even when the stable feature determines the label in the training distribution and the shortcut does not provide any additional information, like in perception tasks, default-ERM still exhibits shortcut learning. Why are such solutions preferred when the loss for default-ERM can be driven to zero using the stable feature alone? By studying a linear perception task, we show that default-ERM's preference for maximizing the margin leads to models that depend more on the shortcut than the stable feature, even without overparameterization. This insight suggests that default-ERM's implicit inductive bias towards max-margin is unsuitable for perception tasks. Instead, we develop an inductive bias toward uniform margins and show that this bias guarantees dependence only on the perfect stable feature in the linear perception task. We develop loss functions that encourage uniform-margin solutions, called margin control (MARG-CTRL). MARG-CTRL mitigates shortcut learning on a variety of vision and language tasks, showing that better inductive biases can remove the need for expensive two-stage shortcut-mitigating methods in perception tasks.
翻訳日:2023-08-25 15:15:31 公開日:2023-08-24
# SICNN: ソフト干渉キャンセラによるニューラルネットワーク等化器

SICNN: Soft Interference Cancellation Inspired Neural Network Equalizers ( http://arxiv.org/abs/2308.12591v1 )

ライセンス: Link先を確認
Stefan Baumgartner and Oliver Lang and Mario Huemer(参考訳) デジタル無線通信システムの受信側では,従来モデルに基づく推定手法で行われている等化が重要な課題である。 モデルに基づく等化の多くの選択肢の中で、反復的ソフト干渉キャンセル(SIC)は、反復的推定手順中のハード決定データシンボル推定による誤差伝播を避けるため、良好な性能のアプローチである。 しかし, モデルに基づく手法は, 必要近似による計算複雑性と性能劣化に悩まされている。 本研究では、モデルベース反復SIC法の深い展開により設計され、モデルベース手法の主な欠点を解消する新しいニューラルネットワーク(NN--based equalization approach, SICNN)を提案する。 SICNNには様々なバリエーションがある。 SICNNv1はモデルベース手法と非常によく似ており、特に本研究で検討した通信システムである単一キャリア周波数領域等化システムに特化している。 第2の変種であるSICNNv2はより普遍的で、ブロックベースのデータ伝送方式を持つ任意の通信システムにおいて等化器として適用できる。 我々は両方のバリエーションの長所と短所を強調する。 さらに、SICNNv1とSICNNv2の両方に対して、学習可能なパラメータの数が大幅に削減されたバージョンを提示する。 提案したNNベースの等化器のビット誤り率性能と最先端のモデルベースおよびNNベースのアプローチを比較し,SICNNv1の他の手法よりも優れていることを示す。 また,提案したNNベースの等化手法の複雑度解析を行い,トレーニングセットのサイズがNNベースの等化器の性能に及ぼす影響について検討する。

Equalization is an important task at the receiver side of a digital wireless communication system, which is traditionally conducted with model-based estimation methods. Among the numerous options for model-based equalization, iterative soft interference cancellation (SIC) is a well-performing approach since error propagation caused by hard decision data symbol estimation during the iterative estimation procedure is avoided. However, the model-based method suffers from high computational complexity and performance degradation due to required approximations. In this work, we propose a novel neural network (NN-)based equalization approach, referred to as SICNN, which is designed by deep unfolding of a model-based iterative SIC method, eliminating the main disadvantages of its model-based counterpart. We present different variants of SICNN. SICNNv1 is very similar to the model-based method, and is specifically tailored for single carrier frequency domain equalization systems, which is the communication system we regard in this work. The second variant, SICNNv2, is more universal, and is applicable as an equalizer in any communication system with a block-based data transmission scheme. We highlight the pros and cons of both variants. Moreover, for both SICNNv1 and SICNNv2 we present a version with a highly reduced number of learnable parameters. We compare the achieved bit error ratio performance of the proposed NN-based equalizers with state-of-the-art model-based and NN-based approaches, highlighting the superiority of SICNNv1 over all other methods. Also, we present a thorough complexity analysis of the proposed NN-based equalization approaches, and we investigate the influence of the training set size on the performance of NN-based equalizers.
翻訳日:2023-08-25 15:08:38 公開日:2023-08-24
# 変形可能な物体の密対応による暗黙の形状表現の自己教師あり学習

Self-supervised Learning of Implicit Shape Representation with Dense Correspondence for Deformable Objects ( http://arxiv.org/abs/2308.12590v1 )

ライセンス: Link先を確認
Baowen Zhang, Jiahe Li, Xiaoming Deng, Yinda Zhang, Cuixia Ma, Hongan Wang(参考訳) 変形可能な物体の高密度対応による3次元形状表現の学習は、コンピュータビジョンの基本的な問題である。 既存のアプローチでは、例えば、人間の体や動物に対する骨格のポーズのような特定の意味領域のアノテーションが必要であり、追加のアノテーションの努力を必要とし、エラーの蓄積に苦しむ。 本稿では, 変形可能な物体に対するニューラルな暗黙的形状表現を学習し, テンプレート形状と高密度対応を3次元で表現できる, 自己教師型手法を提案する。 本手法は, 骨格と皮膚の重量の先行を必要とせず, 符号付き距離場で表現される形状の収集のみを必要とする。 この大きな変形に対処するために,学習したテンプレート形状をトレーニング形状と同一の潜在空間に拘束し,局所領域の剛性変換を強制し局所反射問題に対処する局所剛性制約の新しい定式化をデザインし,テンプレート形状と対応の合同学習による曖昧さを低減するための新しい階層的剛性制約を提案する。 広範な実験により, 模型は大きな変形を伴う形状を表現できることがわかった。 また,我々の形状表現は,テクスチャ転送と形状編集という2つの典型的な応用を競合性能でサポートできることを示した。 コードとモデルはhttps://iscas3dv.github.io/deformshapeで入手できる。

Learning 3D shape representation with dense correspondence for deformable objects is a fundamental problem in computer vision. Existing approaches often need additional annotations of specific semantic domain, e.g., skeleton poses for human bodies or animals, which require extra annotation effort and suffer from error accumulation, and they are limited to specific domain. In this paper, we propose a novel self-supervised approach to learn neural implicit shape representation for deformable objects, which can represent shapes with a template shape and dense correspondence in 3D. Our method does not require the priors of skeleton and skinning weight, and only requires a collection of shapes represented in signed distance fields. To handle the large deformation, we constrain the learned template shape in the same latent space with the training shapes, design a new formulation of local rigid constraint that enforces rigid transformation in local region and addresses local reflection issue, and present a new hierarchical rigid constraint to reduce the ambiguity due to the joint learning of template shape and correspondences. Extensive experiments show that our model can represent shapes with large deformations. We also show that our shape representation can support two typical applications, such as texture transfer and shape editing, with competitive performance. The code and models are available at https://iscas3dv.github.io/deformshape
翻訳日:2023-08-25 15:08:05 公開日:2023-08-24
# 視覚・言語ナビゲーションのための接地型エンティティランドマーク適応事前学習

Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation ( http://arxiv.org/abs/2308.12587v1 )

ライセンス: Link先を確認
Yibo Cui, Liang Xie, Yakun Zhang, Meishan Zhang, Ye Yan, Erwei Yin(参考訳) クロスモーダルアライメントは、VLN(Vision-and-Language Navigation)の重要な課題である。 既存の研究の多くは、グローバルな命令や単一サブインストラクションを対応する軌道にマッピングすることに集中している。 しかし、エンティティレベルできめ細かいアライメントを達成するというもう一つの重要な問題は、ほとんど考慮されない。 この問題に対処するため,VLNタスクのための新しい事前学習パラダイムであるGunded Entity-Landmark Adaptive (GELA)を提案する。 適応型事前学習パラダイムを実現するため,まず,GEL-R2Rと呼ばれるRoom-to-Room(R2R)データセットに,接地されたエンティティランドマークのヒューマンアノテーションを導入する。 さらに,3つの基礎的実体ランドマーク適応型事前学習目標も採用する。 1)エンティティ句予測、 2)ランドマーク境界ボックス予測、及び 3)エンティティ・ランドマーク・セマンティクスアライメントは、エンティティ句と環境ランドマークの間のきめ細かいクロスモーダルアライメントの学習を明示的に監督する。 最後に,vln with descriptive instructions (r2r) と対話命令 (cvdn) の2つのダウンストリームベンチマークでモデルを検証する。 包括的実験により,GELAモデルが両課題の最先端化を実現し,その有効性と一般化性を示した。

Cross-modal alignment is one key challenge for Vision-and-Language Navigation (VLN). Most existing studies concentrate on mapping the global instruction or single sub-instruction to the corresponding trajectory. However, another critical problem of achieving fine-grained alignment at the entity level is seldom considered. To address this problem, we propose a novel Grounded Entity-Landmark Adaptive (GELA) pre-training paradigm for VLN tasks. To achieve the adaptive pre-training paradigm, we first introduce grounded entity-landmark human annotations into the Room-to-Room (R2R) dataset, named GEL-R2R. Additionally, we adopt three grounded entity-landmark adaptive pre-training objectives: 1) entity phrase prediction, 2) landmark bounding box prediction, and 3) entity-landmark semantic alignment, which explicitly supervise the learning of fine-grained cross-modal alignment between entity phrases and environment landmarks. Finally, we validate our model on two downstream benchmarks: VLN with descriptive instructions (R2R) and dialogue instructions (CVDN). The comprehensive experiments show that our GELA model achieves state-of-the-art results on both tasks, demonstrating its effectiveness and generalizability.
翻訳日:2023-08-25 15:07:24 公開日:2023-08-24
# 連続アトラクタのない永続学習信号と作業記憶

Persistent learning signals and working memory without continuous attractors ( http://arxiv.org/abs/2308.12585v1 )

ライセンス: Link先を確認
Il Memming Park and \'Abel S\'agodi and Piotr Aleksander Sok\'o\l(参考訳) ポイントアトラクタや連続アトラクタといった安定なアトラクタ構造を持つ神経力学系は、作業記憶を必要とする有意義な時間的挙動を仮定している。 しかし、作業記憶は環境の時間構造の変化に対応するのに必要な有用な学習信号をサポートしない可能性がある。 また, 周期的, 準周期的アトラクタは, 広範に意味のある連続的アトラクタに加えて, 任意の時間的関係の学習を支援することも示している。 微調整問題に苦しむ連続的なアトラクタとは異なり、あまり探索されていない準周期的アトラクタは、時間的に構造化された振る舞いを生み出すための学習に特有な資格を有する。 本理論は、人工知能システムの設計に広く影響し、時間依存学習と作業記憶を支援する生物学的神経動力学の観察可能なシグネチャに関する予測を行う。 この理論に基づいて,時間的ダイナミクスの学習を必要とするタスクの標準手法より優れた人工的リカレントニューラルネットワークの新たな初期化手法を開発した。 また,リングアトラクターを使わずにヘッド方向を統合・維持する頑健なリカレントメモリ機構を提案する。

Neural dynamical systems with stable attractor structures, such as point attractors and continuous attractors, are hypothesized to underlie meaningful temporal behavior that requires working memory. However, working memory may not support useful learning signals necessary to adapt to changes in the temporal structure of the environment. We show that in addition to the continuous attractors that are widely implicated, periodic and quasi-periodic attractors can also support learning arbitrarily long temporal relationships. Unlike the continuous attractors that suffer from the fine-tuning problem, the less explored quasi-periodic attractors are uniquely qualified for learning to produce temporally structured behavior. Our theory has broad implications for the design of artificial learning systems and makes predictions about observable signatures of biological neural dynamics that can support temporal dependence learning and working memory. Based on our theory, we developed a new initialization scheme for artificial recurrent neural networks that outperforms standard methods for tasks that require learning temporal dynamics. Moreover, we propose a robust recurrent memory mechanism for integrating and maintaining head direction without a ring attractor.
翻訳日:2023-08-25 15:06:26 公開日:2023-08-24
# LORD: 未知のデータによるオープンセット認識の活用

LORD: Leveraging Open-Set Recognition with Unknown Data ( http://arxiv.org/abs/2308.12584v1 )

ライセンス: Link先を確認
Tobias Koch, Christian Riess, Thomas K\"ohler(参考訳) 完全に未知のデータを扱うことは、デプロイされた分類器にとって難しい。 分類モデルは、通常、静的に事前定義されたデータセットで訓練され、未割り当ての機能空間のために暗く保たれる。 その結果、彼らは推論中に分散外データを扱うのに苦労した。 このタスクをクラスレベルで扱うことをopen-set recognition(osr)と呼ぶ。 しかし、ほとんどのOSRメソッドは本質的に限定的であり、クローズドセットの分類器を訓練し、下流の予測をOSRに適応させるだけである。 この研究は、未知のデータを利用するオープンセット認識を活用するためのフレームワークであるLORDを提示する。 LORDは、分類器訓練中にオープンスペースを明示的にモデル化し、そのようなアプローチの体系的な評価を提供する。 背景データを活用した3つのモデル非依存なトレーニング戦略を特定し,それらを確立された分類器に適用した。 LORDの広範囲な評価プロトコルにより,未知データの認識精度が向上することを示す。 ベンチマークは様々な要件レベルにわたる詳細な分析を容易にする。 広範かつコストのかかるバックグラウンドデータセットへの依存を軽減するため、私たちは、既製のデータ生成技術としてmixupを探索する。 実験では背景データセットの代替としてmixupの有効性を強調する。 混合合成に対する軽量な制約はOSRの性能をさらに向上させる。

Handling entirely unknown data is a challenge for any deployed classifier. Classification models are typically trained on a static pre-defined dataset and are kept in the dark for the open unassigned feature space. As a result, they struggle to deal with out-of-distribution data during inference. Addressing this task on the class-level is termed open-set recognition (OSR). However, most OSR methods are inherently limited, as they train closed-set classifiers and only adapt the downstream predictions to OSR. This work presents LORD, a framework to Leverage Open-set Recognition by exploiting unknown Data. LORD explicitly models open space during classifier training and provides a systematic evaluation for such approaches. We identify three model-agnostic training strategies that exploit background data and applied them to well-established classifiers. Due to LORD's extensive evaluation protocol, we consistently demonstrate improved recognition of unknown data. The benchmarks facilitate in-depth analysis across various requirement levels. To mitigate dependency on extensive and costly background datasets, we explore mixup as an off-the-shelf data generation technique. Our experiments highlight mixup's effectiveness as a substitute for background datasets. Lightweight constraints on mixup synthesis further improve OSR performance.
翻訳日:2023-08-25 15:05:53 公開日:2023-08-24
# ビザンチンロバスト連合学習へのフーバー損失最小化アプローチ

A Huber Loss Minimization Approach to Byzantine Robust Federated Learning ( http://arxiv.org/abs/2308.12581v1 )

ライセンス: Link先を確認
Puning Zhao, Fei Yu, Zhiguo Wan(参考訳) フェデレートされた学習システムは敵の攻撃を受けやすい。 これに対抗するために,フーバー損失最小化に基づく新しいアグリゲータを導入し,包括的理論解析を提供する。 独立で同一に分散された仮定(すなわちd)の下では、我々のアプローチは既存の方法と比較していくつかの利点がある。 まず、攻撃されたクライアントの比率を表す$\epsilon$に最適に依存する。 第二に、我々のアプローチは$\epsilon$の正確な知識を必要としない。 第3に、異なるクライアントが不平等なデータサイズを持つことができる。 次に、クライアントがわずかに異なる分布を持つような非i.dデータを含むように分析を拡張します。

Federated learning systems are susceptible to adversarial attacks. To combat this, we introduce a novel aggregator based on Huber loss minimization, and provide a comprehensive theoretical analysis. Under independent and identically distributed (i.i.d) assumption, our approach has several advantages compared to existing methods. Firstly, it has optimal dependence on $\epsilon$, which stands for the ratio of attacked clients. Secondly, our approach does not need precise knowledge of $\epsilon$. Thirdly, it allows different clients to have unequal data sizes. We then broaden our analysis to include non-i.i.d data, such that clients have slightly different distributions.
翻訳日:2023-08-25 15:05:36 公開日:2023-08-24
# Mind vs. Mouth:大規模言語モデルにおける社会的バイアスの再ジャッジの不整合の測定について

Mind vs. Mouth: On Measuring Re-judge Inconsistency of Social Bias in Large Language Models ( http://arxiv.org/abs/2308.12578v1 )

ライセンス: Link先を確認
Yachao Zhao, Bo Wang, Dongming Zhao, Kun Huang, Yan Wang, Ruifang He, Yuexian Hou(参考訳) 近年の研究では、LLM(Pre-trained Large Language Models)は、人間が観察したような認知的構造を持っていることが示されており、研究者はLLMの認知的側面を調査する必要がある。 本稿では,心理学における識別的二段階認知構造である明示的・暗黙的社会バイアスに着目した。 これは、個人の明示的な社会バイアス(その発言におけるバイアスの意識表現)が、彼らの無意識のバイアスを表す暗黙の社会バイアスと異なる可能性があることを仮定している。 社会バイアスにおける「再帰不整合」として知られるLSMの2段階的アプローチと並列現象の発見を提案する。 最初の段階では、llmは自動的にステートメントを完了させ、潜在的に暗黙的な社会的バイアスを組み込む。 しかし、その後の段階では、同じLLMがそれ自体で生成された偏りのある文を再判断するが、矛盾する。 この再判断の不整合は、人間の無意識な暗黙の社会バイアスと、その認識された明示的な社会バイアスの矛盾に類似していると考えられる。 心理学における共通性バイアスに関するChatGPTおよびGPT-4に関する実験的研究は、再ジャッジの不整合の高度に安定した性質を裏付ける。 この発見は、LSMの能力が強化されるにつれて、多様な認知的構造が現れることを示唆している。 したがって、心理学的理論を活用することで、LLMにおける明示的および暗黙的な構成表現を規定する基礎的なメカニズムに関する洞察を得られる。

Recent researches indicate that Pre-trained Large Language Models (LLMs) possess cognitive constructs similar to those observed in humans, prompting researchers to investigate the cognitive aspects of LLMs. This paper focuses on explicit and implicit social bias, a distinctive two-level cognitive construct in psychology. It posits that individuals' explicit social bias, which is their conscious expression of bias in the statements, may differ from their implicit social bias, which represents their unconscious bias. We propose a two-stage approach and discover a parallel phenomenon in LLMs known as "re-judge inconsistency" in social bias. In the initial stage, the LLM is tasked with automatically completing statements, potentially incorporating implicit social bias. However, in the subsequent stage, the same LLM re-judges the biased statement generated by itself but contradicts it. We propose that this re-judge inconsistency can be similar to the inconsistency between human's unaware implicit social bias and their aware explicit social bias. Experimental investigations on ChatGPT and GPT-4 concerning common gender biases examined in psychology corroborate the highly stable nature of the re-judge inconsistency. This finding may suggest that diverse cognitive constructs emerge as LLMs' capabilities strengthen. Consequently, leveraging psychological theories can provide enhanced insights into the underlying mechanisms governing the expressions of explicit and implicit constructs in LLMs.
翻訳日:2023-08-25 15:05:26 公開日:2023-08-24
# reb:産業異常検出のための表現バイアスの低減

REB: Reducing Biases in Representation for Industrial Anomaly Detection ( http://arxiv.org/abs/2308.12577v1 )

ライセンス: Link先を確認
Shuai Lyu and Dongmei Mo and Waikeung Wong(参考訳) 既存のK-nearest neighbor (KNN) 探索法では, 既訓練のCNNモデルを用いて特徴表現を取得し, 欠陥検出のための距離測定を行う。 しかし、これらの機能はドメインバイアスや特徴空間の局所密度の違いを無視し、検出性能を制限しているため、完全には利用されない。 本稿では,事前学習モデルのドメインバイアスを考慮し,自然欠陥を模倣した欠陥生成戦略(defectmaker)を用いて,ドメイン適応性向上のための自己教師付き学習タスクを構築することにより,表現におけるバイアス低減(reb)を提案する。 さらに,局所密度KNN(LDKNN)を提案し,局所密度バイアスを低減し,効果的な異常検出を実現する。 我々は広く使われているMVTec ADベンチマークで99.5\% AUROCの有望な結果を得る。 また、挑戦的なMVTec LOCO ADデータセットで88.0\% AUROCを達成し、最先端の結果に4.7\% AUROCの改善をもたらす。 全ての結果はVgg11やResnet18のような小さなバックボーンネットワークで得られ、実用的産業用途におけるREBの有効性と効率性を示している。

Existing K-nearest neighbor (KNN) retrieval-based methods usually conduct industrial anomaly detection in two stages: obtain feature representations with a pre-trained CNN model and perform distance measures for defect detection. However, the features are not fully exploited as they ignore domain bias and the difference of local density in feature space, which limits the detection performance. In this paper, we propose Reducing Biases (REB) in representation by considering the domain bias of the pre-trained model and building a self-supervised learning task for better domain adaption with a defect generation strategy (DefectMaker) imitating the natural defects. Additionally, we propose a local density KNN (LDKNN) to reduce the local density bias and obtain effective anomaly detection. We achieve a promising result of 99.5\% AUROC on the widely used MVTec AD benchmark. We also achieve 88.0\% AUROC on the challenging MVTec LOCO AD dataset and bring an improvement of 4.7\% AUROC to the state-of-the-art result. All results are obtained with smaller backbone networks such as Vgg11 and Resnet18, which indicates the effectiveness and efficiency of REB for practical industrial applications.
翻訳日:2023-08-25 15:05:02 公開日:2023-08-24
# 量子力学は反ファクト的定性に適合する

Quantum mechanics is compatible with counterfactual definiteness ( http://arxiv.org/abs/2308.12576v1 )

ライセンス: Link先を確認
Janne V. Kujala and Ehtibar N. Dzhafarov(参考訳) counterfactual fixedness (cfd) とは、ある性質がある文脈で測定された場合、その性質が異なる文脈で測定された場合、測定の結果が同じであったことを意味する。 文脈には、問題のあるものと一緒になされた他のすべての測定結果と、それら間の時空間的関係が含まれます。 CFDの証明は非破壊的であり、測定される性質に対する文脈の物理的影響は自然の法則によって排除されるので、この性質を測る人が文脈を確かめる方法を持っていない。 通常、量子力学においてCFDは保持されない、なぜなら、全ての文脈において同じ値を同じ性質に割り当てると、その性質は論理的矛盾に陥り、少なくとも量子理論や実験的な証拠に反するからである。 この主張は、可能なコンテキストの1つだけが事実的コンテキストであり、他のすべてのコンテキストが反実的であることを考慮すれば、裏付けられるものではないことを示す。 このことを念頭に置いて、任意の確率変数系はCFDを満たすものとみなすことができる。 cfdの概念は、非文脈性の概念と密接に関連しているが、その性質は、系、特にいくつかの量子系に逆らって保持されるかもしれない、あるいは持たないかもしれない後者の性質である。

Counterfactual definiteness (CFD) means that if some property is measured in some context, then the outcome of the measurement would have been the same had this property been measured in a different context. A context includes all other measurements made together with the one in question, and the spatiotemporal relations among them. The proviso for CFD is non-disturbance: any physical influence of the contexts on the property being measured is excluded by the laws of nature, so that no one measuring this property has a way of ascertaining its context. It is usually claimed that in quantum mechanics CFD does not hold, because if one assigns the same value to a property in all contexts it is measured in, one runs into a logical contradiction, or at least contravenes quantum theory and experimental evidence. We show that this claim is not substantiated if one takes into account that only one of the possible contexts can be a factual context, all other contexts being counterfactual. With this in mind, any system of random variables can be viewed as satisfying CFD. The concept of CFD is closely related to but distinct from that of noncontextuality, and it is the latter property that may or may not hold for a system, in particular being contravened by some quantum systems.
翻訳日:2023-08-25 15:04:40 公開日:2023-08-24
# 微細ICU患者の類似性分析とリスク予測のためのハイパーグラフ畳み込みネットワーク

Hypergraph Convolutional Networks for Fine-grained ICU Patient Similarity Analysis and Risk Prediction ( http://arxiv.org/abs/2308.12575v1 )

ライセンス: Link先を確認
Yuxi Liu, Zhenhao Zhang, Shaowen Qin, Flora D. Salim, Antonio Jimeno Yepes, Jun Shen(参考訳) 集中治療ユニット(ICU、Intensive Care Unit)は、重篤な患者を認め、継続的な監視と治療を提供する病院の最も重要な部分の1つである。 臨床意思決定における医療従事者を支援する様々な患者結果予測手法が試みられている。 既存の方法は、ディープニューラルネットワークを用いて隠れた特徴構造を捉える患者間の類似度を測定することに重点を置いている。 しかし、患者の特徴(診断符号など)や、下流臨床予測に対する因果的影響など、高次関係は無視されている。 本稿では,ハイパーグラフにおける診断符号間の非ペアワイズ関係を表現し,隠れた特徴構造を捉えることで,パーソナライズされた死亡リスク予測のための患者類似度を算出できる新しいハイパーグラフ畳み込みネットワークを提案する。 eICU共同研究データベースを用いた評価の結果,本手法は死亡リスク予測の最先端モデルよりも優れた性能を示した。 さらに,いくつかのケーススタディの結果から,意思決定における透明性とロバスト性の向上にグラフネットワークの構築が有効であることが示された。

The Intensive Care Unit (ICU) is one of the most important parts of a hospital, which admits critically ill patients and provides continuous monitoring and treatment. Various patient outcome prediction methods have been attempted to assist healthcare professionals in clinical decision-making. Existing methods focus on measuring the similarity between patients using deep neural networks to capture the hidden feature structures. However, the higher-order relationships are ignored, such as patient characteristics (e.g., diagnosis codes) and their causal effects on downstream clinical predictions. In this paper, we propose a novel Hypergraph Convolutional Network that allows the representation of non-pairwise relationships among diagnosis codes in a hypergraph to capture the hidden feature structures so that fine-grained patient similarity can be calculated for personalized mortality risk prediction. Evaluation using a publicly available eICU Collaborative Research Database indicates that our method achieves superior performance over the state-of-the-art models on mortality risk prediction. Moreover, the results of several case studies demonstrated the effectiveness of constructing graph networks in providing good transparency and robustness in decision-making.
翻訳日:2023-08-25 15:04:17 公開日:2023-08-24
# 電磁システムのウィグナー関数特性

Wigner function properties for electromagnetic systems ( http://arxiv.org/abs/2308.12613v1 )

ライセンス: Link先を確認
E.E. Perepelkin, B.I. Sadovnikov, N.G. Inozemtseva, P.V. Afonin(参考訳) Wigner-Vlasov形式を用いて、電磁場におけるスカラー粒子に対するシュリンガー方程式の正確な3次元解を構築する。 電場と磁場は一様ではない。 波動関数の正確な表現に従って、ウィグナー関数の2つのタイプの探索を行う。 最初の函数は、修正運動量を持つ通常のウィグナー函数である。 第2のウィグナー函数は、論文 (Phys. A 35 2791 (1987)) または [Phys. B 99 014423 (2019)] におけるワイル・ストラトノビッチ変換に基づいて構成される。 第2の関数は、第1の関数とは異なり、ガウス分布を持つ波動関数に対して負の値の領域を持つことが判明した(ハドソンの定理)。 一方、ウィグナー関数を知ることで、平均運動量ベクトル場と量子系のエネルギースペクトルの分布を見つけることができる。 一方、Wigner-Vlasov形式主義の枠組みの中では、平均運動量分布とエネルギーの大きさが知られている。 したがって、ウィグナー関数に従って得られる平均運動量分布とエネルギー値は、正確な運動量分布とエネルギー値と比較することができる。 本稿では,この比較と相違点について述べる。 第1のウィグナー関数では、電磁部分を持つモヤル方程式とハミルトン・ヤコビ作用素方程式の類似が得られる。 電磁相互作用を伴う運動方程式 {\guillemotleft} の演算子類似体を構築する。 第2のvlasov方程式は、電磁相互作用を持つ系のvlasov-moyal近似に対する作用素式を求める。

Using the Wigner-Vlasov formalism, an exact 3D solution of the Schr\"odinger equation for a scalar particle in an electromagnetic field is constructed. Electric and magnetic fields are non-uniform. According to the exact expression for the wave function, the search for two types of the Wigner functions is conducted. The first function is the usual Wigner function with a modified momentum. The second Wigner function is constructed on the basis of the Weyl-Stratonovich transform in papers [Phys. Rev. A 35 2791 (1987)] or [Phys. Rev. B 99 014423 (2019)]. It turns out that the second function, unlike the first one, has areas of negative values for wave functions with the Gaussian distribution (Hudson's theorem). On the one hand, knowing the Wigner functions allows one to find the distribution of the mean momentum vector field and the energy spectrum of the quantum system. On the other hand, within the framework of the Wigner-Vlasov formalism, the mean momentum distribution and the magnitude of the energy are initially known. Consequently, the mean momentum distributions and energy values obtained according to the Wigner functions can be compared with the exact momentum distribution and energy values. This paper presents this comparison and describes the differences. For the first Wigner function, an analog of the Moyal equation with an electromagnetic part and the Hamilton-Jacobi operator equation are obtained. An operator analogue of the {\guillemotleft}motion equation{\guillemotright} with electromagnetic interaction is constructed. For the second Vlasov equation, an operator expression for the Vlasov-Moyal approximation for systems with electromagnetic interaction is obtained.
翻訳日:2023-08-25 14:58:50 公開日:2023-08-24
# Try with Simpler -- ログベース異常検出における主成分分析の改善の評価

Try with Simpler -- An Evaluation of Improved Principal Component Analysis in Log-based Anomaly Detection ( http://arxiv.org/abs/2308.12612v1 )

ライセンス: Link先を確認
Lin Yang, Junjie Chen, Zhihao Gong, Shutao Gao, Hongyu Zhang, Yue Kang, Huaan Li(参考訳) ディープラーニング(dl)の急速な成長は、ログベースの異常検出の強化への関心を高めた。 本手法は,ログイベント(ログメッセージテンプレート)から意味を抽出し,異常検出のための高度なDLモデルを開発することを目的とする。 しかし、これらのDL手法は、モデルの複雑さにより、トレーニングデータ、ラベル、計算資源に大きく依存するなどの課題に直面している。 対照的に、従来の機械学習やデータマイニング技術は、DLよりもデータ依存が少なく、効率も良くない。 ログベースの異常検出をより実用的なものにするため、dlの有効性にマッチする従来のテクニックを強化することが目標だ。 異なるドメイン(Stack Overflowにリンクする)における以前の研究は、最適化された従来のテクニックが最先端のDLメソッドと競合する可能性があることを示唆している。 この概念からインスピレーションを得て、実証的研究を行った。 従来の手法である教師なしPCA(Principal Component Analysis)を,軽量なセマンティックなログ表現を取り入れて最適化した。 これは、トレーニングデータの未発見のログイベントの問題に対処し、ログ表現を強化する。 本研究は,4つのDLベース,2つの従来手法,およびパブリックデータセットと産業データセットを用いた最適化PCA手法を含む,ログベースの異常検出手法を比較した。 その結果, 高度教師付き/半教師付きDL手法と, 限られた訓練データと資源効率でより安定でありながら, 最適化された教師なしPCA手法が類似した効果を達成できることが示唆された。 これは、小さなが影響のある適応を通じて、従来のテクニックの適応性と強みを示しています。

The rapid growth of deep learning (DL) has spurred interest in enhancing log-based anomaly detection. This approach aims to extract meaning from log events (log message templates) and develop advanced DL models for anomaly detection. However, these DL methods face challenges like heavy reliance on training data, labels, and computational resources due to model complexity. In contrast, traditional machine learning and data mining techniques are less data-dependent and more efficient but less effective than DL. To make log-based anomaly detection more practical, the goal is to enhance traditional techniques to match DL's effectiveness. Previous research in a different domain (linking questions on Stack Overflow) suggests that optimized traditional techniques can rival state-of-the-art DL methods. Drawing inspiration from this concept, we conducted an empirical study. We optimized the unsupervised PCA (Principal Component Analysis), a traditional technique, by incorporating lightweight semantic-based log representation. This addresses the issue of unseen log events in training data, enhancing log representation. Our study compared seven log-based anomaly detection methods, including four DL-based, two traditional, and the optimized PCA technique, using public and industrial datasets. Results indicate that the optimized unsupervised PCA technique achieves similar effectiveness to advanced supervised/semi-supervised DL methods while being more stable with limited training data and resource-efficient. This demonstrates the adaptability and strength of traditional techniques through small yet impactful adaptations.
翻訳日:2023-08-25 14:58:25 公開日:2023-08-24
# 弱教師付き時間的行動定位におけるあいまいさ低減のためのクロスビデオ文脈知識探索と活用

Cross-Video Contextual Knowledge Exploration and Exploitation for Ambiguity Reduction in Weakly Supervised Temporal Action Localization ( http://arxiv.org/abs/2308.12609v1 )

ライセンス: Link先を確認
Songchun Zhang, and Chunhui Zhao(参考訳) weakly supervised temporal action localization(wstal)は、ビデオレベルのラベルを使用して、未トリミングビデオ内のアクションをローカライズすることを目的としている。 最近の進歩にもかかわらず、既存のアプローチは主にローカライズ・バイ・クラス化パイプラインに従っており、一般に各セグメントを個別に処理し、限られた文脈情報のみを活用する。 その結果、モデルには様々な行動パターンの包括的理解(例:外観と時間構造)が欠如しており、分類学習と時間的局所化の曖昧さに繋がる。 本研究は,データセット内のクロスビデオ文脈知識を探索し,弱いラベルのみによるアクションインスタンスのデータセットレベルのセマンティクス構造を復元することにより,きめ細かいアクションパターンの総合的な理解を間接的に改善し,前述の曖昧さを緩和することで,新たな視点からこの問題に対処した。 具体的には、Robust Memory-Guided Contrastive Learning (RMGCL)モジュールとGlobal Knowledge Summarization and Aggregation (GKSA)モジュールを含むエンドツーエンドフレームワークを提案する。 まず、RMGCLモジュールは、ビデオ間のアクション機能のコントラストと一貫性を探求し、より構造化されコンパクトな埋め込み空間の学習を支援し、分類学習における曖昧さを低減する。 さらに、gksaモジュールは、クロスビデオ代表行動知識を学習可能な方法で効率的に要約し、総合的な行動パターン理解を促進し、その結果、自己学習のための自信の高い擬似ラベルの生成を可能にし、時間的局在の曖昧さを緩和する。 THUMOS14, ActivityNet1.3, FineAction に関する大規模な実験により,本手法が最先端の手法よりも優れており,他の WSTAL 手法に簡単に接続可能であることが示された。

Weakly supervised temporal action localization (WSTAL) aims to localize actions in untrimmed videos using video-level labels. Despite recent advances, existing approaches mainly follow a localization-by-classification pipeline, generally processing each segment individually, thereby exploiting only limited contextual information. As a result, the model will lack a comprehensive understanding (e.g. appearance and temporal structure) of various action patterns, leading to ambiguity in classification learning and temporal localization. Our work addresses this from a novel perspective, by exploring and exploiting the cross-video contextual knowledge within the dataset to recover the dataset-level semantic structure of action instances via weak labels only, thereby indirectly improving the holistic understanding of fine-grained action patterns and alleviating the aforementioned ambiguities. Specifically, an end-to-end framework is proposed, including a Robust Memory-Guided Contrastive Learning (RMGCL) module and a Global Knowledge Summarization and Aggregation (GKSA) module. First, the RMGCL module explores the contrast and consistency of cross-video action features, assisting in learning more structured and compact embedding space, thus reducing ambiguity in classification learning. Further, the GKSA module is used to efficiently summarize and propagate the cross-video representative action knowledge in a learnable manner to promote holistic action patterns understanding, which in turn allows the generation of high-confidence pseudo-labels for self-learning, thus alleviating ambiguity in temporal localization. Extensive experiments on THUMOS14, ActivityNet1.3, and FineAction demonstrate that our method outperforms the state-of-the-art methods, and can be easily plugged into other WSTAL methods.
翻訳日:2023-08-25 14:58:02 公開日:2023-08-24
# HR-Pro:階層的信頼性伝播による時間的行動局所化

HR-Pro: Point-supervised Temporal Action Localization via Hierarchical Reliability Propagation ( http://arxiv.org/abs/2308.12608v1 )

ライセンス: Link先を確認
Huaxin Zhang, Xiang Wang, Xiaohao Xu, Zhiwu Qing, Changxin Gao, Nong Sang(参考訳) PTAL(Point-supervised Temporal Action Localization)はラベル効率学習のための新たな研究方向である。 しかし、現在のメソッドは主にスニペットレベルかインスタンスレベルのネットワークを最適化することに集中しており、両方のレベルでポイントアノテーションの固有の信頼性を無視している。 本稿では、スニペットレベルの識別学習とインスタンスレベルの完全性学習の2つの段階からなる階層的信頼性伝搬(HR-Pro)フレームワークを提案する。 スニペットレベル学習では,オンライン更新メモリを導入し,各クラスに信頼性の高いスニペットプロトタイプを格納する。 次に、Reliability-aware Attention Blockを使用して、スニペットの動画内およびビデオ間の依存関係をキャプチャし、より差別的でロバストなスニペット表現を実現します。 インスタンスレベルの学習では,スニペットとインスタンスを接続する手段として,ポイントベースの提案生成手法を提案する。 多段階の信頼性認識学習により、予測された提案の信頼性と時間的境界をより正確に得ることができる。 私たちのHR-Proは、THUMOS14で平均60.3%の印象的なmAPを含む、複数の挑戦的なベンチマークで最先端のパフォーマンスを実現しています。 特に、我々のHR-Proは、これまでのすべてのポイント管理手法をはるかに上回り、競争力のある完全管理手法よりも優れています。 コードはhttps://github.com/pipixin321/HR-Proで入手できる。

Point-supervised Temporal Action Localization (PSTAL) is an emerging research direction for label-efficient learning. However, current methods mainly focus on optimizing the network either at the snippet-level or the instance-level, neglecting the inherent reliability of point annotations at both levels. In this paper, we propose a Hierarchical Reliability Propagation (HR-Pro) framework, which consists of two reliability-aware stages: Snippet-level Discrimination Learning and Instance-level Completeness Learning, both stages explore the efficient propagation of high-confidence cues in point annotations. For snippet-level learning, we introduce an online-updated memory to store reliable snippet prototypes for each class. We then employ a Reliability-aware Attention Block to capture both intra-video and inter-video dependencies of snippets, resulting in more discriminative and robust snippet representation. For instance-level learning, we propose a point-based proposal generation approach as a means of connecting snippets and instances, which produces high-confidence proposals for further optimization at the instance level. Through multi-level reliability-aware learning, we obtain more reliable confidence scores and more accurate temporal boundaries of predicted proposals. Our HR-Pro achieves state-of-the-art performance on multiple challenging benchmarks, including an impressive average mAP of 60.3% on THUMOS14. Notably, our HR-Pro largely surpasses all previous point-supervised methods, and even outperforms several competitive fully supervised methods. Code will be available at https://github.com/pipixin321/HR-Pro.
翻訳日:2023-08-25 14:57:26 公開日:2023-08-24
# 通信加入者に提供する欲望のあるアプローチ

A Greedy Approach for Offering to Telecom Subscribers ( http://arxiv.org/abs/2308.12606v1 )

ライセンス: Link先を確認
Piyush Kanti Bhunre, Tanmay Sen, and Arijit Sarkar(参考訳) 顧客維持やチャーン防止は通信事業者にとって難しい課題である。 効果的なアプローチの1つは、契約者に魅力的なインセンティブまたは追加のサービスまたはお金を提供することで、彼らが関与し続け、彼らがオペレーターのネットワークに長く滞在することを保証することである。 しばしば、オファーキャンペーンを実施するために、オペレーターは一定の金額の金融予算を割り当てる。 このキャンペーンの難しい部分は、大きな加入者ベースから顧客の集合を選択し、オペレーターの目的を達成するために個人に提供すべき金額を決定することである。 購読者の選択と、選択した加入者へのオファーの選択には、複数の目的(例えば、収益の最大化、チャーン数の最小化)がある。 金銭的利益とは別に、追加のデータ、sms、ホットスポットテザリングなど多くのものが含まれる。 この問題はオファー最適化として知られている。 本稿では、加入者チャーンをシナリオとして予測収益を最大化することにより、不均一な提供条件下でのオペレーティングを最適化するための新しい組合せアルゴリズムを提案する。 提案アルゴリズムは,非常に大きな加入者ベースであっても効率的かつ正確である。

Customer retention or churn prevention is a challenging task of a telecom operator. One of the effective approaches is to offer some attractive incentive or additional services or money to the subscribers for keeping them engaged and make sure they stay in the operator's network for longer time. Often, operators allocate certain amount of monetary budget to carry out the offer campaign. The difficult part of this campaign is the selection of a set of customers from a large subscriber-base and deciding the amount that should be offered to an individual so that operator's objective is achieved. There may be multiple objectives (e.g., maximizing revenue, minimizing number of churns) for selection of subscriber and selection of an offer to the selected subscriber. Apart from monetary benefit, offers may include additional data, SMS, hots-spot tethering, and many more. This problem is known as offer optimization. In this paper, we propose a novel combinatorial algorithm for solving offer optimization under heterogeneous offers by maximizing expected revenue under the scenario of subscriber churn, which is, in general, seen in telecom domain. The proposed algorithm is efficient and accurate even for a very large subscriber-base.
翻訳日:2023-08-25 14:57:00 公開日:2023-08-24
# APLA: 対向訓練を可能とした遅延雑音に対する追加摂動

APLA: Additional Perturbation for Latent Noise with Adversarial Training Enables Consistency ( http://arxiv.org/abs/2308.12605v1 )

ライセンス: Link先を確認
Yupu Yao, Shangqi Deng, Zihan Cao, Harry Zhang, Liang-Jian Deng(参考訳) 拡散モデルはビデオ生成において有望な進歩を示した。 しかし、フレーム間の局所的な詳細を維持するのに苦労することが多い。 1つの根本的な原因は、従来の拡散モデルが入力自体の固有情報の影響を完全に考慮せずに予測ノイズを利用してガウス雑音分布を近似することである。 さらに、これらのモデルは予測と参照の区別を強調し、ビデオに固有の情報を無視する。 自己注意機構に着想を得たこの制限に対処するため,拡散モデルに基づく新たなテキスト・ツー・ビデオ(T2V)生成ネットワーク構造を提案する。 本手法は,単一の映像を入力としてのみ必要とし,事前学習した安定拡散ネットワーク上に構築する。 特に,ビデオ生成トランスフォーマ (vgt) と呼ばれる,新たなコンパクトネットワークを導入する。 この補助成分は、入力に含まれる固有情報から摂動を抽出し、時間的予測中に不整合画素を精製するように設計されている。 我々は、トランスフォーマーと畳み込みのハイブリッドアーキテクチャを利用して、時間的複雑さを補償し、ビデオ内の異なるフレーム間の一貫性を高める。 実験は、生成したビデオの質的および定量的に一貫性が顕著に向上することを示しています。

Diffusion models have exhibited promising progress in video generation. However, they often struggle to retain consistent details within local regions across frames. One underlying cause is that traditional diffusion models approximate Gaussian noise distribution by utilizing predictive noise, without fully accounting for the impact of inherent information within the input itself. Additionally, these models emphasize the distinction between predictions and references, neglecting information intrinsic to the videos. To address this limitation, inspired by the self-attention mechanism, we propose a novel text-to-video (T2V) generation network structure based on diffusion models, dubbed Additional Perturbation for Latent noise with Adversarial training (APLA). Our approach only necessitates a single video as input and builds upon pre-trained stable diffusion networks. Notably, we introduce an additional compact network, known as the Video Generation Transformer (VGT). This auxiliary component is designed to extract perturbations from the inherent information contained within the input, thereby refining inconsistent pixels during temporal predictions. We leverage a hybrid architecture of transformers and convolutions to compensate for temporal intricacies, enhancing consistency between different frames within the video. Experiments demonstrate a noticeable improvement in the consistency of the generated videos both qualitatively and quantitatively.
翻訳日:2023-08-25 14:56:40 公開日:2023-08-24
# promptmrg: 診断駆動型医療報告書作成プロンプト

PromptMRG: Diagnosis-Driven Prompts for Medical Report Generation ( http://arxiv.org/abs/2308.12604v1 )

ライセンス: Link先を確認
Haibo Jin, Haoxuan Che, Yi Lin, Hao Chen(参考訳) 医療報告自動生成(MRG)は, 放射線科医が報告書作成の負担を軽減できる可能性が高く, 研究価値が高い。 最近の進歩にもかかわらず、正確な臨床理解の必要性と臨床所見の同定のために正確なmrgはいまだに困難である。 さらに、疾患の不均衡分布は、希少な疾患がトレーニングデータに不足しているため、診断性能の信頼性が低下するため、より顕著な課題となっている。 これらの課題に対処するために,診断対応プロンプトを用いてMRGの診断精度を向上させることを目的とした,医療報告生成のための診断駆動プロンプト(PromptMRG)を提案する。 具体的には、PromptMRGは、追加の疾患分類ブランチを持つエンコーダデコーダアーキテクチャに基づいている。 レポート生成時には、分類ブランチからの診断結果をトークンプロンプトに変換して、生成プロセスを明示的にガイドする。 診断精度をさらに向上するため,事前学習したCLIPの知識を活用して,データベースから類似したレポートを検索し,クエリ画像の診断を支援するクロスモーダル機能拡張を設計する。 さらに、各疾患の個別学習状況に基づいて分類枝に適応的ロジット調整損失を適用することで、テキストデコーダの疾患分布操作不能の障壁を克服し、疾患の不均衡問題に対処する。 2つのmrgベンチマークを用いた実験では, 両データセットで最新の臨床効果が得られるように, 提案手法の有効性が示された。

Automatic medical report generation (MRG) is of great research value as it has the potential to relieve radiologists from the heavy burden of report writing. Despite recent advancements, accurate MRG remains challenging due to the need for precise clinical understanding and the identification of clinical findings. Moreover, the imbalanced distribution of diseases makes the challenge even more pronounced, as rare diseases are underrepresented in training data, making their diagnostic performance unreliable. To address these challenges, we propose diagnosis-driven prompts for medical report generation (PromptMRG), a novel framework that aims to improve the diagnostic accuracy of MRG with the guidance of diagnosis-aware prompts. Specifically, PromptMRG is based on encoder-decoder architecture with an extra disease classification branch. When generating reports, the diagnostic results from the classification branch are converted into token prompts to explicitly guide the generation process. To further improve the diagnostic accuracy, we design cross-modal feature enhancement, which retrieves similar reports from the database to assist the diagnosis of a query image by leveraging the knowledge from a pre-trained CLIP. Moreover, the disease imbalanced issue is addressed by applying an adaptive logit-adjusted loss to the classification branch based on the individual learning status of each disease, which overcomes the barrier of text decoder's inability to manipulate disease distributions. Experiments on two MRG benchmarks show the effectiveness of the proposed method, where it obtains state-of-the-art clinical efficacy performance on both datasets.
翻訳日:2023-08-25 14:56:20 公開日:2023-08-24
# PoseSync:ロバストポーズに基づくビデオ同期

PoseSync: Robust pose based video synchronization ( http://arxiv.org/abs/2308.12600v1 )

ライセンス: Link先を確認
Rishit Javia, Falak Shah, and Shivam Dave(参考訳) ポースベースのビデオ同期は、ゲームプレイのパフォーマンス評価、振付、指導選手などの複数の領域に応用できる。 被験者の行動は、専門家が行う行動と比較し、評価することができる。 本稿では,ポーズに基づく映像同期のためのエンドツーエンドパイプラインを提案する。 第1ステップは、画像に存在する人物のいる領域を収穫し、次いで、収穫された画像のポーズ検出を行う。 次に、動的時間ウォーピング(DTW)が、ポーズキーポイント間の角度/距離測定に応用され、スケールとシフト不変のポーズマッチングパイプラインが導かれる。

Pose based video sychronization can have applications in multiple domains such as gameplay performance evaluation, choreography or guiding athletes. The subject's actions could be compared and evaluated against those performed by professionals side by side. In this paper, we propose an end to end pipeline for synchronizing videos based on pose. The first step crops the region where the person present in the image followed by pose detection on the cropped image. This is followed by application of Dynamic Time Warping(DTW) on angle/ distance measures between the pose keypoints leading to a scale and shift invariant pose matching pipeline.
翻訳日:2023-08-25 14:55:54 公開日:2023-08-24
# 音楽聴取改善のための時間周波数変換器の試作

Exploiting Time-Frequency Conformers for Music Audio Enhancement ( http://arxiv.org/abs/2308.12599v1 )

ライセンス: Link先を確認
Yunkee Chae, Junghyun Koo, Sungho Lee and Kyogu Lee(参考訳) インターネット上のビデオプラットフォームの普及に伴い、モバイルデバイスによる演奏の録音が一般的になっている。 しかし、これらの録音は、しばしばノイズや残響などの劣化に悩まされ、聴取体験に悪影響を及ぼす。 その結果、音質向上の必要性(この時点から音楽エンハンスメントとして見なされる)は、劣化したオーディオ録音を原始的な高品質音楽へと変換し、聴覚体験を増強するために急増した。 この問題に対処するために,コンフォーマーアーキテクチャに基づく楽曲強調システムを提案する。 提案手法はコンフォーマーの注意機構を探索し,その性能を検証し,音楽強調作業における最善のアプローチを見出す。 実験結果から,提案モデルがシングルステム音楽の強化における最先端性能を実現することを示す。 また,先行研究では検討されていないマルチトラック混合による一般音楽エンハンスメントも行うことができる。

With the proliferation of video platforms on the internet, recording musical performances by mobile devices has become commonplace. However, these recordings often suffer from degradation such as noise and reverberation, which negatively impact the listening experience. Consequently, the necessity for music audio enhancement (referred to as music enhancement from this point onward), involving the transformation of degraded audio recordings into pristine high-quality music, has surged to augment the auditory experience. To address this issue, we propose a music enhancement system based on the Conformer architecture that has demonstrated outstanding performance in speech enhancement tasks. Our approach explores the attention mechanisms of the Conformer and examines their performance to discover the best approach for the music enhancement task. Our experimental results show that our proposed model achieves state-of-the-art performance on single-stem music enhancement. Furthermore, our system can perform general music enhancement with multi-track mixtures, which has not been examined in previous work.
翻訳日:2023-08-25 14:55:45 公開日:2023-08-24
# 半教師付き意味セグメンテーションに対する論理的推論

Logic-induced Diagnostic Reasoning for Semi-supervised Semantic Segmentation ( http://arxiv.org/abs/2308.12595v1 )

ライセンス: Link先を確認
Chen Liang, Wenguan Wang, Jiaxu Miao, Yi Yang(参考訳) 半教師付きセマンティックセグメンテーションの最近の進歩は、意味概念間の価値ある関係知識を無視して、限定ラベル付きデータの補償に擬似ラベリングに大きく依存している。 このギャップを埋めるため、新しいニューラル論理型半教師付き学習フレームワークであるLogicDiagを考案した。 我々の重要な洞察は、記号的知識によって識別される擬似ラベル内の衝突は、強いが一般的に無視される学習信号として機能するということである。 LogicDiagは、ロジックによって引き起こされた診断を推論することで、(潜在的に)誤った擬似ラベルの回復を可能にし、悪名高いエラー蓄積問題を緩和する。 本稿では,論理規則の集合として意味論的概念の構造的抽象化を定式化するデータ・ハングリーセグメンテーションシナリオにおけるLogicDiagの実践的応用について述べる。 3つの標準半教師付きセマンティクスセグメンテーションベンチマークに関する広範な実験は、logicdiagの有効性と汎用性を示している。 さらにLogicDiagは、象徴的推論を一般的な統計的、ニューラルネットワークアプローチに体系的に統合することによって生じる有望な機会を強調している。

Recent advances in semi-supervised semantic segmentation have been heavily reliant on pseudo labeling to compensate for limited labeled data, disregarding the valuable relational knowledge among semantic concepts. To bridge this gap, we devise LogicDiag, a brand new neural-logic semi-supervised learning framework. Our key insight is that conflicts within pseudo labels, identified through symbolic knowledge, can serve as strong yet commonly ignored learning signals. LogicDiag resolves such conflicts via reasoning with logic-induced diagnoses, enabling the recovery of (potentially) erroneous pseudo labels, ultimately alleviating the notorious error accumulation problem. We showcase the practical application of LogicDiag in the data-hungry segmentation scenario, where we formalize the structured abstraction of semantic concepts as a set of logic rules. Extensive experiments on three standard semi-supervised semantic segmentation benchmarks demonstrate the effectiveness and generality of LogicDiag. Moreover, LogicDiag highlights the promising opportunities arising from the systematic integration of symbolic reasoning into the prevalent statistical, neural learning approaches.
翻訳日:2023-08-25 14:55:26 公開日:2023-08-24
# GENEA Challenge 2023: モナディックおよびディヤディック設定におけるジェスチャー生成モデルの大規模評価

The GENEA Challenge 2023: A large scale evaluation of gesture generation models in monadic and dyadic settings ( http://arxiv.org/abs/2308.12646v1 )

ライセンス: Link先を確認
Taras Kucherenko, Rajmund Nagy, Youngwoo Yoon, Jieyeon Woo, Teodor Nikolov, Mihail Tsakov, Gustav Eje Henter(参考訳) 本稿では、参加チームが同じ音声と動きのデータセットを用いて音声駆動ジェスチャ生成システムを構築し、続いて共同評価を行うGENEA Challenge 2023について報告する。 今年のチャレンジでは、ディヤド相互作用の両側のデータを提供し、その音声(テキストと音声)と対話者の音声と動作を与えられたエージェントに対して、チームが全身動作を生成できるようにした。 大規模ユーザ研究において,12の投稿と2つのベースラインと保持されたモーションキャプチャデータを評価した。 研究は3つの側面に焦点を当てた。 1)運動の人間的類似性 2)動作の人間的類似性を制御しながら,エージェント自身の発話に対する動作の適切性,及び 3) 対話における対話者の行動に対する動作の適切性は, 動作の人間的様相とエージェント自身の発話の両方を制御する設定を用いて決定される。 課題の提出者間では、人間の類似性が大きく、人間のモキャップに近いシステムもいくつかありました。 適当性は解決されるには程遠いようで、ほとんどの提出物は、自然の動きよりも少し高い確率で実行されます。 インターロケータの効果はさらに微妙で、提出されたシステムはせいぜいわずかに上回っている。 興味深いことに, dyadicシステムはエージェント音声に非常に適しており, 必ずしも対話者に対して適切であるとは限らない。 追加資料はプロジェクトのWebサイト(https://svito-zar.github.io/GENEAchallenge2023/)から入手できる。

This paper reports on the GENEA Challenge 2023, in which participating teams built speech-driven gesture-generation systems using the same speech and motion dataset, followed by a joint evaluation. This year's challenge provided data on both sides of a dyadic interaction, allowing teams to generate full-body motion for an agent given its speech (text and audio) and the speech and motion of the interlocutor. We evaluated 12 submissions and 2 baselines together with held-out motion-capture data in several large-scale user studies. The studies focused on three aspects: 1) the human-likeness of the motion, 2) the appropriateness of the motion for the agent's own speech whilst controlling for the human-likeness of the motion, and 3) the appropriateness of the motion for the behaviour of the interlocutor in the interaction, using a setup that controls for both the human-likeness of the motion and the agent's own speech. We found a large span in human-likeness between challenge submissions, with a few systems rated close to human mocap. Appropriateness seems far from being solved, with most submissions performing in a narrow range slightly above chance, far behind natural motion. The effect of the interlocutor is even more subtle, with submitted systems at best performing barely above chance. Interestingly, a dyadic system being highly appropriate for agent speech does not necessarily imply high appropriateness for the interlocutor. Additional material is available via the project website at https://svito-zar.github.io/GENEAchallenge2023/ .
翻訳日:2023-08-25 14:47:12 公開日:2023-08-24
# バドミントンゲーム解析のための全深度システム

An All Deep System for Badminton Game Analysis ( http://arxiv.org/abs/2308.12645v1 )

ライセンス: Link先を確認
Po-Yung Chou, Yu-Chun Lo, Bo-Zheng Xie, Cheng-Hung Lin, Yu-Yung Kao(参考訳) CoachAI Badminton 2023 Track1イニシアチブは、バドミントンマッチビデオ内のイベントを自動的に検出する。 小さな物体、特にシャトルコックの検出は非常に重要であり、挑戦の中で高い精度を必要とする。 このような検出は、ヒット数、ヒット時間、ヒット位置などのタスクに不可欠である。 しかし、シャトルコック検出モデルであるトラックネットを改訂した後も、対象検出モデルは所望の精度に届かないままである。 この問題に対処するために,ノイズの多い検出データから発生する問題に対処するために,さまざまなディープラーニング手法を実装した。 本報告では,我々が行った検出モデルの修正と11タスクへのアプローチについて詳述する。 特に、当社のシステムは1.0点中0.78点を達成しました。

The CoachAI Badminton 2023 Track1 initiative aim to automatically detect events within badminton match videos. Detecting small objects, especially the shuttlecock, is of quite importance and demands high precision within the challenge. Such detection is crucial for tasks like hit count, hitting time, and hitting location. However, even after revising the well-regarded shuttlecock detecting model, TrackNet, our object detection models still fall short of the desired accuracy. To address this issue, we've implemented various deep learning methods to tackle the problems arising from noisy detectied data, leveraging diverse data types to improve precision. In this report, we detail the detection model modifications we've made and our approach to the 11 tasks. Notably, our system garnered a score of 0.78 out of 1.0 in the challenge.
翻訳日:2023-08-25 14:46:46 公開日:2023-08-24
# evolution dynamic optimization laboratory: 動的環境における教育と実験のためのmatlab最適化プラットフォーム

Evolutionary Dynamic Optimization Laboratory: A MATLAB Optimization Platform for Education and Experimentation in Dynamic Environments ( http://arxiv.org/abs/2308.12644v1 )

ライセンス: Link先を確認
Mai Peng, Zeneng She, Delaram Yazdani, Danial Yazdani, Wenjian Luo, Changhe Li, Juergen Branke, Trung Thanh Nguyen, Amir H. Gandomi, Yaochu Jin, Xin Yao(参考訳) 実世界の最適化問題の多くは動的特性を持つ。 進化的動的最適化アルゴリズム(EDOAs)は、動的最適化問題に関連する課題に取り組むことを目的としている。 既存の作業を見ると、あるEDOAに対して報告された結果は、時々かなり異なる。 この問題は、通常非常に複雑なアルゴリズムである多くのEDOAのソースコードが公開されていないためである。 実際、多くのEDOAで使用されるコンポーネントやメカニズムの複雑さは、再実装のエラーを起こします。 本稿では、研究者が実験を行い、そのアルゴリズムを複数のEDOAと比較するのを支援するために、EDOAのためのオープンソースのMATLABプラットフォームであるEvolutionary Dynamic Optimization LABoratory(EDOLAB)を開発した。 このプラットフォームには、教育目的に使用できる教育モジュールも含まれている。 教育モジュールでは、ユーザは観察できる a) 環境の変化ごとに2次元の問題空間とその形態がどう変化するか b) 時間の経過とともに個人が行動すること c) EDOAが環境変化にどのように反応し、動きの最適性を追跡するか。 EDOLABは、研究や教育目的に有用なだけでなく、実践者が現実の問題を解決するためにも利用できる。 現在のEDOLABには25のEDOAと3つの完全なパラメトリックベンチマークジェネレータが含まれている。 EDOLABのMATLABソースコードは公開されており、[https://github.com/EDOLAB-platform/EDOLAB-MATLAB]からアクセスできる。

Many real-world optimization problems possess dynamic characteristics. Evolutionary dynamic optimization algorithms (EDOAs) aim to tackle the challenges associated with dynamic optimization problems. Looking at the existing works, the results reported for a given EDOA can sometimes be considerably different. This issue occurs because the source codes of many EDOAs, which are usually very complex algorithms, have not been made publicly available. Indeed, the complexity of components and mechanisms used in many EDOAs makes their re-implementation error-prone. In this paper, to assist researchers in performing experiments and comparing their algorithms against several EDOAs, we develop an open-source MATLAB platform for EDOAs, called Evolutionary Dynamic Optimization LABoratory (EDOLAB). This platform also contains an education module that can be used for educational purposes. In the education module, the user can observe a) a 2-dimensional problem space and how its morphology changes after each environmental change, b) the behaviors of individuals over time, and c) how the EDOA reacts to environmental changes and tries to track the moving optimum. In addition to being useful for research and education purposes, EDOLAB can also be used by practitioners to solve their real-world problems. The current version of EDOLAB includes 25 EDOAs and three fully-parametric benchmark generators. The MATLAB source code for EDOLAB is publicly available and can be accessed from [https://github.com/EDOLAB-platform/EDOLAB-MATLAB].
翻訳日:2023-08-25 14:46:33 公開日:2023-08-24
# 言語生産性の確率的測定方法

Probabilistic Method of Measuring Linguistic Productivity ( http://arxiv.org/abs/2308.12643v1 )

ライセンス: Link先を確認
Sergei Monakhov(参考訳) 本稿では,新しい複合語を創り出すための接尾辞の能力を客観的に評価し,他の一般的な尺度とは異なりトークン頻度に直接依存しない言語生産性を測定する新しい方法を提案する。 具体的には、言語生産性をランダムベースと組み合わせたアフィッチの確率と見なすことができると提案する。 このアプローチの利点は以下のとおりである。 まず、トークンの頻度は生産性の尺度を支配しないが、ベースサンプリングに影響を与える。 第二に、テスト済みのワードタイプをaffixでカウントするだけでなく、これらの型の構築をシミュレートし、コーパスでテスト済みかどうかをチェックします。 第三に、コーパスに基づくアプローチとランダム化設計により、昔に作られた真のネオロジズムと単語が平等に選択される可能性が保証される。 提案アルゴリズムは、英語とロシア語のデータに基づいて評価される。 得られた結果は、言語的生産性と型とトークンの数との関係に関する貴重な洞察を提供する。 言語的生産性の急上昇は、その種類が増えているように見える。 しかし、このプロセスは2つの段階に展開する: まず、高周波アイテムの増加、それから低周波数アイテムの増加のみである。

In this paper I propose a new way of measuring linguistic productivity that objectively assesses the ability of an affix to be used to coin new complex words and, unlike other popular measures, is not directly dependent upon token frequency. Specifically, I suggest that linguistic productivity may be viewed as the probability of an affix to combine with a random base. The advantages of this approach include the following. First, token frequency does not dominate the productivity measure but naturally influences the sampling of bases. Second, we are not just counting attested word types with an affix but rather simulating the construction of these types and then checking whether they are attested in the corpus. Third, a corpus-based approach and randomised design assure that true neologisms and words coined long ago have equal chances to be selected. The proposed algorithm is evaluated both on English and Russian data. The obtained results provide some valuable insights into the relation of linguistic productivity to the number of types and tokens. It looks like burgeoning linguistic productivity manifests itself in an increasing number of types. However, this process unfolds in two stages: first comes the increase in high-frequency items, and only then follows the increase in low-frequency items.
翻訳日:2023-08-25 14:46:12 公開日:2023-08-24
# アバター顔形成のためのタグベースアノテーション

Tag-Based Annotation for Avatar Face Creation ( http://arxiv.org/abs/2308.12642v1 )

ライセンス: Link先を確認
An Ngo, Daniel Phelps, Derrick Lai, Thanyared Wong, Lucas Mathias, Anish Shivamurthy, Mustafa Ajmal, Minghao Liu, James Davis(参考訳) 現在、デジタルアバターは人間のイメージを参照として手動で作成できる。 Bitmojiのようなシステムは、詳細なアバターデザインの優れたプロデューサであり、カスタマイズには数百の選択肢がある。 教師付き学習モデルは、自動アバターを生成するためにトレーニングすることができるが、数百の選択肢は、モデルをトレーニングするためのノイズのないデータを確保するのに困難をもたらす。 解決策として,タグベースのアノテーションを用いて人間の画像からアバターを生成するモデルを訓練する。 この手法はより良いアノテータ合意を提供し、ノイズの少ないデータと高品質なモデル予測をもたらす。 私たちの貢献は、アバター顔生成のためのモデルをトレーニングするためのタグベースのアノテーションの適用です。 私たちはbitmojiが提供する3種類の顔特徴のタグを設計し、タグベースのアノテーションを使って鼻を予測するモデルを訓練します。

Currently, digital avatars can be created manually using human images as reference. Systems such as Bitmoji are excellent producers of detailed avatar designs, with hundreds of choices for customization. A supervised learning model could be trained to generate avatars automatically, but the hundreds of possible options create difficulty in securing non-noisy data to train a model. As a solution, we train a model to produce avatars from human images using tag-based annotations. This method provides better annotator agreement, leading to less noisy data and higher quality model predictions. Our contribution is an application of tag-based annotation to train a model for avatar face creation. We design tags for 3 different facial facial features offered by Bitmoji, and train a model using tag-based annotation to predict the nose.
翻訳日:2023-08-25 14:45:54 公開日:2023-08-24
# HuSpaCyによるハンガリーのテキスト処理の改善: 効率的かつ高精度なNLPパイプライン

Advancing Hungarian Text Processing with HuSpaCy: Efficient and Accurate NLP Pipelines ( http://arxiv.org/abs/2308.12635v1 )

ライセンス: Link先を確認
Gy\"orgy Orosz and Gerg\H{o} Szab\'o and P\'eter Berkecz and Zsolt Sz\'ant\'o and Rich\'ard Farkas(参考訳) 本稿では,資源効率と精度のバランスを保ちながら,ほぼ最先端の性能を実現する,ハンガリーの産業用テキスト処理モデルを提案する。 モデルはpaCyフレームワークで実装され、アーキテクチャをいくつかの改善したHuSpaCyツールキットを拡張した。 既存のハンガリーのNLPツールと比較して、私たちのパイプラインはすべて、トークン化、文境界検出、音声の一部タグ付け、形態的特徴タグ付け、冗長化、依存性解析、名前付きエンティティ認識など、すべての基本的なテキスト処理ステップを、高い精度とスループットで備えています。 提案する機能拡張を徹底的に評価し,最先端ツールと比較し,テキスト前処理ステップにおける新モデルの競争力を実証した。 すべての実験は再現可能で、パイプラインは許容ライセンスの下で自由に利用できる。

This paper presents a set of industrial-grade text processing models for Hungarian that achieve near state-of-the-art performance while balancing resource efficiency and accuracy. Models have been implemented in the spaCy framework, extending the HuSpaCy toolkit with several improvements to its architecture. Compared to existing NLP tools for Hungarian, all of our pipelines feature all basic text processing steps including tokenization, sentence-boundary detection, part-of-speech tagging, morphological feature tagging, lemmatization, dependency parsing and named entity recognition with high accuracy and throughput. We thoroughly evaluated the proposed enhancements, compared the pipelines with state-of-the-art tools and demonstrated the competitive performance of the new models in all text preprocessing steps. All experiments are reproducible and the pipelines are freely available under a permissive license.
翻訳日:2023-08-25 14:45:39 公開日:2023-08-24
# 階層型地域変圧器ベースマルチインスタンス学習に向けて

Towards Hierarchical Regional Transformer-based Multiple Instance Learning ( http://arxiv.org/abs/2308.12634v1 )

ライセンス: Link先を確認
Josef Cersovsky, Sadegh Mohammadi, Dagmar Kainmueller and Johannes Hoehne(参考訳) 深層多重学習モデルを用いたギガピクセルの病理像の分類は,デジタル病理学や精密医療において重要な課題となっている。 本研究では,従来の学習アテンション機構を地域的視覚トランスフォーマーにインスパイアされた自己アテンション機構に置き換えるトランスフォーマーベースの複数インスタンス学習手法を提案する。 本稿では,地域パッチ情報を融合してスライドレベル予測を導出し,この地域アグリゲーションを積み重ねて,異なる距離レベルの特徴を階層的に処理する方法を提案する。 予測精度を高めるため,特に局所形態特徴の小さいデータセットに対して,推論中の高注目領域に画像処理を集中させる手法を提案する。 我々のアプローチは、2つの病理組織学データセットのベースラインのパフォーマンスを著しく向上させ、さらなる研究のための有望な方向に向かっている。

The classification of gigapixel histopathology images with deep multiple instance learning models has become a critical task in digital pathology and precision medicine. In this work, we propose a Transformer-based multiple instance learning approach that replaces the traditional learned attention mechanism with a regional, Vision Transformer inspired self-attention mechanism. We present a method that fuses regional patch information to derive slide-level predictions and show how this regional aggregation can be stacked to hierarchically process features on different distance levels. To increase predictive accuracy, especially for datasets with small, local morphological features, we introduce a method to focus the image processing on high attention regions during inference. Our approach is able to significantly improve performance over the baseline on two histopathology datasets and points towards promising directions for further research.
翻訳日:2023-08-25 14:45:23 公開日:2023-08-24
# 固有スピン軌道効果を持つシリコン量子ドットにおける横・縦スピン光子カップリング法

Methods for transverse and longitudinal spin-photon coupling in silicon quantum dots with intrinsic spin-orbit effect ( http://arxiv.org/abs/2308.12626v1 )

ライセンス: Link先を確認
Kevin S. Guo, MengKe Feng, Jonathan Y. Huang, Will Gilbert, Kohei M. Itoh, Fay E. Hudson, Kok Wai Chan, Wee Han Lim, Andrew S. Dzurak, and Andre Saraiva(参考訳) フォールトトレラントアーキテクチャを備えたフルスケールの量子コンピュータでは、量子ビット間のスケーラブルで長距離な相互作用が極めて貴重なリソースであることが期待されている。 これを達成する有望な方法の1つは、半導体のスピンと超伝導キャビティの光子の間の光・物質相互作用である。 本稿では, 横方向および縦方向のスピン光子結合の理論とシリコン-酸化物-半導体(SiMOS)プラットフォームへの応用について検討する。 本稿では,SiMOS量子ビットの軌道退化に起因する固有スピン軌道相互作用を用いた結合法を提案する。 理論解析と実験データを用いて, 強結合状態が横方向スキームで達成可能であることを示す。 また, クビット上の交流変調により駆動される長手結合の実現可能性についても検討した。 これらの結合法は外部マイクロマグネットの要求を喚起し、拡張性と大規模量子コンピュータへの統合の可能性を高める。

In a full-scale quantum computer with a fault-tolerant architecture, having scalable, long-range interaction between qubits is expected to be a highly valuable resource. One promising method of achieving this is through the light-matter interaction between spins in semiconductors and photons in superconducting cavities. This paper examines the theory of both transverse and longitudinal spin-photon coupling and their applications in the silicon metal-oxide-semiconductor (SiMOS) platform. We propose a method of coupling which uses the intrinsic spin-orbit interaction arising from orbital degeneracies in SiMOS qubits. Using theoretical analysis and experimental data, we show that the strong coupling regime is achievable in the transverse scheme. We also evaluate the feasibility of a longitudinal coupling driven by an AC modulation on the qubit. These coupling methods eschew the requirement for an external micromagnet, enhancing prospects for scalability and integration into a large-scale quantum computer.
翻訳日:2023-08-25 14:45:08 公開日:2023-08-24
# 音速ログ再構成のための機械学習モデルの不確かさと説明可能な解析

Uncertainty and Explainable Analysis of Machine Learning Model for Reconstruction of Sonic Slowness Logs ( http://arxiv.org/abs/2308.12625v1 )

ライセンス: Link先を確認
Hua Wang, Yuqiong Wu, Yushun Zhang, Fuqiang Lai, Zhou Feng, Bing Xie, Ailin Zhao(参考訳) ログは油田やガス田にとって貴重な情報であり、ボーリングホール周辺の地形と地下の油田やガス貯水池の位置と埋蔵量を決定するのに役立っている。 しかし、水平または古い井戸では重要なログが欠落することが多く、フィールドアプリケーションでは問題となる。 本論文では,2020年のSPWLAの機械学習コンペティションのデータを利用して,同じボアホール内の他のログを用いて,圧縮波の速度低下とせん断波の速度低下を予測した。 NGBoostアルゴリズムを用いて、結果と不確実性を予測できるアンサンブル学習モデルを構築する。 さらに,shap法を組み合わせることで,機械学習モデルの解釈可能性について検討する。 我々は,NGBosstモデルの性能を,Random Forest,GBDT,XGBoost,LightGBMを含む4つの一般的なEnsemble Learning手法と比較した。 その結果,NGBoostモデルはテストセットで良好に動作し,予測結果の確率分布を提供することができた。 また、予測したログの確率分布のばらつきを利用して、構築したログの品質を正当化することができる。 SHAPの説明可能な機械学習モデルを用いて、予測結果に対する各入力ログの重要性と、入力ログ間の結合関係を計算する。 その結果,NGBoostモデルでは中性子ポロシティとガンマ線が大きい場合には,より遅い予測結果が得られる傾向にあり,これは石油物理モデルの認識と一致していることがわかった。 さらに、機械学習モデルは、ボアホールキャリパーの変化が低速に与える影響を捉えることができ、ボアホールキャリパーの影響は複雑であり、直接の関係を確立することは容易ではない。 これらの結果はボーリングホール音響の物理原理と一致している。

Logs are valuable information for oil and gas fields as they help to determine the lithology of the formations surrounding the borehole and the location and reserves of subsurface oil and gas reservoirs. However, important logs are often missing in horizontal or old wells, which poses a challenge in field applications. In this paper, we utilize data from the 2020 machine learning competition of the SPWLA, which aims to predict the missing compressional wave slowness and shear wave slowness logs using other logs in the same borehole. We employ the NGBoost algorithm to construct an Ensemble Learning model that can predicate the results as well as their uncertainty. Furthermore, we combine the SHAP method to investigate the interpretability of the machine learning model. We compare the performance of the NGBosst model with four other commonly used Ensemble Learning methods, including Random Forest, GBDT, XGBoost, LightGBM. The results show that the NGBoost model performs well in the testing set and can provide a probability distribution for the prediction results. In addition, the variance of the probability distribution of the predicted log can be used to justify the quality of the constructed log. Using the SHAP explainable machine learning model, we calculate the importance of each input log to the predicted results as well as the coupling relationship among input logs. Our findings reveal that the NGBoost model tends to provide greater slowness prediction results when the neutron porosity and gamma ray are large, which is consistent with the cognition of petrophysical models. Furthermore, the machine learning model can capture the influence of the changing borehole caliper on slowness, where the influence of borehole caliper on slowness is complex and not easy to establish a direct relationship. These findings are in line with the physical principle of borehole acoustics.
翻訳日:2023-08-25 14:44:51 公開日:2023-08-24
# 捕食者・捕食者生存圧は群れ行動の進化に十分である

Predator-prey survival pressure is sufficient to evolve swarming behaviors ( http://arxiv.org/abs/2308.12624v1 )

ライセンス: Link先を確認
Jianan Li, Liang Li, Shiyu Zhao(参考訳) グローバルな集団行動における局所的な相互作用の理解は、生物学的および物理的研究において最も重要である。 従来のエージェントベースのモデルは、しばしば生物学的世界の動的な戦略を捉えない静的なルールに依存している。 強化学習は解法として提案されてきたが,従来の手法では,群れ行動の出現を暗黙的にあるいは明示的に促進する手作りの報酬関数が採用されていた。 本研究では,協調競争型マルチエージェント強化学習に基づく最小の捕食者-捕食者共進化フレームワークを提案し,捕食者が10000ドルの報酬を受けながら,捕食者によって捕獲された場合,獲物に1ドルの報酬が与えられるような生存圧のみに基づく報酬関数を採用する。 驚くべきことに、このアプローチの分析により、獲物の群集行動や渦巻き行動、捕食者に対する分散戦術、混乱、限界捕食現象など、獲物と捕食者の両方にとって予期せぬほど豊かな創発的行動の多様性が明らかになった。 全体として、本研究は生物の集団行動に関する新たな知見を提供し、swarm roboticsの潜在的な応用を強調する。

The comprehension of how local interactions arise in global collective behavior is of utmost importance in both biological and physical research. Traditional agent-based models often rely on static rules that fail to capture the dynamic strategies of the biological world. Reinforcement learning has been proposed as a solution, but most previous methods adopt handcrafted reward functions that implicitly or explicitly encourage the emergence of swarming behaviors. In this study, we propose a minimal predator-prey coevolution framework based on mixed cooperative-competitive multiagent reinforcement learning, and adopt a reward function that is solely based on the fundamental survival pressure, that is, prey receive a reward of $-1$ if caught by predators while predators receive a reward of $+1$. Surprisingly, our analysis of this approach reveals an unexpectedly rich diversity of emergent behaviors for both prey and predators, including flocking and swirling behaviors for prey, as well as dispersion tactics, confusion, and marginal predation phenomena for predators. Overall, our study provides novel insights into the collective behavior of organisms and highlights the potential applications in swarm robotics.
翻訳日:2023-08-25 14:44:20 公開日:2023-08-24
# 拡張命令による大規模言語モデルの翻訳忠実性の向上

Improving Translation Faithfulness of Large Language Models via Augmenting Instructions ( http://arxiv.org/abs/2308.12674v1 )

ライセンス: Link先を確認
Yijie Chen, Yijin Liu, Fandong Meng, Yufeng Chen, Jinan Xu, Jie Zhou(参考訳) 大規模言語モデル(LLM)は強力な汎用能力を示しており、機械翻訳などの特殊能力を低コストの命令チューニングによって刺激することが現在の課題である。 標準命令追従データは、命令、入力、応答の連結として順次構成される。 LLMの注意機構は局所的な焦点に制限があるため、LLMはそれぞれの位置にある単語や文に集中する傾向にある。 これにより、デコード中に命令を忘れるリスクが高くなる。 上記の問題を緩和するため、SWIE(Segment-Weighted Instruction Embedding)と命令追従データセットOVERMISSを提案する。 SWIEは、以下の入力および応答表現にグローバル命令表現を追加することにより、モデル命令理解を改善する。 OVERMISSは、オーバー翻訳とミス翻訳の結果を正しい翻訳と比較することにより、モデルの忠実度を向上させる。 提案手法を2つのメインストリームオープンソース LLM,BLOOM と LLaMA に適用する。 実験の結果, BLOOMZ-3bをベースとしたSWIEの翻訳性能は, 特にゼロショット, 長文翻訳において, 命令忘れリスクの低減により向上した。 加えて、OVERMISSは翻訳性能のベースライン(例えばBLEUスコアが0.69から3.12に増加し、LLaMA-7bでは平均0.48パーセンテージの彗星スコアが平均的に向上した)を上回り、OVERMISSとSWIE(例えばBLUEスコアは3つの異なるバックボーンで英語からドイツ語に最大0.56まで増加し、どちらも単語アライメントに基づく忠実度メートル法の改善を示している。

Large Language Models (LLMs) present strong general capabilities, and a current compelling challenge is stimulating their specialized capabilities, such as machine translation, through low-cost instruction tuning. The standard instruction-following data is sequentially organized as the concatenation of an instruction, an input, and a response. As the attention mechanism of LLMs has limitations on local focus, LLMs tend to focus more on the words or sentences nearby at each position. This leads to a high risk of instruction forgetting during decoding. To alleviate the above issues, We propose SWIE (Segment-Weighted Instruction Embedding) and an instruction-following dataset OVERMISS. SWIE improves the model instruction understanding by adding a global instruction representation on the following input and response representations. OVERMISS improves model faithfulness by comparing over-translation and miss-translation results with the correct translation. We apply our methods to two main-stream open-source LLMs, BLOOM and LLaMA. The experimental results demonstrate significant improvements in translation performance with SWIE based on BLOOMZ-3b, particularly in zero-shot and long text translations due to reduced instruction forgetting risk. Additionally, OVERMISS outperforms the baseline in translation performance (e.g. an increase in BLEU scores from 0.69 to 3.12 and an average improvement of 0.48 percentage comet scores for LLaMA-7b) with further enhancements seen in models combining OVERMISS and SWIE (e.g. the BLUE scores increase up to 0.56 from English to German across three different backbones), and both exhibit improvements in the faithfulness metric based on word alignment.
翻訳日:2023-08-25 14:38:23 公開日:2023-08-24
# Masked Feature Modelling: ボトムアップビデオイベント認識のためのグラフ注意ネットワークブロックの教師なし事前学習のための特徴マスキング

Masked Feature Modelling: Feature Masking for the Unsupervised Pre-training of a Graph Attention Network Block for Bottom-up Video Event Recognition ( http://arxiv.org/abs/2308.12673v1 )

ライセンス: Link先を確認
Dimitrios Daskalakis, Nikolaos Gkalelis, Vasileios Mezaris(参考訳) 本稿では,グラフ注意ネットワーク(GAT)ブロックの教師なし事前学習のための新しいアプローチであるMasked Feature Modelling (MFM)を紹介する。 MFMはトレーニング済みのVisual Tokenizerを使用して、MiniKineticsデータセットを使用して、ビデオ内のオブジェクトのマスクされた特徴を再構築する。 次に、トレーニング済みのGATブロックを最先端のボトムアップ監視ビデオイベント認識アーキテクチャ(ViGAT)に組み込んで、モデルの開始点と全体的な精度を改善する。 YLI-MEDデータセットの実験的評価は、イベント認識性能の向上におけるMFMの有効性を示す。

In this paper, we introduce Masked Feature Modelling (MFM), a novel approach for the unsupervised pre-training of a Graph Attention Network (GAT) block. MFM utilizes a pretrained Visual Tokenizer to reconstruct masked features of objects within a video, leveraging the MiniKinetics dataset. We then incorporate the pre-trained GAT block into a state-of-the-art bottom-up supervised video-event recognition architecture, ViGAT, to improve the model's starting point and overall accuracy. Experimental evaluations on the YLI-MED dataset demonstrate the effectiveness of MFM in improving event recognition performance.
翻訳日:2023-08-25 14:37:45 公開日:2023-08-24
# 保守作業における共有学習のための最適データプーリング

Optimal data pooling for shared learning in maintenance operations ( http://arxiv.org/abs/2308.12670v1 )

ライセンス: Link先を確認
Collin Drent and Melvin Drent and Geert-Jan van Houtum(参考訳) 本稿では,保守作業における共有学習のためのデータプールの利点について述べる。 我々は,a-priori 未知数で結合したポアソン分解系を考える。 これらのシステムに関わる決定問題は、高次元マルコフ決定過程(MDP)である。 本稿では,MDP を 2 次元 MDP に還元し,構造解析と計算を可能にする分解結果を提案する。 この分解を利用して、プーリングデータをプールしない場合に比べて大幅なコスト削減につながることを示す。

This paper addresses the benefits of pooling data for shared learning in maintenance operations. We consider a set of systems subject to Poisson degradation that are coupled through an a-priori unknown rate. Decision problems involving these systems are high-dimensional Markov decision processes (MDPs). We present a decomposition result that reduces such an MDP to two-dimensional MDPs, enabling structural analyses and computations. We leverage this decomposition to demonstrate that pooling data can lead to significant cost reductions compared to not pooling.
翻訳日:2023-08-25 14:37:32 公開日:2023-08-24
# 測地モード接続性

Geodesic Mode Connectivity ( http://arxiv.org/abs/2308.12666v1 )

ライセンス: Link先を確認
Charlie Tan, Theodore Long, Sarah Zhao and Rudolf Laine(参考訳) モード接続は、訓練されたモデルが低損失の経路で接続される現象である。 我々はこれを情報幾何学の文脈で再構成し、ニューラルネットワークは曲線幾何学によるパラメータ分布の空間として研究される。 これらの空間における最短経路は測地線と呼ばれ、損失景観におけるモード接続経路に対応すると仮定する。 測地線を近似するアルゴリズムを提案し,モード接続性を実現することを示す。

Mode connectivity is a phenomenon where trained models are connected by a path of low loss. We reframe this in the context of Information Geometry, where neural networks are studied as spaces of parameterized distributions with curved geometry. We hypothesize that shortest paths in these spaces, known as geodesics, correspond to mode-connecting paths in the loss landscape. We propose an algorithm to approximate geodesics and demonstrate that they achieve mode connectivity.
翻訳日:2023-08-25 14:37:24 公開日:2023-08-24
# 太陽に目を向けるな - 画像分類器による逆太陽化攻撃

Don't Look into the Sun: Adversarial Solarization Attacks on Image Classifiers ( http://arxiv.org/abs/2308.12661v1 )

ライセンス: Link先を確認
Paul Gavrikov and Janis Keuper(参考訳) 特に自動運転のような安全クリティカルな領域では、ディープニューラルネットワークのロバスト性を評価することは重要ですが、悪意のあるアクターがデジタル的に入力を回避して安全ガードを回避できる安全システムでも重要です。 しかし、正確なラベル情報を保持しながら、すべてのシナリオを含む効果的な配布外テストの設計は難しい作業である。 既存の方法論は、攻撃のバラエティレベルと制約レベルの間の妥協を伴います。 画像分類モデルのより包括的ロバスト性評価に向けた第一歩として,概念的には単純だが強度に依存しない自然画像の全体構造を損なうことのない,画像太陽化に基づく攻撃手法を提案する。 複数のImageNetモデルの総合的な評価を通じて、トレーニング強化に組み込まれていない場合、精度を著しく低下させる攻撃能力を示す。 興味深いことに、それでも精度劣化に対する完全な免疫が得られない。 他の設定では、モデルに依存しないパラメータでブラックボックス攻撃に単純化されることが多い。 他の腐敗に対する防御は、我々の特定の攻撃に対して常に有効になるわけではない。 プロジェクトwebサイト: https://github.com/paulgavrikov/adversarial_solarization

Assessing the robustness of deep neural networks against out-of-distribution inputs is crucial, especially in safety-critical domains like autonomous driving, but also in safety systems where malicious actors can digitally alter inputs to circumvent safety guards. However, designing effective out-of-distribution tests that encompass all possible scenarios while preserving accurate label information is a challenging task. Existing methodologies often entail a compromise between variety and constraint levels for attacks and sometimes even both. In a first step towards a more holistic robustness evaluation of image classification models, we introduce an attack method based on image solarization that is conceptually straightforward yet avoids jeopardizing the global structure of natural images independent of the intensity. Through comprehensive evaluations of multiple ImageNet models, we demonstrate the attack's capacity to degrade accuracy significantly, provided it is not integrated into the training augmentations. Interestingly, even then, no full immunity to accuracy deterioration is achieved. In other settings, the attack can often be simplified into a black-box attack with model-independent parameters. Defenses against other corruptions do not consistently extend to be effective against our specific attack. Project website: https://github.com/paulgavrikov/adversarial_solarization
翻訳日:2023-08-25 14:37:17 公開日:2023-08-24
# 量子輸送における光誘起ロレンツ様力によるフロッケ非断熱核ダイナミクス

Floquet Nonadiabatic Nuclear Dynamics with Photoinduced Lorenz-Like Force in Quantum Transport ( http://arxiv.org/abs/2308.12660v1 )

ライセンス: Link先を確認
Jingqi Chen, Wei Liu, and Wenjie Dou(参考訳) 最近の論文 "Mosallanejad et al., Phys. B 107(18), 184314, 2023] では, 周期駆動時の金属表面近傍の非断熱的分子動力学を記述するためのフロケ電子摩擦モデルが導出されている。 本研究では,フロッケ駆動が量子輸送において反対称電子摩擦テンソルを導入できることを示す。 さらに, ローレンツ様の力は核運動に強く影響し, 低い電圧バイアスではフロケット駆動は核の温度を上昇させ, より大きな電圧バイアスではフロケット駆動は核の温度を低下させることができることを示した。 さらに、フロッケ駆動は電子輸送に強く影響を及ぼす。 最後に、電子電流を最大化する最適な周波数が存在することを示す。 Floquetの電子摩擦モデルは、Floquet駆動下での金属表面近傍の非断熱的分子動力学を研究する強力なツールとして期待できる。

In our recent paper [Mosallanejad et al., Phys. Rev. B 107(18), 184314, 2023], we have derived a Floquet electronic friction model to describe nonadiabatic molecular dynamics near metal surfaces in the presence of periodic driving. In this work, we demonstrate that Floquet driving can introduce an anti-symmetric electronic friction tensor in quantum transport, resulting in circular motion of the nuclei in the long time limit. Furthermore, we show that such a Lorentz-like force strongly affects nuclear motion: at lower voltage bias, Floquet driving can increase the temperature of nuclei; at larger voltage bias, Floquet driving can decrease the temperature of nuclei. In addition, Floquet driving can affect electron transport strenuously. Finally, we show that there is an optimal frequency that maximizes electron current. We expect that the Floquet electronic friction model is a powerful tool to study nonadiabatic molecular dynamics near metal surfaces under Floquet driving in complex systems.
翻訳日:2023-08-25 14:36:53 公開日:2023-08-24
# ktrans:バイナリコード埋め込みのための知識認識トランスフォーマー

kTrans: Knowledge-Aware Transformer for Binary Code Embedding ( http://arxiv.org/abs/2308.12659v1 )

ライセンス: Link先を確認
Wenyu Zhu, Hao Wang, Yuchen Zhou, Jiaming Wang, Zihan Sha, Zeyu Gao, Chao Zhang(参考訳) バイナリコード埋め込み(BCE)は、バイナリコード類似性の検出、型回復、制御-フローのリカバリ、データ-フロー分析など、さまざまなリバースエンジニアリングタスクに重要な応用がある。 最近の研究では、トランスフォーマーモデルは下流タスクをサポートするバイナリコードのセマンティクスを理解できることが示されている。 しかし、既存のモデルはアセンブリ言語の以前の知識を見落としていた。 本稿では,知識を意識したバイナリコード埋め込みを生成するために,新しいトランスフォーマーベースのアプローチ,すなわちkTransを提案する。 明示的な知識をトランスフォーマーに追加入力として提供し、新しい事前学習タスクで暗黙的な知識を融合することで、ktransはトランスフォーマーフレームワークにドメイン知識を組み込むための新しい視点を提供する。 生成した埋め込みを外部検出と可視化で検査し、kTransを3つの下流タスクに適用する:バイナリコード類似度検出(BCSD)、FTR(Function Type Recovery)、ICR(Indirect Call Recognition)。 評価の結果、kTransは高品質なバイナリコード埋め込みを生成でき、それぞれ5.2%、6.8%、12.6%のダウンストリームタスクに対するSOTA(State-of-the-art)アプローチを上回っている。 kTrans は https://github.com/Learner0x5a/kTrans-release で公開されている。

Binary Code Embedding (BCE) has important applications in various reverse engineering tasks such as binary code similarity detection, type recovery, control-flow recovery and data-flow analysis. Recent studies have shown that the Transformer model can comprehend the semantics of binary code to support downstream tasks. However, existing models overlooked the prior knowledge of assembly language. In this paper, we propose a novel Transformer-based approach, namely kTrans, to generate knowledge-aware binary code embedding. By feeding explicit knowledge as additional inputs to the Transformer, and fusing implicit knowledge with a novel pre-training task, kTrans provides a new perspective to incorporating domain knowledge into a Transformer framework. We inspect the generated embeddings with outlier detection and visualization, and also apply kTrans to 3 downstream tasks: Binary Code Similarity Detection (BCSD), Function Type Recovery (FTR) and Indirect Call Recognition (ICR). Evaluation results show that kTrans can generate high-quality binary code embeddings, and outperforms state-of-the-art (SOTA) approaches on downstream tasks by 5.2%, 6.8%, and 12.6% respectively. kTrans is publicly available at: https://github.com/Learner0x5a/kTrans-release
翻訳日:2023-08-25 14:36:31 公開日:2023-08-24
# APART: Ascending RewardとDropoutを併用した全ペアによるクロススキル発見

APART: Diverse Skill Discovery using All Pairs with Ascending Reward and DropouT ( http://arxiv.org/abs/2308.12649v1 )

ライセンス: Link先を確認
Hadar Schreiber Galler, Tom Zahavy, Guillaume Desjardins, Alon Cohen(参考訳) 報奨のない環境における多様なスキル発見について検討し,従来の手法が成功に苦しむ単純なグリッドワールド環境におけるすべてのスキルの発見を目指す。 この問題は、内在的な報酬と、その軌道によってスキルを予測するように訓練された判別器を用いたスキルの相互訓練として定式化されている。 最初のソリューションでは、標準のone-vs-all (softmax) 判別器をone-vs-one (all pairs) 判別器に置き換え、新しい固有報酬関数とドロップアウト正規化技術を組み合わせています。 組み合わせたアプローチはAPART: Diverse Skill Discovery using All Pairs with Ascending Reward and Dropoutと名付けられた。 我々は,APARTが従来の研究よりもはるかに少ないサンプルで,グリッド世界で可能なスキルをすべて発見できることを実証した。 さらに,APARTの実証的な成功により,VICを変更し,本質的な報酬を再スケーリングし,ソフトマックス判別器の温度を調整することによって,最大スキルを達成するアルゴリズムについても検討した。 我々の研究結果は、強化学習におけるスキル発見アルゴリズムの成功の根底にある重要な要因を浮き彫りにしたと信じている。

We study diverse skill discovery in reward-free environments, aiming to discover all possible skills in simple grid-world environments where prior methods have struggled to succeed. This problem is formulated as mutual training of skills using an intrinsic reward and a discriminator trained to predict a skill given its trajectory. Our initial solution replaces the standard one-vs-all (softmax) discriminator with a one-vs-one (all pairs) discriminator and combines it with a novel intrinsic reward function and a dropout regularization technique. The combined approach is named APART: Diverse Skill Discovery using All Pairs with Ascending Reward and Dropout. We demonstrate that APART discovers all the possible skills in grid worlds with remarkably fewer samples than previous works. Motivated by the empirical success of APART, we further investigate an even simpler algorithm that achieves maximum skills by altering VIC, rescaling its intrinsic reward, and tuning the temperature of its softmax discriminator. We believe our findings shed light on the crucial factors underlying success of skill discovery algorithms in reinforcement learning.
翻訳日:2023-08-25 14:36:07 公開日:2023-08-24
# チャッターからマターへ:タスク指向対話における感情認識学習の重要ステップに対処する

From Chatter to Matter: Addressing Critical Steps of Emotion Recognition Learning in Task-oriented Dialogue ( http://arxiv.org/abs/2308.12648v1 )

ライセンス: Link先を確認
Shutong Feng, Nurul Lubis, Benjamin Ruppik, Christian Geishauser, Michael Heck, Hsien-chin Lin, Carel van Niekerk, Renato Vukovic, Milica Ga\v{s}i\'c(参考訳) 会話における感情認識(ERC)は人間のような会話エージェントを構築する上で重要な課題である。 チップチャット対話のためのERCに多大な努力が注がれているが、タスク指向の対話は、ほとんど未完成のままである。 タスク指向対話(ToDs)にChit-chat ERCモデルを直接適用すると、これらのモデルがToDにおける感情の相関やタスク完了といった重要な特徴を見越すため、サブ最適性能が得られる。 本稿では,chit-chat ercモデルをタスク指向モデルに変換し,データ,特徴,目的という3つの重要な側面を解決するフレームワークを提案する。 まず、ERCのパフォーマンスを改善するために、まれな感情を増強する2つの方法を考案する。 第2に,ユーザの目標から重要な情報を組み込むための補助機能として対話状態を用いる。 最後に,todにおけるマルチアスペクト感情定義を利用して,マルチタスク学習目標と新しい感情距離重み付き損失関数を考案する。 当社のフレームワークは,ToDにおけるユーザ感情の大規模データセットであるEmoWOZ上での,チップチャットERCモデルの大幅な改善を実現している。 さらに,ToDデータセットのユーザ満足度を予測するため,最適結果モデルの汎用性についても検討する。 監視されたベースラインと比較すると、強力なゼロショット機能を示し、より広いシナリオでの私たちのフレームワークの利用可能性を強調しています。

Emotion recognition in conversations (ERC) is a crucial task for building human-like conversational agents. While substantial efforts have been devoted to ERC for chit-chat dialogues, the task-oriented counterpart is largely left unattended. Directly applying chit-chat ERC models to task-oriented dialogues (ToDs) results in suboptimal performance as these models overlook key features such as the correlation between emotions and task completion in ToDs. In this paper, we propose a framework that turns a chit-chat ERC model into a task-oriented one, addressing three critical aspects: data, features and objective. First, we devise two ways of augmenting rare emotions to improve ERC performance. Second, we use dialogue states as auxiliary features to incorporate key information from the goal of the user. Lastly, we leverage a multi-aspect emotion definition in ToDs to devise a multi-task learning objective and a novel emotion-distance weighted loss function. Our framework yields significant improvements for a range of chit-chat ERC models on EmoWOZ, a large-scale dataset for user emotion in ToDs. We further investigate the generalisability of the best resulting model to predict user satisfaction in different ToD datasets. A comparison with supervised baselines shows a strong zero-shot capability, highlighting the potential usage of our framework in wider scenarios.
翻訳日:2023-08-25 14:35:45 公開日:2023-08-24
# 組合せ問題に対する適応シード転送に基づくマルチタスク進化アルゴリズム

Multitasking Evolutionary Algorithm Based on Adaptive Seed Transfer for Combinatorial Problem ( http://arxiv.org/abs/2308.12647v1 )

ライセンス: Link先を確認
Haoyuan Lv, Ruochen Liu(参考訳) 進化計算(EC)は組合せ最適化問題(COP)に広く用いられている。 従来のECメソッドは1回の実行で1つのタスクしか解決できないが、現実のシナリオでは複数のCOPを同時に解決する必要があることが多い。 近年,進化的マルチタスク最適化(EMTO)がECコミュニティで注目されている。 知識を交換することで複数のCOPを同時に扱うように設計されている。 しかし、多くのタスクの最適化、クロスドメインの知識転送、負の転送はこの分野でも依然として重要な課題である。 本研究において,適応シード転送(mtea-ast)に基づく新しい進化的マルチタスクアルゴリズムを開発した。 まず、異なるタスクの次元を統一するために次元統一戦略が提案される。 そして、目標タスクと他のオンライン最適化タスクとの類似性を捉えるために、適応的なタスク選択戦略を設計する。 計算された類似性を利用して、対象とするものに適したソースタスクを選択し、転送強度を決定する。 次に、ソースタスクから種を選び、種子の不適切な知識を正し、負の転送を抑制するタスク転送戦略が確立される。 最後に実験結果から,MTEA-ASTは同一ドメインとクロスドメインの両方のマルチタスク環境において,知識を適応的に伝達できることが示された。 提案手法は,4つのCOPによる実験において,他の最先端EMTOと比較して競合性能を示す。

Evolutionary computing (EC) is widely used in dealing with combinatorial optimization problems (COP). Traditional EC methods can only solve a single task in a single run, while real-life scenarios often need to solve multiple COPs simultaneously. In recent years, evolutionary multitasking optimization (EMTO) has become an emerging topic in the EC community. And many methods have been designed to deal with multiple COPs concurrently through exchanging knowledge. However, many-task optimization, cross-domain knowledge transfer, and negative transfer are still significant challenges in this field. A new evolutionary multitasking algorithm based on adaptive seed transfer (MTEA-AST) is developed for multitasking COPs in this work. First, a dimension unification strategy is proposed to unify the dimensions of different tasks. And then, an adaptive task selection strategy is designed to capture the similarity between the target task and other online optimization tasks. The calculated similarity is exploited to select suitable source tasks for the target one and determine the transfer strength. Next, a task transfer strategy is established to select seeds from source tasks and correct unsuitable knowledge in seeds to suppress negative transfer. Finally, the experimental results indicate that MTEA-AST can adaptively transfer knowledge in both same-domain and cross-domain many-task environments. And the proposed method shows competitive performance compared to other state-of-the-art EMTOs in experiments consisting of four COPs.
翻訳日:2023-08-25 14:35:21 公開日:2023-08-24
# テキスト記述からグラフィックレイアウトを生成するparse-then-placeアプローチ

A Parse-Then-Place Approach for Generating Graphic Layouts from Textual Descriptions ( http://arxiv.org/abs/2308.12700v1 )

ライセンス: Link先を確認
Jiawei Lin, Jiaqi Guo, Shizhao Sun, Weijiang Xu, Ting Liu, Jian-Guang Lou, Dongmei Zhang(参考訳) レイアウトの作成はグラフィックデザインの基本的なステップである。 そこで本研究では,図形レイアウト,すなわちText-to-Layoutを作成するためのガイダンスとしてテキストを使うことを提案する。 Text-to-Layoutは、テキストからの暗黙的、複合的、不完全なレイアウト制約を考慮する必要があるため、難しいタスクである。 そこで我々は,parse-then-placeという2段階のアプローチを提案する。 このアプローチでは、テキストとレイアウトの間の中間表現(IR)を導入し、多様なレイアウト制約を表現している。 IRでは、Text-to-Layoutはパースステージとプレースステージに分解される。 パースステージはテキスト記述を入力として取り、IRを生成し、テキストからの暗黙の制約を明示的な制約に変換する。 プレースステージは、IRに基づいてレイアウトを生成する。 複合制約と不完全な制約をモデル化するために、トランスフォーマティブベースのレイアウト生成モデルを使用し、制約やレイアウトをシーケンスとして表現する方法を慎重に設計する。 また,大規模非ラベルレイアウトによるレイアウト生成モデルの性能向上のために,プリトレイン・ザン・フィニチューン戦略を採用している。 提案手法を評価するために,2つのText-to-Layoutデータセットを構築し,実験を行った。 定量的結果,質的分析,ユーザ研究により,本手法の有効性が示された。

Creating layouts is a fundamental step in graphic design. In this work, we propose to use text as the guidance to create graphic layouts, i.e., Text-to-Layout, aiming to lower the design barriers. Text-to-Layout is a challenging task, because it needs to consider the implicit, combined, and incomplete layout constraints from text, each of which has not been studied in previous work. To address this, we present a two-stage approach, named parse-then-place. The approach introduces an intermediate representation (IR) between text and layout to represent diverse layout constraints. With IR, Text-to-Layout is decomposed into a parse stage and a place stage. The parse stage takes a textual description as input and generates an IR, in which the implicit constraints from the text are transformed into explicit ones. The place stage generates layouts based on the IR. To model combined and incomplete constraints, we use a Transformer-based layout generation model and carefully design a way to represent constraints and layouts as sequences. Besides, we adopt the pretrain-then-finetune strategy to boost the performance of the layout generation model with large-scale unlabeled layouts. To evaluate our approach, we construct two Text-to-Layout datasets and conduct experiments on them. Quantitative results, qualitative analysis, and user studies demonstrate the effectiveness of our approach.
翻訳日:2023-08-25 14:27:10 公開日:2023-08-24
# トポロジーによる絡み合い学習

Disentanglement Learning via Topology ( http://arxiv.org/abs/2308.12696v1 )

ライセンス: Link先を確認
Nikita Balabin, Daria Voronkova, Ilya Trofimov, Evgeny Burnaev, Serguei Barannikov(参考訳) マルチスケールなトポロジ的損失項を付加することにより,不整合表現を学習するTopDis (Topological Disentanglement)を提案する。 ディスタングルメントは、ディープラーニングモデルの説明可能性と堅牢性、およびハイレベル認知へのステップにとって重要なデータ表現の重要な特性である。 VAEに基づく最先端手法は、潜伏変数の結合分布の総相関を最小化する。 データ多様体のトポロジ的性質を解析することにより、解離について異なる視点をとる。 特に,データ多様体のトポロジ的類似性を最適化する。 我々の知る限りでは、この論文は、解離のための微分可能なトポロジ的損失を提案する最初の論文である。 実験の結果,提案したトポロジカル損失はMIG,FacterVAEスコア,SAPスコア,DCIアンタングルメントスコアなどの非アンタングルメントスコアを改善した。 本手法は教師なしの方法で動作し,変動要因をラベル付けすることなく問題に適用できる。 さらに, 提案した位相損失を用いて, 訓練されたGANにおいて, 絡み合った方向を求める方法を示す。

We propose TopDis (Topological Disentanglement), a method for learning disentangled representations via adding multi-scale topological loss term. Disentanglement is a crucial property of data representations substantial for the explainability and robustness of deep learning models and a step towards high-level cognition. The state-of-the-art method based on VAE minimizes the total correlation of the joint distribution of latent variables. We take a different perspective on disentanglement by analyzing topological properties of data manifolds. In particular, we optimize the topological similarity for data manifolds traversals. To the best of our knowledge, our paper is the first one to propose a differentiable topological loss for disentanglement. Our experiments have shown that the proposed topological loss improves disentanglement scores such as MIG, FactorVAE score, SAP score and DCI disentanglement score with respect to state-of-the-art results. Our method works in an unsupervised manner, permitting to apply it for problems without labeled factors of variation. Additionally, we show how to use the proposed topological loss to find disentangled directions in a trained GAN.
翻訳日:2023-08-25 14:26:51 公開日:2023-08-24
# 多モデル線形回帰を用いたビッグデータの効率的なデータ解析法

An Efficient Data Analysis Method for Big Data using Multiple-Model Linear Regression ( http://arxiv.org/abs/2308.12691v1 )

ライセンス: Link先を確認
Bohan Lyu and Jianzhong Li(参考訳) 本稿では,入力データセットをサブセットに分離し,その局所線形回帰モデルを構築するmultiple model linear regression(mmlr)という,新たに定義された回帰モデルを用いたビッグデータデータ解析手法を提案する。 提案手法は他の回帰分析法よりも効率的で柔軟であることが示されている。 本稿ではまた,$(\epsilon,\delta)$-推定子に基づくmmlrモデルを構築する近似アルゴリズムを提案し,入力データセットのサイズに対して時間複雑性が線形であるmmlrアルゴリズムの正確性と効率を数学的に証明する。 本論文は合成データと実世界のデータの両方で実験的にこの手法を実装し、アルゴリズムは既存の回帰法に匹敵する性能を示すが、高い予測精度を提供するには最短の時間を要する。

This paper introduces a new data analysis method for big data using a newly defined regression model named multiple model linear regression(MMLR), which separates input datasets into subsets and construct local linear regression models of them. The proposed data analysis method is shown to be more efficient and flexible than other regression based methods. This paper also proposes an approximate algorithm to construct MMLR models based on $(\epsilon,\delta)$-estimator, and gives mathematical proofs of the correctness and efficiency of MMLR algorithm, of which the time complexity is linear with respect to the size of input datasets. This paper also empirically implements the method on both synthetic and real-world datasets, the algorithm shows to have comparable performance to existing regression methods in many cases, while it takes almost the shortest time to provide a high prediction accuracy.
翻訳日:2023-08-25 14:26:31 公開日:2023-08-24
# Match-And-Deform:最適輸送と時間アライメントによる時系列領域適応

Match-And-Deform: Time Series Domain Adaptation through Optimal Transport and Temporal Alignment ( http://arxiv.org/abs/2308.12686v1 )

ライセンス: Link先を確認
Fran\c{c}ois Painblanc, Laetitia Chapel, Nicolas Courty, Chlo\'e Friguet, Charlotte Pelletier, and Romain Tavenard(参考訳) ラベルのない大量のデータは通常利用可能であるが、関連するラベルは少ないことが多い。 教師なしのドメイン適応問題は、ソースドメインからラベルを利用して、関連するが異なるターゲットドメインからデータを分類することを目的としている。 時系列が懸かっていると、標準の特徴分布シフトに加えて時間シフトが現れるため、新たな困難が生じる。 本稿では,時間的歪みを許容しながら,音源と対象時系列の対応関係を見出すことを目的とした一致変形(mad)手法を提案する。 関連する最適化問題は、最適輸送損失と動的時間ワープによるタイムスタンプにより、シリーズを同時に調整する。 ディープニューラルネットワークに組み込むと、MADはドメインを整列させ、ネットワークの識別力を最大化する時系列の新しい表現を学ぶのに役立つ。 ベンチマークデータセットとリモートセンシングデータに関する実証研究は、MADが有意義なサンプルとサンプルのペアリングとタイムシフト推定を行い、最先端のディープ時系列ドメイン適応戦略と同等または優れた分類性能に達することを示した。

While large volumes of unlabeled data are usually available, associated labels are often scarce. The unsupervised domain adaptation problem aims at exploiting labels from a source domain to classify data from a related, yet different, target domain. When time series are at stake, new difficulties arise as temporal shifts may appear in addition to the standard feature distribution shift. In this paper, we introduce the Match-And-Deform (MAD) approach that aims at finding correspondences between the source and target time series while allowing temporal distortions. The associated optimization problem simultaneously aligns the series thanks to an optimal transport loss and the time stamps through dynamic time warping. When embedded into a deep neural network, MAD helps learning new representations of time series that both align the domains and maximize the discriminative power of the network. Empirical studies on benchmark datasets and remote sensing data demonstrate that MAD makes meaningful sample-to-sample pairing and time shift estimation, reaching similar or better classification performance than state-of-the-art deep time series domain adaptation strategies.
翻訳日:2023-08-25 14:26:15 公開日:2023-08-24
# SayCanPay: 学習可能なドメイン知識を用いた大規模言語モデルによるヒューリスティックプランニング

SayCanPay: Heuristic Planning with Large Language Models using Learnable Domain Knowledge ( http://arxiv.org/abs/2308.12682v1 )

ライセンス: Link先を確認
Rishi Hazra, Pedro Zuidberg Dos Martires, Luc De Raedt(参考訳) 大規模言語モデル(LLM)は、その膨大な「世界知識」のために、驚くべき計画能力を示した。 しかし,近年の進歩にもかかわらず,実現可能な(手頃な)プランと費用対効果(プラン長)の両面において,依然として課題である。 これは、ドメイン知識(pddlのような行動モデルで形式化された)とヒューリスティック探索を用いて実現可能な最適な計画を生成するヒューリスティックな計画手法とは対照的である。 そこで我々は, LLMの世界の知識とヒューリスティック検索の原理を活用することで, LLMの力とヒューリスティックプランニングを組み合わせることを提案する。 私たちのアプローチであるsaycanpayは、学習可能なドメイン知識に導かれたアクション(例えば)を生成するためにllmを使用し、アクションの実現可能性(can)と長期的な報酬/支払い(pay)を評価し、ヒューリスティックな検索によって最善のアクションを選択する。 本研究は,(1)ヒューリスティック・プランニングにおけるLCM計画問題の新たな枠組み,(2)グラウンドディングとコスト効率の要素を生成計画に統合すること,(3)ヒューリスティック・サーチ(ヒューリスティック・サーチ)を用いた提案である。 我々のモデルが他のLCM計画手法より優れていることを示す。

Large Language Models (LLMs) have demonstrated impressive planning abilities due to their vast "world knowledge". Yet, obtaining plans that are both feasible (grounded in affordances) and cost-effective (in plan length), remains a challenge, despite recent progress. This contrasts with heuristic planning methods that employ domain knowledge (formalized in action models such as PDDL) and heuristic search to generate feasible, optimal plans. Inspired by this, we propose to combine the power of LLMs and heuristic planning by leveraging the world knowledge of LLMs and the principles of heuristic search. Our approach, SayCanPay, employs LLMs to generate actions (Say) guided by learnable domain knowledge, that evaluates actions' feasibility (Can) and long-term reward/payoff (Pay), and heuristic search to select the best sequence of actions. Our contributions are (1) a novel framing of the LLM planning problem in the context of heuristic planning, (2) integrating grounding and cost-effective elements into the generated plans, and (3) using heuristic search over actions. Our extensive evaluations show that our model surpasses other LLM planning approaches.
翻訳日:2023-08-25 14:25:54 公開日:2023-08-24
# LR-XFL:論理推論に基づく説明可能なフェデレーション学習

LR-XFL: Logical Reasoning-based Explainable Federated Learning ( http://arxiv.org/abs/2308.12681v1 )

ライセンス: Link先を確認
Yanci Zhang and Han Yu(参考訳) フェデレートラーニング(FL)は、データプライバシを保持しながら、機械学習モデルを協調的にトレーニングするための、新たなアプローチである。 プライバシー保護の必要性は、flモデルがグローバル透明性と説明可能性を達成するのを困難にしている。 この制限に対処するために、論理推論に基づく eXplainable Federated Learning (LR-XFL) アプローチを提案し、論理に基づく説明をFLに組み込む。 LR-XFLでは、FLクライアントはローカルデータに基づいてローカルロジックルールを作成し、モデル更新とともにFLサーバに送信する。 flサーバは、生データへのアクセスを必要とせず、クライアントデータの性質に基づく適切な論理コネクタを介してローカル論理ルールを接続する。 さらにサーバは、アップロードされたロジックルールに反映されたクライアントのローカルデータの品質によって決定される重み値でローカルモデルのアップデートを集約する。 その結果,lr-xflは分類精度,ルール精度,ルール忠実度において,最も関連するベースラインを1.19%,5.81%,5.41%上回った。 LR-XFLの下での明示的なルール評価と表現により、人間の専門家はサーバ側のルールを検証および修正することが可能となり、グローバルFLモデルのエラーに対する堅牢性が改善される。 データプライバシと説明可能性の両方が重要である医療や金融といった分野におけるFLモデルの透明性を高める可能性がある。

Federated learning (FL) is an emerging approach for training machine learning models collaboratively while preserving data privacy. The need for privacy protection makes it difficult for FL models to achieve global transparency and explainability. To address this limitation, we incorporate logic-based explanations into FL by proposing the Logical Reasoning-based eXplainable Federated Learning (LR-XFL) approach. Under LR-XFL, FL clients create local logic rules based on their local data and send them, along with model updates, to the FL server. The FL server connects the local logic rules through a proper logical connector that is derived based on properties of client data, without requiring access to the raw data. In addition, the server also aggregates the local model updates with weight values determined by the quality of the clients' local data as reflected by their uploaded logic rules. The results show that LR-XFL outperforms the most relevant baseline by 1.19%, 5.81% and 5.41% in terms of classification accuracy, rule accuracy and rule fidelity, respectively. The explicit rule evaluation and expression under LR-XFL enable human experts to validate and correct the rules on the server side, hence improving the global FL model's robustness to errors. It has the potential to enhance the transparency of FL models for areas like healthcare and finance where both data privacy and explainability are important.
翻訳日:2023-08-25 14:25:33 公開日:2023-08-24
# 非線形帯域フィードバックと多様性制約を持つトップKマルチアームバンドのマスタースレーブ深層構造

Master-slave Deep Architecture for Top-K Multi-armed Bandits with Non-linear Bandit Feedback and Diversity Constraints ( http://arxiv.org/abs/2308.12680v1 )

ライセンス: Link先を確認
Hanchi Huang, Li Shen, Deheng Ye, Wei Liu(参考訳) そこで本稿では,非線形帯域幅フィードバックと多様性制約を併用して,最上位のK$多重武装帯域幅問題を解決するための新しいマスタースレーブアーキテクチャを提案する。 具体的には,組み合わせおよび制約された行動空間を効率的に探索するために,報奨と制約のバランスと効率のバランスよく多角化サンプルを生成するために,優れた特性を持つ6つのスレーブモデルを導入する。 さらに,マルチスレーブモデルの性能向上のために,教師の学習に基づく最適化と政策協調学習手法を提案する。 マスターモデルは、スレーブモデルが提供するエリートサンプルを収集し、ニューラルネットワークによるUTBベースのネットワークによって推定される最良のサンプルを選択し、探索と搾取の間のトレードオフで決定する。 スレーブモデルの精巧な設計、スレーブモデル間の協調学習機構、マスターモデルとスレーブモデルの間の新たな相互作用のおかげで、提案手法はレコメンデーションタスクのための合成データセットと実際のデータセットの両方において既存の最先端アルゴリズムを大幅に上回っている。 コードは \url{https://github.com/huanghanchi/master-slave-algorithm-for-top-k-bandits} で入手できる。

We propose a novel master-slave architecture to solve the top-$K$ combinatorial multi-armed bandits problem with non-linear bandit feedback and diversity constraints, which, to the best of our knowledge, is the first combinatorial bandits setting considering diversity constraints under bandit feedback. Specifically, to efficiently explore the combinatorial and constrained action space, we introduce six slave models with distinguished merits to generate diversified samples well balancing rewards and constraints as well as efficiency. Moreover, we propose teacher learning based optimization and the policy co-training technique to boost the performance of the multiple slave models. The master model then collects the elite samples provided by the slave models and selects the best sample estimated by a neural contextual UCB-based network to make a decision with a trade-off between exploration and exploitation. Thanks to the elaborate design of slave models, the co-training mechanism among slave models, and the novel interactions between the master and slave models, our approach significantly surpasses existing state-of-the-art algorithms in both synthetic and real datasets for recommendation tasks. The code is available at: \url{https://github.com/huanghanchi/Master-slave-Algorithm-for-Top-K-Bandits}.
翻訳日:2023-08-25 14:25:09 公開日:2023-08-24
# クロスドメイン白血球分類のための連続的学習手法

A Continual Learning Approach for Cross-Domain White Blood Cell Classification ( http://arxiv.org/abs/2308.12679v1 )

ライセンス: Link先を確認
Ario Sadafi, Raheleh Salehi, Armin Gruber, Sayedali Shetab Boushehri, Pascal Giehr, Nassir Navab, Carsten Marr(参考訳) 末梢血における白血球の正確な分類は血液疾患の診断に不可欠である。 臨床設定、データソース、疾病の分類が常に進化しているため、実際の使用のために機械学習の分類モデルを定期的に更新する必要がある。 このようなモデルは、以前取得した知識を忘れずに、入ってくるデータストリームから逐次学習する上で大きなメリットがある。 しかし、モデルは破滅的な忘れ込みに悩まされ、新しいデータを微調整すると以前のタスクのパフォーマンスが低下する。 本稿では,白血球分類におけるクラスインクリメンタルおよびドメインインクリメンタルシナリオに対するリハーサルに基づく連続学習手法を提案する。 従来のタスクから代表サンプルを選択するために,モデルの予測に基づいて模範集合選択を用いる。 これには、モデルの不確実性推定によって最も自信のあるサンプルと最も難しいサンプルを選択することが含まれる。 カラー,解像度,クラス構成が異なる3つの白血球分類データセットに対する提案手法を徹底的に評価し,各タスクで新しいドメインや新しいクラスがモデルに導入されるシナリオを含む。 また、新しいドメインと新しいクラスの両方で、長いクラスインクリメンタルな実験も行います。 提案手法は,既存のiCaRL法やEWC法など,クロスドメイン環境下での白血球の分類など,連続学習における基礎的手法よりも優れていた。

Accurate classification of white blood cells in peripheral blood is essential for diagnosing hematological diseases. Due to constantly evolving clinical settings, data sources, and disease classifications, it is necessary to update machine learning classification models regularly for practical real-world use. Such models significantly benefit from sequentially learning from incoming data streams without forgetting previously acquired knowledge. However, models can suffer from catastrophic forgetting, causing a drop in performance on previous tasks when fine-tuned on new data. Here, we propose a rehearsal-based continual learning approach for class incremental and domain incremental scenarios in white blood cell classification. To choose representative samples from previous tasks, we employ exemplar set selection based on the model's predictions. This involves selecting the most confident samples and the most challenging samples identified through uncertainty estimation of the model. We thoroughly evaluated our proposed approach on three white blood cell classification datasets that differ in color, resolution, and class composition, including scenarios where new domains or new classes are introduced to the model with every task. We also test a long class incremental experiment with both new domains and new classes. Our results demonstrate that our approach outperforms established baselines in continual learning, including existing iCaRL and EWC methods for classifying white blood cells in cross-domain environments.
翻訳日:2023-08-25 14:24:44 公開日:2023-08-24
# 非恒等粒子間の量子干渉

Quantum interference between non-identical single particles ( http://arxiv.org/abs/2308.12677v1 )

ライセンス: Link先を確認
Keyu Su, Yi Zhong, Shanchao Zhang, Jianfeng Li, Chang-Ling Zou, Yunfei Wang, Hui Yan, Shi-Liang Zhu(参考訳) 同一の単一粒子間の量子干渉は、古典物理学では解釈できない粒子の固有量子統計的性質を明らかにする。 本稿では,量子メモリに基づく一般化ビームスプリッタを用いて,非同定ボソン間の量子干渉を実証する。 単一光子と高視認性を持つ単一マグノンとの間のホン・ウー・マンデル型干渉を実証し、ビームスプリッタを非エルミタンにチューニングして、ボソニックからフェルミオン量子統計への交差を観測する。 さらに、3つの入力光子による3つのフェルミオンの挙動をシミュレートする多粒子干渉を実現する。 我々の研究は、量子干渉効果の理解を拡張し、粒子の量子統計の研究と工学のための多目的な実験プラットフォームを実証する。

Quantum interference between identical single particles reveals the intrinsic quantum statistic nature of particles, which could not be interpreted through classical physics. Here, we demonstrate quantum interference between non-identical bosons using a generalized beam splitter based on a quantum memory. The Hong-Ou-Mandel type interference between single photons and single magnons with high visibility is demonstrated, and the crossover from the bosonic to fermionic quantum statistics is observed by tuning the beam splitter to be non-Hermitian. Moreover, multi-particle interference that simulates the behavior of three fermions by three input photons is realized. Our work extends the understanding of the quantum interference effects and demonstrates a versatile experimental platform for studying and engineering quantum statistics of particles.
翻訳日:2023-08-25 14:24:24 公開日:2023-08-24
# 多症例学習による急性骨髄性白血病サブタイプ分類における年齢と性バイアスの検討

A Study of Age and Sex Bias in Multiple Instance Learning based Classification of Acute Myeloid Leukemia Subtypes ( http://arxiv.org/abs/2308.12675v1 )

ライセンス: Link先を確認
Ario Sadafi, Matthias Hehr, Nassir Navab, Carsten Marr(参考訳) 急性骨髄性白血病(AML)サブタイプの正確な分類は、臨床的意思決定と患者医療に不可欠である。 本研究では,MIL(Multiple Instance Learning)アーキテクチャを用いたAMLサブタイプ分類における年齢と性バイアスの可能性を検討する。 そのため、トレーニングセットにおける男女不均衡のレベルが異なるため、特定の年齢群を除外した複数のMILモデルを訓練する。 性別バイアスを評価するために, 男女テストセットにおけるモデルの性能評価を行った。 年齢バイアスについては、トレーニングデータにおいて、未表現の年齢グループに対してモデルがテストされる。 性別と年齢の偏りがAMLサブタイプ分類モデルの性能に及ぼす影響について検討した。 具体的には、女性の方が性不均衡データセットと特定の年齢群、例えばrunx1::runx1t1遺伝子サブタイプを持つ72歳から86歳の患者によって影響を受けやすいことを観察する。 したがって、AMLの遺伝的サブタイプ分類における信頼性と公平な結果を生成するためには、トレーニングデータにおける傾きの確保が不可欠であり、最終的には多様な患者に利益をもたらす。

Accurate classification of Acute Myeloid Leukemia (AML) subtypes is crucial for clinical decision-making and patient care. In this study, we investigate the potential presence of age and sex bias in AML subtype classification using Multiple Instance Learning (MIL) architectures. To that end, we train multiple MIL models using different levels of sex imbalance in the training set and excluding certain age groups. To assess the sex bias, we evaluate the performance of the models on male and female test sets. For age bias, models are tested against underrepresented age groups in the training data. We find a significant effect of sex and age bias on the performance of the model for AML subtype classification. Specifically, we observe that females are more likely to be affected by sex imbalance dataset and certain age groups, such as patients with 72 to 86 years of age with the RUNX1::RUNX1T1 genetic subtype, are significantly affected by an age bias present in the training data. Ensuring inclusivity in the training data is thus essential for generating reliable and equitable outcomes in AML genetic subtype classification, ultimately benefiting diverse patient populations.
翻訳日:2023-08-25 14:24:10 公開日:2023-08-24
# 病理組織像分類のための説明可能な細胞グラフを用いた非対称コトレーニング

Asymmetric Co-Training with Explainable Cell Graph Ensembling for Histopathological Image Classification ( http://arxiv.org/abs/2308.12737v1 )

ライセンス: Link先を確認
Ziqi Yang, Zhongyu Li, Chen Liu, Xiangde Luo, Xingguang Wang, Dou Xu, Chaoqun Li, Xiaoying Qin, Meng Yang, Long Jin(参考訳) 畳み込みニューラルネットワークは病理組織像の分類に優れているが、そのピクセルレベルの焦点は説明可能性を妨げる。 逆に、新興のグラフ畳み込みネットワークは、細胞レベルの特徴と医学的意味を浮き彫りにしている。 しかし、その浅さと高次元画素データの最適利用により、GCNは多種類の病理組織像分類において劣る。 本稿では,画素レベルとセルレベルの機能を動的に活用するために,ディープグラフ畳み込みネットワークと畳み込みニューラルネットワークを組み合わせた非対称協調学習フレームワークを提案する。 細胞の形態的およびトポロジカルな分布を埋め込むことで、フレームワーク全体の説明性を向上させるため、14層深層グラフ畳み込みネットワークを構築し、細胞グラフデータを処理する。 画素レベルとセルレベルの情報間のさらなる利用と動的相互作用のために、我々は2つの非対称分岐を統合するための協調学習戦略を設計する。 特に,肺腺癌の7種類の亜型を含む,LUAD7Cというプライベートな臨床的に取得したデータセットを収集した。 われわれはLUAD7Cおよび大腸癌のプライベートデータセットに対するアプローチについて検討し,その優れた性能,説明可能性,多クラス画像分類における一般化性について検討した。

Convolutional neural networks excel in histopathological image classification, yet their pixel-level focus hampers explainability. Conversely, emerging graph convolutional networks spotlight cell-level features and medical implications. However, limited by their shallowness and suboptimal use of high-dimensional pixel data, GCNs underperform in multi-class histopathological image classification. To make full use of pixel-level and cell-level features dynamically, we propose an asymmetric co-training framework combining a deep graph convolutional network and a convolutional neural network for multi-class histopathological image classification. To improve the explainability of the entire framework by embedding morphological and topological distribution of cells, we build a 14-layer deep graph convolutional network to handle cell graph data. For the further utilization and dynamic interactions between pixel-level and cell-level information, we also design a co-training strategy to integrate the two asymmetric branches. Notably, we collect a private clinically acquired dataset termed LUAD7C, including seven subtypes of lung adenocarcinoma, which is rare and more challenging. We evaluated our approach on the private LUAD7C and public colorectal cancer datasets, showcasing its superior performance, explainability, and generalizability in multi-class histopathological image classification.
翻訳日:2023-08-25 14:20:09 公開日:2023-08-24
# FastSurfer-HypVINN:高分解能脳MRIにおける視床下部および隣接構造の自動化サブセグメンテーション

FastSurfer-HypVINN: Automated sub-segmentation of the hypothalamus and adjacent structures on high-resolutional brain MRI ( http://arxiv.org/abs/2308.12736v1 )

ライセンス: Link先を確認
Santiago Estrada, David K\"ugler, Emad Bahrami, Peng Xu, Dilshad Mousa, Monique M.B. Breteler, N. Ahmad Aziz, Martin Reuter(参考訳) 視床下部は、幅広い生理的、行動的、認知的機能の調節において重要な役割を担っている。 しかし、その重要性にもかかわらず、手動セグメンテーションのスケーラビリティと再現性に対処する完全に自動化されたセグメンテーションツールが欠如しているために、そのサブストラクチャを調査する小規模の神経画像研究はごくわずかである。 視床下部をニューラルネットワークで自動的にサブセグメント化する試みは、1.0mm等方性T1強調MRI(T1w)を約束するものであったが、高分解能MRIスキャン(HiRes)の自動化ツールが必要である。 そこで本研究では,視床下部および隣接構造物を0.8mm等方性t1wおよびt2w脳mr画像にサブセグメンテーションするために,hypvinnという新しい,高速かつ完全自動化された深層学習法を提案する。 我々は,視床下部の容積効果(性差など)を再現するためのセグメンテーション精度,一般化可能性,セッション内テストの信頼性,感度に関して,我々のモデルを広範囲に検証した。 提案手法は,t1w画像およびt1w/t2w画像ペアに対して高いセグメンテーション性能を示す。 フレキシブルな入力を受け入れる能力が加わったとしても、我々のモデルは固定された入力を持つ最先端のメソッドのパフォーマンスと一致または上回っている。 さらに、Rhineland Study と UK Biobank の 1.0 mm MR スキャン実験において、本手法の一般化可能性を実証した。 最後にhypvinnは、セグメンテーションを1分以内(gpu)で実行でき、オープンソースのfastsurfer neuroimaging software suiteで利用可能になり、視床下部のイメージング由来の表現型を評価するための、検証済み、効率的、スケーラブルなソリューションを提供する。

The hypothalamus plays a crucial role in the regulation of a broad range of physiological, behavioural, and cognitive functions. However, despite its importance, only a few small-scale neuroimaging studies have investigated its substructures, likely due to the lack of fully automated segmentation tools to address scalability and reproducibility issues of manual segmentation. While the only previous attempt to automatically sub-segment the hypothalamus with a neural network showed promise for 1.0 mm isotropic T1-weighted (T1w) MRI, there is a need for an automated tool to sub-segment also high-resolutional (HiRes) MR scans, as they are becoming widely available, and include structural detail also from multi-modal MRI. We, therefore, introduce a novel, fast, and fully automated deep learning method named HypVINN for sub-segmentation of the hypothalamus and adjacent structures on 0.8 mm isotropic T1w and T2w brain MR images that is robust to missing modalities. We extensively validate our model with respect to segmentation accuracy, generalizability, in-session test-retest reliability, and sensitivity to replicate hypothalamic volume effects (e.g. sex-differences). The proposed method exhibits high segmentation performance both for standalone T1w images as well as for T1w/T2w image pairs. Even with the additional capability to accept flexible inputs, our model matches or exceeds the performance of state-of-the-art methods with fixed inputs. We, further, demonstrate the generalizability of our method in experiments with 1.0 mm MR scans from both the Rhineland Study and the UK Biobank. Finally, HypVINN can perform the segmentation in less than a minute (GPU) and will be available in the open source FastSurfer neuroimaging software suite, offering a validated, efficient, and scalable solution for evaluating imaging-derived phenotypes of the hypothalamus.
翻訳日:2023-08-25 14:19:49 公開日:2023-08-24
# ディープフェイク音声変換のためのAI生成音声のリアルタイム検出

Real-time Detection of AI-Generated Speech for DeepFake Voice Conversion ( http://arxiv.org/abs/2308.12734v1 )

ライセンス: Link先を確認
Jordan J. Bird, Ahmad Lotfi(参考訳) 音声領域では、音声のクローン化と、個人から別の個人へのリアルタイム音声変換を可能にする、生成AIを取り巻く影響が増えている。 この技術は重大な倫理的脅威となり、プライバシーと誤表現の侵害につながる可能性があるため、ディープフェイク音声変換のためのAI生成音声をリアルタイムに検出する必要がある。 上記の課題に対処するために,8人の著名人物による実際の人間の発話と,それらの音声を検索に基づく音声変換を用いて相互に変換した音声データセットを,本研究で作成する。 音声が現実かAI生成かという二項分類問題として、t-testing による時間的音声特徴の統計的解析により、かなり異なる分布が存在することが明らかになった。 ハイパーパラメータ最適化は、機械学習モデルに実装され、音声のソースを特定する。 10倍のクロス検証で208個の機械学習モデルのトレーニングを行った結果、最大勾配強調モデルは平均的分類精度99.3%を達成でき、1秒あたり0.004ミリ秒でリアルタイムに音声を分類できることがわかった。 この研究のために生成されたデータはすべて、将来のAI音声検出研究のために公開されている。

There are growing implications surrounding generative AI in the speech domain that enable voice cloning and real-time voice conversion from one individual to another. This technology poses a significant ethical threat and could lead to breaches of privacy and misrepresentation, thus there is an urgent need for real-time detection of AI-generated speech for DeepFake Voice Conversion. To address the above emerging issues, the DEEP-VOICE dataset is generated in this study, comprised of real human speech from eight well-known figures and their speech converted to one another using Retrieval-based Voice Conversion. Presenting as a binary classification problem of whether the speech is real or AI-generated, statistical analysis of temporal audio features through t-testing reveals that there are significantly different distributions. Hyperparameter optimisation is implemented for machine learning models to identify the source of speech. Following the training of 208 individual machine learning models over 10-fold cross validation, it is found that the Extreme Gradient Boosting model can achieve an average classification accuracy of 99.3% and can classify speech in real-time, at around 0.004 milliseconds given one second of speech. All data generated for this study is released publicly for future research on AI speech detection.
翻訳日:2023-08-25 14:19:12 公開日:2023-08-24
# 箱から考える:エキスパートルーティングとゲームクジラ検出による顧客ライフタイムバリューモデリングの改善

Out of the Box Thinking: Improving Customer Lifetime Value Modelling via Expert Routing and Game Whale Detection ( http://arxiv.org/abs/2308.12729v1 )

ライセンス: Link先を確認
Shijie Zhang, Xin Yan, Xuejiao Yang, Binfeng Jia, Shuangyang Wang(参考訳) ユーザ生涯価値(LTV)予測は、推定値に基づいてユーザ獲得毎の広告投資を最適化しようとするモバイルゲームパブリッシャーにとって不可欠である。 モバイルゲームでは、マイクロトランザクションの展開はシンプルだが効果的なマネタイズ戦略であり、ゲーム内購入で飛び散るゲームクジラの小さなグループを惹きつける。 ゲームクジラの購入行動は常に一般ユーザーからの様々な分布を示すため、そのようなゲームクジラの存在は既存のLTV予測モデルの実用性を阻害する可能性がある。 その結果、クジラの識別は、LTV予測モデルの精度を向上させる新たな機会を開くことができる。 しかし,LTV予測にゲームクジラ検出を適用することにはほとんど注意が払われておらず,既存の研究は,UA段階では適用できない高品質なユーザ特徴が利用できると仮定して,長期LTV予測に特化している。 本稿では,LTV予測とゲームクジラ検出を統一的に行うためのマルチタスクフレームワークであるExpLTVを提案する。 expltvでは,金融価値に応じて本質的な順序を推測できるだけでなく,高出費者(ゲームクジラなど)や低出費者を正確に識別できる深層ニューラルネットワークを用いたゲームクジラ検出器を初めて設計した。 そして、ゲームクジラ検出器をゲーティングネットワークとして扱い、ltv専門家の組み立ての異なる混合パターンを決定することにより、共有情報とシナリオ固有の情報(すなわち、ゲームクジラのモデリングと低消費者モデリング)を徹底的に活用することができる。 最後に,2つのタスクに対する購入率推定器を個別に設計する代わりに,内部タスク関係を保存可能な共有推定器を設計する。 ExpLTVの優位性は、3つの産業データセットに関する広範な実験を通じてさらに検証されている。

Customer lifetime value (LTV) prediction is essential for mobile game publishers trying to optimize the advertising investment for each user acquisition based on the estimated worth. In mobile games, deploying microtransactions is a simple yet effective monetization strategy, which attracts a tiny group of game whales who splurge on in-game purchases. The presence of such game whales may impede the practicality of existing LTV prediction models, since game whales' purchase behaviours always exhibit varied distribution from general users. Consequently, identifying game whales can open up new opportunities to improve the accuracy of LTV prediction models. However, little attention has been paid to applying game whale detection in LTV prediction, and existing works are mainly specialized for the long-term LTV prediction with the assumption that the high-quality user features are available, which is not applicable in the UA stage. In this paper, we propose ExpLTV, a novel multi-task framework to perform LTV prediction and game whale detection in a unified way. In ExpLTV, we first innovatively design a deep neural network-based game whale detector that can not only infer the intrinsic order in accordance with monetary value, but also precisely identify high spenders (i.e., game whales) and low spenders. Then, by treating the game whale detector as a gating network to decide the different mixture patterns of LTV experts assembling, we can thoroughly leverage the shared information and scenario-specific information (i.e., game whales modelling and low spenders modelling). Finally, instead of separately designing a purchase rate estimator for two tasks, we design a shared estimator that can preserve the inner task relationships. The superiority of ExpLTV is further validated via extensive experiments on three industrial datasets.
翻訳日:2023-08-25 14:18:52 公開日:2023-08-24
# DeepLOC: 深層学習に基づくX線画像の骨組織局在と分類

DeepLOC: Deep Learning-based Bone Pathology Localization and Classification in Wrist X-ray Images ( http://arxiv.org/abs/2308.12727v1 )

ライセンス: Link先を確認
Razan Dibo and Andrey Galichin and Pavel Astashev and Dmitry V. Dylov and Oleg Y. Rogov(参考訳) 近年, コンピュータ支援診断システムは, 正確な医用画像解析を行う放射線科医を支援する大きな可能性を示している。 本稿では, YOLO (You Only Look Once) と Shifted Window Transformer (Swin) を併用した手首X線画像における骨の局所化と分類のための新しい手法を提案する。 提案手法は,手首X線解析における2つの重要な課題,骨の正確な局在化と異常の正確な分類に対処する。 YOLOフレームワークは、リアルタイムオブジェクト検出機能を活用することで、骨病理の検出とローカライズに使用されている。 さらに、トランスフォーマーベースのモジュールであるSwinを使用して、関心の局所的領域(ROI)からコンテキスト情報を抽出し、正確な分類を行う。

In recent years, computer-aided diagnosis systems have shown great potential in assisting radiologists with accurate and efficient medical image analysis. This paper presents a novel approach for bone pathology localization and classification in wrist X-ray images using a combination of YOLO (You Only Look Once) and the Shifted Window Transformer (Swin) with a newly proposed block. The proposed methodology addresses two critical challenges in wrist X-ray analysis: accurate localization of bone pathologies and precise classification of abnormalities. The YOLO framework is employed to detect and localize bone pathologies, leveraging its real-time object detection capabilities. Additionally, the Swin, a transformer-based module, is utilized to extract contextual information from the localized regions of interest (ROIs) for accurate classification.
翻訳日:2023-08-25 14:18:19 公開日:2023-08-24
# 連続強化学習に基づく作業記憶ゲームにおける動的困難調整

Continuous Reinforcement Learning-based Dynamic Difficulty Adjustment in a Visual Working Memory Game ( http://arxiv.org/abs/2308.12726v1 )

ライセンス: Link先を確認
Masoud Rahimi, Hadi Moradi, Abdol-hossein Vahabie, Hamed Kebriaei(参考訳) Dynamic Difficulty Adjustment (DDA) は、ビデオゲームにおけるプレイヤーの経験を高めるための実行可能なアプローチである。 近年,非競争ゲームでは強化学習(rl)手法が採用されているが,検索空間が小さい離散状態空間のみに依存している。 本稿では,複雑な検索空間を扱うために,視覚ワーキングメモリ(VWM)ゲームのための連続的なRLベースのDDA手法を提案する。 提案されたRLベースのDDAは、前回のトライアルにおけるプレイヤーの得点とゲームの難易度に基づいてゲームの難易度を調整する。 我々は記憶の難しさのために連続的な計量を定義した。 次に、タスクの難易度と難易度スコアのベクトルをrlの動作と状態として考察する。 52名の被験者を対象に実験を行い,提案手法の評価を行った。 提案手法を2つのルールベース難易度調整法と比較し, 得点とゲーム経験を質問紙で測定した。 提案したRLベースのアプローチは、能力、緊張、ネガティブ、ポジティブな影響の点において、ゲーム体験を著しく改善した。 また、得点率や勝利率も高い。 さらに、提案されたRLベースのDDAは、20回のセッションでスコアが大幅に低下した。

Dynamic Difficulty Adjustment (DDA) is a viable approach to enhance a player's experience in video games. Recently, Reinforcement Learning (RL) methods have been employed for DDA in non-competitive games; nevertheless, they rely solely on discrete state-action space with a small search space. In this paper, we propose a continuous RL-based DDA methodology for a visual working memory (VWM) game to handle the complex search space for the difficulty of memorization. The proposed RL-based DDA tailors game difficulty based on the player's score and game difficulty in the last trial. We defined a continuous metric for the difficulty of memorization. Then, we consider the task difficulty and the vector of difficulty-score as the RL's action and state, respectively. We evaluated the proposed method through a within-subject experiment involving 52 subjects. The proposed approach was compared with two rule-based difficulty adjustment methods in terms of player's score and game experience measured by a questionnaire. The proposed RL-based approach resulted in a significantly better game experience in terms of competence, tension, and negative and positive affect. Players also achieved higher scores and win rates. Furthermore, the proposed RL-based DDA led to a significantly less decline in the score in a 20-trial session.
翻訳日:2023-08-25 14:18:03 公開日:2023-08-24
# 物理インフォーマントニューラルネットワークを用いた接触力学の前方および逆問題の解法

Solving Forward and Inverse Problems of Contact Mechanics using Physics-Informed Neural Networks ( http://arxiv.org/abs/2308.12716v1 )

ライセンス: Link先を確認
T. Sahin, M. von Danwitz, A. Popp(参考訳) 本稿では, 物理インフォームドニューラルネットワーク(PINN)を用いて, 小変形弾性に対する接触力学の前方および逆問題の解法について検討する。 我々は,dirichlet と neumann の境界条件を厳密な制約として強制するために,出力変換により強化された混合変数式に pinn を展開する。 接触問題の不等式制約、すなわちKKT型条件は、ネットワークトレーニング中に損失関数に組み込むことにより、ソフト制約として強制される。 KKT制約の損失関数の寄与を定式化するために、エラスト塑性問題に適用した既存のアプローチを調査し、最適化の観点から有利な特性を持つ非線形相補性問題(NCP)関数(Fischer-Burmeister)を探索する。 ヘルツ接点問題に基づいて、PINNは純粋偏微分方程式(PDE)、データ強化フォワードモデル、パラメータ同定の逆解法、そして高速で評価可能なサロゲートモデルとして機能することを示す。 さらに, 適切なハイパーパラメータ, 損失重み, およびadamとl-bfgs-bオプティマイザの組み合わせが, 精度とトレーニング時間の観点からより良い結果をもたらすことの重要性を実証する。

This paper explores the ability of physics-informed neural networks (PINNs) to solve forward and inverse problems of contact mechanics for small deformation elasticity. We deploy PINNs in a mixed-variable formulation enhanced by output transformation to enforce Dirichlet and Neumann boundary conditions as hard constraints. Inequality constraints of contact problems, namely Karush-Kuhn-Tucker (KKT) type conditions, are enforced as soft constraints by incorporating them into the loss function during network training. To formulate the loss function contribution of KKT constraints, existing approaches applied to elastoplasticity problems are investigated and we explore a nonlinear complementarity problem (NCP) function, namely Fischer-Burmeister, which possesses advantageous characteristics in terms of optimization. Based on the Hertzian contact problem, we show that PINNs can serve as pure partial differential equation (PDE) solver, as data-enhanced forward model, as inverse solver for parameter identification, and as fast-to-evaluate surrogate model. Furthermore, we demonstrate the importance of choosing proper hyperparameters, e.g. loss weights, and a combination of Adam and L-BFGS-B optimizers aiming for better results in terms of accuracy and training time.
翻訳日:2023-08-25 14:17:48 公開日:2023-08-24
# VIGC:ビジュアルインストラクション生成と修正

VIGC: Visual Instruction Generation and Correction ( http://arxiv.org/abs/2308.12714v1 )

ライセンス: Link先を確認
Bin Wang, Fan Wu, Xiao Han, Jiahui Peng, Huaping Zhong, Pan Zhang, Xiaoyi Dong, Weijia Li, Wei Li, Jiaqi Wang, Conghui He(参考訳) 視覚エンコーダと大言語モデル(LLM)の統合により、マルチモーダル大言語モデル(MLLM)が近年進歩している。 しかし、視覚言語タスクのための高品質な指導訓練データの不足は依然として課題である。 llavaのような現在のリードパラダイムは、データを生成するのに言語のみのgpt-4に依存しており、画像の詳細を理解するのに苦しむ、注釈付き画像キャプションと検出バウンディングボックスを必要とする。 この問題に対する実用的な解決策は、多モーダル大規模言語モデル(MLLM)を使用して視覚言語タスクの命令データを生成することである。 しかし、現在アクセス可能なMLLMは、不十分な応答を生成し、誤った情報を生成する傾向があるため、LLMのそれほど強力ではないことに注意する必要がある。 本稿では,この問題を解決するために,マルチモーダル大規模言語モデルが命令チューニングデータを生成し,その品質を段階的に向上できるヴィジュアルインストラクション生成・修正(vigc)フレームワークを提案する。 具体的には、視覚インストラクション生成(VIG)が視覚言語モデルをガイドし、多様なインストラクションチューニングデータを生成する。 生成品質を確保するために、Visual Instruction Correction (VIC)は、VIGが生成したデータの不正確性を補正する反復的な更新機構を採用し、幻覚のリスクを効果的に低減する。 VIGCが生成する多様で高品質なデータを活用することで、主流モデルを微調整し、さまざまな評価に基づいてデータ品質を検証する。 実験結果から,VIGCは言語のみのデータ生成手法の欠点を補うだけでなく,ベンチマーク性能を効果的に向上することが示された。 モデル、データセット、コードは公開される予定だ。

The integration of visual encoders and large language models (LLMs) has driven recent progress in multimodal large language models (MLLMs). However, the scarcity of high-quality instruction-tuning data for vision-language tasks remains a challenge. The current leading paradigm, such as LLaVA, relies on language-only GPT-4 to generate data, which requires pre-annotated image captions and detection bounding boxes, suffering from understanding image details. A practical solution to this problem would be to utilize the available multimodal large language models (MLLMs) to generate instruction data for vision-language tasks. However, it's worth noting that the currently accessible MLLMs are not as powerful as their LLM counterparts, as they tend to produce inadequate responses and generate false information. As a solution for addressing the current issue, this paper proposes the Visual Instruction Generation and Correction (VIGC) framework that enables multimodal large language models to generate instruction-tuning data and progressively enhance its quality on-the-fly. Specifically, Visual Instruction Generation (VIG) guides the vision-language model to generate diverse instruction-tuning data. To ensure generation quality, Visual Instruction Correction (VIC) adopts an iterative update mechanism to correct any inaccuracies in data produced by VIG, effectively reducing the risk of hallucination. Leveraging the diverse, high-quality data generated by VIGC, we finetune mainstream models and validate data quality based on various evaluations. Experimental results demonstrate that VIGC not only compensates for the shortcomings of language-only data generation methods, but also effectively enhances the benchmark performance. The models, datasets, and code will be made publicly available.
翻訳日:2023-08-25 14:17:08 公開日:2023-08-24
# 対aerial person search:ベンチマークデータセットとアプローチ

Ground-to-Aerial Person Search: Benchmark Dataset and Approach ( http://arxiv.org/abs/2308.12712v1 )

ライセンス: Link先を確認
Shizhou Zhang, Qingchun Yang, De Cheng, Yinghui Xing, Guoqiang Liang, Peng Wang, Yanning Zhang(参考訳) 本研究では,UAVと地上監視カメラの両方に2,644のアイデンティティを持つ260,559個の注釈付きバウンダリングボックスの31,770枚の画像を含む地上対航空パーソナリティ検索のための大規模データセットG2APSを構築した。 私たちの知る限り、これはクロスプラットフォームのインテリジェントな監視アプリケーションのための最初のデータセットであり、UAVは地上監視カメラの強力な補完となる可能性がある。 実際の対地対空監視シナリオをより現実的にシミュレートするために、監視カメラは地上約2メートルの地点で固定され、uavsはさまざまな視野角、飛行姿勢、飛行モードで異なる場所にいる人のビデオを撮影する。 したがって、データセットには次のような特徴がある。 1) クロスプラットフォームカメラからの問合せ画像とギャラリー人物画像との劇的な視角変化 2)9つの豊かな実世界シナリオの下での人物像の多様な解像度、ポーズ、ビュー。 G2APSベンチマークデータセットに基づいて、現在の2段階とエンドツーエンドの人物探索手法を詳細に分析し、さらに、G2APSと以前の2つの公開人検索データセット(PRWとCUHK-SYSU)の両方で最先端のパフォーマンスを実現するReIDネットワークの頭上で、単純かつ効果的な知識蒸留方式を提案する。 データセットとソースコードは \url{https://github.com/yqc123456/hkd_for_person_search}にある。

In this work, we construct a large-scale dataset for Ground-to-Aerial Person Search, named G2APS, which contains 31,770 images of 260,559 annotated bounding boxes for 2,644 identities appearing in both of the UAVs and ground surveillance cameras. To our knowledge, this is the first dataset for cross-platform intelligent surveillance applications, where the UAVs could work as a powerful complement for the ground surveillance cameras. To more realistically simulate the actual cross-platform Ground-to-Aerial surveillance scenarios, the surveillance cameras are fixed about 2 meters above the ground, while the UAVs capture videos of persons at different location, with a variety of view-angles, flight attitudes and flight modes. Therefore, the dataset has the following unique characteristics: 1) drastic view-angle changes between query and gallery person images from cross-platform cameras; 2) diverse resolutions, poses and views of the person images under 9 rich real-world scenarios. On basis of the G2APS benchmark dataset, we demonstrate detailed analysis about current two-step and end-to-end person search methods, and further propose a simple yet effective knowledge distillation scheme on the head of the ReID network, which achieves state-of-the-art performances on both of the G2APS and the previous two public person search datasets, i.e., PRW and CUHK-SYSU. The dataset and source code available on \url{https://github.com/yqc123456/HKD_for_person_search}.
翻訳日:2023-08-25 14:16:17 公開日:2023-08-24
# Goliathに対するDavidの力の調和 - クローズドソースモデルを使用しないインストラクションデータ生成の探索

Harnessing the Power of David against Goliath: Exploring Instruction Data Generation without Using Closed-Source Models ( http://arxiv.org/abs/2308.12711v1 )

ライセンス: Link先を確認
Yue Wang, Xinrui Wang, Juntao Li, Jinxiong Chang, Qishen Zhang, Zhongyi Liu, Guannan Zhang, Min Zhang(参考訳) インストラクションチューニングは、Large Language Models~(LLM)がユーザ命令に従って様々なオープンドメインタスクを完了できるようにするのに役立ちます。 命令チューニングの成功は、高品質な命令データの可用性に依存する。 最近の研究は,人間のアノテーションの外部費用とサブスタンダード品質のために,命令データの自動生成のための強力なクローズドソースモデルの利用の探求に深く関わってきた。 しかし、これらの手法は強力なクローズドソースモデルの使用要件から生じる潜在的なリスクを持ち、機械学習モデルを開発するために出力の使用を厳密に禁止している。 この問題に対処するため,本研究では,クローズドソースモデルに依存しない高品質な命令データを生成するための代替手法を検討する。 提案手法は,様々な命令生成手法を探索し,さらに品質を高めるための2つの新しい戦略と,最も効率的な変種の統合を導出する。 2つのベンチマークとgpt-4モデルによる評価結果から,クローズドソースモデルに依存するalpacaよりも優れる,生成された命令データの有効性が示された。 クローズドソースモデルを用いることなく,高品質な命令データを生成する上で,さらなる進歩が期待できる。

Instruction tuning is instrumental in enabling Large Language Models~(LLMs) to follow user instructions to complete various open-domain tasks. The success of instruction tuning depends on the availability of high-quality instruction data. Owing to the exorbitant cost and substandard quality of human annotation, recent works have been deeply engaged in the exploration of the utilization of powerful closed-source models to generate instruction data automatically. However, these methods carry potential risks arising from the usage requirements of powerful closed-source models, which strictly forbid the utilization of their outputs to develop machine learning models. To deal with this problem, in this work, we explore alternative approaches to generate high-quality instruction data that do not rely on closed-source models. Our exploration includes an investigation of various existing instruction generation methods, culminating in the integration of the most efficient variant with two novel strategies to enhance the quality further. Evaluation results from two benchmarks and the GPT-4 model demonstrate the effectiveness of our generated instruction data, which can outperform Alpaca, a method reliant on closed-source models. We hope that more progress can be achieved in generating high-quality instruction data without using closed-source models.
翻訳日:2023-08-25 14:15:23 公開日:2023-08-24
# ネットワークデバイスに依存しない因果非分離性証明

Network-Device-Independent Certification of Causal Nonseparability ( http://arxiv.org/abs/2308.12760v1 )

ライセンス: Link先を確認
Hippolyte Dourdent, Alastair A. Abbott, Ivan \v{S}upi\'c, Cyril Branciard(参考訳) 因果非分離性(英: Causal nonseparability)は、特定の因果順序と不整合な量子過程の基礎となる性質である。 これまでのところ、明確な物理的実現のプロセスが因果不平等に反する可能性があるかどうかについては、その因果非分離性は、もともと考えられたようにデバイス非依存の方法で証明される。 本稿では,[dourdent et al., phys. rev. lett. 129, 090402 (2022)]で定義された,信頼された量子入力状態を持つシナリオにおいて,因果的に分離不能な分散測定を誘発できるすべてのプロセスの因果的非分離性を証明する,観測相関のみに基づく手法を提案する。 これは有名な量子スイッチを含む。 このデバイス非依存認証は、信頼できない操作のネットワークを導入し、プロセスによって引き起こされる効果的な分散測定を行う量子入力を自己テストすることで達成される。

Causal nonseparability is the property underlying quantum processes incompatible with a definite causal order. So far it has remained a central open question as to whether any process with a clear physical realisation can violate a causal inequality, so that its causal nonseparability can be certified in a device-independent way, as originally conceived. Here we present a method solely based on the observed correlations, which certifies the causal nonseparability of all the processes that can induce a causally nonseparable distributed measurement in a scenario with trusted quantum input states, as defined in [Dourdent et al., Phys. Rev. Lett. 129, 090402 (2022)]. This notably includes the celebrated quantum switch. This device-independent certification is achieved by introducing a network of untrusted operations, allowing one to self-test the quantum inputs on which the effective distributed measurement induced by the process is performed.
翻訳日:2023-08-25 14:07:20 公開日:2023-08-24
# PartSeg:Part-Aware Prompt Learningによるパートセグメンテーション

PartSeg: Few-shot Part Segmentation via Part-aware Prompt Learning ( http://arxiv.org/abs/2308.12757v1 )

ライセンス: Link先を確認
Mengya Han, Heliang Zheng, Chaoyue Wang, Yong Luo, Han Hu, Jing Zhang, Yonggang Wen(参考訳) 本研究は,ごく少数のラベル付き例を用いて,見えないオブジェクトの異なる部分をセグメント化することを目的とした,少数ショット部分のセグメンテーションの課題に対処する。 画像言語モデル(CLIPなど)のテキスト空間を活用することで,視覚的特徴の学習に有用であることが判明した。 そこで本研究では,マルチモーダル学習に基づくパートセグメンテーションのためのPartSegと呼ばれる新しい手法を開発した。 具体的には、CLIPモデルが `part' の概念をよりよく理解し、そのテキスト空間を完全に活用できるように、パート固有のプロンプトを生成する部分認識プロンプト学習手法を設計する。 さらに,異なる対象カテゴリの同じ部分の概念が一般的であることから,これらの部分間の関係を即興学習過程において確立する。 我々はpartimagenetとpascal$\_$partデータセットの広範な実験を行い,提案手法が最先端の性能を実現することを実証した。

In this work, we address the task of few-shot part segmentation, which aims to segment the different parts of an unseen object using very few labeled examples. It is found that leveraging the textual space of a powerful pre-trained image-language model (such as CLIP) can be beneficial in learning visual features. Therefore, we develop a novel method termed PartSeg for few-shot part segmentation based on multimodal learning. Specifically, we design a part-aware prompt learning method to generate part-specific prompts that enable the CLIP model to better understand the concept of ``part'' and fully utilize its textual space. Furthermore, since the concept of the same part under different object categories is general, we establish relationships between these parts during the prompt learning process. We conduct extensive experiments on the PartImageNet and Pascal$\_$Part datasets, and the experimental results demonstrated that our proposed method achieves state-of-the-art performance.
翻訳日:2023-08-25 14:07:02 公開日:2023-08-24
# 運転シーン自動解釈のための質的説明可能なグラフの取得

Acquiring Qualitative Explainable Graphs for Automated Driving Scene Interpretation ( http://arxiv.org/abs/2308.12755v1 )

ライセンス: Link先を確認
Nassim Belmecheri and Arnaud Gotlieb and Nadjib Lazaar and Helge Spieker(参考訳) 自動運転(AD)の未来は、堅牢で公正で説明可能な人工知能手法の開発に根ざしている。 要求されると、自動運転車はドライバーと乗客に、歩行者や他の脆弱な道路利用者に、そして事故時に外部監査人に彼らの決定を説明できなければならない。 しかし、今日では最も説明可能な手法は、複数のセンサーが捉えたADシーンの定量的解析に依存している。 本稿では,長期シーンの質的時空間的推論を目的とした,定性的eXplainable Graph (QXG) と呼ばれるADシーンの表現を提案する。 このグラフの構築は、最近の定性制約獲得パラダイムを活用する。 オープン・リアル・ワールドのマルチモーダル・データセットであるnuscenesに関する実験結果から,40フレームからなる広告シーンの質的説明可能なグラフを,空間記憶においてリアルタイムかつ軽量に計算できることが判明した。

The future of automated driving (AD) is rooted in the development of robust, fair and explainable artificial intelligence methods. Upon request, automated vehicles must be able to explain their decisions to the driver and the car passengers, to the pedestrians and other vulnerable road users and potentially to external auditors in case of accidents. However, nowadays, most explainable methods still rely on quantitative analysis of the AD scene representations captured by multiple sensors. This paper proposes a novel representation of AD scenes, called Qualitative eXplainable Graph (QXG), dedicated to qualitative spatiotemporal reasoning of long-term scenes. The construction of this graph exploits the recent Qualitative Constraint Acquisition paradigm. Our experimental results on NuScenes, an open real-world multi-modal dataset, show that the qualitative eXplainable graph of an AD scene composed of 40 frames can be computed in real-time and light in space storage which makes it a potentially interesting tool for improved and more trustworthy perception and control processes in AD.
翻訳日:2023-08-25 14:06:44 公開日:2023-08-24
# 時間関数による量子状態の特異性

Uniqueness of quantum state over time function ( http://arxiv.org/abs/2308.12752v1 )

ライセンス: Link先を確認
Seok Hyung Lie and Nelly H. Y. Ng(参考訳) 基本的な非対称性は、空間と時間の間の従来の量子理論の枠組みの中に存在し、量子チャネルによる因果関係と多部量子状態による因果関係を表す。 このような区別は古典的確率論には存在しない。 この対称性を量子理論に導入するために、量子系の動的記述が時間とともに静的な量子状態によってカプセル化されるような新しい枠組みが最近提案されている。 特に、fullwoodとparzygnatは、jordan積に基づく状態超時間関数をそのような量子超時間関数の有望な候補として提案し、horsmanらによるno-goの結果で必要とされる全ての公理を満たすことを示した。 しかし、公理が時間関数に対して一意な状態を誘導するかどうかは明らかでない。 本研究では,従来提案されていた公理が時間関数で一意な状態にならないことを示す。 そこで我々は,2点を超える任意の時空領域上の量子状態を記述するのにより適した,操作的動機づけのある別の公理集合を提案する。 これにより、全ての操作公理を満たす本質的に一意な関数としてフルウッド・パリジーニャート状態が時間関数として確立される。

A fundamental asymmetry exists within the conventional framework of quantum theory between space and time, in terms of representing causal relations via quantum channels and acausal relations via multipartite quantum states. Such a distinction does not exist in classical probability theory. In effort to introduce this symmetry to quantum theory, a new framework has recently been proposed, such that dynamical description of a quantum system can be encapsulated by a static quantum state over time. In particular, Fullwood and Parzygnat recently proposed the state over time function based on the Jordan product as a promising candidate for such a quantum state over time function, by showing that it satisfies all the axioms required in the no-go result by Horsman et al. However, it was unclear if the axioms induce a unique state over time function. In this work, we demonstrate that the previously proposed axioms cannot yield a unique state over time function. In response, we therefore propose an alternative set of axioms that is operationally motivated, and better suited to describe quantum states over any spacetime regions beyond two points. By doing so, we establish the Fullwood-Parzygnat state over time function as the essentially unique function satisfying all these operational axioms.
翻訳日:2023-08-25 14:06:27 公開日:2023-08-24
# 位相マニフォールドを用いた動作間移動

Motion In-Betweening with Phase Manifolds ( http://arxiv.org/abs/2308.12751v1 )

ライセンス: Link先を確認
Paul Starke, Sebastian Starke, Taku Komura, Frank Steinicke(参考訳) 本稿では,周期的オートエンコーダによって学習される位相変数を用いて,文字のターゲットポーズに到達可能な新しいデータ駆動動作インインターインターホンシステムを提案する。 提案手法では,経験的ニューラルネットワークモデルを用いて,空間と時間の両方におけるクラスタの移動を,異なる専門家の重みで行う。 生成された各重みのセットは、キャラクタの現在の状態とターゲット状態の間の自己回帰的なポーズのシーケンスを生成する。 また、アニメーターが手動で修正したポーズや、アニメーションが到達する制約となるエンドエフェクタを満足させるため、このような制約を満たすために学習された双方向制御スキームが実装される。 その結果,タスク間の動作に位相を用いると補間動作が鋭くなり,さらに学習プロセスが安定化することが示された。 さらに、動作中の動作にフェーズを使用することで、移動行動を超えたより困難な動作を合成することもできる。 さらに、所定のターゲットキーフレーム間でスタイル制御が可能である。 提案手法は, 動きの質や一般化, 特に長い遷移時間の存在において, 最新の動きの手法と競合することができる。 本フレームワークは,ゲームや映画産業にとって大きな関心事であるアニメーションキャラクタシーケンスを作成するための高速なプロトタイピングワークフローに寄与する。

This paper introduces a novel data-driven motion in-betweening system to reach target poses of characters by making use of phases variables learned by a Periodic Autoencoder. Our approach utilizes a mixture-of-experts neural network model, in which the phases cluster movements in both space and time with different expert weights. Each generated set of weights then produces a sequence of poses in an autoregressive manner between the current and target state of the character. In addition, to satisfy poses which are manually modified by the animators or where certain end effectors serve as constraints to be reached by the animation, a learned bi-directional control scheme is implemented to satisfy such constraints. The results demonstrate that using phases for motion in-betweening tasks sharpen the interpolated movements, and furthermore stabilizes the learning process. Moreover, using phases for motion in-betweening tasks can also synthesize more challenging movements beyond locomotion behaviors. Additionally, style control is enabled between given target keyframes. Our proposed framework can compete with popular state-of-the-art methods for motion in-betweening in terms of motion quality and generalization, especially in the existence of long transition durations. Our framework contributes to faster prototyping workflows for creating animated character sequences, which is of enormous interest for the game and film industry.
翻訳日:2023-08-25 14:06:06 公開日:2023-08-24
# 高批判を用いたAIテキストからの人間の触覚の分離:情報理論的アプローチ

Separating the Human Touch from AI-Generated Text using Higher Criticism: An Information-Theoretic Approach ( http://arxiv.org/abs/2308.12747v1 )

ライセンス: Link先を確認
Alon Kipnis(参考訳) 本稿では,ある記事が生成言語モデルによって完全に書かれていたのか,あるいは別の著者による重要な編集を含む別の状況なのかを判断する手法を提案する。 我々のプロセスは、個々の文や他のテキスト原子の起源に関する多くのパープレキシティテストを含み、高批判(HC)を用いたこれらの複数のテストを組み合わせる。 副産物として、編集されると思われる部品を特定する。 この方法は、クロスエントロピー率への対数パープレキシティの収束と、編集されたテキストの統計モデルによって、文は言語モデルによって生成されるが、おそらく別のメカニズムで発生したいくつかの文を除いては、ほとんどが言語モデルによって生成されると述べている。 本手法の有効性を実データを用いて実証し,その成功に影響する要因を分析した。 この分析は、解決によってメソッドの有効性が向上する可能性のある、いくつかの興味深いオープンチャレンジを引き起こす。

We propose a method to determine whether a given article was entirely written by a generative language model versus an alternative situation in which the article includes some significant edits by a different author, possibly a human. Our process involves many perplexity tests for the origin of individual sentences or other text atoms, combining these multiple tests using Higher Criticism (HC). As a by-product, the method identifies parts suspected to be edited. The method is motivated by the convergence of the log-perplexity to the cross-entropy rate and by a statistical model for edited text saying that sentences are mostly generated by the language model, except perhaps for a few sentences that might have originated via a different mechanism. We demonstrate the effectiveness of our method using real data and analyze the factors affecting its success. This analysis raises several interesting open challenges whose resolution may improve the method's effectiveness.
翻訳日:2023-08-25 14:05:44 公開日:2023-08-24
# バルクテルル中の光電流

Photocurrents in bulk tellurium ( http://arxiv.org/abs/2308.12741v1 )

ライセンス: Link先を確認
M. D. Moldavskaya, L. E. Golub, S. N. Danilov, V. V. Bel'kov, D. Weiss and S. D. Ganichev(参考訳) バルクテルル結晶中の偏光赤外/テラヘルツ光電流の包括的研究を報告する。 異なる光電流の寄与を観察し, 実験条件により, 三角光ガルバニック効果, 横線形光子ドラッグ効果, 磁場誘起リニア光ガルバニック効果および円光ガルバニック効果に起因することを示した。 観測されたすべての光電流は以前に報告されておらず、発達した現象学的および顕微鏡理論によってよく説明されている。 光電流の偏光、磁場、放射周波数依存性を研究することにより、その効果を曖昧に区別できることを示す。 30Hzの周波数では、光電流は原子価帯のサブバンド間の直接光遷移によって引き起こされる。 実験で使用した1~3Hzの低周波数では、これらの遷移は不可能となり、検出された光電流は間接光遷移(ドルデ様放射線吸収)によって引き起こされる。

We report a comprehensive study of polarized infrared/terahertz photocurrents in bulk tellurium crystals. We observe different photocurrent contributions and show that, depending on the experimental conditions, they are caused by the trigonal photogalvanic effect, the transverse linear photon drag effect, and the magnetic field induced linear and circular photogalvanic effects. All observed photocurrents have not been reported before and are well explained by the developed phenomenological and microscopic theory. We show that the effects can be unambiguously distinguished by studying the polarization, magnetic field, and radiation frequency dependence of the photocurrent. At frequencies around 30 THz, the photocurrents are shown to be caused by the direct optical transitions between subbands in the valence band. At lower frequencies of 1 to 3 THz, used in our experiment, these transitions become impossible and the detected photocurrents are caused by the indirect optical transitions (Drude-like radiation absorption).
翻訳日:2023-08-25 14:05:28 公開日:2023-08-24
# ゲノム規模メタボリックネットワークの人間理解能動的学習

Human Comprehensible Active Learning of Genome-Scale Metabolic Networks ( http://arxiv.org/abs/2308.12740v1 )

ライセンス: Link先を確認
Lun Ai, Shi-Shun Liang, Wang-Zhou Dai, Liam Hallett, Stephen H. Muggleton, Geoff S. Baldwin(参考訳) 合成生物学の重要な応用は、宿主細胞系の工学が有用な製品を生産することである。 しかし、ホストシステムの規模が増加すると巨大な設計スペースが発生し、試験コストの高い多数の検証試験が必要となる。 仮説空間を効率的に探索し、実験設計を導く理解可能な機械学習アプローチは、ホストセルシステムの設計-構築-テスト-学習(dbtl)サイクルに緊急に必要となる。 Inductive Logic Programming (ILP) に基づく新しい機械学習フレームワーク ILP-iML1515 を導入し、帰納的論理推論を行い、トレーニング例から積極的に学習する。 数値モデルとは対照的に、ilp-iml1515はゲノム規模の代謝モデルの理解可能な論理表現に基づいて構築されており、オーキソトロフィックな変異体から新しい論理構造を学習することでモデルを更新することができる。 ILP-iML1515フレームワーク 1)高スループットシミュレーションが可能。 2) ランダムに選択した実験と比較して, 遺伝子機能の学習コストを低減させる実験を積極的に選択する。

An important application of Synthetic Biology is the engineering of the host cell system to yield useful products. However, an increase in the scale of the host system leads to huge design space and requires a large number of validation trials with high experimental costs. A comprehensible machine learning approach that efficiently explores the hypothesis space and guides experimental design is urgently needed for the Design-Build-Test-Learn (DBTL) cycle of the host cell system. We introduce a novel machine learning framework ILP-iML1515 based on Inductive Logic Programming (ILP) that performs abductive logical reasoning and actively learns from training examples. In contrast to numerical models, ILP-iML1515 is built on comprehensible logical representations of a genome-scale metabolic model and can update the model by learning new logical structures from auxotrophic mutant trials. The ILP-iML1515 framework 1) allows high-throughput simulations and 2) actively selects experiments that reduce the experimental cost of learning gene functions in comparison to randomly selected experiments.
翻訳日:2023-08-25 14:05:10 公開日:2023-08-24
# 量子インターネットの堅牢性とスケーラビリティに関する実践的制限

Practical limitations on robustness and scalability of quantum Internet ( http://arxiv.org/abs/2308.12739v1 )

ライセンス: Link先を確認
Abhishek Sadhu, Meghana Ayyala Somayajula, Karol Horodecki, Siddhartha Das(参考訳) 量子理論は、従来のシステムでは不可能な情報処理や計算タスクを可能にするため、既存のネットワークシステムを超えた量子インターネットの必要性と利用がある。 同時に、好ましく機能する量子インターネットの実現は、量子システムの伝送における高い損失、環境との相互作用による非一貫性、量子状態のフレギリティなど、基本的かつ実用的な課題によって妨げられる。 量子インターネットのスケールとロバスト性に関する制約を分析することにより,これらの制約の影響を考察する。 量子ネットワークを念頭に,セキュアな通信,委譲コンピューティング,エンドノード間のリソース分散のための実用的なボトルネックを提案する。 グラフ理論の抽象化の力(量子情報理論と関連する)に動機づけられ、グラフ理論の量子化器はネットワークの堅牢性を評価し、量子インターネット上で実行可能な通信のために通信線の臨界値を提供する。 特に、デバイス非依存の量子キーリピータとして、デバイス非依存の量子キー分布に有用な等方性状態の有用性の制限について議論する。 コンピュータ内で現在利用可能な量子プロセッサアーキテクチャを接続する衛星ベースのネットワークから、量子情報処理タスクを実行するためのロバスト性の分析まで、実用的関心のある量子ネットワークをいくつか検討する。 これらのタスクのいくつかは、エンタングルメント分布や量子テレポーテーションなど、デリゲート量子コンピューティングのためのプリミティブを形成する。 量子ネットワークのいくつかの例では、ネットワーク構造の構築、一対のノード間の最短経路の発見、ノードにおけるリソースの流れの最適化など、関心のある異なる量子ネットワークタスクを実行するアルゴリズムを提案する。

As quantum theory allows for information processing and computing tasks that otherwise are not possible with classical systems, there is a need and use of quantum Internet beyond existing network systems. At the same time, the realization of a desirably functional quantum Internet is hindered by fundamental and practical challenges such as high loss during transmission of quantum systems, decoherence due to interaction with the environment, fragility of quantum states, etc. We study the implications of these constraints by analyzing the limitations on the scaling and robustness of quantum Internet. Considering quantum networks, we present practical bottlenecks for secure communication, delegated computing, and resource distribution among end nodes. Motivated by the power of abstraction in graph theory (in association with quantum information theory), we consider graph-theoretic quantifiers to assess network robustness and provide critical values of communication lines for viable communication over quantum Internet. In particular, we begin by discussing limitations on usefulness of isotropic states as device-independent quantum key repeaters which otherwise could be useful for device-independent quantum key distribution. We consider some quantum networks of practical interest, ranging from satellite-based networks connecting far-off spatial locations to currently available quantum processor architectures within computers, and analyze their robustness to perform quantum information processing tasks. Some of these tasks form primitives for delegated quantum computing, e.g., entanglement distribution and quantum teleportation. For some examples of quantum networks, we present algorithms to perform different quantum network tasks of interest such as constructing the network structure, finding the shortest path between a pair of end nodes, and optimizing the flow of resources at a node.
翻訳日:2023-08-25 14:04:50 公開日:2023-08-24
# 水中物体検出のための高度劣化前の学習

Learning Heavily-Degraded Prior for Underwater Object Detection ( http://arxiv.org/abs/2308.12738v1 )

ライセンス: Link先を確認
Chenping Fu, Xin Fan, Jiewen Xiao, Wanqi Yuan, Risheng Liu, and Zhongxuan Luo(参考訳) 水中物体検出は、距離と波長に依存した撮像プロセスによって、ヘイズ様効果、低視認性、色歪みなどの画像品質の劣化が明らかになるため、検出性能が低下する。 そこで我々は, 複合環境劣化による水中物体検出の課題の解決にコミットする。 典型的なアプローチは、高品質な画像や特徴を生成するための高度な深層アーキテクチャの開発を試みる。 しかし、これらの手法は、イメージング因子が不安定、過敏、複雑化しているため、限られた範囲でのみ有効である。 高品質な画像や特徴を扱うこれらのアプローチとは異なり、本論文は検出器フレンドリーな画像から伝達可能な事前知識を求める。 前のガイドは検出を妨害する劣化を除去する。 統計学的には, 検出器フレンドリー (dfui) と水中画像の高度に劣化した領域は, 特徴分布ギャップが明らかであり, その軽度に劣化した領域は重なり合っている。 そこで本研究では,dfui画像と水中画像の高度劣化パッチの深部表現のマッピングを学習するための残差特徴伝達モジュール(rftm)を提案し,そのマッピングを水中検出のための高度劣化プリアー(hdp)とする。 統計特性は画像の内容に依存しないので,意味ラベルの監督なしにHDPを学習し,一般的なCNNベースの特徴抽出ネットワークに接続して水中物体検出の性能を向上させることができる。 URPC2020とUODDの評価では、ベルとホイッスルがなければ、我々の手法はCNNベースの検出器をはるかに上回っている。 高速かつパラメータの少ない本手法は変圧器型検出器よりも性能がよい。 私たちのコードとDFUIデータセットはhttps://github.com/xiaoDetection/Learning-Heavily-Degraed-Prior.orgにある。

Underwater object detection suffers from low detection performance because the distance and wavelength dependent imaging process yield evident image quality degradations such as haze-like effects, low visibility, and color distortions. Therefore, we commit to resolving the issue of underwater object detection with compounded environmental degradations. Typical approaches attempt to develop sophisticated deep architecture to generate high-quality images or features. However, these methods are only work for limited ranges because imaging factors are either unstable, too sensitive, or compounded. Unlike these approaches catering for high-quality images or features, this paper seeks transferable prior knowledge from detector-friendly images. The prior guides detectors removing degradations that interfere with detection. It is based on statistical observations that, the heavily degraded regions of detector-friendly (DFUI) and underwater images have evident feature distribution gaps while the lightly degraded regions of them overlap each other. Therefore, we propose a residual feature transference module (RFTM) to learn a mapping between deep representations of the heavily degraded patches of DFUI- and underwater- images, and make the mapping as a heavily degraded prior (HDP) for underwater detection. Since the statistical properties are independent to image content, HDP can be learned without the supervision of semantic labels and plugged into popular CNNbased feature extraction networks to improve their performance on underwater object detection. Without bells and whistles, evaluations on URPC2020 and UODD show that our methods outperform CNN-based detectors by a large margin. Our method with higher speeds and less parameters still performs better than transformer-based detectors. Our code and DFUI dataset can be found in https://github.com/xiaoDetection/Learning-Heavily-Degraed-Prior.
翻訳日:2023-08-25 14:04:20 公開日:2023-08-24
# 記憶ネットワークを用いた手術文脈推論のためのロボットシーンセグメンテーション

Robotic Scene Segmentation with Memory Network for Runtime Surgical Context Inference ( http://arxiv.org/abs/2308.12789v1 )

ライセンス: Link先を確認
Zongyu Li, Ian Reyes, Homa Alemzadeh(参考訳) 外科的コンテキスト推論は、ワークフロー分析、スキルアセスメント、エラー検出を容易にするロボット支援手術において、近年大きな注目を集めている。 しかし,映像データのセグメンテーションに基づく手術場面におけるツールとオブジェクト間のインタラクションを時間的かつ正確に検出する必要があるため,実行時のコンテキスト推論は困難である。 一方、既存の最先端ビデオセグメンテーション手法は、しばしば頻度の低いクラスに偏りがあり、セグメンテーションマスクの時間的一貫性が得られない。 これは、文脈推測と臨界状態の正確な検出に悪影響を及ぼす可能性がある。 本研究では,時空間対応ネットワーク(STCN)を用いて,これらの課題に対する解決策を提案する。 STCNはバイナリセグメンテーションを実行し、クラス不均衡の影響を最小限にするメモリネットワークである。 STCNにおけるメモリバンクの使用により、過去の画像とセグメンテーション情報の利用が可能となり、マスクの一貫性が確保される。 公開されているJIGSAWSデータセットを用いた実験により,針や糸などのセグメント化が困難なオブジェクトに対して,STCNが優れたセグメンテーション性能を達成し,最先端技術と比較してコンテキスト推論を改善することが示された。 また,性能を損なうことなく,実行時にセグメンテーションとコンテキスト推論を実行できることを示す。

Surgical context inference has recently garnered significant attention in robot-assisted surgery as it can facilitate workflow analysis, skill assessment, and error detection. However, runtime context inference is challenging since it requires timely and accurate detection of the interactions among the tools and objects in the surgical scene based on the segmentation of video data. On the other hand, existing state-of-the-art video segmentation methods are often biased against infrequent classes and fail to provide temporal consistency for segmented masks. This can negatively impact the context inference and accurate detection of critical states. In this study, we propose a solution to these challenges using a Space Time Correspondence Network (STCN). STCN is a memory network that performs binary segmentation and minimizes the effects of class imbalance. The use of a memory bank in STCN allows for the utilization of past image and segmentation information, thereby ensuring consistency of the masks. Our experiments using the publicly available JIGSAWS dataset demonstrate that STCN achieves superior segmentation performance for objects that are difficult to segment, such as needle and thread, and improves context inference compared to the state-of-the-art. We also demonstrate that segmentation and context inference can be performed at runtime without compromising performance.
翻訳日:2023-08-25 13:58:21 公開日:2023-08-24
# ニューラルネットワークに対する単発ベイズ近似

Single-shot Bayesian approximation for neural networks ( http://arxiv.org/abs/2308.12785v1 )

ライセンス: Link先を確認
Kai Brach, Beate Sick, Oliver D\"urr(参考訳) ディープニューラルネットワーク(NN)はその高い予測性能で知られている。 しかし、nnは不確実性を示すことなく全く新しい状況に遭遇した場合、信頼できない予測を生じやすい。 モンテカルロ(MC)ドロップアウトBNNのようなBNNのベイズ変種は不確実性対策を提供し、同時に予測性能を向上させる。 BNNの唯一の欠点は、サンプリングアプローチに依存しているため、テスト期間中の計算時間の増加である。 ここでは、BNNの利点を保ちつつ、NNと同じくらい高速なシングルショットMCドロップアウト近似を示す。 提案手法はモーメント伝播 (mp) に基づいて, nns で一般的に使用される層,すなわち畳み込み, 最大プーリング, 密度, ソフトマックス, ドロップアウト層において, 期待値とmcドロップアウト信号の分散を解析的に近似する。 MPアプローチでは、NNが標準のドロップアウトでトレーニングされた場合、NNをBNNに再トレーニングすることなく変換することができる。 我々は,異なるベンチマークデータセットに対するアプローチと,分類と回帰設定における模擬玩具例を評価する。 我々の単発MCドロップアウト近似は,BNNのリアルタイム展開に十分高速でありながら,MCアプローチで達成される予測分布の点推定と不確実性推定に類似していることを示す。 保存時間の一部をMPアプローチとディープアンサンブル手法を組み合わせることで、不確実性対策をさらに改善できることを示す。

Deep neural networks (NNs) are known for their high-prediction performances. However, NNs are prone to yield unreliable predictions when encountering completely new situations without indicating their uncertainty. Bayesian variants of NNs (BNNs), such as Monte Carlo (MC) dropout BNNs, do provide uncertainty measures and simultaneously increase the prediction performance. The only disadvantage of BNNs is their higher computation time during test time because they rely on a sampling approach. Here we present a single-shot MC dropout approximation that preserves the advantages of BNNs while being as fast as NNs. Our approach is based on moment propagation (MP) and allows to analytically approximate the expected value and the variance of the MC dropout signal for commonly used layers in NNs, i.e. convolution, max pooling, dense, softmax, and dropout layers. The MP approach can convert an NN into a BNN without re-training given the NN has been trained with standard dropout. We evaluate our approach on different benchmark datasets and a simulated toy example in a classification and regression setting. We demonstrate that our single-shot MC dropout approximation resembles the point estimate and the uncertainty estimate of the predictive distribution that is achieved with an MC approach, while being fast enough for real-time deployments of BNNs. We show that using part of the saved time to combine our MP approach with deep ensemble techniques does further improve the uncertainty measures.
翻訳日:2023-08-25 13:57:59 公開日:2023-08-24
# 3ディスク散乱系の共鳴状態

Resonance states of the three-disk scattering system ( http://arxiv.org/abs/2308.12783v1 )

ライセンス: Link先を確認
Jan Robert Schmidt, Roland Ketzmerick(参考訳) 我々は,3ディスク散乱系の開カオス系における共振状態の分解予測を検証した。 特に、一因子が普遍指数分布の強度ゆらぎによって与えられることを示す。 他の因子は共鳴状態の寿命に依存する古典的な密度であると考えられており、古典的な構成によって非常によく説明されている。 さらに, 誘電体キャビティで最近観測された光線痕は, 3点散乱系においても小さな波長で全ての共鳴状態を支配している。 本稿では, 半古典的限界にさらに踏み込むことができる, 共鳴計算のための新しい数値計算法を提案する。 その結果、フラクタルワイルの法則を対応する広い範囲にわたって確認することができる。

We confirm the factorization conjecture for resonance states in open chaotic systems in the paradigmatic three-disk scattering system. In particular, we demonstrate that one factor is given by universal exponentially distributed intensity fluctuations. The other factor, supposed to be a classical density depending on the lifetime of the resonance state, is found to be very well described by a classical construction. Furthermore, ray-segment scars, recently observed in dielectric cavities, dominate every resonance state at small wavelengths also in the three-disk scattering system. We introduce a new numerical method for computing resonances, which allows for going much further into the semiclassical limit. As a consequence we are able to confirm the fractal Weyl law over a correspondingly large range.
翻訳日:2023-08-25 13:57:31 公開日:2023-08-24
# 自律運転における3次元物体検出のオフライン評価

On Offline Evaluation of 3D Object Detection for Autonomous Driving ( http://arxiv.org/abs/2308.12779v1 )

ライセンス: Link先を確認
Tim Schreier, Katrin Renz, Andreas Geiger, Kashyap Chitta(参考訳) 3dオブジェクト検出における事前の作業は、ダウンストリーム運転タスクのクローズドループオンライン評価がコストがかかるため、平均精度のようなオフラインメトリクスを使用してモデルを評価する。 しかし、オフラインの結果がどの程度の駆動性能を示すかは明らかではない。 本研究では,検知器を完全自動運転スタックに統合した場合の予測的異なる検出指標が運転性能に与える影響を,初めて実証評価する。 我々は16の物体検出モデルを用いたCARLAシミュレータで都市走行実験を行った。 nuScenes Detection Scoreは、広く使われている平均精度測定値よりも駆動性能に高い相関関係があることが判明した。 さらに,この結果から,「プランナー中心」メトリクスの新興クラスへの排他的依存に注意を喚起する。

Prior work in 3D object detection evaluates models using offline metrics like average precision since closed-loop online evaluation on the downstream driving task is costly. However, it is unclear how indicative offline results are of driving performance. In this work, we perform the first empirical evaluation measuring how predictive different detection metrics are of driving performance when detectors are integrated into a full self-driving stack. We conduct extensive experiments on urban driving in the CARLA simulator using 16 object detection models. We find that the nuScenes Detection Score has a higher correlation to driving performance than the widely used average precision metric. In addition, our results call for caution on the exclusive reliance on the emerging class of `planner-centric' metrics.
翻訳日:2023-08-25 13:57:21 公開日:2023-08-24
# LISTER: 長さ不感なシーンテキスト認識のための近隣デコーディング

LISTER: Neighbor Decoding for Length-Insensitive Scene Text Recognition ( http://arxiv.org/abs/2308.12774v1 )

ライセンス: Link先を確認
Changxu Cheng, Peng Wang, Cheng Da, Qi Zheng, Cong Yao(参考訳) 長さの多様性はテキストの重要な特徴である。 テキストの長さの長い分布のため、シーンテキスト認識(STR)のほとんどの既存の手法は、長いテキストを認識したり、長さ外挿を行う能力に欠け、短いテキストや見えないテキストでのみうまく機能する。 認識すべきテキストの長さは通常、実世界のアプリケーションでは事前に与えられていないが、以前の作品では十分に研究されていないため、これは重要な問題である。 そこで本稿では,様々なテキスト長に対するロバスト性に関する制限を緩和する,長さ非感受性シーンテキスト認識器(lister)という手法を提案する。 具体的には, テキスト長にかかわらず, 隣接行列の助けを借りて, 正確なキャラクタアテンションマップを得るために, 隣接デコーダを提案する。 また、機能拡張モジュールは、低計算コストで長距離依存性をモデル化するために考案され、隣接するデコーダと共にイテレーションを実行し、機能マップを段階的に強化することができる。 最善の知識を得るためには、我々は、長さに敏感なシーンテキスト認識を効果的に達成した最初の人物です。 拡張実験により,提案したLISTERアルゴリズムは,STR(主に短いテキスト)の標準ベンチマークにおける従来の最先端手法と比較して,長文認識と長文外挿能力に明らかな優位性を示した。

The diversity in length constitutes a significant characteristic of text. Due to the long-tail distribution of text lengths, most existing methods for scene text recognition (STR) only work well on short or seen-length text, lacking the capability of recognizing longer text or performing length extrapolation. This is a crucial issue, since the lengths of the text to be recognized are usually not given in advance in real-world applications, but it has not been adequately investigated in previous works. Therefore, we propose in this paper a method called Length-Insensitive Scene TExt Recognizer (LISTER), which remedies the limitation regarding the robustness to various text lengths. Specifically, a Neighbor Decoder is proposed to obtain accurate character attention maps with the assistance of a novel neighbor matrix regardless of the text lengths. Besides, a Feature Enhancement Module is devised to model the long-range dependency with low computation cost, which is able to perform iterations with the neighbor decoder to enhance the feature map progressively. To the best of our knowledge, we are the first to achieve effective length-insensitive scene text recognition. Extensive experiments demonstrate that the proposed LISTER algorithm exhibits obvious superiority on long text recognition and the ability for length extrapolation, while comparing favourably with the previous state-of-the-art methods on standard benchmarks for STR (mainly short text).
翻訳日:2023-08-25 13:57:10 公開日:2023-08-24
# 時相微分学習の端末状態における故意に過小評価された値関数

Intentionally-underestimated Value Function at Terminal State for Temporal-difference Learning with Mis-designed Reward ( http://arxiv.org/abs/2308.12772v1 )

ライセンス: Link先を確認
Taisuke Kobayashi(参考訳) 強化学習を用いたロボット制御が普及しているが、その学習プロセスは一般的に安全と時間の節約のためにエピソード中途半端に終わる。 本研究は、時間差学習(TD)がそのような終了時に果たす最も一般的な例外処理の問題に対処する。 すなわち、終了後のゼロ値を強制的に仮定することで、通常の状態の報酬設計によって意図しない暗黙の過小評価や過大評価が発生する。 タスクの失敗によりエピソードが終了すると、意図しない過大評価で障害を高く評価し、誤ったポリシーを取得することができる。 この問題は報酬設計に注意を払わなくても回避できるが、td学習では終了時に例外処理をレビューすることが不可欠である。 そこで本稿では,意図しない過大評価による学習失敗を避けるために,終了後の値を意図的に過小評価する手法を提案する。 また、終了時の定常度に応じて過小評価の度合いを調整し、故意の過小評価による過度な探索を防止する。 シミュレーションと実ロボット実験により,提案手法は様々な課題や報奨設計の最適方針を安定的に得ることができた。 https://youtu.be/AxXr8uFOe7M

Robot control using reinforcement learning has become popular, but its learning process generally terminates halfway through an episode for safety and time-saving reasons. This study addresses the problem of the most popular exception handling that temporal-difference (TD) learning performs at such termination. That is, by forcibly assuming zero value after termination, unintentionally implicit underestimation or overestimation occurs, depending on the reward design in the normal states. When the episode is terminated due to task failure, the failure may be highly valued with the unintentional overestimation, and the wrong policy may be acquired. Although this problem can be avoided by paying attention to the reward design, it is essential in practical use of TD learning to review the exception handling at termination. This paper therefore proposes a method to intentionally underestimate the value after termination to avoid learning failures due to the unintentional overestimation. In addition, the degree of underestimation is adjusted according to the degree of stationarity at termination, thereby preventing excessive exploration due to the intentional underestimation. Simulations and real robot experiments showed that the proposed method can stably obtain the optimal policies for various tasks and reward designs. https://youtu.be/AxXr8uFOe7M
翻訳日:2023-08-25 13:56:45 公開日:2023-08-24
# WavMark: オーディオ生成のための透かし

WavMark: Watermarking for Audio Generation ( http://arxiv.org/abs/2308.12770v1 )

ライセンス: Link先を確認
Guangyu Chen, Yu Wu, Shujie Liu, Tao Liu, Xiaoyong Du, Furu Wei(参考訳) ゼロショット音声合成の最近の進歩は、高レベルのリアリズムを維持しながら、わずか数秒の録音で話者の声を模倣することを可能にする。 その潜在的なメリットに加えて、この強力な技術は、音声詐欺やスピーカーの偽造など、大きなリスクをもたらす。 従来の合成データ検出の受動的手法にのみ依存するアプローチとは異なり、ウォーターマーキングはこれらの略奪的リスクに対して積極的に堅牢な防御機構を示す。 本稿では,1秒間の音声スニペット内で最大32ビットの透かしを符号化する,革新的な音声透かしフレームワークを提案する。 透かしは人間の感覚に影響されず、様々な攻撃に対して強い抵抗力を示す。 合成音声の効果的な識別子として機能し、オーディオ著作権保護の幅広い応用の可能性を秘めている。 さらに、このフレームワークは柔軟性が高く、複数のウォーターマークセグメントを組み合わせることで、堅牢性と拡張容量を実現することができる。 10秒から20秒の音声をホストとして使用することで、平均ビットエラーレート(ber)が10回の一般的な攻撃で0.48\%となり、最先端のウォーターマーキングツールと比較して2800\%以上のberが著しく削減されることを示した。 私たちの作品のデモはhttps://aka.ms/wavmarkを参照。

Recent breakthroughs in zero-shot voice synthesis have enabled imitating a speaker's voice using just a few seconds of recording while maintaining a high level of realism. Alongside its potential benefits, this powerful technology introduces notable risks, including voice fraud and speaker impersonation. Unlike the conventional approach of solely relying on passive methods for detecting synthetic data, watermarking presents a proactive and robust defence mechanism against these looming risks. This paper introduces an innovative audio watermarking framework that encodes up to 32 bits of watermark within a mere 1-second audio snippet. The watermark is imperceptible to human senses and exhibits strong resilience against various attacks. It can serve as an effective identifier for synthesized voices and holds potential for broader applications in audio copyright protection. Moreover, this framework boasts high flexibility, allowing for the combination of multiple watermark segments to achieve heightened robustness and expanded capacity. Utilizing 10 to 20-second audio as the host, our approach demonstrates an average Bit Error Rate (BER) of 0.48\% across ten common attacks, a remarkable reduction of over 2800\% in BER compared to the state-of-the-art watermarking tool. See https://aka.ms/wavmark for demos of our work.
翻訳日:2023-08-25 13:56:24 公開日:2023-08-24
# アイテムレコメンデーションにおける平均埋め込みの整合性について

On the Consistency of Average Embeddings for Item Recommendation ( http://arxiv.org/abs/2308.12767v1 )

ライセンス: Link先を確認
Walid Bendada and Guillaume Salha-Galvan and Romain Hennequin and Thomas Bouab\c{c}a and Tristan Cazenave(参考訳) レコメンダシステムにおける一般的なプラクティスは、ユーザや高レベルの概念を同じ埋め込み空間で表現するための平均的なアイテム埋め込みである。 本稿では,そのような実践の関連性について考察する。 そこで本研究では,建設に使用されるアイテムに対する平均埋込量の一貫性を測定するための,予測精度スコアを提案する。 その後,音楽ストリーミングサービスにおける実世界のデータに対する経験的行動とともに,理論的な設定でこのスコアの数学的表現を解析した。 我々の研究結果は、現実世界の平均値が推奨値と一致していないことを強調し、将来の研究が現実の埋め込みと理論的な前提との整合性を高める道を開いた。

A prevalent practice in recommender systems consists of averaging item embeddings to represent users or higher-level concepts in the same embedding space. This paper investigates the relevance of such a practice. For this purpose, we propose an expected precision score, designed to measure the consistency of an average embedding relative to the items used for its construction. We subsequently analyze the mathematical expression of this score in a theoretical setting with specific assumptions, as well as its empirical behavior on real-world data from music streaming services. Our results emphasize that real-world averages are less consistent for recommendation, which paves the way for future research to better align real-world embeddings with assumptions from our theoretical setting.
翻訳日:2023-08-25 13:56:02 公開日:2023-08-24
# 強化学習による自律システムテストのための進化的探索

Reinforcement learning informed evolutionary search for autonomous systems testing ( http://arxiv.org/abs/2308.12762v1 )

ライセンス: Link先を確認
Dmytro Humeniuk, Foutse Khomh, Giuliano Antoniol(参考訳) 進化的探索に基づく技術は、自律ロボットシステムのテストに一般的に使用される。 しかしながら、これらのアプローチはテストシナリオ評価のために計算コストの高いシミュレータベースのモデルに依存することが多い。 探索に基づくテストの計算効率を向上させるために,ドメイン知識から得られるサロゲート報酬を用いて学習した強化学習(RL)エージェントを用いて進化探索(ES)を強化することを提案する。 RIGAA (Reinforcement Learning Informed Genetic Algorithm for autonomous system testing) と呼ばれる我々の手法では、まずRLエージェントを訓練し、問題の有用な制約を学習し、それを用いて探索アルゴリズムの初期集団の特定の部分を生成する。 探索プロセスにRLエージェントを組み込むことで,探索空間の有望な領域に向けてアルゴリズムを誘導し,解空間のより効率的な探索を可能にする。 RIGAAは自律性アリロボットの迷路生成と自律車線維持支援システムの道路トポロジー生成の2つのケーススタディで評価した。 両方のケーススタディにおいて、RIGAAはより高速にフィッターソリューションに収束し、(平均的なテストシナリオの適合性と多様性の観点から)より良いテストスイートを生成する。 RIGAAは、AmbieGenやFreneticなどのシステムテストを支援する車両レーンの最先端ツールも上回っている。

Evolutionary search-based techniques are commonly used for testing autonomous robotic systems. However, these approaches often rely on computationally expensive simulator-based models for test scenario evaluation. To improve the computational efficiency of the search-based testing, we propose augmenting the evolutionary search (ES) with a reinforcement learning (RL) agent trained using surrogate rewards derived from domain knowledge. In our approach, known as RIGAA (Reinforcement learning Informed Genetic Algorithm for Autonomous systems testing), we first train an RL agent to learn useful constraints of the problem and then use it to produce a certain part of the initial population of the search algorithm. By incorporating an RL agent into the search process, we aim to guide the algorithm towards promising regions of the search space from the start, enabling more efficient exploration of the solution space. We evaluate RIGAA on two case studies: maze generation for an autonomous ant robot and road topology generation for an autonomous vehicle lane keeping assist system. In both case studies, RIGAA converges faster to fitter solutions and produces a better test suite (in terms of average test scenario fitness and diversity). RIGAA also outperforms the state-of-the-art tools for vehicle lane keeping assist system testing, such as AmbieGen and Frenetic.
翻訳日:2023-08-25 13:55:49 公開日:2023-08-24
# IP-UNet: 3次元医用ボリュームセグメンテーションのための拡張投影UNetアーキテクチャ

IP-UNet: Intensity Projection UNet Architecture for 3D Medical Volume Segmentation ( http://arxiv.org/abs/2308.12761v1 )

ライセンス: Link先を確認
Nyothiri Aung, Tahar Kechadi, Liming Chen and Sahraoui Dhelim(参考訳) CNNは医療画像解析に広く応用されている。 しかし、メモリ容量の制限は、高解像度の3Dボリュームデータを処理する最も一般的な欠点の1つである。 3Dボリュームは通常、処理前にトリミングまたは縮小されるため、解像度が低下し、クラス不均衡が増加し、セグメンテーションアルゴリズムの性能に影響を及ぼす可能性がある。 本稿では,IP-UNetと呼ばれるエンドツーエンドのディープラーニング手法を提案する。 ip-unetはunetベースのモデルで、メモリ消費する3dボリュームの代わりに、3dボリュームデータの強度投影(ip)のマルチクラスセグメンテーションを実行する。 IP-UNetは、元の3D画像解像度を失うことなく、トレーニングに限られたメモリ能力を使用する。 セグメンテーション精度と計算コストの観点から3つのモデルの性能を比較する。 1)従来の2次元UNetモデルを用いたCTスキャン画像のスライス・バイ・スライス2次元分割 2)抽出した最大強度投影(MIP)、最接近容器投影(CVP)、平均強度投影(AvgIP)のソース3Dボリューム表現をマージし、出力されたIPイメージにUNetモデルを適用することにより得られるデータを利用するIP-UNet。 3)3D-UNetモデルはCTスキャン画像から構築した3Dボリュームを直接読み出し,予測セグメンテーションの3Dボリュームを出力する。 乳房石灰化自動検出のための3次元ボリューム画像におけるこれらの手法の性能をテストする。 実験の結果,IP-Unetは3D-Unetと同等のセグメンテーション精度を達成できるが,性能は向上した。 トレーニング時間を70 %削減し、メモリ消費を92 %削減する。

CNNs have been widely applied for medical image analysis. However, limited memory capacity is one of the most common drawbacks of processing high-resolution 3D volumetric data. 3D volumes are usually cropped or downsized first before processing, which can result in a loss of resolution, increase class imbalance, and affect the performance of the segmentation algorithms. In this paper, we propose an end-to-end deep learning approach called IP-UNet. IP-UNet is a UNet-based model that performs multi-class segmentation on Intensity Projection (IP) of 3D volumetric data instead of the memory-consuming 3D volumes. IP-UNet uses limited memory capability for training without losing the original 3D image resolution. We compare the performance of three models in terms of segmentation accuracy and computational cost: 1) Slice-by-slice 2D segmentation of the CT scan images using a conventional 2D UNet model. 2) IP-UNet that operates on data obtained by merging the extracted Maximum Intensity Projection (MIP), Closest Vessel Projection (CVP), and Average Intensity Projection (AvgIP) representations of the source 3D volumes, then applying the UNet model on the output IP images. 3) 3D-UNet model directly reads the 3D volumes constructed from a series of CT scan images and outputs the 3D volume of the predicted segmentation. We test the performance of these methods on 3D volumetric images for automatic breast calcification detection. Experimental results show that IP-Unet can achieve similar segmentation accuracy with 3D-Unet but with much better performance. It reduces the training time by 70\% and memory consumption by 92\%.
翻訳日:2023-08-25 13:55:25 公開日:2023-08-24
# FaceTouch:感染の追跡を支援する教師付きコントラスト学習による対面タッチの検出

FaceTouch: Detecting hand-to-face touch with supervised contrastive learning to assist in tracing infectious disease ( http://arxiv.org/abs/2308.12840v1 )

ライセンス: Link先を確認
Mohamed R. Ibrahim and Terry Lyons(参考訳) 呼吸器系を通じて、多くのウイルスや病気が拡散し、ある人から別の人へ伝えられる。 Covid-19は、感染拡大を止めるために接触を追跡・断ち切ることがいかに重要かを示す一例となった。 複雑な都市や屋内で対面接触を検知できる自動的な方法を見つけることには明確なギャップがある。 本稿では,深層学習に基づくFaceTouchというコンピュータビジョンフレームワークを提案する。 ヒトを検知し、その行動を分析するための深いサブモデルを含んでいる。 FaceTouchは、ビデオチャット、バスの映像、CCTVのフィードなど、手動による触覚の検出を目指している。 顔の一部が隠蔽されているにも拘わらず、腕の動きなどの身体動作の表現を利用して、所定のシーンのRGB表現から顔の触覚を検出する。 これは、手の動きと顔の近さを単純に識別する以上の複雑な都市シナリオで有用であることが示されている。 Supervised Contrastive Learningに基づいて、導入されたモデルは、他のベンチマークデータセットがないため、収集したデータセットに基づいてトレーニングされます。 このフレームワークは、潜在的デプロイメントの扉を開く未確認データセットに強力なバリデーションを示す。

Through our respiratory system, many viruses and diseases frequently spread and pass from one person to another. Covid-19 served as an example of how crucial it is to track down and cut back on contacts to stop its spread. There is a clear gap in finding automatic methods that can detect hand-to-face contact in complex urban scenes or indoors. In this paper, we introduce a computer vision framework, called FaceTouch, based on deep learning. It comprises deep sub-models to detect humans and analyse their actions. FaceTouch seeks to detect hand-to-face touches in the wild, such as through video chats, bus footage, or CCTV feeds. Despite partial occlusion of faces, the introduced system learns to detect face touches from the RGB representation of a given scene by utilising the representation of the body gestures such as arm movement. This has been demonstrated to be useful in complex urban scenarios beyond simply identifying hand movement and its closeness to faces. Relying on Supervised Contrastive Learning, the introduced model is trained on our collected dataset, given the absence of other benchmark datasets. The framework shows a strong validation in unseen datasets which opens the door for potential deployment.
翻訳日:2023-08-25 13:47:24 公開日:2023-08-24
# 局所的な励起を伴う非エルミートゲージレーザーアレイ:異常閾値と選択的ポンピングの一般化原理

Non-Hermitian gauged laser arrays with localized excitation: Anomalous threshold and generalized principle of selective pumping ( http://arxiv.org/abs/2308.12837v1 )

ライセンス: Link先を確認
Li Ge, Zihe Gao, Liang Feng(参考訳) 空間局在励起レーザーアレイにおける非エルミート皮膚モードについて検討した。 いずれの症例も, いずれの症例も, ポンププロファイルと目標ラシングモードの重なりを最大化することを目的とした, 選択ポンプ方式の従来の原則を無視する。 このエニグマに光を当てるために、以前見過ごされていた現象、すなわち、一様利得や損失を伴わないフォトニック環境との非エルミタンカップリング接合におけるエネルギー交換を明らかにした。 移動行列アプローチを用いて、非エルミートゲージ場(利得、損失、またはそれらの混合物)の特定の物理的実現によって決定されるこの異常しきい値の挙動のメカニズムを解明する。 最後に, 非エルミートアレイにおける選択的ポンプの一般化原理を導出し, ポンプのトリパルタイト積, レーシングモード, および生物直交パートナーによって決定的な空間重なりが与えられることを示した。 本研究は、不斉結合と複素オンサイトポテンシャルの2つの形態がレーザーアレイで相乗的に相互作用し、光子学および関連分野における集団効果のさらなる探究を助長する様子を垣間見るものである。

We investigate non-Hermitian skin modes in laser arrays with spatially localized excitation. Intriguingly, we observe an unusual threshold behavior when selectively pumping either the head or the tail of these modes: Both cases exhibit the same lasing threshold and hence defy the conventional principle of selective pumping, which aims to maximize the overlap between the pump profile and the target lasing mode. To shed light on this enigma, we reveal a previously overlooked phenomenon, i.e., energy exchange at non-Hermitian coupling junctions with the photonic environment, which does not occur with uniform gain or loss. Utilizing a transfer matrix approach, we elucidate the mechanism of this anomalous threshold behavior, which is determined by the specific physical realization of the non-Hermitian gauge field (i.e., using gain, loss, or their mixture). Finally, we derive a generalized principle of selective pumping in non-Hermitian arrays, which shows that the decisive spatial overlap is given by the tripartite product of the pump, the lasing mode, and its biorthogonal partner. Our study provides a glimpse into how the two forms of non-Hermiticity, i.e., asymmetric couplings and a complex onsite potential, interact synergetically in laser arrays, which may stimulate further explorations of their collective effects in photonics and related fields.
翻訳日:2023-08-25 13:47:04 公開日:2023-08-24
# 軽度目的のためのLCMの使用:脅威・予防対策・脆弱性

Use of LLMs for Illicit Purposes: Threats, Prevention Measures, and Vulnerabilities ( http://arxiv.org/abs/2308.12833v1 )

ライセンス: Link先を確認
Maximilian Mozes, Xuanli He, Bennett Kleinberg, Lewis D. Griffin(参考訳) 近年の大規模言語モデル(LLM)の産業・学界における開発・流通の急激な増加により、最近の研究は、潜在的犯罪活動の文脈を含む、LLMの安全およびセキュリティ関連の脅威と脆弱性に注意を向けている。 特に、LLMは不正、不正行為、マルウェアの発生に誤用される可能性があるが、他の著者はAIアライメントのより一般的な問題を考えてきた。 開発者や実践者がこのようなモデルでセキュリティ関連の問題に気づいていることは重要です。 本稿では,LSMによる脅威や脆弱性の特定と軽減を目的とした,既存の科学的研究の概要について述べる。 本稿では,LSMの生成能力による脅威と,そのような脅威に対処するための予防措置と,不完全な予防措置に起因する脆弱性との関係を分類する。 当社の取り組みにより、経験豊富な開発者と、そのような技術の新規ユーザの両方の間で、このようなセキュリティ上の懸念から、LSMの限界に対する認識を高めたいと思っています。

Spurred by the recent rapid increase in the development and distribution of large language models (LLMs) across industry and academia, much recent work has drawn attention to safety- and security-related threats and vulnerabilities of LLMs, including in the context of potentially criminal activities. Specifically, it has been shown that LLMs can be misused for fraud, impersonation, and the generation of malware; while other authors have considered the more general problem of AI alignment. It is important that developers and practitioners alike are aware of security-related problems with such models. In this paper, we provide an overview of existing - predominantly scientific - efforts on identifying and mitigating threats and vulnerabilities arising from LLMs. We present a taxonomy describing the relationship between threats caused by the generative capabilities of LLMs, prevention measures intended to address such threats, and vulnerabilities arising from imperfect prevention measures. With our work, we hope to raise awareness of the limitations of LLMs in light of such security concerns, among both experienced developers and novel users of such technologies.
翻訳日:2023-08-25 13:46:37 公開日:2023-08-24
# eformer: ポートレート・マッティングのための前景の意味的輪郭特徴への拡張トランスフォーマー

EFormer: Enhanced Transformer towards Semantic-Contour Features of Foreground for Portraits Matting ( http://arxiv.org/abs/2308.12831v1 )

ライセンス: Link先を確認
Zitao Wang, Qiguang Miao, Yue Xi(参考訳) ポートレート・マットング・タスクは、完全なセマンティクスと細かな輪郭を持つアルファマットを抽出することを目的としている。 CNNベースのアプローチと比較して、自己注意型トランスフォーマーは、より大きな受容野を可能にし、長距離依存やポートレートの低周波セマンティック情報をよりよくキャプチャすることができる。 しかし,近年の研究では,自己着脱機構は高周波情報のモデル化や細かな輪郭の詳細の把握に支障をきたしており,肖像画の輪郭を予測しながらバイアスを生じさせる可能性がある。 この問題に対処するために,semantic と contour 特徴に対するモデルの注意を高めるための eformer を提案する。 特に後者は、大量の高周波の詳細に囲まれている。 意味・輪郭特徴の分布を正確に把握するsemantic and contour detector (scd) を構築した。 また、輪郭特徴と完全意味情報を改善する輪郭エッジ抽出枝と意味抽出枝を更に設計する。 最後に,2種類の特徴を融合させ,セグメンテーションヘッドを利用して予測されたポートレートマットを生成する。 驚くべきことに、eformerはエンドツーエンドのtrimapフリーなメソッドであり、シンプルな構造を持っている。 VideoMatte240K-JPEGSDとAIMデータセットで実施された実験により、EFormerは従来のポートレートマット法よりも優れていることが示された。

The portrait matting task aims to extract an alpha matte with complete semantics and finely-detailed contours. In comparison to CNN-based approaches, transformers with self-attention allow a larger receptive field, enabling it to better capture long-range dependencies and low-frequency semantic information of a portrait. However, the recent research shows that self-attention mechanism struggle with modeling high-frequency information and capturing fine contour details, which can lead to bias while predicting the portrait's contours. To address the problem, we propose EFormer to enhance the model's attention towards semantic and contour features. Especially the latter, which is surrounded by a large amount of high-frequency details. We build a semantic and contour detector (SCD) to accurately capture the distribution of semantic and contour features. And we further design contour-edge extraction branch and semantic extraction branch for refining contour features and complete semantic information. Finally, we fuse the two kinds of features and leverage the segmentation head to generate the predicted portrait matte. Remarkably, EFormer is an end-to-end trimap-free method and boasts a simple structure. Experiments conducted on VideoMatte240K-JPEGSD and AIM datasets demonstrate that EFormer outperforms previous portrait matte methods.
翻訳日:2023-08-25 13:46:18 公開日:2023-08-24
# 深層学習に基づく重み付きグラフを用いた短絡経路計画決定支援システム

Short Run Transit Route Planning Decision Support System Using a Deep Learning-Based Weighted Graph ( http://arxiv.org/abs/2308.12828v1 )

ライセンス: Link先を確認
Nadav Shalit, Michael Fire, Dima Kagan, Eran Ben-Elia(参考訳) 公共交通ルートは交通網設計において重要な役割を担っており、乗客のサービス水準が十分に確保されている。 しかし、現在のルーティングソリューションは従来の運用研究のヒューリスティックに依存しており、実装に時間がかかり、迅速なソリューションを提供する能力が欠如している。 本稿では,ptプランナーが短期的経路改善を迅速に特定できるようにする意思決定支援システムのための,新しい深層学習に基づく手法を提案する。 本手法は,日中の2つの停留所間の経路をシームレスに調整することにより,時間を短縮し,PTサービスを増強する。 GTFSやスマートカードデータといった多様なデータソースを活用して、特徴を抽出し、トランスポートネットワークを有向グラフとしてモデル化する。 自己スーパービジョンを用いて,道路セグメントの遅延値予測のためのディープラーニングモデルをトレーニングする。 これらの遅延値は輸送グラフのエッジウェイトとして利用され、効率的な経路探索を可能にする。 テルアビブの手法を評価することで、経路の9\%以上の時間を短縮できる。 改良された路線には都市内と郊外の両方の路線があり、モデルの汎用性が強調された。 この結果は,公共交通機関と都市ロジスティクスを強化し,PTサービスの効率と信頼性を高めるデータ駆動型意思決定支援システムの可能性を強調した。

Public transport routing plays a crucial role in transit network design, ensuring a satisfactory level of service for passengers. However, current routing solutions rely on traditional operational research heuristics, which can be time-consuming to implement and lack the ability to provide quick solutions. Here, we propose a novel deep learning-based methodology for a decision support system that enables public transport (PT) planners to identify short-term route improvements rapidly. By seamlessly adjusting specific sections of routes between two stops during specific times of the day, our method effectively reduces times and enhances PT services. Leveraging diverse data sources such as GTFS and smart card data, we extract features and model the transportation network as a directed graph. Using self-supervision, we train a deep learning model for predicting lateness values for road segments. These lateness values are then utilized as edge weights in the transportation graph, enabling efficient path searching. Through evaluating the method on Tel Aviv, we are able to reduce times on more than 9\% of the routes. The improved routes included both intraurban and suburban routes showcasing a fact highlighting the model's versatility. The findings emphasize the potential of our data-driven decision support system to enhance public transport and city logistics, promoting greater efficiency and reliability in PT services.
翻訳日:2023-08-25 13:45:56 公開日:2023-08-24
# プリクルージョンのない予測:到達可能な集合によるリコース検証

Prediction without Preclusion: Recourse Verification with Reachable Sets ( http://arxiv.org/abs/2308.12820v1 )

ライセンス: Link先を確認
Avni Kothari, Bogdan Kulynych, Tsui-Wei Weng, Berk Ustun(参考訳) 機械学習モデルは、ローンの受取人、面接、または公共の利益を決定するためにしばしば使用される。 これらのモデルを構築する標準的な技術は、人の機能を使うが、その動作性を見落としている。 モデルでは、固定された予測を割り当てることができるため、融資、面接、利益を拒否された消費者は、クレジット、雇用、援助へのアクセスから永久にロックアウトされる可能性がある。 本研究では,リコース検証と呼ばれる固定予測を割り当てるモデルをフラグする形式的なテスト手順を導入する。 我々は、ユーザが指定した一連の動作可能性制約から、与えられたモデルが決定対象にリコースできるかどうかを確実に判断する機械を開発する。 実世界のデータセットにおけるリコースと敵対的ロバスト性を保証し、実世界のレンディングデータセットにおけるリコースの非実現性を研究するために、当社のツールがどのように活用できるかを実証する。 その結果、モデルが永久バーアクセスを行う固定予測を不注意に割り当てることができることを明らかにし、モデルを開発する際の動作性を考慮したアルゴリズムを設計するツールを提供する。

Machine learning models are often used to decide who will receive a loan, a job interview, or a public benefit. Standard techniques to build these models use features about people but overlook their actionability. In turn, models can assign predictions that are fixed, meaning that consumers who are denied loans, interviews, or benefits may be permanently locked out from access to credit, employment, or assistance. In this work, we introduce a formal testing procedure to flag models that assign fixed predictions that we call recourse verification. We develop machinery to reliably determine if a given model can provide recourse to its decision subjects from a set of user-specified actionability constraints. We demonstrate how our tools can ensure recourse and adversarial robustness in real-world datasets and use them to study the infeasibility of recourse in real-world lending datasets. Our results highlight how models can inadvertently assign fixed predictions that permanently bar access, and we provide tools to design algorithms that account for actionability when developing models.
翻訳日:2023-08-25 13:45:34 公開日:2023-08-24
# 非対称性と熱力学におけるコヒーレンス操作

Coherence manipulation in asymmetry and thermodynamics ( http://arxiv.org/abs/2308.12814v1 )

ライセンス: Link先を確認
Tulja Varun Kondra, Ray Ganardi and Alexander Streltsov(参考訳) 古典体制では、熱力学的状態変換は自由エネルギーによって制御される。 これは熱力学の第二法則とも呼ばれる。 これまでの研究では、触媒系へのアクセスにより、コヒーレンスを無視すると量子状態における第二の法則を復元できることを示した。 しかし、量子構造では、コヒーレンスと自由エネルギーは2つの独立した資源である。 したがって、コヒーレンスにより、状態変換には非自明な制限が加えられる。 このギャップを埋めるために、コヒーレンスの性質、すなわち自由エネルギーの源へのアクセスを仮定し、分離して研究する。 自由エネルギー源とともに触媒分解を行うことで、量子状態に存在する任意の量子コヒーレンスを任意に増幅できることを示す。 さらに、系と触媒との間のいかなる相関も任意に抑制することができる。 したがって、この結果は量子熱力学の一般法則を定式化する上で重要なステップとなる。

In the classical regime, thermodynamic state transformations are governed by the free energy. This is also called as the second law of thermodynamics. Previous works showed that, access to a catalytic system allows us to restore the second law in the quantum regime when we ignore coherence. However, in the quantum regime, coherence and free energy are two independent resources. Therefore, coherence places additional non-trivial restrictions on the the state transformations, that remains elusive. In order to close this gap, we isolate and study the nature of coherence, i.e. we assume access to a source of free energy. We show that allowing catalysis along with a source of free energy allows us to amplify any quantum coherence present in the quantum state arbitrarily. Additionally, any correlations between the system and the catalyst can be suppressed arbitrarily. Therefore, our results provide a key step in formulating a fully general law of quantum thermodynamics.
翻訳日:2023-08-25 13:44:51 公開日:2023-08-24
# 光子偏波の量子状態トモグラフィーと自由度

Quantum state tomography of photons polarization and path degrees of freedom ( http://arxiv.org/abs/2308.12813v1 )

ライセンス: Link先を確認
J. L. Montenegro Ferreira and B. de Lima Bernardo(参考訳) 量子状態トモグラフィー(quantum state tomography, qst)は、量子系の密度行列が特定の観測可能な値の測定から特徴づけられる過程であり、量子情報と計算の分野における基本的な柱である。 単一光子の分極と自由度で符号化された2つの量子ビットの密度行列を単一の線形光学設定で再現する簡単なqst法を提案する。 密度行列は、光子の2つの可能な経路に関連する1点ストークスパラメータと、ここで導入された2点ストークスパラメータの量子バージョンによって完全に記述できることを実証する。

Quantum state tomography (QST), the process through which the density matrix of a quantum system is characterized from measurements of specific observables, is a fundamental pillar in the fields of quantum information and computation. We propose a simple QST method to reconstruct the density matrix of two qubits encoded in the polarization and path degrees of freedom of a single photon, which can be realized with a single linear-optical setup. We demonstrate that the density matrix can be fully described in terms of the one-point Stokes parameters related to the two possibles paths of the photon, together with a quantum version of the two-point Stokes parameters introduced here.
翻訳日:2023-08-25 13:44:39 公開日:2023-08-24
# ジョブショップスケジューリングベンチマーク:学習と非学習のための環境とインスタンス

Job Shop Scheduling Benchmark: Environments and Instances for Learning and Non-learning Methods ( http://arxiv.org/abs/2308.12794v1 )

ライセンス: Link先を確認
Robbert Reijnen, Kjell van Straaten, Zaharah Bukhsh, Yingqian Zhang(参考訳) ジョブショップスケジューリング(JSP)、フローショップスケジューリング(FSP)、フレキシブルジョブショップスケジューリング(FJSP)、アセンブリ制約付きFJSP(FAJSP)、シーケンス依存設定時間付きFJSP(FJSP-SDST)、オンラインFJSP(オンラインジョブ到着)など、幅広いマシンスケジューリング問題の包括的なベンチマークを含むオープンソースGitHubリポジトリを紹介した。 私たちの主な目標は、マシンスケジューリングの課題に取り組むことに関心のある研究者、実践者、愛好家のための集中型ハブを提供することです。

We introduce an open-source GitHub repository containing comprehensive benchmarks for a wide range of machine scheduling problems, including Job Shop Scheduling (JSP), Flow Shop Scheduling (FSP), Flexible Job Shop Scheduling (FJSP), FJSP with Assembly constraints (FAJSP), FJSP with Sequence-Dependent Setup Times (FJSP-SDST), and the online FJSP (with online job arrivals). Our primary goal is to provide a centralized hub for researchers, practitioners, and enthusiasts interested in tackling machine scheduling challenges.
翻訳日:2023-08-25 13:44:27 公開日:2023-08-24
# 自己重み付きベイズ物理学インフォームドニューラルネットワークと多タスク逆問題に対するロバスト推定

Auto-weighted Bayesian Physics-Informed Neural Networks and robust estimations for multitask inverse problems in pore-scale imaging of dissolution ( http://arxiv.org/abs/2308.12864v1 )

ライセンス: Link先を確認
Sarah Perez, Philippe Poncet(参考訳) 本稿では,多孔質イメージングにおける新しいデータ同化戦略を提案し,不確実性量子化(UQ)を取り入れた反応性逆問題に頑健に対処できることを実証する。 反応流の細孔スケールモデリングは、動的プロセスによるマクロスケール特性の進化を研究する貴重な機会となる。 しかし、X線マイクロトモグラフィー(X線マイクロCT)プロセスによるイメージングの限界に悩まされ、特性推定における相違が引き起こされる。 反応係数は幅広い値をカバーする重要なパラメータであるため、運動パラメータの評価もまた課題を提起する。 我々はこれらの2つの問題を考慮し、ワークフローに不確実な定量化を統合することにより、動的microCT画像に基づく細孔スケールモデリングの信頼性確保を図る。 本手法は, カルサイト溶解におけるデータ駆動法と物理インフォームド法を組み合わせた反応逆問題のマルチタスク定式化に基づく。 これにより、ポロシティ場の形態的不確かさを定量化し、潜在濃度場と動的マイクロCTを持つ所定のPDEモデルを通して反応パラメータの範囲を推定することができる。 データ同化戦略は、連続的に追加のPDE制約を取り入れた逐次強化に依存している。 我々は,bayesian physics-informed neural network (bpinns) の適応重み付けによるロバストかつ非バイアス不確かさの定量化を保証し,地球化学変換における信頼性の高いマイクロポーロシティ変化を保証する。 反応パラメータと無次元数に有意な後続分布を有する合成microCT画像による1D+Timeおよび2D+Time Calcite解離におけるベイズ推論の成功例を示した。

In this article, we present a novel data assimilation strategy in pore-scale imaging and demonstrate that this makes it possible to robustly address reactive inverse problems incorporating Uncertainty Quantification (UQ). Pore-scale modeling of reactive flow offers a valuable opportunity to investigate the evolution of macro-scale properties subject to dynamic processes. Yet, they suffer from imaging limitations arising from the associated X-ray microtomography (X-ray microCT) process, which induces discrepancies in the properties estimates. Assessment of the kinetic parameters also raises challenges, as reactive coefficients are critical parameters that can cover a wide range of values. We account for these two issues and ensure reliable calibration of pore-scale modeling, based on dynamical microCT images, by integrating uncertainty quantification in the workflow. The present method is based on a multitasking formulation of reactive inverse problems combining data-driven and physics-informed techniques in calcite dissolution. This allows quantifying morphological uncertainties on the porosity field and estimating reactive parameter ranges through prescribed PDE models with a latent concentration field and dynamical microCT. The data assimilation strategy relies on sequential reinforcement incorporating successively additional PDE constraints. We guarantee robust and unbiased uncertainty quantification by straightforward adaptive weighting of Bayesian Physics-Informed Neural Networks (BPINNs), ensuring reliable micro-porosity changes during geochemical transformations. We demonstrate successful Bayesian Inference in 1D+Time and 2D+Time calcite dissolution based on synthetic microCT images with meaningful posterior distribution on the reactive parameters and dimensionless numbers.
翻訳日:2023-08-25 13:39:18 公開日:2023-08-24
# SkipcrossNets: 道路検出のための適応的スキップクロスフュージョン

SkipcrossNets: Adaptive Skip-cross Fusion for Road Detection ( http://arxiv.org/abs/2308.12863v1 )

ライセンス: Link先を確認
Xinyu Zhang, Yan Gong, Zhiwei Li, Xin Gao, Dafeng Jin, Jun Li, and Huaping Liu(参考訳) 様々なモダリティの画像が特徴抽出にユニークな情報を提供するため、多モード融合が自律運転タスクにますます利用されている。 しかし、既存の2ストリームネットワークは特定のネットワーク層でのみ融合しており、セットアップには多くの手動テストが必要になる。 CNNが深まるにつれて、2つのモーダル機能はより高度で抽象的になり、融合は大きなギャップを持つ特徴レベルで発生し、パフォーマンスを損なう可能性がある。 本研究では,特定の融合エポックに縛られることなく,適応的にLiDAR点雲とカメラ画像を組み合わせる,スキップクロスネットワーク(SkipcrossNets)と呼ばれる新しい融合アーキテクチャを提案する。 具体的には、スキップクロスは、各層をフィードフォワード方式で各層に接続し、各層について、前層の全ての特徴マップを入力として、それ自身の特徴マップを、他のモダリティのための全ての後続層への入力として使用し、特徴伝播とマルチモーダル特徴融合を増強する。 この戦略は、2つのデータパイプラインから最も類似した機能レイヤの選択を容易にする。 ネットワークはまた、特徴融合の複雑さとモデルパラメータの数を減らすために、いくつかのブロックに分割されている。 スキップクロス融合の利点は、KITTIとA2D2データセットに適用することで示され、KITTIでは96.85%、A2D2では84.84%のマックスFスコアを達成した。 モデルパラメータは、68.24 FPSの速度で2.33MBのメモリしか必要とせず、モバイル端末や組み込みデバイスで実行可能であった。

Multi-modal fusion is increasingly being used for autonomous driving tasks, as images from different modalities provide unique information for feature extraction. However, the existing two-stream networks are only fused at a specific network layer, which requires a lot of manual attempts to set up. As the CNN goes deeper, the two modal features become more and more advanced and abstract, and the fusion occurs at the feature level with a large gap, which can easily hurt the performance. In this study, we propose a novel fusion architecture called skip-cross networks (SkipcrossNets), which combines adaptively LiDAR point clouds and camera images without being bound to a certain fusion epoch. Specifically, skip-cross connects each layer to each layer in a feed-forward manner, and for each layer, the feature maps of all previous layers are used as input and its own feature maps are used as input to all subsequent layers for the other modality, enhancing feature propagation and multi-modal features fusion. This strategy facilitates selection of the most similar feature layers from two data pipelines, providing a complementary effect for sparse point cloud features during fusion processes. The network is also divided into several blocks to reduce the complexity of feature fusion and the number of model parameters. The advantages of skip-cross fusion were demonstrated through application to the KITTI and A2D2 datasets, achieving a MaxF score of 96.85% on KITTI and an F1 score of 84.84% on A2D2. The model parameters required only 2.33 MB of memory at a speed of 68.24 FPS, which could be viable for mobile terminals and embedded devices.
翻訳日:2023-08-25 13:38:49 公開日:2023-08-24
# 容器セグメンテーション合成のための局所注意マップの学習

Learned Local Attention Maps for Synthesising Vessel Segmentations ( http://arxiv.org/abs/2308.12861v1 )

ライセンス: Link先を確認
Yash Deo, Rodrigo Bonazzola, Haoran Dou, Yan Xia, Tianyou Wei, Nishant Ravikumar, Alejandro F. Frangi, Toni Lassila(参考訳) 磁気共鳴血管造影(MRA)は血管の可視化のための画像モダリティである。 いくつかの診断応用に有用であり、出血性脳卒中(血管の動脈瘤破裂からの回復)などの有害事象のリスクを評価するのに有用である。 しかし、MRAは日常的に取得されないため、T1やT2のようなより日常的に取得されたMRコントラストから血管のセグメンテーションを合成するアプローチは有用である。 我々は、T2 MRIのみから、Willis(CoW)円の主大脳動脈の分節を合成するためのエンコーダ・デコーダモデルを提案する。 グローバルとローカル両方の特徴を捉える2段階多目的学習手法を提案する。 これは、セグメンテーションラベルを拡張することによって生成された学習されたローカルアテンションマップを使用し、ネットワークはCoW合成に関連するT2 MRIからのみ情報を抽出する。 T2 MRIで生成した人工血管のセグメンテーションは, トランスフォーマーU-Net(0.71 pm 0.04$)やnnU-net(0.68 pm 0.05$)のような最先端のセグメンテーションネットワークと比較して, 平均Diceスコアが0.79 pm 0.03$となった。 人工血管のセグメンテーションと比較モデルの主な定性的な違いは,特に後部循環におけるCoW血管セグメンテーションのシャープな分解能であった。

Magnetic resonance angiography (MRA) is an imaging modality for visualising blood vessels. It is useful for several diagnostic applications and for assessing the risk of adverse events such as haemorrhagic stroke (resulting from the rupture of aneurysms in blood vessels). However, MRAs are not acquired routinely, hence, an approach to synthesise blood vessel segmentations from more routinely acquired MR contrasts such as T1 and T2, would be useful. We present an encoder-decoder model for synthesising segmentations of the main cerebral arteries in the circle of Willis (CoW) from only T2 MRI. We propose a two-phase multi-objective learning approach, which captures both global and local features. It uses learned local attention maps generated by dilating the segmentation labels, which forces the network to only extract information from the T2 MRI relevant to synthesising the CoW. Our synthetic vessel segmentations generated from only T2 MRI achieved a mean Dice score of $0.79 \pm 0.03$ in testing, compared to state-of-the-art segmentation networks such as transformer U-Net ($0.71 \pm 0.04$) and nnU-net($0.68 \pm 0.05$), while using only a fraction of the parameters. The main qualitative difference between our synthetic vessel segmentations and the comparative models was in the sharper resolution of the CoW vessel segments, especially in the posterior circulation.
翻訳日:2023-08-25 13:38:17 公開日:2023-08-24
# 音響空間キャプチャーによる動物密度の自動推定

Towards Automated Animal Density Estimation with Acoustic Spatial Capture-Recapture ( http://arxiv.org/abs/2308.12859v1 )

ライセンス: Link先を確認
Yuheng Wang, Juan Ye, David L. Borchers(参考訳) 受動的音響モニタリングは、音響的にアクティブだが視覚的に調査が難しい野生生物の個体群を監視する効果的な方法である。 デジタルレコーダーは、サーベイヤーが低コストで大量のデータを集めることができるが、これらのデータでターゲット種の声を識別することは容易ではない。 機械学習(ML)手法はしばしばその識別に使用される。 大量のデータを迅速に処理できるが、全ての発声を検知するわけではなく、いくつかの偽陽性(標的種ではない発声)を生成する。 既存の野生生物資源調査法は、これらの誤りに対処するために特に設計されてきたが、現在の偽陽性処理法は十分に開発されていない。 彼らは個々の発声の特徴を考慮せず、それらの一部は他の声よりも偽陽性である可能性が高い。 本稿では,MLの発声識別から個人レベルの信頼度を推定に組み込むことにより,MLの不確かさを推測に組み込む3つの手法を提案する。 この方法は、種同一性が潜伏変数である混合モデルを含む。 提案手法をシミュレーションにより検証し, 偽陽性を無視すると17%の正のバイアスが生じるハイナンギボンズの音響データに基づくシナリオにおいて, 本手法は, 95%に近い負のバイアスとカバレッジの確率を与える。

Passive acoustic monitoring can be an effective way of monitoring wildlife populations that are acoustically active but difficult to survey visually. Digital recorders allow surveyors to gather large volumes of data at low cost, but identifying target species vocalisations in these data is non-trivial. Machine learning (ML) methods are often used to do the identification. They can process large volumes of data quickly, but they do not detect all vocalisations and they do generate some false positives (vocalisations that are not from the target species). Existing wildlife abundance survey methods have been designed specifically to deal with the first of these mistakes, but current methods of dealing with false positives are not well-developed. They do not take account of features of individual vocalisations, some of which are more likely to be false positives than others. We propose three methods for acoustic spatial capture-recapture inference that integrate individual-level measures of confidence from ML vocalisation identification into the likelihood and hence integrate ML uncertainty into inference. The methods include a mixture model in which species identity is a latent variable. We test the methods by simulation and find that in a scenario based on acoustic data from Hainan gibbons, in which ignoring false positives results in 17% positive bias, our methods give negligible bias and coverage probabilities that are close to the nominal 95% level.
翻訳日:2023-08-25 13:37:47 公開日:2023-08-24
# Smooth Convergence を用いた高速対人訓練

Fast Adversarial Training with Smooth Convergence ( http://arxiv.org/abs/2308.12857v1 )

ライセンス: Link先を確認
Mengnan Zhao, Lihe Zhang, Yuqiu Kong and Baocai Yin(参考訳) 高速対人訓練(FAT)は、ニューラルネットワークの対人ロバスト性を改善するのに有用である。 しかし、以前のFATの作業は、大規模な摂動予算を扱う際に破滅的な過度適合(caastrophic overfitting)として知られる重大な問題に直面している。 そこで本研究では,従来のFAT作業のトレーニングプロセスを分析し,破滅的オーバーフィッティングが損失収束アウトリーの出現に伴うことを観察する。 したがって、緩やかに滑らかな損失収束プロセスは、破滅的な過適合を解決する安定したFATプロセスである。 円滑な損失収束過程を実現するために,隣接するエポック間の損失差を制限する新しい振動制約(Dubed ConvergeSmooth)を提案する。 ConvergeSmoothの収束ストライドは収束と平滑化のバランスをとるために導入された。 同様に、損失バランス係数以外のハイパーパラメータを導入することなく、重み集中を設計する。 提案手法は攻撃非依存であり,様々なFAT技術の訓練安定性を向上させることができる。 一般的なデータセットに対する大規模な実験により、提案手法は破滅的なオーバーフィッティングを効果的に回避し、以前の全てのFAT手法より優れていることが示された。 コードは \url{https://github.com/fat-cs/convergesmooth} で入手できる。

Fast adversarial training (FAT) is beneficial for improving the adversarial robustness of neural networks. However, previous FAT work has encountered a significant issue known as catastrophic overfitting when dealing with large perturbation budgets, \ie the adversarial robustness of models declines to near zero during training. To address this, we analyze the training process of prior FAT work and observe that catastrophic overfitting is accompanied by the appearance of loss convergence outliers. Therefore, we argue a moderately smooth loss convergence process will be a stable FAT process that solves catastrophic overfitting. To obtain a smooth loss convergence process, we propose a novel oscillatory constraint (dubbed ConvergeSmooth) to limit the loss difference between adjacent epochs. The convergence stride of ConvergeSmooth is introduced to balance convergence and smoothing. Likewise, we design weight centralization without introducing additional hyperparameters other than the loss balance coefficient. Our proposed methods are attack-agnostic and thus can improve the training stability of various FAT techniques. Extensive experiments on popular datasets show that the proposed methods efficiently avoid catastrophic overfitting and outperform all previous FAT methods. Code is available at \url{https://github.com/FAT-CS/ConvergeSmooth}.
翻訳日:2023-08-25 13:37:22 公開日:2023-08-24
# 連続可変量子テレポーテーションを用いた天文学的干渉法

Astronomical interferometry using continuous variable quantum teleportation ( http://arxiv.org/abs/2308.12851v1 )

ライセンス: Link先を確認
Yunkai Wang, Yujie Zhang, Virginia O. Lorenz(参考訳) 本稿では,遠方望遠鏡間の伝送損失を克服するために,連続可変量子テレポーテーションを用いた天文干渉計を構築する手法を提案する。 このスキームは、遠方の望遠鏡で共有される2モードのスクイーズ状態に依存し、連続変数量子リピータを用いて分配される絡み合いリソースである。 ビームスプリッターと光子数分解検出を用いたテレポート状態の最適測定を行う。 従来の離散状態に依存した提案と比べ,線形光学を用いて恒星光子を無駄にせず,従来の離散的スキームではノイズと見なされる多光子イベントを利用するという利点がある。

We propose a method to build an astronomical interferometer using continuous variable quantum teleportation to overcome the transmission loss between distant telescopes. The scheme relies on two-mode squeezed states shared by distant telescopes as entanglement resources, which are distributed using continuous variable quantum repeaters. We find the optimal measurement on the teleported states, which uses beam-splitters and photon-number-resolved detection. Compared to prior proposals relying on discrete states, our scheme has the advantages of using linear optics to implement the scheme without wasting stellar photons and making use of multiphoton events, which are regarded as noise in previous discrete schemes.
翻訳日:2023-08-25 13:36:59 公開日:2023-08-24
# 暗黙的障害物マップ駆動屋内ナビゲーションモデルによるロバスト障害物回避

Implicit Obstacle Map-driven Indoor Navigation Model for Robust Obstacle Avoidance ( http://arxiv.org/abs/2308.12845v1 )

ライセンス: Link先を確認
Wei Xie, Haobo Jiang, Shuo Gu and Jin Xie(参考訳) 目標駆動型屋内ナビゲーションタスクを成功させる上で,ロバスト障害物回避は重要なステップのひとつであり,視覚画像に障害が欠落し,検出に失敗する可能性があるため,視覚イメージに基づく障害物回避技術はまだ不満足な堅牢性に悩まされている。 そこで本稿では,視覚的イメージではなく,歴史的試行錯誤経験に基づいて暗黙的障害物マップを学習する,頑健な障害物回避のための新しい暗黙的障害物マップ駆動屋内ナビゲーションフレームワークを提案する。 ナビゲーション効率をさらに向上するために、非ローカルなメモリ集約モジュールが非ローカルネットワークを活用して、ナビゲーションプロセス中のターゲットセマンティクスとターゲット指向ヒントの本質的な関係をモデル化し、ナビゲーション決定の最もターゲット関連のあるオブジェクトヒントをマイニングするように設計されている。 ai2-thorとrobothorベンチマークの広範な実験結果から,提案手法の優れた障害物回避とナビゲーション効率を検証できた。 コアソースコードはhttps://github.com/xwaiy123/object-navigationで入手できる。

Robust obstacle avoidance is one of the critical steps for successful goal-driven indoor navigation tasks.Due to the obstacle missing in the visual image and the possible missed detection issue, visual image-based obstacle avoidance techniques still suffer from unsatisfactory robustness. To mitigate it, in this paper, we propose a novel implicit obstacle map-driven indoor navigation framework for robust obstacle avoidance, where an implicit obstacle map is learned based on the historical trial-and-error experience rather than the visual image. In order to further improve the navigation efficiency, a non-local target memory aggregation module is designed to leverage a non-local network to model the intrinsic relationship between the target semantic and the target orientation clues during the navigation process so as to mine the most target-correlated object clues for the navigation decision. Extensive experimental results on AI2-Thor and RoboTHOR benchmarks verify the excellent obstacle avoidance and navigation efficiency of our proposed method. The core source code is available at https://github.com/xwaiyy123/object-navigation.
翻訳日:2023-08-25 13:36:46 公開日:2023-08-24
# 貯留層計算による確率的負荷予測

Probabilistic load forecasting with Reservoir Computing ( http://arxiv.org/abs/2308.12844v1 )

ライセンス: Link先を確認
Michele Guerra, Simone Scardapane, Filippo Maria Bianchi(参考訳) ディープラーニングのいくつかの応用は、正確な結果を提供するだけでなく、予測に対する信頼度を定量化する必要がある。 リスクのあるシナリオを避けるために、意思決定者は、例えば電力負荷の正確な予測と信頼性の高い予測の両方を必要とします。 このため、点予測は不十分であるため、不確実な定量化を提供する方法を採用する必要がある。 本研究は, その計算効率と予測時系列の有効性から, コア時系列予測手法としての貯水池計算に焦点をあてる。 rc文献は主にポイント予測に焦点をあてているが、本研究は貯水池設定と一般的な不確実性定量化手法の適合性を探るものである。 不確実性評価に対するベイズ的アプローチと決定論的アプローチの両方を、慎重に選択された性能指標に基づいて、予測精度、計算資源効率、推定不確実性の信頼性の観点から評価し比較する。

Some applications of deep learning require not only to provide accurate results but also to quantify the amount of confidence in their prediction. The management of an electric power grid is one of these cases: to avoid risky scenarios, decision-makers need both precise and reliable forecasts of, for example, power loads. For this reason, point forecasts are not enough hence it is necessary to adopt methods that provide an uncertainty quantification. This work focuses on reservoir computing as the core time series forecasting method, due to its computational efficiency and effectiveness in predicting time series. While the RC literature mostly focused on point forecasting, this work explores the compatibility of some popular uncertainty quantification methods with the reservoir setting. Both Bayesian and deterministic approaches to uncertainty assessment are evaluated and compared in terms of their prediction accuracy, computational resource efficiency and reliability of the estimated uncertainty, based on a set of carefully chosen performance metrics.
翻訳日:2023-08-25 13:36:26 公開日:2023-08-24
# 強化学習を用いた頭上マニピュレータを有するuavのアクチュエータ軌道計画

Actuator Trajectory Planning for UAVs with Overhead Manipulator using Reinforcement Learning ( http://arxiv.org/abs/2308.12843v1 )

ライセンス: Link先を確認
Hazim Alzorgan, Abolfazl Razi, Ata Jahangir Moshayedi(参考訳) 本稿では,無人航空機 (UAV) に自由度2自由度を有する制御可能なアームを装着し, 飛行時の作動作業を行う航空マニピュレータシステムの運用について検討する。 我々のソリューションは、腕の先端の軌跡を制御するためにq-learning法(entextit{end-effector}とも呼ばれる)を使うことに基づいている。 具体的には,TTC(Time To Collision)に基づく動作計画モデルを構築し,マニピュレータの到達性を確保しつつ障害物を回避できる。 さらに,UAVプラットフォームに対する任意のベースライン軌跡を与えられたマニピュレータのエンドエフェクタの所望の軌道を,モデルベースQ学習モデルを用いて独立に追跡・制御する。 このような組み合わせにより、飛行制御ファームウェアとの互換性を維持しつつ、高高度溶接、構造監視および修理、電池交換、ガークリーニング、スカイスクレイパークリーニング、および難解で危険な環境での電力線維持といった様々な作動作業が可能になる。 我々のRL制御機構は、UAVの動作の不確実性に対処し、有望な性能を提供する堅牢な制御戦略をもたらす。 具体的には、15,000エピソードのq-learningを用いて平均変位誤差(すなわち、目標と得られた軌道点の平均距離)の92\%の精度を達成する。

In this paper, we investigate the operation of an aerial manipulator system, namely an Unmanned Aerial Vehicle (UAV) equipped with a controllable arm with two degrees of freedom to carry out actuation tasks on the fly. Our solution is based on employing a Q-learning method to control the trajectory of the tip of the arm, also called \textit{end-effector}. More specifically, we develop a motion planning model based on Time To Collision (TTC), which enables a quadrotor UAV to navigate around obstacles while ensuring the manipulator's reachability. Additionally, we utilize a model-based Q-learning model to independently track and control the desired trajectory of the manipulator's end-effector, given an arbitrary baseline trajectory for the UAV platform. Such a combination enables a variety of actuation tasks such as high-altitude welding, structural monitoring and repair, battery replacement, gutter cleaning, sky scrapper cleaning, and power line maintenance in hard-to-reach and risky environments while retaining compatibility with flight control firmware. Our RL-based control mechanism results in a robust control strategy that can handle uncertainties in the motion of the UAV, offering promising performance. Specifically, our method achieves 92\% accuracy in terms of average displacement error (i.e. the mean distance between the target and obtained trajectory points) using Q-learning with 15,000 episodes
翻訳日:2023-08-25 13:36:11 公開日:2023-08-24
# 統計的・意味的分析手法を用いた画像内容からのテキスト類似性

Text Similarity from Image Contents using Statistical and Semantic Analysis Techniques ( http://arxiv.org/abs/2308.12842v1 )

ライセンス: Link先を確認
Sagar Kulkarni, Sharvari Govilkar and Dhiraj Amin(参考訳) プラジャリズム検出は自然言語処理(nlp)コミュニティで最も研究されている分野の1つである。 優れたプラギアリズム検出は、意味論、名前付きエンティティ、パラフレーズなどを含む全てのNLPメソッドをカバーし、詳細なプラギアリズムレポートを生成する。 クロスLingual Plagiarismの検出には,効率的なテキスト類似性チェックを行うための高度な手法やアルゴリズムの深い知識が必要である。 今日では、盗賊たちが身元を隠して、そのような犯罪に遭うのを防いでいる。 プラジャリストは、言い換え、同義語置換、引用のミスマッチ、ある言語を別の言語に翻訳するといったテクニックによって検出されることを回避される。 画像コンテンツプラジャリズム検出(ICPD)は、高度な画像コンテンツ処理を利用して、画像コンテンツの完全性を確保するために、プラジャリズムのインスタンスを識別する。 盗作の問題は、図形、グラフ、テーブルなどの画像も盗作される可能性があるため、テクストコンテンツを超えて広がっている。 しかし、画像コンテンツの盗作検出は未解決の課題である。 したがって、画像コンテンツの盗作を検出する方法やシステムを開発する必要がある。 本稿では,図形,グラフ,表などの画像の内容の盗作を検出するシステムを実装した。 jaccardやcosineのような統計アルゴリズムとともに、lsa、bert、wordnetのようなセマンティックアルゴリズムの導入は、効率的で正確な盗作の検出に優れていた。

Plagiarism detection is one of the most researched areas among the Natural Language Processing(NLP) community. A good plagiarism detection covers all the NLP methods including semantics, named entities, paraphrases etc. and produces detailed plagiarism reports. Detection of Cross Lingual Plagiarism requires deep knowledge of various advanced methods and algorithms to perform effective text similarity checking. Nowadays the plagiarists are also advancing themselves from hiding the identity from being catch in such offense. The plagiarists are bypassed from being detected with techniques like paraphrasing, synonym replacement, mismatching citations, translating one language to another. Image Content Plagiarism Detection (ICPD) has gained importance, utilizing advanced image content processing to identify instances of plagiarism to ensure the integrity of image content. The issue of plagiarism extends beyond textual content, as images such as figures, graphs, and tables also have the potential to be plagiarized. However, image content plagiarism detection remains an unaddressed challenge. Therefore, there is a critical need to develop methods and systems for detecting plagiarism in image content. In this paper, the system has been implemented to detect plagiarism form contents of Images such as Figures, Graphs, Tables etc. Along with statistical algorithms such as Jaccard and Cosine, introducing semantic algorithms such as LSA, BERT, WordNet outperformed in detecting efficient and accurate plagiarism.
翻訳日:2023-08-25 13:35:43 公開日:2023-08-24
# 大規模言語モデルの投票:まれな疾患の特定を促す

Large Language Models Vote: Prompting for Rare Disease Identification ( http://arxiv.org/abs/2308.12890v1 )

ライセンス: Link先を確認
David Oniani, Jordan Hilsman, Hang Dong, Fengyi Gao, Shiven Verma, Yanshan Wang(参考訳) 生成型大言語モデル(llms)の出現は、正確かつ効率的なプロンプトアプローチの必要性を強調している。 LLMはFew-Shot Learning(FSL)のコンテキストによく適用され、最小限のトレーニングデータでタスクが実行される。 FSLは、健康のためのAIを含む多くの人工知能(AI)サブドメインで人気を集めている。 人口のごく一部に影響を及ぼす希少な病気は、手動のデータ収集とアノテーションは高価で時間を要するが、データ可用性の制限により本質的にFSL技術を必要とする。 本稿では,FSL 設定における LLM クエリの性能向上のためのフレキシブルなプロンプト手法である Models-Vote Prompting (MVP) を提案する。 MVPは多数のLCMに同じタスクを実行させ、その結果のアウトプットに対して過半数の投票を行う。 本手法は,1ショットの稀な疾患の同定と分類作業において,アンサンブル内の任意のモデルに対して改善された結果を達成する。 また、MIMIC-IV Data Use Agreement (DUA) に同意した人々に対して、FSLのための新たなレアな疾患データセットをリリースする。 さらに、MVPでは、各モデルを複数回トリガーし、手動アノテーションに必要な時間を大幅に増加させ、これに対応するために、生成LDM評価を自動化するためにJSONを使用することの可能性を評価する。

The emergence of generative Large Language Models (LLMs) emphasizes the need for accurate and efficient prompting approaches. LLMs are often applied in Few-Shot Learning (FSL) contexts, where tasks are executed with minimal training data. FSL has become popular in many Artificial Intelligence (AI) subdomains, including AI for health. Rare diseases, affecting a small fraction of the population, inherently require FSL techniques due to limited data availability, though manual data collection and annotation is costly and time-consuming. In this paper, we propose Models-Vote Prompting (MVP), a flexible prompting approach for improving the performance of LLM queries in FSL settings. MVP works by prompting numerous LLMs to perform the same tasks and then conducting a majority vote on the resulting outputs. This method achieves improved results to any one model in the ensemble on one-shot rare disease identification and classification tasks. We also release a novel rare disease dataset for FSL, available to those who agreed to the MIMIC-IV Data Use Agreement (DUA). Furthermore, in using MVP, each model is prompted multiple times, substantially increasing the time needed for manual annotation, and to address this, we assess the feasibility of using JSON for automating generative LLM evaluation.
翻訳日:2023-08-25 13:27:58 公開日:2023-08-24
# 抽象的テキスト要約のための因果構造誘導

Inducing Causal Structure for Abstractive Text Summarization ( http://arxiv.org/abs/2308.12888v1 )

ライセンス: Link先を確認
Lu Chen, Ruqing Zhang, Wei Huang, Wei Chen, Jiafeng Guo, Xueqi Cheng(参考訳) データ駆動抽象要約モデルの主流は、因果関係よりも相関を探求する傾向がある。 このような相関関係の中で、トレーニングコーパスから事前に学習した言語に苦しむ突発的な言語が存在するため、学習モデルの全体的な効果を損なうことができる。 この問題に対処するために,要約データの下位因果構造を誘導する構造因果モデル(scm)を提案する。 いくつかの因果要因と非因果因子を仮定し、文書の内容とスタイルと要約を表現する。 理論的には,SCMの潜伏要因は,特定の条件下で観測したトレーニングデータを適合させることで同定できる。 そこで本研究では,因果要因を模倣できる因果表現を学習するために,因果性に触発されたシーケンシャル・ツー・シークエンスモデル(ci-seq2seq)を提案する。 鍵となる考え方は、変分オートエンコーダ(VAE)を再構成して、トレーニングコーパスからの文書と要約変数の共分散に適合させることである。 広く使われている2つのテキスト要約データセットの実験結果は,本手法の利点を示している。

The mainstream of data-driven abstractive summarization models tends to explore the correlations rather than the causal relationships. Among such correlations, there can be spurious ones which suffer from the language prior learned from the training corpus and therefore undermine the overall effectiveness of the learned model. To tackle this issue, we introduce a Structural Causal Model (SCM) to induce the underlying causal structure of the summarization data. We assume several latent causal factors and non-causal factors, representing the content and style of the document and summary. Theoretically, we prove that the latent factors in our SCM can be identified by fitting the observed training data under certain conditions. On the basis of this, we propose a Causality Inspired Sequence-to-Sequence model (CI-Seq2Seq) to learn the causal representations that can mimic the causal factors, guiding us to pursue causal information for summary generation. The key idea is to reformulate the Variational Auto-encoder (VAE) to fit the joint distribution of the document and summary variables from the training corpus. Experimental results on two widely used text summarization datasets demonstrate the advantages of our approach.
翻訳日:2023-08-25 13:27:37 公開日:2023-08-24
# CNN分類性能向上のための多段階特徴デコレーション制約

Multi-stage feature decorrelation constraints for improving CNN classification performance ( http://arxiv.org/abs/2308.12880v1 )

ライセンス: Link先を確認
Qiuyu Zhu and Xuewen Zu and Chengfei Liu(参考訳) パターン分類に使用される畳み込みニューラルネットワーク(CNN)では、トレーニング損失関数は通常、ネットワークパラメータの正規化制約を除いて、ネットワークの最終出力に適用される。 しかし,ネットワーク層数の増加に伴い,ネットワークフロント層に対する損失関数の影響は徐々に減少し,ネットワークパラメータは局所的に最適化される傾向にある。 同時に、訓練されたネットワークは特徴のすべての段階で重要な情報冗長性を有しており、全ての段階における特徴マッピングの有効性を低減し、最適方向におけるネットワークのその後のパラメータの変化には影響しないことがわかった。 したがって、前段特徴を抑える損失関数を設計し、前段特徴の情報冗長性を排除し、ネットワークのより最適化されたソリューションを得ることができ、さらにネットワークの分類精度を向上させることができる。 本稿は,CNNにおいて,有効特徴を洗練し,全ての段階における特徴の相関性を制限することで情報冗長性を解消する多段階的特徴相関損失(MFD Loss)を提案する。 cnnには多数の層があり、実験的比較と分析を通じて、mfd損失はcnnの複数の前面層に作用し、各層と各チャネルの出力特性を制約し、ネットワークトレーニング中に分類損失機能と共同で監督訓練を行う。 単一のSoftmax Loss教師付き学習と比較して、いくつかの典型的なCNNでよく使われるデータセットの実験は、Softmax Loss+MFD Lossの分類性能が著しく優れていることを証明している。 一方、MFDロスと他の典型的な損失関数の組み合わせ前後の比較実験は、そのよい普遍性を検証する。

For the convolutional neural network (CNN) used for pattern classification, the training loss function is usually applied to the final output of the network, except for some regularization constraints on the network parameters. However, with the increasing of the number of network layers, the influence of the loss function on the network front layers gradually decreases, and the network parameters tend to fall into local optimization. At the same time, it is found that the trained network has significant information redundancy at all stages of features, which reduces the effectiveness of feature mapping at all stages and is not conducive to the change of the subsequent parameters of the network in the direction of optimality. Therefore, it is possible to obtain a more optimized solution of the network and further improve the classification accuracy of the network by designing a loss function for restraining the front stage features and eliminating the information redundancy of the front stage features .For CNN, this article proposes a multi-stage feature decorrelation loss (MFD Loss), which refines effective features and eliminates information redundancy by constraining the correlation of features at all stages. Considering that there are many layers in CNN, through experimental comparison and analysis, MFD Loss acts on multiple front layers of CNN, constrains the output features of each layer and each channel, and performs supervision training jointly with classification loss function during network training. Compared with the single Softmax Loss supervised learning, the experiments on several commonly used datasets on several typical CNNs prove that the classification performance of Softmax Loss+MFD Loss is significantly better. Meanwhile, the comparison experiments before and after the combination of MFD Loss and some other typical loss functions verify its good universality.
翻訳日:2023-08-25 13:26:29 公開日:2023-08-24
# 米国国勢調査における脱同定が1歳数に与える影響

The Impact of De-Identification on Single-Year-of-Age Counts in the U.S. Census ( http://arxiv.org/abs/2308.12876v1 )

ライセンス: Link先を確認
Sarah Radway and Miranda Christ(参考訳) 2020年、アメリカ合衆国国勢調査局はデータ交換からディファレンシャル・プライバシ(dp)に移行し、年次国勢調査データを非識別化した。 この決定は、特にDPの正確性に関する懸念から、データユーザーからかなりの批判を受けてきた。 本研究では,学齢1歳以上の生徒数(学区内の4歳児数)を推定し,学部,教室,資金提供の要請を取り巻く意思決定を行う学校計画のユースケースに着目して,スワップとDPが国勢調査データに与える影響を比較検討した。 これらの影響を,人口規模や年齢分布の異なる学区を対象に検討した。 以上の結果から,1年数での交換よりもDPの活用が支持され,特にDPに関連する行動(小地区の動作不良)はスワッピング機構によっても引き起こされることが明らかとなった。 私たちが調査する学校計画のユースケースでは、dpはスワップよりも精度が向上するが、透明性の向上など他のメリットも提供する。

In 2020, the U.S. Census Bureau transitioned from data swapping to differential privacy (DP) in its approach to de-identifying decennial census data. This decision has faced considerable criticism from data users, particularly due to concerns about the accuracy of DP. We compare the relative impacts of swapping and DP on census data, focusing on the use case of school planning, where single-year-of-age population counts (i.e., the number of four-year-olds in the district) are used to estimate the number of incoming students and make resulting decisions surrounding faculty, classrooms, and funding requests. We examine these impacts for school districts of varying population sizes and age distributions. Our findings support the use of DP over swapping for single-year-of-age counts; in particular, concerning behaviors associated with DP (namely, poor behavior for smaller districts) occur with swapping mechanisms as well. For the school planning use cases we investigate, DP provides comparable, if not improved, accuracy over swapping, while offering other benefits such as improved transparency.
翻訳日:2023-08-25 13:25:37 公開日:2023-08-24
# 簡単な注意:変圧器の簡単な自己注意機構

Easy attention: A simple self-attention mechanism for Transformers ( http://arxiv.org/abs/2308.12874v1 )

ライセンス: Link先を確認
Marcial Sanchis-Agudo and Yuning Wang and Karthik Duraisamy and Ricardo Vinuesa(参考訳) カオスシステムの時間力学予測に使用される変圧器ニューラルネットのロバスト性を改善するために,簡単な注意機構を提案する。 自己注意はクエリやキーの内積のみを使用するため,時間系列の長期依存を捉えるために必要な注意スコアを得るためには,キー,クエリ,ソフトマックスは不要であることが示されている。 さらに,ソフトマックスアテンションスコアに特異値分解(svd)を導入することで,アテンションスコアのスパンドスペースにおけるクエリとキーの両方からの貢献を自己アテンションが圧縮するのをさらに観察する。 そこで,本提案手法は注意点を直接学習可能なパラメータとして扱う。 この手法は,カオスシステムの時間的ダイナミクスを再構築・予測する際に,自己注意やLSTM(Long-term memory)ネットワークよりも堅牢性が高く,複雑度が低い場合に優れた結果をもたらす。 より複雑な高次元力学系における応用の可能性を示す。

To improve the robustness of transformer neural networks used for temporal-dynamics prediction of chaotic systems, we propose a novel attention mechanism called easy attention. Due to the fact that self attention only makes usage of the inner product of queries and keys, it is demonstrated that the keys, queries and softmax are not necessary for obtaining the attention score required to capture long-term dependencies in temporal sequences. Through implementing singular-value decomposition (SVD) on the softmax attention score, we further observe that the self attention compresses contribution from both queries and keys in the spanned space of the attention score. Therefore, our proposed easy-attention method directly treats the attention scores as learnable parameters. This approach produces excellent results when reconstructing and predicting the temporal dynamics of chaotic systems exhibiting more robustness and less complexity than the self attention or the widely-used long short-term memory (LSTM) network. Our results show great potential for applications in more complex high-dimensional dynamical systems.
翻訳日:2023-08-25 13:24:51 公開日:2023-08-24
# IPA: 高精度かつコスト効率を実現するための推論パイプライン適応

IPA: Inference Pipeline Adaptation to Achieve High Accuracy and Cost-Efficiency ( http://arxiv.org/abs/2308.12871v1 )

ライセンス: Link先を確認
Saeid Ghafouri, Kamran Razavi, Mehran Salmani, Alireza Sanaee, Tania Lorido-Botran, Lin Wang, Joseph Doyle, Pooyan Jamshidi(参考訳) 高速で正確で費用効果の高い推論のために効率よくマルチモデル推論パイプラインを最適化することは、エンドツーエンドのレイテンシ要件が厳しいことを考えると、MLプロダクションシステムにおいて重要な課題である。 推論パイプラインの精度とコストの広い、複雑なトレードオフ空間の探索を単純化するために、プロバイダはしばしばその1つを考えることを選択します。 しかし、課題は正確さとコストトレードオフの調整にある。 この課題に対処し、推論パイプラインにおけるモデル変種を効率的に管理するソリューションを提案するため、深層学習タスク毎にモデル変種を効率的に活用するオンラインディープラーニング推論パイプライン適応システムであるIPAを提案する。 モデル変種は、リソース要求、レイテンシ、精度の異なる同じディープラーニングタスクのために、トレーニング済みモデルの異なるバージョンである。 IPAはバッチサイズ、レプリケーション、モデルの変形を動的に設定し、精度を最適化し、コストを最小化し、Integer Programmingを使ってユーザ定義のレイテンシSLAを満たす。 さまざまなワークロードや動的トラフィックパターンに適応しながら、精度とコスト目標の異なるトレードオフを達成するための、多目的設定をサポートする。 実世界の5つの推論パイプラインによるKubernetes実装に関する大規模な実験は、IPAが通常の精度を最大35%改善し、コストが5%未満であることを示している。

Efficiently optimizing multi-model inference pipelines for fast, accurate, and cost-effective inference is a crucial challenge in ML production systems, given their tight end-to-end latency requirements. To simplify the exploration of the vast and intricate trade-off space of accuracy and cost in inference pipelines, providers frequently opt to consider one of them. However, the challenge lies in reconciling accuracy and cost trade-offs. To address this challenge and propose a solution to efficiently manage model variants in inference pipelines, we present IPA, an online deep-learning Inference Pipeline Adaptation system that efficiently leverages model variants for each deep learning task. Model variants are different versions of pre-trained models for the same deep learning task with variations in resource requirements, latency, and accuracy. IPA dynamically configures batch size, replication, and model variants to optimize accuracy, minimize costs, and meet user-defined latency SLAs using Integer Programming. It supports multi-objective settings for achieving different trade-offs between accuracy and cost objectives while remaining adaptable to varying workloads and dynamic traffic patterns. Extensive experiments on a Kubernetes implementation with five real-world inference pipelines demonstrate that IPA improves normalized accuracy by up to 35% with a minimal cost increase of less than 5%.
翻訳日:2023-08-25 13:24:26 公開日:2023-08-24
# VNI-Net:LiDAR位置認識のためのベクトルニューロンに基づく回転不変記述子

VNI-Net: Vector Neurons-based Rotation-Invariant Descriptor for LiDAR Place Recognition ( http://arxiv.org/abs/2308.12870v1 )

ライセンス: Link先を確認
Gengxuan Tian, Junqiao Zhao, Yingfeng Cai, Fenglin Zhang, Wenjie Mu, Chen Ye(参考訳) LiDARに基づく位置認識は、SLAMとLiDARの局所化において重要な役割を果たす。 様々な深層学習と手作りに基づく手法の出現にもかかわらず、回転による位置認識の失敗は依然として重要な課題である。 既存の研究では、特定のトレーニング戦略やネットワーク構造を通じてこの制限に対処する。 しかし、前者は満足な結果を生み出さないが、後者は主にso(2)回転不変性の低減問題に焦点を当てている。 SO(3)回転不変度を目標とする方法は、識別能力の限界に悩まされる。 本稿では、ベクトルニューロンネットワーク(VNN)を用いてSO(3)回転不変性を実現する新しい手法を提案する。 まず、隣接する点から回転同変特徴を抽出し、VNNを通して低次元特徴を高次元空間にマップする。 その後、回転同変特徴空間におけるユークリッド距離とコサイン距離を回転不変特徴記述子として計算する。 最後に,GeMプーリングを利用してグローバルな記述子を得る。 回転不変記述子を定式化する際の有意な情報損失に対処するため,ユークリッド空間近傍の異なる層における特徴間の距離を求める。 これにより、ポイントクラウドディスクリプタの識別性が大幅に向上し、計算効率が向上する。 提案手法は, 回転不変性を実装した他のベースライン法よりも有意に優れており, 回転問題を考慮しない現在最先端の位置認識法と同等の結果が得られた。

LiDAR-based place recognition plays a crucial role in Simultaneous Localization and Mapping (SLAM) and LiDAR localization. Despite the emergence of various deep learning-based and hand-crafting-based methods, rotation-induced place recognition failure remains a critical challenge. Existing studies address this limitation through specific training strategies or network structures. However, the former does not produce satisfactory results, while the latter focuses mainly on the reduced problem of SO(2) rotation invariance. Methods targeting SO(3) rotation invariance suffer from limitations in discrimination capability. In this paper, we propose a new method that employs Vector Neurons Network (VNN) to achieve SO(3) rotation invariance. We first extract rotation-equivariant features from neighboring points and map low-dimensional features to a high-dimensional space through VNN. Afterwards, we calculate the Euclidean and Cosine distance in the rotation-equivariant feature space as rotation-invariant feature descriptors. Finally, we aggregate the features using GeM pooling to obtain global descriptors. To address the significant information loss when formulating rotation-invariant descriptors, we propose computing distances between features at different layers within the Euclidean space neighborhood. This greatly improves the discriminability of the point cloud descriptors while ensuring computational efficiency. Experimental results on public datasets show that our approach significantly outperforms other baseline methods implementing rotation invariance, while achieving comparable results with current state-of-the-art place recognition methods that do not consider rotation issues.
翻訳日:2023-08-25 13:24:02 公開日:2023-08-24
# ToonTalker: クロスドメインの顔再現

ToonTalker: Cross-Domain Face Reenactment ( http://arxiv.org/abs/2308.12866v1 )

ライセンス: Link先を確認
Yuan Gong, Yong Zhang, Xiaodong Cun, Fei Yin, Yanbo Fan, Xuan Wang, Baoyuan Wu, Yujiu Yang(参考訳) 本論文では,実写映像で漫画イメージを駆動するクロスドメイン顔再現を目標とし,その逆について述べる。 近年、実際の映像、すなわちドメイン内の再現で肖像画を駆動するワンショット音声生成に焦点を当てている作品が多い。 これらの手法をクロスドメインアニメーションに適用すると、漫画と実際の顔のドメインシフトによる不正確な表現転送、曖昧な効果、さらには明らかなアーティファクトが生じる。 クロスドメインな顔再現を解決しようとする作業はごくわずかである。 最も関連性の高い作品であるAnimeCelebでは、3D文字をアニメーションすることで、ポーズベクトルと漫画イメージのペアでデータセットを構築する必要がある。 本稿では,ペアデータを用いずにクロスドメイン再現を行う新しい手法を提案する。 具体的には、異なる領域からの動作を、潜在コード付加によって移動が実行される共通の潜在空間に整列するトランスフォーマティブベースのフレームワークを提案する。 2つのドメイン固有のモーションエンコーダと2つの学習可能なモーションベースメモリを使用してドメイン特性をキャプチャする。 ソースクエリ変換器と駆動装置を利用して、ドメイン固有の動作を標準空間に投影する。 編集された動きは変換器でソースの領域に投影される。 さらに,ペアデータを提供していないため,設計したアナロジー制約を持つ2つの領域のデータを用いた,新たなクロスドメイントレーニング手法を提案する。 また,ディズニースタイルの漫画データセットをコントリビュートする。 本手法が競合手法よりも優れていることを示す。

We target cross-domain face reenactment in this paper, i.e., driving a cartoon image with the video of a real person and vice versa. Recently, many works have focused on one-shot talking face generation to drive a portrait with a real video, i.e., within-domain reenactment. Straightforwardly applying those methods to cross-domain animation will cause inaccurate expression transfer, blur effects, and even apparent artifacts due to the domain shift between cartoon and real faces. Only a few works attempt to settle cross-domain face reenactment. The most related work AnimeCeleb requires constructing a dataset with pose vector and cartoon image pairs by animating 3D characters, which makes it inapplicable anymore if no paired data is available. In this paper, we propose a novel method for cross-domain reenactment without paired data. Specifically, we propose a transformer-based framework to align the motions from different domains into a common latent space where motion transfer is conducted via latent code addition. Two domain-specific motion encoders and two learnable motion base memories are used to capture domain properties. A source query transformer and a driving one are exploited to project domain-specific motion to the canonical space. The edited motion is projected back to the domain of the source with a transformer. Moreover, since no paired data is provided, we propose a novel cross-domain training scheme using data from two domains with the designed analogy constraint. Besides, we contribute a cartoon dataset in Disney style. Extensive evaluations demonstrate the superiority of our method over competing methods.
翻訳日:2023-08-25 13:23:36 公開日:2023-08-24
# 言語・アズ・リアリティ:ジェネレーティブAIを用いた1001夜の共作ストーリーテリングゲーム体験

Language as Reality: A Co-Creative Storytelling Game Experience in 1001 Nights using Generative AI ( http://arxiv.org/abs/2308.12915v1 )

ライセンス: Link先を確認
Yuqian Sun, Zhouyi Li, Ke Fang, Chang Hee Lee, Ali Asadipour(参考訳) 本稿では,ゲーム内現実をプレイヤーがリードするaiネイティブゲーム「1001 nights」について紹介する。 この概念はウィトゲンシュタインの言語の境界によって決定される世界の限界という考え方に着想を得たものである。 GPT-4やStable Diffusionのような高度なAIツールを使うことで、ゲームの2回目のイテレーションでは、主人公のShahrzadが彼女の世界で言葉や物語を実現できる。 プレイヤーはaiキングとの会話を特定のキーワードに向かって制御し、ゲーム内の戦闘装備となる。 このインタラクティブな物語とテキストから画像への変換の混合は、ゲームの世界と現実の従来の境界を双対視点で克服する。 私たちは、オリジナルの伝承と比較して運命を変えようとするシャフルザードと、AIと協力して物語を作り、ゲーム世界を形作るプレイヤーに焦点を当てています。 我々は、AI生成コンテンツを用いて物語ゲームジャンルを強化し、AIネイティブなゲームプレイの可能性を探るため、そのようなゲームを実装するための技術的および設計要素について検討する。

In this paper, we present "1001 Nights", an AI-native game that allows players lead in-game reality through co-created storytelling with the character driven by large language model. The concept is inspired by Wittgenstein's idea of the limits of one's world being determined by the bounds of their language. Using advanced AI tools like GPT-4 and Stable Diffusion, the second iteration of the game enables the protagonist, Shahrzad, to realize words and stories in her world. The player can steer the conversation with the AI King towards specific keywords, which then become battle equipment in the game. This blend of interactive narrative and text-to-image transformation challenges the conventional border between the game world and reality through a dual perspective. We focus on Shahrzad, who seeks to alter her fate compared to the original folklore, and the player, who collaborates with AI to craft narratives and shape the game world. We explore the technical and design elements of implementing such a game with an objective to enhance the narrative game genre with AI-generated content and to delve into AI-native gameplay possibilities.
翻訳日:2023-08-25 13:18:19 公開日:2023-08-24
# ロボットが今を振り返る:未来を予測して現在を改善する

Robot Pose Nowcasting: Forecast the Future to Improve the Present ( http://arxiv.org/abs/2308.12914v1 )

ライセンス: Link先を確認
Alessandro Simoni, Francesco Marchetti, Guido Borghi, Federico Becattini, Lorenzo Seidenari, Roberto Vezzani, Alberto Del Bimbo(参考訳) 近年では、特に産業4.0のシナリオにおいて、人間と機械の効果的で安全なコラボレーションの重要性が高まっている。 この協調パラダイムを実現するための重要な前提は、ロボットの環境内の3Dポーズを正確に理解することである。 そこで本稿では,ロボット関節の3次元位置を正確に確立するために,奥行きデータを利用したビジョンベースシステムを提案する。 具体的には,共同学習により現在のポーズ推定精度を向上し,今後のポーズ予測を行うシステムの有効性を実証する。 実際,本稿では,現在の推定精度を向上させるために,将来の学習知識を活用できるシステムの能力を示す,ポーズ・ナッシングの概念を紹介する。 実験評価は2つの異なるデータセット上で行われ,最新かつリアルタイムな性能を提供し,ロボットと人間の両方のシナリオにおける提案手法の有効性を確認した。

In recent years, the effective and safe collaboration between humans and machines has gained significant importance, particularly in the Industry 4.0 scenario. A critical prerequisite for realizing this collaborative paradigm is precisely understanding the robot's 3D pose within its environment. Therefore, in this paper, we introduce a novel vision-based system leveraging depth data to accurately establish the 3D locations of robotic joints. Specifically, we prove the ability of the proposed system to enhance its current pose estimation accuracy by jointly learning to forecast future poses. Indeed, we introduce the concept of Pose Nowcasting, denoting the capability of a system to exploit the learned knowledge of the future to improve the estimation of the present. The experimental evaluation is conducted on two different datasets, providing state-of-the-art and real-time performance and confirming the validity of the proposed method on both the robotic and human scenarios.
翻訳日:2023-08-25 13:18:01 公開日:2023-08-24
# 量子超曲面に対する物質

Matter relative to quantum hypersurfaces ( http://arxiv.org/abs/2308.12912v1 )

ライセンス: Link先を確認
Philipp A. Hoehn, Andrea Russo, and Alexander R. H. Smith(参考訳) 時空超曲面を特徴づける追加の埋め込み場を含む拡張位相空間上でのパラメータ化場理論としてスカラー場の標準記述を、スカラー場が記述される相対的に$\mathsf{X}$とする。 この理論はディラックの処方によって量子化され、理論の物理的状態は条件付き波動汎関数 $|\psi_\phi[\mathsf{x}]\rangle$ を超曲面 $\mathsf{x}$ に対する場の状態として解釈するために用いられる。 この条件波関数は友長=シュウィンガー方程式を満たすことが示され、この拡張されたページ・ウォッタース形式と標準量子場理論の間の形式的同値性を示す。 また、関係ディラック可観測性を構築し、物理的ヒルベルト空間の量子非パラメータ化を定義して関係ハイゼンベルク像を導く。 さらに,超曲面を量子参照フレームとして扱うことで,古典的・非古典的な超曲面の変化に対する量子フレーム変換を拡張した。 これにより、より大きな変換のクラスの下で量子場の変換特性を示し、フレーム依存の粒子生成効果をもたらすことができる。

We explore the canonical description of a scalar field as a parameterized field theory on an extended phase space that includes additional embedding fields that characterize spacetime hypersurfaces $\mathsf{X}$ relative to which the scalar field is described. This theory is quantized via the Dirac prescription and physical states of the theory are used to define conditional wave functionals $|\psi_\phi[\mathsf{X}]\rangle$ interpreted as the state of the field relative to the hypersurface $\mathsf{X}$, thereby extending the Page-Wootters formalism to quantum field theory. It is shown that this conditional wave functional satisfies the Tomonaga-Schwinger equation, thus demonstrating the formal equivalence between this extended Page-Wootters formalism and standard quantum field theory. We also construct relational Dirac observables and define a quantum deparameterization of the physical Hilbert space leading to a relational Heisenberg picture, which are both shown to be unitarily equivalent to the Page-Wootters formalism. Moreover, by treating hypersurfaces as quantum reference frames, we extend recently developed quantum frame transformations to changes between classical and nonclassical hypersurfaces. This allows us to exhibit the transformation properties of a quantum field under a larger class of transformations, which leads to a frame-dependent particle creation effect.
翻訳日:2023-08-25 13:17:47 公開日:2023-08-24
# SCoRD:テキスト拡張データによる主観的関係検出

SCoRD: Subject-Conditional Relation Detection with Text-Augmented Data ( http://arxiv.org/abs/2308.12910v1 )

ライセンス: Link先を確認
Ziyan Yang, Kushal Kafle, Zhe Lin, Scott Cohen, Zhihong Ding, Vicente Ordonez(参考訳) 本研究では,入力対象に条件を付けたSCoRDを提案する。その目的は,シーン内の他のオブジェクトとのすべての関係を,その位置とともに予測することである。 Open Imagesデータセットに基づいて、トレーニングとテストの分割が、$\langle$subject, relation, object$\rangle$三重項の発生統計量で分散シフトするように、挑戦的なOIv6-SCoRDベンチマークを提案する。 そこで本研究では,対象物の関係,オブジェクト,オブジェクトの位置をトークンの列としてキャストすることで,対象物の位置を予測する自動回帰モデルを提案する。 まず,本ベンチマークでは,先行するシーングラフ予測手法では,対象物に対する関係オブジェクト対の列挙が不十分であることを示す。 特に、最近のシーングラフ検出器によって得られた49.75%と比較して、関係対象予測に対するリコール@3は83.8%である。 そして,テキストキャプションから自動的に得られる関係オブジェクトペアをトレーニング中に利用し,オブジェクトボックスアノテーションが利用できないことにより,関係オブジェクトとオブジェクトボックスの予測の一般化が向上することを示す。 特に、トレーニング中にオブジェクトの位置が得られない$\langle$subject, relation, object$\rangle$ tripletsに対して、リコール@3はリレーションオブジェクトペアで42.59%、ボックスロケーションで32.27%を得ることができます。

We propose Subject-Conditional Relation Detection SCoRD, where conditioned on an input subject, the goal is to predict all its relations to other objects in a scene along with their locations. Based on the Open Images dataset, we propose a challenging OIv6-SCoRD benchmark such that the training and testing splits have a distribution shift in terms of the occurrence statistics of $\langle$subject, relation, object$\rangle$ triplets. To solve this problem, we propose an auto-regressive model that given a subject, it predicts its relations, objects, and object locations by casting this output as a sequence of tokens. First, we show that previous scene-graph prediction methods fail to produce as exhaustive an enumeration of relation-object pairs when conditioned on a subject on this benchmark. Particularly, we obtain a recall@3 of 83.8% for our relation-object predictions compared to the 49.75% obtained by a recent scene graph detector. Then, we show improved generalization on both relation-object and object-box predictions by leveraging during training relation-object pairs obtained automatically from textual captions and for which no object-box annotations are available. Particularly, for $\langle$subject, relation, object$\rangle$ triplets for which no object locations are available during training, we are able to obtain a recall@3 of 42.59% for relation-object pairs and 32.27% for their box locations.
翻訳日:2023-08-25 13:17:18 公開日:2023-08-24
# POLCA: LLMクラウドプロバイダのパワーオーバーサブスクライブ

POLCA: Power Oversubscription in LLM Cloud Providers ( http://arxiv.org/abs/2308.12908v1 )

ライセンス: Link先を確認
Pratyush Patel, Esha Choukse, Chaojie Zhang, \'I\~nigo Goiri, Brijesh Warrier, Nithish Mahalingam, Ricardo Bianchini(参考訳) 大規模言語モデル(LLM)の最近のイノベーションとその無数のユースケースは、データセンターGPUの計算能力需要を急速に押し上げている。 いくつかのクラウドプロバイダや他の企業は、これらの新しいワークロードをサポートするために、データセンタの大幅な成長計画を立てた。 データセンタにおける重要なボトルネックリソースの1つは電力であり、LLMのモデルサイズが大きくなるにつれ、パワー集約化が進んでいる。 本稿では,LLMクラスタに電力をオーバーサブスクライブする大きな機会があることを述べる。 power oversubscriptionは、これらのデータセンタの電力効率を改善し、データセンタ毎にデプロイ可能なサーバを増やし、新しいデータセンタの構築が遅いため、デプロイ時間を短縮する。 我々は様々なllmの電力消費パターンとその構成を広範囲に特徴付ける。 推論とトレーニングの消費電力パターンの違いを明らかにする。 これらの LLM の解析から,LLM クラスタの平均およびピーク電力利用量はあまり高くないと主張している。 我々のデダクションは、実運用LLMクラスタのデータと一致しており、推論のワークロードは、電力過多のための相当なヘッドルームを提供します。 しかしながら、gpuが仮想化環境で提供するテレメトリとコントロールの厳密なセットは、信頼性と堅牢なパワーオーバーサブプリケーションメカニズムを持つことを困難にしている。 我々は、堅牢で信頼性があり、GPUクラスタに容易にデプロイ可能なパワーオーバーサブスクライブのためのフレームワークであるPOLCAを提案する。 実運用で観測された電力パターンを再現するためにオープンソースモデルを使用することで、polcaをシミュレートし、推論のために同じgpuクラスタに30%以上のサーバをデプロイできることを実証する。

Recent innovation in large language models (LLMs), and their myriad use-cases have rapidly driven up the compute capacity demand for datacenter GPUs. Several cloud providers and other enterprises have made substantial plans of growth in their datacenters to support these new workloads. One of the key bottleneck resources in datacenters is power, and given the increasing model sizes of LLMs, they are becoming increasingly power intensive. In this paper, we show that there is a significant opportunity to oversubscribe power in LLM clusters. Power oversubscription improves the power efficiency of these datacenters, allowing more deployable servers per datacenter, and reduces the deployment time, since building new datacenters is slow. We extensively characterize the power consumption patterns of a variety of LLMs and their configurations. We identify the differences between the inference and training power consumption patterns. Based on our analysis of these LLMs, we claim that the average and peak power utilization in LLM clusters for inference should not be very high. Our deductions align with the data from production LLM clusters, revealing that inference workloads offer substantial headroom for power oversubscription. However, the stringent set of telemetry and controls that GPUs offer in a virtualized environment, makes it challenging to have a reliable and robust power oversubscription mechanism. We propose POLCA, our framework for power oversubscription that is robust, reliable, and readily deployable for GPU clusters. Using open-source models to replicate the power patterns observed in production, we simulate POLCA and demonstrate that we can deploy 30% more servers in the same GPU cluster for inference, with minimal performance loss
翻訳日:2023-08-25 13:16:53 公開日:2023-08-24
# CDAN:低照度画像強調のための畳み込みDense Attention-Guided Network

CDAN: Convolutional Dense Attention-guided Network for Low-light Image Enhancement ( http://arxiv.org/abs/2308.12902v1 )

ライセンス: Link先を確認
Hossein Shakibania, Sina Raoufi, Hassan Khotanlou(参考訳) 低照度画像は、照明が不十分で、明度が低下し、色が変色し、細部が小さくなる。 コンピュータビジョンの重要なタスクである低光度画像強調は、明るさ、コントラスト、全体的な知覚品質を改善し、正確な分析と解釈を容易にすることで、これらの問題を是正することを目的としている。 本稿では,低照度画像を改善するための新しいソリューションであるCDAN(Convolutional Dense Attention-guided Network)を紹介する。 cdanは自動エンコーダベースのアーキテクチャと畳み込みブロックと密集ブロックを統合し、アテンション機構とスキップ接続を補完する。 このアーキテクチャは、効率的な情報伝達と特徴学習を保証する。 さらに、専用の後処理フェーズは、色バランスとコントラストを精製する。 我々のアプローチは、低光度画像強調における最先端の成果と比較して顕著な進歩を示しており、幅広い挑戦的シナリオにおいてその堅牢性を示している。 本モデルでは,低照度環境でのテクスチャや色彩の復元を効果的に行うため,ベンチマークデータセットを著しく改善する。 この成果は、CDANの様々なコンピュータビジョンタスクの可能性を強調し、特に低照度環境に挑戦するオブジェクトの検出と認識を可能にする。

Low-light images, characterized by inadequate illumination, pose challenges of diminished clarity, muted colors, and reduced details. Low-light image enhancement, an essential task in computer vision, aims to rectify these issues by improving brightness, contrast, and overall perceptual quality, thereby facilitating accurate analysis and interpretation. This paper introduces the Convolutional Dense Attention-guided Network (CDAN), a novel solution for enhancing low-light images. CDAN integrates an autoencoder-based architecture with convolutional and dense blocks, complemented by an attention mechanism and skip connections. This architecture ensures efficient information propagation and feature learning. Furthermore, a dedicated post-processing phase refines color balance and contrast. Our approach demonstrates notable progress compared to state-of-the-art results in low-light image enhancement, showcasing its robustness across a wide range of challenging scenarios. Our model performs remarkably on benchmark datasets, effectively mitigating under-exposure and proficiently restoring textures and colors in diverse low-light scenarios. This achievement underscores CDAN's potential for diverse computer vision tasks, notably enabling robust object detection and recognition in challenging low-light conditions.
翻訳日:2023-08-25 13:16:25 公開日:2023-08-24
# 都市空間時間予測のための統一データ管理と総合的性能評価 [実験, 分析, ベンチマーク]

Unified Data Management and Comprehensive Performance Evaluation for Urban Spatial-Temporal Prediction [Experiment, Analysis & Benchmark] ( http://arxiv.org/abs/2308.12899v1 )

ライセンス: Link先を確認
Jiawei Jiang, Chengkai Han, Wayne Xin Zhao, Jingyuan Wang(参考訳) 深層学習技術の発展と大規模データセットの利用により,都市空間時間予測の分野は急速に進展している。 しかし、様々な情報源から多様な都市空間時空間データセットにアクセスして利用し、異なるフォーマットに保存し、深層学習モデルの普及に伴う効果的なモデル構造やコンポーネントを決定することの課題は続く。 この仕事はこれらの課題に対処し、3つの重要な貢献を提供します。 まず,都市空間時空間ビッグデータ用に設計された統一ストレージフォーマットである"atomic files"を導入し,40の多様なデータセット上での有効性を検証し,データ管理を簡素化する。 次に,都市空間-時空間予測モデルにおける技術進歩の概要を概観し,ロバストモデルの開発を導く。 第3に,多様なモデルとデータセットを用いて広範な実験を行い,パフォーマンスリーダボードを確立し,有望な研究方向を特定する。 本研究は, 都市空間時空間データを効果的に管理し, 今後の取り組みを導くとともに, 正確な都市空間時空間予測モデルの開発を促進する。 都市空間データ管理と予測に長期的な貢献を可能とし、最終的には都市生活水準の改善に繋がる可能性がある。

The field of urban spatial-temporal prediction is advancing rapidly with the development of deep learning techniques and the availability of large-scale datasets. However, challenges persist in accessing and utilizing diverse urban spatial-temporal datasets from different sources and stored in different formats, as well as determining effective model structures and components with the proliferation of deep learning models. This work addresses these challenges and provides three significant contributions. Firstly, we introduce "atomic files", a unified storage format designed for urban spatial-temporal big data, and validate its effectiveness on 40 diverse datasets, simplifying data management. Secondly, we present a comprehensive overview of technological advances in urban spatial-temporal prediction models, guiding the development of robust models. Thirdly, we conduct extensive experiments using diverse models and datasets, establishing a performance leaderboard and identifying promising research directions. Overall, this work effectively manages urban spatial-temporal data, guides future efforts, and facilitates the development of accurate and efficient urban spatial-temporal prediction models. It can potentially make long-term contributions to urban spatial-temporal data management and prediction, ultimately leading to improved urban living standards.
翻訳日:2023-08-25 13:16:03 公開日:2023-08-24
# 視覚言語前訓練における言語知識はマルチモーダルアライメントを改善するか?

Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining? ( http://arxiv.org/abs/2308.12898v1 )

ライセンス: Link先を確認
Fei Wang, Liang Ding, Jun Rao, Ye Liu, Li Shen, Changxing Ding(参考訳) マルチメディアコミュニティは、マルチモーダル事前学習されたニューラルネットワークモデルによる物理世界の知覚と表現に大きな関心を示しており、その中でも、視覚言語関連(vlp)は、現在、最も魅惑的な話題である。 しかし、探検のための活動はほとんど行われていない。 1)本質的な言語知識(セマンティクスや構文など)をVLP中に抽出できるかどうか、そして 2) 言語知識がマルチモーダルアライメントにどのように影響するか。 そこで本研究では,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることを目的とする。 具体的には、セマンティック構造、否定論理、属性オーナシップ、関係合成の4つのタスクを含む語彙、意味、構文知識などの重要な言語要素を検出するため、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。 提案した探索ベンチマークに基づいて、5つの先進的なVLPモデルの総合解析により、VLPモデルが示される。 一 複雑な構文構造に敏感で、文理解のための内容語に依存すること。 二 文と否定の組合せの限定的な理解を示すこと。 三 視覚情報における行動の有無又は空間的関係の決定の困難に直面し、三重組み合わせの正確性の検証に苦しむこと。 ベンチマークとコードは \url{https://github.com/wangfei-2019/snare/} で利用可能です。

The multimedia community has shown a significant interest in perceiving and representing the physical world with multimodal pretrained neural network models, and among them, the visual-language pertaining (VLP) is, currently, the most captivating topic. However, there have been few endeavors dedicated to the exploration of 1) whether essential linguistic knowledge (e.g., semantics and syntax) can be extracted during VLP, and 2) how such linguistic knowledge impact or enhance the multimodal alignment. In response, here we aim to elucidate the impact of comprehensive linguistic knowledge, including semantic expression and syntactic structure, on multimodal alignment. Specifically, we design and release the SNARE, the first large-scale multimodal alignment probing benchmark, to detect the vital linguistic components, e.g., lexical, semantic, and syntax knowledge, containing four tasks: Semantic structure, Negation logic, Attribute ownership, and Relationship composition. Based on our proposed probing benchmarks, our holistic analyses of five advanced VLP models illustrate that the VLP model: i) shows insensitivity towards complex syntax structures and relies on content words for sentence comprehension; ii) demonstrates limited comprehension of combinations between sentences and negations; iii) faces challenges in determining the presence of actions or spatial relationships within visual information and struggles with verifying the correctness of triple combinations. We make our benchmark and code available at \url{https://github.com/WangFei-2019/SNARE/}.
翻訳日:2023-08-25 13:15:40 公開日:2023-08-24
# ドキュメントページ分類を超えて:設計、データセット、挑戦

Beyond Document Page Classification: Design, Datasets, and Challenges ( http://arxiv.org/abs/2308.12896v1 )

ライセンス: Link先を確認
Jordy Van Landeghem, Sanket Biswas, Matthew B. Blaschko, Marie-Francine Moens(参考訳) 本稿では、テスト対象データの性質(X$: マルチチャネル、マルチページ、マルチインダストリー、$Y$: クラス分布、ラベルセットの多様性)と、検討対象の分類タスク(f$: マルチページドキュメント、ページストリーム、ドキュメントバンドル分類、...)の両方において、実世界のアプリケーションに文書分類ベンチマークを近づけることの必要性を強調した。 我々は、公開マルチページ文書分類データセットの欠如を特定し、アプリケーションシナリオにおける異なる分類タスクを形式化し、効率的なマルチページ文書表現をターゲットとする価値を動機づける。 提案されているマルチページ文書分類データセットに関する実験的研究は、現在のベンチマークが無関係になり、完全に文書を評価するために更新する必要があることを実証している。 この現実チェックはまた、キャリブレーション評価、推論複雑性(時間メモリ)、および現実的な分散シフト(例えば、出生デジタル対走査ノイズ、ページ順のシフトなど)をカバーする、より成熟した評価手法も要求する。 私たちの研究は、将来の改善のためにコンクリート製アベニューを推奨することで、希望に満ちた注記で終わる。 }

This paper highlights the need to bring document classification benchmarking closer to real-world applications, both in the nature of data tested ($X$: multi-channel, multi-paged, multi-industry; $Y$: class distributions and label set variety) and in classification tasks considered ($f$: multi-page document, page stream, and document bundle classification, ...). We identify the lack of public multi-page document classification datasets, formalize different classification tasks arising in application scenarios, and motivate the value of targeting efficient multi-page document representations. An experimental study on proposed multi-page document classification datasets demonstrates that current benchmarks have become irrelevant and need to be updated to evaluate complete documents, as they naturally occur in practice. This reality check also calls for more mature evaluation methodologies, covering calibration evaluation, inference complexity (time-memory), and a range of realistic distribution shifts (e.g., born-digital vs. scanning noise, shifting page order). Our study ends on a hopeful note by recommending concrete avenues for future improvements.}
翻訳日:2023-08-25 13:15:16 公開日:2023-08-24
# 明示的なクラス埋め込みの観点からの意味セグメンテーションの促進

Boosting Semantic Segmentation from the Perspective of Explicit Class Embeddings ( http://arxiv.org/abs/2308.12894v1 )

ライセンス: Link先を確認
Yuhe Liu, Chuanjian Liu, Kai Han, Quan Tang, Zengchang Qin(参考訳) 意味セグメンテーション(semantic segmentation)は、画像の各ピクセルにラベルを関連付けるコンピュータビジョンタスクである。 現代のアプローチでは、セマンティックセグメンテーションにクラス埋め込みを導入し、カテゴリセマンティクスを深く活用し、教師付きクラスマスクを最終的な予測と見なす傾向にある。 本稿では,クラス埋め込みのメカニズムを考察し,クラスマスクに基づいてより明示的で意味のあるクラス埋め込みを生成することができるという知見を得る。 そこで本研究では,多段階画像特徴との対話中にクラス埋め込みを明示的に獲得・拡張する新しいセグメンテーションパラダイム ecenet を提案する。 これに基づいて,従来の復号処理を再検討し,セグメンテーションマスクとクラス埋め込み間の逆情報フローを探索する。 さらに,バックボーンからの特徴の識別性と情報提供性を確保するため,特徴の多様性と冗長性を確保するために,固有の分岐と多様な分岐を組み合わせた特徴再構成モジュールを提案する。 実験の結果、ECENetはADE20Kデータセットよりも計算コストがはるかに低く、PASCAL-Contextデータセット上で新たな最先端結果が得られることがわかった。 コードはhttps://gitee.com/mindspore/modelsとhttps://github.com/Carol-lyh/ECENetでリリースされる。

Semantic segmentation is a computer vision task that associates a label with each pixel in an image. Modern approaches tend to introduce class embeddings into semantic segmentation for deeply utilizing category semantics, and regard supervised class masks as final predictions. In this paper, we explore the mechanism of class embeddings and have an insight that more explicit and meaningful class embeddings can be generated based on class masks purposely. Following this observation, we propose ECENet, a new segmentation paradigm, in which class embeddings are obtained and enhanced explicitly during interacting with multi-stage image features. Based on this, we revisit the traditional decoding process and explore inverted information flow between segmentation masks and class embeddings. Furthermore, to ensure the discriminability and informativity of features from backbone, we propose a Feature Reconstruction module, which combines intrinsic and diverse branches together to ensure the concurrence of diversity and redundancy in features. Experiments show that our ECENet outperforms its counterparts on the ADE20K dataset with much less computational cost and achieves new state-of-the-art results on PASCAL-Context dataset. The code will be released at https://gitee.com/mindspore/models and https://github.com/Carol-lyh/ECENet.
翻訳日:2023-08-25 13:14:51 公開日:2023-08-24
# 単眼3次元物体検出のための視点認識畳み込み

Perspective-aware Convolution for Monocular 3D Object Detection ( http://arxiv.org/abs/2308.12938v1 )

ライセンス: Link先を確認
Jia-Quan Yu, Soo-Chang Pei(参考訳) モノクロ3Dオブジェクト検出は、自動運転車にとって重要かつ困難な課題であり、シーン内の3Dオブジェクトを推測するためには、単一のカメライメージのみを使用する。 画像情報のみを用いた深度予測の難しさに対処するために,画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。 画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。 私たちは3dオブジェクト検出器にパースペクティブアウェア畳み込み層を統合し、kitti3dデータセットのパフォーマンス向上を実証し、簡単なベンチマークで平均23.9\%の精度を実現しました。 これらの結果は、正確な深度推定のためのシーンヒントのモデル化の重要性を強調し、ネットワーク設計にシーン構造を組み込むことの利点を強調している。 我々の視点対応畳み込み層は、より正確でコンテキスト対応な特徴抽出を提供することで、オブジェクト検出精度を高めることができる。

Monocular 3D object detection is a crucial and challenging task for autonomous driving vehicle, while it uses only a single camera image to infer 3D objects in the scene. To address the difficulty of predicting depth using only pictorial clue, we propose a novel perspective-aware convolutional layer that captures long-range dependencies in images. By enforcing convolutional kernels to extract features along the depth axis of every image pixel, we incorporates perspective information into network architecture. We integrate our perspective-aware convolutional layer into a 3D object detector and demonstrate improved performance on the KITTI3D dataset, achieving a 23.9\% average precision in the easy benchmark. These results underscore the importance of modeling scene clues for accurate depth inference and highlight the benefits of incorporating scene structure in network design. Our perspective-aware convolutional layer has the potential to enhance object detection accuracy by providing more precise and context-aware feature extraction.
翻訳日:2023-08-25 13:06:05 公開日:2023-08-24
# 深度と画像のセグメンテーションを組み合わせたパノプティカル深度カラーマップ

Panoptic-Depth Color Map for Combination of Depth and Image Segmentation ( http://arxiv.org/abs/2308.12937v1 )

ライセンス: Link先を確認
Jia-Quan Yu, Soo-Chang Pei(参考訳) 画像分割と深度推定はコンピュータビジョン、特に自律運転シナリオにおいて重要なタスクである。 これらのタスクは一般的に別々に対処されるが、我々は新しいディープラーニングネットワークであるPanoptic-DepthLabにそれらを組み合わせる革新的なアプローチを提案する。 セグメンテーションネットワークに追加の深さ推定ブランチを組み込むことで、各インスタンスセグメントの深さを予測することができる。 都市景観データセット上での評価を行い,高品位セグメンテーションを奥行きで達成し,カラーマップで可視化する手法の有効性を示す。 提案手法は、自律走行車の安全性を高めるために、様々なタスクとネットワークを組み合わせてより包括的な画像認識結果を生成する新しい可能性を示す。

Image segmentation and depth estimation are crucial tasks in computer vision, especially in autonomous driving scenarios. Although these tasks are typically addressed separately, we propose an innovative approach to combine them in our novel deep learning network, Panoptic-DepthLab. By incorporating an additional depth estimation branch into the segmentation network, it can predict the depth of each instance segment. Evaluating on Cityscape dataset, we demonstrate the effectiveness of our method in achieving high-quality segmentation results with depth and visualize it with a color map. Our proposed method demonstrates a new possibility of combining different tasks and networks to generate a more comprehensive image recognition result to facilitate the safety of autonomous driving vehicles.
翻訳日:2023-08-25 13:05:47 公開日:2023-08-24
# 最適数密度における量子エンハンス磁力計

Quantum-enhanced magnetometry at optimal number density ( http://arxiv.org/abs/2308.12933v1 )

ライセンス: Link先を確認
Charikleia Troullinou and Vito Giovanni Lucivero and Morgan W. Mitchell(参考訳) 光学式ポンポン磁気センサ(OPM)の感度・測定帯域幅を感度・最適原子数密度で高めるために、スクリュッドプローブ光と測定バックアクションの回避について検討した。 実験的な観測と量子ノイズモデリングにより、オフ共鳴レーザー光でプローブされたスピン交換制限OPMは密度依存性の量子ノイズ寄与によって最適な感度を有することが示された。 圧縮プローブ光の応用により、このレーザー光の最適値を超えるOPM感度が向上し、OPMは任意の密度でコヒーレント状態のプローブでは到達できない感度を達成できる。 観測された最適数密度での量子感度向上は、バックアクション回避の測定によって可能となる。

We study the use of squeezed probe light and evasion of measurement back-action to enhance the sensitivity and measurement bandwidth of an optically-pumped magnetometer (OPM) at sensitivity-optimal atom number density. By experimental observation, and in agreement with quantum noise modeling, a spin-exchange-limited OPM probed with off-resonance laser light is shown to have an optimal sensitivity determined by density-dependent quantum noise contributions. Application of squeezed probe light boosts the OPM sensitivity beyond this laser-light optimum, allowing the OPM to achieve sensitivities that it cannot reach with coherent-state probing at any density. The observed quantum sensitivity enhancement at optimal number density is enabled by measurement back-action evasion.
翻訳日:2023-08-25 13:05:33 公開日:2023-08-24
# 米国機関における量子情報科学入門講座:コンテンツカバレッジ

Introductory quantum information science coursework at US institutions: Content coverage ( http://arxiv.org/abs/2308.12929v1 )

ライセンス: Link先を確認
Josephine C. Meyer, Gina Passante, Steven J. Pollock, Bethany R. Wilcox(参考訳) 量子情報科学・工学(QIS/QISE)労働開発イニシアチブの急速な成長にもかかわらず、中核コンテンツに関する学部間での合意の欠如が研究ベースのカリキュラムや評価開発イニシアチブのスケールを困難にしている。 コンテンツカバレッジに関するコンセンサスが一致している地域を特定するため,米国高等教育機関の初等QISEコースを指導するN=63インストラクターの調査結果を報告する。 我々は,数学,物理学,工学における基礎的スキルに重点を置き,研究ベースのカリキュラム開発に適する可能性のある,入門qiseコースのごく一部(>=80%)に共通するコンテンツ項目のサブセットを同定する。 また、カリキュラム開発のための更なるガイドとして、コンテンツカバレッジのレベル(学部/大学院)と規律の違いについても検討する。 最後に,研究に基づくQISE評価を後2次レベルに展開する上で,本研究の意義について概説する。

Despite rapid growth of quantum information science and engineering (QIS/QISE) workforce development initiatives, perceived lack of agreement among faculty on core content has made prior research-based curriculum and assessment development initiatives difficult to scale. To identify areas if consensus on content coverage, we report findings from a survey of N=63 instructors teaching introductory QISE courses at US institutions of higher learning. We identify a subset of content items common across a large fraction (>=80%) of introductory QISE courses that are potentially amenable to research-based curriculum development, with an emphasis on foundational skills in mathematics, physics, and engineering. As a further guide for curriculum development, we also examine differences in content coverage by level (undergraduate/graduate) and discipline. Finally, we briefly discuss the implications of our findings for the development of a research-based QISE assessment at the postsecondary level.
翻訳日:2023-08-25 13:05:21 公開日:2023-08-24
# 低カウント時系列異常検出

Low-count Time Series Anomaly Detection ( http://arxiv.org/abs/2308.12925v1 )

ライセンス: Link先を確認
Philipp Renz, Kurt Cutajar, Niall Twomey, Gavin K. C. Cheung, Hanting Xie(参考訳) 低数の時系列はスパースまたは断続的なイベントを記述しており、多様なデータタイプをキャプチャし監視する大規模オンラインプラットフォームで広く使われている。 低カウントの時系列をモデル化する場合、特に信号と雑音の比率が低い場合(異常なシグネチャが検出不可能である場合)や、一様でないパフォーマンス(平均メトリクスが局所的な振る舞いを表す場合)など、いくつかの異なる課題が生じる。 時系列異常検出コミュニティは現在、これらの設定で異常をモデル化し、確実に検出する明確なツールやプロセスが欠けている。 このギャップに対処するために,低カウント時系列と異常セグメントからなるベンチマークデータセットを作成するための新しい生成手順を導入する。 理論と経験的分析の混合により,本研究は,正規セグメントと異常セグメントの分布重なりに広く使われているアルゴリズムがいかに耐えられるかを説明する。 この欠点を軽減するため,異常スコアのスムーズ化がパフォーマンスを継続的に改善することを示す。 店舗販売データを含む実世界のデータセットを用いて,分析・推薦の実用性を検証する。

Low-count time series describe sparse or intermittent events, which are prevalent in large-scale online platforms that capture and monitor diverse data types. Several distinct challenges surface when modelling low-count time series, particularly low signal-to-noise ratios (when anomaly signatures are provably undetectable), and non-uniform performance (when average metrics are not representative of local behaviour). The time series anomaly detection community currently lacks explicit tooling and processes to model and reliably detect anomalies in these settings. We address this gap by introducing a novel generative procedure for creating benchmark datasets comprising of low-count time series with anomalous segments. Via a mixture of theoretical and empirical analysis, our work explains how widely-used algorithms struggle with the distribution overlap between normal and anomalous segments. In order to mitigate this shortcoming, we then leverage our findings to demonstrate how anomaly score smoothing consistently improves performance. The practical utility of our analysis and recommendation is validated on a real-world dataset containing sales data for retail stores.
翻訳日:2023-08-25 13:05:03 公開日:2023-08-24
# 磁束を有するグラフェン量子ドットにおける電子トラップ

Electron trapping in graphene quantum dots with magnetic flux ( http://arxiv.org/abs/2308.12922v1 )

ライセンス: Link先を確認
Mohammed El Azar, Ahmed Bouhlal, Abdulaziz D. Alhaidari, Ahmed Jellal(参考訳) グラフェンにおけるクライントンネルの出現は、グラフェンベースの量子ドット(GQD)における電子の保持や局在を困難にする。 しかし、磁場はgqdに移動する電子を一時的に定義するために使うことができる。 ここで研究される電子状態は、準有界状態とも呼ばれる有限トラップ時間を持つ共鳴である。 GDQを磁束に印加することにより、GQDに存在する準有界状態の寿命に対する散乱現象とアハロノフ・ボーム効果を研究する。 我々は,磁束を遮断した後でも,捕捉状態を維持する磁束によってトラップ時間が増加することを示した。 さらに,GQD内の確率密度も明らかに改善されていることがわかった。 磁気フラックスパラメータの調整により,GQD内の電子のトラップ時間を拡張することが可能であることを実証した。

It is known that the appearance of Klein tunneling in graphene makes it hard to keep or localize electrons in a graphene-based quantum dot (GQD). However, a magnetic field can be used to temporarily confine an electron that is traveling into a GQD. The electronic states investigated here are resonances with a finite trapping time, also referred to as quasi-bound states. By subjecting the GDQ to a magnetic flux, we study the scattering phenomenon and the Aharonov-Bohm effect on the lifetime of quasi-bound states existing in a GQD. We demonstrate that the trapping time increases with the magnetic flux sustaining the trapped states for a long time even after the flux is turned off. Furthermore, we discover that the probability density within the GQD is also clearly improved. We demonstrate that the trapping time of an electron inside a GQD can be successfully extended by adjusting the magnetic flux parameters.
翻訳日:2023-08-25 13:04:23 公開日:2023-08-24
# ev充電ネットワーク制御のための効率的分散マルチエージェント強化学習

An Efficient Distributed Multi-Agent Reinforcement Learning for EV Charging Network Control ( http://arxiv.org/abs/2308.12921v1 )

ライセンス: Link先を確認
Amin Shojaeighadikolaei, Morteza Hashemi(参考訳) 電気自動車(EV)の採用傾向の高まりは住宅電力需要に大きな影響を与え、配電網における変圧器過負荷のリスクが高まる。 このようなリスクを軽減するために、効率的なEV充電コントローラを開発する必要がある。 現在、ほとんどのEV充電コントローラーは、個々のEVまたはEVのグループを管理するための集中型のアプローチに基づいている。 本稿では,電気自動車所有者のプライバシ保護を優先する分散マルチエージェント強化学習(MARL)充電フレームワークを提案する。 我々は,実行中のプライバシーを維持しながら,トレーニング中に貴重な情報を提供するCTDE-DDPG(Centralized Training Decentralized Execution-Deep Deterministic Policy Gradient)方式を採用する。 その結果,ctdeフレームワークは,ネットワークコストを低減し,充電ネットワークの性能を向上させる。 さらに,総需要のピーク対平均比 (PAR) が減少し,ピーク時の変圧器過負荷のリスクが低減されることを示した。

The increasing trend in adopting electric vehicles (EVs) will significantly impact the residential electricity demand, which results in an increased risk of transformer overload in the distribution grid. To mitigate such risks, there are urgent needs to develop effective EV charging controllers. Currently, the majority of the EV charge controllers are based on a centralized approach for managing individual EVs or a group of EVs. In this paper, we introduce a decentralized Multi-agent Reinforcement Learning (MARL) charging framework that prioritizes the preservation of privacy for EV owners. We employ the Centralized Training Decentralized Execution-Deep Deterministic Policy Gradient (CTDE-DDPG) scheme, which provides valuable information to users during training while maintaining privacy during execution. Our results demonstrate that the CTDE framework improves the performance of the charging network by reducing the network costs. Moreover, we show that the Peak-to-Average Ratio (PAR) of the total demand is reduced, which, in turn, reduces the risk of transformer overload during the peak hours.
翻訳日:2023-08-25 13:04:08 公開日:2023-08-24
# CLIPによる非教師なしファインチューニングの実現に向けて

Towards Realistic Unsupervised Fine-tuning with CLIP ( http://arxiv.org/abs/2308.12919v1 )

ライセンス: Link先を確認
Jian Liang and Lijun Sheng and Zhengbo Wang and Ran He and Tieniu Tan(参考訳) CLIPのような視覚言語モデル(VLM)の出現は、下流の教師あり学習タスクへの応用に向けた大きな研究を刺激している。 以前の研究では、クリップの教師なしの微調整を探求してきたが、彼らはしばしば、基底真理ラベルに関連付けられたクラス名という形で、事前の知識に依存している。 本稿では,ラベルなしのデータが未知のクラスからの分散サンプルを含む可能性があることを仮定して,教師なしの微調整シナリオを考察する。 さらに,事前定義されたクラスラベルに関連付けられたインスタンスの認識と並行して,分散検出能力の向上が重要であることを強調する。 この問題に対処するために,Universal Entropy Optimization (UEO) と呼ばれる,シンプルで効率的かつ効果的な微調整手法を提案する。 UEOはサンプルレベルの信頼を利用して、信頼性の低いインスタンスの条件エントロピーをほぼ最小化し、信頼性の低いインスタンスの限界エントロピーを最大化する。 テキストプロンプトの最適化とは別に、UEOはCLIPのビジュアルブランチ内でチャネルワイドアフィン変換の最適化も取り入れている。 15の領域にまたがる広範囲な実験と4つの異なる事前知識を通して、ueoが一般化と分散検出の両面でベースラインメソッドを上回っていることを実証した。

The emergence of vision-language models (VLMs), such as CLIP, has spurred a significant research effort towards their application for downstream supervised learning tasks. Although some previous studies have explored the unsupervised fine-tuning of CLIP, they often rely on prior knowledge in the form of class names associated with ground truth labels. In this paper, we delve into a realistic unsupervised fine-tuning scenario by assuming that the unlabeled data might contain out-of-distribution samples from unknown classes. Furthermore, we emphasize the importance of simultaneously enhancing out-of-distribution detection capabilities alongside the recognition of instances associated with predefined class labels. To tackle this problem, we present a simple, efficient, and effective fine-tuning approach called Universal Entropy Optimization (UEO). UEO leverages sample-level confidence to approximately minimize the conditional entropy of confident instances and maximize the marginal entropy of less confident instances. Apart from optimizing the textual prompts, UEO also incorporates optimization of channel-wise affine transformations within the visual branch of CLIP. Through extensive experiments conducted across 15 domains and 4 different types of prior knowledge, we demonstrate that UEO surpasses baseline methods in terms of both generalization and out-of-distribution detection.
翻訳日:2023-08-25 13:03:52 公開日:2023-08-24
# 敵対的攻撃の観点からみたmlシステムの脆弱性評価

Evaluating the Vulnerabilities in ML systems in terms of adversarial attacks ( http://arxiv.org/abs/2308.12918v1 )

ライセンス: Link先を確認
John Harshith, Mantej Singh Gill, Madhan Jothimani(参考訳) 最近の敵の攻撃は、見つけるのが難しい。 これらの新たな敵攻撃手法は、現在のディープラーニングサイバー防衛システムに課題をもたらし、将来のサイバー攻撃の防衛に影響を与える可能性がある。 著者らは本研究論文でこの領域に注目した。 彼らはAIシステムの脆弱性の結果を探る。 これには、それらの発生方法、ランダム化された例と敵の例の違い、および潜在的な脆弱性の倫理的影響について議論することが含まれる。 さらに、テストフェーズにあるaiシステムを適切にトレーニングし、より広範な利用に向けて準備しておくことも重要です。

There have been recent adversarial attacks that are difficult to find. These new adversarial attacks methods may pose challenges to current deep learning cyber defense systems and could influence the future defense of cyberattacks. The authors focus on this domain in this research paper. They explore the consequences of vulnerabilities in AI systems. This includes discussing how they might arise, differences between randomized and adversarial examples and also potential ethical implications of vulnerabilities. Moreover, it is important to train the AI systems appropriately when they are in testing phase and getting them ready for broader use.
翻訳日:2023-08-25 13:03:30 公開日:2023-08-24
# 自己構造的セマンティックアライメントによる現実的ゼロショット分類に向けて

Towards Realistic Zero-Shot Classification via Self Structural Semantic Alignment ( http://arxiv.org/abs/2308.12960v1 )

ライセンス: Link先を確認
Sheng Zhang, Muzammal Naseer, Guangyi Chen, Zhiqiang Shen, Salman Khan, Kun Zhang, Fahad Khan(参考訳) 大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。 成功したにもかかわらず、ほとんどの伝統的なvlmsベースの手法は、部分的ソース監督や理想的な語彙の仮定によって制限されている。 本稿では,アノテーションを使わずに幅広い語彙を想定した,より難易度の高い,現実的なゼロショット分類を目標とする。 そこで本研究では,無ラベルデータから構造的意味情報を抽出する自己構造的意味的アライメント(s^3a)フレームワークを提案する。 我々のS^3Aフレームワークは独自のCVPR(Cluster-Vote-Prompt-Realign)アルゴリズムを採用している。 我々のCVPRプロセスは、画像上の反復的クラスタリング、各クラスタ内で投票して、語彙から初期クラス候補を特定すること、混乱した候補を識別するために大きな言語モデルによる識別的プロンプトを生成し、構造的意味的アライメントとして画像と語彙を認識させることを含む。 最後に,CLIP画像エンコーダを教師と学生の学習戦略を通じて,個人的・構造的セマンティックアライメントで自己学習することを提案する。 s^3a法が既存のvlms法に比べて大幅に改善され,クリップ平均より15%以上精度が向上したことを示す。 私たちのコード、モデル、プロンプトはhttps://github.com/sheng-eatamath/s3aで公開されています。

Large-scale pre-trained Vision Language Models (VLMs) have proven effective for zero-shot classification. Despite the success, most traditional VLMs-based methods are restricted by the assumption of partial source supervision or ideal vocabularies, which rarely satisfy the open-world scenario. In this paper, we aim at a more challenging setting, Realistic Zero-Shot Classification, which assumes no annotation but instead a broad vocabulary. To address this challenge, we propose the Self Structural Semantic Alignment (S^3A) framework, which extracts the structural semantic information from unlabeled data while simultaneously self-learning. Our S^3A framework adopts a unique Cluster-Vote-Prompt-Realign (CVPR) algorithm, which iteratively groups unlabeled data to derive structural semantics for pseudo-supervision. Our CVPR process includes iterative clustering on images, voting within each cluster to identify initial class candidates from the vocabulary, generating discriminative prompts with large language models to discern confusing candidates, and realigning images and the vocabulary as structural semantic alignment. Finally, we propose to self-learn the CLIP image encoder with both individual and structural semantic alignment through a teacher-student learning strategy. Our comprehensive experiments across various generic and fine-grained benchmarks demonstrate that the S^3A method offers substantial improvements over existing VLMs-based approaches, achieving a more than 15% accuracy improvement over CLIP on average. Our codes, models, and prompts are publicly released at https://github.com/sheng-eatamath/S3A.
翻訳日:2023-08-25 12:58:11 公開日:2023-08-24
# 無限次元非対称量子チャネル識別

Infinite Dimensional Asymmetric Quantum Channel Discrimination ( http://arxiv.org/abs/2308.12959v1 )

ライセンス: Link先を確認
Bjarne Bergh, Jan Kochanowski, Robert Salzmann, Nilanjana Datta(参考訳) 分離可能なヒルベルト空間に作用するカンタムチャネルの非対称二成分チャネル判別について検討する。 適応戦略と平行戦略の両方のチャネルに対する量子シュタインの補題を確立し、ある$\alpha > 1$の2つのチャネル間の幾何学的R'enyi分散の有限性の下では、適応戦略は平行戦略よりも漸近的に有利であることを示す。 我々の議論の1つの大きなステップは、幾何学的 R'enyi の発散が連鎖則を満たすことを示し、無限次元のチャネルに対しても加法的であることである。 これらの結果は独立した関心事かもしれない。 さらに、並列および適応戦略の漸近同値を示すだけでなく、与えられた適応$n$-shot戦略を近似する並列戦略を明示的に構築し、これらの2つの戦略の判別誤差の差に明確な境界を与える。 これは[B. Bergh et al., arxiv:2206.08350] から有限次元の結果を拡張する。 最後に, 無限次元のウメガキ相対エントロピーの連鎖則が, 最近 [o. fawzi, l. gao, m. rahaman, arxiv:2212.14700v2] で示された2つのチャネル間の最大発散の有限性も, 幾何学的 r\'enyi 発散の有限性の弱い条件下でも成り立つことを結論付けることができる。 この2つの有限性条件が等価でないことを示すチャネルの明示的な例を示す。

We study asymmetric binary channel discrimination, for qantum channels acting on separable Hilbert spaces. We establish quantum Stein's lemma for channels for both adaptive and parallel strategies, and show that under finiteness of the geometric R\'enyi divergence between the two channels for some $\alpha > 1$, adaptive strategies offer no asymptotic advantage over parallel ones. One major step in our argument is to demonstrate that the geometric R\'enyi divergence satisfies a chain rule and is additive for channels also in infinite dimensions. These results may be of independent interest. Furthermore, we not only show asymptotic equivalence of parallel and adaptive strategies, but explicitly construct a parallel strategy which approximates a given adaptive $n$-shot strategy, and give an explicit bound on the difference between the discrimination errors for these two strategies. This extends the finite dimensional result from [B. Bergh et al., arxiv:2206.08350]. Finally, this also allows us to conclude, that the chain rule for the Umegaki relative entropy in infinite dimensions, recently shown in [O. Fawzi, L. Gao, and M. Rahaman, arxiv:2212.14700v2] given finiteness of the max divergence between the two channels, also holds under the weaker condition of finiteness of the geometric R\'enyi divergence. We give explicit examples of channels which show that these two finiteness conditions are not equivalent.
翻訳日:2023-08-25 12:57:41 公開日:2023-08-24
# DLIP: 蒸留言語画像事前学習

DLIP: Distilling Language-Image Pre-training ( http://arxiv.org/abs/2308.12956v1 )

ライセンス: Link先を確認
Huafeng Kuang, Jie Wu, Xiawu Zheng, Ming Li, Xuefeng Xiao, Rui Wang, Min Zheng, Rongrong Ji(参考訳) vision-language pre-training (vlp) は、非常に重いパラメータの助けを借りて著しく進歩している。 知識蒸留はモデル圧縮の重要な手順としてよく認識されている。 しかしながら、既存の知識蒸留技術は、VLPの詳細な調査と分析を欠いているため、VLP指向蒸留の実践的ガイドラインはまだ検討されていない。 本稿では,軽vlpモデルの蒸留方法を検討するため,簡易かつ効率的な蒸留言語画像事前学習フレームワークであるdlipを提案する。 具体的には、異なるモジュールのアーキテクチャ特性や異なるモジュールの情報伝達など、複数の次元からモデルの蒸留を分離する。 我々は, 包括的実験を行い, 軽量だが高性能なVLPモデルの蒸留に関する知見を提供する。 実験結果から,DLIPは画像テキスト検索,画像キャプション,視覚的質問応答など,多種多様なクロスモーダルタスクに対して,最先端の精度/効率トレードオフを実現することができることがわかった。 例えば、DLIPはBLIPを213Mから108Mまで1.9倍圧縮し、同等またはより良い性能を達成する。 さらに、DLIPは教師モデルと比較して、22.4%のパラメータと24.8%のFLOPで95%以上の性能を維持し、推論速度を2.7倍に加速させることに成功した。

Vision-Language Pre-training (VLP) shows remarkable progress with the assistance of extremely heavy parameters, which challenges deployment in real applications. Knowledge distillation is well recognized as the essential procedure in model compression. However, existing knowledge distillation techniques lack an in-depth investigation and analysis of VLP, and practical guidelines for VLP-oriented distillation are still not yet explored. In this paper, we present DLIP, a simple yet efficient Distilling Language-Image Pre-training framework, through which we investigate how to distill a light VLP model. Specifically, we dissect the model distillation from multiple dimensions, such as the architecture characteristics of different modules and the information transfer of different modalities. We conduct comprehensive experiments and provide insights on distilling a light but performant VLP model. Experimental results reveal that DLIP can achieve a state-of-the-art accuracy/efficiency trade-off across diverse cross-modal tasks, e.g., image-text retrieval, image captioning and visual question answering. For example, DLIP compresses BLIP by 1.9x, from 213M to 108M parameters, while achieving comparable or better performance. Furthermore, DLIP succeeds in retaining more than 95% of the performance with 22.4% parameters and 24.8% FLOPs compared to the teacher model and accelerates inference speed by 2.7x.
翻訳日:2023-08-25 12:57:08 公開日:2023-08-24
# グローバルデータ規制のための新しい枠組み

A new framework for global data regulation ( http://arxiv.org/abs/2308.12955v1 )

ライセンス: Link先を確認
Ellie Graeden, David Rosado, Tess Stevens, Mallory Knodel, Rachele Hendricks-Sturrup, Andrew Reiskind, Ashley Bennett, John Leitner, Paul Lekas, Michelle DeMooy(参考訳) 現在のデータ保護に関する規制の枠組みでは、人権の保護は大きく、それに対応する結果が、それらの権利を脅かし、それらを保護するために必要なデータやツールから独立して規制されている。 このツールと結果の分離は、機密性の高いユースケースとは無関係に、データとツール自体の過剰な規制を引き起こす。 並行して、データはより制限の少ないフレームワークで収集および処理できるが、追加の感度と制限を必要とする結果を生み出すために使用される場合、分離は規制下のリスクを負う。 各セクターにおける真に高リスクなユースケースに基づいて、差分保護をサポートするために、新しいアプローチが必要である。 ここでは、特定のデータやツール自体にではなく、これらのデータやツールのコンテキストにおける使用に関連する結果や権利に適用されるように設計された規制フレームワークを提案する。 このフレームワークは、プライバシーを含む幅広い人権を認識し、対処し、保護するために設計されている。 このフレームワークをオープンバンキングのコンテキストでテストし、現在のプライバシ向上技術や他のエンジニアリング戦略が、このコンテキストとコントラクトトレースアプリケーションにどのように適用できるかを説明します。 このデータ保護規制のアプローチは、既存のエンジニアリングツールに基づいてより効果的に構築され、世界中の法律や憲法によって定義された幅広い人権を保護します。

Under the current regulatory framework for data protections, the protection of human rights writ large and the corresponding outcomes are regulated largely independently from the data and tools that both threaten those rights and are needed to protect them. This separation between tools and the outcomes they generate risks overregulation of the data and tools themselves when not linked to sensitive use cases. In parallel, separation risks under-regulation if the data can be collected and processed under a less-restrictive framework, but used to drive an outcome that requires additional sensitivity and restrictions. A new approach is needed to support differential protections based on the genuinely high-risk use cases within each sector. Here, we propose a regulatory framework designed to apply not to specific data or tools themselves, but to the outcomes and rights that are linked to the use of these data and tools in context. This framework is designed to recognize, address, and protect a broad range of human rights, including privacy, and suggests a more flexible approach to policy making that is aligned with current engineering tools and practices. We test this framework in the context of open banking and describe how current privacy-enhancing technologies and other engineering strategies can be applied in this context and that of contract tracing applications. This approach for data protection regulations more effectively builds on existing engineering tools and protects the wide range of human rights defined by legislation and constitutions around the globe.
翻訳日:2023-08-25 12:56:44 公開日:2023-08-24
# BridgeData V2: 大規模ロボット学習のためのデータセット

BridgeData V2: A Dataset for Robot Learning at Scale ( http://arxiv.org/abs/2308.12952v1 )

ライセンス: Link先を確認
Homer Walke, Kevin Black, Abraham Lee, Moo Jin Kim, Max Du, Chongyi Zheng, Tony Zhao, Philippe Hansen-Estruch, Quan Vuong, Andre He, Vivek Myers, Kuan Fang, Chelsea Finn, Sergey Levine(参考訳) スケーラブルなロボット学習の研究を容易にするように設計されたロボット操作行動の大規模かつ多様なデータセットであるbridgedata v2を紹介する。 BridgeData V2には、24の環境にまたがる60,096のトラジェクトリが含まれている。 BridgeData V2は広範なタスクと環境の多様性を提供し、環境、ドメイン、機関をまたいで一般化できるスキルをもたらし、データセットを幅広い研究者にとって有用なリソースにする。 さらにデータセットは、ゴールイメージや自然言語命令を条件とした、さまざまなオープンボキャブラリなマルチタスク学習手法と互換性がある。 実験では,我々のデータセット上で6つの最先端模倣学習とオフライン強化学習法をトレーニングし,それらが様々な一般化を必要とする一連のタスクで成功することを確認した。 また,これらの手法の性能は,よりデータと高いキャパシティモデルにより向上し,より多様なスキルのトレーニングによって一般化が向上することを示した。 bridgedata v2とトレーニング済みモデルを公開することにより、スケーラブルなロボット学習手法の研究を加速することを目指している。 プロジェクトページ: https://rail-berkeley.github.io/bridgedata

We introduce BridgeData V2, a large and diverse dataset of robotic manipulation behaviors designed to facilitate research on scalable robot learning. BridgeData V2 contains 60,096 trajectories collected across 24 environments on a publicly available low-cost robot. BridgeData V2 provides extensive task and environment variability, leading to skills that can generalize across environments, domains, and institutions, making the dataset a useful resource for a broad range of researchers. Additionally, the dataset is compatible with a wide variety of open-vocabulary, multi-task learning methods conditioned on goal images or natural language instructions. In our experiments, we train 6 state-of-the-art imitation learning and offline reinforcement learning methods on our dataset, and find that they succeed on a suite of tasks requiring varying amounts of generalization. We also demonstrate that the performance of these methods improves with more data and higher capacity models, and that training on a greater variety of skills leads to improved generalization. By publicly sharing BridgeData V2 and our pre-trained models, we aim to accelerate research in scalable robot learning methods. Project page at https://rail-berkeley.github.io/bridgedata
翻訳日:2023-08-25 12:56:22 公開日:2023-08-24
# 運動的フラストレーションハバード系におけるスピンポーラロンの直接イメージング

Directly imaging spin polarons in a kinetically frustrated Hubbard system ( http://arxiv.org/abs/2308.12951v1 )

ライセンス: Link先を確認
Max L. Prichard, Benjamin M. Spar, Ivan Morera, Eugene Demler, Zoe Z. Yan and Waseem S. Bakr(参考訳) 量子多体系における準粒子の出現は、多くの強い相互作用を持つ物質のリッチな現象論の根底にある。 ドープモット絶縁体の文脈では、磁気ポーラロンは、通常、ドープ電荷キャリアの運動エネルギーと超交換スピン相互作用の間の相互作用から生じる準粒子である。 しかし, 速度論的フラストレーション格子では, 超交換結合が存在しない場合でも, スピンポーラロン(ドーパントとスピンフリップの境界状態)が理論的に予測されている。 運動磁性の理論において重要な役割を担っているにもかかわらず、これらのポーラロンの微視的観察は欠如している。 ここでは、極低温原子で実現された三角形格子ハバード系における偏極性スピンポラロンを直接撮像し、ホールドーパントの局所環境における反強磁性相関を明らかにした。 一方,電荷ドーパント付近では強磁性相関がみられ,長岡効果の顕在化がみられた。 これらの相関関係の進化を相互作用とドーピングと共に研究し,高次相関関数を用いて超交換機構と運動機構の相対的寄与をさらに解明する。 高温におけるイテナントスピンポーラロンの堅牢性は、フラストレーション系におけるホールペアリングと超伝導の潜在的なメカニズムを探索する方法である。 さらに, 本研究は, 三角形格子moir\'{e} 材料の関連現象の微視的考察を提供する。

The emergence of quasiparticles in quantum many-body systems underlies the rich phenomenology in many strongly interacting materials. In the context of doped Mott insulators, magnetic polarons are quasiparticles that usually arise from an interplay between the kinetic energy of doped charge carriers and superexchange spin interactions. However, in kinetically frustrated lattices, itinerant spin polarons - bound states of a dopant and a spin-flip - have been theoretically predicted even in the absence of superexchange coupling. Despite their important role in the theory of kinetic magnetism, a microscopic observation of these polarons is lacking. Here we directly image itinerant spin polarons in a triangular lattice Hubbard system realised with ultracold atoms, revealing enhanced antiferromagnetic correlations in the local environment of a hole dopant. In contrast, around a charge dopant, we find ferromagnetic correlations, a manifestation of the elusive Nagaoka effect. We study the evolution of these correlations with interactions and doping, and use higher-order correlation functions to further elucidate the relative contributions of superexchange and kinetic mechanisms. The robustness of itinerant spin polarons at high temperature paves the way for exploring potential mechanisms for hole pairing and superconductivity in frustrated systems. Furthermore, our work provides microscopic insights into related phenomena in triangular lattice moir\'{e} materials.
翻訳日:2023-08-25 12:56:05 公開日:2023-08-24
# Code Llama: コードのためのオープンファンデーションモデル

Code Llama: Open Foundation Models for Code ( http://arxiv.org/abs/2308.12950v1 )

ライセンス: Link先を確認
Baptiste Rozi\`ere, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat, Xiaoqing Ellen Tan, Yossi Adi, Jingyu Liu, Tal Remez, J\'er\'emy Rapin, Artyom Kozhevnikov, Ivan Evtimov, Joanna Bitton, Manish Bhatt, Cristian Canton Ferrer, Aaron Grattafiori, Wenhan Xiong, Alexandre D\'efossez, Jade Copet, Faisal Azhar, Hugo Touvron, Louis Martin, Nicolas Usunier, Thomas Scialom, Gabriel Synnaeve(参考訳) Code Llamaは、Llama 2に基づくコードのための大規模言語モデルのファミリーで、オープンモデル間の最先端のパフォーマンス、インフィル機能、大きな入力コンテキストのサポート、プログラミングタスクのゼロショットインストラクションに続く機能を提供します。 ファンデーションモデル(Code Llama)、Pythonの特殊化(Code Llama - Python)、命令フォローモデル(Code Llama - Instruct)、それぞれ7B、13B、34Bパラメータを持つ。 すべてのモデルは16kトークンのシーケンスでトレーニングされ、最大10kトークンによる入力の改善を示す。 7Bと13B Code LlamaとCode Llama - 周辺コンテンツに基づいたインフィルをサポートするインストラクションバリアント。 Code Llamaは、いくつかのコードベンチマークで、HumanEvalとMBPPでそれぞれ53%と55%のスコアで、最先端のパフォーマンスを達成した。 特に、code llama - python 7bはhumanevalとmbppのllama 2 70bよりも優れています。 私たちはCode Llamaをパーミッシブライセンスでリリースし、研究と商用の両方の使用を可能にします。

We release Code Llama, a family of large language models for code based on Llama 2 providing state-of-the-art performance among open models, infilling capabilities, support for large input contexts, and zero-shot instruction following ability for programming tasks. We provide multiple flavors to cover a wide range of applications: foundation models (Code Llama), Python specializations (Code Llama - Python), and instruction-following models (Code Llama - Instruct) with 7B, 13B and 34B parameters each. All models are trained on sequences of 16k tokens and show improvements on inputs with up to 100k tokens. 7B and 13B Code Llama and Code Llama - Instruct variants support infilling based on surrounding content. Code Llama reaches state-of-the-art performance among open models on several code benchmarks, with scores of up to 53% and 55% on HumanEval and MBPP, respectively. Notably, Code Llama - Python 7B outperforms Llama 2 70B on HumanEval and MBPP, and all our models outperform every other publicly available model on MultiPL-E. We release Code Llama under a permissive license that allows for both research and commercial use.
翻訳日:2023-08-25 12:55:42 公開日:2023-08-24
# マルチタスク学習におけるラベル予算配分

Label Budget Allocation in Multi-Task Learning ( http://arxiv.org/abs/2308.12949v1 )

ライセンス: Link先を確認
Ximeng Sun, Kihyuk Sohn, Kate Saenko, Clayton Mellina, Xiao Bian(参考訳) データのラベル付けコストは、しばしば機械学習システムの性能を制限する。 マルチタスク学習では、関連するタスクが相互に情報を提供し、全体的なパフォーマンスを向上させるが、ラベルコストはタスクによって異なる。 ラベルの予算(すなわちラベルに費やした金額)は、最適なマルチタスクのパフォーマンスを達成するために、どのように割り当てるべきなのか? 我々は,マルチタスク学習におけるラベル予算配分問題を初めて提案し,正式に定義し,異なる予算配分戦略がその性能に大きな違いをもたらすことを実証的に示す。 異なるマルチタスク学習環境に適応した最適予算割当を頑健に生成するタスク適応予算割当アルゴリズムを提案する。 具体的には、マルチタスク学習性能のプロキシとして、割り当て予算から得られた新たな情報の範囲を推定し、最大化する。 PASCAL VOCとTaskonomyの実験は、他の広く使われているヒューリスティックなラベル付け戦略に対するアプローチの有効性を示した。

The cost of labeling data often limits the performance of machine learning systems. In multi-task learning, related tasks provide information to each other and improve overall performance, but the label cost can vary among tasks. How should the label budget (i.e. the amount of money spent on labeling) be allocated among different tasks to achieve optimal multi-task performance? We are the first to propose and formally define the label budget allocation problem in multi-task learning and to empirically show that different budget allocation strategies make a big difference to its performance. We propose a Task-Adaptive Budget Allocation algorithm to robustly generate the optimal budget allocation adaptive to different multi-task learning settings. Specifically, we estimate and then maximize the extent of new information obtained from the allocated budget as a proxy for multi-task learning performance. Experiments on PASCAL VOC and Taskonomy demonstrate the efficacy of our approach over other widely used heuristic labeling strategies.
翻訳日:2023-08-25 12:55:17 公開日:2023-08-24
# Page and Wootters量子時間による並列時間量子シミュレーション

Parallel-in-time quantum simulation via Page and Wootters quantum time ( http://arxiv.org/abs/2308.12944v1 )

ライセンス: Link先を確認
N. L. Diaz, Paolo Braccia, Martin Larocca, J.M. Matera, R. Rossignoli, M. Cerezo(参考訳) 過去数十年間、研究者たちは古典コンピューティングや情報理論、さらには物理現象からインスピレーションを得て、量子アルゴリズムの検証可能な動物園を作った。 ここでは,ページとウーター形式に触発された並列時間シミュレーションのための量子アルゴリズムを提案する。 この枠組み、つまり我々のアルゴリズムでは、量子力学の古典的時間変数は「クロック」量子ビットのヒルベルト空間を導入し、量子領域に昇格し、「システム」量子ビットと絡み合う。 我々のアルゴリズムは、$\log(n)$クロックキュービットのみを使用して、多体システムの時相特性をn$以上の異なる時間で計算できることを示します。 したがって、時間と空間の複雑さの間の指数的トレードオフを達成する。 さらに,システムキュービットとクロックキュービットの間に生じる絡み合いが,システムのダイナミクスに関する貴重な情報を符号化することで,運用上の意味があることを厳密に証明する。 また、全てのプロトコルの回路深さ推定を行い、従来の逐次時間アルゴリズムよりも計算時間に指数関数的な優位性を示す。 特に, aubry-andreモデルによって力学が決定される場合, アルゴリズムの深さが$\mathcal{o}(\log(n)n)$ となるようなハイブリッド手法を提案する。 積として、以前のスキームを孤立量子系の平衡問題に関連付けることが可能であり、本フレームワークは多体系の動的性質を研究するための新しい次元を実現できることを示す。

In the past few decades, researchers have created a veritable zoo of quantum algorithm by drawing inspiration from classical computing, information theory, and even from physical phenomena. Here we present quantum algorithms for parallel-in-time simulations that are inspired by the Page and Wooters formalism. In this framework, and thus in our algorithms, the classical time-variable of quantum mechanics is promoted to the quantum realm by introducing a Hilbert space of "clock" qubits which are then entangled with the "system" qubits. We show that our algorithms can compute temporal properties over $N$ different times of many-body systems by only using $\log(N)$ clock qubits. As such, we achieve an exponential trade-off between time and spatial complexities. In addition, we rigorously prove that the entanglement created between the system qubits and the clock qubits has operational meaning, as it encodes valuable information about the system's dynamics. We also provide a circuit depth estimation of all the protocols, showing an exponential advantage in computation times over traditional sequential in time algorithms. In particular, for the case when the dynamics are determined by the Aubry-Andre model, we present a hybrid method for which our algorithms have a depth that only scales as $\mathcal{O}(\log(N)n)$. As a by product we can relate the previous schemes to the problem of equilibration of an isolated quantum system, thus indicating that our framework enable a new dimension for studying dynamical properties of many-body systems.
翻訳日:2023-08-25 12:55:02 公開日:2023-08-24
# 境界のみを学習する:複素幾何学におけるパラメトリック偏微分方程式を解く物理インフォームドニューラルネットワーク

Learning Only On Boundaries: a Physics-Informed Neural operator for Solving Parametric Partial Differential Equations in Complex Geometries ( http://arxiv.org/abs/2308.12939v1 )

ライセンス: Link先を確認
Zhiwei Fang, Sifan Wang, and Paris Perdikaris(参考訳) 近年、ディープラーニングサロゲートとニューラル演算子は偏微分方程式(PDE)の解法において有望であることを示す。 しかし、それらはしばしば大量のトレーニングデータを必要とし、境界付けられたドメインに制限される。 本研究では,ラベル付きデータなしでパラメータ化境界値問題を解決する物理インフォームドニューラル演算子を提案する。 PDEを境界積分方程式(BIE)に再構成することにより、ドメインの境界のみに基づいて演算子ネットワークを訓練することができる。 このアプローチでは、必要なサンプルポイントの数を$o(n^d)$から$o(n^{d-1})$に削減する。 さらに,既存の物理インフォームドニューラルネットワーク(PINN)やニューラル演算子では実現不可能な非有界問題にも対処できる。 数値実験により,パラメトリ化複素幾何学と非有界問題の有効性が示された。

Recently deep learning surrogates and neural operators have shown promise in solving partial differential equations (PDEs). However, they often require a large amount of training data and are limited to bounded domains. In this work, we present a novel physics-informed neural operator method to solve parametrized boundary value problems without labeled data. By reformulating the PDEs into boundary integral equations (BIEs), we can train the operator network solely on the boundary of the domain. This approach reduces the number of required sample points from $O(N^d)$ to $O(N^{d-1})$, where $d$ is the domain's dimension, leading to a significant acceleration of the training process. Additionally, our method can handle unbounded problems, which are unattainable for existing physics-informed neural networks (PINNs) and neural operators. Our numerical experiments show the effectiveness of parametrized complex geometries and unbounded problems.
翻訳日:2023-08-25 12:54:37 公開日:2023-08-24
# ニューラルクロスシム:キルヒホフ・ラヴの薄い殻理論に適合する神経変形場

NeuralClothSim: Neural Deformation Fields Meet the Kirchhoff-Love Thin Shell Theory ( http://arxiv.org/abs/2308.12970v1 )

ライセンス: Link先を確認
Navami Kairanda and Marc Habermann and Christian Theobalt and Vladislav Golyanik(参考訳) 布のシミュレーションは広く研究されている問題であり、コンピュータグラフィックス文学で利用できるソリューションは多岐にわたる。 既存の布のシミュレータは、異なる種類の境界条件に従う現実的な布の変形を生み出す。 それらは固定された空間解像度で明示的な表面表現を演算し、一連の離散化された更新(時間分解能を束縛する)を行い、膨大な量の記憶を必要とする。 さらに、既存のソルバを通じて逆伝播する勾配は、多くの場合、単純ではない。 上述の制限に応えて、本論文は、物理的に証明可能な布のシミュレーションを根本的に異なる視点で捉え、この長年の問題を再考する:ニューラルクロスシム(NeuralClothSim)、すなわち、薄い殻を用いた新しい布のシミュレーション手法を提案し、表面の進化をニューラルネットワークの重みに符号化する。 我々のメモリ効率と微分可能解法は、ニューラル変形場(NDF)と呼ばれる新しい連続座標に基づく動的曲面の表現を演算し、非線形Kirchhoff-Loveシェル理論の規則でNDFの進化を監督する。 NDFはそれらの意味で適応的である 1)布の進化中に後者が生じるように、変形詳細に容量を割り当てる。 2) 任意の空間的および時間的分解能で表面状態のクエリを再トレーニングすることなく行う。 本稿では,ハードバウンダリ条件を適用したNeuralClothSimソルバのトレーニング方法を示し,材料補間やシミュレーション編集など複数の応用例を示す。 実験結果は, 定式化の有効性と潜在的影響を明らかにする。

Cloth simulation is an extensively studied problem, with a plethora of solutions available in computer graphics literature. Existing cloth simulators produce realistic cloth deformations that obey different types of boundary conditions. Nevertheless, their operational principle remains limited in several ways: They operate on explicit surface representations with a fixed spatial resolution, perform a series of discretised updates (which bounds their temporal resolution), and require comparably large amounts of storage. Moreover, back-propagating gradients through the existing solvers is often not straightforward, which poses additional challenges when integrating them into modern neural architectures. In response to the limitations mentioned above, this paper takes a fundamentally different perspective on physically-plausible cloth simulation and re-thinks this long-standing problem: We propose NeuralClothSim, i.e., a new cloth simulation approach using thin shells, in which surface evolution is encoded in neural network weights. Our memory-efficient and differentiable solver operates on a new continuous coordinate-based representation of dynamic surfaces, i.e., neural deformation fields (NDFs); it supervises NDF evolution with the rules of the non-linear Kirchhoff-Love shell theory. NDFs are adaptive in the sense that they 1) allocate their capacity to the deformation details as the latter arise during the cloth evolution and 2) allow surface state queries at arbitrary spatial and temporal resolutions without retraining. We show how to train our NeuralClothSim solver while imposing hard boundary conditions and demonstrate multiple applications, such as material interpolation and simulation editing. The experimental results highlight the effectiveness of our formulation and its potential impact.
翻訳日:2023-08-25 12:47:15 公開日:2023-08-24
# ROAM:ニューラルポーズ記述子を用いたロバスト・オブジェクト認識動作生成

ROAM: Robust and Object-aware Motion Generation using Neural Pose Descriptors ( http://arxiv.org/abs/2308.12969v1 )

ライセンス: Link先を確認
Wanyue Zhang and Rishabh Dabral and Thomas Leimk\"uhler and Vladislav Golyanik and Marc Habermann and Christian Theobalt(参考訳) シーンインタラクションをサポートする3次元仮想キャラクターモーション合成のための既存の自動アプローチは、多様なオブジェクトと注釈付きインタラクションを持つ広範囲なモーションキャプチャデータセットでトレーニングしても、トレーニング分布外の新しいオブジェクトにうまく一般化しない。 本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,単一の参照オブジェクトの少ないモーションモデルをトレーニングすることで実現可能であることを示す。 我々は、オブジェクトのみのデータセットでトレーニングされた暗黙的な特徴表現を利用し、オブジェクトの周りにse(3)-同変ディスクリプタフィールドを符号化する。 未確認オブジェクトと参照ポーズオブジェクトペアが与えられた場合、参照ポーズに最も近い特徴空間のオブジェクト認識ポーズを最適化する。 最後に、l-nsm、すなわち、提案する双方向ポーズブレンディングスキームとロコモーションからオブジェクトインタラクションへシームレスに遷移するように訓練された運動生成モデルを用いる。 最先端手法との包括的数値比較とユーザスタディにより,未知の物体を用いたシナリオに対する3次元仮想キャラクタの動作とインタラクションの質,ロバスト性が大幅に向上することを示す。 プロジェクトのページはhttps://vcai.mpi-inf.mpg.de/projects/roam/で閲覧できます。

Existing automatic approaches for 3D virtual character motion synthesis supporting scene interactions do not generalise well to new objects outside training distributions, even when trained on extensive motion capture datasets with diverse objects and annotated interactions. This paper addresses this limitation and shows that robustness and generalisation to novel scene objects in 3D object-aware character synthesis can be achieved by training a motion model with as few as one reference object. We leverage an implicit feature representation trained on object-only datasets, which encodes an SE(3)-equivariant descriptor field around the object. Given an unseen object and a reference pose-object pair, we optimise for the object-aware pose that is closest in the feature space to the reference pose. Finally, we use l-NSM, i.e., our motion generation model that is trained to seamlessly transition from locomotion to object interaction with the proposed bidirectional pose blending scheme. Through comprehensive numerical comparisons to state-of-the-art methods and in a user study, we demonstrate substantial improvements in 3D virtual character motion and interaction quality and robustness to scenarios with unseen objects. Our project page is available at https://vcai.mpi-inf.mpg.de/projects/ROAM/.
翻訳日:2023-08-25 12:46:46 公開日:2023-08-24
# Scenimefy: 半監督画像から画像への変換によるアニメシーンの制作を学ぶ

Scenimefy: Learning to Craft Anime Scene via Semi-Supervised Image-to-Image Translation ( http://arxiv.org/abs/2308.12968v1 )

ライセンス: Link先を確認
Yuxin Jiang, Liming Jiang, Shuai Yang, Chen Change Loy(参考訳) 複雑な実世界の画像からのアニメシーンの自動高画質レンダリングは、重要な実用的価値である。 このタスクの課題は、シーンの複雑さ、アニメスタイルのユニークな特徴、ドメインギャップを埋めるための高品質なデータセットの欠如にある。 有望な試みにもかかわらず、以前の試みは、一貫性のあるセマンティックな保存、明らかなスタイリゼーション、詳細といった満足な結果を達成するには相変わらず無力である。 本研究では,これらの課題に対処する半教師付き画像・画像翻訳フレームワークであるScenimefyを提案する。 このアプローチでは,構造一貫性のある擬似ペアデータによる学習を指導し,教師なし設定を単純化する。 擬似データは、CLIPのようなリッチなモデルプリエントを活用するセマンティック制約付きStyleGANから一意に導出される。 さらにセグメント化誘導データの選択を適用し,高品質な疑似監視を行う。 スタイル化と細部を改善するために、パッチワイドのコントラストスタイルロスが導入されている。 さらに,今後の研究を促進するために,高解像度のアニメシーンデータセットを提供する。 提案手法は,知覚的品質と定量的性能の両方において,最先端のベースラインよりも優れていることを示す。

Automatic high-quality rendering of anime scenes from complex real-world images is of significant practical value. The challenges of this task lie in the complexity of the scenes, the unique features of anime style, and the lack of high-quality datasets to bridge the domain gap. Despite promising attempts, previous efforts are still incompetent in achieving satisfactory results with consistent semantic preservation, evident stylization, and fine details. In this study, we propose Scenimefy, a novel semi-supervised image-to-image translation framework that addresses these challenges. Our approach guides the learning with structure-consistent pseudo paired data, simplifying the pure unsupervised setting. The pseudo data are derived uniquely from a semantic-constrained StyleGAN leveraging rich model priors like CLIP. We further apply segmentation-guided data selection to obtain high-quality pseudo supervision. A patch-wise contrastive style loss is introduced to improve stylization and fine details. Besides, we contribute a high-resolution anime scene dataset to facilitate future research. Our extensive experiments demonstrate the superiority of our method over state-of-the-art baselines in terms of both perceptual quality and quantitative performance.
翻訳日:2023-08-25 12:46:21 公開日:2023-08-24
# neo 360: 屋外シーンのスパースビュー合成のためのニューラルフィールド

NeO 360: Neural Fields for Sparse View Synthesis of Outdoor Scenes ( http://arxiv.org/abs/2308.12967v1 )

ライセンス: Link先を確認
Muhammad Zubair Irshad, Sergey Zakharov, Katherine Liu, Vitor Guizilini, Thomas Kollar, Adrien Gaidon, Zsolt Kira, Rares Ambrus(参考訳) 近年の暗黙的神経表現は、新しい視点合成に優れた結果を示している。 しかし、既存の手法では、多くのビューから高価なシーンごとの最適化が必要であるため、関心事や背景のオブジェクトがごく少数のビューから観察されるような、現実の無人都市環境への適用が制限される。 この課題を軽減するために、屋外シーンのスパースビュー合成のためのNeO 360ニューラルフィールドという新しいアプローチを導入する。 NeO 360は、単一のまたは少数のRGB画像から360{\deg}のシーンを再構成する一般化可能な方法である。 本手法の本質は、複雑な実世界の屋外3次元シーンの分布を捉え、任意の世界から検索できるハイブリッド画像条件三面体表現を使用することである。 我々の表現は、ボクセルベースと鳥眼ビュー(BEV)の両方の表現の最良の組み合わせであり、それぞれよりも効果的で表現力が高い。 NeO 360の表現は、未知の3Dシーンの大規模なコレクションから学び、新しいビューや新しいシーンへの一般化性を提供し、推論中に単一の画像から学ぶことができる。 我々は、NeRDS 360と呼ばれる挑戦的な360{\deg}非有界データセットに対するアプローチを実証し、NeO 360が編集と合成機能を提供しながら、新しいビュー合成のための最先端の一般化可能な手法より優れていることを示す。 プロジェクトページ: https://zubair-irshad.github.io/projects/neo360.html

Recent implicit neural representations have shown great results for novel view synthesis. However, existing methods require expensive per-scene optimization from many views hence limiting their application to real-world unbounded urban settings where the objects of interest or backgrounds are observed from very few views. To mitigate this challenge, we introduce a new approach called NeO 360, Neural fields for sparse view synthesis of outdoor scenes. NeO 360 is a generalizable method that reconstructs 360{\deg} scenes from a single or a few posed RGB images. The essence of our approach is in capturing the distribution of complex real-world outdoor 3D scenes and using a hybrid image-conditional triplanar representation that can be queried from any world point. Our representation combines the best of both voxel-based and bird's-eye-view (BEV) representations and is more effective and expressive than each. NeO 360's representation allows us to learn from a large collection of unbounded 3D scenes while offering generalizability to new views and novel scenes from as few as a single image during inference. We demonstrate our approach on the proposed challenging 360{\deg} unbounded dataset, called NeRDS 360, and show that NeO 360 outperforms state-of-the-art generalizable methods for novel view synthesis while also offering editing and composition capabilities. Project page: https://zubair-irshad.github.io/projects/neo360.html
翻訳日:2023-08-25 12:46:03 公開日:2023-08-24
# Qwen-VL:Versatile Abilitiesを持つフロンティア大型視線モデル

Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities ( http://arxiv.org/abs/2308.12966v1 )

ライセンス: Link先を確認
Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou(参考訳) テキストと画像の両方を知覚し理解するために設計された大規模視覚言語モデルであるQwen-VLシリーズを紹介する。 Qwen-VLとQwen-VL-Chatを組み合わせたこれらのモデルは、画像キャプション、質問応答、視覚的ローカライゼーション、フレキシブルなインタラクションといったタスクにおいて、優れたパフォーマンスを示す。 評価は、ゼロショットキャプション、視覚的または文書的な視覚的質問応答、接地など幅広いタスクをカバーする。 本稿では,Qwen-VLが既存のLarge Vision Language Models(LVLM)より優れていることを示す。 我々は、そのアーキテクチャ、トレーニング、能力、パフォーマンスを示し、マルチモーダル人工知能の進歩への貢献を強調する。 コード、デモ、モデルはhttps://github.com/qwenlm/qwen-vlで入手できる。

We introduce the Qwen-VL series, a set of large-scale vision-language models designed to perceive and understand both text and images. Comprising Qwen-VL and Qwen-VL-Chat, these models exhibit remarkable performance in tasks like image captioning, question answering, visual localization, and flexible interaction. The evaluation covers a wide range of tasks including zero-shot captioning, visual or document visual question answering, and grounding. We demonstrate the Qwen-VL outperforms existing Large Vision Language Models (LVLMs). We present their architecture, training, capabilities, and performance, highlighting their contributions to advancing multimodal artificial intelligence. Code, demo and models are available at https://github.com/QwenLM/Qwen-VL.
翻訳日:2023-08-25 12:45:35 公開日:2023-08-24
# POCO:3次元ポースと信頼性による形状推定

POCO: 3D Pose and Shape Estimation with Confidence ( http://arxiv.org/abs/2308.12965v1 )

ライセンス: Link先を確認
Sai Kumar Dwivedi, Cordelia Schmid, Hongwei Yi, Michael J. Black, Dimitrios Tzionas(参考訳) 画像からのHPS(3D Human Pose and Shape)の回帰はますます正確になりつつある。 これにより、人間のアクション認識や3Dグラフィックなどの下流タスクに役立ちます。 しかし、回帰器は完璧ではなく、不明瞭な画像証拠や、訓練中に見えないポーズや外観の影響を受けやすい。 しかし、現在のHPS回帰器の多くは出力の信頼性を報告していないため、下流のタスクは正確な見積もりを不正確なものと区別できない。 そこで我々は,hpsレグレッサをトレーニングするための新しいフレームワークであるpocoを開発した。3d人体だけでなく,その自信を単一のフィードフォワードパスで推定する。 具体的には、POCOは3Dボディポーズとサンプルごとのばらつきの両方を推定する。 鍵となる考え方は、復元品質に高い相関を持つ不確実性を抑えるためのデュアルコンディショニング戦略(DCS)を導入することである。 POCO フレームワークは任意の HPS 回帰器に適用可能であり,HMR,PARE,CLIFF を改良して評価する。 いずれの場合も、不確かさを判断するためにネットワークを訓練することは、3dのポーズをより正確に推定するのに役立つ。 これは私たちの目標ではありませんが、改善は控えめですが一貫性があります。 本研究の主な動機は下流タスクに対する不確実性推定を提供することであり,1)HPSトレーニングのブートストラップに信頼度推定を用いる。 誤りのない画像データから、POCO訓練された回帰器の自信ある推定を擬似基底真理とみなす。 この自動計算データによるリトレーニングは精度を向上させる。 2) 映像ポーズ推定における不確実性は,不確実なフレーム(例えば,隠蔽による)を自動同定し,信頼度の高いフレームから絵を描くことで評価する。 コードとモデルはhttps://poco.is.tue.mpg.deで研究することができる。

The regression of 3D Human Pose and Shape (HPS) from an image is becoming increasingly accurate. This makes the results useful for downstream tasks like human action recognition or 3D graphics. Yet, no regressor is perfect, and accuracy can be affected by ambiguous image evidence or by poses and appearance that are unseen during training. Most current HPS regressors, however, do not report the confidence of their outputs, meaning that downstream tasks cannot differentiate accurate estimates from inaccurate ones. To address this, we develop POCO, a novel framework for training HPS regressors to estimate not only a 3D human body, but also their confidence, in a single feed-forward pass. Specifically, POCO estimates both the 3D body pose and a per-sample variance. The key idea is to introduce a Dual Conditioning Strategy (DCS) for regressing uncertainty that is highly correlated to pose reconstruction quality. The POCO framework can be applied to any HPS regressor and here we evaluate it by modifying HMR, PARE, and CLIFF. In all cases, training the network to reason about uncertainty helps it learn to more accurately estimate 3D pose. While this was not our goal, the improvement is modest but consistent. Our main motivation is to provide uncertainty estimates for downstream tasks; we demonstrate this in two ways: (1) We use the confidence estimates to bootstrap HPS training. Given unlabelled image data, we take the confident estimates of a POCO-trained regressor as pseudo ground truth. Retraining with this automatically-curated data improves accuracy. (2) We exploit uncertainty in video pose estimation by automatically identifying uncertain frames (e.g. due to occlusion) and inpainting these from confident frames. Code and models will be available for research at https://poco.is.tue.mpg.de.
翻訳日:2023-08-25 12:45:21 公開日:2023-08-24
# 注意変調による高密度テキスト・画像生成

Dense Text-to-Image Generation with Attention Modulation ( http://arxiv.org/abs/2308.12964v1 )

ライセンス: Link先を確認
Yunji Kim, Jiyoung Lee, Jin-Hwa Kim, Jung-Woo Ha, Jun-Yan Zhu(参考訳) 既存のテキスト・画像拡散モデルでは、各テキストプロンプトが特定の画像領域の詳細な記述を提供するような、濃密なキャプションを与えられた現実的な画像の合成に苦労する。 そこで本研究では,事前学習されたテキストから画像への変換モデルを適用し,シーンレイアウトを制御しつつ,これらのキャプションを扱うためのトレーニングフリーな手法であるdungdiffusionを提案する。 まず,生成した画像のレイアウトと事前学習したモデルの中間注意マップの関係を解析した。 次に,特定の領域に出現する物体をレイアウト指示に従って案内する注意変調手法を開発した。 追加の微調整やデータセットを必要とせず、自動評価スコアと人間評価スコアの両方に関する密接なキャプションを与えられた画像生成性能を向上させる。 さらに,レイアウト条件を訓練したモデルを用いて,同様の品質の視覚的結果を得る。

Existing text-to-image diffusion models struggle to synthesize realistic images given dense captions, where each text prompt provides a detailed description for a specific image region. To address this, we propose DenseDiffusion, a training-free method that adapts a pre-trained text-to-image model to handle such dense captions while offering control over the scene layout. We first analyze the relationship between generated images' layouts and the pre-trained model's intermediate attention maps. Next, we develop an attention modulation method that guides objects to appear in specific regions according to layout guidance. Without requiring additional fine-tuning or datasets, we improve image generation performance given dense captions regarding both automatic and human evaluation scores. In addition, we achieve similar-quality visual results with models specifically trained with layout conditions.
翻訳日:2023-08-25 12:44:52 公開日:2023-08-24
# MapPrior: 生成モデルによる鳥の視点マップレイアウト推定

MapPrior: Bird's-Eye View Map Layout Estimation with Generative Models ( http://arxiv.org/abs/2308.12963v1 )

ライセンス: Link先を確認
Xiyue Zhu, Vlas Zyrianov, Zhijian Liu, Shenlong Wang(参考訳) 鳥眼視(BEV)の認識が著しく進歩しているにもかかわらず、既存のモデルは現実的で一貫性のあるセマンティックマップレイアウトの生成に不足しており、部分的なセンサー情報(隠蔽や限定カバレッジなど)から生じる不確実さを考慮できない。 本研究では,従来の識別的BEV知覚モデルと意味地図レイアウトの学習生成モデルを組み合わせた新しいBEV知覚フレームワークであるMapPriorを紹介する。 われわれのMapPriorは、精度、リアリズム、不確実性を認識した予測を提供する。 我々は,大規模nuscenesベンチマークを用いてモデルを評価する。 提出時点でMapPriorは、カメラおよびLiDARベースのBEV知覚において、MDDとECEのスコアを大幅に改善し、最強の競合方法を上回っている。

Despite tremendous advancements in bird's-eye view (BEV) perception, existing models fall short in generating realistic and coherent semantic map layouts, and they fail to account for uncertainties arising from partial sensor information (such as occlusion or limited coverage). In this work, we introduce MapPrior, a novel BEV perception framework that combines a traditional discriminative BEV perception model with a learned generative model for semantic map layouts. Our MapPrior delivers predictions with better accuracy, realism, and uncertainty awareness. We evaluate our model on the large-scale nuScenes benchmark. At the time of submission, MapPrior outperforms the strongest competing method, with significantly improved MMD and ECE scores in camera- and LiDAR-based BEV perception.
翻訳日:2023-08-25 12:44:36 公開日:2023-08-24
# 時空間表現学習のためのモーションガイドマスク

Motion-Guided Masking for Spatiotemporal Representation Learning ( http://arxiv.org/abs/2308.12962v1 )

ライセンス: Link先を確認
David Fan, Jue Wang, Shuai Liao, Yi Zhu, Vimal Bhat, Hector Santos-Villalobos, Rohith MV, Xinyu Li(参考訳) 近年、画像マスク付きオートエンコーダ(mae)をランダムマスキングでビデオドメインに拡張し、有望な結果が得られた。 しかし,画像と異なり,空間情報と時間情報の両方が映像理解に重要である。 これは、画像MAEから継承されたランダムマスキング戦略は、ビデオMAEでは効果が低いことを示唆している。 これは、より効率的にビデオのサリエンシを利用する新しいマスキングアルゴリズムの設計を動機付けている。 具体的には、動きベクトルを利用して各マスクの位置を経時的に案内する動き誘導マスキングアルゴリズム(MGM)を提案する。 ビデオの圧縮フォーマットに格納された情報から,これらの動作に基づく対応が直接得られることが重要であり,提案手法の効率性と拡張性が期待できる。 2つの挑戦的な大規模ビデオベンチマーク(Kinetics-400とSomething V2)では、MGMにビデオMAEを装備し、従来の最先端手法と比較して最大$1.3\%の改善を実現している。 さらに、当社のmgmは、トレーニング期間を最大66%削減することで、以前のビデオmaeと同等のパフォーマンスを実現しています。 最後に, MGMは, UCF101, HMDB51, Diving48データセットにおいて, ダウンストリーム転送学習やドメイン適応タスクを一般化し, ベースライン法と比較して最大$4.9 %の改善を実現していることを示す。

Several recent works have directly extended the image masked autoencoder (MAE) with random masking into video domain, achieving promising results. However, unlike images, both spatial and temporal information are important for video understanding. This suggests that the random masking strategy that is inherited from the image MAE is less effective for video MAE. This motivates the design of a novel masking algorithm that can more efficiently make use of video saliency. Specifically, we propose a motion-guided masking algorithm (MGM) which leverages motion vectors to guide the position of each mask over time. Crucially, these motion-based correspondences can be directly obtained from information stored in the compressed format of the video, which makes our method efficient and scalable. On two challenging large-scale video benchmarks (Kinetics-400 and Something-Something V2), we equip video MAE with our MGM and achieve up to +$1.3\%$ improvement compared to previous state-of-the-art methods. Additionally, our MGM achieves equivalent performance to previous video MAE using up to $66\%$ fewer training epochs. Lastly, we show that MGM generalizes better to downstream transfer learning and domain adaptation tasks on the UCF101, HMDB51, and Diving48 datasets, achieving up to +$4.9\%$ improvement compared to baseline methods.
翻訳日:2023-08-25 12:44:21 公開日:2023-08-24
# less is more: トレーニングフリーネットワークによる効率的な3dセマンティクスセグメンテーションに向けて

Less is More: Towards Efficient Few-shot 3D Semantic Segmentation via Training-free Networks ( http://arxiv.org/abs/2308.12961v1 )

ライセンス: Link先を確認
Xiangyang Zhu, Renrui Zhang, Bowei He, Ziyu Guo, Jiaming Liu, Hao Dong, Peng Gao(参考訳) 大規模なデータセットへの依存を減らすため、3Dセグメンテーションにおける最近の研究は、数ショットの学習に頼っている。 現在の3dの少数ショットセマンティクスセグメンテーションメソッドは、まず‘seen’クラスでモデルを事前トレーニングし、次に‘unseen’クラスの一般化性能を評価する。 しかしながら、事前トレーニングステージは、過剰な時間オーバーヘッドをもたらすだけでなく、‘unseen’クラスに大きなドメイン間ギャップも生んでいる。 これらの課題に対処するため,トレーニング不要なFew-shot 3D Segmentation netwrok,TFS3D,さらにトレーニングベースであるTFS3D-Tを提案する。 学習可能なパラメータなしでは、tfs3dは三角位置符号化による密表現を抽出し、以前のトレーニングベースの方法と同等の性能を達成する。 事前トレーニングの廃止により、tfs3dはドメイン間ギャップの問題を緩和し、かなりの時間を節約できる。 TFS3D上に構築されているTFS3D-Tは、軽量なクエリサポート転送注意(QUEST)のトレーニングのみを必要とする。 TFS3D-T は S3DIS と ScanNet のそれぞれに +6.93% と +17.96% mIoU を改良し、トレーニング時間を -90% 削減した。

To reduce the reliance on large-scale datasets, recent works in 3D segmentation resort to few-shot learning. Current 3D few-shot semantic segmentation methods first pre-train the models on `seen' classes, and then evaluate their generalization performance on `unseen' classes. However, the prior pre-training stage not only introduces excessive time overhead, but also incurs a significant domain gap on `unseen' classes. To tackle these issues, we propose an efficient Training-free Few-shot 3D Segmentation netwrok, TFS3D, and a further training-based variant, TFS3D-T. Without any learnable parameters, TFS3D extracts dense representations by trigonometric positional encodings, and achieves comparable performance to previous training-based methods. Due to the elimination of pre-training, TFS3D can alleviate the domain gap issue and save a substantial amount of time. Building upon TFS3D, TFS3D-T only requires to train a lightweight query-support transferring attention (QUEST), which enhances the interaction between the few-shot query and support data. Experiments demonstrate TFS3D-T improves previous state-of-the-art methods by +6.93% and +17.96% mIoU respectively on S3DIS and ScanNet, while reducing the training time by -90%, indicating superior effectiveness and efficiency.
翻訳日:2023-08-25 12:43:57 公開日:2023-08-24
# GridMM:視覚・言語ナビゲーションのためのグリッドメモリマップ

GridMM: Grid Memory Map for Vision-and-Language Navigation ( http://arxiv.org/abs/2307.12907v4 )

ライセンス: Link先を確認
Zihan Wang and Xiangyang Li and Jiahao Yang and Yeqi Liu and Shuqiang Jiang(参考訳) ビジョン・アンド・ランゲージナビゲーション(VLN)は、エージェントが3D環境における自然言語の指示に従って遠隔地へ移動できるようにする。 これまで訪れた環境を表現するため、VLNのほとんどのアプローチは、リカレントステート、トポロジマップ、トップダウンセマンティックマップを使用してメモリを実装している。 これらのアプローチとは対照的に、訪問環境を構築するために、トップダウンのエゴセントリックで動的に成長するグリッドメモリマップ(GridMM)を構築します。 地球から見ると、歴史的観測はトップダウンの視点で統一グリッドマップに投影され、環境の空間的関係をより良く表現することができる。 さらに,局所的な視点から,各グリッド領域における細粒度の視覚手がかりを捉えるための指示関連集約手法を提案する。 離散環境におけるREVERIE, R2R, SOONデータセット, 連続環境におけるR2R-CEデータセットについて, 実験を行い, 提案手法の優位性を示した。

Vision-and-language navigation (VLN) enables the agent to navigate to a remote location following the natural language instruction in 3D environments. To represent the previously visited environment, most approaches for VLN implement memory using recurrent states, topological maps, or top-down semantic maps. In contrast to these approaches, we build the top-down egocentric and dynamically growing Grid Memory Map (i.e., GridMM) to structure the visited environment. From a global perspective, historical observations are projected into a unified grid map in a top-down view, which can better represent the spatial relations of the environment. From a local perspective, we further propose an instruction relevance aggregation method to capture fine-grained visual clues in each grid region. Extensive experiments are conducted on both the REVERIE, R2R, SOON datasets in the discrete environments, and the R2R-CE dataset in the continuous environments, showing the superiority of our proposed method.
翻訳日:2023-08-25 10:57:44 公開日:2023-08-24
# データセット蒸留に関する調査 : アプローチ, 応用, 今後の展開

A Survey on Dataset Distillation: Approaches, Applications and Future Directions ( http://arxiv.org/abs/2305.01975v3 )

ライセンス: Link先を確認
Jiahui Geng, Zongxiong Chen, Yuandou Wang, Herbert Woisetschlaeger, Sonja Schimmler, Ruben Mayer, Zhiming Zhao and Chunming Rong(参考訳) トレーニングセットが増加し続け、最先端モデルのトレーニングコストが高まる中、データセット蒸留は機械学習で注目を集めている。 高い情報密度でデータセットを合成することで、データセット蒸留は、継続的な学習、ニューラルネットワーク検索、プライバシ保護など、さまざまな潜在的なアプリケーションを提供する。 最近の進歩にもかかわらず、アプローチとアプリケーションに対する総合的な理解が欠けている。 このギャップを埋めるために、まずデータセット蒸留の分類を提案し、既存のアプローチを特徴付けるとともに、データモダリティとその関連アプリケーションについて体系的にレビューする。 また,本研究の課題を要約し,今後の方向性について考察する。

Dataset distillation is attracting more attention in machine learning as training sets continue to grow and the cost of training state-of-the-art models becomes increasingly high. By synthesizing datasets with high information density, dataset distillation offers a range of potential applications, including support for continual learning, neural architecture search, and privacy protection. Despite recent advances, we lack a holistic understanding of the approaches and applications. Our survey aims to bridge this gap by first proposing a taxonomy of dataset distillation, characterizing existing approaches, and then systematically reviewing the data modalities, and related applications. In addition, we summarize the challenges and discuss future directions for this field of research.
翻訳日:2023-08-25 10:57:24 公開日:2023-08-24
# BallGAN:球面背景を持つ3次元画像合成

BallGAN: 3D-aware Image Synthesis with a Spherical Background ( http://arxiv.org/abs/2301.09091v3 )

ライセンス: Link先を確認
Minjung Shin, Yunji Seo, Jeongmin Bae, Young Sun Choi, Hyunsu Kim, Hyeran Byun, Youngjung Uh(参考訳) 3D対応のGANは、任意の視点でレンダリングして画像を生成できるように、リアルな3Dシーンを合成することを目指している。 従来の手法は現実的な画像を生成するが、3次元幾何学が不自然な不安定な訓練や退化解に苦しむ。 3次元幾何学は十分でない制約、すなわち、判別器に実像として分類されるだけでは不十分であると仮定する。 この問題を解決するために,背景を球面として近似し,前景を球面と細い球面の背景の結合として表現することを提案する。 バックグラウンドフィールドにおける自由度を低下させる。 そこで我々はボリュームレンダリングの方程式を変更し,BallGANという新しい3D対応GANフレームワークを設計するための専用制約を組み込んだ。 BallGANには次のような利点がある。 1)異なる視点にまたがるシーンのイメージは、最先端の手法よりもフォトメトリックの一貫性と忠実性が向上する。 2) トレーニングはより安定する。 3) 前景は異なる任意の背景の上に別々に描画することができる。

3D-aware GANs aim to synthesize realistic 3D scenes such that they can be rendered in arbitrary perspectives to produce images. Although previous methods produce realistic images, they suffer from unstable training or degenerate solutions where the 3D geometry is unnatural. We hypothesize that the 3D geometry is underdetermined due to the insufficient constraint, i.e., being classified as real image to the discriminator is not enough. To solve this problem, we propose to approximate the background as a spherical surface and represent a scene as a union of the foreground placed in the sphere and the thin spherical background. It reduces the degree of freedom in the background field. Accordingly, we modify the volume rendering equation and incorporate dedicated constraints to design a novel 3D-aware GAN framework named BallGAN. BallGAN has multiple advantages as follows. 1) It produces more reasonable 3D geometry; the images of a scene across different viewpoints have better photometric consistency and fidelity than the state-of-the-art methods. 2) The training becomes much more stable. 3) The foreground can be separately rendered on top of different arbitrary backgrounds.
翻訳日:2023-08-25 10:57:13 公開日:2023-08-24
# 完全多様体ガウス変分ベイズ

Exact Manifold Gaussian Variational Bayes ( http://arxiv.org/abs/2210.14598v3 )

ライセンス: Link先を確認
Martin Magris, Mostafa Shabani, Alexandros Iosifidis(参考訳) 複雑なモデルにおける変分推論(VI)の最適化アルゴリズムを提案する。 我々のアプローチは、変分空間がリーマン多様体であるような自然な勾配更新に依存する。 我々は,変分共分散行列上の正定値制約を暗黙的に満たすガウス変分推論のための効率的なアルゴリズムを開発した。 我々のExact manifold Gaussian Variational Bayes (EMGVB) は正確な更新ルールを提供するが、簡単に実装できる。 ブラックボックスの性質のため、EMGVBは複雑なモデルにおけるVIのための準備が整ったソリューションである。 5つ以上のデータセットで、異なる統計モデル、計量モデル、深層学習モデルに対する実現可能なアプローチを実証的に検証し、ベースラインメソッドのパフォーマンスについて議論する。

We propose an optimization algorithm for Variational Inference (VI) in complex models. Our approach relies on natural gradient updates where the variational space is a Riemann manifold. We develop an efficient algorithm for Gaussian Variational Inference that implicitly satisfies the positive definite constraint on the variational covariance matrix. Our Exact manifold Gaussian Variational Bayes (EMGVB) provides exact but simple update rules and is straightforward to implement. Due to its black-box nature, EMGVB stands as a ready-to-use solution for VI in complex models. Over five datasets, we empirically validate our feasible approach on different statistical, econometric, and deep learning models, discussing its performance with respect to baseline methods.
翻訳日:2023-08-25 10:56:42 公開日:2023-08-24
# LOPR:ジェネレーティブモデルを用いた潜伏作業適応

LOPR: Latent Occupancy PRediction using Generative Models ( http://arxiv.org/abs/2210.01249v3 )

ライセンス: Link先を確認
Bernard Lange, Masha Itkina, Mykel J. Kochenderfer(参考訳) 環境予測フレームワークは自動運転車に不可欠なもので、動的環境における安全なナビゲーションを可能にする。 LiDARの生成した占有グリッドマップ(L-OGM)は、一般的に使用される軌道予測フレームワークとは異なり、手動ラベリングに頼ることなく、共同シーンの予測を容易にする堅牢な鳥の目視シーン表現を提供する。 従来のアプローチでは、グリッドセル空間で直接、決定論的L-OGM予測アーキテクチャを最適化していた。 これらの手法は予測においてある程度の成功を収めてきたが、時には非現実的で誤った予測に悩まされる。 予測された占有グリッドの品質とリアリズムは生成モデルを用いて向上できると主張している。 本稿では, 占有率予測を「表現学習」と「確率予測」に分解する枠組みを提案する。 提案手法では,RGBカメラや高精細マップなど,利用可能なセンサモードでモデルを条件付けすることができる。 このアプローチが最先端のパフォーマンスを達成し、実世界の裸眼、waymo open、実験車プラットフォームで収集したカスタムデータセット上で、さまざまなロボットプラットフォーム間で容易に転送できることを実証する。

Environment prediction frameworks are integral for autonomous vehicles, enabling safe navigation in dynamic environments. LiDAR generated occupancy grid maps (L-OGMs) offer a robust bird's eye-view scene representation that facilitates joint scene predictions without relying on manual labeling unlike commonly used trajectory prediction frameworks. Prior approaches have optimized deterministic L-OGM prediction architectures directly in grid cell space. While these methods have achieved some degree of success in prediction, they occasionally grapple with unrealistic and incorrect predictions. We claim that the quality and realism of the forecasted occupancy grids can be enhanced with the use of generative models. We propose a framework that decouples occupancy prediction into: representation learning and stochastic prediction within the learned latent space. Our approach allows for conditioning the model on other available sensor modalities such as RGB-cameras and high definition maps. We demonstrate that our approach achieves state-of-the-art performance and is readily transferable between different robotic platforms on the real-world NuScenes, Waymo Open, and a custom dataset we collected on an experimental vehicle platform.
翻訳日:2023-08-25 10:56:30 公開日:2023-08-24
# 限定スコープにおけるトップダウン自動開発に向けて:表現可能から実行可能までのニューロシンボリックフレームワーク

Towards Top-Down Automated Development in Limited Scopes: A Neuro-Symbolic Framework from Expressibles to Executables ( http://arxiv.org/abs/2209.01566v4 )

ライセンス: Link先を確認
Jian Gu, Harald C. Gall(参考訳) 深層コード生成はソフトウエアエンジニアリングのためのディープラーニング(DL4SE)のトピックであり、意図された機能のためのコードを生成するためにニューラルモデルを採用する。 エンドツーエンドのニューラルメソッドにはドメイン知識やソフトウェア階層の認識が欠けているため、プロジェクトレベルのタスクでは不十分である。 コード生成の潜在的な改善を体系的に検討するために、限定的なスコープで可能な、‘emph{presentibles} から‘emph{executables} まで、トップダウン開発全体に参加するようにします。 このプロセスでは、大量のサンプル、特徴、知識の恩恵を受けます。 基礎として,コード情報の分類を利用して,コードデータに基づく分類,すなわちコード分類を構築することを提案する。 さらに、テキストデータとコードデータを関連付ける3層セマンティックピラミッド(SP)を導入する。 異なる抽象化レベルの情報を識別し、開発におけるドメイン知識を導入し、ソフトウェアの階層を明らかにします。 さらに,高モジュール性と低複雑性のソフトウェアに焦点を当てた,セマンティック・ピラミッド・フレームワーク(SPF)をアプローチとして提案する。 SPFはコード生成プロセスを段階に分割し、潜在的な相互作用のためのスポットを予約する。 さらに,ニューロシンボリックフレームワークの検証のために,ソフトウェア開発における予備的応用を考案した。

Deep code generation is a topic of deep learning for software engineering (DL4SE), which adopts neural models to generate code for the intended functions. Since end-to-end neural methods lack domain knowledge and software hierarchy awareness, they tend to perform poorly w.r.t project-level tasks. To systematically explore the potential improvements of code generation, we let it participate in the whole top-down development from \emph{expressibles} to \emph{executables}, which is possible in limited scopes. In the process, it benefits from massive samples, features, and knowledge. As the foundation, we suggest building a taxonomy on code data, namely code taxonomy, leveraging the categorization of code information. Moreover, we introduce a three-layer semantic pyramid (SP) to associate text data and code data. It identifies the information of different abstraction levels, and thus introduces the domain knowledge on development and reveals the hierarchy of software. Furthermore, we propose a semantic pyramid framework (SPF) as the approach, focusing on software of high modularity and low complexity. SPF divides the code generation process into stages and reserves spots for potential interactions. In addition, we conceived preliminary applications in software development to confirm the neuro-symbolic framework.
翻訳日:2023-08-25 10:56:10 公開日:2023-08-24
# 多様体上のmin-max最適化のためのリーマンハミルトニアン法

Riemannian Hamiltonian methods for min-max optimization on manifolds ( http://arxiv.org/abs/2204.11418v3 )

ライセンス: Link先を確認
Andi Han, Bamdev Mishra, Pratik Jawanpuria, Pawan Kumar, Junbin Gao(参考訳) 本稿では,リーマン多様体上のmin-max最適化問題について検討する。 リーマンハミルトニアン函数を導入し、最小化は元の min-max 問題を解くプロキシとして機能する。 ハミルトン函数上のリーマン的Polyak--{\L}ojasiewicz条件の下では、最小化子は所望のmin-maxサドル点に対応する。 この条件が満たされたケースも提供します。 特に測地-双線型最適化では、プロキシ問題を解くことにより、大域的最適性への正しい探索方向が導かれる。 ハミルトン関数を最小化するために、リーマンハミルトニアン法(rhm)を提案し、それらの収束解析を提案する。 我々はRHMをコンセンサス正則化と確率的設定に拡張する。 本稿では,サブスペースロバストなwaserstein距離,ニューラルネットワークのロバストトレーニング,生成的逆ネットワークといった応用におけるrrmの有効性について述べる。

In this paper, we study min-max optimization problems on Riemannian manifolds. We introduce a Riemannian Hamiltonian function, minimization of which serves as a proxy for solving the original min-max problems. Under the Riemannian Polyak--{\L}ojasiewicz condition on the Hamiltonian function, its minimizer corresponds to the desired min-max saddle point. We also provide cases where this condition is satisfied. For geodesic-bilinear optimization in particular, solving the proxy problem leads to the correct search direction towards global optimality, which becomes challenging with the min-max formulation. To minimize the Hamiltonian function, we propose Riemannian Hamiltonian methods (RHM) and present their convergence analyses. We extend RHM to include consensus regularization and to the stochastic setting. We illustrate the efficacy of the proposed RHM in applications such as subspace robust Wasserstein distance, robust training of neural networks, and generative adversarial networks.
翻訳日:2023-08-25 10:55:48 公開日:2023-08-24
# Halo: オープンソースの弱言語モデルにおける幻覚の推定と削減

Halo: Estimation and Reduction of Hallucinations in Open-Source Weak Large Language Models ( http://arxiv.org/abs/2308.11764v2 )

ライセンス: Link先を確認
Mohamed Elaraby, Mengyin Lu, Jacob Dunn, Xueying Zhang, Yu Wang, Shizhu Liu(参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらした。 研究や実用化には便利だが、パラメータが少ないオープンソースのLLMは、より大きなものに比べて深刻な幻覚に悩まされることが多い。 本稿では,研究用および商用用として公開されている,より弱いオープンソースLLMの代表であるBLOOM 7Bの幻覚の測定と低減に焦点をあてる。 我々は,LLMにおける幻覚の重症度を定量化する軽量なブラックボックス知識フリーフレームワークであるHaloCheckを紹介する。 さらに,低パラメータLDMにおける幻覚を軽減するための知識注入や教師の指導的アプローチなどの手法についても検討する。 本実験は,これらのLSMに対する挑戦領域における幻覚の減少を効果的に示すものである。

Large Language Models (LLMs) have revolutionized Natural Language Processing (NLP). Although convenient for research and practical applications, open-source LLMs with fewer parameters often suffer from severe hallucinations compared to their larger counterparts. This paper focuses on measuring and reducing hallucinations in BLOOM 7B, a representative of such weaker open-source LLMs that are publicly available for research and commercial applications. We introduce HaloCheck, a lightweight BlackBox knowledge-free framework designed to quantify the severity of hallucinations in LLMs. Additionally, we explore techniques like knowledge injection and teacher-student approaches to alleviate hallucinations in low-parameter LLMs. Our experiments effectively demonstrate the reduction of hallucinations in challenging domains for these LLMs.
翻訳日:2023-08-25 10:49:52 公開日:2023-08-24
# 動的オープン語彙強化型インテリジェンス付き安全着陸(DOVESEI)

Dynamic Open Vocabulary Enhanced Safe-landing with Intelligence (DOVESEI) ( http://arxiv.org/abs/2308.11471v2 )

ライセンス: Link先を確認
Haechan Mark Bong and Rongge Zhang and Ricardo de Azambuja and Giovanni Beltrame(参考訳) この作業は、都市空飛ぶロボットの基本的なステップである、安全な着陸を目指しています。 我々の関心は、安全な着陸知覚スタックの最も重要な側面であるセグメンテーション(segmentation)に向けられている。 本稿では,オープンボキャブラリ画像セグメンテーションの能力を生かして,視覚サーボ機能を利用したリアクティブUAVシステムを提案する。 このアプローチは、そのオープンな語彙方法論のおかげで、内部モデルを洗練するための広範なデータ蓄積の必要性を回避し、最小限の調整で様々なシナリオに適応することができる。 地方自治体が課す制限を考えると,我々の主な焦点は高度100メートルを起点とする運用である。 この選択は意図的であり、多くの先行作品が、小型ステレオカメラの能力に合わせて、高度30メートルに対処してきた。 その結果、残りの20mは従来の3次元経路計画法でナビゲートされる。 単眼カメラと画像セグメンテーションを用いて,高度20mの地点での着陸操作を成功させる能力を示した。 しかし,この手法は,映像ストリーム内のフレーム間セグメンテーションにおける断続的かつ時折急激な変動に対して脆弱である。 この課題に対処するために、我々はダイナミックフォーカスと呼ばれる、現在の着陸段階に応じて自己調整するマスキング機構を導入することにより、画像分割出力を強化する。 このダイナミックフォーカスは、地上に投影されたドローンの安全半径を超える領域を避けるよう制御システムを誘導し、ゆらぎの問題を緩和する。 この補助層の実装により,グローバルセグメンテーションと比較して,着陸成功率が約10倍に向上した。 ソースコードはすべてオープンソースでオンラインで入手できる(github.com/MISTLab/DOVESEI)。

This work targets what we consider to be the foundational step for urban airborne robots, a safe landing. Our attention is directed toward what we deem the most crucial aspect of the safe landing perception stack: segmentation. We present a streamlined reactive UAV system that employs visual servoing by harnessing the capabilities of open vocabulary image segmentation. This approach can adapt to various scenarios with minimal adjustments, bypassing the necessity for extensive data accumulation for refining internal models, thanks to its open vocabulary methodology. Given the limitations imposed by local authorities, our primary focus centers on operations originating from altitudes of 100 meters. This choice is deliberate, as numerous preceding works have dealt with altitudes up to 30 meters, aligning with the capabilities of small stereo cameras. Consequently, we leave the remaining 20m to be navigated using conventional 3D path planning methods. Utilizing monocular cameras and image segmentation, our findings demonstrate the system's capability to successfully execute landing maneuvers at altitudes as low as 20 meters. However, this approach is vulnerable to intermittent and occasionally abrupt fluctuations in the segmentation between frames in a video stream. To address this challenge, we enhance the image segmentation output by introducing what we call a dynamic focus: a masking mechanism that self adjusts according to the current landing stage. This dynamic focus guides the control system to avoid regions beyond the drone's safety radius projected onto the ground, thus mitigating the problems with fluctuations. Through the implementation of this supplementary layer, our experiments have reached improvements in the landing success rate of almost tenfold when compared to global segmentation. All the source code is open source and available online (github.com/MISTLab/DOVESEI).
翻訳日:2023-08-25 10:49:07 公開日:2023-08-24
# DALNet:動的アンカーラインに基づく鉄道検出ネットワーク

DALNet: A Rail Detection Network Based on Dynamic Anchor Line ( http://arxiv.org/abs/2308.11381v2 )

ライセンス: Link先を確認
Zichen Yu, Quanli Liu, Wei Wang, Liyong Zhang, Xiaoguang Zhao(参考訳) レール検出は、インテリジェントトレインの重要な要素の1つである。 本稿では,アンカー線に基づく車線検出手法を動機とし,動的アンカー線に基づくdalnetと呼ばれるレール検出ネットワークを提案する。 予め定義されたアンカー線が画像に依存しないという問題を解決するため,新しい動的アンカー線機構を設計する。 動的アンカーラインジェネレータを用いて、入力画像中のレールの位置と形状に基づいて、各レールインスタンスに対して適切なアンカーラインを動的に生成する。 これらの動的に生成されたアンカー線は、予め定義されたアンカー線よりも正確にレールをローカライズするためのより良い位置参照と見なすことができる。 さらに,高品質なアノテーションとシナリオ多様性を備えた都市レール検出データセットDL-Railを提案する。 DL-Railには7000対のイメージとアノテーションとシーンタグが含まれており、レール検出の開発を促進することが期待されている。 DALNetを多くの競合車線法と比較した。 その結果,dl-railレール検出データセットと一般的なtusimpleおよびllamasレーン検出ベンチマークでdalnetが最先端のパフォーマンスを達成できた。 コードはhttps://github.com/yzichen/mmlanedetでリリースされる。

Rail detection is one of the key factors for intelligent train. In the paper, motivated by the anchor line-based lane detection methods, we propose a rail detection network called DALNet based on dynamic anchor line. Aiming to solve the problem that the predefined anchor line is image agnostic, we design a novel dynamic anchor line mechanism. It utilizes a dynamic anchor line generator to dynamically generate an appropriate anchor line for each rail instance based on the position and shape of the rails in the input image. These dynamically generated anchor lines can be considered as better position references to accurately localize the rails than the predefined anchor lines. In addition, we present a challenging urban rail detection dataset DL-Rail with high-quality annotations and scenario diversity. DL-Rail contains 7000 pairs of images and annotations along with scene tags, and it is expected to encourage the development of rail detection. We extensively compare DALNet with many competitive lane methods. The results show that our DALNet achieves state-of-the-art performance on our DL-Rail rail detection dataset and the popular Tusimple and LLAMAS lane detection benchmarks. The code will be released at https://github.com/Yzichen/mmLaneDet.
翻訳日:2023-08-25 10:48:26 公開日:2023-08-24
# 陰謀のない超決定論

Superdeterminism Without Conspiracy ( http://arxiv.org/abs/2308.11262v2 )

ライセンス: Link先を確認
Tim Palmer(参考訳) ベルの定理における測定-独立性の仮定が破られる超決定論は、通常、測定される特性の lambda$ と、名目上正確な測定設定 $x$ と $y$ の相補的相関を暗示しているように見えるため、決定論で扱われる。 x$ と y$ が自由変数であるかどうかを決定するのに必要なペルシャの介入の分析に基づいて、陰謀は超決定論を意味するが、超決定論は共謀を含まないことを示す。 共振超決定論では、これらの介入は物理理論と一致し、非共振超決定論ではそれらは矛盾する。 カオス的アトラクタの汎用的性質と、複素ヒルベルト空間の任意に微妙な離散化に基づく非共謀的局所-陰極超決定論的モデルを開発した。 ここで必要な介入は、正確な測定設定の有理数制約である$x$と$y$と矛盾する。 このモデルでは、隠れた変数 $\lambda$ は情報として定義され、自由に選ばれた行列式 $x$ と $y$ の前後で、$x$ と $y$ が決定される。 これらの合理性制約は、$x$と$y$が$\lambda$を固定する自由を制限する。 これらの制約は、$\lambda$と$X$の粗いグレーニングで消える。 量子力学がヒルベルト空間の超決定論的離散化の特異連続体極限として ‘glorily explained and derived’ される可能性を示す。 ベルの定理の背後にある真のメッセージは、基礎物理学(特に重力物理学)のより包括的な理論を開発する必要性であると主張している。

Superdeterminism -- where the Measurement-Independence assumption in Bell's Theorem is violated -- is typically treated with derision as it appears to imply contrived conspiratorial correlations between properties $\lambda$ of particles being measured, and nominally accurate measurement settings $x$ and $y$. Based on an analysis of Pearlean interventions needed to determine whether $x$ and $y$ are free variables, we show that whilst conspiracy implies superdeterminism, superdeterminism does not imply conspiracy. In conspiratorial superdeterminism these interventions are consistent with physical theory; in non-conspiratorial superdeterminism they are inconsistent. A non-conspiratorial locally-causal superdeterministic model is developed, based in part on the generic properties of chaotic attractors and in part on an arbitrarily fine discretisation of complex Hilbert Space. Here the required interventions are inconsistent with rational-number constraints on exact measurement settings $X$ and $Y$. In this model, hidden variables $\lambda$ are defined as the information, over and above the freely chosen determinants of $x$ and $y$, which determine $X$ and $Y$. These rationality constraints limit the freedom to vary $x$ and $y$ keeping $\lambda$ fixed. These constraints disappear with any coarse-graining of $\lambda$ and hence $X$. We show how quantum mechanics might be `gloriously explained and derived' as the singular continuum limit of a superdeterministic discretisation of Hilbert Space. We argue that the real message behind Bell's Theorem is the need to develop more holistic theories of fundamental physics -- notably gravitational physics -- some ideas for moving in this direction are discussed.
翻訳日:2023-08-25 10:48:07 公開日:2023-08-24
# ビッグデータ時代のフェデレーション学習:ドメイン特有なマルチモーダル大モデル

Federated Learning in Big Model Era: Domain-Specific Multimodal Large Models ( http://arxiv.org/abs/2308.11217v3 )

ライセンス: Link先を確認
Zengxiang Li and Zhaoxiang Hou and Hui Liu and Ying Wang and Tongzhi Li and Longfei Xie and Chao Shi and Chengyi Yang and Weishan Zhang and Zelei Liu and Liang Xu(参考訳) 物理的世界を包括的に認識し認識できるマルチモーダルデータは、汎用人工知能への必須経路となっている。 しかし、パブリックデータセットでトレーニングされたマルチモーダルな大規模モデルは、特定の産業領域では性能が劣ることが多い。 本稿では、複数の企業がプライベートドメインデータを利用して、垂直ドメインのための大規模モデルを協調的にトレーニングし、シナリオをまたいだインテリジェントなサービスを実現するマルチモーダルフェデレーション学習フレームワークを提案する。 著者らは、ヘテロジニアスデータ、モデルアグリゲーション、パフォーマンスとコストのトレードオフ、データプライバシ、インセンティブメカニズムにおいて直面する新たな課題と同様に、ビッグデータ時代のインテリジェンス基盤と目的の観点から、フェデレーション学習の戦略的変革について詳細に論じている。 本稿では,分散配置やフェデレート学習プラットフォームの効率的な調整,大規模モデル能力に基づくデータ品質向上に関する技術的革新,効率的な統合微調整アプローチなど,都市安全運用管理にマルチモーダルデータと専門家知識を寄与する大企業のケーススタディを詳述する。 予備実験により、企業はマルチモーダルモデルフェデレーション学習を通じてインテリジェントな能力を増強し蓄積することができ、エネルギーインフラの安全性、住宅コミュニティのセキュリティ、都市運営管理を含む高品質なインテリジェントサービスを提供するスマートシティモデルを共同で作成できることが示された。 確立されたフェデレーション学習連携エコシステムは、産業、学界、研究資源を更に集約し、複数の垂直領域における大規模モデルを実現し、人工知能の大規模産業応用とマルチモーダルフェデレーション学習の最先端研究を促進することが期待されている。

Multimodal data, which can comprehensively perceive and recognize the physical world, has become an essential path towards general artificial intelligence. However, multimodal large models trained on public datasets often underperform in specific industrial domains. This paper proposes a multimodal federated learning framework that enables multiple enterprises to utilize private domain data to collaboratively train large models for vertical domains, achieving intelligent services across scenarios. The authors discuss in-depth the strategic transformation of federated learning in terms of intelligence foundation and objectives in the era of big model, as well as the new challenges faced in heterogeneous data, model aggregation, performance and cost trade-off, data privacy, and incentive mechanism. The paper elaborates a case study of leading enterprises contributing multimodal data and expert knowledge to city safety operation management , including distributed deployment and efficient coordination of the federated learning platform, technical innovations on data quality improvement based on large model capabilities and efficient joint fine-tuning approaches. Preliminary experiments show that enterprises can enhance and accumulate intelligent capabilities through multimodal model federated learning, thereby jointly creating an smart city model that provides high-quality intelligent services covering energy infrastructure safety, residential community security, and urban operation management. The established federated learning cooperation ecosystem is expected to further aggregate industry, academia, and research resources, realize large models in multiple vertical domains, and promote the large-scale industrial application of artificial intelligence and cutting-edge research on multimodal federated learning.
翻訳日:2023-08-25 10:47:38 公開日:2023-08-24
# Visual Crowd Analysis: オープンリサーチの問題

Visual Crowd Analysis: Open Research Problems ( http://arxiv.org/abs/2308.10677v2 )

ライセンス: Link先を確認
Muhammad Asif Khan, Hamid Menouar, Ridha Hamila(参考訳) 過去10年間で、コンピュータービジョンコミュニティ内では、自動的な群衆監視への関心が高まっている。 最新のディープラーニングアプローチにより、完全に自動化されたビジョンベースのクラウド監視アプリケーションの開発が可能になった。 しかし、現在進行中の問題の大きさ、重要な技術進歩、研究コミュニティの一貫した関心にもかかわらず、克服すべき課題がまだたくさんある。 本稿では,視覚的群集分析の6つの主要な領域を掘り下げ,それぞれの領域における重要な展開を強調した。 我々は,自動群集モニタリングの分野が発展し,発展し続けることを保証するため,今後の作業において取り組まなければならない重要な未解決の問題を概説する。 この話題に関するいくつかの調査が過去に行われた。 それにもかかわらず、本論文は、より直感的な作品の分類を徹底的に検討し、またこの分野における最新のブレークスルーを描写し、過去数年間に行われたより最近の研究を簡潔にまとめたものである。 本稿では,新鮮さや性能向上に重要な貢献をした傑作を慎重に選び,現状の進歩を包括的に紹介する。

Over the last decade, there has been a remarkable surge in interest in automated crowd monitoring within the computer vision community. Modern deep-learning approaches have made it possible to develop fully-automated vision-based crowd-monitoring applications. However, despite the magnitude of the issue at hand, the significant technological advancements, and the consistent interest of the research community, there are still numerous challenges that need to be overcome. In this article, we delve into six major areas of visual crowd analysis, emphasizing the key developments in each of these areas. We outline the crucial unresolved issues that must be tackled in future works, in order to ensure that the field of automated crowd monitoring continues to progress and thrive. Several surveys related to this topic have been conducted in the past. Nonetheless, this article thoroughly examines and presents a more intuitive categorization of works, while also depicting the latest breakthroughs within the field, incorporating more recent studies carried out within the last few years in a concise manner. By carefully choosing prominent works with significant contributions in terms of novelty or performance gains, this paper presents a more comprehensive exposition of advancements in the current state-of-the-art.
翻訳日:2023-08-25 10:47:06 公開日:2023-08-24
# Metaverse: スケーラブルでリアルタイムな仮想世界のためのビジョン、アーキテクチャ要素、今後の方向性

Metaverse: A Vision, Architectural Elements, and Future Directions for Scalable and Realtime Virtual Worlds ( http://arxiv.org/abs/2308.10559v2 )

ライセンス: Link先を確認
Leila Ismail and Rajkumar Buyya(参考訳) クラウドコンピューティングの出現、モノのインターネット対応ヒューマンコンピュータインターフェース、生成人工知能、高精度の機械学習およびディープラーニング認識および予測モデル、ソーシャルネットワークのPost Covid-19の普及、リモートコミュニケーションなどにより、Metaverseは多くの人気を得た。 metaverseは、バーチャルと拡張現実を使って物理的な世界を拡張できるので、ユーザはアバターとホログラムを使って現実世界と仮想世界とシームレスに対話できる。 ソーシャルメディアとの対話、仕事のコラボレーション、マーケティングとビジネスの実行、教育、学習、さらにはパーソナライズされたヘルスケアへのアクセスなど、人々に影響を及ぼす可能性がある。 論文中のいくつかの作品は、ハードウェアウェアラブルデバイスと仮想現実ゲームアプリケーションの観点からメタバースを調べている。 しかしながら、リアルタイムかつ大規模にメタバースを実現するための要件はまだ検討されていない。 この制限に対処するために,メタバース定義の時間的進化を示し,その進化要求を捉える。 その結果、メタバース要件に対する洞察が得られます。 技術の実現に加えて、スケーラブルで信頼性が高く効率的なメタバースシステムのためのアーキテクチャ要素を配置し、既存のメタバースアプリケーションの分類と将来の研究方向を提案する。

With the emergence of Cloud computing, Internet of Things-enabled Human-Computer Interfaces, Generative Artificial Intelligence, and high-accurate Machine and Deep-learning recognition and predictive models, along with the Post Covid-19 proliferation of social networking, and remote communications, the Metaverse gained a lot of popularity. Metaverse has the prospective to extend the physical world using virtual and augmented reality so the users can interact seamlessly with the real and virtual worlds using avatars and holograms. It has the potential to impact people in the way they interact on social media, collaborate in their work, perform marketing and business, teach, learn, and even access personalized healthcare. Several works in the literature examine Metaverse in terms of hardware wearable devices, and virtual reality gaming applications. However, the requirements of realizing the Metaverse in realtime and at a large-scale need yet to be examined for the technology to be usable. To address this limitation, this paper presents the temporal evolution of Metaverse definitions and captures its evolving requirements. Consequently, we provide insights into Metaverse requirements. In addition to enabling technologies, we lay out architectural elements for scalable, reliable, and efficient Metaverse systems, and a classification of existing Metaverse applications along with proposing required future research directions.
翻訳日:2023-08-25 10:46:48 公開日:2023-08-24
# ディープニューラルネットワークにおける層適応重みプルーニングの効率的統合最適化

Efficient Joint Optimization of Layer-Adaptive Weight Pruning in Deep Neural Networks ( http://arxiv.org/abs/2308.10438v2 )

ライセンス: Link先を確認
Kaixin Xu, Zhe Wang, Xue Geng, Jie Lin, Min Wu, Xiaoli Li, Weisi Lin(参考訳) 本稿では,ニューラルネットワーク(dnn)の層適応型重み追従手法を提案し,目標追従比制約に固執しながら出力歪み最小化を最適化する課題を解決する。 当社のアプローチでは,層適応型刈り取り方式の設計におけるすべてのレイヤの集団的影響を考慮に入れる。 複数の層に重みをまき散らすことによって生じる出力歪みの非常に重要な付加性を発見し,活用する。 この特性により、組合せ最適化問題としてプルーニングを定式化し、動的プログラミングにより効率よく解くことができる。 問題を部分問題に分解することで、線形時間複雑性を実現し、最適化アルゴリズムを高速かつcpu上で実行可能にする。 我々は,imagenet および cifar-10 データセットの既存手法に対するアプローチの優位性を示す実験を行った。 CIFAR-10では,ResNet-32では最大1.0%,VGG-16では0.5%,DenseNet-121では0.7%に向上した。 ImageNetでは、VGG-16とResNet-50の他の手法と比較して最大4.7%、トップ1の精度が4.6%向上した。 これらの結果はDNN性能向上のための手法の有効性と実用性を強調した。 コードはhttps://github.com/Akimoto-Cris/RD_VIT_PRUNEで入手できる。

In this paper, we propose a novel layer-adaptive weight-pruning approach for Deep Neural Networks (DNNs) that addresses the challenge of optimizing the output distortion minimization while adhering to a target pruning ratio constraint. Our approach takes into account the collective influence of all layers to design a layer-adaptive pruning scheme. We discover and utilize a very important additivity property of output distortion caused by pruning weights on multiple layers. This property enables us to formulate the pruning as a combinatorial optimization problem and efficiently solve it through dynamic programming. By decomposing the problem into sub-problems, we achieve linear time complexity, making our optimization algorithm fast and feasible to run on CPUs. Our extensive experiments demonstrate the superiority of our approach over existing methods on the ImageNet and CIFAR-10 datasets. On CIFAR-10, our method achieves remarkable improvements, outperforming others by up to 1.0% for ResNet-32, 0.5% for VGG-16, and 0.7% for DenseNet-121 in terms of top-1 accuracy. On ImageNet, we achieve up to 4.7% and 4.6% higher top-1 accuracy compared to other methods for VGG-16 and ResNet-50, respectively. These results highlight the effectiveness and practicality of our approach for enhancing DNN performance through layer-adaptive weight pruning. Code will be available on https://github.com/Akimoto-Cris/RD_VIT_PRUNE.
翻訳日:2023-08-25 10:46:26 公開日:2023-08-24
# 授業コンテンツ開発における生成AIの統合モデル

A Model for Integrating Generative AI into Course Content Development ( http://arxiv.org/abs/2308.12276v2 )

ライセンス: Link先を確認
Ethan Dickey, Andres Bejarano(参考訳) Generative AI(GenAI)モデルが人気を博し続けており、コンピュータサイエンス教育の分野で新たなフロンティアが出現しつつある。 最初の匿名調査の結果、学生の半数近く(48.5%)が学術的な課題のためにGenAIに転向し、現代の教育におけるその役割が増していることが明らかとなった。 ダイナミックでユニークなコースコンテンツを作成する上で、教育者が課題に直面しているため、GenAIの可能性は明らかになる。 コンテンツ開発のためのより迅速な方法を提供するだけでなく、多様で高品質な教育リソースへの道を開き、伝統的な不正行為の方法に対抗し、様々な学生のニーズに応える。 主な疑問は、「GenAIは、意味のあるコンテンツや問題を素早く作成するインストラクターをいかに支援できるか、そして、教育スタッフの作業負荷を減らすことができるのか?」ということだ。 この新しいツールは、教育者がGenAIの能力を利用してコースコンテンツデザインを行う。 このフレームワークは、チャットベースのGenAIを通じて大学レベルの教材を生成するための、体系的で実践的な青写真を提供する。 初歩的な経験から、特定の教育目標や状況に合わせた質の高いコンテンツを提供するため、質問の定式化とGenAIセッションの組織化に関する戦略的ガイダンスを提供します。 私たちの仕事は、特定のワークフローを概説し、genaiを素材開発に活用するための具体的な提案を提供しています。 この論文で提示されたフレームワークと洞察に則って、教育者やコースコンテンツ開発者は、GenAIの革新的なコンテンツ創造に対する大きな可能性に取り組みながら、保証によって前進することができる。

As Generative AI (GenAI) models continue to gain prominence, a new frontier is emerging in the field of computer science education. Results from initial anonymous surveys reveal that nearly half (48.5%) of our students now turn to GenAI for academic assignments, highlighting its growing role in modern education. With educators facing challenges in creating dynamic and unique course content, the potential of GenAI becomes evident. It offers not only a quicker method for content development but also paves the way for diversified, high-quality educational resources, countering traditional cheating methods and catering to varied student needs. Key questions thus arise: "How can GenAI assist instructors in creating meaningful content and problems quickly, and can it reduce the instructional staff's workload?" Addressing the first question, we unveil the "GenAI Content Generation Framework". This novel tool equips educators to tap into the prowess of GenAI for course content design. The framework presents a systematic and practical blueprint for generating university-level course material through chat-based GenAI. Drawing from our first-hand experiences, we provide strategic guidance on formulating inquiries and organizing GenAI sessions to elicit quality content that aligns with specific educational goals and context. Our work stands apart by outlining a specific workflow and offering concrete suggestions for harnessing GenAI in course material development, backed by a strong case for its adoption. Armed with the framework and insights presented in this paper, educators and course content developers can move forward with assurance, tapping into GenAI's vast potential for innovative content creation.
翻訳日:2023-08-25 10:40:54 公開日:2023-08-24
# ゼロショットOOD検出のためのCLIPN:CLIPにノーと言うように教える

CLIPN for Zero-Shot OOD Detection: Teaching CLIP to Say No ( http://arxiv.org/abs/2308.12213v2 )

ライセンス: Link先を確認
Hualiang Wang, Yi Li, Huifeng Yao, Xiaomeng Li(参考訳) out-of-distribution (ood) detectionは、入力画像が未知のクラスから来るかどうかを分類するために、in-distribution (id)データセット上でモデルをトレーニングすることを指す。 畳み込みニューラルネットワークまたはトランスフォーマーに基づく様々なOOD検出手法の設計に多大な努力が費やされている。 しかし、IDのクラス名のみを必要とするCLIPによって駆動されるゼロショットOOD検出手法は、あまり注目されていない。 本稿では,CLIP 内において no の論理を補助する新しい手法である CLIP saying no (CLIPN) を提案する。 我々の主要な動機は、正のセマンティック・プロンプトと否定のセマンティック・プロンプトを用いてOODとIDのサンプルを識別する能力をCLIPに装備することである。 具体的には,画像内の否定意味をキャプチャする新しい学習可能なnoプロンプトとnoテキストエンコーダを設計した。 次に、画像-テキストバイナリ-オポジット損失とテキスト-セマンティック-オポジット損失という2つの損失関数を導入し、CLIPNにプロンプトなしで画像を関連付けるように教え、未知のサンプルを識別できるようにする。 さらに,非プロンプトとテキストエンコーダからの否定的セマンティクスを利用してOOD検出を行う2つのしきい値フリー推論アルゴリズムを提案する。 OOD検出タスクの9つのベンチマークデータセット(IDデータセットと6つのOODデータセット)の実験結果から、VT-B-16に基づくCLIPNは、ImageNet-1K上のゼロショットOOD検出のAUROCとFPR95で7つのよく使われているアルゴリズムを少なくとも2.34%と11.64%上回っている。 私たちのCLIPNは、下流のOODタスクでCLIPを効果的に活用するための基盤となることができます。 コードはhttps://github.com/xmed-lab/clipnで入手できる。

Out-of-distribution (OOD) detection refers to training the model on an in-distribution (ID) dataset to classify whether the input images come from unknown classes. Considerable effort has been invested in designing various OOD detection methods based on either convolutional neural networks or transformers. However, zero-shot OOD detection methods driven by CLIP, which only require class names for ID, have received less attention. This paper presents a novel method, namely CLIP saying no (CLIPN), which empowers the logic of saying no within CLIP. Our key motivation is to equip CLIP with the capability of distinguishing OOD and ID samples using positive-semantic prompts and negation-semantic prompts. Specifically, we design a novel learnable no prompt and a no text encoder to capture negation semantics within images. Subsequently, we introduce two loss functions: the image-text binary-opposite loss and the text semantic-opposite loss, which we use to teach CLIPN to associate images with no prompts, thereby enabling it to identify unknown samples. Furthermore, we propose two threshold-free inference algorithms to perform OOD detection by utilizing negation semantics from no prompts and the text encoder. Experimental results on 9 benchmark datasets (3 ID datasets and 6 OOD datasets) for the OOD detection task demonstrate that CLIPN, based on ViT-B-16, outperforms 7 well-used algorithms by at least 2.34% and 11.64% in terms of AUROC and FPR95 for zero-shot OOD detection on ImageNet-1K. Our CLIPN can serve as a solid foundation for effectively leveraging CLIP in downstream OOD tasks. The code is available on https://github.com/xmed-lab/CLIPN.
翻訳日:2023-08-25 10:40:23 公開日:2023-08-24
# 非凸・非平滑最適化のための適応モーメントを用いた高速化ブロック近似フレームワーク

An Accelerated Block Proximal Framework with Adaptive Momentum for Nonconvex and Nonsmooth Optimization ( http://arxiv.org/abs/2308.12126v2 )

ライセンス: Link先を確認
Weifeng Yang and Wenwen Min(参考訳) 非凸および非平滑最適化のための適応運動量(ABPL$^+$)を持つ加速ブロック近位線形フレームワークを提案する。 いくつかのアルゴリズムでは外挿ステップの潜在的な原因を解析し、アルゴリズムの近位勾配ステップと線形外挿ステップとのトレードオフを評価する比較プロセスを強化することでこの問題を解決する。 さらに、正の整数を持つブロック変数の更新を含む任意のシナリオにアルゴリズムを拡張し、各サイクルが変数ブロックの更新順序をランダムにシャッフルできるようにする。 さらに、緩やかな仮定の下では、ABPL$^+$は外挿パラメータやステップサイズを厳格に制限することなく関数値を単調に減少させることができることを証明し、これらのブロックをランダムな順序で更新し、より明確に直感的にアルゴリズムによって生成されたシーケンスの導関数集合が臨界点集合であることを示す。 さらに,kurdyka-lojasiewicz (k{\l}) 条件を用いて大域収束とアルゴリズムの線形および部分線形収束率を示す。 また,アルゴリズムの有効性と柔軟性を高めるため,アルゴリズムの不正確なバージョンに研究を拡大し,適応的外挿パラメータ戦略を構築し,全体的な性能を向上させる。 我々は,このアルゴリズムを$\ell_0$ノルムによる非負のテンソル分解,$\ell_0$ノルムによる非負の行列分解に適用し,その有効性と有効性を検証するための広範な数値実験を行う。

We propose an accelerated block proximal linear framework with adaptive momentum (ABPL$^+$) for nonconvex and nonsmooth optimization. We analyze the potential causes of the extrapolation step failing in some algorithms, and resolve this issue by enhancing the comparison process that evaluates the trade-off between the proximal gradient step and the linear extrapolation step in our algorithm. Furthermore, we extends our algorithm to any scenario involving updating block variables with positive integers, allowing each cycle to randomly shuffle the update order of the variable blocks. Additionally, under mild assumptions, we prove that ABPL$^+$ can monotonically decrease the function value without strictly restricting the extrapolation parameters and step size, demonstrates the viability and effectiveness of updating these blocks in a random order, and we also more obviously and intuitively demonstrate that the derivative set of the sequence generated by our algorithm is a critical point set. Moreover, we demonstrate the global convergence as well as the linear and sublinear convergence rates of our algorithm by utilizing the Kurdyka-Lojasiewicz (K{\L}) condition. To enhance the effectiveness and flexibility of our algorithm, we also expand the study to the imprecise version of our algorithm and construct an adaptive extrapolation parameter strategy, which improving its overall performance. We apply our algorithm to multiple non-negative matrix factorization with the $\ell_0$ norm, nonnegative tensor decomposition with the $\ell_0$ norm, and perform extensive numerical experiments to validate its effectiveness and efficiency.
翻訳日:2023-08-25 10:39:49 公開日:2023-08-24
# ディープニューラルネットワークの正規化経路計算のための多目的継続法

A multiobjective continuation method to compute the regularization path of deep neural networks ( http://arxiv.org/abs/2308.12044v2 )

ライセンス: Link先を確認
Augustina C. Amakor, Konstantin Sonntag and Sebastian Peitz(参考訳) 深層ニューラルネットワーク(dnn)では、数値効率の確保、モデルの解釈性の向上(関連する特徴の数が少ないことによる)、堅牢性が期待できる機能である。 線形モデルに基づく機械学習のアプローチでは、$\ell^1$ ノルム(すなわちゼロウェイト)と正規化パスと呼ばれる非正規化解という観点から、最もスパース解の間に接続経路が存在することがよく知られている。 ごく最近になって、経験的損失とスパーシリティ($\ell^1$ norm)を2つの矛盾する基準として扱い、結果として生じる多目的最適化問題を解くことによって、正規化パスをDNNに拡張する最初の試みがあった。 しかし、$\ell^1$ のノルムの非滑らかさとパラメータの多さのため、このアプローチは計算の観点からはあまり効率的ではない。 この限界を克服するために,上述の目的に対してパレートフロント全体を非常に効率的な方法で近似できるアルゴリズムを提案する。 決定論的勾配と確率的勾配の両方を用いて数値例を示す。 さらに,正規化経路の知識がネットワークパラメトリゼーションを十分に一般化することを示す。

Sparsity is a highly desired feature in deep neural networks (DNNs) since it ensures numerical efficiency, improves the interpretability of models (due to the smaller number of relevant features), and robustness. In machine learning approaches based on linear models, it is well known that there exists a connecting path between the sparsest solution in terms of the $\ell^1$ norm (i.e., zero weights) and the non-regularized solution, which is called the regularization path. Very recently, there was a first attempt to extend the concept of regularization paths to DNNs by means of treating the empirical loss and sparsity ($\ell^1$ norm) as two conflicting criteria and solving the resulting multiobjective optimization problem. However, due to the non-smoothness of the $\ell^1$ norm and the high number of parameters, this approach is not very efficient from a computational perspective. To overcome this limitation, we present an algorithm that allows for the approximation of the entire Pareto front for the above-mentioned objectives in a very efficient manner. We present numerical examples using both deterministic and stochastic gradients. We furthermore demonstrate that knowledge of the regularization path allows for a well-generalizing network parametrization.
翻訳日:2023-08-25 10:39:19 公開日:2023-08-24
# 固定予算付き2要素バンドのベストアーム同定のための一様最適アルゴリズムについて

On Uniformly Optimal Algorithms for Best Arm Identification in Two-Armed Bandits with Fixed Budget ( http://arxiv.org/abs/2308.12000v2 )

ライセンス: Link先を確認
Po-An Wang, Kaito Ariu, Alexandre Proutiere(参考訳) ベルヌーイ報奨を伴う確率的二本腕包帯における固定予算によるベストアーム識別の問題について検討した。 驚くべきことに、アルゴリズムは存在しません。 (i)すべてのインスタンスで各アームを等しくサンプリングするアルゴリズム(このアルゴリズムは「一様サンプリング」と呼ばれる)と同様に、そのアルゴリズムを実行する。 (ii) このアルゴリズムを少なくとも1つのインスタンスで厳密に上回る。 要するに、一様サンプリングアルゴリズムより優れたアルゴリズムは存在しない。 この結果に向けて,本アルゴリズムの自然なクラスを導入し,全インスタンスにおける一様サンプリングアルゴリズムと同様に動作する任意のアルゴリズムがこのクラスに属することを示す。 この証明は、任意の一貫した安定なアルゴリズムで満たされた誤差率の低い境界を導出し、一貫したサンプリングアルゴリズムがこの下限と一致することを示す。 この結果は, cite{qin2022open} で示される2つの開問題に対する解を提供する。

We study the problem of best-arm identification with fixed budget in stochastic two-arm bandits with Bernoulli rewards. We prove that surprisingly, there is no algorithm that (i) performs as well as the algorithm sampling each arm equally (this algorithm is referred to as the {\it uniform sampling} algorithm) on all instances, and that (ii) strictly outperforms this algorithm on at least one instance. In short, there is no algorithm better than the uniform sampling algorithm. Towards this result, we introduce the natural class of {\it consistent} and {\it stable} algorithms, and show that any algorithm that performs as well as the uniform sampling algorithm on all instances belongs to this class. The proof is completed by deriving a lower bound on the error rate satisfied by any consistent and stable algorithm, and by showing that the uniform sampling algorithm matches this lower bound. Our results provide a solution to the two open problems presented in \cite{qin2022open}.
翻訳日:2023-08-25 10:38:54 公開日:2023-08-24
# ACLS:適応型および条件付きラベル平滑化によるネットワーク校正

ACLS: Adaptive and Conditional Label Smoothing for Network Calibration ( http://arxiv.org/abs/2308.11911v2 )

ライセンス: Link先を確認
Hyekang Park, Jongyoun Noh, Youngmin Oh, Donghyeon Baek, Bumsub Ham(参考訳) 本稿では,ディープニューラルネットワークの信頼度を補正するネットワークキャリブレーションの問題に対処する。 ネットワークキャリブレーションに対する多くのアプローチでは、正規化項を利用した正規化に基づく手法が採用されている。 これらのアプローチはネットワークのキャリブレーションの有効性を示しているが、ネットワークキャリブレーションの観点からは、レギュライゼーションの基本原理に対する理解が不足している。 本稿では,既存の正規化に基づく手法の詳細な解析を行い,ネットワークキャリブレーションへの影響について理解を深める。 特に私たちが観察したのは 1)正規化に基づく手法はラベル平滑化の変種と解釈できる。 2)必ずしも好ましく振る舞うとは限らない。 この分析に基づいて,既存の正規化手法の利点を統一し,制約を回避する新たな損失関数ACLSを導入する。 CIFAR10, Tiny-ImageNet, ImageNet, PASCAL VOCなど, 標準ベンチマークにおける画像分類とセマンティックセマンティックセマンティックセマンティクスの広範な実験結果を示し, 損失関数の有効性を示した。

We address the problem of network calibration adjusting miscalibrated confidences of deep neural networks. Many approaches to network calibration adopt a regularization-based method that exploits a regularization term to smooth the miscalibrated confidences. Although these approaches have shown the effectiveness on calibrating the networks, there is still a lack of understanding on the underlying principles of regularization in terms of network calibration. We present in this paper an in-depth analysis of existing regularization-based methods, providing a better understanding on how they affect to network calibration. Specifically, we have observed that 1) the regularization-based methods can be interpreted as variants of label smoothing, and 2) they do not always behave desirably. Based on the analysis, we introduce a novel loss function, dubbed ACLS, that unifies the merits of existing regularization methods, while avoiding the limitations. We show extensive experimental results for image classification and semantic segmentation on standard benchmarks, including CIFAR10, Tiny-ImageNet, ImageNet, and PASCAL VOC, demonstrating the effectiveness of our loss function.
翻訳日:2023-08-25 10:38:37 公開日:2023-08-24
# 脳画像データのためのエッジ対応ハードクラスタリンググラフポーリング

Edge-aware Hard Clustering Graph Pooling for Brain Imaging Data ( http://arxiv.org/abs/2308.11909v2 )

ライセンス: Link先を確認
Cheng Zhu, Jiayi Zhu, Lijuan Zhang, Xi Wu, Shuqi Yang, Ping Liang, Honghan Chen, Ying Tan(参考訳) グラフ畳み込みネットワーク(GCN)は、異なる脳領域間の非ユークリッド空間依存性を捉えることができ、GCNにおけるグラフプーリング演算子は、表現学習能力を高め、異常な脳地図を取得する鍵となる。 しかしながら、既存の研究設計の大半は、グラフプーリングアプリケーションのシナリオを限定するだけでなく、重要なサブストラクチャをキャプチャする能力を低下させる方法で、元のエッジ機能を無視しながら、ノードの観点からのみグラフプーリング演算子を設計している。 本研究では,エッジ対応ハードクラスタリンググラフプーリング(EHCPool)と呼ばれる,多次元エッジ機能を最初にサポートするクラスタリンググラフプーリング法を開発した。 EHCPoolは、エッジ特徴に基づく最初の'Edge-to-node'スコア評価基準を提案し、ノード特徴の意義を評価する。 クリティカルな部分グラフをより効果的に捉えるために、グラフのスパースハードクラスタリング割り当てを適応的に学習するように、新しいイテレーションnトップ戦略も設計されている。 その後、各独立部分グラフの集約ノードとエッジ特徴情報に対して、革新的なN-E集約戦略を示す。 提案モデルは,多地点脳イメージングデータを用いて評価し,最新性能を得た。 この手法は、データ駆動の観点から異なるタイプの機能的脳ネットワークを探索する可能性を秘めている最初のディープラーニングツールであると考えている。

Graph Convolutional Networks (GCNs) can capture non-Euclidean spatial dependence between different brain regions, and the graph pooling operator in GCNs is key to enhancing the representation learning capability and acquiring abnormal brain maps. However, the majority of existing research designs graph pooling operators only from the perspective of nodes while disregarding the original edge features, in a way that not only confines graph pooling application scenarios, but also diminishes its ability to capture critical substructures. In this study, a clustering graph pooling method that first supports multidimensional edge features, called Edge-aware hard clustering graph pooling (EHCPool), is developed. EHCPool proposes the first 'Edge-to-node' score evaluation criterion based on edge features to assess node feature significance. To more effectively capture the critical subgraphs, a novel Iteration n-top strategy is further designed to adaptively learn sparse hard clustering assignments for graphs. Subsequently, an innovative N-E Aggregation strategy is presented to aggregate node and edge feature information in each independent subgraph. The proposed model was evaluated on multi-site brain imaging public datasets and yielded state-of-the-art performance. We believe this method is the first deep learning tool with the potential to probe different types of abnormal functional brain networks from data-driven perspective.
翻訳日:2023-08-25 10:38:18 公開日:2023-08-24
# フィードバックループを用いた対人訓練

Adversarial Training Using Feedback Loops ( http://arxiv.org/abs/2308.11881v2 )

ライセンス: Link先を確認
Ali Haisam Muhammad Rafid, Adrian Sandu(参考訳) ディープニューラルネットワーク(dnn)は、非常に複雑な入出力関係を正確に学習する能力があるため、多くの分野において幅広い適用性を見出している。 精度と広範囲な使用にもかかわらず、DNNは限定的な一般化性のために敵の攻撃を受けやすい。 この分野の今後の進歩のためには、データポイントに対するあらゆる摂動に対して堅牢なDNNを構築することが不可欠である。 これまで,ネットワークの1次微分情報を用いてDNNを堅牢化する手法が提案されてきた。 本稿では制御理論に基づく新しいロバスト化手法を提案する。 フィードバック制御を組み込んだニューラルネットワークアーキテクチャであるFeedback Neural Networksが提案されている。 コントローラ自体はニューラルネットワークであり、システムの出力を安定化するなど、通常のデータと逆データを使ってトレーニングされる。 フィードバック制御アーキテクチャに基づく新しい逆行訓練アプローチは、フィードバックループ逆行訓練(FLAT)と呼ばれる。 標準的なテスト問題に対する数値的な結果から,我々のFLAT法は敵攻撃に対する防御技術よりも有効であることが示された。

Deep neural networks (DNN) have found wide applicability in numerous fields due to their ability to accurately learn very complex input-output relations. Despite their accuracy and extensive use, DNNs are highly susceptible to adversarial attacks due to limited generalizability. For future progress in the field, it is essential to build DNNs that are robust to any kind of perturbations to the data points. In the past, many techniques have been proposed to robustify DNNs using first-order derivative information of the network. This paper proposes a new robustification approach based on control theory. A neural network architecture that incorporates feedback control, named Feedback Neural Networks, is proposed. The controller is itself a neural network, which is trained using regular and adversarial data such as to stabilize the system outputs. The novel adversarial training approach based on the feedback control architecture is called Feedback Looped Adversarial Training (FLAT). Numerical results on standard test problems empirically show that our FLAT method is more effective than the state-of-the-art to guard against adversarial attacks.
翻訳日:2023-08-25 10:37:54 公開日:2023-08-24
# ワーンド分類のための統合画像と位置解析:ディープラーニングによるアプローチ

Integrated Image and Location Analysis for Wound Classification: A Deep Learning Approach ( http://arxiv.org/abs/2308.11877v2 )

ライセンス: Link先を確認
Yash Patel, Tirth Shah, Mrinal Kanti Dhar, Taiyu Zhang, Jeffrey Niezgoda, Sandeep Gopalakrishnan, and Zeyun Yu(参考訳) 急性傷と慢性傷の世界的な負担は, 創傷分類法の向上に有効な症例であり, 最適な治療法の診断と判定において重要なステップである。 この必要性を認識し,糖尿病,圧,外科,静脈潰瘍の4つのカテゴリーに分類するディープ畳み込みニューラルネットワークに基づく,革新的なマルチモーダルネットワークを導入する。 我々のマルチモーダルネットワークは、より正確な分類のために創傷画像とその対応する身体位置を使用する。 本手法のユニークな特徴は, 従来の創傷画像分類手法を改良し, 正確な創傷位置タグ付けを容易にするボディーマップシステムの導入である。 我々のアプローチの特徴は、新しいアーキテクチャでVGG16、ResNet152、EfficientNetのようなモデルを統合することである。 このアーキテクチャには、空間的およびチャネル的絞り・押出モジュール、軸方向の注意、適応ゲート型多層パーセプトロンなどの要素が含まれており、分類の強固な基盤を提供する。 マルチモーダルネットワークを訓練し,関連する画像と対応する位置情報を含む2つの異なるデータセット上で評価した。 提案手法は従来の手法よりも優れており, 位置分類なしの関心領域(ROI)では74.79%から100%, 位置分類付きROIでは73.98%から100%, 全画像分類では78.10%から100%であった。 これは、文献で以前報告されたパフォーマンス指標よりも大幅に向上している。 本研究は,創傷画像分類のための効果的な意思決定支援ツールとしてのマルチモーダルネットワークの可能性を示す。

The global burden of acute and chronic wounds presents a compelling case for enhancing wound classification methods, a vital step in diagnosing and determining optimal treatments. Recognizing this need, we introduce an innovative multi-modal network based on a deep convolutional neural network for categorizing wounds into four categories: diabetic, pressure, surgical, and venous ulcers. Our multi-modal network uses wound images and their corresponding body locations for more precise classification. A unique aspect of our methodology is incorporating a body map system that facilitates accurate wound location tagging, improving upon traditional wound image classification techniques. A distinctive feature of our approach is the integration of models such as VGG16, ResNet152, and EfficientNet within a novel architecture. This architecture includes elements like spatial and channel-wise Squeeze-and-Excitation modules, Axial Attention, and an Adaptive Gated Multi-Layer Perceptron, providing a robust foundation for classification. Our multi-modal network was trained and evaluated on two distinct datasets comprising relevant images and corresponding location information. Notably, our proposed network outperformed traditional methods, reaching an accuracy range of 74.79% to 100% for Region of Interest (ROI) without location classifications, 73.98% to 100% for ROI with location classifications, and 78.10% to 100% for whole image classifications. This marks a significant enhancement over previously reported performance metrics in the literature. Our results indicate the potential of our multi-modal network as an effective decision-support tool for wound image classification, paving the way for its application in various clinical contexts.
翻訳日:2023-08-25 10:37:38 公開日:2023-08-24
# HypBO: エキスパートガイドによる新しい材料探索

HypBO: Expert-Guided Chemist-in-the-Loop Bayesian Search for New Materials ( http://arxiv.org/abs/2308.11787v2 )

ライセンス: Link先を確認
Abdoulatif Cisse, Xenophon Evangelopoulos, Sam Carruthers, Vladimir V. Gusev, Andrew I. Cooper(参考訳) ロボットと自動化は、材料発見のような難易度の高い多変量科学的な問題を解決するための膨大な加速を提供する。 ベイズ最適化(BO)は、ターゲット関数/プロパティの分析形式が知られていないタスクで繁栄する、一般的なサンプル効率最適化エンジンとして登場した。 ここでは、専門家の人間知識を仮説の形で活用し、化学空間の有望な領域へのベイズ探索をより迅速に行う。 従来の手法では、既存の実験的な測定から導かれた基礎的な分布を使用していた。 また、そのような分布は複雑な仮説を捉えることができない。 提案手法はhypboと呼ばれ,人間の仮説を駆使して改良されたサンプル種を生成する。 発芽しない種子は自動的に割引され、有望な種子はサロゲートモデルデータを増やすために使用され、より良いインフォームドサンプリングが達成される。 このプロセスは、二段階最適化フレームワークで組織されたグローバル対ローカル検索方式で継続される。 本手法は,様々な合成機能上での性能を検証し,専門家仮説を用いることで検索性能が著しく向上する実化学設計タスクにおいて,その実用性を示す。

Robotics and automation offer massive accelerations for solving intractable, multivariate scientific problems such as materials discovery, but the available search spaces can be dauntingly large. Bayesian optimization (BO) has emerged as a popular sample-efficient optimization engine, thriving in tasks where no analytic form of the target function/property is known. Here we exploit expert human knowledge in the form of hypotheses to direct Bayesian searches more quickly to promising regions of chemical space. Previous methods have used underlying distributions derived from existing experimental measurements, which is unfeasible for new, unexplored scientific tasks. Also, such distributions cannot capture intricate hypotheses. Our proposed method, which we call HypBO, uses expert human hypotheses to generate an improved seed of samples. Unpromising seeds are automatically discounted, while promising seeds are used to augment the surrogate model data, thus achieving better-informed sampling. This process continues in a global versus local search fashion, organized in a bilevel optimization framework. We validate the performance of our method on a range of synthetic functions and demonstrate its practical utility on a real chemical design task where the use of expert hypotheses accelerates the search performance significantly.
翻訳日:2023-08-25 10:37:08 公開日:2023-08-24