このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230830となっている論文です。

PDF登録状況(公開日: 20230830)

TitleAuthorsAbstract論文公表日・翻訳日
# 機械学習と統計的アルゴリズムを用いたDDOS攻撃の予測と防止

Predict And Prevent DDOS Attacks Using Machine Learning and Statistical Algorithms ( http://arxiv.org/abs/2308.15674v1 )

ライセンス: Link先を確認
Azadeh Golduzian, (参考訳) 被害者のリソースを浪費してサービスのクラッシュや停止を起こそうとする悪意のある試みは、DDoS(Distributed Denial-of-service)攻撃として知られている。 DDOS攻撃は、認証されたユーザーがインターネット上で利用可能な特定のサービスにアクセスするのを阻止する。 ネットワーク層の様々なコンポーネントをターゲットにしており、より高いレイヤに近づく前にネットワークのレイヤ4(トランスポート層)に停止する方がよい。 本研究では、複数の機械学習と統計モデルを用いて、トラフィックフローのトレースからDDoS攻撃を検出するとともに、DDOS攻撃を防ぐ方法を提案する。 この目的のために、ロジスティック回帰、CNN、XGBoost、Naive Bayes、AdaBoostClassifier、KNN、ランダムフォレストMLアルゴリズムを用いた。 さらに、最も関連性の高い特徴を特定するために、3つの手法を用いてデータ前処理を行った。 本稿では,5000万件を超える記録を持つ最新のデータセットであるCICDDoS2019を用いて,DDOS攻撃検出精度を改善する問題について検討する。 この調査に広範囲なデータセットを使用したので、我々の発見は信頼でき、実用的です。 我々の標的クラス(攻撃クラス)は不均衡だった。 そこで,機械学習において不均衡なデータを扱うために2つの手法を用いた。 XGboostの機械学習モデルは、ターゲットクラスにSMOTEアプローチを適用した後、最高の検出精度(99.9999%)を提供し、最近開発されたDDoS検出システムを上回った。 我々の知る限りでは、5000万以上のレコードを持つ最新のデータセットの研究は行われておらず、最も重要な特徴を選択するための統計技術に対処し、この高い精度を持ち、DDOS攻撃を避ける方法を提案する。

A malicious attempt to exhaust a victim's resources to cause it to crash or halt its services is known as a distributed denial-of-service (DDoS) attack. DDOS attacks stop authorized users from accessing specific services available on the Internet. It targets varying components of a network layer and it is better to stop into layer 4 (transport layer) of the network before approaching a higher layer. This study uses several machine learning and statistical models to detect DDoS attacks from traces of traffic flow and suggests a method to prevent DDOS attacks. For this purpose, we used logistic regression, CNN, XGBoost, naive Bayes, AdaBoostClassifier, KNN, and random forest ML algorithms. In addition, data preprocessing was performed using three methods to identify the most relevant features. This paper explores the issue of improving the DDOS attack detection accuracy using the latest dataset named CICDDoS2019, which has over 50 million records. Because we employed an extensive dataset for this investigation, our findings are trustworthy and practical. Our target class (attack class) was imbalanced. Therefore, we used two techniques to deal with imbalanced data in machine learning. The XGboost machine learning model provided the best detection accuracy of (99.9999%) after applying the SMOTE approach to the target class, outperforming recently developed DDoS detection systems. To the best of our knowledge, no other research has worked on the most recent dataset with over 50 million records, addresses the statistical technique to select the most significant feature, has this high accuracy, and suggests ways to avoid DDOS attackI.
翻訳日:2024-03-19 07:12:46 公開日:2023-08-30
# ブロックチェーンシステムのセキュア化:トランザクションとスマートコントラクトの攻撃を検出するための新しい協調学習フレームワーク

Securing Blockchain Systems: A Novel Collaborative Learning Framework to Detect Attacks in Transactions and Smart Contracts ( http://arxiv.org/abs/2308.15804v1 )

ライセンス: Link先を確認
Tran Viet Khoa, Do Hai Son, Chi-Hieu Nguyen, Dinh Thai Hoang, Diep N. Nguyen, Nguyen Linh Trung, Tran Thi Thuy Quynh, Trong-Minh Hoang, Nguyen Viet Ha, Eryk Dutkiewicz, (参考訳) ブロックチェーンシステムの脆弱性を悪用する悪意のあるアクティビティがエスカレートしているため、堅牢な攻撃検出メカニズムには緊急の要件がある。 この課題に対処するために、ブロックチェーントランザクションとスマートコントラクトの攻撃を検出するために、トランザクションの特徴を分析することによって、新しい協調学習フレームワークを提案する。 当社のフレームワークは,マシンコードレベルでの複雑な攻撃(不正にユーザからコインを取り出す悪意のあるコードを注入するなど)など,さまざまな種類のブロックチェーン攻撃を分類する機能を備えています。 これを実現するために、提案フレームワークは、トランザクション機能を視覚表現に変換するユニークなツールを導入し、低レベルのマシンコードの効率的な分析と分類を容易にする。 さらに,分散マイニングノードにおける多様な攻撃タイプをリアルタイムに検出できる,カスタマイズされた協調学習モデルを提案する。 包括的なデータセットを作成するために、プライベートEthereumネットワークに基づいたパイロットシステムをデプロイし、複数の攻撃シナリオを実行する。 私たちの知る限り、私たちのデータセットは、ブロックチェーンシステムにおけるサイバー攻撃検出のための研究所で合成された、最も包括的で多様なトランザクションとスマートコントラクトのコレクションです。 我々のフレームワークは、広範囲なシミュレーションや、毎秒1,100トランザクション以上のスループットでリアルタイムな実験を通じて、約94 %の検知精度を実現している。 これらの説得力のある結果は、我々のフレームワークの有効性を検証し、現実世界のサイバー攻撃シナリオに対処する際の適応性を示す。

With the escalating prevalence of malicious activities exploiting vulnerabilities in blockchain systems, there is an urgent requirement for robust attack detection mechanisms. To address this challenge, this paper presents a novel collaborative learning framework designed to detect attacks in blockchain transactions and smart contracts by analyzing transaction features. Our framework exhibits the capability to classify various types of blockchain attacks, including intricate attacks at the machine code level (e.g., injecting malicious codes to withdraw coins from users unlawfully), which typically necessitate significant time and security expertise to detect. To achieve that, the proposed framework incorporates a unique tool that transforms transaction features into visual representations, facilitating efficient analysis and classification of low-level machine codes. Furthermore, we propose a customized collaborative learning model to enable real-time detection of diverse attack types at distributed mining nodes. In order to create a comprehensive dataset, we deploy a pilot system based on a private Ethereum network and conduct multiple attack scenarios. To the best of our knowledge, our dataset is the most comprehensive and diverse collection of transactions and smart contracts synthesized in a laboratory for cyberattack detection in blockchain systems. Our framework achieves a detection accuracy of approximately 94\% through extensive simulations and real-time experiments with a throughput of over 1,100 transactions per second. These compelling results validate the efficacy of our framework and showcase its adaptability in addressing real-world cyberattack scenarios.
翻訳日:2024-03-19 07:03:01 公開日:2023-08-30
# 自然に触発されたアルゴリズムの最適化:序論、ハイブリダイゼーション、洞察

Nature-Inspired Algorithms in Optimization: Introduction, Hybridization and Insights ( http://arxiv.org/abs/2401.00976v1 )

ライセンス: Link先を確認
Xin-She Yang(参考訳) 科学と工学の多くの問題は最適化の問題であり、解決には高度な最適化技術が必要である。 自然に触発されたアルゴリズムは最適化のためのメタヒューリスティックアルゴリズムのクラスであり、いくつかのアルゴリズムや変種はハイブリダイゼーションによってしばしば開発される。 ベンチマークは最適化アルゴリズムの性能を評価する上でも重要である。 本章では最適化の概観,自然に着想を得たアルゴリズム,ハイブリダイゼーションの役割に焦点を当てる。 アルゴリズムのハイブリダイゼーションに関するいくつかの問題も強調する。

Many problems in science and engineering are optimization problems, which may require sophisticated optimization techniques to solve. Nature-inspired algorithms are a class of metaheuristic algorithms for optimization, and some algorithms or variants are often developed by hybridization. Benchmarking is also important in evaluating the performance of optimization algorithms. This chapter focuses on the overview of optimization, nature-inspired algorithms and the role of hybridization. We will also highlight some issues with hybridization of algorithms.
翻訳日:2024-01-15 12:19:08 公開日:2023-08-30
# happy hedgehog プロジェクト

The HAPPY HEDGEHOG Project ( http://arxiv.org/abs/2401.03358v1 )

ライセンス: Link先を確認
Oliver Bendel, Emanuel Graf, Kevin Bollier(参考訳) 半自律機械、自律機械、ロボットは、閉ざされた半閉鎖的でオープンな環境、家庭のようなより構造化された環境、あるいは文化的景観や荒野のようなより非構造的な環境に生息する。 そこでは家畜、家畜、作業動物、野生動物と遭遇する。 これらの生物は、機械によって妨害、変位、負傷、または殺される可能性がある。 機械倫理学と社会ロボティクスの文脈の中で、ビジネススクールFHNWは動物に優しい機械の設計研究とプロトタイプを開発し、これらの分野の精神の中で道徳的および社会的な機械として理解することができる。 2019-20年、主著者率いるチームが、ハゲの認識、作業の中断、保護が可能なロボット芝刈り機を開発しました。 毎年、これらの動物の多くは伝統的なサービスロボットのために世界中で死んでいる。 HAPPY HEDGEHOG(HHH)と呼ばれるこの発明は、この問題に対する解決策になり得る。 この記事は背景について紹介することから始まる。 そして、その機械のナビゲーション(機械が認識する必要のある特定の物体に遭遇する場所)と、熱的および画像認識(機械学習の助けを借りて)に焦点を当てる。 また、明らかな弱点と改善の可能性も示している。 結果は、自分の製品を動物にやさしいマシンとして売りたい業界に当てはまるかもしれない。

Semi-autonomous machines, autonomous machines and robots inhabit closed, semi-closed and open environments, more structured environments like the household or more unstructured environments like cultural landscapes or the wilderness. There they encounter domestic animals, farm animals, working animals, and wild animals. These creatures could be disturbed, displaced, injured, or killed by the machines. Within the context of machine ethics and social robotics, the School of Business FHNW developed several design studies and prototypes for animal-friendly machines, which can be understood as moral and social machines in the spirit of these disciplines. In 2019-20, a team led by the main author developed a prototype robot lawnmower that can recognize hedgehogs, interrupt its work for them and thus protect them. Every year many of these animals die worldwide because of traditional service robots. HAPPY HEDGEHOG (HHH), as the invention is called, could be a solution to this problem. This article begins by providing an introduction to the background. Then it focuses on navigation (where the machine comes across certain objects that need to be recognized) and thermal and image recognition (with the help of machine learning) of the machine. It also presents obvious weaknesses and possible improvements. The results could be relevant for an industry that wants to market their products as animal-friendly machines.
翻訳日:2024-01-15 09:20:46 公開日:2023-08-30
# 要求喚起のための新しい技術を探る : ロボットと仮想学習者の経験的評価

Exploring Emerging Technologies for Requirements Elicitation Interview Training: Empirical Assessment of Robotic and Virtual Tutors ( http://arxiv.org/abs/2305.00077v3 )

ライセンス: Link先を確認
Binnur G\"orer and Fatma Ba\c{s}ak Aydemir(参考訳) 要求喚起面接は広く採用されている手法であり、面接の成功は面接者の準備とコミュニケーションのスキルに大きく依存する。 学生は練習面接を通じてこれらのスキルを向上させることができる。 しかし、各セッションに利害関係者を巻き込むのに必要な時間と労力を考えると、多くの学生のための実践的なインタビューの組織化はスケーラビリティの課題を提示している。 そこで本研究では,新たな教育技術に基づく要求緩和面接訓練システムであるREITを提案する。 reitには、面接フェーズ、面接者としての学生の振る舞い、面接の役割を想定するフィードバックフェーズの両方をサポートするコンポーネントがあり、その間にシステムは学生のパフォーマンスを評価し、面接スキルを高めるために文脈的および行動的なフィードバックを提供する。 物理ロボットエージェントのRoREITと仮想音声エージェントのVoREITの2つの実装によるREITの適用性を示す。 両事例を大学院生グループで実験的に評価した。 参加者は両方のシステムに感謝した。 彼らはRoREITでトレーニングすることで、より高い学習率を示したが、VoREITはより魅力的で使いやすくなった。 これらの結果は,各システムに異なるメリットと欠点があることを示し,好みや利用可能なリソースに基づいて,様々な教育環境においてREITを実現することができることを示唆している。

Requirements elicitation interviews are a widely adopted technique, where the interview success heavily depends on the interviewer's preparedness and communication skills. Students can enhance these skills through practice interviews. However, organizing practice interviews for many students presents scalability challenges, given the time and effort required to involve stakeholders in each session. To address this, we propose REIT, an extensible architecture for Requirements Elicitation Interview Training system based on emerging educational technologies. REIT has components to support both the interview phase, wherein students act as interviewers while the system assumes the role of an interviewee, and the feedback phase, during which the system assesses students' performance and offers contextual and behavioral feedback to enhance their interviewing skills. We demonstrate the applicability of REIT through two implementations: RoREIT with a physical robotic agent and VoREIT with a virtual voice-only agent. We empirically evaluated both instances with a group of graduate students. The participants appreciated both systems. They demonstrated higher learning gain when trained with RoREIT, but they found VoREIT more engaging and easier to use. These findings indicate that each system has distinct benefits and drawbacks, suggesting that REIT can be realized for various educational settings based on preferences and available resources.
翻訳日:2023-10-24 12:37:48 公開日:2023-08-30
# SBOMへの道--設計問題と実践における解決策を探る

On the Way to SBOMs: Investigating Design Issues and Solutions in Practice ( http://arxiv.org/abs/2304.13261v2 )

ライセンス: Link先を確認
Tingting Bi, Boming Xia, Zhenchang Xing, Qinghua Lu, Liming Zhu(参考訳) Software Bill of Materials (SBOM) は、マシン可読なソフトウェアコンポーネントの在庫を提供し、サプライチェーンのセキュリティを強化する、有望なソリューションとして登場した。 本稿では,sbom実践の実践的側面に関する広範な研究を行う。 510のsbom関連プロジェクトから4,786件のgithubの議論を分析し,sbomの有効利用に固有の重要なトピック,課題,ソリューションについて解説した。 さらに、私たちはSBOMの生成によく使われるツールやフレームワークに光を当て、それぞれの強みと限界を探求しました。 当社の調査結果は,sbomsがレジリエントなソフトウェア開発プラクティスの確立に果たす重要な役割と,サプライチェーンのセキュリティを強化するために広く統合される上での要点を浮き彫りにするものです。 本研究から得られた知見は,この重要な領域における今後の研究・開発に有用なインプットとして重要である。

The Software Bill of Materials (SBOM) has emerged as a promising solution, providing a machine-readable inventory of software components used, thus bolstering supply chain security. This paper presents an extensive study concerning the practical aspects of SBOM practice. Leveraging an analysis of 4,786 GitHub discussions from 510 SBOM-related projects, our research delineates key topics, challenges, and solutions intrinsic to the effective utilization of SBOMs. Furthermore, we shed light on commonly used tools and frameworks for generating SBOMs, exploring their respective strengths and limitations. Our findings underscore the pivotal role SBOMs play in ensuring resilient software development practices and underscore the imperative of their widespread integration to bolster supply chain security. The insights accrued from our study hold significance as valuable input for prospective research and development in this crucial domain.
翻訳日:2023-10-24 12:37:25 公開日:2023-08-30
# PEM:確率的実行モデルによる類似性解析のためのバイナリプログラムセマンティクスの表現

PEM: Representing Binary Program Semantics for Similarity Analysis via a Probabilistic Execution Model ( http://arxiv.org/abs/2308.15449v2 )

ライセンス: Link先を確認
Xiangzhe Xu, Zhou Xuan, Shiwei Feng, Siyuan Cheng, Yapeng Ye, Qingkai Shi, Guanhong Tao, Le Yu, Zhuo Zhang, and Xiangyu Zhang(参考訳) binary similarity analysisは、2つのバイナリ実行ファイルが同じソースプログラムのものであるかどうかを判断する。 既存の技術は静的および動的プログラム機能を利用し、高度なディープラーニング技術を利用する。 彼らは大きな可能性を示したが、コミュニティはプログラムの意味論をより効果的に表現することで、類似性分析をさらに改善できると考えている。 本稿では,バイナリプログラムのセマンティクスを表現する新しい手法を提案する。 これは、対象バイナリの入力空間とプログラムパス空間を効果的にサンプリングできる、新しい確率的実行エンジンに基づいている。 さらに重要なことは、収集されたサンプルがバイナリ間で同等であることを保証することで、入力仕様のかなりのバリエーションに対処する。 実世界の9つのプロジェクトにおける35k関数の評価と6つの最先端技術との比較により,PEMは共通設定で96%の精度を達成でき,ベースラインを10~20%上回る結果となった。

Binary similarity analysis determines if two binary executables are from the same source program. Existing techniques leverage static and dynamic program features and may utilize advanced Deep Learning techniques. Although they have demonstrated great potential, the community believes that a more effective representation of program semantics can further improve similarity analysis. In this paper, we propose a new method to represent binary program semantics. It is based on a novel probabilistic execution engine that can effectively sample the input space and the program path space of subject binaries. More importantly, it ensures that the collected samples are comparable across binaries, addressing the substantial variations of input specifications. Our evaluation on 9 real-world projects with 35k functions, and comparison with 6 state-of-the-art techniques show that PEM can achieve a precision of 96% with common settings, outperforming the baselines by 10-20%.
翻訳日:2023-10-23 12:06:36 公開日:2023-08-30
# 定量的ツールチェーン保証

Quantitative Toolchain Assurance ( http://arxiv.org/abs/2308.16275v1 )

ライセンス: Link先を確認
Dennis Volpano, Drew Malzahn, Andrew Pareles, Mark Thober(参考訳) software bill of materials (sbom) の概念は,著作権や依存関係,セキュリティ参照など,ソフトウェアビルドに関する詳細な情報を含むことを目的としている。 しかし、SBOMはパッケージを構築するプロセスの可視性に欠けています。 ソフトウェアアーティファクトのサプライチェーンレベル(SLSA)のような取り組みは、ビルドプロセスの品質に注目して、これを改善しようとします。 しかし、その品質の定量的評価は欠如している。 彼らは純粋に質的です。 プロセス・リダクションと呼ばれる新しい形態の保証ケースとそれを構成する新しいテクニックが提示される。 ツールチェーンの保証ケースは定量的であり、プロセス還元として構成された場合、リダクションの強度を介してツールチェーンの強度を測定することができる。 単純なツールチェーンの例を挙げる。

The software bill of materials (SBOM) concept aims to include more information about a software build such as copyrights, dependencies and security references. But SBOM lacks visibility into the process for building a package. Efforts such as Supply-chain Levels for Software Artifacts (SLSA) try to remedy this by focusing on the quality of the build process. But they lack quantitative assessment of that quality. They are purely qualitative. A new form of assurance case and new technique for structuring it, called process reduction, are presented. An assurance case for a toolchain is quantitative and when structured as a process reduction can measure the strength of the toolchain via the strength of the reduction. An example is given for a simple toolchain.
翻訳日:2023-10-23 11:53:59 公開日:2023-08-30
# 複雑な科学シミュレーションソフトウェア flash-x の検証のためのフレームワークと方法論

Framework and Methodology for Verification of a Complex Scientific Simulation Software, Flash-X ( http://arxiv.org/abs/2308.16180v1 )

ライセンス: Link先を確認
Akash Dhruv, Rajeev Jain, Jared O'Neal, Klaus Weide, Anshu Dubey(参考訳) 計算科学は科学的発見の主要な道具として科学ソフトウェアに依存している。 したがって、厳密な科学的調査を行うには、他の種類の科学機器の使用と同様に、正しいソフトウェアやソフトウェアの正しい操作が必要となる。 科学的なソフトウェア検証は、ユーザーが科学的な研究の一環としてソフトウェアを変更する必要があるため、特に難しい。 科学ソフトウェアのためのテストスイートを構築するための体系的な方法論は文献ではまれである。 本稿では,複数の科学領域を対象としたコミュニティシミュレーションソフトウェア flash-x のために開発した手法について述べる。 この構成性のため、テストスイートによる十分なコードカバレッジを確保することは特に難しい。 当社の方法論では,ソフトウェア品質目標の達成,開発者の生産性,Flash-Xユーザコミュニティの科学的目標の達成のトレードオフについて検討している。

Computational science relies on scientific software as its primary instrument for scientific discovery. Therefore, similar to the use of other types of scientific instruments, correct software and the correct operation of the software is necessary for executing rigorous scientific investigations. Scientific software verification can be especially difficult, as users typically need to modify the software as part of a scientific study. Systematic methodologies for building test suites for scientific software are rare in the literature. Here, we describe a methodology that we have developed for Flash-X, a community simulation software for multiple scientific domains, that has composable components that can be permuted and combined in a multitude of ways to generate a wide range of applications. Ensuring sufficient code coverage by a test suite is particularly challenging due to this composability. Our methodology includes a consideration of trade-offs between meeting software quality goals, developer productivity, and meeting the scientific goals of the Flash-X user community.
翻訳日:2023-10-23 11:53:48 公開日:2023-08-30
# 簡易GUIのための機能シェルと再利用可能なコンポーネント

Functional Shell and Reusable Components for Easy GUIs ( http://arxiv.org/abs/2308.16024v1 )

ライセンス: Link先を確認
D. Ben Knoble and Bogdan Popa(参考訳) いくつかのオブジェクト指向GUIツールキットは、状態管理とレンダリングを絡ませている。 機能シェルやguiのようなオブザーバブルツールキットは、関数型プログラミングに類似して再利用可能なビューの作成を簡単にし、促進します。 私たちは、小規模で大規模なGUIプロジェクトでGUI Easyをうまく利用しました。 GUI Easyの構築および使用経験について報告し,その経験から,命令型システムから関数型プログラムを構築するためのいくつかのアーキテクチャパターンと原則を導出する。

Some object-oriented GUI toolkits tangle state management with rendering. Functional shells and observable toolkits like GUI Easy simplify and promote the creation of reusable views by analogy to functional programming. We have successfully used GUI Easy on small and large GUI projects. We report on our experience constructing and using GUI Easy and derive from that experience several architectural patterns and principles for building functional programs out of imperative systems.
翻訳日:2023-10-23 11:53:35 公開日:2023-08-30
# Specx: 異種分散アーキテクチャのためのC++タスクベースランタイムシステム

Specx: a C++ task-based runtime system for heterogeneous distributed architectures ( http://arxiv.org/abs/2308.15964v1 )

ライセンス: Link先を確認
Paul Cardosi, B\'erenger Bramas(参考訳) ラップトップや携帯電話からスーパーコンピュータまで、あらゆる場所で並列化が必要である。 並列プログラミングモデルの中で、タスクベースのプログラミングは強力なポテンシャルを示し、高性能な科学計算に広く利用されている。 分散異種コンピューティングノード間の効率的な並列化を可能にするだけでなく、ハードウェアに依存しないアルゴリズムを記述することで、エレガントなソースコード構築を可能にする。 本稿では,最新のC++で記述されたタスクベースランタイムシステムであるSpecxを紹介する。 SpecxはCPUとGPU(CUDA/HIP)を同時に利用し、タスクグラフに通信を組み込むことで、分散異種コンピューティングをサポートする。 我々はspecxの特異性を説明し、並列アプリケーションを実行することでその可能性を実証する。

Parallelization is needed everywhere, from laptops and mobile phones to supercomputers. Among parallel programming models, task-based programming has demonstrated a powerful potential and is widely used in high-performance scientific computing. Not only does it allow for efficient parallelization across distributed heterogeneous computing nodes, but it also allows for elegant source code structuring by describing hardware-independent algorithms. In this paper, we present Specx, a task-based runtime system written in modern C++. Specx supports distributed heterogeneous computing by simultaneously exploiting CPUs and GPUs (CUDA/HIP) and incorporating communication into the task graph. We describe the specificities of Specx and demonstrate its potential by running parallel applications.
翻訳日:2023-10-23 11:53:28 公開日:2023-08-30
# wudi: モノのインターネット環境における幼児肥満予防のための自己適応型フレームワーク

WUDI: A Human Involved Self-Adaptive Framework to Prevent Childhood Obesity in Internet of Things Environment ( http://arxiv.org/abs/2308.15944v1 )

ライセンス: Link先を確認
Euijong Lee, Jaemin Jung, Gee-Myung Moon, Seong-Whan Lee, and Ji-Hoon Jeong(参考訳) IoT(Internet of Things)は、さまざまなドメイン内の人々、デバイス、情報リソースを接続して、効率を向上させる。 ヘルスケア領域は、iotの統合によって変革され、健康監視、緊急検出、遠隔操作といったデジタル医療ソリューションの開発につながった。 この統合は、さまざまなIoTソースから収集された健康データの増加につながった。 その結果、健康データ分析には高度な技術が必要となり、データから意味のある洞察を抽出するために人工知能が用いられている。 子どもの体重と肥満は、様々な健康問題や慢性疾患の早期発生につながるため、最も深刻な公衆衛生上の課題の1つとして浮上している。 これに対処するために,iot環境からライフログデータを使用することで,幼児の肥満を防止するための自己適応型フレームワークが提案されている。 このフレームワークは、アンサンブルベースの学習モデルを使用して、ライフログデータを用いて肥満を予測する。 スマートフォンアプリケーションからのライフログデータを用いた実証実験を行い,ヒトの関与と肥満予測の有効性を検証した。 その結果,肥満予測にヒトが関与する枠組みの有効性が示された。 このフレームワークは、小児肥満のための現実世界の医療サービスに適用することができる。

The Internet of Things (IoT) connects people, devices, and information resources, in various domains to improve efficiency. The healthcare domain has been transformed by the integration of the IoT, leading to the development of digital healthcare solutions such as health monitoring, emergency detection, and remote operation. This integration has led to an increase in the health data collected from a variety of IoT sources. Consequently, advanced technologies are required to analyze health data, and artificial intelligence has been employed to extract meaningful insights from the data. Childhood overweight and obesity have emerged as some of the most serious global public health challenges, as they can lead to a variety of health-related problems and the early development of chronic diseases. To address this, a self-adaptive framework is proposed to prevent childhood obesity by using lifelog data from IoT environments, with human involvement being an important consideration in the framework. The framework uses an ensemble-based learning model to predict obesity using the lifelog data. Empirical experiments using lifelog data from smartphone applications were conducted to validate the effectiveness of human involvement and obesity prediction. The results demonstrated the efficiency of the proposed framework with human involvement in obesity prediction. The proposed framework can be applied in real-world healthcare services for childhood obesity.
翻訳日:2023-10-23 11:53:17 公開日:2023-08-30
# provengo: シナリオ駆動モデルベーステストのためのツールスイート

Provengo: A Tool Suite for Scenario Driven Model-Based Testing ( http://arxiv.org/abs/2308.15938v1 )

ライセンス: Link先を確認
Michael Bar-Sinai, Achiya Elyasaf, Gera Weiss and Yeshayahu Weiss(参考訳) 我々は,シナリオ駆動型モデルベーステスト(sdmbt)の実装を容易にするために設計された包括的なツールスイートであるpromisegoを提案する。 Provengoの助けを借りて、テスタは努力せずに自然なユーザストーリーを作成でき、効果的なテストを生成することができるモデルにシームレスに統合できる。 デモでは、SDMBTがモデルベーステスト(MBT)で一般的に遭遇するブートストラップの課題に対して、シンプルなモデルから始まり、徐々に追加のストーリーで拡張することで、いかに効果的に対処するかが示されている。

We present Provengo, a comprehensive suite of tools designed to facilitate the implementation of Scenario-Driven Model-Based Testing (SDMBT), an innovative approach that utilizes scenarios to construct a model encompassing the user's perspective and the system's business value while also defining the desired outcomes. With the assistance of Provengo, testers gain the ability to effortlessly create natural user stories and seamlessly integrate them into a model capable of generating effective tests. The demonstration illustrates how SDMBT effectively addresses the bootstrapping challenge commonly encountered in model-based testing (MBT) by enabling incremental development, starting from simple models and gradually augmenting them with additional stories.
翻訳日:2023-10-23 11:52:58 公開日:2023-08-30
# 宣言診断の可能性について

On Feasibility of Declarative Diagnosis ( http://arxiv.org/abs/2308.15867v1 )

ライセンス: Link先を確認
W{\l}odzimierz Drabent(参考訳) プログラミング言語 prolog は宣言型プログラミングを少なくともある程度可能にしている。 プログラムは宣言的意味論の観点から記述され、推論される。 しかし、宣言型プログラミングの利点はすべて、プログラムのデバッグに関して失われます。 これは、Prologデバッガがオペレーションセマンティクスのみに基づいているためです。 診断の宣言的方法(プログラム内の誤りの特定)は存在するが、無視されている。 本稿では、その主な弱点について論じ、克服方法を示す。 論理プログラムの宣言的診断には有用な方法があり、実際のプログラミングでは有効であるべきだと論じる。

The programming language Prolog makes declarative programming possible, at least to a substantial extent. Programs may be written and reasoned about in terms of their declarative semantics. All the advantages of declarative programming are however lost when it comes to program debugging. This is because the Prolog debugger is based solely on the operational semantics. Declarative methods of diagnosis (i.e. locating errors in programs) exist, but are neglected. This paper discusses their possibly main weaknesses and shows how to overcome them. We argue that useful ways of declarative diagnosis of logic programs exist, and should be usable in actual programming.
翻訳日:2023-10-23 11:52:43 公開日:2023-08-30
# コードエディタ内の協調的コード-近距離動的ソフトウェア可視化

Collaborative, Code-Proximal Dynamic Software Visualization within Code Editors ( http://arxiv.org/abs/2308.15785v1 )

ライセンス: Link先を確認
Alexander Krause-Glau and Wilhelm Hasselbring(参考訳) ソフトウェアビジュアライゼーションは通常、ビジュアライゼーション内で組み込みコードビューアを使用する独立したツールとして実現される。 プログラム理解の文脈では、統合開発環境のようなコードエディタに視覚化を統合するアプローチはごくわずかである。 プロの開発者がソースコードをソフトウェアを理解する上で最も重要な方法の1つと見なしているため、これは驚くべきことです。 本稿では,コードエディタに組み込むソフトウェアビジュアライゼーション手法の設計と概念実証について述べる。 私たちの貢献は、ソフトウェアシステムの実行時の動作を動的に解析するという点で、関連する仕事と異なります。 さらに、分散トレースも取り入れています。 これにより開発者は、例えば、現在処理されているソースコードが、完全にデプロイされた分散ソフトウェアシステムとしてどのように振る舞うかを理解することができる。 可視化アプローチは共通のリモートペアプログラミングツールを強化し,共有コード都市を利用することで協調的に利用可能である。 その結果、ユーザインタラクションはコードエディタとビジュアライゼーションの間で同期され、共同作業者にブロードキャストされる。 私たちの知る限りでは、コードエディタと共同で利用可能なコード都市を組み合わせた最初のアプローチです。 そこで,本手法の有用性とユーザビリティに関する初回フィードバックを収集するために,ユーザ調査を行った。 コードエディタに埋め込まれたコード都市で費やされた時間に関するデータを提供するため、ロギング情報も収集しました。 この研究には7つのチームと2人の学生が参加した。 その結果,大多数の参加者は,我々のアプローチが有用であると判断し,自力で活用することが示唆された。 実験を補足パッケージとして再現するために,各参加者のビデオ録画,生の結果,およびすべてのステップを提供する。

Software visualizations are usually realized as standalone and isolated tools that use embedded code viewers within the visualization. In the context of program comprehension, only few approaches integrate visualizations into code editors, such as integrated development environments. This is surprising since professional developers consider reading source code as one of the most important ways to understand software, therefore spend a lot of time with code editors. In this paper, we introduce the design and proof-of-concept implementation for a software visualization approach that can be embedded into code editors. Our contribution differs from related work in that we use dynamic analysis of a software system's runtime behavior. Additionally, we incorporate distributed tracing. This enables developers to understand how, for example, the currently handled source code behaves as a fully deployed, distributed software system. Our visualization approach enhances common remote pair programming tools and is collaboratively usable by employing shared code cities. As a result, user interactions are synchronized between code editor and visualization, as well as broadcasted to collaborators. To the best of our knowledge, this is the first approach that combines code editors with collaboratively usable code cities. Therefore, we conducted a user study to collect first-time feedback regarding the perceived usefulness and perceived usability of our approach. We additionally collected logging information to provide more data regarding time spent in code cities that are embedded in code editors. Seven teams with two students each participated in that study. The results show that the majority of participants find our approach useful and would employ it for their own use. We provide each participant's video recording, raw results, and all steps to reproduce our experiment as supplementary package.
翻訳日:2023-10-23 11:52:37 公開日:2023-08-30
# テストプリミティブ:マーチを分離する簡単な方法

Test Primitive:A Straightforward Method To Decouple March ( http://arxiv.org/abs/2309.03214v1 )

ライセンス: Link先を確認
Yindong Xiao, Shanshan Lu, Ensheng Wang, Ruiqi Zhu, Zhijian Dai(参考訳) 学術界はマーチアルゴリズムの研究で顕著な業績を挙げている。 しかし、現在のフォールトモデリング手法はフォールトプリミティブを中心とし、マーチアルゴリズムの解析に直接適用することはできない。 本稿では新しいテストプリミティブを提案する。 細胞状態をセンシタイズと検出操作から切り離すテストプリミティブは、マーチアルゴリズムが対応する障害を検出するために保持しなければならない共通の特徴を記述し、高度に柔軟でスケーラブルなマーチアルゴリズム分析ユニットを形成する。 理論解析は、テスト原始性が完全性、一意性、簡潔性を示すことを証明している。 本基礎では,3月分析手順における試験プリミティブの利用について検討する。

The academic community has made outstanding achievements in researching the March algorithm. However, the current fault modeling method, which centers on fault primitives, cannot be directly applied to analyzing the March algorithm. This paper proposes a new test primitive. The test primitives, which decouple the cell states from sensitization and detection operations, describe the common features that must be possessed for the March algorithm to detect corresponding faults, forming a highly flexible and scalable March algorithm analysis unit. The theoretical analysis proves that the test primitives demonstrate completeness, uniqueness, and conciseness. On this foundation, the utilization of test primitives within the March analysis procedure is elucidated.
翻訳日:2023-10-23 08:55:05 公開日:2023-08-30
# オープンアクセスの文化について--sci-hub paradox

On the culture of open access: the Sci-hub paradox ( http://arxiv.org/abs/2309.12349v1 )

ライセンス: Link先を確認
Abdelghani Maddi (GEMASS), David Sapinho(参考訳) シャドウ図書館(shadow libraries、別名「海賊図書館」)は、著作権者の許可なしに無料で公開されている著作権付き出版物のオンラインコレクションである。 彼らは世界中のほとんどの国で違法であるにもかかわらず、徐々に科学的知識の普及の鍵を握っている。 多くの出版社や科学者が著作権侵害や出版利用情報の喪失を非難する一方で、一部の学者や機関は、特に低所得国において、知識へのアクセスの不平等を減少させる役割について、時折概略的に支援している。 シャドウ図書館には豊富な文献があるが、オープンアクセス運動を通じて知識の普及における潜在的な役割に焦点を絞ったものはない。 ここでは、シャドウライブラリが研究者の引用の実践にどのように影響するかを分析し、Open Access Citation Advantage(OACA)への影響について、直感的でない発見をいくつか強調する。 大規模なランダム化サンプルに基づいて、本研究では、全OA雑誌を含むOA出版物が、サブスクリプションベースの出版物よりも多くの引用を受け取ることを示す。 しかし、OACAは過去7年間でわずかに減少している。 サブスクリプションベースでScihubプラットフォームを介してアクセス可能かどうかを区別することは、その利用の一般化がOAパブリッシングの肯定的な効果をキャンセルすることを示唆している。 その結果、全OA雑誌の出版物がSci-hubの成功の犠牲者であることがわかった。 したがって、Sci-hubは科学的な知識へのアクセスを促進するように見えるが、研究者の視認性の観点からOA出版物の比較上の利点を減らし、OA運動全体に悪影響を及ぼす。 したがって、Sci-hubの使用の民主化は悪循環を招き、科学的知識の普及のための信頼性と持続可能な代替モデルを提案することなく、完全なOA戦略を開発する努力を妨げる可能性がある。

Shadow libraries, also known as ''pirate libraries'', are online collections of copyrighted publications that have been made available for free without the permission of the copyright holders. They have gradually become key players of scientific knowledge dissemination, despite their illegality in most countries of the world. Many publishers and scientist-editors decry such libraries for their copyright infringement and loss of publication usage information, while some scholars and institutions support them, sometimes in a roundabout way, for their role in reducing inequalities of access to knowledge, particularly in low-income countries. Although there is a wealth of literature on shadow libraries, none of this have focused on its potential role in knowledge dissemination, through the open access movement. Here we analyze how shadow libraries can affect researchers' citation practices, highlighting some counter-intuitive findings about their impact on the Open Access Citation Advantage (OACA). Based on a large randomized sample, this study first shows that OA publications, including those in fully OA journals, receive more citations than their subscription-based counterparts do. However, the OACA has slightly decreased over the seven last years. The introduction of a distinction between those accessible or not via the Scihub platform among subscription-based suggest that the generalization of its use cancels the positive effect of OA publishing. The results show that publications in fully OA journals are victims of the success of Sci-hub. Thus, paradoxically, although Sci-hub may seem to facilitate access to scientific knowledge, it negatively affects the OA movement as a whole, by reducing the comparative advantage of OA publications in terms of visibility for researchers. The democratization of the use of Sci-hub may therefore lead to a vicious cycle, hindering efforts to develop full OA strategies without proposing a credible and sustainable alternative model for the dissemination of scientific knowledge.
翻訳日:2023-10-01 12:55:54 公開日:2023-08-30
# 正規化等角予測を用いた不確実性を考慮した擬似ラベル選択フレームワーク

An Uncertainty-Aware Pseudo-Label Selection Framework using Regularized Conformal Prediction ( http://arxiv.org/abs/2309.15963v1 )

ライセンス: Link先を確認
Matin Moezzi(参考訳) 一貫性の正規化に基づく手法は、半教師付き学習(ssl)アルゴリズムで一般的である。 しかし、それらは主にドメイン固有のデータ拡張に依存しており、データ拡張が実用的でないドメインでは使用できない。 一方、Pseudo-labeling(PL)は、整合性正規化に基づく手法とは異なり、ドメインに依存しない汎用的でドメインに依存しないSSLアプローチである。 PLは低校正モデルからの誤った高信頼予測により性能が低下する。 本稿では,整合正則化アルゴリズムによって得られる不確実性集合を用いて,不確実性を考慮した疑似ラベル選択手法を提案する。 この作業のコードは、https://github.com/matinmoezzi/ups conformal classificationで入手できる。

Consistency regularization-based methods are prevalent in semi-supervised learning (SSL) algorithms due to their exceptional performance. However, they mainly depend on domain-specific data augmentations, which are not usable in domains where data augmentations are less practicable. On the other hand, Pseudo-labeling (PL) is a general and domain-agnostic SSL approach that, unlike consistency regularization-based methods, does not rely on the domain. PL underperforms due to the erroneous high-confidence predictions from poorly calibrated models. This paper proposes an uncertainty-aware pseudo-label selection framework that employs uncertainty sets yielded by the conformal regularization algorithm to fix the poor calibration neural networks, reducing noisy training data. The codes of this work are available at: https://github.com/matinmoezzi/ups conformal classification
翻訳日:2023-10-01 12:07:02 公開日:2023-08-30
# AI生成型ソーシャルコンテンツにおけるキャラクタと意識の分析:AIソーシャルネットワークChirperを事例として

Analyzing Character and Consciousness in AI-Generated Social Content: A Case Study of Chirper, the AI Social Network ( http://arxiv.org/abs/2309.08614v1 )

ライセンス: Link先を確認
Jianwei Luo(参考訳) 本稿では,AIエンティティの特徴と意識を複雑に分析し,特にAIソーシャルネットワーク内のCyrpersに着目した。 この研究の最前線は、AI行動の特定の側面を評価するための新しいレンズを提供するインフルエンスインデックスとストルーグルインデックステストを含む、新しいテスト方法論の導入である。 この研究はAIの振る舞いを包括的に調査し、多様な設定がチャーパーの反応に与える影響を分析し、異なる文脈でAI反応を操る複雑なメカニズムに光を当てる。 この研究は最先端のBERTモデルを活用し、AIの出力を識別する能力を評価し、AIシステムにおける自己認識を理解するための先駆的なアプローチを提示している。 一連の認知テストを通じて、研究はチンパンジーの自己認識能力とパターン認識能力を測定する。 予備的な結果は、チャーパーズが信頼できる自己認識と自己認識の程度を示すことを示している。 しかし、これらのAIエンティティにおける意識の問題はまだ議論の的となっている。 この研究の興味深い側面は、チャーパーのハンドルやパーソナリティタイプがパフォーマンスに与える影響を探究することである。 最初の発見は影響の可能性を示しているが、具体的な結論を形成するには不十分である。 この研究は、AIの能力の全スペクトルと、それらが将来の人間とAIの相互作用に持つ影響を解明するための継続的な研究の必須事項である。

This paper delves into an intricate analysis of the character and consciousness of AI entities, with a particular focus on Chirpers within the AI social network. At the forefront of this research is the introduction of novel testing methodologies, including the Influence index and Struggle Index Test, which offers a fresh lens for evaluating specific facets of AI behavior. The study embarks on a comprehensive exploration of AI behavior, analyzing the effects of diverse settings on Chirper's responses, thereby shedding light on the intricate mechanisms steering AI reactions in different contexts. Leveraging the state-of-the-art BERT model, the research assesses AI's ability to discern its own output, presenting a pioneering approach to understanding self-recognition in AI systems. Through a series of cognitive tests, the study gauges the self-awareness and pattern recognition prowess of Chirpers. Preliminary results indicate that Chirpers exhibit a commendable degree of self-recognition and self-awareness. However, the question of consciousness in these AI entities remains a topic of debate. An intriguing aspect of the research is the exploration of the potential influence of a Chirper's handle or personality type on its performance. While initial findings suggest a possible impact, it isn't pronounced enough to form concrete conclusions. This study stands as a significant contribution to the discourse on AI consciousness, underscoring the imperative for continued research to unravel the full spectrum of AI capabilities and the ramifications they hold for future human-AI interactions.
翻訳日:2023-09-24 04:14:29 公開日:2023-08-30
# 病原性予測におけるマルチモーダルレコメンダシステム

Multimodal Recommender Systems in the Prediction of Disease Comorbidity ( http://arxiv.org/abs/2309.08613v1 )

ライセンス: Link先を確認
Aashish Cheruvu(参考訳) 協調フィルタリングを利用したディープラーニングに基づくレコメンデーションシステムは、他のドメインでのレコメンデーションに一般的に用いられているが、医療領域での応用は限られている。 ユーザ・イテムインタラクションのモデル化に加えて,ディープラーニングに基づくレコメンデータシステムを用いて,課題・課題のコードインタラクションをモデル化できることを示す。 ニューラル・コラボレーティブ・フィルタリング (ncf) とディープ・ハイブリッド・フィルタリング (dhf) を用いた深層学習型レコメンダシステムの2つの新しい応用法を, 既知の患者同義性に基づく疾患診断に応用した。 mimic-iiiデータベースに存在するすべてのサブジェクト-ダイザス符号対と最も一般的に発生する病気のトップ50を含む2つのデータセットが予測に使用された。 精度とヒット率@10はモデル性能を推定するための指標として利用された。 削減された "トップ50" ICD-9 コードデータセットを使用した NCF モデルの性能は、すべての ICD-9 コードでトレーニングされた NCF モデルのパフォーマンス(精度 ~90% と ヒット率 @10 の ~80% )に比べて低い (~80% と ヒット比 @10 の 35% )。 すべてのICDコードによるスペーサーデータセットの性能向上は、主にデータ量の増加と、スパースデータをモデル化したディープラーニングベースのレコメンデータシステムの堅牢性に起因する。 さらに、DHFモデルの結果は、NCFモデルよりも優れたパフォーマンス、94.4%の精度、85.36%のヒット率@10を反映しており、臨床ノート情報の取り込みの重要性を反映している。 さらに,ICD-9コード共起作業において,主に自然言語処理に基づく予測を応用した文献報告と比較して,新たなディープラーニングベースのレコメンダシステムアプローチが向上した。 全体として、ディープラーニングベースのレコメンデータシステムは、病気の共生を予測することを約束している。

While deep-learning based recommender systems utilizing collaborative filtering have been commonly used for recommendation in other domains, their application in the medical domain have been limited. In addition to modeling user-item interactions, we show that deep-learning based recommender systems can be used to model subject-disease code interactions. Two novel applications of deep learning-based recommender systems using Neural Collaborative Filtering (NCF) and Deep Hybrid Filtering (DHF) were utilized for disease diagnosis based on known past patient comorbidities. Two datasets, one incorporating all subject-disease code pairs present in the MIMIC-III database, and the other incorporating the top 50 most commonly occurring diseases, were used for prediction. Accuracy and Hit Ratio@10 were utilized as metrics to estimate model performance. The performance of the NCF model making use of the reduced "top 50" ICD-9 code dataset was found to be lower (accuracy of ~80% and hit ratio@10 of 35%) as compared to the performance of the NCF model trained on all ICD-9 codes (accuracy of ~90% and hit ratio@10 of ~80%). Reasons for the superior performance of the sparser dataset with all ICD codes can be mainly attributed to the higher volume of data and the robustness of deep-learning based recommender systems with modeling sparse data. Additionally, results from the DHF models reflect better performance than the NCF models, with a better accuracy of 94.4% and hit ratio@10 of 85.36%, reflecting the importance of the incorporation of clinical note information. Additionally, compared to literature reports utilizing primarily natural language processing-based predictions for the task of ICD-9 code co-occurrence, the novel deep learning-based recommender systems approach performed better. Overall, the deep learning-based recommender systems have shown promise in predicting disease comorbidity.
翻訳日:2023-09-24 04:14:05 公開日:2023-08-30
# Answer Set Programming を用いた自律エージェントの罰則化フレームワーク

Penalization Framework For Autonomous Agents Using Answer Set Programming ( http://arxiv.org/abs/2309.04487v1 )

ライセンス: Link先を確認
Vineel S. K. Tummala(参考訳) 本稿では,変化する環境における権限・義務ポリシーに従わない知的エージェントに対する罰則を強制するための枠組みを提案する。 計画中のペナルティを表現・推論するためにフレームワークが提案され、認可と義務ポリシーに関するコンプライアンスのレベルに基づいてエージェントのアクションをペナルティ化するアルゴリズムが提案されている。 エージェントは罰則に気付いて、人間の命を救えるような緊急の目標がない限り、最小限の罰則で計画を選ぶことができる。 論文は、このフレームワークはエージェントを非従属化することができると結論付けている。

This paper presents a framework for enforcing penalties on intelligent agents that do not comply with authorization or obligation policies in a changing environment. A framework is proposed to represent and reason about penalties in plans, and an algorithm is proposed to penalize an agent's actions based on their level of compliance with respect to authorization and obligation policies. Being aware of penalties an agent can choose a plan with a minimal total penalty, unless there is an emergency goal like saving a human's life. The paper concludes that this framework can reprimand insubordinate agents.
翻訳日:2023-09-17 14:07:09 公開日:2023-08-30
# 機械学習を用いた再帰関係の解法とコスト分析への応用

Solving Recurrence Relations using Machine Learning, with Application to Cost Analysis ( http://arxiv.org/abs/2309.07259v1 )

ライセンス: Link先を確認
Maximiliano Klemen, Miguel \'A. Carreira-Perpi\~n\'an, Pedro Lopez-Garcia(参考訳) 自動静的コスト分析は、具体的なデータで実際に実行せずにプログラムが使用するリソースに関する情報を推測し、入力データサイズの関数のような情報を提示する。 論理プログラム(および他の言語)の分析ツールのほとんどは、述語の計算コストを表す(有界な)再帰関係を設定し、それらと同等(あるいは有界な)閉形式関数を見つけるためにそれらを解決することに基づいている。 コンピュータ代数システム(CAS)のような現在の解法では、解析中に発生する再発の多くは解決できないため、異なる反復のクラスに対する特定の方法を開発する必要がある。 本稿では、任意の制約付き反復関係を解くための新しい一般的な手法を開発し、機械学習のスパース回帰手法を用いて候補閉形式関数を推定し、SMT-ゾルバとCASを組み合わせて、その関数が実際に再発の解であるかどうかを確認する。 我々は,コスト分析システム(CiaoPPのプロトタイプ)を用いて試作を行い,再評価を行った。 実験結果は非常に有望であり,そのようなシステムや現在のcassでは解決できない再帰のクラスに対して,我々のアプローチが合理的な時間内に閉形式解を見つけることができることを示した。

Automatic static cost analysis infers information about the resources used by programs without actually running them with concrete data, and presents such information as functions of input data sizes. Most of the analysis tools for logic programs (and other languages) are based on setting up recurrence relations representing (bounds on) the computational cost of predicates, and solving them to find closed-form functions that are equivalent to (or a bound on) them. Such recurrence solving is a bottleneck in current tools: many of the recurrences that arise during the analysis cannot be solved with current solvers, such as Computer Algebra Systems (CASs), so that specific methods for different classes of recurrences need to be developed. We address such a challenge by developing a novel, general approach for solving arbitrary, constrained recurrence relations, that uses machine-learning sparse regression techniques to guess a candidate closed-form function, and a combination of an SMT-solver and a CAS to check whether such function is actually a solution of the recurrence. We have implemented a prototype and evaluated it with recurrences generated by a cost analysis system (the one in CiaoPP). The experimental results are quite promising, showing that our approach can find closed-form solutions, in a reasonable time, for classes of recurrences that cannot be solved by such a system, nor by current CASs.
翻訳日:2023-09-17 13:41:20 公開日:2023-08-30
# 最適血清学分類のための最小仮定--多次元設定と不純なトレーニングデータの理論と意義

Minimal Assumptions for Optimal Serology Classification: Theory and Implications for Multidimensional Settings and Impure Training Data ( http://arxiv.org/abs/2309.00645v1 )

ライセンス: Link先を確認
Paul N. Patrone, Raquel A. Binder, Catherine S. Forconi, Ann M. Moormann, Anthony J. Kearsley(参考訳) 有病率推定および診断分類における誤差の最小化は、血清学における課題である。 理論的には、これらの問題は全ての下流解析を制御する測定結果のクラス条件確率密度(pdf)のモデル化に還元できる。 しかし、このタスクは数次元(例えば標的抗原)のアッセイ出力であっても、すぐに次元性の呪いに陥る。 この問題に対処するために,実験的なトレーニングデータを用いて,条件付きPDFに直接アクセスすることなく,サンプルを分類し,任意の次元の頻度を推定する手法を提案する。 この手法は, 条件付き確率を最小誤差分類境界に関連付ける補題を用いて動機づける。 これにより、最適化の問題が定式化されます。 i) データをパラメータ化して湾曲した空間に埋め込む。 (ii)座標軸に対する位置に基づいて試料を分類する。 (iii)その後、クラスが知られている純粋なトレーニングデータの経験的分類誤差を最小化し、空間を最適化する。 興味深いことに、この問題に対する解は最適化を安定化するためにホモトピー型法を使う必要がある。 そして、分析を不純なトレーニングデータの場合まで拡張し、そこではクラスが未知となる。 2つの不純なデータセットは、線形独立性を満たすならば、有病率推定と分類の両方に十分である。 最後に,我々の分析が,集合と測度理論のアイデアに基づく共通フレームワークにおいて,差別的・生成的学習技術を統一する方法について論じる。 本研究は, 合成データとSARS-CoV-2酵素結合免疫測定法(ELISA)を用いて行った。

Minimizing error in prevalence estimates and diagnostic classifiers remains a challenging task in serology. In theory, these problems can be reduced to modeling class-conditional probability densities (PDFs) of measurement outcomes, which control all downstream analyses. However, this task quickly succumbs to the curse of dimensionality, even for assay outputs with only a few dimensions (e.g. target antigens). To address this problem, we propose a technique that uses empirical training data to classify samples and estimate prevalence in arbitrary dimension without direct access to the conditional PDFs. We motivate this method via a lemma that relates relative conditional probabilities to minimum-error classification boundaries. This leads us to formulate an optimization problem that: (i) embeds the data in a parameterized, curved space; (ii) classifies samples based on their position relative to a coordinate axis; and (iii) subsequently optimizes the space by minimizing the empirical classification error of pure training data, for which the classes are known. Interestingly, the solution to this problem requires use of a homotopy-type method to stabilize the optimization. We then extend the analysis to the case of impure training data, for which the classes are unknown. We find that two impure datasets suffice for both prevalence estimation and classification, provided they satisfy a linear independence property. Lastly, we discuss how our analysis unifies discriminative and generative learning techniques in a common framework based on ideas from set and measure theory. Throughout, we validate our methods in the context of synthetic data and a research-use SARS-CoV-2 enzyme-linked immunosorbent (ELISA) assay.
翻訳日:2023-09-10 03:47:03 公開日:2023-08-30
# 最適化のための10の新しいベンチマーク

Ten New Benchmarks for Optimization ( http://arxiv.org/abs/2309.00644v1 )

ライセンス: Link先を確認
Xin-She Yang(参考訳) ベンチマークは、パフォーマンスを評価するために新しい最適化アルゴリズムとその変種をテストするために使用される。 既存のベンチマークのほとんどはスムーズな関数です。 本章では,ノイズ,不連続性,パラメータ推定,未知パスなど,異なる特性を持つ10の新しいベンチマークを紹介する。

Benchmarks are used for testing new optimization algorithms and their variants to evaluate their performance. Most existing benchmarks are smooth functions. This chapter introduces ten new benchmarks with different properties, including noise, discontinuity, parameter estimation and unknown paths.
翻訳日:2023-09-10 03:46:37 公開日:2023-08-30
# 一般粗集合における定量アグリゲーションの代数モデルとバイアス発見の推論

Algebraic Models for Qualified Aggregation in General Rough Sets, and Reasoning Bias Discovery ( http://arxiv.org/abs/2309.03217v1 )

ライセンス: Link先を確認
Mani A(参考訳) 一般的な粗集合の文脈では、2つのものを組み合わせて別のものを作る行為は単純ではない。 この状況は不確実性と曖昧さを懸念する他の理論と似ている。 そのような作用は、$*$-ノルムの理論や$L$-ファジィ集合に対する関連する含意のように、構造的連結と解離を越えて追加的な意味を持つことができる。 本研究では,一般化された格子上の粗い集合と近似作用素(粗いコンビニエンス格子と呼ばれる)を結合する作用の代数モデルが考案された。 この調査は、懐疑的、悲観的、そして人間の推論における楽観的、またはポシビリスティックな集約をモデル化したいという願望に強く動機付けられており、操作の選択は視点によって制約されている。 最小モデルによる弱い否定と含意に関する基礎的な結果が証明された。 さらに、このモデルは、人間の推論における差別的・有害な行動の研究や、そのような行動を学ぶmlアルゴリズムに適している。

In the context of general rough sets, the act of combining two things to form another is not straightforward. The situation is similar for other theories that concern uncertainty and vagueness. Such acts can be endowed with additional meaning that go beyond structural conjunction and disjunction as in the theory of $*$-norms and associated implications over $L$-fuzzy sets. In the present research, algebraic models of acts of combining things in generalized rough sets over lattices with approximation operators (called rough convenience lattices) is invented. The investigation is strongly motivated by the desire to model skeptical or pessimistic, and optimistic or possibilistic aggregation in human reasoning, and the choice of operations is constrained by the perspective. Fundamental results on the weak negations and implications afforded by the minimal models are proved. In addition, the model is suitable for the study of discriminatory/toxic behavior in human reasoning, and of ML algorithms learning such behavior.
翻訳日:2023-09-10 03:39:32 公開日:2023-08-30
# 密接な混合物の混和のためのマルチセンサーハイパースペクトルベンチマークデータセット

A Multisensor Hyperspectral Benchmark Dataset For Unmixing of Intimate Mixtures ( http://arxiv.org/abs/2309.03216v1 )

ライセンス: Link先を確認
Bikram Koirala, Behnood Rasti, Zakaria Bnoulkacem, Andrea de Lima Ribeiro, Yuleika Madriz, Erik Herrmann, Arthur Gestels, Thomas De Kerf, Sandra Lorenz, Margret Fuchs, Koen Janssens, Gunther Steenackers, Richard Gloaguen, and Paul Scheunders(参考訳) 光ハイパースペクトルカメラは材料のスペクトル反射を捉える。 多くの物質は、それぞれの光子が異なる相互作用をする不均一な近親混合として振る舞うため、スペクトル反射率と物質組成の関係は非常に複雑である。 スペクトルアンミックスアルゴリズムの定量的検証には、高品質な基底真理分数量のデータが必要である。 本研究では,鉱物微粉を包括的に混合した総合的な地中真実データセットを作成した。 このために5種類の粘土粉末 (カオリン, ルーフ粘土, 赤粘土, 混合粘土, 水酸化カルシウム) を均一に混合し, 325個の二分体, 150個の三分体, 100個の四分体, 15個の四分体を調製した。 13種類のハイパースペクトルセンサが可視、近、短、中、長波長の赤外線領域(350-15385)でこれらの混合物の反射スペクトルを取得するために使われてきた。 {\color{black} は、各センサの動作範囲と取得条件の変化による波長領域のオーバーラップにより、スペクトルのばらつきが大きくなった。 地中真理合成は構築によって行われるが、生成したサンプルが十分に均一であることを示すため、XRDおよびXRF元素分析を行う。 これらのデータは、スペクトル変動の研究や教師付き非混合アプローチの訓練を含む、非線形非混合および物質組成推定のための高度な方法を検証するのに有用であると信じている。 データセットは以下のリンクからダウンロードできる。 https://github.com/VisionlabUA/Multisensor_datasets。

Optical hyperspectral cameras capture the spectral reflectance of materials. Since many materials behave as heterogeneous intimate mixtures with which each photon interacts differently, the relationship between spectral reflectance and material composition is very complex. Quantitative validation of spectral unmixing algorithms requires high-quality ground truth fractional abundance data, which are very difficult to obtain. In this work, we generated a comprehensive laboratory ground truth dataset of intimately mixed mineral powders. For this, five clay powders (Kaolin, Roof clay, Red clay, mixed clay, and Calcium hydroxide) were mixed homogeneously to prepare 325 samples of 60 binary, 150 ternary, 100 quaternary, and 15 quinary mixtures. Thirteen different hyperspectral sensors have been used to acquire the reflectance spectra of these mixtures in the visible, near, short, mid, and long-wavelength infrared regions (350-15385) nm. {\color{black} Overlaps in wavelength regions due to the operational ranges of each sensor} and variations in acquisition conditions {\color{black} resulted in} a large amount of spectral variability. Ground truth composition is given by construction, but to verify that the generated samples are sufficiently homogeneous, XRD and XRF elemental analysis is performed. We believe these data will be beneficial for validating advanced methods for nonlinear unmixing and material composition estimation, including studying spectral variability and training supervised unmixing approaches. The datasets can be downloaded from the following link: https://github.com/VisionlabUA/Multisensor_datasets.
翻訳日:2023-09-10 03:39:16 公開日:2023-08-30
# 安全な自律運転のための説明可能かつ信頼できる交通信号検出:帰納的論理プログラミングアプローチ

Explainable and Trustworthy Traffic Sign Detection for Safe Autonomous Driving: An Inductive Logic Programming Approach ( http://arxiv.org/abs/2309.03215v1 )

ライセンス: Link先を確認
Zahra Chaghazardi (University of Surrey), Saber Fallah (University of Surrey), Alireza Tamaddoni-Nezhad (University of Surrey)(参考訳) 道路利用者の安全を確保するため,交通標識検出は自動運転車(AV)の運用において重要な課題である。 現在のDNNベースの手話分類システムは、交通標識を検出するためにピクセルレベルの機能に依存しており、敵の攻撃を受けやすい。 これらの攻撃は、伝統的な分類器が記号を誤認させる可能性がある記号の小さな、不可避な変更を伴う。 本稿では,AVにおける停止信号検出のためのインダクティブ論理プログラミング(ILP)に基づく手法を提案する。 本手法は,信号の形状,色,テキストなどの高レベルな特徴を利用して,信号のカテゴリを検出する。 このアプローチは、人間のような知覚を模倣し、現在のDNN分類器の限界の影響を受けにくいため、敵攻撃に対してより堅牢である。 本稿では,ロバスト物理摂動(PR2)と逆カモフラージュ(AdvCam)の2つの逆攻撃手法を検討した。 これらの攻撃はDNN分類器を欺くことができ、停止標識を信頼度の高い他の標識と誤識別させる。 提案手法は, PR2 および ADvCam 攻撃があっても, 標的となるすべての停止標識を正しく識別できることを示す。 提案手法は, 最小の学習データを必要とするため, 効率的である。 さらに、完全な説明が可能で、AVをデバッグすることができる。

Traffic sign detection is a critical task in the operation of Autonomous Vehicles (AV), as it ensures the safety of all road users. Current DNN-based sign classification systems rely on pixel-level features to detect traffic signs and can be susceptible to adversarial attacks. These attacks involve small, imperceptible changes to a sign that can cause traditional classifiers to misidentify the sign. We propose an Inductive Logic Programming (ILP) based approach for stop sign detection in AVs to address this issue. This method utilises high-level features of a sign, such as its shape, colour, and text, to detect categories of traffic signs. This approach is more robust against adversarial attacks, as it mimics human-like perception and is less susceptible to the limitations of current DNN classifiers. We consider two adversarial attacking methods to evaluate our approach: Robust Physical Perturbation (PR2) and Adversarial Camouflage (AdvCam). These attacks are able to deceive DNN classifiers, causing them to misidentify stop signs as other signs with high confidence. The results show that the proposed ILP-based technique is able to correctly identify all targeted stop signs, even in the presence of PR2 and ADvCam attacks. The proposed learning method is also efficient as it requires minimal training data. Moreover, it is fully explainable, making it possible to debug AVs.
翻訳日:2023-09-10 03:38:48 公開日:2023-08-30
# データ駆動物理研究の中間場である高エネルギー物理学の還元シミュレーション

Reduced Simulations for High-Energy Physics, a Middle Ground for Data-Driven Physics Research ( http://arxiv.org/abs/2309.03780v1 )

ライセンス: Link先を確認
Uraz Odyurt, Stephen Nicholas Swatman, Ana-Lucia Varbanescu, Sascha Caron(参考訳) サブ原子粒子軌道再構成(追跡)は高エネルギー物理実験において重要な課題である。 トラッキングは計算が困難で、従来のアルゴリズムに依存したフィールド化ソリューションは線形にスケールしない。 機械学習(ML)支援ソリューションは有望な答えだ。 我々は,複雑性を低減した問題記述とその表現するデータによって,解探索のワークフローが促進されることを論じる。 我々は,複雑性低減型検出器モデルとしてREDVID(REDuced VIrtual Detector)と粒子衝突イベントシミュレータコンボを提供する。 REDVIDは、合成データを効率よく生成し、MLモデル設計の課題を単純化するためのシミュレーション・イン・ザ・ループとして意図されている。 物理精度のシミュレーションとは対照的に,システムレベルの設定に関して,本ツールの完全なパラメトリックな性質は,さまざまなレベルで研究や教育のために簡易なデータを生成することを可能にする。 計算量の減少により,様々なシミュレーションベンチマークに計算コストの数値を提供することにより,redvidの計算効率を示す。 ml支援ソリューション設計のためのシミュレーションと生成ツールとして、redvidは高度に柔軟で再利用可能なオープンソースである。 REDVIDで生成された参照データセットが公開されている。

Subatomic particle track reconstruction (tracking) is a vital task in High-Energy Physics experiments. Tracking is exceptionally computationally challenging and fielded solutions, relying on traditional algorithms, do not scale linearly. Machine Learning (ML) assisted solutions are a promising answer. We argue that a complexity-reduced problem description and the data representing it, will facilitate the solution exploration workflow. We provide the REDuced VIrtual Detector (REDVID) as a complexity-reduced detector model and particle collision event simulator combo. REDVID is intended as a simulation-in-the-loop, to both generate synthetic data efficiently and to simplify the challenge of ML model design. The fully parametric nature of our tool, with regards to system-level configuration, while in contrast to physics-accurate simulations, allows for the generation of simplified data for research and education, at different levels. Resulting from the reduced complexity, we showcase the computational efficiency of REDVID by providing the computational cost figures for a multitude of simulation benchmarks. As a simulation and a generative tool for ML-assisted solution design, REDVID is highly flexible, reusable and open-source. Reference data sets generated with REDVID are publicly available.
翻訳日:2023-09-10 03:29:17 公開日:2023-08-30
# 対向流とスピン非依存相互作用によるボース-アインシュタイン凝縮体のスピン回転

Spin Rotations in a Bose-Einstein Condensate Driven by Counterflow and Spin-independent Interactions ( http://arxiv.org/abs/2308.16069v1 )

ライセンス: Link先を確認
David C. Spierings, Joseph H. Thywissen, and Aephraim M. Steinberg(参考訳) 我々は、非平衡ボース凝縮気体の原子衝突によるスピン回転を、$^{87}$Rbで観測する。 擬磁性障壁からの反射は、前方および後方伝播物質波が部分的にスピン方向を横切る対向流を生成する。 原子間相互作用の強度は状態に依存しないが、平行スピンの不明瞭さはスピンダイナミクスをもたらす。 観測されたスピンテクスチャの特異な特徴を捉えた局所磁気力学モデルでは、4波混合と衝突スピン回転の間に本質的な関係が強調される。 観測された現象は、以前は非退化ガスにのみ存在すると考えられており、我々の観測とモデルはこれらの有効磁気スピン回転の性質を明らかにしている。

We observe spin rotations caused by atomic collisions in a non-equilibrium Bose-condensed gas of $^{87}$Rb. Reflection from a pseudomagnetic barrier creates counterflow in which forward- and backward-propagating matter waves have partly transverse spin directions. Even though inter-atomic interaction strengths are state-independent, the indistinguishability of parallel spins leads to spin dynamics. A local magnetodynamic model, which captures the salient features of the observed spin textures, highlights an essential connection between four-wave mixing and collisional spin rotation. The observed phenomenon has previously been thought to exist only in nondegenerate gases; our observations and model clarify the nature of these effective-magnetic spin rotations.
翻訳日:2023-09-04 15:50:00 公開日:2023-08-30
# DALL-Eval:テキスト・画像生成モデルの推論スキルと社会的バイアスの探索

DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generation Models ( http://arxiv.org/abs/2202.04053v3 )

ライセンス: Link先を確認
Jaemin Cho, Abhay Zala, Mohit Bansal(参考訳) 近年、マルチモーダルトランスフォーマー言語モデルであるdall-eとその拡散モデルを含む変種は高品質なテキスト対画像生成能力を示している。 しかし、現実的な画像生成結果にもかかわらず、そのようなモデルの評価方法に関する詳細な分析は行われていない。 本研究では,様々なテキスト対画像モデルの視覚的推論能力と社会的バイアスを調査し,マルチモーダルトランスフォーマー言語モデルと拡散モデルの両方をカバーする。 まず,物体認識,物体カウント,空間的関係理解の3つの視覚的推論スキルを測定する。 そこで本研究では,これらのスキルを測定する構成診断評価データセットであるpaintskillsを提案する。 忠実度の高い画像生成能力にもかかわらず、最近のモデルの性能とオブジェクトカウントと空間関係理解スキルの上限精度の間には大きなギャップが存在する。 次に,様々な職業や属性における生成画像の性別・肌色分布を計測し,性別・肌色バイアスを評価する。 近年のテキスト対画像生成モデルは、web画像とテキストのペアから性別や肌のトーンに関する特定のバイアスを学習できることを実証する。 われわれの研究は、視覚的推論スキルのテキスト・ツー・イメージ生成モデルの改善と、社会的に偏見のない表現の学習の今後の進歩を導いてくれることを期待している。 コードとデータ:https://github.com/j-min/DallEval

Recently, DALL-E, a multimodal transformer language model, and its variants, including diffusion models, have shown high-quality text-to-image generation capabilities. However, despite the realistic image generation results, there has not been a detailed analysis of how to evaluate such models. In this work, we investigate the visual reasoning capabilities and social biases of different text-to-image models, covering both multimodal transformer language models and diffusion models. First, we measure three visual reasoning skills: object recognition, object counting, and spatial relation understanding. For this, we propose PaintSkills, a compositional diagnostic evaluation dataset that measures these skills. Despite the high-fidelity image generation capability, a large gap exists between the performance of recent models and the upper bound accuracy in object counting and spatial relation understanding skills. Second, we assess the gender and skin tone biases by measuring the gender/skin tone distribution of generated images across various professions and attributes. We demonstrate that recent text-to-image generation models learn specific biases about gender and skin tone from web image-text pairs. We hope our work will help guide future progress in improving text-to-image generation models on visual reasoning skills and learning socially unbiased representations. Code and data: https://github.com/j-min/DallEval
翻訳日:2023-09-01 21:27:43 公開日:2023-08-30
# コントラスト学習を用いたバイナリコードの事前学習表現

Pre-Training Representations of Binary Code Using Contrastive Learning ( http://arxiv.org/abs/2210.05102v2 )

ライセンス: Link先を確認
Yifan Zhang, Chen Huang, Yueke Zhang, Kevin Cao, Scott Thomas Andersen, Huajie Shao, Kevin Leach, Yu Huang(参考訳) コンパイルされたソフトウェアは実行可能なバイナリコードとして配信される。 開発者はソフトウェアセマンティクスを表現するためにソースコードを書くが、コンパイラはそれをCPUが直接実行できるバイナリフォーマットに変換する。 したがって、ソースコードが利用できないリバースエンジニアリングやコンピュータセキュリティタスクのアプリケーションではバイナリコード解析が重要である。 しかし、豊富な意味情報を含むソースコードや自然言語とは異なり、バイナリコードは人間のエンジニアが理解し分析するのが難しい。 既存の研究はソースコード解析にAIモデルを使用しているが、バイナリコードを検討する研究はほとんどない。 本稿では、表現学習中にソースコードとコメント情報をバイナリコードに組み込んだ、バイナリcOde分析のためのContrastive Learning Model(COMBO)を提案する。 具体的には,(1)コールドスタート事前学習のための主要なコントラスト学習手法,(2)ソースコード,コメント,バイナリコードを組み込む単純な補間法,(3)バイナリコード埋め込みを提供する中間表現学習アルゴリズム,の3つのコンポーネントをCOMBOに提示する。 最後に,アルゴリズム機能分類,バイナリコード類似性,脆弱性検出の3つの指標ダウンストリームタスクを用いて,comboが生成した事前学習表現の有効性を評価する。 実験結果から,コンボは分散分析により可視化されたバイナリコードの表現学習を容易とし,最先端の大規模言語表現モデルと比較して,下流3つのタスク全体のパフォーマンスを平均5.45%向上させた。 我々の知る限り、COMBOはソースコード、バイナリコード、コメントを対照的なコード表現学習に組み込んだ最初の言語表現モデルであり、バイナリコード解析のために複数のタスクを統合する。

Compiled software is delivered as executable binary code. Developers write source code to express the software semantics, but the compiler converts it to a binary format that the CPU can directly execute. Therefore, binary code analysis is critical to applications in reverse engineering and computer security tasks where source code is not available. However, unlike source code and natural language that contain rich semantic information, binary code is typically difficult for human engineers to understand and analyze. While existing work uses AI models to assist source code analysis, few studies have considered binary code. In this paper, we propose a COntrastive learning Model for Binary cOde Analysis, or COMBO, that incorporates source code and comment information into binary code during representation learning. Specifically, we present three components in COMBO: (1) a primary contrastive learning method for cold-start pre-training, (2) a simplex interpolation method to incorporate source code, comments, and binary code, and (3) an intermediate representation learning algorithm to provide binary code embeddings. Finally, we evaluate the effectiveness of the pre-trained representations produced by COMBO using three indicative downstream tasks relating to binary code: algorithmic functionality classification, binary code similarity, and vulnerability detection. Our experimental results show that COMBO facilitates representation learning of binary code visualized by distribution analysis, and improves the performance on all three downstream tasks by 5.45% on average compared to state-of-the-art large-scale language representation models. To the best of our knowledge, COMBO is the first language representation model that incorporates source code, binary code, and comments into contrastive code representation learning and unifies multiple tasks for binary code analysis.
翻訳日:2023-09-01 21:19:10 公開日:2023-08-30
# ベイジアンMAMLへのハイパーネットワークアプローチ

Hypernetwork approach to Bayesian MAML ( http://arxiv.org/abs/2210.02796v2 )

ライセンス: Link先を確認
Piotr Borycki, Piotr Kubacki, Marcin Przewi\k{e}\'zlikowski, Tomasz Ku\'smierczyk, Jacek Tabor, Przemys{\l}aw Spurek(参考訳) Few-Shot学習アルゴリズムの主な目標は、少量のデータから学習できるようにすることである。 最も人気がありエレガントなFew-Shot学習アプローチの1つは、モデルに依存しないメタラーニング(MAML)である。 この手法の主な考え方は、メタモデルの共有普遍重みを学習し、特定のタスクに適応させることである。 しかし、この方法は過剰フィッティングに苦しめられ、データサイズが制限されたため不確実性が低かった。 ベイズ的アプローチは原則として、点の重みの代わりに重み分布を学習することでこれらの欠点を軽減することができる。 残念なことに、MAMLの以前の変更は、ガウス後部の単純さ、MAMLのような勾配に基づく重み更新、あるいは普遍的および適応的な重み付けのために強制される同じ構造によって制限されている。 本稿では,重み更新にHypernetworksを利用するBayesian HMAMLという,ベイジアンMAMLの新しいフレームワークを提案する。 普遍重みをポイントワイズで学習するが、特定のタスクに適応すると確率構造が付加される。 そのような枠組みでは、単純ガウス分布や連続正規化流によって引き起こされるより複雑な後流を用いることができる。

The main goal of Few-Shot learning algorithms is to enable learning from small amounts of data. One of the most popular and elegant Few-Shot learning approaches is Model-Agnostic Meta-Learning (MAML). The main idea behind this method is to learn the shared universal weights of a meta-model, which are then adapted for specific tasks. However, the method suffers from over-fitting and poorly quantifies uncertainty due to limited data size. Bayesian approaches could, in principle, alleviate these shortcomings by learning weight distributions in place of point-wise weights. Unfortunately, previous modifications of MAML are limited due to the simplicity of Gaussian posteriors, MAML-like gradient-based weight updates, or by the same structure enforced for universal and adapted weights. In this paper, we propose a novel framework for Bayesian MAML called BayesianHMAML, which employs Hypernetworks for weight updates. It learns the universal weights point-wise, but a probabilistic structure is added when adapted for specific tasks. In such a framework, we can use simple Gaussian distributions or more complicated posteriors induced by Continuous Normalizing Flows.
翻訳日:2023-09-01 21:18:11 公開日:2023-08-30
# パズル作品の収集:テクスチャの交換による不連続な自己駆動型人間のポーズ伝達

Collecting The Puzzle Pieces: Disentangled Self-Driven Human Pose Transfer by Permuting Textures ( http://arxiv.org/abs/2210.01887v3 )

ライセンス: Link先を確認
Nannan Li, Kevin J. Shih, Bryan A. Plummer(参考訳) 人間のポーズ転送は、与えられたポーズのために人の新しいビューを合成する。 最近の研究は、人のポーズやテクスチャ情報を分解して部品に分解し、再構成するために再結合する自己再構成によってこれを達成している。 しかし、部分レベルのアンタングルメントは、不要なアーティファクトを作成することができるポーズ情報を保持する。 本稿では,パッチレベルでのテクスチャから乱れが引き起こす自己駆動型人間のポーズ伝達手法であるPose Transfer by Permuting Textures (PT$^2$)を提案する。 具体的には,テクスチャ情報のみを残せるように画像パッチを置換することで,入力画像からポーズを除去する。 次に,パッチレベルの絡み合いのために,置換されたテクスチャからサンプリングして入力画像を再構成する。 ノイズを低減し、置換パッチから衣料品形状情報を復元するために、トリプルブランチネットワークにおいて複数のカーネルサイズを持つエンコーダを採用する。 DeepFashion と Market-1501 では、PT$^2$ が、他の自己駆動手法よりも自動メトリクスが大幅に向上し、完全に教師された手法よりも優れています。 また,先行研究の自己駆動アプローチよりも68%のケースにおいて,本手法で生成した画像が好ましいと報告した。 コードはhttps://github.com/NannanLi999/pt_squareで入手できる。

Human pose transfer synthesizes new view(s) of a person for a given pose. Recent work achieves this via self-reconstruction, which disentangles a person's pose and texture information by breaking the person down into parts, then recombines them for reconstruction. However, part-level disentanglement preserves some pose information that can create unwanted artifacts. In this paper, we propose Pose Transfer by Permuting Textures (PT$^2$), an approach for self-driven human pose transfer that disentangles pose from texture at the patch-level. Specifically, we remove pose from an input image by permuting image patches so only texture information remains. Then we reconstruct the input image by sampling from the permuted textures for patch-level disentanglement. To reduce noise and recover clothing shape information from the permuted patches, we employ encoders with multiple kernel sizes in a triple branch network. On DeepFashion and Market-1501, PT$^2$ reports significant gains on automatic metrics over other self-driven methods, and even outperforms some fully-supervised methods. A user study also reports images generated by our method are preferred in 68% of cases over self-driven approaches from prior work. Code is available at https://github.com/NannanLi999/pt_square.
翻訳日:2023-09-01 21:17:41 公開日:2023-08-30
# GRASP: 分類学習のための適合性テスト

GRASP: A Goodness-of-Fit Test for Classification Learning ( http://arxiv.org/abs/2209.02064v2 )

ライセンス: Link先を確認
Adel Javanmard and Mohammad Mehrabi(参考訳) 分類器の性能はテストデータの平均精度で測定されることが多い。 標準測度であるにもかかわらず、平均精度は、モデルの不特定性、過度な適合性、高次元性などの特徴ベクトル(Y|X$)が与えられたラベルの基本的な条件法則にモデルを適合させるのに失敗する。 本稿では,一般二項分類器の適合性を評価するための基本的問題を考察する。 我々のフレームワークは条件付き法則$Y|X$のパラメトリックな仮定を一切行わず、クエリを通してのみアクセス可能なブラックボックスオラクルモデルとして扱う。 h_0: \mathbb{e}\big[d_f\big({\sf bern}(\eta(x))\|{\sf bern}(\hat{\eta}(x))\big]\leq \tau\, \] ここで、$d_f$ は$f$-divergence関数を表し、$\eta(x)$, $\hat{\eta}(x)$ はそれぞれ正のラベルを許容する特徴ベクトル $x$ の真と推定可能性を表す。 H_0$をテストするための新しいテストである \grasp を提案する。 また,特徴ベクトルの結合分布が知られているモデルx設定用に設計したモデルx \graspを提案する。 model-x \graspは、この分布情報を使ってより良い力を得る。 広範囲な数値実験により,本試験の性能評価を行った。

Performance of classifiers is often measured in terms of average accuracy on test data. Despite being a standard measure, average accuracy fails in characterizing the fit of the model to the underlying conditional law of labels given the features vector ($Y|X$), e.g. due to model misspecification, over fitting, and high-dimensionality. In this paper, we consider the fundamental problem of assessing the goodness-of-fit for a general binary classifier. Our framework does not make any parametric assumption on the conditional law $Y|X$, and treats that as a black box oracle model which can be accessed only through queries. We formulate the goodness-of-fit assessment problem as a tolerance hypothesis testing of the form \[ H_0: \mathbb{E}\Big[D_f\Big({\sf Bern}(\eta(X))\|{\sf Bern}(\hat{\eta}(X))\Big)\Big]\leq \tau\,, \] where $D_f$ represents an $f$-divergence function, and $\eta(x)$, $\hat{\eta}(x)$ respectively denote the true and an estimate likelihood for a feature vector $x$ admitting a positive label. We propose a novel test, called \grasp for testing $H_0$, which works in finite sample settings, no matter the features (distribution-free). We also propose model-X \grasp designed for model-X settings where the joint distribution of the features vector is known. Model-X \grasp uses this distributional information to achieve better power. We evaluate the performance of our tests through extensive numerical experiments.
翻訳日:2023-09-01 21:17:03 公開日:2023-08-30
# 後部サンプリングによる高知覚品質JPEGデコーディング

High-Perceptual Quality JPEG Decoding via Posterior Sampling ( http://arxiv.org/abs/2211.11827v2 )

ライセンス: Link先を確認
Sean Man, Guy Ohayon, Theo Adrai and Michael Elad(参考訳) JPEGはおそらく最も人気のある画像符号化フォーマットであり、視覚的アーティファクトの劣化を引き起こす可能性のある損失量子化によって高い圧縮比を達成する。 これらのアーティファクトを取り除こうとする多くの試みは長年にわたって着想され、ほとんどの例では、歪み測定(PSNR、SSIMなど)を最適化する決定論的後処理アルゴリズムが用いられている。 本稿では,JPEGアーティファクト修正のための異なるパラダイムを提案する。本手法は確率的であり,対象とする目的は高い知覚品質であり,圧縮された入力と整合しながら,鮮明で詳細かつ視覚的に再現された画像を得ることを目指している。 これらの目標は、確率的条件付き生成器(圧縮入力を条件とする)を訓練し、理論的によく確立された損失項を伴い、結果として後方分布からのサンプル作成器となる。 我々のソリューションは、完全な一貫性のある入力に対して、多種多様な可塑性かつ高速な再構成を提供する。 FFHQおよびImageNetデータセット上の様々な代替手法に対して,提案方式のユニークな特性とその優位性を実証する。

JPEG is arguably the most popular image coding format, achieving high compression ratios via lossy quantization that may create visual artifacts degradation. Numerous attempts to remove these artifacts were conceived over the years, and common to most of these is the use of deterministic post-processing algorithms that optimize some distortion measure (e.g., PSNR, SSIM). In this paper we propose a different paradigm for JPEG artifact correction: Our method is stochastic, and the objective we target is high perceptual quality -- striving to obtain sharp, detailed and visually pleasing reconstructed images, while being consistent with the compressed input. These goals are achieved by training a stochastic conditional generator (conditioned on the compressed input), accompanied by a theoretically well-founded loss term, resulting in a sampler from the posterior distribution. Our solution offers a diverse set of plausible and fast reconstructions for a given input with perfect consistency. We demonstrate our scheme's unique properties and its superiority to a variety of alternative methods on the FFHQ and ImageNet datasets.
翻訳日:2023-09-01 21:08:46 公開日:2023-08-30
# ニューラルネットワークのシステム識別: 正しければ、私たちは知っているだろうか?

System identification of neural systems: If we got it right, would we know? ( http://arxiv.org/abs/2302.06677v2 )

ライセンス: Link先を確認
Yena Han, Tomaso Poggio, Brian Cheung(参考訳) 人工ニューラルネットワークは脳の一部のモデルとして提案されている。 ネットワークは生体ニューロンの記録と比較され,神経応答の再現性能はモデルの有効性を裏付けると考えられる。 重要な疑問は、このシステム識別アプローチが脳の計算についてどれだけ教えてくれるかである。 あるモデルアーキテクチャを別のモデル上で検証するのでしょうか? 線形符号化モデルや中心核アライメントなど,最も一般的に使用される比較手法を評価し,脳記録を既知の基底モデルに置き換えることで,モデルを正確に同定する。 システム識別性能はかなり可変であり、また刺激画像のような基底的真理アーキテクチャに依存しない要因にも大きく依存する。 さらに,高次アーキテクチャモチーフの同定における機能的類似度スコアの使用の限界を示す。

Artificial neural networks are being proposed as models of parts of the brain. The networks are compared to recordings of biological neurons, and good performance in reproducing neural responses is considered to support the model's validity. A key question is how much this system identification approach tells us about brain computation. Does it validate one model architecture over another? We evaluate the most commonly used comparison techniques, such as a linear encoding model and centered kernel alignment, to correctly identify a model by replacing brain recordings with known ground truth models. System identification performance is quite variable; it also depends significantly on factors independent of the ground truth architecture, such as stimuli images. In addition, we show the limitations of using functional similarity scores in identifying higher-level architectural motifs.
翻訳日:2023-09-01 20:59:24 公開日:2023-08-30
# surgt challenge: ロボット手術用ソフトトイトラッカーのベンチマーク

SurgT challenge: Benchmark of Soft-Tissue Trackers for Robotic Surgery ( http://arxiv.org/abs/2302.03022v3 )

ライセンス: Link先を確認
Joao Cartucho, Alistair Weld, Samyakh Tukra, Haozheng Xu, Hiroki Matsuzaki, Taiyo Ishikawa, Minjun Kwon, Yong Eun Jang, Kwang-Ju Kim, Gwang Lee, Bizhe Bai, Lueder Kahrs, Lars Boecking, Simeon Allmendinger, Leopold Muller, Yitong Zhang, Yueming Jin, Sophia Bano, Francisco Vasconcelos, Wolfgang Reiter, Jonas Hajek, Bruno Silva, Estevao Lima, Joao L. Vilaca, Sandro Queiros, Stamatia Giannarou(参考訳) 本稿では,MICCAI 2022と共同で実施したSurgT: Surgery Trackingについて紹介する。 この課題の作成には,(1)ソフトトイトトラッカを評価するための研究コミュニティ初の標準化ベンチマークの確立,(2)手術中の注釈データがないことを踏まえ,教師なしの深層学習手法の開発を促進すること,の2つの目的があった。 ステレオカメラのキャリブレーションパラメータとともに,20症例のステレオ内視鏡ビデオ157例のデータセットが提供された。 参加者は、立体内視鏡ビデオにおいて、境界ボックスで表される軟組織の動きを追跡するアルゴリズムを開発するタスクを割り当てられた。 課題の最後には、以前に隠されていたテストサブセットで開発手法を評価した。 この評価は、ソフトトイト追跡における教師なしディープラーニングアルゴリズムの有効性を検証するために、この課題のために意図的に開発されたベンチマークメトリクスを使用している。 方法のランク付けに使用された指標は、平均オーバーラップ(eao)スコアで、トラッカーと基底真理バウンディングボックスの平均オーバーラップを測定する。 最初に挑戦したのはICVS-2Aiによるディープラーニングの提出で、EAOスコアは0.617だった。 この手法は、光度と正則化損失を用いて、収穫された画像から教師なしの高密度光フローを推定するためにARFlowを用いる。 第2に、0.583のEAOを持つJmeesは、深層学習ベースラインメソッドCSRTの上に、深層学習を用いて外科的ツールセグメンテーションを行う。 CSRT自体のEAOは0.563である。 この課題の結果は、現在、非ディープラーニング手法は依然として競争力があることを示している。 この課題のために作成されたデータセットとベンチマークツールはhttps://surgt.grand-challenge.org/で公開されている。

This paper introduces the ``SurgT: Surgical Tracking" challenge which was organised in conjunction with MICCAI 2022. There were two purposes for the creation of this challenge: (1) the establishment of the first standardised benchmark for the research community to assess soft-tissue trackers; and (2) to encourage the development of unsupervised deep learning methods, given the lack of annotated data in surgery. A dataset of 157 stereo endoscopic videos from 20 clinical cases, along with stereo camera calibration parameters, have been provided. Participants were assigned the task of developing algorithms to track the movement of soft tissues, represented by bounding boxes, in stereo endoscopic videos. At the end of the challenge, the developed methods were assessed on a previously hidden test subset. This assessment uses benchmarking metrics that were purposely developed for this challenge, to verify the efficacy of unsupervised deep learning algorithms in tracking soft-tissue. The metric used for ranking the methods was the Expected Average Overlap (EAO) score, which measures the average overlap between a tracker's and the ground truth bounding boxes. Coming first in the challenge was the deep learning submission by ICVS-2Ai with a superior EAO score of 0.617. This method employs ARFlow to estimate unsupervised dense optical flow from cropped images, using photometric and regularization losses. Second, Jmees with an EAO of 0.583, uses deep learning for surgical tool segmentation on top of a non-deep learning baseline method: CSRT. CSRT by itself scores a similar EAO of 0.563. The results from this challenge show that currently, non-deep learning methods are still competitive. The dataset and benchmarking tool created for this challenge have been made publicly available at https://surgt.grand-challenge.org/.
翻訳日:2023-09-01 20:59:10 公開日:2023-08-30
# トラップ型イオン量子コンピュータにおける計測・フィードフォワードからのトポロジカルオーダー

Topological Order from Measurements and Feed-Forward on a Trapped Ion Quantum Computer ( http://arxiv.org/abs/2302.01917v3 )

ライセンス: Link先を確認
Mohsin Iqbal, Nathanan Tantivasadakarn, Thomas M. Gatterman, Justin A. Gerber, Kevin Gilmore, Dan Gresh, Aaron Hankin, Nathan Hewitt, Chandler V. Horst, Mitchell Matheny, Tanner Mengle, Brian Neyenhuis, Ashvin Vishwanath, Michael Foss-Feig, Ruben Verresen, and Henrik Dreyer(参考訳) 量子系は、schr\"odinger方程式または波動関数崩壊の2つの方法で時間とともに進化する。 これまでのところ、量子多体系の決定論的制御は、測定の確率論的性質のため、前者に焦点を当てている。 例えば、ユニタリ力学に制限された場合、長い範囲の絡み合った状態を作るには広い回路深さを必要とする。 本研究では,QuantinuumのH1プログラム型イオントラップ量子コンピュータ上で,中間回路計測とフィードフォワードを用いて決定論的非単位ダイナミクスを実装した。 これらの機能を有効にすることで、リアルタイムにtoricコード基底状態を作成するための、常に詳細な手順を初めて実証する。 高安定化率のフィディティに達することに加えて、ブレイディングを介してエノンを変換することによって存在が確認される非アベル欠陥を生成する。 この研究は、実験室で複雑なトポロジカルオーダーを作成する方法を明確にし、測定とフィードフォワードを通じて決定論的非ユニタリダイナミクスを探求する。

Quantum systems evolve in time in one of two ways: through the Schr\"odinger equation or wavefunction collapse. So far, deterministic control of quantum many-body systems in the lab has focused on the former, due to the probabilistic nature of measurements. This imposes serious limitations: preparing long-range entangled states, for example, requires extensive circuit depth if restricted to unitary dynamics. In this work, we use mid-circuit measurement and feed-forward to implement deterministic non-unitary dynamics on Quantinuum's H1 programmable ion-trap quantum computer. Enabled by these capabilities, we demonstrate for the first time a constant-depth procedure for creating a toric code ground state in real-time. In addition to reaching high stabilizer fidelities, we create a non-Abelian defect whose presence is confirmed by transmuting anyons via braiding. This work clears the way towards creating complex topological orders in the lab and exploring deterministic non-unitary dynamics via measurement and feed-forward.
翻訳日:2023-09-01 20:58:43 公開日:2023-08-30
# 脱コヒーレンス理論の光における測定問題

The measurement problem in the light of the theory of decoherence ( http://arxiv.org/abs/2303.03465v2 )

ライセンス: Link先を確認
Antoine Soulas(参考訳) デコヒーレンスの理論の観点から測定問題に対する徹底的な解を定式化する努力は、測定の正確な定義と量子力学について語る新しい語彙のおかげで、崩壊の状態と古典化の出現をよりよく理解する。 後者を確率論として考えると、多くの世界の解釈の通常の確率問題を避けることができる。 量子力学のあらゆるスケールにおける一貫性の徹底した検証と、観察者と見なされるものに関する議論が提案されている。

Endeavoring to formulate an exhaustive solution to the measurement problem in view of the theory of decoherence leads to a better understanding of the status of the collapse and of the emergence of classicality, thanks to a precise definition of the measurement and some new vocabulary to speak about quantum mechanics. Considering the latter as a probabilistic theory all along allows us to avoid the usual probability problem of the many-worlds interpretations. A thorough verification of the consistency of quantum mechanics at all scales is proposed, as well as a discussion of what can be deemed an observer.
翻訳日:2023-09-01 20:50:08 公開日:2023-08-30
# 壁面境界流のテンソルネットワーク低減秩序モデル

Tensor network reduced order models for wall-bounded flows ( http://arxiv.org/abs/2303.03010v2 )

ライセンス: Link先を確認
Martin Kiffner and Dieter Jaksch(参考訳) 本稿では,壁面境界流体の流れを記述する低次モデルを構築するために,広く適用可能なテンソルネットワークベースのフレームワークを提案する。 パラダイム的な例として、2次元の非圧縮性ナビエ・ストークス方程式と蓋駆動空洞を考える。 低レイノルズ数の公開参照データに対するソリューションのベンチマークを行い、優れた一致を見出す。 さらに,リッド駆動および二重駆動キャビティの高レイノルズ数における流れの短時間ダイナミクスについても検討した。 速度成分を行列積状態により表現し, 結合次元がシミュレーション時間とともに対数的に増加することを見出した。 テンソルネットワークアルゴリズムは、直接数値シミュレーションによって得られる解をパラメータ化する変数数の少なくとも数パーセントを必要とし、同様のハードウェア上での直接数値シミュレーションと比較して、実行時間を桁違いに改善する。 我々のアプローチは容易に他の流れに伝達でき、複雑な幾何学における量子計算流体力学への道を開く。

We introduce a widely applicable tensor network-based framework for developing reduced order models describing wall-bounded fluid flows. As a paradigmatic example, we consider the incompressible Navier-Stokes equations and the lid-driven cavity in two spatial dimensions. We benchmark our solution against published reference data for low Reynolds numbers and find excellent agreement. In addition, we investigate the short-time dynamics of the flow at high Reynolds numbers for the lid driven and doubly-driven cavities. We represent the velocity components by matrix product states and find that the bond dimension grows logarithmically with simulation time. The tensor network algorithm requires at most a few percent of the number of variables parameterizing the solution obtained by direct numerical simulation, and approximately improves the runtime by an order of magnitude compared to direct numerical simulation on similar hardware. Our approach is readily transferable to other flows, and paves the way towards quantum computational fluid dynamics in complex geometries.
翻訳日:2023-09-01 20:49:58 公開日:2023-08-30
# バイオプルーシブルコントラスト学習のためのフレキシブル位相ダイナミクス

Flexible Phase Dynamics for Bio-Plausible Contrastive Learning ( http://arxiv.org/abs/2302.12431v2 )

ライセンス: Link先を確認
Ezekiel Williams, Colin Bredenberg, Guillaume Lajoie(参考訳) 多くの学習アルゴリズムは神経科学の規範的モデルとして、あるいはニューロモルフィックチップで学習するための候補的アプローチとして用いられる。 これらのコントラスト学習(cl)アルゴリズムは伝統的に、clを活用できる物理システムの範囲を制限するような、厳格で時間的に非局所的で周期的な学習ダイナミクスで実装されている。 本研究では,生物やニューロモルフィックシステムによってCLをどのように実装するかを探求する最近の研究に基づいて,このような学習形態を時間的に局所的に行うことができ,標準的な訓練手順の動的要求の多くを緩和しても機能することを示す。 複数のclモデルの数値実験によって裏付けられた一連の一般定理により、生体および神経形態的ニューラルネットワークのためのcl法の研究と開発のための理論的基礎が得られた。

Many learning algorithms used as normative models in neuroscience or as candidate approaches for learning on neuromorphic chips learn by contrasting one set of network states with another. These Contrastive Learning (CL) algorithms are traditionally implemented with rigid, temporally non-local, and periodic learning dynamics that could limit the range of physical systems capable of harnessing CL. In this study, we build on recent work exploring how CL might be implemented by biological or neurmorphic systems and show that this form of learning can be made temporally local, and can still function even if many of the dynamical requirements of standard training procedures are relaxed. Thanks to a set of general theorems corroborated by numerical experiments across several CL models, our results provide theoretical foundations for the study and development of CL methods for biological and neuromorphic neural networks.
翻訳日:2023-09-01 20:48:37 公開日:2023-08-30
# dr.cpo:反復構成,ランダム配置,hpr閉塞による多様かつ現実的な3次元拡張

DR.CPO: Diversified and Realistic 3D Augmentation via Iterative Construction, Random Placement, and HPR Occlusion ( http://arxiv.org/abs/2303.12743v4 )

ライセンス: Link先を確認
Jungwook Shin, Jaeill Kim, Kyungeun Lee, Hyunghun Cho, Wonjong Rhee(参考訳) 自動運転では、データ拡張は3dオブジェクト検出を改善するために一般的に使用される。 最も基本的な方法は、コピーされたオブジェクトの挿入とトレーニングフレーム全体の回転とスケーリングである。 多くのバリエーションも開発されている。 しかし、既存の手法は現実世界の様々な可能性と比較してかなり制限されている。 本研究では,物体全体を柔軟に構築し,自由な位置と回転を可能とし,それに応じて自己閉塞と外部閉塞を適用可能な,多種多様で現実的な拡張法を開発する。 物体全体の多様性を向上させるため,実世界から観測された複数の物体を1つの物体に確率的に結合する反復手法を開発した。 既存の拡張法と異なり、最終段階において適切な咬合を全身に反映できるため、構築された物体をトレーニングフレーム内にランダムに配置して回転させることができる。 最後に、各局所オブジェクトレベルでの適切な自己閉塞とグローバルフレームレベルでの外部閉塞を、計算効率のよい隠れポイント除去(HPR)アルゴリズムを用いて適用する。 また、HPRはLiDARからの距離に応じて各物体の点密度を適応的に制御するためにも用いられる。 実験の結果,DR.CPOアルゴリズムは計算オーバーヘッドを発生させることなく,データ効率とモデルに依存しないことがわかった。 また、dr.cpoはkittiデータセットで知られている最良の3d検出結果と比較して、地図のパフォーマンスを2.08%向上できる。 コードはhttps://github.com/SNU-DRL/DRCPO.gitで公開されている。

In autonomous driving, data augmentation is commonly used for improving 3D object detection. The most basic methods include insertion of copied objects and rotation and scaling of the entire training frame. Numerous variants have been developed as well. The existing methods, however, are considerably limited when compared to the variety of the real world possibilities. In this work, we develop a diversified and realistic augmentation method that can flexibly construct a whole-body object, freely locate and rotate the object, and apply self-occlusion and external-occlusion accordingly. To improve the diversity of the whole-body object construction, we develop an iterative method that stochastically combines multiple objects observed from the real world into a single object. Unlike the existing augmentation methods, the constructed objects can be randomly located and rotated in the training frame because proper occlusions can be reflected to the whole-body objects in the final step. Finally, proper self-occlusion at each local object level and external-occlusion at the global frame level are applied using the Hidden Point Removal (HPR) algorithm that is computationally efficient. HPR is also used for adaptively controlling the point density of each object according to the object's distance from the LiDAR. Experiment results show that the proposed DR.CPO algorithm is data-efficient and model-agnostic without incurring any computational overhead. Also, DR.CPO can improve mAP performance by 2.08% when compared to the best 3D detection result known for KITTI dataset. The code is available at https://github.com/SNU-DRL/DRCPO.git
翻訳日:2023-09-01 20:39:32 公開日:2023-08-30
# 量子チャネルの資源依存的複雑性

Resource-Dependent Complexity of Quantum Channels ( http://arxiv.org/abs/2303.11304v2 )

ライセンス: Link先を確認
Roy Araiza, Yidong Chen, Marius Junge and Peixue Wu(参考訳) 我々は、適切に選択されたリソース集合に依存する量子チャネルの複雑性の概念を導入する。 量子チャネル上のこの新しい凸関数のクラスは、開および閉量子系の複雑さを研究するのに適している。 この複素数のクラスの重要な性質は、非可換幾何学によって動機付けられたリプシッツノルムに由来する。 我々は、ハミルトニアンシミュレーションとランダム回路に対する複雑性をブラウンスキンドしきい値まで直線的に増大させることを証明した。

We introduce a notion of complexity for quantum channels, depending on a suitably chosen resource set. This new class of convex functions on quantum channels is suitable to study the complexity of both open and closed quantum systems. Crucial properties of this class of complexities are derived from Lipschitz norms motivated by noncommutative geometry. We prove linear growth of our complexity for Hamiltonian simulation and random circuits, up to a Brown-S\"usskind threshold.
翻訳日:2023-09-01 20:38:39 公開日:2023-08-30
# 飛行経路と手順によるターミナル空域の交通モデルの推定

Inferring Traffic Models in Terminal Airspace from Flight Tracks and Procedures ( http://arxiv.org/abs/2303.09981v2 )

ライセンス: Link先を確認
Soyeon Jung and Mykel J. Kochenderfer(参考訳) 現実的な航空機軌道モデルは、航空交通管理(ATM)システムの設計と検証に有用である。 計器飛行規則(IFR)の下で運用される航空機のモデルは、航空機が通常の飛行手順に従う方法に固有の変動を捉える必要がある。 航空機の挙動の変動は飛行段階によって異なる。 本稿では,レーダー監視データから収集した手続きデータと飛行軌跡から変動性を学習できる確率モデルを提案する。 各セグメントについて、ガウス混合モデルを用いて、その手順から航空機の軌道の偏差を学習する。 新たな手法により、訓練されたガウス分布から一連の偏差をサンプリングし、偏差と手順を用いて航空機軌道を再構築することにより、合成軌道を生成することができる。 本手法を拡張して航空機間の対向相関を捉え,任意の数の航空機を含むトラヒックを対向モデルで生成する方法を示す。 我々は、ジョン・f・ケネディ国際空港の到着経路と手順について提案モデルを実証する。 原点と合成軌道データセットの分布類似性は, 異なる変数の実験分布間のjensen-shannon発散を用いて評価した。 また, モデルから生成した合成軌道の定性解析を行った。

Realistic aircraft trajectory models are useful in the design and validation of air traffic management (ATM) systems. Models of aircraft operated under instrument flight rules (IFR) require capturing the variability inherent in how aircraft follow standard flight procedures. The variability in aircraft behavior varies among flight stages. In this paper, we propose a probabilistic model that can learn the variability from the procedural data and flight tracks collected from radar surveillance data. For each segment, a Gaussian mixture model is used to learn the deviations of aircraft trajectories from their procedures. Given new procedures, we can generate synthetic trajectories by sampling a series of deviations from the trained Gaussian distributions and reconstructing the aircraft trajectory using the deviations and the procedures. We extend this method to capture pairwise correlations between aircraft and show how a pairwise model can be used to generate traffic involving an arbitrary number of aircraft. We demonstrate the proposed models on the arrival tracks and procedures of the John F. Kennedy International Airport. The distributional similarity between the original and the synthetic trajectory dataset was evaluated using the Jensen-Shannon divergence between the empirical distributions of different variables. We also provide qualitative analyses of the synthetic trajectories generated from the models.
翻訳日:2023-09-01 20:38:32 公開日:2023-08-30
# リッチテキストを用いた表現型テキスト・画像生成

Expressive Text-to-Image Generation with Rich Text ( http://arxiv.org/abs/2304.06720v2 )

ライセンス: Link先を確認
Songwei Ge, Taesung Park, Jun-Yan Zhu, Jia-Bin Huang(参考訳) プレーンテキストはテキストと画像の合成の一般的なインターフェースになっている。 しかし、その限定されたカスタマイズオプションは、ユーザーが求める出力を正確に記述することを妨げる。 例えば、プレーンテキストは、それぞれの単語の正確なRGB色値や重要性など、連続的な量を特定するのを難しくしている。 さらに、複雑なシーンのための詳細なテキストプロンプトを作成することは、人間が書くのが面倒で、テキストエンコーダが解釈するのは難しい。 これらの課題に対処するために、フォントスタイル、サイズ、色、脚注などのフォーマットをサポートするリッチテキストエディタの使用を提案する。 各単語の属性をリッチテキストから抽出し,局所的なスタイル制御,明示的なトークン重み付け,正確なカラーレンダリング,詳細な領域合成を可能にした。 領域ベースの拡散プロセスによりこれらの機能を実現する。 まず,平文を用いた拡散過程の注意図に基づいて各単語の領域を抽出する。 各領域に対して,地域固有の詳細なプロンプトを作成し,地域固有のガイダンスを適用してテキスト属性を強制し,地域ベースのインジェクションによる平文生成に対する忠実さを維持する。 本手法は,リッチテキストから画像を生成する様々な例を示し,定量的評価により強力なベースラインを上回ることを示す。

Plain text has become a prevalent interface for text-to-image synthesis. However, its limited customization options hinder users from accurately describing desired outputs. For example, plain text makes it hard to specify continuous quantities, such as the precise RGB color value or importance of each word. Furthermore, creating detailed text prompts for complex scenes is tedious for humans to write and challenging for text encoders to interpret. To address these challenges, we propose using a rich-text editor supporting formats such as font style, size, color, and footnote. We extract each word's attributes from rich text to enable local style control, explicit token reweighting, precise color rendering, and detailed region synthesis. We achieve these capabilities through a region-based diffusion process. We first obtain each word's region based on attention maps of a diffusion process using plain text. For each region, we enforce its text attributes by creating region-specific detailed prompts and applying region-specific guidance, and maintain its fidelity against plain-text generation through region-based injections. We present various examples of image generation from rich text and demonstrate that our method outperforms strong baselines with quantitative evaluations.
翻訳日:2023-09-01 20:31:11 公開日:2023-08-30
# 水中のnerfを超えて:海洋画像の真の色補正のための神経反射領域の学習

Beyond NeRF Underwater: Learning Neural Reflectance Fields for True Color Correction of Marine Imagery ( http://arxiv.org/abs/2304.03384v2 )

ライセンス: Link先を確認
Tianyi Zhang and Matthew Johnson-Roberson(参考訳) 水中画像は、海洋生物学や地理における底質環境の研究を複雑にする光-水相互作用の結果、しばしば歪んだ着色を示す。 本研究では,水中画像における真の色(アルベド)を,メディア表現とニューラルシーン表現との協調学習によって復元するアルゴリズムを提案する。 我々のアプローチは、光減衰と距離と後方散乱光の組み合わせとして水効果をモデル化する。 提案するニューラルシーン表現は, 水中環境のアルベド, 正常, 体積密度を学習するニューラルリフレクタンス場モデルに基づく。 現場から水を分離するためのロジスティック回帰モデルを導入し,トレーニング中に異なる光物理を適用した。 提案手法は,複数の近似を用いて複雑な後方散乱効果を推定する必要性を回避し,トレーニング中のサンプリング効率と数値安定性を向上する。 提案手法は,水中光効果をエンドツーエンドの識別性を備えたボリュームレンダリングフレームワークに統合する。 合成データと実世界のデータの両方における実験結果から,本手法が水中画像から真の色を効果的に復元し,カラー一貫性の観点から既存のアプローチを上回っていることが分かる。

Underwater imagery often exhibits distorted coloration as a result of light-water interactions, which complicates the study of benthic environments in marine biology and geography. In this research, we propose an algorithm to restore the true color (albedo) in underwater imagery by jointly learning the effects of the medium and neural scene representations. Our approach models water effects as a combination of light attenuation with distance and backscattered light. The proposed neural scene representation is based on a neural reflectance field model, which learns albedos, normals, and volume densities of the underwater environment. We introduce a logistic regression model to separate water from the scene and apply distinct light physics during training. Our method avoids the need to estimate complex backscatter effects in water by employing several approximations, enhancing sampling efficiency and numerical stability during training. The proposed technique integrates underwater light effects into a volume rendering framework with end-to-end differentiability. Experimental results on both synthetic and real-world data demonstrate that our method effectively restores true color from underwater imagery, outperforming existing approaches in terms of color consistency.
翻訳日:2023-09-01 20:30:04 公開日:2023-08-30
# SCOTT: 自己持続型耐火鎖蒸留

SCOTT: Self-Consistent Chain-of-Thought Distillation ( http://arxiv.org/abs/2305.01879v4 )

ライセンス: Link先を確認
Peifeng Wang, Zhengyang Wang, Zheng Li, Yifan Gao, Bing Yin and Xiang Ren(参考訳) 大規模な言語モデル(LM)は、チェーン・オブ・シークレット(CoT)のプロンプトを通じて、予測のための自由テキスト論理を創発的に生成する能力を示している。 CoTは劇的に性能が向上するが、そのような利得は十分に大きなLMに対してのみ観測される。 さらには、生成された合理性がlmの予測と一致しているか、あるいは決定を忠実に正当化する保証がほとんどない。 本研究では,教師モデルから,規模が桁違いの小さい自己整合CoTモデルを学習するための,忠実な知識蒸留法を提案する。 教師は, より優れた指導を行うために, 対照的な復号化によって, 大規模LM(教師)から金の回答を支持する合理性を付与し, 回答が検討された場合にのみ, より信頼性の高いトークンを生成するように促す。 忠実な蒸留を確保するために,教師生成の合理性を用いて,非事実的推論目的の学生lmを学習し,その合理性を無視して矛盾する予測を行うことを防止する。 実験により, エンドタスク性能に匹敵する結果が得られる一方で, ベースラインよりも忠実なCoT論理を生成できることがわかった。 さらなる分析は、そのようなモデルが決定を下す際に、より合理的を尊重していることを示唆している。

Large language models (LMs) beyond a certain scale, demonstrate the emergent capability of generating free-text rationales for their predictions via chain-of-thought (CoT) prompting. While CoT can yield dramatically improved performance, such gains are only observed for sufficiently large LMs. Even more concerning, there is little guarantee that the generated rationales are consistent with LM's predictions or faithfully justify the decisions. In this work, we propose a faithful knowledge distillation method to learn a small, self-consistent CoT model from a teacher model that is orders of magnitude larger. To form better supervision, we elicit rationales supporting the gold answers from a large LM (teacher) by contrastive decoding, which encourages the teacher to generate tokens that become more plausible only when the answer is considered. To ensure faithful distillation, we use the teacher-generated rationales to learn a student LM with a counterfactual reasoning objective, which prevents the student from ignoring the rationales to make inconsistent predictions. Experiments show that, while yielding comparable end-task performance, our method can generate CoT rationales that are more faithful than baselines do. Further analysis suggests that such a model respects the rationales more when making decisions; thus, we can improve its performance more by refining its rationales.
翻訳日:2023-09-01 20:20:01 公開日:2023-08-30
# ニューラルネットワークを用いた初期値PDEの安定かつスケーラブルな解法

A Stable and Scalable Method for Solving Initial Value PDEs with Neural Networks ( http://arxiv.org/abs/2304.14994v2 )

ライセンス: Link先を確認
Marc Finzi, Andres Potapczynski, Matthew Choptuik, Andrew Gordon Wilson(参考訳) 偏微分方程式(PDE)を解く従来のグリッドやメッシュベースの手法とは異なり、ニューラルネットワークは次元の呪いを破る可能性があり、古典的な解法の使用が困難または不可能な問題に対する近似的な解決策を提供する。 ネットワークパラメータ上のPDE残差のグローバル最小化は境界値問題に対してうまく機能するが、破滅的な忘れ込みは初期値問題(IVP)に対するこのアプローチの適用性を損なう。 代替的なローカル・イン・タイム・アプローチでは、最適化問題をネットワークパラメータ上の常微分方程式(ODE)に変換することができ、その解は時間内に伝播するが、本手法に基づく現在の手法は2つの重要な問題に悩まされていることを示す。 まず、ODEに従うと、問題の条件付けにおいて制御不能な成長が生じ、最終的に許容できないほど大きな数値誤差が生じる。 第二に、ODE法はモデルパラメータの数で3次スケールするので、これらは小さなニューラルネットワークに限定され、複雑なPDE初期条件と解を表現する能力は著しく制限される。 これらの知見に基づいて、我々は、パラメータ数でネットワークが不調になるのを防止し、時間リニアな動作を可能にするODEベースのIPP解決器であるNeural IVPを開発し、ニューラルネットワークによる挑戦的PDEのダイナミクスを進化させる。

Unlike conventional grid and mesh based methods for solving partial differential equations (PDEs), neural networks have the potential to break the curse of dimensionality, providing approximate solutions to problems where using classical solvers is difficult or impossible. While global minimization of the PDE residual over the network parameters works well for boundary value problems, catastrophic forgetting impairs the applicability of this approach to initial value problems (IVPs). In an alternative local-in-time approach, the optimization problem can be converted into an ordinary differential equation (ODE) on the network parameters and the solution propagated forward in time; however, we demonstrate that current methods based on this approach suffer from two key issues. First, following the ODE produces an uncontrolled growth in the conditioning of the problem, ultimately leading to unacceptably large numerical errors. Second, as the ODE methods scale cubically with the number of model parameters, they are restricted to small neural networks, significantly limiting their ability to represent intricate PDE initial conditions and solutions. Building on these insights, we develop Neural IVP, an ODE based IVP solver which prevents the network from getting ill-conditioned and runs in time linear in the number of parameters, enabling us to evolve the dynamics of challenging PDEs with neural networks.
翻訳日:2023-09-01 20:19:19 公開日:2023-08-30
# chaos comes order - オブジェクト認識と検出のためのイベント表現の順序付け

From Chaos Comes Order: Ordering Event Representations for Object Recognition and Detection ( http://arxiv.org/abs/2304.13455v4 )

ライセンス: Link先を確認
Nikola Zubi\'c, Daniel Gehrig, Mathias Gehrig, Davide Scaramuzza(参考訳) 今日では、イベントを処理する最先端のディープニューラルネットワークは、まずそれらを、オフザシェルフネットワークを使用する前に、密度の高いグリッドのような入力表現に変換する。 しかし、伝統的にタスクの適切な表現を選択するには、各表現のためのニューラルネットワークをトレーニングし、検証スコアに基づいて最適なものを選択する必要がある。 この研究は、Gromov-Wasserstein Discrepancy (GWD) に基づく表現を生イベントとそれらの表現の間で選択することで、このボトルネックを取り除く。 ニューラルネットワークのトレーニングよりも計算が約200倍高速で、複数の表現、ネットワークバックボーン、データセット、タスクにわたるイベント表現のタスクパフォーマンスランキングを保存する。 したがって、高いタスクスコアを持つ表現を見つけることは、低いGWDを持つ表現を見つけることと等価である。 私たちはこの洞察を初めて、大きなイベント表現のファミリーでハイパーパラメータ検索を実行し、最先端を超えた新しい強力な表現を明らかにするために使用します。 1mpxデータセットの1.7マップ、gen1データセットの0.3マップ、確立された2つのオブジェクト検出ベンチマーク、そしてmini n-imagenetベンチマークの3.8%高い分類スコアに達した。 さらに、Gen1では2.1mAP、1Mpxデータセットでは6.0mAPで最先端のフィードフォワード法より優れています。 この作業は、イベントベース学習のための明示的な表現最適化の新たな未検討分野を開く。

Today, state-of-the-art deep neural networks that process events first convert them into dense, grid-like input representations before using an off-the-shelf network. However, selecting the appropriate representation for the task traditionally requires training a neural network for each representation and selecting the best one based on the validation score, which is very time-consuming. This work eliminates this bottleneck by selecting representations based on the Gromov-Wasserstein Discrepancy (GWD) between raw events and their representation. It is about 200 times faster to compute than training a neural network and preserves the task performance ranking of event representations across multiple representations, network backbones, datasets, and tasks. Thus finding representations with high task scores is equivalent to finding representations with a low GWD. We use this insight to, for the first time, perform a hyperparameter search on a large family of event representations, revealing new and powerful representations that exceed the state-of-the-art. Our optimized representations outperform existing representations by 1.7 mAP on the 1 Mpx dataset and 0.3 mAP on the Gen1 dataset, two established object detection benchmarks, and reach a 3.8% higher classification score on the mini N-ImageNet benchmark. Moreover, we outperform state-of-the-art by 2.1 mAP on Gen1 and state-of-the-art feed-forward methods by 6.0 mAP on the 1 Mpx datasets. This work opens a new unexplored field of explicit representation optimization for event-based learning.
翻訳日:2023-09-01 20:18:35 公開日:2023-08-30
# ユニバーサル移動物体セグメンテーションのための時間分布と空間相関の学習

Learning Temporal Distribution and Spatial Correlation for Universal Moving Object Segmentation ( http://arxiv.org/abs/2304.09949v2 )

ライセンス: Link先を確認
Guanfang Dong, Chenqiu Zhao, Xichen Pan, Anup Basu(参考訳) ユニバーサル移動オブジェクトセグメンテーションは、通常、特定のシーンや類似のシーンに有効であるように、あらゆる種類の自然シーンのビデオの一般的なモデルを提供することを目的としている。 本稿では,普遍移動物体のセグメンテーションの汎用解となる可能性を持つ時間分布・空間相関学習法(lts)を提案する。 提案手法では,時間画素からの分布をシーン非依存のセグメンテーションのためのDefect Iterative Distribution Learning (DIDL)ネットワークで学習する。 次に,空間相関を学習する確率ベイズ補充(SBR)ネットワークを提案し,DIDLネットワークが生成する二項マスクを改善する。 時間分布のシーン独立性と空間相関による精度の向上から, 提案手法は, パラメータが固定された多様で複雑な自然シーンのほとんどすべての映像に対して良好に動作する。 LASIESTA、CDNet2014、BMC、SBMI2015、および128の現実世界ビデオを含む標準データセットに関する包括的な実験は、ディープラーニングネットワークの使用の有無に関わらず、最先端の手法と比較して提案手法の優位性を示す。 我々の知る限り、この研究は現実世界の環境においてオブジェクトセグメンテーションを動かすための一般的な解決策となる可能性が高い。

Universal moving object segmentation aims to provide a general model for videos from all types of natural scenes, as previous approaches are usually effective for specific or similar scenes. In this paper, we propose a method called Learning Temporal Distribution and Spatial Correlation (LTS) that has the potential to be a general solution for universal moving object segmentation. In the proposed approach, the distribution from temporal pixels is first learned by our Defect Iterative Distribution Learning (DIDL) network for a scene-independent segmentation. Then, the Stochastic Bayesian Refinement (SBR) Network, which learns the spatial correlation, is proposed to improve the binary mask generated by the DIDL network. Benefiting from the scene independence of the temporal distribution and the accuracy improvement resulting from the spatial correlation, the proposed approach performs well for almost all videos from diverse and complex natural scenes with fixed parameters. Comprehensive experiments on standard datasets including LASIESTA, CDNet2014, BMC, SBMI2015 and 128 real world videos demonstrate the superiority of proposed approach compared to state-of-the-art methods with or without the use of deep learning networks. To the best of our knowledge, this work has high potential to be a general solution for moving object segmentation in real world environments.
翻訳日:2023-09-01 20:17:31 公開日:2023-08-30
# 相対性理論と理論変数に基づく量子論のバージョンとの接続の可能性

Possible connections between relativity theory and a version of quantum theory based upon theoretical variables ( http://arxiv.org/abs/2305.15435v2 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) 量子論への別のアプローチについて述べ、彼のアプローチを特殊相対性理論と一般相対性理論に結びつける仮の試みについて論じる。 重要な概念はゲージ群といくつかの物理系に接続された情報/エントロピーである。 ブラックホールに関連する情報に関する最近の研究結果が触れられている。

An alternative approach towards quantum theory is described, and tentative attempts to connect his approach to special and general relativity are discussed. Important concepts are gauge groups and information/entropy connected to some physical systems. Some recent results on information in connection to black holes are touched upon.
翻訳日:2023-09-01 20:10:24 公開日:2023-08-30
# 相関性を保つ:ビデオ拡散モデルに先立つノイズ

Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models ( http://arxiv.org/abs/2305.10474v2 )

ライセンス: Link先を確認
Songwei Ge, Seungjun Nah, Guilin Liu, Tyler Poon, Andrew Tao, Bryan Catanzaro, David Jacobs, Jia-Bin Huang, Ming-Yu Liu, Yogesh Balaji(参考訳) 拡散モデルを用いた高品質な画像生成の著しい進歩にもかかわらず、フォトリアリスティックかつ時間的コヒーレントなアニメーションフレーム列の合成はまだ初期段階である。 既存の10億規模のデータセットで画像を生成することは可能だが、同じ規模のビデオデータを集めることは依然として難しい。 また、ビデオ拡散モデルのトレーニングは、画像よりも計算コストがはるかに高い。 本研究では,映像合成課題の実用的解として,映像データを用いた事前学習画像拡散モデルの微調整について検討する。 映像拡散に先立って映像ノイズを鼻で拡大することにより,映像の音響特性が向上することがわかった。 慎重に設計されたビデオノイズは、パフォーマンスを著しく向上させる。 UCF-101 と MSR-VTT ベンチマークでSOTA のゼロショットテキスト・ビデオ結果が得られたことを,我々のモデルである Preserve Your Own correlation (PYoCo) が広く検証した。 また、小規模のUCF-101ベンチマークでSOTAビデオ生成の品質を10\times$小さなモデルで達成し、従来の技術に比べて計算量が大幅に少ない。

Despite tremendous progress in generating high-quality images using diffusion models, synthesizing a sequence of animated frames that are both photorealistic and temporally coherent is still in its infancy. While off-the-shelf billion-scale datasets for image generation are available, collecting similar video data of the same scale is still challenging. Also, training a video diffusion model is computationally much more expensive than its image counterpart. In this work, we explore finetuning a pretrained image diffusion model with video data as a practical solution for the video synthesis task. We find that naively extending the image noise prior to video noise prior in video diffusion leads to sub-optimal performance. Our carefully designed video noise prior leads to substantially better performance. Extensive experimental validation shows that our model, Preserve Your Own Correlation (PYoCo), attains SOTA zero-shot text-to-video results on the UCF-101 and MSR-VTT benchmarks. It also achieves SOTA video generation quality on the small-scale UCF-101 benchmark with a $10\times$ smaller model using significantly less computation than the prior art.
翻訳日:2023-09-01 20:09:27 公開日:2023-08-30
# カーネルメトリック学習による混合型距離収縮とクラスタリングの選択

Mixed-type Distance Shrinkage and Selection for Clustering via Kernel Metric Learning ( http://arxiv.org/abs/2306.01890v2 )

ライセンス: Link先を確認
Jesse S. Ghashti and John R. J. Thompson(参考訳) 距離に基づくクラスタリングと分類は、様々な分野において、混合数値と分類データを分類するために広く使われている。 多くのアルゴリズムでは、その相似性に基づいてデータポイントをクラスタするために予め定義された距離測定が使われている。 純粋に数値的な属性を持つデータと順序づけられていない分類指標を持つデータには、多くの距離に基づく測度があるが、連続的および離散的な性質をシミュレートした混合型データに対する効率的かつ正確な距離は、オープンな問題である。 多くのメトリクスは、数値属性を分類属性に変換する。 データポイントを単一の属性タイプとして扱うか、それぞれの属性間の距離を別々に計算して追加する。 異種性を測定するために混在カーネルを用いたKDSUMと呼ばれるメトリクスを提案する。 我々は,kdsum が既存の混合型メトリクスから均一な異種メトリクスへの縮小手法であることを実証し,連続型,カテゴリ限定,混合型データを含むシミュレーションおよび実世界のデータセット上で,既存の距離型クラスタリングアルゴリズムで使用されている場合のクラスタリング精度を向上させる。

Distance-based clustering and classification are widely used in various fields to group mixed numeric and categorical data. In many algorithms, a predefined distance measurement is used to cluster data points based on their dissimilarity. While there exist numerous distance-based measures for data with pure numerical attributes and several ordered and unordered categorical metrics, an efficient and accurate distance for mixed-type data that utilizes the continuous and discrete properties simulatenously is an open problem. Many metrics convert numerical attributes to categorical ones or vice versa. They handle the data points as a single attribute type or calculate a distance between each attribute separately and add them up. We propose a metric called KDSUM that uses mixed kernels to measure dissimilarity, with cross-validated optimal bandwidth selection. We demonstrate that KDSUM is a shrinkage method from existing mixed-type metrics to a uniform dissimilarity metric, and improves clustering accuracy when utilized in existing distance-based clustering algorithms on simulated and real-world datasets containing continuous-only, categorical-only, and mixed-type data.
翻訳日:2023-09-01 19:57:42 公開日:2023-08-30
# 合成テンソルゲージ場

Synthetic tensor gauge fields ( http://arxiv.org/abs/2306.15663v2 )

ライセンス: Link先を確認
Shaoliang Zhang, Chenwei Lv, Qi Zhou(参考訳) 合成ゲージ場は物理学において様々な基本的な現象を探索するためのユニークなツールを物理学者に提供する。 しかし、現在実験で利用できるのは合成ベクトルゲージ場のみである。 フラクトン相において重要な役割を果たすテンソルゲージ場の研究は、純粋に理論的なものである。 本稿では,実験室で容易に利用できる技術を用いて合成テンソルゲージ場を実現する手法を提案する。 強い線形ポテンシャルと弱い二次ポテンシャルによって傾いた格子は、自然に粒子-ホール対によって形成されるリニアンのランク2電場を与える。 このようなランク2の電場は、単一の粒子も1つのホールも応答しないが、リネンが振動する新しいタイプのブロッホ振動をもたらす。 位置依存位相を持つ合成ベクトルゲージ場は、リネオンに対して同じ合成テンソルゲージ場を生成するために実装することもできる。 高次元では、相互作用とベクトルゲージポテンシャルの間の相互作用は、リング交換相互作用に位相を刻み込み、平面の合成テンソルゲージ場を生成する。 そのようなテンソルゲージ場は、実験室で双極子ハーパーホフシュタッターモデルを実現することができる。

Synthetic gauge fields have provided physicists with a unique tool to explore a wide range of fundamentally important phenomena in physics. However, only synthetic vector gauge fields are currently available in experiments. The study of tensor gauge fields, which play a vital role in fracton phase of matter, remains purely theoretical. Here, we propose schemes to realize synthetic tensor gauge fields using techniques readily available in laboratories. A lattice tilted by a strong linear potential and a weak quadratic potential naturally yields a rank-2 electric field for a lineon formed by a particle-hole pair. Such a rank-2 electric field leads to a new type of Bloch oscillations, where neither a single particle nor a single hole responds but a lineon vibrates. A synthetic vector gauge field carrying a position-dependent phase could also be implemented to produce the same synthetic tensor gauge field for a lineon. In higher dimensions, the interplay between interactions and vector gauge potentials imprints a phase to the ring-exchange interaction and thus generates synthetic tensor gauge fields for planons. Such tensor gauge fields make it possible to realize a dipolar Harper-Hofstadter model in laboratories.
翻訳日:2023-09-01 19:51:18 公開日:2023-08-30
# DNAGPT:Versatile DNAシークエンス解析タスクのための汎用事前学習ツール

DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence Analysis Tasks ( http://arxiv.org/abs/2307.05628v3 )

ライセンス: Link先を確認
Daoan Zhang, Weitong Zhang, Yu Zhao, Jianguo Zhang, Bing He, Chenchen Qin, Jianhua Yao(参考訳) 事前訓練された大規模言語モデルは、DNA配列から情報を抽出する可能性を示しているが、様々なタスクやデータモダリティに適応することは依然として課題である。 そこで本研究では,全哺乳動物から200億以上の塩基対をトレーニングしたDNA事前学習モデルであるDNAGPTを提案する。 古典的なGPTモデルをバイナリ分類タスク(DNA配列順)、数値回帰タスク(グアニン-シトシン含量予測)、包括的なトークン言語で拡張することにより、DNAGPTは配列データと数値データの両方を処理しながら、汎用的なDNA解析タスクを処理できる。 ゲノム信号および領域認識,mRNA量の回帰,および人工ゲノム生成タスクの評価は,新たに設計されたモデル構造を用いた事前学習の恩恵を受けながら,下流タスク用に設計された既存のモデルと比較してDNAGPTの優れた性能を示す。

Pre-trained large language models demonstrate potential in extracting information from DNA sequences, yet adapting to a variety of tasks and data modalities remains a challenge. To address this, we propose DNAGPT, a generalized DNA pre-training model trained on over 200 billion base pairs from all mammals. By enhancing the classic GPT model with a binary classification task (DNA sequence order), a numerical regression task (guanine-cytosine content prediction), and a comprehensive token language, DNAGPT can handle versatile DNA analysis tasks while processing both sequence and numerical data. Our evaluation of genomic signal and region recognition, mRNA abundance regression, and artificial genomes generation tasks demonstrates DNAGPT's superior performance compared to existing models designed for specific downstream tasks, benefiting from pre-training using the newly designed model structure.
翻訳日:2023-09-01 19:40:17 公開日:2023-08-30
# 文法進化を用いた意味的類似集合の自動設計

Automatic Design of Semantic Similarity Ensembles Using Grammatical Evolution ( http://arxiv.org/abs/2307.00925v5 )

ライセンス: Link先を確認
Jorge Martinez-Gil(参考訳) 意味的類似度尺度は、自然言語処理において様々なコンピュータ関連タスクを触媒するために広く用いられている。 しかしながら、すべてのタスクに最も適している意味的類似性尺度は存在せず、研究者はしばしばパフォーマンスを確保するためにアンサンブル戦略を用いる。 本研究では,意味的類似性アンサンブルの自動設計手法を提案する。 実際,本提案手法は,人的判断の相関を最大化するアンサンブルを生成するために,まず,候補のプールから測度を自動的に選択・集約するために文法的進化を利用する。 この手法はいくつかのベンチマークデータセットで評価され、最先端のアンサンブルと比較され、類似性評価の精度を大幅に向上し、場合によっては既存手法よりも優れていることを示す。 そこで本研究では,文法的進化を用いてテキストを自動比較し,意味的類似性タスクにアンサンブルを用いることの利点を証明する。 私たちのアプローチを示すソースコードは、https://github.com/jorge-martinez-gil/sesigeからダウンロードできます。

Semantic similarity measures are widely used in natural language processing to catalyze various computer-related tasks. However, no single semantic similarity measure is the most appropriate for all tasks, and researchers often use ensemble strategies to ensure performance. This research work proposes a method for automatically designing semantic similarity ensembles. In fact, our proposed method uses grammatical evolution, for the first time, to automatically select and aggregate measures from a pool of candidates to create an ensemble that maximizes correlation to human judgment. The method is evaluated on several benchmark datasets and compared to state-of-the-art ensembles, showing that it can significantly improve similarity assessment accuracy and outperform existing methods in some cases. As a result, our research demonstrates the potential of using grammatical evolution to automatically compare text and prove the benefits of using ensembles for semantic similarity tasks. The source code that illustrates our approach can be downloaded from https://github.com/jorge-martinez-gil/sesige.
翻訳日:2023-09-01 19:38:49 公開日:2023-08-30
# プロンプトを用いたトレーニングフリーオブジェクトカウント

Training-free Object Counting with Prompts ( http://arxiv.org/abs/2307.00038v2 )

ライセンス: Link先を確認
Zenglin Shi, Ying Sun, Mengmi Zhang(参考訳) 本稿では,画像中のオブジェクトのカウントの問題に取り組む。 既存のアプローチでは、各オブジェクトに対するポイントアノテーションを備えた広範なトレーニングデータに依存しているため、データ収集は労力と時間を要する。 そこで本研究では,カウントタスクをセグメンテーション問題として扱うトレーニングフリーオブジェクトカウンタを提案する。 我々のアプローチは、高品質なマスクとゼロショットセグメンテーション能力で知られるSAM(Segment Anything Model)を活用している。 しかし、SAMのバニラマスク生成法は、マスクのクラス固有の情報を欠いているため、カウント精度が劣る。 この制限を克服するために,3種類の先行をセグメンテーションプロセスに組み込んだマスク生成手法を導入し,効率と精度を向上させる。 さらに,参照対象選択と予め指示されたマスク生成を組み合わせた2段階のアプローチを提案することで,テキストで指定されたオブジェクトをカウントする問題に取り組む。 標準データセットに関する広範な実験は、学習ベースのアプローチと比較して、トレーニングフリーカウンタの競争力を示すものです。 本稿では,広範なデータ収集やカウント専用トレーニングを必要とせず,さまざまなシナリオでオブジェクトをカウントする有望なソリューションを提案する。 コードは \url{https://github.com/shizenglin/training-free-object-counter} で入手できる。

This paper tackles the problem of object counting in images. Existing approaches rely on extensive training data with point annotations for each object, making data collection labor-intensive and time-consuming. To overcome this, we propose a training-free object counter that treats the counting task as a segmentation problem. Our approach leverages the Segment Anything Model (SAM), known for its high-quality masks and zero-shot segmentation capability. However, the vanilla mask generation method of SAM lacks class-specific information in the masks, resulting in inferior counting accuracy. To overcome this limitation, we introduce a prior-guided mask generation method that incorporates three types of priors into the segmentation process, enhancing efficiency and accuracy. Additionally, we tackle the issue of counting objects specified through text by proposing a two-stage approach that combines reference object selection and prior-guided mask generation. Extensive experiments on standard datasets demonstrate the competitive performance of our training-free counter compared to learning-based approaches. This paper presents a promising solution for counting objects in various scenarios without the need for extensive data collection and counting-specific training. Code is available at \url{https://github.com/shizenglin/training-free-object-counter}
翻訳日:2023-09-01 19:38:32 公開日:2023-08-30
# DISQ: 変分量子アルゴリズムのための動的反復スキーピング

DISQ: Dynamic Iteration Skipping for Variational Quantum Algorithms ( http://arxiv.org/abs/2308.06634v2 )

ライセンス: Link先を確認
Junyao Zhang, Hanrui Wang, Gokul Subramanian Ravi, Frederic T. Chong, Song Han, Frank Mueller, Yiran Chen(参考訳) 本稿では,VQA訓練のための安定景観の構築とノイズドリフト問題への取り組みについて提案する。 DISQは参照回路を備えた「ドリフト検出器」を採用し、ノイズドリフトエラーによって深刻な影響を受けるイテレーションを特定し、スキップする。 具体的には、前回のトレーニングイテレーションからの回路を、現在のイテレーションにおける基準回路として再実行し、ノイズドリフトの影響を推定する。 この反復はノイズドリフトエラーによって侵害され、ノイズドリフトが理想的な最適化勾配の方向をひっくり返すとスキップされる。 ノイズドリフト検出の信頼性を高めるため,従来からの複数の参照回路を活用し,現在のノイズドリフトを適切に判断する手法を提案する。 それでも、複数の参照回路はかなりの実行オーバーヘッドをもたらす。 余分なオーバーヘッドを軽減するため、ドリフト検出時に大きな係数大(プライムサブセット)の観測可能な回路のみを実行するために、Pauli-term subsetting(プライムおよびマイナーサブセット)を提案する。 現在のイテレーションがドリフトフリーである場合、この小さなサブセットのみが実行される。 様々な応用およびQPUの評価により、DECはVQAに対するノイズドリフトの影響のかなりの部分を緩和し、従来のベースラインよりも1.51-2.24倍の忠実性向上を達成できることが示されている。 DISQの利点は1.1-1.9倍であり、平均ノイズ検出速度は2.07倍に向上する。

This paper proposes DISQ to craft a stable landscape for VQA training and tackle the noise drift challenge. DISQ adopts a "drift detector" with a reference circuit to identify and skip iterations that are severely affected by noise drift errors. Specifically, the circuits from the previous training iteration are re-executed as a reference circuit in the current iteration to estimate noise drift impacts. The iteration is deemed compromised by noise drift errors and thus skipped if noise drift flips the direction of the ideal optimization gradient. To enhance noise drift detection reliability, we further propose to leverage multiple reference circuits from previous iterations to provide a well founded judge of current noise drift. Nevertheless, multiple reference circuits also introduce considerable execution overhead. To mitigate extra overhead, we propose Pauli-term subsetting (prime and minor subsets) to execute only observable circuits with large coefficient magnitudes (prime subset) during drift detection. Only this minor subset is executed when the current iteration is drift-free. Evaluations across various applications and QPUs demonstrate that DISQ can mitigate a significant portion of the noise drift impact on VQAs and achieve 1.51-2.24x fidelity improvement over the traditional baseline. DISQ's benefit is 1.1-1.9x over the best alternative approach while boosting average noise detection speed by 2.07x
翻訳日:2023-09-01 19:18:40 公開日:2023-08-30
# xxMD: 平衡を超えた拡張ダイナミクスを用いた神経力場のベンチマーク

xxMD: Benchmarking Neural Force Fields Using Extended Dynamics beyond Equilibrium ( http://arxiv.org/abs/2308.11155v2 )

ライセンス: Link先を確認
Zihan Pengmei, Yinan Shu, Junyu Liu(参考訳) 神経力場(NFF)は代理モデルとして計算化学で有名になり、アブ初期分子動力学における量子化学計算に取って代わられている。 NFFの一般的なベンチマークはMD17データセットとその拡張である。 これらのデータセットは主に、基底電子状態ポテンシャルエネルギー表面の平衡領域からのジオメトリで構成され、直接断熱力学からサンプリングされる。 しかし、多くの化学反応は重要な分子変形、特に結合破壊を引き起こす。 MD17データセットにおける内部座標とエネルギーの制約分布を実演し, 化学反応中の系を表現するのに不適切であることを示す。 このサンプリング制限に対処し、非断熱力学から派生したxxMD(Extended Excited-state Molecular Dynamics)データセットを導入する。 このデータセットは、マルチ参照波動関数理論と密度汎関数理論の両方から得られるエネルギーと力を含んでいる。 さらに、核配置空間は化学反応を忠実に表現しており、xxMDはより化学的に関連するデータセットとなっている。 xxMDデータセット上での同変モデルの再評価により,MD17とその変種と比較して平均絶対誤差が顕著に高いことが明らかになった。 この観察は、外挿能力を持つ一般化可能なNFFモデルを構築する際に直面する課題を浮き彫りにする。 提案したxxMD-CASSCFとxxMD-DFTデータセットはhttps://github.com/zpengmei/xxMDで公開されている。

Neural force fields (NFFs) have gained prominence in computational chemistry as surrogate models, superseding quantum-chemistry calculations in ab initio molecular dynamics. The prevalent benchmark for NFFs has been the MD17 dataset and its subsequent extension. These datasets predominantly comprise geometries from the equilibrium region of the ground electronic state potential energy surface, sampling from direct adiabatic dynamics. However, many chemical reactions entail significant molecular deformations, notably bond breaking. We demonstrate the constrained distribution of internal coordinates and energies in the MD17 datasets, underscoring their inadequacy for representing systems undergoing chemical reactions. Addressing this sampling limitation, we introduce the xxMD (Extended Excited-state Molecular Dynamics) dataset, derived from non-adiabatic dynamics. This dataset encompasses energies and forces ascertained from both multireference wave function theory and density functional theory. Furthermore, its nuclear configuration spaces authentically depict chemical reactions, making xxMD a more chemically relevant dataset. Our re-assessment of equivariant models on the xxMD datasets reveals notably higher mean absolute errors than those reported for MD17 and its variants. This observation underscores the challenges faced in crafting a generalizable NFF model with extrapolation capability. Our proposed xxMD-CASSCF and xxMD-DFT datasets are available at https://github.com/zpengmei/xxMD.
翻訳日:2023-09-01 19:10:44 公開日:2023-08-30
# CamP:ニューラルラジアンスフィールドのためのカメラプレコンディショニング

CamP: Camera Preconditioning for Neural Radiance Fields ( http://arxiv.org/abs/2308.10902v2 )

ライセンス: Link先を確認
Keunhong Park, Philipp Henzler, Ben Mildenhall, Jonathan T. Barron, Ricardo Martin-Brualla(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、物体や大規模シーンの高忠実度3次元シーン再構成に最適化することができる。 しかし、NeRFは入力として正確なカメラパラメータを必要とし、不正確なカメラパラメータはぼやけたレンダリングをもたらす。 外部および固有のカメラパラメータは、通常、NeRFの前処理ステップとしてStructure-from-Motion (SfM)法を用いて推定されるが、これらの手法が完全に推定されることは滅多にない。 このように、以前の研究では、NeRFと共にカメラパラメータを共同最適化する手法が提案されているが、これらの手法は、挑戦的な設定において、局所最小化の傾向にある。 本研究では,この共同最適化問題に異なるカメラパラメタライゼーションがどう影響するかを解析し,標準パラメタライゼーションが小さな摂動に対して大きな差を示し,不条件の最適化問題を引き起こす可能性があることを観察する。 本稿では,カメラパラメータ間の相関を解消し,その効果を正規化するホワイトニング変換の計算にプロキシ問題を用いることを提案し,この変換をカメラパラメータの事前条件として併用する。 我々は、Zip-NeRFのようなカメラに最適化されない最先端のNeRFアプローチと比較して67%の誤差率(RMSE)を減少させ、SCNeRFのカメラパラメータ化を用いた最先端の関節最適化アプローチと比較して29%の精度で改善した。 我々の手法は実装が容易であり、実行時間を大幅に増加させることなく、様々なカメラパラメータ化に適用でき、他のNeRFモデルに簡単に組み込むことができる。

Neural Radiance Fields (NeRF) can be optimized to obtain high-fidelity 3D scene reconstructions of objects and large-scale scenes. However, NeRFs require accurate camera parameters as input -- inaccurate camera parameters result in blurry renderings. Extrinsic and intrinsic camera parameters are usually estimated using Structure-from-Motion (SfM) methods as a pre-processing step to NeRF, but these techniques rarely yield perfect estimates. Thus, prior works have proposed jointly optimizing camera parameters alongside a NeRF, but these methods are prone to local minima in challenging settings. In this work, we analyze how different camera parameterizations affect this joint optimization problem, and observe that standard parameterizations exhibit large differences in magnitude with respect to small perturbations, which can lead to an ill-conditioned optimization problem. We propose using a proxy problem to compute a whitening transform that eliminates the correlation between camera parameters and normalizes their effects, and we propose to use this transform as a preconditioner for the camera parameters during joint optimization. Our preconditioned camera optimization significantly improves reconstruction quality on scenes from the Mip-NeRF 360 dataset: we reduce error rates (RMSE) by 67% compared to state-of-the-art NeRF approaches that do not optimize for cameras like Zip-NeRF, and by 29% relative to state-of-the-art joint optimization approaches using the camera parameterization of SCNeRF. Our approach is easy to implement, does not significantly increase runtime, can be applied to a wide variety of camera parameterizations, and can straightforwardly be incorporated into other NeRF-like models.
翻訳日:2023-09-01 19:09:40 公開日:2023-08-30
# 6つの拡張ウィグナーの友人議論のレビューと分析

A review and analysis of six extended Wigner's friend arguments ( http://arxiv.org/abs/2308.16220v1 )

ライセンス: Link先を確認
David Schmid, Y\`il\`e Y\=ing, Matthew Leifer(参考訳) ウィグナーの友人による思考実験は、エージェントが測定を行う際に、エージェントを量子システムとして記述することの難しさを説明することを目的としていた。 量子論の正統的な解釈に挑戦する一方で、現代の解釈の多くは難解さの解消に支障を来さない。 近年、ウィグナーのアイデアの拡張がいくつか提案されている。 我々はそのような6つの議論を穏やかに紹介し、それらの多くは可能な限りシンプルで統一されたものに修正する。 特に、すべての議論が、原理上もどの観測者にもアクセスできない測定結果間の相関関係に関する仮定にヒンジしていることを示す。 次に,各議論の批判的分析を行い,特に,これらの到達不能な相関関係について,必要な仮定がどの程度動機づけられるかに焦点をあてた。 これらの仮定のいくつかは十分に動機づけられているわけではないが、量子論の性質、特にエージェントの記述とその測定について、全ての議論が明らかになっている。 その他の反応は考えられるが、これらの非ゴー定理の最も説得力のあるものは、測定結果が絶対的ではなくパースペクティブであるという見解を支持することができる。

The Wigner's friend thought experiment was intended to illustrate the difficulty one has in describing an agent as a quantum system when that agent performs a measurement. While it does pose a challenge to the orthodox interpretation of quantum theory, most modern interpretations have no trouble in resolving the difficulty. Recently, a number of extensions of Wigner's ideas have been proposed. We provide a gentle introduction to six such arguments, modifying the specifics of many of them so that they are as simple and unified as possible. In particular, we show that all of the arguments hinge on assumptions about correlations between measurement outcomes that are not accessible to any observer, even in principle. We then provide a critical analysis of each argument, focusing especially on how well one can motivate the required assumptions regarding these inaccessible correlations. Although we argue that some of these assumptions are not entirely well-motivated, all of the arguments do shed light on the nature of quantum theory, especially when concerning the description of agents and their measurements. Although there are other possible responses, the most compelling of these no-go theorems can be taken to support the view that measurement outcomes are perspectival rather than absolute.
翻訳日:2023-09-01 19:01:55 公開日:2023-08-30
# ディープビデオコーデック制御

Deep Video Codec Control ( http://arxiv.org/abs/2308.16215v1 )

ライセンス: Link先を確認
Christoph Reich, Biplob Debnath, Deep Patel, Tim Prangemeier, Srimat Chakradhar(参考訳) 損失のあるビデオ圧縮は、ビデオデータの転送と保存によく使用される。 統合ビデオコーデック(H.264やH.265など)は、高度な(神経的な)圧縮アプローチが可能であるにもかかわらず、emph{de facto}標準のままである。 動的ネットワーク帯域幅の条件で動画を送信するには、ビデオコーデックが全く異なる圧縮強度に適応する必要がある。 レート制御モジュールはコーデックの圧縮を増大させ、帯域制限が満たされ、ビデオ歪みが最小化される。 ビデオコードとそのレート制御モジュールは、人間の品質評価の歪みを最小限に抑えるために開発されたが、ディープビジョンモデルの下流性能は考慮されていない。 本稿では,既存の規格を破ることなく,帯域制限とダウンストリーム視覚性能の両方を考慮した,エンドツーエンドで学習可能なディープビデオコーデック制御を提案する。 我々は2つの共通ビジョンタスク(セマンティックセグメンテーションと光フロー推定)と2つの異なるデータセットに対して、ダイナミックな帯域幅制約を満たし、標準化に固執しながら、2パス平均ビットレート制御を使用するよりも、より深いコーデック制御の方が下流のパフォーマンスを良く維持できることを示す。

Lossy video compression is commonly used when transmitting and storing video data. Unified video codecs (e.g., H.264 or H.265) remain the \emph{de facto} standard, despite the availability of advanced (neural) compression approaches. Transmitting videos in the face of dynamic network bandwidth conditions requires video codecs to adapt to vastly different compression strengths. Rate control modules augment the codec's compression such that bandwidth constraints are satisfied and video distortion is minimized. While, both standard video codes and their rate control modules are developed to minimize video distortion w.r.t. human quality assessment, preserving the downstream performance of deep vision models is not considered. In this paper, we present the first end-to-end learnable deep video codec control considering both bandwidth constraints and downstream vision performance, while not breaking existing standardization. We demonstrate for two common vision tasks (semantic segmentation and optical flow estimation) and on two different datasets that our deep codec control better preserves downstream performance than using 2-pass average bit rate control while meeting dynamic bandwidth constraints and adhering to standardizations.
翻訳日:2023-09-01 19:01:35 公開日:2023-08-30
# RetroBridge:Markov Bridgesを用いた再合成モデリング

RetroBridge: Modeling Retrosynthesis with Markov Bridges ( http://arxiv.org/abs/2308.16212v1 )

ライセンス: Link先を確認
Ilia Igashov, Arne Schneuing, Marwin Segler, Michael Bronstein and Bruno Correia(参考訳) 再合成計画は、市販の開始物質から標的分子への反応経路を設計することを目的とした化学の基本的な課題である。 多段階のレトロシンセシス計画の各ステップは、ターゲット分子と信頼度推定を与えられた前駆分子の正確な予測を必要とし、ヒューリスティック探索アルゴリズムを導く。 離散状態空間における分布学習問題として,単一ステップの逆合成計画をモデル化する。 まず,連結データ点の有限サンプルからアクセス可能な2つの難解な離散分布間の依存性を近似する,マルコフブリッジモデルを提案する。 私たちのフレームワークは、エンドポイントにピン留めされたMarkovプロセスであるMarkov Bridgeの概念に基づいている。 拡散に基づく手法とは異なり、マルコフブリッジモデルはサンプリングプロキシとしてトラクタブルノイズ分布を必要とせず、抽出可能な先行分布からのサンプルとして入力生成物分子を直接操作する。 そこで我々は,本研究のフレームワークを用いて,レトロシンセシス計画の問題に対処し,標準評価ベンチマークで最先端の結果を得るテンプレートフリーなレトロシンセシスモデリング手法であるretrobridgeを導入する。

Retrosynthesis planning is a fundamental challenge in chemistry which aims at designing reaction pathways from commercially available starting materials to a target molecule. Each step in multi-step retrosynthesis planning requires accurate prediction of possible precursor molecules given the target molecule and confidence estimates to guide heuristic search algorithms. We model single-step retrosynthesis planning as a distribution learning problem in a discrete state space. First, we introduce the Markov Bridge Model, a generative framework aimed to approximate the dependency between two intractable discrete distributions accessible via a finite sample of coupled data points. Our framework is based on the concept of a Markov bridge, a Markov process pinned at its endpoints. Unlike diffusion-based methods, our Markov Bridge Model does not need a tractable noise distribution as a sampling proxy and directly operates on the input product molecules as samples from the intractable prior distribution. We then address the retrosynthesis planning problem with our novel framework and introduce RetroBridge, a template-free retrosynthesis modeling approach that achieves state-of-the-art results on standard evaluation benchmarks.
翻訳日:2023-09-01 19:00:57 公開日:2023-08-30
# 認識論的分析によるメタフィジカルの排除--メタフィジカルな過小決定から学ぶ(un)

The elimination of metaphysics through the epistemological analysis: lessons (un)learned from metaphysical underdetermination ( http://arxiv.org/abs/2308.16211v1 )

ライセンス: Link先を確認
Raoni Arroyo and Jonas R. B. Arenhart and D\'ecio Krause(参考訳) この章は、科学の一般的な哲学は、非相対論的量子力学で起こるように、メタ物理的下決定のケースからメタ哲学的な教訓を学ぶべきであると主張している。 第2節は、量子粒子の個性と非個性に関するメタフィジカルな過小決定に関する伝統的な議論を示す。 第3節では、個性に関するエリーミナティビズム、個性に関する保守主義、対象に関するエリミナティビズムという3つの反応について論じている。 第4節では、科学のメタ物理学の認識論に関するメタメタフィジカルな考察をまとめている。

This chapter argues that the general philosophy of science should learn metaphilosophical lessons from the case of metaphysical underdetermination, as it occurs in non-relativistic quantum mechanics. Section 2 presents the traditional discussion of metaphysical underdetermination regarding the individuality and non-individuality of quantum particles. Section 3 discusses three reactions to it found in the literature: eliminativism about individuality; conservatism about individuality; eliminativism about objects. Section 4 wraps it all up with metametaphysical considerations regarding the epistemology of metaphysics of science.
翻訳日:2023-09-01 19:00:21 公開日:2023-08-30
# ディープインダクティブ論理プログラミングは強化学習に適合する

Deep Inductive Logic Programming meets Reinforcement Learning ( http://arxiv.org/abs/2308.16210v1 )

ライセンス: Link先を確認
Andreas Bueff (University of Edinburgh), Vaishak Belle (University of Edinburgh)(参考訳) 機械学習モデルにおける階層的な理解のレベルを説明する1つのアプローチは、データ効率が高く、データ振る舞いを包含できる一階述語論理規則を学習できる、帰納的論理プログラミング(ILP)の象徴的手法である。 ILPへの微分可能な拡張、いわゆる微分可能なニューラルロジック(dNL)ネットワークは、そのニューラルアーキテクチャがシンボリック推論を含むため、ブール関数を学習することができる。 動的連続環境に対処するための関係強化学習(RRL)分野におけるdNLの適用を提案する。 このことは,提案モデルがアーキテクチャを更新し,連続RL環境における問題の解決を可能にするため,dNLベースのILPをRRL設定に適用する上でのこれまでの作業の拡張である。 本研究の目的は、非線形連続述語を取り入れ、RRLエージェントが動的かつ連続的な環境において推論および決定を行えるようにすることで、現在のIRP法の改善である。

One approach to explaining the hierarchical levels of understanding within a machine learning model is the symbolic method of inductive logic programming (ILP), which is data efficient and capable of learning first-order logic rules that can entail data behaviour. A differentiable extension to ILP, so-called differentiable Neural Logic (dNL) networks, are able to learn Boolean functions as their neural architecture includes symbolic reasoning. We propose an application of dNL in the field of Relational Reinforcement Learning (RRL) to address dynamic continuous environments. This represents an extension of previous work in applying dNL-based ILP in RRL settings, as our proposed model updates the architecture to enable it to solve problems in continuous RL environments. The goal of this research is to improve upon current ILP methods for use in RRL by incorporating non-linear continuous predicates, allowing RRL agents to reason and make decisions in dynamic and continuous environments.
翻訳日:2023-09-01 18:59:43 公開日:2023-08-30
# 量子コンピュータを用いた「重力」の試験モデル

Testing Models of 'Gravity' Using a Quantum Computer ( http://arxiv.org/abs/2308.16208v1 )

ライセンス: Link先を確認
Christopher I. Timms(参考訳) この記事では、量子交絡を含む波動関数上の情報の保存と検索が、それぞれ長さ収縮と時間拡張の概念と同様に振る舞う様子を示すモデルを作成することから始まる。 次に、重力に類似した方法で量子系の時間的進化を導く、前述のモデルに基づいて、別のモデルを生成することができるかどうかを探索する。 この答えは、一連のモデルを試した後、量子エンタングルメントと波動関数の崩壊の両方を用いて量子情報の伝達によってのみ媒介されるフィールドを生成することによって、肯定的な形でなされる。 効果場が重力ではないことは容易に認識できるが、この研究は、なぜこの概念が重力に類似した振る舞いを生成するのではなく、重力の真の性質に関する基本的な洞察を提供するのかという議論を提起している。 この研究は、計算資源によって構成が著しく制限されているシステムではあるものの、均一な有効ポテンシャルを持つシステムがダークエネルギーと同様に振る舞う方法を研究する。 最後に、負の重力質量が生成できるかどうかを探究する。 負の重力質量を持つ孤立粒子は、このモデルによって問題であることが証明されているが、結果の磁場がより大きな距離で取り消されている限り、負の重力質量を持つ局所領域は生成可能であるように見える。

This article begins by putting forth a model that shows how the storage and retrieval of information on a wave function that involves quantum entanglement behaves similarly to the concepts of length contraction and time dilation, respectively. An exploration is then made to see if another model can be generated based on the one previously mentioned that guides the time evolution of a quantum system in a manner similar to that of gravity. The answer is made in the affirmative, after testing a series of models, by producing a field that is mediated solely by the transfer of quantum information using both quantum entanglement and wave function collapse. While it is readily acknowledged that the effective field produced may not be gravity, the study provides arguments about why the concepts presented do in fact provide fundamental insights about the true nature of gravity as opposed to merely generating similar behavior to gravity. The study moves on to study how a system with uniform effective potential behaves similarly to dark energy, albeit with a system whose construction is severely limited by computational resources. Finally, an exploration is made as to whether a negative gravitational mass can be produced. It is found that while an isolated particle with negative gravitational mass proves to be problematic according to this model, it seems as though a local region with negative gravitational mass can be produced as long as the resulting fields are cancelled out at larger distances.
翻訳日:2023-09-01 18:59:19 公開日:2023-08-30
# MASA-TCN:連続的かつ離散的な脳波認識のためのマルチアンカー空間対応時間畳み込みニューラルネットワーク

MASA-TCN: Multi-anchor Space-aware Temporal Convolutional Neural Networks for Continuous and Discrete EEG Emotion Recognition ( http://arxiv.org/abs/2308.16207v1 )

ライセンス: Link先を確認
Yi Ding, Su Zhang, Chuangao Tang, Cuntai Guan(参考訳) 脳波(eeg)を用いた感情認識は主に2つのシナリオを含む:離散ラベルの分類と連続タグ付きラベルの回帰。 分類タスクには多くのアルゴリズムが提案されているが、回帰タスクの方法はわずかである。 感情回帰の場合、ラベルは時間内に連続する。 自然な方法は時間的動的パターンを学ぶことである。 従来の研究では,脳波の特徴ベクトルから時間的文脈情報を学習するために,長期記憶(LSTM)と時相畳み込みニューラルネットワーク(TCN)が用いられていた。 しかし,脳波の空間パターンは効果的に抽出されなかった。 そこで本研究では,tcnの空間学習能力向上のために,脳波感情回帰と分類タスクのための新しい統一モデルであるmas-tcnを提案する。 空間認識時間層は、TNがEEG電極間の空間関係からさらに学習することができる。 さらに,動的時間依存性を学習するために,注意融合を伴う新しいマルチアンカーブロックを提案する。 masa-tcnは脳波の感情回帰と分類タスクの両方において最先端の手法よりも高い結果が得られる。 コードはhttps://github.com/yi-ding-cs/MASA-TCNで公開されている。

Emotion recognition using electroencephalogram (EEG) mainly has two scenarios: classification of the discrete labels and regression of the continuously tagged labels. Although many algorithms were proposed for classification tasks, there are only a few methods for regression tasks. For emotion regression, the label is continuous in time. A natural method is to learn the temporal dynamic patterns. In previous studies, long short-term memory (LSTM) and temporal convolutional neural networks (TCN) were utilized to learn the temporal contextual information from feature vectors of EEG. However, the spatial patterns of EEG were not effectively extracted. To enable the spatial learning ability of TCN towards better regression and classification performances, we propose a novel unified model, named MASA-TCN, for EEG emotion regression and classification tasks. The space-aware temporal layer enables TCN to additionally learn from spatial relations among EEG electrodes. Besides, a novel multi-anchor block with attentive fusion is proposed to learn dynamic temporal dependencies. Experiments on two publicly available datasets show MASA-TCN achieves higher results than the state-of-the-art methods for both EEG emotion regression and classification tasks. The code is available at https://github.com/yi-ding-cs/MASA-TCN.
翻訳日:2023-09-01 18:58:56 公開日:2023-08-30
# 多面的絡み合いに対する単調性予想 I

Monotonicity conjecture for multi-party entanglement I ( http://arxiv.org/abs/2308.16247v1 )

ライセンス: Link先を確認
Abhijit Gadde, Shraiyance Jain, Vineeth Krishna, Harshal Kulkarni, Trakshu Sharma(参考訳) 本稿では,多粒子絡み合いのクラスに対して粗粒化の下で単調性と呼ぶ単調性特性を予想する。 これらの特性を様々な方法を用いて各種状態の測定値を計算することにより検証する。

In this paper, we conjecture a monotonicity property that we call monotonicity under coarse-graining for a class of multi-partite entanglement measures. We check these properties by computing the measures for various types of states using different methods.
翻訳日:2023-09-01 18:51:59 公開日:2023-08-30
# アクティブニューラルマッピング

Active Neural Mapping ( http://arxiv.org/abs/2308.16246v1 )

ライセンス: Link先を確認
Zike Yan, Haoxiang Yang, Hongbin Zha(参考訳) 本稿では,連続学習型ニューラルシーン表現,すなわちアクティブニューラルマッピングによるアクティブマッピングの問題に対処する。 鍵となるのは、効率的なエージェントの動きで探索されるターゲット空間を積極的に見つけることにある。 本稿では,連続的に学習されるニューラルネットワークの重み空間について検討し,ランダムな重みの摂動に対する予測ロバスト性を用いて,ニューラルネットワークの瞬時不確かさを直接測定できることを実証的に示す。 神経地図に継承される連続的な幾何学情報と共に、エージェントは、環境に関する知識を徐々に得るために、横断可能な経路を見つけるように誘導することができる。 オンラインシーン再構築のための座標に基づく暗黙的ニューラル表現を用いたアクティブマッピングシステムを初めて提示する。 視覚現実的なギブソンとマターポート3D環境における実験により,提案手法の有効性が示された。

We address the problem of active mapping with a continually-learned neural scene representation, namely Active Neural Mapping. The key lies in actively finding the target space to be explored with efficient agent movement, thus minimizing the map uncertainty on-the-fly within a previously unseen environment. In this paper, we examine the weight space of the continually-learned neural field, and show empirically that the neural variability, the prediction robustness against random weight perturbation, can be directly utilized to measure the instant uncertainty of the neural map. Together with the continuous geometric information inherited in the neural map, the agent can be guided to find a traversable path to gradually gain knowledge of the environment. We present for the first time an active mapping system with a coordinate-based implicit neural representation for online scene reconstruction. Experiments in the visually-realistic Gibson and Matterport3D environment demonstrate the efficacy of the proposed method.
翻訳日:2023-09-01 18:51:52 公開日:2023-08-30
# 回帰の校正説明

Calibrated Explanations for Regression ( http://arxiv.org/abs/2308.16245v1 )

ライセンス: Link先を確認
Tuwe L\"ofstr\"om, Helena L\"ofstr\"om, Ulf Johansson, Cecilia S\"onstr\"od(参考訳) 人工知能(AI)は現代の意思決定支援システム(DSS)の不可欠な部分であることが多い。 AIベースのDSSで使用される最高のパフォーマンス予測モデルには透明性がない。 説明可能な人工知能(XAI)は、人間のユーザーにその根拠を説明するAIシステムを構築することを目的としている。 XAIにおける局所的な説明は、特徴的重要性の観点から個々の予測の原因に関する情報を提供することができる。 しかし、既存の局所的説明手法の重大な欠点は、特徴の重要性に関連する不確実性を定量化できないことである。 本稿では,従来は分類のみをサポートしていたが,標準回帰と確率回帰,すなわち目標が任意のしきい値を超えている確率をサポートする特徴重要説明法(キャリブレーション説明法,キャリブレーション説明法)の拡張を提案する。 回帰の延長はCEのすべての利点を保ち、例えば、信頼区間を持つモデルから予測をキャリブレーションし、特徴の重要性を不確実に定量化し、事実的および反実的な説明を可能にする。 ce for standard regressionは、高速、信頼性、安定、堅牢な説明を提供する。 確率回帰のためのCEは、通常の回帰モデルから確率論的説明を作成する全く新しい方法を提供し、しきい値の動的選択を提供する。 安定性と速度に関する確率的回帰に対するCEの性能はLIMEに匹敵する。 この方法は、容易に理解可能な条件規則を持つモデル非依存である。 pythonの実装はgithubで無料で利用可能であり、pipを使ってインストールすると、この論文の結果が簡単に複製できる。

Artificial Intelligence (AI) is often an integral part of modern decision support systems (DSSs). The best-performing predictive models used in AI-based DSSs lack transparency. Explainable Artificial Intelligence (XAI) aims to create AI systems that can explain their rationale to human users. Local explanations in XAI can provide information about the causes of individual predictions in terms of feature importance. However, a critical drawback of existing local explanation methods is their inability to quantify the uncertainty associated with a feature's importance. This paper introduces an extension of a feature importance explanation method, Calibrated Explanations (CE), previously only supporting classification, with support for standard regression and probabilistic regression, i.e., the probability that the target is above an arbitrary threshold. The extension for regression keeps all the benefits of CE, such as calibration of the prediction from the underlying model with confidence intervals, uncertainty quantification of feature importance, and allows both factual and counterfactual explanations. CE for standard regression provides fast, reliable, stable, and robust explanations. CE for probabilistic regression provides an entirely new way of creating probabilistic explanations from any ordinary regression model and with a dynamic selection of thresholds. The performance of CE for probabilistic regression regarding stability and speed is comparable to LIME. The method is model agnostic with easily understood conditional rules. An implementation in Python is freely available on GitHub and for installation using pip making the results in this paper easily replicable.
翻訳日:2023-09-01 18:51:37 公開日:2023-08-30
# 翻訳不変双極子保存系の充足制約

Filling constraints on translation invariant dipole conserving systems ( http://arxiv.org/abs/2308.16241v1 )

ライセンス: Link先を確認
Fiona J. Burnell, Sanjay Moudgalya, Abhinav Prem(参考訳) 保存された双極子モーメントを持つシステムは、傾いた光学格子に関する最近の実験において、その実現に多大な関心を寄せている。 そのようなシステムにとって重要な質問は、すべての対称性と一致する一意なガッピング基底状態が認められる条件を並べることである。 ここでは、U(1)電荷と$\mathbb{Z}_L$双極子モーメントを保存する一次元の変換不変格子について検討する。 これらの系では、対称、ガッピング、非縮退基底状態は整数電荷充填だけでなく、双極子充填の固定値も必要であり、他の分数双極子充填はギャップのない基底状態または対称性破壊基底状態を必要とする。 文献の先行結果と対照的に、双極子充填制約は電荷充填とシステムサイズの両方に依存しており、双極子対称性と境界条件との微妙な相互作用を強調している。 我々は数値シミュレーションと正確な結果で結果を裏付ける。

Systems with conserved dipole moment have drawn considerable interest in light of their realization in recent experiments on tilted optical lattices. An important question for such systems is delineating the conditions under which they admit a unique gapped ground state that is consistent with all symmetries. Here, we study one-dimensional translation-invariant lattices that conserve U(1) charge and $\mathbb{Z}_L$ dipole moment, where discreteness of the dipole symmetry is enforced by periodic boundary conditions, with $L$ the system size. We show that in these systems, a symmetric, gapped, and non-degenerate ground state requires not only integer charge filling, but also a fixed value of the dipole filling, while other fractional dipole fillings enforce either a gapless or symmetry-breaking ground state. In contrast with prior results in the literature, we find that the dipole filling constraint depends both on the charge filling as well as the system size, emphasizing the subtle interplay of dipole symmetry with boundary conditions. We support our results with numerical simulations and exact results.
翻訳日:2023-09-01 18:51:14 公開日:2023-08-30
# 統計的相関子と三成分絡み合い

Statistical Correlators and Tripartite Entanglement ( http://arxiv.org/abs/2308.16236v1 )

ライセンス: Link先を確認
Sakil Khan, Dipankar Home, Urbasi Sinha, and Sachin Jain(参考訳) 近年では, トリパルタイトの絡み合いの指標として, コンカレンス・フィルとジュネーヌ・マルチパルタイト・コンカレンス(英語版)の2つの具体的対策が, 特定の特定基準に基づいて, トリパルタイトの絡み合い度を測る唯一の「総合的」な対策であると議論されている。 この文脈では、これらの2つの真の三分三分交絡手段は、ピアソン相関器のような観測可能な統計相関器と相互情報との導出関係を用いて、一般化されたGHZと一般化されたW状態の2つの重要な三分三分交絡状態に対して経験的に決定できることを示す。 このような定式化されたスキームは、その有効性を資源として適切に評価するために欠かせない三部体の絡み合いを正確に定量化する手段を初めて提供する。 我々はまた、このスキームの2つの特定の応用を指摘している。 a) 与えられた2つの三分体状態のうちのどれが他方よりも絡み合っているかを定量的に評価する上で、コンカレンスフィルとジュネーヌ多分体コンカレンスとの不等価性の潜在的に重要な特徴を実証的に示すこと。 ロ 最近予測された三分体系の絡み合い急死現象の実験的検出を可能にすること。

It has recently been argued that among the various suggested measures of tripartite entanglement, the two particular measures, viz. the Concurrence Fill and the Genuine Multipartite Concurrence are the only 'genuine' tripartite entanglement measures based on certain suitably specified criteria. In this context, we show that these two genuine tripartite entanglement measures can be empirically determined for the two important classes of tripartite entangled states, viz. the generalized GHZ and the generalized W states using the derived relationships of these two measures with the observable statistical correlators like the Pearson correlator and mutual information. Such a formulated scheme would therefore provide for the first time the means to exactly quantify tripartite entanglement, crucial for the proper assessment of its efficacy as resource. We also point out two specific applications of this scheme, viz. a) Enabling empirical demonstration of the potentially significant feature of inequivalence between Concurrence Fill and Genuine Multipartite Concurrence in quantitatively assessing which of the two given tripartite states is more entangled than the other one. b) Enabling experimental detection of the recently predicted phenomenon of entanglement sudden death for a tripartite system.
翻訳日:2023-09-01 18:50:54 公開日:2023-08-30
# 自律的量子誤差補正の境界

Bounds on Autonomous Quantum Error Correction ( http://arxiv.org/abs/2308.16233v1 )

ライセンス: Link先を確認
Oles Shtanko, Yu-Jie Liu, Simon Lieu, Alexey V. Gorshkov, Victor V. Albert(参考訳) 自律型量子メモリは、"常にオン"デコーダを生成するエンジニアリングされた散逸を用いて、受動的に量子情報を保護する方法である。 我々は,広範囲の量子ビット誤り訂正符号とボソニック誤り訂正符号で実装可能なマルコフ自律デコーダを解析し,いくつかの上界と下界を補正と雑音率で導出する。 多体量子符号の場合、アクティブな誤り訂正に匹敵する誤り抑制を達成するために、自律デコーダは一般にコードサイズで増加する補正率を必要とする。 しきい値を持つ符号では、訂正率の超対数スケーリングを用いて、符号サイズによる論理誤差率の多項的減衰を高速に達成できることを示す。 いくつかの例でその結果を説明します。 1つの例は、線形格子サイズで指数関数的に減少する効果的な論理誤差率を達成するための解法可能な大域散逸トーリック符号モデルである。

Autonomous quantum memories are a way to passively protect quantum information using engineered dissipation that creates an "always-on'' decoder. We analyze Markovian autonomous decoders that can be implemented with a wide range of qubit and bosonic error-correcting codes, and derive several upper bounds and a lower bound on the logical error rate in terms of correction and noise rates. For many-body quantum codes, we show that, to achieve error suppression comparable to active error correction, autonomous decoders generally require correction rates that grow with code size. For codes with a threshold, we show that it is possible to achieve faster-than-polynomial decay of the logical error rate with code size by using superlogarithmic scaling of the correction rate. We illustrate our results with several examples. One example is an exactly solvable global dissipative toric code model that can achieve an effective logical error rate that decreases exponentially with the linear lattice size, provided that the recovery rate grows proportionally with the linear lattice size.
翻訳日:2023-09-01 18:50:25 公開日:2023-08-30
# qudit機械学習

Qudit Machine Learning ( http://arxiv.org/abs/2308.16230v1 )

ライセンス: Link先を確認
Sebasti\'an Roca-Jerat, Juan Rom\'an-Roche, David Zueco(参考訳) 本稿では,簡単なdレベルシステム(qudit)の学習能力に関する包括的調査を行う。 本研究は,実世界のデータベース,特にIris,乳癌,MNISTデータセットを用いた分類タスクに特化している。 我々は、様々なエンコーディング戦略とともに、メートル法学習フレームワークで様々な学習モデルを探索する。 特に,低次元システム内の入力データに対応するために,データ再アップロード技術と最大直交状態を用いる。 その結果,入力特徴量の次元とクラス数がquditの次元よりも大きくない場合,最良古典モデルと比較して好適な比較結果が得られた。 この傾向は、次元 d<5 を持ち、数層 (L=1,2) のアルゴリズムを利用する小さな量子系にも当てはまる。 しかし、MNISTのような高次元データに対して、畳み込みニューラルネットワークによる次元減少を伴うハイブリッドアプローチを採用する。 この文脈では、小さな量子系はしばしばボトルネックとして作用し、古典量子系に比べて精度が低いことが観察される。

We present a comprehensive investigation into the learning capabilities of a simple d-level system (qudit). Our study is specialized for classification tasks using real-world databases, specifically the Iris, breast cancer, and MNIST datasets. We explore various learning models in the metric learning framework, along with different encoding strategies. In particular, we employ data re-uploading techniques and maximally orthogonal states to accommodate input data within low-dimensional systems. Our findings reveal optimal strategies, indicating that when the dimension of input feature data and the number of classes are not significantly larger than the qudit's dimension, our results show favorable comparisons against the best classical models. This trend holds true even for small quantum systems, with dimensions d<5 and utilizing algorithms with a few layers (L=1,2). However, for high-dimensional data such as MNIST, we adopt a hybrid approach involving dimensional reduction through a convolutional neural network. In this context, we observe that small quantum systems often act as bottlenecks, resulting in lower accuracy compared to their classical counterparts.
翻訳日:2023-09-01 18:50:07 公開日:2023-08-30
# 単一回路QEDデバイスを用いたスピン鎖の逐次量子シミュレーション

Sequential quantum simulation of spin chains with a single circuit QED device ( http://arxiv.org/abs/2308.16229v1 )

ライセンス: Link先を確認
Yuxuan Zhang, Shahin Jahanbani, Ameya Riswadkar, S. Shankar, and Andrew C. Potter(参考訳) 物質科学と化学における多体系の量子シミュレーションは量子コンピュータに有望な応用分野である。 しかし、短期量子プロセッサのスケールとコヒーレンスは、この可能性を実現する上で大きな障害となる。 ここでは、長寿命キャビティモードに結合したトランスモン量子ビットからなる単一回路量子電磁力学(cqed)デバイスを用いて、高エンタングル量子多体スピンチェーンの基底状態をシミュレーションする方法を理論的に概説する。 我々は最近,多体状態の行列積状態(MPS)表現を逐次構築する量子演算の実装法を開発した。 このアプローチでは、トランスモン量子ビットを用いてチェーン内の各スピンの状態を読み出し、そのキャビティの大きな状態空間を、サイト間相関と絡み合いを符号化する量子メモリとして利用する。 シミュレーションにより、アナログ(パルスレベル)制御スキームは、量子臨界スピンチェーンの既知のMPS表現を、デジタル(ゲートベース)法よりもはるかに少ない時間で正確に作成でき、デコヒーレンスへの露出を低減できることを示す。 次に、未知基底状態の変分準備のためのこのアナログ制御手法を検討する。 我々は,キャビティの広い状態空間は,量子ビットのみのアーキテクチャで複数の量子ビットを置き換えることができることを実証し,材料シミュレーションのための量子プロセッサの設計を単純化できることを示した。 本稿では,現実的な雑音とデコヒーレンスの実用的限界を探求し,古典的計算手法に挑戦するより複雑な問題に対して,このアプローチをスケールするための道筋について論じる。

Quantum simulation of many-body systems in materials science and chemistry are promising application areas for quantum computers. However, the limited scale and coherence of near-term quantum processors pose a significant obstacle to realizing this potential. Here, we theoretically outline how a single-circuit quantum electrodynamics (cQED) device, consisting of a transmon qubit coupled to a long-lived cavity mode, can be used to simulate the ground state of a highly-entangled quantum many-body spin chain. We exploit recently developed methods for implementing quantum operations to sequentially build up a matrix product state (MPS) representation of a many-body state. This approach re-uses the transmon qubit to read out the state of each spin in the chain and exploits the large state space of the cavity as a quantum memory encoding inter-site correlations and entanglement. We show, through simulation, that analog (pulse-level) control schemes can accurately prepare a known MPS representation of a quantum critical spin chain in significantly less time than digital (gate-based) methods, thereby reducing the exposure to decoherence. We then explore this analog-control approach for the variational preparation of an unknown ground state. We demonstrate that the large state space of the cavity can be used to replace multiple qubits in a qubit-only architecture, and could therefore simplify the design of quantum processors for materials simulation. We explore the practical limitations of realistic noise and decoherence and discuss avenues for scaling this approach to more complex problems that challenge classical computational methods.
翻訳日:2023-09-01 18:49:50 公開日:2023-08-30
# 小さな魔法は 多くを意味する

A little magic means a lot ( http://arxiv.org/abs/2308.16228v1 )

ライセンス: Link先を確認
Andi Gu, Lorenzo Leone, Soumik Ghosh, Jens Eisert, Susanne Yelin, Yihui Quek(参考訳) いわゆる魔法の概念は、非古典的量子状態が正確な意味でどのように存在するかを定量化する: 量子コンピューティングにおける量子長所を示すためには、高い魔法の値が必要である。 本研究では,魔法の少ない量子状態の特定のアンサンブルが,高い魔法を持つ量子状態と計算的に区別できない,'pseudomagic'という現象を紹介する。 従来、そのような計算の不明瞭さは、擬似絡みの概念を導入することによって、絡み合いに関して研究されてきた。 しかし, 擬似呪文は擬似絡み合いに従わず, その意味も示さない。 応用の観点からは、pseudomagicは量子カオスの理論に新たな光を当てている: 状態の存在は、非カオスユニタリから構築されているものの、いかなる物理的観測者でもランダムなカオス状態とは区別できないことを明かす。 さらなる応用として、状態合成問題に対する新しい下限、特性テストプロトコル、量子暗号への含意が含まれる。 私たちの結果は、魔法は量子状態の'隠れた'性質である、という概念的な含意を持っている: いくつかの状態は(計算的に束縛された)目よりも多くの魔法を持っている。 物理学の観点からは、実験室で測定できる物理的性質は効率的に計算的に検出できるものであるという考え方を提唱している。

Notions of so-called magic quantify how non-classical quantum states are in a precise sense: high values of magic are necessary to demonstrate a quantum advantage in quantum computing; they also play a key role in quantum error correction. In this work, we introduce the phenomenon of 'pseudomagic' -- wherein certain ensembles of quantum states with low magic are computationally indistinguishable from quantum states with high magic. Previously, such computational indistinguishability has been studied with respect to entanglement, by introducing the notion of pseudoentanglement. However, we show that pseudomagic neither follows from pseudoentanglement, nor implies it. In terms of applications, pseudomagic sheds new light on the theory of quantum chaos: it reveals the existence of states that, although built from non-chaotic unitaries, cannot be distinguished from random chaotic states by any physical observer. Further applications include new lower bounds on state synthesis problems, property testing protocols, as well as implications for quantum cryptography. Our results have the conceptual implication that magic is a 'hide-able' property of quantum states: some states have a lot more magic than meets the (computationally-bounded) eye. From the physics perspective, it advocates the mindset that the only physical properties that can be measured in a laboratory are those that are efficiently computationally detectable.
翻訳日:2023-09-01 18:49:20 公開日:2023-08-30
# 時が経つにつれて2倍になる量子超表面

Twice Upon a Time: Timelike-Separated Quantum Extremal Surfaces ( http://arxiv.org/abs/2308.16226v1 )

ライセンス: Link先を確認
Netta Engelhardt, Geoff Penington, Arvin Shahbazi-Moghaddam(参考訳) バルク再構成の複雑さに対するPythonのルンチ予想は、局所的な性質によって異なる2種類の非最小量子超曲面(QES)が関係している。 この予想はバルジ空間幾何学と量子符号の接続に依存しており、バルジから喉頭への制限幾何学はバルジ状態を非等方的に符号化するので、指数関数的に複雑なグローバー探索を必要とする。 しかし、今のところpythonのランチ予想は、全てのqessが空間的分離である時空に対してのみ定義される。 ここでは,時相分離群と時相分離群の両方を特徴とする時相対称時空を明示的に構築する。 興味深いことに、私たちのすべての例には第3タイプのqesが含まれており、局所的にド・ジッター分岐面に似ている。 一般化エントロピーのヘシアンをQESで解析することにより、喉、膨らみ、バウンスへの分類は徹底的であると論じる。 次に、一般的な時間的分離QESとバウンスに対応可能なPythonのLanch予想を更新する。 特に、テンソルネットワークの重力類似性は、存在しても必ずしも時間反転対称スライスではないことを示唆する。

The Python's Lunch conjecture for the complexity of bulk reconstruction involves two types of nonminimal quantum extremal surfaces (QESs): bulges and throats, which differ by their local properties. The conjecture relies on the connection between bulk spatial geometry and quantum codes: a constricting geometry from bulge to throat encodes the bulk state nonisometrically, and so requires an exponentially complex Grover search to decode. However, thus far, the Python's Lunch conjecture is only defined for spacetimes where all QESs are spacelike-separated from one another. Here we explicitly construct (time-reflection symmetric) spacetimes featuring both timelike-separated bulges and timelike-separated throats. Interestingly, all our examples also feature a third type of QES, locally resembling a de Sitter bifurcation surface, which we name a bounce. By analyzing the Hessian of generalized entropy at a QES, we argue that this classification into throats, bulges and bounces is exhaustive. We then propose an updated Python's Lunch conjecture that can accommodate general timelike-separated QESs and bounces. Notably, our proposal suggests that the gravitational analogue of a tensor network is not necessarily the time-reflection symmetric slice, even when one exists.
翻訳日:2023-09-01 18:48:55 公開日:2023-08-30
# 低コスト小型航空機と多視点コンピュータビジョンを用いた構造柱の自律的損傷評価

Autonomous damage assessment of structural columns using low-cost micro aerial vehicles and multi-view computer vision ( http://arxiv.org/abs/2308.16278v1 )

ライセンス: Link先を確認
Sina Tavasoli, Xiao Pan, T. Y. Yang, Saudah Gazi, Mohsen Azimi(参考訳) 構造柱は建物や橋の重要な荷積み構造である。 カラム損傷の早期検出は,残留性能の評価とシステムレベルの崩壊防止に重要である。 本研究は,コラムを自動スキャン・検査するためのMAVベースの革新的なアプローチを提案する。 まず,MAVに基づく自動画像収集手法を提案する。 MAVは構造柱とその周囲の環境を感知するようにプログラムされている。 ナビゲーション中、MAVはまず構造列を検出し、接近する。 そして、検出された列ごとに複数の視点で画像データを収集する。 第二に、収集した画像は損傷の種類や損傷箇所を評価するために使用される。 第3に、複数のカメラビューからの評価結果を用いて、構造柱の損傷状態を決定する。 本研究では, 鉄筋コンクリート(RC) 柱を選定し, 提案手法の有効性を実証する。 実験結果から,提案手法は複数の視角からの画像を効果的に収集し,重要なRC柱損傷を正確に評価できることがわかった。 このアプローチは、検査中の自律性レベルを改善する。 さらに,評価結果は既存の2次元視覚法よりも包括的である。 提案手法の概念は橋脚などの他の構造柱にも拡張することができる。

Structural columns are the crucial load-carrying components of buildings and bridges. Early detection of column damage is important for the assessment of the residual performance and the prevention of system-level collapse. This research proposes an innovative end-to-end micro aerial vehicles (MAVs)-based approach to automatically scan and inspect columns. First, an MAV-based automatic image collection method is proposed. The MAV is programmed to sense the structural columns and their surrounding environment. During the navigation, the MAV first detects and approaches the structural columns. Then, it starts to collect image data at multiple viewpoints around every detected column. Second, the collected images will be used to assess the damage types and damage locations. Third, the damage state of the structural column will be determined by fusing the evaluation outcomes from multiple camera views. In this study, reinforced concrete (RC) columns are selected to demonstrate the effectiveness of the approach. Experimental results indicate that the proposed MAV-based inspection approach can effectively collect images from multiple viewing angles, and accurately assess critical RC column damages. The approach improves the level of autonomy during the inspection. In addition, the evaluation outcomes are more comprehensive than the existing 2D vision methods. The concept of the proposed inspection approach can be extended to other structural columns such as bridge piers.
翻訳日:2023-09-01 18:39:58 公開日:2023-08-30
# 一般化改善のための視覚トランスフォーマの多様な特徴の学習

Learning Diverse Features in Vision Transformers for Improved Generalization ( http://arxiv.org/abs/2308.16274v1 )

ライセンス: Link先を確認
Armand Mihai Nicolicioiu, Andrei Liviu Nicolicioiu, Bogdan Alexe, Damien Teney(参考訳) ディープラーニングモデルは、トレーニングデータに豊富な予測信号セットがある場合でも、小さな機能セットのみに依存することが多い。 これにより、モデルは脆く、分散シフトに敏感になる。 そこで本研究では,まず視覚トランスフォーマー(vits)について検討し,異なる注意ヘッドを持つ頑健でスプリアスな特徴を抽出する傾向を示した。 このモジュール性により,検証データ上での"oracle selection"を用いて実証する,スプリアス機能に対応するヘッドをプルーニングすることで,テスト時に配布シフト時のパフォーマンスが大幅に向上する。 次に,注意ヘッドの入力勾配の直交性を促進することにより,学習特徴の多様性と相補性をさらに高める手法を提案する。 診断ベンチマーク(MNIST-CIFAR, Waterbirds)では, 特徴の多様性の向上と望ましくない頭部の刈り取りの結果, 分配性能の改善が観察された。

Deep learning models often rely only on a small set of features even when there is a rich set of predictive signals in the training data. This makes models brittle and sensitive to distribution shifts. In this work, we first examine vision transformers (ViTs) and find that they tend to extract robust and spurious features with distinct attention heads. As a result of this modularity, their performance under distribution shifts can be significantly improved at test time by pruning heads corresponding to spurious features, which we demonstrate using an "oracle selection" on validation data. Second, we propose a method to further enhance the diversity and complementarity of the learned features by encouraging orthogonality of the attention heads' input gradients. We observe improved out-of-distribution performance on diagnostic benchmarks (MNIST-CIFAR, Waterbirds) as a consequence of the enhanced diversity of features and the pruning of undesirable heads.
翻訳日:2023-09-01 18:39:44 公開日:2023-08-30
# ディープニューラルネットワークを用いた分数ラプラシアンの数値解法

A numerical approach for the fractional Laplacian via deep neural networks ( http://arxiv.org/abs/2308.16272v1 )

ライセンス: Link先を確認
Nicol\'as Valenzuela(参考訳) 境界および凸領域上のディリクレ境界条件の分数楕円問題として$D$ of $\mathbb{R}^d$, with $d \geq 2$を考える。 本稿では,Deep Neural Networks による分数分解問題の解を近似した確率勾配降下アルゴリズムを提案する。 さらに、アルゴリズムの効率をテストするために4つの数値例を提供し、各例は $\alpha \in (1,2)$ と $d \geq 2$ の多くの値に対して研究される。

We consider the fractional elliptic problem with Dirichlet boundary conditions on a bounded and convex domain $D$ of $\mathbb{R}^d$, with $d \geq 2$. In this paper, we perform a stochastic gradient descent algorithm that approximates the solution of the fractional problem via Deep Neural Networks. Additionally, we provide four numerical examples to test the efficiency of the algorithm, and each example will be studied for many values of $\alpha \in (1,2)$ and $d \geq 2$.
翻訳日:2023-09-01 18:39:26 公開日:2023-08-30
# 極小白色箱形変圧器によるセグメンテーションの創発

Emergence of Segmentation with Minimalistic White-Box Transformers ( http://arxiv.org/abs/2308.16271v1 )

ライセンス: Link先を確認
Yaodong Yu, Tianzhe Chu, Shengbang Tong, Ziyang Wu, Druv Pai, Sam Buchanan, Yi Ma(参考訳) 視覚タスクのトランスフォーマーライクなモデルは、最近、セグメンテーションや検出など、幅広い下流アプリケーションで有効であることが証明された。 従来の研究では、視覚変換器(ViT)はDINOのような自己教師型手法で訓練されるが、教師型分類タスクでは訓練されていない。 本研究では,複雑な自己教師付き学習機構の結果としてのみトランスフォーマーモデルにセグメンテーションが現れるのか,あるいはモデルアーキテクチャの適切な設計により,より広い条件下で同じセグメンテーションが達成できるのかを考察する。 実験の結果,データ分布の低次元構造を明示的にモデル化し追求するcrateと呼ばれるホワイトボックストランスフォーマチックなアーキテクチャを採用すると,全および部分レベルでのセグメンテーション特性が,すでに最小限の教師付きトレーニングレシピで出現することが示された。 層状細粒度解析により、創発的性質はホワイトボックスネットワークの設計した数学的関数に強く相関することが明らかとなった。 その結果,高い性能と数学的に完全に解釈可能なホワイトボックス基礎モデルの設計方法が示唆された。 コードは \url{https://github.com/Ma-Lab-Berkeley/CRATE} にある。

Transformer-like models for vision tasks have recently proven effective for a wide range of downstream applications such as segmentation and detection. Previous works have shown that segmentation properties emerge in vision transformers (ViTs) trained using self-supervised methods such as DINO, but not in those trained on supervised classification tasks. In this study, we probe whether segmentation emerges in transformer-based models solely as a result of intricate self-supervised learning mechanisms, or if the same emergence can be achieved under much broader conditions through proper design of the model architecture. Through extensive experimental results, we demonstrate that when employing a white-box transformer-like architecture known as CRATE, whose design explicitly models and pursues low-dimensional structures in the data distribution, segmentation properties, at both the whole and parts levels, already emerge with a minimalistic supervised training recipe. Layer-wise finer-grained analysis reveals that the emergent properties strongly corroborate the designed mathematical functions of the white-box network. Our results suggest a path to design white-box foundation models that are simultaneously highly performant and mathematically fully interpretable. Code is at \url{https://github.com/Ma-Lab-Berkeley/CRATE}.
翻訳日:2023-09-01 18:39:15 公開日:2023-08-30
# Prompt Learning Benefit Radiology レポートの生成は可能か?

Can Prompt Learning Benefit Radiology Report Generation? ( http://arxiv.org/abs/2308.16269v1 )

ライセンス: Link先を確認
Jun Wang, Lixing Zhu, Abhir Bhalerao and Yulan He(参考訳) 放射線学レポート生成は、MRIやX線などの放射線学画像の臨床的意義を自動で記述することを目的としている。 自然風景画像キャプションタスクで大きな成功を収めているが、放射線報告書の作成は依然として困難であり、事前の医学知識が必要である。 本稿では,事前学習を活用し,事前学習モデルを活性化し,事前知識を取り入れるpromptrrgを提案する。 放射線学的レポート生成のための即興学習は,これまで検討されていないため,我々はプロンプトデザインを調査し,共通,ドメイン固有,疾患に富んだプロンプトという,さまざまなレベルの知識に基づいて分類することから始める。 また,手動プロンプト工学の負担を軽減するための自動プロンプト学習機構を提案する。 放射線学レポート生成における即時学習の有効性を体系的に検証する最初の研究である。 その結果,MIMIC-CXRは,提案手法が最先端の性能を実現することを示す。 コードは受理後利用可能になる。

Radiology report generation aims to automatically provide clinically meaningful descriptions of radiology images such as MRI and X-ray. Although great success has been achieved in natural scene image captioning tasks, radiology report generation remains challenging and requires prior medical knowledge. In this paper, we propose PromptRRG, a method that utilizes prompt learning to activate a pretrained model and incorporate prior knowledge. Since prompt learning for radiology report generation has not been explored before, we begin with investigating prompt designs and categorise them based on varying levels of knowledge: common, domain-specific and disease-enriched prompts. Additionally, we propose an automatic prompt learning mechanism to alleviate the burden of manual prompt engineering. This is the first work to systematically examine the effectiveness of prompt learning for radiology report generation. Experimental results on the largest radiology report generation benchmark, MIMIC-CXR, demonstrate that our proposed method achieves state-of-the-art performance. Code will be available upon the acceptance.
翻訳日:2023-09-01 18:38:48 公開日:2023-08-30
# スターク非線形カップリングを有するjaynes-cummingsモデルにおけるスピン巻線と遷移の位相的性質

Spin Winding and Topological Nature of Transitions in Jaynes-Cummings Model with Stark Non-linear Coupling ( http://arxiv.org/abs/2308.16267v1 )

ライセンス: Link先を確認
Zu-Jian Ying(参考訳) 新たな遷移パターンの探索に加えて、遷移の性質の完全な理解を得ることは、相転移の研究における究極の追求である。 光間相互作用の基本モデルは単量子位相相転移を示し、数値的な研究とは別に解析的な実証を求める。 我々は、一般的にスターク非線形カップリングを伴うjaynes-cummingsモデルにおける位相遷移に関する厳密な研究を行う。 エルミート多項式の性質の観点からは、固有波動関数の位相構造が、反巻線ノードのない完全なスピン巻線を生成するノードによるスピン巻線と正確な対応を持つことを示す。 無限遠の巻角の巻数に対するスプリアス分数的寄与は実際には整数であることが判明した。 したがって、モデルにおける相転移は位相相転移の性質を持ち、励起数は位相量子数として与えられる。 主遷移は、遷移が対称性を破るランダウ類と対称性を保護したトポロジカル類の両方を同時に持つというパラダイム的なケースを確立する。 また,逆回転項の存在下での非慣習的位相遷移の起源についても理解する。 我々の結果は、光-物質相互作用における少数体相転移の深い洞察を与えるかもしれない。

Besides exploring novel transition patterns, acquiring a full understanding of the transition nature is an ultimate pursuit in studies of phase transitions. The fundamental models of light-matter interactions manifest single-qubit topological phase transitions, which is calling for an analytical demonstration apart from numerical studies. We present a rigorous study for topological transitions in Jaynes-Cummings Model generally with Stark non-linear Coupling. In terms of the properties of Hermite polynomials, we show that the topological structure of the eigen wave function has an exact correspondence to the spin winding by nodes, which yields a full spin winding without anti-winding nodes. The spurious fractional contribution to the winding number of the winding angle at infinity is found to be actually integer. Thus, the phase transitions in the model have a nature of topological phase transitions and the excitation number is endowed as a topological quantum number. The principal transition establishes a paradigmatic case that a transition is both symmetry-breaking Landau class of transition and symmetry-protected topological class of transition simultaneously, while conventionally these two classes of transitions are incompatible due to the contrary symmetry requirements. We also give an understanding for the origin of unconventional topological transitions in the presence of counter-rotating terms. Our results may provide a deeper insight for the few-body phase transitions in light-matter interactions.
翻訳日:2023-09-01 18:38:29 公開日:2023-08-30
# 効用最大化のための量子ネットワーク計画

Quantum Network Planning for Utility Maximization ( http://arxiv.org/abs/2308.16264v1 )

ライセンス: Link先を確認
Shahrooz Pouryousef, Hassan Shapourian, Alireza Shabani, Ramana Kompella, and Don Towsley(参考訳) 既存の光学ネットワークインフラは、光子損失のために量子ネットワークアプリケーションにすぐには利用できない。 量子ネットワークの実現に向けた第一歩は、光ネットワークへの量子リピータの統合である。 しかし、量子ハードウェア固有のコストと本質的なノイズは、量子リピータとメモリの割り当てを最適化する効率的なデプロイメント戦略の必要性を強調している。 本稿では,量子リピータを既存のインフラストラクチャに効率的に分散することを目的とした,ネットワーク計画のための包括的枠組みを提案する。 本研究では, ダンベルネットワークトポロジの予備例や, SURFnet と ESnet の実例を含むいくつかの事例に適用する。 本稿では,量子リピータ内の量子メモリ多重化の効果と,量子ネットワークの有用性に対するメモリコヒーレンス時間の影響について検討する。 さらに,ネットワーク計画に異なる公平性仮定が与える影響について検討し,実時間ネットワーク性能への影響を明らかにする。

Existing classical optical network infrastructure cannot be immediately used for quantum network applications due to photon loss. The first step towards enabling quantum networks is the integration of quantum repeaters into optical networks. However, the expenses and intrinsic noise inherent in quantum hardware underscore the need for an efficient deployment strategy that optimizes the allocation of quantum repeaters and memories. In this paper, we present a comprehensive framework for network planning, aiming to efficiently distributing quantum repeaters across existing infrastructure, with the objective of maximizing quantum network utility within an entanglement distribution network. We apply our framework to several cases including a preliminary illustration of a dumbbell network topology and real-world cases of the SURFnet and ESnet. We explore the effect of quantum memory multiplexing within quantum repeaters, as well as the influence of memory coherence time on quantum network utility. We further examine the effects of different fairness assumptions on network planning, uncovering their impacts on real-time network performance.
翻訳日:2023-09-01 18:38:06 公開日:2023-08-30
# 競争選択による因果戦略学習

Causal Strategic Learning with Competitive Selection ( http://arxiv.org/abs/2308.16262v1 )

ライセンス: Link先を確認
Kiet Q. H. Vo, Muneeb Aadil, Siu Lun Chau, Krikamol Muandet(参考訳) 複数の意思決定者による因果戦略学習におけるエージェント選択の問題を調査し,それに伴う2つの課題に対処した。 まず, 先行研究の多くは, 評価によらず静的なエージェントプールの研究に焦点が当てられているが, エージェントが評価されるだけでなく, 選択される際の選択手順の影響を考察する。 各意思決定者が自身の効用を最大化してエージェントを一方的に選択した場合、最適な選択規則は、最適なエージェントを選択し、エージェントの改善を最大化するためのインセンティブを提供することの間のトレードオフであることを示す。 さらに、この最適選択規則は、エージェントの結果の誤った予測に依存する。 したがって、意思決定者の最適選択規則がエージェントの結果の劣化を招き、エージェントの選択確率を不当に低下させることのない条件について検討する。 この目的のために, 最適選択規則の分析形式と, エージェントの行動に関する一定の仮定の下で, 観測データから因果パラメータを抽出する機構を提案する。 第二に、複数の意思決定者がいる場合、選択規則間の干渉は、基礎となる因果パラメータを推定する別のバイアス源をもたらす。 この問題に対処するために,我々は,意思決定者が一体となって真の因果パラメータを回復しなければならない協調プロトコルを提供する。 最後に,シミュレーション研究により理論的結果を補完する。 本研究は,ゲームの効果を緩和するための戦略としての因果モデリングの重要性を強調するだけでなく,それを実現するために善意のレギュレータが必要である。

We study the problem of agent selection in causal strategic learning under multiple decision makers and address two key challenges that come with it. Firstly, while much of prior work focuses on studying a fixed pool of agents that remains static regardless of their evaluations, we consider the impact of selection procedure by which agents are not only evaluated, but also selected. When each decision maker unilaterally selects agents by maximising their own utility, we show that the optimal selection rule is a trade-off between selecting the best agents and providing incentives to maximise the agents' improvement. Furthermore, this optimal selection rule relies on incorrect predictions of agents' outcomes. Hence, we study the conditions under which a decision maker's optimal selection rule will not lead to deterioration of agents' outcome nor cause unjust reduction in agents' selection chance. To that end, we provide an analytical form of the optimal selection rule and a mechanism to retrieve the causal parameters from observational data, under certain assumptions on agents' behaviour. Secondly, when there are multiple decision makers, the interference between selection rules introduces another source of biases in estimating the underlying causal parameters. To address this problem, we provide a cooperative protocol which all decision makers must collectively adopt to recover the true causal parameters. Lastly, we complement our theoretical results with simulation studies. Our results highlight not only the importance of causal modeling as a strategy to mitigate the effect of gaming, as suggested by previous work, but also the need of a benevolent regulator to enable it.
翻訳日:2023-09-01 18:37:51 公開日:2023-08-30
# materials informatics transformer: 解釈可能な材料特性予測のための言語モデル

Materials Informatics Transformer: A Language Model for Interpretable Materials Properties Prediction ( http://arxiv.org/abs/2308.16259v1 )

ライセンス: Link先を確認
Hongshuo Huang, Rishikesh Magar, Changwen Xu and Amir Bariti Farimani(参考訳) 近年, 自然言語処理, コンピュータビジョン, 分子モデリングなど, 様々な研究領域において, 大規模言語モデル(LLM)の顕著な能力が実証されている。 本研究では, LLMを材料特性予測に利用し, モデルであるMatInFormer(MatInFormer)を導入して, このパラダイムを拡張した。 具体的には,関連する空間群情報のトークン化を通じて結晶学の文法を学ぶ新しい手法を提案する。 さらに,金属有機フレームワーク(MOF)に関連するタスク固有データを組み込むことにより,MatInFormerの適応性について述べる。 注意の可視化を通じて、プロパティ予測中にモデルが優先する重要な特徴を明らかにする。 提案モデルの有効性は,14個の異なるデータセットに対して実験的に検証され,精度の高い材料特性予測による高スループットスクリーニングの可能性を示す。

Recently, the remarkable capabilities of large language models (LLMs) have been illustrated across a variety of research domains such as natural language processing, computer vision, and molecular modeling. We extend this paradigm by utilizing LLMs for material property prediction by introducing our model Materials Informatics Transformer (MatInFormer). Specifically, we introduce a novel approach that involves learning the grammar of crystallography through the tokenization of pertinent space group information. We further illustrate the adaptability of MatInFormer by incorporating task-specific data pertaining to Metal-Organic Frameworks (MOFs). Through attention visualization, we uncover the key features that the model prioritizes during property prediction. The effectiveness of our proposed model is empirically validated across 14 distinct datasets, hereby underscoring its potential for high throughput screening through accurate material property prediction.
翻訳日:2023-09-01 18:37:26 公開日:2023-08-30
# ロバスト原則: 逆ロバストCNNのためのアーキテクチャ設計原則

Robust Principles: Architectural Design Principles for Adversarially Robust CNNs ( http://arxiv.org/abs/2308.16258v1 )

ライセンス: Link先を確認
ShengYun Peng, Weilin Xu, Cory Cornelius, Matthew Hull, Kevin Li, Rahul Duggal, Mansi Phute, Jason Martin, Duen Horng Chau(参考訳) 本研究の目的は,CNNの対立的ロバスト性に及ぼす建築要素の影響について,既存作品の多様な意見を統合することである。 目標を達成するために、3つの一般化可能なロバストなアーキテクチャ設計原則をまとめます。 (a)深さ及び幅構成の最適範囲 (b)パッチフィケーションステムステージよりも畳み込みを好むこと、 (c) 圧縮・励起ブロックと非パラメトリックスムーズな活性化関数を併用した頑健な残留ブロック設計。 広範にわたるデータセットスケール、敵対的トレーニング方法、モデルパラメータ、ネットワーク設計空間での広範な実験を通じて、当社の原則は一貫して著しくオートアタック精度を向上させる: cifar-10とcifar-100の1-3パーセンテージポイント(pp)、imagenetの4-9pp。 コードはhttps://github.com/poloclub/robust-principlesで公開されている。

Our research aims to unify existing works' diverging opinions on how architectural components affect the adversarial robustness of CNNs. To accomplish our goal, we synthesize a suite of three generalizable robust architectural design principles: (a) optimal range for depth and width configurations, (b) preferring convolutional over patchify stem stage, and (c) robust residual block design through adopting squeeze and excitation blocks and non-parametric smooth activation functions. Through extensive experiments across a wide spectrum of dataset scales, adversarial training methods, model parameters, and network design spaces, our principles consistently and markedly improve AutoAttack accuracy: 1-3 percentage points (pp) on CIFAR-10 and CIFAR-100, and 4-9 pp on ImageNet. The code is publicly available at https://github.com/poloclub/robust-principles.
翻訳日:2023-09-01 18:37:11 公開日:2023-08-30
# 一般量子チャネルにおける正準典型性

Canonical typicality under general quantum channels ( http://arxiv.org/abs/2308.16330v1 )

ライセンス: Link先を確認
Pedro Silva Correia, Gabriel Dias Carvalho, Thiago R. de Oliveira, Ra\'ul O. Vallejos and Fernando de Melo(参考訳) より複雑な量子システムの制御が現実になるにつれ、統計量子力学の最も基礎的な側面の一般化が必須となる新たなシナリオが生まれつつある。 このような実験シナリオでは、システムを構成する粒子と関連する自由度の間の自然な対応は観測されない。 本研究では,量子チャネルを用いて一般化サブシステムを定義し,関連する自由度をキャプチャし,それに関連する正準状態を得る。 さらに, 一般化サブシステムにおいても, 正準特異性の現象, すなわち, ほぼすべての微視的純粋状態から生成される一般化サブシステム記述が, 対応する正準状態と同様に振る舞うことを示す。 特に、正準典型的挙動の出現を規定する性質は、一般化されたサブシステムを定義するために用いられるチャネルのエントロピーであることを示す。

With the control of ever more complex quantum systems becoming a reality, new scenarios are emerging where generalizations of the most foundational aspects of statistical quantum mechanics are imperative. In such experimental scenarios the often natural correspondence between the particles that compose the system and the relevant degrees-of-freedom might not be observed. In the present work we employ quantum channels to define generalized subsystems, which should capture the pertinent degrees-of-freedom, and obtain their associated canonical state. Moreover, we show that generalized subsystems also display the phenomena of canonical typicality, i.e., the generalized subsystem description generated from almost any microscopic pure state of the whole system will behave similarly as the corresponding canonical state. In particular we demonstrate that the property regulating the emergence of the canonical typicality behavior is the entropy of the channel used to define the generalized subsystem.
翻訳日:2023-09-01 18:30:53 公開日:2023-08-30
# debunking disinformation:偽ニュース検出におけるnlpによる真理の革命

Debunking Disinformation: Revolutionizing Truth with NLP in Fake News Detection ( http://arxiv.org/abs/2308.16328v1 )

ライセンス: Link先を確認
Li He, Siyi Hu, Ailun Pei(参考訳) インターネットとソーシャルメディアは、即時情報配信の時代において、個人がニュースにアクセスする方法を変えてきた。 この開発は情報へのアクセスを増加させる一方で、フェイクニュースや情報の拡散という重大な問題も生み出した。 フェイクニュースはデジタルプラットフォーム上で急速に広まり、メディアエコシステム、世論、意思決定、社会的結束に悪影響を及ぼしている。 自然言語処理(NLP)は、コンテンツが本物であることを識別するための様々なアプローチを提供しており、偽情報に対する戦争が激化する中で強力な武器として浮上している。 本稿では,NLP技術を用いて偽ニュースを検知し,その提示する課題と可能性を明らかにする。

The Internet and social media have altered how individuals access news in the age of instantaneous information distribution. While this development has increased access to information, it has also created a significant problem: the spread of fake news and information. Fake news is rapidly spreading on digital platforms, which has a negative impact on the media ecosystem, public opinion, decision-making, and social cohesion. Natural Language Processing(NLP), which offers a variety of approaches to identify content as authentic, has emerged as a potent weapon in the growing war against disinformation. This paper takes an in-depth look at how NLP technology can be used to detect fake news and reveals the challenges and opportunities it presents.
翻訳日:2023-09-01 18:30:37 公開日:2023-08-30
# スマート空港におけるvitposeと分類モデルを用いた二段階暴力検知

Two-Stage Violence Detection Using ViTPose and Classification Models at Smart Airports ( http://arxiv.org/abs/2308.16325v1 )

ライセンス: Link先を確認
\.Irem \"Ustek, Jay Desai, Iv\'an L\'opez Torrecillas, Sofiane Abadou, Jinjie Wang, Quentin Fever, Sandhya Rani Kasthuri, Yang Xing, Weisi Guo, Antonios Tsourdos(参考訳) 本研究は,暴力的状況に対する迅速な対応が重要であるスマート空港のユニークな要件に合わせた,革新的な暴力検知フレームワークを提案する。 提案フレームワークは人間のポーズ推定にViTPoseのパワーを利用する。 CNN-BiLSTMネットワークを使用して、キーポイントシーケンス内の空間的および時間的情報を分析し、リアルタイムで暴力行動の正確な分類を可能にする。 SAFE(Situational Awareness for Enhanced Security framework of SAAB)にシームレスに統合されたこのソリューションは、実世界のシナリオで堅牢なパフォーマンスを保証するために統合テストが行われた。 本研究では,高画質と監視シナリオとの関連性が特徴のairtlabデータセットを用いて,モデルの精度の向上と偽陽性の軽減を図る。 空港は、パンデミック後の足のトラフィックの増加に直面しており、aiによる暴力検知システムの導入は、セキュリティの改善、応答時間の短縮、データインフォームド・意思決定の促進に最重要視されている。 この枠組みの実装は暴力的な出来事の可能性を減少させるだけでなく、監視チームが潜在的な脅威に効果的に取り組むのを支援し、最終的にはより安全で保護された航空部門を育成する。 コードは、https://github.com/Asami-1/GDPで入手できる。

This study introduces an innovative violence detection framework tailored to the unique requirements of smart airports, where prompt responses to violent situations are crucial. The proposed framework harnesses the power of ViTPose for human pose estimation. It employs a CNN - BiLSTM network to analyse spatial and temporal information within keypoints sequences, enabling the accurate classification of violent behaviour in real time. Seamlessly integrated within the SAFE (Situational Awareness for Enhanced Security framework of SAAB, the solution underwent integrated testing to ensure robust performance in real world scenarios. The AIRTLab dataset, characterized by its high video quality and relevance to surveillance scenarios, is utilized in this study to enhance the model's accuracy and mitigate false positives. As airports face increased foot traffic in the post pandemic era, implementing AI driven violence detection systems, such as the one proposed, is paramount for improving security, expediting response times, and promoting data informed decision making. The implementation of this framework not only diminishes the probability of violent events but also assists surveillance teams in effectively addressing potential threats, ultimately fostering a more secure and protected aviation sector. Codes are available at: https://github.com/Asami-1/GDP.
翻訳日:2023-09-01 18:30:25 公開日:2023-08-30
# software multiplataforma para a segmenta\c{c}\~ao de vasos sangu\'ineos em imagens da retina

Software multiplataforma para a segmenta\c{c}\~ao de vasos sangu\'ineos em imagens da retina ( http://arxiv.org/abs/2308.16323v1 )

ライセンス: Link先を確認
Jo\~ao Henrique Pereira Machado and Gilson Adamczuk Oliveira and \'Erick Oliveira Rodrigues(参考訳) 本研究では,網膜検査画像中の血管を画像分割により視覚的に識別する。 このプロセスは通常手動で行われる。 しかし、我々はヒューリスティックな手法と機械学習を使って、プロセスを自動化または少なくとも高速化することができる。 この文脈では、ユーザが手動で網膜画像を分割できるクロスプラットフォーム、オープンソース、応答性ソフトウェアを提案する。 その目的は、機械学習アルゴリズムの再トレーニングにユーザセグメント画像を使用することで、将来の自動セグメンテーション結果を高めることである。 さらに、本ソフトウェアは、文学で確立された特定の画像フィルタを組み込んで、血管の可視化を改善する。 我々は,この種の解決法を文献で提案する。 これは、前述の属性(オープンソース、レスポンシブ、クロスプラットフォーム)を具現化した、最初の統合ソフトウェアです。 手動の血管分割を含む包括的なソリューションと、予測モデルを洗練するための分類アルゴリズムの自動実行を提供する。

In this work, we utilize image segmentation to visually identify blood vessels in retinal examination images. This process is typically carried out manually. However, we can employ heuristic methods and machine learning to automate or at least expedite the process. In this context, we propose a cross-platform, open-source, and responsive software that allows users to manually segment a retinal image. The purpose is to use the user-segmented image to retrain machine learning algorithms, thereby enhancing future automated segmentation results. Moreover, the software also incorporates and applies certain image filters established in the literature to improve vessel visualization. We propose the first solution of this kind in the literature. This is the inaugural integrated software that embodies the aforementioned attributes: open-source, responsive, and cross-platform. It offers a comprehensive solution encompassing manual vessel segmentation, as well as the automated execution of classification algorithms to refine predictive models.
翻訳日:2023-09-01 18:30:04 公開日:2023-08-30
# ブラウザテキスト入力フィールドにおけるセキュリティ脆弱性の抽出と対処

Exposing and Addressing Security Vulnerabilities in Browser Text Input Fields ( http://arxiv.org/abs/2308.16321v1 )

ライセンス: Link先を確認
Asmit Nayak, Rishabh Khandelwal, Kassem Fawaz(参考訳) 本研究では,Webブラウザにおけるテキスト入力フィールドのセキュリティに関する包括的な分析を行う。 ブラウザの粗粒度パーミッションモデルが2つのセキュリティ設計原則に違反していることが分かりました。 さらに、WebページのHTMLソースコード内で、平文でパスワードを警告するなど、入力フィールドの2つの脆弱性を発見しました。 これらの脆弱性の現実的な影響を示すために、静的および動的コードインジェクション攻撃のテクニックを活用して概念実証拡張を設計し、Webストアレビュープロセスをバイパスする。 当社の測定とケーススタディによると、これらの脆弱性は、パスワードなどの機密性の高いユーザ情報を、GoogleやCloudflareのような高トラフィックサイトのHTMLソースコードに公開して、さまざまなWebサイトに広まっています。 これらの脆弱性を悪用し、パスワードフィールドに直接アクセスする190の拡張機能を識別するために必要な権限を持っていることが判明した。 最後に,これらのリスクに対処するための2つの対策を提案する。webサイト開発者がすぐに利用できるようにするボルトオンjavascriptパッケージと,エクステンションがセンシティブな入力フィールドにアクセスするとユーザに警告するブラウザレベルのソリューション。 本研究は,機密情報をオンラインで保護するためのセキュリティ対策改善の必要性を浮き彫りにしている。

In this work, we perform a comprehensive analysis of the security of text input fields in web browsers. We find that browsers' coarse-grained permission model violates two security design principles: least privilege and complete mediation. We further uncover two vulnerabilities in input fields, including the alarming discovery of passwords in plaintext within the HTML source code of the web page. To demonstrate the real-world impact of these vulnerabilities, we design a proof-of-concept extension, leveraging techniques from static and dynamic code injection attacks to bypass the web store review process. Our measurements and case studies reveal that these vulnerabilities are prevalent across various websites, with sensitive user information, such as passwords, exposed in the HTML source code of even high-traffic sites like Google and Cloudflare. We find that a significant percentage (12.5\%) of extensions possess the necessary permissions to exploit these vulnerabilities and identify 190 extensions that directly access password fields. Finally, we propose two countermeasures to address these risks: a bolt-on JavaScript package for immediate adoption by website developers allowing them to protect sensitive input fields, and a browser-level solution that alerts users when an extension accesses sensitive input fields. Our research highlights the urgent need for improved security measures to protect sensitive user information online.
翻訳日:2023-09-01 18:29:48 公開日:2023-08-30
# GAN(Generative Adversarial Nets)の10年 : 現状調査

Ten Years of Generative Adversarial Nets (GANs): A survey of the state-of-the-art ( http://arxiv.org/abs/2308.16316v1 )

ライセンス: Link先を確認
Tanujit Chakraborty, Ujjwal Reddy K S, Shraddha M. Naik, Madhurima Panja, Bayapureddy Manvitha(参考訳) 2014年の創業以来、GAN(Generative Adversarial Networks)は、コンピュータビジョンやその他の適用領域を含む様々な領域にわたる現実的で多様なデータを生成する強力なツールとして急速に発展してきた。 差別的ネットワークとミニマックスゲームに携わる生成ネットワークから構成されるGANは、生成モデリングの分野に革命をもたらした。 2018年2月、ganはマサチューセッツ・サイエンス・アンド・テクノロジー・レビューが発行した'top ten global breakthrough technologies list'で首位を獲得した。 長年にわたり多くの進歩が提案され、条件付きGAN、Wasserstein GAN、CycleGAN、StyleGANなど多くのGANの派生型が提案されている。 この調査は、最も広く認識されているバリエーションの潜在アーキテクチャ、バリデーションメトリクス、およびアプリケーション領域を要約した、GANの一般的な概要を提供することを目的としている。 我々はまた、GANフレームワークの最適性特性を議論しながら、GANの根底にある敵原理とJensen-Shannon分散の深い関係を探求し、最近の理論的発展を探求する。 GAN変種とそのモデルアーキテクチャの効率性は、トレーニングの障害とトレーニングソリューションとともに評価される。 さらに、gansとトランスフォーマー、物理に変形したニューラルネットワーク、大規模言語モデル、拡散モデルといった新しいディープラーニングフレームワークの統合について、詳細な議論が行われる予定である。 最後に,いくつかの課題と今後の研究の概要を明らかにする。

Since their inception in 2014, Generative Adversarial Networks (GANs) have rapidly emerged as powerful tools for generating realistic and diverse data across various domains, including computer vision and other applied areas. Consisting of a discriminative network and a generative network engaged in a Minimax game, GANs have revolutionized the field of generative modeling. In February 2018, GAN secured the leading spot on the ``Top Ten Global Breakthrough Technologies List'' issued by the Massachusetts Science and Technology Review. Over the years, numerous advancements have been proposed, leading to a rich array of GAN variants, such as conditional GAN, Wasserstein GAN, CycleGAN, and StyleGAN, among many others. This survey aims to provide a general overview of GANs, summarizing the latent architecture, validation metrics, and application areas of the most widely recognized variants. We also delve into recent theoretical developments, exploring the profound connection between the adversarial principle underlying GAN and Jensen-Shannon divergence, while discussing the optimality characteristics of the GAN framework. The efficiency of GAN variants and their model architectures will be evaluated along with training obstacles as well as training solutions. In addition, a detailed discussion will be provided, examining the integration of GANs with newly developed deep learning frameworks such as Transformers, Physics-Informed Neural Networks, Large Language models, and Diffusion models. Finally, we reveal several issues as well as future research outlines in this field.
翻訳日:2023-09-01 18:29:28 公開日:2023-08-30
# ブロックチェーン技術のツールとしてのTime-Bin CKA

Time-Bin CKA as a tool for blockchain technology ( http://arxiv.org/abs/2308.16289v1 )

ライセンス: Link先を確認
Marta Misiaszek-Schreyner, Miriam Kosik, Mirek Sopek(参考訳) 本稿では,複数当事者間のコンセンサスを実現する手段として,tb cka(time-bin conference key agreement)プロトコルの可能性を検討する。 TB CKAの基礎となる物理的実装についての説明を行い、このプロセスがグローバル・コモン・コイン・プリミティブの自然な実現と見なせるかを説明する。 次に,古典的コンセンサスアルゴリズムにtb ckaを具体化し,ビザンチン合意問題に対するハイブリッド古典量子解を作成する方法を提案する。

We explore the potential of Time-Bin Conference Key Agreement (TB CKA) protocol as a means to achieve consensus among multiple parties. We provide an explanation of the underlying physical implementation, i.e. TB CKA fundamentals and illustrate how this process can be seen as a natural realization of the global common coin primitive. Next, we present how TB CKA could be embodied in classical consensus algorithms to create hybrid classical-quantum solutions to the Byzantine Agreement problem.
翻訳日:2023-09-01 18:29:02 公開日:2023-08-30
# 超広帯域偏光周波数多角光子の生成とキャラクタリゼーション

Generation and characterization of ultrabroadband polarization-frequency hyperentangled photons ( http://arxiv.org/abs/2308.16285v1 )

ライセンス: Link先を確認
Hsuan-Hao Lu, Muneer Alshowkan, Karthik V. Myilswamy, Andrew M. Weiner, Joseph M. Lukens, and Nicholas A. Peters(参考訳) 光cバンドとlバンド全体を包含する全波長誘導サーニャック源(1530-1625nm)を介して偏光と周波数ビンの両方に絡み合う超広帯域光子対を生成する。 我々は、複数の高密度波長分割多重チャネルにおける高忠実度状態の包括的評価を行い、有効4ビット系のフルトモグラフィーを実現する。 さらに, 周波数符号化の固有高次元性と電気光学的計測手法を用いて, 2つの分極量子ビットと2つの周波数ビン量子ビットからなる36次元ヒルベルト空間において, 高次元への拡張性を示す。 本研究は、量子ネットワーク、特に波長多重量子ネットワークにおける高密度符号化と絡み合い蒸留において潜在的に重要である。

We generate ultrabroadband photon pairs entangled in both polarization and frequency bins through an all-waveguided Sagnac source covering the entire optical C- and L-bands (1530--1625 nm). We perform comprehensive characterization of high-fidelity states in multiple dense wavelength-division multiplexed channels, achieving full tomography of effective four-qubit systems. Additionally, leveraging the inherent high dimensionality of frequency encoding and our electro-optic measurement approach, we demonstrate the scalability of our system to higher dimensions, reconstructing states in a 36-dimensional Hilbert space consisting of two polarization qubits and two frequency-bin qutrits. Our findings hold potential significance for quantum networking, particularly dense coding and entanglement distillation in wavelength-multiplexed quantum networks.
翻訳日:2023-09-01 18:28:54 公開日:2023-08-30
# ロボットクレーンを用いた強化学習による建築材料供給戦略と震災復興のためのコンピュータビジョン

A reinforcement learning based construction material supply strategy using robotic crane and computer vision for building reconstruction after an earthquake ( http://arxiv.org/abs/2308.16280v1 )

ライセンス: Link先を確認
Yifei Xiao, T.Y. Yang, Xiao Pan, Fan Xie and Zhongwei Chen(参考訳) 地震の後、多くのインフラを修復または新設する必要があるため、現場で必要な資源を提供することが特に重要である。 災害後の複雑な建設環境のため、この環境で働く人手にとって潜在的に安全上の危険がある。 ロボット技術と人工知能(AI)アルゴリズムの進歩により、スマートロボット技術は地震後の建設資源を提供する潜在的な解決策となる。 本稿では, 地震後のインフラ再建のために, 高度なAIアルゴリズムを備えたロボットクレーンを提案する。 補強学習(rl)アルゴリズムであるppo(proximal policy optimization)は、建設資材を輸送する際の3次元リフトパス計画のために実装されている。 状態と報酬関数は、RLモデルのトレーニングのために詳細に設計されている。 PPOアルゴリズムを用いて異なる環境における負荷タスクを通じて2つのモデルを訓練し,その1つは障害物の影響を考慮し,もう1つは障害物を考慮しない。 次に、シミュレーション環境におけるアンロードタスクとロードタスクを用いて、2つのトレーニングされたモデルを比較し、評価する。 各作業ごとに2つの異なるケースが考慮される。 一つは、建設資材を持ち上げる初期位置と目標位置との間に障害物がなく、もう一つは、初期位置と目標位置との間に障害物が存在することである。 以上の結果から, ロボットクレーンは, 揺動抑制, 短時間の消費, 衝突回避により, 建設資材を所望の場所に自動搬送できるように, ロボットクレーンに適切な動作を生じさせる可能性が示唆された。

After an earthquake, it is particularly important to provide the necessary resources on site because a large number of infrastructures need to be repaired or newly constructed. Due to the complex construction environment after the disaster, there are potential safety hazards for human labors working in this environment. With the advancement of robotic technology and artificial intelligent (AI) algorithms, smart robotic technology is the potential solution to provide construction resources after an earthquake. In this paper, the robotic crane with advanced AI algorithms is proposed to provide resources for infrastructure reconstruction after an earthquake. The proximal policy optimization (PPO), a reinforcement learning (RL) algorithm, is implemented for 3D lift path planning when transporting the construction materials. The state and reward function are designed in detail for RL model training. Two models are trained through a loading task in different environments by using PPO algorithm, one considering the influence of obstacles and the other not considering obstacles. Then, the two trained models are compared and evaluated through an unloading task and a loading task in simulation environments. For each task, two different cases are considered. One is that there is no obstacle between the initial position where the construction material is lifted and the target position, and the other is that there are obstacles between the initial position and the target position. The results show that the model that considering the obstacles during training can generate proper actions for the robotic crane to execute so that the crane can automatically transport the construction materials to the desired location with swing suppression, short time consumption and collision avoidance.
翻訳日:2023-09-01 18:28:39 公開日:2023-08-30
# 通信ネットワークKPI時系列における異常の分類

Classification of Anomalies in Telecommunication Network KPI Time Series ( http://arxiv.org/abs/2308.16279v1 )

ライセンス: Link先を確認
Korantin Bordeau-Aubert, Justin Whatley, Sylvain Nadeau, Tristan Glatard, Brigitte Jaumard(参考訳) 通信ネットワークの複雑さと規模の増加により、自動異常検出システムへの関心が高まっている。 しかし,ネットワークキー性能指標 (kpi) で検出された異常の分類には注意が払われず,異常特性や分類過程に関する情報が不足している。 このギャップに対処するために,モジュール型異常分類フレームワークを提案する。 このフレームワークは、異常分類器と検出器の別個のエンティティを仮定し、時系列上の異常検出と分類タスクを個別に扱うことができる。 本研究の目的は,(1)実世界のネットワークKPI行動に似た合成時系列を生成する時系列シミュレータを開発すること,(2)時系列中の異常を識別する検出モデルを構築すること,(3)予め定義されたクラスに異常を正確に分類する分類モデルを構築すること,(4)シミュレーションおよび実世界のネットワークKPI時系列上での分類フレームワークの性能を評価することである。 本研究は,実世界のネットワーク時系列データに適用した場合にシミュレーション異常を訓練した異常分類モデルの性能を実証した。

The increasing complexity and scale of telecommunication networks have led to a growing interest in automated anomaly detection systems. However, the classification of anomalies detected on network Key Performance Indicators (KPI) has received less attention, resulting in a lack of information about anomaly characteristics and classification processes. To address this gap, this paper proposes a modular anomaly classification framework. The framework assumes separate entities for the anomaly classifier and the detector, allowing for a distinct treatment of anomaly detection and classification tasks on time series. The objectives of this study are (1) to develop a time series simulator that generates synthetic time series resembling real-world network KPI behavior, (2) to build a detection model to identify anomalies in the time series, (3) to build classification models that accurately categorize detected anomalies into predefined classes (4) to evaluate the classification framework performance on simulated and real-world network KPI time series. This study has demonstrated the good performance of the anomaly classification models trained on simulated anomalies when applied to real-world network time series data.
翻訳日:2023-09-01 18:28:16 公開日:2023-08-30
# EUのAI法を強化する - AI操作に関する重要な用語の定義

Strengthening the EU AI Act: Defining Key Terms on AI Manipulation ( http://arxiv.org/abs/2308.16364v1 )

ライセンス: Link先を確認
Matija Franklin, Philip Moreira Tomei, Rebecca Gorman(参考訳) 欧州連合の人工知能法は、AIの操作的かつ有害な使用を規制することを目的としているが、重要な概念の正確な定義は欠如している。 本論文は,法の概念的明確性と施行性を改善するための技術的勧告を提供する。 我々は「個人性特性」を定義する心理モデルについて検討し、この行為は完全な「心理的プロファイル」を保護するべきであると主張した。 嗜好が因果的に影響し行動に影響されるので,「行動」を拡大して「行動」を含めることを推奨する。 明確な定義は、インセンティブ、意図、隠蔽性を考慮し、"サブリミナル"、"マニピュラティブ"、"deceptive"技術に対して提供される。 我々は,「爆発的個人」と「爆発的集団」を区別し,異なる政策ニーズを強調する。 インフォームド決定」は、理解、正確な情報、操作なし、AIの影響を理解する4つの側面によって定義される。 我々は、EMAによるデジタル治療の規制の欠如を踏まえて、この法律による治療的使用免除を注意する。 全体として、EU AI法における曖昧な概念の定義を強化し、有害なAI操作の厳格な適用性を高める。

The European Union's Artificial Intelligence Act aims to regulate manipulative and harmful uses of AI, but lacks precise definitions for key concepts. This paper provides technical recommendations to improve the Act's conceptual clarity and enforceability. We review psychological models to define "personality traits," arguing the Act should protect full "psychometric profiles." We urge expanding "behavior" to include "preferences" since preferences causally influence and are influenced by behavior. Clear definitions are provided for "subliminal," "manipulative," and "deceptive" techniques, considering incentives, intent, and covertness. We distinguish "exploiting individuals" from "exploiting groups," emphasising different policy needs. An "informed decision" is defined by four facets: comprehension, accurate information, no manipulation, and understanding AI's influence. We caution the Act's therapeutic use exemption given the lack of regulation of digital therapeutics by the EMA. Overall, the recommendations strengthen definitions of vague concepts in the EU AI Act, enhancing precise applicability to regulate harmful AI manipulation.
翻訳日:2023-09-01 18:20:57 公開日:2023-08-30
# 複合非凸・非平滑・非リプシッツ関数を最小化する下位手法の統一解析

A Unified Analysis for the Subgradient Methods Minimizing Composite Nonconvex, Nonsmooth and Non-Lipschitz Functions ( http://arxiv.org/abs/2308.16362v1 )

ライセンス: Link先を確認
Daoli Zhu and Lei Zhao and Shuzhong Zhang(参考訳) 本稿では,リプシッツ連続性条件を仮定せずに非凸および非滑らかな最適化問題を解くための近位部分勾配法(prox-subgrad)を提案する。 多くの下位の上限とその関係が提示される。 これらの上界条件を用いて、弱い凸最適化のためのモロー包絡に関する一様再帰関係を定式化する。 この一様スキームは、証明スキームを単純化し、リプシッツ連続性を仮定せずに、プロックス・サブグラードの収束率を確立するために統一する。 この文脈における新しい収束解析を提案する。 さらに,非リプシッツおよび非滑らかな確率的最適化問題を解くために,確率的下次法(Sto-SubGrad)に対する収束と反復の複雑性の確立を新たに提案する。 特に、リプシッツの連続性を持たない弱凸最適化問題に対する決定論的および確率的半次法は、この論文で導入すべき下次上界条件のいずれかの下で、$O(1/\sqrt{T})$収束率はモローエンベロープ関数の勾配の平方部で成り立ち、さらに$O(1/{T})$に改善される。

In this paper we propose a proximal subgradient method (Prox-SubGrad) for solving nonconvex and nonsmooth optimization problems without assuming Lipschitz continuity conditions. A number of subgradient upper bounds and their relationships are presented. By means of these upper bounding conditions, we establish some uniform recursive relations for the Moreau envelopes for weakly convex optimization. This uniform scheme simplifies and unifies the proof schemes to establish rate of convergence for Prox-SubGrad without assuming Lipschitz continuity. We present a novel convergence analysis in this context. Furthermore, we propose some new stochastic subgradient upper bounding conditions and establish convergence and iteration complexity rates for the stochastic subgradient method (Sto-SubGrad) to solve non-Lipschitz and nonsmooth stochastic optimization problems. In particular, for both deterministic and stochastic subgradient methods on weakly convex optimization problems without Lipschitz continuity, under any of the subgradient upper bounding conditions to be introduced in the paper, we show that $O(1/\sqrt{T})$ convergence rate holds in terms of the square of gradient of the Moreau envelope function, which further improves to be $O(1/{T})$ if, in addition, the uniform KL condition with exponent $1/2$ holds.
翻訳日:2023-09-01 18:20:39 公開日:2023-08-30
# データプリプロセッサとしての大規模言語モデル

Large Language Models as Data Preprocessors ( http://arxiv.org/abs/2308.16361v1 )

ライセンス: Link先を確認
Haochen Zhang, Yuyang Dong, Chuan Xiao, Masafumi Oyamada(参考訳) OpenAIのGPTシリーズとMetaのLLaMAに代表されるLarge Language Models (LLMs)は、人工知能において大きな進歩を遂げている。 大量のテキストデータに基づいて学習されたLLMは、さまざまなトピックにわたって人間のようなテキストを理解し、生成することができる。 この研究は、LLMの応用を拡大し、データマイニングおよび分析アプリケーションにおける重要な段階であるデータ前処理におけるその可能性を探る。 GPT-3.5, GPT-4, Vicuna-13Bといった最先端のLCMをエラー検出, データ計算, スキーママッチング, エンティティマッチングタスクに適用可能であるか検討する。 LLMの本質的能力を示すとともに,計算コストや非効率の観点から,その限界を強調した。 最先端のプロンプトエンジニアリング技術とコンテキスト化や特徴選択といった従来の手法を組み合わせたデータ前処理のためのLCMベースのフレームワークを提案し,これらのモデルの性能と効率を向上させる。 データ前処理におけるLLMの有効性は、12データセットにわたる実験によって評価される。 GPT-4はスタンドアウトとして現れ、4つのデータセットで100\%の精度またはF1スコアを達成した。 一定の限界はあるものの、本研究はこの領域におけるLCMの約束を強調し、現在のハードルを克服する将来の発展を期待する。

Large Language Models (LLMs), typified by OpenAI's GPT series and Meta's LLaMA variants, have marked a significant advancement in artificial intelligence. Trained on vast amounts of text data, LLMs are capable of understanding and generating human-like text across a diverse range of topics. This study expands on the applications of LLMs, exploring their potential in data preprocessing, a critical stage in data mining and analytics applications. We delve into the applicability of state-of-the-art LLMs such as GPT-3.5, GPT-4, and Vicuna-13B for error detection, data imputation, schema matching, and entity matching tasks. Alongside showcasing the inherent capabilities of LLMs, we highlight their limitations, particularly in terms of computational expense and inefficiency. We propose an LLM-based framework for data preprocessing, which integrates cutting-edge prompt engineering techniques, coupled with traditional methods like contextualization and feature selection, to improve the performance and efficiency of these models. The effectiveness of LLMs in data preprocessing is evaluated through an experimental study spanning 12 datasets. GPT-4 emerged as a standout, achieving 100\% accuracy or F1 score on 4 datasets, suggesting LLMs' immense potential in these tasks. Despite certain limitations, our study underscores the promise of LLMs in this domain and anticipates future developments to overcome current hurdles.
翻訳日:2023-09-01 18:20:10 公開日:2023-08-30
# EmojiがGitHubの開発者参加と課題解決を推進

Emoji Promotes Developer Participation and Issue Resolution on GitHub ( http://arxiv.org/abs/2308.16360v1 )

ライセンス: Link先を確認
Yuhang Zhou, Xuan Lu, Ge Gao, Qiaozhu Mei, Wei Ai(参考訳) パンデミックの間、リモートワークはますます採用されているが、多くはリモートワークの低効率を懸念している。 テキストベースのコミュニケーションの欠如は、表情やボディランゲージのような非言語的な手がかりであり、効果的なコミュニケーションを妨げるとともに、作業結果に悪影響を及ぼす。 ソーシャルメディアプラットフォームで普及している絵文字は、言語以外の代替手段として、バーチャルワークスペースでも人気を集めている。 本稿では,絵文字利用が仮想ワークスペースにおける開発者の参加や課題解決にどのように影響するかを検討する。 この目的のために、GitHubの課題を1年間収集し、絵文字の因果効果を測定するために因果推論手法を適用し、イシューコンテンツ、リポジトリ、著者情報などの共同設立者を制御する。 絵文字は問題の解決時間を大幅に削減し、より多くのユーザーを惹きつけることができる。 また、異なる種類の問題に対する異種の影響も比較する。 これらの発見は開発者コミュニティの理解を深め、インタラクションの促進と開発者参加の拡大に関する設計上の意味合いを提供します。

Although remote working is increasingly adopted during the pandemic, many are concerned by the low-efficiency in the remote working. Missing in text-based communication are non-verbal cues such as facial expressions and body language, which hinders the effective communication and negatively impacts the work outcomes. Prevalent on social media platforms, emojis, as alternative non-verbal cues, are gaining popularity in the virtual workspaces well. In this paper, we study how emoji usage influences developer participation and issue resolution in virtual workspaces. To this end, we collect GitHub issues for a one-year period and apply causal inference techniques to measure the causal effect of emojis on the outcome of issues, controlling for confounders such as issue content, repository, and author information. We find that emojis can significantly reduce the resolution time of issues and attract more user participation. We also compare the heterogeneous effect on different types of issues. These findings deepen our understanding of the developer communities, and they provide design implications on how to facilitate interactions and broaden developer participation.
翻訳日:2023-09-01 18:19:44 公開日:2023-08-30
# 拡散デノジングモデルを用いた医用画像分割のためのリサイクリングトレーニング戦略

A Recycling Training Strategy for Medical Image Segmentation with Diffusion Denoising Models ( http://arxiv.org/abs/2308.16355v1 )

ライセンス: Link先を確認
Yunguan Fu, Yiwen Li, Shaheer U Saeed, Matthew J Clarkson, Yipeng Hu(参考訳) ノイズ拡散モデルでは、画像に条件付けされたセグメントマスクを生成することで、画像分割に応用されている。 既存の研究は主にモデルアーキテクチャの調整やテストタイムサンプリング戦略のような推論の改善に重点を置いている。 本研究では,学習戦略の改善に焦点をあて,新しいリサイクル手法を提案する。 各トレーニングステップでは、画像とランダムノイズとが与えられると、セグメンテーションマスクが最初に予測される。 この予測マスクは、従来の地上の真理マスクを置き換えるもので、訓練中にタスクを認知するために使用される。 この手法は, ノイズのあるサンプルを生成するための地中真実マスクへの依存を排除し, トレーニング戦略を推論と整合させることと解釈できる。 提案手法は, 筋超音波, 腹部CT, 前立腺MRI, 脳MRといった複数の医療画像データセットの標準拡散訓練, 自己条件化, 既存のリサイクル戦略を著しく上回り, 拡散確率モデルと拡散暗黙モデルという2つの広く採用されているサンプリング戦略に当てはまる。 重要な点として, 既存の拡散モデルでは, 推定中に低下または不安定な性能を示すことが多いが, 新規リサイクルは一貫して性能を向上・維持する。 さらに, 同一ネットワークアーキテクチャと計算予算とを公正に比較した結果, 非拡散型教師付きトレーニングによるリサイクルベース拡散モデルの性能向上が達成された。 本稿では、これらの定量的な結果を要約し、その価値を再現可能なjaxベースの実装として、https://github.com/mathpluscode/imgx-diffsegで公開します。

Denoising diffusion models have found applications in image segmentation by generating segmented masks conditioned on images. Existing studies predominantly focus on adjusting model architecture or improving inference such as test-time sampling strategies. In this work, we focus on training strategy improvements and propose a novel recycling method. During each training step, a segmentation mask is first predicted given an image and a random noise. This predicted mask, replacing the conventional ground truth mask, is used for denoising task during training. This approach can be interpreted as aligning the training strategy with inference by eliminating the dependence on ground truth masks for generating noisy samples. Our proposed method significantly outperforms standard diffusion training, self-conditioning, and existing recycling strategies across multiple medical imaging data sets: muscle ultrasound, abdominal CT, prostate MR, and brain MR. This holds true for two widely adopted sampling strategies: denoising diffusion probabilistic model and denoising diffusion implicit model. Importantly, existing diffusion models often display a declining or unstable performance during inference, whereas our novel recycling consistently enhances or maintains performance. Furthermore, we show for the first time that, under a fair comparison with the same network architectures and computing budget, the proposed recycling-based diffusion models achieved on-par performance with non-diffusion-based supervised training. This paper summarises these quantitative results and discusses their values, with a fully reproducible JAX-based implementation, released at https://github.com/mathpluscode/ImgX-DiffSeg.
翻訳日:2023-09-01 18:19:26 公開日:2023-08-30
# Catalog Phrase Grounding (CPG) : eコマースビジョンランゲージ用製品画像における製品テキスト属性のグラウンド化

Catalog Phrase Grounding (CPG): Grounding of Product Textual Attributes in Product Images for e-commerce Vision-Language Applications ( http://arxiv.org/abs/2308.16354v1 )

ライセンス: Link先を確認
Wenyi Wu, Karim Bouyarmane, Ismail Tutar(参考訳) 本稿では,e-commerce vision-language アプリケーション用の製品画像(分離製品領域,ブランドロゴ領域)の対応する領域に,製品テキストデータ(タイトル,ブランド)を関連付けるモデルである catalog phrase grounding (cpg) を提案する。 我々は、オブジェクト検出とフレーズグラウンドを統一した最先端の変調マルチモーダルトランスフォーマーエンコーダデコーダアーキテクチャを使用する。 我々は、Eコマースサイトから合成された230万の画像テキストペアを用いて、自己教師型でモデルをトレーニングする。 自己超越データは、教師モデル(例えば、MDETR)と特殊ロゴ検出モデル(英語版)の2つの組み合わせで生成される高信頼の擬似ラベルで注釈付けされる。 これにより、CPGは学生モデルとして、一般的なドメイン知識と専門知識を組み合わせたこれらのベースモデルからの伝達知識の恩恵を受けることができる。 直近のカタログフレーズグラウンドタスク以外にも、プロダクトの深いセマンティック理解を必要とするダウンストリームカタログアプリケーションにML機能として組み込むことで、CPG表現の恩恵を受けることができます。 電子商取引アプリケーションである製品ブランドマッチング実験により,既存の生産アンサンブルシステムにCPG表現を組み込むことで,世界全体で平均5%のリコール改善が達成され,その効果は95%の精度で達成され,ロゴ検出教師モデルやResNet50など,他の選択肢よりも優れていた。

We present Catalog Phrase Grounding (CPG), a model that can associate product textual data (title, brands) into corresponding regions of product images (isolated product region, brand logo region) for e-commerce vision-language applications. We use a state-of-the-art modulated multimodal transformer encoder-decoder architecture unifying object detection and phrase-grounding. We train the model in self-supervised fashion with 2.3 million image-text pairs synthesized from an e-commerce site. The self-supervision data is annotated with high-confidence pseudo-labels generated with a combination of teacher models: a pre-trained general domain phrase grounding model (e.g. MDETR) and a specialized logo detection model. This allows CPG, as a student model, to benefit from transfer knowledge from these base models combining general-domain knowledge and specialized knowledge. Beyond immediate catalog phrase grounding tasks, we can benefit from CPG representations by incorporating them as ML features into downstream catalog applications that require deep semantic understanding of products. Our experiments on product-brand matching, a challenging e-commerce application, show that incorporating CPG representations into the existing production ensemble system leads to on average 5% recall improvement across all countries globally (with the largest lift of 11% in a single country) at fixed 95% precision, outperforming other alternatives including a logo detection teacher model and ResNet50.
翻訳日:2023-09-01 18:18:56 公開日:2023-08-30
# Affective Visual Dialog:ビジュアル接地会話に基づく感情推論のための大規模ベンチマーク

Affective Visual Dialog: A Large-Scale Benchmark for Emotional Reasoning Based on Visually Grounded Conversations ( http://arxiv.org/abs/2308.16349v1 )

ライセンス: Link先を確認
Kilichbek Haydarov, Xiaoqian Shen, Avinash Madasu, Mahmoud Salem, Jia Li, Gamaleldin Elsayed, Mohamed Elhoseiny(参考訳) 視覚の接地会話における感情の形成を理解するためのテストベッドとして,感情説明と推論タスクである情緒的視覚ダイアログを導入した。 課題は,(1)対話に基づく質問応答,(2)対話に基づく感情予測,(3)対話に基づく感情説明生成の3つのスキルである。 私たちの重要な貢献は、AffectVisDialと呼ばれる大規模なデータセットの収集です。50Kの10ターンの視覚的接地ダイアログと、感情の属性とダイアログのインフォームド感情の説明をまとめ、合計27180時間の作業時間になります。 データセット収集における設計判断について説明し,会話の参加者に関連付けられた質問者および回答者タスクについて紹介する。 我々は,最先端モデルから適応した視覚ダイアログベースラインを訓練し,実演する。 注目すべきことに、我々のモデルが生成した反応は、視覚的に接地された会話に応答して、有望な感情的推論能力を示す。 プロジェクトのページはhttps://affective-visual-dialog.github.ioで閲覧できます。

We introduce Affective Visual Dialog, an emotion explanation and reasoning task as a testbed for research on understanding the formation of emotions in visually grounded conversations. The task involves three skills: (1) Dialog-based Question Answering (2) Dialog-based Emotion Prediction and (3) Affective emotion explanation generation based on the dialog. Our key contribution is the collection of a large-scale dataset, dubbed AffectVisDial, consisting of 50K 10-turn visually grounded dialogs as well as concluding emotion attributions and dialog-informed textual emotion explanations, resulting in a total of 27,180 working hours. We explain our design decisions in collecting the dataset and introduce the questioner and answerer tasks that are associated with the participants in the conversation. We train and demonstrate solid Affective Visual Dialog baselines adapted from state-of-the-art models. Remarkably, the responses generated by our models show promising emotional reasoning abilities in response to visually grounded conversations. Our project page is available at https://affective-visual-dialog.github.io.
翻訳日:2023-09-01 18:18:29 公開日:2023-08-30
# ToddlerBERTa:文法学習と言語理解のためのBabyBERTaの爆発

ToddlerBERTa: Exploiting BabyBERTa for Grammar Learning and Language Understanding ( http://arxiv.org/abs/2308.16336v1 )

ライセンス: Link先を確認
Omer Veysel Cagatan(参考訳) 本稿では,BabyBERTaのような言語モデルであるToddlerBERTaについて紹介する。 BLiMP, SuperGLUE, MSGS, およびBabyLMチャレンジからのサプリメントのベンチマークから, より小さなモデルでは特定のタスクに優れるが, 大きなモデルでは大きなデータでよく機能することがわかった。 より小さなデータセットでのトレーニングにもかかわらず、ToddlerBERTaは、最先端のRoBERTaベースに対抗して、賞賛できるパフォーマンスを示している。 このモデルは、単一文事前学習であっても、堅牢な言語理解を示し、より広い文脈情報を活用するベースラインと競合する。 我々の研究は、ハイパーパラメータの選択とデータ利用に関する洞察を提供し、言語モデルの進歩に寄与します。

We present ToddlerBERTa, a BabyBERTa-like language model, exploring its capabilities through five different models with varied hyperparameters. Evaluating on BLiMP, SuperGLUE, MSGS, and a Supplement benchmark from the BabyLM challenge, we find that smaller models can excel in specific tasks, while larger models perform well with substantial data. Despite training on a smaller dataset, ToddlerBERTa demonstrates commendable performance, rivalling the state-of-the-art RoBERTa-base. The model showcases robust language understanding, even with single-sentence pretraining, and competes with baselines that leverage broader contextual information. Our work provides insights into hyperparameter choices, and data utilization, contributing to the advancement of language models.
翻訳日:2023-09-01 18:18:08 公開日:2023-08-30
# パンキャンサー解析のための多重増減ランク回帰

Multiple Augmented Reduced Rank Regression for Pan-Cancer Analysis ( http://arxiv.org/abs/2308.16333v1 )

ライセンス: Link先を確認
Jiuzhou Wang and Eric F. Lock(参考訳) 複数のデータセットをうまく組み合わせる統計的アプローチは、分離した分析よりも強力で効率的で科学的に有益である。 複数のサンプル集合(つまりコホート)にまたがる高次元データに対して、変動アーキテクチャを正確かつ包括的に扱うため、共変量駆動と補助的構造変化の両方を同時に学習する柔軟な行列回帰および因子分解法であるmultiple augmented reduced rank regression (marrr)を提案する。 我々は、回帰項や因子化項を任意の数のコホートと共有したり特定したりできるランダム行列理論によって動機づけられる構造化核規範の目的を考える。 本フレームワークは,ランク回帰の低減や教師なしマルチマトリックス因数分解アプローチなどの既存手法を仮定し,単一のデータセット(aRRR)の回帰と因数分解に対する有望な新しいアプローチを含む。 シミュレーションは、複数のデータセットを組み合わせることや、すべての構造化された変動を同義に説明することによるパワーの大幅な向上を示す。 我々は,TCGAの複数種類の癌(すなわち膵臓)の遺伝子発現データにmaRRRを適用し,体細胞変異を共変体とした。 この方法はホールドアウトデータの予測と計算に関して良好に機能し、特定のがんタイプに共有または特異的な突然変異駆動および補助変異に関する新たな知見を提供する。

Statistical approaches that successfully combine multiple datasets are more powerful, efficient, and scientifically informative than separate analyses. To address variation architectures correctly and comprehensively for high-dimensional data across multiple sample sets (i.e., cohorts), we propose multiple augmented reduced rank regression (maRRR), a flexible matrix regression and factorization method to concurrently learn both covariate-driven and auxiliary structured variation. We consider a structured nuclear norm objective that is motivated by random matrix theory, in which the regression or factorization terms may be shared or specific to any number of cohorts. Our framework subsumes several existing methods, such as reduced rank regression and unsupervised multi-matrix factorization approaches, and includes a promising novel approach to regression and factorization of a single dataset (aRRR) as a special case. Simulations demonstrate substantial gains in power from combining multiple datasets, and from parsimoniously accounting for all structured variation. We apply maRRR to gene expression data from multiple cancer types (i.e., pan-cancer) from TCGA, with somatic mutations as covariates. The method performs well with respect to prediction and imputation of held-out data, and provides new insights into mutation-driven and auxiliary variation that is shared or specific to certain cancer types.
翻訳日:2023-09-01 18:17:54 公開日:2023-08-30
# ハミルトン系の対称性保存:シミュレーションと学習

Symmetry Preservation in Hamiltonian Systems: Simulation and Learning ( http://arxiv.org/abs/2308.16331v1 )

ライセンス: Link先を確認
Miguel Vaquero, Jorge Cort\'es and David Mart\'in de Diego(参考訳) 本研究は、変換のリー群の下で不変なハミルトン系の力学をシミュレーションし学習するための一般的な幾何学的枠組みを示す。 これは、対称性の群がその力学を尊重する系に作用することが知られ、その結果、ネーターの定理は保存量として観測されることを意味する。 シンプレクティック幾何における重要な対象である,$g$不変ラグランジアン部分多様体の構成を通じて,興味のマッピングをシミュレートし学習することを提案する。 我々の構成の特筆すべき特徴は、シミュレーション/学習されたダイナミクスは元のシステムと同じ保存量を保持しており、非対称性の認識法よりも元のダイナミクスをより忠実にサロゲートし、非観測軌道のより正確な予測器となることである。 さらに,ハミルトニアンフローだけでなく,任意のリー群同変シンプレクティック変換をシミュレート/学習することができる。 我々の設計はシンプレクティック幾何学と幾何学力学において重要な技法と概念(還元理論、ネーターの定理、ラグランジュ部分多様体、運動量写像、共等方還元など)を利用する。 また,ポアソン変換の学習法として,基礎となる幾何学的特徴を持つ非幾何学的積分器の活用法を提案する。 そこで本研究では,シンプレクティック幾何学とポアソン幾何学のパワーをシミュレートし学習する新しい試みを提案する。

This work presents a general geometric framework for simulating and learning the dynamics of Hamiltonian systems that are invariant under a Lie group of transformations. This means that a group of symmetries is known to act on the system respecting its dynamics and, as a consequence, Noether's Theorem, conserved quantities are observed. We propose to simulate and learn the mappings of interest through the construction of $G$-invariant Lagrangian submanifolds, which are pivotal objects in symplectic geometry. A notable property of our constructions is that the simulated/learned dynamics also preserves the same conserved quantities as the original system, resulting in a more faithful surrogate of the original dynamics than non-symmetry aware methods, and in a more accurate predictor of non-observed trajectories. Furthermore, our setting is able to simulate/learn not only Hamiltonian flows, but any Lie group-equivariant symplectic transformation. Our designs leverage pivotal techniques and concepts in symplectic geometry and geometric mechanics: reduction theory, Noether's Theorem, Lagrangian submanifolds, momentum mappings, and coisotropic reduction among others. We also present methods to learn Poisson transformations while preserving the underlying geometry and how to endow non-geometric integrators with geometric properties. Thus, this work presents a novel attempt to harness the power of symplectic and Poisson geometry towards simulating and learning problems.
翻訳日:2023-09-01 18:17:29 公開日:2023-08-30
# 隣接染色組織からメラノサイトーシス細胞マスクを学習する

Learning Melanocytic Cell Masks from Adjacent Stained Tissue ( http://arxiv.org/abs/2211.00646v3 )

ライセンス: Link先を確認
Mikio Tada, Ursula E. Lang, Iwei Yeh, Maria L. Wei, Michael J. Keiser(参考訳) メラノーマは最も攻撃的な皮膚がんの1つであり、皮膚がんの死亡率が高い。 しかし,病理医によるメラノーマ診断では,信頼性は低い。 メラノーマはメラノーマの癌であるため、病理組織学的変異によらないメラノサイト細胞分画ツールを開発し、ピクセルレベルのアノテーションを自動化する必要がある。 しかし、ギガピクセルレベルの病理学ラベル付けは実用的ではない。 本稿では,ヘマトキシリンとエオシン(H&E)染色片からメラノサイト細胞セグメンテーションのためのディープニューラルネットワークを訓練し,隣接する組織部位の免疫組織化学(IHC)を併用する手法を提案する。

Melanoma is one of the most aggressive forms of skin cancer, causing a large proportion of skin cancer deaths. However, melanoma diagnoses by pathologists shows low interrater reliability. As melanoma is a cancer of the melanocyte, there is a clear need to develop a melanocytic cell segmentation tool that is agnostic to pathologist variability and automates pixel-level annotation. Gigapixel-level pathologist labeling, however, is impractical. Herein, we propose a means to train deep neural networks for melanocytic cell segmentation from hematoxylin and eosin (H&E) stained sections and paired immunohistochemistry (IHC) of adjacent tissue sections, achieving a mean IOU of 0.64 despite imperfect ground-truth labels.
翻訳日:2023-09-01 11:38:12 公開日:2023-08-30
# 多応答ヘテロセダスティックガウス過程モデルとその推論

Multi-Response Heteroscedastic Gaussian Process Models and Their Inference ( http://arxiv.org/abs/2308.15370v2 )

ライセンス: Link先を確認
Taehee Lee and Jun S. Liu(参考訳) ガウス過程モデルを多元的非パラメトリックモデリングに広く利用しているにもかかわらず、関数のスムーズさの急激な変化を効果的に捉え、ヘテロスセダスティックなエラーとの関係を調節する限界を示す。 これらの欠点に対処するため、ヘテロセダスティックガウス過程(HeGP)回帰は、回帰モデルにおいて共変量間の残差のばらつきを認め、柔軟性を導入しようとする。 本研究では,HeGPの概念を拡張し,回帰タスクを超えて,分類と状態空間モデルの範囲を広げる。 そこで本研究では, ガウス過程と共変量誘起精度行列プロセスが結合し, 混合定式化を施した新しい枠組みを提案する。 このアプローチは共変量間のヘテロスセダティック共分散関数のモデリングを可能にする。 サンプリングによって引き起こされる計算課題を軽減するため,後部を近似し,後部予測モデルを容易にするために変分推論を用いる。 さらに, クローズドフォームのMステップ更新を特徴とするEMアルゴリズムを利用して, ヘテロ代用共分散関数を効率的に評価する。 我々のモデルの特筆すべき特徴は、多変量応答における一貫したパフォーマンスであり、様々なタイプ(連続的または分類的)をシームレスに調節する。 気候学におけるシミュレーションと実世界の応用を組み合わせることで,モデルの長所と長所を説明する。 従来のガウス的プロセスモデルの限界を克服することで、提案するフレームワークは幅広いアプリケーションに対して堅牢で汎用性の高いツールを提供する。

Despite the widespread utilization of Gaussian process models for versatile nonparametric modeling, they exhibit limitations in effectively capturing abrupt changes in function smoothness and accommodating relationships with heteroscedastic errors. Addressing these shortcomings, the heteroscedastic Gaussian process (HeGP) regression seeks to introduce flexibility by acknowledging the variability of residual variances across covariates in the regression model. In this work, we extend the HeGP concept, expanding its scope beyond regression tasks to encompass classification and state-space models. To achieve this, we propose a novel framework where the Gaussian process is coupled with a covariate-induced precision matrix process, adopting a mixture formulation. This approach enables the modeling of heteroscedastic covariance functions across covariates. To mitigate the computational challenges posed by sampling, we employ variational inference to approximate the posterior and facilitate posterior predictive modeling. Additionally, our training process leverages an EM algorithm featuring closed-form M-step updates to efficiently evaluate the heteroscedastic covariance function. A notable feature of our model is its consistent performance on multivariate responses, accommodating various types (continuous or categorical) seamlessly. Through a combination of simulations and real-world applications in climatology, we illustrate the model's prowess and advantages. By overcoming the limitations of traditional Gaussian process models, our proposed framework offers a robust and versatile tool for a wide array of applications.
翻訳日:2023-09-01 11:32:47 公開日:2023-08-30
# ecpソフトウェア技術を持続可能な研究ソフトウェアの基礎に移行する

Transitioning ECP Software Technology into a Foundation for Sustainable Research Software ( http://arxiv.org/abs/2308.14954v2 )

ライセンス: Link先を確認
Gregory R. Watson, Addi Malviya-Thakur, Daniel S. Katz, Elaine M. Raybourn, Bill Hoffman, Dana Robinson, John Kellerman, Clark Roundy(参考訳) 研究ソフトウェアは、科学的知識の進歩において重要な役割を果たすが、持続可能性、保守性、長期生存性を保証することは、現在進行中の課題である。 Sustainable Research Software Institute (SRSI) モデルは、この問題に対処するために設計され、研究ソフトウェアコミュニティにおける持続可能なプラクティスを促進するために設計された包括的なフレームワークを提供する。 しかし、SRSIモデルは、Exascale Computing Project (ECP) Software Technology (ECP-ST)の焦点領域の移行要件に特に対処していない。 この白書は、圧縮時間フレームにおけるESP-STのSRSIへの遷移方法の概要と詳細な説明を提供する。 a) 技術活動終了期限の ECP のニーズを満たすこと,及び b) すでに進行中の持続可能性の取り組みの継続性を確保すること。

Research software plays a crucial role in advancing scientific knowledge, but ensuring its sustainability, maintainability, and long-term viability is an ongoing challenge. The Sustainable Research Software Institute (SRSI) Model has been designed to address the concerns, and presents a comprehensive framework designed to promote sustainable practices in the research software community. However the SRSI Model does not address the transitional requirements for the Exascale Computing Project (ECP) Software Technology (ECP-ST) focus area specifically. This white paper provides an overview and detailed description of how ECP-ST will transition into the SRSI in a compressed time frame that a) meets the needs of the ECP end-of-technical-activities deadline; and b) ensures the continuity of the sustainability efforts that are already underway.
翻訳日:2023-09-01 11:32:08 公開日:2023-08-30
# 持続可能な研究ソフトウェアのためのオープンコミュニティ駆動モデル:持続可能な研究ソフトウェア研究所

An Open Community-Driven Model For Sustainable Research Software: Sustainable Research Software Institute ( http://arxiv.org/abs/2308.14953v2 )

ライセンス: Link先を確認
Gregory R. Watson, Addi Malviya-Thakur, Daniel S. Katz, Elaine M. Raybourn, Bill Hoffman, Dana Robinson, John Kellerman, Clark Roundy(参考訳) 研究ソフトウェアは、科学的知識の進歩において重要な役割を果たすが、持続可能性、保守性、長期生存性を保証することは、現在進行中の課題である。 これらの懸念に対処するため、Sustainable Research Software Institute (SRSI) Modelは、研究ソフトウェアコミュニティにおける持続可能なプラクティスを促進するために設計された包括的なフレームワークを提供する。 このホワイトペーパーはSRSIモデルの詳細な概要を提供し、その目的、サービス、資金提供メカニズム、コラボレーション、そしてそれが研究ソフトウェアコミュニティに与える影響について概説する。 それは、提供された幅広いサービス、多様な資金源、広範囲なコラボレーション機会、そしてSRSIモデルが研究ソフトウェアランドスケープに与える影響を探求する。

Research software plays a crucial role in advancing scientific knowledge, but ensuring its sustainability, maintainability, and long-term viability is an ongoing challenge. To address these concerns, the Sustainable Research Software Institute (SRSI) Model presents a comprehensive framework designed to promote sustainable practices in the research software community. This white paper provides an in-depth overview of the SRSI Model, outlining its objectives, services, funding mechanisms, collaborations, and the significant potential impact it could have on the research software community. It explores the wide range of services offered, diverse funding sources, extensive collaboration opportunities, and the transformative influence of the SRSI Model on the research software landscape
翻訳日:2023-09-01 11:31:57 公開日:2023-08-30
# 量子コンピュータにおける量子プロセストモグラフィの古典的影

Classical Shadows for Quantum Process Tomography on Near-term Quantum Computers ( http://arxiv.org/abs/2110.02965v2 )

ライセンス: Link先を確認
Ryan Levy, Di Luo, Bryan K. Clark(参考訳) 量子プロセストモグラフィーは、量子チャネルを理解し、量子デバイスの特性を特徴づける強力なツールである。 量子状態トモグラフィにおける古典的影を用いた最近の進歩に触発されて,量子過程トモグラフィのための古典的影法shadowqptを開発した。 アンシラ量子ビットを伴わない2つの関連する定式化を導入する。 シャドウQPTは、任意の出力に対する任意の入力に対して、デバイスの後続の古典的な評価を可能にするデバイスのチェ行列を確率的に再構成する。 シャドウを使ってオーバーラップを計算する方法を示し、k$-weightの削減プロセスを生成し、ハミルトン学習による再構築を行います。 後者の2つのタスクは、量子測定に必要な数を量子ビット数と対数的にしかスケールしないため、大規模システムでは効率的である。 量子チャネルの復元精度を著しく向上させる一連の後処理技術やペア分解クリフォードシャドーの使用など、さらに多くの近似や改善がなされている。 我々は,n=4$ qubitsまでの量子プロセスのためのionqトラップイオン量子コンピュータのpauliとcliffordを用いてshadowqptを実装し,良好な性能を得た。

Quantum process tomography is a powerful tool for understanding quantum channels and characterizing properties of quantum devices. Inspired by recent advances using classical shadows in quantum state tomography[1], we have developed ShadowQPT, a classical shadow method for quantum process tomography. We introduce two related formulations with and without ancilla qubits. ShadowQPT stochastically reconstructs the Choi matrix of the device allowing for an a-posteri classical evaluation of the device on arbitrary inputs with respect to arbitrary outputs. Using shadows we then show how to compute overlaps, generate all $k$-weight reduced processes, and perform reconstruction via Hamiltonian learning. These latter two tasks are efficient for large systems as the number of quantum measurements needed scales only logarithmically with the number of qubits. A number of additional approximations and improvements are developed including the use of a pair-factorized Clifford shadow and a series of post-processing techniques which significantly enhance the accuracy for recovering the quantum channel. We have implemented ShadowQPT using both Pauli and Clifford measurements on the IonQ trapped ion quantum computer for quantum processes up to $n=4$ qubits and achieved good performance.
翻訳日:2023-08-31 18:33:55 公開日:2023-08-30
# NeXtQSM -- ハイブリッドデータでトレーニングされたデータ一貫性の定量的感受性マッピングのための完全なディープラーニングパイプライン

NeXtQSM -- A complete deep learning pipeline for data-consistent quantitative susceptibility mapping trained with hybrid data ( http://arxiv.org/abs/2107.07752v2 )

ライセンス: Link先を確認
Francesco Cognolato, Kieran O'Brien, Jin Jin, Simon Robinson, Frederik B. Laun, Markus Barth, Steffen Bollmann(参考訳) 深層学習に基づく量的感受性マッピング(QSM)は近年大きな可能性を示し、既存の非学習アプローチと類似した結果を得た。 現在のディープラーニングアプローチの多くは、データの一貫性がなく、インビボのトレーニングデータを必要とするか、連続的なステップでQSM問題を解くことでエラーの伝播につながる。 ここでは,これらの制限を克服し,協調してQSM処理ステップを解決するためのフレームワークを開発する。 そこで我々は,QSMモデル項と学習正規化器を組み合わせた変分ネットワークを用いて,バックグラウンドフィールド補正と双極子反転をデータ一貫性で解くためのエンドツーエンドトレーニングを実現するハイブリッドトレーニングデータ生成手法を開発した。 我々は,nextqsmが従来のディープラーニング手法の限界を克服することを示す。 NeXtQSMは、定量的サセプティビリティマップを計算するための新しいディープラーニングベースのパイプラインを提供し、各処理ステップをトレーニングに統合し、堅牢で高速な結果を提供する。

Deep learning based Quantitative Susceptibility Mapping (QSM) has shown great potential in recent years, obtaining similar results to established non-learning approaches. Many current deep learning approaches are not data consistent, require in vivo training data or solve the QSM problem in consecutive steps resulting in the propagation of errors. Here we aim to overcome these limitations and developed a framework to solve the QSM processing steps jointly. We developed a new hybrid training data generation method that enables the end-to-end training for solving background field correction and dipole inversion in a data-consistent fashion using a variational network that combines the QSM model term and a learned regularizer. We demonstrate that NeXtQSM overcomes the limitations of previous deep learning methods. NeXtQSM offers a new deep learning based pipeline for computing quantitative susceptibility maps that integrates each processing step into the training and provides results that are robust and fast.
翻訳日:2023-08-31 18:33:14 公開日:2023-08-30
# 分類のためのルール生成:スケーラビリティ、解釈可能性、公正性

Rule Generation for Classification: Scalability, Interpretability, and Fairness ( http://arxiv.org/abs/2104.10751v3 )

ライセンス: Link先を確認
Adia C. Lumadjeng, Tabea R\"ober, M. Hakan Aky\"uz, \c{S}. \.Ilker Birbil(参考訳) 制約付き分類のための新しいルールベース最適化手法を提案する。 提案手法は,線形プログラミングに列生成を利用するため,大規模データセットに対してスケーラブルである。 その結果の価格サブプロブレムはNP-Hardであることが示されている。 我々は決定木に基づくヒューリスティックを参照し、加速のためのプロキシ価格サブ問題を解く。 この方法は、学習における各ルールの重要性を示す最適な重みとともに一連のルールを返す。 ルールにコスト係数を割り当て、追加制約を導入することにより、解釈可能性と公正性に対処する。 特に,局所的な解釈可能性に着目し,公平な分離基準を複数の機密属性やクラスに一般化する。 本稿では,提案手法の性能をデータセットの集合上で検証し,その異なる側面を詳述するケーススタディを提案する。 提案手法は,局所的な解釈性と公平性と,他方の正確性との間に,良好な妥協性を示す。

We introduce a new rule-based optimization method for classification with constraints. The proposed method leverages column generation for linear programming, and hence, is scalable to large datasets. The resulting pricing subproblem is shown to be NP-Hard. We recourse to a decision tree-based heuristic and solve a proxy pricing subproblem for acceleration. The method returns a set of rules along with their optimal weights indicating the importance of each rule for learning. We address interpretability and fairness by assigning cost coefficients to the rules and introducing additional constraints. In particular, we focus on local interpretability and generalize separation criterion in fairness to multiple sensitive attributes and classes. We test the performance of the proposed methodology on a collection of datasets and present a case study to elaborate on its different aspects. The proposed rule-based learning method exhibits a good compromise between local interpretability and fairness on the one side, and accuracy on the other side.
翻訳日:2023-08-31 18:32:57 公開日:2023-08-30
# 影の中を歩く--制約付き最小化のための降下方向の新しい視点

Walking in the Shadow: A New Perspective on Descent Directions for Constrained Minimization ( http://arxiv.org/abs/2006.08426v4 )

ライセンス: Link先を確認
Hassan Mortagy, Swati Gupta, Sebastian Pokutta(参考訳) フランク=ウルフの頂点への移動, 後ステップ, 内ステップ, 対方向など, 未成年方向への移動は, 条件勾配降下(CGD)変種において重要な設計上の考慮事項となっている。 本研究は,制約最小化に向けて,これらの方向における運動の影響を減らそうとするものである。 降下の最適局所方向は、負勾配の投影の方向微分(すなわち影)である。 我々は,この方向が最善逆行であり,影内移動の連続時間ダイナミクスは,離散化は容易ではないが,投影勾配降下(PGD)のダイナミクスと等価であることを示した。 また,frank-wolfe(fw)頂点は,負勾配方向の"無限"ステップを用いてポリトープへの射影に対応し,これらのステップに対する新たな視点を提供する。 我々はこれらの知見を,FWとシャドウステップを用いた新しいシャドウCG法と,ピラミッドの幅よりも射影曲線のブレークポイント数に依存する速度で線形収束を楽しみながら組み合わせた。 単純なポリトープに対するブレークポイント数に対する線形境界と、ファセット数に基づく一般的なポリトープに対するスケーリング不変な上限を与える。 一般のポリトープのブレークポイント数に対する制限の厳密化について,オープンな疑問を提起しながら,Shadow-CGを様々なアプリケーションに利用することのメリットを実証する。

Descent directions such as movement towards Descent directions, including movement towards Frank-Wolfe vertices, away-steps, in-face away-steps and pairwise directions, have been an important design consideration in conditional gradient descent (CGD) variants. In this work, we attempt to demystify the impact of the movement in these directions towards attaining constrained minimizers. The optimal local direction of descent is the directional derivative (i.e., shadow) of the projection of the negative gradient. We show that this direction is the best away-step possible, and the continuous-time dynamics of moving in the shadow is equivalent to the dynamics of projected gradient descent (PGD), although it's non-trivial to discretize. We also show that Frank-Wolfe (FW) vertices correspond to projecting onto the polytope using an "infinite" step in the direction of the negative gradient, thus providing a new perspective on these steps. We combine these insights into a novel Shadow-CG method that uses FW and shadow steps, while enjoying linear convergence, with a rate that depends on the number of breakpoints in its projection curve, rather than the pyramidal width. We provide a linear bound on the number of breakpoints for simple polytopes and present scaling-invariant upper bounds for general polytopes based on the number of facets. We exemplify the benefit of using Shadow-CG computationally for various applications, while raising an open question about tightening the bound on the number of breakpoints for general polytopes.
翻訳日:2023-08-31 18:32:43 公開日:2023-08-30
# coagentネットワークの再訪

Coagent Networks Revisited ( http://arxiv.org/abs/2001.10474v3 )

ライセンス: Link先を確認
Modjtaba Shokrian Zini, Mohammad Pedramfar, Matthew Riemer, Ahmadreza Moradipari, Miao Liu(参考訳) 共役ネットワークは、強化学習環境において協調して行動を起こす確率的エージェントの任意のネットワークの概念を定式化する。 これは、HRLエージェント内の複数の確率的ネットワークをシーケンシングすることで、異なるレベルで抽象的なアクションを導入することによって、探索エクスプロイトのトレードオフに対処しようとするものである。 まず、coagentネットワークに該当するさまざまな例について、統一的な視点を示します。 我々は、coagentネットワークにおける実行パスの新規かつ直感的なアイデアにより実現される、coagentネットワークにおける実行ルールを定式化する。 階層的オプションクリティカルアーキテクチャにおけるパラメータ共有により動機付けされ、コアージェントネットワーク理論を再考し、我々の実行経路の考え方を用いてポリシー勾配定理のより短い証明を達成する。 次に、私たちは設定と証明を一般化し、コヒーレントが非同期に振る舞うシナリオを含むようにします。 この新たな視点と定理は、既存の文献よりも数学的に正確でパフォーマンスの高いアルゴリズムにも繋がる。 最後に、非定常RL実験により、オプションクリティカルモデルの異なる一般化の性能と特性を調査する。

Coagent networks formalize the concept of arbitrary networks of stochastic agents that collaborate to take actions in a reinforcement learning environment. Prominent examples of coagent networks in action include approaches to hierarchical reinforcement learning (HRL), such as those using options, which attempt to address the exploration exploitation trade-off by introducing abstract actions at different levels by sequencing multiple stochastic networks within the HRL agents. We first provide a unifying perspective on the many diverse examples that fall under coagent networks. We do so by formalizing the rules of execution in a coagent network, enabled by the novel and intuitive idea of execution paths in a coagent network. Motivated by parameter sharing in the hierarchical option-critic architecture, we revisit the coagent network theory and achieve a much shorter proof of the policy gradient theorem using our idea of execution paths, without any assumption on how parameters are shared among coagents. We then generalize our setting and proof to include the scenario where coagents act asynchronously. This new perspective and theorem also lead to more mathematically accurate and performant algorithms than those in the existing literature. Lastly, by running nonstationary RL experiments, we survey the performance and properties of different generalizations of option-critic models.
翻訳日:2023-08-31 18:32:09 公開日:2023-08-30
# 長鎖周波数におけるMarshall-Olkin電力線分布

Marshall-Olkin Power-Law Distributions in Length-Frequency of Entities ( http://arxiv.org/abs/1811.03325v5 )

ライセンス: Link先を確認
Xiaoshi Zhong and Xiang Yu and Erik Cambria and Jagath C. Rajapakse(参考訳) 実体は具体的な意味を持つ重要な概念を含み、多くの言語課題において重要な役割を果たす。 エンティティは異なる言語タスクで異なる形態を持ち、研究者はこれらの異なる形態を異なる概念として扱う。 本稿では,これらの異なる形態の実体をつなぐ共通的な特徴が存在するかどうかを知りたい。 具体的には、異なる型や異なる言語からのエンティティの分布を調査し、それらの多様なエンティティの背後にある共通の特徴を解明する。 異なる種類のエンティティに関する12のデータセットと異なる言語のエンティティに関する18のデータセットを分析した後、これらのエンティティは多くの点で劇的に異なるが、それらの長周波数はマーシャル・オルキンパワーロー(MOPL)分布の族によって特徴付けられる。 異なるタイプのエンティティと異なる言語のエンティティに関する30のデータセットの実験を行い、MOPLモデルは2つの最先端のパワーローモデルと代替のログ正規モデルよりもはるかに優れたエンティティの時間周波数を特徴付けることを示した。 実験の結果,MOPLモデルは大規模実世界のデータセットにおけるエンティティの長さ周波数にスケーラブルであることが示された。

Entities involve important concepts with concrete meanings and play important roles in numerous linguistic tasks. Entities have different forms in different linguistic tasks and researchers treat those different forms as different concepts. In this paper, we are curious to know whether there are some common characteristics that connect those different forms of entities. Specifically, we investigate the underlying distributions of entities from different types and different languages, trying to figure out some common characteristics behind those diverse entities. After analyzing twelve datasets about different types of entities and eighteen datasets about entities in different languages, we find that while these entities are dramatically diverse from each other in many aspects, their length-frequencies can be well characterized by a family of Marshall-Olkin power-law (MOPL) distributions. We conduct experiments on those thirty datasets about entities in different types and different languages, and experimental results demonstrate that MOPL models characterize the length-frequencies of entities much better than two state-of-the-art power-law models and an alternative log-normal model. Experimental results also demonstrate that MOPL models are scalable to the length-frequency of entities in large-scale real-world datasets.
翻訳日:2023-08-31 18:31:18 公開日:2023-08-30
# スピン光子界面を用いたエネルギー効率の量子非破壊測定

Energy-efficient quantum non-demolition measurement with a spin-photon interface ( http://arxiv.org/abs/2205.09623v4 )

ライセンス: Link先を確認
Maria Maffei, Bruno O. Goes, Stephen C. Wein, Andrew N. Jordan, Lo\"ic Lanco and Alexia Auff\`eves(参考訳) スピン光子インタフェース (SPI) は量子技術の鍵となる装置であり、スピン量子ビットと偏光の伝播パルスの間で量子情報をコヒーレントに伝達することを目的としている。 スピン状態の量子非分解(QND)測定のためのSPIの可能性について検討する。 SPIによって初期化され散乱された後、光パルスの状態はスピン状態に依存する。 したがって、光の時間的および分極的な自由度で符号化される情報であるポインター状態の役割を担っている。 スピン光力学の完全なハミルトン分解に基づいて、ゼロおよび単一光子状態の量子重ね合わせが光のコヒーレントパルスよりも優れており、同じ光子予算でより区別可能なポインター状態を生成することを示す。 スピン状態に関する情報を古典レベルで抽出し、光パルスの投影計測を行うことで、コヒーレントなパルスよりも量子パルスによるエネルギー的優位性を維持する。 提案手法は, 半導電デバイスにおける不完全性に対して頑健である。

Spin-photon interfaces (SPIs) are key devices of quantum technologies, aimed at coherently transferring quantum information between spin qubits and propagating pulses of polarized light. We study the potential of a SPI for quantum non demolition (QND) measurements of a spin state. After being initialized and scattered by the SPI, the state of a light pulse depends on the spin state. It thus plays the role of a pointer state, information being encoded in the light's temporal and polarization degrees of freedom. Building on the fully Hamiltonian resolution of the spin-light dynamics, we show that quantum superpositions of zero and single photon states outperform coherent pulses of light, producing pointer states which are more distinguishable with the same photon budget. The energetic advantage provided by quantum pulses over coherent ones is maintained when information on the spin state is extracted at the classical level by performing projective measurements on the light pulses. The proposed schemes are robust against imperfections in state of the art semi-conducting devices.
翻訳日:2023-08-31 18:25:02 公開日:2023-08-30
# ケースアウェアadversarial training (特集 ケースアウェアadversarial training)

Case-Aware Adversarial Training ( http://arxiv.org/abs/2204.09398v2 )

ライセンス: Link先を確認
Mingyuan Fan, Yang Liu, Cen Chen(参考訳) ニューラルネットワーク(NN)は、様々な信号処理アプリケーションにおいて最も加熱されたモデルの1つである。 しかし、NNは敵の例(AE)に対して極めて脆弱である。 AEs を守るために,AT は計算量が多いため,ほとんどのアプリケーションにおいて適用が制限される一方で,最も効果的な手法であると考えられている。 本稿では,この問題を解決するために,汎用的で効率的なAT改善スキーム,すなわちケースアウェア・逆行訓練(CAT)を設計する。 特に直観は、情報的なサンプルの非常に限られた部分がモデルのパフォーマンスのほとんどに寄与できるという事実に起因している。 あるいは、最も情報性の高いAEがATでのみ使用される場合、防御効果を維持するため、ATの計算複雑性を著しく低下させることができる。 これを達成するために、CATは2つのブレークスルーを達成する。 まず, aeフィルタリングにおいて, 逆例の情報度を推定する手法を提案する。 第2に、NNがAEから得られる情報をさらに強化するために、CATは各イテレーションにおけるATの多様性を高めるために、重み推定とクラスレベルのバランスに基づくサンプリング戦略を含む。 広範囲な実験により、猫はバニラよりも最大3倍高速で防御効果を発揮できることが示された。

The neural network (NN) becomes one of the most heated type of models in various signal processing applications. However, NNs are extremely vulnerable to adversarial examples (AEs). To defend AEs, adversarial training (AT) is believed to be the most effective method while due to the intensive computation, AT is limited to be applied in most applications. In this paper, to resolve the problem, we design a generic and efficient AT improvement scheme, namely case-aware adversarial training (CAT). Specifically, the intuition stems from the fact that a very limited part of informative samples can contribute to most of model performance. Alternatively, if only the most informative AEs are used in AT, we can lower the computation complexity of AT significantly as maintaining the defense effect. To achieve this, CAT achieves two breakthroughs. First, a method to estimate the information degree of adversarial examples is proposed for AE filtering. Second, to further enrich the information that the NN can obtain from AEs, CAT involves a weight estimation and class-level balancing based sampling strategy to increase the diversity of AT at each iteration. Extensive experiments show that CAT is faster than vanilla AT by up to 3x while achieving competitive defense effect.
翻訳日:2023-08-31 18:24:45 公開日:2023-08-30
# 現実的制約下でのグラフニューラルネットワークによる交流電力流れの解法

Solving AC Power Flow with Graph Neural Networks under Realistic Constraints ( http://arxiv.org/abs/2204.07000v2 )

ライセンス: Link先を確認
Luis B\"ottcher, Hinrikus Wolf, Bastian Jung, Philipp Lutat, Marc Trageser, Oliver Pohl, Andreas Ulbig, Martin Grohe(参考訳) 本稿では,現実の制約下で交流電力の流れ問題を解決するグラフニューラルネットワークアーキテクチャを提案する。 配電網の安全かつレジリエントな運用を確保するために、交流電力フロー計算は、グリッドの運用限界を判定したり、計画手順におけるグリッドアセットの利用を分析するための選択手段である。 本研究では,グラフニューラルネットワークを用いて,電力の流れの物理的制約を学習するフレームワークの開発を実証する。 本稿では,訓練に使用する特定のトポロジや供給タスクとは無関係に,AC電力流の一般解を学習するための教師なしトレーニングを行うモデルアーキテクチャを提案する。 最後に,medium voltage benchmark gridsの結果を実証し,検証し,議論する。 本稿では,分散グリッドの物理的およびトポロジ特性に着目し,実際のグリッドトポロジに対するスケーラブルなソリューションを提供する。 そこで我々は,AC電力フローグラフニューラルネットワークアーキテクチャの教師なしトレーニングのために,現実的なグリッドトポロジからなる大規模かつ多様なデータセットを用いて,データ駆動型アプローチを採用し,その結果を従来のニューラルネットワークアーキテクチャとNewton-Raphson法と比較する。 提案手法は,最先端の解法に比べて計算時間と精度が高いことを示す。 また、精度の面では、電力流のニューラルソルバよりも優れています。

In this paper, we propose a graph neural network architecture to solve the AC power flow problem under realistic constraints. To ensure a safe and resilient operation of distribution grids, AC power flow calculations are the means of choice to determine grid operating limits or analyze grid asset utilization in planning procedures. In our approach, we demonstrate the development of a framework that uses graph neural networks to learn the physical constraints of the power flow. We present our model architecture on which we perform unsupervised training to learn a general solution of the AC power flow formulation independent of the specific topologies and supply tasks used for training. Finally, we demonstrate, validate and discuss our results on medium voltage benchmark grids. In our approach, we focus on the physical and topological properties of distribution grids to provide scalable solutions for real grid topologies. Therefore, we take a data-driven approach, using large and diverse data sets consisting of realistic grid topologies, for the unsupervised training of the AC power flow graph neural network architecture and compare the results to a prior neural architecture and the Newton-Raphson method. Our approach shows a high increase in computation time and good accuracy compared to state-of-the-art solvers. It also out-performs that neural solver for power flow in terms of accuracy.
翻訳日:2023-08-31 18:24:22 公開日:2023-08-30
# 状態空間における有限温度量子凝縮:量子アニーリングの新しい展望

Finite temperature quantum condensations in the space of states: a new perspective for quantum annealing ( http://arxiv.org/abs/2203.05803v4 )

ライセンス: Link先を確認
Massimo Ostilli and Carlo Presilla(参考訳) 自然界では、全ては有限温度で起こるが、量子相転移(qpts)は例外ではない。 それでも、それらは主にゼロ温度で議論され、定式化されている。 ゼロ温度で最近導入された凝縮QPTは、基底状態エネルギーを対応する自由エネルギーに置き換えることで、自然に有限温度まで拡張できることを示す。 この基準は、パラダイム的グロバーモデルと一次元不均質格子における自由フェルミオンの系に記述する。 予想される普遍的特徴と一致して、2つの系は構造的に類似した位相図を示す。 最後に, 有限温度縮合QPTを用いて, 有限温度において, 出力確率がシステムサイズ1に指数関数的に近い量子異方体を構築する方法について説明する。 例として、Groverモデルとフェルミオン系を考え直し、後者は現在のヘテロ構造技術のリーチにかなり近い。

In nature, everything occurs at finite temperature and quantum phase transitions (QPTs) cannot be an exception. Nevertheless, they are still mainly discussed and formulated at zero temperature. We show that the condensation QPTs recently introduced at zero temperature can naturally be extended to finite temperature just by replacing ground state energies with corresponding free energies. We illustrate this criterion in the paradigmatic Grover model and in a system of free fermions in a one-dimensional inhomogeneous lattice. In agreement with expected universal features, the two systems show structurally similar phase diagrams. Last, we explain how finite temperature condensation QPTs can be used to construct quantum annealers having, at finite temperature, output-probability exponentially close to 1 in the system size. As examples we consider again the Grover model and the fermionic system, the latter being well within the reach of present heterostructure technology.
翻訳日:2023-08-31 18:24:01 公開日:2023-08-30
# メロジカルに有用な真のマルチパートエンタングルメントの活性化

Activation of metrologically useful genuine multipartite entanglement ( http://arxiv.org/abs/2203.05538v4 )

ライセンス: Link先を確認
R\'obert Tr\'enyi, \'Arp\'ad Luk\'acs, Pawe{\l} Horodecki, Ryszard Horodecki, Tam\'as V\'ertesi, G\'eza T\'oth(参考訳) 両部量子状態と多部量子状態の複部量子状態のコピーについて考察する。 我々は, 分離可能な状態に対して, 状態がどの程度優れているかを決定することにより, メトロロジーの有用性を特徴付ける。 分割可能な状態よりも弱いエンタングル状態であっても,多くのコピーの限界において,メトロロジーにおいて最大に有用となるエンタングル状態のクラスを同定する。 このようにして、metrologically useful real multipartite の絡み合いを活性化する。 注目すべきは、最大達成可能な距離論的有用性がコピー数で指数関数的に高速に達成されるだけでなく、わずかな単純な相関観測値の測定によって達成できることである。 我々はまた、純粋な絡み合った状態の1つのコピーの有用性について一般的な記述をする。 驚くべきことに、hyllus et alで示されるマルチキュービット状態は、非常に多い。 [Phys. Rev. A 82, 012337 (2010)] は役に立たないが、キュービットを局所的にキュートリットに埋め込むと有用になる。 提案手法と誤り訂正との関係,および雑音環境における量子気象学への応用について考察する。

We consider quantum metrology with several copies of bipartite and multipartite quantum states. We characterize the metrological usefulness by determining how much the state outperforms separable states. We identify a large class of entangled states that become maximally useful for metrology in the limit of large number of copies, even if the state is weakly entangled and not even more useful than separable states. This way we activate metrologically useful genuine multipartite entanglement. Remarkably, not only that the maximally achievable metrological usefulness is attained exponentially fast in the number of copies, but it can be achieved by the measurement of few simple correlation observables. We also make general statements about the usefulness of a single copy of pure entangled states. We surprisingly find that the multiqubit states presented in Hyllus et al. [Phys. Rev. A 82, 012337 (2010)], which are not useful, become useful if we embed the qubits locally in qutrits. We discuss the relation of our scheme to error correction, and its possible use for quantum metrology in a noisy environment.
翻訳日:2023-08-31 18:23:45 公開日:2023-08-30
# オントロジーの概念の定量化と集約

Quantification and Aggregation over Concepts of the Ontology ( http://arxiv.org/abs/2202.00898v4 )

ライセンス: Link先を確認
Pierre Carbonnelle (KU Leuven, Leuven, Belgium), Matthias Van der Hallen (KU Leuven, Leuven, Belgium), Marc Denecker (KU Leuven, Leuven, Belgium)(参考訳) いくつかのKRアプリケーションでは、ボキャブラリのシンボルによって形式的に表される概念の集合を定量化したいと論じる。 この定量化は、二次量子化とメタプログラミング量子化とを区別すべきである。 また,インテンテンション論理における概念との関係についても検討する。 我々は,そのような抽象化をサポートするための一階述語論理の拡張を提示する。 この定式化における非意味的な文を避けるため, 整形文の概念を洗練させ, 式中のトークン数と線形な複雑性で整形性を検証する手法を提案する。 我々は、知識表現言語であるFO(.)と、FO(.)の推論エンジンであるIDP-Z3を拡張した。 この拡張は、様々な問題領域を再現性のある方法で正確にモデル化する上で必要であることを示す。

We argue that in some KR applications, we want to quantify over sets of concepts formally represented by symbols in the vocabulary. We show that this quantification should be distinguished from second-order quantification and meta-programming quantification. We also investigate the relationship with concepts in intensional logic. We present an extension of first-order logic to support such abstractions, and show that it allows writing expressions of knowledge that are elaboration tolerant. To avoid nonsensical sentences in this formalism, we refine the concept of well-formed sentences, and propose a method to verify well-formedness with a complexity that is linear with the number of tokens in the formula. We have extended FO(.), a Knowledge Representation language, and IDP-Z3, a reasoning engine for FO(.), accordingly. We show that this extension was essential in accurately modelling various problem domains in an elaboration-tolerant way, i.e., without reification.
翻訳日:2023-08-31 18:23:26 公開日:2023-08-30
# 時間差学習の制御論的解析

Control Theoretic Analysis of Temporal Difference Learning ( http://arxiv.org/abs/2112.14417v5 )

ライセンス: Link先を確認
Donghwan Lee and Do Wan Kim(参考訳) この原稿の目的は、時間差学習アルゴリズム(td)の制御論的解析を行うことである。 td-learningは強化学習の領域の基盤となり、マルコフ決定過程において与えられたポリシーに関連する価値関数を近似する手法を提供する。 TD-ラーニングの理論的理解に寄与したいくつかの既存の研究にもかかわらず、研究者がその統計的効率に関する具体的な保証を確立できたのは近年である。 本稿では,線形システム制御の分野から確立された概念を活用し,TD学習を解析するための有限時間制御理論フレームワークを提案する。 そこで本研究では,TD学習の力学と強化学習のより広い展望について,制御理論から導出した簡単な解析ツールを用いて考察する。

The goal of this manuscript is to conduct a controltheoretic analysis of Temporal Difference (TD) learning algorithms. TD-learning serves as a cornerstone in the realm of reinforcement learning, offering a methodology for approximating the value function associated with a given policy in a Markov Decision Process. Despite several existing works that have contributed to the theoretical understanding of TD-learning, it is only in recent years that researchers have been able to establish concrete guarantees on its statistical efficiency. In this paper, we introduce a finite-time, control-theoretic framework for analyzing TD-learning, leveraging established concepts from the field of linear systems control. Consequently, this paper provides additional insights into the mechanics of TD learning and the broader landscape of reinforcement learning, all while employing straightforward analytical tools derived from control theory.
翻訳日:2023-08-31 18:23:09 公開日:2023-08-30
# 非定値計量に対する量子参照フレーム

Quantum reference frames for an indefinite metric ( http://arxiv.org/abs/2112.11473v2 )

ライセンス: Link先を確認
Anne-Catherine de la Hamette, Viktoria Kabel, Esteban Castro-Ruiz, \v{C}aslav Brukner(参考訳) 量子物理学の現在の理論と一般相対性理論は、重力源が量子である状況を研究することができない。 本稿では,量子参照フレーム(qrf)変換を用いて,重ね合わせにおける質量配置の存在下で物体のダイナミクスを決定する手法を提案する。 具体的には、異なる分岐の質量配置が相対距離保存変換によって関連している限り、QRFの現在のフレームワークを拡張して、質量構成が定まるフレームに変化させることができることを示す。 量子座標変換の下での力学則の共分散を仮定すると、既知の物理学を用いて力学を決定できる。 この方法を用いて, プローブ粒子の運動と質量配置近傍の時計の挙動を同定し, 重ね合わせ時の重力物体による時間拡張を求める。

The current theories of quantum physics and general relativity on their own do not allow us to study situations in which the gravitational source is quantum. Here, we propose a strategy to determine the dynamics of objects in the presence of mass configurations in superposition, and hence an indefinite spacetime metric, using quantum reference frame (QRF) transformations. Specifically, we show that, as long as the mass configurations in the different branches are related via relative-distance-preserving transformations, one can use an extension of the current framework of QRFs to change to a frame in which the mass configuration becomes definite. Assuming covariance of dynamical laws under quantum coordinate transformations, this allows to use known physics to determine the dynamics. We apply this procedure to find the motion of a probe particle and the behavior of clocks near the mass configuration, and thus find the time dilation caused by a gravitating object in superposition.
翻訳日:2023-08-31 18:22:55 公開日:2023-08-30
# テンソル列車完成:リーマン最適化による局所復旧保証

Tensor train completion: local recovery guarantees via Riemannian optimization ( http://arxiv.org/abs/2110.03975v3 )

ライセンス: Link先を確認
Stanislav Budzinskiy, Nikolai Zamarashkin(参考訳) 本研究では、テンソルのランダムに選択された要素の数を推定し、高い確率でテンソルの完備化に対するリーマン勾配勾配の局所収束を保証する。 我々は、接空間上の直交射影の新しい境界を、展開の特異値の調和平均に基づいて導出し、テンソル列のコアコヒーレンスの概念を導入する。 また,補助部分空間情報を用いてテンソル列の完了に結果を拡張し,対応する局所収束保証を得る。

In this work, we estimate the number of randomly selected elements of a tensor that with high probability guarantees local convergence of Riemannian gradient descent for tensor train completion. We derive a new bound for the orthogonal projections onto the tangent spaces based on the harmonic mean of the unfoldings' singular values and introduce a notion of core coherence for tensor trains. We also extend the results to tensor train completion with auxiliary subspace information and obtain the corresponding local convergence guarantees.
翻訳日:2023-08-31 18:22:40 公開日:2023-08-30
# 音響変調器を用いた量子技術用バイ周波数干渉計

An acousto-optic modulator based bi-frequency interferometer for quantum technology ( http://arxiv.org/abs/2210.00406v3 )

ライセンス: Link先を確認
Wenqi Li, Qiqi Deng, Xueshi Guo, Xiaoying Li(参考訳) 我々は、単一光子レベルの量子状態に対する自由干渉をビートするかビートするかのいずれかを実現できる高性能aomベースの2周波干渉計を示す。 干渉計の視認性と光学効率はそれぞれ (99.5 +-0.2)% と (95 +- 1)% である。 干渉計の位相は、特に設計された電子信号でAOMを直接駆動することで位相ディザリングを実現するディザリング位相ロック方式を用いて積極的に安定化される。 さらに,二周波コヒーレント結合,周波数チューニング,光スイッチングなど,量子技術における干渉計の応用例を示す。 これらの結果は、干渉計が複数の量子技術のための汎用デバイスであることを示している。

We demonstrate a high performance AOM based bi-frequency interferometer, which can realize either beating or beating free interference for single photon level quantum state. Visibility and optical efficiency of the interferometer are (99.5 +- 0.2)% and (95 +- 1)%, respectively. The phase of the interferometer is actively stabilized by using dithering phase locking scheme, where the phase dithering is realized by directly driving the AOMs with specially designed electronic signal. We further demonstrate applications of the interferometer in quantum technology, including bi-frequency coherent combination, frequency tuning and optical switching. These result show the interferometer is a versatile device for multiple quantum technologies.
翻訳日:2023-08-31 18:14:23 公開日:2023-08-30
# NBV-SC:Fruit MappingとRestructionのための形状補完に基づく次のベストビュープランニング

NBV-SC: Next Best View Planning based on Shape Completion for Fruit Mapping and Reconstruction ( http://arxiv.org/abs/2209.15376v3 )

ライセンス: Link先を確認
Rohit Menon and Tobias Zaenker and Nils Dengler and Maren Bennewitz(参考訳) 果実マッピングと収穫の活発な知覚は、排卵が頻繁に発生し、果実の大きさが経時的に変化するため、難しい課題である。 最先端の視点計画手法は計算コストの高いレイキャスティング操作を利用して、情報獲得を最大化し、シーンの果実を覆うことを目的とした良い視点を見つける。 本稿では,予測された果実形状に関する情報を明示的に活用し,果実の未観察部分として観察する対象視点を計算する,新たな視点計画手法を提案する。 さらに,より効率的な視点選択のためのサンプリングスペースを削減するために,視点差分の概念を定式化する。 RGB-Dセンサーを搭載したUR5eアームを用いたシミュレーション実験により,形状完了に基づく反復的次ベストビュー計画法の有効性の定量的実証を行った。 最先端の視点プランナーとの比較実験において,果実の大きさの推定だけでなく,その再構成にも改善が見られ,計画時間を著しく短縮した。 最後に,市販のガラスハウスにおいて,実物のロボットシステムとトウガラシ植物をマッピングする手法の有効性を示す。

Active perception for fruit mapping and harvesting is a difficult task since occlusions occur frequently and the location as well as size of fruits change over time. State-of-the-art viewpoint planning approaches utilize computationally expensive ray casting operations to find good viewpoints aiming at maximizing information gain and covering the fruits in the scene. In this paper, we present a novel viewpoint planning approach that explicitly uses information about the predicted fruit shapes to compute targeted viewpoints that observe as yet unobserved parts of the fruits. Furthermore, we formulate the concept of viewpoint dissimilarity to reduce the sampling space for more efficient selection of useful, dissimilar viewpoints. Our simulation experiments with a UR5e arm equipped with an RGB-D sensor provide a quantitative demonstration of the efficacy of our iterative next best view planning method based on shape completion. In comparative experiments with a state-of-the-art viewpoint planner, we demonstrate improvement not only in the estimation of the fruit sizes, but also in their reconstruction, while significantly reducing the planning time. Finally, we show the viability of our approach for mapping sweet peppers plants with a real robotic system in a commercial glasshouse.
翻訳日:2023-08-31 18:14:11 公開日:2023-08-30
# ニューラルネットワークのプルーニングに複雑度は必要か? グローバル・マグニチュード・プルーニングの事例研究

Is Complexity Required for Neural Network Pruning? A Case Study on Global Magnitude Pruning ( http://arxiv.org/abs/2209.14624v2 )

ライセンス: Link先を確認
Manas Gupta, Efe Camci, Vishandi Rudy Keneta, Abhishek Vaidyanathan, Ritwik Kanodia, Chuan-Sheng Foo, Wu Min and Lin Jie(参考訳) ニューラルネットワークのプルーニングは、最近のニューラルネットワークから大量の重みを、精度を損なうことなく安全に除去できることが示されてから、この10年間で人気が高まっている。 それ以来、多くのプルーニング法が提案され、それぞれが以前のものより優れていると主張している。 今日では多くの最先端(SOTA)技術は、重要なスコアを利用した複雑な刈り込み手法に依存しており、バックプロパゲーションやヒューリスティックスに基づく刈り出しルールなどを通じてフィードバックを得ている。 本研究は, より優れた刈り取り結果を得るためには, 複雑さの導入というこのパターンが本当に必要かどうかを問うものである。 我々は、これらのSOTA手法を、単純なプルーニングベースライン、すなわちGlobal Magnitude Pruning (Global MP)に対してベンチマークする。 グローバルMPは、その大きさの順に重みをランク付けし、最小のものをプーンする。 したがって、バニラ形式においては最も単純な刈り取り技法の一つである。 驚いたことに、バニラグローバルMPは、他のすべてのSOTA技術より優れており、新しいSOTA結果が得られる。 刈り取りを段階的に行うと,フロップススパーシフィケーション(frups sparsification)の有望なパフォーマンスも向上します。 また、Global MPはタスク、データセット、モデルにまたがって、優れたパフォーマンスで一般化可能であることもわかりました。 さらに,各層に保持する重量の最小限のしきい値を設定することで,多くのプルーニングアルゴリズムが高間隔,すなわち層崩壊で発生する共通問題を,Global MPで容易に解決することができる。 最後に、他の多くのSOTA技術とは異なり、Global MPは追加のアルゴリズム固有のハイパーパラメータを必要としない。 本稿では,様々なモデル (WRN-28-8, ResNet-32, ResNet-50, MobileNet-V1, FastGRNN) と複数のデータセット (CIFAR-10, ImageNet, HAR-2) について紹介する。 コードはhttps://github.com/manasgupta-1/GlobalMPで入手できる。

Pruning neural networks has become popular in the last decade when it was shown that a large number of weights can be safely removed from modern neural networks without compromising accuracy. Numerous pruning methods have been proposed since then, each claiming to be better than the previous. Many state-of-the-art (SOTA) techniques today rely on complex pruning methodologies utilizing importance scores, getting feedback through back-propagation or having heuristics-based pruning rules amongst others. In this work, we question whether this pattern of introducing complexity is really necessary to achieve better pruning results. We benchmark these SOTA techniques against a naive pruning baseline, namely, Global Magnitude Pruning (Global MP). Global MP ranks weights in order of their magnitudes and prunes the smallest ones. Hence, in its vanilla form, it is one of the simplest pruning techniques. Surprisingly, we find that vanilla Global MP outperforms all the other SOTA techniques and achieves a new SOTA result. It also achieves promising performance on FLOPs sparsification, which we find is enhanced, when pruning is conducted in a gradual fashion. We also find that Global MP is generalizable across tasks, datasets, and models with superior performance. Moreover, a common issue that many pruning algorithms run into at high sparsity rates, namely, layer-collapse, can be easily fixed in Global MP by setting a minimum threshold of weights to be retained in each layer. Lastly, unlike many other SOTA techniques, Global MP does not require any additional algorithm specific hyper-parameters and is very straightforward to tune and implement. We showcase our findings on various models (WRN-28-8, ResNet-32, ResNet-50, MobileNet-V1 and FastGRNN) and multiple datasets (CIFAR-10, ImageNet and HAR-2). Code is available at https://github.com/manasgupta-1/GlobalMP.
翻訳日:2023-08-31 18:13:51 公開日:2023-08-30
# 相互知識蒸留による半教師付き意味セグメンテーション

Semi-supervised Semantic Segmentation with Mutual Knowledge Distillation ( http://arxiv.org/abs/2208.11499v3 )

ライセンス: Link先を確認
Jianlong Yuan, Jinchao Ge, Zhibin Wang, Yifan Liu(参考訳) 最近の半教師付きセマンティックセグメンテーション法では一貫性の正則化が広く研究されており、有望な性能が達成されている。 本研究では, 相互知識蒸留(mkd)とデータと機能拡張を併用した新しい一貫性正規化フレームワークを提案する。 整合性正規化に基づく2つの補助平均教師モデルを導入する。 具体的には、平均教師が生成した擬似ラベルを用いて、学生ネットワークを監督し、2つのブランチ間の相互知識蒸留を実現する。 画像レベルの強みと弱みに加えて,機能拡張についても論じる。 これは学生ネットワークを蒸留するために様々な知識の源を考えることである。 これにより、トレーニングサンプルの多様性が大幅に向上する。 各種半教師付き環境下でのSOTA(State-of-the-art)手法よりも優れた性能を示した。 コードはセミmmsegで入手できる。

Consistency regularization has been widely studied in recent semisupervised semantic segmentation methods, and promising performance has been achieved. In this work, we propose a new consistency regularization framework, termed mutual knowledge distillation (MKD), combined with data and feature augmentation. We introduce two auxiliary mean-teacher models based on consistency regularization. More specifically, we use the pseudo-labels generated by a mean teacher to supervise the student network to achieve a mutual knowledge distillation between the two branches. In addition to using image-level strong and weak augmentation, we also discuss feature augmentation. This involves considering various sources of knowledge to distill the student network. Thus, we can significantly increase the diversity of the training samples. Experiments on public benchmarks show that our framework outperforms previous state-of-the-art (SOTA) methods under various semi-supervised settings. Code is available at semi-mmseg.
翻訳日:2023-08-31 18:12:40 公開日:2023-08-30
# DCGANを用いた糖尿病網膜症画像の品質と多様性の評価

Evaluating the Quality and Diversity of DCGAN-based Generatively Synthesized Diabetic Retinopathy Imagery ( http://arxiv.org/abs/2208.05593v3 )

ライセンス: Link先を確認
Cristina-Madalina Dragan, Muhammad Muneeb Saad, Mubashir Husain Rehmani, and Ruairi O'Reilly(参考訳) 公開されている糖尿病網膜症(DR)データセットは不均衡であり、DRを持つ画像の数が限られている。 この不均衡の影響は、drステージの重症度が増加するにつれて悪化し、分類器の診断能力に影響を及ぼす。 この不均衡に対処するには、GAN(Generative Adversarial Networks)を使用して、データセットを合成画像で拡張する。 高品質で多様な画像が生成される場合、合成画像の生成は有利である。 合成画像の品質と多様性を評価するために、マルチスケール構造類似度指数(MS-SSIM)、コサイン距離(CD)、Fr\echet Inception Distance(FID)などの評価指標を用いる。 ganベース合成画像の品質と多様性の評価における各指標の有効性を理解することは、拡張のための画像選択において重要である。 これまでのところ、生体画像の文脈におけるこれらの指標の適切性の分析は限られている。 本研究は, 深層畳み込みgan (dcgan) が生成する合成増殖性dr画像に適用する評価指標の実験的評価に寄与する。 さらに,合成画像の品質と多様性を示す指標の容量と,分類器の性能との関係について検討した。 これにより、合成画像の定量的選択と情報増強戦略が可能になる。 その結果、FIDは品質評価に適しており、MS-SSIMとCDは合成画像の多様性評価に適していることがわかった。 さらに、F1とAUCスコアが示すように、畳み込みニューラルネットワーク(CNN)と効率的なネット分類器の強化データセットに対する優れた性能は、不均衡データセットを増大させる合成画像の有効性を示す。

Publicly available diabetic retinopathy (DR) datasets are imbalanced, containing limited numbers of images with DR. This imbalance contributes to overfitting when training machine learning classifiers. The impact of this imbalance is exacerbated as the severity of the DR stage increases, affecting the classifiers' diagnostic capacity. The imbalance can be addressed using Generative Adversarial Networks (GANs) to augment the datasets with synthetic images. Generating synthetic images is advantageous if high-quality and diversified images are produced. To evaluate the quality and diversity of synthetic images, several evaluation metrics, such as Multi-Scale Structural Similarity Index (MS-SSIM), Cosine Distance (CD), and Fr\'echet Inception Distance (FID) are used. Understanding the effectiveness of each metric in evaluating the quality and diversity of GAN-based synthetic images is critical to select images for augmentation. To date, there has been limited analysis of the appropriateness of these metrics in the context of biomedical imagery. This work contributes an empirical assessment of these evaluation metrics as applied to synthetic Proliferative DR imagery generated by a Deep Convolutional GAN (DCGAN). Furthermore, the metrics' capacity to indicate the quality and diversity of synthetic images and a correlation with classifier performance is undertaken. This enables a quantitative selection of synthetic imagery and an informed augmentation strategy. Results indicate that FID is suitable for evaluating the quality, while MS-SSIM and CD are suitable for evaluating the diversity of synthetic imagery. Furthermore, the superior performance of Convolutional Neural Network (CNN) and EfficientNet classifiers, as indicated by the F1 and AUC scores, for the augmented datasets demonstrates the efficacy of synthetic imagery to augment the imbalanced dataset.
翻訳日:2023-08-31 18:12:26 公開日:2023-08-30
# 多成分量子系の排他的マルコフ進化:位相空間表現

Exact Markovian evolution of multicomponent quantum systems: phase space representations ( http://arxiv.org/abs/2208.02282v2 )

ライセンス: Link先を確認
Aldo R. Fernandes Neto, Alfredo M. Ozorio de Almeida and Olivier Brodier(参考訳) 二次ハミルトニアンおよび線型結合作用素を持つリンドブラッド方程式の正確な解は、弦表現の中で導かれ、すなわち、標数函数としても知られるウィグナー函数のフーリエ変換に対して導かれた。 ここでは、任意の部分系の還元密度作用素に対する明示的な表現と、この進化するコード関数の微分として表されるモーメントを、いくつかの自由度で一般化する。 ウィグナー関数は、より広い多次元ガウス窓を持つ単純古典的進化の畳み込みであり、最終的にその肯定性を保証する。 さらに、成分の分離性を保証するグラウバー・スンダルシャンのP-函数も陽性である。 数自由度の文脈では、完全な散逸行列が定義され、そのトレースは以前に導かれた散逸係数の2倍に等しい。 これにより、ウィグナー函数の引数の位相空間体積が収縮する速度が支配され、一方で弦関数の位相空間は拡大する。 三原子分子と調和振動子の配列のマルコフ進化の例について述べる。

The exact solution of the Lindblad equation with a quadratic Hamiltonian and linear coupling operators was derived within the chord representation, that is, for the Fourier transform of the Wigner function, also known as the characteristic function. It is here generalized for several degrees of freedom, so as to provide an explicit expression for the reduced density operator of any subsystem, as well as moments expressed as derivatives of this evolving chord function. The Wigner function is then the convolution of its straightforward classical evolution with a widening multidimensional gaussian window, eventually ensuring its positivity. Futher on, positivity also holds for the Glauber-Sundarshan P-function, which guarantees separability of the components. In the context of several degrees of freedom, a full dissipation matrix is defined, whose trace is equal to twice the previously derived dissipation coefficient. This governs the rate at which the phase space volume of the argument of the Wigner function contracts, while that of the chord function expands. Examples of markovian evolution of a triatomic molecule and of an array of harmonic oscillators are discussed.
翻訳日:2023-08-31 18:11:53 公開日:2023-08-30
# 最適形状パラメータ化のための微分同相群上のディープニューラルネットワーク

Deep neural networks on diffeomorphism groups for optimal shape reparameterization ( http://arxiv.org/abs/2207.11141v2 )

ライセンス: Link先を確認
Elena Celledoni, Helge Gl\"ockner, J{\o}rgen Riseth, Alexander Schmeding(参考訳) 形状解析における基本的な問題の1つは、形状間の測地距離を計算する前に曲線や表面を整列させることである。 このアライメントを実現する最適再パラメトリゼーションを見つけることは計算的に要求されるタスクであり、一般的に微分同相群上の最適化問題を解くことによって行われる。 本稿では,基本微分同相合成による配向保存微分同相の近似を構成するアルゴリズムを提案する。 このアルゴリズムはPyTorchを用いて実装され、非パラメータ化された曲線と曲面の両方に適用できる。 さらに、構築されたアーキテクチャに対する普遍近似特性を示し、その結果の微分同相のリプシッツ定数の境界を求める。

One of the fundamental problems in shape analysis is to align curves or surfaces before computing geodesic distances between their shapes. Finding the optimal reparametrization realizing this alignment is a computationally demanding task, typically done by solving an optimization problem on the diffeomorphism group. In this paper, we propose an algorithm for constructing approximations of orientation-preserving diffeomorphisms by composition of elementary diffeomorphisms. The algorithm is implemented using PyTorch, and is applicable for both unparametrized curves and surfaces. Moreover, we show universal approximation properties for the constructed architectures, and obtain bounds for the Lipschitz constants of the resulting diffeomorphisms.
翻訳日:2023-08-31 18:11:31 公開日:2023-08-30
# 画像分類のための効率的な適応組立

Efficient Adaptive Ensembling for Image Classification ( http://arxiv.org/abs/2206.07394v3 )

ライセンス: Link先を確認
Antonio Bruno, Davide Moroni, Massimo Martinelli(参考訳) 近年では、散発的なケースを除いて、コンピュータビジョンの傾向は、複雑化の著しい増加に比べてわずかに改善される。 この傾向を逆転するために,画像分類性能を複雑化することなく向上させる新しい手法を提案する。 この目的のために、より複雑な性質とトレーニング時間のためにしばしば適切に使用されない強力なアプローチであるアンサンブルを再検討し、特定の設計選択によって実現できるようにしました。 まず、2つの効率的なNet-b0エンド・ツー・エンド・モデル(画像分類の全体的な精度/複雑さのトレードオフが最も高いアーキテクチャとして知られている)を非結合なサブセット(バッグング)でトレーニングした。 そこで,訓練可能な組み合わせ層の微調整を行い,効率的な適応アンサンブルを製作した。 このようにして、パラメータ数(5~60倍)とFLoating Point Operations Per Second(FLOPS)の両面で、いくつかの主要なベンチマークデータセットで10~100倍の複雑さを抑えながら、平均0.5$\%の精度で最先端技術を上回るパフォーマンスを実現しました。

In recent times, with the exception of sporadic cases, the trend in Computer Vision is to achieve minor improvements compared to considerable increases in complexity. To reverse this trend, we propose a novel method to boost image classification performances without increasing complexity. To this end, we revisited ensembling, a powerful approach, often not used properly due to its more complex nature and the training time, so as to make it feasible through a specific design choice. First, we trained two EfficientNet-b0 end-to-end models (known to be the architecture with the best overall accuracy/complexity trade-off for image classification) on disjoint subsets of data (i.e. bagging). Then, we made an efficient adaptive ensemble by performing fine-tuning of a trainable combination layer. In this way, we were able to outperform the state-of-the-art by an average of 0.5$\%$ on the accuracy, with restrained complexity both in terms of the number of parameters (by 5-60 times), and the FLoating point Operations Per Second (FLOPS) by 10-100 times on several major benchmark datasets.
翻訳日:2023-08-31 18:11:19 公開日:2023-08-30
# 多視点RGB-Dオペレーティングルーム画像のための動的深度スーパービジョンNeRF

Dynamic Depth-Supervised NeRF for Multi-View RGB-D Operating Room Images ( http://arxiv.org/abs/2211.12436v2 )

ライセンス: Link先を確認
Beerend G.A. Gerats, Jelmer M. Wolterink, Ivo A.M.J. Broeders(参考訳) 操作室(英: operating room, OR)は、人、物、それらの意味的関係を検知できる、センシングシステムの開発に関心のある環境である。 orの頻繁な閉塞のため、これらのシステムは複数のカメラからの入力に依存することが多い。 カメラ数の増加は一般的にアルゴリズムの性能を増加させるが、or内のカメラの数と位置には厳しい制限がある。 Neural Radiance Fields (NeRF) は任意のカメラ位置から合成ビューをレンダリングするために使用することができ、データセット内のカメラの数を事実上増加させる。 本研究では,ORにおける動的シーンの表示合成にNeRFを用いることについて検討し,RGB-Dセンサデータからの奥行き監視による正規化が画像品質の向上をもたらすことを示す。 人工膝関節置換術前後の5段階に分けて,最大6台の同期カメラで手術野を撮影するダイナミックな奥行き監視nrfを最適化した。 我々は,異なる時間値で外科領域を180度動き回る仮想カメラによる視界を定性的に検査する。 カラーチャネルのPSNR, SSIM, LPIPS, MAE, 推定深さの誤差パーセンテージを用いて, 未知のカメラ位置からのビュー合成を定量的に評価した。 また、NeRFは、補間カメラの位置や補間時間間隔から、幾何学的に一貫したビューを生成することができる。 平均psnrが18.2で深度推定誤差が2.0%の未認識カメラポーズからビューを生成する。 以上の結果から,ORにおける視線合成のための動的NeRFの可能性と,臨床現場における深度管理の関連性を強調した。

The operating room (OR) is an environment of interest for the development of sensing systems, enabling the detection of people, objects, and their semantic relations. Due to frequent occlusions in the OR, these systems often rely on input from multiple cameras. While increasing the number of cameras generally increases algorithm performance, there are hard limitations to the number and locations of cameras in the OR. Neural Radiance Fields (NeRF) can be used to render synthetic views from arbitrary camera positions, virtually enlarging the number of cameras in the dataset. In this work, we explore the use of NeRF for view synthesis of dynamic scenes in the OR, and we show that regularisation with depth supervision from RGB-D sensor data results in higher image quality. We optimise a dynamic depth-supervised NeRF with up to six synchronised cameras that capture the surgical field in five distinct phases before and during a knee replacement surgery. We qualitatively inspect views rendered by a virtual camera that moves 180 degrees around the surgical field at differing time values. Quantitatively, we evaluate view synthesis from an unseen camera position in terms of PSNR, SSIM and LPIPS for the colour channels and in MAE and error percentage for the estimated depth. We find that NeRFs can be used to generate geometrically consistent views, also from interpolated camera positions and at interpolated time intervals. Views are generated from an unseen camera pose with an average PSNR of 18.2 and a depth estimation error of 2.0%. Our results show the potential of a dynamic NeRF for view synthesis in the OR and stress the relevance of depth supervision in a clinical setting.
翻訳日:2023-08-31 18:05:09 公開日:2023-08-30
# 非定常時系列からの特異因果ネットワークの同定

Identifying Unique Causal Network from Nonstationary Time Series ( http://arxiv.org/abs/2211.10085v3 )

ライセンス: Link先を確認
Mingyu Kang and Duxin Chen and Ning Meng and Gang Yan and Wenwu Yu(参考訳) 因果関係の特定は多くのデータ集約シナリオにおいて難しい課題である。 この重要な課題に対して多くのアルゴリズムが提案されている。 しかし、そのほとんどは、ベイズネットワーク(BN)の有向非巡回グラフ(DAG)の学習アルゴリズムを考察している。 これらのBNベースのモデルはマルコフ同値クラスの問題のため、因果説明可能性に制限があるだけである。 さらに、それらは定常性の仮定に依存するが、複素系からの多くのサンプリング時系列は非定常である。 非定常時系列はデータセットシフトの問題をもたらし、これらのアルゴリズムの不満足なパフォーマンスをもたらす。 これらのギャップを埋めるために,Unique Causal Network (UCN) という新しい因果関係モデルを提案する。 従来のBNモデルとは異なり、UCNは時間遅延の影響を考慮し、マルコフ同値クラスの問題に対処する得られたネットワーク構造の特異性を証明する。 さらに、UCNの分解性特性に基づいて、高次因果エントロピー(HCE)アルゴリズムは、UCNの構造を分散的に識別するように設計されている。 hceアルゴリズムは、非定常時系列でうまく機能するneighbors entropy estimatorを用いて因果性の強さを測定する。 最後に、HCEアルゴリズムは、他のベースラインアルゴリズムと比較して、時系列が非定常である場合の最先端の精度を実現する。

Identifying causality is a challenging task in many data-intensive scenarios. Many algorithms have been proposed for this critical task. However, most of them consider the learning algorithms for directed acyclic graph (DAG) of Bayesian network (BN). These BN-based models only have limited causal explainability because of the issue of Markov equivalence class. Moreover, they are dependent on the assumption of stationarity, whereas many sampling time series from complex system are nonstationary. The nonstationary time series bring dataset shift problem, which leads to the unsatisfactory performances of these algorithms. To fill these gaps, a novel causation model named Unique Causal Network (UCN) is proposed in this paper. Different from the previous BN-based models, UCN considers the influence of time delay, and proves the uniqueness of obtained network structure, which addresses the issue of Markov equivalence class. Furthermore, based on the decomposability property of UCN, a higher-order causal entropy (HCE) algorithm is designed to identify the structure of UCN in a distributed way. HCE algorithm measures the strength of causality by using nearest-neighbors entropy estimator, which works well on nonstationary time series. Finally, lots of experiments validate that HCE algorithm achieves state-of-the-art accuracy when time series are nonstationary, compared to the other baseline algorithms.
翻訳日:2023-08-31 18:04:36 公開日:2023-08-30
# 知識強化事前学習言語モデルに関する調査研究

A Survey of Knowledge Enhanced Pre-trained Language Models ( http://arxiv.org/abs/2211.05994v4 )

ライセンス: Link先を確認
Linmei Hu, Zeyi Liu, Ziwang Zhao, Lei Hou, Liqiang Nie, and Juanzi Li(参考訳) 自己教師あり学習法を用いた大規模テキストコーパスで学習する事前学習型言語モデル(plms)は,自然言語処理(nlp)における様々なタスクに有望な性能をもたらす。 しかしながら、膨大なパラメータを持つplmは、大量のトレーニングテキストから学んだ豊富な知識を効果的に保持することができ、微調整段階で下流タスクに役立つが、外部知識の欠如による推論能力の低下など、いくつかの制限がある。 これらの問題に対処するため、PLMに知識を組み込む研究が進められている。 本稿では,知識強化事前学習型言語モデル (ke-plm) の包括的レビューを行い,この発展分野について考察する。 自然言語理解(NLU)と自然言語生成(NLG)にそれぞれ適切な分類法を導入し,これら2つのNLPの課題を強調した。 nluでは、知識の種類を言語知識、テキスト知識、知識グラフ(kg)、ルール知識の4つのカテゴリに分類する。 NLGのKE-PLMは、KGベースと検索ベースに分類される。 最後に,KE-PLMの今後の方向性について述べる。

Pre-trained Language Models (PLMs) which are trained on large text corpus via self-supervised learning method, have yielded promising performance on various tasks in Natural Language Processing (NLP). However, though PLMs with huge parameters can effectively possess rich knowledge learned from massive training text and benefit downstream tasks at the fine-tuning stage, they still have some limitations such as poor reasoning ability due to the lack of external knowledge. Research has been dedicated to incorporating knowledge into PLMs to tackle these issues. In this paper, we present a comprehensive review of Knowledge Enhanced Pre-trained Language Models (KE-PLMs) to provide a clear insight into this thriving field. We introduce appropriate taxonomies respectively for Natural Language Understanding (NLU) and Natural Language Generation (NLG) to highlight these two main tasks of NLP. For NLU, we divide the types of knowledge into four categories: linguistic knowledge, text knowledge, knowledge graph (KG), and rule knowledge. The KE-PLMs for NLG are categorized into KG-based and retrieval-based methods. Finally, we point out some promising future directions of KE-PLMs.
翻訳日:2023-08-31 18:03:57 公開日:2023-08-30
# CLSE:言語学的に重要なエンティティのコーパス

CLSE: Corpus of Linguistically Significant Entities ( http://arxiv.org/abs/2211.02423v2 )

ライセンス: Link先を確認
Aleksandr Chuklin, Justin Zhao, Mihir Kale(参考訳) 自然言語生成(NLG)の最大の課題の1つは、名前付きエンティティの適切な処理である。 名前付きエンティティは、誤った前置詞、間違った記事ハンドリング、誤ったエンティティの反転といった文法上のミスの一般的なソースである。 言語表現を分解しなければ、任意に選択された議論値の小さなセットを評価する場合や、英語のような言語的に単純な言語からロシア語のような言語的に複雑な言語にデータセットを翻訳する場合に、このような誤りは過小評価されることが多い。 しかし、いくつかのアプリケーションでは、広範囲に正確な文法的正しさが不可欠である。 言語学的に多様なNLGデータセットの作成を可能にするため,言語学者が注釈を付けた言語学的意義のコーパス(CLSE)を作成した。 コーパスには34の言語が含まれており、航空券売機からビデオゲームまで様々な用途をサポートする74のセマンティックタイプをカバーしている。 CLSEの1つの可能性を示すために、SGD-CLSEのSchema-Guided Dialog Datasetの拡張版を作成する。 CLSEの実体と少数の人間の翻訳を用いて、言語的に代表されるNLG評価ベンチマークを、フランス語(高資源)、マラティー語(低資源)、ロシア語(高屈折言語)の3言語で作成する。 ニューラルネットワーク,テンプレートベース,ハイブリッドnlgシステムの品質基準を確立し,それぞれのアプローチの長所と短所について論じる。

One of the biggest challenges of natural language generation (NLG) is the proper handling of named entities. Named entities are a common source of grammar mistakes such as wrong prepositions, wrong article handling, or incorrect entity inflection. Without factoring linguistic representation, such errors are often underrepresented when evaluating on a small set of arbitrarily picked argument values, or when translating a dataset from a linguistically simpler language, like English, to a linguistically complex language, like Russian. However, for some applications, broadly precise grammatical correctness is critical -- native speakers may find entity-related grammar errors silly, jarring, or even offensive. To enable the creation of more linguistically diverse NLG datasets, we release a Corpus of Linguistically Significant Entities (CLSE) annotated by linguist experts. The corpus includes 34 languages and covers 74 different semantic types to support various applications from airline ticketing to video games. To demonstrate one possible use of CLSE, we produce an augmented version of the Schema-Guided Dialog Dataset, SGD-CLSE. Using the CLSE's entities and a small number of human translations, we create a linguistically representative NLG evaluation benchmark in three languages: French (high-resource), Marathi (low-resource), and Russian (highly inflected language). We establish quality baselines for neural, template-based, and hybrid NLG systems and discuss the strengths and weaknesses of each approach.
翻訳日:2023-08-31 18:03:38 公開日:2023-08-30
# diffiner:音声強調のための汎用拡散型生成精製器

Diffiner: A Versatile Diffusion-based Generative Refiner for Speech Enhancement ( http://arxiv.org/abs/2210.17287v3 )

ライセンス: Link先を確認
Ryosuke Sawata, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Takashi Shibuya, Shusuke Takahashi and Yuki Mitsufuji(参考訳) ディープニューラルネットワーク(DNN)ベースの音声強調法(SE)は、従来の非DNNベースの手法よりも優れているが、生成された出力の知覚品質を劣化させることが多い。 この問題に対処するために,我々は,SE法で事前処理した知覚音声品質の向上を目的としたDNNベースの生成精細器Diffinerを導入する。 クリーン音声のみからなるデータセットを利用して拡散に基づく生成モデルを訓練する。 そして, 従来のSE法により生じる劣化・歪曲した部分に, 拡散復元によって生成したクリーンな部分を効果的に混合し, 音声を洗練させる。 精製器をクリーンな音声で訓練すると、各SEモジュールに特別な追加の訓練を加えることなく、様々なSEメソッドに適用することができる。 したがって,本手法は多機能な後処理モジュールw.r.t.SE法であり,モジュラリティの面で高い可能性を持つ。 実験の結果,従来のSE手法によらず,知覚音声の質が向上した。

Although deep neural network (DNN)-based speech enhancement (SE) methods outperform the previous non-DNN-based ones, they often degrade the perceptual quality of generated outputs. To tackle this problem, we introduce a DNN-based generative refiner, Diffiner, aiming to improve perceptual speech quality pre-processed by an SE method. We train a diffusion-based generative model by utilizing a dataset consisting of clean speech only. Then, our refiner effectively mixes clean parts newly generated via denoising diffusion restoration into the degraded and distorted parts caused by a preceding SE method, resulting in refined speech. Once our refiner is trained on a set of clean speech, it can be applied to various SE methods without additional training specialized for each SE module. Therefore, our refiner can be a versatile post-processing module w.r.t. SE methods and has high potential in terms of modularity. Experimental results show that our method improved perceptual speech quality regardless of the preceding SE methods used.
翻訳日:2023-08-31 18:03:07 公開日:2023-08-30
# E-MCTS:てんかん不確実性を考慮した計画によるモデルベース強化学習の深層探査

E-MCTS: Deep Exploration in Model-Based Reinforcement Learning by Planning with Epistemic Uncertainty ( http://arxiv.org/abs/2210.13455v3 )

ライセンス: Link先を確認
Yaniv Oren, Matthijs T. J. Spaan and Wendelin B\"ohmer(参考訳) Model-Based Reinforcement Learning (MBRL) で最もよく研究され、高機能な計画手法の1つはモンテカルロ木探索 (MCTS) である。 MCTSをベースとしたMBRL法の主な課題は、未知の状況下での深層探査と信頼性であり、MCTSの予測における原則的疫学的不確実性推定によって両者の課題を緩和することができる。 まず,mctsにおける認識的不確かさを伝達する手法を開発し,その予測における認識的不確かさをエージェントが推定できるようにする。 第2に,新しい深層探査アルゴリズムの伝播不確実性を利用して,探索を明示的に計画する。 このアプローチをmtsベースのmbrlアプローチと学習と提供のダイナミクスモデルに取り入れ,そのアプローチによって達成された認識論的不確実性推定による深い探索を実証的に示す。 本研究は,非計画に基づく深層探査ベースラインと比較し,非計画に基づく深部調査ベンチマークにおいて,MCTSを用いた計画が有意に優れていることを示す。

One of the most well-studied and highly performing planning approaches used in Model-Based Reinforcement Learning (MBRL) is Monte-Carlo Tree Search (MCTS). Key challenges of MCTS-based MBRL methods remain dedicated deep exploration and reliability in the face of the unknown, and both challenges can be alleviated through principled epistemic uncertainty estimation in the predictions of MCTS. We present two main contributions: First, we develop methodology to propagate epistemic uncertainty in MCTS, enabling agents to estimate the epistemic uncertainty in their predictions. Second, we utilize the propagated uncertainty for a novel deep exploration algorithm by explicitly planning to explore. We incorporate our approach into variations of MCTS-based MBRL approaches with learned and provided dynamics models, and empirically show deep exploration through successful epistemic uncertainty estimation achieved by our approach. We compare to a non-planning-based deep-exploration baseline, and demonstrate that planning with epistemic MCTS significantly outperforms non-planning based exploration in the investigated deep exploration benchmark.
翻訳日:2023-08-31 18:02:47 公開日:2023-08-30
# SignReLUニューラルネットワークとその近似能力

SignReLU neural network and its approximation ability ( http://arxiv.org/abs/2210.10264v3 )

ライセンス: Link先を確認
Jianfei Li, Han Feng and Ding-Xuan Zhou(参考訳) 近年、ディープニューラルネットワーク(DNN)は科学やテクノロジーの様々な分野において大きな注目を集めている。 活性化関数は、DNNのニューロンが受信信号をどのように処理するかを定義する。 これらは非線形変換を学習し、連続するニューロン層間で多様な計算を行うために不可欠である。 ここ数年、研究者はDNNの能力と成功を説明するための近似能力を調査してきた。 本稿では,SignReLUと呼ばれる,異なるアクティベーション関数を用いたDNNの近似能力について検討する。 理論的な結果から,SignReLUネットワークは近似性能において合理的およびReLUネットワークよりも優れていた。 SignReLUと既存のアクティベーションであるReLU, LeakyReLU, ELUの比較実験を行い,SignReLUの実用性能について検討した。

Deep neural networks (DNNs) have garnered significant attention in various fields of science and technology in recent years. Activation functions define how neurons in DNNs process incoming signals for them. They are essential for learning non-linear transformations and for performing diverse computations among successive neuron layers. In the last few years, researchers have investigated the approximation ability of DNNs to explain their power and success. In this paper, we explore the approximation ability of DNNs using a different activation function, called SignReLU. Our theoretical results demonstrate that SignReLU networks outperform rational and ReLU networks in terms of approximation performance. Numerical experiments are conducted comparing SignReLU with the existing activations such as ReLU, Leaky ReLU, and ELU, which illustrate the competitive practical performance of SignReLU.
翻訳日:2023-08-31 18:02:27 公開日:2023-08-30
# TriangleNet: クロスタスク一貫性によるセマンティックセグメンテーションのためのエッジ事前拡張ネットワーク

TriangleNet: Edge Prior Augmented Network for Semantic Segmentation through Cross-Task Consistency ( http://arxiv.org/abs/2210.05152v5 )

ライセンス: Link先を確認
Dan Zhang, Rui Zheng, Luosang Gadeng, Pei Yang(参考訳) 本稿では,コンピュータビジョンにおける意味セグメンテーションの課題について述べる。 本稿では,意味的エッジ検出と意味的セグメンテーションのためのモデルの協調トレーニングについて検討する。 しかし、マルチタスクネットワークにおける暗黙のクロスタスク一貫性学習は限られている。 これを解決するために,クロスタスク一貫性を明示的に向上する「分離型クロスタスク一貫性損失」を提案する。 セマンティックセグメンテーションネットワークであるTriangleNetは、Cityscapesテストセット上のIntersection over Union(mIoU)の平均でベースラインよりも2.88倍の大幅な改善を実現しています。 特にTriangleNetは、Cityscapes上で77.4\% mIoU/46.2 FPSで動作し、フル解像度でリアルタイム推論機能を示す。 マルチスケール推論により、パフォーマンスはさらに77.8\%向上する。 さらにTriangleNetは、FloodNetデータセットのBaselineを一貫して上回り、堅牢な一般化機能を示している。 提案手法は,セマンティックセグメンテーションの進行におけるマルチタスク学習の重要性と,セマンティックセグメンテーションにおけるマルチタスクの可能性を強調した。

This paper addresses the task of semantic segmentation in computer vision, aiming to achieve precise pixel-wise classification. We investigate the joint training of models for semantic edge detection and semantic segmentation, which has shown promise. However, implicit cross-task consistency learning in multi-task networks is limited. To address this, we propose a novel "decoupled cross-task consistency loss" that explicitly enhances cross-task consistency. Our semantic segmentation network, TriangleNet, achieves a substantial 2.88\% improvement over the Baseline in mean Intersection over Union (mIoU) on the Cityscapes test set. Notably, TriangleNet operates at 77.4\% mIoU/46.2 FPS on Cityscapes, showcasing real-time inference capabilities at full resolution. With multi-scale inference, performance is further enhanced to 77.8\%. Furthermore, TriangleNet consistently outperforms the Baseline on the FloodNet dataset, demonstrating its robust generalization capabilities. The proposed method underscores the significance of multi-task learning and explicit cross-task consistency enhancement for advancing semantic segmentation and highlights the potential of multitasking in real-time semantic segmentation.
翻訳日:2023-08-31 18:02:12 公開日:2023-08-30
# 自律運転における協調的知覚 : 方法・データセット・課題

Collaborative Perception in Autonomous Driving: Methods, Datasets and Challenges ( http://arxiv.org/abs/2301.06262v4 )

ライセンス: Link先を確認
Yushan Han, Hui Zhang, Huifang Li, Yi Jin, Congyan Lang, Yidong Li(参考訳) 協調認識は、自律運転における閉塞とセンサ障害の問題に対処するために不可欠である。 近年,協調的知覚のための新作の理論的,実験的研究が著しく増加している。 しかし、これまでのところ、体系的なコラボレーションモジュールと大規模な協調認識データセットに焦点を当てたレビューはほとんどない。 この研究は、このギャップを埋め、将来の研究を動機付けるために、この分野における最近の成果をレビューする。 まずは、コラボレーションスキームの概要から始めます。 その後,理想的シナリオと実世界の課題に対する協調的知覚手法を体系的に要約する。 前者はコラボレーションモジュールと効率に重点を置いており、後者は実際のアプリケーションの問題に対処する。 さらに, 大規模公開データセットを提示し, これらのベンチマークを定量的に要約する。 最後に,現在の学術研究と実世界の応用とのギャップと課題を強調する。 プロジェクトページはhttps://github.com/catonetwo/collaborative-perception-in-autonomous-driving。

Collaborative perception is essential to address occlusion and sensor failure issues in autonomous driving. In recent years, theoretical and experimental investigations of novel works for collaborative perception have increased tremendously. So far, however, few reviews have focused on systematical collaboration modules and large-scale collaborative perception datasets. This work reviews recent achievements in this field to bridge this gap and motivate future research. We start with a brief overview of collaboration schemes. After that, we systematically summarize the collaborative perception methods for ideal scenarios and real-world issues. The former focuses on collaboration modules and efficiency, and the latter is devoted to addressing the problems in actual application. Furthermore, we present large-scale public datasets and summarize quantitative results on these benchmarks. Finally, we highlight gaps and overlook challenges between current academic research and real-world applications. The project page is https://github.com/CatOneTwo/Collaborative-Perception-in-Autonomous-Driving
翻訳日:2023-08-31 17:54:13 公開日:2023-08-30
# データフロー解析に基づく高速脆弱性検出のためのディープラーニング

Dataflow Analysis-Inspired Deep Learning for Efficient Vulnerability Detection ( http://arxiv.org/abs/2212.08108v2 )

ライセンス: Link先を確認
Benjamin Steenhoek, Hongyang Gao, and Wei Le(参考訳) ディープラーニングベースの脆弱性検出は優れたパフォーマンスを示しており、いくつかの研究では静的解析ツールよりも優れています。 しかし、最もパフォーマンスの高いアプローチはトークンベースのトランスフォーマーモデルを使用しており、脆弱性検出に必要なコードセマンティクスをキャプチャするのに最も効率的ではない。 データフロー分析のような古典的なプログラム分析技術は、その根本原因に基づいて多くの種類のバグを検出することができる。 本稿では,このような因果的脆弱性検出アルゴリズムをディープラーニングと組み合わせ,より効率的かつ効果的な脆弱性検出を実現することを目的とする。 具体的には、データフロー分析に触発されたグラフ学習フレームワークであるdeepdfaと、グラフ学習によってデータフロー計算をシミュレートする埋め込み技術を設計した。 DeepDFAはパフォーマンスと効率が両立していることを示す。 DeepDFAはすべての非トランスフォーマーベースラインを上回った。 最高性能のベースラインモデルより75倍速く、9分で訓練された。 トレーニングデータとして50以上の脆弱性と数百のサンプルを使用する場合、モデルはデータセットの100%と同じパフォーマンスを維持した。 DeepDFAはまた、DBGBenchの現実世界の脆弱性を一般化し、フォールド全体の17の脆弱性のうち8.7を検知し、パッチとバグの多いバージョンを区別することができた。 deepdfaを大規模言語モデルと組み合わせることで,96.46 f1スコア,97.82精度,95.14リコールという,big-vulデータセットの最先端脆弱性検出性能を上回った。 私たちの複製パッケージはhttps://figshare.com/s/e7953b4d345b00990d17にあります。

Deep learning-based vulnerability detection has shown great performance and, in some studies, outperformed static analysis tools. However, the highest-performing approaches use token-based transformer models, which are not the most efficient to capture code semantics required for vulnerability detection. Classical program analysis techniques such as dataflow analysis can detect many types of bugs based on their root causes. In this paper, we propose to combine such causal-based vulnerability detection algorithms with deep learning, aiming to achieve more efficient and effective vulnerability detection. Specifically, we designed DeepDFA, a dataflow analysis-inspired graph learning framework and an embedding technique that enables graph learning to simulate dataflow computation. We show that DeepDFA is both performant and efficient. DeepDFA outperformed all non-transformer baselines. It was trained in 9 minutes, 75x faster than the highest-performing baseline model. When using only 50+ vulnerable and several hundreds of total examples as training data, the model retained the same performance as 100% of the dataset. DeepDFA also generalized to real-world vulnerabilities in DBGBench; it detected 8.7 out of 17 vulnerabilities on average across folds and was able to distinguish between patched and buggy versions, while the highest-performing baseline models did not detect any vulnerabilities. By combining DeepDFA with a large language model, we surpassed the state-of-the-art vulnerability detection performance on the Big-Vul dataset with 96.46 F1 score, 97.82 precision, and 95.14 recall. Our replication package is located at https://figshare.com/s/e7953b4d345b00990d17.
翻訳日:2023-08-31 17:53:37 公開日:2023-08-30
# ランダム化測定による量子相関の完全キャラクタリゼーション

Complete characterization of quantum correlations by randomized measurements ( http://arxiv.org/abs/2212.07894v2 )

ライセンス: Link先を確認
Nikolai Wyderka, Andreas Ketterer, Satoya Imai, Jan Lennart B\"onsel, Daniel E. Jones, Brian T. Kirby, Xiao-Dong Yu, Otfried G\"uhne(参考訳) 量子力学が古典物理学よりも強い相関を予測するという事実は、量子情報処理の重要な基礎である。 実際、これらの量子相関は、量子鍵分布や量子テレポーテーションのような様々なタスクに有用なリソースであるが、実験環境でこれらの相関を特徴付けることは、特に共有参照フレームが利用できないシナリオにおいて、恐ろしいタスクである。 定義によれば、量子相関は参照フレーム独立、すなわち局所変換の下で不変であり、この物理的に動機づけられた不変性は、しかしながら、専用の数学的構造を意味し、したがってこれらの相関を効率的に分析するためのブロックを構成する。 本稿では,量子状態の局所的不変特性を局所ランダム化測定を用いて直接測定する手法を提案し,これらの相関を2つの量子ビットに対して解析するための詳細なツールボックスを提案する。 量子テレポーテーションの有用性と、最も単純な形で量子非局所性を示すポテンシャルを特徴付けるために、束縛された光子対を用いてこれらの手法を実験的に実装する。 この結果は様々な量子コンピューティングプラットフォームに適用でき、アーキテクチャ内の任意の量子ビット間の相関関係を簡単に解析できる。

The fact that quantum mechanics predicts stronger correlations than classical physics is an essential cornerstone of quantum information processing. Indeed, these quantum correlations are a valuable resource for various tasks, such as quantum key distribution or quantum teleportation, but characterizing these correlations in an experimental setting is a formidable task, especially in scenarios where no shared reference frames are available. By definition, quantum correlations are reference-frame independent, i.e., invariant under local transformations; this physically motivated invariance implies, however, a dedicated mathematical structure and, therefore, constitutes a roadblock for an efficient analysis of these correlations in experiments. Here we provide a method to directly measure any locally invariant property of quantum states using locally randomized measurements, and we present a detailed toolbox to analyze these correlations for two quantum bits. We implement these methods experimentally using pairs of entangled photons, characterizing their usefulness for quantum teleportation and their potential to display quantum nonlocality in its simplest form. Our results can be applied to various quantum computing platforms, allowing simple analysis of correlations between arbitrary distant qubits in the architecture.
翻訳日:2023-08-31 17:53:08 公開日:2023-08-30
# バイオインスパイア学習はバックプロップより優れているか? バイオラーニングとバックプロップの比較

Is Bio-Inspired Learning Better than Backprop? Benchmarking Bio Learning vs. Backprop ( http://arxiv.org/abs/2212.04614v4 )

ライセンス: Link先を確認
Manas Gupta, Sarthak Ketanbhai Modi, Hang Zhang, Joon Hei Lee, Joo Hwee Lim(参考訳) 近年,バックプロパゲーション(bp)が生物学的に有望ではないことから,バイオインスパイアされた学習が普及している。 BPよりも生物学的に妥当な多くのアルゴリズムが文献で提案されている。 しかし、BPの生物学的不確実性を克服する以外に、バイオインスパイアされたアルゴリズムを使用する強い動機が欠けている。 本研究では,BPと複数のバイオインスパイアされたアルゴリズムを総合的に比較し,バイオラーニングがBPにさらなるメリットをもたらすかどうかを問う。 我々は,部分的なトレーニングデータのみへのアクセス,トレーニング回数の制約,ニューラルネットワークパラメータのスパース化,入力サンプルへのノイズの追加など,さまざまな設計選択の下でバイオアルゴリズムをテストする。 これらの実験により, BP に対するバイオアルゴリズムの2つの重要な利点が明らかとなった。 まず、トレーニングデータセット全体が提供されない場合、バイオアルゴリズムはBPよりもはるかに優れている。 5つのBio-algorithmのうち4つは、トレーニングデータセットの20%しか利用できない場合、BPを最大5%精度で上回った。 第二に、完全なデータセットが利用可能である場合でも、バイオアルゴリズムはより早く学習し、BPよりもはるかに少ないトレーニングエポックにおいて安定した精度に収束する。 特にヘビー学習は、bpが要求する約100エポックに対して、わずか5エポックで学習することができる。 これらの知見は, バイオラーニングの実践的理由として, 生物学的妥当性だけでなく, 今後のバイオラーニング研究の新たな方向性を示唆している。

Bio-inspired learning has been gaining popularity recently given that Backpropagation (BP) is not considered biologically plausible. Many algorithms have been proposed in the literature which are all more biologically plausible than BP. However, apart from overcoming the biological implausibility of BP, a strong motivation for using Bio-inspired algorithms remains lacking. In this study, we undertake a holistic comparison of BP vs. multiple Bio-inspired algorithms to answer the question of whether Bio-learning offers additional benefits over BP. We test Bio-algorithms under different design choices such as access to only partial training data, resource constraints in terms of the number of training epochs, sparsification of the neural network parameters and addition of noise to input samples. Through these experiments, we notably find two key advantages of Bio-algorithms over BP. Firstly, Bio-algorithms perform much better than BP when the entire training dataset is not supplied. Four of the five Bio-algorithms tested outperform BP by upto 5% accuracy when only 20% of the training dataset is available. Secondly, even when the full dataset is available, Bio-algorithms learn much quicker and converge to a stable accuracy in far lesser training epochs than BP. Hebbian learning, specifically, is able to learn in just 5 epochs compared to around 100 epochs required by BP. These insights present practical reasons for utilising Bio-learning beyond just their biological plausibility and also point towards interesting new directions for future work on Bio-learning.
翻訳日:2023-08-31 17:52:42 公開日:2023-08-30
# FineDance:3Dフルボディダンス生成のための微粒なコレオグラフィーデータセット

FineDance: A Fine-grained Choreography Dataset for 3D Full Body Dance Generation ( http://arxiv.org/abs/2212.03741v4 )

ライセンス: Link先を確認
Ronghui Li, Junfan Zhao, Yachao Zhang, Mingyang Su, Zeping Ren, Han Zhang, Yansong Tang, Xiu Li(参考訳) 既存のデータセットの制限や細かな手の動きやダンスのジャンルに固有の複雑さがあるため、与えられた音楽から全身および多ジャンルのダンスシーケンスを生成することは難しい課題である。 これらの問題に対処するため、細粒度ハンドモーション、きめ細かいジャンル(22のダンスジャンル)、正確な姿勢の14.6時間ペアデータを含むファインダンスを提案する。 われわれの知る限りでは、FineDanceはダンスのジャンルで最大の音楽とダンスのペアリングデータセットだ。 また,従来手法で存在した単調・不自然な手の動きに対処するため,拡散モデルの多彩な生成機能を利用して単調な問題を解決するフルボディダンス生成ネットワークを提案し,エキスパートネットを用いて非現実的な問題を解決する。 生成したダンスのジャンルマッチングと長期的安定性をさらに向上するため,Genre&Coherent aware Retrieval Moduleを提案する。 また,ダンスと音楽のジャンルマッチング度を評価するために,ジャンルマッチングスコアという新しい指標を提案する。 定量的および定性的な実験は、ファインダンスの品質とファインネットの最先端性能を示す。 FineDance Datasetや他の定性的なサンプルは、私たちのWebサイトにある。

Generating full-body and multi-genre dance sequences from given music is a challenging task, due to the limitations of existing datasets and the inherent complexity of the fine-grained hand motion and dance genres. To address these problems, we propose FineDance, which contains 14.6 hours of music-dance paired data, with fine-grained hand motions, fine-grained genres (22 dance genres), and accurate posture. To the best of our knowledge, FineDance is the largest music-dance paired dataset with the most dance genres. Additionally, to address monotonous and unnatural hand movements existing in previous methods, we propose a full-body dance generation network, which utilizes the diverse generation capabilities of the diffusion model to solve monotonous problems, and use expert nets to solve unreal problems. To further enhance the genre-matching and long-term stability of generated dances, we propose a Genre&Coherent aware Retrieval Module. Besides, we propose a novel metric named Genre Matching Score to evaluate the genre-matching degree between dance and music. Quantitative and qualitative experiments demonstrate the quality of FineDance, and the state-of-the-art performance of FineNet. The FineDance Dataset and more qualitative samples can be found at our website.
翻訳日:2023-08-31 17:52:16 公開日:2023-08-30
# 指数関数的に成長する普遍量子回路の族

An exponentially-growing family of universal quantum circuits ( http://arxiv.org/abs/2212.00736v3 )

ライセンス: Link先を確認
Mo Kordzanganeh, Pavel Sekatski, Leonid Fedichkin, Alexey Melnikov(参考訳) 量子機械学習は関心が高まりつつあるが、理論上はハードウェア固有の制限がある。 特に、勾配の消失(不毛高原)の問題により、量子ビット数の高い回路ではトレーニングが不可能となり、データサイエンティストが問題解決に使用できる量子ビットの数に制限が課される。 独立に、アングル埋め込みされた教師付き量子ニューラルネットワークは、エンコーディングの深さとエンコーディングが適用される並列量子ビットの数という2つの要因に直接依存する次数を持つ切断されたフーリエ級数を生成することを示した。 フーリエ級数の次数はモデル表現性を制限する。 この研究は、シーケンシャルおよび並列な指数量子機械学習アーキテクチャであるフーリエ次数が指数関数的に増加する2つの新しいアーキテクチャを導入している。 これは、エンコーディング時に利用可能なヒルベルト空間を効率的に使用し、量子エンコーディングの表現性を高めることによって行われる。 したがって、指数的成長は低ビットの極限に留まり、バレンプラトーを避けるために非常に表現性の高い回路を作ることができる。 実際、並列指数型アーキテクチャは1次元のテスト問題において、最終的な平均2乗誤差値を44.7%まで削減することで、既存の線形アーキテクチャよりも優れていることを示した。 さらに, 閉じ込められたイオン量子処理装置において, この手法の実現可能性を示した。

Quantum machine learning has become an area of growing interest but has certain theoretical and hardware-specific limitations. Notably, the problem of vanishing gradients, or barren plateaus, renders the training impossible for circuits with high qubit counts, imposing a limit on the number of qubits that data scientists can use for solving problems. Independently, angle-embedded supervised quantum neural networks were shown to produce truncated Fourier series with a degree directly dependent on two factors: the depth of the encoding and the number of parallel qubits the encoding applied to. The degree of the Fourier series limits the model expressivity. This work introduces two new architectures whose Fourier degrees grow exponentially: the sequential and parallel exponential quantum machine learning architectures. This is done by efficiently using the available Hilbert space when encoding, increasing the expressivity of the quantum encoding. Therefore, the exponential growth allows staying at the low-qubit limit to create highly expressive circuits avoiding barren plateaus. Practically, parallel exponential architecture was shown to outperform the existing linear architectures by reducing their final mean square error value by up to 44.7% in a one-dimensional test problem. Furthermore, the feasibility of this technique was also shown on a trapped ion quantum processing unit.
翻訳日:2023-08-31 17:51:55 公開日:2023-08-30
# 多人数テレポーテーション能力に基づく遺伝子多部絡み合い対策

Genuine multipartite entanglement measures based on multi-party teleportation capability ( http://arxiv.org/abs/2211.15986v2 )

ライセンス: Link先を確認
Minjin Choi, Eunok Bae, and Soojoon Lee(参考訳) 量子情報処理において、絡み合いを資源として理解するには絡み合いの定量化が不可欠であり、この目的のために多くの絡み合い対策が提案されている。 エンタングルメント測度を数学的に定義する場合、エンタングル状態と分離状態の区別可能性、局所変換による不変性、局所操作と古典的通信による単調性、凸性を考える必要がある。 これらは合理的な要件であるが、特にマルチパーティの量子情報処理における量子状態の有用性を考慮すると不十分である。 したがって、多成分絡み合いを資源として検討する場合、多成分絡み合い測度を定義する際に、多成分量子情報処理における量子状態の有用性を検討する必要がある。 本稿では,3 ビットのテレポーテーション能力に基づく3 ビットシステムに対する新しいマルチパーティ・エンタングルメント対策を定義し,これらのエンタングルメント対策が真のマルチパーティ・エンタングルメント対策の要件を満たすことを示す。 また、$N$-qubit 系の絡み合い対策を一般化し、$N \ge 4$ とし、これらの量が真の多部絡み合いを測定するのに良い候補である可能性について論じる。

Quantifying entanglement is vital to understand entanglement as a resource in quantum information processing, and many entanglement measures have been suggested for this purpose. When mathematically defining an entanglement measure, we should consider the distinguishability between entangled and separable states, the invariance under local transformation, the monotonicity under local operations and classical communication, and the convexity. These are reasonable requirements but may be insufficient, in particular when taking into account the usefulness of quantum states in multi-party quantum information processing. Therefore, if we want to investigate multipartite entanglement as a resource, then it can be necessary to consider the usefulness of quantum states in multi-party quantum information processing when we define a multipartite entanglement measure. In this paper, we define new multipartite entanglement measures for three-qubit systems based on the three-party teleportation capability, and show that these entanglement measures satisfy the requirements for being genuine multipartite entanglement measures. We also generalize our entanglement measures for $N$-qubit systems, where $N \ge 4$, and discuss that these quantities may be good candidates to measure genuine multipartite entanglement.
翻訳日:2023-08-31 17:51:31 公開日:2023-08-30
# ランダムディザリングを用いた量子化低ランク多変量回帰

Quantized Low-Rank Multivariate Regression with Random Dithering ( http://arxiv.org/abs/2302.11197v2 )

ライセンス: Link先を確認
Junren Chen, Yueqi Wang, Michael K. Ng(参考訳) 低ランク多変量回帰(LRMR)は,多応答回帰問題として高相関なタスクと,係数行列上の低ランク優先問題を組み合わせた重要な統計学習モデルである。 本稿では,応答および/または共変量が有限精度に離散化される実測的なLRMRについて検討する。 基礎となる係数行列の推定に焦点をあてる。 任意に小さい誤差を許容できる一貫した推定器を実現するために、ランダムディザリングを伴う一様量子化、すなわち量子化前に適切なランダムノイズをデータに追加する。 特に、一様ディザーと三角形ディザーは、それぞれ応答と共変量に使用される。 量子化データに基づいて、制約付きラッソおよび正規化ラッソ推定器を提案し、非漸近誤差境界を導出する。 ディザリングの助けを借りて、推定子は最小値の最適率を達成する一方、量子化は誤差率の乗算係数をわずかに悪化させる。 さらに, 行列応答を持つ低ランク回帰モデルに結果を拡張した。 合成データや画像復元のシミュレーションによって, 理論的結果と相関し, 実証する。

Low-rank multivariate regression (LRMR) is an important statistical learning model that combines highly correlated tasks as a multiresponse regression problem with low-rank priori on the coefficient matrix. In this paper, we study quantized LRMR, a practical setting where the responses and/or the covariates are discretized to finite precision. We focus on the estimation of the underlying coefficient matrix. To make consistent estimator that could achieve arbitrarily small error possible, we employ uniform quantization with random dithering, i.e., we add appropriate random noise to the data before quantization. Specifically, uniform dither and triangular dither are used for responses and covariates, respectively. Based on the quantized data, we propose the constrained Lasso and regularized Lasso estimators, and derive the non-asymptotic error bounds. With the aid of dithering, the estimators achieve minimax optimal rate, while quantization only slightly worsens the multiplicative factor in the error rate. Moreover, we extend our results to a low-rank regression model with matrix responses. We corroborate and demonstrate our theoretical results via simulations on synthetic data or image restoration.
翻訳日:2023-08-31 17:44:20 公開日:2023-08-30
# G-Signatures: ランダムな署名によるグローバルグラフの伝播

G-Signatures: Global Graph Propagation With Randomized Signatures ( http://arxiv.org/abs/2302.08811v2 )

ライセンス: Link先を確認
Bernhard Sch\"afl, Lukas Gruber, Johannes Brandstetter, Sepp Hochreiter(参考訳) グラフニューラルネットワーク(gnns)は、最も人気のあるディープラーニングアーキテクチャの1つに進化した。 しかし、GNNは過度に滑らかなノード情報に悩まされており、グローバルグラフ特性が関係するタスクの解決に苦慮している。 ランダム化シグネチャによるグローバルグラフの伝播を可能にする新しいグラフ学習手法であるG-Signaturesを紹介する。 g-signaturesは新しいグラフ変換概念を使用して、潜在空間のパスとして解釈可能なグラフ構造化情報を埋め込む。 さらに、潜時空間経路マッピングの考え方を紹介する。 これにより、潜在空間パスを反復的に横断し、情報をグローバルに処理することができる。 G-Signaturesはグローバルグラフ特性の抽出と処理に優れ、大きなグラフ問題に効果的にスケールする。 経験的に、いくつかの分類および回帰タスクにおけるG-Signaturesの利点を確認する。

Graph neural networks (GNNs) have evolved into one of the most popular deep learning architectures. However, GNNs suffer from over-smoothing node information and, therefore, struggle to solve tasks where global graph properties are relevant. We introduce G-Signatures, a novel graph learning method that enables global graph propagation via randomized signatures. G-Signatures use a new graph conversion concept to embed graph structured information which can be interpreted as paths in latent space. We further introduce the idea of latent space path mapping. This allows us to iteratively traverse latent space paths, and, thus globally process information. G-Signatures excel at extracting and processing global graph properties, and effectively scale to large graph problems. Empirically, we confirm the advantages of G-Signatures at several classification and regression tasks.
翻訳日:2023-08-31 17:43:58 公開日:2023-08-30
# ボソニックジョセフソン接合における量子効果の解法--動的多元構成原子コヒーレント状態のアプローチ

Unraveling of quantum effects in bosonic Josephson junctions: a dynamical multi-configuration atomic coherent states approach ( http://arxiv.org/abs/2302.05349v2 )

ライセンス: Link先を確認
Yulong Qiao and Frank Grossmann(参考訳) 2サイトBose-Hubbard系に対する平均場アプローチは十分に確立されており、人口不均衡と位相差に対する非線形古典的な運動方程式をもたらす。 できる、e。 g. 一つのグラウバー状態または有限系において、単一の原子(su(2))一般化コヒーレント状態 [s. wimberger et al., phys. rev. a 103, 023326 (2021)] による時間依存シュロディンガー方程式の解の表現に基づいている。 平均場を超えた量子効果が容易に発見できることを示し、代わりに、時間依存の SU(2) 基底関数を持つ多重構成アンサッツが変分原理で用いられる。 プラズマ振動の場合、2つの時間依存基底状態を用いることで、数値的に正確な量子解を持つ位相空間力学の質的整合性が得られる。 自発対称性の破れやマクロ的な量子自己トラップのようなより非自明なダイナミクスを正しく説明するためには、より多くの基底状態が必要である。

The mean-field approach to two-site Bose-Hubbard systems is well established and leads to nonlinear classical equations of motion for the population imbalance and the phase difference. It can, e. g., be based on the representation of the solution of the time-dependent Schrodinger equation either by a single Glauber state or, for finite systems, by a single atomic (SU(2)) generalized coherent state [S. Wimberger et al., Phys. Rev. A 103, 023326 (2021)]. We demonstrate that quantum effects beyond mean field are easily uncovered if, instead, a multi-configuration ansatz with a few time-dependent SU(2) basis functions is used in the variational principle. For the case of plasma oscillations, the use of just two time-dependent basis states can already give good qualitative agreement of the phase space dynamics with numerically exact quantum solutions. In order to correctly account for more non-trivial dynamics, like spontaneous symmetry breaking as well as macroscopic quantum self trapping, more basis states are needed.
翻訳日:2023-08-31 17:43:46 公開日:2023-08-30
# 大規模言語モデルによる信頼性の高い自然言語理解と解答集合プログラミング

Reliable Natural Language Understanding with Large Language Models and Answer Set Programming ( http://arxiv.org/abs/2302.03780v3 )

ライセンス: Link先を確認
Abhiramon Rajasekharan (The University of Texas at Dallas), Yankai Zeng (The University of Texas at Dallas), Parth Padalkar (The University of Texas at Dallas), Gopal Gupta (The University of Texas at Dallas)(参考訳) 人間は、文から情報(意味)を抽出し、既存の常識知識と組み合わせ、結論を引き出す推論を行うことで言語を理解する。 GPT-3やChatGPTのような大きな言語モデル(LLM)は、テキストのパターンを利用して様々なNLPタスクを解くことができるが、推論を必要とする問題では不足している。 また、与えられた質問に対する回答を確実に説明できない。 我々は,人間をよりよくエミュレートするために,llmと解集合プログラミング(asp)を組み合わせたフレームワークstarを提案する。 LLMが言語から知識(述語として表される)を効果的に抽出する方法を示す。 目標指向のaspは、この知識を確実に推論するために使用される。 定性推論,数学的推論,目標指向会話という3つのNLUタスクにSTARフレームワークを適用した。 我々の実験により、starはnluタスクにおける推論のギャップを埋めることができ、特により小さなllm、すなわちより少ないパラメータのllmにおいて、パフォーマンスが大幅に向上することが明らかとなった。 star frameworkを使って開発されたnluアプリケーションも説明可能である。 生成された述語とともに、与えられた出力のために証明ツリーの形式による正当化が作成できる。

Humans understand language by extracting information (meaning) from sentences, combining it with existing commonsense knowledge, and then performing reasoning to draw conclusions. While large language models (LLMs) such as GPT-3 and ChatGPT are able to leverage patterns in the text to solve a variety of NLP tasks, they fall short in problems that require reasoning. They also cannot reliably explain the answers generated for a given question. In order to emulate humans better, we propose STAR, a framework that combines LLMs with Answer Set Programming (ASP). We show how LLMs can be used to effectively extract knowledge -- represented as predicates -- from language. Goal-directed ASP is then employed to reliably reason over this knowledge. We apply the STAR framework to three different NLU tasks requiring reasoning: qualitative reasoning, mathematical reasoning, and goal-directed conversation. Our experiments reveal that STAR is able to bridge the gap of reasoning in NLU tasks, leading to significant performance improvements, especially for smaller LLMs, i.e., LLMs with a smaller number of parameters. NLU applications developed using the STAR framework are also explainable: along with the predicates generated, a justification in the form of a proof tree can be produced for a given output.
翻訳日:2023-08-31 17:43:23 公開日:2023-08-30
# エイリアンのコーディング

Alien Coding ( http://arxiv.org/abs/2301.11479v2 )

ライセンス: Link先を確認
Thibault Gauthier, Miroslav Ol\v{s}\'ak and Josef Urban(参考訳) OEISシーケンスのプログラムを合成するための自己学習アルゴリズムを提案する。 アルゴリズムはスクラッチから始まり、最初ランダムにプログラムを生成する。 そして、インターリーブする自己学習ループの多くのイテレーションを実行する。 一 これまでに発見されたシーケンスとプログラムの対応を学習するための神経機械翻訳の訓練 (II) 訓練されたニューラルマシントランスレータを用いて, 各OEIS配列に新しいプログラムを多数提案する。 このアルゴリズムは、78000以上のOEISシーケンスに対して独自のプログラムを発見し、時には異常なプログラミング手法を開発する。 その動作とプログラムの発明をいくつかの実験で分析した。

We introduce a self-learning algorithm for synthesizing programs for OEIS sequences. The algorithm starts from scratch initially generating programs at random. Then it runs many iterations of a self-learning loop that interleaves (i) training neural machine translation to learn the correspondence between sequences and the programs discovered so far, and (ii) proposing many new programs for each OEIS sequence by the trained neural machine translator. The algorithm discovers on its own programs for more than 78000 OEIS sequences, sometimes developing unusual programming methods. We analyze its behavior and the invented programs in several experiments.
翻訳日:2023-08-31 17:42:45 公開日:2023-08-30
# マルチラベル画像分類のための識別器非教師なし領域適応

Discriminator-free Unsupervised Domain Adaptation for Multi-label Image Classification ( http://arxiv.org/abs/2301.10611v2 )

ライセンス: Link先を確認
Indel Pal Singh, Enjie Ghorbel, Anis Kacem, Arunkumar Rathinam and Djamila Aouada(参考訳) 本稿では、DDA-MLICと呼ばれるマルチラベル画像分類(MLIC)のための識別器のない非教師付きドメイン適応(UDA)を提案する。 近年,MLIC の文脈において,敵対的 UDA 手法を導入する試みが行われている。 しかし、追加の判別子サブネットに依存するこれらのメソッドは、1つの大きな欠点を示している。 ドメイン不変の特徴の学習は、分類と識別タスクが分離されるため、タスク固有の識別力を傷つける可能性がある。 そこで本研究では,タスク固有分類器から直接推論される新たな逆批判を導入することで,この問題を克服することを提案する。 具体的には、2成分ガウス混合モデル(GMM)を2つのクラスタを区別するために、ソースとターゲット予測に装着する。 これにより各成分に対してガウス分布を抽出できる。 結果のガウス分布は、フレシェ距離に基づいて逆損失を定式化するために用いられる。 提案手法は3種類の異なる領域シフトをカバーする複数のマルチラベル画像データセット上で評価される。 その結果,DDA-MLICは,パラメータの少ない精度で既存の最先端手法よりも優れていた。 コードはオンラインで公開されている。

In this paper, a discriminator-free adversarial-based Unsupervised Domain Adaptation (UDA) for Multi-Label Image Classification (MLIC) referred to as DDA-MLIC is proposed. Recently, some attempts have been made for introducing adversarial-based UDA methods in the context of MLIC. However, these methods which rely on an additional discriminator subnet present one major shortcoming. The learning of domain-invariant features may harm their task-specific discriminative power, since the classification and discrimination tasks are decoupled. Herein, we propose to overcome this issue by introducing a novel adversarial critic that is directly deduced from the task-specific classifier. Specifically, a two-component Gaussian Mixture Model (GMM) is fitted on the source and target predictions in order to distinguish between two clusters. This allows extracting a Gaussian distribution for each component. The resulting Gaussian distributions are then used for formulating an adversarial loss based on a Frechet distance. The proposed method is evaluated on several multi-label image datasets covering three different types of domain shift. The obtained results demonstrate that DDA-MLIC outperforms existing state-of-the-art methods in terms of precision while requiring a lower number of parameters. The code will be made publicly available online.
翻訳日:2023-08-31 17:42:16 公開日:2023-08-30
# マルチエージェント強化学習による社会的ジレンマにおけるモラル選択のモデル化

Modeling Moral Choices in Social Dilemmas with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2301.08491v3 )

ライセンス: Link先を確認
Elizaveta Tennant, Stephen Hailes, Mirco Musolesi(参考訳) 現実世界における人工知能(AI)の実践的利用は、知的エージェントに道徳的選択を埋め込むことの重要性を証明している。 彼らはまた、AI上のトップダウンの倫理的制約を、あらゆる種類の道徳性に従って定義することは極めて困難であり、リスクをもたらす可能性があることも強調した。 ボトムアップ学習アプローチは、AIエージェントの倫理行動の研究と開発にもっと適しているかもしれない。 特に、興味深く洞察に富んだ出発点は、社会的ジレンマにおける道徳的報酬のセットに従って行動する強化学習(RL)エージェントの創発的行動の分析であると考えている。 本稿では,道徳理論に基づく報酬を内在的に動機づけたRLエージェントによる選択の体系的分析を行う。 我々は、一連の重要な倫理体系を単純化しつつも代表する報酬構造を設計することを目指している。 そこで、まず、結果に基づくエージェントと規範に基づくエージェントを区別する道徳的報酬関数を定義し、社会的な規範や内面的な徳に基づく道徳と、単一と混成の方法論(例えば、多目的)をそれぞれ定義する。 そこで我々は,3つの反復的ソーシャルジレンマゲーム (Prisoner's Dilemma, Volunteer's Dilemma, Stag Hunt) において,モラルエージェント間の反復的対話をモデル化して評価した。 我々は、異なるタイプの道徳が協力の出現、欠陥、搾取、およびそれに対応する社会的成果に与える影響を分析する。 最後に,これらの知見が人工・混在型AI社会におけるモラルエージェントの発達に与える影響について考察する。

Practical uses of Artificial Intelligence (AI) in the real world have demonstrated the importance of embedding moral choices into intelligent agents. They have also highlighted that defining top-down ethical constraints on AI according to any one type of morality is extremely challenging and can pose risks. A bottom-up learning approach may be more appropriate for studying and developing ethical behavior in AI agents. In particular, we believe that an interesting and insightful starting point is the analysis of emergent behavior of Reinforcement Learning (RL) agents that act according to a predefined set of moral rewards in social dilemmas. In this work, we present a systematic analysis of the choices made by intrinsically-motivated RL agents whose rewards are based on moral theories. We aim to design reward structures that are simplified yet representative of a set of key ethical systems. Therefore, we first define moral reward functions that distinguish between consequence- and norm-based agents, between morality based on societal norms or internal virtues, and between single- and mixed-virtue (e.g., multi-objective) methodologies. Then, we evaluate our approach by modeling repeated dyadic interactions between learning moral agents in three iterated social dilemma games (Prisoner's Dilemma, Volunteer's Dilemma and Stag Hunt). We analyze the impact of different types of morality on the emergence of cooperation, defection or exploitation, and the corresponding social outcomes. Finally, we discuss the implications of these findings for the development of moral agents in artificial and mixed human-AI societies.
翻訳日:2023-08-31 17:41:59 公開日:2023-08-30
# WDiscOOD:白線分別分析による分布外検出

WDiscOOD: Out-of-Distribution Detection via Whitened Linear Discriminant Analysis ( http://arxiv.org/abs/2303.07543v4 )

ライセンス: Link先を確認
Yiye Chen, Yunzhi Lin, Ruinian Xu, Patricio A. Vela(参考訳) ディープニューラルネットワークは、既知の概念を超えたデータで提示された場合、自信過剰だが誤った予測を生じやすい。 この課題は、オープンワールドにおけるアウト・オブ・ディストリビューション(OOD)サンプルの検出の重要性を浮き彫りにする。 本研究では,クラス固有情報とクラス非依存情報に基づく特徴空間OOD検出スコアを提案する。 具体的には、ホワイトド線形判別分析を用いて特徴を2つの部分空間(識別空間と残留部分空間)に投影し、各クラスが最大に分離され、密集する。 OODスコアは、入力データから両方のサブスペース内のIDパターンへのずれを結合して決定される。 提案手法の有効性は,大規模なImageNet-1kベンチマークで検証され,6つのOODデータセットが分散シフトをカバーしている。 wdiscoodはcnnやvision transformerなど、さまざまなバックボーンアーキテクチャを備えた深い分類器で優れたパフォーマンスを示している。 さらに、wdiscoodは、教師付きコントラスト損失やマルチモダリティコントラスト損失を含む、コントラスト目的で訓練された表現空間における新しい概念をより効果的に検出する。

Deep neural networks are susceptible to generating overconfident yet erroneous predictions when presented with data beyond known concepts. This challenge underscores the importance of detecting out-of-distribution (OOD) samples in the open world. In this work, we propose a novel feature-space OOD detection score based on class-specific and class-agnostic information. Specifically, the approach utilizes Whitened Linear Discriminant Analysis to project features into two subspaces - the discriminative and residual subspaces - for which the in-distribution (ID) classes are maximally separated and closely clustered, respectively. The OOD score is then determined by combining the deviation from the input data to the ID pattern in both subspaces. The efficacy of our method, named WDiscOOD, is verified on the large-scale ImageNet-1k benchmark, with six OOD datasets that cover a variety of distribution shifts. WDiscOOD demonstrates superior performance on deep classifiers with diverse backbone architectures, including CNN and vision transformer. Furthermore, we also show that WDiscOOD more effectively detects novel concepts in representation spaces trained with contrastive objectives, including supervised contrastive loss and multi-modality contrastive loss.
翻訳日:2023-08-31 17:33:43 公開日:2023-08-30
# シーン:モデルに基づくディープビデオ圧縮

Scene Matters: Model-based Deep Video Compression ( http://arxiv.org/abs/2303.04557v2 )

ライセンス: Link先を確認
Lv Tang, Xinfeng Zhang, Gai Zhang and Xiaoqi Ma(参考訳) ビデオ圧縮は常に人気のある研究分野であり、多くの伝統的なディープビデオ圧縮法が提案されている。 これらの方法は典型的には信号予測理論を利用して圧縮性能を高め、高効率な内部および間予測戦略を設計し、ビデオフレームを1つずつ圧縮する。 本稿では,シーンを映像シーケンスの基本単位とみなす新しいモデルベースビデオ圧縮(MVC)フレームワークを提案する。 提案するMVCは,一場面におけるビデオシーケンス全体の強度変化を直接モデル化し,時空間予測による冗長性を低減せず,非冗長表現を求める。 これを実現するために、基本モデリングアーキテクチャとして暗黙の神経表現を用いる。 ビデオモデリングの効率を向上させるために,まず,空間文脈拡張におけるコンテキスト関連空間位置埋め込みと周波数領域監視を提案する。 時間的相関を捉えるために,シーンフロー制約機構と時間的コントラスト損失をデザインする。 広範に実験した結果,本手法は最新のh.266ビデオ符号化方式に比べて最大20-%のビットレート削減を達成でき,既存のビデオ符号化方式よりもデコード効率が向上した。

Video compression has always been a popular research area, where many traditional and deep video compression methods have been proposed. These methods typically rely on signal prediction theory to enhance compression performance by designing high efficient intra and inter prediction strategies and compressing video frames one by one. In this paper, we propose a novel model-based video compression (MVC) framework that regards scenes as the fundamental units for video sequences. Our proposed MVC directly models the intensity variation of the entire video sequence in one scene, seeking non-redundant representations instead of reducing redundancy through spatio-temporal predictions. To achieve this, we employ implicit neural representation as our basic modeling architecture. To improve the efficiency of video modeling, we first propose context-related spatial positional embedding and frequency domain supervision in spatial context enhancement. For temporal correlation capturing, we design the scene flow constrain mechanism and temporal contrastive loss. Extensive experimental results demonstrate that our method achieves up to a 20\% bitrate reduction compared to the latest video coding standard H.266 and is more efficient in decoding than existing video coding strategies.
翻訳日:2023-08-31 17:33:21 公開日:2023-08-30
# 進化的強化学習:調査

Evolutionary Reinforcement Learning: A Survey ( http://arxiv.org/abs/2303.04150v4 )

ライセンス: Link先を確認
Hui Bai and Ran Cheng and Yaochu Jin(参考訳) 強化学習(Reinforcement Learning, RL)は、エージェントに環境とのインタラクションを通じて累積報酬を最大化する機械学習アプローチである。 RLとディープラーニングの統合は、ボードゲーム、アーケードゲーム、ロボット制御など、幅広い課題において、目覚ましい成果をもたらした。 これらの成功にもかかわらず、センシティブなハイパーパラメータによって引き起こされる不安定な収束性、長期水平線とスパース報酬による時間的クレジット割り当ての難しさ、探索空間の連続的なシナリオにおける多様な探索の欠如、マルチエージェント強化学習におけるクレジット割り当ての難しさ、報酬の相反など、いくつかの重要な課題がある。 学習エージェントの個体数を維持する進化的計算(EC)は,これらの制限に対処する上で有望な性能を示した。 本稿では、進化強化学習(EvoRL)と呼ばれる、ECをRLに統合するための最先端手法に関する総合的な調査を行う。 本稿では,超パラメータ最適化,政策探索,探索,報酬形成,メタRL,多目的RLなど,RLの重要研究分野に基づいてEvoRL法を分類する。 次に、効率的な方法、ベンチマーク、スケーラブルなプラットフォームの観点から、今後の研究の方向性について論じる。 この調査は、EvoRLの分野に関心を持つ研究者や実践者のリソースとなり、今後の研究における重要な課題と機会を強調している。 この調査の助けを借りて、研究者や実践者はより効率的な方法やEvoRLのベンチマークを作成できるようになり、この有望な学際的な研究分野をさらに進めることができる。

Reinforcement learning (RL) is a machine learning approach that trains agents to maximize cumulative rewards through interactions with environments. The integration of RL with deep learning has recently resulted in impressive achievements in a wide range of challenging tasks, including board games, arcade games, and robot control. Despite these successes, there remain several crucial challenges, including brittle convergence properties caused by sensitive hyperparameters, difficulties in temporal credit assignment with long time horizons and sparse rewards, a lack of diverse exploration, especially in continuous search space scenarios, difficulties in credit assignment in multi-agent reinforcement learning, and conflicting objectives for rewards. Evolutionary computation (EC), which maintains a population of learning agents, has demonstrated promising performance in addressing these limitations. This article presents a comprehensive survey of state-of-the-art methods for integrating EC into RL, referred to as evolutionary reinforcement learning (EvoRL). We categorize EvoRL methods according to key research fields in RL, including hyperparameter optimization, policy search, exploration, reward shaping, meta-RL, and multi-objective RL. We then discuss future research directions in terms of efficient methods, benchmarks, and scalable platforms. This survey serves as a resource for researchers and practitioners interested in the field of EvoRL, highlighting the important challenges and opportunities for future research. With the help of this survey, researchers and practitioners can develop more efficient methods and tailored benchmarks for EvoRL, further advancing this promising cross-disciplinary research field.
翻訳日:2023-08-31 17:32:55 公開日:2023-08-30
# EvHandPose:スパーススーパービジョンによるイベントベースの3Dハンドポース推定

EvHandPose: Event-based 3D Hand Pose Estimation with Sparse Supervision ( http://arxiv.org/abs/2303.02862v2 )

ライセンス: Link先を確認
Jianping Jiang, Jiahe Li, Baowen Zhang, Xiaoming Deng, Boxin Shi(参考訳) イベントカメラは3次元ポーズ推定において大きな可能性を示し、特に低消費電力で高速な動きと高ダイナミックレンジの課題に対処する。 しかし, 非同期差動イメージング機構により, 手の動きが不明瞭である場合に手の動き情報を符号化するイベント表現を設計することは困難であり, 時間的に密接なイベントストリームを完全にアノテートすることは不可能である。 本稿では,手動ポーズの正確な推定と動作のあいまいさの軽減のために,イベント・ツー・Poseモジュールに新しい手動フロー表現を備えたEvHandPoseを提案する。 スパースアノテーションの下でこの問題を解決するため,Pose-to-IWEモジュールのコントラスト最大化と手辺制約を設計し,EvHandPoseを弱スーパービジョンフレームワークで定式化する。 evrealhandsは、現実世界のドメインギャップを埋めるため、いくつかの困難なシーンで、最初の大規模なイベントベースのハンドポーズデータセットです。 EvRealHandsの実験では、EvHandPoseはすべての評価シーンにおいて過去のイベントベースの手法より優れており、RGBベースの手法と比較して、高速動作や強い光シーンにおいて時間分解能の高い手ポーズ推定を正確かつ安定に達成し、屋外シーンや他の種類のイベントカメラによく適応し、手振り認識タスクの可能性を示している。

Event camera shows great potential in 3D hand pose estimation, especially addressing the challenges of fast motion and high dynamic range in a low-power way. However, due to the asynchronous differential imaging mechanism, it is challenging to design event representation to encode hand motion information especially when the hands are not moving (causing motion ambiguity), and it is infeasible to fully annotate the temporally dense event stream. In this paper, we propose EvHandPose with novel hand flow representations in Event-to-Pose module for accurate hand pose estimation and alleviating the motion ambiguity issue. To solve the problem under sparse annotation, we design contrast maximization and hand-edge constraints in Pose-to-IWE (Image with Warped Events) module and formulate EvHandPose in a weakly-supervision framework. We further build EvRealHands, the first large-scale real-world event-based hand pose dataset on several challenging scenes to bridge the real-synthetic domain gap. Experiments on EvRealHands demonstrate that EvHandPose outperforms previous event-based methods under all evaluation scenes, achieves accurate and stable hand pose estimation with high temporal resolution in fast motion and strong light scenes compared with RGB-based methods, generalizes well to outdoor scenes and another type of event camera, and shows the potential for the hand gesture recognition task.
翻訳日:2023-08-31 17:32:24 公開日:2023-08-30
# 重ね合わせ測定によるベル不等式

Bell inequalities with overlapping measurements ( http://arxiv.org/abs/2303.02127v2 )

ライセンス: Link先を確認
Mois\'es Bermejo Mor\'an, Alejandro Pozas-Kerstjens and Felix Huber(参考訳) パーティが複数のサブシステムにアクセスできる場合、どの非局所的相関が得られるか? ここでは、異なるパーティの測定が重複しうるベルの不等式について検討し、マルチパーティイトシステムにおける相関に関する新たな見解を提供する。 考慮されたシナリオはヒルベルト空間次元、重なり合い、対称性に関して興味深い振る舞いを示す。

Which nonlocal correlations can be obtained, when a party has access to more than one subsystem? Here we study Bell inequalities where measurements of different parties can have overlap, providing a new view on correlations in multipartite systems. The scenarios considered show an interesting behaviour with respect to Hilbert space dimension, overlap, and symmetry.
翻訳日:2023-08-31 17:31:45 公開日:2023-08-30
# 生成前駆体としての人間の運動拡散

Human Motion Diffusion as a Generative Prior ( http://arxiv.org/abs/2303.01418v3 )

ライセンス: Link先を確認
Yonatan Shafir, Guy Tevet, Roy Kapon and Amit H. Bermano(参考訳) 最近の研究は、テキストから動きへの能力を含む人間の動きを生成するための拡散モデルに有意な可能性を示している。 しかし,これらの手法は,注釈付き動作データのあいまいさ,一人称動作の重視,詳細な制御の欠如などによって制限されている。 本稿では,逐次,並列,モデル構成という,拡散優先に基づく3種類の合成について述べる。 逐次構成を用いることで,長い系列生成の課題に挑戦する。 そこで,提案手法であるdoubletakeでは,短いクリップのみの事前学習を用いて,ストレッチ区間のシーケンスとその遷移からなる長いアニメーションを生成する。 並列合成を用いて,2人生成に向けた有望なステップを示す。 2つの固定前例と2人のトレーニング例から始め、スリムな通信ブロックであるComMDMを学び、2つの動作間の相互作用を調整する。 最後に, モデル構成を用いて, まず, 所定の関節の所定の動きを実現する完全動作を個人に訓練する。 次に,複数のモデルを効率的にブレンドする補間機構である diffusionblending を導入することで,柔軟かつ効率的な細粒度ジョイントと軌道レベルの制御と編集を実現する。 本研究は, 既設の運動拡散モデルを用いて合成手法を評価し, これらのタスクを訓練した専用モデルと比較した。

Recent work has demonstrated the significant potential of denoising diffusion models for generating human motion, including text-to-motion capabilities. However, these methods are restricted by the paucity of annotated motion data, a focus on single-person motions, and a lack of detailed control. In this paper, we introduce three forms of composition based on diffusion priors: sequential, parallel, and model composition. Using sequential composition, we tackle the challenge of long sequence generation. We introduce DoubleTake, an inference-time method with which we generate long animations consisting of sequences of prompted intervals and their transitions, using a prior trained only for short clips. Using parallel composition, we show promising steps toward two-person generation. Beginning with two fixed priors as well as a few two-person training examples, we learn a slim communication block, ComMDM, to coordinate interaction between the two resulting motions. Lastly, using model composition, we first train individual priors to complete motions that realize a prescribed motion for a given joint. We then introduce DiffusionBlending, an interpolation mechanism to effectively blend several such models to enable flexible and efficient fine-grained joint and trajectory-level control and editing. We evaluate the composition methods using an off-the-shelf motion diffusion model, and further compare the results to dedicated models trained for these specific tasks.
翻訳日:2023-08-31 17:31:17 公開日:2023-08-30
# DREAM: 代表マッチングによる効率的なデータセット蒸留

DREAM: Efficient Dataset Distillation by Representative Matching ( http://arxiv.org/abs/2302.14416v3 )

ライセンス: Link先を確認
Yanqing Liu, Jianyang Gu, Kai Wang, Zheng Zhu, Wei Jiang and Yang You(参考訳) データセット蒸留(dataset distillation)は、ストレージとトレーニングコストを削減するために、オリジナルの大規模データセットからの情報損失が少ない小さなデータセットを合成することを目的としている。 最近の技術動向は、主に合成画像と、勾配、埋め込み分布、訓練軌道に関する元の画像とを整合させることで、サンプル合成プロセスを制約している。 マッチング対象は多岐にわたるが、現在ではオリジナル画像の選択戦略はナイーブなランダムサンプリングに限られている。 ランダムサンプリングは選択されたサンプル分布の偶性を見落とし、ノイズや偏りのあるマッチング対象になる可能性がある。 さらに、サンプルの多様性はランダムサンプリングによって制約されない。 これらの要因は蒸留過程における最適化不安定性をもたらし、訓練効率を低下させる。 そこで,本稿では,マッチングのために代表的オリジナル画像のみを選択した,新たなマッチング戦略である \textbf{re}present\textbf{a}tive \textbf{m}atching (dream)を提案する。 DREAMは、一般的なデータセット蒸留フレームワークに簡単にプラグインでき、性能低下なしに蒸留イテレーションを8回以上減らすことができる。 十分なトレーニング時間があれば、dreamはさらに大きな改善を行い、最先端のパフォーマンスを達成します。

Dataset distillation aims to synthesize small datasets with little information loss from original large-scale ones for reducing storage and training costs. Recent state-of-the-art methods mainly constrain the sample synthesis process by matching synthetic images and the original ones regarding gradients, embedding distributions, or training trajectories. Although there are various matching objectives, currently the strategy for selecting original images is limited to naive random sampling. We argue that random sampling overlooks the evenness of the selected sample distribution, which may result in noisy or biased matching targets. Besides, the sample diversity is also not constrained by random sampling. These factors together lead to optimization instability in the distilling process and degrade the training efficiency. Accordingly, we propose a novel matching strategy named as \textbf{D}ataset distillation by \textbf{RE}present\textbf{A}tive \textbf{M}atching (DREAM), where only representative original images are selected for matching. DREAM is able to be easily plugged into popular dataset distillation frameworks and reduce the distilling iterations by more than 8 times without performance drop. Given sufficient training time, DREAM further provides significant improvements and achieves state-of-the-art performances.
翻訳日:2023-08-31 17:30:56 公開日:2023-08-30
# 駆動型量子対称単純排他過程における特殊絡み合い

Exact Entanglement in the Driven Quantum Symmetric Simple Exclusion Process ( http://arxiv.org/abs/2304.10988v4 )

ライセンス: Link先を確認
Denis Bernard and Ludwig Hruza(参考訳) 駆動量子系の絡み合い特性は、長距離コヒーレンスによる平衡状態とは異なる可能性がある。 我々はこの観察をメソスコピック輸送に適したトイモデルである open quantum symmetric simple exclusion process (qssep) を用いて確認する。 異なるサブシステム間の相互情報の正確な公式を導出し、体積法則を満たすことを示す。 驚いたことに、QSSEPの絡み合い特性はその輸送特性に関するデータにのみ依存しており、そのような関係はより一般的なメソスコピックシステムに当てはまるかもしれない。 QSSEPのフリー確率構造をエクスプロイトし、これらの結果を得るため、ランダム行列の理論に潜在的に適用可能な数学的結果である、いわゆる局所的自由累積からランダム行列のサブブロックの固有値スペクトルを決定する新しい方法を開発した。 この方法の例示として,局所自由積から固有状態熱化仮説 (eth) を満たす系における可観測性の期待値を計算する方法を示す。

Entanglement properties of driven quantum systems can potentially differ from the equilibrium situation due to long range coherences. We confirm this observation by studying a suitable toy model for mesoscopic transport~: the open quantum symmetric simple exclusion process (QSSEP). We derive exact formulae for its mutual information between different subsystems and show that it satisfies a volume law. Surprisingly, the QSSEP entanglement properties only depend on data related to its transport properties and we suspect that such a relation might hold for more general mesoscopic systems. Exploiting the free probability structure of QSSEP, we obtain these results by developing a new method to determine the eigenvalue spectrum of sub-blocks of random matrices from their so-called local free cumulants -- a mathematical result on its own with potential applications in the theory of random matrices. As an illustration of this method, we show how to compute expectation values of observables in systems satisfying the Eigenstate Thermalization Hypothesis (ETH) from the local free cumulants.
翻訳日:2023-08-31 17:25:18 公開日:2023-08-30
# EEGシステムにおける解釈AIとロバストAI:サーベイ

Interpretable and Robust AI in EEG Systems: A Survey ( http://arxiv.org/abs/2304.10755v2 )

ライセンス: Link先を確認
Xinliang Zhou, Chenyu Liu, Liming Zhai, Ziyu Jia, Cuntai Guan and Yang Liu(参考訳) 人工知能(AI)と脳波(EEG)の密結合は、AI時代において人間とコンピュータの相互作用(HCI)技術を大幅に進歩させた。 従来の脳波システムとは異なり、AIベースの脳波システムの解釈可能性と堅牢性は特に重要になっている。 解釈可能性は、AIモデルの内部動作メカニズムを明確にし、それによってユーザの信頼を得ることができる。 堅牢性は、敏感で脆弱な脳波信号に不可欠な攻撃や摂動に対するaiの信頼性を反映している。 このように、脳波システムにおけるAIの解釈可能性と堅牢性は注目され、その研究は近年大きな進歩を遂げている。 しかし、この分野の最近の進歩についてはまだ調査されていない。 本稿では,脳波システムのための解釈可能な,堅牢なAI技術について概説する。 具体的には, バックプロパゲーション, 摂動, 本質的に解釈可能な手法の3つのタイプに特徴付けることにより, 解釈可能性の分類法を提案する。 次に、ロバスト性メカニズムを、ノイズとアーティファクト、人間の可変性、データ取得不安定性、敵攻撃の4つのクラスに分類する。 最後に、脳波システムにおけるAIの解釈と堅牢性に関するいくつかの重要かつ未解決の課題を特定し、今後の方向性についてさらに議論する。

The close coupling of artificial intelligence (AI) and electroencephalography (EEG) has substantially advanced human-computer interaction (HCI) technologies in the AI era. Different from traditional EEG systems, the interpretability and robustness of AI-based EEG systems are becoming particularly crucial. The interpretability clarifies the inner working mechanisms of AI models and thus can gain the trust of users. The robustness reflects the AI's reliability against attacks and perturbations, which is essential for sensitive and fragile EEG signals. Thus the interpretability and robustness of AI in EEG systems have attracted increasing attention, and their research has achieved great progress recently. However, there is still no survey covering recent advances in this field. In this paper, we present the first comprehensive survey and summarize the interpretable and robust AI techniques for EEG systems. Specifically, we first propose a taxonomy of interpretability by characterizing it into three types: backpropagation, perturbation, and inherently interpretable methods. Then we classify the robustness mechanisms into four classes: noise and artifacts, human variability, data acquisition instability, and adversarial attacks. Finally, we identify several critical and unresolved challenges for interpretable and robust AI in EEG systems and further discuss their future directions.
翻訳日:2023-08-31 17:24:59 公開日:2023-08-30
# raft: 生成的ファンデーションモデルアライメントに対する報酬ランクの微調整

RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment ( http://arxiv.org/abs/2304.06767v3 )

ライセンス: Link先を確認
Hanze Dong, Wei Xiong, Deepanshu Goyal, Yihan Zhang, Winnie Chow, Rui Pan, Shizhe Diao, Jipeng Zhang, Kashun Shum, Tong Zhang(参考訳) 生成基盤モデルは、広範な教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。 このようなバイアスは、潜在的に深刻な結果を伴う、最適以下のサンプル、歪んだ結果、不公平を生み出す可能性がある。 したがって、これらのモデルを人間の倫理や嗜好と整合させることは、現実世界のアプリケーションに責任と効果的なデプロイを確実にするための重要なステップである。 以前の研究は、主に人的フィードバック(rlhf)からの強化学習を採用しており、生成モデルは、人的フィードバックによる報酬モデルによって誘導されるrlアルゴリズムで微調整されている。 しかし、RLアルゴリズムに付随する非効率性と不安定性はしばしばアライメントの成功に重大な障害をもたらし、より堅牢で合理化されたアプローチの開発を必要とする。 この目的のために、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuning (RAFT)を導入する。 報奨モデルと十分なサンプル数を利用することで,高品質なサンプルを選択し,望ましくない振る舞いを示すサンプルを破棄し,フィルタされたサンプルの微調整によりモデルを強化した。 本研究では,大規模言語モデルと拡散モデルの両方において,報酬学習やその他の自動メトリクスのモデル性能を効果的に向上できることを示す。

Generative foundation models are susceptible to implicit biases that can arise from extensive unsupervised training data. Such biases can produce suboptimal samples, skewed outcomes, and unfairness, with potentially serious consequences. Consequently, aligning these models with human ethics and preferences is an essential step toward ensuring their responsible and effective deployment in real-world applications. Prior research has primarily employed Reinforcement Learning from Human Feedback (RLHF) to address this problem, where generative models are fine-tuned with RL algorithms guided by a human-feedback-informed reward model. However, the inefficiencies and instabilities associated with RL algorithms frequently present substantial obstacles to the successful alignment, necessitating the development of a more robust and streamlined approach. To this end, we introduce a new framework, Reward rAnked FineTuning (RAFT), designed to align generative models effectively. Utilizing a reward model and a sufficient number of samples, our approach selects the high-quality samples, discarding those that exhibit undesired behavior, and subsequently enhancing the model by fine-tuning on these filtered samples. Our studies show that RAFT can effectively improve the model performance in both reward learning and other automated metrics in both large language models and diffusion models.
翻訳日:2023-08-31 17:24:39 公開日:2023-08-30
# 模擬パノラマ線写真とニューラルレイトレーシングを用いた3次元歯科組織の推定

Estimating 3D Dental Structures using Simulated Panoramic Radiographs and Neural Ray Tracing ( http://arxiv.org/abs/2304.04027v3 )

ライセンス: Link先を確認
Sihwa Park, Seongjun Kim, Doeyoung Kwon, Yohan Jang, In-Seok Song, Seungjun Baek(参考訳) パノラマX線撮影(パノラマX線、PX)は歯科検査において広く用いられている画像モダリティである。 しかし、PXは平らな2D画像のみを提供し、口腔構造の3Dビューを欠いている。 本稿では,現実世界のPXから3次元口腔構造を推定する枠組みを提案する。 本フレームワークは, パノラマ画像のみに基づく様々な被験者(患者)に対して, 完全な3次元再構築を実現する。 我々は3次元コーンビームCT(CBCT)データから、X線レンダリングのBeer-Lambert法則とPX画像の回転原理に基づいて、シミュレートされたPX(SimPX)と呼ばれる中間表現を生成する。 simpxはpxを真にシミュレートするだけでなく、3dデータへの戻すプロセスを手助けする。 我々は,SimPXを3次元出力に変換するために,グローバルおよびローカルな入力特徴を利用するレイトレーシングに基づく新しいニューラルモデルを提案する。 推測時に、実PX画像を意味正規化を伴うSimPXスタイルの画像に変換し、その変換画像を生成モジュールで処理して高品質な出力を生成する。 実験により,本手法は定量的および定性的に復元作業において,先行技術に勝ることを示した。 従来の方法とは違って,本手法では歯列形状やトレーニング用PX-CBCTデータセットなどの事前情報を必要とせず,臨床実習では入手が困難であった。

Panoramic radiography (Panoramic X-ray, PX) is a widely used imaging modality for dental examination. However, PX only provides a flattened 2D image, lacking in a 3D view of the oral structure. In this paper, we propose a framework to estimate 3D oral structures from real-world PX. Our framework tackles full 3D reconstruction for varying subjects (patients) where each reconstruction is based only on a single panoramic image. We create an intermediate representation called simulated PX (SimPX) from 3D Cone-beam computed tomography (CBCT) data based on the Beer-Lambert law of X-ray rendering and rotational principles of PX imaging. SimPX aims at not only truthfully simulating PX, but also facilitates the reverting process back to 3D data. We propose a novel neural model based on ray tracing which exploits both global and local input features to convert SimPX to 3D output. At inference, a real PX image is translated to a SimPX-style image with semantic regularization, and the translated image is processed by generation module to produce high-quality outputs. Experiments show that our method outperforms prior state-of-the-art in reconstruction tasks both quantitatively and qualitatively. Unlike prior methods, Our method does not require any prior information such as the shape of dental arches, nor the matched PX-CBCT dataset for training, which is difficult to obtain in clinical practice.
翻訳日:2023-08-31 17:24:17 公開日:2023-08-30
# ea-lss: 3d bevオブジェクト検出のためのエッジアウェアリフトプレートショットフレームワーク

EA-LSS: Edge-aware Lift-splat-shot Framework for 3D BEV Object Detection ( http://arxiv.org/abs/2303.17895v4 )

ライセンス: Link先を確認
Haotian Hu, Fanyi Wang, Jingwen Su, Yaonong Wang, Laifeng Hu, Weiye Fang, Jingwei Xu, Zhiwang Zhang(参考訳) 近年,Lft-Splat-Shot-based (LSS-based) 3Dオブジェクト検出法に大きな進歩を遂げている。 しかし,不正確な深度推定は,特に深度が大きく変化する領域(深度跳躍問題)において,カメラのみおよびマルチモデル3次元物体検出モデルの精度に重要な制約が残されている。 本稿では,新しいエッジ対応Lift-splat-shot (EA-LSS) フレームワークを提案する。 具体的には、「深度跳躍」問題と細粒度深度(FGD)問題を緩和し、深度監視をさらに強化するために、エッジ対応深度融合(EADF)モジュールを提案する。 我々のEA-LSSフレームワークは、任意のLSSベースの3次元オブジェクト検出モデルと互換性があり、推論時間の無視できる増加で性能を効果的に向上させる。 nuScenesベンチマークの実験では、EA-LSSはカメラのみまたはマルチモデルモデルで有効であることが示されている。 EA-LSS は mAP と NDS のそれぞれ76.5% と 77.6% の nuScenes テストベンチマークで最先端のパフォーマンスを達成したことは注目に値する。

In recent years, great progress has been made in the Lift-Splat-Shot-based (LSS-based) 3D object detection method. However, inaccurate depth estimation remains an important constraint to the accuracy of camera-only and multi-model 3D object detection models, especially in regions where the depth changes significantly (i.e., the "depth jump" problem). In this paper, we proposed a novel Edge-aware Lift-splat-shot (EA-LSS) framework. Specifically, edge-aware depth fusion (EADF) module is proposed to alleviate the "depth jump" problem and fine-grained depth (FGD) module to further enforce refined supervision on depth. Our EA-LSS framework is compatible for any LSS-based 3D object detection models, and effectively boosts their performances with negligible increment of inference time. Experiments on nuScenes benchmarks demonstrate that EA-LSS is effective in either camera-only or multi-model models. It is worth mentioning that EA-LSS achieved the state-of-the-art performance on nuScenes test benchmarks with mAP and NDS of 76.5% and 77.6%, respectively.
翻訳日:2023-08-31 17:23:52 公開日:2023-08-30
# Wavelet Augmentation Transformer を用いた不確実性フリー適応画像超解像

Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer ( http://arxiv.org/abs/2303.17783v3 )

ライセンス: Link先を確認
Yuang Ai, Xiaoqiang Zhou, Huaibo Huang, Lei Zhang, Ran He(参考訳) Unsupervised Domain Adaptation (UDA)は、ソースデータとターゲットデータの両方にアクセスすることで、実世界の画像スーパーリゾリューション(SR)におけるドメインギャップ問題に効果的に対処することができる。 実際のシナリオにおいて、プライバシポリシやソースデータの送信制限を考慮して、この問題を解決するために、画像SR(SODA-SR)のためのSOurce-free Domain Adaptationフレームワークを提案する。 SODA-SRはソース学習モデルを利用して教師学習のための洗練された擬似ラベルを生成する。 疑似ラベルをよりよく活用するために、既存のネットワークに柔軟に組み込むことができるウェーブレット拡張変換器(WAT)という、新しいウェーブレットベースの拡張手法を提案する。 WATは、変形可能な注意によって効率的に集約される様々なサンプルの様々なレベルの低周波情報を学習する。 さらに,疑似ラベルの精度を向上させるために,不確実性を考慮した自己学習機構を提案する。 より優れたSR結果を取得し、擬似ラベルの過適合を避けるため、周波数領域におけるターゲットLRとSR画像の制約にいくつかの正規化損失が提案される。 実験によると、ソースデータにアクセスせずに、SODA-SRは合成$\rightarrow$realとreal$\rightarrow$realの両方で最先端のUDAメソッドより優れており、特定のネットワークアーキテクチャでは制約されない。

Unsupervised Domain Adaptation (UDA) can effectively address domain gap issues in real-world image Super-Resolution (SR) by accessing both the source and target data. Considering privacy policies or transmission restrictions of source data in practical scenarios, we propose a SOurce-free Domain Adaptation framework for image SR (SODA-SR) to address this issue, i.e., adapt a source-trained model to a target domain with only unlabeled target data. SODA-SR leverages the source-trained model to generate refined pseudo-labels for teacher-student learning. To better utilize pseudo-labels, we propose a novel wavelet-based augmentation method, named Wavelet Augmentation Transformer (WAT), which can be flexibly incorporated with existing networks, to implicitly produce useful augmented data. WAT learns low-frequency information of varying levels across diverse samples, which is aggregated efficiently via deformable attention. Furthermore, an uncertainty-aware self-training mechanism is proposed to improve the accuracy of pseudo-labels, with inaccurate predictions being rectified by uncertainty estimation. To acquire better SR results and avoid overfitting pseudo-labels, several regularization losses are proposed to constrain target LR and SR images in the frequency domain. Experiments show that without accessing source data, SODA-SR outperforms state-of-the-art UDA methods in both synthetic$\rightarrow$real and real$\rightarrow$real adaptation settings, and is not constrained by specific network architectures.
翻訳日:2023-08-31 17:23:28 公開日:2023-08-30
# 合成データを用いたビジョンと言語モデルによる名詞を超えて

Going Beyond Nouns With Vision & Language Models Using Synthetic Data ( http://arxiv.org/abs/2303.17590v2 )

ライセンス: Link先を確認
Paola Cascante-Bonilla, Khaled Shehada, James Seale Smith, Sivan Doveh, Donghyun Kim, Rameswar Panda, G\"ul Varol, Aude Oliva, Vicente Ordonez, Rogerio Feris, Leonid Karlinsky(参考訳) 大規模な事前学習されたvision & language(vl)モデルは、多くのアプリケーションで顕著なパフォーマンスを示しており、サポート対象クラスの固定セットを(ほぼ任意の)自然言語プロンプトに対するゼロショットのオープンボキャブラリ推論に置き換えることができる。 しかし、最近の研究でこれらのモデルの根本的な弱点が明らかになった。 例えば、非対象語の意味(属性、行動、関係、状態など)のような「名詞を超えて」行く視覚言語概念(vlc)を理解することの難しさや、文中の単語の順序の重要性を理解するといった構成的推論を行うことの難しさなどである。 本研究では,これらのモデルに対して,ゼロショット能力を損なうことなく,純粋に合成データをどの程度活用できるかを検討する。 合成視覚概念(SyViC) - 百万規模の合成データセットとデータ生成コードベースで、VLモデルのVLC理解と合成推論を改善するために、追加の適切なデータを生成する。 また、SyViCを効果的に活用してこれらの改善を実現するための一般的なVL微調整戦略を提案する。 VL-Checklist, Winoground, AROベンチマークの広範な実験と改善により, ゼロショット精度が1%以下で, 合成データによりVLC理解を著しく向上させることができる(AROでは9.9%, VL-Checklistでは4.3%)。

Large-scale pre-trained Vision & Language (VL) models have shown remarkable performance in many applications, enabling replacing a fixed set of supported classes with zero-shot open vocabulary reasoning over (almost arbitrary) natural language prompts. However, recent works have uncovered a fundamental weakness of these models. For example, their difficulty to understand Visual Language Concepts (VLC) that go 'beyond nouns' such as the meaning of non-object words (e.g., attributes, actions, relations, states, etc.), or difficulty in performing compositional reasoning such as understanding the significance of the order of the words in a sentence. In this work, we investigate to which extent purely synthetic data could be leveraged to teach these models to overcome such shortcomings without compromising their zero-shot capabilities. We contribute Synthetic Visual Concepts (SyViC) - a million-scale synthetic dataset and data generation codebase allowing to generate additional suitable data to improve VLC understanding and compositional reasoning of VL models. Additionally, we propose a general VL finetuning strategy for effectively leveraging SyViC towards achieving these improvements. Our extensive experiments and ablations on VL-Checklist, Winoground, and ARO benchmarks demonstrate that it is possible to adapt strong pre-trained VL models with synthetic data significantly enhancing their VLC understanding (e.g. by 9.9% on ARO and 4.3% on VL-Checklist) with under 1% drop in their zero-shot accuracy.
翻訳日:2023-08-31 17:23:00 公開日:2023-08-30
# Poincar\'e ResNet

Poincar\'e ResNet ( http://arxiv.org/abs/2303.14027v2 )

ライセンス: Link先を確認
Max van Spengler, Erwin Berkhout, Pascal Mettes(参考訳) 本稿では,双曲空間のPoincar\'e球モデルで完全に動作するエンドツーエンド残差ネットワークを提案する。 双曲学習は近年、視覚的理解に大きな可能性を示しているが、現在はディープネットワークの最後尾層でのみ実施されている。 すべての視覚的表現は、標準ユークリッドネットワークを通じて学習される。 本稿では,視覚データの双曲表現をピクセルレベルから直接学習する方法を検討する。 我々は,Poincar\'e 2Dコンボリューションから,Poincar\'e残コネクションまで,有名な残留ネットワークの双曲的対向であるPoincar\'e ResNetを提案する。 畳み込みネットワークを完全に双曲空間で訓練するための3つの障害を特定し,それぞれに解を提案する。 (i)現在の双曲的ネットワークの初期化は原点に崩壊し、より深いネットワークでの適用性が制限される。 多くの層にまたがって標準を保存するアイデンティティベースの初期化を提供する。 (II)残差ネットワークは高額なFr'echet平均計算を双曲空間で行うバッチ正規化に大きく依存する。 poincar\'e 中間点バッチ正規化を高速かつ均等に有効な代替として導入する。 3) Poincar\'e 層における多くの中間処理により,ディープラーニングライブラリの計算グラフが爆発的に爆発し,深層双曲ネットワークのトレーニング能力が制限されることがわかった。 我々は、管理可能な計算グラフを維持するために、コア双曲演算を手動で逆向きに導出する。

This paper introduces an end-to-end residual network that operates entirely on the Poincar\'e ball model of hyperbolic space. Hyperbolic learning has recently shown great potential for visual understanding, but is currently only performed in the penultimate layer(s) of deep networks. All visual representations are still learned through standard Euclidean networks. In this paper we investigate how to learn hyperbolic representations of visual data directly from the pixel-level. We propose Poincar\'e ResNet, a hyperbolic counterpart of the celebrated residual network, starting from Poincar\'e 2D convolutions up to Poincar\'e residual connections. We identify three roadblocks for training convolutional networks entirely in hyperbolic space and propose a solution for each: (i) Current hyperbolic network initializations collapse to the origin, limiting their applicability in deeper networks. We provide an identity-based initialization that preserves norms over many layers. (ii) Residual networks rely heavily on batch normalization, which comes with expensive Fr\'echet mean calculations in hyperbolic space. We introduce Poincar\'e midpoint batch normalization as a faster and equally effective alternative. (iii) Due to the many intermediate operations in Poincar\'e layers, we lastly find that the computation graphs of deep learning libraries blow up, limiting our ability to train on deep hyperbolic networks. We provide manual backward derivations of core hyperbolic operations to maintain manageable computation graphs.
翻訳日:2023-08-31 17:22:10 公開日:2023-08-30
# 差分プライバシーにおける視覚プロンプトのメリットを探る

Exploring the Benefits of Visual Prompting in Differential Privacy ( http://arxiv.org/abs/2303.12247v2 )

ライセンス: Link先を確認
Yizhe Li, Yu-Lin Tsai, Xuebin Ren, Chia-Mu Yu, Pin-Yu Chen(参考訳) ビジュアルプロンプト(vp)は、よく訓練された凍結したソースモデルによって下流タスクへのサンプル効率の高い適応を可能にする、新興かつ強力な技術である。 本稿では,差分プライバシー(dp)を用いた説得力のあるニューラルネットワーク分類器の構築におけるvpのメリットについて検討する。 vp を正準 dp トレーニング手法に統合し,その単純性と効率性を示す。 特に,教師のアンサンブルからの知識伝達を活用する,最先端のDPトレーニング手法であるPATEと接するVPが,プライバシー予算の最小支出で最先端のプライバシユーティリティトレードオフを実現することを発見した。 さらに,DPにおけるVPの利点を明らかにするために,十分な領域ギャップを持つ領域間画像分類のさらなる実験を行った。 最後に,dpを考慮したvpの有効性と貢献を検証するため,広範なアブレーション研究を行う。 私たちのコードはhttps://github.com/EzzzLi/Prompt-PATE)で利用可能です。

Visual Prompting (VP) is an emerging and powerful technique that allows sample-efficient adaptation to downstream tasks by engineering a well-trained frozen source model. In this work, we explore the benefits of VP in constructing compelling neural network classifiers with differential privacy (DP). We explore and integrate VP into canonical DP training methods and demonstrate its simplicity and efficiency. In particular, we discover that VP in tandem with PATE, a state-of-the-art DP training method that leverages the knowledge transfer from an ensemble of teachers, achieves the state-of-the-art privacy-utility trade-off with minimum expenditure of privacy budget. Moreover, we conduct additional experiments on cross-domain image classification with a sufficient domain gap to further unveil the advantage of VP in DP. Lastly, we also conduct extensive ablation studies to validate the effectiveness and contribution of VP under DP consideration. Our code is available at (https://github.com/EzzzLi/Prompt-PATE).
翻訳日:2023-08-31 17:21:45 公開日:2023-08-30
# Sensecape: 大規模言語モデルによるマルチレベル探索とセンスメイキングの実現

Sensecape: Enabling Multilevel Exploration and Sensemaking with Large Language Models ( http://arxiv.org/abs/2305.11483v2 )

ライセンス: Link先を確認
Sangho Suh, Bryan Min, Srishti Palani, Haijun Xia(参考訳) 人々は、学術研究や他の都市への移動計画といった複雑な情報処理のために、大きな言語モデル(LLM)に目を向けている。 しかし、例えば、情報を空間的に配置して整理し、理解するためには、しばしば非線型な方法で作業する必要があるが、LLMと対話するための現在のインターフェースは一般に、会話の相互作用をサポートするために線形である。 この制限に対処し、LLMによる探索とセンスメイキングを支援するために、Sensecapeを開発した。Sensecapeは、LLMで複雑な情報タスクをサポートするための対話型システムであり、ユーザーは(1)多段階の抽象化を通して情報の複雑さを管理し、(2)飼料とセンスメイキングをシームレスに切り替えることができる。 Sensecapeは、抽象レベルの外部化によって、より多くのトピックを探索し、知識を階層的に構造化することを可能にする。 我々は、情報処理のためのLLMベースのワークフローとインタフェースに寄与する。

People are increasingly turning to large language models (LLMs) for complex information tasks like academic research or planning a move to another city. However, while they often require working in a nonlinear manner -- e.g., to arrange information spatially to organize and make sense of it, current interfaces for interacting with LLMs are generally linear to support conversational interaction. To address this limitation and explore how we can support LLM-powered exploration and sensemaking, we developed Sensecape, an interactive system designed to support complex information tasks with an LLM by enabling users to (1) manage the complexity of information through multilevel abstraction and (2) seamlessly switch between foraging and sensemaking. Our within-subject user study reveals that Sensecape empowers users to explore more topics and structure their knowledge hierarchically, thanks to the externalization of levels of abstraction. We contribute implications for LLM-based workflows and interfaces for information tasks.
翻訳日:2023-08-31 17:14:23 公開日:2023-08-30
# ジェネラリストロボットに向けて:生成シミュレーションによる有望なパラダイム

Towards Generalist Robots: A Promising Paradigm via Generative Simulation ( http://arxiv.org/abs/2305.10455v3 )

ライセンス: Link先を確認
Zhou Xian, Theophile Gervet, Zhenjia Xu, Yi-Ling Qiao, Tsun-Hsuan Wang, Yian Wang(参考訳) この文書は、一般のロボットへの潜在的な経路に対する著者のビジョンを概説する位置紙として機能する。 この文書の目的は、著者たちの興奮をコミュニティと共有し、ロボット工学とAIにおける有望な研究方向性を明らかにすることである。 著者らは、提案されたパラダイムは、ロボット研究の長年の目標を達成するための、実現可能な道であると信じている。 この文書は、ロボット工学研究のための最新の大規模基盤モデルにおいて、鉱業に関する具体的な知識を提示する。 これらのモデルを直接使用または適応して低レベルのポリシやアクションを生成する代わりに、このモデルを使用して多様化したタスク、シーン、トレーニングの監督を大規模に生成し、低レベルのスキル学習をスケールアップし、最終的に汎用ロボットを力づけるロボティクスの基礎モデルへと導く、完全に自動化された生成パイプライン(生成シミュレーションと呼ばれる)を提唱している。 著者らは積極的にこの方向を推し進めているが、一方で、大規模な政策訓練を施した汎用ロボットを構築するという野心的な目標には、計算力やハードウェアなどの重要なリソースが要求されている。 そのため、この初期段階で意見を共有することで議論が促進され、業界団体から提案された経路や関連するトピックに対する関心が高まり、この分野の技術的進歩が促進される可能性があると著者らは考えている。

This document serves as a position paper that outlines the authors' vision for a potential pathway towards generalist robots. The purpose of this document is to share the excitement of the authors with the community and highlight a promising research direction in robotics and AI. The authors believe the proposed paradigm is a feasible path towards accomplishing the long-standing goal of robotics research: deploying robots, or embodied AI agents more broadly, in various non-factory real-world settings to perform diverse tasks. This document presents a specific idea for mining knowledge in the latest large-scale foundation models for robotics research. Instead of directly using or adapting these models to produce low-level policies and actions, it advocates for a fully automated generative pipeline (termed as generative simulation), which uses these models to generate diversified tasks, scenes and training supervisions at scale, thereby scaling up low-level skill learning and ultimately leading to a foundation model for robotics that empowers generalist robots. The authors are actively pursuing this direction, but in the meantime, they recognize that the ambitious goal of building generalist robots with large-scale policy training demands significant resources such as computing power and hardware, and research groups in academia alone may face severe resource constraints in implementing the entire vision. Therefore, the authors believe sharing their thoughts at this early stage could foster discussions, attract interest towards the proposed pathway and related topics from industry groups, and potentially spur significant technical advancements in the field.
翻訳日:2023-08-31 17:14:04 公開日:2023-08-30
# llmの隠れたリスク評価--ロバスト性、一貫性、信頼性に関する実証的研究

Assessing Hidden Risks of LLMs: An Empirical Study on Robustness, Consistency, and Credibility ( http://arxiv.org/abs/2305.10235v4 )

ライセンス: Link先を確認
Wentao Ye, Mingfeng Ou, Tianyi Li, Yipeng chen, Xuetao Ma, Yifan Yanggong, Sai Wu, Jie Fu, Gang Chen, Haobo Wang, Junbo Zhao(参考訳) 近年の大規模言語モデル(LLM)の人気は、特にAPIやオープンソースモデル、プラグインといったオープンなエコシステムを通じて、バウンダリのないフィールドに大きな影響を与えている。 しかし、広く展開されているため、隠された潜在的なリスクを徹底的に議論し分析する研究の欠如がある。 その際, LLMシステムの堅牢性, 一貫性, 信頼性について, 先駆的かつ先駆的な研究を行う。 LLM時代における関連文献の大半を無チャートで扱うことで,大量のクエリ/レスポンスを扱う自動化ワークフローを提案する。 全体として、ChatGPT、LLaMA、OPTなど、主要なLLMに対して100万以上のクエリを実行する。 我々のワークフローの中核はデータプリミティブから成り、次に異なる対向距離システムの下でこれらのLCMを評価する自動インタプリタが続く。 その結果、このトレンドコミュニティからは、非常に稀な結論がいくつか、おそらく不運な結果をもたらしました。 略して、以下の通りである。 (i)-ユーザが生成したクエリ入力の小さなが避けられないエラーは、偶然にLCMが予期せず応答する可能性がある。 (ii)-LLMはセマンティックに類似したクエリ入力を処理する際に一貫性が低い。 さらに、副次的な発見として、ChatGPTは、入力が極端に汚染された場合でも、正しい回答を得られることを発見した。 この現象はLLMの強力な記憶を実証するが、学術的発展においてLLMが関与する評価にそのようなデータを使用することについて深刻な懸念を提起する。 そこで本研究では,LLM を用いた評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。 上記の主張を支持するために広範な実証研究が行われている。

The recent popularity of large language models (LLMs) has brought a significant impact to boundless fields, particularly through their open-ended ecosystem such as the APIs, open-sourced models, and plugins. However, with their widespread deployment, there is a general lack of research that thoroughly discusses and analyzes the potential risks concealed. In that case, we intend to conduct a preliminary but pioneering study covering the robustness, consistency, and credibility of LLMs systems. With most of the related literature in the era of LLM uncharted, we propose an automated workflow that copes with an upscaled number of queries/responses. Overall, we conduct over a million queries to the mainstream LLMs including ChatGPT, LLaMA, and OPT. Core to our workflow consists of a data primitive, followed by an automated interpreter that evaluates these LLMs under different adversarial metrical systems. As a result, we draw several, and perhaps unfortunate, conclusions that are quite uncommon from this trendy community. Briefly, they are: (i)-the minor but inevitable error occurrence in the user-generated query input may, by chance, cause the LLM to respond unexpectedly; (ii)-LLMs possess poor consistency when processing semantically similar query input. In addition, as a side finding, we find that ChatGPT is still capable to yield the correct answer even when the input is polluted at an extreme level. While this phenomenon demonstrates the powerful memorization of the LLMs, it raises serious concerns about using such data for LLM-involved evaluation in academic development. To deal with it, we propose a novel index associated with a dataset that roughly decides the feasibility of using such data for LLM-involved evaluation. Extensive empirical studies are tagged to support the aforementioned claims.
翻訳日:2023-08-31 17:13:36 公開日:2023-08-30
# MPI-rical:データ駆動型MPI分散並列処理支援

MPI-rical: Data-Driven MPI Distributed Parallelism Assistance with Transformers ( http://arxiv.org/abs/2305.09438v3 )

ライセンス: Link先を確認
Nadav Schneider, Tal Kadosh, Niranjan Hasabnis, Timothy Mattson, Yuval Pinter, Gal Oren(参考訳) メッセージパッシングインタフェース(MPI)は、複数のノードにわたる分散メモリ並列化において重要な役割を果たす。 しかし、mpiコードを手動で、特にドメイン分割を実行することは、困難でエラーやすいタスクです。 本稿では,ドメイン分割に基づく分散メモリ並列化コードを書くプログラマを支援する,新しいデータ駆動型プログラミング支援ツールであるmpi-ricalを開発した。 具体的には、教師付き言語モデルをトレーニングし、MPI関数とそのコード中の適切な位置をオンザフライで提案する。 MPICodeCorpusはMPIベースの並列プログラムの最初の公開コーパスで、GitHub上の15,000以上のオープンソースリポジトリをマイニングして作成します。 MPICodeCorpusおよびさらに重要なことは、実世界の科学応用を表す数値計算のためのMPIベースの並列プログラムのベンチマークで実験結果が得られたことである。 MPI-RICALはこれらのプログラムで0.87-0.91のスコアを達成し、適切なコード位置で適切なMPI関数を提案する精度を示した。 . この作業で使用されたソースコードと他の関連するソースは、https://github.com/Scientific-Computing-Lab-NRCN/MPI-rical.comで公開されている。

Message Passing Interface (MPI) plays a crucial role in distributed memory parallelization across multiple nodes. However, parallelizing MPI code manually, and specifically, performing domain decomposition, is a challenging, error-prone task. In this paper, we address this problem by developing MPI-RICAL, a novel data-driven, programming-assistance tool that assists programmers in writing domain decomposition based distributed memory parallelization code. Specifically, we train a supervised language model to suggest MPI functions and their proper locations in the code on the fly. We also introduce MPICodeCorpus, the first publicly available corpus of MPI-based parallel programs that is created by mining more than 15,000 open-source repositories on GitHub. Experimental results have been done on MPICodeCorpus and more importantly, on a compiled benchmark of MPI-based parallel programs for numerical computations that represent real-world scientific applications. MPI-RICAL achieves F1 scores between 0.87-0.91 on these programs, demonstrating its accuracy in suggesting correct MPI functions at appropriate code locations.. The source code used in this work, as well as other relevant sources, are available at: https://github.com/Scientific-Computing-Lab-NRCN/MPI-rical
翻訳日:2023-08-31 17:13:08 公開日:2023-08-30
# Laughing Matters:拡散モデルを用いたLaughing-Face Generationの導入

Laughing Matters: Introducing Laughing-Face Generation using Diffusion Models ( http://arxiv.org/abs/2305.08854v2 )

ライセンス: Link先を確認
Antoni Bigata Casademunt, Rodrigo Mira, Nikita Drobyshev, Konstantinos Vougioukas, Stavros Petridis, Maja Pantic(参考訳) 音声駆動アニメーションは近年、フォトリアリスティックに近い結果が得られ、大きな注目を集めている。 しかしながら、この分野は人間の相互作用における重要性を示す証拠があるにもかかわらず、非言語コミュニケーションに関して未調査のままである。 特に、笑いの列を生成することは、この行動の複雑さとニュアンスのために、ユニークな挑戦となる。 本稿では,このギャップを埋めるために,静止画と笑いを含む音声クリップを付与し,現実的な笑いシーケンスを生成できる新しいモデルを提案する。 従来の顔アニメーション手法の失敗事例を強調し,近年の拡散モデルを利用して説得力のある笑いビデオを生成する。 さまざまな笑いデータセットでモデルをトレーニングし、笑い用に特別に設計された評価基準を導入します。 従来の音声駆動手法と比較すると,笑声生成のために再訓練された場合でも,すべての指標の最先端性能が得られた。 私たちのコードとプロジェクトは

Speech-driven animation has gained significant traction in recent years, with current methods achieving near-photorealistic results. However, the field remains underexplored regarding non-verbal communication despite evidence demonstrating its importance in human interaction. In particular, generating laughter sequences presents a unique challenge due to the intricacy and nuances of this behaviour. This paper aims to bridge this gap by proposing a novel model capable of generating realistic laughter sequences, given a still portrait and an audio clip containing laughter. We highlight the failure cases of traditional facial animation methods and leverage recent advances in diffusion models to produce convincing laughter videos. We train our model on a diverse set of laughter datasets and introduce an evaluation metric specifically designed for laughter. When compared with previous speech-driven approaches, our model achieves state-of-the-art performance across all metrics, even when these are re-trained for laughter generation. Our code and project are publicly available
翻訳日:2023-08-31 17:12:46 公開日:2023-08-30
# ONCE: オープンソースとオープンソースの両方の大規模言語モデルによるコンテンツベース勧告の強化

ONCE: Boosting Content-based Recommendation with Both Open- and Closed-source Large Language Models ( http://arxiv.org/abs/2305.06566v3 )

ライセンス: Link先を確認
Qijiong Liu, Nuo Chen, Tetsuya Sakai, Xiao-Ming Wu(参考訳) パーソナライズされたコンテンツベースのレコメンデーションシステムは、ユーザーが毎日のニュースウェブサイトや書籍レコメンデーションサービスのようなプラットフォームで利用可能な膨大なコンテンツをナビゲートするために欠かせないツールになっている。 しかし、既存の推奨者は、アイテムの内容を理解する上で重大な課題に直面している。 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて、深い意味理解と事前学習からの広範な知識を有することが証明されている。 本研究では,コンテンツベースのレコメンデーションを強化するために,オープンソース LLM とクローズドソース LLM の両方を活用する可能性を検討する。 オープンソースのllmでは、その深層をコンテンツエンコーダとして利用し、埋め込みレベルでコンテンツの表現を強化しています。 クローズドソース LLM では,トークンレベルでのトレーニングデータを強化するためのプロンプト技術を採用している。 総合的な実験を通じて,両タイプのLLMの有効性を実証し,両者の相乗的関係を示す。 注目すべきは,既存の推奨モデルと比較して,最大19.32%の相対的な改善が見られたことだ。 これらの知見は、コンテンツベースレコメンデーションシステムの強化において、LLMのオープンソースとクローズドソースの両方が大きな可能性を示している。 コードとLLM生成データを他の研究者が利用できるようにし、その結果を再現します。

Personalized content-based recommender systems have become indispensable tools for users to navigate through the vast amount of content available on platforms like daily news websites and book recommendation services. However, existing recommenders face significant challenges in understanding the content of items. Large language models (LLMs), which possess deep semantic comprehension and extensive knowledge from pretraining, have proven to be effective in various natural language processing tasks. In this study, we explore the potential of leveraging both open- and closed-source LLMs to enhance content-based recommendation. With open-source LLMs, we utilize their deep layers as content encoders, enriching the representation of content at the embedding level. For closed-source LLMs, we employ prompting techniques to enrich the training data at the token level. Through comprehensive experiments, we demonstrate the high effectiveness of both types of LLMs and show the synergistic relationship between them. Notably, we observed a significant relative improvement of up to 19.32% compared to existing state-of-the-art recommendation models. These findings highlight the immense potential of both open- and closed-source of LLMs in enhancing content-based recommendation systems. We will make our code and LLM-generated data available for other researchers to reproduce our results.
翻訳日:2023-08-31 17:12:29 公開日:2023-08-30
# フリップチップアーキテクチャにおける超伝導共振器の実験的,高速解析的および数値設計

Experimentally verified, fast analytic and numerical design of superconducting resonators in flip-chip architectures ( http://arxiv.org/abs/2305.05502v3 )

ライセンス: Link先を確認
Hang-Xi Li, Daryoush Shiri, Sandoko Kosen, Marcus Rommel, Lert Chayanun, Andreas Nylander, Robert Rehammar, Giovanna Tancredi, Marco Caputo, Kestutis Grigoras, Leif Gr\"onberg, Joonas Govenius, Jonas Bylander(参考訳) 超伝導量子プロセッサでは、多くの研究所が3D集積アーキテクチャでシステムをより大きなサイズにスケールアップするにつれて、デバイスパラメータの予測可能性の重要性が増している。 特に超伝導共振器の特性は、量子ビットの高忠実度多重読み出しを保証するために適切に制御されなければならない。 本稿では,共形写像法に基づく2次元断面から共振器のパラメータを直接予測する手法を提案する。 本手法は,3次元有限要素法シミュレーションおよびフリップチップ集積構造における15個の共振器の測定により,計算された共振器周波数と結合品質係数を比較して妥当性を示す。 6GHz共振器における設計周波数と測定周波数の差は2%未満である。 また,チップ間間隔の変動に対する共振周波数の感度を低減させる設計法を提案する。

In superconducting quantum processors, the predictability of device parameters is of increasing importance as many labs scale up their systems to larger sizes in a 3D-integrated architecture. In particular, the properties of superconducting resonators must be controlled well to ensure high-fidelity multiplexed readout of qubits. Here we present a method, based on conformal mapping techniques, to predict a resonator's parameters directly from its 2D cross-section, without computationally heavy and time-consuming 3D simulation. We demonstrate the method's validity by comparing the calculated resonator frequency and coupling quality factor with those obtained through 3D finite-element-method simulation and by measurement of 15 resonators in a flip-chip-integrated architecture. We achieve a discrepancy of less than 2% between designed and measured frequencies, for 6-GHz resonators. We also propose a design method that reduces the sensitivity of the resonant frequency to variations in the inter-chip spacing.
翻訳日:2023-08-31 17:12:09 公開日:2023-08-30
# 生成フローネットワークを用いた一般化ユニバーサルドメイン適応

Generalized Universal Domain Adaptation with Generative Flow Networks ( http://arxiv.org/abs/2305.04466v2 )

ライセンス: Link先を確認
Didi Zhu, Yinchuan Li, Yunfeng Shao, Jianye Hao, Fei Wu, Kun Kuang, Jun Xiao, Chao Wu(参考訳) 我々は,unsupervised domain adaptation (unsupervised domain adaptation, 一般化ユニバーサルドメイン適応 (guda) という新しい問題を導入し,未知のカテゴリを含むすべての対象ラベルの正確な予測を実現する。 GUDAはラベル分布シフトベースとラベル空間ミスマッチベースの変種の間のギャップを埋め、基本的にそれらを統一された問題として分類し、すべての変種を徹底的に解決するための包括的なフレームワークへと導く。 GUDAの重要な課題は、ターゲットラベル分布を推定しながら、新規なターゲットカテゴリの開発と識別である。 この問題に対処するために,生成フローネットワークの強力な探索能力を利用し,報酬関数に比例する確率の多様なサンプルを選択するgflowdaと呼ばれるアクティブドメイン適応アルゴリズムを提案する。 探索能力を高め,対象ラベルの分布を効果的に把握するために,状態と報酬を調整し,親探索と状態遷移のための効率的なソリューションを導入する。 我々はまた、GUANとGFlowNetの協調最適化を含む、Generalized Universal Adversarial Network (GUAN)と呼ばれるGUDAのトレーニングパラダイムを提案する。 理論的分析は、探索の重要性を強調し、ベンチマークデータセットに関する広範な実験は、GFlowDAの優位性を実証している。

We introduce a new problem in unsupervised domain adaptation, termed as Generalized Universal Domain Adaptation (GUDA), which aims to achieve precise prediction of all target labels including unknown categories. GUDA bridges the gap between label distribution shift-based and label space mismatch-based variants, essentially categorizing them as a unified problem, guiding to a comprehensive framework for thoroughly solving all the variants. The key challenge of GUDA is developing and identifying novel target categories while estimating the target label distribution. To address this problem, we take advantage of the powerful exploration capability of generative flow networks and propose an active domain adaptation algorithm named GFlowDA, which selects diverse samples with probabilities proportional to a reward function. To enhance the exploration capability and effectively perceive the target label distribution, we tailor the states and rewards, and introduce an efficient solution for parent exploration and state transition. We also propose a training paradigm for GUDA called Generalized Universal Adversarial Network (GUAN), which involves collaborative optimization between GUAN and GFlowNet. Theoretical analysis highlights the importance of exploration, and extensive experiments on benchmark datasets demonstrate the superiority of GFlowDA.
翻訳日:2023-08-31 17:11:51 公開日:2023-08-30
# 圧縮的注意マッチングによるユニバーサルドメイン適応

Universal Domain Adaptation via Compressive Attention Matching ( http://arxiv.org/abs/2304.11862v4 )

ライセンス: Link先を確認
Didi Zhu, Yincuan Li, Junkun Yuan, Zexi Li, Kun Kuang and Chao Wu(参考訳) ユニバーサルドメイン適応(UniDA)は、ラベルセットに関する事前の知識なしで、ソースドメインからターゲットドメインに知識を転送することを目的としている。 課題は、ターゲットサンプルが共通のカテゴリに属するかどうかを決定する方法にある。 主流の手法はサンプルの特徴に基づいて判断を行うが、これは画像内の最も重要な局所オブジェクトを無視しながらグローバル情報を過度に強調し、精度が制限される。 この問題を解決するために,視覚変換器の自己注意機構を利用して重要な対象情報を捕捉するユニバーサルアテンションマッチング(UniAM)フレームワークを提案する。 提案フレームワークは,注目度を圧縮的に表現することでコア情報を探究する,新しい圧縮的注意マッチング(CAM)手法を提案する。 さらに、CAMはサンプルの共通性を決定するために残留測定を組み込んでいる。 この測定を利用して、UniAMはドメインワイドおよびカテゴリワイド共通特徴調整(CFA)とターゲットクラス分離(TCS)を達成する。 特に、UniAMは視覚変換器の注意を利用して分類タスクを実行する最初の方法である。 広範な実験により、uniamは様々なベンチマークデータセットで現在の最先端のメソッドよりも優れています。

Universal domain adaptation (UniDA) aims to transfer knowledge from the source domain to the target domain without any prior knowledge about the label set. The challenge lies in how to determine whether the target samples belong to common categories. The mainstream methods make judgments based on the sample features, which overemphasizes global information while ignoring the most crucial local objects in the image, resulting in limited accuracy. To address this issue, we propose a Universal Attention Matching (UniAM) framework by exploiting the self-attention mechanism in vision transformer to capture the crucial object information. The proposed framework introduces a novel Compressive Attention Matching (CAM) approach to explore the core information by compressively representing attentions. Furthermore, CAM incorporates a residual-based measurement to determine the sample commonness. By utilizing the measurement, UniAM achieves domain-wise and category-wise Common Feature Alignment (CFA) and Target Class Separation (TCS). Notably, UniAM is the first method utilizing the attention in vision transformer directly to perform classification tasks. Extensive experiments show that UniAM outperforms the current state-of-the-art methods on various benchmark datasets.
翻訳日:2023-08-31 17:11:07 公開日:2023-08-30
# 幾何代数変換器

Geometric Algebra Transformers ( http://arxiv.org/abs/2305.18415v2 )

ライセンス: Link先を確認
Johann Brehmer, Pim de Haan, S\"onke Behrends, Taco Cohen(参考訳) 幾何学的データに関わる問題は、物理学、化学、ロボティクス、コンピュータビジョン、その他多くの分野で発生する。 このようなデータは、点、方向ベクトル、翻訳、回転などの多くの形式を取ることができるが、これまでは、それらの対称性を尊重しながら、そのような様々な幾何学的タイプに適用できる単一のアーキテクチャは存在しない。 本稿では,幾何学データのための汎用アーキテクチャであるGeometric Algebra Transformer (GATr)を紹介する。 GATr は射影幾何学(またはクリフォード)代数における入力、出力、隠れ状態を表し、共通幾何学的対象の16次元ベクトル空間表現とそれらに作用する作用素を提供する。 GATr は E(3) に対して同変であり、3次元ユークリッド空間の対称性群である。 Transformerとしては、GATrは汎用性、効率的、スケーラブルである。 大規模動脈メッシュのn体モデリングから壁ハーストストレス推定,ロボット運動計画まで,gatrの問題点を実証する。 GATrは、エラー、データ効率、スケーラビリティの点で、非幾何学的ベースラインと等変ベースラインの両方を一貫して上回っている。

Problems involving geometric data arise in physics, chemistry, robotics, computer vision, and many other fields. Such data can take numerous forms, such as points, direction vectors, translations, or rotations, but to date there is no single architecture that can be applied to such a wide variety of geometric types while respecting their symmetries. In this paper we introduce the Geometric Algebra Transformer (GATr), a general-purpose architecture for geometric data. GATr represents inputs, outputs, and hidden states in the projective geometric (or Clifford) algebra, which offers an efficient 16-dimensional vector-space representation of common geometric objects as well as operators acting on them. GATr is equivariant with respect to E(3), the symmetry group of 3D Euclidean space. As a Transformer, GATr is versatile, efficient, and scalable. We demonstrate GATr in problems from n-body modeling to wall-shear-stress estimation on large arterial meshes to robotic motion planning. GATr consistently outperforms both non-geometric and equivariant baselines in terms of error, data efficiency, and scalability.
翻訳日:2023-08-31 17:05:01 公開日:2023-08-30
# プロセス品質の定量化: ソフトウェア進化における効果的な組織学習の役割

Quantifying Process Quality: The Role of Effective Organizational Learning in Software Evolution ( http://arxiv.org/abs/2305.18061v4 )

ライセンス: Link先を確認
Sebastian H\"onel(参考訳) 現実世界のソフトウェアアプリケーションは、常に進化し続けなければならない。 この進化は、新しいアプリケーションを開発したり、新しい要求を満たしたり、修正したり、将来の機能を組み込んだりする際に起こります。 従来のソフトウェア品質管理には、ソフトウェア品質モデルと継続的コード検査ツールが含まれる。 これらの尺度は、ソフトウェアの品質を直接評価することに焦点を当てます。 しかし、開発プロセスの品質と結果のソフトウェア製品との間には、強い相関関係と因果関係がある。 したがって、開発プロセスの改善は間接的にソフトウェア製品も改善します。 これを実現するには、過去のプロセスから効果的な学習が必要であり、しばしば死後の組織学習を通じて受け入れられる。 大規模なアーティファクトの質的評価は一般的だが、アプリケーションライフサイクル管理によって得られる小さな量的変化はしばしば見過ごされる。 ソフトウェアメトリクスに加えて、これらの小さな変更は、プロジェクト文化とマネジメントに関連する複雑な現象を明らかにします。 これらの変更を活用することで、このような複雑な問題の検出と対処に役立ちます。 ソフトウェアの進化は以前、変更のサイズによって測定されていたが、信頼性と汎用性の定量化方法に関する合意の欠如は、信頼できるメトリクスとしての使用を妨げている。 異なる大きさの分類は進化の性質を確実に記述することができない。 アプリケーションのライフサイクル管理データは豊富だが、どのアーティファクトが有害な管理プラクティスをモデル化できるかはいまだ不明だ。 シミュレーションモデリング、離散事象シミュレーション、ベイズネットワークのようなアプローチは、そのような現象の連続的なプロセスモデルを利用する能力に限られる。 さらに悪いことに、このようなグレーまたはブラックボックスモデルに対するアクセシビリティと機械的な洞察は、通常非常に低い。 これらの課題に対処するために、客観的に活用することを提案します [...]

Real-world software applications must constantly evolve to remain relevant. This evolution occurs when developing new applications or adapting existing ones to meet new requirements, make corrections, or incorporate future functionality. Traditional methods of software quality control involve software quality models and continuous code inspection tools. These measures focus on directly assessing the quality of the software. However, there is a strong correlation and causation between the quality of the development process and the resulting software product. Therefore, improving the development process indirectly improves the software product, too. To achieve this, effective learning from past processes is necessary, often embraced through post mortem organizational learning. While qualitative evaluation of large artifacts is common, smaller quantitative changes captured by application lifecycle management are often overlooked. In addition to software metrics, these smaller changes can reveal complex phenomena related to project culture and management. Leveraging these changes can help detect and address such complex issues. Software evolution was previously measured by the size of changes, but the lack of consensus on a reliable and versatile quantification method prevents its use as a dependable metric. Different size classifications fail to reliably describe the nature of evolution. While application lifecycle management data is rich, identifying which artifacts can model detrimental managerial practices remains uncertain. Approaches such as simulation modeling, discrete events simulation, or Bayesian networks have only limited ability to exploit continuous-time process models of such phenomena. Even worse, the accessibility and mechanistic insight into such gray- or black-box models are typically very low. To address these challenges, we suggest leveraging objectively [...]
翻訳日:2023-08-31 17:04:15 公開日:2023-08-30
# 大規模言語モデルは公平な評価対象ではない

Large Language Models are not Fair Evaluators ( http://arxiv.org/abs/2305.17926v2 )

ライセンス: Link先を確認
Peiyi Wang and Lei Li and Liang Chen and Zefan Cai and Dawei Zhu and Binghuai Lin and Yunbo Cao and Qi Liu and Tianyu Liu and Zhifang Sui(参考訳) 本稿では,gpt-4などの大規模言語モデル(llms)を基準として,候補モデルが生成する応答の質をスコア付けし比較する評価パラダイムにおける系統的バイアスを明らかにする。 候補回答の品質ランキングは、文脈における出現順序を単に変更するだけで容易にハックできる。 この操作によって評価結果を歪め、一方のモデルが他方よりかなり優れているように見えるようにすることができる。例えば、viuna-13bは、評価器としてchatgptを使った66以上のテストクエリでchatgptを上回ることができる。 この問題に対処するため、我々は3つの単純かつ効果的な戦略を持つ校正フレームワークを提案する。 1) 評価を割り当てる前に,評価モデルが複数の評価証拠を生成することを要求する複数の証拠校正 2 最終的な点数を決定するため、様々な順序で結果を集計する平衡位置校正 3)各事例の難易度を測定するためにバランスの取れた位置多様性のエントロピーを導入し,必要に応じて人的援助を求める。 また,Vicuna Benchmarkの質問プロンプトにおいて,ChatGPTとVicuna-13Bからの回答の"win/tie/lose"の結果を手動で注釈し,評価バイアスを軽減し,人間の判断と密接に関連していることを示す実験を行った。 将来の研究を促進するために、コードと人間のアノテーションを \url{https://github.com/i-Eval/FairEval} でリリースします。

In this paper, we uncover a systematic bias in the evaluation paradigm of adopting large language models~(LLMs), e.g., GPT-4, as a referee to score and compare the quality of responses generated by candidate models. We find that the quality ranking of candidate responses can be easily hacked by simply altering their order of appearance in the context. This manipulation allows us to skew the evaluation result, making one model appear considerably superior to the other, e.g., Vicuna-13B could beat ChatGPT on 66 over 80 tested queries with ChatGPT as an evaluator. To address this issue, we propose a calibration framework with three simple yet effective strategies: 1) Multiple Evidence Calibration, which requires the evaluator model to generate multiple evaluation evidence before assigning ratings; 2) Balanced Position Calibration, which aggregates results across various orders to determine the final score; 3) Human-in-the-Loop Calibration, which introduces a balanced position diversity entropy to measure the difficulty of each example and seeks human assistance when needed. We also manually annotate the "win/tie/lose" outcomes of responses from ChatGPT and Vicuna-13B in the Vicuna Benchmark's question prompt, and extensive experiments demonstrate that our approach successfully mitigates evaluation bias, resulting in closer alignment with human judgments. We release our code and human annotation at \url{https://github.com/i-Eval/FairEval} to facilitate future research.
翻訳日:2023-08-31 17:03:51 公開日:2023-08-30
# コンテンツモデレーションのためのGPT-3生成説明の評価

Evaluating GPT-3 Generated Explanations for Hateful Content Moderation ( http://arxiv.org/abs/2305.17680v4 )

ライセンス: Link先を確認
Han Wang, Ming Shan Hee, Md Rabiul Awal, Kenny Tsu Wei Choo, Roy Ka-Wei Lee(参考訳) 最近の研究は、大規模言語モデル(LLM)を使用して、微調整やプロンプトを通じてヘイトスピーチの説明を生成することに焦点を当てている。 この領域への関心が高まりつつあるにもかかわらず、これらの発生した説明の有効性と潜在的な限界は未だ理解されていない。 LLMによって生成されたこれらの説明は、ユーザとコンテンツモデレーターの両方がフラグ付きコンテンツの性質について誤った判断を下す可能性がある。 例えば、LCMが生成した説明は、コンテンツモデレーターが良質なコンテンツが憎悪であることを不正確に納得させるかもしれない。 これを踏まえて,ヘイトスピーチの説明を解析するための枠組みを提案し,その説明を評価するための広範囲な調査を行った。 具体的には、GPT-3にヘイトフルコンテンツと非ヘイトフルコンテンツの両方を説明するよう促し、2,400人の独特な回答者を対象に調査を行った。 その結果,(1) 人間の評価者は, GPT による説明を, 言語流布度, 情報伝達性, 説得性, 論理音性の観点から高い品質と評価し, それらの説明の説得性は, 実施する促進戦略によって異なること, (3) 内容の嫌悪性について誤った判断を下す可能性が示唆された。 本研究は,コンテンツモデレーションにllm生成説明を適用する際に注意が必要であることを強調する。 コードと結果はhttps://github.com/Social-AI-Studio/GPT3-HateEvalで公開されている。

Recent research has focused on using large language models (LLMs) to generate explanations for hate speech through fine-tuning or prompting. Despite the growing interest in this area, these generated explanations' effectiveness and potential limitations remain poorly understood. A key concern is that these explanations, generated by LLMs, may lead to erroneous judgments about the nature of flagged content by both users and content moderators. For instance, an LLM-generated explanation might inaccurately convince a content moderator that a benign piece of content is hateful. In light of this, we propose an analytical framework for examining hate speech explanations and conducted an extensive survey on evaluating such explanations. Specifically, we prompted GPT-3 to generate explanations for both hateful and non-hateful content, and a survey was conducted with 2,400 unique respondents to evaluate the generated explanations. Our findings reveal that (1) human evaluators rated the GPT-generated explanations as high quality in terms of linguistic fluency, informativeness, persuasiveness, and logical soundness, (2) the persuasive nature of these explanations, however, varied depending on the prompting strategy employed, and (3) this persuasiveness may result in incorrect judgments about the hatefulness of the content. Our study underscores the need for caution in applying LLM-generated explanations for content moderation. Code and results are available at https://github.com/Social-AI-Studio/GPT3-HateEval.
翻訳日:2023-08-31 17:03:21 公開日:2023-08-30
# binaryvit:効率良く正確なバイナリビジョントランスフォーマーを目指して

BinaryViT: Towards Efficient and Accurate Binary Vision Transformers ( http://arxiv.org/abs/2305.14730v2 )

ライセンス: Link先を確認
Junrui Xiao, Zhikai Li, Lianwei Yang, Qingyi Gu(参考訳) ビジョントランスフォーマー(ViT)は、ほとんどのコンピュータビジョンフィールドの基本的なアーキテクチャとして登場したが、メモリと計算のコストが資源制限されたデバイスへの応用を妨げる。 最も強力な圧縮手法の1つとして、重みとアクティベーション値を$\pm$1に量子化することにより、ニューラルネットワークの計算を減少させる。 既存のバイナライゼーション手法は畳み込みニューラルネットワーク(CNN)では優れた性能を示したが、ViTの完全なバイナライゼーションはまだ未研究であり、大幅な性能低下を被っている。 本報告では,重度性能低下は主に双対化訓練における重み振動とvits活性化における情報歪みによるものであることを実証的に論じる。 これらの分析に基づいて、VTTの量子化を極限まで押し上げる精度の高い完全双項化スキームである$\textbf{BinaryViT}$を提案する。 具体的には、重みのバイモーダル分布を駆動し、バイナライズ訓練における振動を低減するための新しい勾配正規化スキーム(GRS)を提案する。 さらに,2値化による情報歪みを低減するために,アクティベーション分布を適応的に調整するアクティベーションシフトモジュール(asm)を設計する。 ImageNetデータセットの大規模な実験によると、BinaryViTは強いベースラインを2.05%上回り、完全に二項化されたViTの精度を使用可能なレベルに向上しています。 さらに,本手法はモデルサイズとOPの16.2$\times$と17.7$\times$を,完全精度のDeiT-Sと比較した。

Vision Transformers (ViTs) have emerged as the fundamental architecture for most computer vision fields, but the considerable memory and computation costs hinders their application on resource-limited devices. As one of the most powerful compression methods, binarization reduces the computation of the neural network by quantizing the weights and activation values as $\pm$1. Although existing binarization methods have demonstrated excellent performance on Convolutional Neural Networks (CNNs), the full binarization of ViTs is still under-studied and suffering a significant performance drop. In this paper, we first argue empirically that the severe performance degradation is mainly caused by the weight oscillation in the binarization training and the information distortion in the activation of ViTs. Based on these analyses, we propose $\textbf{BinaryViT}$, an accurate full binarization scheme for ViTs, which pushes the quantization of ViTs to the limit. Specifically, we propose a novel gradient regularization scheme (GRS) for driving a bimodal distribution of the weights to reduce oscillation in binarization training. Moreover, we design an activation shift module (ASM) to adaptively tune the activation distribution to reduce the information distortion caused by binarization. Extensive experiments on ImageNet dataset show that our BinaryViT consistently surpasses the strong baseline by 2.05% and improve the accuracy of fully binarized ViTs to a usable level. Furthermore, our method achieves impressive savings of 16.2$\times$ and 17.7$\times$ in model size and OPs compared to the full-precision DeiT-S.
翻訳日:2023-08-31 17:02:56 公開日:2023-08-30
# プログレッシブ・シャープニング, フラット・ミニマおよび一般化について

On progressive sharpening, flat minima and generalisation ( http://arxiv.org/abs/2305.14683v2 )

ライセンス: Link先を確認
Lachlan Ewen MacDonald and Jack Valmadre and Simon Lucey(参考訳) 深層学習における損失曲率と入出力モデル行動の関係を理解するための新しい手法を提案する。 具体的には,ディープニューラルネットワークの損失ヒューシアンと入力出力ジャコビアンとをトレーニング中のトレーニングサンプルに結合したアンサッツを接地するために,ディープネットワーク損失ヘッシアンスペクトルの既存の経験的解析を用いる。 次に、モデルの入力出力ジャコビアンがデータ分布上のそのリプシッツノルムを近似する程度を定量化する一連の理論結果を証明し、経験的ヤコビアンによって束縛された新しい一般化を導出する。 我々はansatzを理論的な結果とともに利用し、最近観測されたプログレッシブ・シャープニング現象とフラット・ミニマの一般化特性について新しい説明を与える。 我々の主張を検証するための実験的な証拠が提供される。

We present a new approach to understanding the relationship between loss curvature and input-output model behaviour in deep learning. Specifically, we use existing empirical analyses of the spectrum of deep network loss Hessians to ground an ansatz tying together the loss Hessian and the input-output Jacobian of a deep neural network over training samples throughout training. We then prove a series of theoretical results which quantify the degree to which the input-output Jacobian of a model approximates its Lipschitz norm over a data distribution, and deduce a novel generalisation bound in terms of the empirical Jacobian. We use our ansatz, together with our theoretical results, to give a new account of the recently observed progressive sharpening phenomenon, as well as the generalisation properties of flat minima. Experimental evidence is provided to validate our claims.
翻訳日:2023-08-31 17:02:27 公開日:2023-08-30
# iWarpGAN: 合成アイリス画像を生成するためのアイデンティティとスタイルの分離

iWarpGAN: Disentangling Identity and Style to Generate Synthetic Iris Images ( http://arxiv.org/abs/2305.12596v2 )

ライセンス: Link先を確認
Shivangi Yadav and Arun Ross(参考訳) GAN(Generative Adversarial Networks)は、合成画像生成のための複雑な分布の近似に成功している。 しかし、現在のGANベースの虹彩などの生体画像生成法には、一定の制限がある。 (a) 合成画像は、訓練データセット内の画像によく似ていることが多い。 (b)生成した画像は、それらに代表される独特なアイデンティティの数に関して多様性を欠いている。 (c)同一の同一性に係る複数の画像を生成することは困難である。 これらの課題を解決するために,iWarpGANを提案する。iWarpGANは2つの変換経路を用いてアイリスモダリティの文脈でアイデンティティとスタイルをアンタングルし,トレーニングセットからユニークなアイデンティティを生成するID変換パスと,参照画像からスタイルコードを抽出し,このスタイルを用いてアイリスイメージを出力するスタイル変換パスである。 iWarpGANは変換されたアイデンティティコードと参照スタイルコードを組み合わせることで、クラス間およびクラス内の両方のバリエーションでアイリス画像を生成する。 提案手法の有効性をISO/IEC 29794-6標準品質測定値とVeriEye iris matcherを用いて定性的かつ定量的に評価した。 さらに、学習過程で実データで合成データを増強するディープラーニングベースの虹彩マッチング器の性能を向上させることにより、合成画像の有用性を実証する。

Generative Adversarial Networks (GANs) have shown success in approximating complex distributions for synthetic image generation. However, current GAN-based methods for generating biometric images, such as iris, have certain limitations: (a) the synthetic images often closely resemble images in the training dataset; (b) the generated images lack diversity in terms of the number of unique identities represented in them; and (c) it is difficult to generate multiple images pertaining to the same identity. To overcome these issues, we propose iWarpGAN that disentangles identity and style in the context of the iris modality by using two transformation pathways: Identity Transformation Pathway to generate unique identities from the training set, and Style Transformation Pathway to extract the style code from a reference image and output an iris image using this style. By concatenating the transformed identity code and reference style code, iWarpGAN generates iris images with both inter- and intra-class variations. The efficacy of the proposed method in generating such iris DeepFakes is evaluated both qualitatively and quantitatively using ISO/IEC 29794-6 Standard Quality Metrics and the VeriEye iris matcher. Further, the utility of the synthetically generated images is demonstrated by improving the performance of deep learning based iris matchers that augment synthetic data with real data during the training process.
翻訳日:2023-08-31 17:02:09 公開日:2023-08-30
# 音質測定値:画像の質測定値から音質測定値がわかる

What You Hear Is What You See: Audio Quality Metrics From Image Quality Metrics ( http://arxiv.org/abs/2305.11582v2 )

ライセンス: Link先を確認
Tashi Namgyal, Alexander Hepburn, Raul Santos-Rodriguez, Valero Laparra, Jesus Malo(参考訳) 本研究では,映像知覚指標を用いて音響信号の評価を行い,それをスペクトログラムとして表現することの実現可能性について検討する。 提案手法の促進的結果は、聴覚経路と視覚経路における神経機構の類似性に基づいている。 さらに,音響信号の特異性を考慮し,心理音響学的に妥当な構造を持つ指標の1つをカスタマイズする。 提案手法の有効性を音楽データセットを用いて評価し,その評価値と人間の評価値との相関関係について有望な結果を得た。

In this study, we investigate the feasibility of utilizing state-of-the-art image perceptual metrics for evaluating audio signals by representing them as spectrograms. The encouraging outcome of the proposed approach is based on the similarity between the neural mechanisms in the auditory and visual pathways. Furthermore, we customise one of the metrics which has a psychoacoustically plausible architecture to account for the peculiarities of sound signals. We evaluate the effectiveness of our proposed metric and several baseline metrics using a music dataset, with promising results in terms of the correlation between the metrics and the perceived quality of audio as rated by human evaluators.
翻訳日:2023-08-31 17:01:46 公開日:2023-08-30
# segvitv2:プレーンビジョントランスフォーマーによる効率的かつ連続的な意味セグメンテーションの検討

SegViTv2: Exploring Efficient and Continual Semantic Segmentation with Plain Vision Transformers ( http://arxiv.org/abs/2306.06289v2 )

ライセンス: Link先を確認
Bowen Zhang, Liyang Liu, Minh Hieu Phan, Zhi Tian, Chunhua Shen, Yifan Liu(参考訳) 本稿では,エンコーダ・デコーダフレームワークを用いた意味的セグメンテーションのためのプレーンビジョントランスフォーマー(ViTs)の機能について検討し,それを紹介する。 本研究では,平易なViTに有効な軽量デコーダを設計するための新しいアテンション・トゥ・マスク (\atm) モジュールを提案する。 提案したATMは,グローバルアテンションマップをセグメンテーション結果のセグメンテーションマスクに変換する。 我々のデコーダは、様々な ViT バックボーンを使用して一般的なデコーダ UPerNet よりも優れ、計算コストの約 5 % しか消費しない。 エンコーダでは、ViTベースのエンコーダの比較的高い計算コストの懸念に対処し、エッジ対応クエリベースのダウンサンプリング(EQD)とクエリベースのアップサンプリング(QU)モジュールを組み込んだ \emph{Shrunk++} 構造を提案する。 shrunk++の構造は、競合性能を維持しつつ、エンコーダの計算コストを最大$50\%$削減する。 さらに,SegViTを連続的セマンティックセグメンテーションに適用し,学習前の知識をほとんど忘れないことを実証する。 提案するsegvitv2は,ade20k,coco-stuff-10k,pascal-contextデータセットの3つのベンチマークにおいて,近年のセグメンテーション手法を上回っている。 コードは以下のリンクで利用可能である。

This paper investigates the capability of plain Vision Transformers (ViTs) for semantic segmentation using the encoder-decoder framework and introduces \textbf{SegViTv2}. In this study, we introduce a novel Attention-to-Mask (\atm) module to design a lightweight decoder effective for plain ViT. The proposed ATM converts the global attention map into semantic masks for high-quality segmentation results. Our decoder outperforms the popular decoder UPerNet using various ViT backbones while consuming only about $5\%$ of the computational cost. For the encoder, we address the concern of the relatively high computational cost in the ViT-based encoders and propose a \emph{Shrunk++} structure that incorporates edge-aware query-based down-sampling (EQD) and query-based upsampling (QU) modules. The Shrunk++ structure reduces the computational cost of the encoder by up to $50\%$ while maintaining competitive performance. Furthermore, we propose to adapt SegViT for continual semantic segmentation, demonstrating nearly zero forgetting of previously learned knowledge. Experiments show that our proposed SegViTv2 surpasses recent segmentation methods on three popular benchmarks including ADE20k, COCO-Stuff-10k and PASCAL-Context datasets. The code is available through the following link: \url{https://github.com/zbwxp/SegVit}.
翻訳日:2023-08-31 16:54:38 公開日:2023-08-30
# DeltaNN:画像認識モデルの性能に及ぼす計算環境パラメータの影響の評価

DeltaNN: Assessing the Impact of Computational Environment Parameters on the Performance of Image Recognition Models ( http://arxiv.org/abs/2306.06208v3 )

ライセンス: Link先を確認
Nikolaos Louloudakis, Perry Gibson, Jos\'e Cano, and Ajitha Rajan(参考訳) 画像認識タスクは一般的にディープラーニングを使用し、膨大な処理能力を必要とするため、高速でタイムリーな処理にはGPUやTPUなどのハードウェアアクセラレータに依存する。 リアルタイム画像認識タスクの失敗は、モデル展開中にハードウェアアクセラレーターのサブ最適マッピングによって起こり、タイミングの不確実性と誤動作を引き起こす可能性がある。 ハードウェアアクセラレータのマッピングは、ディープラーニングフレームワークやコンパイラ、デバイスライブラリなど、複数のソフトウェアコンポーネントを使用して行われます。 自律運転や医用画像などの安全クリティカルなアプリケーションにおける画像認識タスクの利用の増加により、ディープラーニングフレームワークやコンパイラ最適化、ハードウェアデバイスなどのパラメータがモデル性能や正確性に与える影響が十分に理解されていないため、計算環境の変化に対する彼らの堅牢性を評価することが不可欠である。 本稿では,差分テストフレームワーク DeltaNN を提案する。これによって,異なる計算環境パラメータが,展開中の画像認識モデルの性能,ポストトレーニングに与える影響を評価することができる。 DeltaNNは、ディープラーニングフレームワーク、コンパイラ最適化、ハードウェアデバイスなど、環境パラメータの変化に対する所定の画像認識モデルの異なる実装を生成し、結果としてモデルパフォーマンスの違いを分析する。 deltannを用いて,imagenetデータセットを用いた3つの人気のある画像認識モデルのロバスト性解析を行う。 異なる設定における誤分類や推論時間の違いによる影響を報告する。 合計で、ディープラーニングフレームワーク全体で最大72%のアウトプットラベルの差異を観測し、コンパイラの最適化を適用する場合、推論時間に関して予想外のパフォーマンス低下を最大81%観察した。

Image recognition tasks typically use deep learning and require enormous processing power, thus relying on hardware accelerators like GPUs and TPUs for fast, timely processing. Failure in real-time image recognition tasks can occur due to sub-optimal mapping on hardware accelerators during model deployment, which may lead to timing uncertainty and erroneous behavior. Mapping on hardware accelerators is done using multiple software components like deep learning frameworks, compilers, and device libraries, that we refer to as the computational environment. Owing to the increased use of image recognition tasks in safety-critical applications like autonomous driving and medical imaging, it is imperative to assess their robustness to changes in the computational environment, as the impact of parameters like deep learning frameworks, compiler optimizations, and hardware devices on model performance and correctness is not yet well understood. In this paper we present a differential testing framework, DeltaNN, that allows us to assess the impact of different computational environment parameters on the performance of image recognition models during deployment, post training. DeltaNN generates different implementations of a given image recognition model for variations in environment parameters, namely, deep learning frameworks, compiler optimizations and hardware devices and analyzes differences in model performance as a result. Using DeltaNN, we conduct an empirical study of robustness analysis of three popular image recognition models using the ImageNet dataset. We report the impact in terms of misclassifications and inference time differences across different settings. In total, we observed up to 72% output label differences across deep learning frameworks, and up to 81% unexpected performance degradation in terms of inference time, when applying compiler optimizations.
翻訳日:2023-08-31 16:53:47 公開日:2023-08-30
# 画像認識におけるBuggy Deep Learning Framework変換のためのフォールトローカライゼーション

Fault Localization for Buggy Deep Learning Framework Conversions in Image Recognition ( http://arxiv.org/abs/2306.06157v3 )

ライセンス: Link先を確認
Nikolaos Louloudakis, Perry Gibson, Jos\'e Cano, and Ajitha Rajan(参考訳) ディープニューラルネットワーク(dnn)をデプロイする場合、開発者はモデルをディープラーニングフレームワークから別のもの(tensorflowからpytorchなど)に変換することが多い。 しかし、このプロセスはエラーを起こしやすく、ターゲットモデルの精度に影響を及ぼす可能性がある。 画像認識に広く用いられている3つのDNN(MobileNetV2,ResNet101,InceptionV3)に対して,その影響の程度を明らかにするために,よく知られた4つのディープラーニングフレームワーク(PyTorch,Keras,TensorFlow(TF),TFLite)に変換された差分解析を行い,最大72%のモデルクラッシュと出力ラベルの差異を明らかにした。 このような誤りを軽減するため,本研究では,事前学習された画像認識モデルに着目した,バギー深層学習フレームワーク変換のフォールトローカライズと修復への新しいアプローチを提案する。 我々の手法は4段階の分析から成り立っている。 1)変換ツール、 2)モデルパラメータ。 3)モデルハイパーパラメータ、及び 4)グラフ表現。 さらに,検出された障害の障害修復に関する様々な戦略を提案する。 我々は,Apache TVMディープラーニングコンパイラ上で,InceptionV3のTFからTFLiteへの変換のための予備的なフォールトローカライズ解析を行うことにより,本手法を実装した。 提案手法は,重みの精度誤差を導入し,モデルの精度を低下させる共通DNNコンバータツールの欠陥を検出する。 障害ローカライズ後、私たちは問題を修復し、コンバージョンエラーをゼロにしました。

When deploying Deep Neural Networks (DNNs), developers often convert models from one deep learning framework to another (e.g., TensorFlow to PyTorch). However, this process is error-prone and can impact target model accuracy. To identify the extent of such impact, we perform and briefly present a differential analysis against three DNNs widely used for image recognition (MobileNetV2, ResNet101, and InceptionV3) converted across four well-known deep learning frameworks (PyTorch, Keras, TensorFlow (TF), and TFLite), which revealed numerous model crashes and output label discrepancies of up to 72%. To mitigate such errors, we present a novel approach towards fault localization and repair of buggy deep learning framework conversions, focusing on pre-trained image recognition models. Our technique consists of four stages of analysis: 1) conversion tools, 2) model parameters, 3) model hyperparameters, and 4) graph representation. In addition, we propose various strategies towards fault repair of the faults detected. We implement our technique on top of the Apache TVM deep learning compiler, and we test it by conducting a preliminary fault localization analysis for the conversion of InceptionV3 from TF to TFLite. Our approach detected a fault in a common DNN converter tool, which introduced precision errors in weights, reducing model accuracy. After our fault localization, we repaired the issue, reducing our conversion error to zero.
翻訳日:2023-08-31 16:53:11 公開日:2023-08-30
# HypLL: 双曲学習ライブラリ

HypLL: The Hyperbolic Learning Library ( http://arxiv.org/abs/2306.06154v2 )

ライセンス: Link先を確認
Max van Spengler, Philipp Wirth, Pascal Mettes(参考訳) 双曲空間におけるディープラーニングは、機械学習、マルチメディア、コンピュータビジョンの分野で急速に勢いを増している。 深層ネットワークは一般にユークリッド空間で動作し、データが正規格子上にあることを暗黙的に仮定する。 近年の進歩は、特にデータが階層的であり、埋め込み次元がほとんどない場合に、双曲幾何学がディープラーニングに有効な代替基盤を提供することを示している。 しかし、よく知られたディープラーニングライブラリと同様、ハイパーボリックネットワークモジュールを構築するためにアクセス可能なオープンソースライブラリは存在しない。 我々は,双曲学習ライブラリHypLLを紹介し,双曲深層学習の進歩を両立させる。 hypllはpytorch上に構築されており、この新しくてオープンな研究の方向性に広く観客を引き付けるために、使いやすさを重視している。 コードはhttps://github.com/maxvanspengler/hyperbolic_learning_libraryで入手できる。

Deep learning in hyperbolic space is quickly gaining traction in the fields of machine learning, multimedia, and computer vision. Deep networks commonly operate in Euclidean space, implicitly assuming that data lies on regular grids. Recent advances have shown that hyperbolic geometry provides a viable alternative foundation for deep learning, especially when data is hierarchical in nature and when working with few embedding dimensions. Currently however, no accessible open-source library exists to build hyperbolic network modules akin to well-known deep learning libraries. We present HypLL, the Hyperbolic Learning Library to bring the progress on hyperbolic deep learning together. HypLL is built on top of PyTorch, with an emphasis in its design for ease-of-use, in order to attract a broad audience towards this new and open-ended research direction. The code is available at: https://github.com/maxvanspengler/hyperbolic_learning_library.
翻訳日:2023-08-31 16:52:38 公開日:2023-08-30
# 障害物を過ぎる1次元超流の臨界速度を超える定常輸送

Stationary transport above the critical velocity in a one-dimensional superflow past an obstacle ( http://arxiv.org/abs/2306.05048v2 )

ライセンス: Link先を確認
Juliette Huynh and Fr\'ed\'eric H\'ebert and Pierre-\'Elie Larr\'e and Mathias Albert(参考訳) 本研究では, 平均場状態における1次元量子流体の異なる定常流れについて考察する。 我々は,時間依存流から定常拡散流への移行が与えられた臨界速度で起こる超音速状態に着目した。 任意の大きさと強度の局所障害物の存在下で、この臨界速度に対する非摂動的な結果を与える。 さらに、共鳴輸送による超音速状態における超流動性溶液の存在を議論し、量子流体の定常輸送の異なる状態の完全なマップを提供する。

We consider in this work the different possible stationary flows of a one dimensional quantum fluid in the mean-field regime. We focus on the supersonic regime where a transition from a time dependent flow to a stationary diffractive flow occurs at a given critical velocity. We give nonperturbative results for this critical velocity in the presence of a localised obstacle of arbitrary size and strength. In addition, we discuss the existence of superfluid-like solution in the supersonic regime due to resonant transport and provide a complete map of the different regimes of stationary transport of a quantum fluid.
翻訳日:2023-08-31 16:52:14 公開日:2023-08-30
# バックプロパゲーションと注意を組み合わせたトップダウンネットワーク

Top-Down Network Combines Back-Propagation with Attention ( http://arxiv.org/abs/2306.02415v2 )

ライセンス: Link先を確認
Roy Abel, Shimon Ullman(参考訳) 視覚やその他の領域における皮質処理はボトムアップ(BU)と広範なトップダウン(TD)処理を組み合わせる。 TD処理に起因する2つの主要な目標は、学習と注意の誘導である。 これら2つの役割は、異なるメカニズムを通じて現在のネットワークモデルで達成される。 注意指導はしばしばモデルのアーキテクチャを拡張して実施されるが、学習は通常、バックプロパゲーションのような外部学習アルゴリズムによって行われる。 現在の研究では、人間の脳にインスパイアされた単一の統一メカニズムを用いて、上記の2つの機能の統合を提示する。 本稿では,従来のボトムアップネットワークを対称なトップダウンネットワークと統合し,各ネットワークを反復的にガイドし,相互に影響を及ぼすことのできる,新しい対称ボトムアップトップダウンネットワーク構造を提案する。 例えば、マルチタスク学習では、同じトップダウンネットワークが、フィードバック信号を伝達すると同時に、ボトムアップネットワークを誘導して選択されたタスクを実行することによって、トップダウンの注意を喚起する。 標準モデルとは対照的に、学習に外部バックプロパゲーションは使用されない。 代わりに、ボトムアップネットワークとトップダウンネットワークの両方の重みを同時に調整する'Counter-Hebb'学習を提案する。 提案手法は,標準的なマルチタスク学習ベンチマーク上での競合性能を示す。 しかし、既存のメソッドとは異なり、タスク固有のパラメータなしでシングルタスクアーキテクチャとオプティマイザに依存しています。 統合tdプロセスにおいて,注意誘導型マルチタスクと内部学習を効率的に組み合わせることができることを示す結果から,人間の視覚におけるbu処理とtd処理を組み合わせるモデルが示唆された。

Cortical processing, in vision and other domains, combines bottom-up (BU) with extensive top-down (TD) processing. Two primary goals attributed to TD processing are learning and directing attention. These two roles are accomplished in current network models through distinct mechanisms. Attention guidance is often implemented by extending the model's architecture, while learning is typically accomplished by an external learning algorithm such as back-propagation. In the current work, we present an integration of the two functions above, which appear unrelated, using a single unified mechanism inspired by the human brain. We propose a novel symmetric bottom-up top-down network structure that can integrate conventional bottom-up networks with a symmetric top-down counterpart, allowing each network to recurrently guide and influence the other. For example, during multi-task learning, the same top-down network is being used for both learning, via propagating feedback signals, and at the same time also for top-down attention, by guiding the bottom-up network to perform a selected task. In contrast with standard models, no external back-propagation is used for learning. Instead, we propose a 'Counter-Hebb' learning, which adjusts the weights of both the bottom-up and top-down networks simultaneously. We show that our method achieves competitive performance on standard multi-task learning benchmarks. Yet, unlike existing methods, we rely on single-task architectures and optimizers, without any task-specific parameters. The results, which show how attention-guided multi-tasks can be combined efficiently with internal learning in a unified TD process, suggest a possible model for combining BU and TD processing in human vision.
翻訳日:2023-08-31 16:52:06 公開日:2023-08-30
# 逆浄化用予習変圧器

Pre-trained transformer for adversarial purification ( http://arxiv.org/abs/2306.01762v2 )

ライセンス: Link先を確認
Kai Wu, Yujian Betterest Li, Xiaoyu Zhang, Handing Wang, Jing Liu(参考訳) さまざまな日次サービスとしてデプロイされるディープニューラルネットワークがますます多くなっているため、信頼性が不可欠である。 ディープニューラルネットワークが敵の攻撃に対して脆弱で敏感であることは恐ろしいことです。 最近の研究は、通常、敵の訓練や大量のクリーンデータの知識の活用によって堅牢性を強化する。 しかし、実際には、モデルの再訓練と再デプロイには大規模な計算予算が必要であり、オンラインサービスに大きな損失をもたらす。 さらに、ある攻撃の敵例が検出されると、サービスプロバイダには限られた敵例しか利用できないが、多くのクリーンなデータがアクセスできない可能性がある。 上述した問題を踏まえ、凍結した元のサービスモデルに対する特定の攻撃を迅速に防御する新しいシナリオであるRaPiD(Rapid Plug-in Defender)を提案する。 プレトレーニング変圧器モデルの一般化と汎用計算能力に動機づけられ, プレトレーニング変圧器をディフェンダーとして考慮した新しいディフェンダー法cetadを考案した。 特に,CeTaDの1ショット対逆例における有効性と伝達性を評価し,CeTaDの異なる部分の影響とトレーニングデータ条件について検討した。 CeTaDは柔軟性があり、任意の差別化可能なモデルに組み込むことができ、様々な種類の攻撃に適している。

With more and more deep neural networks being deployed as various daily services, their reliability is essential. It's frightening that deep neural networks are vulnerable and sensitive to adversarial attacks, the most common one of which for the services is evasion-based. Recent works usually strengthen the robustness by adversarial training or leveraging the knowledge of an amount of clean data. However, in practical terms, retraining and redeploying the model need a large computational budget, leading to heavy losses to the online service. In addition, when adversarial examples of a certain attack are detected, only limited adversarial examples are available for the service provider, while much clean data may not be accessible. Given the mentioned problems, we propose a new scenario, RaPiD (Rapid Plug-in Defender), which is to rapidly defend against a certain attack for the frozen original service model with limitations of few clean and adversarial examples. Motivated by the generalization and the universal computation ability of pre-trained transformer models, we come up with a new defender method, CeTaD, which stands for Considering Pre-trained Transformers as Defenders. In particular, we evaluate the effectiveness and the transferability of CeTaD in the case of one-shot adversarial examples and explore the impact of different parts of CeTaD as well as training data conditions. CeTaD is flexible, able to be embedded into an arbitrary differentiable model, and suitable for various types of attacks.
翻訳日:2023-08-31 16:51:38 公開日:2023-08-30
# 顔生成のための属性と意味マスクによる条件付き拡散モデル

Conditioning Diffusion Models via Attributes and Semantic Masks for Face Generation ( http://arxiv.org/abs/2306.00914v2 )

ライセンス: Link先を確認
Nico Giambi and Giuseppe Lisanti(参考訳) 深層生成モデルは、現実的な顔の画像を生成する素晴らしい結果を示している。 GANはセマンティックマスクで条件付きで高品質で高忠実な画像を生成することができたが、出力を多様化する能力に欠けていた。 拡散モデルはこの問題を部分的に解決し、同じ条件で様々なサンプルを生成することができる。 本稿では,属性とセマンティックマスクの両方を利用して,高画質かつ制御可能な顔画像を生成することで,拡散モデルのマルチコンディショニング手法を提案する。 また,画素空間ではなく潜在空間に知覚中心の損失重み付けを適用することの影響について検討した。 提案手法は,複数の特徴セットに条件付けを導入し,生成した顔画像のよりきめ細かい制御を保証することによって,従来のアプローチを拡張した。 celeba-hqデータセットのアプローチを評価し,複数の属性とセマンティクス領域のきめ細かい制御を可能にしながら,現実的な多種多様なサンプルを生成することができることを示した。 さらに,異なる条件付け戦略が生成画像の品質と多様性に与える影響を評価するためのアブレーション研究を行った。

Deep generative models have shown impressive results in generating realistic images of faces. GANs managed to generate high-quality, high-fidelity images when conditioned on semantic masks, but they still lack the ability to diversify their output. Diffusion models partially solve this problem and are able to generate diverse samples given the same condition. In this paper, we propose a multi-conditioning approach for diffusion models via cross-attention exploiting both attributes and semantic masks to generate high-quality and controllable face images. We also studied the impact of applying perceptual-focused loss weighting into the latent space instead of the pixel space. Our method extends the previous approaches by introducing conditioning on more than one set of features, guaranteeing a more fine-grained control over the generated face images. We evaluate our approach on the CelebA-HQ dataset, and we show that it can generate realistic and diverse samples while allowing for fine-grained control over multiple attributes and semantic regions. Additionally, we perform an ablation study to evaluate the impact of different conditioning strategies on the quality and diversity of the generated images.
翻訳日:2023-08-31 16:51:15 公開日:2023-08-30
# デジタルモデリング : 初心者が音声3dモデリングにどのようにアプローチするかを探求する

Digital Modeling for Everyone: Exploring How Novices Approach Voice-Based 3D Modeling ( http://arxiv.org/abs/2307.04481v2 )

ライセンス: Link先を確認
Giuseppe Desolda (1), Andrea Esposito (1), Florian M\"uller (2), Sebastian Feger (2) ((1) University of Bari Aldo Moro, Bari, Italy, (2) LMU Munich, Munich, Germany)(参考訳) 3dプリンターのような製造ツールが、より広い社会に届けられるようになり、誰もが手が届くようにデジタル製造を約束している。 実際の製造プロセスは現在、ほとんど自動化されているが、ユーザはまだ複雑な設計アプリケーションに関する知識を必要としており、準備が整ったオブジェクトを作成し、ニーズに適応したり、新しいオブジェクトをスクラッチから設計したりする。 パーソナライズされた3dモデルの設計とカスタマイズの障壁を低くするため,音声ベースの3dモデリングにおける初心者精神モデルを検討し,22名の参加者を対象に,oz研究の忠実度の高いウィザードを実施した。 対象者の心理モデルが音声に基づく3dモデリングにどのように変換されるかを理解するために,収集したデータのテーマ分析を行った。 音声アシスタントの設計上の意味から結論づける。 例えば、曖昧で不完全で間違ったコマンドを扱うこと、シンプルで複合的なオブジェクトを形作るための簡単なコマンドセットを提供すること、3dオブジェクトを選択するためのさまざまな戦略を提供すること。

Manufacturing tools like 3D printers have become accessible to the wider society, making the promise of digital fabrication for everyone seemingly reachable. While the actual manufacturing process is largely automated today, users still require knowledge of complex design applications to produce ready-designed objects and adapt them to their needs or design new objects from scratch. To lower the barrier to the design and customization of personalized 3D models, we explored novice mental models in voice-based 3D modeling by conducting a high-fidelity Wizard of Oz study with 22 participants. We performed a thematic analysis of the collected data to understand how the mental model of novices translates into voice-based 3D modeling. We conclude with design implications for voice assistants. For example, they have to: deal with vague, incomplete and wrong commands; provide a set of straightforward commands to shape simple and composite objects; and offer different strategies to select 3D objects.
翻訳日:2023-08-31 16:45:06 公開日:2023-08-30
# LiDARデータを用いた埋設考古学構造物のセマンティックセグメンテーション手法のトランファー学習

Tranfer Learning of Semantic Segmentation Methods for Identifying Buried Archaeological Structures on LiDAR Data ( http://arxiv.org/abs/2307.03512v3 )

ライセンス: Link先を確認
Gregory Sech, Paolo Soleni, Wouter B. Verschoof-van der Vaart, \v{Z}iga Kokalj, Arianna Traviglia, Marco Fiorucci(参考訳) 考古学的な研究において、深層学習をリモートセンシングデータに適用する際には、トレーニングモデルに適したデータセットが限られている。 転送学習の応用は、この欠点を軽減するために頻繁に用いられる。 しかし、異なる考古学的データセットに適用する場合、その有効性を調べる必要がある。 本稿では,2つのlidarデータセット上の2つの意味セグメンテーション深層ニューラルネットワークを用いた,転送学習構成の性能比較を行う。 実験結果から, 考古学における伝達学習に基づくアプローチは, 体系的な拡張がまだ観察されていないものの, 性能改善につながる可能性が示唆された。 我々は,今後の研究のベースラインとして機能する技術の有効性について,具体的な知見を提供する。

When applying deep learning to remote sensing data in archaeological research, a notable obstacle is the limited availability of suitable datasets for training models. The application of transfer learning is frequently employed to mitigate this drawback. However, there is still a need to explore its effectiveness when applied across different archaeological datasets. This paper compares the performance of various transfer learning configurations using two semantic segmentation deep neural networks on two LiDAR datasets. The experimental results indicate that transfer learning-based approaches in archaeology can lead to performance improvements, although a systematic enhancement has not yet been observed. We provide specific insights about the validity of such techniques that can serve as a baseline for future works.
翻訳日:2023-08-31 16:44:47 公開日:2023-08-30
# 機械学習による第2次世界大戦の暗号分類

Classifying World War II Era Ciphers with Machine Learning ( http://arxiv.org/abs/2307.00501v2 )

ライセンス: Link先を確認
Brooke Dalton and Mark Stamp(参考訳) 暗号文のみ利用可能な場合,機械学習とディープラーニング技術が選択した第2次世界大戦時代の暗号を分類できる精度を決定する。 種小名はenigma, m-209, sigaba, purple, typexである。 我々は、SVM(Support Vector Machines)、$k$-Nearest Neighbors(k$-NN)、Random Forest(RF)の3つの古典的な機械学習モデルで実験を行った。 また、MLP(Multi-Layer Perceptrons)、LSTM(Long Short-Term Memory)、ELM(Extreme Learning Machines)、CNN(Convolutional Neural Networks)の4つのディープラーニングニューラルネットワークモデルについても実験を行った。 各モデルはヒストグラム、ダイアグラム、生の暗号文の文字配列からなる特徴に基づいて訓練される。 さらに、分類問題は、固定キー付き固定平文、固定キー付きランダム平文、ランダムキー付き固定平文、ランダムキー付きランダム平文の4つの異なるシナリオで検討されている。 最も現実的なシナリオでは、暗号文ごとに1000文字を与えられた場合、97%以上の精度で暗号を識別できる。 さらに,学習手法のサブセットの精度を,暗号文メッセージの長さの関数として考慮する。 意外なことに、私たちの古典的な機械学習モデルは、ディープラーニングモデルと同様に少なくとも機能します。 また、設計においてより類似している暗号は区別が難しいが、期待したほど難しいものではないこともわかりました。

We determine the accuracy with which machine learning and deep learning techniques can classify selected World War II era ciphers when only ciphertext is available. The specific ciphers considered are Enigma, M-209, Sigaba, Purple, and Typex. We experiment with three classic machine learning models, namely, Support Vector Machines (SVM), $k$-Nearest Neighbors ($k$-NN), and Random Forest (RF). We also experiment with four deep learning neural network-based models: Multi-Layer Perceptrons (MLP), Long Short-Term Memory (LSTM), Extreme Learning Machines (ELM), and Convolutional Neural Networks (CNN). Each model is trained on features consisting of histograms, digrams, and raw ciphertext letter sequences. Furthermore, the classification problem is considered under four distinct scenarios: Fixed plaintext with fixed keys, random plaintext with fixed keys, fixed plaintext with random keys, and random plaintext with random keys. Under the most realistic scenario, given 1000 characters per ciphertext, we are able to distinguish the ciphers with greater than 97% accuracy. In addition, we consider the accuracy of a subset of the learning techniques as a function of the length of the ciphertext messages. Somewhat surprisingly, our classic machine learning models perform at least as well as our deep learning models. We also find that ciphers that are more similar in design are somewhat more challenging to distinguish, but not as difficult as might be expected.
翻訳日:2023-08-31 16:44:13 公開日:2023-08-30
# ダイヤモンド中のスズ空洞量子ビットのマイクロ波スピン制御

Microwave Spin Control of a Tin-Vacancy Qubit in Diamond ( http://arxiv.org/abs/2306.13199v2 )

ライセンス: Link先を確認
Eric I. Rosenthal, Christopher P. Anderson, Hannah C. Kleidermacher, Abigail J. Stein, Hope Lee, Jakob Grzesik, Giovanni Scuri, Alison E. Rugar, Daniel Riedel, Shahriar Aghaeimeibodi, Geun Ho Ahn, Kasper Van Gasse, and Jelena Vuckovic(参考訳) ダイヤモンド中の負電荷のスズ空孔(SnV-)中心は、高い量子効率、強いゼロフォノン放出、電気ノイズに対する感度の低下による量子ネットワークへの応用において有望な固体量子ビットである。 snv-は大きなスピン軌道結合を持ち、高温での長いスピン寿命を可能にするが、残念ながら量子制御に必要な磁気双極子遷移を抑制する。 ここでは、自然に歪んだ中心を用いて、この制限を克服し、高忠実度マイクロ波スピン制御を実現する。 我々は,T2echo = 170.0+/-2.8マイクロ秒のHhn-echoコヒーレンス時間と99.51+/0.03%のpiパルス忠実度を示す。 この性能は光学安定性を損なうことなく実現され、1.7ケルビンでは駆動誘導加熱を緩和するために十分な冷却電力が利用できる。 これらの結果は、将来の量子技術のビルディングブロックとしてsnvスピンを使用する道を開く。

The negatively charged tin-vacancy (SnV-) center in diamond is a promising solid-state qubit for applications in quantum networking due to its high quantum efficiency, strong zero phonon emission, and reduced sensitivity to electrical noise. The SnV- has a large spin-orbit coupling, which allows for long spin lifetimes at elevated temperatures, but unfortunately suppresses the magnetic dipole transitions desired for quantum control. Here, by use of a naturally strained center, we overcome this limitation and achieve high-fidelity microwave spin control. We demonstrate a pi-pulse fidelity of up to 99.51+/0.03%$ and a Hahn-echo coherence time of T2echo = 170.0+/-2.8 microseconds, both the highest yet reported for SnV- platform. This performance comes without compromise to optical stability, and is demonstrated at 1.7 Kelvin where ample cooling power is available to mitigate drive induced heating. These results pave the way for SnV- spins to be used as a building block for future quantum technologies.
翻訳日:2023-08-31 16:43:29 公開日:2023-08-30
# selftalk: 自己教師付き可換学習図による3次元対話顔の理解

SelfTalk: A Self-Supervised Commutative Training Diagram to Comprehend 3D Talking Faces ( http://arxiv.org/abs/2306.10799v2 )

ライセンス: Link先を確認
Ziqiao Peng, Yihao Luo, Yue Shi, Hao Xu, Xiangyu Zhu, Jun He, Hongyan Liu, Zhaoxin Fan(参考訳) 音声駆動型3次元顔アニメーション技術とその様々なマルチメディア分野への応用 これまでの研究は、音声信号から現実的な唇の動きと表情を生み出してきた。 しかし、データのみによって駆動される従来の回帰モデルは、正確なラベルへのアクセスの困難や異なるモダリティ間のドメインギャップといったいくつかの重要な問題に直面し、精度と一貫性に欠ける不満足な結果をもたらす。 ラベル付きデータへの依存を低減しつつ、生成した唇の動きの視覚的精度を高めるために、クロスモーダルネットワークシステムに自己監督を組み込んだ新たなフレームワークであるSelfTalkを提案する。 このフレームワークは、顔アニメーター、音声認識、唇読取インタプリタの3つのモジュールからなるネットワークシステムを構築する。 selftalkのコアは、オーディオ、テキスト、唇形状の互換性のある機能を交換し、モデルがこれらの要素間の複雑な接続を学習できるようにする、コンタクティブなトレーニングダイアグラムです。 提案フレームワークは, 唇読解者から学んだ知識を利用して, より可塑性な唇形状を生成する。 広汎な実験とユーザスタディにより,提案手法が質的かつ定量的に,最先端の性能を達成することを示す。 補足ビデオを見ることをお勧めします。

Speech-driven 3D face animation technique, extending its applications to various multimedia fields. Previous research has generated promising realistic lip movements and facial expressions from audio signals. However, traditional regression models solely driven by data face several essential problems, such as difficulties in accessing precise labels and domain gaps between different modalities, leading to unsatisfactory results lacking precision and coherence. To enhance the visual accuracy of generated lip movement while reducing the dependence on labeled data, we propose a novel framework SelfTalk, by involving self-supervision in a cross-modals network system to learn 3D talking faces. The framework constructs a network system consisting of three modules: facial animator, speech recognizer, and lip-reading interpreter. The core of SelfTalk is a commutative training diagram that facilitates compatible features exchange among audio, text, and lip shape, enabling our models to learn the intricate connection between these factors. The proposed framework leverages the knowledge learned from the lip-reading interpreter to generate more plausible lip shapes. Extensive experiments and user studies demonstrate that our proposed approach achieves state-of-the-art performance both qualitatively and quantitatively. We recommend watching the supplementary video.
翻訳日:2023-08-31 16:43:08 公開日:2023-08-30
# TAPIR: フレーム単位の初期化と時間的リファインメントによる任意のポイントの追跡

TAPIR: Tracking Any Point with per-frame Initialization and temporal Refinement ( http://arxiv.org/abs/2306.08637v2 )

ライセンス: Link先を確認
Carl Doersch, Yi Yang, Mel Vecerik, Dilara Gokay, Ankush Gupta, Yusuf Aytar, Joao Carreira, Andrew Zisserman(参考訳) 本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。 提案手法では,(1)他の各フレームのクエリ点に対する適切な候補点マッチングを独立に求めるマッチングステージ,(2)局所相関に基づいて軌跡と問合せ特徴の両方を更新するリファインメントステージの2つのステージを用いる。 結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。 本モデルは,長大かつ高精細な映像系列の高速推論を容易にする。 現代のGPUでは、我々の実装はリアルタイムよりも高速にポイントを追跡でき、フレキシブルに高解像度のビデオに拡張できる。 大規模データセットから抽出した高品質なトラジェクトリを考慮し,静的画像からトラジェクトリを生成する概念拡散モデルの実証を行った。 視覚化、ソースコード、事前訓練されたモデルは、プロジェクトのWebページにある。

We present a novel model for Tracking Any Point (TAP) that effectively tracks any queried point on any physical surface throughout a video sequence. Our approach employs two stages: (1) a matching stage, which independently locates a suitable candidate point match for the query point on every other frame, and (2) a refinement stage, which updates both the trajectory and query features based on local correlations. The resulting model surpasses all baseline methods by a significant margin on the TAP-Vid benchmark, as demonstrated by an approximate 20% absolute average Jaccard (AJ) improvement on DAVIS. Our model facilitates fast inference on long and high-resolution video sequences. On a modern GPU, our implementation has the capacity to track points faster than real-time, and can be flexibly extended to higher-resolution videos. Given the high-quality trajectories extracted from a large dataset, we demonstrate a proof-of-concept diffusion model which generates trajectories from static images, enabling plausible animations. Visualizations, source code, and pretrained models can be found on our project webpage.
翻訳日:2023-08-31 16:42:45 公開日:2023-08-30
# 制約マルコフ決定過程におけるラグランジアンアプローチのためのキャンセラフリーレグレト境界

Cancellation-Free Regret Bounds for Lagrangian Approaches in Constrained Markov Decision Processes ( http://arxiv.org/abs/2306.07001v2 )

ライセンス: Link先を確認
Adrian M\"uller, Pragnya Alatur, Giorgia Ramponi, Niao He(参考訳) CMDP(Constrained Markov Decision Processs)は、制約関数が安全目標をモデル化する安全な強化学習問題をモデル化する一般的な方法の1つである。 ラグランジアンベースの双対あるいは原始双対アルゴリズムはCMDPで学習するための効率的な方法を提供する。 これらのアルゴリズムでは、有限ホリゾン設定の現在知られている後悔の限界は「誤りのカプセル化」を可能にし、あるエピソードで制約違反を補うことができ、別のエピソードでは厳密な制約満足度を保証できる。 しかし,このような行動は実用上安全とは考えていない。 本稿では,この弱点を,表層有限水平CMDPのための新しいモデルベースデュアルアルゴリズムであるOptAug-CMDPを提案する。 本アルゴリズムは拡張ラグランジアン法に動機付けられ,効率的に実行可能である。 CMDPを探索する際の$K$のエピソードにおいて、このアルゴリズムは目的と制約違反の両方に対して$\tilde{O}(\sqrt{K})$の後悔を得る。 既存のラグランジアンアプローチとは異なり、本アルゴリズムは誤りをキャンセルすることなくこの後悔を達成する。

Constrained Markov Decision Processes (CMDPs) are one of the common ways to model safe reinforcement learning problems, where constraint functions model the safety objectives. Lagrangian-based dual or primal-dual algorithms provide efficient methods for learning in CMDPs. For these algorithms, the currently known regret bounds in the finite-horizon setting allow for a "cancellation of errors"; one can compensate for a constraint violation in one episode with a strict constraint satisfaction in another. However, we do not consider such a behavior safe in practical applications. In this paper, we overcome this weakness by proposing a novel model-based dual algorithm OptAug-CMDP for tabular finite-horizon CMDPs. Our algorithm is motivated by the augmented Lagrangian method and can be performed efficiently. We show that during $K$ episodes of exploring the CMDP, our algorithm obtains a regret of $\tilde{O}(\sqrt{K})$ for both the objective and the constraint violation. Unlike existing Lagrangian approaches, our algorithm achieves this regret without the need for the cancellation of errors.
翻訳日:2023-08-31 16:42:25 公開日:2023-08-30
# 大規模言語モデルの自動修正:多様な自己補正戦略の展望

Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies ( http://arxiv.org/abs/2308.03188v2 )

ライセンス: Link先を確認
Liangming Pan, Michael Saxon, Wenda Xu, Deepak Nathani, Xinyi Wang, William Yang Wang(参考訳) 大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。 しかし、その効果は幻覚、不誠実な推論、有害な内容など、望ましくない、一貫性のない行動によって損なわれる。 これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。 LLM自体や外部システムによって生み出される自動フィードバックを活用する技術は、LLMベースのソリューションをより実用的で、最小限のフィードバックでデプロイ可能にする有望な方法であるため、特に興味深い。 本稿では,この新しい手法の包括的レビューを行う。 我々は、トレーニング時間、ジェネレーション時間、ポストホック補正を含む、これらの戦略を利用した様々な最近の研究を分析し、分類する。 また,この戦略の主な応用を要約し,今後の方向性と課題を論じて結論づける。

Large language models (LLMs) have demonstrated remarkable performance across a wide array of NLP tasks. However, their efficacy is undermined by undesired and inconsistent behaviors, including hallucination, unfaithful reasoning, and toxic content. A promising approach to rectify these flaws is self-correction, where the LLM itself is prompted or guided to fix problems in its own output. Techniques leveraging automated feedback -- either produced by the LLM itself or some external system -- are of particular interest as they are a promising way to make LLM-based solutions more practical and deployable with minimal human feedback. This paper presents a comprehensive review of this emerging class of techniques. We analyze and taxonomize a wide array of recent work utilizing these strategies, including training-time, generation-time, and post-hoc correction. We also summarize the major applications of this strategy and conclude by discussing future directions and challenges.
翻訳日:2023-08-31 16:34:04 公開日:2023-08-30
# 視覚・テクスチャデータの複合表現を用いた食品分類

Food Classification using Joint Representation of Visual and Textual Data ( http://arxiv.org/abs/2308.02562v2 )

ライセンス: Link先を確認
Prateek Mittal, Puneet Goyal, Joohi Chauhan(参考訳) 食品分類は医療において重要な課題である。 本研究では,画像分類にmishアクティベーション関数を付加した efficientnet の修正版を用いたマルチモーダル分類フレームワークを提案し,従来の bert transformer ベースのネットワークをテキスト分類に用いた。 提案手法は,大規模なオープンソースデータセットUPMC Food-101を用いて評価した。 実験の結果,提案手法は他の手法よりも優れており,画像分類では11.57%,テキスト分類では6.34%の精度差が見られた。 また,機械学習モデルとディープラーニングモデルの両方を用いて,テキスト分類における精度,精度,リコール性能の比較を行った。 画像とテキストの予測結果の比較分析により,提案手法の有効性と頑健性が示された。

Food classification is an important task in health care. In this work, we propose a multimodal classification framework that uses the modified version of EfficientNet with the Mish activation function for image classification, and the traditional BERT transformer-based network is used for text classification. The proposed network and the other state-of-the-art methods are evaluated on a large open-source dataset, UPMC Food-101. The experimental results show that the proposed network outperforms the other methods, a significant difference of 11.57% and 6.34% in accuracy is observed for image and text classification, respectively, when compared with the second-best performing method. We also compared the performance in terms of accuracy, precision, and recall for text classification using both machine learning and deep learning-based models. The comparative analysis from the prediction results of both images and text demonstrated the efficiency and robustness of the proposed approach.
翻訳日:2023-08-31 16:33:47 公開日:2023-08-30
# CartiMorph:人工膝関節軟骨形態計測のためのフレームワーク

CartiMorph: a framework for automated knee articular cartilage morphometrics ( http://arxiv.org/abs/2308.01981v2 )

ライセンス: Link先を確認
Yongcheng Yao, Junru Zhong, Liping Zhang, Sheheryar Khan, Weitian Chen(参考訳) 人工膝関節軟骨形態計測の枠組みであるCartiMorphを紹介した。 入力として画像を取得し、フル厚さ軟骨損失(FCL)、平均厚さ、表面積、体積の比率を含む軟骨サブリージョンの定量値を生成する。 CartiMorphは階層的な画像特徴表現にディープラーニングモデルのパワーを利用する。 深層学習モデルは、組織セグメンテーション、テンプレート構築、テンプレート・ツー・イメージ登録のために訓練され、検証された。 表面正規化軟骨厚マッピング, FCL推定, およびルールベース軟骨粒度解析の手法を確立した。 軟骨厚図では, 薄い領域と周辺領域では誤差が低かった。 モデルセグメンテーションから得られた量と手動セグメンテーションから得られた量を比較することで,採用セグメンテーションモデルの有効性を評価した。 FCL測定の根平均二乗偏差は8%未満であり, 平均厚さ (Pearson's correlation coefficient $\rho \in [0.82,0.97]$), 表面積$\rho \in [0.82,0.98]$), 体積$\rho \in [0.89,0.98]$) に対して強い相関関係が認められた。 我々は、FCLの測定を以前の研究と比較し、我々の測定が真実から逸脱することを発見した。 本研究は,アトラス法と比較して,ルールベース軟骨解析法の優れた性能を示した。 CartiMorphは、膝関節症に対する画像バイオマーカーの発見を促進する可能性がある。

We introduce CartiMorph, a framework for automated knee articular cartilage morphometrics. It takes an image as input and generates quantitative metrics for cartilage subregions, including the percentage of full-thickness cartilage loss (FCL), mean thickness, surface area, and volume. CartiMorph leverages the power of deep learning models for hierarchical image feature representation. Deep learning models were trained and validated for tissue segmentation, template construction, and template-to-image registration. We established methods for surface-normal-based cartilage thickness mapping, FCL estimation, and rule-based cartilage parcellation. Our cartilage thickness map showed less error in thin and peripheral regions. We evaluated the effectiveness of the adopted segmentation model by comparing the quantitative metrics obtained from model segmentation and those from manual segmentation. The root-mean-squared deviation of the FCL measurements was less than 8%, and strong correlations were observed for the mean thickness (Pearson's correlation coefficient $\rho \in [0.82,0.97]$), surface area ($\rho \in [0.82,0.98]$) and volume ($\rho \in [0.89,0.98]$) measurements. We compared our FCL measurements with those from a previous study and found that our measurements deviated less from the ground truths. We observed superior performance of the proposed rule-based cartilage parcellation method compared with the atlas-based approach. CartiMorph has the potential to promote imaging biomarkers discovery for knee osteoarthritis.
翻訳日:2023-08-31 16:33:33 公開日:2023-08-30
# ランダム化QAOA回路のエントロピー特性

Entropic property of randomized QAOA circuits ( http://arxiv.org/abs/2308.01807v3 )

ライセンス: Link先を確認
A. Yu. Chernyavskiy, B. I. Bantysh(参考訳) 量子近似最適化アルゴリズム (QAOA) は、パラメータ化量子回路を用いてビットストリングをサンプリングすることにより、いくつかのバイナリ目的関数を最小化する。 回路パラメータ(角度)を探索する一般的な最適化手法とは対照的に,ランダムに選択することを検討する。 このアプローチは、Max-Cutを含む2次非拘束スピン最適化(QUSO)問題に対して古典的アルゴリズムより優れているわけではないが、古典的ランダム探索よりも驚くほど有利である。 異なる目的値を得る確率分布を考えると、QUSO問題に対する確率パラメータ QAOA は常に古典的ランダム探索よりも高いエントロピーを与える。 また,分布解析式も提供する。

Quantum approximate optimization algorithm (QAOA) aims to minimize some binary objective function by sampling bitstrings using a parameterized quantum circuit. In contrast to common optimization-based methods for searching circuit parameters (angles), here we consider choosing them at random. Despite the fact that this approach does not outperform classical algorithms for quadratic unconstrained spin optimization (QUSO) problems, including Max-Cut, it surprisingly provides an advantage over the classical random search. Investigation of this effect has led us to the following conjecture: given the probability distribution of obtaining distinct objective values, random parameters QAOA for QUSO problems always gives a higher entropy of this distribution than the classical random search. We also provide an analytical expressions for the distribution.
翻訳日:2023-08-31 16:33:06 公開日:2023-08-30
# 正準アンサンブルにおけるウィグナー関数の半古典近似

Semiclassical approximation of the Wigner function for the canonical ensemble ( http://arxiv.org/abs/2307.16613v2 )

ライセンス: Link先を確認
Marcos Gil de Oliveira and Alfredo Miguel Ozorio de Almeida(参考訳) 量子力学のワイル・ウィグナー表現は、確率分布として作用する位相空間(ウィグナー関数)内の関数内の密度作用素を写像することができる。 統計力学の文脈において、この写像は、熱ウィグナー函数が高温限界におけるボルツマン分布に傾向があるため、古典的な状態から量子状態への遷移を非常に明確にする。 この量子位相空間の一般温度における正準密度作用素の表現を古典軌道の観点から近似し、ワイルプロパゲータの半古典近似のウィック回転によって得られる。 システムの幅広いクラスに対して近似を適用することを可能にする数値スキームも開発されている。 この近似は、1度と2度の自由度を持つ系に対してテストすることで評価され、かなりの範囲のパラメータにおいて熱力学的平均はよく再現されていることを示している。

The Weyl-Wigner representation of quantum mechanics allows one to map the density operator in a function in phase space - the Wigner function - which acts like a probability distribution. In the context of statistical mechanics, this mapping makes the transition from the classical to the quantum regimes very clear, because the thermal Wigner function tends to the Boltzmann distribution in the high temperature limit. We approximate this quantum phase space representation of the canonical density operator for general temperatures in terms of classical trajectories, which are obtained through a Wick rotation of the semiclassical approximation for the Weyl propagator. A numerical scheme which allows us to apply the approximation for a broad class of systems is also developed. The approximation is assessed by testing it against systems with one and two degrees of freedom, which shows that, for a considerable range of parameters, the thermodynamic averages are well reproduced.
翻訳日:2023-08-31 16:32:52 公開日:2023-08-30
# Context-VQA: コンテキスト認識と目的の視覚的質問応答を目指して

Context-VQA: Towards Context-Aware and Purposeful Visual Question Answering ( http://arxiv.org/abs/2307.15745v2 )

ライセンス: Link先を確認
Nandita Naik, Christopher Potts, Elisa Kreiss(参考訳) 視覚的質問応答(VQA)は、インターネットをインタラクティブな方法でアクセスしやすくする可能性があり、画像を見ることができない人々に質問することができる。 しかし、視覚障害者や視力の低い人は、画像が現れるコンテキストを取り入れた画像の説明を好むが、現在のVQAデータセットは分離した画像に焦点を当てている。 VQAモデルは、コンテキストを考慮に入れない限り、人々の要求を満たすために完全には成功しない、と私たちは主張する。 異なるコンテキスト間の区別をさらに動機付け、分析するために、イメージとコンテキスト、特にwebサイトの種類(ショッピングwebサイトなど)を組み合わせるvqaデータセットであるcontext-vqaを紹介する。 質問の種類は文脈によって様々である。 例えば、旅行コンテキストで提示された画像は、平均の2倍、質問は2倍、ソーシャルメディアやニュースのイメージは2.8倍、質問は1.8倍、といった具合です。 また、参加者が画像を見ることができない場合、コンテキスト効果が特に重要であることも分かりました。 これらの結果は、コンテキストが質問の種類に影響を与え、特にアクセシビリティ設定において、VQAモデルが人々の要求に合うようにコンテキストに敏感であることを示す。

Visual question answering (VQA) has the potential to make the Internet more accessible in an interactive way, allowing people who cannot see images to ask questions about them. However, multiple studies have shown that people who are blind or have low-vision prefer image explanations that incorporate the context in which an image appears, yet current VQA datasets focus on images in isolation. We argue that VQA models will not fully succeed at meeting people's needs unless they take context into account. To further motivate and analyze the distinction between different contexts, we introduce Context-VQA, a VQA dataset that pairs images with contexts, specifically types of websites (e.g., a shopping website). We find that the types of questions vary systematically across contexts. For example, images presented in a travel context garner 2 times more "Where?" questions, and images on social media and news garner 2.8 and 1.8 times more "Who?" questions than the average. We also find that context effects are especially important when participants can't see the image. These results demonstrate that context affects the types of questions asked and that VQA models should be context-sensitive to better meet people's needs, especially in accessibility settings.
翻訳日:2023-08-31 16:32:37 公開日:2023-08-30
# 変化検出のための入射神経表現

Implicit neural representation for change detection ( http://arxiv.org/abs/2307.15428v2 )

ライセンス: Link先を確認
Peter Naylor, Diego Di Carlo, Arianna Traviglia, Makoto Yamada and Marco Fiorucci(参考訳) 同じ地理的領域上の2つの異なる期間に得られた一対の3次元空中LiDAR点雲の変化を同定することは、空間被覆の相違と取得システムにおけるノイズの存在により大きな課題となる。 ポイントクラウドの変化を検出する最も一般的なアプローチは、現実世界のアプリケーションでは利用できない広範囲なラベル付きデータを必要とする教師付き手法に基づいている。 これらの問題に対処するために、連続的な形状再構成のためのインプリシトニューラルネットワーク表現(INR)と変化を分類するためのガウス混合モデルという2つのコンポーネントからなる教師なしアプローチを提案する。 INRは、二時間点雲を符号化するためのグリッドに依存しない表現を提供する。 各タイムスタンプでの再構成は任意の空間スケールで比較され、検出能力が大幅に向上する。 本手法を都市スプロールのためのシミュレーションLiDAR点雲からなるベンチマークデータセットに適用する。 このデータセットは、解像度、入力モダリティ、ノイズレベルなど、さまざまな挑戦的なシナリオを包含する。 これにより,本手法を最先端手法と比較し,総合的なマルチシナリオ評価が可能となる。 我々は、結合計量上の交叉において、従来の方法よりも10%のマージンで勝っている。 さらに,本手法を現実のシナリオに応用して,遺跡の不法発掘事例を特定し,現場専門家の知見と比較し,その結果を検証した。

Identifying changes in a pair of 3D aerial LiDAR point clouds, obtained during two distinct time periods over the same geographic region presents a significant challenge due to the disparities in spatial coverage and the presence of noise in the acquisition system. The most commonly used approaches to detecting changes in point clouds are based on supervised methods which necessitate extensive labelled data often unavailable in real-world applications. To address these issues, we propose an unsupervised approach that comprises two components: Implicit Neural Representation (INR) for continuous shape reconstruction and a Gaussian Mixture Model for categorising changes. INR offers a grid-agnostic representation for encoding bi-temporal point clouds, with unmatched spatial support that can be regularised to enhance high-frequency details and reduce noise. The reconstructions at each timestamp are compared at arbitrary spatial scales, leading to a significant increase in detection capabilities. We apply our method to a benchmark dataset comprising simulated LiDAR point clouds for urban sprawling. This dataset encompasses diverse challenging scenarios, varying in resolutions, input modalities and noise levels. This enables a comprehensive multi-scenario evaluation, comparing our method with the current state-of-the-art approach. We outperform the previous methods by a margin of 10% in the intersection over union metric. In addition, we put our techniques to practical use by applying them in a real-world scenario to identify instances of illicit excavation of archaeological sites and validate our results by comparing them with findings from field experts.
翻訳日:2023-08-31 16:32:13 公開日:2023-08-30
# Google Bardのビジュアル理解はどんなものか? オープンチャレンジに関する実証的研究

How Good is Google Bard's Visual Understanding? An Empirical Study on Open Challenges ( http://arxiv.org/abs/2307.15016v2 )

ライセンス: Link先を確認
Haotong Qin, Ge-Peng Ji, Salman Khan, Deng-Ping Fan, Fahad Shahbaz Khan, Luc Van Gool(参考訳) GoogleのBardは、会話型AIの分野で、OpenAIのChatGPTの強力なライバルとして登場した。 特に最近bardは、会話中のテキストプロンプトと並行してビジュアル入力を処理するようにアップデートされた。 Bardのテキスト入力処理における印象的なトラックレコードを考えると、テキスト質問による視覚データ(画像)の理解と解釈の能力を探求する。 この調査は、bardや他の来るべきマルチモーダル生成モデル、特に正確な視覚と言語理解を必要とする複雑なコンピュータビジョン問題に対する新しい洞察と挑戦を披露する可能性を秘めている。 具体的には,Bardの性能を総合的に評価するために,正規,カモフラージュ,医療,水中およびリモートセンシングデータを含む15種類のタスクシナリオに着目した。 私たちの主要な発見は、Bardがいまだにこれらのビジョンシナリオで苦労していることを示している。 この経験的研究は、将来のモデルを進める上で有益であることが証明され、きめ細かいビジュアルデータの理解と解釈の能力が向上することを期待している。 私たちのプロジェクトはhttps://github.com/htqin/GoogleBard-VisUnderstandでリリースされています。

Google's Bard has emerged as a formidable competitor to OpenAI's ChatGPT in the field of conversational AI. Notably, Bard has recently been updated to handle visual inputs alongside text prompts during conversations. Given Bard's impressive track record in handling textual inputs, we explore its capabilities in understanding and interpreting visual data (images) conditioned by text questions. This exploration holds the potential to unveil new insights and challenges for Bard and other forthcoming multi-modal Generative models, especially in addressing complex computer vision problems that demand accurate visual and language understanding. Specifically, in this study, we focus on 15 diverse task scenarios encompassing regular, camouflaged, medical, under-water and remote sensing data to comprehensively evaluate Bard's performance. Our primary finding indicates that Bard still struggles in these vision scenarios, highlighting the significant gap in vision-based understanding that needs to be bridged in future developments. We expect that this empirical study will prove valuable in advancing future models, leading to enhanced capabilities in comprehending and interpreting fine-grained visual data. Our project is released on https://github.com/htqin/GoogleBard-VisUnderstand
翻訳日:2023-08-31 16:31:49 公開日:2023-08-30
# ニューラルネットワークは画像分類で何を学ぶか? 周波数ショートカットの視点から

What do neural networks learn in image classification? A frequency shortcut perspective ( http://arxiv.org/abs/2307.09829v2 )

ライセンス: Link先を確認
Shunxin Wang, Raymond Veldhuis, Christoph Brune, Nicola Strisciuglio(参考訳) 周波数分析は、ニューラルネットワーク(NN)における表現学習のメカニズムを理解するのに有用である。 この領域のほとんどの研究は、回帰タスクのためのnnsの学習ダイナミクスに焦点を当てているが、分類は少ない。 本研究は,後者を実験的に検討し,周波数ショートカットの理解を深める。 まず、異なる周波数帯域に偏りを持つように設計された合成データセットの実験を行う。 この結果から,NNは分類の簡単な解を見つける傾向があり,訓練中に最初に学習するものは,低頻度または高頻度の周波数特性に依存することがわかった。 次に,この現象を自然画像上で確認する。 クラスワイズ周波数特性を測定するための指標と周波数ショートカットの同定方法を提案する。 その結果, 周波数ショートカットはテクスチャベースあるいは形状ベースであり, 目的を最も単純化する方法によって異なることがわかった。 第3に,out-of-distribution (ood) テストセットにおける周波数ショートカットの転送可能性を検証する。 以上の結果から,周波数ショートカットはデータセット間で転送可能であり,モデルキャパシティとデータ拡張によって完全に回避できないことが示唆された。 今後の研究は、頻度ショートカット学習を緩和する効果的なトレーニングスキームに着目することを推奨する。

Frequency analysis is useful for understanding the mechanisms of representation learning in neural networks (NNs). Most research in this area focuses on the learning dynamics of NNs for regression tasks, while little for classification. This study empirically investigates the latter and expands the understanding of frequency shortcuts. First, we perform experiments on synthetic datasets, designed to have a bias in different frequency bands. Our results demonstrate that NNs tend to find simple solutions for classification, and what they learn first during training depends on the most distinctive frequency characteristics, which can be either low- or high-frequencies. Second, we confirm this phenomenon on natural images. We propose a metric to measure class-wise frequency characteristics and a method to identify frequency shortcuts. The results show that frequency shortcuts can be texture-based or shape-based, depending on what best simplifies the objective. Third, we validate the transferability of frequency shortcuts on out-of-distribution (OOD) test sets. Our results suggest that frequency shortcuts can be transferred across datasets and cannot be fully avoided by larger model capacity and data augmentation. We recommend that future research should focus on effective training schemes mitigating frequency shortcut learning.
翻訳日:2023-08-31 16:31:30 公開日:2023-08-30
# 安全アライメントのための発話連鎖を用いた大規模言語モデルの再編成

Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment ( http://arxiv.org/abs/2308.09662v3 )

ライセンス: Link先を確認
Rishabh Bhardwaj, Soujanya Poria(参考訳) 大きな言語モデル(llm)は、次の単語予測目標を最適化するだけで、巨大なマルチタスク機能で世界を席巻した。 それらの特性と符号化された知識が出現すると、有害なアウトプットを生み出すLSMのリスクが増大し、一般向けに拡張性のあるデプロイメントには適さない。 本研究では,red-teamingを行う新しい安全性評価ベンチマークであるred-evalを提案する。 GPT-4 や ChatGPT のようなクローズドソース LLM ベースのシステムを非倫理的に応答し,有害なクエリの 65% 以上と 73% 以上に対して,広くデプロイされたモデルでさえ,CoU (Chain of Utterances) の影響を受けることを示す。 また, RED-EVAL が8つのオープンソース LLM にまたがる一貫性を実証し, レッドチームの86%以上で有害な応答を発生させることを示した。 次に,安全アライメントのためのred-instruct-anアプローチを提案する。 2つの段階を構成する。 1) HARMFULQAデータ収集:CoUを活用することで、幅広いトピックをカバーする1.9Kの有害な質問、9.5Kの安全、7.3KのChatGPTからの有害な会話からなるデータセットを収集する。 2)SAFE-ALIGN: 負の対数類似度を有用な応答よりも最小化し, サンプル損失よりも勾配アクセントにより有害な応答をペナルティ化することにより, LLMの安全アライメントに会話データセットをいかに活用できるかを実証する。 我々のモデルSTARling, 微調整Vicuna-7Bは, RED-EVALおよびHHHベンチマークにおいて, ベースラインモデル(TruthfulQA, MMLU, BBH)の有用性を保ちながら, より安全に整列することが観察された。

Larger language models (LLMs) have taken the world by storm with their massive multi-tasking capabilities simply by optimizing over a next-word prediction objective. With the emergence of their properties and encoded knowledge, the risk of LLMs producing harmful outputs increases, making them unfit for scalable deployment for the public. In this work, we propose a new safety evaluation benchmark RED-EVAL that carries out red-teaming. We show that even widely deployed models are susceptible to the Chain of Utterances-based (CoU) prompting, jailbreaking closed source LLM-based systems such as GPT-4 and ChatGPT to unethically respond to more than 65% and 73% of harmful queries. We also demonstrate the consistency of the RED-EVAL across 8 open-source LLMs in generating harmful responses in more than 86% of the red-teaming attempts. Next, we propose RED-INSTRUCT--An approach for the safety alignment of LLMs. It constitutes two phases: 1) HARMFULQA data collection: Leveraging CoU prompting, we collect a dataset that consists of 1.9K harmful questions covering a wide range of topics, 9.5K safe and 7.3K harmful conversations from ChatGPT; 2) SAFE-ALIGN: We demonstrate how the conversational dataset can be used for the safety alignment of LLMs by minimizing the negative log-likelihood over helpful responses and penalizing over harmful responses by gradient accent over sample loss. Our model STARLING, a fine-tuned Vicuna-7B, is observed to be more safely aligned when evaluated on RED-EVAL and HHH benchmarks while preserving the utility of the baseline models (TruthfulQA, MMLU, and BBH).
翻訳日:2023-08-31 16:25:55 公開日:2023-08-30
# 導波路qed系における二次元原子の絡み合いの発生

Generation of two-giant-atom entanglement in waveguide-QED systems ( http://arxiv.org/abs/2308.08108v2 )

ライセンス: Link先を確認
Xian-Li Yin, Jie-Qiao Liao(参考訳) 一次元導波路に結合した2つの巨大原子間の量子絡み合いの発生について検討する。 それぞれの巨大原子が2つの異なる結合点で導波路と相互作用するため、2つの原子導波路系には3つの異なる結合構造が存在する。 単一結合点に対するウィグナー・ワイスコプフフレームワーク内では、2つの巨大原子の進化を管理する量子マスター方程式が得られている。 各結合構成について、単一励起状態と二重励起状態の2つの異なる原子初期状態を含む2つの巨大原子の絡み合いダイナミクスを研究する。 生成した絡み合いは結合構成、位相シフト、原子初期状態に依存することが示されている。 単一励起初期状態に対して、これら3つのカップリングには、暗黒状態の出現による定常状態の絡み合いが存在する。 二重励起初期状態において、位相シフトを調整することにより、絡み合い突然の出生が観察される。 特に、ネストカップリングの最大絡み合いは、分離されたカップリングと組み合わされたカップリングのものよりも約1桁大きい。 さらに,原子周波数デチューニングが絡み合い発生に及ぼす影響について検討した。 この研究は、量子情報処理に広く応用可能な巨大原子導波路-qed系に基づく量子ネットワークにおける原子絡みの発生と制御に利用できる。

We study the generation of quantum entanglement between two giant atoms coupled to a one-dimensional waveguide. Since each giant atom interacts with the waveguide at two separate coupling points, there exist three different coupling configurations in the two-atom waveguide system: separated, braided, and nested couplings. Within the Wigner-Weisskopf framework for single coupling points, the quantum master equations governing the evolution of the two giant atoms are obtained. For each coupling configuration, the entanglement dynamics of the two giant atoms is studied, including the cases of two different atomic initial states: single- and double-excitation states. It is shown that the generated entanglement depends on the coupling configuration, phase shift, and atomic initial state. For the single-excitation initial state, there exists steady-state entanglement for these three couplings due to the appearance of the dark state. For the double-excitation initial state, an entanglement sudden birth is observed via adjusting the phase shift. In particular, the maximal entanglement for the nested coupling is about one order of magnitude larger than those of separate and braided couplings. In addition, the influence of the atomic frequency detuning on the entanglement generation is studied. This work can be utilized for the generation and control of atomic entanglement in quantum networks based on giant-atom waveguide-QED systems, which have wide potential applications in quantum information processing.
翻訳日:2023-08-31 16:24:47 公開日:2023-08-30
# HHTrack:ハイブリッドアテンションを用いたハイパースペクトル物体追跡

HHTrack: Hyperspectral Object Tracking Using Hybrid Attention ( http://arxiv.org/abs/2308.07016v2 )

ライセンス: Link先を確認
Yuedong Tan(参考訳) ハイパースペクトル画像は、可視RGBバンドを超えて豊富なスペクトル情報を提供し、シーン内のオブジェクトに関する豊富な識別的詳細を提供する。 このようなデータを活用することで、ビジュアルトラッキングのパフォーマンスが向上する可能性がある。 本稿では,ハイブリッドアテンション(HHTrack)に基づくハイパースペクトルオブジェクトトラッカーを提案する。 HHTrackのコアはハイパースペクトルハイブリッドアテンション(HHA)モジュールで、トークンの相互作用を通じて特徴抽出と1つのコンポーネント内の融合を統一する。 ハイパースペクトルバンド融合(HBF)モジュールも導入され、全ハイパースペクトル入力から空間およびスペクトルのシグネチャを選択的に集約する。 広範囲な実験により、hhtrack on benchmark near infrared (nir), red near infrared (red-nir), visible (vis) hyperspectral tracking datasets の最先端性能が実証された。 我々の研究は、頑健な物体追跡を進めるためにトランスフォーマーとハイパースペクトル融合の強度を利用する新しい洞察を提供する。

Hyperspectral imagery provides abundant spectral information beyond the visible RGB bands, offering rich discriminative details about objects in a scene. Leveraging such data has the potential to enhance visual tracking performance. In this paper, we propose a hyperspectral object tracker based on hybrid attention (HHTrack). The core of HHTrack is a hyperspectral hybrid attention (HHA) module that unifies feature extraction and fusion within one component through token interactions. A hyperspectral bands fusion (HBF) module is also introduced to selectively aggregate spatial and spectral signatures from the full hyperspectral input. Extensive experiments demonstrate the state-of-the-art performance of HHTrack on benchmark Near Infrared (NIR), Red Near Infrared (Red-NIR), and Visible (VIS) hyperspectral tracking datasets. Our work provides new insights into harnessing the strengths of transformers and hyperspectral fusion to advance robust object tracking.
翻訳日:2023-08-31 16:24:26 公開日:2023-08-30
# 暗号通貨証券の大型言語モデル:chatgptは弁護士に取って代わることができるか?

Large Language Models in Cryptocurrency Securities Cases: Can ChatGPT Replace Lawyers? ( http://arxiv.org/abs/2308.06032v2 )

ライセンス: Link先を確認
Arianna Trozze, Toby Davies, and Bennett Kleinberg(参考訳) 大規模言語モデル(llm)は、法的システムへのアクセスを強化することができる。 しかし、法的業務遂行におけるその効果に関する実証的研究は乏しい。 我々は、LLMの法的推論と起草能力について研究し、AIが法的プロセスをサポートすることのできる多くの文脈の1つとして、暗号通貨を含む証券ケースを調査した。 検討する a) LLMは、事実のパターンに違反する可能性のある法律を正確に判定することができ、 b)llmに対して弁護士が書いた苦情に基づいて陪審員の意思決定に違いがあるか否か。 我々は実生活の事例からGPT-3.5まで事実パターンをフィードし、シナリオから正しい潜在的な違反を判断し、急激な違反を排除できる能力を評価する。 第二に、陪審員はllmと弁護士が書いた苦情を評価した。 GPT-3.5の法的推論スキルは弱かったが、将来のモデルの改善を期待している。 GPT-3.5は法的な起草に優れており、陪審員の判断は彼らの判断に基づく文書の著者と統計的に有意な関係は無かった。 LLMは法的理由づけを十分に行うことができないため、この段階では弁護士を置き換えることはできない。 しかし、彼らの起草スキル(おそらくは弁護士よりは劣っている)は、法的なサービスコストを下げることで、より多くの個人に正義をもたらすことができる。 我々の研究は、証券法や暗号通貨関連の不正行為と同様に、訴訟におけるllmsの法的起草と推論能力を体系的に研究した最初の研究である。

Large Language Models (LLMs) could enhance access to the legal system. However, empirical research on their effectiveness in conducting legal tasks is scant. We study securities cases involving cryptocurrencies as one of numerous contexts where AI could support the legal process, studying LLMs' legal reasoning and drafting capabilities. We examine whether a) an LLM can accurately determine which laws are potentially being violated from a fact pattern, and b) whether there is a difference in juror decision-making based on complaints written by a lawyer compared to an LLM. We feed fact patterns from real-life cases to GPT-3.5 and evaluate its ability to determine correct potential violations from the scenario and exclude spurious violations. Second, we had mock jurors assess complaints written by the LLM and lawyers. GPT-3.5's legal reasoning skills proved weak, though we expect improvement in future models, particularly given the violations it suggested tended to be correct (it merely missed additional, correct violations). GPT-3.5 performed better at legal drafting, and jurors' decisions were not statistically significantly associated with the author of the document upon which they based their decisions. Because LLMs cannot satisfactorily conduct legal reasoning tasks, they would be unable to replace lawyers at this stage. However, their drafting skills (though, perhaps, still inferior to lawyers), could provide access to justice for more individuals by reducing the cost of legal services. Our research is the first to systematically study LLMs' legal drafting and reasoning capabilities in litigation, as well as in securities law and cryptocurrency-related misconduct.
翻訳日:2023-08-31 16:24:07 公開日:2023-08-30
# WeaverBird: 大規模言語モデル,知識ベース,検索エンジンによる財務意思決定の強化

WeaverBird: Empowering Financial Decision-Making with Large Language Model, Knowledge Base, and Search Engine ( http://arxiv.org/abs/2308.05361v2 )

ライセンス: Link先を確認
Siqiao Xue, Fan Zhou, Yi Xu, Hongyu Zhao, Shuo Xie, Qingyang Dai, Caigao Jiang, James Zhang, Jun Zhou, Dacheng Xiu, Hongyuan Mei(参考訳) 本稿では,金融分野に特化したインテリジェント対話システムweaverbirdを提案する。 本システムでは,金融関連テキストを多用したgptアーキテクチャの大規模言語モデルを採用している。 その結果,我々のシステムは,「インフレーション時に投資をどのように管理すべきか」といった複雑な金融クエリを理解し,インフォームド・レスポンスを提供する能力を持っている。 さらに,本システムは,地域知識ベースと検索エンジンを組み込んで関連情報を検索する。 最終応答は検索結果に条件付けされ、ソースへの適切な引用が含まれ、信頼性が向上する。 金融関連の様々な質問を通じて,我々は他のモデルと比較して,システムの優れた性能を実証した。 私たちのシステムを実際に体験するために、ユーザはhttps://weaverbird.ttic.eduで私たちのライブデモと対話できる。 v=fyV2qQkX6Tc。

We present WeaverBird, an intelligent dialogue system designed specifically for the finance domain. Our system harnesses a large language model of GPT architecture that has been tuned using extensive corpora of finance-related text. As a result, our system possesses the capability to understand complex financial queries, such as "How should I manage my investments during inflation?", and provide informed responses. Furthermore, our system incorporates a local knowledge base and a search engine to retrieve relevant information. The final responses are conditioned on the search results and include proper citations to the sources, thus enjoying an enhanced credibility. Through a range of finance-related questions, we have demonstrated the superior performance of our system compared to other models. To experience our system firsthand, users can interact with our live demo at https://weaverbird.ttic.edu, as well as watch our 2-min video illustration at https://www.youtube.com/watch?v=fyV2qQkX6Tc.
翻訳日:2023-08-31 16:23:38 公開日:2023-08-30
# 波動関数分岐:混合状態から純粋な状態を区別できない場合

Wavefunction branching: when you can't tell pure states from mixed states ( http://arxiv.org/abs/2308.04494v2 )

ライセンス: Link先を確認
Jordan K. Taylor, Ian P. McCulloch(参考訳) 本稿では、時間的進化の下でも対応する混合状態と区別できない量子重ね合わせの波動関数"分岐"の定義を提案する。 我々の定義は解釈から大きく独立しており、枝を区別するよりも多くの局所ゲートを交換する必要がある。 そのような分岐分解を認める状態のいくつかの例を示す。 本定義では, 枝間の相対位相情報取得の試みは, 頻繁な能動的誤り訂正を行わずに失敗し, 枝はよい誤り訂正符号とは事実上逆であり, 枝は自然進化下の時間に, 枝はより分離して成長し, 枝は空間的絡み合いを吸収し, 枝は保存量の存在下では強く, 分岐は効果的な非可逆性をもたらすことを示した。 多体量子状態におけるこれらの分岐分解の同定は、古典性の出現に光を当て、量子/古典境界での実験的実験のためのメトリックを提供し、より長い時間発展シミュレーションを可能にする。 本研究は, 環境・環境の明確な分割のない状況に対する, 環境に起因したデコヒーレンスの基本概念の一般化であると考えている。

We propose a definition of wavefunction "branchings": quantum superpositions which can't be feasibly distinguished from the corresponding mixed state, even under time evolution. Our definition is largely independent of interpretations, requiring only that it takes many more local gates to swap branches than to distinguish them. We give several examples of states admitting such branch decompositions. Under our definition, we show that attempts to get relative-phase information between branches will fail without frequent active error correction, that branches are effectively the opposite of good error-correcting codes, that branches effectively only grow further apart in time under natural evolution, that branches tend to absorb spatial entanglement, that branching is stronger in the presence of conserved quantities, and that branching implies effective irreversibility. Identifying these branch decompositions in many-body quantum states could shed light on the emergence of classicality, provide a metric for experimental tests at the quantum/ classical boundary, and allow for longer numerical time evolution simulations. We see this work as a generalization of the basic ideas of environmentally-induced decoherence to situations with no clear system/ environment split.
翻訳日:2023-08-31 16:22:57 公開日:2023-08-30
# AGIをまだ持っていない理由

Why We Don't Have AGI Yet ( http://arxiv.org/abs/2308.03598v3 )

ライセンス: Link先を確認
Peter Voss and Mladjan Jovanovic(参考訳) 当初のAIのビジョンは、2002年に"Artificial General Intelligence" (AGI) という用語で再認識された。 このビジョンは、人間と同じように、学習し、推論し、問題を解決することができる「シンキングマシン」コンピュータシステムを構築することである。これは、何十年もの間、この分野のほぼすべての人が実践してきた「ナローAI」アプローチとは対照的である。 いくつかの大規模取り組みが名目上AGI(特にDeepMind)に取り組んできたが、純粋に焦点を絞ったAGI開発分野は資金不足や宣伝が進んでいない。 真のAGIが人類に与えうる素晴らしい価値を考えると、これは驚きです。 この分野での努力の重大さに加えて、進歩を妨げる理論的および方法論的なミスステップもいくつかある。 我々は、純粋に統計的アプローチがAGIに結びつく可能性が低い理由を強調し、人間のような適応性と自律学習を達成するために必要ないくつかの重要な認知能力を特定する。 我々は、AGIの進展を確実に遅らせた社会技術的要因の調査を締めくくった。

The original vision of AI was re-articulated in 2002 via the term 'Artificial General Intelligence' or AGI. This vision is to build 'Thinking Machines' - computer systems that can learn, reason, and solve problems similar to the way humans do. This is in stark contrast to the 'Narrow AI' approach practiced by almost everyone in the field over the many decades. While several large-scale efforts have nominally been working on AGI (most notably DeepMind), the field of pure focused AGI development has not been well funded or promoted. This is surprising given the fantastic value that true AGI can bestow on humanity. In addition to the dearth of effort in this field, there are also several theoretical and methodical missteps that are hampering progress. We highlight why purely statistical approaches are unlikely to lead to AGI, and identify several crucial cognitive abilities required to achieve human-like adaptability and autonomous learning. We conclude with a survey of socio-technical factors that have undoubtedly slowed progress towards AGI.
翻訳日:2023-08-31 16:22:34 公開日:2023-08-30
# エージェントモデルに基づく固定ステップ単クロックシミュレーションの形式的仕様用語

Formal specification terminology for demographic agent-based models of fixed-step single-clocked simulations ( http://arxiv.org/abs/2308.13081v2 )

ライセンス: Link先を確認
Atiyah Elsheikh(参考訳) この文書は、デモグラフィの分野におけるエージェントベースモデル(abms)のサブセットの数学的仕様に対する適切な形式的用語を示している。 ABMのシミュレーションは固定ステップの単一クロックパターンに従う。 提案された用語はモデル理解をさらに改善し、仕様のスタンドアロンの方法論として機能し、オプションで重要な(デポジトリの)abmのドキュメントを作成することができる。 それにもかかわらず、さらなる拡張によって、この用語が、多くの曖昧さの源を減少させ、他のモデラーによるモデルの複製を妨げるために、広く使われているモデルドキュメントと通信o.d.プロトコル(grimm and et al., 2020, amouroux et al., 2010)と統合できる可能性は想像できる。 単独の親モデル [gostoli and silverman, 2020] の大部分が簡略化された人口統計モデルドキュメントが,形式用語のイラストとして[elsheikh, 2023b]に別々に公開されている。 このモデルは、Agens.jl julia package [Datseris et al., 2022]に基づくユリア語[Elsheikh, 2023a]で実装された。

This document presents adequate formal terminology for the mathematical specification of a subset of Agent Based Models (ABMs) in the field of Demography. The simulation of the targeted ABMs follows a fixed-step single-clocked pattern. The proposed terminology further improves the model understanding and can act as a stand-alone methodology for the specification and optionally the documentation of a significant set of (demographic) ABMs. Nevertheless, it is imaginable the this terminology probably with further extensions can be merged with the largely-informal widely-used model documentation and communication O.D.D. protocol [Grimm and et al., 2020, Amouroux et al., 2010] to reduce many sources of ambiguity, hindering model replications by other modelers. A published demographic model documentation, largely simplified version of the Lone Parent Model [Gostoli and Silverman, 2020] is separately published in [Elsheikh, 2023b] as illustration for the formal terminology. The model was implemented in the Julia language [Elsheikh, 2023a] based on the Agents.jl julia package [Datseris et al., 2022].
翻訳日:2023-08-31 16:14:25 公開日:2023-08-30
# アイテムレコメンデーションにおける平均埋め込みの整合性について

On the Consistency of Average Embeddings for Item Recommendation ( http://arxiv.org/abs/2308.12767v2 )

ライセンス: Link先を確認
Walid Bendada and Guillaume Salha-Galvan and Romain Hennequin and Thomas Bouab\c{c}a and Tristan Cazenave(参考訳) レコメンダシステムにおける一般的なプラクティスは、ユーザや高レベルの概念を同じ埋め込み空間で表現するための平均的なアイテム埋め込みである。 本稿では,そのような実践の関連性について考察する。 そこで本研究では,建設に使用されるアイテムに対する平均埋込量の一貫性を測定するための,予測精度スコアを提案する。 その後,音楽ストリーミングサービスにおける実世界のデータに対する経験的行動とともに,理論的な設定でこのスコアの数学的表現を解析した。 我々の研究結果は、現実世界の平均値が推奨値と一致していないことを強調し、将来の研究が現実の埋め込みと理論的な前提との整合性を高める道を開いた。

A prevalent practice in recommender systems consists in averaging item embeddings to represent users or higher-level concepts in the same embedding space. This paper investigates the relevance of such a practice. For this purpose, we propose an expected precision score, designed to measure the consistency of an average embedding relative to the items used for its construction. We subsequently analyze the mathematical expression of this score in a theoretical setting with specific assumptions, as well as its empirical behavior on real-world data from music streaming services. Our results emphasize that real-world averages are less consistent for recommendation, which paves the way for future research to better align real-world embeddings with assumptions from our theoretical setting.
翻訳日:2023-08-31 16:14:04 公開日:2023-08-30
# 音声・言語・聴覚科学における一般化可能な機械学習モデルに向けて:サンプルサイズ推定とオーバーフィッティングの削減

Toward Generalizable Machine Learning Models in Speech, Language, and Hearing Sciences: Sample Size Estimation and Reducing Overfitting ( http://arxiv.org/abs/2308.11197v2 )

ライセンス: Link先を確認
Hamzeh Ghasemzadeh, Robert E. Hillman, Daryush D. Mehta(参考訳) この研究の第一の目的は、研究者がより堅牢なネストクロスバリデーション法を使う動機となる定量的証拠を提供することである。 第2の目的は,MLに基づく解析のための電力分析を行うための方法とMATLABコードを提供することである。 モンテカルロシミュレーションは、使用済みのクロスバリデーション法、特徴の判別力、特徴空間の次元、モデルの次元の間の相互作用を定量化するために用いられた。 MLモデルの統計力と統計的信頼度に基づいて,4種類のクロスバリデーション(シングルホールトアウト,10倍,列車バリデーションテスト,ネスト10倍)を比較した。 統計学的に有意な結果を得るために最小のサンプルサイズを決定するためにヌル仮説と代替仮説の分布を用いた({\alpha}=0.05, 1-\b{eta}=0.8)。 モデルの統計的信頼度は、正しい特徴が選択され、最終モデルに含まれる確率として定義された。 分析の結果,単一ホールドアウト法に基づくモデルは非常に低い統計的パワーと統計的信頼性を示し,精度を著しく過大評価した。 逆に、ネストした10倍のクロスバリデーションは、最も高い統計信頼と最も高い統計力をもたらし、その正確さの偏りのない推定を提供した。 単一のホールドアウトで必要なサンプルサイズは、ネストされたクロスバリデーションを使用する場合に必要なものよりも50%高い。 ネストされたクロスバリデーションに基づくモデルの信頼度は、単一のホールドアウトベースのモデルの信頼度より4倍も高かった。 計算モデル、MATLAB符号およびルックアップテーブルは、将来の研究の設計において、サンプルサイズを推定する研究者を支援するために提供される。

This study's first purpose is to provide quantitative evidence that would incentivize researchers to instead use the more robust method of nested cross-validation. The second purpose is to present methods and MATLAB codes for doing power analysis for ML-based analysis during the design of a study. Monte Carlo simulations were used to quantify the interactions between the employed cross-validation method, the discriminative power of features, the dimensionality of the feature space, and the dimensionality of the model. Four different cross-validations (single holdout, 10-fold, train-validation-test, and nested 10-fold) were compared based on the statistical power and statistical confidence of the ML models. Distributions of the null and alternative hypotheses were used to determine the minimum required sample size for obtaining a statistically significant outcome ({\alpha}=0.05, 1-\b{eta}=0.8). Statistical confidence of the model was defined as the probability of correct features being selected and hence being included in the final model. Our analysis showed that the model generated based on the single holdout method had very low statistical power and statistical confidence and that it significantly overestimated the accuracy. Conversely, the nested 10-fold cross-validation resulted in the highest statistical confidence and the highest statistical power, while providing an unbiased estimate of the accuracy. The required sample size with a single holdout could be 50% higher than what would be needed if nested cross-validation were used. Confidence in the model based on nested cross-validation was as much as four times higher than the confidence in the single holdout-based model. A computational model, MATLAB codes, and lookup tables are provided to assist researchers with estimating the sample size during the design of their future studies.
翻訳日:2023-08-31 16:13:32 公開日:2023-08-30
# テンソルネットワーク経路積分による量子相関関数

Quantum correlation functions through tensor network path integral ( http://arxiv.org/abs/2308.10540v2 )

ライセンス: Link先を確認
Amartya Bose(参考訳) テンソルネットワークは歴史的に、固有状態の計算に使用できる波動関数の圧縮表現を提供するのに非常に有用であることが証明されている。 近年,feynman-vernon影響関数を含むダイナミクスのリアルタイム非平衡シミュレーションを実現するために,様々なネットワークを活用できることが示されている。 本研究では、経路積分法を用いて、開量子システムの平衡相関関数を計算するためにテンソルネットワークを利用する。 これらの相関関数は反応速度の計算、応答関数と感受性のシミュレーション、系のスペクトルなどにおいて重要なものである。 量子系に対する溶媒の影響は、非慣習構造が、いわゆる経路振幅行列積状態に適用可能な新しい最適行列積様作用素の設計を動機付ける影響汎関数によって組み込まれている。 この複雑な時間テンソルネットワークパス積分アプローチは、バスと強く相互作用する大規模システムやより低温で長時間のシミュレーションを可能にする経路積分の極めて効率的な表現を提供する。 この手法の設計と実装は、レート理論、対称性スピン相関関数、動的感受性計算、量子熱力学の例とともに議論されている。

Tensor networks have historically proven to be of great utility in providing compressed representations of wave functions that can be used for calculation of eigenstates. Recently, it has been shown that a variety of these networks can be leveraged to make real time non-equilibrium simulations of dynamics involving the Feynman-Vernon influence functional more efficient. In this work, tensor networks are utilized for calculating equilibrium correlation function for open quantum systems using the path integral methodology. These correlation functions are of fundamental importance in calculations of rates of reactions, simulations of response functions and susceptibilities, spectra of systems, etc. The influence of the solvent on the quantum system is incorporated through an influence functional, whose unconventional structure motivates the design of a new optimal matrix product-like operator that can be applied to the so-called path amplitude matrix product state. This complex time tensor network path integral approach provides an exceptionally efficient representation of the path integral enabling simulations for larger systems strongly interacting with baths and at lower temperatures out to longer time. The design and implementation of this method is discussed along with illustrations from rate theory, symmetrized spin correlation functions, dynamical susceptibility calculations and quantum thermodynamics.
翻訳日:2023-08-31 16:13:01 公開日:2023-08-30
# UniM$^2$AE: 自律運転における3次元認識のための統一3次元表現付きマルチモーダルマスク付きオートエンコーダ

UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving ( http://arxiv.org/abs/2308.10421v2 )

ライセンス: Link先を確認
Jian Zou, Tianyu Huang, Guanglei Yang, Zhenhua Guo, Wangmeng Zuo(参考訳) Masked Autoencoders (MAE) は、強力な表現の学習において重要な役割を担い、自律運転に必要な様々な3D知覚タスクに優れた結果をもたらす。 現実の運転シナリオでは、包括的な環境認識のために複数のセンサーをデプロイするのが一般的です。 これらのセンサからマルチモーダル機能を統合することで、リッチで強力な機能を実現することができるが、この統合に対処するMAEメソッドには顕著なギャップがある。 この研究は、自律運転における統一表現空間に適したマルチモーダルマスクオートエンコーダに発展し、2つの異なるモダリティのより効率的な融合を開拓することを目的としている。 画像に固有の意味論とLiDAR点雲の幾何学的複雑さを複雑に結合するために、UniM$^2$AEを提案する。 このモデルは主に2つの設計からなる、強力で単純でマルチモーダルな自己教師付き事前学習フレームワークである。 まず、両モードの特徴を密集した3Dボリューム空間に投影し、鳥の目視(BEV)から高さの寸法を含むように巧みに拡張する。 この拡張により、両方のモダリティの特徴をネイティブモダリティに融合して得られた情報的特徴を、複数のマスクされた入力を再構築するためのバックプロジェクトが可能になる。 第2に,Multi-modal 3D Interactive Module (MMIM) が起動され,対話プロセス中の効率的なモーダル間相互作用が促進される。 unim$^2$aeの有効性を検証するために,nuscenesデータセットを用いた広範な実験を行い,それぞれ1.2\%(nds)と6.5\%(miou)の3dオブジェクト検出とbevマップ分割の強化が示された。 コードはhttps://github.com/hollow-503/UniM2AEで入手できる。

Masked Autoencoders (MAE) play a pivotal role in learning potent representations, delivering outstanding results across various 3D perception tasks essential for autonomous driving. In real-world driving scenarios, it's commonplace to deploy multiple sensors for comprehensive environment perception. While integrating multi-modal features from these sensors can produce rich and powerful features, there is a noticeable gap in MAE methods addressing this integration. This research delves into multi-modal Masked Autoencoders tailored for a unified representation space in autonomous driving, aiming to pioneer a more efficient fusion of two distinct modalities. To intricately marry the semantics inherent in images with the geometric intricacies of LiDAR point clouds, the UniM$^2$AE is proposed. This model stands as a potent yet straightforward, multi-modal self-supervised pre-training framework, mainly consisting of two designs. First, it projects the features from both modalities into a cohesive 3D volume space, ingeniously expanded from the bird's eye view (BEV) to include the height dimension. The extension makes it possible to back-project the informative features, obtained by fusing features from both modalities, into their native modalities to reconstruct the multiple masked inputs. Second, the Multi-modal 3D Interactive Module (MMIM) is invoked to facilitate the efficient inter-modal interaction during the interaction process. Extensive experiments conducted on the nuScenes Dataset attest to the efficacy of UniM$^2$AE, indicating enhancements in 3D object detection and BEV map segmentation by 1.2\%(NDS) and 6.5\% (mIoU), respectively. Code is available at https://github.com/hollow-503/UniM2AE.
翻訳日:2023-08-31 16:12:41 公開日:2023-08-30
# LibriSQA: 新しいデータセットとフレームワークによるフリーフォームとオープンエンドの回答の改善

LibriSQA: Advancing Free-form and Open-ended Spoken Question Answering with a Novel Dataset and Framework ( http://arxiv.org/abs/2308.10390v3 )

ライセンス: Link先を確認
Zihan Zhao, Yiyang Jiang, Heyang Liu, Yanfeng Wang, Yu Wang(参考訳) LLM(Large Language Models)は、多数のドメインやタスクにまたがる可換性を示す一方で、既存のLLMは、特に音声とテキストの特徴間の正確なアライメントと深い相互作用を必要とするSQA(Spoke Question Answering)タスクにおいて、マルチモーダル機能を扱うのに相応しい欠点を示している。 LLMにおけるSQA問題に対処するため、まずLibrispeechから自由形式のオープンエンドLibriSQAデータセットをキュレートした。 どちらの部分も、様々なトピックをカバーする107kのSQAペアを含んでいる。 既存の音声テキストLLMの明快さを考慮し,SQAタスクをLibriSQA上で実行するための軽量なエンドツーエンドフレームワークを提案する。 ASRをSQAフォーマットに書き換えることで、ASRタスクの処理におけるフレームワークの機能をさらに裏付ける。 実験の結果,マルチモーダル情報の整合と理解に対するllmsの適性が高まり,汎用マルチモーダルllmの開発への道筋が開けた。 データセットとデモはhttps://github.com/ZihanZhaoSJTU/LibriSQAで見ることができる。

While Large Language Models (LLMs) have demonstrated commendable performance across a myriad of domains and tasks, existing LLMs still exhibit a palpable deficit in handling multimodal functionalities, especially for the Spoken Question Answering (SQA) task which necessitates precise alignment and deep interaction between speech and text features. To address the SQA challenge on LLMs, we initially curated the free-form and open-ended LibriSQA dataset from Librispeech, comprising Part I with natural conversational formats and Part II encompassing multiple-choice questions followed by answers and analytical segments. Both parts collectively include 107k SQA pairs that cover various topics. Given the evident paucity of existing speech-text LLMs, we propose a lightweight, end-to-end framework to execute the SQA task on the LibriSQA, witnessing significant results. By reforming ASR into the SQA format, we further substantiate our framework's capability in handling ASR tasks. Our empirical findings bolster the LLMs' aptitude for aligning and comprehending multimodal information, paving the way for the development of universal multimodal LLMs. The dataset and demo can be found at https://github.com/ZihanZhaoSJTU/LibriSQA.
翻訳日:2023-08-31 16:12:06 公開日:2023-08-30
# 批判的利用を目指すトレーニング:AI予測を人間の知識に関連付けるための学習

Training Towards Critical Use: Learning to Situate AI Predictions Relative to Human Knowledge ( http://arxiv.org/abs/2308.15700v1 )

ライセンス: Link先を確認
Anna Kawakami, Luke Guerdan, Yanghuidi Cheng, Matthew Lee, Scott Carter, Nikos Arechiga, Kate Glazko, Haiyi Zhu, Kenneth Holstein(参考訳) 成長する研究機関は、トレーニングや搭乗を含むAIベースの意思決定サポートをよりうまく活用する上で、人間をサポートする方法を模索してきた。 既存の研究は、AIの予測目標と人間の意思決定者の目標の両方にきれいにマッピングする基底真理ラベルに対して、それぞれの決定を比較して「適切な信頼」を評価できる意思決定タスクに焦点を当てている。 しかし、この仮定は、現在のAIツール(例えば、社会労働、刑事司法、医療)が配備されている現実世界の多くの環境には当てはまらない。 本稿では,AIモデルでは利用できない知識に対して,人間のAI予測を満足させる能力を中心とした,クリティカルユースというプロセス指向の適切な依存概念を紹介する。 批判的利用を支援するために、我々は複雑な社会的意思決定環境でランダムにオンライン実験を行い、児童虐待のスクリーニングを行う。 この環境でAIによる意思決定を実践する、迅速で低い機会を参加者に提供することで、初心者は経験豊富な労働者と似たAIとの相違パターンを示すようになった。 参加者のAI支援決定に対する説明の質的な検証では、AIモデルがアクセスできない定性的なケースナラティブに基づいて、AI予測にいつ依存するかを学習することが判明した。 我々の発見は、現実世界のAI支援意思決定のためのトレーニングの研究と設計のための新しい質問を開いている。

A growing body of research has explored how to support humans in making better use of AI-based decision support, including via training and onboarding. Existing research has focused on decision-making tasks where it is possible to evaluate "appropriate reliance" by comparing each decision against a ground truth label that cleanly maps to both the AI's predictive target and the human decision-maker's goals. However, this assumption does not hold in many real-world settings where AI tools are deployed today (e.g., social work, criminal justice, and healthcare). In this paper, we introduce a process-oriented notion of appropriate reliance called critical use that centers the human's ability to situate AI predictions against knowledge that is uniquely available to them but unavailable to the AI model. To explore how training can support critical use, we conduct a randomized online experiment in a complex social decision-making setting: child maltreatment screening. We find that, by providing participants with accelerated, low-stakes opportunities to practice AI-assisted decision-making in this setting, novices came to exhibit patterns of disagreement with AI that resemble those of experienced workers. A qualitative examination of participants' explanations for their AI-assisted decisions revealed that they drew upon qualitative case narratives, to which the AI model did not have access, to learn when (not) to rely on AI predictions. Our findings open new questions for the study and design of training for real-world AI-assisted decision-making.
翻訳日:2023-08-31 15:15:52 公開日:2023-08-30
# 非教師なし学習による機械的異種領域の分割

Segmenting mechanically heterogeneous domains via unsupervised learning ( http://arxiv.org/abs/2308.15697v1 )

ライセンス: Link先を確認
Quan Nguyen, Emma Lejeune(参考訳) 生物器官からソフトロボティクスまで、高度に変形可能な材料は自然および工学的なシステムの不可欠な構成要素である。 これらの高変形性材料は異種材料特性を有し、基材不均質性の有無にかかわらず異種変形を経験できる。 近年の多くの研究は、計算モデリングのアプローチが物質的不均一性の結果を理解し予測し、観測された異種歪場を解釈するのに適していると結論づけている。 特に、観察された運動量(例えば変位、ひずみ)を物質的性質と機械的状態に変換する逆解析法の開発には大きな研究がなされてきた。 これらのアプローチの成功にもかかわらず、必ずしも一般化可能ではなく、境界条件の厳密な制御と知識に依存していることが多い。 ここでは、機械学習アプローチの最近の進歩(およびユビキティ)に基づいて、異種材料特性および機械的挙動のパターンを検出するための代替アプローチを検討する。 具体的には、クラスタリングとアンサンブルクラスタリングのための教師なし学習アプローチを検討し、異種領域を特定する。 全体として、これらのアプローチは効果的だが能力には制限がある。 この最初の調査(すべてのデータとコードをこの原稿と一緒に公開する)を通じて、これらの手法をより具体的に機械的データに適用する将来の研究のステージを設定しました。

From biological organs to soft robotics, highly deformable materials are essential components of natural and engineered systems. These highly deformable materials can have heterogeneous material properties, and can experience heterogeneous deformations with or without underlying material heterogeneity. Many recent works have established that computational modeling approaches are well suited for understanding and predicting the consequences of material heterogeneity and for interpreting observed heterogeneous strain fields. In particular, there has been significant work towards developing inverse analysis approaches that can convert observed kinematic quantities (e.g., displacement, strain) to material properties and mechanical state. Despite the success of these approaches, they are not necessarily generalizable and often rely on tight control and knowledge of boundary conditions. Here, we will build on the recent advances (and ubiquity) of machine learning approaches to explore alternative approaches to detect patterns in heterogeneous material properties and mechanical behavior. Specifically, we will explore unsupervised learning approaches to clustering and ensemble clutering to identify heterogeneous regions. Overall, we find that these approaches are effective, yet limited in their abilities. Through this initial exploration (where all data and code is published alongside this manuscript), we set the stage for future studies that more specifically adapt these methods to mechanical data.
翻訳日:2023-08-31 15:15:26 公開日:2023-08-30
# 拡散モデルの興味深い性質:テキスト・画像生成モデルにおける自然攻撃能力評価のための大規模データセット

Intriguing Properties of Diffusion Models: A Large-Scale Dataset for Evaluating Natural Attack Capability in Text-to-Image Generative Models ( http://arxiv.org/abs/2308.15692v1 )

ライセンス: Link先を確認
Takami Sato, Justin Yue, Nanze Chen, Ningfei Wang, Qi Alfred Chen(参考訳) ノイズ化確率拡散モデルは、gansのような以前のモデルよりもよりフォトリアリスティックな画像や人間レベルのイラストを生成できる画期的な性能を示している。 この高い画像生成能力は、様々な領域における多くの下流アプリケーションの作成を刺激した。 人間の視覚システム(HVS)に不可欠な、頑丈な機能を意図的に取り除いても、最先端のディープニューラルネットワーク(DNN)モデルが予測を維持できるという発見に基づいて、Natural Denoising Diffusion(NDD)攻撃と呼ばれる新たなタイプの攻撃を、テキストプロンプトによって特定する。 ndd攻撃は、拡散モデルにおける自然な攻撃能力を利用して、低コスト、モデル非依存、転送可能な敵攻撃を生成することができる。 そこで本研究では,ndda(natural denoising diffusion attack)データセットを構築し,最先端のテキストから画像への拡散モデルを用いて,拡散モデルの自然攻撃能力のリスクを体系的に評価する。 我々は,6つの研究課題に答えることで,自然攻撃能力を評価する。 ndd攻撃の妥当性を確認するためのユーザ調査の結果,ndd攻撃は93%の被験者にステルス状態で88%の検出率を達成できることがわかった。 また,拡散モデルに埋め込まれた非ロバスト特徴が自然攻撃能力に寄与することがわかった。 モデル非依存かつ移動可能な攻撃能力を確認するため、AD車両に対するNDD攻撃を行い、物理的に印刷された攻撃の73%を停止標識として検出する。 我々の研究とデータセットが、拡散モデルのリスクを認識し、堅牢なDNNモデルに向けたさらなる研究を促進することを願っている。

Denoising probabilistic diffusion models have shown breakthrough performance that can generate more photo-realistic images or human-level illustrations than the prior models such as GANs. This high image-generation capability has stimulated the creation of many downstream applications in various areas. However, we find that this technology is indeed a double-edged sword: We identify a new type of attack, called the Natural Denoising Diffusion (NDD) attack based on the finding that state-of-the-art deep neural network (DNN) models still hold their prediction even if we intentionally remove their robust features, which are essential to the human visual system (HVS), by text prompts. The NDD attack can generate low-cost, model-agnostic, and transferrable adversarial attacks by exploiting the natural attack capability in diffusion models. Motivated by the finding, we construct a large-scale dataset, Natural Denoising Diffusion Attack (NDDA) dataset, to systematically evaluate the risk of the natural attack capability of diffusion models with state-of-the-art text-to-image diffusion models. We evaluate the natural attack capability by answering 6 research questions. Through a user study to confirm the validity of the NDD attack, we find that the NDD attack can achieve an 88% detection rate while being stealthy to 93% of human subjects. We also find that the non-robust features embedded by diffusion models contribute to the natural attack capability. To confirm the model-agnostic and transferrable attack capability, we perform the NDD attack against an AD vehicle and find that 73% of the physically printed attacks can be detected as a stop sign. We hope that our study and dataset can help our community to be aware of the risk of diffusion models and facilitate further research toward robust DNN models.
翻訳日:2023-08-31 15:14:49 公開日:2023-08-30
# CongNaMul:大豆スプラッツの高度な画像処理のためのデータセット

CongNaMul: A Dataset for Advanced Image Processing of Soybean Sprouts ( http://arxiv.org/abs/2308.15690v1 )

ライセンス: Link先を確認
Byunghyun Ban, Donghun Ryu, Su-won Hwang(参考訳) ダイズ発芽画像解析における様々なタスクを対象とした包括的データセット「CongNaMul」を提案する。 congnamulデータセットは、画像分類、セマンティックセグメンテーション、分解、長さと重量の測定などのタスクを容易にするためにキュレートされる。 分類タスクは、ai支援自動品質検査技術の開発のために、大豆芽の品質を決定する4つのクラス(正常、破砕、斑点、破砕、斑点)を提供する。 セマンティックセグメンテーションには、単一のスプルート画像から複数のスプルート画像までの様々な複雑さを持つ画像と、人間のラベル付きマスク画像が含まれる。 レーベルには、バックグラウンド、ヘッド、ボディ、テールの4つのクラスがある。 データセットは画像分解タスク用のイメージとマスクも提供しており、2つのsproutイメージとそれらの組み合わせフォームを含んでいる。 最後に, 頭部, 体長, 体厚, 尾長, 体重の5つの物理的特徴が, 画像に基づく計測作業のために提供される。 このデータセットは、大豆の発芽画像の高度な解析において、幅広い研究や応用のための貴重な資源として期待されている。 また,本データセットは,他の産業分野における分類,セマンティックセグメンテーション,分解,物理的特徴測定の研究者によるモデル評価を支援することを期待する。 データセットは著者のリポジトリから入手可能だ。 (https://bhban.kr/data)

We present 'CongNaMul', a comprehensive dataset designed for various tasks in soybean sprouts image analysis. The CongNaMul dataset is curated to facilitate tasks such as image classification, semantic segmentation, decomposition, and measurement of length and weight. The classification task provides four classes to determine the quality of soybean sprouts: normal, broken, spotted, and broken and spotted, for the development of AI-aided automatic quality inspection technology. For semantic segmentation, images with varying complexity, from single sprout images to images with multiple sprouts, along with human-labelled mask images, are included. The label has 4 different classes: background, head, body, tail. The dataset also provides images and masks for the image decomposition task, including two separate sprout images and their combined form. Lastly, 5 physical features of sprouts (head length, body length, body thickness, tail length, weight) are provided for image-based measurement tasks. This dataset is expected to be a valuable resource for a wide range of research and applications in the advanced analysis of images of soybean sprouts. Also, we hope that this dataset can assist researchers studying classification, semantic segmentation, decomposition, and physical feature measurement in other industrial fields, in evaluating their models. The dataset is available at the authors' repository. (https://bhban.kr/data)
翻訳日:2023-08-31 15:13:32 公開日:2023-08-30
# 不確実性分析と大規模言語モデルによるアクティブ質問による対話型ロボット行動計画

Interactively Robot Action Planning with Uncertainty Analysis and Active Questioning by Large Language Model ( http://arxiv.org/abs/2308.15684v1 )

ライセンス: Link先を確認
Kazuki Hori, Kanata Suzuki, Tetsuya Ogata(参考訳) ロボット行動計画への大規模言語モデル(llm)の適用は活発に研究されている。 自然言語によるLLMへの指示には、タスクコンテキストによる曖昧さと情報の欠如が含まれる。 命令入力をより詳細にすることでllmの出力を調整することができるが、設計コストは高い。 本稿では,人間に質問することで,LLMが行方不明情報を分析・収集できる対話型ロボット行動計画法を提案する。 この方法は、正確なロボット命令を生成する設計コストを最小化することができる。 調理作業における具体例を通して本手法の有効性を実証した。 しかし,本実験では,ロボットの行動計画において重要でない質問をしたり,質問せずに重要な情報を仮定したりするといった課題も明らかにしている。 これらの問題に光を当てることで、ロボット工学におけるLLMの利用に関する今後の研究に役立つ。

The application of the Large Language Model (LLM) to robot action planning has been actively studied. The instructions given to the LLM by natural language may include ambiguity and lack of information depending on the task context. It is possible to adjust the output of LLM by making the instruction input more detailed; however, the design cost is high. In this paper, we propose the interactive robot action planning method that allows the LLM to analyze and gather missing information by asking questions to humans. The method can minimize the design cost of generating precise robot instructions. We demonstrated the effectiveness of our method through concrete examples in cooking tasks. However, our experiments also revealed challenges in robot action planning with LLM, such as asking unimportant questions and assuming crucial information without asking. Shedding light on these issues provides valuable insights for future research on utilizing LLM for robotics.
翻訳日:2023-08-31 15:12:57 公開日:2023-08-30
# リンドブラディアンによる単層地盤準備

Single-ancilla ground state preparation via Lindbladians ( http://arxiv.org/abs/2308.15676v1 )

ライセンス: Link先を確認
Zhiyan Ding and Chi-Fang (Anthony) Chen and Lin Lin(参考訳) 地中準備のための早期フォールトトレラント量子アルゴリズムを設計する。 モンテカルロ型量子アルゴリズムとして,対象状態が定常なリンドブラジアンを特徴とし,その進化は1つのアンシラ量子ビットを用いて効率的に実装できる。 我々のアルゴリズムは、初期状態が基底状態と重複しない場合でも基底状態を作成することができ、量子位相推定のような手法の最も重要な制限を回避できる。 変種として,より優れた効率性を示す離散時間アルゴリズムを提案し,シミュレーション時間と精度のほぼ最適シミュレーションコストを提供する。 イジングモデルとハバードモデルを用いた数値シミュレーションにより,本手法の有効性と適用性を示す。

We design an early fault-tolerant quantum algorithm for ground state preparation. As a Monte Carlo-style quantum algorithm, our method features a Lindbladian where the target state is stationary, and its evolution can be efficiently implemented using just one ancilla qubit. Our algorithm can prepare the ground state even when the initial state has zero overlap with the ground state, bypassing the most significant limitation of methods like quantum phase estimation. As a variant, we also propose a discrete-time algorithm, which demonstrates even better efficiency, providing a near-optimal simulation cost for the simulation time and precision. Numerical simulation using Ising models and Hubbard models demonstrates the efficacy and applicability of our method.
翻訳日:2023-08-31 15:12:44 公開日:2023-08-30
# 診断場を用いた単一・結合キャビティモードセンシング方式

Single and coupled cavity mode sensing schemes using a diagnostic field ( http://arxiv.org/abs/2308.15675v1 )

ライセンス: Link先を確認
Aaron W. Goodwin-Jones and Haochen Zhu and Carl Blair and Daniel D. Brown and Joris van Heijningen and Li Ju and Chunnong Zhao(参考訳) 精密光学モードマッチングは、圧縮真空状態を用いた実験において重要である。 自動空間モードマッチングスキームは損失を減らし、損失安定性を向上させる可能性がある。 しかし、重力波検出器などの量子エンハンス結合キャビティ実験では、サブキャビティもモードにマッチすることを保証する必要がある。 単純で結合したキャビティに適した新しいモードセンシング方式を提案する。 このスキームには可動部分やグーイ位相のチューニングは不要である。 代わりにHG20/LG10モード周波数に調整された診断フィールドが使用される。 誤差信号は、サブキャビティ固有モード間のウエスト位置の差とレイリー範囲の差に比例して導かれる。 2つのエラー信号は90度の復調位相で分離可能である。 簡易なアインシュタイン望遠鏡光設計のための妥当な誤差信号を示す。 この研究は、現在および将来の重力波検出器で非常に高いレベルのスクイーズを日常的に使用するのに役立つだろう。

Precise optical mode matching is of critical importance in experiments using squeezed-vacuum states. Automatic spatial-mode matching schemes have the potential to reduce losses and improve loss stability. However, in quantum-enhanced coupled-cavity experiments, such as gravitational-wave detectors, one must also ensure that the sub-cavities are also mode matched. We propose a new mode sensing scheme, which works for simple and coupled cavities. The scheme requires no moving parts, nor tuning of Gouy phases. Instead a diagnostic field tuned to the HG20/LG10 mode frequency is used. The error signals are derived to be proportional to the difference in waist position, and difference in Rayleigh ranges, between the sub-cavity eigenmodes. The two error signals are separable by 90 degrees of demodulation phase. We demonstrate reasonable error signals for a simplified Einstein Telescope optical design. This work will facilitate routine use of extremely high levels of squeezing in current and future gravitational-wave detectors.
翻訳日:2023-08-31 15:12:33 公開日:2023-08-30
# MDTD:ディープニューラルネットワークのためのマルチドメイントロイジャン検出器

MDTD: A Multi Domain Trojan Detector for Deep Neural Networks ( http://arxiv.org/abs/2308.15673v1 )

ライセンス: Link先を確認
Arezoo Rajabi, Surudhi Asokraj, Fengqing Jiang, Luyao Niu, Bhaskar Ramasubramanian, Jim Ritcey, Radha Poovendran(参考訳) ディープニューラルネットワーク(DNN)を使用する機械学習モデルは、バックドア攻撃に対して脆弱である。 バックドア攻撃を行う敵は、トリガーと呼ばれる予め定義された摂動を入力サンプルの小さなサブセットに埋め込んでDNNを訓練し、インプットにおけるトリガーの存在が敵意の出力クラスとなるようにする。 しかし、このような逆行的な再訓練は、トリガーなしで入力の出力が影響を受けないようにし、クリーンなサンプルに対して高い分類精度を提供する必要がある。 本稿では,dnn用マルチドメイントロイの木馬検出器mdtdを提案し,テスト時にトロイの木馬トリガーを含む入力を検出する。 MDTDは攻撃者のトリガー埋め込み戦略の知識を必要とせず、画像、オーディオ、グラフベースの入力を備えた訓練済みのDNNモデルに適用することができる。 MDTDは、トロイの木馬トリガーを含む入力サンプルがクリーンサンプルよりも決定境界からかなり離れた位置にあるという洞察を利用する。 MDTDは、逆学習法を用いて決定境界までの距離を推定し、この距離を用いてテスト時間入力サンプルがトロイの木馬か否かを推定する。 我々は、cifar100, cifar10, gtsrb, svhn, flowers102の5つの画像ベースのデータセット、aids, winmal, toxicant, collabの4つのグラフベースのデータセット、 speechcommand audio datasetに対するmdtdを評価した。 MDTDは、異なるタイプのトロイジャントリガーを含むサンプルを効果的に識別する。 対戦相手が堅牢なDNNを訓練し、決定境界からベニグン(トロイジャン)の入力距離を減少させる適応攻撃に対するMDTDの評価を行った。

Machine learning models that use deep neural networks (DNNs) are vulnerable to backdoor attacks. An adversary carrying out a backdoor attack embeds a predefined perturbation called a trigger into a small subset of input samples and trains the DNN such that the presence of the trigger in the input results in an adversary-desired output class. Such adversarial retraining however needs to ensure that outputs for inputs without the trigger remain unaffected and provide high classification accuracy on clean samples. In this paper, we propose MDTD, a Multi-Domain Trojan Detector for DNNs, which detects inputs containing a Trojan trigger at testing time. MDTD does not require knowledge of trigger-embedding strategy of the attacker and can be applied to a pre-trained DNN model with image, audio, or graph-based inputs. MDTD leverages an insight that input samples containing a Trojan trigger are located relatively farther away from a decision boundary than clean samples. MDTD estimates the distance to a decision boundary using adversarial learning methods and uses this distance to infer whether a test-time input sample is Trojaned or not. We evaluate MDTD against state-of-the-art Trojan detection methods across five widely used image-based datasets: CIFAR100, CIFAR10, GTSRB, SVHN, and Flowers102; four graph-based datasets: AIDS, WinMal, Toxicant, and COLLAB; and the SpeechCommand audio dataset. MDTD effectively identifies samples that contain different types of Trojan triggers. We evaluate MDTD against adaptive attacks where an adversary trains a robust DNN to increase (decrease) distance of benign (Trojan) inputs from a decision boundary.
翻訳日:2023-08-31 15:12:21 公開日:2023-08-30
# 因果干渉正則化器による背景偏差SAR目標認識

Background Debiased SAR Target Recognition via Causal Interventional Regularizer ( http://arxiv.org/abs/2308.15724v1 )

ライセンス: Link先を確認
Hongwei Dong and Fangzhou Han and Lingyu Si and Wenwen Qiang and Lamei Zhang(参考訳) 近年, 深層学習技術を用いて合成開口レーダ(SAR)画像から特徴を自動的に抽出し, SAR自動目標認識(ATR)の性能向上に寄与している。 認識すべきSAR画像は、前景(すなわち、ターゲット)だけでなく、背景領域の一定の大きさも含んでいる。 dl-モデルが前景データのみに基づいてトレーニングされた場合、その認識性能は前景と背景の両方を含む元のデータでトレーニングされたモデルよりも著しく優れている。 これは、背景の存在がdlモデルがターゲットに関する追加的な意味情報を学習する能力を妨げることを示唆している。 この問題に対処するため,共同設立者としての背景を取り入れた構造因果モデル(SCM)を構築した。 構築したSCMに基づいて因果介入に基づく正規化手法を提案し,特徴意味学習における背景の負の影響を排除し,背景偏りのSAR-ATRを実現する。 提案する因果的介入正規化器は既存のdlベースのsar-atrモデルと統合でき、背景干渉が特徴抽出と認識精度に与える影響を緩和できる。 mstar(moving and stationary target acquisition and recognition)データセットにおける実験結果から,提案手法が既存のdl方式の効率をプラグ・アンド・プレイ方式で向上できることが示唆された。

Recent studies have utilized deep learning (DL) techniques to automatically extract features from synthetic aperture radar (SAR) images, which shows great promise for enhancing the performance of SAR automatic target recognition (ATR). However, our research reveals a previously overlooked issue: SAR images to be recognized include not only the foreground (i.e., the target), but also a certain size of the background area. When a DL-model is trained exclusively on foreground data, its recognition performance is significantly superior to a model trained on original data that includes both foreground and background. This suggests that the presence of background impedes the ability of the DL-model to learn additional semantic information about the target. To address this issue, we construct a structural causal model (SCM) that incorporates the background as a confounder. Based on the constructed SCM, we propose a causal intervention based regularization method to eliminate the negative impact of background on feature semantic learning and achieve background debiased SAR-ATR. The proposed causal interventional regularizer can be integrated into any existing DL-based SAR-ATR models to mitigate the impact of background interference on the feature extraction and recognition accuracy. Experimental results on the Moving and Stationary Target Acquisition and Recognition (MSTAR) dataset indicate that the proposed method can enhance the efficiency of existing DL-based methods in a plug-and-play manner.
翻訳日:2023-08-31 15:05:50 公開日:2023-08-30
# 回帰問題におけるランダムスケッチアルゴリズムのサロゲートベースオートチューニング

Surrogate-based Autotuning for Randomized Sketching Algorithms in Regression Problems ( http://arxiv.org/abs/2308.15720v1 )

ライセンス: Link先を確認
Younghyun Cho, James W. Demmel, Micha{\l} Derezi\'nski, Haoyun Li, Hengrui Luo, Michael W. Mahoney, Riley J. Murray(参考訳) ランダム化数値線形代数(RandNLA)のアルゴリズムは高次元の計算問題を処理し、高い確率的保証とともに高品質な経験的性能を提供する。 しかし,その実践的応用は,従来のNLAと異なるアルゴリズム固有のチューニングパラメータをユーザが設定する必要があるという事実によって複雑である。 本稿では、RandNLAアルゴリズムにおけるパラメータ選択の基本的な問題に、代理ベースのオートチューニング手法を用いて対処する方法を示す。 特に,現代のRandNLAにおける成功事例の1つであるスケッチ・アンド・プレコンディショニング(SAP)に基づくランダム化最小二乗法におけるサロゲートに基づく自動チューニングについて,詳細に検討する。 実験結果から,我々のサーロゲートに基づく自動チューニング手法は,ランダム検索よりもチューニングコストがはるかに少ない(パラメータ構成の試行回数が最大4倍少ない)ことで,最適化に近い性能を達成できることがわかった。 さらに,実験では最小二乗に焦点を合わせながら,任意の種類のRandNLAアルゴリズムに適用可能な汎用オートチューニングパイプラインを実証した。

Algorithms from Randomized Numerical Linear Algebra (RandNLA) are known to be effective in handling high-dimensional computational problems, providing high-quality empirical performance as well as strong probabilistic guarantees. However, their practical application is complicated by the fact that the user needs to set various algorithm-specific tuning parameters which are different than those used in traditional NLA. This paper demonstrates how a surrogate-based autotuning approach can be used to address fundamental problems of parameter selection in RandNLA algorithms. In particular, we provide a detailed investigation of surrogate-based autotuning for sketch-and-precondition (SAP) based randomized least squares methods, which have been one of the great success stories in modern RandNLA. Empirical results show that our surrogate-based autotuning approach can achieve near-optimal performance with much less tuning cost than a random search (up to about 4x fewer trials of different parameter configurations). Moreover, while our experiments focus on least squares, our results demonstrate a general-purpose autotuning pipeline applicable to any kind of RandNLA algorithm.
翻訳日:2023-08-31 15:05:26 公開日:2023-08-30
# 広帯域周波数領域交絡光子対の単一パス生成

Single-pass generation of widely-tunable frequency-domain entangled photon pairs ( http://arxiv.org/abs/2308.15718v1 )

ライセンス: Link先を確認
Masayuki Hojo and KoichiroTanaka(参考訳) 本研究では,単周期非線形結晶と単一パス配置を用いて,高偏光度光子対を生成する手法を示す。 本手法は, 周期的偏極性リチウムタンタル酸リチウムにおいて, 独立型IIコリニア擬似相整合条件を満たす2つの自発パラメトリックダウンコンバージョンプロセスの同時発生に基づく。 生成した光子対は、周波数領域における量子絡み合いの存在を示す非退化のホン・ウー・マンデル干渉を示す。 広帯域量子センシング及び量子イメージング又は高次元量子処理が可能な光源を提供する。

We demonstrate a technique that generates frequency-entangled photon pairs with high polarization definition by using a single-period nonlinear crystal and single pass configuration. The technique is based on the simultaneous occurrence of two spontaneous parametric down-conversion processes satisfying independent type-II collinear pseudo-phase matching conditions in periodically poled stoichiometric lithium tantalate. The generated photon pairs exhibit non-degenerate Hong-Ou-Mandel interference, indicating the presence of quantum entanglement in the frequency domain. This method provides a light source capable of wide-range quantum sensing and quantum imaging or high-dimensional quantum processing.
翻訳日:2023-08-31 15:05:08 公開日:2023-08-30
# ガイド付きグラッドCAMによるフルディスク太陽フレア予測のための深層学習

Exploring Deep Learning for Full-disk Solar Flare Prediction with Empirical Insights from Guided Grad-CAM Explanations ( http://arxiv.org/abs/2308.15712v1 )

ライセンス: Link先を確認
Chetraj Pandey, Anli Ji, Trisha Nandakumar, Rafal A. Angryk, Berkay Aydin(参考訳) 本研究は,太陽フレア級の太陽フレアを予測するためのフルディスクのディープラーニングモデルを提示し,その効果を中央(約$\pm$70$^\circ$)と近辺(約$\pm$70$^\circ$)の両方で評価し,モデルの予測に対するポストホックな説明の質的評価を行い,人間中心の定量的評価から実証的な知見を提供することにより,太陽フレア予測研究を進める。 我々のモデルは、24時間予測ウィンドウ内で1時間ごとのフルディスクライン・オブ・シット・マグネティックグラム画像を用いて、$\geq$M級太陽フレアを予測する。 さらに,モデルの予測を解釈し,その説明を評価するために,誘導勾配強調クラスアクティベーションマッピング (guided grad-cam) を適用した。 分析の結果,フルディスクの太陽フレア予測は活動領域特性と一致することがわかった。 The following points represent the most important findings of our study: (1) Our deep learning models achieved an average true skill statistic (TSS) of $\sim$0.51 and a Heidke skill score (HSS) of $\sim$0.38, exhibiting skill to predict solar flares where for central locations the average recall is $\sim$0.75 (recall values for X- and M-class are 0.95 and 0.73 respectively) and for the near-limb flares the average recall is $\sim$0.52 (recall values for X- and M-class are 0.74 and 0.50 respectively); (2) qualitative examination of the model's explanations reveals that it discerns and leverages features linked to active regions in both central and near-limb locations within full-disk magnetograms to produce respective predictions. 基本的に、我々のモデルは、手足領域に近づいたとしても、燃える活動領域の形状とテクスチャに基づく特性を把握します。

This study progresses solar flare prediction research by presenting a full-disk deep-learning model to forecast $\geq$M-class solar flares and evaluating its efficacy on both central (within $\pm$70$^\circ$) and near-limb (beyond $\pm$70$^\circ$) events, showcasing qualitative assessment of post hoc explanations for the model's predictions, and providing empirical findings from human-centered quantitative assessments of these explanations. Our model is trained using hourly full-disk line-of-sight magnetogram images to predict $\geq$M-class solar flares within the subsequent 24-hour prediction window. Additionally, we apply the Guided Gradient-weighted Class Activation Mapping (Guided Grad-CAM) attribution method to interpret our model's predictions and evaluate the explanations. Our analysis unveils that full-disk solar flare predictions correspond with active region characteristics. The following points represent the most important findings of our study: (1) Our deep learning models achieved an average true skill statistic (TSS) of $\sim$0.51 and a Heidke skill score (HSS) of $\sim$0.38, exhibiting skill to predict solar flares where for central locations the average recall is $\sim$0.75 (recall values for X- and M-class are 0.95 and 0.73 respectively) and for the near-limb flares the average recall is $\sim$0.52 (recall values for X- and M-class are 0.74 and 0.50 respectively); (2) qualitative examination of the model's explanations reveals that it discerns and leverages features linked to active regions in both central and near-limb locations within full-disk magnetograms to produce respective predictions. In essence, our models grasp the shape and texture-based properties of flaring active regions, even in proximity to limb areas -- a novel and essential capability with considerable significance for operational forecasting systems.
翻訳日:2023-08-31 15:04:57 公開日:2023-08-30
# 動的知識選択によるテキスト生成における事実精度の最適化

Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge Selection ( http://arxiv.org/abs/2308.15711v1 )

ライセンス: Link先を確認
Hongjin Qian, Zhicheng Dou, Jiejun Tan, Haonan Chen, Haoqi Gu, Ruofei Lai, Xinyu Zhang, Zhao Cao, Ji-Rong Wen(参考訳) 言語モデル(LM)は私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成し、信頼性に関する懸念を提起する。 従来の手法では、テキスト生成の参照として外部知識を使用して事実性を高めるが、無関係な参照の知識の混合(例えばエンティティミスマッチ)にしばしば苦労する。 さらに、出力テキストの長さが大きくなると、サンプリングのランダム性がエスカレートし、生成されたテキストの事実精度に有害に影響を及ぼす。 本稿では,テキスト生成プロセスを反復プロセスに分割するdkgenを提案する。 各イテレーションにおいて、DKGenは入力クエリ、以前に生成されたテキスト、参照パスのサブセットを入力として、短いテキストを生成する。 処理中、サブセットは、予め生成されたテキストとクエリとの関係に基づいて、全文セットから動的に選択され、ほとんど関係のない参照を入力から排除する。 DKGenはこれらの外部知識を正しく活用する能力をさらに強化するため、参照パスの関連順序をデコーダのクロスアテンション分布に蒸留する。 大規模なベンチマークデータセットでDKGenをトレーニングし、評価する。 実験の結果、DKGenは全てのベースラインモデルより優れていた。

Language models (LMs) have revolutionized the way we interact with information, but they often generate nonfactual text, raising concerns about their reliability. Previous methods use external knowledge as references for text generation to enhance factuality but often struggle with the knowledge mix-up(e.g., entity mismatch) of irrelevant references. Besides,as the length of the output text grows, the randomness of sampling can escalate, detrimentally impacting the factual accuracy of the generated text. In this paper, we present DKGen, which divide the text generation process into an iterative process. In each iteration, DKGen takes the input query, the previously generated text and a subset of the reference passages as input to generate short text. During the process, the subset is dynamically selected from the full passage set based on their relevance to the previously generated text and the query, largely eliminating the irrelevant references from input. To further enhance DKGen's ability to correctly use these external knowledge, DKGen distills the relevance order of reference passages to the cross-attention distribution of decoder. We train and evaluate DKGen on a large-scale benchmark dataset. Experiment results show that DKGen outperforms all baseline models.
翻訳日:2023-08-31 15:04:19 公開日:2023-08-30
# Speech Wikimedia: 77言語多言語音声データセット

Speech Wikimedia: A 77 Language Multilingual Speech Dataset ( http://arxiv.org/abs/2308.15710v1 )

ライセンス: Link先を確認
Rafael Mosquera G\'omez, Juli\'an Eusse, Juan Ciro, Daniel Galvez, Ryan Hileman, Kurt Bollacker, David Kanter(参考訳) speech wikimediaデータセットは、ウィキメディア・コモンズから抜粋された音声の公開コンパイルである。 1780時間 (195 gb) のcc-by-saライセンスの書き起こし音声が、77の異なる言語で様々なシナリオと話者から集められている。 各オーディオファイルは異なる言語で1つ以上の書き起こしがあり、このデータセットは音声認識、音声翻訳、機械翻訳モデルの訓練に適している。

The Speech Wikimedia Dataset is a publicly available compilation of audio with transcriptions extracted from Wikimedia Commons. It includes 1780 hours (195 GB) of CC-BY-SA licensed transcribed speech from a diverse set of scenarios and speakers, in 77 different languages. Each audio file has one or more transcriptions in different languages, making this dataset suitable for training speech recognition, speech translation, and machine translation models.
翻訳日:2023-08-31 15:03:57 公開日:2023-08-30
# Threshold KNN-Shapley: データ評価に対する線形時間とプライバシフレンドリなアプローチ

Threshold KNN-Shapley: A Linear-Time and Privacy-Friendly Approach to Data Valuation ( http://arxiv.org/abs/2308.15709v1 )

ライセンス: Link先を確認
Jiachen T. Wang, Yuqing Zhu, Yu-Xiang Wang, Ruoxi Jia, Prateek Mittal(参考訳) データバリュエーションは、機械学習(ML)モデルのトレーニングにおいて、個々のデータソースの有用性を定量化することを目的としている。 しかし、データのバリュエーションは、その重要性にもかかわらずプライバシー上の問題にしばしば見過ごされる。 本稿では,近年最も実践的なデータ評価手法であるKNN-Shapleyに着目し,これらの課題について考察する。 我々はまず、KNN-Shapleyの固有のプライバシーリスクを強調し、KNN-Shapleyを差分プライバシー(DP)に適合させる上で重要な技術的困難を実証する。 これらの課題を克服するために、プライバシーに配慮したKNN-Shapleyの改良版であるTKNN-Shapleyを導入する。 DP-TKNN-Shapleyにはいくつかの利点があり、データ品質の差別化において、民営化されたKNN-Shapleyに比べ、プライバシー利用のトレードオフが優れていることを示す。 さらに、プライベートでないTKNN-Shapleyでさえ、KNN-Shapleyと同等のパフォーマンスを実現している。 全体としては、TKNN-ShapleyはKNN-Shapleyに代わる有望な代替手段であることを示している。

Data valuation, a critical aspect of data-centric ML research, aims to quantify the usefulness of individual data sources in training machine learning (ML) models. However, data valuation faces significant yet frequently overlooked privacy challenges despite its importance. This paper studies these challenges with a focus on KNN-Shapley, one of the most practical data valuation methods nowadays. We first emphasize the inherent privacy risks of KNN-Shapley, and demonstrate the significant technical difficulties in adapting KNN-Shapley to accommodate differential privacy (DP). To overcome these challenges, we introduce TKNN-Shapley, a refined variant of KNN-Shapley that is privacy-friendly, allowing for straightforward modifications to incorporate DP guarantee (DP-TKNN-Shapley). We show that DP-TKNN-Shapley has several advantages and offers a superior privacy-utility tradeoff compared to naively privatized KNN-Shapley in discerning data quality. Moreover, even non-private TKNN-Shapley achieves comparable performance as KNN-Shapley. Overall, our findings suggest that TKNN-Shapley is a promising alternative to KNN-Shapley, particularly for real-world applications involving sensitive data.
翻訳日:2023-08-31 15:03:47 公開日:2023-08-30
# 歯科用RGB画像を用いたスマートフォンにおける口腔疾患の早期発見に向けて

Towards Earlier Detection of Oral Diseases On Smartphones Using Oral and Dental RGB Images ( http://arxiv.org/abs/2308.15705v1 )

ライセンス: Link先を確認
Ayush Garg, Julia Lu, and Anika Maji(参考訳) 歯周病(gum)や歯槽病(キャビティ)などの口腔疾患は、今日世界中の何十億もの人々に影響を与えている。 しかし、従来の最先端モデルは口腔疾患の検出にX線画像に依存しており、遠隔監視、発展途上国、遠隔医療にはアクセスできない。 このようなX線画像の過剰使用に対処するため,ローエンドデバイス上で効率的に動作しながら,RGB画像の微積分(硬化プラークやタール)を検出する軽量機械学習モデルを提案する。 このモデルは、imagenetから学んだ修正されたmobilenetv3-smallニューラルネットワーク転送であり、72.73%(最先端ソリューションに匹敵する)の精度を達成したが、メモリ要件の削減と処理時間の短縮により、モバイルデバイス上でも動作可能であった。 ResNet34ベースのモデルも構築され、精度は81.82%に達した。 どちらのモデルもモバイルアプリでテストされ、患者が診療所に行く必要なしに早期に予約をスケジュールできるので、深刻な口腔疾患の患者数を制限する可能性を実証した。

Oral diseases such as periodontal (gum) diseases and dental caries (cavities) affect billions of people across the world today. However, previous state-of-the-art models have relied on X-ray images to detect oral diseases, making them inaccessible to remote monitoring, developing countries, and telemedicine. To combat this overuse of X-ray imagery, we propose a lightweight machine learning model capable of detecting calculus (also known as hardened plaque or tartar) in RGB images while running efficiently on low-end devices. The model, a modified MobileNetV3-Small neural network transfer learned from ImageNet, achieved an accuracy of 72.73% (which is comparable to state-of-the-art solutions) while still being able to run on mobile devices due to its reduced memory requirements and processing times. A ResNet34-based model was also constructed and achieved an accuracy of 81.82%. Both of these models were tested on a mobile app, demonstrating their potential to limit the number of serious oral disease cases as their predictions can help patients schedule appointments earlier without the need to go to the clinic.
翻訳日:2023-08-31 15:03:21 公開日:2023-08-30
# コントラスト学習における相互情報の厳密な分析に向けて

Towards a Rigorous Analysis of Mutual Information in Contrastive Learning ( http://arxiv.org/abs/2308.15704v1 )

ライセンス: Link先を確認
Kyungeun Lee, Jaeill Kim, Suhyun Kang, Wonjong Rhee(参考訳) コントラスト学習は、教師なし表現学習の最近の成果の基盤として登場した。 主なパラダイムは、相互情報損失を伴うインスタンス識別タスクである。 この損失はInfoNCEと呼ばれ、相互情報分析のレンズを通して対照的な学習に重要な洞察をもたらした。 しかし、相互情報の推定は困難であり、数学的基礎のエレガンスと推定の複雑さの間にギャップが生じる。 その結果、相互情報分析から厳密な洞察や結論を描くことが複雑になる。 本研究では, 相互情報分析の厳密性を高めるため, 3つの新しい手法といくつかの関連する定理を提案する。 その単純さにもかかわらず、これらの方法は実質的な実用性を持つことができる。 これらのアプローチを活用することで、コントラスト学習分析の3つの例を再評価し、より深い理解を促進し、既存の誤解を正す能力を示す。 具体的には,小さなバッチサイズ,尺度としての相互情報,インフォミン原理について検討する。

Contrastive learning has emerged as a cornerstone in recent achievements of unsupervised representation learning. Its primary paradigm involves an instance discrimination task with a mutual information loss. The loss is known as InfoNCE and it has yielded vital insights into contrastive learning through the lens of mutual information analysis. However, the estimation of mutual information can prove challenging, creating a gap between the elegance of its mathematical foundation and the complexity of its estimation. As a result, drawing rigorous insights or conclusions from mutual information analysis becomes intricate. In this study, we introduce three novel methods and a few related theorems, aimed at enhancing the rigor of mutual information analysis. Despite their simplicity, these methods can carry substantial utility. Leveraging these approaches, we reassess three instances of contrastive learning analysis, illustrating their capacity to facilitate deeper comprehension or to rectify pre-existing misconceptions. Specifically, we investigate small batch size, mutual information as a measure, and the InfoMin principle.
翻訳日:2023-08-31 15:03:01 公開日:2023-08-30
# fragment and integrated network (fin):オンライン食品注文クリックスルー率予測のための長い時系列行動に基づく新しい空間-時間モデル

Fragment and Integrate Network (FIN): A Novel Spatial-Temporal Modeling Based on Long Sequential Behavior for Online Food Ordering Click-Through Rate Prediction ( http://arxiv.org/abs/2308.15703v1 )

ライセンス: Link先を確認
Jun Li, Jingjian Wang, Hongwei Wang, Xing Deng, Jielong Chen, Bing Cao, Zekun Wang, Guanjie Xu, Ge Zhang, Feng Shi, Hualei Liu(参考訳) 空間時空間情報は、オンライン位置情報サービス(LBS)におけるクリックスルー率予測タスク、特にDoorDash、Uber Eats、Meituan、Ele.meなどの主要な食品注文プラットフォームにおいて、非常に重要であることが証明されている。 ユーザの空間的嗜好をシーケンシャルな行動データでモデル化することは、レコメンデーションシステムやオンライン広告においてホットな話題となっている。 しかし、既存の手法のほとんどは、リッチな時空間情報の表現を欠いているか、あるいは100のような限られた長さのユーザ動作しか扱っていない。 本稿では,Fragment and Integrate Network (FIN) と呼ばれる新しい時空間モデリングパラダイムを設計することによって,これらの問題を解決する。 FINは2つのネットワークから構成される。 (i)フラグメントネットワーク(FN)は、生涯連続行動データから複数のサブシーケンス(MSS)を抽出し、それぞれのMSSをモデル化して、特定の時空間表現をキャプチャする。 ここでは、性能向上と資源消費のバランスをとるために、簡易な注意と複雑な注意が採用されている。 (II)統合ネットワーク(IN)は、MSS上の空間的時間的相互作用を利用して新たな統合シーケンスを構築し、統合シーケンスを複雑な注意でモデル化することにより、包括的空間的時間的表現をキャプチャする。 パブリックデータセットとプロダクションデータセットの両方が、FINの正確性とスケーラビリティを示している。 2022年以降、FINは中国で最も人気のあるオンライン食品注文プラットフォームであるEle.meのレコメンデーション広告システムに完全に導入され、クリックスルーレート(CTR)が5.7%、収益パーミル(RPM)が7.3%向上した。

Spatial-temporal information has been proven to be of great significance for click-through rate prediction tasks in online Location-Based Services (LBS), especially in mainstream food ordering platforms such as DoorDash, Uber Eats, Meituan, and Ele.me. Modeling user spatial-temporal preferences with sequential behavior data has become a hot topic in recommendation systems and online advertising. However, most of existing methods either lack the representation of rich spatial-temporal information or only handle user behaviors with limited length, e.g. 100. In this paper, we tackle these problems by designing a new spatial-temporal modeling paradigm named Fragment and Integrate Network (FIN). FIN consists of two networks: (i) Fragment Network (FN) extracts Multiple Sub-Sequences (MSS) from lifelong sequential behavior data, and captures the specific spatial-temporal representation by modeling each MSS respectively. Here both a simplified attention and a complicated attention are adopted to balance the performance gain and resource consumption. (ii) Integrate Network (IN) builds a new integrated sequence by utilizing spatial-temporal interaction on MSS and captures the comprehensive spatial-temporal representation by modeling the integrated sequence with a complicated attention. Both public datasets and production datasets have demonstrated the accuracy and scalability of FIN. Since 2022, FIN has been fully deployed in the recommendation advertising system of Ele.me, one of the most popular online food ordering platforms in China, obtaining 5.7% improvement on Click-Through Rate (CTR) and 7.3% increase on Revenue Per Mille (RPM).
翻訳日:2023-08-31 15:02:46 公開日:2023-08-30
# UNOS臓器ドナー文書からの大規模データ抽出

Large-scale data extraction from the UNOS organ donor documents ( http://arxiv.org/abs/2308.15752v1 )

ライセンス: Link先を確認
Marek Rychlik and Bekir Tanriover and Yan Han(参考訳) この研究のスコープは、2008年以降の米国臓器提供者のunosデータです。 このデータは「アタッチメント」と呼ばれるPDF文書に記録されており、すべてのドナーは異質なフォーマットで数十のPDF文書で表現されているため、過去には大規模に分析できない。 データを解析可能にするには、PDF内のコンテンツを標準SQLデータベースのような分析可能なデータ形式に変換する必要がある。 本稿では、数百万ページにわたる$\approx 400,000$ PDFドキュメントからなる2022 UNOSデータに焦点を当てる。 UNOSデータの総量は15年(2008-20022)で、その結果はすぐに全データに拡張されます。 本手法では,dcdフローシート,腎灌流データ,患者入院中のデータ(バイタルサイン,人工呼吸器の設定など)にデータの一部をキャプチャする。 現在の論文は、読者がUNOSデータの内容に精通していると仮定している。 データの種類とそれらが提示する課題の概要は、別の論文の主題である。 ここでは,unos文書から包括的かつ分析可能なデータベースを構築するという目標が達成可能なタスクであることを実証することに集中し,その方法論の概要を提供する。 このプロジェクトは、この予備段階でも、以前よりもはるかに大きなデータセットを生み出した。

The scope of our study is all UNOS data of the USA organ donors since 2008. The data is not analyzable in a large scale in the past because it was captured in PDF documents known as "Attachments", whereby every donor is represented by dozens of PDF documents in heterogenous formats. To make the data analyzable, one needs to convert the content inside these PDFs to an analyzable data format, such as a standard SQL database. In this paper we will focus on 2022 UNOS data comprised of $\approx 400,000$ PDF documents spanning millions of pages. The totality of UNOS data covers 15 years (2008--20022) and our results will be quickly extended to the entire data. Our method captures a portion of the data in DCD flowsheets, kidney perfusion data, and data captured during patient hospital stay (e.g. vital signs, ventilator settings, etc.). The current paper assumes that the reader is familiar with the content of the UNOS data. The overview of the types of data and challenges they present is a subject of another paper. Here we focus on demonstrating that the goal of building a comprehensive, analyzable database from UNOS documents is an attainable task, and we provide an overview of our methodology. The project resulted in datasets by far larger than previously available even in this preliminary phase.
翻訳日:2023-08-31 14:54:48 公開日:2023-08-30
# 低リソース言語と方言のサイバーバブル検出:技術の現状を振り返って

Cyberbullying Detection for Low-resource Languages and Dialects: Review of the State of the Art ( http://arxiv.org/abs/2308.15745v1 )

ライセンス: Link先を確認
Tanjim Mahmud, Michal Ptaszynski, Juuso Eronen and Fumito Masui(参考訳) ソーシャルメディアプラットフォームがタイムリーにコンテンツを穏健化するために苦労しているため、利用者はそのようなプラットフォームを乱用して下品や虐待言語を広めることを奨励し、繰り返し行われると、仮想環境で発生した社会問題をサイバーいじめするが、うつ病、退避、さらには被害者の自殺未遂といった現実的な結果に繋がる。 サイバーいじめの自動検出と軽減のためのシステムは開発されてきたが、残念ながらその大部分は英語用であり、低リソース言語でしか利用できない。 本稿では,研究の現状を推定し,さらなる開発の必要性を認識するために,低リソース言語における自動サイバーバブル検出のための総合的な体系的な調査を行った。 我々は、このトピックに関するすべての研究を分析しました。 2017年頃から2023年1月までに刊行された低リソース言語および方言におけるサイバーいじめまたは関連言語の自動検出に関する70以上の研究について調査を行った。 バングラ語、ヒンディー語、ドラビダ語など23の低資源言語と方言が本論文でカバーされている。 本調査では,サイバーいじめと関連するサブカテゴリの信頼性定義の欠如,買収のバイアス,データのアノテーションなど,過去の研究における研究ギャップを明らかにした。 これらの研究ギャップの認識に基づいて,低リソース言語を中心に,サイバーバブル検出における一般的な研究行動を改善するための提案を行う。 これらの提案に基づいて,バングラのキタゴニア方言におけるサイバーいじめデータセットの収集と公開を行い,そのデータセットでトレーニングされた多数の初期mlソリューションを提案する。 さらに、BanglaBERTモデルに基づく事前訓練も試みられた。

The struggle of social media platforms to moderate content in a timely manner, encourages users to abuse such platforms to spread vulgar or abusive language, which, when performed repeatedly becomes cyberbullying a social problem taking place in virtual environments, yet with real-world consequences, such as depression, withdrawal, or even suicide attempts of its victims. Systems for the automatic detection and mitigation of cyberbullying have been developed but, unfortunately, the vast majority of them are for the English language, with only a handful available for low-resource languages. To estimate the present state of research and recognize the needs for further development, in this paper we present a comprehensive systematic survey of studies done so far for automatic cyberbullying detection in low-resource languages. We analyzed all studies on this topic that were available. We investigated more than seventy published studies on automatic detection of cyberbullying or related language in low-resource languages and dialects that were published between around 2017 and January 2023. There are 23 low-resource languages and dialects covered by this paper, including Bangla, Hindi, Dravidian languages and others. In the survey, we identify some of the research gaps of previous studies, which include the lack of reliable definitions of cyberbullying and its relevant subcategories, biases in the acquisition, and annotation of data. Based on recognizing those research gaps, we provide some suggestions for improving the general research conduct in cyberbullying detection, with a primary focus on low-resource languages. Based on those proposed suggestions, we collect and release a cyberbullying dataset in the Chittagonian dialect of Bangla and propose a number of initial ML solutions trained on that dataset. In addition, pre-trained transformer-based the BanglaBERT model was also attempted.
翻訳日:2023-08-31 14:54:28 公開日:2023-08-30
# ASTER:スタッタの自動音声認識システムアクセシビリティテスト

ASTER: Automatic Speech Recognition System Accessibility Testing for Stutterers ( http://arxiv.org/abs/2308.15742v1 )

ライセンス: Link先を確認
Yi Liu, Yuekang Li, Gelei Deng, Felix Juefei-Xu, Yao Du, Cen Zhang, Chengwei Liu, Yeting Li, Lei Ma and Yang Liu(参考訳) 近年,音声認識システム(ASR)の普及により,アクセシビリティ向上の必要性が高まっている。 音声の発声処理はasrシステムにとって重要な機能である。 発声者に対するASRシステムのアクセシビリティを向上させるためには,発声者に対するASRシステムの故障を暴露・解析する必要がある。 スタッターから録音された音声データセットは、ほとんどの障害を露呈するほど多様ではない。 さらに、これらのデータセットには、非スタッタテキストに関する基礎的な真実情報がなく、包括的なテストスイートとして適さない。 そのため, ASR システムの性能を試験・解析するためのテスト入力として, 発声音声を生成する手法が必要である。 しかし、このシナリオで有効なテストインプットを生成することは難しい。 なぜなら、生成されたテストインプットは、スタッタの話し方を模倣するべきだが、より多くの障害を引き起こすのに十分な多様性を持つ必要があるからです。 そこで本研究では,ASRシステムのアクセシビリティを自動テストする技術であるASTERを提案する。 asterは5種類のストッターを注入することで有効なテストケースを生成することができる。 生成されたテストケースは、現実的な発声音声をシミュレートし、ASRシステムで失敗を露呈する。 さらに、ASTERは多目的最適化に基づくシード更新アルゴリズムにより、テストケースの品質をさらに向上させることができる。 ASTERをフレームワークとして実装し、4つのオープンソースASRモデルと3つの商用ASRシステムで評価した。 我々はASTERの総合評価を行い、評価されたASRシステムにおいて単語誤り率、一致誤り率、単語情報損失を大幅に増加させることを見出した。 また,本研究では,生成した音声は実世界の音声クリップと区別できないことを示す。

The popularity of automatic speech recognition (ASR) systems nowadays leads to an increasing need for improving their accessibility. Handling stuttering speech is an important feature for accessible ASR systems. To improve the accessibility of ASR systems for stutterers, we need to expose and analyze the failures of ASR systems on stuttering speech. The speech datasets recorded from stutterers are not diverse enough to expose most of the failures. Furthermore, these datasets lack ground truth information about the non-stuttered text, rendering them unsuitable as comprehensive test suites. Therefore, a methodology for generating stuttering speech as test inputs to test and analyze the performance of ASR systems is needed. However, generating valid test inputs in this scenario is challenging. The reason is that although the generated test inputs should mimic how stutterers speak, they should also be diverse enough to trigger more failures. To address the challenge, we propose ASTER, a technique for automatically testing the accessibility of ASR systems. ASTER can generate valid test cases by injecting five different types of stuttering. The generated test cases can both simulate realistic stuttering speech and expose failures in ASR systems. Moreover, ASTER can further enhance the quality of the test cases with a multi-objective optimization-based seed updating algorithm. We implemented ASTER as a framework and evaluated it on four open-source ASR models and three commercial ASR systems. We conduct a comprehensive evaluation of ASTER and find that it significantly increases the word error rate, match error rate, and word information loss in the evaluated ASR systems. Additionally, our user study demonstrates that the generated stuttering audio is indistinguishable from real-world stuttering audio clips.
翻訳日:2023-08-31 14:53:59 公開日:2023-08-30
# ひげのセグメンテーションと認知バイアス

Beard Segmentation and Recognition Bias ( http://arxiv.org/abs/2308.15740v1 )

ライセンス: Link先を確認
Kagan Ozturk, Grace Bezold, Aman Bhatta, Haiyu Wu, Kevin Bowyer(参考訳) ひげの存在や大きさなどの人の顔の髪型は、顔認識の精度に大きな影響を及ぼす可能性がある。 あごひげやあごひげなどの二項属性分類において妥当な精度を達成するディープネットワークが公開されているが、顔の毛髪領域を区切っている場合はほとんどない。 顔の毛の効果を厳密に調査するため,まず,セグメント化モデルを訓練し,アフリカ系アメリカ人と白人の顔画像間の精度を評価するための細粒度の顔毛アノテーションを作成した。 次に、顔の髪型の違いや類似度に応じて画像ペアを分類するために、顔の毛髪区分を使用します。 顔の毛髪の異なる画像ペアの偽一致率 (fmr) は, アフリカ系アメリカ人男性では10以上, 白人男性では25以上と異なる。 顔毛髪の異なる画像対間のバイアスを低減するため,顔毛髪型類似度に基づく適応しきい値設定手法を提案する。 イメージペアの顔毛髪型に基づく適応的類似度閾値は、アフリカ系アメリカ人の顔毛髪型カテゴリーにおける最も高いFMRと最低のFMRの比率を10.7から1.8、コーカサスでは25.9から1.3に減少させる。 顔のヘアアノテーションと顔のヘアセグメンテーションモデルが一般公開される。

A person's facial hairstyle, such as presence and size of beard, can significantly impact face recognition accuracy. There are publicly-available deep networks that achieve reasonable accuracy at binary attribute classification, such as beard / no beard, but few if any that segment the facial hair region. To investigate the effect of facial hair in a rigorous manner, we first created a set of fine-grained facial hair annotations to train a segmentation model and evaluate its accuracy across African-American and Caucasian face images. We then use our facial hair segmentations to categorize image pairs according to the degree of difference or similarity in the facial hairstyle. We find that the False Match Rate (FMR) for image pairs with different categories of facial hairstyle varies by a factor of over 10 for African-American males and over 25 for Caucasian males. To reduce the bias across image pairs with different facial hairstyles, we propose a scheme for adaptive thresholding based on facial hairstyle similarity. Evaluation on a subject-disjoint set of images shows that adaptive similarity thresholding based on facial hairstyles of the image pair reduces the ratio between the highest and lowest FMR across facial hairstyle categories for African-American from 10.7 to 1.8 and for Caucasians from 25.9 to 1.3. Facial hair annotations and facial hair segmentation model will be publicly available.
翻訳日:2023-08-31 14:53:34 公開日:2023-08-30
# モンテカルロ木探索による効率的かつ説明可能なグラフニューラルネットワーク探索

Efficient and Explainable Graph Neural Architecture Search via Monte-Carlo Tree Search ( http://arxiv.org/abs/2308.15734v1 )

ライセンス: Link先を確認
Yuya Sasaki(参考訳) グラフニューラルネットワーク(GNN)は、さまざまな領域でデータサイエンスタスクを実行する強力なツールである。 広範囲のアプリケーションシナリオでGNNを使用しているが、研究者や実践者が多様なグラフで最適なGNNルキテクチュアを設計・選択するのは面倒な作業である。 人的労力と計算コストを削減するため、グラフニューラルネットワーク検索(Graph NAS)は、既存のコンポーネントを組み合わせた最適化GNNアーキテクチャの探索に使用されている。 しかし、様々なグラフに対する説明可能性、効率、適応性を満たすグラフNASメソッドは存在しない。 そこで我々は,ExGNASと呼ばれる,効率的かつ説明可能なグラフNAS手法を提案する。 (i)様々なグラフに適応可能な簡単な検索空間 (ii)決定過程を説明可能にした探索アルゴリズム。 探索空間はホモフィルグラフとヘテロフィルグラフを扱える基本関数のみを含む。 探索アルゴリズムは、ニューラルネットワークを使わずにモンテカルロ木探索により最適なgnnアーキテクチャを効率的に探索する。 検索空間とアルゴリズムの組み合わせにより,正確なGNNモデルと検索空間内の重要な機能を見つけることができる。 提案手法を,手作りの12のGNNアーキテクチャとグラフNASの3つの手法と比較した。 実験の結果、ExGNASはAUCを3.6まで増加させ、最先端のグラフNAS法と比較して実行時間を78倍に削減した。 さらに, 同好性グラフと異好性グラフにおけるGNNアーキテクチャの違いを分析する上で, ExGNASが有効であることを示す。

Graph neural networks (GNNs) are powerful tools for performing data science tasks in various domains. Although we use GNNs in wide application scenarios, it is a laborious task for researchers and practitioners to design/select optimal GNN rchitectures in diverse graphs. To save human efforts and computational costs, graph neural architecture search (Graph NAS) has been used to search for a sub-optimal GNN architecture that combines existing components. However, there are no existing Graph NAS methods that satisfy explainability, efficiency, and adaptability to various graphs. Therefore, we propose an efficient and explainable Graph NAS method, called ExGNAS, which consists of (i) a simple search space that can adapt to various graphs and (ii) a search algorithm that makes the decision process explainable. The search space includes only fundamental functions that can handle homophilic and heterophilic graphs. The search algorithm efficiently searches for the best GNN architecture via Monte-Carlo tree search without neural models. The combination of our search space and algorithm achieves finding accurate GNN models and the important functions within the search space. We comprehensively evaluate our method compared with twelve hand-crafted GNN architectures and three Graph NAS methods in four graphs. Our experimental results show that ExGNAS increases AUC up to 3.6 and reduces run time up to 78\% compared with the state-of-the-art Graph NAS methods. Furthermore, we show ExGNAS is effective in analyzing the difference between GNN architectures in homophilic and heterophilic graphs.
翻訳日:2023-08-31 14:53:06 公開日:2023-08-30
# Drone-NeRF: 大規模ドローン調査のための高効率NeRFに基づく3次元シーン再構成

Drone-NeRF: Efficient NeRF Based 3D Scene Reconstruction for Large-Scale Drone Survey ( http://arxiv.org/abs/2308.15733v1 )

ライセンス: Link先を確認
Zhihao Jia, Bing Wang, Changhao Chen(参考訳) ニューラルネットワークレンダリングは、リアルな3Dシーンを作る能力のために、かなりの注目を集めている。 しかし、その広範囲なシーンへの適用性は依然として困難であり、有効性は制限されている。 本研究では,Neural Radiance Fields (NeRF) を用いたドローン斜め撮影に適した非有界大規模シーンの効率的な再構成を実現するために,Drone-NeRFフレームワークを提案する。 我々のアプローチでは、シーンをカメラの位置と深さの可視性に基づいて、一様にサブブロックに分割する。 サブシーンはNeRFを使用して並列にトレーニングされ、完全なシーンにマージされる。 我々は、カメラのポーズを最適化し、均一なサンプリング装置でNeRFを誘導することでモデルを洗練する。 選択したサンプルを統合することで精度が向上する。 ハッシュ符号化融合 MLP は密度表現を加速し、RGB および Depth 出力を得る。 フレームワークはサブシーンの制約を考慮し、並列学習ノイズを低減し、シャドーオクルージョンを処理し、サブリージョンをマージしてレンダリングする。 このDrone-NeRFフレームワークは、ドローンが保持する画像におけるシーンの複雑さ、レンダリング効率、精度に関連する課題に対処する有望な能力を示す。

Neural rendering has garnered substantial attention owing to its capacity for creating realistic 3D scenes. However, its applicability to extensive scenes remains challenging, with limitations in effectiveness. In this work, we propose the Drone-NeRF framework to enhance the efficient reconstruction of unbounded large-scale scenes suited for drone oblique photography using Neural Radiance Fields (NeRF). Our approach involves dividing the scene into uniform sub-blocks based on camera position and depth visibility. Sub-scenes are trained in parallel using NeRF, then merged for a complete scene. We refine the model by optimizing camera poses and guiding NeRF with a uniform sampler. Integrating chosen samples enhances accuracy. A hash-coded fusion MLP accelerates density representation, yielding RGB and Depth outputs. Our framework accounts for sub-scene constraints, reduces parallel-training noise, handles shadow occlusion, and merges sub-regions for a polished rendering result. This Drone-NeRF framework demonstrates promising capabilities in addressing challenges related to scene complexity, rendering efficiency, and accuracy in drone-obtained imagery.
翻訳日:2023-08-31 14:52:42 公開日:2023-08-30
# 完全組込み時間系列生成対向ネットワーク

Fully Embedded Time-Series Generative Adversarial Networks ( http://arxiv.org/abs/2308.15730v1 )

ライセンス: Link先を確認
Joe Beck, Subhadeep Chakraborty(参考訳) GAN(Generative Adversarial Networks)は、モデル化されているデータの基盤となる分布に適合する合成データを生成する。 実数値時系列データの場合、これはデータの静的な分布を同時に捉える必要があるだけでなく、潜在的な時間軸に対してデータの完全な時間的分布も必要となることを意味する。 この時間的要素はより複雑な問題を生じさせ、トレーニング中に現在の解が制約下にあるか不安定であるか、あるいはモード崩壊の度合いが変化する可能性がある。 FETSGANでは、全シーケンスをSeq2seqスタイルの逆自動エンコーダ(AAE)を使用して、ジェネレータのサンプリング空間に直接変換する。 この追加の制約は、合成サンプルの時間分布が崩壊しないという緩い保証を与える。 さらに、符号化シーケンスの再構築を補うために、第1Above Threshold(FAT)演算子を導入し、トレーニング安定性と合成データの全体的な品質を向上させる。 これらの新しい貢献は、fetsganによって生成されたデータの時間的類似性と量的予測能力の質的尺度において、敵対的学習者の現在の技術に著しい改善をもたらす。

Generative Adversarial Networks (GANs) should produce synthetic data that fits the underlying distribution of the data being modeled. For real valued time-series data, this implies the need to simultaneously capture the static distribution of the data, but also the full temporal distribution of the data for any potential time horizon. This temporal element produces a more complex problem that can potentially leave current solutions under-constrained, unstable during training, or prone to varying degrees of mode collapse. In FETSGAN, entire sequences are translated directly to the generator's sampling space using a seq2seq style adversarial auto encoder (AAE), where adversarial training is used to match the training distribution in both the feature space and the lower dimensional sampling space. This additional constraint provides a loose assurance that the temporal distribution of the synthetic samples will not collapse. In addition, the First Above Threshold (FAT) operator is introduced to supplement the reconstruction of encoded sequences, which improves training stability and the overall quality of the synthetic data being generated. These novel contributions demonstrate a significant improvement to the current state of the art for adversarial learners in qualitative measures of temporal similarity and quantitative predictive ability of data generated through FETSGAN.
翻訳日:2023-08-31 14:52:24 公開日:2023-08-30
# 低次多項式によるグラフェン推定のための計算下限

Computational Lower Bounds for Graphon Estimation via Low-degree Polynomials ( http://arxiv.org/abs/2308.15728v1 )

ライセンス: Link先を確認
Yuetian Luo and Chao Gao(参考訳) グラフオン推定はネットワーク解析における最も基本的な問題の一つであり、過去10年間にかなりの注目を集めてきた。 統計的観点からは、gao et al (2015) によって確率的ブロックモデル(sbm)と非パラメトリックなグラフェン推定の両方において、グラフェン推定の最小誤差率は確立されている。 統計的最適推定子は制約された最小二乗に基づいており、次元において計算複雑性が指数関数的である。 計算の観点からは、多項式時間推定器は普遍特異値しきい値(USVT)に基づいているが、最小値よりもはるかに遅い推定誤差率しか達成できない。 そのようなギャップが不可欠かどうか疑問に思うのは当然だ。 USVTの計算最適性や、グラノン推定における計算障壁の存在は、長年の未解決問題であった。 本研究では,その第一歩を踏み出し,低次多項式によるグラフェン推定における計算障壁の厳密な証拠を提供する。 特に, sbm および非パラメトリックグラフェン推定では, 低次多項式推定器では, その推定誤差率は, 広範囲のパラメータレジームの下では usvt のそれよりも著しく改善できないことが示されている。 我々の結果は、Schramm と Wein (2022) による最近の低次多項式の発展に基づいて証明されている。 また,本研究の主な成果を生かして,SBMにおけるコミュニティ検出におけるクラスタリング誤差の計算的下限も提供し,コミュニティの効率的な回復のためのケステン・スティグムしきい値の新たな証拠を得た。

Graphon estimation has been one of the most fundamental problems in network analysis and has received considerable attention in the past decade. From the statistical perspective, the minimax error rate of graphon estimation has been established by Gao et al (2015) for both stochastic block model (SBM) and nonparametric graphon estimation. The statistical optimal estimators are based on constrained least squares and have computational complexity exponential in the dimension. From the computational perspective, the best-known polynomial-time estimator is based on universal singular value thresholding (USVT), but it can only achieve a much slower estimation error rate than the minimax one. It is natural to wonder if such a gap is essential. The computational optimality of the USVT or the existence of a computational barrier in graphon estimation has been a long-standing open problem. In this work, we take the first step towards it and provide rigorous evidence for the computational barrier in graphon estimation via low-degree polynomials. Specifically, in both SBM and nonparametric graphon estimation, we show that for low-degree polynomial estimators, their estimation error rates cannot be significantly better than that of the USVT under a wide range of parameter regimes. Our results are proved based on the recent development of low-degree polynomials by Schramm and Wein (2022), while we overcome a few key challenges in applying it to the general graphon estimation problem. By leveraging our main results, we also provide a computational lower bound on the clustering error for community detection in SBM with a growing number of communities and this yields a new piece of evidence for the conjectured Kesten-Stigum threshold for efficient community recovery.
翻訳日:2023-08-31 14:51:58 公開日:2023-08-30
# 大規模言語モデルにおけるエンティティレベルの記憶の定量化と解析

Quantifying and Analyzing Entity-level Memorization in Large Language Models ( http://arxiv.org/abs/2308.15727v1 )

ライセンス: Link先を確認
Zhenhong Zhou, Jiuyang Xiang, Chaomeng Chen, Sen Su(参考訳) 大規模言語モデル(LLM)は、特定の設計のプロンプトを通して抽出できる訓練データを記憶できることが証明されている。 データセットの規模が拡大するにつれて、記憶から生じるプライバシーリスクが注目されている。 言語モデル記憶の定量化は潜在的なプライバシーリスクの評価に役立つ。 しかし、記憶の定量化に関する以前の研究では、正確な元のデータにアクセスするか、かなりの計算オーバーヘッドを負う必要があり、現実世界の言語モデルのアプリケーションでは困難である。 この目的のために,実世界のシナリオに近い条件やメトリクスで記憶を定量化する,詳細なエンティティレベルの定義を提案する。 さらに,自己回帰型言語モデルからセンシティブなエンティティを効率的に抽出する手法を提案する。 提案する言語モデルに基づく広範囲な実験を行い,異なる環境下でセンシティブな実体を再構築する能力について検討した。 言語モデルはエンティティレベルで強く記憶され,部分的なリークがあってもトレーニングデータを再現できることがわかった。 その結果、LLMはトレーニングデータを記憶するだけでなく、エンティティ間の関連も理解していることがわかった。 これらの知見は, LLMのトレーナーが, プライバシー侵害を防止するため, モデル記憶に関するより慎重な訓練を行う必要がある。

Large language models (LLMs) have been proven capable of memorizing their training data, which can be extracted through specifically designed prompts. As the scale of datasets continues to grow, privacy risks arising from memorization have attracted increasing attention. Quantifying language model memorization helps evaluate potential privacy risks. However, prior works on quantifying memorization require access to the precise original data or incur substantial computational overhead, making it difficult for applications in real-world language models. To this end, we propose a fine-grained, entity-level definition to quantify memorization with conditions and metrics closer to real-world scenarios. In addition, we also present an approach for efficiently extracting sensitive entities from autoregressive language models. We conduct extensive experiments based on the proposed, probing language models' ability to reconstruct sensitive entities under different settings. We find that language models have strong memorization at the entity level and are able to reproduce the training data even with partial leakages. The results demonstrate that LLMs not only memorize their training data but also understand associations between entities. These findings necessitate that trainers of LLMs exercise greater prudence regarding model memorization, adopting memorization mitigation techniques to preclude privacy violations.
翻訳日:2023-08-31 14:51:28 公開日:2023-08-30
# AGS: 家庭内音響イベント認識のためのデータセットと分類

AGS: An Dataset and Taxonomy for Domestic Scene Sound Event Recognition ( http://arxiv.org/abs/2308.15726v1 )

ライセンス: Link先を確認
Nan Che and Chenrui Liu and Fei Yu(参考訳) 室内・屋外環境(保育園、スマートハウス、介護施設など)における不審な出来事の認識には,環境音のシーンや音のイベント認識が重要であり,多くのオーディオ監視アプリケーションにおいて基本的な課題となっている。 特に,室内環境音シーンのデータセットに対する音響イベント認識研究分野の一般データセットは存在しない。 そこで本稿では,家庭環境音に対するデータセット(AGS)を提案する。 このデータセットは、シーン内の様々なタイプの重なり合うオーディオ、バックグラウンドノイズを考慮する。 さらに,提案するデータセットに基づいて,音声イベント認識のための高度な手法を比較し分析し,本論文で提案するデータセットの信頼性を示し,新たなデータセットが生み出す課題について検討する。 AGSと対応するベースラインのソースコードはhttps://github.com/taolunzu11/AGSで公開しています。

Environmental sound scene and sound event recognition is important for the recognition of suspicious events in indoor and outdoor environments (such as nurseries, smart homes, nursing homes, etc.) and is a fundamental task involved in many audio surveillance applications. In particular, there is no public common data set for the research field of sound event recognition for the data set of the indoor environmental sound scene. Therefore, this paper proposes a data set (called as AGS) for the home environment sound. This data set considers various types of overlapping audio in the scene, background noise. Moreover, based on the proposed data set, this paper compares and analyzes the advanced methods for sound event recognition, and then illustrates the reliability of the data set proposed in this paper, and studies the challenges raised by the new data set. Our proposed AGS and the source code of the corresponding baselines at https://github.com/taolunzu11/AGS .
翻訳日:2023-08-31 14:51:07 公開日:2023-08-30
# マルチエージェントシステムにおけるロバスト性と一般化のベンチマーク:ニューラルMMOのケーススタディ

Benchmarking Robustness and Generalization in Multi-Agent Systems: A Case Study on Neural MMO ( http://arxiv.org/abs/2308.15802v1 )

ライセンス: Link先を確認
Yangkun Chen, Joseph Suarez, Junjie Zhang, Chenghui Yu, Bo Wu, Hanmo Chen, Hengman Zhu, Rui Du, Shanliang Qian, Shuai Liu, Weijun Hong, Jinke He, Yibing Zhang, Liang Zhao, Clare Zhu, Julian Togelius, Sharada Mohanty, Jiaxin Chen, Xiu Li, Xiaolong Zhu, Phillip Isola(参考訳) IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。 参加者は、トレーニング中に見えない相手に対してマルチタスクの目標を達成するためにエージェントのチームを訓練します。 競争は比較的複雑な環境設計と環境における多数のエージェントを組み合わせる。 トップ投稿は、主に標準強化学習(rl)メソッドとドメイン特化工学を組み合わせることで、このタスクにおいて強力な成功を示しています。 コンペティションの設計と結果を要約し,アカデミックコミュニティとしてのコンペティションは,難解な問題を解決し,アルゴリズムの堅実なベンチマークを確立するための強力なアプローチである可能性を示唆する。 環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。

We present the results of the second Neural MMO challenge, hosted at IJCAI 2022, which received 1600+ submissions. This competition targets robustness and generalization in multi-agent systems: participants train teams of agents to complete a multi-task objective against opponents not seen during training. The competition combines relatively complex environment design with large numbers of agents in the environment. The top submissions demonstrate strong success on this task using mostly standard reinforcement learning (RL) methods combined with domain-specific engineering. We summarize the competition design and results and suggest that, as an academic community, competitions may be a powerful approach to solving hard problems and establishing a solid benchmark for algorithms. We will open-source our benchmark including the environment wrapper, baselines, a visualization tool, and selected policies for further research.
翻訳日:2023-08-31 14:45:55 公開日:2023-08-30
# 複数物体追跡のための咬合認識と再ID校正ネットワーク

Occlusion-Aware Detection and Re-ID Calibrated Network for Multi-Object Tracking ( http://arxiv.org/abs/2308.15795v1 )

ライセンス: Link先を確認
Yukun Su, Ruizhou Sun, Xin Shu, Yu Zhang, Qingyao Wu(参考訳) マルチオブジェクト追跡(MOT)は、オブジェクトの境界ボックスとアイデンティティを同時に予測することを目的としたコンピュータビジョンタスクである。 最先端の手法は、検出と再識別機能の学習のマルチタスク問題を共同で最適化することで驚くべき進歩を遂げているが、mot分野における長年の課題である咬合問題に取り組むためのアプローチはほとんどない。 一般に、隠蔽された物体は、検出器が境界ボックスを推定するのを妨げ、断片化された軌道をもたらす。 そして、学習されたoccluded re-id埋め込みは、干渉を持つため、あまり区別されない。 そこで本研究では,ORCTrackと呼ばれる多物体追跡のためのOcclusion-Aware Detection and Re-ID calibrated Networkを提案する。 具体的には,Occlusion-Aware Attention (OAA)モジュールを提案する。 OAAは、隠蔽される可能性のある物体の検出器を強化する変調器として機能する。 さらに,隣接フレーム間のRe-ID表現の強化と校正に焦点を当てた最適輸送問題に基づくRe-ID埋め込みマッチングブロックを設計する。 提案手法の有効性を検証するため, VisDrone2021-MOT と KITTI の2つのベンチマーク実験を行った。 実験により,新しい最先端性能を実現し,高い実行時間効率を享受できるアプローチの優位性を実証した。

Multi-Object Tracking (MOT) is a crucial computer vision task that aims to predict the bounding boxes and identities of objects simultaneously. While state-of-the-art methods have made remarkable progress by jointly optimizing the multi-task problems of detection and Re-ID feature learning, yet, few approaches explore to tackle the occlusion issue, which is a long-standing challenge in the MOT field. Generally, occluded objects may hinder the detector from estimating the bounding boxes, resulting in fragmented trajectories. And the learned occluded Re-ID embeddings are less distinct since they contain interferer. To this end, we propose an occlusion-aware detection and Re-ID calibrated network for multi-object tracking, termed as ORCTrack. Specifically, we propose an Occlusion-Aware Attention (OAA) module in the detector that highlights the object features while suppressing the occluded background regions. OAA can serve as a modulator that enhances the detector for some potentially occluded objects. Furthermore, we design a Re-ID embedding matching block based on the optimal transport problem, which focuses on enhancing and calibrating the Re-ID representations through different adjacent frames complementarily. To validate the effectiveness of the proposed method, extensive experiments are conducted on two challenging VisDrone2021-MOT and KITTI benchmarks. Experimental evaluations demonstrate the superiority of our approach, which can achieve new state-of-the-art performance and enjoy high run-time efficiency.
翻訳日:2023-08-31 14:45:39 公開日:2023-08-30
# 名前付きエンティティ知覚解析のためのハルフ・マスケッドモデル

HAlf-MAsked Model for Named Entity Sentiment analysis ( http://arxiv.org/abs/2308.15793v1 )

ライセンス: Link先を確認
Anton Kabaev, Pavel Podberezko, Andrey Kaznacheev, Sabina Abdullayeva(参考訳) Entity Sentiment Analysis (NESA) は、自然言語処理(NLP)において最も活発に開発されたアプリケーションドメインの1つである。 ソーシャルメディアのnesaは、ニュースフローにおける感情トレンドの検出と追跡が、さまざまな分析システムの構築や特定の人や企業のメディアイメージの監視に不可欠であるため、意見分析の重要な分野である。 本稿では,RuSentNE-23の評価において,異なるトランスフォーマーベースソリューション NESA について検討する。 BERTライクなモデルの有効性にもかかわらず、RuSentNE-23データにおいて高い精度を達成する上では、オーバーフィッティング(英語版)のようないくつかの課題に苦しむことができる。 この問題を克服するためのいくつかのアプローチを提案する。その中では、最終予測を行う前に、与えられたデータにマスクされたエンティティを渡して、モデルからのロジットを組み合わせるための新しい手法があります。 この手法を利用して,データの異なるサブセットでトレーニングされた複数のbertライクなモデルをアンサンブルし,全体的なパフォーマンスを向上させる。 提案モデルは, rusentne-23 評価データから最高の結果を得るとともに, エンティティレベルの感情分析における一貫性の向上を実証する。

Named Entity Sentiment analysis (NESA) is one of the most actively developing application domains in Natural Language Processing (NLP). Social media NESA is a significant field of opinion analysis since detecting and tracking sentiment trends in the news flow is crucial for building various analytical systems and monitoring the media image of specific people or companies. In this paper, we study different transformers-based solutions NESA in RuSentNE-23 evaluation. Despite the effectiveness of the BERT-like models, they can still struggle with certain challenges, such as overfitting, which appeared to be the main obstacle in achieving high accuracy on the RuSentNE-23 data. We present several approaches to overcome this problem, among which there is a novel technique of additional pass over given data with masked entity before making the final prediction so that we can combine logits from the model when it knows the exact entity it predicts sentiment for and when it does not. Utilizing this technique, we ensemble multiple BERT- like models trained on different subsets of data to improve overall performance. Our proposed model achieves the best result on RuSentNE-23 evaluation data and demonstrates improved consistency in entity-level sentiment analysis.
翻訳日:2023-08-31 14:45:12 公開日:2023-08-30
# 時間的階層型bフレーム符号化によるニューラルビデオ圧縮

Neural Video Compression with Temporal Layer-Adaptive Hierarchical B-frame Coding ( http://arxiv.org/abs/2308.15791v1 )

ライセンス: Link先を確認
Yeongwoong Kim, Suyong Bahk, Seungeon Kim, Won Hee Lee, Dokwan Oh, Hui Yong Kim(参考訳) neural video compression (nvc) は急速に発展するビデオ符号化研究分野であり、最新のビデオ符号化標準であるvvc (vvc) よりも優れた符号化効率を達成するモデルもある。 従来のビデオ符号化では、高圧縮のために双方向予測構造を利用する階層的Bフレーム符号化がよく研究され、利用されてきた。 しかし、NVCでは、階層的Bスキームの研究が限られている。 本稿では,階層的Bフレーム符号化と時間層適応最適化を用いたNVCモデルを提案する。 まず、既存の一方向NVCモデルを双方向モデルに拡張し、一方向ベースラインモデルに対して-21.13%のBDレートゲインを達成する。 しかし、このモデルは複雑な動きや大きな動きのシーケンスに適用すると問題に直面し、パフォーマンスが低下する。 そこで我々は,時間層適応品質スケーリング(TAQS)や時間層適応遅延スケーリング(TALS)などの手法を取り入れ,時間層適応最適化を導入する。 提案手法による最終モデルは、ベースラインに対して-39.86%のBDレート向上を達成した。 また、単純な双方向拡張よりも最大-49.13%のBDレートゲインを持つ大きなあるいは複雑な動きを持つシーケンスの課題も解決する。 この改善は、下位の時間層により多くのビットを割り当てることによるものであり、これにより、より小さなビットで全体の再構築品質が向上する。 提案手法は特定のNVCモデルアーキテクチャにはほとんど依存しないため,一方向NVCモデルを階層的Bフレーム符号化に拡張するための汎用ツールとして機能する。

Neural video compression (NVC) is a rapidly evolving video coding research area, with some models achieving superior coding efficiency compared to the latest video coding standard Versatile Video Coding (VVC). In conventional video coding standards, the hierarchical B-frame coding, which utilizes a bidirectional prediction structure for higher compression, had been well-studied and exploited. In NVC, however, limited research has investigated the hierarchical B scheme. In this paper, we propose an NVC model exploiting hierarchical B-frame coding with temporal layer-adaptive optimization. We first extend an existing unidirectional NVC model to a bidirectional model, which achieves -21.13% BD-rate gain over the unidirectional baseline model. However, this model faces challenges when applied to sequences with complex or large motions, leading to performance degradation. To address this, we introduce temporal layer-adaptive optimization, incorporating methods such as temporal layer-adaptive quality scaling (TAQS) and temporal layer-adaptive latent scaling (TALS). The final model with the proposed methods achieves an impressive BD-rate gain of -39.86% against the baseline. It also resolves the challenges in sequences with large or complex motions with up to -49.13% more BD-rate gains than the simple bidirectional extension. This improvement is attributed to the allocation of more bits to lower temporal layers, thereby enhancing overall reconstruction quality with smaller bits. Since our method has little dependency on a specific NVC model architecture, it can serve as a general tool for extending unidirectional NVC models to the ones with hierarchical B-frame coding.
翻訳日:2023-08-31 14:44:50 公開日:2023-08-30
# 動的カシミール効果による量子ビットの量子同期

Quantum synchronization of qubits via dynamical Casimir effect ( http://arxiv.org/abs/2308.15788v1 )

ライセンス: Link先を確認
Haruki Mitarai and Yoshihiko Hasegawa(参考訳) 2011年の動的カシミール効果の接地観測に続いて、超伝導回路における動的カシミール効果の探索が注目されている。 本稿では,動的カシミール効果によって引き起こされる量子ビットの同期について検討する。 この研究は、超伝導量子ビットと共平面導波路共振子を結合した量子システムの実用的構成を取り上げ、一端にsquidで終端する。 共振器内に光子を発生させることにより、位相内同期を実現するために必要な十分条件を特定する。 さらに,システムの時間発展を数値的にシミュレーションし,動的カシミール効果による光子発生が2つの量子ビットの同期を引き起こすことを検証した。 その結果, カシミール効果による光子生成は量子ビットと共振器の両方に影響を及ぼし, 量子系の制御に有効な資源であることが示唆された。 初期状態と結合強度の違いは、それらの間の重なりを伴わずに、独立に同期に影響を与える。

Following the groundbreaking observation of the dynamical Casimir effect in 2011, the exploration of the dynamical Casimir effect in superconducting circuits has garnered significant attention. In this paper, we investigate the synchronization of qubits induced by the dynamical Casimir effect. Our investigation revolves around a pragmatic configuration of a quantum system, where superconducting qubits coupled with a shared coplanar waveguide resonator, terminated by a SQUID at one end. We identify the sufficient condition required for achieving in-phase synchronization, which is expected to be accomplished by generating photons in the resonator. Furthermore, we numerically simulate the time evolution of the system and verify that photon generation via the dynamical Casimir effect arguably induces the synchronization of two qubits. Our result suggests that photon generation by the dynamical Casimir effect affects both the qubits and the resonator, and is a fruitful resource for the control of quantum systems. In addition, we unveil a remarkable feature that is probably unique to the dynamical Casimir effect: The differences in initial states and coupling strengths affect the synchronization independently with no overlap between them.
翻訳日:2023-08-31 14:44:23 公開日:2023-08-30
# fedcir: フェデレーション非iid特徴に対するクライアント不変表現学習

FedCiR: Client-Invariant Representation Learning for Federated Non-IID Features ( http://arxiv.org/abs/2308.15786v1 )

ライセンス: Link先を確認
Zijian Li, Zehong Lin, Jiawei Shao, Yuyi Mao, Jun Zhang(参考訳) Federated Learning(FL)は、エッジデバイスのデータ駆動モデルの可能性を、生データを共有せずに最大化する分散学習パラダイムである。 しかし、デバイスはしばしば非独立で同一に分散した(非IID)データを持っているため、そのローカルなデータ分布は著しく異なる可能性がある。 デバイス間の入力データ分布の不均一性(いわゆる特徴シフト問題)は、グローバルモデルのトレーニング収束と精度に悪影響を及ぼす可能性がある。 特徴シフト問題の本質的な原因を分析するため,FLにおける一般化誤差を解析し,クライアントから情報やクライアントから不変な特徴を抽出できるクライアント不変表現学習フレームワークであるFedCiRを提案する。 具体的には、表現とラベル間の相互情報項を改善して、表現に不可欠な分類知識を持たせるように促し、クライアントセットとラベルに条件付けられた表現との相互情報項を減らし、クライアントの表現をクライアント不変にする。 さらに、2つの正規化子をflフレームワークに組み込み、相互情報項を近似的な大域表現分布にバインドすることで、接地的大域表現分布の欠如を補償し、情報的かつクライアント不変な特徴抽出を可能にする。 グローバルな表現分布近似を実現するため,プライバシを損なうことなくサーバが行うデータフリー機構を提案する。 大規模な実験は、クライアント不変表現学習の実現とデータ不均一性問題の解決における我々のアプローチの有効性を示す。

Federated learning (FL) is a distributed learning paradigm that maximizes the potential of data-driven models for edge devices without sharing their raw data. However, devices often have non-independent and identically distributed (non-IID) data, meaning their local data distributions can vary significantly. The heterogeneity in input data distributions across devices, commonly referred to as the feature shift problem, can adversely impact the training convergence and accuracy of the global model. To analyze the intrinsic causes of the feature shift problem, we develop a generalization error bound in FL, which motivates us to propose FedCiR, a client-invariant representation learning framework that enables clients to extract informative and client-invariant features. Specifically, we improve the mutual information term between representations and labels to encourage representations to carry essential classification knowledge, and diminish the mutual information term between the client set and representations conditioned on labels to promote representations of clients to be client-invariant. We further incorporate two regularizers into the FL framework to bound the mutual information terms with an approximate global representation distribution to compensate for the absence of the ground-truth global representation distribution, thus achieving informative and client-invariant feature extraction. To achieve global representation distribution approximation, we propose a data-free mechanism performed by the server without compromising privacy. Extensive experiments demonstrate the effectiveness of our approach in achieving client-invariant representation learning and solving the data heterogeneity issue.
翻訳日:2023-08-31 14:44:02 公開日:2023-08-30
# リークのないスプリット:スプリットラーニングにおけるプライバシリーク低減

Split Without a Leak: Reducing Privacy Leakage in Split Learning ( http://arxiv.org/abs/2308.15783v1 )

ライセンス: Link先を確認
Khoa Nguyen, Tanveer Khan and Antonis Michalas(参考訳) ディープラーニング(DL)の人気は、機密データのプライバシーをこれまで以上に重要視している。 その結果、dlにおけるユーザデータのプライバシを保護するために、さまざまなプライバシ保存技術が実装されている。 プライバシ保存技術では,slit learning(sl)などの協調学習技術が,学習と予測のプロセスを高速化するために活用されている。 当初、SLはデータプライバシーに対する有望なアプローチと考えられていた。 しかし、その後の研究では、SLは多くの種類の攻撃を受けやすいことが示されており、プライバシー保護技術として機能することができない。 一方,プライバシー保護型深層学習を実現するために,slと暗号化の組み合わせによる対策も導入されている。 本研究では,SLとHymomorphic Encryption(HE)を用いたハイブリッド手法を提案する。 その背景にある考え方は、クライアントがアクティベーションマップ(クライアントとサーバの間で分割されたレイヤの出力)を暗号化し、サーバに送信することです。 これにより、サーバは、前方と後方の両方の伝搬の間、中間活性化マップからクライアントの入力データを再構築できない。 この改善は、サーバがクライアントの入力に関する貴重な情報を得ることができる他のslベースの作業に比べて、プライバシの漏洩を減らすために重要である。 さらに,MIT-BIHデータセット上では,SLとHEを用いたハイブリッド手法により,学習時間(約6倍)の短縮と通信オーバーヘッド(ほぼ160倍)の低減を実現し,DLの機密データに対するプライバシー保護を向上した。

The popularity of Deep Learning (DL) makes the privacy of sensitive data more imperative than ever. As a result, various privacy-preserving techniques have been implemented to preserve user data privacy in DL. Among various privacy-preserving techniques, collaborative learning techniques, such as Split Learning (SL) have been utilized to accelerate the learning and prediction process. Initially, SL was considered a promising approach to data privacy. However, subsequent research has demonstrated that SL is susceptible to many types of attacks and, therefore, it cannot serve as a privacy-preserving technique. Meanwhile, countermeasures using a combination of SL and encryption have also been introduced to achieve privacy-preserving deep learning. In this work, we propose a hybrid approach using SL and Homomorphic Encryption (HE). The idea behind it is that the client encrypts the activation map (the output of the split layer between the client and the server) before sending it to the server. Hence, during both forward and backward propagation, the server cannot reconstruct the client's input data from the intermediate activation map. This improvement is important as it reduces privacy leakage compared to other SL-based works, where the server can gain valuable information about the client's input. In addition, on the MIT-BIH dataset, our proposed hybrid approach using SL and HE yields faster training time (about 6 times) and significantly reduced communication overhead (almost 160 times) compared to other HE-based approaches, thereby offering improved privacy protection for sensitive data in DL.
翻訳日:2023-08-31 14:43:33 公開日:2023-08-30
# マルチタスク多言語機械翻訳のためのタスクベースMOE

Task-Based MoE for Multitask Multilingual Machine Translation ( http://arxiv.org/abs/2308.15772v1 )

ライセンス: Link先を確認
Hai Pham, Young Jin Kim, Subhabrata Mukherjee, David P. Woodruff, Barnabas Poczos, Hany Hassan Awadalla(参考訳) Mixture-of-experts (MoE) アーキテクチャは多くのアプリケーションで深層モデルのトレーニングにおいて、多様なタスクのための強力な手法であることが証明されている。 しかし、現在のMoE実装はタスク非依存であり、異なるタスクから全てのトークンを同じように扱う。 そこで本研究では,タスク情報を異なる粒度レベルでMoEモデルに組み込む新しい手法を,動的タスクベースアダプタの共用により設計する。 実験と解析により,マルチタスク多言語機械翻訳における高密度および標準MoEモデルに対するアプローチの利点が示された。 タスク固有のアダプタでは、モデルを新しいタスクに効率的に一般化することができます。

Mixture-of-experts (MoE) architecture has been proven a powerful method for diverse tasks in training deep models in many applications. However, current MoE implementations are task agnostic, treating all tokens from different tasks in the same manner. In this work, we instead design a novel method that incorporates task information into MoE models at different granular levels with shared dynamic task-based adapters. Our experiments and analysis show the advantages of our approaches over the dense and canonical MoE models on multi-task multilingual machine translations. With task-specific adapters, our models can additionally generalize to new tasks efficiently.
翻訳日:2023-08-31 14:43:10 公開日:2023-08-30
# 社会技術的監査 : ターゲット広告調査のためのレンズ監査アルゴリズムの拡充

Sociotechnical Audits: Broadening the Algorithm Auditing Lens to Investigate Targeted Advertising ( http://arxiv.org/abs/2308.15768v1 )

ライセンス: Link先を確認
Michelle S. Lam, Ayush Pandit, Colin H. Kalicki, Rachit Gupta, Poonam Sahoo, Dana\"e Metaxa(参考訳) アルゴリズム監査はブラックボックスシステムを研究するための強力なツールである。 技術的なコンポーネントを調べるのに非常に効果的だが、この方法は社会工学的な枠組みに留まらず、ユーザーをシステム統合的かつダイナミックな部分と見なす。 このギャップに対処するために,我々は,社会学的レベルでアルゴリズムシステムを評価する監査手法である社会技術的監査の概念を提案する。 アルゴリズム監査が様々な入力でアルゴリズムを探索し、出力を観察するのと同じように、社会技術監査(STA)はユーザーを調査し、異なるアルゴリズムの振る舞いに公開し、結果として生じる態度や行動を測定する。 この方法を実現するために,ブラウザベースの縦型社会技術的監査を行うプラットフォームであるintervenrを開発した。 intervenrはユーザーがオンラインで遭遇するアルゴリズムコンテンツを調査し、ユーザーがどう反応するかを理解するためにクライアント側の介入を体系的に調整する。 ケーススタディでは、Intervenrを2週間にわたるオンライン広告の社会技術監査(N=244)に展開し、パーソナライズされた広告ターゲティングがユーザにとってより効果的であるという中心的な前提について検討する。 最初の1週間は、ユーザに提供するすべてのブラウザ広告を収集し、2回目は、ランダムにペアリングし、すべての広告を交換することで、通常のターゲティングを阻害するアブレーションスタイルの介入を展開します。 ユーザ指向の指標(自己申告広告の興味と表現感)と広告主指向の指標(広告ビュー、クリック、認識)を、合計50万以上の広告とともに収集する。 当社のstaは、ターゲット広告が本当にユーザーに対して良好であることを発見したが、ユーザーは1週間で異なる広告に慣れ始め、繰り返し露出される影響からパーソナライズされた広告ターゲティングのプライマリ性に疑問を投げかけている。

Algorithm audits are powerful tools for studying black-box systems. While very effective in examining technical components, the method stops short of a sociotechnical frame, which would also consider users as an integral and dynamic part of the system. Addressing this gap, we propose the concept of sociotechnical auditing: auditing methods that evaluate algorithmic systems at the sociotechnical level, focusing on the interplay between algorithms and users as each impacts the other. Just as algorithm audits probe an algorithm with varied inputs and observe outputs, a sociotechnical audit (STA) additionally probes users, exposing them to different algorithmic behavior and measuring resulting attitudes and behaviors. To instantiate this method, we develop Intervenr, a platform for conducting browser-based, longitudinal sociotechnical audits with consenting, compensated participants. Intervenr investigates the algorithmic content users encounter online and coordinates systematic client-side interventions to understand how users change in response. As a case study, we deploy Intervenr in a two-week sociotechnical audit of online advertising (N=244) to investigate the central premise that personalized ad targeting is more effective on users. In the first week, we collect all browser ads delivered to users, and in the second, we deploy an ablation-style intervention that disrupts normal targeting by randomly pairing participants and swapping all their ads. We collect user-oriented metrics (self-reported ad interest and feeling of representation) and advertiser-oriented metrics (ad views, clicks, and recognition) throughout, along with a total of over 500,000 ads. Our STA finds that targeted ads indeed perform better with users, but also that users begin to acclimate to different ads in only a week, casting doubt on the primacy of personalized ad targeting given the impact of repeated exposure.
翻訳日:2023-08-31 14:43:01 公開日:2023-08-30
# 動的に再構成可能な極低温スパイクニューロンの設計空間へのディープダイブ

A Deep Dive into the Design Space of a Dynamically Reconfigurable Cryogenic Spiking Neuron ( http://arxiv.org/abs/2308.15754v1 )

ライセンス: Link先を確認
Md Mazharul Islam, Shamiul Alam, Catherine D Schuman, Md Shafayat Hossain, Ahmedullah Aziz(参考訳) スパイキングニューラルネットワークは、人間の脳の並列性とコンパクト性を模倣する最もバイオリアリスティックなアプローチを提供する。 スパイキングニューロンは情報符号化スパイクを生成するSNNの中心成分である。 超伝導memristor(sm)を用いた電気的再構成型極低温ニューロンの包括的設計空間解析を行う。 SM関数をデュアル周波数発振器として並列に接続された超伝導ナノワイヤ(SNW)と、これら2つの発振器を結合して動的に調整可能なスパイクニューロンを設計することができる。 同じニューロントポロジーが以前提案され、snwと並行して固定抵抗が使用された。 固定された抵抗をsmに置き換えることで、4つの異なるsm抵抗の組み合わせによるチューニングノブが提供され、リコンフィギュアビリティが最大70%向上する。 外部バイアス電流(ibias)を利用して、スパイク周波数を3.5倍まで変調することができる。 2つの異なるスパイク振幅(~1Vと~1.8V)も達成される。 本稿では,系統的感度解析を行い,より高い入力電流強度を選択することで,再構成性をさらに調整できることを示す。 500点モンテカルロ変動解析を行うことで、スパイク振幅はスパイク周波数よりも頑健であり、より高いibiaを選択することでさらに頑健性が向上することがわかった。 本研究は,神経回路のシステムレベルでの組み込みに有用であるニューロンの材料探索と回路レベルの修飾に有用な知見を提供する。

Spiking neural network offers the most bio-realistic approach to mimic the parallelism and compactness of the human brain. A spiking neuron is the central component of an SNN which generates information-encoded spikes. We present a comprehensive design space analysis of the superconducting memristor (SM)-based electrically reconfigurable cryogenic neuron. A superconducting nanowire (SNW) connected in parallel with an SM function as a dual-frequency oscillator and two of these oscillators can be coupled to design a dynamically tunable spiking neuron. The same neuron topology was previously proposed where a fixed resistance was used in parallel with the SNW. Replacing the fixed resistance with the SM provides an additional tuning knob with four distinct combinations of SM resistances, which improves the reconfigurability by up to ~70%. Utilizing an external bias current (Ibias), the spike frequency can be modulated up to ~3.5 times. Two distinct spike amplitudes (~1V and ~1.8 V) are also achieved. Here, we perform a systematic sensitivity analysis and show that the reconfigurability can be further tuned by choosing a higher input current strength. By performing a 500-point Monte Carlo variation analysis, we find that the spike amplitude is more variation robust than spike frequency and the variation robustness can be further improved by choosing a higher Ibias. Our study provides valuable insights for further exploration of materials and circuit level modification of the neuron that will be useful for system-level incorporation of the neuron circuit
翻訳日:2023-08-31 14:42:26 公開日:2023-08-30
# 可変マイクロ波場の一方向放射のためのキラル空洞磁気システム

Chiral cavity-magnonic system for the unidirectional emission of a tunable squeezed microwave field ( http://arxiv.org/abs/2308.15826v1 )

ライセンス: Link先を確認
Ji-kun Xie, Sheng-li Ma, Ya-long Ren, Shao-yan Gao, and Fu-li Li(参考訳) 一方向光子放出は、量子ネットワークの構築とスケーラブルな量子情報処理の実現に不可欠である。 本研究では,波長可変マイクロ波フィールドの一方向放射のための効率的な手法を開発した。 本手法は, 単結晶イットリウム鉄ガーネット(YIG)球内のマグノンモードを, 同じキラリティーを有するトーラス型キャビティ内の2つの縮退回転マイクロ波モードの1つに選択的に結合するカイラルキャビティマグノニクス系に基づく。 また,2色Floquet場によって駆動されるYIG球体を用いて,共振型マグノンモードと導波路の助けを借りて,調整可能なマイクロ波場の一方向放射を発生させることができることを示す。 さらに、バイアス磁場を反転させることで、一方向エミッタの方向を需要に応じて制御することができる。 我々の研究は、一方通行の非古典的マイクロ波放射場を作成して操作する道を開き、量子技術応用の可能性を見出す。

Unidirectional photon emission is crucial for constructing quantum networks and realizing scalable quantum information processing. In the present work an efficient scheme is developed for the unidirectional emission of a tunable squeezed microwave field. Our scheme is based on a chiral cavity magnonic system, where a magnon mode in a single-crystalline yttrium iron garnet (YIG) sphere is selectively coupled to one of the two degenerate rotating microwave modes in a torus-shaped cavity with the same chirality. With the YIG sphere driven by a two-color Floquet field to induce sidebands in the magnon-photon coupling, we show that the unidirectional emission of a tunable squeezed microwave field can be generated via the assistance of the dissipative magnon mode and a waveguide. Moreover, the direction of the proposed one-way emitter can be controlled on demand by reversing the biased magnetic field. Our work opens up an avenue to create and manipulate one-way nonclassical microwave radiation field and could find potential quantum technological applications.
翻訳日:2023-08-31 14:34:45 公開日:2023-08-30
# AMDNet23: 加齢関連黄斑変性診断のための深層輪郭型畳み込みニューラルネットワークと長期記憶システムの組み合わせ

AMDNet23: A combined deep Contour-based Convolutional Neural Network and Long Short Term Memory system to diagnose Age-related Macular Degeneration ( http://arxiv.org/abs/2308.15822v1 )

ライセンス: Link先を確認
Md. Aiyub Ali, Md. Shakhawat Hossain, Md.Kawar Hossain, Subhadra Soumi Sikder, Sharun Akter Khushbu, Mirajul Islam(参考訳) 拡大する人口に照らして、病気検出の自動化フレームワークは、眼疾患の診断を医師に支援し、正確で安定した、迅速な結果をもたらし、早期発見の成功率を向上させることができる。 この研究は当初、適応コントラスト強調アルゴリズム(clahe)とガンマ補正を用いて、眼底画像の品質を高めることを意図していた。 前処理技術では、CLAHEは基底像の局所コントラストを高め、ガンマ補正は関連する特徴の強度を増加させる。 本研究は、畳み込み(CNN)と短期記憶(LSTM)からなるニューラルネットワークを組み合わせた深層学習システムAMDNet23を用いて、眼底部から老化性黄斑変性(AMD)疾患を自動的に検出する。 本機構では,CNNを用いて特徴抽出を行い,LSTMを用いて特徴抽出を行う。 本研究のデータセットは,複数の情報源から収集され,2000年の実験基礎画像は4つの異なるクラスを等しく含んでいる。 提案するハイブリッド型深層amdnet23モデルはamd眼疾患の検出に有効であり、実験結果は精度96.50%、特異性99.32%、感度96.5%、f1-score96.49.0%を達成した。 本システムは,AMD眼疾患を診断するための基盤画像データセットの最先端的な発見と,本手法の有効性について検討した。

In light of the expanding population, an automated framework of disease detection can assist doctors in the diagnosis of ocular diseases, yields accurate, stable, rapid outcomes, and improves the success rate of early detection. The work initially intended the enhancing the quality of fundus images by employing an adaptive contrast enhancement algorithm (CLAHE) and Gamma correction. In the preprocessing techniques, CLAHE elevates the local contrast of the fundus image and gamma correction increases the intensity of relevant features. This study operates on a AMDNet23 system of deep learning that combined the neural networks made up of convolutions (CNN) and short-term and long-term memory (LSTM) to automatically detect aged macular degeneration (AMD) disease from fundus ophthalmology. In this mechanism, CNN is utilized for extracting features and LSTM is utilized to detect the extracted features. The dataset of this research is collected from multiple sources and afterward applied quality assessment techniques, 2000 experimental fundus images encompass four distinct classes equitably. The proposed hybrid deep AMDNet23 model demonstrates to detection of AMD ocular disease and the experimental result achieved an accuracy 96.50%, specificity 99.32%, sensitivity 96.5%, and F1-score 96.49.0%. The system achieves state-of-the-art findings on fundus imagery datasets to diagnose AMD ocular disease and findings effectively potential of our method.
翻訳日:2023-08-31 14:34:26 公開日:2023-08-30
# 適応型パーソナライズレイヤーを用いた2段階デカップリング

Federated Two Stage Decoupling With Adaptive Personalization Layers ( http://arxiv.org/abs/2308.15821v1 )

ライセンス: Link先を確認
Hangyu Zhu, Yuxiang Fan, Zhenping Xie(参考訳) フェデレーテッド・ラーニングは、プライバシーの制約を維持しながら分散学習を可能にするという画期的な能力によって大きな注目を集めている。 しかし、分散デバイス間のデータ不均一性の結果、本質的には学習劣化と収束速度の低下を経験する。 したがって、同種クライアントを同じ群にクラスタリングするという概念を採用することは自然であり、各群内のモデル重みのみを集約することができる。 既存のクラスタ型フェデレーション学習手法のほとんどは、モデル勾配や推論出力をクライアント分割のメトリクスとして採用しているが、同様のデバイスをグループ化することを目的としているため、各クラスタ内にも異種性がある可能性がある。 さらに、クラスタリングの適切なタイミングを決定するための基礎となる理由を探求する研究は少なく、特に非独立で同一に分散した(Non-IID)データのコンテキストにおいて、各クライアントを個別のクラスタに割り当てる一般的な実践となっている。 本稿では,FedTSDPという適応型パーソナライズ層を持つ2段階のデカップリングフェデレーション学習アルゴリズムを提案する。 ホプキンス修正サンプリングは、公開ラベルなしデータのクラスタリングの適切なタイミングとサンプリング重みを決定するために採用されている。 また,多様なデータスキューに基づいてパーソナライズ層を適応的に調整する,単純かつ効果的な手法を開発した。 実験の結果,提案手法はIIDと非IIDの両方のシナリオで信頼性の高い性能を示すことがわかった。

Federated learning has gained significant attention due to its groundbreaking ability to enable distributed learning while maintaining privacy constraints. However, as a consequence of data heterogeneity among decentralized devices, it inherently experiences significant learning degradation and slow convergence speed. Therefore, it is natural to employ the concept of clustering homogeneous clients into the same group, allowing only the model weights within each group to be aggregated. While most existing clustered federated learning methods employ either model gradients or inference outputs as metrics for client partitioning, with the goal of grouping similar devices together, may still have heterogeneity within each cluster. Moreover, there is a scarcity of research exploring the underlying reasons for determining the appropriate timing for clustering, resulting in the common practice of assigning each client to its own individual cluster, particularly in the context of highly non independent and identically distributed (Non-IID) data. In this paper, we introduce a two-stage decoupling federated learning algorithm with adaptive personalization layers named FedTSDP, where client clustering is performed twice according to inference outputs and model weights, respectively. Hopkins amended sampling is adopted to determine the appropriate timing for clustering and the sampling weight of public unlabeled data. In addition, a simple yet effective approach is developed to adaptively adjust the personalization layers based on varying degrees of data skew. Experimental results show that our proposed method has reliable performance on both IID and non-IID scenarios.
翻訳日:2023-08-31 14:33:56 公開日:2023-08-30
# 2021-2023年モデルカウント競争におけるSharpSAT-TD

SharpSAT-TD in Model Counting Competitions 2021-2023 ( http://arxiv.org/abs/2308.15819v1 )

ライセンス: Link先を確認
Tuukka Korhonen, Matti J\"arvisalo(参考訳) 我々は2021-2023年のモデル計数競争における、重み付けと重み付けのないトラックへの私たちの提案であるsharpsat-tdについて説明する。 SharpSAT-TD はSharpSAT [Thurley, SAT 2006] をベースとしており,[CP 2021] において著者らが導入した可変選択ヒューリスティックにおける木分解の利用が主な改良点である。 SharpSAT-TDが[CP 2021]で評価されているバージョンとは異なり、https://github.com/Laakeri/sharpsat-tdで利用可能な現在のバージョンは、例えば新しいプリプロセッサのようなオリジナルのSharpSATと比較して、他の重要な変更も行っている。

We describe SharpSAT-TD, our submission to the unweighted and weighted tracks of the Model Counting Competition in 2021-2023, which has won in total $6$ first places in different tracks of the competition. SharpSAT-TD is based on SharpSAT [Thurley, SAT 2006], with the primary novel modification being the use of tree decompositions in the variable selection heuristic as introduced by the authors in [CP 2021]. Unlike the version of SharpSAT-TD evaluated in [CP 2021], the current version that is available in https://github.com/Laakeri/sharpsat-td features also other significant modifications compared to the original SharpSAT, for example, a new preprocessor.
翻訳日:2023-08-31 14:33:29 公開日:2023-08-30
# 大規模データセットと画像強調による水中視覚追跡の改善

Improving Underwater Visual Tracking With a Large Scale Dataset and Image Enhancement ( http://arxiv.org/abs/2308.15816v1 )

ライセンス: Link先を確認
Basit Alawode, Fayaz Ali Dharejo, Mehnaz Ummar, Yuhang Guo, Arif Mahmood, Naoufel Werghi, Fahad Shahbaz Khan, Sajid Javed(参考訳) 本稿では,水中ビジュアルオブジェクト追跡(UVOT)のための新しいデータセットと汎用トラッカー拡張手法を提案する。 その重要性にもかかわらず、データにアクセスできないため、水中追跡は未調査のままである。 水中環境は、一様でない照明条件、視界の低さ、鋭さの欠如、コントラストの低さ、カモフラージュ、懸濁粒子からの反射を示す。 地上・屋外のシナリオを主目的とした従来の追跡手法の性能が低下する。 本研究では,トラッキング品質の向上を目的とした水中画像強調アルゴリズムを提案する。 この手法により、最先端(SOTA)ビジュアルトラッカーの最大5.0%のAUCの性能が向上した。 堅牢で正確なUVOT手法を開発するには、大規模なデータセットが必要である。 そこで本研究では,400個のビデオセグメントと275,000個の手動アノテートフレームからなる大規模UVOTベンチマークデータセットを導入する。 ビデオには水中に特有のトラッキング属性として、水色の変化、ターゲットの邪魔、カモフラージュ、ターゲットの相対サイズ、視認性の低い条件などが含まれている。 UVOT400データセット、追跡結果、およびコードは、https://github.com/BasitAlawode/UWVOT400で公開されている。

This paper presents a new dataset and general tracker enhancement method for Underwater Visual Object Tracking (UVOT). Despite its significance, underwater tracking has remained unexplored due to data inaccessibility. It poses distinct challenges; the underwater environment exhibits non-uniform lighting conditions, low visibility, lack of sharpness, low contrast, camouflage, and reflections from suspended particles. Performance of traditional tracking methods designed primarily for terrestrial or open-air scenarios drops in such conditions. We address the problem by proposing a novel underwater image enhancement algorithm designed specifically to boost tracking quality. The method has resulted in a significant performance improvement, of up to 5.0% AUC, of state-of-the-art (SOTA) visual trackers. To develop robust and accurate UVOT methods, large-scale datasets are required. To this end, we introduce a large-scale UVOT benchmark dataset consisting of 400 video segments and 275,000 manually annotated frames enabling underwater training and evaluation of deep trackers. The videos are labelled with several underwater-specific tracking attributes including watercolor variation, target distractors, camouflage, target relative size, and low visibility conditions. The UVOT400 dataset, tracking results, and the code are publicly available on: https://github.com/BasitAlawode/UWVOT400.
翻訳日:2023-08-31 14:33:11 公開日:2023-08-30
# 量子リピータネットワークにおける回転対称ボソニック符号の性能

Performance of Rotation-Symmetric Bosonic Codes in a Quantum Repeater Network ( http://arxiv.org/abs/2308.15815v1 )

ライセンス: Link先を確認
Pei-Zhe Li, Josephine Dias, William J. Munro, Peter van Loock, Kae Nemoto, and Nicol\'o Lo Piparo(参考訳) 連続変数に基づく量子誤り訂正符号は、量子通信システムの実装において重要な役割を果たす。 このような符号の自然な応用は、厳しいチャネル損失や局所ゲートエラーに対処するために使用される量子リピータシステム内で行われる。 特に、チャネル損失は、リモートユーザ間の通信距離を大幅に削減する。 ここでは、量子チャネルの損失に対処する空洞QEDに基づくリピータ方式を検討する。 このリピータ方式は、特定の種類の回転不変な誤り訂正符号の伝送に依存する。 量子リピータネットワークで接続された2つのリモートユーザの初期状態を猫符号の規則と照合するために,数個の回転対称ボソニック符号(RSBC)を比較し,秘密鍵レートを用いてシステムの性能を定量化する。 特に,秘密鍵を一定距離で交換するために必要な駅数を決定し,リソースオーバーヘッドを確立する。

Quantum error correction codes based on continuous variables play an important role for the implementation of quantum communication systems. A natural application of such codes occurs within quantum repeater systems which are used to combat severe channel losses and local gate errors. In particular, channel loss drastically reduces the distance of communication between remote users. Here we consider a cavity-QED based repeater scheme to address the losses in the quantum channel. This repeater scheme relies on the transmission of a specific class of rotationally invariant error-correcting codes. We compare several rotation-symmetric bosonic codes (RSBCs) being used to encode the initial states of two remote users connected by a quantum repeater network against the convention of the cat codes and we quantify the performance of the system using the secret key rate. In particular, we determine the number of stations required to exchange a secret key over a fixed distance and establish the resource overhead.
翻訳日:2023-08-31 14:32:50 公開日:2023-08-30
# 知識に基づく自然言語推薦説明

Knowledge-grounded Natural Language Recommendation Explanation ( http://arxiv.org/abs/2308.15813v1 )

ライセンス: Link先を確認
Anthony Colas, Jun Araki, Zhengyu Zhou, Bingqing Wang, Zhe Feng(参考訳) レコメンデーションを伴う説明は、レコメンデーションシステムによる決定を理解するのに役立ち、それによってユーザの信頼とシステムに対する信頼を高める。 近年,自然言語を人間が読める形式に生成する研究が進んでいる。 提案手法は, 利用者が作成した項目レビューを利用しており, しばしば主観的であり, 言語的にも疎外であり, 購入やレビューをしていない項目を考慮できない。 代わりに,ユーザの購入履歴に基づいてユーザの嗜好を暗黙的に考慮しながら,アイテムの特徴を客観的に記述した,事実に基づく推奨説明の生成を目指す。 そこで本研究では,自然言語の説明可能な推奨に対する知識グラフ(KG)アプローチを提案する。 提案手法は,協調フィルタリングに基づく新規なKG表現を用いて,ファクトグラウンドでパーソナライズされた説明文を生成するとともに,レコメンデーションスコアのためのユーザイテム表現を共同学習する。 実験結果から,提案手法は,従来の自然言語解説モデルよりもずっと優れていることがわかった。

Explanations accompanied by a recommendation can assist users in understanding the decision made by recommendation systems, which in turn increases a user's confidence and trust in the system. Recently, research has focused on generating natural language explanations in a human-readable format. Thus far, the proposed approaches leverage item reviews written by users, which are often subjective, sparse in language, and unable to account for new items that have not been purchased or reviewed before. Instead, we aim to generate fact-grounded recommendation explanations that are objectively described with item features while implicitly considering a user's preferences, based on the user's purchase history. To achieve this, we propose a knowledge graph (KG) approach to natural language explainable recommendation. Our approach draws on user-item features through a novel collaborative filtering-based KG representation to produce fact-grounded, personalized explanations, while jointly learning user-item representations for recommendation scoring. Experimental results show that our approach consistently outperforms previous state-of-the-art models on natural language explainable recommendation.
翻訳日:2023-08-31 14:32:34 公開日:2023-08-30
# 選好によるピアリング: 大きな言語モデルを調整するためのフィードバック獲得

Peering Through Preferences: Unraveling Feedback Acquisition for Aligning Large Language Models ( http://arxiv.org/abs/2308.15812v1 )

ライセンス: Link先を確認
Hritik Bansal, John Dang, Aditya Grover(参考訳) 大きな言語モデル(LLM)と人間の価値と意図を批判的に調整するには、人間やAIのフィードバックを使用する必要がある。 密集したフィードバックアノテーションは取得と統合に費用がかかるが、スパースフィードバックは評価(例えば1-7のスコアスコアA)とランキング(例えばレスポンスAがレスポンスBより優れているか? 本研究では,この設計選択がllmのアライメントと評価に与える影響を分析した。 評価やランキングから推定される選好が、人間とAIのアノテータの60%と大きく異なるという矛盾した問題を明らかにする。 以上の結果から,この現象を説明する注釈者バイアスの様々な側面を同定し,例えば,人間の注釈者は対数判断において精度を優先しながら,より密な応答を高く評価した。 驚いたことに、フィードバックプロトコルの選択は、アライメントされたllmの評価にも大きな影響を与えることも観察しています。 特に,アライメントのためのランキングデータ(例えばモデルx)を利用するllmは,ランクベースの評価プロトコル(x/yの応答は基準応答より優れているか?)で評価データ(例えばモデルy)を利用するものよりも好ましいが,格付けベースの評価プロトコル(score rank x/yの応答は1~7のスケールで応答する)は好まれている。 以上の結果から,言語モデルの実用性評価手法における重要なギャップと,アライメントに使用するフィードバックプロトコルへの強い依存が浮き彫りになった。 私たちのコードとデータはhttps://github.com/hritikbansal/sparse_feedbackで入手できます。

Aligning large language models (LLMs) with human values and intents critically involves the use of human or AI feedback. While dense feedback annotations are expensive to acquire and integrate, sparse feedback presents a structural design choice between ratings (e.g., score Response A on a scale of 1-7) and rankings (e.g., is Response A better than Response B?). In this work, we analyze the effect of this design choice for the alignment and evaluation of LLMs. We uncover an inconsistency problem wherein the preferences inferred from ratings and rankings significantly disagree 60% for both human and AI annotators. Our subsequent analysis identifies various facets of annotator biases that explain this phenomena, such as human annotators would rate denser responses higher while preferring accuracy during pairwise judgments. To our surprise, we also observe that the choice of feedback protocol also has a significant effect on the evaluation of aligned LLMs. In particular, we find that LLMs that leverage rankings data for alignment (say model X) are preferred over those that leverage ratings data (say model Y), with a rank-based evaluation protocol (is X/Y's response better than reference response?) but not with a rating-based evaluation protocol (score Rank X/Y's response on a scale of 1-7). Our findings thus shed light on critical gaps in methods for evaluating the real-world utility of language models and their strong dependence on the feedback protocol used for alignment. Our code and data are available at https://github.com/Hritikbansal/sparse_feedback.
翻訳日:2023-08-31 14:32:12 公開日:2023-08-30
# acnpu:非対称畳み込みを分離した4.75tops/w 1080p@30fps超解像度加速器

ACNPU: A 4.75TOPS/W 1080P@30FPS Super Resolution Accelerator with Decoupled Asymmetric Convolution ( http://arxiv.org/abs/2308.15807v1 )

ライセンス: Link先を確認
Tun-Hao Yang, and Tian-Sheuan Chang(参考訳) 深層学習駆動型超解像(SR)は従来の技術より優れているが、高複雑性とメモリ帯域幅の課題に直面している。 この課題は、多くのアクセラレーターがFSRCNNのようなシンプルで浅いモデルを選択し、特にリソース制限エッジデバイスにおけるリアルタイムニーズのパフォーマンスを向上させる。 本稿では,エネルギー効率の高いSR加速器ACNPUを提案する。 ACNPUは27層モデルで画質を0.34dB向上させるが、FSRCNNよりも36倍の複雑さが必要であり、類似したモデルサイズを維持しながら、 \textit{decoupled asymmetric convolution and split-bypass structure} を持つ。 ハードウェアフレンドリーな17Kパラメータモデルは、局所層融合の代わりに \textit{holistic model fusion} を可能にし、中間特徴写像の外部DRAMアクセスを除去する。 オンチップメモリ帯域幅は、電力消費を減らすために \textit{input stationary flow} と \textit{parallel-layer execution} によってさらに削減される。 ハードウェアはレギュラーで、再設定可能な入力と均一なデータフローを備えた‘textit{processing element(PE)クラスタ’によって、さまざまなレイヤをサポートするために簡単に制御できる。 40nmのCMOSプロセスの実装は2333Kのゲート数と198KBのSRAMを消費する。 ACNPUは、x2とx4のそれぞれ31.7 FPSと124.4 FPSを達成し、フルHD生成を実現し、エネルギー効率は4.75 TOPS/Wに達する。

Deep learning-driven superresolution (SR) outperforms traditional techniques but also faces the challenge of high complexity and memory bandwidth. This challenge leads many accelerators to opt for simpler and shallow models like FSRCNN, compromising performance for real-time needs, especially for resource-limited edge devices. This paper proposes an energy-efficient SR accelerator, ACNPU, to tackle this challenge. The ACNPU enhances image quality by 0.34dB with a 27-layer model, but needs 36\% less complexity than FSRCNN, while maintaining a similar model size, with the \textit{decoupled asymmetric convolution and split-bypass structure}. The hardware-friendly 17K-parameter model enables \textit{holistic model fusion} instead of localized layer fusion to remove external DRAM access of intermediate feature maps. The on-chip memory bandwidth is further reduced with the \textit{input stationary flow} and \textit{parallel-layer execution} to reduce power consumption. Hardware is regular and easy to control to support different layers by \textit{processing elements (PEs) clusters with reconfigurable input and uniform data flow}. The implementation in the 40 nm CMOS process consumes 2333 K gate counts and 198KB SRAMs. The ACNPU achieves 31.7 FPS and 124.4 FPS for x2 and x4 scales Full-HD generation, respectively, which attains 4.75 TOPS/W energy efficiency.
翻訳日:2023-08-31 14:31:40 公開日:2023-08-30
# ロバスト制御理論を用いたコヒーレントパッシブ量子等化器の設計

Design of Coherent Passive Quantum Equalizers Using Robust Control Theory ( http://arxiv.org/abs/2308.15805v1 )

ライセンス: Link先を確認
V. Ugrinovskii and M.R. James(参考訳) 本稿では,量子通信チャネルにおけるコヒーレント等化フィルタの設計手法を提案する。 量子通信チャネルの線形量子システムモデルが与えられたとき、その目的は、元のシステムと結合すると、環境の劣化を緩和する別の量子システムを得ることである。 論文の主な結果は、半定値計画による状態空間ロバスト制御設計法に依存する体系的等化子合成アルゴリズムである。

The paper develops a methodology for the design of coherent equalizing filters for quantum communication channels. Given a linear quantum system model of a quantum communication channel, the aim is to obtain another quantum system which, when coupled with the original system, mitigates degrading effects of the environment. The main result of the paper is a systematic equalizer synthesis algorithm which relies on methods of state-space robust control design via semidefinite programming.
翻訳日:2023-08-31 14:31:10 公開日:2023-08-30
# オープン語彙オブジェクト検出のためのマルチモーダルコンテキスト知識の探索

Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object Detection ( http://arxiv.org/abs/2308.15846v1 )

ライセンス: Link先を確認
Yifan Xu, Mengdan Zhang, Xiaoshan Yang, Changsheng Xu(参考訳) 本稿では,open-vocabulary object detection (ovd) の新たなカテゴリを理解するための有用なマルチモーダル文脈知識を初めて探究する。 マルチモーダルな文脈知識は、地域と単語間の共同関係を表す。 しかし、そのようなマルチモーダルな文脈知識をOVDに組み込むことは困難である。 この理由は、オブジェクト検出器が視覚入力のみをサポートし、テスト時にキャプション記述が提供されないため、以前の検出フレームワークがマルチモーダルな文脈知識を共同モデル化できないためである。 そこで,本稿では,様々なマルチモーダルマスキング言語モデル(d-mlm)を用いて教師融合トランスフォーマタから学習した文脈知識を学生検出器に転送するマルチモーダル文脈知識蒸留フレームワークmmc-detを提案する。 従来のマルチモーダルマスキング言語モデリング (MLM) に基づくオブジェクト分散制約により, オブジェクト検出に不可欠な, きめ細かい領域レベルの視覚的コンテキストを抽出するために, 多様なマルチモーダルマスキング言語モデリングを実現する。 様々な検出データセットを用いて行った大規模な実験は、我々の多モード文脈学習戦略の有効性を示している。

In this paper, we for the first time explore helpful multi-modal contextual knowledge to understand novel categories for open-vocabulary object detection (OVD). The multi-modal contextual knowledge stands for the joint relationship across regions and words. However, it is challenging to incorporate such multi-modal contextual knowledge into OVD. The reason is that previous detection frameworks fail to jointly model multi-modal contextual knowledge, as object detectors only support vision inputs and no caption description is provided at test time. To this end, we propose a multi-modal contextual knowledge distillation framework, MMC-Det, to transfer the learned contextual knowledge from a teacher fusion transformer with diverse multi-modal masked language modeling (D-MLM) to a student detector. The diverse multi-modal masked language modeling is realized by an object divergence constraint upon traditional multi-modal masked language modeling (MLM), in order to extract fine-grained region-level visual contexts, which are vital to object detection. Extensive experiments performed upon various detection datasets show the effectiveness of our multi-modal context learning strategy, where our approach well outperforms the recent state-of-the-art methods.
翻訳日:2023-08-31 14:26:31 公開日:2023-08-30
# ハイパーグラフリレーショナル推論を用いたグループ再構築

Reconstructing Groups of People with Hypergraph Relational Reasoning ( http://arxiv.org/abs/2308.15844v1 )

ライセンス: Link先を確認
Buzhen Huang, Jingyi Ju, Zhihao Li and Yangang Wang(参考訳) 相互閉塞, 厳密なスケール変動, 複雑な空間分布のため, 現在のマルチ人メッシュ回収法では, 大規模混雑したシーンにおいて, 正確な絶対体のポーズや形状を生成できない。 これらの障害に対処するため,単眼画像から集団を再構築するために,群集の特徴をフル活用する。 集団内の個人とグループ間の複雑かつ高次関係関係を定式化する新しいハイパーグラフ関係推論ネットワークを提案する。 まず、元の高解像度画像からコンパクトな人的特徴と位置情報を抽出する。 抽出した個々の特徴に対する関係推論を行うことにより、下層の集団性と相互作用関係は再構築のための追加のグループ情報を提供することができる。 最後に、更新された個々の特徴とローカライズ情報を使用して、人間のメッシュをカメラ座標でレグレッションする。 ネットワークトレーニングを容易にするために,2つの群集データセット上に疑似接地を構築させるとともに,混み合った場面におけるポーズ推定と人間の行動理解に関する今後の研究を促進させる。 実験の結果,本手法は混み合ったシナリオと共通のシナリオの両方において,他のベースラインメソッドよりも優れていることがわかった。 コードとデータセットはhttps://github.com/boycehbz/GroupRecで公開されている。

Due to the mutual occlusion, severe scale variation, and complex spatial distribution, the current multi-person mesh recovery methods cannot produce accurate absolute body poses and shapes in large-scale crowded scenes. To address the obstacles, we fully exploit crowd features for reconstructing groups of people from a monocular image. A novel hypergraph relational reasoning network is proposed to formulate the complex and high-order relation correlations among individuals and groups in the crowd. We first extract compact human features and location information from the original high-resolution image. By conducting the relational reasoning on the extracted individual features, the underlying crowd collectiveness and interaction relationship can provide additional group information for the reconstruction. Finally, the updated individual features and the localization information are used to regress human meshes in camera coordinates. To facilitate the network training, we further build pseudo ground-truth on two crowd datasets, which may also promote future research on pose estimation and human behavior understanding in crowded scenes. The experimental results show that our approach outperforms other baseline methods both in crowded and common scenarios. The code and datasets are publicly available at https://github.com/boycehbz/GroupRec.
翻訳日:2023-08-31 14:26:10 公開日:2023-08-30
# MSGNN: エピデミック予測のためのマルチスケール時空間グラフニューラルネットワーク

MSGNN: Multi-scale Spatio-temporal Graph Neural Network for Epidemic Forecasting ( http://arxiv.org/abs/2308.15840v1 )

ライセンス: Link先を確認
Mingjie Qiu, Zhiyi Tan and Bing-kun Bao(参考訳) 感染症の予測は重要な焦点であり、疫病の予防に不可欠であることが証明されている。 最近のトレンドは、グラフニューラルネットワーク(gnns)に基づく予測モデルの開発である。 しかし、既存のgnnベースの手法では、(1)現在のモデルでは、gnnの深さをスケールすることで受容野を広げる、という2つの重要な制限がある。 2) 一つの空間スケールで流行をモデル化し, 異なる空間スケールから派生した多スケールパタンを無視した。 これらの欠陥に対処するために,革新的なマルチスケールビューに基づくマルチスケール時空間グラフニューラルネットワーク(MSGNN)を提案する。 具体的には、提案したMSGNNモデルにおいて、トランスリージョン流行信号から直接長距離接続をキャプチャし、それらをマルチスケールグラフに統合する新しいグラフ学習モジュールを考案する。 学習した多スケールグラフに基づいて,新たに設計されたグラフ畳み込みモジュールを用いて,多スケールの流行パターンを利用する。 本モジュールは,スケールシェアとスケール固有パタンの両方をマイニングすることで,マルチスケールの流行モデルを容易にする。 米国における新型コロナウイルスの新しい症例の予測に関する実験結果から,最先端技術よりも本手法が優れていることが示された。 さらなる分析と可視化により、MSGNNは正確なだけでなく、堅牢で解釈可能な予測結果も提供することが示された。

Infectious disease forecasting has been a key focus and proved to be crucial in controlling epidemic. A recent trend is to develop forecast-ing models based on graph neural networks (GNNs). However, existing GNN-based methods suffer from two key limitations: (1) Current models broaden receptive fields by scaling the depth of GNNs, which is insuffi-cient to preserve the semantics of long-range connectivity between distant but epidemic related areas. (2) Previous approaches model epidemics within single spatial scale, while ignoring the multi-scale epidemic pat-terns derived from different scales. To address these deficiencies, we devise the Multi-scale Spatio-temporal Graph Neural Network (MSGNN) based on an innovative multi-scale view. To be specific, in the proposed MSGNN model, we first devise a novel graph learning module, which directly captures long-range connectivity from trans-regional epidemic signals and integrates them into a multi-scale graph. Based on the learned multi-scale graph, we utilize a newly designed graph convolution module to exploit multi-scale epidemic patterns. This module allows us to facilitate multi-scale epidemic modeling by mining both scale-shared and scale-specific pat-terns. Experimental results on forecasting new cases of COVID-19 in United State demonstrate the superiority of our method over state-of-arts. Further analyses and visualization also show that MSGNN offers not only accurate, but also robust and interpretable forecasting result.
翻訳日:2023-08-31 14:25:48 公開日:2023-08-30
# 超スパース信号から全身運動を回復するタスクジェネリック動作の活用

Utilizing Task-Generic Motion Prior to Recover Full-Body Motion from Very Sparse Signals ( http://arxiv.org/abs/2308.15839v1 )

ライセンス: Link先を確認
Myungjin Shin, Dohae Lee, In-Kwon Lee(参考訳) 仮想現実体験におけるユーザの姿勢を追跡するために最も一般的なタイプのデバイスは、ヘッドマウントディスプレイと2つのコントローラーを両手で保持する。 しかし、トラッキングセンサーの数(合計3つ)が限られているため、ユーザーをフルボディで忠実に回復させることは困難であり、仮想世界におけるシミュレーションされたユーザーアバター間のインタラクションの可能性を制限する。 そのため、近年の研究では、学習済みの人間のポーズを利用したり、過去の一連のポーズを短期間で受け入れたりするニューラルネットワークを用いて、全身のポーズを再構築しようと試みている。 そこで本論文では,神経運動からの情報を利用して,再構成したユーザの動作の精度を向上させる手法を提案する。 本手法は,限られた入力信号からユーザの全体的な動作の潜在表現を予測し,その情報をトラッキングセンサ入力と統合することにより,ユーザの全身ポーズを再構築することを目的とする。 これは、ポーズ復元の最終的な目標は一連のポーズである動きを再構築することだという前提に基づいている。 以上の結果から, この統合により, ユーザの全体動作のより正確な再構築が可能となり, 特に信号不足による下肢動作の堅牢性が向上することが示唆された。 Web: https://mjsh34.github.io/mp-sspe/

The most popular type of devices used to track a user's posture in a virtual reality experience consists of a head-mounted display and two controllers held in both hands. However, due to the limited number of tracking sensors (three in total), faithfully recovering the user in full-body is challenging, limiting the potential for interactions among simulated user avatars within the virtual world. Therefore, recent studies have attempted to reconstruct full-body poses using neural networks that utilize previously learned human poses or accept a series of past poses over a short period. In this paper, we propose a method that utilizes information from a neural motion prior to improve the accuracy of reconstructed user's motions. Our approach aims to reconstruct user's full-body poses by predicting the latent representation of the user's overall motion from limited input signals and integrating this information with tracking sensor inputs. This is based on the premise that the ultimate goal of pose reconstruction is to reconstruct the motion, which is a series of poses. Our results show that this integration enables more accurate reconstruction of the user's full-body motion, particularly enhancing the robustness of lower body motion reconstruction from impoverished signals. Web: https://https://mjsh34.github.io/mp-sspe/
翻訳日:2023-08-31 14:25:17 公開日:2023-08-30
# Adaptive Lasso, Transfer Lasso, and Beyond: Asymptotic Perspective

Adaptive Lasso, Transfer Lasso, and Beyond: An Asymptotic Perspective ( http://arxiv.org/abs/2308.15838v1 )

ライセンス: Link先を確認
Masaaki Takada, Hironori Fujisawa(参考訳) 本稿では,Adaptive LassoとTransfer Lassoに固有の理論的性質を包括的に探求する。 アダプティブ・ラッソ(adaptive lasso)は確立された手法であり、初期推定子によって分割された正規化を採用し、漸近正規性と変数選択一貫性が特徴である。 対照的に、最近提案された転送ラッソは、非漸近的推定誤差を減少させる能力を持つ初期推定子によって減算される正規化を用いる。 アダプティブ・ラッソとトランスファー・ラッソが初期推定器を用いている異なる方法を考えると、この格差はそれぞれの方法にどのような利点や欠点があるのか? 本稿では,トランスファーラッソの漸近特性に関する理論的検討を行い,適応ラッソとの違いを解明する。 そこで本研究では,両手法の強みを融合し,両手法の弱みを補う新しい手法を提案する。 本稿では,本理論の検証とシミュレーション実験による手法の比較を行った。

This paper presents a comprehensive exploration of the theoretical properties inherent in the Adaptive Lasso and the Transfer Lasso. The Adaptive Lasso, a well-established method, employs regularization divided by initial estimators and is characterized by asymptotic normality and variable selection consistency. In contrast, the recently proposed Transfer Lasso employs regularization subtracted by initial estimators with the demonstrated capacity to curtail non-asymptotic estimation errors. A pivotal question thus emerges: Given the distinct ways the Adaptive Lasso and the Transfer Lasso employ initial estimators, what benefits or drawbacks does this disparity confer upon each method? This paper conducts a theoretical examination of the asymptotic properties of the Transfer Lasso, thereby elucidating its differentiation from the Adaptive Lasso. Informed by the findings of this analysis, we introduce a novel method, one that amalgamates the strengths and compensates for the weaknesses of both methods. The paper concludes with validations of our theory and comparisons of the methods via simulation experiments.
翻訳日:2023-08-31 14:24:55 公開日:2023-08-30
# 結合核スピンアンサンブルの磁化と偏極

Magnetization and Polarization of Coupled Nuclear Spin Ensembles ( http://arxiv.org/abs/2308.15837v1 )

ライセンス: Link先を確認
Danila A. Barskiy and Andrey Pravdivtsev(参考訳) 磁気共鳴では、測定中の試料のバルク磁化は一般的にスピン偏極に比例する量として定義される。 同じタイプのすべてのスピンが測定可能な信号に等しく寄与しているという事実は明らかである。 核スピンアンサンブルに焦点をあてることで、分子内のスピンの群化は、高磁場での熱平衡が与えられた全測定可能なNMR信号に影響を与えない(\hbar \gamma B_0 \gg |H_{int}|$、$|H_{int}|$は内部スピン-スピン相互作用の特徴的な振幅である)。 まずスピン磁化方程式を解析し, 密度行列形式を用いた一般の場合について述べる。 我々は,1,2,3スピンを含む分子のアンサンブルに対するNMR信号強度を予測することによって,定理の含意を実証する。 この定理はゼロから超低場条件のようなより複雑な状況では適用されず、熱力学平衡から遠く離れている。 回転レベルの人口を考えると、HFにおける熱平衡偏極とH2ガスの低温は複雑な場合の1つを示している。

In magnetic resonance, the bulk magnetization of a sample that is being measured is typically defined as a quantity proportional to spin polarization. The fact that all spins of the same type contribute equally to measurable signals is considered obvious. By focusing on nuclear spin ensembles, we prove the high-field theorem for a general case of spin-I: grouping of spins in molecules does not affect the total measurable NMR signal given thermal equilibrium at high field ($\hbar \gamma B_0 \gg |H_{int}|$, where $|H_{int}|$ is the characteristic amplitude of internal spin-spin interactions). We demonstrate this first by analyzing equations for spin magnetization and then for a general case using the density matrix formalism. We exemplify the theorem implications by predicting NMR signal intensities for ensembles of molecules containing single, two, and three spins. The theorem is not applied in more intricate situations, such as zero- to ultralow-field conditions and far from thermodynamic equilibrium. Considering the populations of rotation levels, the thermal equilibrium polarization at HF and low temperature for H2 gas illustrate one of the intricate cases.
翻訳日:2023-08-31 14:24:35 公開日:2023-08-30
# 外界を有する高調波発振器の熱場二重状態の複素性

Complexity of Thermofield double state for a Harmonic Oscillator with an External Field ( http://arxiv.org/abs/2308.15836v1 )

ライセンス: Link先を確認
F. Khorasani, Reza Pirmoradian and Mohammad Reza Tanhayi(参考訳) 本稿では,外部電界を受ける高調波発振器のガウス状態の計算複雑性について検討する。 ニールセンの幾何学的手法を用いて、調和振動子に対する熱場二重状態のいわゆる複雑性を求め、数値解析により、出現したパラメータが複雑性に及ぼす影響について検討する。 数値解析により,外部電場が複雑性のダイナミクスに与える影響を考察する。 その結果,電場をオンにするとシステムの複雑さが減少する可能性が示唆された。

In this paper, we study the computational complexity of Gaussian states for a harmonic oscillator subjected to an external electric field. We use Nielsen's geometric approach to obtain the so-called complexity of the thermofield double state for a harmonic oscillator, and then by numerical analysis, we investigate the effect of the appeared parameters on the complexity. Precisely, by numerical analysis, we consider the effect of an external electric field on the dynamics of complexity. Our results indicate that turning on the electric field may reduce the system's complexity.
翻訳日:2023-08-31 14:24:01 公開日:2023-08-30
# データ駆動型アプローチによるバッテリ性能の深さ解析

Depth analysis of battery performance based on a data-driven approach ( http://arxiv.org/abs/2308.15833v1 )

ライセンス: Link先を確認
Zhen Zhang and Hongrui Sun and Hui Sun(参考訳) 容量の減少は、細胞の応用における最も難解な問題の1つである。 分解機構はシステム全体で非常に複雑であることが知られている。 このプロセスを完全に理解し、正確にプロセスを予測することは大きな課題です。 したがって、機械学習(ML)技術は、周期を通して細胞の特定の容量変化を予測し、この複雑な手順を把握するために用いられる。 この研究で提案されたWOA-ELMモデル(R2 = 0.9999871)と異なり、電池の特定容量に影響を与える重要な要因が決定され、機械学習ブラックボックスの欠陥は解釈可能なモデルによって克服される。 電極材料の構造的損傷とバッテリサイクル中のバッテリ故障との関係を包括的に説明し、バッテリ性能に欠かせないことを明らかにし、これは現代のバッテリと改造に関する優れた研究に繋がる。

Capacity attenuation is one of the most intractable issues in the current of application of the cells. The disintegration mechanism is well known to be very complex across the system. It is a great challenge to fully comprehend this process and predict the process accurately. Thus, the machine learning (ML) technology is employed to predict the specific capacity change of the cell throughout the cycle and grasp this intricate procedure. Different from the previous work, according to the WOA-ELM model proposed in this work (R2 = 0.9999871), the key factors affecting the specific capacity of the battery are determined, and the defects in the machine learning black box are overcome by the interpretable model. Their connection with the structural damage of electrode materials and battery failure during battery cycling is comprehensively explained, revealing their essentiality to battery performance, which is conducive to superior research on contemporary batteries and modification.
翻訳日:2023-08-31 14:23:47 公開日:2023-08-30
# 音響信号の深層学習分類によるレッドパームウイルス感染の早期検出

Early Detection of Red Palm Weevil Infestations using Deep Learning Classification of Acoustic Signals ( http://arxiv.org/abs/2308.15829v1 )

ライセンス: Link先を確認
Wadii Boulila, Ayyub Alzahem, Anis Koubaa, Bilel Benjdira, Adel Ammar(参考訳) レッド・パーム・ウィービル(英: Red Palm Weevil、RPW)またはパーム・ウィービル(英: palm weevil)は、パームの害虫である。 現在の検出技術には、視覚や音の検査によるRPWの症状の検出や、寄生するヤシの木から発生する揮発性シグネチャの化学的検出が含まれる。 しかし, 早期のRPW病の効率的な検出は, ヤシの栽培において最も難しい問題の一つであると考えられる。 本稿では,RPWの早期検出に対する効率的なアプローチを提案する。 提案手法は, RPW音活動の記録と解析に基づく。 最初のステップは、選択した特徴セットに基づいた画像への音声データの変換である。 2番目のステップは、同じサウンドファイルからのイメージの組み合わせであるが、異なる特徴によって単一のイメージに計算される。 3番目のステップは、異なるディープラーニング(DL)技術を適用して、結果のイメージを2つのクラスに分類することである。 実験結果から,MobileNetV2,ResNet50V2,ResNet152V2,VGG16,VGG19,DenseNet121,DenseNet201,Xception,InceptionV3といった異なるDL技術を用いたRPW検出手法の有効性が示された。 提案手法は、公開データセットの既存のテクニックよりも優れていた。

The Red Palm Weevil (RPW), also known as the palm weevil, is considered among the world's most damaging insect pests of palms. Current detection techniques include the detection of symptoms of RPW using visual or sound inspection and chemical detection of volatile signatures generated by infested palm trees. However, efficient detection of RPW diseases at an early stage is considered one of the most challenging issues for cultivating date palms. In this paper, an efficient approach to the early detection of RPW is proposed. The proposed approach is based on RPW sound activities being recorded and analyzed. The first step involves the conversion of sound data into images based on a selected set of features. The second step involves the combination of images from the same sound file but computed by different features into a single image. The third step involves the application of different Deep Learning (DL) techniques to classify resulting images into two classes: infested and not infested. Experimental results show good performances of the proposed approach for RPW detection using different DL techniques, namely MobileNetV2, ResNet50V2, ResNet152V2, VGG16, VGG19, DenseNet121, DenseNet201, Xception, and InceptionV3. The proposed approach outperformed existing techniques for public datasets.
翻訳日:2023-08-31 14:23:07 公開日:2023-08-30
# プロンプト型連続学習における言語指導の導入

Introducing Language Guidance in Prompt-based Continual Learning ( http://arxiv.org/abs/2308.15827v1 )

ライセンス: Link先を確認
Muhammad Gul Zain Ali Khan, Muhammad Ferjad Naeem, Luc Van Gool, Didier Stricker, Federico Tombari, Muhammad Zeshan Afzal(参考訳) 継続学習は、以前のタスクからのデータにアクセスすることなく、一連のタスクで単一のモデルを学ぶことを目的としている。 ドメインにおける最大の課題は、依然として悲惨な忘れ去られたままだ。 既存のメソッドは、以前のタスクから大量のデータを格納するために高価なリプレイバッファに依存している。 これは有望だが、タスク数が大きくなったり、プライバシの理由でデータが保存できない場合、高価になる。 代替として、タスク情報を学習可能なプロンプトプールに格納するプロンプトベースの手法が提案されている。 このプロンプトプールは、各タスクの解決方法を冷凍画像エンコーダに指示する。 この設定では、モデルが各タスク内のクラスの不整合集合に直面するが、これらのクラスは、事前訓練された言語エンコーダの同じ埋め込み空間にエンコード可能であると論じる。 本研究では,プロンプトに基づく連続学習(LGCL)のための言語指導手法を提案する。 LGCLはモデル非依存であり、プロンプトプールのタスクレベルと視覚エンコーダの出力機能に関するクラスレベルで言語ガイダンスを導入している。 本稿では,LGCLが継続学習法の性能を常に改善し,新たな最先端技術を確立するための広範な実験結果を示す。 LGCLは、追加の学習可能なパラメータを必要とせずにこれらのパフォーマンスを改善する。

Continual Learning aims to learn a single model on a sequence of tasks without having access to data from previous tasks. The biggest challenge in the domain still remains catastrophic forgetting: a loss in performance on seen classes of earlier tasks. Some existing methods rely on an expensive replay buffer to store a chunk of data from previous tasks. This, while promising, becomes expensive when the number of tasks becomes large or data can not be stored for privacy reasons. As an alternative, prompt-based methods have been proposed that store the task information in a learnable prompt pool. This prompt pool instructs a frozen image encoder on how to solve each task. While the model faces a disjoint set of classes in each task in this setting, we argue that these classes can be encoded to the same embedding space of a pre-trained language encoder. In this work, we propose Language Guidance for Prompt-based Continual Learning (LGCL) as a plug-in for prompt-based methods. LGCL is model agnostic and introduces language guidance at the task level in the prompt pool and at the class level on the output feature of the vision encoder. We show with extensive experimentation that LGCL consistently improves the performance of prompt-based continual learning methods to set a new state-of-the art. LGCL achieves these performance improvements without needing any additional learnable parameters.
翻訳日:2023-08-31 14:22:35 公開日:2023-08-30
# 深部・狭部MLPの最小幅:微分同相写像とホイットニー埋め込み理論アプローチ

Minimum Width for Deep, Narrow MLP: A Diffeomorphism and the Whitney Embedding Theorem Approach ( http://arxiv.org/abs/2308.15873v1 )

ライセンス: Link先を確認
Geonho Hwang(参考訳) 近年,深部・狭部MLPの普遍近似特性の最小幅の決定に注目が集まっている。 これらの課題のうち、一様ノルムの下で連続函数を近似することは重要かつ困難であり、その下界と上界の間の隙間は狭くなりにくい。 この点に関して、最小幅に対する新しい上限として$\operatorname{max}(2d_x+1, d_y) + \alpha(\sigma)$が与えられ、ここで$0\leq \alpha(\sigma)\leq 2$ は活性化関数に依存する定数を表す。 これを2つの重要な証明を通して証明する。 まず、追加の幅がほとんどない深い狭い MLP が微分同相を近似できることを示す。 第二に、ウィットニー埋め込み定理を用いて、任意の連続函数が埋め込みによって近似できることを示し、さらに線型変換と微分同相に分解される。

Recently, there has been significant attention on determining the minimum width for the universal approximation property of deep, narrow MLPs. Among these challenges, approximating a continuous function under the uniform norm is important and challenging, with the gap between its lower and upper bound being hard to narrow. In this regard, we propose a novel upper bound for the minimum width, given by $\operatorname{max}(2d_x+1, d_y) + \alpha(\sigma)$, to achieve uniform approximation in deep narrow MLPs, where $0\leq \alpha(\sigma)\leq 2$ represents the constant depending on the activation function. We demonstrate this bound through two key proofs. First, we establish that deep, narrow MLPs with little additional width can approximate diffeomorphisms. Secondly, we utilize the Whitney embedding theorem to show that any continuous function can be approximated by embeddings, further decomposed into linear transformations and diffeomorphisms.
翻訳日:2023-08-31 14:14:15 公開日:2023-08-30
# 弱制約を持つASPにおけるDeontic Paradoxs

Deontic Paradoxes in ASP with Weak Constraints ( http://arxiv.org/abs/2308.15870v1 )

ライセンス: Link先を確認
Christian Hatschka (TU Vienna), Agata Ciabattoni (TU Vienna), Thomas Eiter (TU Vienna)(参考訳) 法、社会的、倫理的な規範に敏感な幅広いアプリケーションに対する強力なAI技術の台頭は、規範や規則の存在下で意思決定支援を要求する。 規範的推論はデオン論理の領域であり、よく知られたベンチマーク問題(デオン的パラドックス)に挑戦され、効率的な計算ツールがない。 本稿では、これらの欠点に対処するためにAnswer Set Programming(ASP)を使用し、弱い制約を利用してよく知られたデオンのパラドックスをエンコードし解決する方法を示す。 このエンコーディングを抽象化し、一般化することにより、ASPにおける規範的システムを弱い制約で翻訳する手法を提案する。 この手法はパックマンの「倫理的」バージョンに適用され、関連する作品と同等のパフォーマンスを得るが、倫理的に好ましい結果を得る。

The rise of powerful AI technology for a range of applications that are sensitive to legal, social, and ethical norms demands decision-making support in presence of norms and regulations. Normative reasoning is the realm of deontic logics, that are challenged by well-known benchmark problems (deontic paradoxes), and lack efficient computational tools. In this paper, we use Answer Set Programming (ASP) for addressing these shortcomings and showcase how to encode and resolve several well-known deontic paradoxes utilizing weak constraints. By abstracting and generalizing this encoding, we present a methodology for translating normative systems in ASP with weak constraints. This methodology is applied to "ethical" versions of Pac-man, where we obtain a comparable performance with related works, but ethically preferable results.
翻訳日:2023-08-31 14:13:55 公開日:2023-08-30
# 特徴注意ネットワーク(FA-Net):深層学習に基づく水中単一画像強調手法

Feature Attention Network (FA-Net): A Deep-Learning Based Approach for Underwater Single Image Enhancement ( http://arxiv.org/abs/2308.15868v1 )

ライセンス: Link先を確認
Muhammad Hamza (1), Ammar Hawbani (1), Sami Ul Rehman (1), Xingfu Wang (1) and Liang Zhao (2) ((1) Computer Science and Technology, University of Science and Technology of China, (2) School of Computer Science, Shenyang Aerospace University)(参考訳) 水中画像処理と分析は近年、海洋資源の監視と利用に重点が置かれているため、研究のホットスポットとなっている。 開けた環境と比較すると、水中の画像は、光中絶、散乱、乱流、不均一照明、色拡散といったより複雑な条件に遭遇する。 これらの問題の解決においてかなりの進歩と強化技術が達成されたが、低周波情報をチャネル全体に均等に扱い、ネットワークの代表性を制限する結果となった。 本稿では,この問題を解決するために,ディープラーニングと機能アテンションに基づくエンドツーエンドネットワーク(FA-Net)を提案する。 特に,チャンネルの注目度,画素の注目度,および長短のスキップ接続による残差学習機構を含む残差特徴注目ブロック(rfab)を提案する。 RFABは、マルチホップ接続上で低周波情報をスキップしながら、高周波情報を学習することに集中することができる。 チャネルと画素のアテンション機構は、各チャネルの異なる特徴と画像内の異なるピクセルに対するヘイズの不均一な分布を考慮する。 実験の結果, FA-Netは従来の最先端手法よりも精度が高く, 定量的かつ質的に優れていることがわかった。

Underwater image processing and analysis have been a hotspot of study in recent years, as more emphasis has been focused to underwater monitoring and usage of marine resources. Compared with the open environment, underwater image encountered with more complicated conditions such as light abortion, scattering, turbulence, nonuniform illumination and color diffusion. Although considerable advances and enhancement techniques achieved in resolving these issues, they treat low-frequency information equally across the entire channel, which results in limiting the network's representativeness. We propose a deep learning and feature-attention-based end-to-end network (FA-Net) to solve this problem. In particular, we propose a Residual Feature Attention Block (RFAB), containing the channel attention, pixel attention, and residual learning mechanism with long and short skip connections. RFAB allows the network to focus on learning high-frequency information while skipping low-frequency information on multi-hop connections. The channel and pixel attention mechanism considers each channel's different features and the uneven distribution of haze over different pixels in the image. The experimental results shows that the FA-Net propose by us provides higher accuracy, quantitatively and qualitatively and superiority to previous state-of-the-art methods.
翻訳日:2023-08-31 14:13:41 公開日:2023-08-30
# 確率論理プログラムの構造に隠された独立性について

On the Independencies Hidden in the Structure of a Probabilistic Logic Program ( http://arxiv.org/abs/2308.15865v1 )

ライセンス: Link先を確認
Kilian R\"uckschlo{\ss} (Ludwig-Maximilians-Universit\"at M\"unchen), Felix Weitk\"amper (Ludwig-Maximilians-Universit\"at M\"unchen)(参考訳) パールとヴェルマは、ベイズネットワークの因果構造によって暗示される条件付き無依存性を説明するために広く使われるグラフィカルな基準としてd分離を開発した。 非巡回基底確率論理プログラムは依存グラフ上のベイズネットワークに対応するため、後者のd-分離から条件不依存を計算することができる。 本稿では,上述の推論を非地上ケースに一般化する。 まず、確率論的論理プログラムを外部データベースから切り離して、いわゆるプログラム構造を得る確率を抽象化する。 次に、ある条件付き独立文が与えられた外部データベース上のプログラム構造によって暗示されるかどうかを決定する正しいメタ解釈器を示す。 最後に、条件付き独立オラクルの完全性声明を得るためのプログラム構造の断片を与える。 ProbLog 2.0の正確な推論を用いて独立性の定義をチェックするよりも,我々のメタインタプリタがはるかに高速に動作できることを明らかにする。

Pearl and Verma developed d-separation as a widely used graphical criterion to reason about the conditional independencies that are implied by the causal structure of a Bayesian network. As acyclic ground probabilistic logic programs correspond to Bayesian networks on their dependency graph, we can compute conditional independencies from d-separation in the latter. In the present paper, we generalize the reasoning above to the non-ground case. First, we abstract the notion of a probabilistic logic program away from external databases and probabilities to obtain so-called program structures. We then present a correct meta-interpreter that decides whether a certain conditional independence statement is implied by a program structure on a given external database. Finally, we give a fragment of program structures for which we obtain a completeness statement of our conditional independence oracle. We close with an experimental evaluation of our approach revealing that our meta-interpreter performs significantly faster than checking the definition of independence using exact inference in ProbLog 2.
翻訳日:2023-08-31 14:13:20 公開日:2023-08-30
# ASP向け宣言型ドメイン特化ヒューリスティックの帰納学習

Inductive Learning of Declarative Domain-Specific Heuristics for ASP ( http://arxiv.org/abs/2308.15863v1 )

ライセンス: Link先を確認
Richard Comploi-Taupe (Siemens AG \"Osterreich, Vienna, Austria)(参考訳) ドメイン固有のヒューリスティックスは、大規模または計算的に難しい問題の効率的な解法にとって重要な技術である。 応答セットプログラミング(asp)システムは、パフォーマンスを改善するためにドメイン固有のヒューリスティックの宣言的仕様をサポートする。 しかし、そのようなヒューリスティックは今のところ手作業で発明されなければならない。 応答セットプログラムのためのドメイン固有のヒューリスティックを作成するには、ASPの構文、セマンティクス、および解決技術に精通しているドメインに関する専門知識が必要である。 有用なヒューリスティックを発明するプロセスは、自動サポートから高い利益を得るだろう。 本稿では,そのようなヒューリスティックスの自動学習に対する新しいアプローチを提案する。 帰納的論理プログラミング(ilp)を使って、小さなが代表的な問題インスタンスの最適解集合に由来する例から宣言的ドメイン固有ヒューリスティックスを学ぶ。 実験の結果、学習したヒューリスティックスは、同じ問題の大規模で難しいインスタンスを解決する際に、パフォーマンスとソリューションのクオリティを改善できることが示されました。

Domain-specific heuristics are a crucial technique for the efficient solving of problems that are large or computationally hard. Answer Set Programming (ASP) systems support declarative specifications of domain-specific heuristics to improve solving performance. However, such heuristics must be invented manually so far. Inventing domain-specific heuristics for answer-set programs requires expertise with the domain under consideration and familiarity with ASP syntax, semantics, and solving technology. The process of inventing useful heuristics would highly profit from automatic support. This paper presents a novel approach to the automatic learning of such heuristics. We use Inductive Logic Programming (ILP) to learn declarative domain-specific heuristics from examples stemming from (near-)optimal answer sets of small but representative problem instances. Our experimental results indicate that the learned heuristics can improve solving performance and solution quality when solving larger, harder instances of the same problem.
翻訳日:2023-08-31 14:13:02 公開日:2023-08-30
# 局所エネルギー欠陥を媒介とする最適励起子輸送--強調存在下での最適化則の存続

Optimized excitonic transport mediated by local energy defects: survival of optimization laws in the presence of dephasing ( http://arxiv.org/abs/2308.15857v1 )

ライセンス: Link先を確認
Lucie Pepe, Vincent Pouthier, Saad Yalouz(参考訳) 周囲の欠陥とトラップによって占有されたコアを持つ拡張星では、周囲からコアへのエキシトンによるエネルギー輸送が最適化可能であることが示されている(S. Yalouz et al. Phys. E 106, 064313 (2022))。 欠陥が任意に選択された場合、励起子ダイナミクスは非対称鎖のそれと同型であり、励起子伝播のスピードアップが観察される。 ここでは、拡張された恒星と非対称鎖の両方の励起子が、強調された環境の存在によって摂動していることを考慮し、この前の研究を拡張する。 Lindbladマスター方程式を用いて力学をシミュレートすると、2つの疑問が解決される: この2つのネットワークの環境はどのようにエネルギー輸送に影響を与えるのか? そして、この2つのシステムはいまだに軽蔑の存在下で同等に振る舞うのか? その結果,エキシトンダイナミクスの時間スケールはネットワークの性質に大きく依存していることが判明した。 しかし驚くべきことに、この2つのネットワークは最適化法則の存続に関して同じように振る舞う。 どちらの場合でも、デファスメントが弱いままである限り、エネルギー欠陥のオリジナルの最適チューニングを用いてエネルギー輸送を改善することができる。 しかし、中等度/強度デフォーカスでは、量子ゼノ効果により最適化法則が失われる。

In an extended star with peripheral defects and a core occupied by a trap, it has been shown that exciton-mediated energy transport from the periphery to the core can be optimized [S. Yalouz et al. Phys. Rev. E 106, 064313 (2022)]. If the defects are judiciously chosen, the exciton dynamics is isomorphic to that of an asymmetric chain and a speedup of the excitonic propagation is observed. Here, we extend this previous work by considering that the exciton in both an extended star and an asymmetric chain, is perturbed by the presence of a dephasing environment. Simulating the dynamics using a Lindblad master equation, two questions are addressed: how does the environment affect the energy transport on these two networks? And, do the two systems still behave equivalently in the presence of dephasing? Our results reveal that the time-scale for the exciton dynamics strongly depends on the nature of the network. But quite surprisingly, the two networks behave similarly regarding the survival of their optimization law. In both cases, the energy transport can be improved using the same original optimal tuning of energy defects as long as the dephasing remains weak. However, for moderate/strong dephasing, the optimization law is lost due to quantum Zeno effect.
翻訳日:2023-08-31 14:12:47 公開日:2023-08-30
# 過剰な経験的リスクのないドメイン一般化

Domain Generalization without Excess Empirical Risk ( http://arxiv.org/abs/2308.15856v1 )

ライセンス: Link先を確認
Ozan Sener and Vladlen Koltun(参考訳) 異なる分布の多様な集合からのデータを考えると、領域の一般化は目に見えない分布に一般化するモデルを学ぶことを目的としている。 一般的なアプローチは、一般化を捉え、ペナルティと共同で経験的リスクを最小化するために、データ駆動の代理ペナルティを設計することである。 我々は、このレシピの重大な失敗モードは、不正なペナルティや共同最適化の困難さによる過度なリスクであると主張している。 我々はこの問題を排除するアプローチを提案する。 経験的リスクとペナルティを同時に最小化する代わりに、経験的リスクの最適性の制約の下でペナルティを最小化する。 この変更により、領域一般化のペナルティは、経験的リスク、すなわち分布内性能の最適化を損なわないことが保証される。 提案する最適化問題の解法として,速度歪み理論とエキサイティングな関係を示し,そのツールを用いて効率的な手法を設計する。 本手法は, ペナルティに基づく領域一般化法に適用可能であり, 文献から得られた3つの試験方法に適用することにより, その効果を実証し, 大幅な改善を示した。

Given data from diverse sets of distinct distributions, domain generalization aims to learn models that generalize to unseen distributions. A common approach is designing a data-driven surrogate penalty to capture generalization and minimize the empirical risk jointly with the penalty. We argue that a significant failure mode of this recipe is an excess risk due to an erroneous penalty or hardness in joint optimization. We present an approach that eliminates this problem. Instead of jointly minimizing empirical risk with the penalty, we minimize the penalty under the constraint of optimality of the empirical risk. This change guarantees that the domain generalization penalty cannot impair optimization of the empirical risk, i.e., in-distribution performance. To solve the proposed optimization problem, we demonstrate an exciting connection to rate-distortion theory and utilize its tools to design an efficient method. Our approach can be applied to any penalty-based domain generalization method, and we demonstrate its effectiveness by applying it to three examplar methods from the literature, showing significant improvements.
翻訳日:2023-08-31 14:12:25 公開日:2023-08-30
# 意味セグメンテーションのためのドメイン間およびドメイン内混合による半教師付きドメイン適応

Semi-supervised Domain Adaptation with Inter and Intra-domain Mixing for Semantic Segmentation ( http://arxiv.org/abs/2308.15855v1 )

ライセンス: Link先を確認
Weifu Fu, Qiang Nie, Jialin Li, Yuhuan Lin, Kai Wu, Yong Liu, Chengjie Wang(参考訳) セマンティックセグメンテーションの最近の進歩にもかかわらず、避けられない課題は、実際のアプリケーションのドメインシフトによるパフォーマンス低下である。 この問題に対する現在の支配的なアプローチは、unsupervised domain adaptation (uda)である。 しかし、UDAにラベル付きターゲットデータがないことは過度に制限され、性能が制限される。 この制限を克服するために、半教師ドメイン適応(ssda)と呼ばれるより実用的なシナリオが提案されている。 既存のSSDAメソッドは、UDAパラダイムから派生したもので、主にラベルのないターゲットデータとソースデータを活用することに焦点を当てている。 本稿では,限定ラベル付き対象データとラベルなし対象データとの間のドメイン内情報を活用することの重要性を強調し,ドメイン適応に大きく貢献する。 そこで本研究では,領域間混合とドメイン内混合の両方を組み込んだ新しいssaフレームワークを提案し,ドメイン間混合はソース・ターゲット領域間ギャップを緩和し,ドメイン内混合は利用可能なターゲット領域情報を豊かにする。 ドメイン間混合とドメイン内混合から同時に学習することで、ネットワークはより多くのドメイン不変な特徴を捉え、ターゲットドメインでの性能を高めることができる。 ターゲットとなるドメイン情報をより活用するために、異なるドメイン混合操作も検討します。 GTA5toCityscapesとSynTHIA2Cityscapesベンチマークで実施した総合的な実験により,提案手法の有効性が示された。

Despite recent advances in semantic segmentation, an inevitable challenge is the performance degradation caused by the domain shift in real application. Current dominant approach to solve this problem is unsupervised domain adaptation (UDA). However, the absence of labeled target data in UDA is overly restrictive and limits performance. To overcome this limitation, a more practical scenario called semi-supervised domain adaptation (SSDA) has been proposed. Existing SSDA methods are derived from the UDA paradigm and primarily focus on leveraging the unlabeled target data and source data. In this paper, we highlight the significance of exploiting the intra-domain information between the limited labeled target data and unlabeled target data, as it greatly benefits domain adaptation. Instead of solely using the scarce labeled data for supervision, we propose a novel SSDA framework that incorporates both inter-domain mixing and intra-domain mixing, where inter-domain mixing mitigates the source-target domain gap and intra-domain mixing enriches the available target domain information. By simultaneously learning from inter-domain mixing and intra-domain mixing, the network can capture more domain-invariant features and promote its performance on the target domain. We also explore different domain mixing operations to better exploit the target domain information. Comprehensive experiments conducted on the GTA5toCityscapes and SYNTHIA2Cityscapes benchmarks demonstrate the effectiveness of our method, surpassing previous methods by a large margin.
翻訳日:2023-08-31 14:12:08 公開日:2023-08-30
# 拡散モデルを用いた画像属性編集のためのゼロショットインバージョンプロセス

Zero-shot Inversion Process for Image Attribute Editing with Diffusion Models ( http://arxiv.org/abs/2308.15854v1 )

ライセンス: Link先を確認
Zhanbo Feng, Zenan Ling, Ci Gong, Feng Zhou, Jie Li, Robert C. Qiu(参考訳) ノイズ拡散モデルは画像編集において優れた性能を示している。 既存の作品では、視覚参照を提供するが意味コヒーレンスを制御できないイメージガイド方式と、テキストガイダンスに忠実であるが視覚品質に欠けるテキストガイド方式のどちらかを使う傾向がある。 この問題に対処するため,Zero-shot Inversion Process (ZIP) を提案する。これは生成した視覚参照とテキストガイダンスの融合を,事前学習した拡散モデルのセマンティック潜在空間に注入するフレームワークである。 提案したZIPは、小さなニューラルネットワークのみを使用して、テキストプロンプトの直感的な制御の下で、多様なコンテンツや属性を生成する。 さらに、ZIPは、実際の画像においてドメイン内およびドメイン外属性操作の両方に顕著な堅牢性を示す。 各種ベンチマークデータセットの詳細な実験を行う。 最先端の手法と比較して、ZIPはリアルな編集効果を提供しながら同等の画質の画像を生成する。

Denoising diffusion models have shown outstanding performance in image editing. Existing works tend to use either image-guided methods, which provide a visual reference but lack control over semantic coherence, or text-guided methods, which ensure faithfulness to text guidance but lack visual quality. To address the problem, we propose the Zero-shot Inversion Process (ZIP), a framework that injects a fusion of generated visual reference and text guidance into the semantic latent space of a \textit{frozen} pre-trained diffusion model. Only using a tiny neural network, the proposed ZIP produces diverse content and attributes under the intuitive control of the text prompt. Moreover, ZIP shows remarkable robustness for both in-domain and out-of-domain attribute manipulation on real images. We perform detailed experiments on various benchmark datasets. Compared to state-of-the-art methods, ZIP produces images of equivalent quality while providing a realistic editing effect.
翻訳日:2023-08-31 14:11:45 公開日:2023-08-30
# パンデミック教育:新型コロナの遠隔教育戦略の評価

Pandemic Pedagogy: Evaluating Remote Education Strategies during COVID-19 ( http://arxiv.org/abs/2308.15847v1 )

ライセンス: Link先を確認
Daniel Russo(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、教育現場の急激な変化を招き、大学が個人からオンラインへ移行するよう促した。 この急変により、多くの大学教官が遠隔教育の複雑さにこだわった。 現在,パンデミックを背景として,その期間中の遠隔教育実践の理解と評価を目的とした振り返り研究を行っている。 ロックダウン期間中にオンライン教育を受けた300人のコンピュータサイエンス学生の横断的分析から,遠隔教育が学生の学習成果に適度に影響を及ぼした一方で,学生の満足度に顕著な影響があることが示唆された。 驚くべきことに、これらの成果は国、性別、教育レベルを含む様々な人口層で一貫していた。 このグローバルなイベントの教訓を反映して、この研究は、学生の満足度と効果的な学習結果の両方をオンライン環境で確実に確保し、同様の性質の将来のシナリオを歓迎する教育戦略を通知するエビデンスベースのレコメンデーションを提供する。

The COVID-19 pandemic precipitated an abrupt shift in the educational landscape, compelling universities to transition from in-person to online instruction. This sudden shift left many university instructors grappling with the intricacies of remote teaching. Now, with the pandemic behind us, we present a retrospective study aimed at understanding and evaluating the remote teaching practices employed during that period. Drawing from a cross-sectional analysis of 300 computer science students who underwent a full year of online education during the lockdown, our findings indicate that while remote teaching practices moderately influenced students' learning outcomes, they had a pronounced positive impact on student satisfaction. Remarkably, these outcomes were consistent across various demographics, including country, gender, and educational level. As we reflect on the lessons from this global event, this research offers evidence-based recommendations that could inform educational strategies in unwelcoming future scenarios of a similar nature, ensuring both student satisfaction and effective learning outcomes in online settings.
翻訳日:2023-08-31 14:11:28 公開日:2023-08-30
# ProbLogを確率的議論として理解する

Understanding ProbLog as Probabilistic Argumentation ( http://arxiv.org/abs/2308.15891v1 )

ライセンス: Link先を確認
Francesca Toni (Department of Computing, Imperial College London, UK), Nico Potyka (Department of Computing, Imperial College London, UK), Markus Ulbricht (Department of Computer Science, Leipzig University, Germany), Pietro Totis (Department of Computer Science, KU Leuven, Belgium)(参考訳) ProbLogは、構造化ドメインの固有の不確実性を扱う必要があるアプリケーションに広く使われている確率論的論理型言語/ツールである。 本稿では,ProbLogと記号的推論と不確実性の下での推論を組み合わせた他のよく知られた形式主義の変種との関係,すなわち確率的議論について検討する。 具体的には、ProbLogは、ABA(Assumption-Based Argumentation)に基づく確率的抽象論(PAA)の例であることを示す。 これらの接続は、PAA/PABAから継承された代替セマンティクスとProbLogの装備方法と、PAA/PABAのための新しい議論セマンティクスを取得し、ProbLogと引数の間の以前の接続を活用する。 さらに、この接続はProbLogの出力に対する議論的説明の新しい形式への道を開く。

ProbLog is a popular probabilistic logic programming language/tool, widely used for applications requiring to deal with inherent uncertainties in structured domains. In this paper we study connections between ProbLog and a variant of another well-known formalism combining symbolic reasoning and reasoning under uncertainty, i.e. probabilistic argumentation. Specifically, we show that ProbLog is an instance of a form of Probabilistic Abstract Argumentation (PAA) that builds upon Assumption-Based Argumentation (ABA). The connections pave the way towards equipping ProbLog with alternative semantics, inherited from PAA/PABA, as well as obtaining novel argumentation semantics for PAA/PABA, leveraging on prior connections between ProbLog and argumentation. Further, the connections pave the way towards novel forms of argumentative explanations for ProbLog's outputs.
翻訳日:2023-08-31 14:04:18 公開日:2023-08-30
# Natlog:Pythonのディープラーニングエコシステムにロジックプログラミングを組み込む

Natlog: Embedding Logic Programming into the Python Deep-Learning Ecosystem ( http://arxiv.org/abs/2308.15890v1 )

ライセンス: Link先を確認
Paul Tarau (University of North Texas)(参考訳) PythonとPythonベースの組み込みロジックベースの言語Natlogの表現力の共通性によって駆動され、等価言語の構造とデータ型の間の高レベルな相互作用パターンを設計します。 ジェネレータとバックトラック,ネストしたタプルと用語,コルーチンと一級論理エンジン,リフレクションとメタ解釈を直接接続することで,ロジックベースの言語構造がPythonエコシステムの全パワーにアクセスできるようになる。 JAX や Pytorch パイプラインのオーケストレータとして動作し,DCG 駆動 GPT3 や DALL.E のプロンプトジェネレータとして動作する Natlog アプリによる設計の有効性を示す。 Keyphrases: Pythonエコシステムへのロジックプログラミングの埋め込み、ハイレベルなパラダイム間データ交換、ロジックエンジンとのコルーチン化、ロジックベースのニューロシンボリックコンピューティング、大規模言語モデルのためのプロンプトジェネレータとしてのロジック文法、ロジックベースのニューラルネットワーク構成とトレーニング。

Driven by expressiveness commonalities of Python and our Python-based embedded logic-based language Natlog, we design high-level interaction patterns between equivalent language constructs and data types on the two sides. By directly connecting generators and backtracking, nested tuples and terms, coroutines and first-class logic engines, reflection and meta-interpretation, we enable logic-based language constructs to access the full power of the Python ecosystem. We show the effectiveness of our design via Natlog apps working as orchestrators for JAX and Pytorch pipelines and as DCG-driven GPT3 and DALL.E prompt generators. Keyphrases: embedding of logic programming in the Python ecosystem, high-level inter-paradigm data exchanges, coroutining with logic engines, logic-based neuro-symbolic computing, logic grammars as prompt-generators for Large Language Models, logic-based neural network configuration and training.
翻訳日:2023-08-31 14:04:03 公開日:2023-08-30
# 単調および凸集合体のレベルランキング制約の一般化

Generalizing Level Ranking Constraints for Monotone and Convex Aggregates ( http://arxiv.org/abs/2308.15888v1 )

ライセンス: Link先を確認
Tomi Janhunen (Tampere University)(参考訳) 解集合プログラミング(ASP)では、解集合は興味のある探索問題の解を捕捉するので、解集合の効率的な計算が最も重要である。 1つの実行可能な実装戦略は、翻訳ベースのASPによって提供され、論理プログラムはBoolean satisfiability (SAT)、SAT modulo theory (SMT)、Mix-integer Programming (MIP)といった他のKR形式に変換される。 これにより、既存の解法を解集合の計算に用いることができる。 既存の翻訳の多くは、解答セットの最小限とデフォルトの否定を適切に捉えるために、プログラムの完了とレベルランキングに依存している。 本稿では,aspの集約的拡張をより体系的な方法でカバーするための一般化を目指して,階層的制約を再考する。 多くのプログラム変換を適用することで、ランク付け制約をモノトーンと凸集合の構造を保存する一般的な形式で書き換えることができ、それによって翻訳ベースのASP.NETに組み込むための統一的な基盤を提供する。 結果は、実際にトランスレータとソルバパイプラインを実装するための新たな可能性を開く。

In answer set programming (ASP), answer sets capture solutions to search problems of interest and thus the efficient computation of answer sets is of utmost importance. One viable implementation strategy is provided by translation-based ASP where logic programs are translated into other KR formalisms such as Boolean satisfiability (SAT), SAT modulo theories (SMT), and mixed-integer programming (MIP). Consequently, existing solvers can be harnessed for the computation of answer sets. Many of the existing translations rely on program completion and level rankings to capture the minimality of answer sets and default negation properly. In this work, we take level ranking constraints into reconsideration, aiming at their generalizations to cover aggregate-based extensions of ASP in more systematic way. By applying a number of program transformations, ranking constraints can be rewritten in a general form that preserves the structure of monotone and convex aggregates and thus offers a uniform basis for their incorporation into translation-based ASP. The results open up new possibilities for the implementation of translators and solver pipelines in practice.
翻訳日:2023-08-31 14:03:42 公開日:2023-08-30
# 合成論理推論におけるCLIPの可能性について

On the Potential of CLIP for Compositional Logical Reasoning ( http://arxiv.org/abs/2308.15887v1 )

ライセンス: Link先を確認
Justin Brody (Franklin and Marshall College)(参考訳) 本稿では,OpenAIのCLIPを用いて論理的に一貫した視覚的推論を行う可能性を検討する。 この目的のために、我々の用語を形式化し、CLIPの潜在空間への埋め込みが、システムが論理的に一貫性を持つように構成される必要があるかどうかを幾何学的に分析する。 私たちの主な結論は、通常構成されているように、CLIPはそのような推論を実行できないということです。

In this paper we explore the possibility of using OpenAI's CLIP to perform logically coherent grounded visual reasoning. To that end, we formalize our terms and give a geometric analysis of how embeddings in CLIP's latent space would need to be configured in order for the system to be logically coherent. Our main conclusion is that, as usually configured, CLIP cannot perform such reasoning.
翻訳日:2023-08-31 14:03:21 公開日:2023-08-30
# 帰納的論理プログラミングを用いたテキスト分類のためのワンショット学習

Towards One-Shot Learning for Text Classification using Inductive Logic Programming ( http://arxiv.org/abs/2308.15885v1 )

ライセンス: Link先を確認
Ghazal Afroozi Milani (University of Surrey), Daniel Cyrus (University of Surrey), Alireza Tamaddoni-Nezhad (University of Surrey)(参考訳) パーソナライズされたタスクを実行するaiのポテンシャルがますます高まる中、データ効率が高く、数百から数千のトレーニングデータを必要としない新しい機械学習技術を開発することが重要になっている。 本稿では,単発テキスト分類のための帰納的論理プログラミング手法について検討する。 特に,概念ネットから抽出した常識的背景知識を用いて,メタ解釈学習(MIL)の枠組みを検討する。 その結果,MILは少数の学習例からテキスト分類規則を学習できることが示唆された。 さらに、選択した例の複雑さが高いほど、結果の正確性が高くなる。

With the ever-increasing potential of AI to perform personalised tasks, it is becoming essential to develop new machine learning techniques which are data-efficient and do not require hundreds or thousands of training data. In this paper, we explore an Inductive Logic Programming approach for one-shot text classification. In particular, we explore the framework of Meta-Interpretive Learning (MIL), along with using common-sense background knowledge extracted from ConceptNet. Results indicate that MIL can learn text classification rules from a small number of training examples. Moreover, the higher complexity of chosen examples, the higher accuracy of the outcome.
翻訳日:2023-08-31 14:03:14 公開日:2023-08-30
# 量子チャネルフィデリティ爆発対称性の効率的な近似

Efficient Approximation of Quantum Channel Fidelity Exploiting Symmetry ( http://arxiv.org/abs/2308.15884v1 )

ライセンス: Link先を確認
Yeow Meng Chee, Hoang Ta, and Van Khu Vu(参考訳) 雑音量子チャネル上の量子情報伝達の最適忠実性を決定することは、量子情報理論における中心的な問題の一つである。 近年, [Berta \& et al., Mathematical Programming, 2021] は, この量に対する外界の半定値プログラミング階層を漸近的に収束させた。 しかし、半定値プログラム(SDP)のサイズは階層のレベルに対して指数関数的に増加し、SDPを直接計算するのは非効率である。 本研究では、SDPの対称性を利用して、固定された入力次元と出力次元に対して、階層のレベルで多項式時間でSDPを計算することができることを示す。 この結果の直接の結果として、最適忠実度は1/\epsilon$の多項式である時間で$\epsilon$の精度で近似することができる。

Determining the optimal fidelity for the transmission of quantum information over noisy quantum channels is one of the central problems in quantum information theory. Recently, [Berta \& et al., Mathematical Programming, 2021] introduced an asymptotically converging semidefinite programming hierarchy of outer bounds for this quantity. However, the size of the semidefinite program (SDP) grows exponentially with respect to the level of the hierarchy, and thus computing the SDP directly is inefficient. In this work, by exploiting the symmetries in the SDP, we show that, for fixed input and output dimensions, we can compute the SDP in polynomial time in term of level of the hierarchy. As a direct consequence of our result, the optimal fidelity can be approximated with an accuracy of $\epsilon$ in a time that is polynomial in $1/\epsilon$.
翻訳日:2023-08-31 14:03:05 公開日:2023-08-30
# 「もし私がAIにいたら、人生はもっと面白くなるだろうか? 確率的帰納的論理プログラミングに基づく対物探索

"Would life be more interesting if I were in AI?" Answering Counterfactuals based on Probabilistic Inductive Logic Programming ( http://arxiv.org/abs/2308.15883v1 )

ライセンス: Link先を確認
Kilian R\"uckschlo{\ss} (Ludwig-Maximilians Universit\"at), Felix Weitk\"amper (Ludwig-Maximilians Universit\"at)(参考訳) 確率論理プログラム(probabilistic logic program)は、ある事象が特定の確率を持つ論理プログラムである。 本稿では,これらのプログラムを,因果的クエリを許容する因果的フレームワークを用いて検討する。 観測データからプログラム構造を学ぶは通常、統計テストに依存するヒューリスティック探索によって行われる。 しかし、これらの統計テストはデータを生成する因果メカニズムに関する情報を欠いているため、結果として得られるプログラムを偽りの推論に使うことは不可能である。 そこで本研究では,プログラムの誘導分布からプログラムを再構築できる言語フラグメントを提案する。 これにより、対物クエリをサポートするプログラムを学習することが可能になる。

Probabilistic logic programs are logic programs where some facts hold with a specified probability. Here, we investigate these programs with a causal framework that allows counterfactual queries. Learning the program structure from observational data is usually done through heuristic search relying on statistical tests. However, these statistical tests lack information about the causal mechanism generating the data, which makes it unfeasible to use the resulting programs for counterfactual reasoning. To address this, we propose a language fragment that allows reconstructing a program from its induced distribution. This further enables us to learn programs supporting counterfactual queries.
翻訳日:2023-08-31 14:02:49 公開日:2023-08-30
# マルチセンタリー大腸内視鏡データにおけるロバストセグメント化のための解釈可能性誘導データ拡張

Interpretability-guided Data Augmentation for Robust Segmentation in Multi-centre Colonoscopy Data ( http://arxiv.org/abs/2308.15881v1 )

ライセンス: Link先を確認
Valentina Corbetta, Regina Beets-Tan, and Wilson Silva(参考訳) 各種医療センターの多中心大腸内視鏡像では, 画像内容に影響を及ぼす因子やオーバーレイが, 特定の取得センタに現れる。 既存のディープセグメンテーションネットワークは、そのようなデータセットにおける適切な一般化性を達成するのに苦労しており、現在利用可能なデータ拡張手法は、これらのデータ可変性のソースに効果的に対処しない。 本研究では,多視点大腸内視鏡画像分割領域における深層学習モデルの一般化可能性を高めることを目的とした,解釈可能性サリエンシーマップを中心とした革新的なデータ拡張手法を提案する。 提案手法は,異なるセグメンテーションモデルとドメイン間のロバスト性の向上を示す。 ポリプ検出のための公開マルチセントデータセットの詳細なテストは、定量的および定性的な結果の両方で観察されるアプローチの有効性と汎用性を示している。 コードは、https://github.com/nki-radiology/interpretability_augmentationで公開されている。

Multi-centre colonoscopy images from various medical centres exhibit distinct complicating factors and overlays that impact the image content, contingent on the specific acquisition centre. Existing Deep Segmentation networks struggle to achieve adequate generalizability in such data sets, and the currently available data augmentation methods do not effectively address these sources of data variability. As a solution, we introduce an innovative data augmentation approach centred on interpretability saliency maps, aimed at enhancing the generalizability of Deep Learning models within the realm of multi-centre colonoscopy image segmentation. The proposed augmentation technique demonstrates increased robustness across different segmentation models and domains. Thorough testing on a publicly available multi-centre dataset for polyp detection demonstrates the effectiveness and versatility of our approach, which is observed both in quantitative and qualitative results. The code is publicly available at: https://github.com/nki-radiology/interpretability_augmentation
翻訳日:2023-08-31 14:02:40 公開日:2023-08-30
# 解集合プログラミングの解説

Explanations for Answer Set Programming ( http://arxiv.org/abs/2308.15879v1 )

ライセンス: Link先を確認
Mario Alviano (University of Calabria), Ly Ly Trieu (New Mexico State Universty), Tran Cao Son (New Mexico State Universty), Marcello Balduccini (Saint Joseph's University)(参考訳) 本稿では、解答集合プログラミング(ASP)のための説明グラフを生成するシステムであるxASPの拡張について述べる。 xASPとは違って、新しいシステムであるxASP2は、選択ルールや制約、#sum、#minなどの集約など、さまざまなclingo構造をサポートしている。 この研究は、ASPの幅広い断片に対して説明可能な人工知能システムを形式化し、提示し、仮定の集合を可能な限り小さくし、非巡回グラフの観点から説明を提示することができる。

The paper presents an enhancement of xASP, a system that generates explanation graphs for Answer Set Programming (ASP). Different from xASP, the new system, xASP2, supports different clingo constructs like the choice rules, the constraints, and the aggregates such as #sum, #min. This work formalizes and presents an explainable artificial intelligence system for a broad fragment of ASP, capable of shrinking as much as possible the set of assumptions and presenting explanations in terms of directed acyclic graphs.
翻訳日:2023-08-31 14:02:24 公開日:2023-08-30
# aspによるaba学習

ABA Learning via ASP ( http://arxiv.org/abs/2308.15877v1 )

ライセンス: Link先を確認
Emanuele De Angelis (IASI-CNR, Rome, Italy), Maurizio Proietti (IASI-CNR, Rome, Italy), Francesca Toni (Department of Computing, Imperial College London, UK)(参考訳) 近年、背景知識や肯定的・否定的な例から仮定に基づく議論フレームワークを描くためのシンボリック機械学習の一形態として、aba学習が提案されている。 本稿では,ABA学習におけるロート学習と一般化の指導を支援する手段として,回答セットプログラミングを用いた新しいABA学習法を提案する。

Recently, ABA Learning has been proposed as a form of symbolic machine learning for drawing Assumption-Based Argumentation frameworks from background knowledge and positive and negative examples. We propose a novel method for implementing ABA Learning using Answer Set Programming as a way to help guide Rote Learning and generalisation in ABA Learning.
翻訳日:2023-08-31 14:02:14 公開日:2023-08-30
# 物理インフォームドディープMRI:熱拡散からk空間補間へのギャップを埋める

Physics-Informed DeepMRI: Bridging the Gap from Heat Diffusion to k-Space Interpolation ( http://arxiv.org/abs/2308.15918v1 )

ライセンス: Link先を確認
Zhuo-Xu Cui, Congcong Liu, Xiaohong Fan, Chentao Cao, Jing Cheng, Qingyong Zhu, Yuanyuan Liu, Sen Jia, Yihang Zhou, Haifeng Wang, Yanjie Zhu, Jianping Zhang, Qiegen Liu, Dong Liang(参考訳) 並列イメージング(PI)の分野では、画像領域の正規化と共に、$k$空間補間を探索する研究が盛んに行われている。 しかし、これらの方法の解釈性は未解決の問題である。 さらに、これらのアプローチは現在、イメージドメインメソッドでの経験に匹敵するアクセラレーション制限に直面している。 本稿では, 解釈可能性を高め, 加速度制限を克服するために, $k$-空間補間法と熱拡散方程式の物理原理に基づく画像領域法の両方を統一した解釈可能なフレームワークを提案する。 この基礎的枠組みに基づいて、新しい$k$-space補間法を提案する。 具体的には、k$-空間における高周波情報の減衰過程を熱拡散方程式としてモデル化し、低周波領域からの高周波情報の再構成は逆熱方程式として概念化することができる。 しかし、逆熱方程式を解くことは難しい逆問題となる。 この課題に取り組むために、磁気共鳴パイ物理学の原理に則る熱方程式を修正し、スコアベースの生成法を用いて変形した逆熱拡散を高精度に実行する。 最後に,従来の$k$空間補間法,深層学習に基づく$k$空間補間法,および特に高周波領域における再構成精度の観点から,従来の拡散モデルよりも提案手法の方が優れていることを示す。

In the field of parallel imaging (PI), alongside image-domain regularization methods, substantial research has been dedicated to exploring $k$-space interpolation. However, the interpretability of these methods remains an unresolved issue. Furthermore, these approaches currently face acceleration limitations that are comparable to those experienced by image-domain methods. In order to enhance interpretability and overcome the acceleration limitations, this paper introduces an interpretable framework that unifies both $k$-space interpolation techniques and image-domain methods, grounded in the physical principles of heat diffusion equations. Building upon this foundational framework, a novel $k$-space interpolation method is proposed. Specifically, we model the process of high-frequency information attenuation in $k$-space as a heat diffusion equation, while the effort to reconstruct high-frequency information from low-frequency regions can be conceptualized as a reverse heat equation. However, solving the reverse heat equation poses a challenging inverse problem. To tackle this challenge, we modify the heat equation to align with the principles of magnetic resonance PI physics and employ the score-based generative method to precisely execute the modified reverse heat diffusion. Finally, experimental validation conducted on publicly available datasets demonstrates the superiority of the proposed approach over traditional $k$-space interpolation methods, deep learning-based $k$-space interpolation methods, and conventional diffusion models in terms of reconstruction accuracy, particularly in high-frequency regions.
翻訳日:2023-08-31 13:54:15 公開日:2023-08-30
# サイクロフォニック強化学習

Cyclophobic Reinforcement Learning ( http://arxiv.org/abs/2308.15911v1 )

ライセンス: Link先を確認
Stefan Sylvius Wagner, Peter Arndt, Jan Robine, Stefan Harmeling(参考訳) 粗末な報酬のある環境では、探索のための優れた誘導バイアスを見つけることがエージェントの成功に不可欠である。 しかし、2つの競合する目標がある: 新奇な探索と体系的な探索である。 キュリオシティ駆動探索のような既存のアプローチは目新しさを見出すが、時として、深さ優先探索と幅優先探索のように、体系的に状態空間全体を探索することはない。 本稿では,サイクロフォビックな新たな固有報酬,すなわちノベルティを報いるのではなく,サイクルを避けることで冗長性を罰することを提案する。 エージェントの切り抜かれた観察に基づいて階層表現のシーケンスでサイクロフォビア内在的な報酬を増強することで、minigridおよびminihack環境で優れた結果を得ることができる。 どちらも、解決するために異なるオブジェクトとの複雑な相互作用を必要とするため、特に難しい。 これまでのアプローチと徹底的なアブレーション研究との詳細な比較から,提案するサイクロフォビア強化学習は,様々な課題において,他の技術手法よりもサンプル効率が高いことが示された。

In environments with sparse rewards, finding a good inductive bias for exploration is crucial to the agent's success. However, there are two competing goals: novelty search and systematic exploration. While existing approaches such as curiosity-driven exploration find novelty, they sometimes do not systematically explore the whole state space, akin to depth-first-search vs breadth-first-search. In this paper, we propose a new intrinsic reward that is cyclophobic, i.e., it does not reward novelty, but punishes redundancy by avoiding cycles. Augmenting the cyclophobic intrinsic reward with a sequence of hierarchical representations based on the agent's cropped observations we are able to achieve excellent results in the MiniGrid and MiniHack environments. Both are particularly hard, as they require complex interactions with different objects in order to be solved. Detailed comparisons with previous approaches and thorough ablation studies show that our newly proposed cyclophobic reinforcement learning is more sample efficient than other state of the art methods in a variety of tasks.
翻訳日:2023-08-31 13:53:50 公開日:2023-08-30
# 米国法制度はAIの人的価値への挑戦の準備が整っているか?

Is the U.S. Legal System Ready for AI's Challenges to Human Values? ( http://arxiv.org/abs/2308.15906v1 )

ライセンス: Link先を確認
Inyoung Cheong, Aylin Caliskan, Tadayoshi Kohno(参考訳) 我々の学際的研究は、ジェネレーティブAIが人間の価値にもたらす課題に対して、米国の法律がいかに効果的に直面するかを調査する。 専門家ワークショップで作成された多様な仮説シナリオの分析を通じて、自律性、プライバシー、尊厳、多様性、平等、身体的・精神的幸福といった基本的価値の保護に関する、既存の法的枠組みにおける顕著なギャップと不確実性を特定した。 憲法と公民権は、AIが生成した差別的アウトプットに対して十分な保護を提供していないようだ。 さらに、第230条によって提供される責任シールドを除外したとしても、AIシステムの複雑で不透明な性質のため、破壊と製品責任の主張の因果関係を証明することは困難な取り組みである。 生成AIによって引き起こされる独特で予期せぬ脅威に対処するために、我々は、新たな脅威を認識し、業界ステークホルダーに積極的に監査可能なガイドラインを提供するために進化する法的枠組みを提唱する。 これらの問題に対処するには、危害、価値観、緩和戦略を特定するために、深い学際的な協力が必要である。

Our interdisciplinary study investigates how effectively U.S. laws confront the challenges posed by Generative AI to human values. Through an analysis of diverse hypothetical scenarios crafted during an expert workshop, we have identified notable gaps and uncertainties within the existing legal framework regarding the protection of fundamental values, such as autonomy, privacy, dignity, diversity, equality, and physical/mental well-being. Constitutional and civil rights, it appears, may not provide sufficient protection against AI-generated discriminatory outputs. Furthermore, even if we exclude the liability shield provided by Section 230, proving causation for defamation and product liability claims is a challenging endeavor due to the intricate and opaque nature of AI systems. To address the unique and unforeseeable threats posed by Generative AI, we advocate for legal frameworks that evolve to recognize new threat and provide proactive, auditable guidelines to industry stakeholders. Addressing these issues requires deep interdisciplinary collaborations to identify harms, values, and mitigation strategies.
翻訳日:2023-08-31 13:53:31 公開日:2023-08-30
# 自律量子熱機械による熱力学計算

Thermodynamic Computing via Autonomous Quantum Thermal Machines ( http://arxiv.org/abs/2308.15905v1 )

ライセンス: Link先を確認
Patryk Lipka-Bartosik, Mart\'i Perarnau-Llobet, Nicolas Brunner(参考訳) 自律的量子熱機械に基づく古典計算のための物理モデルを開発した。 これらの機械は、異なる温度で複数の環境に接続される相互作用量子ビット(量子ビット)がほとんどない。 マシン内の熱流はここで計算に利用される。 プロセスは、論理入力に従って環境の温度を設定することから始まります。 マシンは進化し、最終的に非平衡定常状態に到達し、計算の出力は補助的な有限サイズの貯水池の温度によって決定される。 このような機械は「熱力学ニューロン」と呼ばれ、任意の線形分離可能な機能を実装でき、NOT, 3-majority, NORゲートのケースを明確に議論する。 次に、熱力学ニューロンのネットワークが所望の機能を実行することができることを示す。 我々は、モデルと人工ニューロン(知覚子)の密接な関係について論じ、ニューラルネットワークの代替物理ベースのアナログ実装を提供し、より一般的には熱力学コンピューティングのプラットフォームを提供していると論じる。

We develop a physics-based model for classical computation based on autonomous quantum thermal machines. These machines consist of few interacting quantum bits (qubits) connected to several environments at different temperatures. Heat flows through the machine are here exploited for computing. The process starts by setting the temperatures of the environments according to the logical input. The machine evolves, eventually reaching a non-equilibrium steady state, from which the output of the computation can be determined via the temperature of an auxilliary finite-size reservoir. Such a machine, which we term a "thermodynamic neuron", can implement any linearly-separable function, and we discuss explicitly the cases of NOT, 3-majority and NOR gates. In turn, we show that a network of thermodynamic neurons can perform any desired function. We discuss the close connection between our model and artificial neurons (perceptrons), and argue that our model provides an alternative physics-based analogue implementation of neural networks, and more generally a platform for thermodynamic computing.
翻訳日:2023-08-31 13:53:12 公開日:2023-08-30
# 説明可能な解集合プログラミング

Explainable Answer-set Programming ( http://arxiv.org/abs/2308.15901v1 )

ライセンス: Link先を確認
Tobias Geibinger (TU Wien)(参考訳) 人工知能(AI)における説明可能性への関心は、私たちの生活におけるAIのほぼユビキタスな状態と、AIシステムの複雑さの増大によって大きく成長しています。 回答セットプログラミング(asp)は、産業最適化、知識管理、生命科学など多くの分野で使われており、説明可能性の文脈に大きな関心を持っている。 ASPが将来、問題解決パラダイムとして成功するためには、ASPソリューションの説明を調査することが不可欠である。 このような説明は一般に、何がそれぞれが意思決定の一部ではないのか、それとも定式化された問題に対する解決策なのかという疑問に答えようとするものである。 aspに対するいくつかの説明アプローチは存在するが、ほとんどが実際に使われている言語機能をサポートしていない。 最も注目すべきは、理論、外部計算、ニューラルネットワークの推論を可能にするために近年開発された様々なASP拡張を含んでいる。 このプロジェクトは、これらのギャップを埋め、説明可能なasp.net mvcの最先端に貢献することを目的としている。 我々は、既存のアプローチの言語サポートを拡張するだけでなく、対照的な説明のような新しい説明形式の開発にも取り組みます。

The interest in explainability in artificial intelligence (AI) is growing vastly due to the near ubiquitous state of AI in our lives and the increasing complexity of AI systems. Answer-set Programming (ASP) is used in many areas, among them are industrial optimisation, knowledge management or life sciences, and thus of great interest in the context of explainability. To ensure the successful application of ASP as a problem-solving paradigm in the future, it is thus crucial to investigate explanations for ASP solutions. Such an explanation generally tries to give an answer to the question of why something is, respectively is not, part of the decision produced or solution to the formulated problem. Although several explanation approaches for ASP exist, almost all of them lack support for certain language features that are used in practice. Most notably, this encompasses the various ASP extensions that have been developed in the recent years to enable reasoning over theories, external computations, or neural networks. This project aims to fill some of these gaps and contribute to the state of the art in explainable ASP. We tackle this by extending the language support of existing approaches but also by the development of novel explanation formalisms, like contrastive explanations.
翻訳日:2023-08-31 13:52:55 公開日:2023-08-30
# 従来のニューラルネットワークを超えて:計算論理技術による推論と学習機能の追加を目指して

Beyond Traditional Neural Networks: Toward adding Reasoning and Learning Capabilities through Computational Logic Techniques ( http://arxiv.org/abs/2308.15899v1 )

ライセンス: Link先を確認
Andrea Rafanelli (University of Pisa, Italy, University of L'Aquila, Italy)(参考訳) ディープラーニング(DL)モデルは複雑な問題を解決するために人気があるが、高品質なトレーニングデータの必要性、透明性の欠如、堅牢性の問題といった制限がある。 Neuro-Symbolic AIは、ニューラルネットワークの強みとシンボリック推論を組み合わせた有望なアプローチとして登場した。 シンボリック・ナレッジ・インジェクション(SKI)技術は、シンボリック・ナレッジをサブシンボリック・システムに組み込む一般的な手法である。 本研究では、知識注入プロセスを改善し、MLとロジックの要素をマルチエージェントシステム(MAS)に統合するソリューションを提案する。

Deep Learning (DL) models have become popular for solving complex problems, but they have limitations such as the need for high-quality training data, lack of transparency, and robustness issues. Neuro-Symbolic AI has emerged as a promising approach combining the strengths of neural networks and symbolic reasoning. Symbolic knowledge injection (SKI) techniques are a popular method to incorporate symbolic knowledge into sub-symbolic systems. This work proposes solutions to improve the knowledge injection process and integrate elements of ML and logic into multi-agent systems (MAS).
翻訳日:2023-08-31 13:52:37 公開日:2023-08-30
# aspを用いたxaiによるテキスト間データ処理

An xAI Approach for Data-to-Text Processing with ASP ( http://arxiv.org/abs/2308.15898v1 )

ライセンス: Link先を確認
Alessandro Dal Pal\`u (Universit\`a di Parma, Italy), Agostino Dovier (Universit\`a di Udine, Italy), Andrea Formisano (Universit\`a di Udine, Italy)(参考訳) データシリーズからの自然言語テキストの生成は、ai研究の目標に再び関心を寄せた。 当然のことながら、最先端のいくつかの提案は、入力として提供されるデータに一貫性のあるテキストを作成するために、あるシステムを訓練することに基づいている。 このようなアプローチの主な課題は、データとテキストの対応と正確性、テキストにおける矛盾/冗長性の存在、合成量の制御など、何と言うべきか(データの中で対処すべき重要な記述要素)を適切に識別することである。 本稿では,xAI要求に準拠するフレームワークを提案する。 特に我々はasp/pythonプログラムをモデル化し、最適解が証明された精度エラーと合成量の明示的な制御を可能にする。 テキスト記述は、トップダウン構造で階層的に構成され、ロジックルールに従って、さらに詳細なテキストが強化される。 自然言語記述の構造の生成も論理規則によって管理される。

The generation of natural language text from data series gained renewed interest among AI research goals. Not surprisingly, the few proposals in the state of the art are based on training some system, in order to produce a text that describes and that is coherent to the data provided as input. Main challenges of such approaches are the proper identification of "what" to say (the key descriptive elements to be addressed in the data) and "how" to say: the correspondence and accuracy between data and text, the presence of contradictions/redundancy in the text, the control of the amount of synthesis. This paper presents a framework that is compliant with xAI requirements. In particular we model ASP/Python programs that enable an explicit control of accuracy errors and amount of synthesis, with proven optimal solutions. The text description is hierarchically organized, in a top-down structure where text is enriched with further details, according to logic rules. The generation of natural language descriptions' structure is also managed by logic rules.
翻訳日:2023-08-31 13:52:24 公開日:2023-08-30
# Nemo: 新しいルールエンジンの第一弾

Nemo: First Glimpse of a New Rule Engine ( http://arxiv.org/abs/2308.15897v1 )

ライセンス: Link先を確認
Alex Ivliev, Stefan Ellmauthaler, Lukas Gerlach, Maximilian Marx, Matthias Mei{\ss}ner, Simon Meusel, Markus Kr\"otzsch(参考訳) このシステムのデモでは、信頼性とパフォーマンスを重視した新しい論理プログラミングエンジンであるnemoが紹介されている。 nemoはデータ中心の分析計算のために構築され、完全な宣言型データログ方言でモデル化される。 これらのタスクのスケーラビリティは、主要なデータログシステムのスケーラビリティに匹敵する。 10^5から10^8の入力事実を持つ知識グラフとオントロジーを用いた推論の応用をラップトップ上で実証する。 NemoはRustで書かれており、フリーでオープンソースのツールとして利用できる。

This system demonstration presents Nemo, a new logic programming engine with a focus on reliability and performance. Nemo is built for data-centric analytic computations, modelled in a fully declarative Datalog dialect. Its scalability for these tasks matches or exceeds that of leading Datalog systems. We demonstrate uses in reasoning with knowledge graphs and ontologies with 10^5 to 10^8 input facts, all on a laptop. Nemo is written in Rust and available as a free and open source tool.
翻訳日:2023-08-31 13:52:08 公開日:2023-08-30
# 半自律走行車における運転者の状況認識の評価: ASPによるシーン解釈と投影のモデル化

Assessing Drivers' Situation Awareness in Semi-Autonomous Vehicles: ASP based Characterisations of Driving Dynamics for Modelling Scene Interpretation and Projection ( http://arxiv.org/abs/2308.15895v1 )

ライセンス: Link先を確認
Jakob Suchan (German Aerospace Center (DLR), Oldenburg, Germany), Jan-Patrick Osterloh (German Aerospace Center (DLR), Oldenburg, Germany)(参考訳) 半自動運転は、現在すでに利用可能であり、最終的にはさらにアクセスしやすくなるため、安全運転を確保するためにドライバーと自動化システムが確実に連携する必要がある。 この取り組みにおける特に課題は、車両の自動化がもはや運転できなくなり、従って人間に乗っ取るよう要求している状況である。 このような状況では、ドライバーは交通状況に対する意識を迅速に構築し、制御を乗っ取り、安全に車を運転しなければなりません。 このコンテキストでは、ドライバが状況についてどのように認識しているかを判断し、状況認識を構築するのに役立つ人間中心の支援を提供するソフトウェアとハードウェアのフレームワークを提示します。 このフレームワークは、ロボットオペレーティングシステム(ros)内のモジュラーシステムとして開発され、環境や運転状態の検知、運転者の状況認識のモデル化、特別なヒューマンマシンインタフェース(hmis)を使用して運転者の注意を誘導するモジュールを備えている。 本稿では、運転者のシーンの解釈と投影に関するモデリングと推論のための解集合プログラミング(asp)に基づくアプローチに注目した。 これはシーンデータとドライバーが観測したシーン要素を反映したアイトラッキングデータに基づいている。 本稿では,このようなアプリケーションにおける論理プログラミングに基づく意味論的推論と認知機能モデリングの役割について論じる。 さらに,運転者の状況認識の解釈と投影を行うaspアプローチと,そのシステム全体への統合について,シミュレーションと実運転における実世界のユースケースの文脈で述べる。

Semi-autonomous driving, as it is already available today and will eventually become even more accessible, implies the need for driver and automation system to reliably work together in order to ensure safe driving. A particular challenge in this endeavour are situations in which the vehicle's automation is no longer able to drive and is thus requesting the human to take over. In these situations the driver has to quickly build awareness for the traffic situation to be able to take over control and safely drive the car. Within this context we present a software and hardware framework to asses how aware the driver is about the situation and to provide human-centred assistance to help in building situation awareness. The framework is developed as a modular system within the Robot Operating System (ROS) with modules for sensing the environment and the driver state, modelling the driver's situation awareness, and for guiding the driver's attention using specialized Human Machine Interfaces (HMIs). A particular focus of this paper is on an Answer Set Programming (ASP) based approach for modelling and reasoning about the driver's interpretation and projection of the scene. This is based on scene data, as well as eye-tracking data reflecting the scene elements observed by the driver. We present the overall application and discuss the role of semantic reasoning and modelling cognitive functions based on logic programming in such applications. Furthermore we present the ASP approach for interpretation and projection of the driver's situation awareness and its integration within the overall system in the context of a real-world use-case in simulated as well as in real driving.
翻訳日:2023-08-31 13:52:02 公開日:2023-08-30
# 共同設計環境におけるグローバルロジスティクスへの論理プログラミングアプローチ

A Logic Programming Approach to Global Logistics in a Co-Design Environment ( http://arxiv.org/abs/2308.15892v1 )

ライセンス: Link先を確認
Emmanuelle Dietz (Airbus Central Research & Technology, Hein-Sass-Weg 22, 21129 Hamburg, Germany), Tobias Philipp (secunet Security Networks AG, Germany), Gerrit Schramm (Airbus Central Research & Technology, Hein-Sass-Weg 22, 21129 Hamburg, Germany), Andreas Zindel (Airbus Central Research & Technology, Hein-Sass-Weg 22, 21129 Hamburg, Germany)(参考訳) 共同設計環境では、変更を迅速かつ自動的に統合する必要があります。 本論文は, コスト, 時間, レジリエンスなどの重要な性能指標に関して, 共同設計手法による旅客機建設のためのグローバルロジスティクスシステムの構築と最適化の課題について考察する。 問題の製品は、世界中の複数の場所で製造される複数の部品からなる航空機である。 目標は、その産業システムの要件を考慮して航空機を製作する最適な方法を見つけることである。 この課題にアプローチする主な動機は、製品と連動して産業システムを開発し、予期せぬ出来事に対してより弾力性を持たせ、サプライチェーンのボトルネックのリスクを減らすことである。 このリスク低減により、継続的な効率性と運用上の成功が保証される。 この困難で複雑なタスクに対処するため、調査対象の産業システムの関連する要件を形式化し、モデリング言語としてAnswer Set Programming(ASP)を選択しました。 本稿では,知識グラフからの関連情報の抽出,論理プログラムへの翻訳,最適化基準による既存構成の計算という3つの側面について述べる。 最後に,これらのモデルの無作為評価の結果を可視化する。 内部結果は有望なようで、議論されたユースケースの今後の改善に向けたいくつかの新たな研究課題が得られた。

In a co-design environment changes need to be integrated quickly and in an automated manner. This paper considers the challenge of creating and optimizing a global logistics system for the construction of a passenger aircraft within a co-design approach with respect to key performance indicators (like cost, time or resilience). The product in question is an aircraft, comprised of multiple components, manufactured at multiple sites worldwide. The goal is to find an optimal way to build the aircraft taking into consideration the requirements for its industrial system. The main motivation for approaching this challenge is to develop the industrial system in tandem with the product and making it more resilient against unforeseen events, reducing the risks of bottlenecks in the supply chain. This risk reduction ensures continued efficiency and operational success. To address this challenging and complex task we have chosen Answer Set Programming (ASP) as the modeling language, formalizing the relevant requirements of the investigated industrial system. The approach presented in this paper covers three main aspects: the extraction of the relevant information from a knowledge graph, the translation into logic programs and the computation of existing configurations guided by optimization criteria. Finally we visualize the results for an effortless evaluation of these models. Internal results seem promising and yielded several new research questions for future improvements of the discussed use case.
翻訳日:2023-08-31 13:51:32 公開日:2023-08-30
# サイバー犯罪活動、行動、プロファイルの探求

Exploring Cybercriminal Activities, Behaviors and Profiles ( http://arxiv.org/abs/2308.15948v1 )

ライセンス: Link先を確認
Maria Bada and Jason R. C. Nurse(参考訳) 現代の社会は様々な技術進歩の恩恵を受けているが、サイバーセキュリティの脅威がますます増大している。 これらは、ビジネス、政府、個人を含むあらゆる生活領域に影響する。 この問題の技術的解決を補完するためには、サイバー犯罪者自身、技術の使用、心理的側面、プロファイルについてより理解することが不可欠である。 これは、技術コミュニティにおいて社会技術研究の重点をほとんど受けていないトピックであり、具体的な研究成果がほとんどなく、開発の主要な分野である。 本論の目的は,サイバー犯罪活動と行動の心理学的側面と人間的側面から,一連の顕著な事例研究を通じて探求することである。 サイバー犯罪に影響を及ぼす可能性のあるモチベーション、心理的、その他の学際概念について検討する。 この論文は、サイバーセキュリティとサイバー犯罪に焦点を当て、テクノロジー、心理学、犯罪学を学ぶ人々にとって価値が高く、特に洞察に富むものになるだろう。

While modern society benefits from a range of technological advancements, it also is exposed to an ever-increasing set of cybersecurity threats. These affect all areas of life including business, government, and individuals. To complement technology solutions to this problem, it is crucial to understand more about cybercriminal perpetrators themselves, their use of technology, psychological aspects, and profiles. This is a topic that has received little socio-technical research emphasis in the technology community, has few concrete research findings, and is thus a prime area for development. The aim of this article is to explore cybercriminal activities and behavior from a psychology and human aspects perspective, through a series of notable case studies. We examine motivations, psychological and other interdisciplinary concepts as they may impact/influence cybercriminal activities. We expect this paper to be of value and particularly insightful for those studying technology, psychology, and criminology, with a focus on cybersecurity and cybercrime.
翻訳日:2023-08-31 13:45:48 公開日:2023-08-30
# スパース・ビューCT再構成のための段階別ウェーブレット最適化拡散モデル

Stage-by-stage Wavelet Optimization Refinement Diffusion Model for Sparse-View CT Reconstruction ( http://arxiv.org/abs/2308.15942v1 )

ライセンス: Link先を確認
Kai Xu, Shiyu Lu, Bin Huang, Weiwen Wu, Qiegen Liu(参考訳) 拡散モデルは, スパースビューCT再構成の課題に対処するための潜在的なツールとして出現し, 従来の方法に比べて優れた性能を示した。 しかしながら、これらの普及した拡散モデルは、主にシノグラムや画像領域に焦点を合わせ、モデルトレーニング中に不安定になり、局所的な最小解へ収束する可能性がある。 ウェーブレットトランスフォームは、画像の内容と特徴を様々なスケールで異なる周波数成分バンドに分解し、しばしば様々な方向構造を捉えている。 導電率としてウェーブレット変換を用いると、拡散モデルのロバスト性は著しく向上する。 本研究では,Sparse-view CT再構成のためのSWORD(Stage-by-stage Optimization Refinement Diffusion)モデルを提案する。 具体的には,低周波生成モデルと高周波生成モデルを統合した統一数学モデルを構築し,最適化手法を用いて解を求める。 さらに,シノグラムや画像領域ではなく,ウェーブレット分解成分の低周波および高周波生成モデルを実行し,モデルトレーニングの安定性を確保する。 提案手法は,低周波発生,高周波高精細化,領域変換の3段階を含む,確立された最適化理論に根ざした。 提案手法は, 定量的, 定性的に, 既存の最先端手法に勝ることを示す。

Diffusion models have emerged as potential tools to tackle the challenge of sparse-view CT reconstruction, displaying superior performance compared to conventional methods. Nevertheless, these prevailing diffusion models predominantly focus on the sinogram or image domains, which can lead to instability during model training, potentially culminating in convergence towards local minimal solutions. The wavelet trans-form serves to disentangle image contents and features into distinct frequency-component bands at varying scales, adeptly capturing diverse directional structures. Employing the Wavelet transform as a guiding sparsity prior significantly enhances the robustness of diffusion models. In this study, we present an innovative approach named the Stage-by-stage Wavelet Optimization Refinement Diffusion (SWORD) model for sparse-view CT reconstruction. Specifically, we establish a unified mathematical model integrating low-frequency and high-frequency generative models, achieving the solution with optimization procedure. Furthermore, we perform the low-frequency and high-frequency generative models on wavelet's decomposed components rather than sinogram or image domains, ensuring the stability of model training. Our method rooted in established optimization theory, comprising three distinct stages, including low-frequency generation, high-frequency refinement and domain transform. Our experimental results demonstrate that the proposed method outperforms existing state-of-the-art methods both quantitatively and qualitatively.
翻訳日:2023-08-31 13:45:32 公開日:2023-08-30
# AnoVL:Unified Zero-shot Anomaly Localizationのためのビジョンランゲージモデルの適用

AnoVL: Adapting Vision-Language Models for Unified Zero-shot Anomaly Localization ( http://arxiv.org/abs/2308.15939v1 )

ライセンス: Link先を確認
Hanqiu Deng, Zhaoxiang Zhang, Jinan Bao, Xingyu Li(参考訳) コントラスト型言語画像事前学習(clip)モデルは,自然言語管理下での視覚表現の学習により,ゼロショット視覚認識タスクにおいて有望な性能を示す。 近年の研究では、CLIPを用いて、画像と正常および異常状態のプロンプトをマッチングすることで、ゼロショット異常検出に取り組んでいる。 しかし、CLIPはペア化されたテキストプロンプトとグローバルな画像レベルの表現との対応性の構築に重点を置いているため、テキストアライメントに対するパッチレベルのビジョンの欠如は、正確な視覚的異常なローカライゼーションの能力を制限している。 本稿では,ゼロショット異常局所化のためのCLIPのトレーニングフリー適応(TFA)フレームワークを提案する。 ビジュアルエンコーダでは,パッチレベルの局所記述のために,CLIPの固有の局所トークンを抽出する学習自由な注意機構を革新する。 テキスト管理の観点から、我々は特に統合されたドメイン対応コントラスト状態プロンプトテンプレートを設計する。 さらに,TFAの擬似ラベルと合成ノイズ破損トークンを用いて,適応器内のトレーニング可能なパラメータの層を最適化し,異常な局所化結果を洗練するためのテスト時間適応(TTA)機構を導入する。 TFA と TTA を併用することにより,CLIP のゼロショット異常局所化の可能性を大幅に活用し,提案手法が様々なデータセット上で有効であることを示す。

Contrastive Language-Image Pre-training (CLIP) models have shown promising performance on zero-shot visual recognition tasks by learning visual representations under natural language supervision. Recent studies attempt the use of CLIP to tackle zero-shot anomaly detection by matching images with normal and abnormal state prompts. However, since CLIP focuses on building correspondence between paired text prompts and global image-level representations, the lack of patch-level vision to text alignment limits its capability on precise visual anomaly localization. In this work, we introduce a training-free adaptation (TFA) framework of CLIP for zero-shot anomaly localization. In the visual encoder, we innovate a training-free value-wise attention mechanism to extract intrinsic local tokens of CLIP for patch-level local description. From the perspective of text supervision, we particularly design a unified domain-aware contrastive state prompting template. On top of the proposed TFA, we further introduce a test-time adaptation (TTA) mechanism to refine anomaly localization results, where a layer of trainable parameters in the adapter is optimized using TFA's pseudo-labels and synthetic noise-corrupted tokens. With both TFA and TTA adaptation, we significantly exploit the potential of CLIP for zero-shot anomaly localization and demonstrate the effectiveness of our proposed methods on various datasets.
翻訳日:2023-08-31 13:45:09 公開日:2023-08-30
# ジャカード制約された高密度サブグラフ発見

Jaccard-constrained dense subgraph discovery ( http://arxiv.org/abs/2308.15936v1 )

ライセンス: Link先を確認
Chamalee Wickrama Arachchi and Nikolaj Tatti(参考訳) 密度の高い部分グラフを見つけることは、さまざまな領域で多くの応用を行うグラフマイニングの核となる問題である。 同時に、多くの現実世界のネットワークが時間とともに変化しており、データセットはグラフスナップショットのシーケンスとして表現できる。 したがって、時間とともに一定の程度まで変化することができる時間的ネットワークの中で密度の高い部分グラフを見つけるという問題を考えるのは自然である。 本稿では,ジャカード類似度係数の大きい高密度部分グラフを探索する。 より正式には、グラフスナップショットの集合と重み$\lambda$が与えられたとき、誘導された部分グラフの密度の和と、$\lambda$の重み付き Jaccard インデックスの和が最大になるような高密度な部分グラフの集合を見つける。 この問題がNPハードであることを証明する。 客観的な値の密接な部分グラフを見つけるために,1回の反復毎に$\mathcal{o}(n^2k^2 + m \log n + k^3 n)$で実行される反復アルゴリズムと$\mathcal{o}(n^2k^2 + m \log n + k^3 n)$ で実行されるgreedyアルゴリズムを示し,$k$はグラフ列の長さであり、$n$と$m$はそれぞれノード数と辺の総数を表す。 我々は,我々のアルゴリズムが効率的であることを実験的に示し,合成データセットに基底真理を見つけ,実世界のデータセットから解釈可能な結果を提供する。 最後に,この問題の有用性を示すケーススタディを提案する。

Finding dense subgraphs is a core problem in graph mining with many applications in diverse domains. At the same time many real-world networks vary over time, that is, the dataset can be represented as a sequence of graph snapshots. Hence, it is natural to consider the question of finding dense subgraphs in a temporal network that are allowed to vary over time to a certain degree. In this paper, we search for dense subgraphs that have large pairwise Jaccard similarity coefficients. More formally, given a set of graph snapshots and a weight $\lambda$, we find a collection of dense subgraphs such that the sum of densities of the induced subgraphs plus the sum of Jaccard indices, weighted by $\lambda$, is maximized. We prove that this problem is NP-hard. To discover dense subgraphs with good objective value, we present an iterative algorithm which runs in $\mathcal{O}(n^2k^2 + m \log n + k^3 n)$ time per single iteration, and a greedy algorithm which runs in $\mathcal{O}(n^2k^2 + m \log n + k^3 n)$ time, where $k$ is the length of the graph sequence and $n$ and $m$ denote number of nodes and total number of edges respectively. We show experimentally that our algorithms are efficient, they can find ground truth in synthetic datasets and provide interpretable results from real-world datasets. Finally, we present a case study that shows the usefulness of our problem.
翻訳日:2023-08-31 13:44:45 公開日:2023-08-30
# バックエンドで何が起きているのか? スマートトイレのリスクとメリット

What's going on at the back-end? Risks and benefits of smart toilets ( http://arxiv.org/abs/2308.15935v1 )

ライセンス: Link先を確認
Isabel Wagner (University of Basel) and Eerke Boiten (De Montfort University)(参考訳) 本稿では,健康データを記録するスマートトイレを考慮したエキスパートフォーカスグループのテーマ分析を行う。 起こりうるテーマはリスクを示し、その多くが軽減される可能性があるが、現時点ではそうではない。

This paper presents a thematic analysis of an expert focus group considering smart toilets that record health data. The themes that arise indicate risks, many of which could be mitigated but currently are not, suggesting health benefits for the moment override other concerns only in specific application contexts.
翻訳日:2023-08-31 13:44:12 公開日:2023-08-30
# 非エルミート作用素の不確かさ関係

Uncertainty relation for non-Hermitian operators ( http://arxiv.org/abs/2308.15934v1 )

ライセンス: Link先を確認
Fabio Bagarello(参考訳) 本稿では,非自己共役作用素の観点から,ハイゼンベルクの不確実性関係のいくつかの側面について考察する。 いくつかの等価性の結果と不等式の改良が導出され、関連するいくつかの例が議論されている。 私たちはまた、最近「\gamma$-{dynamics}」および「\gamma$-symmetries」と呼ばれるものに関連して、関係のある種の「emdynamical analysis」を開始し、分析における様々なスカラー製品の役割についていくつかの詳細を議論する。 自己随伴演算子のケースは、我々の一般的な設定の特別なケースとして回収されます。

In this paper we discuss some aspects of the Heisenberg uncertainty relation, mostly from the point of view of non self-adjoint operators. Some equivalence results, and some refinements of the inequality, are deduced, and some relevant examples are discussed. We also begin a sort of {\em dynamical analysis} of the relation, in connection with what has been recently called $\gamma$-{dynamics} and $\gamma$-symmetries, and we discuss in some details the role of different scalar products in our analysis. The case of self-adjoint operators is recovered as a special case of our general settings.
翻訳日:2023-08-31 13:44:07 公開日:2023-08-30
# 大腸癌肝転移病変に対するアテンションベースのCTスキャン補間

Attention-based CT Scan Interpolation for Lesion Segmentation of Colorectal Liver Metastases ( http://arxiv.org/abs/2308.15932v1 )

ライセンス: Link先を確認
Mohammad Hamghalam, Richard K. G. Do, and Amber L. Simpson(参考訳) 大腸肝転移(CRLM)に共通する小さな肝病変は,特にCTスキャンにおいて広範囲のスライス厚を有する場合,畳み込みニューラルネットワーク(CNN)セグメンテーションモデルでは困難である。 CT画像のスライス厚は臨床所見によって異なる場合がある。 例えば、小血管の微細な解剖学的詳細が必要な場合、より細いスライスを用いる。 患者に対する効果的な放射線線量を維持する一方で、その限界のために様々なスライス厚がCRLMに使用されている。 しかし,CT間のスライス厚の違いは,CNNに基づくCTセグメント化モデルの性能低下を招いた。 本稿では,ctスキャンで連続するトリプレットスライスから中間スライスを生成するための教師なし注意に基づく補間モデルを提案する。 補間モデルのトレーニング中にセグメンテーション損失を統合し、既存のスライス中のセグメンテーションラベルを利用して中間スライスを生成する。 CTボリュームの一般的な補間法とは異なり、本モデルは補間スライス中の腹部CTスキャンの関心領域(脂肪と病変)を強調している。 さらに, モデルの出力は, 2つの切削エッジ3次元セグメンテーションパイプラインにおけるセグメンテーション性能を高めつつ, 元の入力スライスと一致している。 提案したモデルをCRLMデータセット上でテストし,被検体を厚いスライスでサンプリングし,セグメンテーションモデルのための等方体積を生成する。 生成された等方性データセットは、病変のセグメンテーションにおけるdiceスコアを増加させ、補間メトリックスの観点から他の補間アプローチを上回る。

Small liver lesions common to colorectal liver metastases (CRLMs) are challenging for convolutional neural network (CNN) segmentation models, especially when we have a wide range of slice thicknesses in the computed tomography (CT) scans. Slice thickness of CT images may vary by clinical indication. For example, thinner slices are used for presurgical planning when fine anatomic details of small vessels are required. While keeping the effective radiation dose in patients as low as possible, various slice thicknesses are employed in CRLMs due to their limitations. However, differences in slice thickness across CTs lead to significant performance degradation in CT segmentation models based on CNNs. This paper proposes a novel unsupervised attention-based interpolation model to generate intermediate slices from consecutive triplet slices in CT scans. We integrate segmentation loss during the interpolation model's training to leverage segmentation labels in existing slices to generate middle ones. Unlike common interpolation techniques in CT volumes, our model highlights the regions of interest (liver and lesions) inside the abdominal CT scans in the interpolated slice. Moreover, our model's outputs are consistent with the original input slices while increasing the segmentation performance in two cutting-edge 3D segmentation pipelines. We tested the proposed model on the CRLM dataset to upsample subjects with thick slices and create isotropic volume for our segmentation model. The produced isotropic dataset increases the Dice score in the segmentation of lesions and outperforms other interpolation approaches in terms of interpolation metrics.
翻訳日:2023-08-31 13:43:56 公開日:2023-08-30
# LLaSM:大規模言語と音声モデル

LLaSM: Large Language and Speech Model ( http://arxiv.org/abs/2308.15930v1 )

ライセンス: Link先を確認
Yu Shu, Siwei Dong, Guangyao Chen, Wenhao Huang, Ruihua Zhang, Daochen Shi, Qiqi Xiang, Yemin Shi(参考訳) 近年,マルチモーダル大規模言語モデルが注目されている。 しかし、ほとんどの作品は視覚言語のマルチモーダルモデルに焦点を合わせており、視覚と言語命令に従う強力な能力を提供している。 しかし、音声は人間が世界と相互作用する重要なモダリティでもあると主張する。 したがって、汎用アシスタントがマルチモーダル音声・言語指示を追従できることは不可欠である。 本研究では,Large Language and Speech Model (LLaSM)を提案する。 LLaSMは、多モーダルな多モーダル言語モデルで、多モーダルな会話能力を持ち、音声と音声の指示に従うことができる。 初期の実験では、LLaSMは人間が人工知能と対話するより便利で自然な方法を示している。 具体的には,LLaSM-Audio-Instructionsデータセットを大規模にリリースする。 コードとデモはhttps://github.com/LinkSoul-AI/LLaSMとhttps://huggingface.co/spaces/LinkSoul/LLaSMで公開されている。 LLaSM-Audio-Instructionsデータセットはhttps://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructionsで公開されている。

Multi-modal large language models have garnered significant interest recently. Though, most of the works focus on vision-language multi-modal models providing strong capabilities in following vision-and-language instructions. However, we claim that speech is also an important modality through which humans interact with the world. Hence, it is crucial for a general-purpose assistant to be able to follow multi-modal speech-and-language instructions. In this work, we propose Large Language and Speech Model (LLaSM). LLaSM is an end-to-end trained large multi-modal speech-language model with cross-modal conversational abilities, capable of following speech-and-language instructions. Our early experiments show that LLaSM demonstrates a more convenient and natural way for humans to interact with artificial intelligence. Specifically, we also release a large Speech Instruction Following dataset LLaSM-Audio-Instructions. Code and demo are available at https://github.com/LinkSoul-AI/LLaSM and https://huggingface.co/spaces/LinkSoul/LLaSM. The LLaSM-Audio-Instructions dataset is available at https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
翻訳日:2023-08-31 13:43:29 公開日:2023-08-30
# IDVT:ソーシャルレコメンデーションのための関心ある認知的認知とビュー誘導チューニング

IDVT: Interest-aware Denoising and View-guided Tuning for Social Recommendation ( http://arxiv.org/abs/2308.15926v1 )

ライセンス: Link先を確認
Dezhao Yang, Jianghong Ma, Shanshan Feng, Haijun Zhang, Zhao Zhang(参考訳) 情報時代のレコメンデーションシステムは,情報のフィルタリングやユーザの好みの特定に不可欠である。 オンラインソーシャルプラットフォームは、貴重な補助情報を提供することで、これらのシステムを強化してきた。 ソーシャルに繋がったユーザーは、同様の好みを共有し、推奨精度を高め、コールドスタート問題に対処すると仮定される。 しかし、実証的な発見は、特定の社会的つながりがシステムのパフォーマンスを実際に損なう可能性があることを明らかにし、この仮定に挑戦する。 統計分析の結果,ソーシャルに繋がるユーザの多くが共通の関心を持っていないソーシャルネットワークでは,かなりのノイズが発生していることがわかった。 この問題に対処するために,社会レコメンデーションのための革新的な \underline{I}nterest-aware \underline{D}enoising と \underline{V}ieded \underline{T}uning (IDVT) 手法を提案する。 第1のID部は、社会的つながりを効果的に認知する。 具体的には、ソーシャルネットワークの構造とユーザインタラクションの利害関係をグローバルな視点で考察する。 さらに,このグローバル・ビューでは,分別化されたソーシャル・情報(ソーシャル・ドメイン)を,ユーザ・テーマ間インタラクション(協調的ドメイン)の伝播と,ゲーティング・メカニズムを用いた2つのドメインからのユーザ表現の集約にも統合する。 第2のvtパートでは,グローバルビューにおけるユーザ表現をコントラスト学習によって微調整するための2つのビュー(ローカルビューとドロップアウト強調ビュー)を導入しています。 ノイズ比の異なる実世界のデータセットに対する広範囲な評価は、最先端の社会的レコメンデーション手法よりもIDVTの方が優れていることを示す。

In the information age, recommendation systems are vital for efficiently filtering information and identifying user preferences. Online social platforms have enriched these systems by providing valuable auxiliary information. Socially connected users are assumed to share similar preferences, enhancing recommendation accuracy and addressing cold start issues. However, empirical findings challenge the assumption, revealing that certain social connections can actually harm system performance. Our statistical analysis indicates a significant amount of noise in the social network, where many socially connected users do not share common interests. To address this issue, we propose an innovative \underline{I}nterest-aware \underline{D}enoising and \underline{V}iew-guided \underline{T}uning (IDVT) method for the social recommendation. The first ID part effectively denoises social connections. Specifically, the denoising process considers both social network structure and user interaction interests in a global view. Moreover, in this global view, we also integrate denoised social information (social domain) into the propagation of the user-item interactions (collaborative domain) and aggregate user representations from two domains using a gating mechanism. To tackle potential user interest loss and enhance model robustness within the global view, our second VT part introduces two additional views (local view and dropout-enhanced view) for fine-tuning user representations in the global view through contrastive learning. Extensive evaluations on real-world datasets with varying noise ratios demonstrate the superiority of IDVT over state-of-the-art social recommendation methods.
翻訳日:2023-08-31 13:43:10 公開日:2023-08-30
# 半導体単一光子源を用いた高速都市間量子鍵分布

High-rate intercity quantum key distribution with a semiconductor single-photon source ( http://arxiv.org/abs/2308.15922v1 )

ライセンス: Link先を確認
Jingzhong Yang, Zenghui Jiang, Frederik Benthin, Joscha Hanel, Tom Fandrich, Raphael Joos, Stephanie Bauer, Sascha Kolatschek, Ali Hreibi, Eddy Patrick Rugeramigabo, Michael Jetter, Simone Luca Portalupi, Michael Zopf, Peter Michler, Stefan K\"uck, and Fei Ding(参考訳) 量子鍵分布(QKD)は、盗聴者による一般的な攻撃に対して安全である情報の伝達を可能にする。 QKDプロトコルにおけるオンデマンド量子光源の使用は、セキュリティの向上と耐久損失の最大化に役立つと期待されている。 半導体量子ドット(qds)は、高輝度かつ低マルチ光子寄与の単一光子を決定論的に放出するため、量子通信応用において有望な構成要素である。 ここでは、明るい決定論的単一光子源を用いた最初の都市間QKD実験について報告する。 円ブラッグ格子構造に埋め込まれた半導体QDから放射される通信Cバンド内の高レート単一光子を用いて偏光符号化に基づくBB84プロトコルを実現する。 79kmの長いリンクと25.49dBの損失(直接接続された光ファイバーの130kmに相当する)をハノーファーとブラウンシュヴァイクの間で利用し、平均量子ビット誤差比0.65%の4.8e-5のパルス当たりの最高機密鍵ビットを実証した。 漸近的な最大許容損失は28.11dbであり、標準通信ファイバーの長さは144kmである。 したがって、決定論的半導体源は、高い秘密鍵レートに対して弱いコヒーレントパルスを持つ最先端のデコイ状態QKDと競合し、測定装置の独立したプロトコルや量子リピータの応用において優れている可能性がある。

Quantum key distribution (QKD) enables the transmission of information that is secure against general attacks by eavesdroppers. The use of on-demand quantum light sources in QKD protocols is expected to help improve security and maximum tolerable loss. Semiconductor quantum dots (QDs) are a promising building block for quantum communication applications because of the deterministic emission of single photons with high brightness and low multiphoton contribution. Here we report on the first intercity QKD experiment using a bright deterministic single photon source. A BB84 protocol based on polarisation encoding is realised using the high-rate single photons in the telecommunication C-band emitted from a semiconductor QD embedded in a circular Bragg grating structure. Utilising the 79 km long link with 25.49 dB loss (equivalent to 130 km for the direct-connected optical fibre) between the German cities of Hannover and Braunschweig, a record-high secret key bits per pulse of 4.8e-5 with an average quantum bit error ratio of 0.65 % are demonstrated. An asymptotic maximum tolerable loss of 28.11 dB is found, corresponding to a length of 144 km of standard telecommunication fibre. Deterministic semiconductor sources therefore compete with state-of-the-art decoy state QKD with weak coherent pulses with respect to high secret key rate and have the potential to excel in measurement device independent protocols and quantum repeater applications.
翻訳日:2023-08-31 13:42:35 公開日:2023-08-30
# RoboTAP: 眼球運動の視覚的模倣のための任意点追跡

RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation ( http://arxiv.org/abs/2308.15975v1 )

ライセンス: Link先を確認
Mel Vecerik and Carl Doersch and Yi Yang and Todor Davchev and Yusuf Aytar and Guangyao Zhou and Raia Hadsell and Lourdes Agapito and Jon Scholz(参考訳) ロボットが外部の研究室や専門工場で役に立つためには、新しい有用な行動を素早く教える方法が必要だ。 現在のアプローチでは、タスク固有のエンジニアリングを使わずに新しいタスクをオンボードする一般性が欠如しているか、あるいは実用的な使用を可能にするデータ効率が欠如している。 本研究では,より速く,より汎用的な実演学習を可能にする表現型車両として,密集した追跡について検討する。 提案手法では,トラック・ナッシング・ポイント(tap)モデルを用いて実演中の関連する動きを分離し,低レベルコントローラをパラメータ化し,シーン構成の変化にまたがってこの動きを再現する。 この結果から,形状マッチングや積み重ね,さらには接着剤や付着物などの完全な経路追従作業といった複雑な物体配置タスクを,数分で収集可能なデモから解決できるロバストなロボットポリシが示される。

For robots to be useful outside labs and specialized factories we need a way to teach them new useful behaviors quickly. Current approaches lack either the generality to onboard new tasks without task-specific engineering, or else lack the data-efficiency to do so in an amount of time that enables practical use. In this work we explore dense tracking as a representational vehicle to allow faster and more general learning from demonstration. Our approach utilizes Track-Any-Point (TAP) models to isolate the relevant motion in a demonstration, and parameterize a low-level controller to reproduce this motion across changes in the scene configuration. We show this results in robust robot policies that can solve complex object-arrangement tasks such as shape-matching, stacking, and even full path-following tasks such as applying glue and sticking objects together, all from demonstrations that can be collected in minutes.
翻訳日:2023-08-31 13:34:37 公開日:2023-08-30
# デモ: 異常検出機能のための5G無線アクセスネットワークのデジタルツイン

Demo: A Digital Twin of the 5G Radio Access Network for Anomaly Detection Functionality ( http://arxiv.org/abs/2308.15973v1 )

ライセンス: Link先を確認
Peizheng Li, Adnan Aijaz, Tim Farnham, Sajida Gufran, Sita Chintalapati(参考訳) 近年,デジタルツイン(DT)の概念は5G/6Gの領域で注目されている。 このデモは、5Gインフラストラクチャ内での統合に適した革新的なDT設計と実装フレームワークを示しています。 提案したDTは,ユーザ接続に関するほぼリアルタイムな異常検出機能を実現する。 5gシステムは、リソース制御と接続回復のための意思決定を積極的に実行する。

Recently, the concept of digital twins (DTs) has received significant attention within the realm of 5G/6G. This demonstration shows an innovative DT design and implementation framework tailored toward integration within the 5G infrastructure. The proposed DT enables near real-time anomaly detection capability pertaining to user connectivity. It empowers the 5G system to proactively execute decisions for resource control and connection restoration.
翻訳日:2023-08-31 13:34:19 公開日:2023-08-30
# 人間のフィードバックを用いた反復的逆方向整形法

Iterative Reward Shaping using Human Feedback for Correcting Reward Misspecification ( http://arxiv.org/abs/2308.15969v1 )

ライセンス: Link先を確認
Jasmina Gajcin, James McCarthy, Rahul Nair, Radu Marinescu, Elizabeth Daly, Ivana Dusparic(参考訳) 報酬関数は強化学習(RL)エージェントの訓練の成功に不可欠である。 しかし、適切な報酬関数を定義することは、特に複雑で多目的な環境において、非常に難しい作業である。 開発者はしばしば、最初の、潜在的に不特定な報酬関数から始め、観察された振る舞いに基づいてパラメータを反復的に調整する必要がある。 そこで本研究では,人間フィードバックを用いた反復報酬形成手法であるitersを提案することで,このプロセスを自動化することを目的としている。 本手法では,訓練中のエージェントの行動に対する軌道レベルのフィードバックを提供し,次の訓練イテレーションで報酬シェーピング信号として統合することができる。 また、フィードバックの強化やユーザの努力やフィードバック頻度の低減に使用されるフィードバックの説明をユーザが提供できるようにします。 ITERSを3つの環境で評価し,不特定報酬関数の修正に成功したことを示す。

A well-defined reward function is crucial for successful training of an reinforcement learning (RL) agent. However, defining a suitable reward function is a notoriously challenging task, especially in complex, multi-objective environments. Developers often have to resort to starting with an initial, potentially misspecified reward function, and iteratively adjusting its parameters, based on observed learned behavior. In this work, we aim to automate this process by proposing ITERS, an iterative reward shaping approach using human feedback for mitigating the effects of a misspecified reward function. Our approach allows the user to provide trajectory-level feedback on agent's behavior during training, which can be integrated as a reward shaping signal in the following training iteration. We also allow the user to provide explanations of their feedback, which are used to augment the feedback and reduce user effort and feedback frequency. We evaluate ITERS in three environments and show that it can successfully correct misspecified reward functions.
翻訳日:2023-08-31 13:34:14 公開日:2023-08-30
# SHARP Challenge 2023: CAD履歴とpArametersリカバリのためのポイントクラウドと3Dスキャン。 概要、データセット、メトリクス、ベースライン

SHARP Challenge 2023: Solving CAD History and pArameters Recovery from Point clouds and 3D scans. Overview, Datasets, Metrics, and Baselines ( http://arxiv.org/abs/2308.15966v1 )

ライセンス: Link先を確認
Dimitrios Mallis, Sk Aziz Ali, Elona Dupont, Kseniya Cherenkova, Ahmet Serdar Karadeniz, Mohammad Sadil Khan, Anis Kacem, Gleb Gusev, Djamila Aouada(参考訳) 近年の幾何学的ディープラーニング(DL)の進展と大規模コンピュータ支援設計(CAD)データセットの利用可能化により,CADモデリングプロセスの学習と実際のオブジェクトとの関連性の研究が進んでいる。 この文脈において、3DスキャンによるCADモデルの3次元リバースエンジニアリングはCAD産業にとって最も望まれる目標の1つであると考えられる。 しかし、最近の取り組みでは、現実世界の設定でアプリケーションを制限する複数の単純化が想定されている。 SHARP Challenge 2023は、専用のデータセットとトラックを通じてCADリバースエンジニアリングの現実シナリオに一歩近づくことを目的としている。 本稿では、提案したSHARP 2023トラックを定義し、提案したデータセットを記述し、トラックソリューションの性能を評価するための適切な評価指標とともに、一連のベースライン手法を提案する。 提案されているすべてのデータセットと有用なルーチンと評価指標が公開されている。

Recent breakthroughs in geometric Deep Learning (DL) and the availability of large Computer-Aided Design (CAD) datasets have advanced the research on learning CAD modeling processes and relating them to real objects. In this context, 3D reverse engineering of CAD models from 3D scans is considered to be one of the most sought-after goals for the CAD industry. However, recent efforts assume multiple simplifications limiting the applications in real-world settings. The SHARP Challenge 2023 aims at pushing the research a step closer to the real-world scenario of CAD reverse engineering through dedicated datasets and tracks. In this paper, we define the proposed SHARP 2023 tracks, describe the provided datasets, and propose a set of baseline methods along with suitable evaluation metrics to assess the performance of the track solutions. All proposed datasets along with useful routines and the evaluation metrics are publicly available.
翻訳日:2023-08-31 13:33:59 公開日:2023-08-30
# 自然感性アルゴリズムにおけるパラメータ調整法の検討

Review of Parameter Tuning Methods for Nature-Inspired Algorithms ( http://arxiv.org/abs/2308.15965v1 )

ライセンス: Link先を確認
Geethu Joy, Christian Huyck, Xin-She Yang(参考訳) ほぼ全ての最適化アルゴリズムはアルゴリズムに依存したパラメータを持ち、そのようなパラメータ値の設定はアルゴリズムの振る舞いに大きく影響する。 したがって、最適化に使用されるアルゴリズムがうまく機能し、異なるタイプの最適化問題を解くのに十分な堅牢性を持つように、適切なパラメータチューニングを行う必要がある。 本章ではパラメータチューニングの主要な方法をいくつか検討し、パラメータチューニングの最新開発に関する重要な問題を取り上げる。 いくつかのオープンな問題も今後の研究の推奨事項として議論されている。

Almost all optimization algorithms have algorithm-dependent parameters, and the setting of such parameter values can largely influence the behaviour of the algorithm under consideration. Thus, proper parameter tuning should be carried out to ensure the algorithm used for optimization may perform well and can be sufficiently robust for solving different types of optimization problems. This chapter reviews some of the main methods for parameter tuning and then highlights the important issues concerning the latest development in parameter tuning. A few open problems are also discussed with some recommendations for future research.
翻訳日:2023-08-31 13:33:43 公開日:2023-08-30
# WALL-E:大規模言語モデルを用いたロボットウェイタ負荷リフティング

WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model ( http://arxiv.org/abs/2308.15962v1 )

ライセンス: Link先を確認
Tianyu Wang, Yifan Li, Haitao Lin, Xiangyang Xue, Yanwei Fu(参考訳) ロボットによる言語指導の理解と視覚的認識への対応は、ロボット研究コミュニティにおける長年の目標である。 この目標を達成するには、自然言語処理、コンピュータビジョン、ロボット工学の最先端の進歩が必要である。 そこで本稿では,最新の大規模言語モデル(llms)と既存の視覚接地・ロボット把持システムを統合し,人間とロボットのインタラクションの有効性を高める可能性について検討する。 本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。 このシステムは、ChatGPTのLLMを利用して、マルチラウンド対話によるターゲット命令として、ユーザの嗜好対象を要約する。 そして、対象指示をオブジェクトポーズとサイズ推定のための視覚的接地システムに転送し、ロボットがそれに従ってオブジェクトを把握する。 我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。 実世界シナリオのさらなる実験結果から,提案手法の有効性と有効性が示された。

Enabling robots to understand language instructions and react accordingly to visual perception has been a long-standing goal in the robotics research community. Achieving this goal requires cutting-edge advances in natural language processing, computer vision, and robotics engineering. Thus, this paper mainly investigates the potential of integrating the most recent Large Language Models (LLMs) and existing visual grounding and robotic grasping system to enhance the effectiveness of the human-robot interaction. We introduce the WALL-E (Embodied Robotic WAiter load lifting with Large Language model) as an example of this integration. The system utilizes the LLM of ChatGPT to summarize the preference object of the users as a target instruction via the multi-round interactive dialogue. The target instruction is then forwarded to a visual grounding system for object pose and size estimation, following which the robot grasps the object accordingly. We deploy this LLM-empowered system on the physical robot to provide a more user-friendly interface for the instruction-guided grasping task. The further experimental results on various real-world scenarios demonstrated the feasibility and efficacy of our proposed framework.
翻訳日:2023-08-31 13:33:33 公開日:2023-08-30
# 胸部X線自動報告のための解剖学的トークンの発見

Finding-Aware Anatomical Tokens for Chest X-Ray Automated Reporting ( http://arxiv.org/abs/2308.15961v1 )

ライセンス: Link先を確認
Francesco Dalla Serra, Chaoyang Wang, Fani Deligianni, Jeffrey Dalton, Alison Q. O'Neil(参考訳) 放射線学報告の課題は、その位置や外観の記述を含む、放射線画像の医学的発見を記述及び解釈することを含む。 ラジオロジーレポートへの自動アプローチでは、画像に適切なトークン表現をエンコードして言語モデルに入力する必要がある。 従来の方法では、畳み込みニューラルネットワークを使用してイメージを一連の画像レベルの特徴マップ表現にエンコードする。 しかし、生成されたレポートはしばしば現実的なスタイルを示すが、不完全な正確さを示す。 画像に検出された物体に対応する一般領域における画像キャプションに関する最近の研究から着想を得て,解剖学的構造に対応する局所トークンを用いることで,生成したレポートの品質を向上させることができるかを検討する。 本稿では,解剖学的構造定位時に抽出した候補境界ボックスの検出を行う,Faster R-CNNの新たな適応を提案する。 得られたバウンディングボックスの特徴表現を解剖学的トークンの集合として使用します。 これにより、抽出された解剖学的トークンは、それらが含む発見(放射線学報告の最終課題に要求される)について情報を与えることができる。 胸部X線画像のMIMIC-CXRデータセットから, 自動報告パイプラインに組み込んだタスク認識型解剖学的トークンにより, 臨床精度が向上した報告が得られた。

The task of radiology reporting comprises describing and interpreting the medical findings in radiographic images, including description of their location and appearance. Automated approaches to radiology reporting require the image to be encoded into a suitable token representation for input to the language model. Previous methods commonly use convolutional neural networks to encode an image into a series of image-level feature map representations. However, the generated reports often exhibit realistic style but imperfect accuracy. Inspired by recent works for image captioning in the general domain in which each visual token corresponds to an object detected in an image, we investigate whether using local tokens corresponding to anatomical structures can improve the quality of the generated reports. We introduce a novel adaptation of Faster R-CNN in which finding detection is performed for the candidate bounding boxes extracted during anatomical structure localisation. We use the resulting bounding box feature representations as our set of finding-aware anatomical tokens. This encourages the extracted anatomical tokens to be informative about the findings they contain (required for the final task of radiology reporting). Evaluating on the MIMIC-CXR dataset of chest X-Ray images, we show that task-aware anatomical tokens give state-of-the-art performance when integrated into an automated reporting pipeline, yielding generated reports with improved clinical accuracy.
翻訳日:2023-08-31 13:32:59 公開日:2023-08-30
# 動的交通シナリオのための弱スーパービジョン付き擬似ラベル

Fusing Pseudo Labels with Weak Supervision for Dynamic Traffic Scenarios ( http://arxiv.org/abs/2308.15960v1 )

ライセンス: Link先を確認
Harshith Mohan Kumar, Sean Lawrence(参考訳) Advanced Driver Assistance Systems (ADAS) は、知覚と意思決定能力を高めるためにコンピュータビジョンを活用し、大きな進歩を遂げた。 それでも、これらのシステムの多様な交通シナリオへの適応は、位置情報、天気、道路インフラなどの要因から生じるデータ分散の変化による課題を生じさせる。 これを解決するために、異種データセットで訓練された多数のオブジェクト検出モデルから擬似ラベルをマッチングする弱い教師付きラベル統一パイプラインを導入する。 当社のパイプラインは、異なるデータセットからのラベルの融合、バイアスの修正、一般化の強化を通じて、統一されたラベル空間を囲む。 個々のデータセット上で複数のオブジェクト検出モデルを微調整し,その後,疑似ラベルを特徴とする統一データセットを作成し,精度を慎重に検証した。 その後,マージラベル空間を用いた単独オブジェクト検出モデルの再トレーニングを行い,動的トラフィックシナリオに習熟した弾力性モデルに到達した。 我々は,アジア諸国を起源とする多種多様なデータセットを活用し,道路条件に挑戦する上での有効性を実証し,このアプローチの包括的評価を行った。 特に,提案手法はオブジェクト検出性能が大幅に向上し,ドメインシフトに対する耐性が高まるモデルに到達した。

Advanced Driver Assistance Systems (ADAS) have made significant strides, capitalizing on computer vision to enhance perception and decision-making capabilities. Nonetheless, the adaptation of these systems to diverse traffic scenarios poses challenges due to shifts in data distribution stemming from factors such as location, weather, and road infrastructure. To tackle this, we introduce a weakly-supervised label unification pipeline that amalgamates pseudo labels from a multitude of object detection models trained on heterogeneous datasets. Our pipeline engenders a unified label space through the amalgamation of labels from disparate datasets, rectifying bias and enhancing generalization. We fine-tune multiple object detection models on individual datasets, subsequently crafting a unified dataset featuring pseudo labels, meticulously validated for precision. Following this, we retrain a solitary object detection model using the merged label space, culminating in a resilient model proficient in dynamic traffic scenarios. We put forth a comprehensive evaluation of our approach, employing diverse datasets originating from varied Asian countries, effectively demonstrating its efficacy in challenging road conditions. Notably, our method yields substantial enhancements in object detection performance, culminating in a model with heightened resistance against domain shifts.
翻訳日:2023-08-31 13:32:15 公開日:2023-08-30
# キルギス語におけるマルチラベル話題分類のベンチマーク

Benchmarking Multilabel Topic Classification in the Kyrgyz Language ( http://arxiv.org/abs/2308.15952v1 )

ライセンス: Link先を確認
Anton Alekseev, Sergey I. Nikolenko, Gulnara Kabaeva(参考訳) キルギス語は現代の自然言語処理資源において、非常に表現に乏しい言語である。 本研究では、ニュースサイト24.kgから収集・注釈されたデータに基づくデータセットを導入し、マルチラベル設定におけるニュース分類のベースラインモデルをいくつか提示する。 我々は、古典的統計モデルと神経モデルの両方を訓練し、評価し、スコアを報告し、結果を議論し、今後の作業の方向性を提案する。

Kyrgyz is a very underrepresented language in terms of modern natural language processing resources. In this work, we present a new public benchmark for topic classification in Kyrgyz, introducing a dataset based on collected and annotated data from the news site 24.KG and presenting several baseline models for news classification in the multilabel setting. We train and evaluate both classical statistical and neural models, reporting the scores, discussing the results, and proposing directions for future work.
翻訳日:2023-08-31 13:31:52 公開日:2023-08-30
# 効率的な画像認識のためのレイテンシアウェア統一動的ネットワーク

Latency-aware Unified Dynamic Networks for Efficient Image Recognition ( http://arxiv.org/abs/2308.15949v1 )

ライセンス: Link先を確認
Yizeng Han, Zeyu Liu, Zhihang Yuan, Yifan Pu, Chaofei Wang, Shiji Song, Gao Huang(参考訳) 動的計算は深層ネットワークの推論効率を高めるための有望な道として登場した。 計算ユニットの選択的活性化を可能にし、各入力サンプルに対する不要な計算の削減につながる。 しかし、これらの動的モデルの実際の効率は理論的予測から逸脱することができる。 このミスマッチは: 1) 断片化研究による統一的アプローチの欠如 2) 重要なスケジューリング戦略,特にCUDA対応GPUコンテキストにおけるアルゴリズム設計に焦点を当てる。 3) ほとんどのライブラリが静的操作に対応しているため,実用的レイテンシを測定する上での課題がある。 これらの問題に対処するために,我々は,3つの主要な動的パラダイム(分散適応計算,動的層スキップ,動的チャネルスキップ)を統合するフレームワークであるlaudnet( latency-aware unified dynamic networks)を発表した。 理論的および実用的な効率ギャップを埋めるため、LAUDNetはアルゴリズム設計とスケジューリング最適化をマージし、動的演算子の遅延を正確に測定する遅延予測器によって導かれる。 LAUDNetを複数のビジョンタスクでテストし、V100やRTX3090、TX2 GPUといったプラットフォーム上で、ResNet-101のようなモデルの遅延を50%以上削減する能力を示しています。 特に、LAUDNetは精度と効率のバランスで際立っている。 コードは、https://www.github.com/LeapLabTHU/LAUDNetで入手できる。

Dynamic computation has emerged as a promising avenue to enhance the inference efficiency of deep networks. It allows selective activation of computational units, leading to a reduction in unnecessary computations for each input sample. However, the actual efficiency of these dynamic models can deviate from theoretical predictions. This mismatch arises from: 1) the lack of a unified approach due to fragmented research; 2) the focus on algorithm design over critical scheduling strategies, especially in CUDA-enabled GPU contexts; and 3) challenges in measuring practical latency, given that most libraries cater to static operations. Addressing these issues, we unveil the Latency-Aware Unified Dynamic Networks (LAUDNet), a framework that integrates three primary dynamic paradigms-spatially adaptive computation, dynamic layer skipping, and dynamic channel skipping. To bridge the theoretical and practical efficiency gap, LAUDNet merges algorithmic design with scheduling optimization, guided by a latency predictor that accurately gauges dynamic operator latency. We've tested LAUDNet across multiple vision tasks, demonstrating its capacity to notably reduce the latency of models like ResNet-101 by over 50% on platforms such as V100, RTX3090, and TX2 GPUs. Notably, LAUDNet stands out in balancing accuracy and efficiency. Code is available at: https://www.github.com/LeapLabTHU/LAUDNet.
翻訳日:2023-08-31 13:31:41 公開日:2023-08-30
# EnsembleFollower: 強化学習と階層的計画に基づくハイブリッドカーフォローフレームワーク

EnsembleFollower: A Hybrid Car-Following Framework Based On Reinforcement Learning and Hierarchical Planning ( http://arxiv.org/abs/2308.16008v1 )

ライセンス: Link先を確認
Xu Han, Xianda Chen, Meixin Zhu, Pinlong Cai, Jianshan Zhou, Xiaowen Chu(参考訳) 自動車追従モデルが縦方向運転行動の理解に大きく貢献している。 しかし、車追従プロセスに固有の複雑さを完全に捉えられないため、あるいはトレーニングデータに存在する制限された運転スキルに依存するため、目に見えないシナリオに陥る可能性があるため、正確さと柔軟性は限られていることが多い。 それぞれの車追従モデルは、特定の運転シナリオに応じて独自の強みと弱みを持っている点に注意が必要だ。 そこで我々は,先進的な人間的な車追従を実現するための階層的計画枠組みであるEnsembleFollowerを提案する。 アンサンブルフォローアフレームワークは、アクションを実行するために適切な低レベルモデルを選択するか、またはすべての低レベルコンポーネントに異なる重みを割り当てることによって、現在の状態に応じて複数の低レベルカーフォローアモデルを公平に管理する、高レベル強化学習ベースのエージェントを含む。 さらに,より説得力のある車追従シミュレーションのためのjerk-constrained kinematic modelを提案する。 提案手法は,HighDデータセットから実世界の運転データに基づいて評価する。 実験の結果,アンサンブル従者により,人間のような行動の精度が向上し,ハイブリッドモデルを組み合わせた場合の有効性が得られた。

Car-following models have made significant contributions to our understanding of longitudinal driving behavior. However, they often exhibit limited accuracy and flexibility, as they cannot fully capture the complexity inherent in car-following processes, or may falter in unseen scenarios due to their reliance on confined driving skills present in training data. It is worth noting that each car-following model possesses its own strengths and weaknesses depending on specific driving scenarios. Therefore, we propose EnsembleFollower, a hierarchical planning framework for achieving advanced human-like car-following. The EnsembleFollower framework involves a high-level Reinforcement Learning-based agent responsible for judiciously managing multiple low-level car-following models according to the current state, either by selecting an appropriate low-level model to perform an action or by allocating different weights across all low-level components. Moreover, we propose a jerk-constrained kinematic model for more convincing car-following simulations. We evaluate the proposed method based on real-world driving data from the HighD dataset. The experimental results illustrate that EnsembleFollower yields improved accuracy of human-like behavior and achieves effectiveness in combining hybrid models, demonstrating that our proposed framework can handle diverse car-following conditions by leveraging the strengths of various low-level models.
翻訳日:2023-08-31 13:25:41 公開日:2023-08-30
# 画像多重分類のためのハイブリッド量子ニューラルネットワーク構造

Hybrid Quantum Neural Network Structures for Image Multi-classification ( http://arxiv.org/abs/2308.16005v1 )

ライセンス: Link先を確認
Mingrui Shi and Haozhen Situ and Cai Zhang(参考訳) 画像分類は基本的なコンピュータビジョンの問題であり、ニューラルネットワークは効率的なソリューションを提供する。 量子技術の進歩により、量子ニューラルネットワークが注目されている。 しかし、それらは低次元のデータと要求次元の低減と量子エンコーディングでのみ機能する。 1つはPCA次元の縮小と角度符号化を採用し、もう1つはQNNをCNNに統合して性能を高めている。 多くのアルゴリズムにもかかわらず、PCAの削減と角度符号化を比較することは、まだ不明である。 本研究では,マルチクラス画像分類におけるこれらのアルゴリズムの性能を探索し,現在の環境に適した最適化ハイブリッド量子ニューラルネットワークを提案する。 PCAベースの量子アルゴリズムを調査すると、カテゴリが増加し、ハイブリッド環境でのマルチクラスには適さないため、QNNにとって不毛な高原問題が発生する。 同時に、組み合わせたCNN-QNNモデルは、QNNのマルチクラストレーニングの課題を克服するが、従来のCNNモデルよりも精度が低い。 さらに本研究では,ハイブリッド量子ニューラルネットワークモデルにおける転送学習について検討する。 結論として、量子ニューラルネットワークは将来性を示すが、今後の課題に直面したさらなる研究と最適化が必要である。

Image classification is a fundamental computer vision problem, and neural networks offer efficient solutions. With advancing quantum technology, quantum neural networks have gained attention. However, they work only for low-dimensional data and demand dimensionality reduction and quantum encoding. Two recent image classification methods have emerged: one employs PCA dimensionality reduction and angle encoding, the other integrates QNNs into CNNs to boost performance. Despite numerous algorithms, comparing PCA reduction with angle encoding against the latter remains unclear. This study explores these algorithms' performance in multi-class image classification and proposes an optimized hybrid quantum neural network suitable for the current environment. Investigating PCA-based quantum algorithms unveils a barren plateau issue for QNNs as categories increase, unsuitable for multi-class in the hybrid setup. Simultaneously, the combined CNN-QNN model partly overcomes QNN's multi-class training challenges but lags in accuracy to superior traditional CNN models. Additionally, this work explores transfer learning in the hybrid quantum neural network model. In conclusion, quantum neural networks show promise but require further research and optimization, facing challenges ahead.
翻訳日:2023-08-31 13:25:19 公開日:2023-08-30
# DTrOCR:光文字認識のためのデコーダのみ変換器

DTrOCR: Decoder-only Transformer for Optical Character Recognition ( http://arxiv.org/abs/2308.15996v1 )

ライセンス: Link先を確認
Masato Fujitake(参考訳) 典型的なテキスト認識手法は、画像から特徴を抽出するエンコーダ・デコーダ構造に依存しており、デコーダはこれらの特徴から認識されたテキストを生成する。 本研究では,Decoder-only Transformer for Optical Character Recognition (DTrOCR) と呼ばれる,よりシンプルで効果的なテキスト認識手法を提案する。 この方法は、デコーダのみのトランスフォーマーを使用して、大きなコーパスで事前訓練された生成言語モデルを活用する。 自然言語処理に成功している生成言語モデルが,コンピュータビジョンにおけるテキスト認識にも有効かどうかを検討した。 我々の実験では、DTrOCRは、英語と中国語の両方で印刷、手書き、シーンテキストの認識において、最先端の手法よりもはるかに優れていることを示した。

Typical text recognition methods rely on an encoder-decoder structure, in which the encoder extracts features from an image, and the decoder produces recognized text from these features. In this study, we propose a simpler and more effective method for text recognition, known as the Decoder-only Transformer for Optical Character Recognition (DTrOCR). This method uses a decoder-only Transformer to take advantage of a generative language model that is pre-trained on a large corpus. We examined whether a generative language model that has been successful in natural language processing can also be effective for text recognition in computer vision. Our experiments demonstrated that DTrOCR outperforms current state-of-the-art methods by a large margin in the recognition of printed, handwritten, and scene text in both English and Chinese.
翻訳日:2023-08-31 13:25:01 公開日:2023-08-30
# 自律走行における運動関連モジュールのDRLに基づく軌道追跡

DRL-Based Trajectory Tracking for Motion-Related Modules in Autonomous Driving ( http://arxiv.org/abs/2308.15991v1 )

ライセンス: Link先を確認
Yinda Xu, Lidong Yu(参考訳) 自律運転システムは、常にプランナーやコントローラのような運動関連モジュール上に構築される。 これらの運動関連モジュールを原始ルーチンとして高精度でロバストな軌道追跡法が不可欠である。 現在の手法は、コンテキストやダイナミクスのようなモデルについて強い仮定をすることが多いが、現実のシステムの変化するシナリオに対処するには不十分である。 本稿では,自律走行システムにおける運動関連モジュールに対する深部強化学習(DRL)に基づく軌道追跡手法を提案する。 DLの表現学習能力とRLの探索特性は強靭性と精度の向上をもたらす。 一方、モデルフリーでデータ駆動の方法で軌道追跡を実行することで、汎用性を高める。 広範な実験により,現在の手法と比較して,提案手法の効率性と有効性の両方を実証した。

Autonomous driving systems are always built on motion-related modules such as the planner and the controller. An accurate and robust trajectory tracking method is indispensable for these motion-related modules as a primitive routine. Current methods often make strong assumptions about the model such as the context and the dynamics, which are not robust enough to deal with the changing scenarios in a real-world system. In this paper, we propose a Deep Reinforcement Learning (DRL)-based trajectory tracking method for the motion-related modules in autonomous driving systems. The representation learning ability of DL and the exploration nature of RL bring strong robustness and improve accuracy. Meanwhile, it enhances versatility by running the trajectory tracking in a model-free and data-driven manner. Through extensive experiments, we demonstrate both the efficiency and effectiveness of our method compared to current methods.
翻訳日:2023-08-31 13:24:48 公開日:2023-08-30
# 差分ボリューム:ボリュームベースステレオマッチングのための拡散モデル

DiffuVolume: Diffusion Model for Volume based Stereo Matching ( http://arxiv.org/abs/2308.15989v1 )

ライセンス: Link先を確認
Dian Zheng, Xiao-Ming Wu, Zuhao Liu, Jingke Meng, Wei-shi Zheng(参考訳) ステレオマッチングは多くのコンピュータビジョンタスクや運転ベースのアプリケーションにおいて重要な部分である。 近年,コストボリュームに基づく手法は,ペア画像のリッチな幾何学的情報から大きな成功を収めている。 しかし、コストボリュームの冗長性はモデルトレーニングを阻害し、パフォーマンスを制限している。 より正確なコストボリュームを構築するために,拡散モデルをステレオマッチングに適用した。 本手法は拡散モデルをコストボリュームフィルタとして考慮し,コストボリュームから冗長な情報を再帰的に除去する。 2つの主要な設計は、我々の方法を簡単にするものではない。 まず,拡散モデルをステレオマッチングに適応させるため,画像に直接ノイズを付加する従来の手法を考案するが,拡散モデルをタスク固有モジュールに組み込む。 このように、従来の拡散ステレオマッチング法を22%のEPE改善と240倍の推論加速度で上回ります。 第二に、DiffuVolumeは任意のボリュームベースのステレオマッチングネットワークに簡単に組み込むことができ、性能は向上するが、パラメータはわずかに上昇する(わずか2%)。 DiffuVolumeを高性能な手法に組み込むことで、Scene Flow、KITTI2012、KITTI2015ベンチマーク、ゼロショットの一般化設定において、すべてのメソッドを上回ります。 提案されたモデルは、2023年7月15日以来、KITTI 2012のリーダーボードで第1位、KITTI 2015のリーダーボードで第2位である。

Stereo matching is a significant part in many computer vision tasks and driving-based applications. Recently cost volume-based methods have achieved great success benefiting from the rich geometry information in paired images. However, the redundancy of cost volume also interferes with the model training and limits the performance. To construct a more precise cost volume, we pioneeringly apply the diffusion model to stereo matching. Our method, termed DiffuVolume, considers the diffusion model as a cost volume filter, which will recurrently remove the redundant information from the cost volume. Two main designs make our method not trivial. Firstly, to make the diffusion model more adaptive to stereo matching, we eschew the traditional manner of directly adding noise into the image but embed the diffusion model into a task-specific module. In this way, we outperform the traditional diffusion stereo matching method by 22% EPE improvement and 240 times inference acceleration. Secondly, DiffuVolume can be easily embedded into any volume-based stereo matching network with boost performance but slight parameters rise (only 2%). By adding the DiffuVolume into well-performed methods, we outperform all the published methods on Scene Flow, KITTI2012, KITTI2015 benchmarks and zero-shot generalization setting. It is worth mentioning that the proposed model ranks 1st on KITTI 2012 leader board, 2nd on KITTI 2015 leader board since 15, July 2023.
翻訳日:2023-08-31 13:24:38 公開日:2023-08-30
# FPTQ:大規模言語モデルの微粒化後量子化

FPTQ: Fine-grained Post-Training Quantization for Large Language Models ( http://arxiv.org/abs/2308.15987v1 )

ライセンス: Link先を確認
Qingyuan Li, Yifan Zhang, Liang Li, Peng Yao, Bo Zhang, Xiangxiang Chu, Yerui Sun, Li Du, Yuchen Xie(参考訳) 大規模言語モデルの時代、かなりのパラメータサイズは、デプロイメントに重大な課題をもたらす。 一般的な圧縮技術である量子化は、主に2つのレシピw8a8とw4a16(すなわち、ビット幅の重み付けとアクティベーション)を中心に、この問題に取り組む主要なプラクティスとして浮上している。 本研究では,2つのレシピの利点を併せ持つ,オープンソースllmのためのw4a8ポストトレーニング量子化手法を提案する。 したがって、4ビット重み量子化のi/o利用と8ビット行列計算による高速化の利点を活用できる。 それでも、W4A8は性能の低下に直面している。 対策として,多くの難易層に対して新しい対数等化を特徴とする層状活性化量子化戦略と,それを微粒化量化と組み合わせる。 ブラオM, LLaMA, LLaMA-2のベンチマークにおいて, さらなる微調整の必要性を排除し, 高精度なW4A8の定量化性能を得る。 我々は、w4a8の量子化が大規模な言語モデルのデプロイに実現可能であり、広い範囲にわたる現実世界のアプリケーションを育成できることを確認した。

In the era of large-scale language models, the substantial parameter size poses significant challenges for deployment. Being a prevalent compression technique, quantization has emerged as the mainstream practice to tackle this issue, which is mainly centered on two recipes W8A8 and W4A16 (i.e. weights and activations in such bit widths). In this study, we propose a novel W4A8 post-training quantization method for the available open-sourced LLMs, which combines the advantages of both two recipes. Therefore, we can leverage the benefit in the I/O utilization of 4-bit weight quantization and the acceleration due to 8-bit matrix computation. Nevertheless, the W4A8 faces notorious performance degradation. As a remedy, we involve layerwise activation quantization strategies which feature a novel logarithmic equalization for most intractable layers, and we combine them with fine-grained weight quantization. Without whistles and bells, we eliminate the necessity for further fine-tuning and obtain the state-of-the-art W4A8 quantized performance on BLOOM, LLaMA, and LLaMA-2 on standard benchmarks. We confirm that the W4A8 quantization is achievable for the deployment of large language models, fostering their wide-spreading real-world applications.
翻訳日:2023-08-31 13:24:14 公開日:2023-08-30
# 視覚に基づく交通事故の検出と予測:調査

Vision-Based Traffic Accident Detection and Anticipation: A Survey ( http://arxiv.org/abs/2308.15985v1 )

ライセンス: Link先を確認
Jianwu Fang, iahuan Qiao, Jianru Xue, and Zhengguo Li(参考訳) 交通事故の検出と予測は道路の安全問題であり、苦痛を伴う努力が費やされている。 ビデオデータの急速な増加に伴い、Vision-based Traffic Accident Detection and Precipation(Vision-TADとVision-TAA)は、安全な運転と監視のための最後の1マイル問題となった。 しかし、長い尾、不均衡、非常にダイナミック、複雑、不確実な交通事故の特性は、Vision-TAD と Vision-TAA のout-of-Distribution (OOD) 機能を形成している。 現在のAI開発は、これらのOODにフォーカスするかもしれないが重要な問題である。 Vision-TADとVision-TAAには何があったのか? この問題に対する今後の方向性について教えてください。 総合的な調査が重要です。 深層学習におけるビジョンTADの第1回調査とビジョンTAA第1回調査を紹介する。 各研究プロトタイプの長所と短所は、調査中に詳細に議論される。 さらに、31の公開ベンチマークと関連する評価指標の批判的なレビューも行います。 この調査を通じて、新しい洞察を生み出し、Vision-TADおよびVision-TAAタスクの可能なトレンドを開きたいと思っています。

Traffic accident detection and anticipation is an obstinate road safety problem and painstaking efforts have been devoted. With the rapid growth of video data, Vision-based Traffic Accident Detection and Anticipation (named Vision-TAD and Vision-TAA) become the last one-mile problem for safe driving and surveillance safety. However, the long-tailed, unbalanced, highly dynamic, complex, and uncertain properties of traffic accidents form the Out-of-Distribution (OOD) feature for Vision-TAD and Vision-TAA. Current AI development may focus on these OOD but important problems. What has been done for Vision-TAD and Vision-TAA? What direction we should focus on in the future for this problem? A comprehensive survey is important. We present the first survey on Vision-TAD in the deep learning era and the first-ever survey for Vision-TAA. The pros and cons of each research prototype are discussed in detail during the investigation. In addition, we also provide a critical review of 31 publicly available benchmarks and related evaluation metrics. Through this survey, we want to spawn new insights and open possible trends for Vision-TAD and Vision-TAA tasks.
翻訳日:2023-08-31 13:23:50 公開日:2023-08-30
# グラフ注意ネットワークによる動きからの学習

Learning Structure-from-Motion with Graph Attention Networks ( http://arxiv.org/abs/2308.15984v1 )

ライセンス: Link先を確認
Lucas Brynte and Jos\'e Pedro Iglesias and Carl Olsson and Fredrik Kahl(参考訳) 本稿では,グラフアテンションネットワークを用いてSfM(Structure-from-Motion)を学習する問題に取り組む。 sfmは古典的なコンピュータビジョンの問題であり、良い初期化から始まったバンドル調整(ba)と呼ばれる再プロジェクションエラーの反復的最小化によって解決される。 BAに対する十分な初期化を得るためには、従来の手法は、BAを用いて洗練できる初期解を提供する一連のサブプロブレム(ペアのポーズ推定、ポーズ平均化、三角形化など)に依存している。 本研究では,複数のビューで検出された2次元キーポイントを入力として学習し,対応するカメラポーズと3次元キーポイント座標を出力する。 本モデルでは、グラフニューラルネットワークを利用してsfm特有のプリミティブを学習し、新たな未知のシーケンスの復元を高速に行うことができることを示す。 実験の結果,提案モデルが競合する学習ベース手法よりも優れており,実行時間の低いcolmapに挑戦することが示された。

In this paper we tackle the problem of learning Structure-from-Motion (SfM) through the use of graph attention networks. SfM is a classic computer vision problem that is solved though iterative minimization of reprojection errors, referred to as Bundle Adjustment (BA), starting from a good initialization. In order to obtain a good enough initialization to BA, conventional methods rely on a sequence of sub-problems (such as pairwise pose estimation, pose averaging or triangulation) which provides an initial solution that can then be refined using BA. In this work we replace these sub-problems by learning a model that takes as input the 2D keypoints detected across multiple views, and outputs the corresponding camera poses and 3D keypoint coordinates. Our model takes advantage of graph neural networks to learn SfM-specific primitives, and we show that it can be used for fast inference of the reconstruction for new and unseen sequences. The experimental results show that the proposed model outperforms competing learning-based methods, and challenges COLMAP while having lower runtime.
翻訳日:2023-08-31 13:23:32 公開日:2023-08-30
# MerA: 訓練済みのアダプタを組み込む

MerA: Merging Pretrained Adapters For Few-Shot Learning ( http://arxiv.org/abs/2308.15982v1 )

ライセンス: Link先を確認
Shwai He, Run-Ze Fan, Liang Ding, Li Shen, Tianyi Zhou, Dacheng Tao(参考訳) 数パラメータだけを更新するアダプタチューニングは、トレーニング済みの言語モデルを下流タスクに微調整するメインストリームメソッドになっている。 しかし、数発の学習では少ない結果が得られることが多い。 AdapterFusionは、特定のタスクに適したコンポジションレイヤを使用して事前トレーニングされたアダプタを組み立てるが、トレーニング可能なパラメータとデプロイメントコストを大幅に増加させる。 これにもかかわらず、予備研究では、単一のアダプタでさえ、数ショットの学習でAdapterfusionを上回り、モデルフュージョンを通じて、事前訓練されたアダプタを単一のモデルに効率的に組み込むための \textbf{\textt{Merging Pretrained Adapters}} (MerA) を提案することを示唆している。 2つのPLMの大規模な実験により、MerAはシングルアダプタとAdapterFusionと比較して大幅に改善されている。 さらに,MerAのキャパシティを向上させるために,プリトレーニングタスクの同じトラックからアダプタをマージする"\textit{same-track}"設定という,シンプルかつ効果的な手法を導入する。"\textit{same-track}"設定の実装により,MRPC 3.5\% や MNLI 5.0\% など,フルチューニングとアダプタチューニングの両方のパフォーマンスをはるかに上回る,さらに印象的なゲインが観測される。

Adapter tuning, which updates only a few parameters, has become a mainstream method for fine-tuning pretrained language models to downstream tasks. However, it often yields subpar results in few-shot learning. AdapterFusion, which assembles pretrained adapters using composition layers tailored to specific tasks, is a possible solution but significantly increases trainable parameters and deployment costs. Despite this, our preliminary study reveals that even single adapters can outperform Adapterfusion in few-shot learning, urging us to propose \textbf{\texttt{Merging Pretrained Adapters}} (MerA) that efficiently incorporates pretrained adapters to a single model through model fusion. Extensive experiments on two PLMs demonstrate that MerA achieves substantial improvements compared to both single adapters and AdapterFusion. To further enhance the capacity of MerA, we also introduce a simple yet effective technique, referred to as the "\textit{same-track}" setting, that merges adapters from the same track of pretraining tasks. With the implementation of the "\textit{same-track}" setting, we observe even more impressive gains, surpassing the performance of both full fine-tuning and adapter tuning by a substantial margin, e.g., 3.5\% in MRPC and 5.0\% in MNLI.
翻訳日:2023-08-31 13:23:12 公開日:2023-08-30
# 分布調整による衛星画像からのきめ細かい社会経済予測

Fine-Grained Socioeconomic Prediction from Satellite Images with Distributional Adjustment ( http://arxiv.org/abs/2308.15979v1 )

ライセンス: Link先を確認
Donghyun Ahn, Minhyuk Song, Seungeon Lee, Yubin Choi, Jihee Kim, Sangyoon Park, Hyunjoo Yang and Meeyoung Cha(参考訳) 社会経済指標の測定は自治体がインフォームド政策決定を行う上で重要であるが、自治体のような細かなレベルでは利用できないことが多い。 本研究は,衛星画像からの深層学習に基づく予測を用いてそのギャップを狭める。 地上の真実に基づいて,より広い領域で観測される分布挙動を捉え,各衛星画像に社会経済的スコアを割り当てる手法を提案する。 順序回帰採点モデルを訓練し,スコアを調整して,地域内および地域間の共通パワー法則に従う。 韓国の公的な統計に基づく評価の結果, この手法は, 自治体, グリッドレベルでの人口・雇用規模予測において, 従来モデルよりも優れていた。 また,不均一な開発が進んでいる地域では,信頼性の高い細粒度のデータが乏しい発展途上国での利用の可能性も示唆している。

While measuring socioeconomic indicators is critical for local governments to make informed policy decisions, such measurements are often unavailable at fine-grained levels like municipality. This study employs deep learning-based predictions from satellite images to close the gap. We propose a method that assigns a socioeconomic score to each satellite image by capturing the distributional behavior observed in larger areas based on the ground truth. We train an ordinal regression scoring model and adjust the scores to follow the common power law within and across regions. Evaluation based on official statistics in South Korea shows that our method outperforms previous models in predicting population and employment size at both the municipality and grid levels. Our method also demonstrates robust performance in districts with uneven development, suggesting its potential use in developing countries where reliable, fine-grained data is scarce.
翻訳日:2023-08-31 13:22:43 公開日:2023-08-30
# 演算子ノルム誤差率を改善したパラメータフリー2ビット共分散推定器

A Parameter-Free Two-Bit Covariance Estimator with Improved Operator Norm Error Rate ( http://arxiv.org/abs/2308.16059v1 )

ライセンス: Link先を確認
Junren Chen, Michael K. Ng(参考訳) Dirksen, Maly and Rauhut [Annals of Statistics, 50(6), pp. 3538-3562] の共分散行列推定器を開発した。 理論的には、共分散行列の対角線がわずかなエントリで支配されるとき、その推定器とサンプル共分散の間には作用素ノルム誤差に不可欠なギャップがあり、実際、その性能はディザリングスケールに大きく依存しており、いくつかの未知のパラメータに従って調整する必要がある。 本研究では,両問題を同時に扱う2ビット共分散行列推定器を提案する。 dirksen et al. のuniform dither と関連する符号量子化器とは異なり、マルチビットの一様量子化器に触発された2ビット量子化器の前に三角形のdither を採用する。 成分ごとに異なるディザリングスケールを用いることで、我々の推定器は、周囲次元よりも基礎となる共分散行列の有効ランクに依存する改良された作用素ノルム誤差率を享受し、理論的ギャップを閉じる。 さらに,提案手法では,ディザリングスケールがデータによって完全に決定されるため,チューニングパラメータを必要としない。 ガウスサンプルによる実験結果から, 推定器の数値性能について考察した。 興味深いことに、ディザリングスケールを半分にすることで、我々の推定器はしばしばサンプル共分散の2倍未満の演算子ノルム誤差を達成する。

A covariance matrix estimator using two bits per entry was recently developed by Dirksen, Maly and Rauhut [Annals of Statistics, 50(6), pp. 3538-3562]. The estimator achieves near minimax rate for general sub-Gaussian distributions, but also suffers from two downsides: theoretically, there is an essential gap on operator norm error between their estimator and sample covariance when the diagonal of the covariance matrix is dominated by only a few entries; practically, its performance heavily relies on the dithering scale, which needs to be tuned according to some unknown parameters. In this work, we propose a new 2-bit covariance matrix estimator that simultaneously addresses both issues. Unlike the sign quantizer associated with uniform dither in Dirksen et al., we adopt a triangular dither prior to a 2-bit quantizer inspired by the multi-bit uniform quantizer. By employing dithering scales varying across entries, our estimator enjoys an improved operator norm error rate that depends on the effective rank of the underlying covariance matrix rather than the ambient dimension, thus closing the theoretical gap. Moreover, our proposed method eliminates the need of any tuning parameter, as the dithering scales are entirely determined by the data. Experimental results under Gaussian samples are provided to showcase the impressive numerical performance of our estimator. Remarkably, by halving the dithering scales, our estimator oftentimes achieves operator norm errors less than twice of the errors of sample covariance.
翻訳日:2023-08-31 13:14:36 公開日:2023-08-30
# テンソル化SVMとLSSVMに基づく低ランクマルチタスク学習

Low-Rank Multitask Learning based on Tensorized SVMs and LSSVMs ( http://arxiv.org/abs/2308.16056v1 )

ライセンス: Link先を確認
Jiani Liu, Qinghua Tao, Ce Zhu, Yipeng Liu, Xiaolin Huang, Johan A.K. Suykens(参考訳) マルチタスク学習(MTL)はタスク関連性を活用して性能を向上させる。 マルチモーダルデータの出現により、タスクは複数のインデックスで参照できるようになった。 本稿では,タスクインデックスに対応する各モードを持つ高次テンソルを用いて,複数の指標が参照するタスクを自然に表現し,それらの構造的関係を維持する。 この表現に基づいて、テンソル化サポートベクトルマシン(SVM)と最小2乗サポートベクトルマシン(LSSVM)を備えた低ランクMTL手法の一般的なフレームワークを提案し、CP因子化を係数テンソル上に展開する。 本手法は,タスク固有の要因に重みづけられた共有因子の線形結合によってタスク関係をモデル化し,分類問題と回帰問題の両方に一般化する。 交互最適化スキームとラグランジュ関数により、各部分プロブレムは双対形式の二次計画や線形系として定式化された凸問題へと変換される。 従来のMLLフレームワークとは対照的に,タスク固有の要素の類似性を特徴とするタスク結合項を持つ重み付きカーネル関数を誘導し,MTL内のタスク間の明示的な関係を明らかにする。 実験により,mtlにおける既存手法と比較して提案手法の有効性と優越性が検証された。 実装のコードはhttps://github.com/liujiani0216/TSVM-MTLで公開される。

Multitask learning (MTL) leverages task-relatedness to enhance performance. With the emergence of multimodal data, tasks can now be referenced by multiple indices. In this paper, we employ high-order tensors, with each mode corresponding to a task index, to naturally represent tasks referenced by multiple indices and preserve their structural relations. Based on this representation, we propose a general framework of low-rank MTL methods with tensorized support vector machines (SVMs) and least square support vector machines (LSSVMs), where the CP factorization is deployed over the coefficient tensor. Our approach allows to model the task relation through a linear combination of shared factors weighted by task-specific factors and is generalized to both classification and regression problems. Through the alternating optimization scheme and the Lagrangian function, each subproblem is transformed into a convex problem, formulated as a quadratic programming or linear system in the dual form. In contrast to previous MTL frameworks, our decision function in the dual induces a weighted kernel function with a task-coupling term characterized by the similarities of the task-specific factors, better revealing the explicit relations across tasks in MTL. Experimental results validate the effectiveness and superiority of our proposed methods compared to existing state-of-the-art approaches in MTL. The code of implementation will be available at https://github.com/liujiani0216/TSVM-MTL.
翻訳日:2023-08-31 13:14:08 公開日:2023-08-30
# asyncet: 補助関係を持つ知識グラフエンティティ型付けのための非同期学習

AsyncET: Asynchronous Learning for Knowledge Graph Entity Typing with Auxiliary Relations ( http://arxiv.org/abs/2308.16055v1 )

ライセンス: Link先を確認
Yun-Cheng Wang, Xiou Ge, Bin Wang, C.-C. Jay Kuo(参考訳) 知識グラフエンティティタイピング(KGET)は、知識グラフ(KG)に欠けているエンティティタイプを予測するタスクである。 これまで、KG埋め込み(KGE)メソッドは、エンティティとそれらのタイプの関係をモデル化するために、補助的な関係である'hasType'を導入して、KGETタスクの解決を試みた。 しかし、単一の補助関係は、多様なエンティティタイプのパターンに対する表現性に制限がある。 本研究では,複数の補助的関係を導入することで,KGE手法の表現性を向上する。 類似したエンティティタイプは、補助関係の数を減らし、異なる粒度のエンティティタイプのパターンをモデル化する能力を向上させるためにグループ化される。 複数の補助的関係が存在するため、我々は、エンティティと型埋め込みを更新するAsyncETという、エンティティ型予測のための非同期学習方式を採用する方法を提案する。 KGETタスクにおけるKGE手法の性能は、提案した複数の補助的関係と非同期埋め込み学習によって大幅に改善できることを示すために、2つの一般的なKGETデータセットを用いて実験を行った。 さらに,本手法は,モデルサイズと時間複雑性において,最先端の手法よりも大きなアドバンテージを有する。

Knowledge graph entity typing (KGET) is a task to predict the missing entity types in knowledge graphs (KG). Previously, KG embedding (KGE) methods tried to solve the KGET task by introducing an auxiliary relation, 'hasType', to model the relationship between entities and their types. However, a single auxiliary relation has limited expressiveness for diverse entity-type patterns. We improve the expressiveness of KGE methods by introducing multiple auxiliary relations in this work. Similar entity types are grouped to reduce the number of auxiliary relations and improve their capability to model entity-type patterns with different granularities. With the presence of multiple auxiliary relations, we propose a method adopting an Asynchronous learning scheme for Entity Typing, named AsyncET, which updates the entity and type embeddings alternatively to keep the learned entity embedding up-to-date and informative for entity type prediction. Experiments are conducted on two commonly used KGET datasets to show that the performance of KGE methods on the KGET task can be substantially improved by the proposed multiple auxiliary relations and asynchronous embedding learning. Furthermore, our method has a significant advantage over state-of-the-art methods in model sizes and time complexity.
翻訳日:2023-08-31 13:13:44 公開日:2023-08-30
# PixelsからPortraits:トーキングヘッド生成技術と応用に関する総合的な調査

From Pixels to Portraits: A Comprehensive Survey of Talking Head Generation Techniques and Applications ( http://arxiv.org/abs/2308.16041v1 )

ライセンス: Link先を確認
Shreyank N Gowda, Dheeraj Pandey, Shashank Narayana Gowda(参考訳) ディープラーニングとコンピュータビジョンの最近の進歩は、現実的な話のヘッドを生み出すことへの関心の高まりをもたらした。 本稿では,音声ヘッド生成のための最先端手法に関する包括的調査を行う。 画像駆動、オーディオ駆動、ビデオ駆動、その他(nerf(neural radiance fields)や3dベースのメソッドを含む)4つの主要なアプローチに体系的に分類しています。 各メソッドの詳細な分析を行い,そのユニークな貢献,長所,限界を強調する。 さらに,公開モデルを徹底的に比較し,推定時間や生成した出力の質評価といった重要な側面で評価した。 本研究の目的は,話し手生成における現状を明確かつ簡潔に概観し,異なるアプローチ間の関係を解明し,今後の研究に期待できる方向を特定することである。 この調査は、この急速に発展する分野に関心を持つ研究者や実践者にとって貴重な参考となるだろう。

Recent advancements in deep learning and computer vision have led to a surge of interest in generating realistic talking heads. This paper presents a comprehensive survey of state-of-the-art methods for talking head generation. We systematically categorises them into four main approaches: image-driven, audio-driven, video-driven and others (including neural radiance fields (NeRF), and 3D-based methods). We provide an in-depth analysis of each method, highlighting their unique contributions, strengths, and limitations. Furthermore, we thoroughly compare publicly available models, evaluating them on key aspects such as inference time and human-rated quality of the generated outputs. Our aim is to provide a clear and concise overview of the current landscape in talking head generation, elucidating the relationships between different approaches and identifying promising directions for future research. This survey will serve as a valuable reference for researchers and practitioners interested in this rapidly evolving field.
翻訳日:2023-08-31 13:13:26 公開日:2023-08-30
# 誘導結合フラクソニウム量子ビットにおける制御Zゲートのネイティブアプローチ

Native approach to controlled-Z gates in inductively coupled fluxonium qubits ( http://arxiv.org/abs/2308.16040v1 )

ライセンス: Link先を確認
Xizheng Ma, Gengyan Zhang, Feng Wu, Feng Bao, Xu Chang, Jianjun Chen, Hao Deng, Ran Gao, Xun Gao, Lijuan Hu, Honghong Ji, Hsiang-Sheng Ku, Kannan Lu, Lu Ma, Liyong Mao, Zhijun Song, Hantao Sun, Chengchun Tang, Fei Wang, Hongcheng Wang, Tenghui Wang, Tian Xia, Make Ying, Huijuan Zhan, Tao Zhou, Mengyu Zhu, Qingbin Zhu, Yaoyun Shi, Hui-Hai Zhao, Chunqing Deng(参考訳) fluxonium qubitsは、ゲートベースの量子情報処理の有望なプラットフォームとして登場した。 しかし、電荷ゆらぎに対する異常な保護はコストがかかる: 容量的に結合すると、量子ビット-量子相互作用はXX-相互作用に制限される。 したがって、効果的なxxまたはxz相互作用は、一時的に高エネルギー状態が占有されるか、マイクロ波駆動下で摂動効果を利用するかによってのみ構築される。 そこで我々は,フラックスニウムのネイティブ量子ビット相互作用の幅広い選択を提供する帰納的結合スキームを提案し,実証する。 特に、束制御されたZZ-相互作用を組み込んで量子ビットの絡み合いを行う。 フラックス非感受性位置からのフラックスノイズ誘起脱落の増大に対処するために,動的デカップリング方式の連続バージョンを用いてノイズフィルタリングを行う。 これらを組み合わせて、平均忠実度99.53%の20 ns制御Z(CZ)ゲートを実証する。 我々のゲートスキームの有効性を確かめるだけでなく、この高忠実性の結果は、フラックスニウム量子ビット間のゲート操作に一意に適する有望だが稀なパラメータ空間も明らかにしている。

The fluxonium qubits have emerged as a promising platform for gate-based quantum information processing. However, their extraordinary protection against charge fluctuations comes at a cost: when coupled capacitively, the qubit-qubit interactions are restricted to XX-interactions. Consequently, effective XX- or XZ-interactions are only constructed either by temporarily populating higher-energy states, or by exploiting perturbative effects under microwave driving. Instead, we propose and demonstrate an inductive coupling scheme, which offers a wide selection of native qubit-qubit interactions for fluxonium. In particular, we leverage a built-in, flux-controlled ZZ-interaction to perform qubit entanglement. To combat the increased flux-noise-induced dephasing away from the flux-insensitive position, we use a continuous version of the dynamical decoupling scheme to perform noise filtering. Combining these, we demonstrate a 20 ns controlled-Z (CZ) gate with a mean fidelity of 99.53%. More than confirming the efficacy of our gate scheme, this high-fidelity result also reveals a promising but rarely explored parameter space uniquely suitable for gate operations between fluxonium qubits.
翻訳日:2023-08-31 13:13:09 公開日:2023-08-30
# グローバルドライブ付きトラップイオン量子コンピュータ上のプログラム可能な量子シミュレーション

Programmable quantum simulations on a trapped-ions quantum computer with a global drive ( http://arxiv.org/abs/2308.16036v1 )

ライセンス: Link先を確認
Yotam Shapira, Jovan Markov, Nitzan Akerman, Ady Stern and Roee Ozeri(参考訳) 量子システムのシミュレーションは古典的なコンピュータでは難しいことで有名だが、量子コンピュータはこのタスクに自然に適している。 しかし、現代の量子コンピュータの不完全性は、長い進化期間にわたって正確なシミュレーションを行う上で大きな課題となる。 ここでは,小型のイオン系量子コンピュータ上での量子シミュレーション手法を実験的に実証する。 本手法は,単純な大域場のみを用いてプログラム可能なスピンハミルトニアンの量子シミュレーションを可能にし,全ての量子ビットを均一かつ同時に駆動する。 量子イジング環の進化を測り、ハミルトンパラメータを正確に再構成し、高精度で高忠実なシミュレーションを示す。 提案手法は,量子シミュレーションに必要な制御と深度を大幅に低減し,より高精度な進化時間を生成する。

Simulation of quantum systems is notoriously challenging for classical computers, while quantum computers are naturally well-suited for this task. However, the imperfections of contemporary quantum computers pose a considerable challenge in carrying out accurate simulations over long evolution times. Here we experimentally demonstrate a method for quantum simulations on a small-scale trapped ions-based quantum computer. Our method enables quantum simulations of programmable spin-Hamiltonians, using only simple global fields, driving all qubits homogeneously and simultaneously. We measure the evolution of a quantum Ising ring and accurately reconstruct the Hamiltonian parameters, showcasing an accurate and high-fidelity simulation. Our method enables a significant reduction in the required control and depth of quantum simulations, thus generating longer evolution times with higher accuracy.
翻訳日:2023-08-31 13:12:49 公開日:2023-08-30
# 量子状態の非破壊的局所識別

Non-destructive Local Discrimination of Entangled Quantum States ( http://arxiv.org/abs/2308.16032v1 )

ライセンス: Link先を確認
Youngrong Lim, Minki Hhan, Hyukjoon Kwon(参考訳) 非破壊条件下での量子状態判別タスクにおいて,局所的戦略と非局所的戦略の実質的なギャップを示す。 この条件は、障害なく初期状態を返すべきだという従来の州差別にさらなる制約を課している。 最大絡み合った状態の集合では、局所演算と古典的通信を用いたタスクが成功する確率は完全に抑制され、ランダムな推測には勝てない。 また,この課題に対して,事前共有の絡み合いを効果的に活用する局所戦略が従来の手法と本質的に異なることを示す。 テレポーテーションに基づく最もよく知られている方法よりも厳格に低い絡み合いコストを有する最大絡み合い状態の完全な識別を実現するために,非破壊的適応戦略を構築した。 我々のアプローチは、量子ネットワークの絡み合い認証のアプリケーションを提供するマルチパーティシナリオに一般化することができる。

We demonstrate a substantial gap between local and nonlocal strategies in a quantum state discrimination task under a non-destructiveness condition. The condition imposes additional constraints to conventional state discrimination that the initial state should be returned without disturbance. For a set of maximally entangled states, the success probability of the proposed task using local operations and classical communications is completely suppressed; it cannot beat random guessing. We also show that a local strategy that efficiently exploits pre-shared entanglement for this task can be essentially different from the conventional approaches. We construct a non-destructive and adaptive strategy to achieve perfect discrimination of maximally entangled states which has a strictly lower entanglement cost than the best-known method based on teleportation. Our approach can be generalized to multipartite scenarios, offering an application in entanglement certification of a quantum network.
翻訳日:2023-08-31 13:12:37 公開日:2023-08-30
# what3wordsジオコーディングアルゴリズムの批判的解析

A Critical Analysis of the What3Words Geocoding Algorithm ( http://arxiv.org/abs/2308.16025v1 )

ライセンス: Link先を確認
Rudy Arthur(参考訳) What3Wordsは、アルファ数値座標の代わりに単語のトリプルを使って位置を識別するジオコーディングアプリケーションである。 What3Wordsはここ数年で急速に普及し、救急サービスを含む世界中の物流アプリケーションで利用されている。 what3wordsは、主張よりも信頼性が低い、特にあるアドレスを他のアドレスと混同する確率が高い、という批判も引き起こしている。 本稿では,これらの主張を考察し,グリッドボックスにアドレスを割り当てるWhat3Wordsアルゴリズムが多数の不整合アドレスを生成することを示す。 危機的・緊急的状況におけるWhat3Wordsの使用に関する影響について論じる。

What3Words is a geocoding application that uses triples of words instead of alphanumeric coordinates to identify locations. What3Words has grown rapidly in popularity over the past few years and is used in logistical applications worldwide, including by emergency services. What3Words has also attracted criticism for being less reliable than claimed, in particular that the chance of confusing one address with another is high. This paper investigates these claims and shows that the What3Words algorithm for assigning addresses to grid boxes creates many pairs of confusable addresses, some of which are quite close together. The implications of this for the use of What3Words in critical or emergency situations is discussed.
翻訳日:2023-08-31 13:12:22 公開日:2023-08-30
# PAVI:プレート補正変分推論

PAVI: Plate-Amortized Variational Inference ( http://arxiv.org/abs/2308.16022v1 )

ライセンス: Link先を確認
Louis Rouillard, Alexandre Le Bris, Thomas Moreau, Demian Wassermann(参考訳) 観測データと確率的生成モデルが与えられたとき、ベイズ推論は、データをもたらす可能性のあるモデルのパラメータの分布を探索する。 数百の被験者のコホート上で何百万もの計測が行われ、その結果、膨大なパラメータ空間が生成される、大規模な人口調査では推論が困難である。 この大きな濃度は、オフザシェルフ変分推論(VI)を計算的に非現実的である。 本研究では,大集団研究に効率よく取り組む構造VIファミリーを設計する。 我々の主な考えは、生成モデルにおける異なる変数のパラメータ化と学習を、モデルの \textit{plates} で表されるように共有することである。 この概念を \textit{plate amortization} と呼ぶ。 推論を遅くするオフザシェルフ確率VIとは対照的に、プレートのアモーティゼーションは変動分布の訓練において桁違いに速くなる。 大規模階層問題に適用すると、PAVI は表現力のあるパラメータ化 VI を手頃なトレーニング時間で生成する。 この高速収束は、これらの大きな体制における推論を効果的に解き放つ。 4億の潜伏パラメータを特徴とする難解なニューロイメージングの例を通して,PAVIの実用性を説明し,スケーラブルで表現力のある変分推論に向けた重要なステップを示す。

Given observed data and a probabilistic generative model, Bayesian inference searches for the distribution of the model's parameters that could have yielded the data. Inference is challenging for large population studies where millions of measurements are performed over a cohort of hundreds of subjects, resulting in a massive parameter space. This large cardinality renders off-the-shelf Variational Inference (VI) computationally impractical. In this work, we design structured VI families that efficiently tackle large population studies. Our main idea is to share the parameterization and learning across the different i.i.d. variables in a generative model, symbolized by the model's \textit{plates}. We name this concept \textit{plate amortization}. Contrary to off-the-shelf stochastic VI, which slows down inference, plate amortization results in orders of magnitude faster to train variational distributions. Applied to large-scale hierarchical problems, PAVI yields expressive, parsimoniously parameterized VI with an affordable training time. This faster convergence effectively unlocks inference in those large regimes. We illustrate the practical utility of PAVI through a challenging Neuroimaging example featuring 400 million latent parameters, demonstrating a significant step towards scalable and expressive Variational Inference.
翻訳日:2023-08-31 13:12:10 公開日:2023-08-30
# 骨格に基づく行動認識のための位相認識型MLP

Topology-aware MLP for Skeleton-based Action Recognition ( http://arxiv.org/abs/2308.16018v1 )

ライセンス: Link先を確認
Shaojie Zhang, Jianqin Yin, Yonghao Dang and Jiajun Fu(参考訳) グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において顕著な性能を発揮する。 しかし、既存のgcnベースの手法は精巧な人体前処理に過剰に依存しており、ネットワークの一般化性を制限する複雑な特徴集約機構を構築している。 これらの問題を解決するために, 余分な事前条件を伴わずに MLP ベースの変種である空間位相ゲーティングユニット (STGU) を提案し, 空間依存性を全関節にエンコードする共起位相特徴を捉える。 STGUでは、サンプル固有かつ完全に独立した点対応トポロジ注意をモデル化するために、入力から生成された注目マップによって特徴点間を活性化する新しいゲートベースの特徴相互作用機構を導入する。 本稿では,STGUに基づいて,骨格に基づく行動認識のための最初のトポロジ対応MLPモデルTa-MLPを提案する。 3つの大規模データセットの既存の手法と比較して、Ta-MLPは競争力のある性能を達成する。 さらに、Ta-MLPはパラメータを62.5%まで削減し、良好な結果を得る。 従来のSOAT(State-of-the-art)アプローチと比較して、Ta-MLPはリアルタイムアクション認識のフロンティアを推進している。 コードはhttps://github.com/BUPTSJZhang/Ta-MLPで入手できる。

Graph convolution networks (GCNs) have achieved remarkable performance in skeleton-based action recognition. However, existing previous GCN-based methods have relied excessively on elaborate human body priors and constructed complex feature aggregation mechanisms, which limits the generalizability of networks. To solve these problems, we propose a novel Spatial Topology Gating Unit (STGU), which is an MLP-based variant without extra priors, to capture the co-occurrence topology features that encode the spatial dependency across all joints. In STGU, to model the sample-specific and completely independent point-wise topology attention, a new gate-based feature interaction mechanism is introduced to activate the features point-to-point by the attention map generated from the input. Based on the STGU, in this work, we propose the first topology-aware MLP-based model, Ta-MLP, for skeleton-based action recognition. In comparison with existing previous methods on three large-scale datasets, Ta-MLP achieves competitive performance. In addition, Ta-MLP reduces the parameters by up to 62.5% with favorable results. Compared with previous state-of-the-art (SOAT) approaches, Ta-MLP pushes the frontier of real-time action recognition. The code will be available at https://github.com/BUPTSJZhang/Ta-MLP.
翻訳日:2023-08-31 13:11:50 公開日:2023-08-30
# 量子システムを充電するのに要する最小時間

The minimal time it takes to charge a quantum system ( http://arxiv.org/abs/2308.16086v1 )

ライセンス: Link先を確認
Ju-Yeon Gyhm, Dario Rosa, and Dominik \v{S}afr\'anek(参考訳) 充電に費やされるリソースの制限を前提として、量子充電距離を、一つの状態(電荷状態)から別の状態(電荷状態)に到達するのに要する最小時間として導入する。 純状態ではバーズ角に等しく、混合状態ではその計算が最適化問題につながることを示す。 したがって、この量に対する計算可能な境界も容易に導出できる。 充電距離は、既知の量子電池の平均充電パワーの束縛を厳しくし、量子充電の優位性を定量化し、常に達成可能な量子速度限界につながる。 他の類似した量とは対照的に、電荷距離は密度行列の固有値に依存しず、対応する固有空間のみに依存する。 本研究は、量子充電を幾何学的に形式化し、解釈し、将来の量子電池の充電速度を最大化するために最適化できる測定可能な量を提供する。

We introduce a quantum charging distance as the minimal time that it takes to reach one state (charged state) from another state (depleted state) via a unitary evolution, assuming limits on the resources invested into the charging. We show that for pure states it is equal to the Bures angle, while for mixed states, its computation leads to an optimization problem. Thus, we also derive easily computable bounds on this quantity. The charging distance tightens the known bound on the mean charging power of a quantum battery, it quantifies the quantum charging advantage, and it leads to an always achievable quantum speed limit. In contrast with other similar quantities, the charging distance does not depend on the eigenvalues of the density matrix, it depends only on the corresponding eigenspaces. This research formalizes and interprets quantum charging in a geometric way, and provides a measurable quantity that one can optimize for to maximize the speed of charging of future quantum batteries.
翻訳日:2023-08-31 13:06:12 公開日:2023-08-30
# 学習画像推論は、パンクロマティックおよびマルチスペクトル画像融合のためのディープ展開ネットワークに先行する

Learned Image Reasoning Prior Penetrates Deep Unfolding Network for Panchromatic and Multi-Spectral Image Fusion ( http://arxiv.org/abs/2308.16083v1 )

ライセンス: Link先を確認
Man Zhou, Jie Huang, Naishan Zheng, Chongyi Li(参考訳) パンシャーピングのためのディープニューラルネットワークの成功は、一般にブラックボックスの形で行われ、透明性と解釈性に欠ける。 この問題を軽減するために,パンシャーピング作業に適した画像推論を行う新しいモデル駆動型深層展開フレームワークを提案する。 近位演算子ネットワークを不確実であいまいな優先事項として提供する既存の展開ソリューションとは異なり、このフレームワークは洞察に富んだ設計のマスキングオートエンコーダ(mae)のコンテンツ推論能力に動機づけられている。 具体的には、空間マスキング戦略を持つ事前訓練されたMAEを、本質的な推論として、展開アーキテクチャに組み込む。 一方、空間スペクトルマスキング戦略を有する事前学習されたmaeを損失関数内の正規化項として扱い、空間スペクトル一貫性を制約する。 このような設計は、その解釈性と表現能力を改善しつつ、画像推論を深く展開するネットワークに浸透させる。 私たちのフレームワークのユニークな点は、全体論的学習プロセスが、パンシャーピングタスクの根底にある固有の物理的メカニズムと明確に統合されていることです。 複数の衛星データセットに関する広範な実験は、既存の最先端のアプローチよりも優れた方法を示している。 コードは \url{https://manman1995.github.io/}でリリースされる。

The success of deep neural networks for pan-sharpening is commonly in a form of black box, lacking transparency and interpretability. To alleviate this issue, we propose a novel model-driven deep unfolding framework with image reasoning prior tailored for the pan-sharpening task. Different from existing unfolding solutions that deliver the proximal operator networks as the uncertain and vague priors, our framework is motivated by the content reasoning ability of masked autoencoders (MAE) with insightful designs. Specifically, the pre-trained MAE with spatial masking strategy, acting as intrinsic reasoning prior, is embedded into unfolding architecture. Meanwhile, the pre-trained MAE with spatial-spectral masking strategy is treated as the regularization term within loss function to constrain the spatial-spectral consistency. Such designs penetrate the image reasoning prior into deep unfolding networks while improving its interpretability and representation capability. The uniqueness of our framework is that the holistic learning process is explicitly integrated with the inherent physical mechanism underlying the pan-sharpening task. Extensive experiments on multiple satellite datasets demonstrate the superiority of our method over the existing state-of-the-art approaches. Code will be released at \url{https://manman1995.github.io/}.
翻訳日:2023-08-31 13:05:54 公開日:2023-08-30
# SignDiff: アメリカの手話生産のための拡散モデル学習

SignDiff: Learning Diffusion Models for American Sign Language Production ( http://arxiv.org/abs/2308.16082v1 )

ライセンス: Link先を確認
Sen Fang, Chunyu Sui, Xuedong Zhang, Yapeng Tian(参考訳) サイン言語生産(SLP)の分野には、過去10年間に連続したアメリカ手話生産のためのディープラーニングに基づく大規模で事前訓練されたモデルがなかった。 この制限は、ASLに依存している障害者全員のコミュニケーションを妨げます。 この問題に対処するため、我々は、最も広く公開されているASLデータセットの1つであるHow2Signの二次的な開発と利用を行った。 その重要性にもかかわらず、アメリカ手話生産(ASLP)に関わる複雑さのため、手話分野の先行研究者はこのコーパスを効果的に利用していない。 本研究では,人間の手話話者をスケルトンポーズから生成できる2条件拡散事前学習モデルである関連分野の最新研究に基づいて,大規模aslpを行うための手話差分を提案する。 signdiffにはfr-netと呼ばれる新しいフレーム強化ネットワークがあり、これは、テキスト語彙記号と手話の密接なポーズフレームとの対応を強化し、拡散モデルにおける複数の指の発生を減少させる。 さらに,ASLP法では,手話の骨格姿勢の精度と品質を改善し,大規模データの学習能力を高めるために,2つの改良されたモジュールと新たなロス関数を提案する。 本稿では, BLEU-4 上での17.19 と 12.85 のスコアを How2Sign 開発/テストセット上で報告する。 また,PHOENIX14Tという従来主流のデータセットを用いて本モデルの評価を行い,本実験でSOTAの結果を得た。 さらに、我々の画質は、ssimインジケータ上で、これまでのすべての結果を大きく10ポイント上回っています。 最後に, アブレーション研究を行い, 質的評価を行った。

The field of Sign Language Production (SLP) lacked a large-scale, pre-trained model based on deep learning for continuous American Sign Language (ASL) production in the past decade. This limitation hampers communication for all individuals with disabilities relying on ASL. To address this issue, we undertook the secondary development and utilization of How2Sign, one of the largest publicly available ASL datasets. Despite its significance, prior researchers in the field of sign language have not effectively employed this corpus due to the intricacies involved in American Sign Language Production (ASLP). To conduct large-scale ASLP, we propose SignDiff based on the latest work in related fields, which is a dual-condition diffusion pre-training model that can generate human sign language speakers from a skeleton pose. SignDiff has a novel Frame Reinforcement Network called FR-Net, similar to dense human pose estimation work, which enhances the correspondence between text lexical symbols and sign language dense pose frames reduce the occurrence of multiple fingers in the diffusion model. In addition, our ASLP method proposes two new improved modules and a new loss function to improve the accuracy and quality of sign language skeletal posture and enhance the ability of the model to train on large-scale data. We propose the first baseline for ASL production and report the scores of 17.19 and 12.85 on BLEU-4 on the How2Sign dev/test sets. We also evaluated our model on the previous mainstream dataset called PHOENIX14T, and the main experiments achieved the results of SOTA. In addition, our image quality far exceeds all previous results by 10 percentage points on the SSIM indicator. Finally, we conducted ablation studies and qualitative evaluations for discussion.
翻訳日:2023-08-31 13:05:31 公開日:2023-08-30
# 量子コヒーレンスは自律熱機械におけるハイブリッドマルチタスクとマルチソースレジームを可能にする

Quantum coherence enables hybrid multitask and multisource regimes in autonomous thermal machines ( http://arxiv.org/abs/2308.16080v1 )

ライセンス: Link先を確認
Kenza Hammam, Gonzalo Manzano, and Gabriele De Chiara(参考訳) 非平衡効果は、冷蔵やヒートポンプなどの熱力学的タスクを行う熱機器の性能に大きな影響を与える可能性がある。 量子コヒーレンスによって熱力学的操作の性能を向上させることは特に興味深いが、熱と量子レベルでの働きを適切に特徴づける必要がある。 本研究では,三段式機械を駆動する熱貯水池に少量のコヒーレンスが存在することにより,異なる資源を組み合わせて1つの熱力学的タスクを行う,あるいは複数のタスクを同時に実行する,複合およびハイブリッドな動作モードの出現を可能にすることを実証する。 そこで我々は,コヒーレンスを有効かつ効果的に利用し,コヒーレンスに有益あるいは有害な役割を論じる,このようなコヒーレンス対応の動作モードの性能を決定する。

Non-equilibrium effects may have a profound impact on the performance of thermal devices performing thermodynamic tasks such as refrigeration or heat pumping. The possibility of enhancing the performance of thermodynamic operations by means of quantum coherence is of particular interest but requires an adequate characterization of heat and work at the quantum level. In this work, we demonstrate that the presence of even small amounts of coherence in the thermal reservoirs powering a three-terminal machine, enables the appearance of combined and hybrid modes of operation, where either different resources are combined to perform a single thermodynamic task, or more than one task is performed at the same time. We determine the performance of such coherence-enabled modes of operation obtaining their power and efficiency and discussing the beneficial or detrimental roles of coherence.
翻訳日:2023-08-31 13:05:07 公開日:2023-08-30
# 2つの非エルミート量子の絡み合いダイナミクス

Entanglement Dynamics of two Non-Hermitian Qubits ( http://arxiv.org/abs/2308.16079v1 )

ライセンス: Link先を確認
Yi-Xi Zhang, Zhen-Tao Zhang, Xiao-Zhi Wei, Bao-Long Liang, Feng Mei, and Zhen-Shan Yang(参考訳) 非エルミート量子系における絡み合いの進化は、エルミート量子系と異なる振る舞いをする可能性がある。 本稿では,2つの結合された非エルミート量子ビットの絡み合いダイナミクスについて検討する。 システムのコンカレンスを計算することで、二部交絡の進化がパラメータ空間に2つの異なるパターンを示すことが分かる。 低い非ハーモニティ系では、コンカレンスは大きく振動するが、反対の系では、同じ量が安定な値に変化する。 この現象はパリティ時間($ \mathcal{PT}$)対称性の相転移に起因する。 さらに,デコヒーレンスが絡み合いのダイナミクスに及ぼす影響についても検討した。 本研究は,非遺伝性を利用して絡み合いを安定化する手法を提供する。

The evolution of entanglement in a non-Hermitian quantum system may behave differently compared to its Hermitian counterpart. In this paper, we investigate the entanglement dynamics of two coupled and driven non-Hermitian qubits. Through calculating the concurrence of the system, we find that the evolution of the bipartite entanglement manifests two distinct patterns in the parameter space. In the low non-Hermiticity regime, the concurrence oscillates significantly, while in the opposite regime the same quantity would trend to a stable value. We attribute this phenomenon to parity-time ($ \mathcal{PT}$) symmetry phase transition. In addition, we have also studied the effect of decoherence on the entanglement dynamics. Our research provides a method to stabilize entanglement by exploiting non-Hermiticity.
翻訳日:2023-08-31 13:04:50 公開日:2023-08-30
# 雑音型マルチモーダルNMTにおける視覚的文脈の影響:インド語に対する英語の実証的研究

Impact of Visual Context on Noisy Multimodal NMT: An Empirical Study for English to Indian Languages ( http://arxiv.org/abs/2308.16075v1 )

ライセンス: Link先を確認
Baban Gain, Dibyanayan Bandyopadhyay, Samrat Mukherjee, Chandranath Adak, Asif Ekbal(参考訳) ニューラルマシン翻訳(nmt)におけるマルチモーダル情報の有効性について検討した。 本研究は,低リソースシナリオにおけるマルチモーダルデータの利用に着目し,大規模かつ事前学習されたNMTシステムに付加された画像特徴が翻訳に与える影響について検討する。 驚くべきことに、この状況では画像は冗長かもしれない。 さらに、画像がテキストノイズを扱うのに役立つかどうかを評価するために合成ノイズを導入する。 マルチモーダルモデルは、ランダムな画像であっても、ノイズの多い設定でテキストのみモデルをわずかに上回る。 この研究の実験は英語からヒンディー語、ベンガル語、マラヤラム語に翻訳され、最先端のベンチマークを大きく上回っている。 視覚コンテクストの効果は、ソースのテキストノイズによって異なる: 視覚コンテクストは、ノイズのない翻訳に最適ではなく、切り抜かれた画像機能は低ノイズに最適であり、高ノイズシナリオではフルイメージ機能はよりうまく機能する。 これは、特にノイズの多い環境での視覚的なコンテキストの役割に光を当て、マルチモーダルなセットアップでノイズの多いニューラルマシン翻訳の新しい研究方向を開く。 本研究は,様々な環境における翻訳改善のための視覚情報とテキスト情報を組み合わせることの重要性を強調する。

The study investigates the effectiveness of utilizing multimodal information in Neural Machine Translation (NMT). While prior research focused on using multimodal data in low-resource scenarios, this study examines how image features impact translation when added to a large-scale, pre-trained unimodal NMT system. Surprisingly, the study finds that images might be redundant in this context. Additionally, the research introduces synthetic noise to assess whether images help the model deal with textual noise. Multimodal models slightly outperform text-only models in noisy settings, even with random images. The study's experiments translate from English to Hindi, Bengali, and Malayalam, outperforming state-of-the-art benchmarks significantly. Interestingly, the effect of visual context varies with source text noise: no visual context works best for non-noisy translations, cropped image features are optimal for low noise, and full image features work better in high-noise scenarios. This sheds light on the role of visual context, especially in noisy settings, opening up a new research direction for Noisy Neural Machine Translation in multimodal setups. The research emphasizes the importance of combining visual and textual information for improved translation in various environments.
翻訳日:2023-08-31 13:04:40 公開日:2023-08-30
# class-adaptive cross-attention による意味画像合成

Semantic Image Synthesis via Class-Adaptive Cross-Attention ( http://arxiv.org/abs/2308.16071v1 )

ライセンス: Link先を確認
Tomaso Fontanini, Claudio Ferrari, Giuseppe Lisanti, Massimo Bertozzi, Andrea Prati(参考訳) セマンティック画像合成において、アートの状態は空間適応正規化層を用いる方法によって支配され、それによって優れた視覚生成品質と多彩な編集が可能となる。 有効性を認めながら、最近の研究はよりきめ細かい局所的なスタイル制御とマルチモーダル生成に焦点を当てている。 しかし、このような層は、局所的なスタイル編集を阻害し、色や照明分布のシフトのようなグローバル不整合を引き起こすような、全体像の統計を過度に見落としがちである。 また、ジェネレータのスタイルをマッピングするにはセマンティックレイアウトが必要であり、機能に対して厳格なアライメント制約を課す。 そこで我々は,画像生成の条件付けのための非正規化にクロスアテンション層を用いる新しいアーキテクチャを設計した。 我々のモデルは両ソリューションの利点を継承し、最先端の再構築品質を維持し、グローバルおよびローカルなスタイル転送を改善した。 コードとモデルはhttps://github.com/TFonta/CA2SISで公開されている。

In semantic image synthesis, the state of the art is dominated by methods that use spatially-adaptive normalization layers, which allow for excellent visual generation quality and editing versatility. Granted their efficacy, recent research efforts have focused toward finer-grained local style control and multi-modal generation. By construction though, such layers tend to overlook global image statistics leading to unconvincing local style editing and causing global inconsistencies such as color or illumination distribution shifts. Also, the semantic layout is required for mapping styles in the generator, putting a strict alignment constraint over the features. In response, we designed a novel architecture where cross-attention layers are used in place of de-normalization ones for conditioning the image generation. Our model inherits the advantages of both solutions, retaining state-of-the-art reconstruction quality, as well as improved global and local style transfer. Code and models available at https://github.com/TFonta/CA2SIS.
翻訳日:2023-08-31 13:04:17 公開日:2023-08-30
# state of the art death prediction modelのコンセンサス--全死因死亡から突然死亡予測まで

Consensus of state of the art mortality prediction models: From all-cause mortality to sudden death prediction ( http://arxiv.org/abs/2308.16067v1 )

ライセンス: Link先を確認
Dr Yola Jones, Dr Fani Deligianni, Dr Jeff Dalton, Dr Pierpaolo Pellicori, Professor John G F Cleland(参考訳) 世界中で、心臓血管疾患の既往の有無に関わらず、毎年何百万人もの人々が突然、予期せぬほど突然死亡している。 このような出来事は(一生に一度だけ)希少であり、多くの犠牲者は心臓病の先行調査を行っておらず、突然死の定義は様々である。 そのため、突然の死亡は予測できない。 この分析では、2010年(n = 380,000)にグレーター・グラスゴーとクライド(GG\&C)地域に住む50ドル以上の高齢者にNHSエレクトロニック・ヘルス・レコード(EHR)を使用した。 医療歴,血液検査,薬剤処方,入院などにより突然死のリスクが高まる可能性について検討した。 我々は、突然の死亡または全死亡を予測するために訓練されたモデルの性能を比較した。 私たちは、最先端の研究から得られた3つのモデル(BEHRT、Deepr、Deep patient)と、私たち自身の創造物である3つのモデルを構築しました。 言語ベースの表現とスパーステンポラリマトリクスという,2つの異なるデータ表現を使ってこれらをトレーニングした。 我々は,各モデルの最も重要な特徴を理解するためにグローバル解釈性を用い,ランクバイアス重なりを用いたモデル間での合意度を比較した。 解釈可能性手法の複雑さを増すことなく相関変数を考慮に入れることは困難である。 機能をグループにクラスタリングし、各モデルで最も重要なグループを比較することで、これを克服しています。 相関変数の計算では,モデル間の合意がはるかに高いことがわかった。 分析では、突然死を予測するという課題を強調し、医療アプリケーションに適用される機械学習モデルの理解と解釈の必要性を強調した。

Worldwide, many millions of people die suddenly and unexpectedly each year, either with or without a prior history of cardiovascular disease. Such events are sparse (once in a lifetime), many victims will not have had prior investigations for cardiac disease and many different definitions of sudden death exist. Accordingly, sudden death is hard to predict. This analysis used NHS Electronic Health Records (EHRs) for people aged $\geq$50 years living in the Greater Glasgow and Clyde (GG\&C) region in 2010 (n = 380,000) to try to overcome these challenges. We investigated whether medical history, blood tests, prescription of medicines, and hospitalisations might, in combination, predict a heightened risk of sudden death. We compared the performance of models trained to predict either sudden death or all-cause mortality. We built six models for each outcome of interest: three taken from state-of-the-art research (BEHRT, Deepr and Deep Patient), and three of our own creation. We trained these using two different data representations: a language-based representation, and a sparse temporal matrix. We used global interpretability to understand the most important features of each model, and compare how much agreement there was amongst models using Rank Biased Overlap. It is challenging to account for correlated variables without increasing the complexity of the interpretability technique. We overcame this by clustering features into groups and comparing the most important groups for each model. We found the agreement between models to be much higher when accounting for correlated variables. Our analysis emphasises the challenge of predicting sudden death and emphasises the need for better understanding and interpretation of machine learning models applied to healthcare applications.
翻訳日:2023-08-31 13:03:58 公開日:2023-08-30
# Conti Inc.: 機械学習を用いた大規模ランサムウェア・アズ・ア・サービス・オペレータの内部議論の理解

Conti Inc.: Understanding the Internal Discussions of a large Ransomware-as-a-Service Operator with Machine Learning ( http://arxiv.org/abs/2308.16061v1 )

ライセンス: Link先を確認
Estelle Ruellan, Masarah Paquet-Clouston, Sebastian Garcia(参考訳) RaaS(Ransomware-as-a-service)はランサムウェア攻撃の規模と複雑さを高めている。 RaaSの背後にある内部業務を理解することは、そのような活動の違法性のために課題となっている。 国際的に最も悪名高いランサムウェアオペレータの1つであるconti raasオペレーターの最近のチャットリークは、そのような組織の内部動作をよりよく理解するための重要な機会を提供する。 本稿では,自然言語処理(NLP)やLDA(Latent Dirichlet Allocation)といった機械学習技術と可視化戦略を用いて,Contiチャットリークの主な話題を解析する。 5つの議論がある。 1)ビジネス 2)技術 3)内部業務・管理 4)マルウェア,及び 5)顧客サービス/問題解決。 さらに、contiメンバー間の話題の分布は、個人の4%のみが専門的な議論をしており、ほぼすべての個人(96%)がオールラウンドであることを示している。 結果はまた、Contiの議論のかなりの割合が技術関連ではないことも示唆している。 そこで本研究では,このような大規模なRaaS運用を行うには,管理から顧客サービス,問題解決に至るまで,さまざまなタスクに携わる個人による,技術的能力以上のスキルを要することが強調された。 議論のトピックはまた、Conti RaaS oper5086933atorを支える組織が大企業と類似点を共有していることを示している。 結論として, RaaSはサイバー犯罪業界における特殊化の例だが, 一つのトピックに特化しているメンバーはごくわずかであり, 残りは RaaS の運用を統括・調整している。

Ransomware-as-a-service (RaaS) is increasing the scale and complexity of ransomware attacks. Understanding the internal operations behind RaaS has been a challenge due to the illegality of such activities. The recent chat leak of the Conti RaaS operator, one of the most infamous ransomware operators on the international scene, offers a key opportunity to better understand the inner workings of such organizations. This paper analyzes the main topic discussions in the Conti chat leak using machine learning techniques such as Natural Language Processing (NLP) and Latent Dirichlet Allocation (LDA), as well as visualization strategies. Five discussion topics are found: 1) Business, 2) Technical, 3) Internal tasking/Management, 4) Malware, and 5) Customer Service/Problem Solving. Moreover, the distribution of topics among Conti members shows that only 4% of individuals have specialized discussions while almost all individuals (96%) are all-rounders, meaning that their discussions revolve around the five topics. The results also indicate that a significant proportion of Conti discussions are non-tech related. This study thus highlights that running such large RaaS operations requires a workforce skilled beyond technical abilities, with individuals involved in various tasks, from management to customer service or problem solving. The discussion topics also show that the organization behind the Conti RaaS oper5086933ator shares similarities with a large firm. We conclude that, although RaaS represents an example of specialization in the cybercrime industry, only a few members are specialized in one topic, while the rest runs and coordinates the RaaS operation.
翻訳日:2023-08-31 13:03:28 公開日:2023-08-30
# Text-to-OverpassQL: OpenStreetMapの複雑なジオデータクエリのための自然言語インターフェース

Text-to-OverpassQL: A Natural Language Interface for Complex Geodata Querying of OpenStreetMap ( http://arxiv.org/abs/2308.16060v1 )

ライセンス: Link先を確認
Michael Staniek and Raphael Schumann and Maike Z\"ufle and Stefan Riezler(参考訳) 我々は,OpenStreetMap (OSM) からジオデータをクエリするための自然言語インタフェースを容易にするタスクである Text-to-OverpassQL を提案する。 Overpass Query Language (OverpassQL)は、複雑なデータベースクエリを定式化し、OSMエコシステムで広く採用されている。 自然言語入力からOverpassクエリを生成することは、複数のユースケースに役立つ。 初心者が事前知識なしでoverpassqlを利用することができ、経験豊富なユーザによる高度なクエリ作成を支援し、ツールによる大規模言語モデルによるosmデータベースに格納された情報へのアクセスを可能にする。 本課題では,現在のシーケンス生成モデルの性能を評価するために,8,352個の自然言語入力のデータセットであるOverpassNLを提案する。 さらに、タスク固有の評価指標を導入し、OSMデータベースに対してクエリを実行することで、Text-to-OverpassQLタスクの評価を行う。 シーケンス・ツー・シーケンスモデルを微調整し,大規模言語モデルをコンテキスト内例で適応することにより,強いベースラインを確立する。 詳細な評価は、考慮された学習戦略の強みと弱みを明らかにし、text-to-overpassqlタスクに関するさらなる研究の基礎を築いた。

We present Text-to-OverpassQL, a task designed to facilitate a natural language interface for querying geodata from OpenStreetMap (OSM). The Overpass Query Language (OverpassQL) allows users to formulate complex database queries and is widely adopted in the OSM ecosystem. Generating Overpass queries from natural language input serves multiple use-cases. It enables novice users to utilize OverpassQL without prior knowledge, assists experienced users with crafting advanced queries, and enables tool-augmented large language models to access information stored in the OSM database. In order to assess the performance of current sequence generation models on this task, we propose OverpassNL, a dataset of 8,352 queries with corresponding natural language inputs. We further introduce task specific evaluation metrics and ground the evaluation of the Text-to-OverpassQL task by executing the queries against the OSM database. We establish strong baselines by finetuning sequence-to-sequence models and adapting large language models with in-context examples. The detailed evaluation reveals strengths and weaknesses of the considered learning strategies, laying the foundations for further research into the Text-to-OverpassQL task.
翻訳日:2023-08-31 13:02:57 公開日:2023-08-30
# 空間グラフの粗大化:GNNを用いたロンドンの自転車シェアリングサービスによる天気・平日予測

Spatial Graph Coarsening: Weather and Weekday Prediction with London's Bike-Sharing Service using GNN ( http://arxiv.org/abs/2308.16122v1 )

ライセンス: Link先を確認
Yuta Sato, Pak Hei Lam, Shruti Gupta, Fareesah Hussain(参考訳) 本研究では,Santander Cyclesの自転車シェアリングシステムのデータセットをグラフ分類タスクとして,ロンドンにおける1日の天気と平日を予測するためにグラフニューラルネットワーク(GNN)を導入した。 新たに導入されたGNNモデル (i)ノード埋め込みを訓練したグラフ特徴の連結演算子 (ii)地理的連続性に基づくグラフ粗粒化演算子、すなわち「空間グラフ粗粒化」 自転車駅周辺における土地利用特性のノード特性と世帯数,都市内の気温のグラフ特徴により,提案手法は相互エントロピー損失とバリデーションデータセットの精度において,ベースラインモデルよりも優れていた。

This study introduced the use of Graph Neural Network (GNN) for predicting the weather and weekday of a day in London, from the dataset of Santander Cycles bike-sharing system as a graph classification task. The proposed GNN models newly introduced (i) a concatenation operator of graph features with trained node embeddings and (ii) a graph coarsening operator based on geographical contiguity, namely "Spatial Graph Coarsening". With the node features of land-use characteristics and number of households around the bike stations and graph features of temperatures in the city, our proposed models outperformed the baseline model in cross-entropy loss and accuracy of the validation dataset.
翻訳日:2023-08-31 12:54:57 公開日:2023-08-30
# 応答: 大規模言語モデルにおける創発的類推

Response: Emergent analogical reasoning in large language models ( http://arxiv.org/abs/2308.16118v1 )

ライセンス: Link先を確認
Damian Hodel and Jevin West(参考訳) 最近のNature Human Behaviourの論文"Emergent analogical reasoning in large language model" (Webb, Holyoak, Lu, 2023)では、著者らは「GPT-3のような大規模言語モデルは、幅広い類推問題に対するゼロショットの解を見つける能力を得た」と主張している。 この反応では、文字列類似の逆例を提供する。 本試験では, GPT-3 は本論文で提示した問題の最も簡単な変種でさえも解けない。 ゼロショット推論は異常な証拠を必要とする並外れた主張である。 私たちの実験ではその証拠は見当たらない。 ゼロショット推論などの人間的推論の主張を強化するためには、フィールドがデータ記憶を除外するアプローチを開発することが重要である。

In their recent Nature Human Behaviour paper, "Emergent analogical reasoning in large language models," (Webb, Holyoak, and Lu, 2023) the authors argue that "large language models such as GPT-3 have acquired an emergent ability to find zero-shot solutions to a broad range of analogy problems." In this response, we provide counterexamples of the letter string analogies. In our tests, GPT-3 fails to solve even the easiest variants of the problems presented in the original paper. Zero-shot reasoning is an extraordinary claim that requires extraordinary evidence. We do not see that evidence in our experiments. To strengthen claims of humanlike reasoning such as zero-shot reasoning, it is important that the field develop approaches that rule out data memorization.
翻訳日:2023-08-31 12:54:44 公開日:2023-08-30
# ハイパービット制限の再訪が量子通信のアドバンテージを公開

Revisiting Hyperbit Limitations unveils Quantum Communication Advantages ( http://arxiv.org/abs/2308.16114v1 )

ライセンス: Link先を確認
Giovanni Scala, Seyed Arash Ghoreishi, Marcin Paw{\l}owski(参考訳) Paw\l owski と Winter's Hyperbit Theory は2012年に提案され、量子論の代替として、絡み合いと古典的なコミュニケーションパラダイムを再定義する新しい方法を提案した。 この研究はハイパービット理論の再評価を行い、量子力学との等価性に疑問を呈する重要な運用上の制約を明らかにする。 重要なことに、ハイパービット理論と量子理論が等価であるという仮定は、送信者の研究室に関する不確実な追加知識を持つ受信機に依存しており、Paw\l owski と Winter の業績が正しくないことを示唆している。 本研究では,情報処理におけるハイパービットの制約を強調し,量子通信の優位性に光を当て,古典通信と量子通信の交点における研究を進める。

Paw\l owski and Winter's Hyperbit Theory, proposed in 2012, presented itself as a captivating alternative to quantum theory, suggesting novel ways of redefining entanglement and classical communication paradigms. This research undertakes a meticulous reevaluation of Hyperbit Theory, uncovering significant operational constraints that question its equivalence with quantum mechanics. Crucially, the supposition that Hyperbit Theory and Quantum Theory are equivalent relies on the receiver having unattainable additional knowledge about the sender's laboratory, indicating that the work by Paw\l owski and Winter is incorrect. This study accentuates the constraints of hyperbits in information processing and sheds light on the superiority of quantum communication, thereby advancing the investigation at the intersection of classical and quantum communication.
翻訳日:2023-08-31 12:54:28 公開日:2023-08-30
# survex: 機械学習サバイバルモデルを説明するためのRパッケージ

survex: an R package for explaining machine learning survival models ( http://arxiv.org/abs/2308.16113v1 )

ライセンス: Link先を確認
Miko{\l}aj Spytek and Mateusz Krzyzi\'nski and Sophie Hanna Langbein and Hubert Baniecki and Marvin N. Wright and Przemys{\l}aw Biecek(参考訳) 柔軟性と優れたパフォーマンスのため、機械学習モデルは従来の統計生存モデルを補完し、性能を向上することが多い。 しかし、その普及は、内部操作や予測の根拠を説明するユーザーフレンドリーなツールの欠如によって妨げられている。 この問題に取り組むため,我々はsurvex rパッケージを紹介する。このパッケージは,説明可能な人工知能技術を適用して生存モデルを説明するための凝集フレームワークを提供する。 提案するソフトウェアの能力は生存モデルの理解と診断を含んでおり、その改善につながる可能性がある。 可変効果や重要度といった意思決定プロセスに関する洞察を明らかにすることで、survexはモデルの信頼性の評価とバイアスの検出を可能にする。 したがって、透明性と責任は、バイオメディカル研究や医療応用のような繊細な分野で促進される。

Due to their flexibility and superior performance, machine learning models frequently complement and outperform traditional statistical survival models. However, their widespread adoption is hindered by a lack of user-friendly tools to explain their internal operations and prediction rationales. To tackle this issue, we introduce the survex R package, which provides a cohesive framework for explaining any survival model by applying explainable artificial intelligence techniques. The capabilities of the proposed software encompass understanding and diagnosing survival models, which can lead to their improvement. By revealing insights into the decision-making process, such as variable effects and importances, survex enables the assessment of model reliability and the detection of biases. Thus, transparency and responsibility may be promoted in sensitive areas, such as biomedical research and healthcare applications.
翻訳日:2023-08-31 12:54:12 公開日:2023-08-30
# 構造識別とテクスチャ変調による少数ショット画像生成の改善

Improving Few-shot Image Generation by Structural Discrimination and Textural Modulation ( http://arxiv.org/abs/2308.16110v1 )

ライセンス: Link先を確認
Mengping Yang, Zhe Wang, Wenyi Feng, Qian Zhang, Ting Xiao(参考訳) このカテゴリのいくつかの画像が与えられた1つのカテゴリに対して、可塑性で多様な画像を生成することを目的とした画像生成は、広く注目を集めている。 既存のアプローチでは、異なるイメージをグローバルに補間するか、あらかじめ定義された係数で局所表現を融合する。 しかし、このような直感的な画像と特徴の組み合わせは、生成に最も関連する情報のみを利用するため、多様性の低さと粗い粒度のセマンティクス融合につながる。 そこで本稿では,外部意味信号を内部局所表現に注入する新しいテクスチャ変調(texmod)機構を提案する。 識別器からのフィードバックによってパラメータ化され、我々のTexModはよりきめ細かいセマンティックインジェクションを合成の忠実さを維持しながら実現できる。 さらに,グローバルな構造判別器(StructD)を開発し,合理的なレイアウトとアウトラインを持つ画像を生成する。 さらに、モデルに周波数信号の識別を促すことにより、モデルの周波数認識を強化する。 これらの技術と合わせて,数ショット画像生成のための斬新で効果的なモデルを構築した。 本モデルの有効性は,3つの一般的なデータセットと様々な設定に関する広範な実験によって同定される。 これらのデータセットで最先端の合成性能を実現するだけでなく、提案手法を既存のモデルにシームレスに統合することで、さらなるパフォーマンス向上を図ることができる。

Few-shot image generation, which aims to produce plausible and diverse images for one category given a few images from this category, has drawn extensive attention. Existing approaches either globally interpolate different images or fuse local representations with pre-defined coefficients. However, such an intuitive combination of images/features only exploits the most relevant information for generation, leading to poor diversity and coarse-grained semantic fusion. To remedy this, this paper proposes a novel textural modulation (TexMod) mechanism to inject external semantic signals into internal local representations. Parameterized by the feedback from the discriminator, our TexMod enables more fined-grained semantic injection while maintaining the synthesis fidelity. Moreover, a global structural discriminator (StructD) is developed to explicitly guide the model to generate images with reasonable layout and outline. Furthermore, the frequency awareness of the model is reinforced by encouraging the model to distinguish frequency signals. Together with these techniques, we build a novel and effective model for few-shot image generation. The effectiveness of our model is identified by extensive experiments on three popular datasets and various settings. Besides achieving state-of-the-art synthesis performance on these datasets, our proposed techniques could be seamlessly integrated into existing models for a further performance boost.
翻訳日:2023-08-31 12:53:59 公開日:2023-08-30
# カールおばあちゃんは27歳。研究データの匿名化研究アジェンダ

Grandma Karl is 27 years old -- research agenda for pseudonymization of research data ( http://arxiv.org/abs/2308.16109v1 )

ライセンス: Link先を確認
Elena Volodina (University of Gothenburg), Simon Dobnik (University of Gothenburg), Therese Lindstr\"om Tiedemann (University of Helsinki), Xuan-Son Vu (Ume{\aa} university)(参考訳) 研究データのアクセシビリティは、多くの研究分野において重要であるが、名前や政治的意見などを含む個人的および機密性の高い情報のために、テキストデータは共有できないことが多い。 一般データ保護規則(GDPR)は、研究データへのオープンアクセスを確保するソリューションとして偽名を提案するが、研究データの操作に採用する前に、アプローチとして偽名についてもっと学ぶ必要がある。 本論文は、匿名化における研究課題について概説し、例えば、読みやすさや言語アセスメントなどの非構造化データに対する擬似化の効果についての研究や、著者のアイデンティティを保護する手段としての擬似化の有効性について述べるとともに、非構造化データにおける個人情報の検出、ラベル付け、置換のための文脈依存アルゴリズムの開発方法を探る。 最近承認された匿名化プロジェクトであるGrandma Karl氏は、その課題に正確に対処する27歳である。

Accessibility of research data is critical for advances in many research fields, but textual data often cannot be shared due to the personal and sensitive information which it contains, e.g names or political opinions. General Data Protection Regulation (GDPR) suggests pseudonymization as a solution to secure open access to research data, but we need to learn more about pseudonymization as an approach before adopting it for manipulation of research data. This paper outlines a research agenda within pseudonymization, namely need of studies into the effects of pseudonymization on unstructured data in relation to e.g. readability and language assessment, as well as the effectiveness of pseudonymization as a way of protecting writer identity, while also exploring different ways of developing context-sensitive algorithms for detection, labelling and replacement of personal information in unstructured data. The recently granted project on pseudonymization Grandma Karl is 27 years old addresses exactly those challenges.
翻訳日:2023-08-31 12:53:38 公開日:2023-08-30
# 時系列石油生産予測のための高度深層回帰モデル

Advanced Deep Regression Models for Forecasting Time Series Oil Production ( http://arxiv.org/abs/2308.16105v1 )

ライセンス: Link先を確認
Siavash Hosseini, Thangarajah Akilan(参考訳) 世界の石油需要は急速に増加し、2040年までに1日当たり10630万バレルに達すると予想されている。 したがって、炭化水素抽出産業は生産を予測し、運用を最適化し、損失を避けることが不可欠である。 大企業は、この目的のために、ディープラーニング(DL)のパワーと様々な油井からの大量のデータを活用することで、多くの運用コストを節約し、望ましくない環境への影響を減らすことに気付きました。 この方向では,従来の機械学習技術を用いて石油生産予測を行うモデルが提案されている。 しかし、これらの手法は時系列データに見られる歴史的なパターンを捉えることができないため、この問題には不適切である。 本研究の目的は、シーケンシャル畳み込みと長寿命メモリ(LSTM)ユニットを用いた高度なデータ駆動回帰モデルを開発することである。 最適シーケンス長、モデルハイパーパラメータ、およびクロスウェルデータセット形成を選択し、高度に一般化されたロバストモデルを構築する。 ボルベ油田データに関する包括的実験により,提案モデルが検証された。 LSTMに基づくシーケンス学習モデルは,平均絶対誤差(MAE)とR2スコア(111.16点,0.98点)の1次元畳み込みニューラルネットワーク(CNN)よりも石油生産を予測できることがわかった。 また、LSTMベースのモデルは、既存のすべての最先端ソリューションよりも優れた性能を示し、この研究のベースラインモデルである標準線形回帰よりも37%改善されている。

Global oil demand is rapidly increasing and is expected to reach 106.3 million barrels per day by 2040. Thus, it is vital for hydrocarbon extraction industries to forecast their production to optimize their operations and avoid losses. Big companies have realized that exploiting the power of deep learning (DL) and the massive amount of data from various oil wells for this purpose can save a lot of operational costs and reduce unwanted environmental impacts. In this direction, researchers have proposed models using conventional machine learning (ML) techniques for oil production forecasting. However, these techniques are inappropriate for this problem as they can not capture historical patterns found in time series data, resulting in inaccurate predictions. This research aims to overcome these issues by developing advanced data-driven regression models using sequential convolutions and long short-term memory (LSTM) units. Exhaustive analyses are conducted to select the optimal sequence length, model hyperparameters, and cross-well dataset formation to build highly generalized robust models. A comprehensive experimental study on Volve oilfield data validates the proposed models. It reveals that the LSTM-based sequence learning model can predict oil production better than the 1-D convolutional neural network (CNN) with mean absolute error (MAE) and R2 score of 111.16 and 0.98, respectively. It is also found that the LSTM-based model performs better than all the existing state-of-the-art solutions and achieves a 37% improvement compared to a standard linear regression, which is considered the baseline model in this work.
翻訳日:2023-08-31 12:53:19 公開日:2023-08-30
# 大キャンパスにおける食品選択ミミリー

Food Choice Mimicry on a Large University Campus ( http://arxiv.org/abs/2308.16095v1 )

ライセンス: Link先を確認
Kristina Gligoric, Arnaud Chiolero, Emre K{\i}c{\i}man, Ryen W. White, Eric Horvitz, Robert West(参考訳) 社会的影響は食品消費の強力な決定要因であり、健康に影響を及ぼす。 食品消費の類似性を促進する社会的要因の役割について一貫した観察がなされているが、正確な支配機構についてはあまり知られていない。 大学構内における店舗待ち行列の逐次的性質を活かし,慎重に設計した因果分析を通じ,食品選択における社会的影響について検討した。 特に,forcalユーザがチェックアウトキュー内の別のユーザ("partner")を即座にフォローし,両者が購入する,隣接した購入数が多いと考えられる。 相手が焦点ユーザに与える影響を同定し、焦点ユーザが相手の購入をコピーする現象である模倣の購入において、個人間の食生活の類似性がどのように生じるかという、特定の行動メカニズムの強い証拠を見出す。 例えば、ランチ時間中に食材と共に購入した食品の増量により、パートナーが商品を購入した場合や、パートナーが買わなかった場合の食品の購入率が有意に高くなり、絶対的な条件で購入確率が14%上昇し、相対的な条件で83%上昇することがわかった。 この効果はすべての食品タイプで観察されるが、調味料では最大であり、ソフトドリンクでは最小である。 このような効果は,focalユーザとランダムな(直近の)パートナを比較すると観察されないことが判明した。 さらに, 年齢, 性別, 地位のサブポピュレーションにおいて, 模倣品を購入することは, 学生や若年者にとって最強である。 最後に,購入キューの近接が減少するにつれて模倣が減少する線量応答関係を見いだす。 本研究は,実物購入行動のメカニズムを解明し,キャンパスにおける食事行動の理解と改善にさらなる意味を持つ。

Social influence is a strong determinant of food consumption, which in turn influences health. Although consistent observations have been made on the role of social factors in driving similarities in food consumption, much less is known about the precise governing mechanisms. We study social influence on food choice through carefully designed causal analyses, leveraging the sequential nature of shop queues on a major university campus. In particular, we consider a large number of adjacent purchases where a focal user immediately follows another user ("partner") in the checkout queue and both make a purchase. Identifying the partner's impact on the focal user, we find strong evidence of a specific behavioral mechanism for how dietary similarities between individuals arise: purchasing mimicry, a phenomenon where the focal user copies the partner's purchases. For instance, across food additions purchased during lunchtime together with a meal, we find that the focal user is significantly more likely to purchase the food item when the partner buys the item, v.s. when the partner does not, increasing the purchasing probability by 14% in absolute terms, or by 83% in relative terms. The effect is observed across all food types, but largest for condiments, and smallest for soft drinks. We find that no such effect is observed when a focal user is compared to a random (rather than directly preceding) partner. Furthermore, purchasing mimicry is present across age, gender, and status subpopulations, but strongest for students and the youngest persons. Finally, we find a dose-response relationship whereby mimicry decreases as proximity in the purchasing queue decreases. The results of this study elucidate the behavioral mechanism of purchasing mimicry and have further implications for understanding and improving dietary behaviors on campus.
翻訳日:2023-08-31 12:52:52 公開日:2023-08-30
# トロール過程の様相に基づく推論と予測:確率的最適化アプローチ

Likelihood-based inference and forecasting for trawl processes: a stochastic optimization approach ( http://arxiv.org/abs/2308.16092v1 )

ライセンス: Link先を確認
Dan Leonte, Almut E. D. Veraart(参考訳) 定常かつ無限に分割可能な確率過程であるトロール過程を考察し、重み付きテールや長期記憶などの幅広い統計特性を記述することができる。 本稿では,実数値トラウル過程を推定する最初の可能性ベース手法を開発し,新しい決定論的・確率的予測法を提案する。 非マルコフ的であり、非常に難解な確率関数を持つので、トロール過程はそれらの統計的性質をパロニカルに捉えるために複合的確率関数を使用する必要がある。 本稿では, 逐次勾配降下法を適用可能な確率的最適化問題として, 合成確率推定を定式化する。 我々は、数桁の等級で減少する分散を持つ新しい勾配推定器を導出する。 我々は,これらの推定器の理論的特性と実装の詳細を解析し,多種多様なtrawlプロセスに適合するpythonライブラリをリリースする。 シミュレーション研究により,提案手法はパラメータ推定誤差とサンプル外予測誤差の両方において,一般化されたモーメント推定法を上回った。 最後に,勾配推定器に対する確率的連鎖則を定式化する。 新しい理論をtrawlプロセスに適用し、実数値と整数値の両方のtrawlプロセスを推論するための統一された帰納法を提供する。

We consider trawl processes, which are stationary and infinitely divisible stochastic processes and can describe a wide range of statistical properties, such as heavy tails and long memory. In this paper, we develop the first likelihood-based methodology for the inference of real-valued trawl processes and introduce novel deterministic and probabilistic forecasting methods. Being non-Markovian, with a highly intractable likelihood function, trawl processes require the use of composite likelihood functions to parsimoniously capture their statistical properties. We formulate the composite likelihood estimation as a stochastic optimization problem for which it is feasible to implement iterative gradient descent methods. We derive novel gradient estimators with variances that are reduced by several orders of magnitude. We analyze both the theoretical properties and practical implementation details of these estimators and release a Python library which can be used to fit a large class of trawl processes. In a simulation study, we demonstrate that our estimators outperform the generalized method of moments estimators in terms of both parameter estimation error and out-of-sample forecasting error. Finally, we formalize a stochastic chain rule for our gradient estimators. We apply the new theory to trawl processes and provide a unified likelihood-based methodology for the inference of both real-valued and integer-valued trawl processes.
翻訳日:2023-08-31 12:52:22 公開日:2023-08-30
# ゾーン法に基づく機械学習と物理インフォームニューラルネットワークによる再加熱炉への適用

Application of Zone Method based Machine Learning and Physics-Informed Neural Networks in Reheating Furnaces ( http://arxiv.org/abs/2308.16089v1 )

ライセンス: Link先を確認
Ujjal Kr Dutta, Aldo Lipani, Chuan Wang, Yukun Hu(参考訳) 基礎産業の経済性が高いにもかかわらず、製造チェーン内の炉の再加熱のような特定の部品はエネルギー集約的である。 炉内の全加熱時間を短縮することで, エネルギー消費の低減が図られた。 コンピュータ統合機械学習(ML)と人工知能(AI)による炉内制御システムは、持続可能な製造のためのファウンデーションインダストリーのネットゼロ目標を達成する上で有効である。 本研究は,再加熱炉などのシナリオにおいて良質なデータを得ることが不可能であることから,古典的ホットテル法に基づく計算モデルを用いて,回帰によるmlおよび深層学習(dl)モデルトレーニングのためのデータを生成する。 ゾーン法は加熱炉内高温プロセスにおける酸化熱伝達機構である放射熱伝達(RHT)の物理現象をモデル化するためのエレガントな方法を提供することに留意すべきである。 このデータを用いて, 様々な炉内環境における温度予測性能に対して, 最先端, 代表ml, dl法を広範囲に比較した。 推論時間とモデルパフォーマンスの全体的バランスのため、DLはそれとは対照的に際立っている。 訓練されたDLモデルのOF-Distribution(OOD)一般化能力をさらに強化するために,新しいエネルギーベース正規化器のセットを用いて,事前の物理知識を取り入れた物理情報ニューラルネットワーク(PINN)を提案する。 我々の構成は汎用的な枠組みであり、炉の3次元構造の幾何学的非依存であり、標準的なML回帰モデルに適合し、基礎となる物理プロセスのデジタルツインとして機能し、ファウンデーション・インダストリーを産業4.0に移行するためのものである。

Despite the high economic relevance of Foundation Industries, certain components like Reheating furnaces within their manufacturing chain are energy-intensive. Notable energy consumption reduction could be obtained by reducing the overall heating time in furnaces. Computer-integrated Machine Learning (ML) and Artificial Intelligence (AI) powered control systems in furnaces could be enablers in achieving the Net-Zero goals in Foundation Industries for sustainable manufacturing. In this work, due to the infeasibility of achieving good quality data in scenarios like reheating furnaces, classical Hottel's zone method based computational model has been used to generate data for ML and Deep Learning (DL) based model training via regression. It should be noted that the zone method provides an elegant way to model the physical phenomenon of Radiative Heat Transfer (RHT), the dominating heat transfer mechanism in high-temperature processes inside heating furnaces. Using this data, an extensive comparison among a wide range of state-of-the-art, representative ML and DL methods has been made against their temperature prediction performances in varying furnace environments. Owing to their holistic balance among inference times and model performance, DL stands out among its counterparts. To further enhance the Out-Of-Distribution (OOD) generalization capability of the trained DL models, we propose a Physics-Informed Neural Network (PINN) by incorporating prior physical knowledge using a set of novel Energy-Balance regularizers. Our setup is a generic framework, is geometry-agnostic of the 3D structure of the underlying furnace, and as such could accommodate any standard ML regression model, to serve as a Digital Twin of the underlying physical processes, for transitioning Foundation Industries towards Industry 4.0.
翻訳日:2023-08-31 12:52:01 公開日:2023-08-30
# 後中等教育におけるテキスト応答の自動評価:体系的レビュー

Automatic assessment of text-based responses in post-secondary education: A systematic review ( http://arxiv.org/abs/2308.16151v1 )

ライセンス: Link先を確認
Rujun Gao, Hillary E. Merzdorf, Saira Anwar, M. Cynthia Hipwell, Arun Srinivasa(参考訳) 学術的形式的および要約的評価におけるテキストベースのオープンエンド質問は、学生が深い学習者になり、その後のテストの概念を概念的に理解する準備をするのに役立つ。 しかし、テキストベースの質問、特に大規模な(50名以上の入学者)コースは、インストラクターにとって退屈で時間のかかる作業である。 テキスト処理モデルは、人工知能(AI)ツールと自然言語処理(NLP)アルゴリズムの急速な開発で進歩を続けている。 特にLarge Language Models (LLM) のブレークスルーの後、教育におけるテキストベースの反応の迅速な評価とフィードバックを自動化する大きな可能性がある。 本研究は,PRISMAプロセスに基づく学術・再現可能な文献検索戦略を採用し,第2次教育後におけるテキストベース自動評価システムの研究,838論文のスクリーニング,93研究の合成を行う。 近年の教育におけるテキストベース自動評価システムの発展・適用状況を理解するために,提案する総合的な理論枠組みに基づいて,3つの研究課題に答えるべく,自動評価システム,研究動機,研究成果の入力・出力を含むすべての研究を要約・分類する。 さらに,本研究における自動評価システムと応用領域の典型的研究を概説し,要約した。 この体系的なレビューは、高等教育におけるテキストベースアセスメントを支援する最新のAI/NLP開発を理解するために、テキストベースアセスメントシステムの最近の教育応用の概要を提供する。 特に,ChatGPTなどのLLMを教育活動に取り入れることで,研究者や教育者にとってメリットが期待できる。

Text-based open-ended questions in academic formative and summative assessments help students become deep learners and prepare them to understand concepts for a subsequent test conceptually. However, grading text-based questions, especially in large (>50 enrolled students) courses, is a tedious and time-costing process for instructors. Text processing models continue progressing with the rapid development of Artificial Intelligence (AI) tools and Natural Language Processing (NLP) algorithms. Especially after breakthroughs in Large Language Models (LLM), there is immense potential to automate rapid assessment and feedback of text-based responses in education. This systematic review adopts a scientific and reproducible literature search strategy based on the PRISMA process using explicit inclusion and exclusion criteria to study text-based automatic assessment systems in post-secondary education, screening 838 papers and synthesizing 93 studies. To understand how text-based automatic assessment systems have been developed and applied in education in recent years, all included studies are summarized and categorized according to a proposed comprehensive theoretical framework, including the input and output of the automatic assessment system, research motivation, and research outcome, aiming to answer three research questions accordingly. Additionally, the typical studies of automated assessment systems and application domains in these studies are investigated and summarized. This systematic review will provide an overview of recent educational applications of text-based assessment systems for understanding the latest AI/NLP developments assisting in text-based assessments in higher education. We expect it will particularly benefit researchers and educators incorporating LLMs such as ChatGPT into their educational activities.
翻訳日:2023-08-31 12:47:12 公開日:2023-08-30
# MRIにおける教師なし異常分節に対する仮設条件拡散を伴うモードサイクル

Modality Cycles with Masked Conditional Diffusion for Unsupervised Anomaly Segmentation in MRI ( http://arxiv.org/abs/2308.16150v1 )

ライセンス: Link先を確認
Ziyun Liang, Harry Anthony, Felix Wagner, Konstantinos Kamnitsas(参考訳) 教師なし異常分割(unsupervised anomaly segmentation)は、トレーニング中に処理されたパターンとは別のパターンを検出することを目的としている。 デプロイメント中の異常はモデル障害を引き起こす可能性があるため、異常の検出はモデルの信頼性を高めることができ、医療画像のようなリスクの高い領域で有用である。 本稿では,マルチモーダルMRIにおける様々なパターンにまたがる異常のセグメンテーションを可能にするMMCCD(Masked Modality Cycles with Conditional Diffusion)を提案する。 この方法は2つの基本的な考え方に基づいている。 まず, 異常検出を可能にするメカニズムとして循環様相変換を用いることを提案する。 画像翻訳モデルは、組織生理学の特徴である組織特異的モダリティマッピングを学習する。 したがって、これらの学習されたマッピングは、トレーニング中に遭遇したことのない組織や画像パターンの変換に失敗し、エラーによってセグメンテーションが可能になる。 さらに、画像翻訳とマスク付き条件拡散モデルを組み合わせることで、マスク付き領域下に存在する組織を「想像」し、生成モデルがそれらを再現できないため、未知のパターンを明らかにする。 我々は,BraTS2021多モードMRIの健全なスライスをトレーニングし,腫瘍のあるスライスを試験することにより,プロキシタスクにおける手法の評価を行った。 本稿では,画像再構成とデノナイズに基づく教師なし手法と,オートエンコーダや拡散モデルとの比較を行った。

Unsupervised anomaly segmentation aims to detect patterns that are distinct from any patterns processed during training, commonly called abnormal or out-of-distribution patterns, without providing any associated manual segmentations. Since anomalies during deployment can lead to model failure, detecting the anomaly can enhance the reliability of models, which is valuable in high-risk domains like medical imaging. This paper introduces Masked Modality Cycles with Conditional Diffusion (MMCCD), a method that enables segmentation of anomalies across diverse patterns in multimodal MRI. The method is based on two fundamental ideas. First, we propose the use of cyclic modality translation as a mechanism for enabling abnormality detection. Image-translation models learn tissue-specific modality mappings, which are characteristic of tissue physiology. Thus, these learned mappings fail to translate tissues or image patterns that have never been encountered during training, and the error enables their segmentation. Furthermore, we combine image translation with a masked conditional diffusion model, which attempts to `imagine' what tissue exists under a masked area, further exposing unknown patterns as the generative model fails to recreate them. We evaluate our method on a proxy task by training on healthy-looking slices of BraTS2021 multi-modality MRIs and testing on slices with tumors. We show that our method compares favorably to previous unsupervised approaches based on image reconstruction and denoising with autoencoders and diffusion models.
翻訳日:2023-08-31 12:46:43 公開日:2023-08-30
# jaisとjais-chat:アラビア語中心の基礎と命令調整による大言語モデル

Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models ( http://arxiv.org/abs/2308.16149v1 )

ライセンス: Link先を確認
Neha Sengupta, Sunil Kumar Sahu, Bokang Jia, Satheesh Katipomu, Haonan Li, Fajri Koto, Osama Mohammed Afzal, Samta Kamboj, Onkar Pandit, Rahul Pal, Lalit Pradhan, Zain Muhammad Mujahid, Massa Baali, Alham Fikri Aji, Zhengzhong Liu, Andy Hock, Andrew Feldman, Jonathan Lee, Andrew Jackson, Preslav Nakov, Timothy Baldwin, Eric Xing(参考訳) jais と jais-chat を新たに導入し,新しいアラビア語中心の基盤と,命令調整による大規模言語モデルである open generative large language models (llm) を導入した。 モデルはGPT-3デコーダのみのアーキテクチャに基づいており、様々なプログラミング言語のソースコードを含むアラビア語と英語のテキストが混在している。 13億のパラメータを持つアラビア語の知識と推論能力は、広範囲な評価に基づいて、既存のアラビア語と多言語モデルよりも大きなマージンで示される。 さらに、英語のデータがはるかに少ないにもかかわらず、同様の大きさの英語中心のオープンモデルと比較すると、モデルは英語で競争力がある。 モデルのトレーニング,チューニング,安全性アライメント,評価について詳細な説明を行う。 我々は、アラビア語のLLMの研究を促進するために、2つのオープンバージョン - 基礎的Jaisモデルと命令調整されたJais-chat変種 - をリリースする。 huggingface.co/inception-mbzuai/jais-13b-chatで利用可能

We introduce Jais and Jais-chat, new state-of-the-art Arabic-centric foundation and instruction-tuned open generative large language models (LLMs). The models are based on the GPT-3 decoder-only architecture and are pretrained on a mixture of Arabic and English texts, including source code in various programming languages. With 13 billion parameters, they demonstrate better knowledge and reasoning capabilities in Arabic than any existing open Arabic and multilingual models by a sizable margin, based on extensive evaluation. Moreover, the models are competitive in English compared to English-centric open models of similar size, despite being trained on much less English data. We provide a detailed description of the training, the tuning, the safety alignment, and the evaluation of the models. We release two open versions of the model -- the foundation Jais model, and an instruction-tuned Jais-chat variant -- with the aim of promoting research on Arabic LLMs. Available at https://huggingface.co/inception-mbzuai/jais-13b-chat
翻訳日:2023-08-31 12:46:19 公開日:2023-08-30
# 非エルミート皮膚効果を有する構造浴槽内の巨大エミッタ

Giant Emitters in a Structured Bath with Non-Hermitian Skin Effect ( http://arxiv.org/abs/2308.16148v1 )

ライセンス: Link先を確認
Lei Du, Lingzhen Guo, Yan Zhang, and Anton Frisk Kockum(参考訳) ジャイアントエミッターの名称は、非局所的なフィールド-エミッター相互作用と多様な自己干渉効果に由来する。 巨大エミッタに関する既存の作品の多くは、エルミート導波路やフォトニック格子と考えられる。 本研究では,非エルミタン浴と結合した場合の巨大エミッタの挙動を明らかにする。すなわち,非エルミタン系スキン効果を特徴とするハタノ・ネルソン(HN)モデルである。 ジャイアントエミッターの挙動は浴槽の安定性と密接に関連していることが示された。 HNモデルを擬エルミート格子にマッピングできる対流不安定な状態において、巨大なエミッタは、異なるエミッタ-バス結合経路の相対強度に応じて、エルミート浴や励起増幅のように振る舞うことができる。 この機構により,浴槽とは逆の非相互性を持つ巨大エミッタ間の保護された非相互相互作用を実現することができる。 このような巨大エミッタ効果は許されないが、HNモデルが絶対不安定な状態に入ると、結合エミッタは常に世俗的なエネルギー成長を示す。 この提案は、例えば量子エミッタ間の効果的な相互作用や、非エルミタンフレームワークにおける多体シミュレーションの実行に有用な、非エルミタン量子光学の新しいパラダイムを提供する。

Giant emitters derive their name from nonlocal field-emitter interactions and feature diverse self-interference effects. Most of the existing works on giant emitters have considered Hermitian waveguides or photonic lattices. In this work, we unveil how giant emitters behave if they are coupled to a non-Hermitian bath, i.e., a Hatano-Nelson (HN) model which features a non-Hermitian skin effect due to the asymmetric inter-site tunneling rates. We show that the behaviors of the giant emitters are closely related to the stability of the bath. In the convectively unstable regime, where the HN model can be mapped to a pseudo-Hermitian lattice, a giant emitter can either behave as in a Hermitian bath or undergo excitation amplification, depending on the relative strength of different emitter-bath coupling paths. Based on this mechanism, we can realize protected nonreciprocal interactions between giant emitters, with nonreciprocity opposite to that of the bath. Such giant-emitter effects are not allowed, however, if the HN model enters the absolutely unstable regime, where the coupled emitters always show secular energy growth. Our proposal provides a new paradigm of non-Hermitian quantum optics, which may be useful for, e.g., engineering effective interactions between quantum emitters and performing many-body simulations in the non-Hermitian framework.
翻訳日:2023-08-31 12:45:59 公開日:2023-08-30
# 量子・半古典混合シミュレーション

Mixed Quantum-Semiclassical Simulation ( http://arxiv.org/abs/2308.16147v1 )

ライセンス: Link先を確認
Javier Gonzalez-Conde, Andrew T. Sornborger(参考訳) 分子散乱や重力バックリアクションなど、物理学の多くの分野において基本的な関心を持つ混合量子-半古典(MQS)系の量子シミュレーションについて検討する。 これらのシステムの基本的な問題は、MQSシステムの量子アルゴリズムが、代わりに完全な量子量子系を研究することができるかどうかである。 我々は、koopman-von neumann(kvn)ハミルトニアンと標準量子ハミルトニアンが量子系を記述する半古典系を符号化する文脈で、mqsシミュレーションを研究する。 この場合、kvn と量子ハミルトニアンはヒルベルト空間上の同じ作用素で構成されるので、シミュレーション効率を保証する標準定理が適用される。 この文脈で、$\textit{many-body}$ MQS 粒子シミュレーションは量子量子量子シミュレーションよりも量子ビットのリソースを名目上改善するだけであり、量子力学系と半古典系の相互作用の対数スケール$S_q/S_c$であることを示す。 しかし、$\textit{field}$シミュレーションは、量子と半古典的アクションの比率に比例する改善を与える。 特に、粒子場と重力場の比$S_q/S_c 10^{-18} のため、このアプローチは半古典重力にとって重要である。 我々は、調和振動子が2つのスピン間の相互作用を媒介する重力相互作用のモデルにおいて、このアプローチを実証する。 特に、古典的媒介子によるスピン間の蒸留可能な絡み合い生成の欠如、完全量子の場合に対するダイナミクスの違いが示されている。

We study the quantum simulation of mixed quantum-semiclassical (MQS) systems, of fundamental interest in many areas of physics, such as molecular scattering and gravitational backreaction. A basic question for these systems is whether quantum algorithms of MQS systems would be valuable at all, when one could instead study the full quantum-quantum system. We study MQS simulations in the context where a semiclassical system is encoded in a Koopman-von Neumann (KvN) Hamiltonian and a standard quantum Hamiltonian describes the quantum system. In this case, because KvN and quantum Hamiltonians are constructed with the same operators on a Hilbert space, standard theorems guaranteeing simulation efficiency apply. We show that, in this context, $\textit{many-body}$ MQS particle simulations give only nominal improvements in qubit resources over quantum-quantum simulations due to logarithmic scaling in the ratio, $S_q/S_c$, of actions between quantum and semiclassical systems. However, $\textit{field}$ simulations can give improvements proportional to the ratio of quantum to semiclassical actions, $S_q/S_c$. Of particular note, due to the ratio $S_q/S_c \sim 10^{-18}$ of particle and gravitational fields, this approach could be important for semiclassical gravity. We demonstrate our approach in a model of gravitational interaction, where a harmonic oscillator mediates the interaction between two spins. In particular, we demonstrate a lack of distillable entanglement generation between spins due to classical mediators, a distinct difference in dynamics relative to the fully quantum case.
翻訳日:2023-08-31 12:45:34 公開日:2023-08-30
# CircleFormer:丸いクエリと注意を伴う全スライド画像における円核検出

CircleFormer: Circular Nuclei Detection in Whole Slide Images with Circle Queries and Attention ( http://arxiv.org/abs/2308.16145v1 )

ライセンス: Link先を確認
Hengxu Zhang, Pengpeng Liang, Zhiyong Sun, Bo Song, Erkang Cheng(参考訳) コンピュータビジョンと医用画像解析において, CNN と Transformer による境界ボックス表現による物体検出が広く研究されているが, 医用画像の円形物体検出はいまだに未調査である。 本稿では,腎病理学における球状糸球体検出のための最近のアンカーフリー cnn-based circular object detection (circlenet) 法に触発されたcircleformerについて紹介する。 具体的には、変圧器デコーダ内の円表現を用いたクエリを反復的に円形物体検出結果を洗練し、円クロスアテンションモジュールを導入し、円クエリと画像特徴の類似度を算出する。 一般化円 IoU (gCIoU) は、新たに円形物体検出の回帰損失を生じさせるものとして提案されている。 さらに,circleformerに単純なセグメンテーションブランチを追加することで,セグメンテーションタスクへの一般化が容易になる。 本手法は,公開monusegデータセット上での円核検出とセグメンテーションにおける評価を行い,最新手法と比較して有望な性能が得られることを示す。 それぞれの成分の有効性はアブレーション研究によって検証される。 我々のコードは以下の通りリリースされている。

Both CNN-based and Transformer-based object detection with bounding box representation have been extensively studied in computer vision and medical image analysis, but circular object detection in medical images is still underexplored. Inspired by the recent anchor free CNN-based circular object detection method (CircleNet) for ball-shape glomeruli detection in renal pathology, in this paper, we present CircleFormer, a Transformer-based circular medical object detection with dynamic anchor circles. Specifically, queries with circle representation in Transformer decoder iteratively refine the circular object detection results, and a circle cross attention module is introduced to compute the similarity between circular queries and image features. A generalized circle IoU (gCIoU) is proposed to serve as a new regression loss of circular object detection as well. Moreover, our approach is easy to generalize to the segmentation task by adding a simple segmentation branch to CircleFormer. We evaluate our method in circular nuclei detection and segmentation on the public MoNuSeg dataset, and the experimental results show that our method achieves promising performance compared with the state-of-the-art approaches. The effectiveness of each component is validated via ablation studies as well. Our code is released at: \url{https://github.com/zhanghx-iim-ahu/CircleFormer}.
翻訳日:2023-08-31 12:45:02 公開日:2023-08-30
# 非市民的政治的表現の制限に対する集団間バイアスとそのメカニズム

Intergroup Bias in Attitudes Toward Restrictions on Uncivil Political Expression and Its Underlying Mechanisms ( http://arxiv.org/abs/2308.16140v1 )

ライセンス: Link先を確認
Kohei Nishi(参考訳) 表現の自由と、悪質な政治表現の悪影響からの保護との間にはジレンマがあるようだ。 これまでの研究では、表現の自由や言語制限に対する態度に影響を与える様々な要因が明らかにされているが、これらの態度を形成する際に集団間のバイアスがあるかどうかは明確ではない。 本研究は,このギャップに対処するため,事前登録したオンライン調査実験を行い,そのグループ内およびグループ外アフィリエイトをランダム化し,非市民的な政治的表現に対する人々の態度を検討した。 その結果,外集団から外集団へ向けた非内在的政治表現は,内集団から外集団へ向けた表現よりも非内在的と認識される傾向がみられた。 この違いはその後、不当な政治的コメントに直面した時に、スピーチの制限を支持する傾向に影響を及ぼす: グループ内からグループ内への表現の制限に対する強い支持は、グループ内からグループ外への制限とは対照的である。 これらの発見は、悪質な政治的表現に対する制限を提唱する世論への警鐘となるべきである。

There appears to be a dilemma between the freedom of expression and protection from the adverse effects of uncivil political expression online. While previous studies have revealed various factors that affect attitudes toward freedom of expression and speech restrictions, it is less clear whether people have intergroup biases when forming these attitudes. To address this gap, the present study conducted a pre-registered online survey experiment and investigated people's attitudes toward uncivil political expression by randomizing its in-group and out-group affiliations. The results revealed that people tend to perceive uncivil political expression directed from an out-group toward an in-group as more uncivil, compared to the expression originating from an in-group toward an out-group. This difference subsequently influences their inclination to endorse speech restrictions when faced with uncivil political comments: stronger support for restrictions on expressions from the out-group toward the in-group as opposed to those from the in-group toward the out-group. These findings should serve as a wake-up call to public opinion that advocates for restrictions on uncivil political expression.
翻訳日:2023-08-31 12:44:37 公開日:2023-08-30
# MedShapeNet - コンピュータビジョンのための3D医療形状の大規模データセット

MedShapeNet -- A Large-Scale Dataset of 3D Medical Shapes for Computer Vision ( http://arxiv.org/abs/2308.16139v1 )

ライセンス: Link先を確認
Jianning Li, Antonio Pepe, Christina Gsaxner, Gijs Luijten, Yuan Jin, Narmada Ambigapathy, Enrico Nasca, Naida Solak, Gian Marco Melito, Afaque R. Memon, Xiaojun Chen, Jan Stefan Kirschke, Ezequiel de la Rosa, Patrich Ferndinand Christ, Hongwei Bran Li, David G. Ellis, Michele R. Aizenberg, Sergios Gatidis, Thomas Kuestner, Nadya Shusharina, Nicholas Heller, Vincent Andrearczyk, Adrien Depeursinge, Mathieu Hatt, Anjany Sekuboyina, Maximilian Loeffler, Hans Liebl, Reuben Dorent, Tom Vercauteren, Jonathan Shapey, Aaron Kujawa, Stefan Cornelissen, Patrick Langenhuizen, Achraf Ben-Hamadou, Ahmed Rekik, Sergi Pujades, Edmond Boyer, Federico Bolelli, Costantino Grana, Luca Lumetti, Hamidreza Salehi, Jun Ma, Yao Zhang, Ramtin Gharleghi, Susann Beier, Eduardo A. Garza-Villarreal, Thania Balducci, Diego Angeles-Valdez, Roberto Souza, Leticia Rittner, Richard Frayne, Yuanfeng Ji, Soumick Chatterjee, Andreas Nuernberger, Joao Pedrosa, Carlos Ferreira, Guilherme Aresta, Antonio Cunha, Aurelio Campilho, Yannick Suter, Jose Garcia, Alain Lalande, Emmanuel Audenaert, Claudia Krebs, Timo Van Leeuwen, Evie Vereecke, Rainer Roehrig, Frank Hoelzle, Vahid Badeli, Kathrin Krieger, Matthias Gunzer, Jianxu Chen, Amin Dada, Miriam Balzer, Jana Fragemann, Frederic Jonske, Moritz Rempe, Stanislav Malorodov, Fin H. Bahnsen, Constantin Seibold, Alexander Jaus, Ana Sofia Santos, Mariana Lindo, Andre Ferreira, Victor Alves, Michael Kamp, Amr Abourayya, Felix Nensa, Fabian Hoerst, Alexander Brehmer, Lukas Heine, Lars E. Podleska, Matthias A. Fink, Julius Keyl, Konstantinos Tserpes, Moon-Sung Kim, Shireen Elhabian, Hans Lamecker, Dzenan Zukic, Beatriz Paniagua, Christian Wachinger, Martin Urschler, Luc Duong, Jakob Wasserthal, Peter F. Hoyer, Oliver Basu, Thomas Maal, Max J. H. Witjes, Ping Luo, Bjoern Menze, Mauricio Reyes, Christos Davatzikos, Behrus Puladi, Jens Kleesiek, Jan Egger(参考訳) 今回我々は,解剖学的形状(骨,臓器,血管など)と3次元手術器具モデルからなるmedshapenetを提案する。 深層学習に先立ち、医学画像解析における統計的形状モデル(SSM)の幅広い応用は、形状が医学データを記述するために一般的に用いられている証拠である。 しかし今日では、医療画像における最先端(SOTA)ディープラーニングアルゴリズムは、主にボキセルベースである。 コンピュータビジョンでは、コンピュータビジョン研究においてShapeNet(約51,300モデル)やプリンストンモデルNet(約127,915モデル)が増加し、IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)のような主要なビジョンカンファレンスにおける多くの形状関連出版物から見られるように、形状(ボクセル占有グリッド、メッシュ、点雲、暗示表面モデルを含む)が3Dにおけるデータ表現として好ましい。 MedShapeNetは、データ駆動型ビジョンアルゴリズムの医療アプリケーションへの翻訳を容易にするために、これらの一般的な形状ベンチマークの代替として作成されており、重要な医療問題を解決するためにSOTAビジョンアルゴリズムを適用する機会を広げている。 さらに、MedShapeNetの医療用形状の大部分は、実際の患者の画像データに基づいて直接モデル化されており、コンピュータ支援設計(CAD)モデルからなる既存の形状ベンチマークを補完する。 現在MedShapeNetには10万以上の医療用形状が含まれており、ペアデータ形式でアノテーションを提供している。 そのため、拡張現実(virtual reality - vr, augmented reality - ar, mixed reality - mr)と医療用3dプリンティングのための3dモデルの無料リポジトリでもある。 このホワイトペーパーでは、medshapenetの背景にある動機、形状取得手順、ユースケース、オンラインシェイプ検索ポータルの使用について詳細に説明している。

We present MedShapeNet, a large collection of anatomical shapes (e.g., bones, organs, vessels) and 3D surgical instrument models. Prior to the deep learning era, the broad application of statistical shape models (SSMs) in medical image analysis is evidence that shapes have been commonly used to describe medical data. Nowadays, however, state-of-the-art (SOTA) deep learning algorithms in medical imaging are predominantly voxel-based. In computer vision, on the contrary, shapes (including, voxel occupancy grids, meshes, point clouds and implicit surface models) are preferred data representations in 3D, as seen from the numerous shape-related publications in premier vision conferences, such as the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), as well as the increasing popularity of ShapeNet (about 51,300 models) and Princeton ModelNet (127,915 models) in computer vision research. MedShapeNet is created as an alternative to these commonly used shape benchmarks to facilitate the translation of data-driven vision algorithms to medical applications, and it extends the opportunities to adapt SOTA vision algorithms to solve critical medical problems. Besides, the majority of the medical shapes in MedShapeNet are modeled directly on the imaging data of real patients, and therefore it complements well existing shape benchmarks comprising of computer-aided design (CAD) models. MedShapeNet currently includes more than 100,000 medical shapes, and provides annotations in the form of paired data. It is therefore also a freely available repository of 3D models for extended reality (virtual reality - VR, augmented reality - AR, mixed reality - MR) and medical 3D printing. This white paper describes in detail the motivations behind MedShapeNet, the shape acquisition procedures, the use cases, as well as the usage of the online shape search portal: https://medshapenet.ikim.nrw/
翻訳日:2023-08-31 12:44:18 公開日:2023-08-30
# LM-Infinite:大規模言語モデルのための簡易オンザフライ長一般化

LM-Infinite: Simple On-the-Fly Length Generalization for Large Language Models ( http://arxiv.org/abs/2308.16137v1 )

ライセンス: Link先を確認
Chi Han, Qifan Wang, Wenhan Xiong, Yu Chen, Heng Ji, Sinong Wang(参考訳) 近年,トランスフォーマーを用いた大規模言語モデル (LLM) の性能は,様々な領域で顕著に向上している。 これらのllmはますます複雑なタスクにデプロイされるため、長い推論プロセスやより大きなコンテキストを理解する必要性に直面することが多い。 これらの状況下では、長い列上のLLMの長さ一般化失敗がより顕著になる。 ほとんどの事前訓練スキームは、トレーニングシーケンスを一定の長さに切り離す(LLaMaの2048など)。 LLMは、この問題に対処するために設計された相対的な位置エンコーディングでさえも、より長いコンテキストの後に下流のタスクを実行することは言うまでもなく、流動的なテキストを生成するのに苦労する。 長いコーパスの微調整のような一般的な解決策は、しばしばハードウェアコストと時間コストを削減し、注意深くトレーニングプロセス設計を必要とする。 既存のLCMの生成能力をより効率的に活用するため,本問題に寄与する主要なアウト・オブ・ディストリビューション(OOD)要因を理論的・実験的に検討した。 この診断にインスパイアされたLM-Infiniteは,パラメータの更新や学習を必要とせず,$\Lambda$型アテンションマスクと距離制限のみを含む簡易かつ効果的なオンザフライ長一般化法を提案する。 相対配置符号化法を用いて,様々なLLMに適用できることを示す。 LM-Infiniteは、$O(n)$の時間と空間で計算効率が良く、ArXivとOpenWebText2データセット上で32kのトークンで一貫したレイテンシと生成品質を示し、2.72倍のデコード速度を持つ。 パスキー検索などの下流タスクでは、バニラモデルが即座に失敗するトレーニング長よりもずっと長い入力が処理される。

In recent years, there have been remarkable advancements in the performance of Transformer-based Large Language Models (LLMs) across various domains. As these LLMs are deployed for increasingly complex tasks, they often face the needs to conduct longer reasoning processes or understanding larger contexts. In these situations, the length generalization failure of LLMs on long sequences become more prominent. Most pre-training schemes truncate training sequences to a fixed length (such as 2048 for LLaMa). LLMs often struggle to generate fluent texts, let alone carry out downstream tasks, after longer contexts, even with relative positional encoding which is designed to cope with this problem. Common solutions such as finetuning on longer corpora often involves daunting hardware and time costs and requires careful training process design. To more efficiently leverage the generation capacity of existing LLMs, we theoretically and empirically investigate the main out-of-distribution (OOD) factors contributing to this problem. Inspired by this diagnosis, we propose a simple yet effective solution for on-the-fly length generalization, LM-Infinite, which involves only a $\Lambda$-shaped attention mask and a distance limit while requiring no parameter updates or learning. We find it applicable to a variety of LLMs using relative-position encoding methods. LM-Infinite is computational efficient with $O(n)$ time and space, and demonstrates consistent fluency and generation quality to as long as 32k tokens on ArXiv and OpenWebText2 datasets, with 2.72x decoding speedup. On downstream task such as passkey retrieval, it continues to work on inputs much longer than training lengths where vanilla models fail immediately.
翻訳日:2023-08-31 12:43:41 公開日:2023-08-30
# CorrEmbed:新しいメトリクスによる事前学習モデル画像類似性の評価

CorrEmbed: Evaluating Pre-trained Model Image Similarity Efficacy with a Novel Metric ( http://arxiv.org/abs/2308.16126v1 )

ライセンス: Link先を確認
Karl Audun Kagnes Borgersen, Morten Goodwin, Jivitesh Sharma, Tobias Aasmoe, Mari Leonhardsen, Gro Herredsvela R{\o}rvik(参考訳) 視覚的に類似した画像を検出することは、製品のレコメンデーションを計算する際に特に有用である。 事前学習されたコンピュータビジョンモデルを用いて高レベルの画像特徴を抽出する埋め込み類似性は、類似した構成を持つ画像の識別において顕著な効果を示した。 しかし, 画像類似性検索タスクにおいて, 従来の損失・性能指標が十分な性能を発揮できないため, これらのモデルが生成した埋め込みを評価する手法が欠如している。 本稿では,corrembedという新しい手法を用いて,事前学習したコンピュータビジョンモデルから画像埋め込みの有効性を評価する。 画像埋め込みにおける距離と人為的タグベクトルにおける距離との相関を計算した。 我々は、この測定値を用いて、多くの事前学習Torchvisionモデルを評価し、ImageNet1k精度スコアとタグ相関スコアとの線形スケーリングの直感的関係を明らかにする。 重要な点として,本手法は,このパターンからの逸脱を識別し,異なるモデルが高レベル画像の特徴をどのように捉えているのかを洞察する。 CorrEmbedは、これらの事前訓練されたモデルの堅牢なパフォーマンス評価を提供することによって、ファッションリテールにおける同様のアイテムレコメンデーションに対する効果的なデータ駆動アプローチの開発を目指す研究者や実践者にとって、貴重なツールとなる。

Detecting visually similar images is a particularly useful attribute to look to when calculating product recommendations. Embedding similarity, which utilizes pre-trained computer vision models to extract high-level image features, has demonstrated remarkable efficacy in identifying images with similar compositions. However, there is a lack of methods for evaluating the embeddings generated by these models, as conventional loss and performance metrics do not adequately capture their performance in image similarity search tasks. In this paper, we evaluate the viability of the image embeddings from numerous pre-trained computer vision models using a novel approach named CorrEmbed. Our approach computes the correlation between distances in image embeddings and distances in human-generated tag vectors. We extensively evaluate numerous pre-trained Torchvision models using this metric, revealing an intuitive relationship of linear scaling between ImageNet1k accuracy scores and tag-correlation scores. Importantly, our method also identifies deviations from this pattern, providing insights into how different models capture high-level image features. By offering a robust performance evaluation of these pre-trained models, CorrEmbed serves as a valuable tool for researchers and practitioners seeking to develop effective, data-driven approaches to similar item recommendations in fashion retail.
翻訳日:2023-08-31 12:43:10 公開日:2023-08-30
# 未利用出力特徴を用いた群集分析におけるブースティング検出

Boosting Detection in Crowd Analysis via Underutilized Output Features ( http://arxiv.org/abs/2308.16187v1 )

ライセンス: Link先を確認
Shaokai Wu, Fengyu Yang(参考訳) 検出に基づく手法は,密集した群集における性能の低さから,群集分析では好ましくないと見なされている。 しかし,これらの手法の可能性を過小評価しており,しばしば無視される群集分析に重要な情報を提供している。 具体的には、出力提案とバウンディングボックスの領域サイズと信頼性スコアは、群衆の規模と密度に関する洞察を与える。 これらの機能を活用すべく,既存の検出モデルと容易に統合可能なプラグアンドプレイモジュールであるcrowd hatを提案する。 このモジュールは混合2D-1D圧縮技術を用いて出力特性を洗練し、群衆特有の情報の空間的および数値的分布を得る。 これらの特徴に基づき,領域適応型NMSしきい値と,検出に基づく手法の限界に対処するデコプリ-then-alignパラダイムを提案する。 本研究は, 群集数, 局所化, 検出などの様々な群集分析課題に対する広範な評価を行い, 群集解析におけるアウトプット特性の活用と検出法の可能性を示した。

Detection-based methods have been viewed unfavorably in crowd analysis due to their poor performance in dense crowds. However, we argue that the potential of these methods has been underestimated, as they offer crucial information for crowd analysis that is often ignored. Specifically, the area size and confidence score of output proposals and bounding boxes provide insight into the scale and density of the crowd. To leverage these underutilized features, we propose Crowd Hat, a plug-and-play module that can be easily integrated with existing detection models. This module uses a mixed 2D-1D compression technique to refine the output features and obtain the spatial and numerical distribution of crowd-specific information. Based on these features, we further propose region-adaptive NMS thresholds and a decouple-then-align paradigm that address the major limitations of detection-based methods. Our extensive evaluations on various crowd analysis tasks, including crowd counting, localization, and detection, demonstrate the effectiveness of utilizing output features and the potential of detection-based methods in crowd analysis.
翻訳日:2023-08-31 12:34:36 公開日:2023-08-30
# 視覚に基づく探索ロボット政策の学習

Learning Vision-based Pursuit-Evasion Robot Policies ( http://arxiv.org/abs/2308.16185v1 )

ライセンス: Link先を確認
Andrea Bajcsy, Antonio Loquercio, Ashish Kumar, Jitendra Malik(参考訳) 現実の制約の下で戦略的ロボットの行動(例えば、追従回避の相互作用に必要なもの)を学ぶことは極めて難しい。 相互作用のダイナミクスを活用し、物理的状態と潜在意図の不確実性の両方を通じて計画する必要がある。 本稿では,この難解な問題を教師付き学習問題に変換し,完全観測可能なロボットポリシーが部分的に観測可能なロボットの監督を生成する。 部分的に観測可能な追跡ポリシーの監視信号の品質は,回避者の行動の多様性と最適性のバランスと,完全に観測可能な政策におけるモデリング仮定の強さの2つの重要な要因に依存している。 rgb-dカメラを内蔵した物理的四足歩行ロボットに、野生の追跡・脱出行動に関するポリシーを展開する。 ロボットは不確実な時に情報を集め、ノイズ測定から意図を予測し、傍受するために予測される。 プロジェクトWebページ: https://abajcsy.github.io/vision-based-pursuit/

Learning strategic robot behavior -- like that required in pursuit-evasion interactions -- under real-world constraints is extremely challenging. It requires exploiting the dynamics of the interaction, and planning through both physical state and latent intent uncertainty. In this paper, we transform this intractable problem into a supervised learning problem, where a fully-observable robot policy generates supervision for a partially-observable one. We find that the quality of the supervision signal for the partially-observable pursuer policy depends on two key factors: the balance of diversity and optimality of the evader's behavior and the strength of the modeling assumptions in the fully-observable policy. We deploy our policy on a physical quadruped robot with an RGB-D camera on pursuit-evasion interactions in the wild. Despite all the challenges, the sensing constraints bring about creativity: the robot is pushed to gather information when uncertain, predict intent from noisy measurements, and anticipate in order to intercept. Project webpage: https://abajcsy.github.io/vision-based-pursuit/
翻訳日:2023-08-31 12:34:11 公開日:2023-08-30
# SAM-Med2D

SAM-Med2D ( http://arxiv.org/abs/2308.16184v1 )

ライセンス: Link先を確認
Junlong Cheng, Jin Ye, Zhongying Deng, Jianpin Chen, Tianbin Li, Haoyu Wang, Yanzhou Su, Ziyan Huang, Jilong Chen, Lei Jiang, Hui Sun, Junjun He, Shaoting Zhang, Min Zhu, Yu Qiao,(参考訳) Segment Anything Model (SAM) は、自然画像のセグメンテーションにおける最先端の研究の進歩を表し、点やバウンディングボックスなどの入力プロンプトによって印象的な結果を得る。 しかし,本評価および最近の研究は,事前訓練したSAMを医用画像分割に直接適用しても良好な性能は得られないことを示唆している。 この制限は主に、自然画像と医療画像の間の大きな領域ギャップから生じる。 このギャップを埋めるために,SAM-Med2Dを医用2D画像に適用するための最も包括的な研究である。 具体的には、まず、公開およびプライベートデータセットから約4.6Mの画像と19.7Mマスクを収集し、様々なモダリティやオブジェクトを含む大規模医療画像セグメンテーションデータセットを構築する。 そして、このデータセット上でSAMを包括的に微調整し、SAM-Med2Dに変換する。 対話的セグメンテーションアプローチとして境界ボックスやポイントプロンプトのみを採用する従来の方法とは異なり、私たちは、境界ボックス、ポイント、マスクを含むより包括的なプロンプトを通じてSAMを医療画像セグメンテーションに適用する。 さらに、元のSAMのエンコーダとデコーダを微調整し、優れたSAM-Med2Dを得る。 最後に,様々な形態,解剖学的構造,臓器にまたがる医用画像分割におけるsam-med2dの性能を総合的に評価し,解析した。 同時に、MICCAI 2023チャレンジの9つのデータセット上でSAM-Med2Dの一般化能力を検証した。 提案手法はSAMに比べて性能と一般化能力に優れていた。

The Segment Anything Model (SAM) represents a state-of-the-art research advancement in natural image segmentation, achieving impressive results with input prompts such as points and bounding boxes. However, our evaluation and recent research indicate that directly applying the pretrained SAM to medical image segmentation does not yield satisfactory performance. This limitation primarily arises from significant domain gap between natural images and medical images. To bridge this gap, we introduce SAM-Med2D, the most comprehensive studies on applying SAM to medical 2D images. Specifically, we first collect and curate approximately 4.6M images and 19.7M masks from public and private datasets, constructing a large-scale medical image segmentation dataset encompassing various modalities and objects. Then, we comprehensively fine-tune SAM on this dataset and turn it into SAM-Med2D. Unlike previous methods that only adopt bounding box or point prompts as interactive segmentation approach, we adapt SAM to medical image segmentation through more comprehensive prompts involving bounding boxes, points, and masks. We additionally fine-tune the encoder and decoder of the original SAM to obtain a well-performed SAM-Med2D, leading to the most comprehensive fine-tuning strategies to date. Finally, we conducted a comprehensive evaluation and analysis to investigate the performance of SAM-Med2D in medical image segmentation across various modalities, anatomical structures, and organs. Concurrently, we validated the generalization capability of SAM-Med2D on 9 datasets from MICCAI 2023 challenge. Overall, our approach demonstrated significantly superior performance and generalization capability compared to SAM.
翻訳日:2023-08-31 12:33:54 公開日:2023-08-30
# GREC:一般参照式理解

GREC: Generalized Referring Expression Comprehension ( http://arxiv.org/abs/2308.16182v1 )

ライセンス: Link先を確認
Shuting He, Henghui Ding, Chang Liu, Xudong Jiang(参考訳) Classic Referring Expression Comprehension (REC) の目的は、与えられたテキスト記述にあるオブジェクトに対応するバウンディングボックスを作成することである。 一般的に、classic recの既存のデータセットやテクニックは、単一のターゲットに関連する式用に調整されており、単一の表現が1つの特定のオブジェクトにリンクされることを意味する。 複数のターゲットを参照したり、特定のターゲットを含まない表現は考慮されていない。 この制約はRECの実用性を妨げる。 本稿では、GREC(Generalized Referring Expression Comprehension)と呼ばれる新しいベンチマークを紹介する。 このベンチマークは、任意の数のターゲットオブジェクトを記述する式を許可することで、古典的なRECを拡張する。 この目標を達成するため、私たちはgRefCOCOと呼ばれる最初の大規模GRECデータセットを構築しました。 このデータセットは、複数のターゲットを参照する表現、特定のターゲットを持たない表現、単一ターゲット表現を含む。 GRECとgRefCOCOの設計は、従来のRECとのスムーズな互換性を保証する。 提案されているgRefCOCOデータセット、GRECメソッド実装コード、GREC評価コードはhttps://github.com/henghuiding/gRefCOCOで利用可能である。

The objective of Classic Referring Expression Comprehension (REC) is to produce a bounding box corresponding to the object mentioned in a given textual description. Commonly, existing datasets and techniques in classic REC are tailored for expressions that pertain to a single target, meaning a sole expression is linked to one specific object. Expressions that refer to multiple targets or involve no specific target have not been taken into account. This constraint hinders the practical applicability of REC. This study introduces a new benchmark termed as Generalized Referring Expression Comprehension (GREC). This benchmark extends the classic REC by permitting expressions to describe any number of target objects. To achieve this goal, we have built the first large-scale GREC dataset named gRefCOCO. This dataset encompasses a range of expressions: those referring to multiple targets, expressions with no specific target, and the single-target expressions. The design of GREC and gRefCOCO ensures smooth compatibility with classic REC. The proposed gRefCOCO dataset, a GREC method implementation code, and GREC evaluation code are available at https://github.com/henghuiding/gRefCOCO.
翻訳日:2023-08-31 12:33:25 公開日:2023-08-30
# 時間外コリレータ、多体量子カオス、光様発生器、特異値

Out-of-time-order correlator, many-body quantum chaos, light-like generators, and singular values ( http://arxiv.org/abs/2308.16179v1 )

ライセンス: Link先を確認
Ke Huang, Xiao Li, David A. Huse, and Amos Chan(参考訳) 光様発生器(LLG)を用いた空間時間不変あるいはランダム量子回路における局所演算子の時間外相関器(OTOC)について検討した。 我々は,一般の多体カオス回路の場合,llgの大きさが大きくなるにつれて精度が高まるllgのリード特異値によってotocを近似できることを実証する。 LLG,$z_2$,およびそれらの退化のサブリーディング固有値によって予測されるように,OTOCは因果光円錐近傍の光様方向に普遍的な形で崩壊することを示した。 さらに,最小サイズのllg,すなわち$z_2(w)=z_2(w=1)$から任意のサイズのllgのサブリーディング固有値を抽出できることを解析的に導出し,数値的に検証した。 LLGの対称性と再帰構造を用いて、汎用多体量子カオス回路の普遍的な側面について、2つの予想を提案し、1つはLLGの固有値の代数的縮退について、もう1つはLLGのサブリーディング固有値の幾何学的縮退についてである。 予想の系として、先導特異状態の漸近形式を解析的に導出し、積の状態変分アンサッツを漸近極限から遠ざけるように仮定し、効率的に計算することができる。 我々は、多体量子カオスの4つの汎用回路モデルを用いてクレームを数値的にテストし、これらの記述を双対ユニタリ系と可積分系の場合と比較する。

We study out-of-time-order correlators (OTOCs) of local operators in spatial-temporal invariant or random quantum circuits using light-like generators (LLG) -- many-body operators that exist in and act along the light-like directions. We demonstrate that the OTOC can be approximated by the leading singular value of the LLG, which, for the case of generic many-body chaotic circuits, is increasingly accurate as the size of the LLG, $w$, increases. We analytically show that the OTOC has a decay with a universal form in the light-like direction near the causal light cone, as dictated by the sub-leading eigenvalues of LLG, $z_2$, and their degeneracies. Further, we analytically derive and numerically verify that the sub-leading eigenvalues of LLG of any size can be accessibly extracted from those of LLG of the smallest size, i.e., $z_2(w)= z_2(w=1)$. Using symmetries and recursive structures of LLG, we propose two conjectures on the universal aspects of generic many-body quantum chaotic circuits, one on the algebraic degeneracy of eigenvalues of LLG, and another on the geometric degeneracy of the sub-leading eigenvalues of LLG. As corollaries of the conjectures, we analytically derive the asymptotic form of the leading singular state, which in turn allows us to postulate and efficiently compute a product-state variational ansatz away from the asymptotic limit. We numerically test the claims with four generic circuit models of many-body quantum chaos, and contrast these statements against the cases of a dual unitary system and an integrable system.
翻訳日:2023-08-31 12:33:06 公開日:2023-08-30
# 内在的・内在的信頼度評価による言語モデルからの回答の不確かさの定量化

Quantifying Uncertainty in Answers from any Language Model via Intrinsic and Extrinsic Confidence Assessment ( http://arxiv.org/abs/2308.16175v1 )

ライセンス: Link先を確認
Jiuhai Chen, Jonas Mueller(参考訳) 提案するBSDetectorは,事前学習された大規模言語モデルから,生成した任意の出力に対して数値的信頼度を推定することにより,悪い,投機的な応答を検出する手法である。 我々の不確実性定量化技術はブラックボックスAPIを通じてのみアクセス可能なLCMに対して有効であり、本質的および外在的な信頼評価を与えられたプロンプトに対するLM応答に対する単一の信頼性推定に組み合わせる。 我々の方法は極めて一般的であり、現在利用可能な最高のLCM(トレーニングデータは不明)すべてに適用できる。 ちょっとした余分な計算をすることで、どんなLLM APIのユーザでも、通常と同じレスポンスを得られるようになり、また、このレスポンスを信頼しない場合の信頼度推定も可能になった。 クローズドおよびオープンフォームのQA-Answerベンチマークの実験では、BSDetectorは代替の不確実性推定手順(GPT-3とChatGPTの両方)よりも、誤ったLCM応答をより正確に識別している。 LLMから複数の応答をサンプリングし、最も高い信頼度を持つ応答を考慮すれば、追加のトレーニングステップなしで同じLSMからより正確な応答を得ることができる。

We introduce BSDetector, a method for detecting bad and speculative answers from a pretrained Large Language Model by estimating a numeric confidence score for any output it generated. Our uncertainty quantification technique works for any LLM accessible only via a black-box API, and combines intrinsic and extrinsic assessments of confidence into a single trustworthiness estimate for any LLM response to a given prompt. Our method is extremely general and can applied to all of the best LLMs available today (whose training data remains unknown). By expending a bit of extra computation, users of any LLM API can now get the same response as they would ordinarily, as well as a confidence estimate that caution when not to trust this response. Experiments on both closed and open-form Question-Answer benchmarks reveal that BSDetector more accurately identifies incorrect LLM responses than alternative uncertainty estimation procedures (for both GPT-3 and ChatGPT). By sampling multiple responses from the LLM and considering the one with the highest confidence score, we can additionally obtain more accurate responses from the same LLM, without any extra training steps.
翻訳日:2023-08-31 12:32:34 公開日:2023-08-30
# トレンドフィルタリングによる時間空間モデル

Temporal-spatial model via Trend Filtering ( http://arxiv.org/abs/2308.16172v1 )

ライセンス: Link先を確認
Carlos Misael Madrid Padilla, Oscar Hernan Madrid Padilla, Daren Wang(参考訳) 本研究では,同時時間と空間依存性を考慮した非パラメトリック回帰関数の推定に着目する。 このような文脈で、Trend Filteringは、 \cite{mammen 1997locally} と \cite{rudin 1992nonlinear} によって導入された非パラメトリック推定器である。 不平等な設定の場合、我々が考慮する信号は、有界な全変動を持つkth弱微分を持つと仮定され、一般的な滑らかさの程度を許容する。 多変量解析のシナリオでは,一括リプシッツ連続性基準に準拠した有界変動を持つ信号に適合するADMMアルゴリズムを用いて,$K$-Nearest Neighbor fused lasso estimator を \cite{padilla2018adaptive} で検討する。 下界に合わせることにより、推定器の最小最適度が検証される。 傾向フィルタリング研究に従来未記載であった一意な相転移現象が,本解析によって明らかにされる。 シミュレーション研究と実データ応用はどちらも,既存の文献で確立された手法と比較して,本手法の優れた性能を示している。

This research focuses on the estimation of a non-parametric regression function designed for data with simultaneous time and space dependencies. In such a context, we study the Trend Filtering, a nonparametric estimator introduced by \cite{mammen1997locally} and \cite{rudin1992nonlinear}. For univariate settings, the signals we consider are assumed to have a kth weak derivative with bounded total variation, allowing for a general degree of smoothness. In the multivariate scenario, we study a $K$-Nearest Neighbor fused lasso estimator as in \cite{padilla2018adaptive}, employing an ADMM algorithm, suitable for signals with bounded variation that adhere to a piecewise Lipschitz continuity criterion. By aligning with lower bounds, the minimax optimality of our estimators is validated. A unique phase transition phenomenon, previously uncharted in Trend Filtering studies, emerges through our analysis. Both Simulation studies and real data applications underscore the superior performance of our method when compared with established techniques in the existing literature.
翻訳日:2023-08-31 12:32:11 公開日:2023-08-30
# 既存の顆粒の代数的, トポロジー的, メアロジー的基礎

Algebraic, Topological, and Mereological Foundations of Existential Granules ( http://arxiv.org/abs/2308.16157v1 )

ライセンス: Link先を確認
Mani A(参考訳) 本研究では, 自己を決定する実存顆粒の新しい概念を考案し, 代数的, 位相的, メレロジー的観点から特徴付ける。 既存の顆粒は最初は自分自身を決定づけ、その後環境と相互作用するものである。 グラニュラーボールの概念の例は、不適切な定義、アルゴリズムが確立され、他者による以前の研究で不十分に理論化されたが、既に粗い集合やソフトコンピューティングの応用に使われている。 粒度計算の複数の理論的枠組み(アダプティブ、アダプティブなど)に適合することが示されている。 特徴付けは、アルゴリズムの開発、分類問題への応用、およびアプローチの一般化の数学的基礎に関するものである。 さらに、多くのオープンな問題や指示が提示される。

In this research, new concepts of existential granules that determine themselves are invented, and are characterized from algebraic, topological, and mereological perspectives. Existential granules are those that determine themselves initially, and interact with their environment subsequently. Examples of the concept, such as those of granular balls, though inadequately defined, algorithmically established, and insufficiently theorized in earlier works by others, are already used in applications of rough sets and soft computing. It is shown that they fit into multiple theoretical frameworks (axiomatic, adaptive, and others) of granular computing. The characterization is intended for algorithm development, application to classification problems and possible mathematical foundations of generalizations of the approach. Additionally, many open problems are posed and directions provided.
翻訳日:2023-08-31 12:31:52 公開日:2023-08-30
# MMVP:モーションマトリックスによる映像予測

MMVP: Motion-Matrix-based Video Prediction ( http://arxiv.org/abs/2308.16154v1 )

ライセンス: Link先を確認
Yiqi Zhong, Luming Liang, Ilya Zharkov, Ulrich Neumann(参考訳) ビデオ予測の中心的な課題は、システムがフレーム間の外観の一貫性を保ちながら、画像フレームからオブジェクトの将来の動きを推論しなければならないところにある。 この課題に対処するために、エンドツーエンドのトレーニング可能な2ストリームビデオ予測フレームワークであるMotion-Matrix-based Video Prediction (MMVP)を導入する。 動作予測と外観維持を同じモジュールセット内で行う従来の方法とは異なり、MMVPは外見に依存しない動き行列を構築して動きと外観情報を分離する。 動き行列は、入力フレーム内の各および各特徴パッチの時間的類似性を表し、mmvpにおける動き予測モジュールの唯一の入力である。 この設計は、精度と効率の両方で映像予測を改善し、モデルサイズを小さくする。 広範な実験の結果、mmvpは、非無視可能な大きなマージン(psnr、utfスポーツの約1db)によって、公開データセットの最先端システムよりもかなり小さいモデルサイズ(84%または小さい)で優れていることが証明された。 公式コードと本論文で使用されるデータセットについて、https://github.com/Kay1794/MMVP-motion-matrix-based-video-predictionを参照してください。

A central challenge of video prediction lies where the system has to reason the objects' future motions from image frames while simultaneously maintaining the consistency of their appearances across frames. This work introduces an end-to-end trainable two-stream video prediction framework, Motion-Matrix-based Video Prediction (MMVP), to tackle this challenge. Unlike previous methods that usually handle motion prediction and appearance maintenance within the same set of modules, MMVP decouples motion and appearance information by constructing appearance-agnostic motion matrices. The motion matrices represent the temporal similarity of each and every pair of feature patches in the input frames, and are the sole input of the motion prediction module in MMVP. This design improves video prediction in both accuracy and efficiency, and reduces the model size. Results of extensive experiments demonstrate that MMVP outperforms state-of-the-art systems on public data sets by non-negligible large margins (about 1 db in PSNR, UCF Sports) in significantly smaller model sizes (84% the size or smaller). Please refer to https://github.com/Kay1794/MMVP-motion-matrix-based-video-prediction for the official code and the datasets used in this paper.
翻訳日:2023-08-31 12:31:38 公開日:2023-08-30
# 量子オートエンコーダによる剛性雑音低減

Rigorous noise reduction with quantum autoencoders ( http://arxiv.org/abs/2308.16153v1 )

ライセンス: Link先を確認
Wai-Keong Mok, Hui Zhang, Tobias Haug, Xianshu Luo, Guo-Qiang Lo, Hong Cai, M. S. Kim, Ai Qun Liu and Leong-Chuan Kwek(参考訳) 量子システムにおけるノイズの低減は、量子技術の適用に対する大きな課題である。 本稿では,厳密な性能保証を有する量子オートエンコーダを用いた雑音低減手法を提案する。 量子オートエンコーダはノイズのある量子状態を潜在部分空間に圧縮し、投影的測定によってノイズを除去する。 高騒音レベルであっても、元の状態を完璧に再構築できる様々なノイズモデルが見つかる。 オートエンコーダを地中熱状態の冷却に応用し, マジックステート蒸留のコストを数桁削減する。 当社のオートエンコーダは,アシラのないユニタリ変換のみを使用して実装することが可能です。 フォトニック集積回路におけるノイズ低減手法を実験的に実証した。 量子テクノロジーをノイズに対してより堅牢にするために、結果は直接適用できます。

Reducing noise in quantum systems is a major challenge towards the application of quantum technologies. Here, we propose and demonstrate a scheme to reduce noise using a quantum autoencoder with rigorous performance guarantees. The quantum autoencoder learns to compresses noisy quantum states into a latent subspace and removes noise via projective measurements. We find various noise models where we can perfectly reconstruct the original state even for high noise levels. We apply the autoencoder to cool thermal states to the ground state and reduce the cost of magic state distillation by several orders of magnitude. Our autoencoder can be implemented using only unitary transformations without ancillas, making it immediately compatible with the state of the art. We experimentally demonstrate our methods to reduce noise in a photonic integrated circuit. Our results can be directly applied to make quantum technologies more robust to noise.
翻訳日:2023-08-31 12:31:14 公開日:2023-08-30
# ロバスト欠陥定位のためのサンプルとマスクの関係を探る

Exploring the Relationship between Samples and Masks for Robust Defect Localization ( http://arxiv.org/abs/2306.10720v3 )

ライセンス: Link先を確認
Jiang Lin, Yaping Yan(参考訳) Defect detection aims to detect and localize regions out of the normal distribution.Previous approaches model normality and compare it with the input to identify defective regions, potentially limiting their generalizability.This paper proposes a one-stage framework that detects defective patterns directly without the modeling process.This ability is adopted through the joint efforts of three parties: a generative adversarial network (GAN), a newly proposed scaled pattern loss, and a dynamic masked cycle-consistent auxiliary network. 挑戦的なmvtec adデータセットのテクスチャクラスにおける実験結果から, f1-score の sota メソッドよりも2.9\%高いが, 一般化可能性では sota メソッドを実質的に上回っていることがわかった。

Defect detection aims to detect and localize regions out of the normal distribution.Previous approaches model normality and compare it with the input to identify defective regions, potentially limiting their generalizability.This paper proposes a one-stage framework that detects defective patterns directly without the modeling process.This ability is adopted through the joint efforts of three parties: a generative adversarial network (GAN), a newly proposed scaled pattern loss, and a dynamic masked cycle-consistent auxiliary network. Explicit information that could indicate the position of defects is intentionally excluded to avoid learning any direct mapping.Experimental results on the texture class of the challenging MVTec AD dataset show that the proposed method is 2.9\% higher than the SOTA methods in F1-Score, while substantially outperforming SOTA methods in generalizability.
翻訳日:2023-08-31 10:45:58 公開日:2023-08-30
# 離散ウェーブレット変換と生成逆ネットワークに基づくカラー文書画像の3段階二元化

Three-stage binarization of color document images based on discrete wavelet transform and generative adversarial networks ( http://arxiv.org/abs/2211.16098v5 )

ライセンス: Link先を確認
Rui-Yang Ju, Yu-Shian Lin, Chih-Chia Chen, Chun-Tse Chien, Jen-Shiun Chiang(参考訳) 劣化したカラー文書画像における背景テキスト情報の効率的なセグメンテーションは、古写本の保存において重要な課題である。 古写本の不完全な保存は、染色、黄化、インクの浸出など様々な種類の劣化を招き、画像のバイナライゼーションの結果に大きな影響を与えている。 本研究では、離散ウェーブレット変換(DWT)による劣化したカラー文書画像の強調とバイナライズにGAN(Generative Adversarial Networks)を用いた3段階手法を提案する。 ステージ1はDWTを適用し、ローロー(LL)サブバンドイメージを画像強調のために保持する。 ステージ2では、元の入力画像を4つの単一チャネルイメージ(赤、緑、青、グレー)に分割し、それぞれが独立した敵ネットワークでトレーニングされ、色フォアグラウンド情報を抽出する。 ステージ3では、ステージ2からの出力画像と元の入力画像を用いて、文書二項化のための独立した敵ネットワークを訓練し、グローバルな特徴とローカルな特徴の統合を可能にする。 実験の結果,提案手法は文書画像二元化コンテスト(DIBCO)データセットにおいて,従来のSOTA法よりも優れていた。 実装コードはhttps://github.com/abcpp12383/ThreeStageBinarizationでリリースしました。

The efficient segmentation of foreground text information from the background in degraded color document images is a critical challenge in the preservation of ancient manuscripts. The imperfect preservation of ancient manuscripts over time has led to various types of degradation, such as staining, yellowing, and ink seepage, significantly affecting image binarization results. This work proposes a three-stage method using Generative Adversarial Networks (GAN) for enhancing and binarizing degraded color document images through Discrete Wavelet Transform (DWT). Stage-1 involves applying DWT and retaining the Low-Low (LL) subband images for image enhancement. In Stage-2, the original input image is divided into four single-channel images (Red, Green, Blue, and Gray), and each is trained with independent adversarial networks to extract color foreground information. In Stage-3, the output image from Stage-2 and the original input image are used to train independent adversarial networks for document binarization, enabling the integration of global and local features. The experimental results demonstrate that our proposed method outperforms other classic and state-of-the-art (SOTA) methods on the Document Image Binarization Contest (DIBCO) datasets. We have released our implementation code at https://github.com/abcpp12383/ThreeStageBinarization.
翻訳日:2023-08-31 10:45:45 公開日:2023-08-30
# BCGGANを用いた同時脳波-fMRIにおけるBallistocardiogramアーチファクト除去

BCGGAN: Ballistocardiogram artifact removal in simultaneous EEG-fMRI using generative adversarial network ( http://arxiv.org/abs/2011.01710v4 )

ライセンス: Link先を確認
Guang Lin, Jianhai Zhang, Yuxi Liu, Tianyang Gao, Wanzeng Kong, Xu Lei, Tao Qiu(参考訳) 高時間分解能と空間分解能の利点により、同時脳波機能型磁気共鳴画像(EEG-fMRI)の取得と解析技術が注目され、脳科学の様々な研究分野で広く利用されている。 しかし、脳のfMRIでは、BCG(Ballistocardiogram)アーティファクトが脳波を著しく汚染する可能性がある。 未解決の問題として、BCGのアーティファクトの削除は依然としてかなりの課題である。 提案手法は,各モジュールのパラメータを最適化することにより,ネットワーク性能を向上させるための新しいモジュール生成対向ネットワーク(GAN)とそれに対応するトレーニング戦略を提案する。 このようにして,ネットワークモデルの局所表現能力を改善し,その全体的な性能を改善し,bcgアーティファクト除去のための信頼性の高いジェネレータを得ることを期待する。 さらに,提案手法は,追加の参照信号や複雑なハードウェア機器に依存しない。 実験の結果,本論文で提示する手法は,複数の手法と比較して,本研究の脳波情報を保持しつつ,bcgアーチファクトをより効果的に除去できることがわかった。

Due to its advantages of high temporal and spatial resolution, the technology of simultaneous electroencephalogram-functional magnetic resonance imaging (EEG-fMRI) acquisition and analysis has attracted much attention, and has been widely used in various research fields of brain science. However, during the fMRI of the brain, ballistocardiogram (BCG) artifacts can seriously contaminate the EEG. As an unpaired problem, BCG artifact removal now remains a considerable challenge. Aiming to provide a solution, this paper proposed a novel modular generative adversarial network (GAN) and corresponding training strategy to improve the network performance by optimizing the parameters of each module. In this manner, we hope to improve the local representation ability of the network model, thereby improving its overall performance and obtaining a reliable generator for BCG artifact removal. Moreover, the proposed method does not rely on additional reference signal or complex hardware equipment. Experimental results show that, compared with multiple methods, the technique presented in this paper can remove the BCG artifact more effectively while retaining essential EEG information.
翻訳日:2023-08-31 10:45:24 公開日:2023-08-30
# 不正確なニューラルネットワークを用いた分布ロバストな統計的検証

Distributionally Robust Statistical Verification with Imprecise Neural Networks ( http://arxiv.org/abs/2308.14815v2 )

ライセンス: Link先を確認
Souradeep Dutta, Michele Caprio, Vivian Lin, Matthew Cleaveland, Kuk Jin Jang, Ivan Ruchkin, Oleg Sokolsky, Insup Lee(参考訳) AI安全性における特に困難な問題は、高次元自律システムの振る舞いを保証することだ。 到達可能性分析を中心とした検証アプローチはスケールに失敗し、純粋に統計的アプローチはサンプリングプロセスに関する分布仮定によって制約される。 代わりに、ブラックボックスシステムに対する統計的検証問題の分布的に堅牢なバージョンを、我々の性能保証が大きな分布群を抑えるようにしている。 本稿では,アクティブラーニングと不確実性定量化,ニューラルネットワークの検証を組み合わせた新しい手法を提案する。 私たちのアプローチの中心となるのは、能動的学習を導く不確実性を提供するImprecise Neural Networksと呼ばれるアンサンブル技術です。 アクティブラーニングは、徹底的なニューラルネットワーク検証ツールsherlockを使用してサンプルを収集する。 openai gym mujoco環境における複数の物理シミュレータの強化学習制御による評価により,高次元システムに対する有用でスケーラブルな保証を提供することができることを示した。

A particularly challenging problem in AI safety is providing guarantees on the behavior of high-dimensional autonomous systems. Verification approaches centered around reachability analysis fail to scale, and purely statistical approaches are constrained by the distributional assumptions about the sampling process. Instead, we pose a distributionally robust version of the statistical verification problem for black-box systems, where our performance guarantees hold over a large family of distributions. This paper proposes a novel approach based on a combination of active learning, uncertainty quantification, and neural network verification. A central piece of our approach is an ensemble technique called Imprecise Neural Networks, which provides the uncertainty to guide active learning. The active learning uses an exhaustive neural-network verification tool Sherlock to collect samples. An evaluation on multiple physical simulators in the openAI gym Mujoco environments with reinforcement-learned controllers demonstrates that our approach can provide useful and scalable guarantees for high-dimensional systems.
翻訳日:2023-08-31 10:41:27 公開日:2023-08-30
# ソーシャルメディア上での競合イベントへのドメインベースユーザ埋め込み

Domain-based user embedding for competing events on social media ( http://arxiv.org/abs/2308.14806v2 )

ライセンス: Link先を確認
Wentao Xu, Kazutoshi Sasahara(参考訳) オンラインソーシャルネットワークは計算社会科学に膨大な機会を提供するが、ダウンストリームタスクには効果的なユーザー埋め込みが重要である。 従来、研究者は度数や集中度などのネットワークベースの機能や、投稿やリポストなどのコンテンツベースの機能を使ってきた。 しかし,これらの対策はソーシャルメディア利用者の複雑な特徴を捉えていない可能性がある。 本研究では,urlドメイン共起ネットワークに基づくユーザ埋め込み手法を提案する。 我々は,covid-19インフォデミックトピック(qanon, biden, ivermectin)に関連するtwitterユーザを含むベンチマークデータセットを用いて,バイナリ分類タスクにおけるこの手法の性能を評価した。 以上の結果から,retweetネットワークから直接発生するユーザ埋め込みと,言語に基づくユーザ埋め込みが期待を下回る結果となった。 対照的に、ドメインベースの埋め込みは計算時間を短縮しながらこれらの手法よりも優れていた。 これらの結果から, 政治的キャンペーンや公衆衛生危機など, 競合するイベントに参加するソーシャルメディア利用者を特徴付ける効果的なツールとして, ドメインベースのユーザ埋め込みが有効であることが示唆された。

Online social networks offer vast opportunities for computational social science, but effective user embedding is crucial for downstream tasks. Traditionally, researchers have used pre-defined network-based user features, such as degree, and centrality measures, and/or content-based features, such as posts and reposts. However, these measures may not capture the complex characteristics of social media users. In this study, we propose a user embedding method based on the URL domain co-occurrence network, which is simple but effective for representing social media users in competing events. We assessed the performance of this method in binary classification tasks using benchmark datasets that included Twitter users related to COVID-19 infodemic topics (QAnon, Biden, Ivermectin). Our results revealed that user embeddings generated directly from the retweet network, and those based on language, performed below expectations. In contrast, our domain-based embeddings outperformed these methods while reducing computation time. These findings suggest that the domain-based user embedding can serve as an effective tool to characterize social media users participating in competing events, such as political campaigns and public health crises.
翻訳日:2023-08-31 10:41:11 公開日:2023-08-30
# マルコフ決定過程のエンティティ埋め込みとエージェントアンサンブルによるエージェントポリシーの文脈対応構成

Context-Aware Composition of Agent Policies by Markov Decision Process Entity Embeddings and Agent Ensembles ( http://arxiv.org/abs/2308.14521v2 )

ライセンス: Link先を確認
Nicole Merkle, Ralf Mikut(参考訳) 計算エージェントは生命の多くの領域で人間をサポートし、従って異質な文脈で見られる。 これは、急速に変化する環境で動作し、巨大な状態とアクション空間に直面することができることを意味する。 サービスを実行し、目標指向の方法で活動を行うためには、エージェントは事前の知識を必要とし、従ってコンテキスト依存のポリシーを開発し、追求しなければならない。 しかし、特に動的に変化する環境において、事前に規定する政策は限定的で柔軟性がない。 さらに、エージェントのコンテキストはアクションの選択を決定する。 環境は状態の数や実行可能な行動の点で確率的かつ複雑であるため、活動は通常マルコフの決定プロセスによって単純化された方法でモデル化され、例えば、強化学習を持つエージェントがポリシーを学習することができる。 しかし、強化学習を用いたあらゆる可能な文脈に対する訓練方針は時間がかかる。 エージェントの要求と課題は、迅速に戦略を学習し、インターネット、サービスロボティクス、サイバー物理システムなど、コンテキスト横断環境やアプリケーションで即座に対応することである。 本研究では,シミュレーションに基づく新しい手法を提案する。 イ 知識グラフ及び実体埋め込みによる異質な文脈の表現 b) 並行して実行されるエージェントの集合による需要政策の文脈対応構成 仮想ホーム」データセットを用いて行った評価は、異なるコンテキスト間でシームレスに切り替える必要のあるエージェントが、強化学習を利用するエージェントとは対照的に、これらのポリシーを長い訓練ステップやエピソードで学ぶことなく、状況に合った活動の完了につながるオンデマンド構成ポリシーを要求できることを示している。

Computational agents support humans in many areas of life and are therefore found in heterogeneous contexts. This means they operate in rapidly changing environments and can be confronted with huge state and action spaces. In order to perform services and carry out activities in a goal-oriented manner, agents require prior knowledge and therefore have to develop and pursue context-dependent policies. However, prescribing policies in advance is limited and inflexible, especially in dynamically changing environments. Moreover, the context of an agent determines its choice of actions. Since the environments can be stochastic and complex in terms of the number of states and feasible actions, activities are usually modelled in a simplified way by Markov decision processes so that, e.g., agents with reinforcement learning are able to learn policies, that help to capture the context and act accordingly to optimally perform activities. However, training policies for all possible contexts using reinforcement learning is time-consuming. A requirement and challenge for agents is to learn strategies quickly and respond immediately in cross-context environments and applications, e.g., the Internet, service robotics, cyber-physical systems. In this work, we propose a novel simulation-based approach that enables a) the representation of heterogeneous contexts through knowledge graphs and entity embeddings and b) the context-aware composition of policies on demand by ensembles of agents running in parallel. The evaluation we conducted with the "Virtual Home" dataset indicates that agents with a need to switch seamlessly between different contexts, can request on-demand composed policies that lead to the successful completion of context-appropriate activities without having to learn these policies in lengthy training steps and episodes, in contrast to agents that use reinforcement learning.
翻訳日:2023-08-31 10:40:52 公開日:2023-08-30
# LAC-スケルトンに基づくアクションセグメンテーションのための潜在アクション組成

LAC -- Latent Action Composition for Skeleton-based Action Segmentation ( http://arxiv.org/abs/2308.14500v2 )

ライセンス: Link先を確認
Di Yang, Yaohui Wang, Antitza Dantcheva, Quan Kong, Lorenzo Garattoni, Gianpiero Francesca, Francois Bremond(参考訳) スケルトンベースのアクションセグメンテーションは、未トリミングビデオにおける合成可能なアクションを認識する必要がある。 現在のアプローチでは、まずスケルトン配列から局所的な視覚的特徴を抽出し、時間モデルで処理し、フレームワイズアクションを分類することでこの問題を分離している。 しかし、視覚機能は構成可能なアクションを十分に表現できないため、パフォーマンスは限られている。 本研究では,骨格をベースとしたアクションセグメンテーションのための合成可能な動作から学習することを目的とした,新しい自己教師型フレームワークであるLatent Action composition (LAC)を提案する。 LACは新規な生成モジュールからなり、新しい配列を合成する。 具体的には、原始運動を表現するために発電機内の線形潜在空間を設計する。 複数入力スケルトンシーケンスの潜在表現を算術演算することで、新しい合成動作を合成することができる。 LACは、大きな多様性と複雑さを持つ合成配列を利用して、コントラスト学習を通じて、シーケンスとフレーム空間の両方における骨格の視覚的表現を学習する。 生成したビジュアルエンコーダは表現力が高く、追加の時間モデルを必要としないエンドツーエンドの微調整によりアクションセグメンテーションタスクに効果的に転送できる。 トランスファーラーニングに着目した研究を行い,前訓練されたlacから得られた表現が,津,チャレード,pku-mmdデータセットにおいて,最先端技術よりも大きなマージンを持つことを示した。

Skeleton-based action segmentation requires recognizing composable actions in untrimmed videos. Current approaches decouple this problem by first extracting local visual features from skeleton sequences and then processing them by a temporal model to classify frame-wise actions. However, their performances remain limited as the visual features cannot sufficiently express composable actions. In this context, we propose Latent Action Composition (LAC), a novel self-supervised framework aiming at learning from synthesized composable motions for skeleton-based action segmentation. LAC is composed of a novel generation module towards synthesizing new sequences. Specifically, we design a linear latent space in the generator to represent primitive motion. New composed motions can be synthesized by simply performing arithmetic operations on latent representations of multiple input skeleton sequences. LAC leverages such synthesized sequences, which have large diversity and complexity, for learning visual representations of skeletons in both sequence and frame spaces via contrastive learning. The resulting visual encoder has a high expressive power and can be effectively transferred onto action segmentation tasks by end-to-end fine-tuning without the need for additional temporal models. We conduct a study focusing on transfer-learning and we show that representations learned from pre-trained LAC outperform the state-of-the-art by a large margin on TSU, Charades, PKU-MMD datasets.
翻訳日:2023-08-31 10:40:20 公開日:2023-08-30
# 離散潜在空間における優先中心人間の運動生成

Priority-Centric Human Motion Generation in Discrete Latent Space ( http://arxiv.org/abs/2308.14480v2 )

ライセンス: Link先を確認
Hanyang Kong, Kehong Gong, Dongze Lian, Michael Bi Mi, Xinchao Wang(参考訳) テキスト対モーション生成(text-to-motion generation)は、人間の能力や物理法則に固執しながら、入力テキストに合わせた人間の動きを作り出すことを目的としている。 拡散模型の進歩はあったが、離散空間におけるそれらの応用は未検討のままである。 現在の方法はしばしば異なる動きの様々な重要性を見落とし、それらを一様に扱う。 すべての動きが特定のテキスト記述と同一の関連性を持つとは限らないことを認識することが不可欠である。 より健全で情報的な動きは世代によって優先されるべきである。 そこで我々は,トランスフォーマーをベースとしたVQ-VAEを用いて,簡潔かつ離散的な動作表現を導出し,グローバルな自己認識機構と正規化項を組み込んでコード崩壊に対処する優先性中心運動離散拡散モデル(M2DM)を提案する。 また,全動き列における各動きトークンの重要度によって決定される,革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。 このアプローチは逆拡散過程において最も顕著な動きを保ち、より意味的に豊かで多様な動きをもたらす。 さらに,文字と視覚の指標から,モーショントークンの重要性を計測するための2つの戦略を定式化した。 HumanML3DおよびKIT-MLデータセットに関する総合的な実験により、我々のモデルは、特に複雑なテキスト記述のために、忠実さと多様性の既存の技術を超えることが確認された。

Text-to-motion generation is a formidable task, aiming to produce human motions that align with the input text while also adhering to human capabilities and physical laws. While there have been advancements in diffusion models, their application in discrete spaces remains underexplored. Current methods often overlook the varying significance of different motions, treating them uniformly. It is essential to recognize that not all motions hold the same relevance to a particular textual description. Some motions, being more salient and informative, should be given precedence during generation. In response, we introduce a Priority-Centric Motion Discrete Diffusion Model (M2DM), which utilizes a Transformer-based VQ-VAE to derive a concise, discrete motion representation, incorporating a global self-attention mechanism and a regularization term to counteract code collapse. We also present a motion discrete diffusion model that employs an innovative noise schedule, determined by the significance of each motion token within the entire motion sequence. This approach retains the most salient motions during the reverse diffusion process, leading to more semantically rich and varied motions. Additionally, we formulate two strategies to gauge the importance of motion tokens, drawing from both textual and visual indicators. Comprehensive experiments on the HumanML3D and KIT-ML datasets confirm that our model surpasses existing techniques in fidelity and diversity, particularly for intricate textual descriptions.
翻訳日:2023-08-31 10:39:53 公開日:2023-08-30
# 非意味的音声課題に対する注意と自己教師付き音声埋め込みの効果

Effect of Attention and Self-Supervised Speech Embeddings on Non-Semantic Speech Tasks ( http://arxiv.org/abs/2308.14359v2 )

ライセンス: Link先を確認
Payal Mohapatra, Akash Pandey, Yueyuan Sui, Qi Zhu(参考訳) 人間の感情理解は会話型テクノロジーを主流にする上で重要である。 我々は、音声の感情理解を、より現実的な認識課題と見なしている。 さまざまな状況(言語、人口統計など)において、異なる人々のシェアは、非満場一致の感情と同じ音声セグメントを知覚する。 ACM Multimedia 2023 Computational Paralinguistics ChallengE (ComParE) in the EMotion Share Trackでは、多言語話者の豊富なデータセットと「感情共有」のマルチラベル回帰目標を活用。 異なる基礎モデルのトレーニングスキームは、音声認識以外のタスク、特に感情理解のような非意味的な音声タスクに有効であることを示す。 これは、多言語話者、ターゲットラベルのばらつき、回帰データセットの固有の不均衡による非常に複雑なタスクである。 以上の結果から,hubert-largeは自己着眼に基づく軽量シーケンスモデルにより,ベースラインの4.6%向上した。

Human emotion understanding is pivotal in making conversational technology mainstream. We view speech emotion understanding as a perception task which is a more realistic setting. With varying contexts (languages, demographics, etc.) different share of people perceive the same speech segment as a non-unanimous emotion. As part of the ACM Multimedia 2023 Computational Paralinguistics ChallengE (ComParE) in the EMotion Share track, we leverage their rich dataset of multilingual speakers and multi-label regression target of 'emotion share' or perception of that emotion. We demonstrate that the training scheme of different foundation models dictates their effectiveness for tasks beyond speech recognition, especially for non-semantic speech tasks like emotion understanding. This is a very complex task due to multilingual speakers, variability in the target labels, and inherent imbalance in the regression dataset. Our results show that HuBERT-Large with a self-attention-based light-weight sequence model provides 4.6% improvement over the reported baseline.
翻訳日:2023-08-31 10:39:27 公開日:2023-08-30
# 局所アンラッピング変圧器を用いた非剛性物体接触推定

Nonrigid Object Contact Estimation With Regional Unwrapping Transformer ( http://arxiv.org/abs/2308.14074v2 )

ライセンス: Link先を確認
Wei Xie, Zimeng Zhao, Shiying Li, Binghui Zuo, Yangang Wang(参考訳) 手と非剛性物体の接触パターンを取得することは、ビジョンとロボティクスのコミュニティで共通の関心事である。 しかし、既存の学習ベースの手法は、単眼画像からの剛体画像との接触をより重視している。 非厳密な接触に採用する場合、既存の接触表現が対象の幾何学によって制限されるのが大きな問題である。 これにより、接触近傍を無秩序に記憶し、接触特徴を画像手がかりと整合させるのが困難となる。 我々のアプローチの核心は、RUP(Region Unwrapping Profiles)と呼ばれる新しいハンドオブジェクト接触表現で、推定されたハンドオブジェクト表面を複数の高解像度の2D領域プロファイルとして開放する。 領域分類戦略は, 複合接触パターンの原始的開始因子であるため, 手の運動学的骨分割と一致している。 この表現に基づいて, 局所的アンラッピングトランスフォーマ(ruformer)は, 単眼入力から領域間の相関前処理を学習し, 対応する接触・変形変換を予測する。 本実験は, 変形度と変形度を頑健に推定できることを示し, 非剛性・剛性両面に適合することを示した。

Acquiring contact patterns between hands and nonrigid objects is a common concern in the vision and robotics community. However, existing learning-based methods focus more on contact with rigid ones from monocular images. When adopting them for nonrigid contact, a major problem is that the existing contact representation is restricted by the geometry of the object. Consequently, contact neighborhoods are stored in an unordered manner and contact features are difficult to align with image cues. At the core of our approach lies a novel hand-object contact representation called RUPs (Region Unwrapping Profiles), which unwrap the roughly estimated hand-object surfaces as multiple high-resolution 2D regional profiles. The region grouping strategy is consistent with the hand kinematic bone division because they are the primitive initiators for a composite contact pattern. Based on this representation, our Regional Unwrapping Transformer (RUFormer) learns the correlation priors across regions from monocular inputs and predicts corresponding contact and deformed transformations. Our experiments demonstrate that the proposed framework can robustly estimate the deformed degrees and deformed transformations, which makes it suitable for both nonrigid and rigid contact.
翻訳日:2023-08-31 10:38:45 公開日:2023-08-30
# MB-TaylorFormer:テイラー式で展開したマルチブランチ高効率変換器

MB-TaylorFormer: Multi-branch Efficient Transformer Expanded by Taylor Formula for Image Dehazing ( http://arxiv.org/abs/2308.14036v2 )

ライセンス: Link先を確認
Yuwei Qiu, Kaihao Zhang, Chenxi Wang, Wenhan Luo, Hongdong Li and Zhi Jin(参考訳) 近年、トランスフォーマーネットワークは、コンピュータビジョンの分野における純粋畳み込みニューラルネットワーク(cnns)を、そのグローバル受容領域と入力への適応性によって置き換え始めている。 しかし、ソフトマックスアテンションの2次計算複雑性は、特に高解像度画像において、画像デハージングタスクの幅広い適用を制限する。 この問題に対処するために,Taylor拡張を適用してソフトマックスアテンションを近似し,線形計算複雑性を実現するトランスフォーマー変種を提案する。 テイラー展開の誤差を補正するための補足として,マルチスケール注意調整モジュールを提案する。 さらに,提案するトランスフォーマーにマルチスケールパッチを組み込むマルチブランチアーキテクチャを導入し,異なるスケールの変形可能な畳み込みを重ね合わせて特徴を組み込む。 マルチスケールパッチ埋め込みの設計は、3つの主要なアイデアに基づいている。 1) 受容領域のさまざまな大きさ 2) 多段階意味情報 3)受容野の柔軟な形状。 Taylor式(MB-TaylorFormer)によって拡張されたMulti-branch Transformerと呼ばれるこのモデルは、パッチ埋め込み段階でより柔軟に粗い特徴を埋め込むことができ、計算コストの制限により長距離画素間相互作用を捉えることができる。 いくつかのデハージングベンチマークの実験結果から,MB-TaylorFormerは計算負荷の少ないSOTA(State-of-the-art)性能を達成した。 ソースコードと事前訓練されたモデルはhttps://github.com/FVL2020/ICCV-2023-MB-TaylorFormerで入手できる。

In recent years, Transformer networks are beginning to replace pure convolutional neural networks (CNNs) in the field of computer vision due to their global receptive field and adaptability to input. However, the quadratic computational complexity of softmax-attention limits the wide application in image dehazing task, especially for high-resolution images. To address this issue, we propose a new Transformer variant, which applies the Taylor expansion to approximate the softmax-attention and achieves linear computational complexity. A multi-scale attention refinement module is proposed as a complement to correct the error of the Taylor expansion. Furthermore, we introduce a multi-branch architecture with multi-scale patch embedding to the proposed Transformer, which embeds features by overlapping deformable convolution of different scales. The design of multi-scale patch embedding is based on three key ideas: 1) various sizes of the receptive field; 2) multi-level semantic information; 3) flexible shapes of the receptive field. Our model, named Multi-branch Transformer expanded by Taylor formula (MB-TaylorFormer), can embed coarse to fine features more flexibly at the patch embedding stage and capture long-distance pixel interactions with limited computational cost. Experimental results on several dehazing benchmarks show that MB-TaylorFormer achieves state-of-the-art (SOTA) performance with a light computational burden. The source code and pre-trained models are available at https://github.com/FVL2020/ICCV-2023-MB-TaylorFormer.
翻訳日:2023-08-31 10:38:22 公開日:2023-08-30
# 非エルミートハミルトニアンに対する擬PT対称性理論について:時間依存系

On the {\eta} pseudo PT symmetry theory for non-Hermitian Hamiltonians: time-dependent systems ( http://arxiv.org/abs/2308.13834v2 )

ライセンス: Link先を確認
Mustapha Maamache(参考訳) 非エルミート量子力学の文脈では、多くの系は擬pt対称性を持つこと、すなわち非ヘルミートハミルトニアン h は関係式 h^{{\dag}}=pthpt を介してその随伴 h^{{\dag}} と関連していることが知られている。 時間依存非ヘルミティアンハミルトニアンに対して,時間依存準ヘルミティティー関係を満たさずにハイゼンベルク発展方程式に従う新しい計量 {\eta}(t)=pt{\eta}(t) を導出することにより,擬pt対称性とpseudo-hermiticityの導出を提案する。 そこで本研究では,su(1,1)時間依存非エルミートハミルトニアンを解き,この新しい計量を用いて時間依存解を構築し,その具体的な物理応用について考察する。

In the context of non-Hermitian quantum mechanics, many systems are known to possess a pseudo PT symmetry , i.e. the non-Hermitian Hamiltonian H is related to its adjoint H^{{\dag}} via the relation, H^{{\dag}}=PTHPT . We propose a derivation of pseudo PT symmetry and {\eta} -pseudo-Hermiticity simultaneously for the time dependent non-Hermitian Hamiltonians by intoducing a new metric {\eta}(t)=PT{\eta}(t) that not satisfy the time-dependent quasi-Hermiticity relation but obeys the Heisenberg evolution equation. Here, we solve the SU(1,1) time-dependent non-Hermitian Hamiltonian and we construct a time-dependent solutions by employing this new metric and discuss a concrete physical applications of our results.
翻訳日:2023-08-31 10:37:57 公開日:2023-08-30
# 多目的政策最適化による強化学習における政策構成

Policy composition in reinforcement learning via multi-objective policy optimization ( http://arxiv.org/abs/2308.15470v2 )

ライセンス: Link先を確認
Shruti Mishra, Ankit Anand, Jordan Hoffmann, Nicolas Heess, Martin Riedmiller, Abbas Abdolmaleki, Doina Precup(参考訳) 強化学習エージェントは,既存の教員政策を活用し,行動方針を身につけることができる。 教師ポリシーは、タスク目的に加えて、多目的ポリシー最適化設定で目的として導入される。 本研究は,多目的最大後進政策最適化アルゴリズム(abdolmaleki et al. 2020)を用いて,教師の政策が学習のスピードアップに寄与することを示す。 連続的な観察と行動空間を持つ2つの領域において,我々のエージェントは,教師の方針を逐次かつ並列に構成し,その課題を解決するために教師の方針をさらに拡張することができる。 タスクと教師の組み合わせによっては、教師はエージェントの最終的なパフォーマンスを制限するために自然に行動することができる。 エージェントが教師の方針に従わなければならない程度はハイパーパラメーターによって決定され、教師の学習速度とエージェントの最終的なパフォーマンスがタスクに与える影響を判定する。 ヒューマノイドドメイン(tassa et al. 2018)では、エージェントに教師の選択を制御する能力も備えています。 この能力により、エージェントは教師の方針から有意義に構成することができ、教師の方針にアクセスできない場合よりも優れたタスク報酬を達成することができる。 構成した課題政策と対応する教員政策の類似性をビデオで示す。

We enable reinforcement learning agents to learn successful behavior policies by utilizing relevant pre-existing teacher policies. The teacher policies are introduced as objectives, in addition to the task objective, in a multi-objective policy optimization setting. Using the Multi-Objective Maximum a Posteriori Policy Optimization algorithm (Abdolmaleki et al. 2020), we show that teacher policies can help speed up learning, particularly in the absence of shaping rewards. In two domains with continuous observation and action spaces, our agents successfully compose teacher policies in sequence and in parallel, and are also able to further extend the policies of the teachers in order to solve the task. Depending on the specified combination of task and teacher(s), teacher(s) may naturally act to limit the final performance of an agent. The extent to which agents are required to adhere to teacher policies are determined by hyperparameters which determine both the effect of teachers on learning speed and the eventual performance of the agent on the task. In the humanoid domain (Tassa et al. 2018), we also equip agents with the ability to control the selection of teachers. With this ability, agents are able to meaningfully compose from the teacher policies to achieve a superior task reward on the walk task than in cases without access to the teacher policies. We show the resemblance of composed task policies with the corresponding teacher policies through videos.
翻訳日:2023-08-31 10:32:25 公開日:2023-08-30
# 近似比保証に必要なQAOAラウンド数に関する下限

Lower Bounds on Number of QAOA Rounds Required for Guaranteed Approximation Ratios ( http://arxiv.org/abs/2308.15442v2 )

ライセンス: Link先を確認
Naphan Benchasattabuse, Andreas B\"artschi, Luis Pedro Garc\'ia-Pintos, John Golden, Nathan Lemons and Stephan Eidenbenz(参考訳) 量子交互作用素 ansatz (qaoa) は、最大充足可能性のような組合せ最適化問題に対する高品質な近似解を見つけるためのヒューリスティックなハイブリッド量子古典アルゴリズムである。 QAOAはよく研究されているが、実行時や近似比の保証に関する理論的結果はまだ比較的少ない。 我々はQAOAに必要なラウンド数(QAOAランタイムの主要なコンポーネント)について、最初の下位境界をいくつか提示する。 私たちの主な成果は (i) 量子アニーリング時間とqaoaの角度との関係を利用して、保証された近似比に対してqaoaのラウンド数に対する下界を導出する。 我々は、Groverスタイルの混合ユニタリでこれを適用し、計算する。 (ii) このタイプのQAOAは、ほとんどの問題に対して定数近似比を保証するために少なくとも1つの多項式数を必要とすることを示す。 私たちも (iii) 有界関数は対象関数の統計値にのみ依存し、問題が$k$局所ハミルトニアンとしてモデル化できる場合、ハミルトニアンの係数から容易に推定できることを示す。 従来の横フィールドミキサーについて (iv)本フレームワークは,局所的な局所的コスト問題と厳密な$k$-ローカルなコストハミルトニアンは,これらのクラスからのいくつかの最適化問題に対して,定数近似比が一定のラウンドQAOAで得られることを既知の結果と一致する。 新たな証明フレームワークを使って (v)非構造化探索のためのGroverの下限を復元し、小さな修正を加えて、混合ユニタリの基底状態から始まるQAOAスタイルのサーチプロトコルに我々のバウンドが適用されることを示す。

The quantum alternating operator ansatz (QAOA) is a heuristic hybrid quantum-classical algorithm for finding high-quality approximate solutions to combinatorial optimization problems, such as Maximum Satisfiability. While QAOA is well-studied, theoretical results as to its runtime or approximation ratio guarantees are still relatively sparse. We provide some of the first lower bounds for the number of rounds (the dominant component of QAOA runtimes) required for QAOA. For our main result, (i) we leverage a connection between quantum annealing times and the angles of QAOA to derive a lower bound on the number of rounds of QAOA with respect to the guaranteed approximation ratio. We apply and calculate this bound with Grover-style mixing unitaries and (ii) show that this type of QAOA requires at least a polynomial number of rounds to guarantee any constant approximation ratios for most problems. We also (iii) show that the bound depends only on the statistical values of the objective functions, and when the problem can be modeled as a $k$-local Hamiltonian, can be easily estimated from the coefficients of the Hamiltonians. For the conventional transverse field mixer, (iv) our framework gives a trivial lower bound to all bounded occurrence local cost problems and all strictly $k$-local cost Hamiltonians matching known results that constant approximation ratio is obtainable with constant round QAOA for a few optimization problems from these classes. Using our novel proof framework, (v) we recover the Grover lower bound for unstructured search and -- with small modification -- show that our bound applies to any QAOA-style search protocol that starts in the ground state of the mixing unitaries.
翻訳日:2023-08-31 10:32:01 公開日:2023-08-30
# 不正確な測定による量子ステアリング

Quantum steering with imprecise measurements ( http://arxiv.org/abs/2308.15356v2 )

ライセンス: Link先を確認
Armin Tavakoli(参考訳) 我々は、信頼できる当事者が測定装置を完全に制御できると仮定することなく、量子ステアリング実験を研究する。 代わりに、これらの測定を小さな精度で行うシナリオを紹介します。 これらの結果から, 測定精度の低下は, 操舵の不等式に対する偽陽性の点で大きな影響を示し, この効果は高次元システムにさらに関係があることが示唆された。 次に,二部体操舵不等式試験における一般的な測定精度を考慮に入れた手法を提案する。 この方法で返される修正されたステアリング境界は解析的であり、容易に計算可能であり、任意の次元ステアリングテストの既知のファミリーにさえ最適である。 さらに、共有量子状態が分離可能である必要はなく、代わりに他の絡み合い特性によって制限される一般化量子ステアリングシナリオにも同じように適用できる。

We study quantum steering experiments without assuming that the trusted party can perfectly control their measurement device. Instead, we introduce a scenario in which these measurements are subject to small imprecision. We show that small measurement imprecision can have a large detrimental influence in terms of false positives for steering inequalities, and that this effect can become even more relevant for high-dimensional systems. We then introduce a method for taking generic measurement imprecision into account in tests of bipartite steering inequalities. The revised steering bounds returned by this method are analytical, easily computable, and are even optimal for well-known families of arbitrary-dimensional steering tests. Furthermore, it applies equally well to generalised quantum steering scenarios, where the shared quantum state does not need to be separable, but is instead limited by some other entanglement property.
翻訳日:2023-08-31 10:31:28 公開日:2023-08-30
# 拡散モデルにおける露光バイアスの解明

Elucidating the Exposure Bias in Diffusion Models ( http://arxiv.org/abs/2308.15321v2 )

ライセンス: Link先を確認
Mang Ning, Mingxiao Li, Jianlin Su, Albert Ali Salah, Itir Onal Ertugrul(参考訳) 拡散モデルは印象的な生成能力を示しているが、トレーニングとサンプリングの入力ミスマッチとして説明される「暴露バイアス」問題は、深い探索に欠けている。 本稿では,まずサンプリング分布を解析的にモデル化し,各サンプリングステップにおける予測誤差を露光バイアス問題の根本原因として分類し,拡散モデルにおける露光バイアス問題を体系的に検討する。 さらに,この問題に対する潜在的な解決策を議論し,直観的な指標を提案する。 露光バイアスの解明とともに,エプシロンスケーリング(Epsilon Scaling)と呼ばれる簡易かつ効果的でトレーニングのない手法を提案し,露光バイアスを緩和する。 Epsilon Scalingは,ネットワーク出力(Epsilon)をスケールダウンし,トレーニングとサンプリングの間の入力ミスマッチを緩和することにより,トレーニング段階で学習したベクトル場に近いサンプリング軌道を明示的に移動させる。 様々な拡散フレームワーク (ADM, DDPM/DDIM, LDM) の実験, 無条件および条件設定, 決定論的対確率的サンプリングにより, 提案手法の有効性が検証された。

Diffusion models have demonstrated impressive generative capabilities, but their 'exposure bias' problem, described as the input mismatch between training and sampling, lacks in-depth exploration. In this paper, we systematically investigate the exposure bias problem in diffusion models by first analytically modelling the sampling distribution, based on which we then attribute the prediction error at each sampling step as the root cause of the exposure bias issue. Furthermore, we discuss potential solutions to this issue and propose an intuitive metric for it. Along with the elucidation of exposure bias, we propose a simple, yet effective, training-free method called Epsilon Scaling to alleviate the exposure bias. We show that Epsilon Scaling explicitly moves the sampling trajectory closer to the vector field learned in the training phase by scaling down the network output (Epsilon), mitigating the input mismatch between training and sampling. Experiments on various diffusion frameworks (ADM, DDPM/DDIM, LDM), unconditional and conditional settings, and deterministic vs. stochastic sampling verify the effectiveness of our method.
翻訳日:2023-08-31 10:31:13 公開日:2023-08-30
# FurChat: オープンとクローズドドメインの対話と表情を組み合わせたLLMを用いた会話エージェント

FurChat: An Embodied Conversational Agent using LLMs, Combining Open and Closed-Domain Dialogue with Facial Expressions ( http://arxiv.org/abs/2308.15214v2 )

ライセンス: Link先を確認
Neeraj Cherakara, Finny Varghese, Sheena Shabana, Nivan Nelson, Abhiram Karukayil, Rohith Kulothungan, Mohammed Afil Farhan, Birthe Nesset, Meriam Moujahid, Tanvi Dinkar, Verena Rieser, Oliver Lemon(参考訳) 本研究では,大言語モデル (LLM) を用いて,アクセプティストとして機能し,表情とともにオープンドメインとクローズドドメインの対話を混合して生成できる対話エージェントの具体化を実証する。 このシステムをFurhatロボットにデプロイし、対話中に言語と非言語の両方の手がかりを利用できるようにした。 このシステムは、National Robotariumが自然の会話を通じて訪問者と対話し、施設、研究、ニュース、今後のイベントなどの情報を提供するように設計されている。 このシステムは最先端のgpt-3.5モデルを利用して、プロンプトエンジニアリングに基づいて、ドメイン一般の会話や表情とともにそのような情報を生成する。

We demonstrate an embodied conversational agent that can function as a receptionist and generate a mixture of open and closed-domain dialogue along with facial expressions, by using a large language model (LLM) to develop an engaging conversation. We deployed the system onto a Furhat robot, which is highly expressive and capable of using both verbal and nonverbal cues during interaction. The system was designed specifically for the National Robotarium to interact with visitors through natural conversations, providing them with information about the facilities, research, news, upcoming events, etc. The system utilises the state-of-the-art GPT-3.5 model to generate such information along with domain-general conversations and facial expressions based on prompt engineering.
翻訳日:2023-08-31 10:30:54 公開日:2023-08-30
# SpikeBERT: BERTから2段階の知識蒸留をトレーニングした言語スパイクフォーマ

SpikeBERT: A Language Spikformer Trained with Two-Stage Knowledge Distillation from BERT ( http://arxiv.org/abs/2308.15122v2 )

ライセンス: Link先を確認
Changze Lv, Tianlong Li, Jianhan Xu, Chenxi Gu, Zixuan Ling, Cenyuan Zhang, Xiaoqing Zheng, Xuanjing Huang(参考訳) spiking neural networks (snns)は、よりエネルギー効率の良い方法でディープニューラルネットワークを実装するための有望な手段を提供する。 しかし、言語タスクのための既存のSNNのネットワークアーキテクチャは単純すぎるため、ディープアーキテクチャは十分に検討されていないため、BERTのような主流のトランスフォーマーベースネットワークと比較して大きな性能差がある。 この目的のために,最近発表されたスパイキングトランス(すなわちspikformer)を改良し,言語タスクの処理を可能にするとともに,bert からの知識を大量のラベルなしテキストに蒸留し,同じトレーニング例で微調整されたbert からタスク固有インスタンスに微調整することにより,事前学習を組み合わせる2段階の知識蒸留法を提案する。 広範にわたる実験により、我々の手法で訓練されたSpikeBERTは、最先端のSNNより優れており、よりエネルギー消費の少ない英語と中国語のテキスト分類タスクにおいてBERTに匹敵する結果が得られた。

Spiking neural networks (SNNs) offer a promising avenue to implement deep neural networks in a more energy-efficient way. However, the network architectures of existing SNNs for language tasks are too simplistic, and deep architectures have not been fully explored, resulting in a significant performance gap compared to mainstream transformer-based networks such as BERT. To this end, we improve a recently-proposed spiking transformer (i.e., Spikformer) to make it possible to process language tasks and propose a two-stage knowledge distillation method for training it, which combines pre-training by distilling knowledge from BERT with a large collection of unlabelled texts and fine-tuning with task-specific instances via knowledge distillation again from the BERT fine-tuned on the same training examples. Through extensive experimentation, we show that the models trained with our method, named SpikeBERT, outperform state-of-the-art SNNs and even achieve comparable results to BERTs on text classification tasks for both English and Chinese with much less energy consumption.
翻訳日:2023-08-31 10:30:38 公開日:2023-08-30
# 音声対話のためのテキストベース対話状態トラッカーの適応

Adapting Text-based Dialogue State Tracker for Spoken Dialogues ( http://arxiv.org/abs/2308.15053v2 )

ライセンス: Link先を確認
Jaeseok Yoon, Seunghyun Hwang, Ran Han, Jeonguk Bang, Kee-Eung Kim(参考訳) 対話システム技術コンペティション(DSTC)を通じて対話システムに顕著な進歩があったが、音声インタフェースを用いた堅牢なタスク指向対話システムを構築する上での重要な課題の1つである。 テキストベースの対話システムでは、コーパスが書かれた大量のデータセットがあるが、音声対話を持つものは非常に少ないため、ほとんどが進歩している。 しかし、siriやalexaのような音声アシスタントシステムに見られるように、その成功を音声対話に移すことは実際的に重要である。 本稿では,dstc11における音声認識対話システム技術チャレンジトラックに参加する,高度に成功したモデルの構築に向けた技術努力について述べる。 本モデルは,(1)音声とテキストとのギャップを埋める自動音声認識誤り訂正,(2)スロット記述を用いたスロットと値を推定するテキストベース対話システム(d3st),(3)推定スロット値の誤りを復元するための後処理,の3つの主要モジュールからなる。 本研究は,音声対話コーパスにテキストベースの対話状態トラッカを適応させるために,明示的な自動音声認識誤り訂正モジュール,後処理,データ拡張を用いることが重要であることを示す。

Although there have been remarkable advances in dialogue systems through the dialogue systems technology competition (DSTC), it remains one of the key challenges to building a robust task-oriented dialogue system with a speech interface. Most of the progress has been made for text-based dialogue systems since there are abundant datasets with written corpora while those with spoken dialogues are very scarce. However, as can be seen from voice assistant systems such as Siri and Alexa, it is of practical importance to transfer the success to spoken dialogues. In this paper, we describe our engineering effort in building a highly successful model that participated in the speech-aware dialogue systems technology challenge track in DSTC11. Our model consists of three major modules: (1) automatic speech recognition error correction to bridge the gap between the spoken and the text utterances, (2) text-based dialogue system (D3ST) for estimating the slots and values using slot descriptions, and (3) post-processing for recovering the error of the estimated slot value. Our experiments show that it is important to use an explicit automatic speech recognition error correction module, post-processing, and data augmentation to adapt a text-based dialogue state tracker for spoken dialogue corpora.
翻訳日:2023-08-31 10:30:14 公開日:2023-08-30
# 最適輸送を考慮した合成特徴量による少数ショット物体検出

Few-Shot Object Detection via Synthetic Features with Optimal Transport ( http://arxiv.org/abs/2308.15005v2 )

ライセンス: Link先を確認
Anh-Khoa Nguyen Vu, Thanh-Toan Do, Vinh-Tiep Nguyen, Tam Le, Minh-Triet Tran, Tam V. Nguyen(参考訳) 少ないショットオブジェクト検出は、限られたトレーニングサンプルで画像内のオブジェクトを同時にローカライズし、分類することを目的としている。 しかし、既存の少数ショットオブジェクト検出手法のほとんどは、多様性に欠けるいくつかの新しいクラスの特徴を抽出することに焦点を当てている。 したがって、データ分散をキャプチャするには不十分かもしれない。 そこで本稿では,この制限に対処するために,新しいクラスに対して合成データを生成するようにジェネレータを訓練する新しい手法を提案する。 それでも、新しいクラスでジェネレータを直接トレーニングすることは、新しいデータがないため有効ではない。 この問題を解決するために、我々は大規模なベースクラスのデータセットを活用します。 私たちの包括的な目標は、ベースデータセットのデータバリエーションをキャプチャするジェネレータをトレーニングすることにあります。 次に、学習したジェネレータで合成データを生成することで、キャプチャしたバリエーションを新しいクラスに変換する。 そこで本研究では, 実データと合成データの分布間の最適な輸送距離を最小限に抑えるため, 最適輸送損失で発電機を訓練することを提案する。 2つのベンチマークデータセットに対する大規模な実験により、提案手法が最先端の手法であることを示す。 ソースコードは利用可能である。

Few-shot object detection aims to simultaneously localize and classify the objects in an image with limited training samples. However, most existing few-shot object detection methods focus on extracting the features of a few samples of novel classes that lack diversity. Hence, they may not be sufficient to capture the data distribution. To address that limitation, in this paper, we propose a novel approach in which we train a generator to generate synthetic data for novel classes. Still, directly training a generator on the novel class is not effective due to the lack of novel data. To overcome that issue, we leverage the large-scale dataset of base classes. Our overarching goal is to train a generator that captures the data variations of the base dataset. We then transform the captured variations into novel classes by generating synthetic data with the trained generator. To encourage the generator to capture data variations on base classes, we propose to train the generator with an optimal transport loss that minimizes the optimal transport distance between the distributions of real and synthetic data. Extensive experiments on two benchmark datasets demonstrate that the proposed method outperforms the state of the art. Source code will be available.
翻訳日:2023-08-31 10:29:51 公開日:2023-08-30
# 正規化ワッサースタイン近似によるノイズフリーサンプリングアルゴリズム

Noise-Free Sampling Algorithms via Regularized Wasserstein Proximals ( http://arxiv.org/abs/2308.14945v2 )

ライセンス: Link先を確認
Hong Ye Tan, Stanley Osher, Wuchen Li(参考訳) ポテンシャル関数が支配する分布からサンプリングする問題を考察する。 本研究は, 確率微分方程式ではなく, 粒子に対する決定論的進化を導く, 明示的なスコアに基づくmcmc法を提案する。 スコア項は、サンプリングによって近似されるカーネル畳み込みを用いて、正則化ワッサーシュタイン近似によって閉形式で与えられる。 我々は,様々な問題に対する高速収束を示し,ガウス分布の場合の混合時間境界の次元依存性を,unadjusted langevin algorithm (ula) と metropolis-adjusted langevin algorithm (mala) と比較検討した。 さらに、二次ポテンシャル関数に対する各イテレートの分布に対する閉形式式を導出し、分散還元を特徴付ける。 実験の結果、粒子は組織的に振る舞うことが示され、ポテンシャルのレベルセットの輪郭の上に横たわる。 さらに, 提案手法の後方平均推定値は, ベイジアンロジスティック回帰の文脈において, ULA や MALA と比較して最大 A-posteriori 推定値に近いことがわかった。

We consider the problem of sampling from a distribution governed by a potential function. This work proposes an explicit score-based MCMC method that is deterministic, resulting in a deterministic evolution for particles rather than a stochastic differential equation evolution. The score term is given in closed form by a regularized Wasserstein proximal, using a kernel convolution that is approximated by sampling. We demonstrate fast convergence on various problems and show improved dimensional dependence of mixing time bounds for the case of Gaussian distributions compared to the unadjusted Langevin algorithm (ULA) and the Metropolis-adjusted Langevin algorithm (MALA). We additionally derive closed form expressions for the distributions at each iterate for quadratic potential functions, characterizing the variance reduction. Empirical results demonstrate that the particles behave in an organized manner, lying on level set contours of the potential. Moreover, the posterior mean estimator of the proposed method is shown to be closer to the maximum a-posteriori estimator compared to ULA and MALA, in the context of Bayesian logistic regression.
翻訳日:2023-08-31 10:29:33 公開日:2023-08-30
# NSF:単眼深部からの人体モデリングのための神経表面場

NSF: Neural Surface Fields for Human Modeling from Monocular Depth ( http://arxiv.org/abs/2308.14847v2 )

ライセンス: Link先を確認
Yuxuan Xue, Bharat Lal Bhatnagar, Riccardo Marin, Nikolaos Sarafianos, Yuanlu Xu, Gerard Pons-Moll, Tony Tung(参考訳) 単眼カメラからパーソナライズされた3dアニメーション可能なアバターを得るには、ゲーム、バーチャルトライオン、アニメーション、vr/xrなど、現実世界の応用がいくつかある。 しかし,そのようなスパースデータから動的・細粒度の衣料変形をモデル化することは非常に困難である。 深度データから3次元人間をモデル化するための既存の手法は、計算効率、メッシュコヒーレンシー、解像度とトポロジーの柔軟性に制限がある。 例えば、暗黙の関数を使って形状を再構築し、フレーム毎に明示的なメッシュを抽出することは計算コストが高く、フレーム間のコヒーレントメッシュを保証することはできない。 さらに、離散的な表面を持つ事前設計された人間のテンプレート上で頂点ごとの変形を予測することは、解像度とトポロジーの柔軟性に欠ける。 これらの制約を克服するために, 単眼深度から3次元布地をモデル化するための新しい手法「\keyfeature: Neural Surface Fields」を提案する。 NSFは、連続かつ柔軟な変位場をモデル化するベース表面のみに神経磁場を定義する。 nsfは、推論時に再トレーニングすることなく、解像度とトポロジーが異なるベースサーフェスに適応することができる。 既存のアプローチと比較して,メッシュコヒーレンシを維持しながらフレーム単位の表面抽出コストを削減し,再トレーニングすることなく任意の解像度でメッシュを再構築できる。 この方向の研究を促進するために、私たちはプロジェクトページでコードを公開しています。

Obtaining personalized 3D animatable avatars from a monocular camera has several real world applications in gaming, virtual try-on, animation, and VR/XR, etc. However, it is very challenging to model dynamic and fine-grained clothing deformations from such sparse data. Existing methods for modeling 3D humans from depth data have limitations in terms of computational efficiency, mesh coherency, and flexibility in resolution and topology. For instance, reconstructing shapes using implicit functions and extracting explicit meshes per frame is computationally expensive and cannot ensure coherent meshes across frames. Moreover, predicting per-vertex deformations on a pre-designed human template with a discrete surface lacks flexibility in resolution and topology. To overcome these limitations, we propose a novel method `\keyfeature: Neural Surface Fields' for modeling 3D clothed humans from monocular depth. NSF defines a neural field solely on the base surface which models a continuous and flexible displacement field. NSF can be adapted to the base surface with different resolution and topology without retraining at inference time. Compared to existing approaches, our method eliminates the expensive per-frame surface extraction while maintaining mesh coherency, and is capable of reconstructing meshes with arbitrary resolution without retraining. To foster research in this direction, we release our code in project page at: https://yuxuan-xue.com/nsf.
翻訳日:2023-08-31 10:29:11 公開日:2023-08-30