このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230722となっている論文です。

PDF登録状況(公開日: 20230722)

TitleAuthorsAbstract論文公表日・翻訳日
# CONTRACTFIX:スマートコントラクトにおける脆弱性の自動修正フレームワーク

CONTRACTFIX: A Framework for Automatically Fixing Vulnerabilities in Smart Contracts ( http://arxiv.org/abs/2307.08912v2 )

ライセンス: Link先を確認
Pengcheng and Peng and Yun and Qingzhao and Tao and Dawn and Prateek and Sanjeev and Zhuotao and Xusheng(参考訳) 多くの業界でスマートコントラクトが採用され、サイバー犯罪者にとって魅力的なターゲットとなり、数百万ドルの損失をもたらした。 したがって、検出された脆弱性(開発者によって知られている)によるスマートコントラクトのデプロイは受け入れられず、検出された脆弱性をすべて修正する必要がある。 このニーズを満たすために,本稿では,脆弱なスマートコントラクトに対してセキュリティパッチを自動的に生成する新しいフレームワークであるcontractfixを提案する。 ContractFixは、さまざまなタイプの脆弱性に対して、さまざまな修正パターンを組み込むことのできる一般的なフレームワークである。 ユーザは、自動的にパッチを適用し、コントラクトをデプロイする前にパッチされたコントラクトを検証するセキュリティ修正ツールとして利用することができる。 スマートコントラクト脆弱性の修正におけるユニークな課題に対処するために,入力スマートコントラクトを前提として,複数の静的検証ツールに基づいたアンサンブル識別を行い,自動修正可能な脆弱性を識別する。 次に、contractfixはテンプレートベースのフィクスパターンを使用してパッチを生成し、スマートコントラクトのプログラム解析(プログラム依存性計算とポインタ分析)を行い、フィクスパターンのパラメータ値を正確に推論し、ポピュレートする。 最後に、ContractFixは、パッチされたコントラクトが脆弱性のないことを保証する静的検証を実行する。 実際の脆弱なコントラクトに対する144ドルの評価は、検出された脆弱性の9,4\%(601ドルのうち565ドル)の修正に成功し、スマートコントラクトの期待される動作を維持できることを示している。

The increased adoption of smart contracts in many industries has made them an attractive target for cybercriminals, leading to millions of dollars in losses. Thus, deploying smart contracts with detected vulnerabilities (known to developers) are not acceptable, and fixing all the detected vulnerabilities is needed, which incurs high manual labor cost without effective tool support. To fill this need, in this paper, we propose ContractFix, a novel framework that automatically generates security patches for vulnerable smart contracts. ContractFix is a general framework that can incorporate different fix patterns for different types of vulnerabilities. Users can use it as a security fix-it tool that automatically applies patches and verifies the patched contracts before deploying the contracts. To address the unique challenges in fixing smart contract vulnerabilities, given an input smart contract, \tool conducts our proposed ensemble identification based on multiple static verification tools to identify vulnerabilities that are amenable for automatic fix. Then, ContractFix generates patches using template-based fix patterns and conducts program analysis (program dependency computation and pointer analysis) for smart contracts to accurately infer and populate the parameter values for the fix patterns. Finally, ContractFix performs static verification that guarantees the patched contract is free of vulnerabilities. Our evaluations on $144$ real vulnerable contracts demonstrate that \tool can successfully fix $94\%$ of the detected vulnerabilities ($565$ out of $601$) and preserve the expected behaviors of the smart contracts.
翻訳日:2023-10-23 17:12:00 公開日:2023-07-22
# パーソナリティ特性とユーザフィードバックの関係を探る

Exploring the Relationship Between Personality Traits and User Feedback ( http://arxiv.org/abs/2307.12036v1 )

ライセンス: Link先を確認
Volodymyr Biryuk, Walid Maalej(参考訳) これまでの研究は、チームダイナミクスやプログラミング教育など、さまざまなソフトウェアエンジニアリングシナリオにおける開発者個性の影響を調査してきた。 しかしながら、ユーザパーソナリティがソフトウェアエンジニアリング、特にユーザと開発者のコラボレーションにどのように影響するかは、ほとんど知られていない。 本稿では,ユーザのフィードバックに対する性格特性の影響について予備的検討を行う。 56人の大学生がコースで使用するeラーニングツールの異なるソフトウェア機能についてフィードバックを提供した。 また、5因子モデル(ffm)パーソナリティテストのアンケートにも記入した。 我々は,神経症がユーザフィードバックに与える影響,特に神経症とフィードバックの精巧さと,神経症と特定の特徴の評価との間に有意な相関があることを観察した。 その結果,フラストレーションに対する感受性やストレス耐性の低下がユーザのフィードバックに悪影響を及ぼす可能性が示唆された。 これや他のパーソナリティ特性は、ソフトウェア要件エンジニアリングにフィードバック分析を活用する際に考慮すべきである。

Previous research has studied the impact of developer personality in different software engineering scenarios, such as team dynamics and programming education. However, little is known about how user personality affect software engineering, particularly user-developer collaboration. Along this line, we present a preliminary study about the effect of personality traits on user feedback. 56 university students provided feedback on different software features of an e-learning tool used in the course. They also filled out a questionnaire for the Five Factor Model (FFM) personality test. We observed some isolated effects of neuroticism on user feedback: most notably a significant correlation between neuroticism and feedback elaborateness; and between neuroticism and the rating of certain features. The results suggest that sensitivity to frustration and lower stress tolerance may negatively impact the feedback of users. This and possibly other personality characteristics should be considered when leveraging feedback analytics for software requirements engineering.
翻訳日:2023-10-23 16:43:56 公開日:2023-07-22
# cloudcent: オープンソースのクラウドにおけるコード臭い分析モデル

CloudScent: a model for code smell analysis in open-source cloud ( http://arxiv.org/abs/2307.12146v1 )

ライセンス: Link先を確認
Raj Narendra Shah, Sameer Ahmed Mohamed, Asif Imran, Tevfik Kosar(参考訳) 低コストで迅速なプロビジョニング機能により、オープンソースクラウドは産業用アプリケーションをローンチするのに望ましいプラットフォームになった。 しかし、オープンソースクラウドは成熟に向かっているため、コード臭いのような品質の問題に苦しんでいる。 オープンソースクラウドの展開による経済的利益に大きな重点が置かれているが、その産業シナリオにおける保守性を確保するために、クラウド自体のソースコードの品質を向上させることの重要性は低い。 コードリファクタリングは、コードの臭いを取り除くことによって、ソフトウェアコードのメンテナンスと理解を改善することに関連付けられている。 しかしながら、クラウド環境においてより一般的な匂いを分析し、それらの匂いを定義し検出するためのツールを設計するには、さらなる注意が必要である。 本稿では,オープンソースクラウドにおける臭気を検出するオープンソースメカニズムであるcloudscentを提案する。 私たちはOpenStackを使って実生活のクラウド環境で実験を行ないました。 その結果、CloudScentはクラウド内の8つのコードの臭いを正確に検出できることがわかった。 これにより、クラウドサービスプロバイダは、オープンソースクラウドプラットフォームで一般的な臭いに関する高度な知識を持つことができ、タイムリーなリファクタリングとクラウドプラットフォームのコード品質の向上が可能になる。

The low cost and rapid provisioning capabilities have made open-source cloud a desirable platform to launch industrial applications. However, as open-source cloud moves towards maturity, it still suffers from quality issues like code smells. Although, a great emphasis has been provided on the economic benefits of deploying open-source cloud, low importance has been provided to improve the quality of the source code of the cloud itself to ensure its maintainability in the industrial scenario. Code refactoring has been associated with improving the maintenance and understanding of software code by removing code smells. However, analyzing what smells are more prevalent in cloud environment and designing a tool to define and detect those smells require further attention. In this paper, we propose a model called CloudScent which is an open source mechanism to detect smells in open-source cloud. We test our experiments in a real-life cloud environment using OpenStack. Results show that CloudScent is capable of accurately detecting 8 code smells in cloud. This will permit cloud service providers with advanced knowledge about the smells prevalent in open-source cloud platform, thus allowing for timely code refactoring and improving code quality of the cloud platforms.
翻訳日:2023-10-23 16:29:48 公開日:2023-07-22
# 患者類似性に対するコントラスト的自己監督学習に基づくアプローチ: PPG信号による心房細動検出を事例として

Contrastive Self-Supervised Learning Based Approach for Patient Similarity: A Case Study on Atrial Fibrillation Detection from PPG Signal ( http://arxiv.org/abs/2308.02433v1 )

ライセンス: Link先を確認
Subangkar Karmaker Shanto, Shoumik Saha, Atif Hasan Rahman, Mohammad Mehedy Masud and Mohammed Eunus Ali(参考訳) 本稿では,生理的信号を用いた患者類似性探索のためのコントラスト学習ベースの深層学習フレームワークを提案する。 類似した生理的信号データを持つ患者の類似した埋め込みを学習するために、対比学習に基づくアプローチを用いる。 また, 生成した埋め込みにおいて最も類似度が高い患者を判定するために, 隣接する選択アルゴリズムを導入している。 患者との類似度を測定するための枠組みの有効性を検証するため,スマートウォッチ端末から得られた光胸腔造影(PPG)信号を用いて心房細動(AF)の検出を選択した。 170以上のデータセット上でのフレームワークの広範な実験を行い、このデータセット上の他のベースラインメソッドとの比較を行った。

In this paper, we propose a novel contrastive learning based deep learning framework for patient similarity search using physiological signals. We use a contrastive learning based approach to learn similar embeddings of patients with similar physiological signal data. We also introduce a number of neighbor selection algorithms to determine the patients with the highest similarity on the generated embeddings. To validate the effectiveness of our framework for measuring patient similarity, we select the detection of Atrial Fibrillation (AF) through photoplethysmography (PPG) signals obtained from smartwatch devices as our case study. We present extensive experimentation of our framework on a dataset of over 170 individuals and compare the performance of our framework with other baseline methods on this dataset.
翻訳日:2023-08-14 01:40:08 公開日:2023-07-22
# P\=uioio:オンデバイスリアルタイムスマートフォンベースの自動エクササイズカウントシステム

P\=uioio: On-device Real-Time Smartphone-Based Automated Exercise Repetition Counting System ( http://arxiv.org/abs/2308.02420v1 )

ライセンス: Link先を確認
Adam Sinclair, Kayla Kautai, and Seyed Reza Shahamiri(参考訳) 自動運動繰り返しカウントは、健康状態からリハビリ状態まで、身体的なフィットネス領域に応用できる。 携帯電話の普及と身体活動の追跡の利点に触発された本研究では,スマートフォン上でのデバイス上の推論のみを用いて,リアルタイムに運動繰り返しをカウントできる可能性を検討した。 本研究では,現在最先端の自動エクササイズカウント法を概観した上で,(1)ポーズ推定,(2)Thresholding,(3)光流,(4)ステートマシン,(5)カウンタの5つのコンポーネントからなるスマートフォン用ディープラーニングベースのエクササイズカウントシステムを提案する。 システムはP\=uioioと呼ばれるクロスプラットフォームのモバイルアプリケーションで実装され、スマートフォンカメラのみを使用して3つの標準エクササイズ(スクワット、プッシュアップ、プルアップ)をリアルタイムで追跡する。 提案システムは,被運動者の事前記録映像のデータセットと,被運動者による実時間試験により評価した。 評価の結果、実際のテストでは98.89%、事前に記録されたデータセットで評価すると98.85%の精度が得られた。 提案システムは、ウェアラブルや特定のセンサーやネットワーク接続を必要とせずに、最小限のハードウェア要件を持つため、既存のソリューションに対して効果的で低コストで便利な代替手段となる。

Automated exercise repetition counting has applications across the physical fitness realm, from personal health to rehabilitation. Motivated by the ubiquity of mobile phones and the benefits of tracking physical activity, this study explored the feasibility of counting exercise repetitions in real-time, using only on-device inference, on smartphones. In this work, after providing an extensive overview of the state-of-the-art automatic exercise repetition counting methods, we introduce a deep learning based exercise repetition counting system for smartphones consisting of five components: (1) Pose estimation, (2) Thresholding, (3) Optical flow, (4) State machine, and (5) Counter. The system is then implemented via a cross-platform mobile application named P\=uioio that uses only the smartphone camera to track repetitions in real time for three standard exercises: Squats, Push-ups, and Pull-ups. The proposed system was evaluated via a dataset of pre-recorded videos of individuals exercising as well as testing by subjects exercising in real time. Evaluation results indicated the system was 98.89% accurate in real-world tests and up to 98.85% when evaluated via the pre-recorded dataset. This makes it an effective, low-cost, and convenient alternative to existing solutions since the proposed system has minimal hardware requirements without requiring any wearable or specific sensors or network connectivity.
翻訳日:2023-08-14 01:38:50 公開日:2023-07-22
# AI時代の高等教育コースの設計と提供方法:エクストリームデータ分析から

How to Design and Deliver Courses for Higher Education in the AI Era: Insights from Exam Data Analysis ( http://arxiv.org/abs/2308.02441v1 )

ライセンス: Link先を確認
Ahmad Samer Wazan, Imran Taj, Abdulhadi Shoufan, Romain Laborde, R\'emi Venant(参考訳) 本稿では,ai時代の授業や試験は,(1)aiの強みと限界,(2)教育的教育目的という2つの要因に基づいて設計する必要がある,という考え方を提唱する。 教育に関するデラーズ報告書から得られた知見に基づき,まず教育の役割について考察し,教育機関がいかなる技術にも依存せず達成しなければならない主な目的を思い出す。 そして、AIの現在の進歩に基づいて、AIの強みと限界を探る。 我々は、AIの強みと限界に基づいて、コースと試験をどのように設計するかを説明し、IT、英語、アートドメインで異なる例を提供する。 2023年1月から2023年5月までのソクラテス教法に触発された教育的アプローチを実践した。 次に,2022年12月から2023年3月までの7回のChatGPT認定試験のデータ分析結果を示す。 試験結果から,生徒の成績と,ChatGPTを用いて受験質問に回答するか否かの相関は認められなかった。 最後に、AI時代における教育的アプローチの適用を可能にする新しい試験システムを提案する。

In this position paper, we advocate for the idea that courses and exams in the AI era have to be designed based on two factors: (1) the strengths and limitations of AI, and (2) the pedagogical educational objectives. Based on insights from the Delors report on education [1], we first address the role of education and recall the main objectives that educational institutes must strive to achieve independently of any technology. We then explore the strengths and limitations of AI, based on current advances in AI. We explain how courses and exams can be designed based on these strengths and limitations of AI, providing different examples in the IT, English, and Art domains. We show how we adopted a pedagogical approach that is inspired from the Socratic teaching method from January 2023 to May 2023. Then, we present the data analysis results of seven ChatGPT-authorized exams conducted between December 2022 and March 2023. Our exam data results show that there is no correlation between students' grades and whether or not they use ChatGPT to answer their exam questions. Finally, we present a new exam system that allows us to apply our pedagogical approach in the AI era.
翻訳日:2023-08-14 01:27:45 公開日:2023-07-22
# 機械学習の動的システムのモデリングと解析への応用

Applications of Machine Learning to Modelling and Analysing Dynamical Systems ( http://arxiv.org/abs/2308.03763v1 )

ライセンス: Link先を確認
Vedanta Thapar(参考訳) 非線形ハミルトニアン力学系を第1の運動積分で解析するための物理インフォームドニューラルネットワークの利用について検討する。 本研究では,既存のハミルトンニューラルネットワーク構造を,ハミルトン方程式と位相空間のシンプレクティック構造を保存する適応型シンプレクティック・リカレント・ニューラルネットワークに結合し,パラメータ空間全体のダイナミクスを予測するアーキテクチャを提案する。 このアーキテクチャは、ハミルトニアンダイナミクスの予測において、特に複数のパラメータを含むポテンシャルにおいて、前述したニューラルネットワークを著しく上回っていることが分かる。 カオス的,準周期的,周期的条件下での非線形Henon-Heilesポテンシャルによるロバスト性を示す。 第2の問題は、ニューラルネットワークの高次元非線形能力を使用して、部分的な情報のみを与えられたハミルトン系のダイナミクスを予測することができるかどうかである。 したがって、長い短期記憶ネットワークを利用してテイクスの埋め込み定理を実装し、システムの遅延埋め込みを構築し、トポロジカル不変なアトラクタを真の形式にマッピングする。 このアーキテクチャは適応可能なシンプレクティックネットで階層化され、ハミルトン方程式の構造を保存する予測を可能にする。 本手法は, 単一パラメータポテンシャルに対して有効であり, 長期間にわたって正確な予測を行う。

We explore the use of Physics Informed Neural Networks to analyse nonlinear Hamiltonian Dynamical Systems with a first integral of motion. In this work, we propose an architecture which combines existing Hamiltonian Neural Network structures into Adaptable Symplectic Recurrent Neural Networks which preserve Hamilton's equations as well as the symplectic structure of phase space while predicting dynamics for the entire parameter space. This architecture is found to significantly outperform previously proposed neural networks when predicting Hamiltonian dynamics especially in potentials which contain multiple parameters. We demonstrate its robustness using the nonlinear Henon-Heiles potential under chaotic, quasiperiodic and periodic conditions. The second problem we tackle is whether we can use the high dimensional nonlinear capabilities of neural networks to predict the dynamics of a Hamiltonian system given only partial information of the same. Hence we attempt to take advantage of Long Short Term Memory networks to implement Takens' embedding theorem and construct a delay embedding of the system followed by mapping the topologically invariant attractor to the true form. This architecture is then layered with Adaptable Symplectic nets to allow for predictions which preserve the structure of Hamilton's equations. We show that this method works efficiently for single parameter potentials and provides accurate predictions even over long periods of time.
翻訳日:2023-08-14 00:39:07 公開日:2023-07-22
# in situモデルフリー最適化による高性能実世界光コンピューティング

High-performance real-world optical computing trained by in situ model-free optimization ( http://arxiv.org/abs/2307.11957v1 )

ライセンス: Link先を確認
Guangyuan Zhao, Xin Shu and Renjie Zhou(参考訳) 光コンピューティングシステムは、高速で低エネルギーなデータ処理を提供するが、計算的に要求されるトレーニングとシミュレーションと現実のギャップの欠如に直面している。 スコア勾配推定アルゴリズムに基づく光学計算機システムの軽量その場最適化のためのモデルフリーソリューションを提案する。 このアプローチは、システムをブラックボックスとして扱い、光学重みの確率分布に直接損失を逆伝播させ、計算重みとバイアス付きシステムのシミュレーションの必要性を回避する。 我々は,MNISTとFMNISTのデータセットに対して,単層回折光学計算システムの実験を通じて,より優れた分類精度を示す。 さらに,画像のない高速セル解析の可能性を示した。 提案手法の本質的な単純さは,計算資源の低需要と相まって,実験室から実世界の応用への光コンピューティングの移行を早める。

Optical computing systems can provide high-speed and low-energy data processing but face deficiencies in computationally demanding training and simulation-to-reality gap. We propose a model-free solution for lightweight in situ optimization of optical computing systems based on the score gradient estimation algorithm. This approach treats the system as a black box and back-propagates loss directly to the optical weights' probabilistic distributions, hence circumventing the need for computation-heavy and biased system simulation. We demonstrate a superior classification accuracy on the MNIST and FMNIST datasets through experiments on a single-layer diffractive optical computing system. Furthermore, we show its potential for image-free and high-speed cell analysis. The inherent simplicity of our proposed method, combined with its low demand for computational resources, expedites the transition of optical computing from laboratory demonstrations to real-world applications.
翻訳日:2023-08-06 11:37:08 公開日:2023-07-22
# 無条件にセキュアな量子コインフリップ

Unconditionally secure quantum coin flipping ( http://arxiv.org/abs/1602.01430v4 )

ライセンス: Link先を確認
Guang Ping He(参考訳) 量子コインフリップ(QCF)は量子暗号にとって不可欠なプリミティブである。 任意に小さなバイアスを持つ無条件の強いQCFは不可能であると広く信じられていた。 しかし、量子アルゴリズムなしでは解けない問題に基づいて、このようなQCFプロトコルを提案し、どのようにしてQCF上の既存のno-go証明を回避できるかを示す。

Quantum coin flipping (QCF) is an essential primitive for quantum cryptography. Unconditionally secure strong QCF with an arbitrarily small bias was widely believed to be impossible. But basing on a problem which cannot be solved without quantum algorithm, here we propose such a QCF protocol, and show how it manages to evade all existing no-go proofs on QCF.
翻訳日:2023-08-06 11:36:28 公開日:2023-07-22
# Pyrus Base: RoboCup 2DサッカーシミュレーションのためのオープンソースのPythonフレームワーク

Pyrus Base: An Open Source Python Framework for the RoboCup 2D Soccer Simulation ( http://arxiv.org/abs/2307.16875v1 )

ライセンス: Link先を確認
Nader Zare, Aref Sayareh, Omid Amini, Mahtab Sarvmaili, Arad Firouzkouhi, Stan Matwin, Amilcar Soares(参考訳) サッカーは世界の一部の地域ではサッカーとしても知られ、11人の選手からなる2つのチームが相手チームよりも多くのゴールを決めようとしている。 このゲームをシミュレートし、世界中の科学者を惹きつけ、コンピュータベースのサッカーワールドカップに毎年参加するために、サッカーシミュレーション2D (SS2D) はRoboCupコンペティションで始まったリーグの1つである。 各SS2Dゲームでは、11人の選手と1人のコーチからなる2チームがロボカップサッカーシミュレーションサーバに接続し、互いに競い合う。 過去数年間、エージェントの動作とサーバとの通信を制御するためにいくつかのC++ベースコードが使われてきた。 c++のベースコードはss2dの基礎を築いたが、開発には高度なc++プログラミングが必要である。 C++言語の複雑さは、C++ベースのコードをすべてのユーザ、特に初心者に限定する不利である。 C++ベースコードの課題を克服し、機械学習の概念を開発するための強力なベースラインを提供するために、SS2Dの最初のPythonベースコードであるPyrusを紹介します。 Pyrusは、研究者がアイデアを効率的に開発し、機械学習アルゴリズムをチームに統合することを奨励するために開発された。 pyrus baseはオープンソースコードで、githubでmitライセンス下で公開されている

Soccer, also known as football in some parts of the world, involves two teams of eleven players whose objective is to score more goals than the opposing team. To simulate this game and attract scientists from all over the world to conduct research and participate in an annual computer-based soccer world cup, Soccer Simulation 2D (SS2D) was one of the leagues initiated in the RoboCup competition. In every SS2D game, two teams of 11 players and one coach connect to the RoboCup Soccer Simulation Server and compete against each other. Over the past few years, several C++ base codes have been employed to control agents' behavior and their communication with the server. Although C++ base codes have laid the foundation for the SS2D, developing them requires an advanced level of C++ programming. C++ language complexity is a limiting disadvantage of C++ base codes for all users, especially for beginners. To conquer the challenges of C++ base codes and provide a powerful baseline for developing machine learning concepts, we introduce Pyrus, the first Python base code for SS2D. Pyrus is developed to encourage researchers to efficiently develop their ideas and integrate machine learning algorithms into their teams. Pyrus base is open-source code, and it is publicly available under MIT License on GitHub
翻訳日:2023-08-06 11:23:13 公開日:2023-07-22
# FinPT:事前学習基盤モデルに基づくプロファイル調整による金融リスク予測

FinPT: Financial Risk Prediction with Profile Tuning on Pretrained Foundation Models ( http://arxiv.org/abs/2308.00065v1 )

ライセンス: Link先を確認
Yuwei Yin, Yazheng Yang, Jian Yang, Qi Liu(参考訳) 金融リスク予測は金融セクターにおいて重要な役割を果たす。 機械学習手法は、潜在的なリスクを自動的に検出し、労働コストを削減するために広く応用されている。 しかし,近年,この分野の発展は,次の2つの事実によって遅れている。 1)アルゴリズムは、特に生成型aiと大規模言語モデル(llm)の急速な進歩の文脈において、やや時代遅れである。 2) 統合的でオープンソースの金融指標の欠如は,長年にわたって関連する研究を妨げてきた。 これらの課題に対処するために、FinPTとFinBenchを提案する: 前者は、大規模な事前訓練された基盤モデルに基づいてプロファイルチューニングを行う金融リスク予測の新しいアプローチであり、後者は、デフォルト、詐欺、チャーンといった金融リスクに関する高品質なデータセットのセットである。 FinPTでは、事前に定義された命令テンプレートに財務表データを埋め込み、LLMを誘導して自然言語の顧客プロファイルを取得し、プロファイルテキストで大規模基盤モデルを微調整して予測する。 提案するfinptの有効性を,finbench 上の代表的な強基線を用いて検証することで実証する。 分析研究は、金融リスク予測のためのLLMの理解をさらに深めている。

Financial risk prediction plays a crucial role in the financial sector. Machine learning methods have been widely applied for automatically detecting potential risks and thus saving the cost of labor. However, the development in this field is lagging behind in recent years by the following two facts: 1) the algorithms used are somewhat outdated, especially in the context of the fast advance of generative AI and large language models (LLMs); 2) the lack of a unified and open-sourced financial benchmark has impeded the related research for years. To tackle these issues, we propose FinPT and FinBench: the former is a novel approach for financial risk prediction that conduct Profile Tuning on large pretrained foundation models, and the latter is a set of high-quality datasets on financial risks such as default, fraud, and churn. In FinPT, we fill the financial tabular data into the pre-defined instruction template, obtain natural-language customer profiles by prompting LLMs, and fine-tune large foundation models with the profile text to make predictions. We demonstrate the effectiveness of the proposed FinPT by experimenting with a range of representative strong baselines on FinBench. The analytical studies further deepen the understanding of LLMs for financial risk prediction.
翻訳日:2023-08-06 11:11:37 公開日:2023-07-22
# 無限次元システムを用いた量子ビットコミットメントの光学的実装

An optical implementation of quantum bit commitment using infinite-dimensional systems ( http://arxiv.org/abs/1909.09865v2 )

ライセンス: Link先を確認
Guang Ping He(参考訳) 無条件で安全な量子ビットコミットメント(QBC)は20年以上にわたって不可能であると広く信じられていた。 しかし,近年,量子ステアリングにおける異常な挙動に基づき,無条件に安全に動作するqbcプロトコルが提案されている。 このプロトコルは無限次元システムの使用を必要とするため、実際には実現不可能に思える。 ここでは、マッハ・ツェンダー干渉計に基づく量子光学法を提案し、そのような無限次元系に非常によい近似を与える。 これにより,本プロトコルの実証・実証実験を可能とし,実際にセキュアなQBCスキームとして機能する。 また、quantum coin tossingのような他のマルチパーティ暗号プロトコルも構築できる。 我々のアプローチはまた、無限性と非局所性の関係を明らかにし、基礎理論の研究に影響を及ぼすかもしれない。

Unconditionally secure quantum bit commitment (QBC) was widely believed to be impossible for more than two decades. But recently, based on an anomalous behavior found in quantum steering, we proposed a QBC protocol which can be unconditionally secure in principle. The protocol requires the use of infinite-dimensional systems, therefore it may seem less feasible in practice. Here we propose a quantum optical method based on Mach-Zehnder interferometer, which gives a very good approximation to such infinite-dimensional systems. Thus, it enables a proof-of-principle experimental implementation of our protocol, which can also serve as a practically secure QBC scheme. Other multi-party cryptographic protocols such as quantum coin tossing can be built upon it too. Our approach also reveals a relationship between infinity and non-locality, which may have an impact on the research of fundamental theories.
翻訳日:2023-07-30 04:31:41 公開日:2023-07-22
# 相対論的量子コミットメントスキームのセキュリティ

Insecurity of a relativistic quantum commitment scheme ( http://arxiv.org/abs/1411.0013v2 )

ライセンス: Link先を確認
Guang Ping He(参考訳) 我々は,無条件に安全であると主張された相対論的量子コミットメントスキーム [sci rep 2014;4:6774] に対する不正戦略を提案する。 送信者アリスは確率100%で不正を成功させることができ、したがってセキュリティクレームを無効にすることができる。

We propose a cheating strategy to a relativistic quantum commitment scheme [Sci Rep 2014;4:6774] which was claimed to be unconditionally secure. It is shown that the sender Alice can cheat successfully with probability 100%, thus disproving the security claim.
翻訳日:2023-07-30 04:31:10 公開日:2023-07-22
# 効率的なポイントクラウド処理のための学習グリッド化

Learned Gridification for Efficient Point Cloud Processing ( http://arxiv.org/abs/2307.14354v1 )

ライセンス: Link先を確認
Putri A. van der Linden, David W. Romero, Erik J. Bekkers(参考訳) 近接情報に依存するニューラルオペレーションは、ポイントクラウド内のポイント間の不規則な距離のため、グリッドデータよりもポイントクラウドにデプロイする場合にはるかに費用がかかる。 一方、グリッドでは、カーネルを一度だけ計算し、全てのクエリ位置に対して再利用することができる。 その結果、周辺情報に依存する操作は、グリッドデータ、特に大きな入力や大きな近傍のデータよりも、点雲の方がはるかに悪化する。 本研究では,その根本原因であるデータの不規則性に対処することで,ポイントクラウド手法のスケーラビリティ問題に対処する。 我々は,ポイントクラウド処理パイプラインの第一段階として学習可能なグリッド化を提案し,ポイントクラウドをコンパクトで正規なグリッドに変換する。 グリッド化によって、その後のレイヤでは、通常のグリッド上で定義されたオペレーション、例えばネイティブポイントクラウドメソッドよりもはるかに優れたスケールのConv3Dを使用することができる。 次に、ポイントクラウド処理パイプラインの最後に学習可能なデグリッド化ステップを追加して、コンパクトでレギュラーなグリッドを元のポイントクラウド形式にマッピングすることで、グリッド化をポイントクラウドタスク、例えばセグメンテーションに拡張します。 理論的および実証的分析により、グリッド化されたネットワークは、生のポイントクラウドデータに直接適用されるネットワークよりもメモリと時間の観点からスケールが良く、競合的な結果が得られることを示した。 私たちのコードはhttps://github.com/computri/gridifierで公開されています。

Neural operations that rely on neighborhood information are much more expensive when deployed on point clouds than on grid data due to the irregular distances between points in a point cloud. In a grid, on the other hand, we can compute the kernel only once and reuse it for all query positions. As a result, operations that rely on neighborhood information scale much worse for point clouds than for grid data, specially for large inputs and large neighborhoods. In this work, we address the scalability issue of point cloud methods by tackling its root cause: the irregularity of the data. We propose learnable gridification as the first step in a point cloud processing pipeline to transform the point cloud into a compact, regular grid. Thanks to gridification, subsequent layers can use operations defined on regular grids, e.g., Conv3D, which scale much better than native point cloud methods. We then extend gridification to point cloud to point cloud tasks, e.g., segmentation, by adding a learnable de-gridification step at the end of the point cloud processing pipeline to map the compact, regular grid back to its original point cloud form. Through theoretical and empirical analysis, we show that gridified networks scale better in terms of memory and time than networks directly applied on raw point cloud data, while being able to achieve competitive results. Our code is publicly available at https://github.com/computri/gridifier.
翻訳日:2023-07-30 03:58:25 公開日:2023-07-22
# ネットワークコラボレータ:ネットワーク再構築とコミュニティ検出の知識伝達

Network Collaborator: Knowledge Transfer Between Network Reconstruction and Community Detection ( http://arxiv.org/abs/2201.01134v5 )

ライセンス: Link先を確認
Kai Wu, Chao Wang, Junyuan Chen, Jing Liu(参考訳) 本稿では,複雑なシステムのダイナミクスからネットワークとコミュニティ構造を共同推論することに焦点を当てる。 これら2つの問題を解決するために多くのアプローチが設計されているが、これらの2つのタスク間で明示的な共有可能な知識を考慮していない。 ダイナミックスからのコミュニティ検出(CD)とネットワーク再構成(NR)は、ネットワークコラボレータ(NC)と呼ばれる提案された進化的マルチタスクNRとCDフレームワークを動機付ける自然な相乗的タスクである。 NCのプロセスでは、NRタスクはCDタスクのためにいくつかのより良いネットワーク構造を明示的に転送し、CDタスクはNRタスクを支援するためにより良いコミュニティ構造を明示的に転送する。 さらに、NRタスクからCDタスクに知識を伝達するために、NCは動的ネットワーク内のコミュニティを見つけるために、動的ネットワークからCDの研究をモデル化し、タスク間で知識を伝達するかを検討する。 マルチタスク NR と CD 問題 (MTNRCDPs) のためのテストスイートは NC の性能を検証するために設計されている。 設計したmtnrcdpsを用いた実験により,cdとnrの結合が相乗効果を持つことが実証された。 コードは、https://github.com/xiaofangxd/EMTNRCDで入手できる。

This paper focuses on jointly inferring network and community structures from the dynamics of complex systems. Although many approaches have been designed to solve these two problems solely, none of them consider explicit shareable knowledge across these two tasks. Community detection (CD) from dynamics and network reconstruction (NR) from dynamics are natural synergistic tasks that motivate the proposed evolutionary multitasking NR and CD framework, called network collaborator (NC). In the process of NC, the NR task explicitly transfers several better network structures for the CD task, and the CD task explicitly transfers a better community structure to assist the NR task. Moreover, to transfer knowledge from the NR task to the CD task, NC models the study of CD from dynamics to find communities in the dynamic network and then considers whether to transfer knowledge across tasks. A test suite for multitasking NR and CD problems (MTNRCDPs) is designed to verify the performance of NC. The experimental results conducted on the designed MTNRCDPs have demonstrated that joint NR with CD has a synergistic effect, where the network structure used to inform the existence of communities is also inherently employed to improve the reconstruction accuracy, which, in turn, can better demonstrate the discovering of the community structure. The code is available at: https://github.com/xiaofangxd/EMTNRCD.
翻訳日:2023-07-26 22:00:20 公開日:2023-07-22
# SoccerKDNet:サッカービデオにおける行動認識のための知識蒸留フレームワーク

SoccerKDNet: A Knowledge Distillation Framework for Action Recognition in Soccer Videos ( http://arxiv.org/abs/2307.07768v2 )

ライセンス: Link先を確認
Sarosij Bose, Saikat Sarkar, Amlan Chakrabarti(参考訳) サッカーのビデオからプレイヤーのアクションを分類することは難しい問題であり、スポーツ分析では近年ますます重要になっている。 最先端の手法の多くは、高度に複雑なオフラインネットワークを使っているため、そのようなモデルをリソース制約のあるシナリオでデプロイするのは困難である。 本稿では,kinetics400データセット上で事前学習したエンド・ツー・エンドの知識蒸留に基づく転送学習ネットワークを提案する。 また,サッカーをプレイする選手の4つの異なるクラスからなる,448のビデオを含む新しいデータセットである soccerdb1 についても紹介する。 さらに,各ネットワークの予測の有効範囲を線形に評価する一意な損失パラメータを導入する。 最後に、様々な変化したハイパーパラメータを用いて、徹底的な性能調査を行う。 また、新しいサッカーDB1データセットの最初の分類結果をベンチマークし、67.20%の検証精度を得た。 先行技術を大幅に上回るだけでなく、我々のモデルは新しいデータセットにも容易に一般化できる。 データセットは、https://bit.ly/soccerdb1で公開されている。

Classifying player actions from soccer videos is a challenging problem, which has become increasingly important in sports analytics over the years. Most state-of-the-art methods employ highly complex offline networks, which makes it difficult to deploy such models in resource constrained scenarios. Here, in this paper we propose a novel end-to-end knowledge distillation based transfer learning network pre-trained on the Kinetics400 dataset and then perform extensive analysis on the learned framework by introducing a unique loss parameterization. We also introduce a new dataset named SoccerDB1 containing 448 videos and consisting of 4 diverse classes each of players playing soccer. Furthermore, we introduce an unique loss parameter that help us linearly weigh the extent to which the predictions of each network are utilized. Finally, we also perform a thorough performance study using various changed hyperparameters. We also benchmark the first classification results on the new SoccerDB1 dataset obtaining 67.20% validation accuracy. Apart from outperforming prior arts significantly, our model also generalizes to new datasets easily. The dataset has been made publicly available at: https://bit.ly/soccerdb1
翻訳日:2023-07-26 20:10:57 公開日:2023-07-22
# 多表現空間分離に基づくグラフレベルの異常検出

Multi-representations Space Separation based Graph-level Anomaly-aware Detection ( http://arxiv.org/abs/2307.12994v1 )

ライセンス: Link先を確認
Fu Lin, Haonan Gong, Mingkang Li, Zitong Wang, Yue Zhang, Xuexiong Luo(参考訳) グラフ構造パターンは最近、異なる領域データをモデル化するために広く使われている。 これらのグラフデータに異常なグラフ情報を検出する方法は、一般的な研究課題となっている。 本研究の目的は,グラフ集合内の異常グラフの検出方法に焦点をあてることである。 従来の研究では、異常グラフはノードレベルとグラフレベルの異常を主に表しているが、これらの手法は、異常グラフの評価において上記の2つの異常形式を同等に扱い、これは、異常グラフデータの異なる種類の種類がノードレベルとグラフレベルの異常の点で異なるという事実とは対照的である。 さらに,通常のグラフと微妙に異なる異常グラフは,既存の手法で容易に検出できる。 そこで本稿では,多表現空間分離に基づくグラフレベルの異常検出フレームワークを提案する。 ノードレベルの異常とグラフレベルの異常の異なる重要性を考慮するため,異常グラフ評価プロセスにおいて,ノード間の比重を学習するための異常認識モジュールを設計する。 さらに,アンカー正規グラフ,アンカー異常グラフ,トレーニング正規グラフ,トレーニング異常グラフを含む4種類の重み付きグラフ表現によって,厳密に分離された正規グラフ表現空間と異常グラフ表現空間を学習する。 テストグラフのグラフ表現と正規および異常グラフ表現空間との間の距離誤差に基づいて、テストグラフが異常であるか否かを正確に判定できる。 提案手法は10のグラフデータセットを用いたベースライン手法に対して広範囲に評価され,その効果が実証された。

Graph structure patterns are widely used to model different area data recently. How to detect anomalous graph information on these graph data has become a popular research problem. The objective of this research is centered on the particular issue that how to detect abnormal graphs within a graph set. The previous works have observed that abnormal graphs mainly show node-level and graph-level anomalies, but these methods equally treat two anomaly forms above in the evaluation of abnormal graphs, which is contrary to the fact that different types of abnormal graph data have different degrees in terms of node-level and graph-level anomalies. Furthermore, abnormal graphs that have subtle differences from normal graphs are easily escaped detection by the existing methods. Thus, we propose a multi-representations space separation based graph-level anomaly-aware detection framework in this paper. To consider the different importance of node-level and graph-level anomalies, we design an anomaly-aware module to learn the specific weight between them in the abnormal graph evaluation process. In addition, we learn strictly separate normal and abnormal graph representation spaces by four types of weighted graph representations against each other including anchor normal graphs, anchor abnormal graphs, training normal graphs, and training abnormal graphs. Based on the distance error between the graph representations of the test graph and both normal and abnormal graph representation spaces, we can accurately determine whether the test graph is anomalous. Our approach has been extensively evaluated against baseline methods using ten public graph datasets, and the results demonstrate its effectiveness.
翻訳日:2023-07-26 19:44:28 公開日:2023-07-22
# 非個人への道(地図の読み方)

The roads to non-individuals (and how not to read their maps) ( http://arxiv.org/abs/2307.12997v1 )

ライセンス: Link先を確認
Jonas R. B. Arenhart and Raoni W. Arroyo(参考訳) 標準量子力学は、その開始以来、その理論が非個人的対象、すなわち、ある意味での個人性を奪われた物体を扱うメタ物理的な見解と関連付けられてきた。 我々は、量子力学が非個別のメタ物理と非常に密接な関係にあるという主張の根拠を検討する。 特に、この理論の定式化から、物理学のケースと基礎となる論理を別々に扱うこと、理論のオントロジーから、理論に基づいて世界の家具として理解されること、そして、最終的に、非個人物理学のメタ物理が純粋にメタ物理的な観点から不可欠であるかどうかを論じる。 我々は、非個人性や個性は、これらのいずれのレベルでも我々に課されるものではなく、それからの教訓としてではなく、理論へのメタフィジカルな追加と見なされるべきであると主張する。

Ever since its beginnings, standard quantum mechanics has been associated with a metaphysical view according to which the theory deals with non-individual objects, i.e., objects deprived of individuality in some sense of the term. We shall examine the grounds of the claim according to which quantum mechanics is so closely connected with a metaphysics of non-individuals. In particular, we discuss the attempts to learn the required `metaphysical lessons' required by quantum mechanics coming from four distinct roads: from the formalism of the theory, treating separately the case of the physics and the underlying logic; from the ontology of the theory, understood as the furniture of the world according to the theory; and, at last, we analyze whether a metaphysics of non-individuals is indispensable from a purely metaphysical point of view. We argue that neither non-individuality nor individuality is not to be found imposed on us in any of these levels so that it should be seen as a metaphysical addition to the theory, rather than as a lesson from it.
翻訳日:2023-07-26 19:32:39 公開日:2023-07-22
# マルチモーダルコントラスト学習による自然言語からの分子特性抽出

Extracting Molecular Properties from Natural Language with Multimodal Contrastive Learning ( http://arxiv.org/abs/2307.12996v1 )

ライセンス: Link先を確認
Romain Lacombe, Andrew Gaut, Jeff He, David L\"udeke, Kateryna Pistunova(参考訳) 計算生物化学における深層学習は伝統的に分子グラフに焦点をあててきたが、言語モデルにおける最近の進歩は、どの程度の科学的知識がテキストにエンコードされているかを強調している。 これら2つのモダリティを橋渡しするために,分子特性情報を自然言語からグラフ表現へどのように伝達するかを検討する。 コントラスト学習による特性予測性能向上について検討し,その特徴のテキスト記述の表現とニューラルグラフ表現の整合性を検討した。 我々は,テキスト検索の改善を目的としたニューラルネットワーク評価戦略を実装し,有機反応にインスパイアされた新規な分子グラフ増強戦略を導入し,下流のMoneculeNet特性分類タスクの性能向上を実証した。 グラフモダリティだけで事前学習したモデルに対するAUROCの利得は+4.26%、最近提案された分子グラフ/テキストが対照的に訓練したMoMuモデルに比べて+1.54%向上した(Su et al. 2022)。

Deep learning in computational biochemistry has traditionally focused on molecular graphs neural representations; however, recent advances in language models highlight how much scientific knowledge is encoded in text. To bridge these two modalities, we investigate how molecular property information can be transferred from natural language to graph representations. We study property prediction performance gains after using contrastive learning to align neural graph representations with representations of textual descriptions of their characteristics. We implement neural relevance scoring strategies to improve text retrieval, introduce a novel chemically-valid molecular graph augmentation strategy inspired by organic reactions, and demonstrate improved performance on downstream MoleculeNet property classification tasks. We achieve a +4.26% AUROC gain versus models pre-trained on the graph modality alone, and a +1.54% gain compared to recently proposed molecular graph/text contrastively trained MoMu model (Su et al. 2022).
翻訳日:2023-07-26 19:32:16 公開日:2023-07-22
# MLOps Dynamicsの探索: 実世界の機械学習プロジェクトでの実験分析

Exploring MLOps Dynamics: An Experimental Analysis in a Real-World Machine Learning Project ( http://arxiv.org/abs/2307.13473v1 )

ライセンス: Link先を確認
Awadelrahman M. A. Ahmed(参考訳) 本稿では機械学習プロジェクトを効率的に実装する上で重要な側面であるMLOps(Machine Learning Operations)プロセスの最適化に焦点を当てた実験を行う。 その目的は、実世界のモデル開発シナリオにおける反復的かつ相互依存の性質を考慮して、mlopsワークフローを強化するためのパターンと洞察を特定することである。 この実験には包括的なMLOpsワークフローが含まれており、問題定義、データ取得、データ準備、モデル開発、モデルデプロイメント、監視、管理、スケーラビリティ、ガバナンスとコンプライアンスといった重要なフェーズをカバーする。 MLOpsワークフローの積極的な計画と継続的改善を強調した、実践的なヒントとレコメンデーションが結果から導かれる。 実験は実世界のmlプロジェクトに統合され、本番環境におけるmlopsプロセスの本質的なフェーズを追従し、大規模構造化データを処理した。 主相から特定の相への再訪を文書化するために体系的な追跡手法が採用され、再訪の理由を捉えた。 位相間の重なりの度合いを定量化するマトリックスを構築することで、この研究はmlopsワークフローの動的かつ反復的な性質を明らかにする。 その結果得られたデータは、MLOpsプロセスの相互依存性と実験フレームワーク内の反復的な特性を視覚的に表現し、ワークフローを最適化し、現実世界のシナリオで情報的決定を行うための貴重な洞察を提供する。 この分析は、改良されたmlopsプロセスを通じて機械学習プロジェクトの効率と有効性を高めるのに寄与する。 キーワード:MLOps、機械学習操作、最適化、実験分析、反復プロセス、パターン識別。

This article presents an experiment focused on optimizing the MLOps (Machine Learning Operations) process, a crucial aspect of efficiently implementing machine learning projects. The objective is to identify patterns and insights to enhance the MLOps workflow, considering its iterative and interdependent nature in real-world model development scenarios. The experiment involves a comprehensive MLOps workflow, covering essential phases like problem definition, data acquisition, data preparation, model development, model deployment, monitoring, management, scalability, and governance and compliance. Practical tips and recommendations are derived from the results, emphasizing proactive planning and continuous improvement for the MLOps workflow. The experimental investigation was strategically integrated within a real-world ML project which followed essential phases of the MLOps process in a production environment, handling large-scale structured data. A systematic tracking approach was employed to document revisits to specific phases from a main phase under focus, capturing the reasons for such revisits. By constructing a matrix to quantify the degree of overlap between phases, the study unveils the dynamic and iterative nature of the MLOps workflow. The resulting data provides visual representations of the MLOps process's interdependencies and iterative characteristics within the experimental framework, offering valuable insights for optimizing the workflow and making informed decisions in real-world scenarios. This analysis contributes to enhancing the efficiency and effectiveness of machine learning projects through an improved MLOps process. Keywords: MLOps, Machine Learning Operations, Optimization, Experimental Analysis, Iterative Process, Pattern Identification.
翻訳日:2023-07-26 17:06:50 公開日:2023-07-22
# Wu-Cai-Wu-Zhangの量子プライベート比較プロトコルのクリプトアナリシスと改良

Cryptanalysis and improvement of Wu-Cai-Wu-Zhang's quantum private comparison protocol ( http://arxiv.org/abs/1908.09169v2 )

ライセンス: Link先を確認
Guang Ping He(参考訳) 最近の論文 (int.com) において。 j. quantum inf。 17 (2019) 1950026) 著者らは、以前提案していた量子プライベート比較プロトコル(int)のセキュリティ上の欠点について論じた。 j. quantum inf。 15 (2017) 1750014). また、これらの問題を避けるための新しいプロトコルも提案した。 ここでは,プロトコルに流出した情報を分析し,ある場合には我々のプロトコルよりも安全性が低いことを確認する。 さらに,(1)絡み目が不要,(2)量子メモリが不要,(3)情報漏洩の少ない改良版を提案する。 したがって、より優れたセキュリティと大きな実現性が達成される。

In a recent paper (Int. J. Quantum Inf. 17 (2019) 1950026), the authors discussed the shortcomings in the security of a quantum private comparison protocol that we previously proposed (Int. J. Quantum Inf. 15 (2017) 1750014). They also proposed a new protocol aimed to avoid these problems. Here we analysis the information leaked in their protocol, and find that it is even less secure than our protocol in certain cases. We further propose an improved version which has the following advantages: (1) no entanglement needed, (2) quantum memory is no longer required, and (3) less information leaked. Therefore, better security and great feasibility are both achieved.
翻訳日:2023-07-26 01:46:06 公開日:2023-07-22
# 人物再同定のためのホロスティックガイダンス

Holistic Guidance for Occluded Person Re-Identification ( http://arxiv.org/abs/2104.06524v2 )

ライセンス: Link先を確認
Madhu Kiran, R Gnana Praveen, Le Thanh Nguyen-Meidine, Soufiane Belharbi, Louis-Antoine Blais-Morin, Eric Granger(参考訳) 実世界のビデオ監視アプリケーションでは、人物再識別(ReID)は閉塞や検出エラーの影響に悩まされる。 近年の進歩にもかかわらず、オクルージョンは最先端のcnnバックボーンで抽出された特徴を腐敗させ続け、reidシステムの精度を低下させる。 この問題に対処するために、文献の手法は、ポーズ推定のような追加のコストのかかるプロセスを使用し、ポーズマップは、排他的領域を除外するための監督を提供する。 対照的に,個人識別ラベルのみに依存する新しい包括的ガイダンス (hg) 手法を導入し,追加の監督を必要とせず,データ集合のペアワイズマッチング距離の分布により咬合問題の軽減を図る。 そこで,本論文では,本論文で提案する学生教育フレームワークを用いて,咬合標本のクラス間距離とクラス内距離(dcds)の分布を総括的(非咬合)試料の分布と整合させることで咬合問題に対処し,後者をソフトラベル付き参照としてよく分離されたdcdを学習する。 このアプローチは、画像間の相互およびクラス内距離の分布が、全体的データセットよりも排他的に重なるという経験的研究によって支持される。 特に、両方のデータセットから抽出された特徴を学生モデルを用いて共同で学習し、隠蔽された領域から可視領域を分離できる注意マップを作成する。 これに加えて、協調生成判別バックボーンをデノージングオートエンコーダで訓練し、システムはオクルージョンから自己回復することができる。 いくつかの難解な公開データセットに関する広範囲な実験は、提案手法がオクルードデータセットと全体データセットの両方で最先端の手法よりも優れていることを示している。

In real-world video surveillance applications, person re-identification (ReID) suffers from the effects of occlusions and detection errors. Despite recent advances, occlusions continue to corrupt the features extracted by state-of-art CNN backbones, and thereby deteriorate the accuracy of ReID systems. To address this issue, methods in the literature use an additional costly process such as pose estimation, where pose maps provide supervision to exclude occluded regions. In contrast, we introduce a novel Holistic Guidance (HG) method that relies only on person identity labels, and on the distribution of pairwise matching distances of datasets to alleviate the problem of occlusion, without requiring additional supervision. Hence, our proposed student-teacher framework is trained to address the occlusion problem by matching the distributions of between- and within-class distances (DCDs) of occluded samples with that of holistic (non-occluded) samples, thereby using the latter as a soft labeled reference to learn well separated DCDs. This approach is supported by our empirical study where the distribution of between- and within-class distances between images have more overlap in occluded than holistic datasets. In particular, features extracted from both datasets are jointly learned using the student model to produce an attention map that allows separating visible regions from occluded ones. In addition to this, a joint generative-discriminative backbone is trained with a denoising autoencoder, allowing the system to self-recover from occlusions. Extensive experiments on several challenging public datasets indicate that the proposed approach can outperform state-of-the-art methods on both occluded and holistic datasets
翻訳日:2023-07-26 01:39:53 公開日:2023-07-22
# 多目的予測による人間の視線による模倣学習

Imitation Learning with Human Eye Gaze via Multi-Objective Prediction ( http://arxiv.org/abs/2102.13008v3 )

ライセンス: Link先を確認
Ravi Kumar Thakur, MD-Nazmus Samin Sunbeam, Vinicius G. Goecks, Ellen Novoseller, Ritwik Bera, Vernon J. Lawhern, Gregory M. Gremillion, John Valasek, Nicholas R. Waytowich(参考訳) 人間のデモを通して学習エージェントを教えるためのアプローチは広く研究され、複数の領域にうまく適用されている。 しかし、模倣学習の作業の大半は、デモレーターからの行動情報、すなわちどの行動が取られたかのみを利用しており、他の有用な情報を無視している。 特に、目視情報は、ディストレーターが視覚的注意をどこに配置しているかについての貴重な洞察を与え、エージェントのパフォーマンスと一般化を改善する可能性を秘めている。 本研究では,視覚的注意が重要なコンテキストを提供するタスクを解決するために,人間の実演と視線の両方から同時に学習する新しい文脈認識型模倣学習アーキテクチャであるGaz Regularized Imitation Learning (GRIL)を提案する。 我々はGRILを視覚的ナビゲーションタスクに適用し、無人の四極子を訓練し、光現実的シミュレーション環境下で対象車両の探索とナビゲートを行う。 GRILは、最先端の視線に基づく模倣学習アルゴリズムよりも優れており、同時に人間の視覚的注意を予測し、トレーニングデータに存在しないシナリオに一般化する。 補足的なビデオとコードはhttps://sites.google.com/view/gaze-regularized-il/で見ることができる。

Approaches for teaching learning agents via human demonstrations have been widely studied and successfully applied to multiple domains. However, the majority of imitation learning work utilizes only behavioral information from the demonstrator, i.e. which actions were taken, and ignores other useful information. In particular, eye gaze information can give valuable insight towards where the demonstrator is allocating visual attention, and holds the potential to improve agent performance and generalization. In this work, we propose Gaze Regularized Imitation Learning (GRIL), a novel context-aware, imitation learning architecture that learns concurrently from both human demonstrations and eye gaze to solve tasks where visual attention provides important context. We apply GRIL to a visual navigation task, in which an unmanned quadrotor is trained to search for and navigate to a target vehicle in a photorealistic simulated environment. We show that GRIL outperforms several state-of-the-art gaze-based imitation learning algorithms, simultaneously learns to predict human visual attention, and generalizes to scenarios not present in the training data. Supplemental videos and code can be found at https://sites.google.com/view/gaze-regularized-il/.
翻訳日:2023-07-26 01:38:46 公開日:2023-07-22
# 量子インターネットにおける因果活性化による多部絡み合いの決定論的生成

Deterministic Generation of Multipartite Entanglement via Causal Activation in the Quantum Internet ( http://arxiv.org/abs/2112.00543v3 )

ライセンス: Link先を確認
Seid Koudia, Angela Sara Cacciapuoti, Marcello Caleffi(参考訳) エンタングルメントは、量子通信から分散量子コンピューティングまで、量子情報処理のいくつかの応用のための '`\textit{the}'' キーリソースを表す。 基本的重要性にもかかわらず、最大絡み合った量子ビットの決定論的生成は、現在進行中の開問題を表している。 ここでは,2つの魅力的な特徴を示す新しい生成方式をデザインする。 一 真に多部交絡状態の異なるクラス(GHZ様、W様及びグラフ状態)を決定論的に生成すること。 二 キュービット間の直接的相互作用を必要とせず。 実際、唯一の必要条件は、不確定因果順序フレームワークによれば、キュービットに作用するユニタリ間の因果順序をコヒーレントに制御する可能性である。 本稿では,決定論的生成のためのユニタリの条件を分析し,導出し,ユニタリの実践例を示す。 本稿では,提案手法の高次元真の多部絡み合い(GME)状態への拡張性について議論し,提案手法の量子ネットワークへの応用の可能性を紹介する。

Entanglement represents ``\textit{the}'' key resource for several applications of quantum information processing, ranging from quantum communications to distributed quantum computing. Despite its fundamental importance, deterministic generation of maximally entangled qubits represents an on-going open problem. Here, we design a novel generation scheme exhibiting two attractive features, namely, i) deterministically generating different classes -- namely, GHZ-like, W-like and graph states -- of genuinely multipartite entangled states, ii) without requiring any direct interaction between the qubits. Indeed, the only necessary condition is the possibility of coherently controlling -- according to the indefinite causal order framework -- the causal order among the unitaries acting on the qubits. Through the paper, we analyze and derive the conditions on the unitaries for deterministic generation, and we provide examples for unitaries practical implementation. We conclude the paper by discussing the scalability of the proposed scheme to higher dimensional genuine multipartite entanglement (GME) states and by introducing some possible applications of the proposal for quantum networks.
翻訳日:2023-07-26 01:31:28 公開日:2023-07-22
# 木様3次元物体の弾性表現と生成形状モデル

Elastic Representation and Generative Shape Models for Tree-like 3D Objects ( http://arxiv.org/abs/2110.08693v3 )

ライセンス: Link先を確認
Guan Wang, Hamid Laga, Anuj Srivastava(参考訳) 複雑な幾何学的・トポロジカルな変動を示すニューロンや植物木といった詳細な3d生体オブジェクトをどうやって分析できるのか? 本稿では,木のような3次元オブジェクトの形状間の測地変形を表現,比較,計算するための新しい数学的枠組みを開発する。 サブツリーの階層構造はこれらのオブジェクトを特徴付ける -- 各サブツリーはメインブランチを持ち、いくつかのサイドブランチが付属している -- 。 まず,ユークリッド曲線向けに開発された正方根速度関数(srvf)を木形3dオブジェクトに拡張した新しい表現法を提案する。 次に、一方の木の形の物体を他方に変形させるために必要な曲げ、伸展、分岐スライディングを定量化する新しい計量を定義する。 QED(Quotient Euclidean Distance)やTED(Tree Edit Distance)といった現在のメトリクスと比較すると、提案された表現とメトリクスは、枝の完全な弾力性(屈曲と伸張)と位相的変動(分岐死・産出・すべり)を捉えている。 QEDおよびTEDメトリクスのエッジ崩壊とノード分割操作による縮小を完全に回避する。 本稿では,ニューロンや植物木などの生物オブジェクト間の測地学の比較,マッチング,計算において,このフレームワークの有用性を示す。 このフレームワークは様々な形状分析タスクにも適用できる。 (i)木形3次元物体の対称性解析と対称性 二 木形3Dオブジェクトの集団の計算概要統計(意味と変動のモード) (iii)そのような集団にパラメトリック確率分布を適合させること。 (iv)推定確率分布からランダムサンプリングにより、新しい木形3dオブジェクトを合成する。

How can one analyze detailed 3D biological objects, such as neurons and botanical trees, that exhibit complex geometrical and topological variation? In this paper, we develop a novel mathematical framework for representing, comparing, and computing geodesic deformations between the shapes of such tree-like 3D objects. A hierarchical organization of subtrees characterizes these objects -- each subtree has the main branch with some side branches attached -- and one needs to match these structures across objects for meaningful comparisons. We propose a novel representation that extends the Square-Root Velocity Function (SRVF), initially developed for Euclidean curves, to tree-shaped 3D objects. We then define a new metric that quantifies the bending, stretching, and branch sliding needed to deform one tree-shaped object into the other. Compared to the current metrics, such as the Quotient Euclidean Distance (QED) and the Tree Edit Distance (TED), the proposed representation and metric capture the full elasticity of the branches (i.e., bending and stretching) as well as the topological variations (i.e., branch death/birth and sliding). It completely avoids the shrinkage that results from the edge collapse and node split operations of the QED and TED metrics. We demonstrate the utility of this framework in comparing, matching, and computing geodesics between biological objects such as neurons and botanical trees. The framework is also applied to various shape analysis tasks: (i) symmetry analysis and symmetrization of tree-shaped 3D objects, (ii) computing summary statistics (means and modes of variations) of populations of tree-shaped 3D objects, (iii) fitting parametric probability distributions to such populations, and (iv) finally synthesizing novel tree-shaped 3D objects through random sampling from estimated probability distributions.
翻訳日:2023-07-26 01:30:13 公開日:2023-07-22
# 圧縮環境の模倣による2量子絡み合いの安定化

Stabilizing two-qubit entanglement by mimicking a squeezed environment ( http://arxiv.org/abs/2110.06201v2 )

ライセンス: Link先を確認
L. C. G. Govia, A. Lingenfelter, A. A. Clerk(参考訳) 圧縮真空環境に浸漬された量子ビットは、散逸性の絡み合い安定化を含む多くのエキゾチックな現象を示すことが知られている。 ここで,これらの効果は励起過程と減衰過程の干渉のみを必要とすることを示し,古典的時間変調を用いた非古典的光を忠実に模倣できることを示した。 伝送線路または導波路を介して結合された2つのリモートキュービット間の絡み合いを安定化するために、このアイデアを利用するスキームを提案する。 様々な不完全性に対するこれらのアプローチの弾力性を分析し、また、エンタングルメント安定化の速度と品質のトレードオフを特徴付ける。 我々のプロトコルはアーティファクトQEDシステムの状態と互換性がある。

It is well known that qubits immersed in a squeezed vacuum environment exhibit many exotic phenomena, including dissipative entanglement stabilization. Here, we show that these effects only require interference between excitation and decay processes, and can be faithfully mimicked without non-classical light using simple classical temporal modulation. We present schemes that harnesses this idea to stabilize entanglement between two remote qubits coupled via a transmission line or waveguide, where either the qubit-waveguide coupling is modulated, or the qubits are directly driven. We analyze the resilience of these approaches against various imperfections, and also characterize the trade-off between the speed and quality of entanglement stabilization. Our protocols are compatible with state of the art cavity QED systems.
翻訳日:2023-07-26 01:29:43 公開日:2023-07-22
# シミュレート・アニーリングは最小スパンディングツリー問題に対する多項式時間近似スキームである

Simulated Annealing is a Polynomial-Time Approximation Scheme for the Minimum Spanning Tree Problem ( http://arxiv.org/abs/2204.02097v2 )

ライセンス: Link先を確認
Benjamin Doerr and Amirhossein Rajabi and Carsten Witt(参考訳) 適切な冷却スケジュールを持つシミュレートアニーリングは、多項式時間で最小スパンディングツリー問題に対する任意にタイトな定数要素近似を計算する。 この結果は Wegener (2005) によって予想された。 より正確には、$n, m, w_{\max}$ および $w_{\min}$ の頂点と辺の個数と MST インスタンスの最大および最小エッジ重量とで表すと、初期温度$T_0 \ge w_{\max}$ と 1-1/\ell$ の乗算冷却スケジュールでアニーリングをシミュレートし、$\ell = \omega (mn\ln) で表すことができる。 (m))$, 確率 1-1/m$ 計算時間 $O(\ell (\ln\ln (\ell) + \ln(T_0/w_{\min})))$ 1+\kappa$ 1+\kappa = \frac{(1+o(1))\ln(\ell) m)}{\ln(\ell) -\ln (mn\ln) (m))}$。 したがって、$\epsilon>0$ の場合、$(1+\epsilon)$-approximation がtime $O((mn\ln) で見つかるような方法で $\ell$ を選択することができる。 (n))^{1+1/\epsilon+o(1)}(\ln\ln n + \ln(t_0/w_{\min}))) 確率は少なくとも 1-1/m$ である。 いわゆる$(1+\epsilon)$-分離重みの特別な場合、このアルゴリズムは最適な解(時間$o((mn\ln)) を計算する。 (n))^{1+1/\epsilon+o(1)}(\ln\ln n + \ln(t_0/w_{\min}))$) これはwegenerのランタイムの$o(m^{8 + 8/\epsilon})$に対する大きなスピードアップである。

We prove that Simulated Annealing with an appropriate cooling schedule computes arbitrarily tight constant-factor approximations to the minimum spanning tree problem in polynomial time. This result was conjectured by Wegener (2005). More precisely, denoting by $n, m, w_{\max}$, and $w_{\min}$ the number of vertices and edges as well as the maximum and minimum edge weight of the MST instance, we prove that simulated annealing with initial temperature $T_0 \ge w_{\max}$ and multiplicative cooling schedule with factor $1-1/\ell$, where $\ell = \omega (mn\ln(m))$, with probability at least $1-1/m$ computes in time $O(\ell (\ln\ln (\ell) + \ln(T_0/w_{\min}) ))$ a spanning tree with weight at most $1+\kappa$ times the optimum weight, where $1+\kappa = \frac{(1+o(1))\ln(\ell m)}{\ln(\ell) -\ln (mn\ln (m))}$. Consequently, for any $\epsilon>0$, we can choose $\ell$ in such a way that a $(1+\epsilon)$-approximation is found in time $O((mn\ln(n))^{1+1/\epsilon+o(1)}(\ln\ln n + \ln(T_0/w_{\min})))$ with probability at least $1-1/m$. In the special case of so-called $(1+\epsilon)$-separated weights, this algorithm computes an optimal solution (again in time $O( (mn\ln(n))^{1+1/\epsilon+o(1)}(\ln\ln n + \ln(T_0/w_{\min})))$), which is a significant speed-up over Wegener's runtime guarantee of $O(m^{8 + 8/\epsilon})$.
翻訳日:2023-07-26 01:20:20 公開日:2023-07-22
# 超解像・異方性推定のための遠近光場

Disentangling Light Fields for Super-Resolution and Disparity Estimation ( http://arxiv.org/abs/2202.10603v5 )

ライセンス: Link先を確認
Yingqian Wang, Longguang Wang, Gaochang Wu, Jungang Yang, Wei An, Jingyi Yu, Yulan Guo(参考訳) 光フィールド(LF)カメラは光線の強度と方向の両方を記録し、3Dシーンを4DLF画像にエンコードする。 近年、さまざまなLF画像処理タスクに対して多くの畳み込みニューラルネットワーク(CNN)が提案されている。 しかし,空間的・角的な情報に相違があるため,CNNがLF画像を効果的に処理することは困難である。 本稿では,この結合した情報をLF画像処理のために切り離すための汎用メカニズムを提案する。 具体的には、まずドメイン固有の畳み込みのクラスを設計し、異なる次元からLFをアンタングルし、タスク固有のモジュールを設計することでこれらのアンタングル特徴を活用する。 我々の解離機構は、LF構造を予め組み込んで、4次元LFデータを効果的に扱うことができる。 提案手法に基づき,空間超解像・角超解像・不均質推定のための3つのネットワーク(DistgSSR,DistgASR,DistgDisp)を開発した。 実験の結果,ネットワークはこれら3つのタスクすべてに対して最先端の性能を達成し,この機構の有効性,効率,汎用性を実証した。 プロジェクトページ: https://yingqianwang.github.io/distglf/

Light field (LF) cameras record both intensity and directions of light rays, and encode 3D scenes into 4D LF images. Recently, many convolutional neural networks (CNNs) have been proposed for various LF image processing tasks. However, it is challenging for CNNs to effectively process LF images since the spatial and angular information are highly inter-twined with varying disparities. In this paper, we propose a generic mechanism to disentangle these coupled information for LF image processing. Specifically, we first design a class of domain-specific convolutions to disentangle LFs from different dimensions, and then leverage these disentangled features by designing task-specific modules. Our disentangling mechanism can well incorporate the LF structure prior and effectively handle 4D LF data. Based on the proposed mechanism, we develop three networks (i.e., DistgSSR, DistgASR and DistgDisp) for spatial super-resolution, angular super-resolution and disparity estimation. Experimental results show that our networks achieve state-of-the-art performance on all these three tasks, which demonstrates the effectiveness, efficiency, and generality of our disentangling mechanism. Project page: https://yingqianwang.github.io/DistgLF/.
翻訳日:2023-07-26 01:18:32 公開日:2023-07-22
# GANDALF: 機能の深層自動学習のための拡張適応ネットワーク

GANDALF: Gated Adaptive Network for Deep Automated Learning of Features ( http://arxiv.org/abs/2207.08548v5 )

ライセンス: Link先を確認
Manu Joseph, Harsh Raj(参考訳) 本稿では,グラフデータのための新しい高性能,解釈可能,パラメータ \&計算効率のよいディープラーニングアーキテクチャ,GANDALF (Gated Adaptive Network for Deep Automated Learning of Features)を提案する。 GANDALFは、ゲーティング機構を備えた新しい表処理ユニットと、特徴表現学習ユニットとしてGFLU(Gated Feature Learning Unit)と呼ばれる内蔵機能選択に依存している。 GANDALFは、XGBoost、SAINT、FT-TransformersなどのSOTAアプローチと、複数の確立された公開ベンチマークでの実験により、より優れているか、同等であることを示す。 コードはgithub.com/manujosephv/pytorch_tabularでmitライセンスで公開しました。

We propose a novel high-performance, interpretable, and parameter \& computationally efficient deep learning architecture for tabular data, Gated Adaptive Network for Deep Automated Learning of Features (GANDALF). GANDALF relies on a new tabular processing unit with a gating mechanism and in-built feature selection called Gated Feature Learning Unit (GFLU) as a feature representation learning unit. We demonstrate that GANDALF outperforms or stays at-par with SOTA approaches like XGBoost, SAINT, FT-Transformers, etc. by experiments on multiple established public benchmarks. We have made available the code at github.com/manujosephv/pytorch_tabular under MIT License.
翻訳日:2023-07-26 00:58:34 公開日:2023-07-22
# マルチエージェント強化学習における平衡選択のためのパレートアクタクリティカル

Pareto Actor-Critic for Equilibrium Selection in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2209.14344v2 )

ライセンス: Link先を確認
Filippos Christianos, Georgios Papoudakis, Stefano V. Albrecht(参考訳) 本研究は,非競合マルチエージェントゲームにおける均衡選択に焦点をあて,既存の複数の平衡間のパレート・オプティカル均衡の選択問題を具体的に研究する。 多くの最先端マルチエージェント強化学習(MARL)アルゴリズムは、トレーニング中に各エージェントが他のエージェントのポリシーについて持っている不確実性のため、パレート支配均衡に収束する傾向にある。 我々は,非競合ゲーム(協調ゲームのスーパーセット)の単純特性を利用するアクター-批判アルゴリズムであるpareto actor-critic (pareto-ac)を提案する。 マルチエージェントゲームにおいてpareto-acを評価し,7つの最先端marlアルゴリズムと比較して高いエピソディックリターンに収束し,様々な行列ゲームにおいてpareto-optimal equilibriumに収束することを示した。 最後に,Pareto-ACのグラフニューラルネットワーク拡張であるPACDCGを提案する。

This work focuses on equilibrium selection in no-conflict multi-agent games, where we specifically study the problem of selecting a Pareto-optimal equilibrium among several existing equilibria. It has been shown that many state-of-the-art multi-agent reinforcement learning (MARL) algorithms are prone to converging to Pareto-dominated equilibria due to the uncertainty each agent has about the policy of the other agents during training. To address sub-optimal equilibrium selection, we propose Pareto Actor-Critic (Pareto-AC), which is an actor-critic algorithm that utilises a simple property of no-conflict games (a superset of cooperative games): the Pareto-optimal equilibrium in a no-conflict game maximises the returns of all agents and therefore is the preferred outcome for all agents. We evaluate Pareto-AC in a diverse set of multi-agent games and show that it converges to higher episodic returns compared to seven state-of-the-art MARL algorithms and that it successfully converges to a Pareto-optimal equilibrium in a range of matrix games. Finally, we propose PACDCG, a graph neural network extension of Pareto-AC which is shown to efficiently scale in games with a large number of agents.
翻訳日:2023-07-26 00:51:58 公開日:2023-07-22
# 20-20クリケットマッチングの結果の予測 : 機械学習アプローチ

Prediction of the outcome of a Twenty-20 Cricket Match : A Machine Learning Approach ( http://arxiv.org/abs/2209.06346v2 )

ライセンス: Link先を確認
Ashish V Shenoy, Arjun Singhvi, Shruthi Racha, Srinivas Tunuguntla(参考訳) T2020クリケット(T2020クリケット、英語: T20 cricket)は、クリケットの一種。 20のゲームでは、11人のプレーヤーからなる2つのチームがそれぞれ1回のインニングを持ち、最大20回に制限される。 このバージョンのクリケットは特に予測不可能であり、近年人気を集めている理由の1つである。 しかし,本稿では,T20クリケットマッチの結果を予測するために,4つの異なる機械学習手法を試す。 具体的には、競技チームに関わる選手の過去のパフォーマンス統計、評価されたクリケット統計ウェブサイトから得られた選手のレーティング、類似したパフォーマンス統計をクラスタリングし、ELOに基づくプレイヤーの評価手法を用いた新しい手法を提案する。 本稿では,ロジスティック回帰,サポートベクタマシン,ベイズネットワーク,決定木,ランダムフォレストなど,さまざまなMLアルゴリズムを用いて,これらの特徴工学手法の性能を比較した。

Twenty20 cricket, sometimes written Twenty-20, and often abbreviated to T20, is a short form of cricket. In a Twenty20 game the two teams of 11 players have a single innings each, which is restricted to a maximum of 20 overs. This version of cricket is especially unpredictable and is one of the reasons it has gained popularity over recent times. However, in this paper we try four different machine learning approaches for predicting the results of T20 Cricket Matches. Specifically we take in to account: previous performance statistics of the players involved in the competing teams, ratings of players obtained from reputed cricket statistics websites, clustering the players' with similar performance statistics and propose a novel method using an ELO based approach to rate players. We compare the performances of each of these feature engineering approaches by using different ML algorithms, including logistic regression, support vector machines, bayes network, decision tree, random forest.
翻訳日:2023-07-26 00:50:19 公開日:2023-07-22
# 典型的な学習可能なタスクの空間の写真

A picture of the space of typical learnable tasks ( http://arxiv.org/abs/2210.17011v4 )

ライセンス: Link先を確認
Rahul Ramesh, Jialin Mao, Itay Griniasty, Rubing Yang, Han Kheng Teoh, Mark Transtrum, James P. Sethna, Pratik Chaudhari(参考訳) 我々は,教師付き,メタ型,セミ教師付き,コントラスト型学習を用いて,ディープネットワークが異なるタスクで学習した表現を理解するための情報幾何学的手法を開発した。 We shed light on the following phenomena that relate to the structure of the space of tasks: (1) the manifold of probabilistic models trained on different tasks using different representation learning methods is effectively low-dimensional; (2) supervised learning on one task results in a surprising amount of progress even on seemingly dissimilar tasks; progress on other tasks is larger if the training task has diverse classes; (3) the structure of the space of tasks indicated by our analysis is consistent with parts of the Wordnet phylogenetic tree; (4) episodic meta-learning algorithms and supervised learning traverse different trajectories during training but they fit similar models eventually; (5) contrastive and semi-supervised learning methods traverse trajectories similar to those of supervised learning. CIFAR-10とImagenetデータセットから構築した分類タスクを用いてこれらの現象を研究する。

We develop information geometric techniques to understand the representations learned by deep networks when they are trained on different tasks using supervised, meta-, semi-supervised and contrastive learning. We shed light on the following phenomena that relate to the structure of the space of tasks: (1) the manifold of probabilistic models trained on different tasks using different representation learning methods is effectively low-dimensional; (2) supervised learning on one task results in a surprising amount of progress even on seemingly dissimilar tasks; progress on other tasks is larger if the training task has diverse classes; (3) the structure of the space of tasks indicated by our analysis is consistent with parts of the Wordnet phylogenetic tree; (4) episodic meta-learning algorithms and supervised learning traverse different trajectories during training but they fit similar models eventually; (5) contrastive and semi-supervised learning methods traverse trajectories similar to those of supervised learning. We use classification tasks constructed from the CIFAR-10 and Imagenet datasets to study these phenomena.
翻訳日:2023-07-26 00:40:48 公開日:2023-07-22
# 自己教師型学習による顔映像を用いた遠隔生理計測

Facial Video-based Remote Physiological Measurement via Self-supervised Learning ( http://arxiv.org/abs/2210.15401v3 )

ライセンス: Link先を確認
Zijie Yue, Miaojing Shi, Shuai Ding(参考訳) 顔画像に基づく遠隔生理学的測定は、人間の顔ビデオからリモート光胸腺撮影(rPPG)信号を推定し、rPPG信号から複数のバイタルサイン(心拍数、呼吸頻度など)を測定することを目的としている。 最近のアプローチでは、通常、豊富な顔ビデオと同期記録フォトプレチモグラフィ(ppg)信号を必要とするディープニューラルネットワークを訓練することで、これを達成している。 しかし、実際にはこれらの注釈付きコーパスの収集は容易ではない。 本稿では,基礎的な真理PSG信号を必要としない顔画像からrPPG信号を推定する,周波数インスパイアされた自己教師型フレームワークを提案する。 ビデオサンプルが与えられたら、まず、元のサンプルと類似/相似信号周波数を含む複数の正/負のサンプルに拡大する。 具体的には、空間増強を用いて正のサンプルを生成する。 負のサンプルは学習可能な周波数拡張モジュールを介して生成され、視覚の外観を過度に変えることなく入力に対して非線形信号周波数変換を行う。 次に、拡張サンプルからrPPG信号を推定するために、局所的なrPPGエキスパートアグリゲーションモジュールを導入する。 異なる顔領域からの補足的な脈動情報を符号化し、1つのrppg予測に集約する。 最後に,複数の拡張映像から推定されたrppg信号の最適化のために,周波数コントラスト損失,周波数比一貫性損失,ビデオ間周波数整合損失など,周波数にインスパイアされた一連の損失を提案する。 4つの標準ベンチマークでrppgによる心拍数,心拍変動,呼吸周波数の推定を行う。 実験の結果,本手法は芸術の状態を大きなマージンで改善できることが確認された。

Facial video-based remote physiological measurement aims to estimate remote photoplethysmography (rPPG) signals from human face videos and then measure multiple vital signs (e.g. heart rate, respiration frequency) from rPPG signals. Recent approaches achieve it by training deep neural networks, which normally require abundant facial videos and synchronously recorded photoplethysmography (PPG) signals for supervision. However, the collection of these annotated corpora is not easy in practice. In this paper, we introduce a novel frequency-inspired self-supervised framework that learns to estimate rPPG signals from facial videos without the need of ground truth PPG signals. Given a video sample, we first augment it into multiple positive/negative samples which contain similar/dissimilar signal frequencies to the original one. Specifically, positive samples are generated using spatial augmentation. Negative samples are generated via a learnable frequency augmentation module, which performs non-linear signal frequency transformation on the input without excessively changing its visual appearance. Next, we introduce a local rPPG expert aggregation module to estimate rPPG signals from augmented samples. It encodes complementary pulsation information from different face regions and aggregate them into one rPPG prediction. Finally, we propose a series of frequency-inspired losses, i.e. frequency contrastive loss, frequency ratio consistency loss, and cross-video frequency agreement loss, for the optimization of estimated rPPG signals from multiple augmented video samples and across temporally neighboring video samples. We conduct rPPG-based heart rate, heart rate variability and respiration frequency estimation on four standard benchmarks. The experimental results demonstrate that our method improves the state of the art by a large margin.
翻訳日:2023-07-26 00:39:56 公開日:2023-07-22
# FsaNet: セマンティックセグメンテーションのための周波数自己注意

FsaNet: Frequency Self-attention for Semantic Segmentation ( http://arxiv.org/abs/2211.15595v2 )

ライセンス: Link先を確認
Fengyu Zhang, Ashkan Panahi, Guangjun Gao(参考訳) 画像のスペクトル特性を考慮し,線形速度まで計算複雑性を低減した新しい自己追尾機構を提案する。 オブジェクト内の類似性を促進しつつエッジの保存性を向上させるため,周波数帯域の異なる個別化プロセスを提案する。 特に, プロセスが低周波成分上のみである場合について検討する。 アブレーション研究により,低周波自己注意は,ネットワークを再トレーニングすることなく,全周波に対して非常に近い,あるいは良好な性能が得られることを示した。 そこで我々は,FsaNetと呼ぶCNNネットワークの先頭に,新しいプラグアンドプレイモジュールを設計し,組み込む。 周波数自己注意 1) 入力として少数の低周波係数しか必要としない。 2) 線形構造を持つ空間領域自己完結と数学的に等価である。 3) トークンマッピング(1\times1$畳み込み)ステージとトークンの混合ステージを同時に単純化する。 周波数自己アテンションに要するメモリは 87.29 % \sim 90.04 %$、メモリは 96.13 % \sim 98.07 %$ FLOPs と 97.56 % \sim 98.18 %$ である。 他のresnet101ベースのセルフアテンションネットワークと比較して、 \ourm は cityscape テストデータセットと ade20k と vocaug の競合結果で新たな \sart 結果 (83.0\%$ miou) を達成している。 \ourMは、COCO上のインスタンスセグメンテーションのためのMASK R-CNNを強化することもできる。 また、提案モジュールを利用することで、スケールの異なる一連のモデル上でsegformerをブーストすることができ、再トレーニングすることなくsegformer-b5を改善できる。 コードは \url{https://github.com/zfy-csu/FsaNet

Considering the spectral properties of images, we propose a new self-attention mechanism with highly reduced computational complexity, up to a linear rate. To better preserve edges while promoting similarity within objects, we propose individualized processes over different frequency bands. In particular, we study a case where the process is merely over low-frequency components. By ablation study, we show that low frequency self-attention can achieve very close or better performance relative to full frequency even without retraining the network. Accordingly, we design and embed novel plug-and-play modules to the head of a CNN network that we refer to as FsaNet. The frequency self-attention 1) requires only a few low frequency coefficients as input, 2) can be mathematically equivalent to spatial domain self-attention with linear structures, 3) simplifies token mapping ($1\times1$ convolution) stage and token mixing stage simultaneously. We show that frequency self-attention requires $87.29\% \sim 90.04\%$ less memory, $96.13\% \sim 98.07\%$ less FLOPs, and $97.56\% \sim 98.18\%$ in run time than the regular self-attention. Compared to other ResNet101-based self-attention networks, \ourM achieves a new \sArt result ($83.0\%$ mIoU) on Cityscape test dataset and competitive results on ADE20k and VOCaug. \ourM can also enhance MASK R-CNN for instance segmentation on COCO. In addition, utilizing the proposed module, Segformer can be boosted on a series of models with different scales, and Segformer-B5 can be improved even without retraining. Code is accessible at \url{https://github.com/zfy-csu/FsaNet
翻訳日:2023-07-26 00:33:26 公開日:2023-07-22
# 演算子学習による拡散モデルの高速サンプリング

Fast Sampling of Diffusion Models via Operator Learning ( http://arxiv.org/abs/2211.13449v3 )

ライセンス: Link先を確認
Hongkai Zheng, Weili Nie, Arash Vahdat, Kamyar Azizzadenesheli, Anima Anandkumar(参考訳) 拡散モデルは様々な地域で広く採用されている。 しかし、それらのサンプリングプロセスは、微分方程式によって定義される連続過程をエミュレートするために数百から数千のネットワーク評価を必要とするため、遅い。 本研究では,拡散モデルのサンプリング過程を高速化するために,確率流微分方程式の効率的な解法であるニューラル演算子を用いる。 逐次的な性質を持つ他の高速サンプリング手法と比較して、1つのモデルフォワードパスしか持たない画像を生成する並列復号法を最初に提案する。 本稿では,初期状態,すなわちガウス分布を逆拡散過程の連続時間解軌道にマッピングする,ニューラル演算子(DSNO)を用いた拡散モデルサンプリングを提案する。 軌道に沿った時間的相関をモデル化するために、フーリエ空間でパラメータ化された時間的畳み込み層を与えられた拡散モデルバックボーンに導入する。 本稿では,CIFAR-10では3.78、ImageNet-64では7.83の最先端FIDを1モデル評価環境で達成することを示す。

Diffusion models have found widespread adoption in various areas. However, their sampling process is slow because it requires hundreds to thousands of network evaluations to emulate a continuous process defined by differential equations. In this work, we use neural operators, an efficient method to solve the probability flow differential equations, to accelerate the sampling process of diffusion models. Compared to other fast sampling methods that have a sequential nature, we are the first to propose a parallel decoding method that generates images with only one model forward pass. We propose diffusion model sampling with neural operator (DSNO) that maps the initial condition, i.e., Gaussian distribution, to the continuous-time solution trajectory of the reverse diffusion process. To model the temporal correlations along the trajectory, we introduce temporal convolution layers that are parameterized in the Fourier space into the given diffusion model backbone. We show our method achieves state-of-the-art FID of 3.78 for CIFAR-10 and 7.83 for ImageNet-64 in the one-model-evaluation setting.
翻訳日:2023-07-26 00:32:54 公開日:2023-07-22
# 非検出光子の量子状態トモグラフィー

Quantum state tomography of undetected photons ( http://arxiv.org/abs/2211.10304v2 )

ライセンス: Link先を確認
Jorge Fuenzalida, Jaroslav Kysela, Krishna Dovzhik, Gabriela Barreto Lemos, Armin Hochrainer, Mayukh Lahiri, and Anton Zeilinger(参考訳) 量子状態の測定は、量子力学において最も重要な問題の1つである。 量子状態トモグラフィ技術では、量子ビットの状態が復元されるが、量子ビットは検出されない。 主な材料は: (i)追加の量子ビットを用いる (ii)未検出のキュービットをパスidを用いて既知の参照状態と整合すること。 (iii)未検出のキュービット状態を再構築するために追加のキュービットを測定する。 理論上,光偏光状態を用いた手法の確立と実験的実証を行った。 この手法の基礎となる原理は、光子以外の量子実体にも適用できる。

The measurement of quantum states is one of the most important problems in quantum mechanics. We introduce a quantum state tomography technique in which the state of a qubit is reconstructed, while the qubit remains undetected. The key ingredients are: (i) employing an additional qubit, (ii) aligning the undetected qubit with a known reference state by using path identity, and (iii) measuring the additional qubit to reconstruct the undetected qubit state. We theoretically establish and experimentally demonstrate the method with photonic polarization states. The principle underlying our method could also be applied to quantum entities other than photons.
翻訳日:2023-07-26 00:31:40 公開日:2023-07-22
# 流れ・ステレオ・深さの統一推定

Unifying Flow, Stereo and Depth Estimation ( http://arxiv.org/abs/2211.05783v2 )

ライセンス: Link先を確認
Haofei Xu, Jing Zhang, Jianfei Cai, Hamid Rezatofighi, Fisher Yu, Dacheng Tao, Andreas Geiger(参考訳) 本稿では,光学的流れ,修正ステレオマッチング,未修正ステレオ深度推定という3つの動作および3次元知覚タスクの統一的な定式化とモデルを提案する。 特定のタスクごとの以前の特殊なアーキテクチャとは異なり、我々は3つのタスクすべてを統一的な密対応マッチング問題として定式化し、特徴の類似性を直接比較することで単一のモデルで解決できる。 このような定式化は、トランスフォーマー、特にクロスアテンション機構を用いて達成される識別的特徴表現を要求する。 我々は,クロスアテンションによって他画像からの知識を相互に統合できることを実証し,抽出した特徴の質を大幅に向上させることを実証した。 私たちの統一モデルは、モデルアーキテクチャとパラメータがタスク間で共有されるため、自然にクロスタスク転送を可能にします。 Sintelデータセットの統一モデルではRAFTよりも優れており、モデル設計や推論速度の点でよりシンプルで効率的でありながら、10の一般的なフロー、ステレオ、ディープデータセットにおける最新の最先端手法よりも優れ、あるいは好適に、タスク固有の改善ステップを使用する最終モデルです。

We present a unified formulation and model for three motion and 3D perception tasks: optical flow, rectified stereo matching and unrectified stereo depth estimation from posed images. Unlike previous specialized architectures for each specific task, we formulate all three tasks as a unified dense correspondence matching problem, which can be solved with a single model by directly comparing feature similarities. Such a formulation calls for discriminative feature representations, which we achieve using a Transformer, in particular the cross-attention mechanism. We demonstrate that cross-attention enables integration of knowledge from another image via cross-view interactions, which greatly improves the quality of the extracted features. Our unified model naturally enables cross-task transfer since the model architecture and parameters are shared across tasks. We outperform RAFT with our unified model on the challenging Sintel dataset, and our final model that uses a few additional task-specific refinement steps outperforms or compares favorably to recent state-of-the-art methods on 10 popular flow, stereo and depth datasets, while being simpler and more efficient in terms of model design and inference speed.
翻訳日:2023-07-26 00:30:12 公開日:2023-07-22
# グラフ型に関する知識グラフ推論に関する調査:静的,動的,マルチモーダル

A Survey of Knowledge Graph Reasoning on Graph Types: Static, Dynamic, and Multimodal ( http://arxiv.org/abs/2212.05767v7 )

ライセンス: Link先を確認
Ke Liang, Lingyuan Meng, Meng Liu, Yue Liu, Wenxuan Tu, Siwei Wang, Sihang Zhou, Xinwang Liu, Fuchun Sun(参考訳) 知識グラフ推論(KGR)は,知識グラフに基づくマイニング論理則に基づいて,既存の事実から新たな事実を推論することを目的として,急速に発展する研究方向となっている。 質問応答やレコメンデーションシステムなど、多くのAIアプリケーションでKGを使うことに大きなメリットがあることが証明されている。 グラフの種類により、既存のkgrモデルは、静的モデル、時間モデル、マルチモーダルモデルという3つのカテゴリに大まかに分類することができる。 この領域の初期の研究は主に静的kgrに焦点を当てており、最近の研究はより実用的で実世界に近い時間的およびマルチモーダルな情報を利用することを試みている。 しかし、この重要な方向へのモデルを包括的に要約し、議論する調査論文やオープンソースリポジトリは存在しない。 このギャップを埋めるために、我々は、静的から時間的、そしてマルチモーダルなKGをトレースする知識グラフの最初の調査を行う。 具体的には、2レベル分類、すなわちトップレベル(グラフタイプ)とベースレベル(技術とシナリオ)に基づいてモデルをレビューする。 さらに、パフォーマンス、およびデータセットが要約され、提示されます。 さらに,読者を啓蒙する上での課題や可能性についても指摘する。 対応するオープンソースリポジトリはGitHub https://github.com/LIANGKE23/Awesome-Knowledge-Graph-Reasoningで共有されている。

Knowledge graph reasoning (KGR), aiming to deduce new facts from existing facts based on mined logic rules underlying knowledge graphs (KGs), has become a fast-growing research direction. It has been proven to significantly benefit the usage of KGs in many AI applications, such as question answering, recommendation systems, and etc. According to the graph types, existing KGR models can be roughly divided into three categories, i.e., static models, temporal models, and multi-modal models. Early works in this domain mainly focus on static KGR, and recent works try to leverage the temporal and multi-modal information, which are more practical and closer to real-world. However, no survey papers and open-source repositories comprehensively summarize and discuss models in this important direction. To fill the gap, we conduct a first survey for knowledge graph reasoning tracing from static to temporal and then to multi-modal KGs. Concretely, the models are reviewed based on bi-level taxonomy, i.e., top-level (graph types) and base-level (techniques and scenarios). Besides, the performances, as well as datasets, are summarized and presented. Moreover, we point out the challenges and potential opportunities to enlighten the readers. The corresponding open-source repository is shared on GitHub https://github.com/LIANGKE23/Awesome-Knowledge-Graph-Reasoning.
翻訳日:2023-07-26 00:21:39 公開日:2023-07-22
# 進化的クラスタリングは理論的保証を持つか?

Can Evolutionary Clustering Have Theoretical Guarantees? ( http://arxiv.org/abs/2212.01771v2 )

ライセンス: Link先を確認
Chao Qian(参考訳) クラスタリングは多くの領域において基本的な問題であり、ある距離測度に基づいて与えられたデータセットをグループに分割することを目的としている。 その重要性とnpの難しさから、進化アルゴリズムが一般的なアルゴリズムのクラスである多くの手法が提案されている。 進化的クラスタリングは多くの応用が成功したが、全ての結果は経験的であり、理論的サポートが欠如している。 本稿では,gsemo (単純な多目的進化アルゴリズム) によるクラスタリングの4つの定式化,すなわち$k$-tmm, $k$-center, discrete $k$-median, $k$-means の近似性能を理論的に保証できることを証明し,このギャップを埋める。 さらに,アルゴリズムバイアスを回避しようとするフェアネス下でのクラスタリングも検討し,近年,機械学習における重要な研究課題となっている。 個別の公正度の下での離散的な$k$-medianクラスタリングに対して、GSEMOの近似性能は、目的関数と公正度制約の両方に関して理論的に保証できることを示す。

Clustering is a fundamental problem in many areas, which aims to partition a given data set into groups based on some distance measure, such that the data points in the same group are similar while that in different groups are dissimilar. Due to its importance and NP-hardness, a lot of methods have been proposed, among which evolutionary algorithms are a class of popular ones. Evolutionary clustering has found many successful applications, but all the results are empirical, lacking theoretical support. This paper fills this gap by proving that the approximation performance of the GSEMO (a simple multi-objective evolutionary algorithm) for solving four formulations of clustering, i.e., $k$-tMM, $k$-center, discrete $k$-median and $k$-means, can be theoretically guaranteed. Furthermore, we consider clustering under fairness, which tries to avoid algorithmic bias, and has recently been an important research topic in machine learning. We prove that for discrete $k$-median clustering under individual fairness, the approximation performance of the GSEMO can be theoretically guaranteed with respect to both the objective function and the fairness constraint.
翻訳日:2023-07-26 00:20:36 公開日:2023-07-22
# OCT画像における網膜浮腫病変の信頼性の検討

Reliable Joint Segmentation of Retinal Edema Lesions in OCT Images ( http://arxiv.org/abs/2212.00330v2 )

ライセンス: Link先を確認
Meng Wang, Kai Yu, Chun-Mei Feng, Ke Zou, Yanyu Xu, Qingquan Meng, Rick Siow Mong Goh, Yong Liu, Xinxing Xu, and Huazhu Fu(参考訳) OCT画像からの網膜浮腫病変の関節分節化のタスクにおいて, ぼやけた境界, 症状のスケール差, 背景雑音の干渉など, 複雑な病態の特徴に着目し, より信頼性の高い分節化を図った。 本稿では,信頼性評価により精度の高いセグメンテーション結果が得られる,信頼性の高いマルチスケールウェーブレットエンハンスドトランスネットワークを提案する。 具体的には,OCT画像における網膜浮腫病変の複雑な病態を学習する能力の向上を目的として,新たに設計されたウェーブレット強化特徴抽出器ネットワークとマルチスケールトランスフォーマーモジュールを統合した,新たなセグメンテーションバックボーンを開発した。 一方、セグメンテーション結果の信頼性を高めるために、主観的論理実証理論に基づく新たな不確実性セグメンテーションヘッドを導入し、対応する全体不確実性評価スコアマップを用いて最終セグメンテーション結果を生成する。 網膜浮腫病変セグメンテーションにおけるai-challenge 2018の公開データベースについて総合的な実験を行い,本手法は他の最先端セグメンテーション法に比べて高い信頼性でセグメンテーション精度を達成できることを示した。 コードは、https://github.com/LooKing9218/ReliableRESegでリリースされる。

Focusing on the complicated pathological features, such as blurred boundaries, severe scale differences between symptoms, background noise interference, etc., in the task of retinal edema lesions joint segmentation from OCT images and enabling the segmentation results more reliable. In this paper, we propose a novel reliable multi-scale wavelet-enhanced transformer network, which can provide accurate segmentation results with reliability assessment. Specifically, aiming at improving the model's ability to learn the complex pathological features of retinal edema lesions in OCT images, we develop a novel segmentation backbone that integrates a wavelet-enhanced feature extractor network and a multi-scale transformer module of our newly designed. Meanwhile, to make the segmentation results more reliable, a novel uncertainty segmentation head based on the subjective logical evidential theory is introduced to generate the final segmentation results with a corresponding overall uncertainty evaluation score map. We conduct comprehensive experiments on the public database of AI-Challenge 2018 for retinal edema lesions segmentation, and the results show that our proposed method achieves better segmentation accuracy with a high degree of reliability as compared to other state-of-the-art segmentation approaches. The code will be released on: https://github.com/LooKing9218/ReliableRESeg.
翻訳日:2023-07-26 00:20:14 公開日:2023-07-22
# クローズドフォームポリシー改善オペレータによるオフライン強化学習

Offline Reinforcement Learning with Closed-Form Policy Improvement Operators ( http://arxiv.org/abs/2211.15956v3 )

ライセンス: Link先を確認
Jiachen Li, Edwin Zhang, Ming Yin, Qinxun Bai, Yu-Xiang Wang, William Yang Wang(参考訳) 行動制約付きポリシー最適化は、オフライン強化学習に取り組むための成功パラダイムであることが示されている。 歴史的遷移を利用することによって、政策は、重要な分布シフトを避けるために行動ポリシーによって制約されながら、学習価値関数を最大化するように訓練される。 本稿では,閉形式政策改善演算子を提案する。 本稿では, 行動制約が一階テイラー近似の利用を自然に動機付け, 政策目標の線形近似に繋がる新規な観察を行う。 さらに,実用的なデータセットは通常,異種ポリシによって収集されるため,ガウス混合として行動ポリシーをモデル化し,logsumsumexpの下限とjensenの不等式を活用して誘導された最適化の困難を克服し,クローズドフォームな政策改善オペレーターを創出する。 オフラインRLアルゴリズムを新しいポリシー改善演算子でインスタンス化し、標準D4RLベンチマークにおける最先端アルゴリズムに対する有効性を実証的に示す。 私たちのコードはhttps://cfpi-icml23.github.io/で利用可能です。

Behavior constrained policy optimization has been demonstrated to be a successful paradigm for tackling Offline Reinforcement Learning. By exploiting historical transitions, a policy is trained to maximize a learned value function while constrained by the behavior policy to avoid a significant distributional shift. In this paper, we propose our closed-form policy improvement operators. We make a novel observation that the behavior constraint naturally motivates the use of first-order Taylor approximation, leading to a linear approximation of the policy objective. Additionally, as practical datasets are usually collected by heterogeneous policies, we model the behavior policies as a Gaussian Mixture and overcome the induced optimization difficulties by leveraging the LogSumExp's lower bound and Jensen's Inequality, giving rise to a closed-form policy improvement operator. We instantiate offline RL algorithms with our novel policy improvement operators and empirically demonstrate their effectiveness over state-of-the-art algorithms on the standard D4RL benchmark. Our code is available at https://cfpi-icml23.github.io/.
翻訳日:2023-07-26 00:19:35 公開日:2023-07-22
# No-Regret Reduction による確率的リセットフリー強化学習

Provable Reset-free Reinforcement Learning by No-Regret Reduction ( http://arxiv.org/abs/2301.02389v3 )

ライセンス: Link先を確認
Hoai-An Nguyen, Ching-An Cheng(参考訳) 強化学習(Reinforcement Learning, RL)は、現実世界の応用に限られている。 主要な課題の1つは、典型的なRLアルゴリズムが適切な初期状態をサンプリングするリセット機構に大きく依存していることである。 学習をより実用的なものにするために,リセットフリーなrlアルゴリズムを体系的に設計する汎用的非リグレット削減を提案する。 我々の減少はリセットのないRL問題を2プレーヤゲームに変える。 この2人プレイゲームでsublinear regretを達成することは、オリジナルのrl問題におけるsublinear performance regretとsublinear total of resetsの両方を持つポリシーを学ぶことを意味する。 これは、エージェントが最終的に最適な実行を学習し、リセットを避けることを意味する。 この還元の有効性を示すために,線形マルコフ決定過程のインスタンス化を考案した。

Reinforcement learning (RL) so far has limited real-world applications. One key challenge is that typical RL algorithms heavily rely on a reset mechanism to sample proper initial states; these reset mechanisms, in practice, are expensive to implement due to the need for human intervention or heavily engineered environments. To make learning more practical, we propose a generic no-regret reduction to systematically design reset-free RL algorithms. Our reduction turns the reset-free RL problem into a two-player game. We show that achieving sublinear regret in this two-player game would imply learning a policy that has both sublinear performance regret and sublinear total number of resets in the original RL problem. This means that the agent eventually learns to perform optimally and avoid resets. To demonstrate the effectiveness of this reduction, we design an instantiation for linear Markov decision processes, which is the first provably correct reset-free RL algorithm.
翻訳日:2023-07-26 00:11:29 公開日:2023-07-22
# フィッシャー情報による平均場最適化問題

Mean Field Optimization Problem Regularized by Fisher Information ( http://arxiv.org/abs/2302.05938v2 )

ライセンス: Link先を確認
Julien Claisse, Giovanni Conforti, Zhenjie Ren, Songbo Wang(参考訳) 近年、平均場最適化の研究への関心が高まっており、特にニューラルネットワークのトレーニングの分析にその役割があるためである。 本稿では,フィッシャー情報を正規化子として加えることにより,正規化平均場最適化問題を,いわゆる平均場シュロディンガーダイナミクスに関連付ける。 我々は, 平均場シュロディンガーダイナミクスの限界分布が, 正規化最適化問題の極小化に向けて指数関数的に収束することを示すエネルギー散逸法を開発した。 注目すべきことに、平均場のシュロディンガー力学は相対エントロピーに関して確率測度空間上の勾配流であることが証明される。 最後に,平均場シュロディンガーダイナミクスの限界分布をサンプリングするモンテカルロ法を提案する。

Recently there is a rising interest in the research of mean field optimization, in particular because of its role in analyzing the training of neural networks. In this paper by adding the Fisher Information as the regularizer, we relate the regularized mean field optimization problem to a so-called mean field Schrodinger dynamics. We develop an energy-dissipation method to show that the marginal distributions of the mean field Schrodinger dynamics converge exponentially quickly towards the unique minimizer of the regularized optimization problem. Remarkably, the mean field Schrodinger dynamics is proved to be a gradient flow on the probability measure space with respect to the relative entropy. Finally we propose a Monte Carlo method to sample the marginal distributions of the mean field Schrodinger dynamics.
翻訳日:2023-07-26 00:02:21 公開日:2023-07-22
# DNArch: バックプロパゲーションによる畳み込みニューラルネットワークの学習

DNArch: Learning Convolutional Neural Architectures by Backpropagation ( http://arxiv.org/abs/2302.05400v2 )

ライセンス: Link先を確認
David W. Romero, Neil Zeghidour(参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)の重みとアーキテクチャをバックプロパゲーションによって共同で学習する,微分可能なニューラルネットワーク(DNArch)を提案する。 特にDNArchは学習を可能にする (i)各層における畳み込み核の大きさ (ii)各層におけるチャネルの数。 (iii)ダウンサンプリング層の位置と値、 (iv)ネットワークの深さ。 この目的のために、dnarchはニューラルネットワークを連続的な多次元エンティティとして捉え、各次元に沿って学習可能な微分可能なマスクを使用してサイズを制御する。 既存の方法とは異なり、dnarchは予め定義されたニューラルネットワークのセットに限定されるのではなく、カーネルサイズ、幅、深さ、ダウンサンプリングのすべての実現可能な組み合わせで、cnnアーキテクチャ全体を発見することができる。 経験的にdnarchは、シーケンシャルおよびイメージデータに対するいくつかの分類と密集した予測タスクのために、高性能なcnnアーキテクチャを見つける。 ネットワークの複雑さを制御する損失項と組み合わせると、DNArchはトレーニング中に事前に定義された計算予算を尊重するアーキテクチャにその探索を制約する。

We present Differentiable Neural Architectures (DNArch), a method that jointly learns the weights and the architecture of Convolutional Neural Networks (CNNs) by backpropagation. In particular, DNArch allows learning (i) the size of convolutional kernels at each layer, (ii) the number of channels at each layer, (iii) the position and values of downsampling layers, and (iv) the depth of the network. To this end, DNArch views neural architectures as continuous multidimensional entities, and uses learnable differentiable masks along each dimension to control their size. Unlike existing methods, DNArch is not limited to a predefined set of possible neural components, but instead it is able to discover entire CNN architectures across all feasible combinations of kernel sizes, widths, depths and downsampling. Empirically, DNArch finds performant CNN architectures for several classification and dense prediction tasks on sequential and image data. When combined with a loss term that controls the network complexity, DNArch constrains its search to architectures that respect a predefined computational budget during training.
翻訳日:2023-07-26 00:02:08 公開日:2023-07-22
# マルチビュー注意学習による視覚に基づくエンドツーエンド運転のスケーリング

Scaling Vision-based End-to-End Driving with Multi-View Attention Learning ( http://arxiv.org/abs/2302.03198v3 )

ライセンス: Link先を確認
Yi Xiao, Felipe Codevilla, Diego Porres, Antonio M. Lopez(参考訳) エンドツーエンドの運転では、人間の運転デモは模倣学習によって知覚に基づく運転モデルを訓練するために使用される。 このプロセスは車両の信号(例えば、操舵角度、加速度)で監視されるが、追加のコストの監督(センサーデータの人間のラベル付け)は必要ない。 このようなビジョンベースのエンドツーエンド駆動モデルの代表として、CILRSは新しい駆動モデルと比較するためのベースラインとして一般的に使用される。 最新のモデルでは、高価なセンサースイートやトレーニングに大量の人ラベルデータを使用することで、CILRSよりも優れたパフォーマンスを実現している。 パフォーマンスの違いを考えると、ビジョンベースの純粋なエンドツーエンドの運転を追求する価値はないと考えるかもしれません。 しかし、このアプローチは依然としてコストとメンテナンスを考える上で大きな価値と可能性を持っていると論じている。 本稿では,人間に触発されたhfovをインダクティブバイアスとして高分解能画像を処理し,適切な注意機構を組み込んだcil++を提案する。 cil++は、開発コストが高いモデルと比較して、競争力のあるパフォーマンスを実現している。 我々は,車両信号のみに監視され,条件付き模倣学習によって訓練される強ビジョンベースのエンド・ツー・エンド駆動ベースラインとして,cilrsをcil++に置き換えることを提案する。

On end-to-end driving, human driving demonstrations are used to train perception-based driving models by imitation learning. This process is supervised on vehicle signals (e.g., steering angle, acceleration) but does not require extra costly supervision (human labeling of sensor data). As a representative of such vision-based end-to-end driving models, CILRS is commonly used as a baseline to compare with new driving models. So far, some latest models achieve better performance than CILRS by using expensive sensor suites and/or by using large amounts of human-labeled data for training. Given the difference in performance, one may think that it is not worth pursuing vision-based pure end-to-end driving. However, we argue that this approach still has great value and potential considering cost and maintenance. In this paper, we present CIL++, which improves on CILRS by both processing higher-resolution images using a human-inspired HFOV as an inductive bias and incorporating a proper attention mechanism. CIL++ achieves competitive performance compared to models which are more costly to develop. We propose to replace CILRS with CIL++ as a strong vision-based pure end-to-end driving baseline supervised by only vehicle signals and trained by conditional imitation learning.
翻訳日:2023-07-26 00:01:22 公開日:2023-07-22
# ニュース記事中の有害な議題の検出

Detecting Harmful Agendas in News Articles ( http://arxiv.org/abs/2302.00102v2 )

ライセンス: Link先を確認
Melanie Subbiah, Amrita Bhattacharjee, Yilun Hua, Tharindu Kumarage, Huan Liu, Kathleen McKeown(参考訳) オンラインで操作されるニュースは、その拡散を抑えるために自動化システムを使う必要がある、という問題が増えつつある。 我々は、誤情報や偽情報検出が研究されているが、ニュース記事の有害な議題を検出するという重要なオープンチャレンジへの投資が欠如しており、有害な議題を特定することは、現実世界の害の最大の可能性を秘めているニュースキャンペーンにフラグを付けることが重要であると論じている。 さらに、検閲に関する真の懸念から、有害なアジェンダ検出器は有効であると解釈する必要がある。 本稿では,新たな課題を提案し,アジェンダ識別のための注釈付きニュース記事のデータセットであるNewsAgendasをリリースする。 この課題に対して,解釈可能なシステムがいかに有効かを示し,ブラックボックスモデルと相容れない性能を示す。

Manipulated news online is a growing problem which necessitates the use of automated systems to curtail its spread. We argue that while misinformation and disinformation detection have been studied, there has been a lack of investment in the important open challenge of detecting harmful agendas in news articles; identifying harmful agendas is critical to flag news campaigns with the greatest potential for real world harm. Moreover, due to real concerns around censorship, harmful agenda detectors must be interpretable to be effective. In this work, we propose this new task and release a dataset, NewsAgendas, of annotated news articles for agenda identification. We show how interpretable systems can be effective on this task and demonstrate that they can perform comparably to black-box models.
翻訳日:2023-07-26 00:00:17 公開日:2023-07-22
# パララックス耐性非教師なし深部画像縫合

Parallax-Tolerant Unsupervised Deep Image Stitching ( http://arxiv.org/abs/2302.08207v2 )

ライセンス: Link先を確認
Lang Nie, Chunyu Lin, Kang Liao, Shuaicheng Liu, Yao Zhao(参考訳) 従来の画像縫い付けアプローチは、パフォーマンスを改善するためにますます複雑な幾何学的特徴(点、線、エッジなど)を活用する傾向がある。 しかし、これらの手作りの特徴は、適切な幾何学的構造を持つ特定の自然のシーンにのみ適している。 対照的に、深い縫合スキームは、ロバストな意味的特徴を適応的に学習することで、悪条件を克服するが、ホモグラフィーに基づく登録により、大きなパララックスケースを扱うことはできない。 そこで我々は,パララックス耐性の深い深部画像縫合技術 udis++ を提案する。 まず,グローバルなホモグラフィから局所的な薄板スプライン運動への画像登録をモデル化する,堅牢で柔軟なワープを提案する。 重なり領域の正確なアライメントと、非重なり領域のアライメントと歪みに関する共同最適化による形状保存を提供する。 その後、一般化能力を向上させるため、クロスデータセットおよびクロスレゾリューションアプリケーションにおけるワープ適応性を高めるために、単純かつ効果的な反復戦略を考案する。 最後に, シーム駆動合成マスクの教師なし学習により, 縫合画像をシームレスに合成することを提案する。 既存の手法と比較して,我々の解はパララックス耐性があり,複雑な幾何学的特徴の複雑な設計を伴わない。 実験により,SoTA法よりも定量的および定性的に優位性を示した。 コードはhttps://github.com/nie-lang/UDIS2で公開されている。

Traditional image stitching approaches tend to leverage increasingly complex geometric features (point, line, edge, etc.) for better performance. However, these hand-crafted features are only suitable for specific natural scenes with adequate geometric structures. In contrast, deep stitching schemes overcome the adverse conditions by adaptively learning robust semantic features, but they cannot handle large-parallax cases due to homography-based registration. To solve these issues, we propose UDIS++, a parallax-tolerant unsupervised deep image stitching technique. First, we propose a robust and flexible warp to model the image registration from global homography to local thin-plate spline motion. It provides accurate alignment for overlapping regions and shape preservation for non-overlapping regions by joint optimization concerning alignment and distortion. Subsequently, to improve the generalization capability, we design a simple but effective iterative strategy to enhance the warp adaption in cross-dataset and cross-resolution applications. Finally, to further eliminate the parallax artifacts, we propose to composite the stitched image seamlessly by unsupervised learning for seam-driven composition masks. Compared with existing methods, our solution is parallax-tolerant and free from laborious designs of complicated geometric features for specific scenes. Extensive experiments show our superiority over the SoTA methods, both quantitatively and qualitatively. The code is available at https://github.com/nie-lang/UDIS2.
翻訳日:2023-07-25 23:51:01 公開日:2023-07-22
# MAtch, eXpand, Improve: 言語知識を用いたゼロショット動作認識のための教師なしファインタニング

MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action Recognition with Language Knowledge ( http://arxiv.org/abs/2303.08914v2 )

ライセンス: Link先を確認
Wei Lin, Leonid Karlinsky, Nina Shvetsova, Horst Possegger, Mateusz Kozinski, Rameswar Panda, Rogerio Feris, Hilde Kuehne, Horst Bischof(参考訳) 大規模ヴィジュアル・ランゲージ(VL)モデルは、視覚とテキストのモダリティの表現の整合に大きな成功を収めている。 これにより、ゼロショット認識、画像生成と編集、その他多くのエキサイティングなタスクが著しく進歩する。 しかしながら、VLモデルはオブジェクトを過剰に表現する傾向があり、動詞にはあまり注意を払わず、最高のゼロショットアクション認識性能のためにビデオデータにさらなるチューニングを必要とする。 これまでの研究は大規模で完全に注釈付けされたデータに依存していたが、本研究では教師なしのアプローチを提案する。 我々は、ラベルなしビデオのコレクションと未ペアアクション辞書を用いて、ゼロショットおよび少数ショットアクション認識のためのVLモデルを適応する。 それに基づいて,大規模言語モデルとvlモデルを用いて,マッチング,テキスト拡張,キャプションによる非ラベルビデオ毎にテキストバッグを構築する。 イメージテキストのバックボーンをビデオデータに適応させるために、これらのバッグをMultiple Instance Learningセットアップで使用します。 非ラベルビデオデータに微調整を施したものの,多数のゼロショットダウンストリームタスクに対して高い転送性を示し,ベースvlモデルの性能を最大14\%向上させ,ゼロショットと少数ショットビデオの両方で完全に教師付きベースラインと比較した。 コードは後に \url{https://github.com/wlin-at/MAXI} でリリースされる。

Large scale Vision-Language (VL) models have shown tremendous success in aligning representations between visual and text modalities. This enables remarkable progress in zero-shot recognition, image generation & editing, and many other exciting tasks. However, VL models tend to over-represent objects while paying much less attention to verbs, and require additional tuning on video data for best zero-shot action recognition performance. While previous work relied on large-scale, fully-annotated data, in this work we propose an unsupervised approach. We adapt a VL model for zero-shot and few-shot action recognition using a collection of unlabeled videos and an unpaired action dictionary. Based on that, we leverage Large Language Models and VL models to build a text bag for each unlabeled video via matching, text expansion and captioning. We use those bags in a Multiple Instance Learning setup to adapt an image-text backbone to video data. Although finetuned on unlabeled video data, our resulting models demonstrate high transferability to numerous unseen zero-shot downstream tasks, improving the base VL model performance by up to 14\%, and even comparing favorably to fully-supervised baselines in both zero-shot and few-shot video recognition transfer. The code will be released later at \url{https://github.com/wlin-at/MAXI}.
翻訳日:2023-07-25 23:41:57 公開日:2023-07-22
# 教育における大規模言語モデルの実践的・倫理的課題:システマティック・スコープ・レビュー

Practical and Ethical Challenges of Large Language Models in Education: A Systematic Scoping Review ( http://arxiv.org/abs/2303.13379v2 )

ライセンス: Link先を確認
Lixiang Yan, Lele Sha, Linxuan Zhao, Yuheng Li, Roberto Martinez-Maldonado, Guanliang Chen, Xinyu Li, Yueqiao Jin and Dragan Ga\v{s}evi\'c(参考訳) 大規模言語モデル(LLM)を活用した教育技術革新は、テキストコンテンツの生成と分析の面倒なプロセスを自動化する可能性を示している。 様々なイノベーションが様々な教育タスク(質問生成、フィードバック提供、エッセイ等)を自動化するために開発されているが、これらのイノベーションの実践性と倫理性には懸念がある。 このような懸念は、将来の研究を妨げ、本物の教育分野におけるllmsベースのイノベーションの導入を妨げる可能性がある。 そこで本研究では,2017年以降に発行された118のピアレビュー論文を体系的にスコーピングし,教育タスクの自動化と支援にllmを用いた研究の現状を明らかにする。 その結果,学習タスクの自動化におけるLLMのユースケースは,プロファイリング/ラベリング,検出,グレーディング,指導支援,予測,知識表現,フィードバック,コンテンツ生成,レコメンデーションの9つに分類された。 さらに,技術的準備の低さ,再現性と透明性の欠如,プライバシの不足や便宜上の配慮など,実践的かつ倫理的な課題についても検討した。 この結果は、最先端のモデル(GPT-3/4など)による既存のイノベーションの更新、オープンソースモデル/システムの導入、開発プロセス全体を通じて人間中心のアプローチの採用など、将来の研究のための3つの推奨事項にまとめられた。 AIと教育の交差点が継続的に進化しているため、この研究の発見は研究者にとって不可欠な基準点となり、強みを活用し、限界から学び、ChatGPTや他の生成AIモデルによって実現される潜在的研究機会を明らかにすることができる。

Educational technology innovations leveraging large language models (LLMs) have shown the potential to automate the laborious process of generating and analysing textual content. While various innovations have been developed to automate a range of educational tasks (e.g., question generation, feedback provision, and essay grading), there are concerns regarding the practicality and ethicality of these innovations. Such concerns may hinder future research and the adoption of LLMs-based innovations in authentic educational contexts. To address this, we conducted a systematic scoping review of 118 peer-reviewed papers published since 2017 to pinpoint the current state of research on using LLMs to automate and support educational tasks. The findings revealed 53 use cases for LLMs in automating education tasks, categorised into nine main categories: profiling/labelling, detection, grading, teaching support, prediction, knowledge representation, feedback, content generation, and recommendation. Additionally, we also identified several practical and ethical challenges, including low technological readiness, lack of replicability and transparency, and insufficient privacy and beneficence considerations. The findings were summarised into three recommendations for future studies, including updating existing innovations with state-of-the-art models (e.g., GPT-3/4), embracing the initiative of open-sourcing models/systems, and adopting a human-centred approach throughout the developmental process. As the intersection of AI and education is continuously evolving, the findings of this study can serve as an essential reference point for researchers, allowing them to leverage the strengths, learn from the limitations, and uncover potential research opportunities enabled by ChatGPT and other generative AI models.
翻訳日:2023-07-25 23:33:44 公開日:2023-07-22
# 糖尿病網膜症高齢化に対するFederated Uncertainty-Aware Aggregation

Federated Uncertainty-Aware Aggregation for Fundus Diabetic Retinopathy Staging ( http://arxiv.org/abs/2303.13033v2 )

ライセンス: Link先を確認
Meng Wang, Lianyu Wang, Xinxing Xu, Ke Zou, Yiming Qian, Rick Siow Mong Goh, Yong Liu, and Huazhu Fu(参考訳) 深層学習モデルは糖尿病網膜症(DR)のステージングの分野で有望なパフォーマンスを示した。 しかし、複数の機関でDRステージングモデルを協調的にトレーニングすることは、非IDデータ、クライアントの信頼性、予測の信頼性評価などによる課題である。 これらの課題に対処するために,各クライアントの信頼性を考慮し,DRステージングに対する信頼度を推定する,新しいフェデレーション型不確実性認識集約パラダイム(FedUAA)を提案する。 feduaaでは,全クライアントで集計エンコーダを共有し,眼底画像のグローバル表現を学習し,各クライアントに対して局所的パーソナライズされたステージング基準として新たな温度ウォード不確実性ヘッド(tweu)を活用した。 我々のTWEUは、クライアント信頼性評価のためのDRステージ結果と不確実性スコアを生成するために、明らかな深い層を用いています。 さらに、各クライアントの不確かさスコア分布に基づいてモデル集約の重み付けを動的に調整する新しい不確実性認識重み付けモジュール(UAW)を開発した。 実験では,各機関から利用可能な5つのデータセットを収集し,実際の非iid条件を満たすためのフェデレーションdrステージングのためのデータセットを作成した。 実験の結果,feduaは他のフェデレーション学習法と比較して高い信頼性でdrステージング性能を達成できた。 提案するFedUAAパラダイムは,複数の施設でDRステージングモデルを協調訓練する上での課題に効果的に対処し,実際の臨床シナリオにおけるDR診断モデルの展開に対して,堅牢かつ信頼性の高いソリューションを提供する。

Deep learning models have shown promising performance in the field of diabetic retinopathy (DR) staging. However, collaboratively training a DR staging model across multiple institutions remains a challenge due to non-iid data, client reliability, and confidence evaluation of the prediction. To address these issues, we propose a novel federated uncertainty-aware aggregation paradigm (FedUAA), which considers the reliability of each client and produces a confidence estimation for the DR staging. In our FedUAA, an aggregated encoder is shared by all clients for learning a global representation of fundus images, while a novel temperature-warmed uncertainty head (TWEU) is utilized for each client for local personalized staging criteria. Our TWEU employs an evidential deep layer to produce the uncertainty score with the DR staging results for client reliability evaluation. Furthermore, we developed a novel uncertainty-aware weighting module (UAW) to dynamically adjust the weights of model aggregation based on the uncertainty score distribution of each client. In our experiments, we collect five publicly available datasets from different institutions to conduct a dataset for federated DR staging to satisfy the real non-iid condition. The experimental results demonstrate that our FedUAA achieves better DR staging performance with higher reliability compared to other federated learning methods. Our proposed FedUAA paradigm effectively addresses the challenges of collaboratively training DR staging models across multiple institutions, and provides a robust and reliable solution for the deployment of DR diagnosis models in real-world clinical scenarios.
翻訳日:2023-07-25 23:33:10 公開日:2023-07-22
# 情報回復駆動型深層不完全なマルチビュークラスタリングネットワーク

Information Recovery-Driven Deep Incomplete Multiview Clustering Network ( http://arxiv.org/abs/2304.00429v4 )

ライセンス: Link先を確認
Chengliang Liu, Jie Wen, Zhihao Wu, Xiaoling Luo, Chao Huang, Yong Xu(参考訳) 不完全なマルチビュークラスタリングはホットで新興のトピックである。 避けられないデータ不完全性が多視点データの有効情報を著しく弱めることはよく知られている。 これまで、既存の不完全なマルチビュークラスタリング手法は、通常、未使用のビューを、事前の欠落情報に従ってバイパスする。 不足した情報を回復しようとする他の方法は、主に特定の2ビューデータセットに適用できる。 本稿では,これらの問題に対処するために,recformerと呼ばれる,情報回復駆動型ディープ不完全マルチビュークラスタリングネットワークを提案する。 具体的には、複数のビューの高レベルなセマンティック表現を同期的に抽出し、欠落したデータを復元するために、自己アテンション構造を持つ2段階のオートエンコーダネットワークを構築する。 さらに,復元されたビューを巧みに活用し,表現学習とさらなるデータ再構成を促進するリカレントグラフ再構成機構を開発した。 回復結果の可視化を行い、十分な実験結果から、RecFormerは他のトップメソッドよりも明らかな利点があることが確認されます。

Incomplete multi-view clustering is a hot and emerging topic. It is well known that unavoidable data incompleteness greatly weakens the effective information of multi-view data. To date, existing incomplete multi-view clustering methods usually bypass unavailable views according to prior missing information, which is considered as a second-best scheme based on evasion. Other methods that attempt to recover missing information are mostly applicable to specific two-view datasets. To handle these problems, in this paper, we propose an information recovery-driven deep incomplete multi-view clustering network, termed as RecFormer. Concretely, a two-stage autoencoder network with the self-attention structure is built to synchronously extract high-level semantic representations of multiple views and recover the missing data. Besides, we develop a recurrent graph reconstruction mechanism that cleverly leverages the restored views to promote the representation learning and the further data reconstruction. Visualization of recovery results are given and sufficient experimental results confirm that our RecFormer has obvious advantages over other top methods.
翻訳日:2023-07-25 23:20:33 公開日:2023-07-22
# surgerygpt : 視覚質問応答のためのエンド・ツー・エンド言語ビジョンgpt

SurgicalGPT: End-to-End Language-Vision GPT for Visual Question Answering in Surgery ( http://arxiv.org/abs/2304.09974v2 )

ライセンス: Link先を確認
Lalithkumar Seenivasan, Mobarakol Islam, Gokul Kannan and Hongliang Ren(参考訳) GPTベースの大規模言語モデル(LLM)の進歩は、自然言語処理に革命をもたらし、様々な領域でその使用を指数関数的に増加させている。 一方向の注意を組み込んだこれらの自己回帰LDMは、長いコヒーレントな段落を生成することができる。 しかしながら、視覚と言語処理の両方を必要とする視覚的質問応答(VQA)タスクでは、双方向の注意または融合技術を用いたモデルを用いて、複数のモーダルのコンテキストを同時にキャプチャすることが多い。 GPTは視覚トークンをネイティブに処理せず、ロボット手術におけるVQAのためのGPTモデルの進歩を利用するため、GPT2モデルを拡張して視覚入力(画像)を含むエンドツーエンドのトレーニング可能な言語ビジョンGPT(LV-GPT)モデルを設計する。 提案するLV-GPTには,特徴抽出器(ビジョントークン化器)と視覚トークン埋め込み(トークンタイプとポーズ)が組み込まれている。 GPTモデルにおける一方向の注意の限界とコヒーレントな長文を生成する能力を考えると、視覚トークンの前に単語トークンを注意深くシーケンスし、人間の思考過程を模倣して画像から答えを推測する。 lv-gptモデルは,手術用vqaデータセット(内視鏡的視覚課題ロボットシーンセグメンテーション2018とcholectriplet2021に基づく)と,新たにアノテーション付きデータセット(総合的な手術用シーンデータセットに基づく)で,他の最先端vqaモデルよりも優れていることを定量的に証明する。 さらに3つのデータセットに、サブタイプ分析を可能にする質問型アノテーションを含めるようアノテートする。 さらに, lv-gptモデルにおける視覚トークンに対するトークンシーケンシング, トークンタイプ, ポーズ埋め込みの効果を広く研究し, 提示する。

Advances in GPT-based large language models (LLMs) are revolutionizing natural language processing, exponentially increasing its use across various domains. Incorporating uni-directional attention, these autoregressive LLMs can generate long and coherent paragraphs. However, for visual question answering (VQA) tasks that require both vision and language processing, models with bi-directional attention or models employing fusion techniques are often employed to capture the context of multiple modalities all at once. As GPT does not natively process vision tokens, to exploit the advancements in GPT models for VQA in robotic surgery, we design an end-to-end trainable Language-Vision GPT (LV-GPT) model that expands the GPT2 model to include vision input (image). The proposed LV-GPT incorporates a feature extractor (vision tokenizer) and vision token embedding (token type and pose). Given the limitations of unidirectional attention in GPT models and their ability to generate coherent long paragraphs, we carefully sequence the word tokens before vision tokens, mimicking the human thought process of understanding the question to infer an answer from an image. Quantitatively, we prove that the LV-GPT model outperforms other state-of-the-art VQA models on two publically available surgical-VQA datasets (based on endoscopic vision challenge robotic scene segmentation 2018 and CholecTriplet2021) and on our newly annotated dataset (based on the holistic surgical scene dataset). We further annotate all three datasets to include question-type annotations to allow sub-type analysis. Furthermore, we extensively study and present the effects of token sequencing, token type and pose embedding for vision tokens in the LV-GPT model.
翻訳日:2023-07-25 23:13:22 公開日:2023-07-22
# 2023年。 実世界展開のための良質なレコメンダシステム

EvalRS 2023. Well-Rounded Recommender Systems For Real-World Deployments ( http://arxiv.org/abs/2304.07145v4 )

ライセンス: Link先を確認
Federico Bianchi, Patrick John Chia, Ciro Greco, Claudio Pomo, Gabriel Moreira, Davide Eynard, Fahd Husain, Jacopo Tagliabue(参考訳) EvalRSは、業界や学界の実践者たちを集めて、さまざまなデプロイメントシナリオにおける現実の影響に焦点を当てた、レコメンダシステムの丸い評価に関する議論を促進することを目的としている。 レコメンダシステムは、しばしば精度の指標によってのみ評価され、それらの一般化能力を完全に特徴づけることができず、公正性、バイアス、有用性、情報性といった重要な側面を見逃す。 このワークショップは、CIKMでの昨年のワークショップの成功に基づいているが、幅広いスコープとインタラクティブなフォーマットがある。

EvalRS aims to bring together practitioners from industry and academia to foster a debate on rounded evaluation of recommender systems, with a focus on real-world impact across a multitude of deployment scenarios. Recommender systems are often evaluated only through accuracy metrics, which fall short of fully characterizing their generalization capabilities and miss important aspects, such as fairness, bias, usefulness, informativeness. This workshop builds on the success of last year's workshop at CIKM, but with a broader scope and an interactive format.
翻訳日:2023-07-25 23:11:01 公開日:2023-07-22
# LMEye:大規模言語モデルのための対話型知覚ネットワーク

LMEye: An Interactive Perception Network for Large Language Models ( http://arxiv.org/abs/2305.03701v4 )

ライセンス: Link先を確認
Yunxin Li, Baotian Hu, Xinyu Chen, Lin Ma, and Min Zhang(参考訳) GPT-4のようなスクラッチからLVLM(Large Visual Language Model)をトレーニングすることはリソース集約である。 本稿では,画像理解機能をllmに組み込むことでlvlmを実現することを目的とした,大規模言語モデル(llm)のためのプレイアンドプラグモジュール,すなわち対話型知覚ネットワーク(ipn)を提案する。 従来の手法では視覚情報をシンプルな視覚マッピングネットワークでLLMに組み込んでおり、画像特徴を線形層を介してLLMの埋め込み空間に投影する。 このようなマッピングネットワークでは、画像機能はまだ画像と人間の入力クエリの相互作用を考慮していない。 したがって、人間の意図とは無関係に得られる視覚情報は、LLMが意図追従応答を行うのに不十分である可能性がある。 IPNは、LLMが所望の視覚情報を様々な人間の指示に従って要求することを許可することでこの問題に対処する。 具体的には、IPNは単純な視覚マッピングネットワークからなり、LCMのイメージの基本的な認識を提供する。 また、LCMからの要求を取得し、リクエストベースの視覚情報インタラクションを実行し、その結果の視覚情報をそれぞれLLMに送信するモジュールも追加されている。 このようにして、LLMは人間の問い合わせを理解し、リクエストベースの視覚情報対話モジュールに対応する要求を配信し、インターリーブされたマルチモーダル情報に基づいて応答を生成する。 我々は,マルチモーダル質問応答や推論などの広範な実験を通じてIPNを評価し,従来の手法と比較して,様々なマルチモーダルタスクにおけるLVLMのゼロショット性能を著しく向上させることを示した。

Training a Large Visual Language Model (LVLM) from scratch, like GPT-4, is resource-intensive. Our paper presents a play-and-plug module for Large Language Models (LLMs), namely Interactive Perception Network (IPN), aiming to achieve a LVLM by incorporating the image understanding capability into LLMs. Previous methods incorporate visual information into LLMs with a simple visual mapping network, where the image feature is projected into the embedding space of LLMs via a linear layer. Such mapping network projects the image feature once yet does not consider the interaction between the image and the human input query. Hence, the obtained visual information with no connections with human intention may be inadequate for LLMs to make intention-following responses, which we term as static visual information. IPN addresses this issue by allowing the LLM to request the desired visual information aligned with various human instructions, which we term as the dynamic interaction between the LLM and visual information. Specifically, IPN consists of a simple visual mapping network to provide the basic perception of an image for LLMs. It also contains additional modules responsible for acquiring requests from LLMs, performing request-based visual information interaction, and transmitting the resulting interacted visual information to LLMs, respectively. In this way, LLMs act to understand the human query, deliver the corresponding request to the request-based visual information interaction module, and generate the response based on the interleaved multimodal information. We evaluate IPN through extensive experiments on multimodal question answering, reasoning, and so on, demonstrating that it significantly improves the zero-shot performance of LVLMs on various multimodal tasks compared to previous methods.
翻訳日:2023-07-25 23:04:01 公開日:2023-07-22
# 量子電磁密度関数理論を用いた実キャビティ内の分子

Molecules in Real Cavities with Quantum Electrodynamical Density Functional Theory ( http://arxiv.org/abs/2305.02391v3 )

ライセンス: Link先を確認
Mark Kamper Svendsen, Kristian Sommer Thygesen, Angel Rubio and Johannes Flick(参考訳) 複雑な電磁環境における強結合型光物質系の実現には、光と物質を第一原理から扱える理論手法の開発が必要である。 量子電磁密度汎関数理論(QEDFT)は、電子系が量子化された光モードと結合する状況への密度汎関数理論の一般化である。 この方法は、電子系と量子化された光のモードの強力な記述を提供するが、実際には電磁媒体の吸収と分散を正しく扱うことはできない。 また, キャビティ場の強度パラメータは, 物質が埋め込まれた実際の電磁環境とはリンクしていないため, 効果的に自由パラメータとなる。 本稿では,実測光キャビティ設定のためのQEDFTを正確にパラメータ化するために,マクロQED(MQED)をどのように呼び出すかについて議論する。 このアプローチの例を示すために,吸収性球面キャビティの例を考察し,弱結合から強結合への遷移に対する環境と電子系の異なるパラメータの影響について考察する。 我々の研究の結果、一般に、損失のある環境の結合パラメータは古典的なダイドグリーンの関数で表現できるようになった。 ダイドグリーン関数は、電磁環境と境界条件によって完全に決定されるため、自由パラメータとして光-物質結合強度を除去する。 この作業の一環として、簡単な空洞設置のための空洞結合強度を計算できる使い易いツールも提供します。

Rapid experimental progress in realizing strongly coupled light-matter systems in complex electromagnetic environments necessitates the development of theoretical methods capable of treating light and matter from first principles. A popular such method is quantum electrodynamical density functional theory (QEDFT) which is a generalization of density functional theory to situations where the electronic system is coupled to quantized light modes. While this method provides a powerful description of the electronic system and the quantized modes of light, it has so far been unable to deal correctly with absorbing and dispersing electromagnetic media in practice. In addition, the cavity field strength parameters have not been linked to the real electromagnetic environment in which the matter is embedded meaning that these are effectively free parameters. In this paper, we discuss how macroscopic QED (MQED) can be invoked to correctly parameterize QEDFT for realistic optical cavity setups. To exemplify this approach, we consider the example of a absorbing spherical cavity and study the impact of different parameters of both the environment and the electronic system on the transition from weak-to-strong coupling. As a result of our work, the coupling parameters in general, lossy environments can be now expressed in terms of the classical Dyadic Green's Function. Because the Dyadic Green's Function is completely determined by the electromagnetic environment and the boundary conditions, it thus removes the light-matter coupling strengths as free parameters. As part of this work, we also provide an easy to use tool that can calculate the cavity coupling strengths for simple cavity setups.
翻訳日:2023-07-25 23:03:12 公開日:2023-07-22
# 非バイナリ特徴を持つ分類器のための新しいクラス説明

A New Class of Explanations for Classifiers with Non-Binary Features ( http://arxiv.org/abs/2304.14760v2 )

ライセンス: Link先を確認
Chunxi Ji and Adnan Darwiche(参考訳) 分類器による意思決定の分析において,2種類の説明が文献に注目されている。 第一のタイプは、なぜ決定が下されたのかを説明し、決定の十分な理由として知られている。 第2のタイプは、なぜ他の決定が行われなかったのかを説明し、決定に必要な理由として知られ、また対照的な、あるいは反事実的な説明でもある。 これらの説明は、バイナリ、離散、場合によっては連続的な特徴を持つ分類器に対して定義された。 これらの説明は,非バイナリ特徴の存在下では著しく改善され,意思決定や下位の分類器に関する情報を伝達する新たな説明のクラスへと導かれる。 必要十分かつ十分な理由はまた、決定の完全な理由の素因と含意であることが示され、それは量化演算子を用いて得られる。 必要かつ十分な理由に関する我々の改善された概念は素因果関係と暗黙関係をも含んでいるが、我々が定義し研究する新しい量化演算子によって得られる完全因果関係の概念の改善が示される。

Two types of explanations have been receiving increased attention in the literature when analyzing the decisions made by classifiers. The first type explains why a decision was made and is known as a sufficient reason for the decision, also an abductive explanation or a PI-explanation. The second type explains why some other decision was not made and is known as a necessary reason for the decision, also a contrastive or counterfactual explanation. These explanations were defined for classifiers with binary, discrete and, in some cases, continuous features. We show that these explanations can be significantly improved in the presence of non-binary features, leading to a new class of explanations that relay more information about decisions and the underlying classifiers. Necessary and sufficient reasons were also shown to be the prime implicates and implicants of the complete reason for a decision, which can be obtained using a quantification operator. We show that our improved notions of necessary and sufficient reasons are also prime implicates and implicants but for an improved notion of complete reason obtained by a new quantification operator that we also define and study.
翻訳日:2023-07-25 23:02:31 公開日:2023-07-22
# ATMキャッシュリサイクルプロセスの多目的ロジスティックス最適化

Multiobjective Logistics Optimization for Automated ATM Cash Replenishment Process ( http://arxiv.org/abs/2304.13671v5 )

ライセンス: Link先を確認
Bui Tien Thanh, Dinh Van Tuan, Tuan Anh Chi, Nguyen Van Dai, Nguyen Tai Quang Dinh, Nguyen Thu Thuy, and Nguyen Thi Xuan Hoa(参考訳) デジタルトランスフォーメーションの時代、銀行業務のあらゆる側面にデジタル技術を統合することで、プロセスの自動化、コスト効率、サービスレベルの改善が向上します。 ATMキャッシュのロジスティクスは、運用コストと消費者満足度に影響を与える重要なタスクであるが、それを強化する努力はほとんどなかった。 特にベトナムでは、ATMが全国で2万台以上あるため、この問題を解決できる研究と技術ソリューションは依然として乏しい。 本稿では,ATMキャッシュ補充のための車両ルーティング問題を一般化し,数学的モデルを提案し,様々な状況を評価するためのツールを提供した。 シミュレーションデータセットで評価すると,ATMキャッシュの運用コストを削減することで,提案手法とモデルが有効であることがわかった。

In the digital transformation era, integrating digital technology into every aspect of banking operations improves process automation, cost efficiency, and service level improvement. Although logistics for ATM cash is a crucial task that impacts operating costs and consumer satisfaction, there has been little effort to enhance it. Specifically, in Vietnam, with a market of more than 20,000 ATMs nationally, research and technological solutions that can resolve this issue remain scarce. In this paper, we generalized the vehicle routing problem for ATM cash replenishment, suggested a mathematical model and then offered a tool to evaluate various situations. When being evaluated on the simulated dataset, our proposed model and method produced encouraging results with the benefits of cutting ATM cash operating costs.
翻訳日:2023-07-25 23:00:58 公開日:2023-07-22
# Kerr媒体を用いた散逸型オプティメカニカルキャビティの双安定状態における機械的冷却

Mechanical cooling in the bistable regime of a dissipative optomechanical cavity with a Kerr medium ( http://arxiv.org/abs/2304.13399v2 )

ライセンス: Link先を確認
Ye Liu, Yang Liu, Chang-Sheng Hu, Yun-Kun Jiang, Huaizhi Wu, and Yong Li(参考訳) 本稿では,Kerr媒体を充填した散逸型光学キャビティの静的安定性と機械的冷却について検討する。 このシステムは、純粋に散逸結合の場合とは対照的に、電力しきい値が大幅に低減され、幅広い入力電力範囲の光ビスタビリティを示す。 双安定状態においては、有効機械温度が空洞内強度の非単調関数であり、上安定分岐の旋回点付近でその最小値に達するような未解決のサイドバンド条件下で、室温から数ミリケルビンまで効果的に膜を冷却することができる。 極低温環境においては, 双安定状態における有効機械温度は室温の場合と同様の特性を示すが, 最適冷却は単安定状態において現れ, 機械的接地状態に近づく。 その結果,非古典的状態準備や量子情報処理に多くの応用がある双安定光力学系のさらなる理解が期待できる。

In this paper, we study static bistability and mechanical cooling of a dissipative optomechanical cavity filled with a Kerr medium. The system exhibits optical bistability for a wide input-power range with the power threshold being greatly reduced, in contrast to the case of purely dissipative coupling. At the bistable regime, the membrane can be effectively cooled down to a few millikelvin from the room temperature under the unresolved sideband condition, where the effective mechanical temperature is a nonmonotonic function of intracavity intensity and reaches its minimum near the turning point of the upper stable branch. When the system is in the cryogenics environment, the effective mechanical temperature at the bistable regime shows a similar feature as in the room temperature case, but the optimal cooling appears at the monostable regime and approaches the mechanical ground state. Our results are of interest for further understanding bistable optomechanical systems, which have many applications in nonclassical state preparations and quantum information processing.
翻訳日:2023-07-25 23:00:35 公開日:2023-07-22
# Slovo: ロシアの手話データセット

Slovo: Russian Sign Language Dataset ( http://arxiv.org/abs/2305.14527v2 )

ライセンス: Link先を確認
Alexander Kapitanov, Karina Kvanchiani, Alexander Nagaev, Elizaveta Petrova(参考訳) 手話認識タスクの主な課題の1つは、難聴社会と聴覚社会のギャップにより、適切なデータセットを集めることの難しさである。 さらに、各国の手話は大きく異なり、それぞれに新しいデータの作成を義務付けている。 本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットSlovoについて述べる。 データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。 データ収集からビデオアノテーションまで、データセット生成パイプライン全体も、以下のデモアプリケーションで提供しています。 いくつかのニューラルネットワークがslovo上でトレーニングされ、その教育能力を示すために評価される。 提案されたデータと事前訓練されたモデルが公開されている。

One of the main challenges of the sign language recognition task is the difficulty of collecting a suitable dataset due to the gap between hard-of-hearing and hearing societies. In addition, the sign language in each country differs significantly, which obliges the creation of new data for each of them. This paper presents the Russian Sign Language (RSL) video dataset Slovo, produced using crowdsourcing platforms. The dataset contains 20,000 FullHD recordings, divided into 1,000 classes of isolated RSL gestures received by 194 signers. We also provide the entire dataset creation pipeline, from data collection to video annotation, with the following demo application. Several neural networks are trained and evaluated on the Slovo to demonstrate its teaching ability. Proposed data and pre-trained models are publicly available.
翻訳日:2023-07-25 21:17:37 公開日:2023-07-22
# OL変換器:光多層膜構造のための高速で普遍的なサロゲートシミュレータ

OL-Transformer: A Fast and Universal Surrogate Simulator for Optical Multilayer Thin Film Structures ( http://arxiv.org/abs/2305.11984v2 )

ライセンス: Link先を確認
Taigao Ma, Haozhu Wang, L. Jay Guo(参考訳) 近年,光多層膜構造のための高速高精度サロゲートシミュレータとして深層学習法が確立されている。 しかし、既存の手法は素材配置が異なる限られた種類の構造のみに対応し、多様な普遍的な構造への応用を妨げている。 本稿では,巨大構造体に対する普遍的なサロゲートシミュレータとして機能するOpto-Layer (OL) Transformerを提案する。 構造シリアライゼーションの手法と組み合わせることで,物理解法に比べてシミュレーション時間の6倍の劣化を達成しつつ,最大10〜25ドル程度の異なる多層構造に対して正確な反射スペクトルと透過スペクトルを予測できる。 さらに,本モデルでは,まず物理埋め込みを学習し,自己認識機構を用いて各層間の光・光相互作用の隠れた関係を捉えることにより,一般学習能力が向上することを明らかにした。

Deep learning-based methods have recently been established as fast and accurate surrogate simulators for optical multilayer thin film structures. However, existing methods only work for limited types of structures with different material arrangements, preventing their applications towards diverse and universal structures. Here, we propose the Opto-Layer (OL) Transformer to act as a universal surrogate simulator for enormous types of structures. Combined with the technique of structure serialization, our model can predict accurate reflection and transmission spectra for up to $10^{25}$ different multilayer structures, while still achieving a six-fold degradation in simulation time compared to physical solvers. Further investigation reveals that the general learning ability comes from the fact that our model first learns the physical embeddings and then uses the self-attention mechanism to capture the hidden relationship of light-matter interaction between each layer.
翻訳日:2023-07-25 21:17:00 公開日:2023-07-22
# 時空間注意に基づく視覚的位置認識のための学習シーケンス記述子

Learning Sequence Descriptor based on Spatiotemporal Attention for Visual Place Recognition ( http://arxiv.org/abs/2305.11467v2 )

ライセンス: Link先を確認
Fenglin Zhang, Junqiao Zhao, Yingfeng Cai, Gengxuan Tian, Wenjie Mu, Chen Ye(参考訳) ビジュアルプレース認識(VPR)は、クエリフレームと同じ場所に位置するジオタグデータベースからフレームを取得することを目的としている。 知覚的エイリアスにおけるVPRの堅牢性を改善するために,シーケンスベースのVPR手法を提案する。 これらの手法はフレームシーケンス間のマッチングや直接検索のためのシーケンス記述子抽出に基づいている。 しかし、前者は一般に一定の速度の仮定に基づいており、これは実際は保持が困難であり、計算コストが高く、シーケンス長が要求される。 後者はこれらの問題を克服するが、既存のシーケンス記述子は、時間的情報に干渉することなく、複数のフレームの特徴を集約することで構築される。 本稿では,時空間情報を効果的に組み込むシーケンス記述子を提案する。 具体的には、同じフレーム内の空間的注意を空間的特徴パターンの学習に利用し、異なるフレームの対応する局所領域の注意を時間とともに特徴の持続性や変化を学ぶために利用する。 我々はスライディングウィンドウを用いて時間的注意範囲を制御し、相対的な位置エンコーディングを用いて異なる特徴間の逐次的関係を構築する。 これにより、ディスクリプタはフレームのシーケンスで内在的なダイナミクスをキャプチャできます。 挑戦的なベンチマークデータセットに関する包括的な実験は、提案手法が最近の最先端手法よりも優れていることを示している。

Visual Place Recognition (VPR) aims to retrieve frames from a geotagged database that are located at the same place as the query frame. To improve the robustness of VPR in perceptually aliasing scenarios, sequence-based VPR methods are proposed. These methods are either based on matching between frame sequences or extracting sequence descriptors for direct retrieval. However, the former is usually based on the assumption of constant velocity, which is difficult to hold in practice, and is computationally expensive and subject to sequence length. Although the latter overcomes these problems, existing sequence descriptors are constructed by aggregating features of multiple frames only, without interaction on temporal information, and thus cannot obtain descriptors with spatio-temporal discrimination. In this paper, we propose a sequence descriptor that effectively incorporates spatio-temporal information. Specifically, spatial attention within the same frame is utilized to learn spatial feature patterns, while attention in corresponding local regions of different frames is utilized to learn the persistence or change of features over time. We use a sliding window to control the temporal range of attention and use relative position encoding to construct sequential relationships between different features. This allows our descriptors to capture the intrinsic dynamics in a sequence of frames. Comprehensive experiments on challenging benchmark datasets show that the proposed approach outperforms recent state-of-the-art methods.
翻訳日:2023-07-25 21:16:24 公開日:2023-07-22
# ゲノム材料設計:PHAse Dynamicsの計算

Genomic Materials Design: CALculation of PHAse Dynamics ( http://arxiv.org/abs/2305.05060v2 )

ライセンス: Link先を確認
G. B Olson and Z. K. Liu(参考訳) 基本相レベルデータベースのCALPHADシステムは、現在Material Genomeとして知られているが、すでに国家材料ゲノムイニシアチブの加速目標を満たしている計算材料設計と資格の成熟した技術を実現している。 QuesTek Innovationsによって最初に商業化されたこの手法は、新しい材料組成とプロセス仕様の効率的なゲノムレベルのパラメトリック設計と、製造変動の多分野シミュレーションに基づく予測を組み合わせ、効率的な不確実性管理を統合する。 キマッド設計センターで実証された最近のプロジェクトは、特に添加物製造の新しい技術のために設計された新しい合金を含んでいる。 CALPHADベースのMaterial Genome技術の成功により、現在の大学の研究はより正確なCALPHADデータベースを安価に拡張するための新しい手法を強調している。 アメリカの頂点企業によるこれらの新機能の急速な採用により、材料設計と開発サイクルは2年以内に圧縮され、新しい「材料並行性」が、前例のない製造革新のレベルをサポートする新しいレベルの並行エンジニアリングに統合された。

The CALPHAD system of fundamental phase-level databases, now known as the Materials Genome, has enabled a mature technology of computational materials design and qualification that has already met the acceleration goals of the national Materials Genome Initiative. As first commercialized by QuesTek Innovations, the methodology combines efficient genomic-level parametric design of new material composition and process specifications with multidisciplinary simulation-based forecasting of manufacturing variation, integrating efficient uncertainty management. Recent projects demonstrated under the multi-institutional CHiMaD Design Center notably include novel alloys designed specifically for the new technology of additive manufacturing. With the proven success of the CALPHAD-based Materials Genome technology, current university research emphasizes new methodologies for affordable accelerated expansion of more accurate CALPHAD databases. Rapid adoption of these new capabilities by US apex corporations has compressed the materials design and development cycle to under 2 years, enabling a new "materials concurrency" integrated into a new level of concurrent engineering supporting an unprecedented level of manufacturing innovation.
翻訳日:2023-07-25 21:15:30 公開日:2023-07-22
# 量子交互演算子アンザッツ(QAOA)は、徐々に変化するユニタリを持つ低深さを超える

Quantum Alternating Operator Ansatz (QAOA) beyond low depth with gradually changing unitaries ( http://arxiv.org/abs/2305.04455v2 )

ライセンス: Link先を確認
Vladimir Kremenetski, Anuj Apte, Tad Hogg, Stuart Hadfield, and Norm M. Tubman(参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm and its generalization to Quantum Alternating Operator Ansatz, QAOA)は、組合せ最適化や計算化学といった問題に量子コンピュータを適用するための有望なアプローチである。 本稿では,段階的に変化するユニタリの設定において,浅い深さを超えたqaoa回路の挙動を規定するメカニズムについて検討する。 先行研究で主に考慮される連続時間断熱定理から得られた洞察を補って一般化する離散断熱定理を用いる。 今回の分析では,最近導入されたqaoaパフォーマンス図で顕著に表される一般的な特性について解説する。 連続スケジュール(例えば線形ランプ)から派生したパラメータシーケンスでは、これらのダイアグラムは異なるパラメータサイズと回路深度でアルゴリズムの性能をキャプチャする。 驚くべきことに、それらは異なるパフォーマンスメトリクスとアプリケーションドメインで質的に類似している。 分析では,パラメータサイズに基づいて変化するコストの固有状態とミキサーQAOAハミルトニアンの接続や,性能を犠牲にすることなく回路深さを減少させる可能性など,予期せぬ結果も説明できる。

The Quantum Approximate Optimization Algorithm and its generalization to Quantum Alternating Operator Ansatz (QAOA) is a promising approach for applying quantum computers to challenging problems such as combinatorial optimization and computational chemistry. In this paper, we study the underlying mechanisms governing the behavior of QAOA circuits beyond shallow depth in the practically relevant setting of gradually varying unitaries. We use the discrete adiabatic theorem, which complements and generalizes the insights obtained from the continuous-time adiabatic theorem primarily considered in prior work. Our analysis explains some general properties that are conspicuously depicted in the recently introduced QAOA performance diagrams. For parameter sequences derived from continuous schedules (e.g. linear ramps), these diagrams capture the algorithm's performance over different parameter sizes and circuit depths. Surprisingly, they have been observed to be qualitatively similar across different performance metrics and application domains. Our analysis explains this behavior as well as entails some unexpected results, such as connections between the eigenstates of the cost and mixer QAOA Hamiltonians changing based on parameter size and the possibility of reducing circuit depth without sacrificing performance.
翻訳日:2023-07-25 21:14:51 公開日:2023-07-22
# ConvNetsは画像の強度をどう理解するか?

How Do ConvNets Understand Image Intensity? ( http://arxiv.org/abs/2306.00360v2 )

ライセンス: Link先を確認
Jackson Kaunismaa, and Michael Guerzhoy(参考訳) 畳み込みニューラルネットワーク(convnets)は通常、画像の分類にエッジ/シェイプ情報に依存する。 過去10年間で開発された可視化手法は、ConvNetsがエッジ情報に依存していることを確認する。 本研究では,ConvNetが形状に加え,画像強度に頼らなければならない状況について検討する。 我々は,ConvNetが画像の強度情報に依存していることを示す。

Convolutional Neural Networks (ConvNets) usually rely on edge/shape information to classify images. Visualization methods developed over the last decade confirm that ConvNets rely on edge information. We investigate situations where the ConvNet needs to rely on image intensity in addition to shape. We show that the ConvNet relies on image intensity information using visualization.
翻訳日:2023-07-25 21:07:43 公開日:2023-07-22
# ウェーブレットベース拡散モデルによる低光強調

Low-Light Image Enhancement with Wavelet-based Diffusion Models ( http://arxiv.org/abs/2306.00306v2 )

ライセンス: Link先を確認
Hai Jiang, Ao Luo, Songchen Han, Haoqiang Fan, Shuaicheng Liu(参考訳) 拡散モデルは画像復元タスクにおいて有望な結果を得たが、時間的消費、過剰な計算リソース消費、不安定な修復に苦しめられている。 これらの問題に対処するため,DiffLLと呼ばれる拡散型低光画像強調手法を提案する。 具体的には,ウェーブレットに基づく条件拡散モデル(WCDM)を提案する。 さらに、ウェーブレット変換の強みを利用して推論を大幅に加速し、情報を犠牲にすることなく計算資源の使用を減らす。 カオスコンテンツや多様性を避けるために,wcdmのトレーニングフェーズにおいて前方拡散と逆雑音化の両方を行い,モデルが安定した雑音化を実現し,推論中のランダム性を低減する。 さらに、画像の垂直および水平の細部を利用した高周波数復元モジュール(HFRM)を設計し、対角線情報を補完し、よりきめ細かい復元を行う。 公開されている実世界のベンチマーク実験により,本手法は既存の最先端手法よりも定量的かつ視覚的に優れており,従来の拡散法に比べて効率が著しく向上していることが示された。 また,低照度顔検出への応用により,本手法の潜在的な実用的価値も明らかにできることを示す。

Diffusion models have achieved promising results in image restoration tasks, yet suffer from time-consuming, excessive computational resource consumption, and unstable restoration. To address these issues, we propose a robust and efficient Diffusion-based Low-Light image enhancement approach, dubbed DiffLL. Specifically, we present a wavelet-based conditional diffusion model (WCDM) that leverages the generative power of diffusion models to produce results with satisfactory perceptual fidelity. Additionally, it also takes advantage of the strengths of wavelet transformation to greatly accelerate inference and reduce computational resource usage without sacrificing information. To avoid chaotic content and diversity, we perform both forward diffusion and reverse denoising in the training phase of WCDM, enabling the model to achieve stable denoising and reduce randomness during inference. Moreover, we further design a high-frequency restoration module (HFRM) that utilizes the vertical and horizontal details of the image to complement the diagonal information for better fine-grained restoration. Extensive experiments on publicly available real-world benchmarks demonstrate that our method outperforms the existing state-of-the-art methods both quantitatively and visually, and it achieves remarkable improvements in efficiency compared to previous diffusion-based methods. In addition, we empirically show that the application for low-light face detection also reveals the latent practical values of our method.
翻訳日:2023-07-25 21:07:39 公開日:2023-07-22
# PFNs4BO:ベイズ最適化のための文脈学習

PFNs4BO: In-Context Learning for Bayesian Optimization ( http://arxiv.org/abs/2305.17535v5 )

ライセンス: Link先を確認
Samuel M\"uller, Matthias Feurer, Noah Hollmann, Frank Hutter(参考訳) 本稿では,ベイズ最適化(BO)のためのフレキシブルサロゲートとして,PFN(Presideed Data Fitted Networks)を用いる。 PFNは、効率的にサンプリングできる任意の事前分布のコンテキスト内学習を通じて、後部予測分布(PPD)を近似するように訓練された神経プロセスである。 BOにおけるサロゲートモデリングにおいて,この柔軟性をどのように活用できるかを述べる。 我々はPFNを用いて、単純なガウス過程(GP)、高度なGP、ベイズニューラルネットワーク(BNN)を模倣する。 また,オプティマの位置に関するヒントを許容したり,無関係次元を無視したり,取得関数を学習して非オプティマボを実行したりするなど,さらに情報を前もって組み込む方法を示す。 これらの拡張の基盤となる柔軟性は、BOにPFNを使用する大きな可能性を開く。 人工GP試料と3種類のハイパーパラメータ最適化テストベッド(HPO-B, Bayesmark, PD1)の大規模評価において, BOに対するPFNの有用性を示す。 トレーニングされたモデルをgithub.com/automl/PFNs4BOで公開しています。

In this paper, we use Prior-data Fitted Networks (PFNs) as a flexible surrogate for Bayesian Optimization (BO). PFNs are neural processes that are trained to approximate the posterior predictive distribution (PPD) through in-context learning on any prior distribution that can be efficiently sampled from. We describe how this flexibility can be exploited for surrogate modeling in BO. We use PFNs to mimic a naive Gaussian process (GP), an advanced GP, and a Bayesian Neural Network (BNN). In addition, we show how to incorporate further information into the prior, such as allowing hints about the position of optima (user priors), ignoring irrelevant dimensions, and performing non-myopic BO by learning the acquisition function. The flexibility underlying these extensions opens up vast possibilities for using PFNs for BO. We demonstrate the usefulness of PFNs for BO in a large-scale evaluation on artificial GP samples and three different hyperparameter optimization testbeds: HPO-B, Bayesmark, and PD1. We publish code alongside trained models at github.com/automl/PFNs4BO.
翻訳日:2023-07-25 21:06:14 公開日:2023-07-22
# Dropoutがダブルダイスをドロップ

Dropout Drops Double Descent ( http://arxiv.org/abs/2305.16179v2 )

ライセンス: Link先を確認
Tian-Le Yang, Joe Suzuki(参考訳) 本稿では,全接続の線形層の前に1つのドロップアウト層を追加するだけで,2重降下が容易にできることを示す。 この驚くべき二日月現象は近年大衆の注目を集めており、サンプルやモデルのサイズが増すにつれて予測誤差が増減している。 本稿では,線形回帰モデルと非線形ランダム特徴回帰モデルにおいて,理論上,経験上,最適ドロップアウトを用いることで,これらの現象を緩和できることを示す。 % ${y}=X{\beta}^0+{\epsilon}$ with $X\in\mathbb{R}^{n\times p}$。 一般化されたリッジ型推定器 $\hat{{\beta}}=(X^TX+\alpha\cdot\mathrm{diag}(X^TX))^{-1}X^T{y}$ で基底真理 ${\beta}^0$ を推定することにより、最適ドロップアウトハイパーパラメータを得る。 さらに,Fashion-MNIST と CIFAR-10 を用いて,非線形ニューラルネットワークにおける単調テスト誤差曲線の最適解法が可能であることを示す。 以上の結果から,ピーク時におけるリスク曲線スケーリングの削減を検討することを提案する。 さらに、従来のディープラーニングモデルが2段階のシナリオに遭遇しない理由もわかっています -- モデルにドロップアウトのような通常の正規化アプローチをすでに適用しています。 我々の知る限り、この論文はドロップアウトとダブル降下の関係を初めて分析したものである。

In this paper, we find and analyze that we can easily drop the double descent by only adding one dropout layer before the fully-connected linear layer. The surprising double-descent phenomenon has drawn public attention in recent years, making the prediction error rise and drop as we increase either sample or model size. The current paper shows that it is possible to alleviate these phenomena by using optimal dropout in the linear regression model and the nonlinear random feature regression, both theoretically and empirically. % ${y}=X{\beta}^0+{\epsilon}$ with $X\in\mathbb{R}^{n\times p}$. We obtain the optimal dropout hyperparameter by estimating the ground truth ${\beta}^0$ with generalized ridge typed estimator $\hat{{\beta}}=(X^TX+\alpha\cdot\mathrm{diag}(X^TX))^{-1}X^T{y}$. Moreover, we empirically show that optimal dropout can achieve a monotonic test error curve in nonlinear neural networks using Fashion-MNIST and CIFAR-10. Our results suggest considering dropout for risk curve scaling when meeting the peak phenomenon. In addition, we figure out why previous deep learning models do not encounter double-descent scenarios -- because we already apply a usual regularization approach like the dropout in our models. To our best knowledge, this paper is the first to analyze the relationship between dropout and double descent.
翻訳日:2023-07-25 21:05:13 公開日:2023-07-22
# 時系列分析のための自己監督型学習:分類学、進歩、展望

Self-Supervised Learning for Time Series Analysis: Taxonomy, Progress, and Prospects ( http://arxiv.org/abs/2306.10125v2 )

ライセンス: Link先を確認
Kexin Zhang, Qingsong Wen, Chaoli Zhang, Rongyao Cai, Ming Jin, Yong Liu, James Zhang, Yuxuan Liang, Guansong Pang, Dongjin Song, Shirui Pan(参考訳) 自己教師付き学習(SSL)は、最近、様々な時系列タスクで素晴らしいパフォーマンスを達成した。 SSLの最も重要な利点は、ラベル付きデータへの依存を減らすことである。 事前トレーニングと微調整の戦略に基づいて、少量のラベル付きデータでも高いパフォーマンスを達成できる。 コンピュータビジョンと自然言語処理に関する多くの自己監督調査と比較すると、時系列sslに関する包括的な調査はまだ欠落している。 このギャップを埋めるため、本稿では、時系列データに対する現在のsslメソッドについて検討する。 この目的のために、SSLと時系列に関する既存の調査を総合的にレビューし、生成ベース、コントラストベース、および敵ベースという3つの視点から、既存の時系列SSLメソッドの新しい分類法を提供する。 これらの手法はさらに10のサブカテゴリに分けられ、重要な直観、主要なフレームワーク、利点、デメリットについて詳細なレビューと議論がなされている。 また,時系列SSL手法の実験と検証を容易にするため,時系列予測,分類,異常検出,クラスタリングタスクでよく使用されるデータセットを要約する。 最後に,時系列解析におけるSSLの今後の方向性を示す。

Self-supervised learning (SSL) has recently achieved impressive performance on various time series tasks. The most prominent advantage of SSL is that it reduces the dependence on labeled data. Based on the pre-training and fine-tuning strategy, even a small amount of labeled data can achieve high performance. Compared with many published self-supervised surveys on computer vision and natural language processing, a comprehensive survey for time series SSL is still missing. To fill this gap, we review current state-of-the-art SSL methods for time series data in this article. To this end, we first comprehensively review existing surveys related to SSL and time series, and then provide a new taxonomy of existing time series SSL methods by summarizing them from three perspectives: generative-based, contrastive-based, and adversarial-based. These methods are further divided into ten subcategories with detailed reviews and discussions about their key intuitions, main frameworks, advantages and disadvantages. To facilitate the experiments and validation of time series SSL methods, we also summarize datasets commonly used in time series forecasting, classification, anomaly detection, and clustering tasks. Finally, we present the future directions of SSL for time series analysis.
翻訳日:2023-07-25 20:57:41 公開日:2023-07-22
# Harvard Glaucoma Fairness:Fairness LearningとFair Identity Normalizationのための網膜神経疾患データセット

Harvard Glaucoma Fairness: A Retinal Nerve Disease Dataset for Fairness Learning and Fair Identity Normalization ( http://arxiv.org/abs/2306.09264v2 )

ライセンス: Link先を確認
Yan Luo, Yu Tian, Min Shi, Louis R. Pasquale, Lucy Q. Shen, Nazlee Zebardast, Tobias Elze, Mengyu Wang(参考訳) 機械学習における公平性(公平性)は社会的な幸福のために重要であるが、公共データセットの制限は進歩を妨げる。 現在、フェアネス学習のための画像データを持つ公共医療データセットは提供されていないが、少数グループはより多くの健康問題に苦しんでいる。 このギャップに対処するために,2次元および3次元画像データとバランスのとれた人種集団による緑内障検出のための網膜神経疾患データセットであるharvard-gfを紹介する。 緑内障は他の人種よりも2倍の緑内障の有病率を持つ黒人が世界中で不可逆盲目の原因となっている。 また,異なる同一性群間の特徴的重要性を等化するための公平同一性正規化(fin)手法を提案する。 当社のfinアプローチは,2dおよび3dイメージングデータを用いて,人種,性別,民族の公平性タスクにおいて優れたパフォーマンスを示す,最先端のフェアネス学習手法と比較し,ハーバード大学gfによるフェアネス学習の有用性を実証する。 両モデル間の公正度比較を容易にするため,フェアネスの文脈において,あらゆる種類のパフォーマンス指標を柔軟に比較できるエクイティスケールパフォーマンス尺度を提案する。 データセットとコードは \url{https://ophai.hms.harvard.edu/datasets/harvard-glaucoma-fairness-3300-samples/} で公開されている。

Fairness (also known as equity interchangeably) in machine learning is important for societal well-being, but limited public datasets hinder its progress. Currently, no dedicated public medical datasets with imaging data for fairness learning are available, though minority groups suffer from more health issues. To address this gap, we introduce Harvard Glaucoma Fairness (Harvard-GF), a retinal nerve disease dataset with both 2D and 3D imaging data and balanced racial groups for glaucoma detection. Glaucoma is the leading cause of irreversible blindness globally with Blacks having doubled glaucoma prevalence than other races. We also propose a fair identity normalization (FIN) approach to equalize the feature importance between different identity groups. Our FIN approach is compared with various the-state-of-the-art fairness learning methods with superior performance in the racial, gender, and ethnicity fairness tasks with 2D and 3D imaging data, which demonstrate the utilities of our dataset Harvard-GF for fairness learning. To facilitate fairness comparisons between different models, we propose an equity-scaled performance measure, which can be flexibly used to compare all kinds of performance metrics in the context of fairness. The dataset and code are publicly accessible via \url{https://ophai.hms.harvard.edu/datasets/harvard-glaucoma-fairness-3300-samples/}.
翻訳日:2023-07-25 20:56:56 公開日:2023-07-22
# マルチスケールとトークンのマージェンス:ViTをより効率的にする

Multi-Scale And Token Mergence: Make Your ViT More Efficient ( http://arxiv.org/abs/2306.04897v2 )

ライセンス: Link先を確認
Zhe Bian, Zhe Wang, Wenqiang Han, Kangping Wang(参考訳) その開始以来、ビジョントランスフォーマー(vit)はコンピュータビジョンの領域で一般的なモデルとして登場してきた。 それでも、ViTのマルチヘッド自己注意機構(MHSA)は、全てのトークン間の関係の計算のために計算コストがかかる。 トークンを捨てることで計算オーバーヘッドを軽減する手法もあるが、それによってトークンから潜在的な情報が失われる。 これらの問題に対処するために,より重要なトークンをマージすることにより,非クルーズトークンからの情報を保持し,モデル性能への影響を緩和する新しいトークンプルーニング手法を提案する。 地殻および非地殻トークンは、その重要度スコアによって識別され、類似度スコアに基づいてマージされる。 さらに、よりリッチな特徴表現を生成するためにトークンプルーニングの前に融合した画像を表現するために、マルチスケール機能を利用する。 重要なことは,本手法を様々なViTとシームレスに統合し,適応性を向上させることである。 モデル性能に及ぼすトークンプルーニングの影響を低減するためのアプローチの有効性を実験的に検証した。 例えば、imagenetデータセットでは、deit-sの精度が0.1%低下する一方、計算コストの顕著な33%削減を達成している。

Since its inception, Vision Transformer (ViT) has emerged as a prevalent model in the computer vision domain. Nonetheless, the multi-head self-attention (MHSA) mechanism in ViT is computationally expensive due to its calculation of relationships among all tokens. Although some techniques mitigate computational overhead by discarding tokens, this also results in the loss of potential information from those tokens. To tackle these issues, we propose a novel token pruning method that retains information from non-crucial tokens by merging them with more crucial tokens, thereby mitigating the impact of pruning on model performance. Crucial and non-crucial tokens are identified by their importance scores and merged based on similarity scores. Furthermore, multi-scale features are exploited to represent images, which are fused prior to token pruning to produce richer feature representations. Importantly, our method can be seamlessly integrated with various ViTs, enhancing their adaptability. Experimental evidence substantiates the efficacy of our approach in reducing the influence of token pruning on model performance. For instance, on the ImageNet dataset, it achieves a remarkable 33% reduction in computational costs while only incurring a 0.1% decrease in accuracy on DeiT-S.
翻訳日:2023-07-25 20:55:30 公開日:2023-07-22
# 線型フェルミオン部分を持つ指数関数に対するバリアン・ブレジン分解の一般化

Generalization of Balian-Brezin decomposition for exponentials with linear fermionic part ( http://arxiv.org/abs/2306.13481v2 )

ライセンス: Link先を確認
M. A. Seifi Mirjafarlou, A. Jafarizadeh, M. A. Rajabpour(参考訳) フェルミオンガウス状態は、その興味深い性質、特にウィックの定理により、かなりの注意を払っている。 フェルミオンガウス作用素と状態の性質を一般化した balian と brezin の仕事により、これらの発見をさらに拡張し、ガウス作用素を線型成分に組み込む。 colpa が導入した手法を利用して解析を合理化し,線形項を含む指数関数を包含する balian-brezin decomposition (bbd) の包括的拡張を提案する。 さらに,線形部分をもつガウス状態を導入し,対応する重なり公式を導出する。 さらに、ウィックの定理を線形項を含むシナリオを包含するために一般化し、1点および2点相関関数に関連する一般的な期待値の表現を容易にする。 また、$\mathfrak{so}(N)$ Lie algebra 内の BCH (Zassenhaus) 公式に対処する際の BB 分解の適用性に関する簡単な注釈も提供する。

Fermionic Gaussian states have garnered considerable attention due to their intriguing properties, most notably Wick's theorem. Expanding upon the work of Balian and Brezin, who generalized properties of fermionic Gaussian operators and states, we further extend their findings to incorporate Gaussian operators with a linear component. Leveraging a technique introduced by Colpa, we streamline the analysis and present a comprehensive extension of the Balian-Brezin decomposition (BBD) to encompass exponentials involving linear terms. Furthermore, we introduce Gaussian states featuring a linear part and derive corresponding overlap formulas. Additionally, we generalize Wick's theorem to encompass scenarios involving linear terms, facilitating the expression of generic expectation values in relation to one and two-point correlation functions. We also provide a brief commentary on the applicability of the BB decomposition in addressing the BCH (Zassenhaus) formulas within the $\mathfrak{so}(N)$ Lie algebra.
翻訳日:2023-07-25 20:45:43 公開日:2023-07-22
# FedSelect: 個人化フェデレーション学習におけるファインチューニングパラメータの選択

FedSelect: Customized Selection of Parameters for Fine-Tuning during Personalized Federated Learning ( http://arxiv.org/abs/2306.13264v3 )

ライセンス: Link先を確認
Rishub Tamirisa, John Won, Chengjun Lu, Ron Arel, Andy Zhou(参考訳) 近年のFL(Federated Learning)は,ローカルデータに対するクライアントパラメータの微調整や,ローカルタスクのパーソナライズアーキテクチャによるクライアントレベルのパフォーマンス向上を目指している。 このようなパーソナライズのための既存の方法は、グローバルモデルを作成するか、ローカルクライアントディストリビューション上でグローバルモデルを微調整する。 しかし、これらの既存の手法は重要なグローバル知識の保持を犠牲にしてパーソナライズするか、または微調整のためのネットワーク層を予め設定し、クライアントモデル内でグローバル知識を最適に格納する。 抽選券仮説に則って,我々はまず,パラメータの残りを凍結しながら,局所的な微調整に最適なクライアントサブネットワークを求める仮説を提示する。 次に,個人化のための最適パラメータと,トレーニング中のグローバルアグリゲーションのための他のパラメータを同時に発見することで,クライアントサブネットワーク構造とパラメータの両方を直接パーソナライズする手法であるfederselectを提案する。 CIFAR-10で有望な結果が得られることを示す。

Recent advancements in federated learning (FL) seek to increase client-level performance by fine-tuning client parameters on local data or personalizing architectures for the local task. Existing methods for such personalization either prune a global model or fine-tune a global model on a local client distribution. However, these existing methods either personalize at the expense of retaining important global knowledge, or predetermine network layers for fine-tuning, resulting in suboptimal storage of global knowledge within client models. Enlightened by the lottery ticket hypothesis, we first introduce a hypothesis for finding optimal client subnetworks to locally fine-tune while leaving the rest of the parameters frozen. We then propose a novel FL framework, FedSelect, using this procedure that directly personalizes both client subnetwork structure and parameters, via the simultaneous discovery of optimal parameters for personalization and the rest of parameters for global aggregation during training. We show that this method achieves promising results on CIFAR-10.
翻訳日:2023-07-25 20:45:24 公開日:2023-07-22
# GenPose:拡散モデルによる生成カテゴリレベルのオブジェクトポス推定

GenPose: Generative Category-level Object Pose Estimation via Diffusion Models ( http://arxiv.org/abs/2306.10531v2 )

ライセンス: Link先を確認
Jiyao Zhang, Mingdong Wu and Hao Dong(参考訳) オブジェクトのポーズ推定は、AIとコンピュータビジョンの具体化において重要な役割を果たす。 カテゴリーレベルのポーズ推定の実用性にもかかわらず、現在のアプローチは、マルチハイポテーゼ問題として知られる部分的観測点雲の課題に遭遇する。 本研究では,カテゴリーレベルのオブジェクトポーズ推定を条件付き生成モデルとして再検討し,従来のポイント・ツー・ポイント回帰から外れた新しい解を提案する。 スコアベース拡散モデルを利用して、拡散モデルから候補をサンプリングし、2段階のプロセスでそれらを集約することによりオブジェクトのポーズを推定する。 確率を推定する際のコストのかかる統合プロセスを回避するため,従来のスコアベースモデルからエネルギーベースモデルを訓練し,エンドツーエンドの推定を可能にする方法を提案する。 提案手法は, 厳密な5d2cmおよび5d5cmで50%, 60%以上の精度でREAL275データセット上での最先端性能を実現する。 さらに,本手法は,類似の対称特性を微調整せずに共有する新しいカテゴリに対して高い一般化性を示し,オブジェクトポーズ追跡タスクに容易に適応でき,現在の最先端ベースラインに匹敵する結果が得られることを示した。

Object pose estimation plays a vital role in embodied AI and computer vision, enabling intelligent agents to comprehend and interact with their surroundings. Despite the practicality of category-level pose estimation, current approaches encounter challenges with partially observed point clouds, known as the multihypothesis issue. In this study, we propose a novel solution by reframing categorylevel object pose estimation as conditional generative modeling, departing from traditional point-to-point regression. Leveraging score-based diffusion models, we estimate object poses by sampling candidates from the diffusion model and aggregating them through a two-step process: filtering out outliers via likelihood estimation and subsequently mean-pooling the remaining candidates. To avoid the costly integration process when estimating the likelihood, we introduce an alternative method that trains an energy-based model from the original score-based model, enabling end-to-end likelihood estimation. Our approach achieves state-of-the-art performance on the REAL275 dataset, surpassing 50% and 60% on strict 5d2cm and 5d5cm metrics, respectively. Furthermore, our method demonstrates strong generalizability to novel categories sharing similar symmetric properties without fine-tuning and can readily adapt to object pose tracking tasks, yielding comparable results to the current state-of-the-art baselines.
翻訳日:2023-07-25 20:44:31 公開日:2023-07-22
# 多層エキスパートネットワークに基づくNL2SQLの改良

Improved NL2SQL based on Multi-layer Expert Network ( http://arxiv.org/abs/2306.17727v2 )

ライセンス: Link先を確認
Chenduo Hao, Xu Zhang(参考訳) natural language to sql (nl2sql)テクニックは、自然言語クエリを実行可能なsqlステートメントに変換するために使用される。 通常、スロット充填はこの目的を達成するためにマルチタスクケースの分類方法として使用される。 しかし、スロットフィリングは、異なる分類タスクから生じる負のマイグレーション問題により、不正確なSQLステートメントを生成する可能性がある。 この制限を克服するために,本研究では,専用マルチタスク階層ネットワークを利用したMulti-Layer Expert Generate SQL(MLEG-SQL)という新しいアプローチを導入する。 ネットワークの下層は自然言語文の意味的特徴を抽出し、上層は特定の分類タスクを扱う専門的なエキスパートシステムを構築している。 この階層的アプローチは、異なるタスク競合によるパフォーマンス低下を軽減する。 提案手法はwiksqlデータセット上で評価され,正確なsql文の生成に有効であることがわかった。

The Natural Language to SQL (NL2SQL) technique is used to convert natural language queries into executable SQL statements. Typically, slot-filling is employed as a classification method for multi-task cases to achieve this goal. However, slot-filling can result in inaccurate SQL statement generation due to negative migration issues arising from different classification tasks. To overcome this limitation, this study introduces a new approach called Multi-Layer Expert Generate SQL (MLEG-SQL), which utilizes a dedicated multi-task hierarchical network. The lower layer of the network extracts semantic features of natural language statements, while the upper layer builds a specialized expert system for handling specific classification tasks. This hierarchical approach mitigates performance degradation resulting from different task conflicts. The proposed method was evaluated on the WiKSQL dataset and was found to be effective in generating accurate SQL statements.
翻訳日:2023-07-25 20:37:47 公開日:2023-07-22
# 空間的詳細記憶を用いたパンシャープ化への学習

Learning to Pan-sharpening with Memories of Spatial Details ( http://arxiv.org/abs/2306.16181v2 )

ライセンス: Link先を確認
Maoxun Yuan, Tianyi Zhao, Bo Li, Xingxing Wei(参考訳) リモートセンシングシステムにおいて最もよく用いられる技術の一つであるパンシャーペニングは、パンクロマティック画像からマルチスペクトル画像(MS)に空間的詳細を注入し、高解像度のマルチスペクトル画像を得る。 ディープラーニングはその強固な適合能力と効率的な特徴抽出によって広く注目を集めているため、優れた性能を達成するために様々なパンシャープ化手法が提案されている。 しかしながら、現在のパンシャーピング法では、通常、ペア化されたパンクロマトグラフィ(PAN)とMSイメージを入力として必要としており、いくつかのシナリオでは使用を制限している。 この問題に対処するために,本論文では,PAN画像の空間的詳細が主に高周波の手がかりである,すなわち入力PAN画像の輪郭を反映していることを観察する。 これにより,いくつかのベースエッジを格納するPAN非依存表現を開発し,それを介して対応するPAN画像の輪郭を構成することができる。 その結果、推定時にms画像のみを用いてパンシャープ化タスクを行うことができる。 この目的のために、メモリベースのネットワークは、トレーニングフェーズ中に空間の詳細を抽出して記憶するように適応し、メモリベースの空間詳細ネットワーク(MSDN)と呼ばれる推論時にPAN画像から空間情報を取得するプロセスを置き換えるために使用される。 最後に、提案したMSDNモジュールを既存のディープラーニングベースのパンシャーピング手法に統合し、エンドツーエンドのパンシャーピングネットワークを実現する。 我々はGaofen1衛星とWorldView-4衛星の広範な実験により、PAN画像なしで良好な空間的詳細を構築し、最高の性能を達成することを検証する。 コードはhttps://github.com/Zhao-Tian-yi/Learning-to-Pan-sharpening-with-Memories-of-Spatial-Details.gitで公開されている。

Pan-sharpening, as one of the most commonly used techniques in remote sensing systems, aims to inject spatial details from panchromatic images into multispectral images (MS) to obtain high-resolution multispectral images. Since deep learning has received widespread attention because of its powerful fitting ability and efficient feature extraction, a variety of pan-sharpening methods have been proposed to achieve remarkable performance. However, current pan-sharpening methods usually require the paired panchromatic (PAN) and MS images as input, which limits their usage in some scenarios. To address this issue, in this paper we observe that the spatial details from PAN images are mainly high-frequency cues, i.e., the edges reflect the contour of input PAN images. This motivates us to develop a PAN-agnostic representation to store some base edges, so as to compose the contour for the corresponding PAN image via them. As a result, we can perform the pan-sharpening task with only the MS image when inference. To this end, a memory-based network is adapted to extract and memorize the spatial details during the training phase and is used to replace the process of obtaining spatial information from PAN images when inference, which is called Memory-based Spatial Details Network (MSDN). Finally, we integrate the proposed MSDN module into the existing deep learning-based pan-sharpening methods to achieve an end-to-end pan-sharpening network. With extensive experiments on the Gaofen1 and WorldView-4 satellites, we verify that our method constructs good spatial details without PAN images and achieves the best performance. The code is available at https://github.com/Zhao-Tian-yi/Learning-to-Pan-sharpening-with-Memories-of-Spatial-Details.git.
翻訳日:2023-07-25 20:36:19 公開日:2023-07-22
# アダプタを用いた文埋め込みの効率的なドメイン適応

Efficient Domain Adaptation of Sentence Embeddings using Adapters ( http://arxiv.org/abs/2307.03104v2 )

ライセンス: Link先を確認
Tim Schopf, Dennis Schneider, Florian Matthes(参考訳) 文埋め込みにより、短いテキストの意味的類似性を捉えることができる。 ほとんどの文埋め込みモデルはsts(general semantic textual similarity)タスクのために訓練される。 したがって、特定のドメインに文を埋め込むには、良い結果を得るためにモデルを適用する必要がある。 通常、これは関心領域の文埋め込みモデル全体を微調整することによって行われる。 このアプローチは最先端の結果をもたらすが、モデルの重みはすべて微調整中に更新され、このメソッドはリソース集約的になる。 したがって,各対象領域の文埋め込みモデル全体を個別に微調整するのではなく,軽量アダプタのトレーニングを提案する。 これらのドメイン固有のアダプタは、基礎となるすべての文埋め込みモデルパラメータを微調整する必要はない。 代わりに、基礎となる文埋め込みモデルの重みを固定しながら、少数の追加パラメータのみをトレーニングします。 ドメイン固有のアダプタのトレーニングでは、常に同じベースモデルを使用することができ、特定のドメインに文の埋め込みを適用するためにのみドメイン固有のアダプタを交換することができる。 文埋め込みのパラメータ効率のよいドメイン適応のためのアダプタを用いることで、約3.6%のパラメータをトレーニングしながら、ドメイン適応された完全に微調整された文埋め込みモデルの1%以内の競争性能が得られることを示す。

Sentence embeddings enable us to capture the semantic similarity of short texts. Most sentence embedding models are trained for general semantic textual similarity (STS) tasks. Therefore, to use sentence embeddings in a particular domain, the model must be adapted to it in order to achieve good results. Usually, this is done by fine-tuning the entire sentence embedding model for the domain of interest. While this approach yields state-of-the-art results, all of the model's weights are updated during fine-tuning, making this method resource-intensive. Therefore, instead of fine-tuning entire sentence embedding models for each target domain individually, we propose to train lightweight adapters. These domain-specific adapters do not require fine-tuning all underlying sentence embedding model parameters. Instead, we only train a small number of additional parameters while keeping the weights of the underlying sentence embedding model fixed. Training domain-specific adapters allows always using the same base model and only exchanging the domain-specific adapters to adapt sentence embeddings to a specific domain. We show that using adapters for parameter-efficient domain adaptation of sentence embeddings yields competitive performance within 1% of a domain-adapted, entirely fine-tuned sentence embedding model while only training approximately 3.6% of the parameters.
翻訳日:2023-07-25 20:26:57 公開日:2023-07-22
# 多様体構造データに対する線形回帰:解に対する外部幾何学の影響

Linear Regression on Manifold Structured Data: the Impact of Extrinsic Geometry on Solutions ( http://arxiv.org/abs/2307.02478v2 )

ライセンス: Link先を確認
Liangchen Liu, Juncai He and Richard Tsai(参考訳) 本稿では,多様体上のデータに対する線形回帰について検討する。 我々は、データ多様体が滑らかでユークリッド空間に埋め込まれていると仮定し、データ多様体の外部幾何学が回帰に与える影響を明らかにすることを目的とする。 具体的には、多様体の曲率(あるいは曲率が局所的に 0 である場合のパラメータ化における高次非線形性)が回帰解の一意性に与える影響を解析する。 この結果から, 埋め込み部分多様体が平らな場合, 対応する線形回帰は一意の解を持たないことが示唆された。 そうでなければ、多様体の曲率(あるいは埋め込みにおける高次非線形性)は、特に多様体の正規方向に関連する解に大きく寄与する。 その結果,データ多様体幾何が分布外推論の回帰モデルの安定性を確保する上での役割を明らかにした。

In this paper, we study linear regression applied to data structured on a manifold. We assume that the data manifold is smooth and is embedded in a Euclidean space, and our objective is to reveal the impact of the data manifold's extrinsic geometry on the regression. Specifically, we analyze the impact of the manifold's curvatures (or higher order nonlinearity in the parameterization when the curvatures are locally zero) on the uniqueness of the regression solution. Our findings suggest that the corresponding linear regression does not have a unique solution when the embedded submanifold is flat in some dimensions. Otherwise, the manifold's curvature (or higher order nonlinearity in the embedding) may contribute significantly, particularly in the solution associated with the normal directions of the manifold. Our findings thus reveal the role of data manifold geometry in ensuring the stability of regression models for out-of-distribution inferences.
翻訳日:2023-07-25 20:25:30 公開日:2023-07-22
# LLCaps: 曲線ウェーブレット注意と逆拡散による低光カプセル内視鏡の学習

LLCaps: Learning to Illuminate Low-Light Capsule Endoscopy with Curved Wavelet Attention and Reverse Diffusion ( http://arxiv.org/abs/2307.02452v2 )

ライセンス: Link先を確認
Long Bai, Tong Chen, Yanan Wu, An Wang, Mobarakol Islam, Hongliang Ren(参考訳) wireless capsule endoscopy (wce) は消化器疾患の無痛で非侵襲的な診断ツールである。 しかし、GI解剖学的制約とハードウェア製造の制限により、WCE視覚信号は照明不足に悩まされ、複雑なスクリーニングと検査の手順が導かれる。 医学領域における深層学習に基づく低照度画像強調(LLIE)は徐々に研究者を惹きつける。 コンピュータビジョンにおける微分拡散確率モデル(DDPM)の現況を踏まえ,マルチスケール畳み込みニューラルネットワーク(CNN)と逆拡散プロセスに基づく WCE LLIE フレームワークを提案する。 マルチスケール設計では,高分解能表現とコンテキスト情報を低分解能から保存し,高頻度・局所的な特徴学習のための曲線ウェーブレットアテンション(CWA)ブロックを提案する。 さらに, 逆拡散法を併用して, 浅い出力をさらに最適化し, 最も現実的な画像を生成する。 提案手法は10種類のSOTA (State-of-the-art) LLIE法と比較し,定量的および定性的に著しく優れることを示した。 GI病のセグメンテーションにおける優れた成績は,提案モデルの臨床的可能性をさらに示すものである。 私たちのコードは公開アクセス可能です。

Wireless capsule endoscopy (WCE) is a painless and non-invasive diagnostic tool for gastrointestinal (GI) diseases. However, due to GI anatomical constraints and hardware manufacturing limitations, WCE vision signals may suffer from insufficient illumination, leading to a complicated screening and examination procedure. Deep learning-based low-light image enhancement (LLIE) in the medical field gradually attracts researchers. Given the exuberant development of the denoising diffusion probabilistic model (DDPM) in computer vision, we introduce a WCE LLIE framework based on the multi-scale convolutional neural network (CNN) and reverse diffusion process. The multi-scale design allows models to preserve high-resolution representation and context information from low-resolution, while the curved wavelet attention (CWA) block is proposed for high-frequency and local feature learning. Furthermore, we combine the reverse diffusion procedure to further optimize the shallow output and generate the most realistic image. The proposed method is compared with ten state-of-the-art (SOTA) LLIE methods and significantly outperforms quantitatively and qualitatively. The superior performance on GI disease segmentation further demonstrates the clinical potential of our proposed model. Our code is publicly accessible.
翻訳日:2023-07-25 20:25:15 公開日:2023-07-22
# 位置と運動量の同時測定におけるガウス三成分の絡み合い

Gaussian tripartite entanglement in the simultaneous measurement of position and momentum ( http://arxiv.org/abs/2307.07685v2 )

ライセンス: Link先を確認
J. A. Mendoza-Fierro and L. M. Ar\'evalo Aguilar(参考訳) 本研究では,アーサース・ケリーによる位置観測と運動量観測を同時に行う計測プロセスのユニタリダイナミクスにおいて,試験中のシステムが回転し,変位し,圧縮された真空状態であるような測定構成を考慮し,真正の三部連続変数の絡み合いの発生を実証する。 これらの仮定の下では、測定構成はガウス状態によって完全に記述される。 そして、正部分転位基準 (PPT) を通じて、系の3つの$\left(1~ \text{vs}~2\right)$-mode二分割の非分離性をテストすることによって、真の三部体の絡み合いを認証する。 このプロセスにより、[Giedke et al., \href{https://link.aps.org/doi/10.1103/PhysRevA.64.052303}{Phys で表される分類に従って、完全に分離不可能なガウス状態の圏における絡み合いの質的な性質を分類することができる。 rev. a \textbf{64}, 052303 (2001)} を参照。 さらに, 残留三部晶 R{\'e}nyi-2 のエンタングルメントを定量化指標として, 系の定量的エンタングルメント特性を決定する。

In this work, we prove the generation of genuine tripartite continuous-variable entanglement in the unitary dynamics of the simultaneous measurement process of position and momentum observables raised by Arthurs and Kelly, considering a measurement configuration where the system under examination is a rotated, displaced, and squeezed vacuum state. Under these assumptions, the measurement configuration is entirely described by a Gaussian state. Then, through the positive partial transpose criterion (PPT), we certify genuine tripartite entanglement by testing the non-separability of the three $\left(1~ \text{vs}~2\right)$-mode bipartitions of the system. This process allows us to classify the qualitative properties of the entanglement in the category of fully inseparable Gaussian states according to the classification exposed in [Giedke et al., \href{https://link.aps.org/doi/10.1103/PhysRevA.64.052303}{Phys. Rev. A \textbf{64}, 052303 (2001)}]. Besides, we determine the quantitative entanglement properties of the system using the residual tripartite R{\'e}nyi-2 entanglement as a quantifier measure.
翻訳日:2023-07-25 20:19:34 公開日:2023-07-22
# 計算画像における広範かつ汎用的な大規模再構成のための局所条件付きニューラルネットワーク

Local Conditional Neural Fields for Versatile and Generalizable Large-Scale Reconstructions in Computational Imaging ( http://arxiv.org/abs/2307.06207v2 )

ライセンス: Link先を確認
Hao Wang, Jiabei Zhu, Yunzhe Li, QianWan Yang, Lei Tian(参考訳) ディープラーニングは計算画像に変化をもたらしたが、従来のピクセルベースの表現は、オブジェクトの連続的、複数スケールの詳細をキャプチャする能力を制限する。 本稿では、この制限に対応するために、連続的な暗黙的ニューラル表現を活用する、新しいローカル条件ニューラルフィールド(LCNF)フレームワークを紹介する。 LCNFは柔軟なオブジェクト表現を可能にし、マルチスケール情報の再構築を容易にする。 本研究では,多重計測によるフーリエptychography microscope (fpm) における逆問題に対するlcnfの有用性を実証し,ロバストでスケーラブルで汎用的な大規模位相検索を実現する。 従来のニューラルネットワークフレームワークとは異なり、LCNFには、モデル一般化を促進するローカル条件表現、マルチスケール情報、大規模イメージングデータの効率的な処理が含まれている。 学習遅延ベクトルに条件付エンコーダとデコーダを組み合わせることにより、LCNFは多目的な連続領域超解像再構成を実現する。 複数回の多重計測による広視野・高分解能位相像の高精度再構成を示す。 LCNFは、不完全なデータセットでトレーニングされた場合でも、連続オブジェクトの事前をしっかりとキャプチャし、さまざまなフェーズアーティファクトを排除します。 このフレームワークは強力な一般化を示し、限られたトレーニングデータでも多様なオブジェクトを再構築する。 さらに,自然画像を用いた物理シミュレータ上でlcnfを訓練し,生体試料の実験的測定に有効である。 計算機画像における大規模逆問題に対するLCNFの可能性は,様々な深層学習技術に適用可能である。

Deep learning has transformed computational imaging, but traditional pixel-based representations limit their ability to capture continuous, multiscale details of objects. Here we introduce a novel Local Conditional Neural Fields (LCNF) framework, leveraging a continuous implicit neural representation to address this limitation. LCNF enables flexible object representation and facilitates the reconstruction of multiscale information. We demonstrate the capabilities of LCNF in solving the highly ill-posed inverse problem in Fourier ptychographic microscopy (FPM) with multiplexed measurements, achieving robust, scalable, and generalizable large-scale phase retrieval. Unlike traditional neural fields frameworks, LCNF incorporates a local conditional representation that promotes model generalization, learning multiscale information, and efficient processing of large-scale imaging data. By combining an encoder and a decoder conditioned on a learned latent vector, LCNF achieves versatile continuous-domain super-resolution image reconstruction. We demonstrate accurate reconstruction of wide field-of-view, high-resolution phase images using only a few multiplexed measurements. LCNF robustly captures the continuous object priors and eliminates various phase artifacts, even when it is trained on imperfect datasets. The framework exhibits strong generalization, reconstructing diverse objects even with limited training data. Furthermore, LCNF can be trained on a physics simulator using natural images and successfully applied to experimental measurements on biological samples. Our results highlight the potential of LCNF for solving large-scale inverse problems in computational imaging, with broad applicability in various deep-learning-based techniques.
翻訳日:2023-07-25 20:17:55 公開日:2023-07-22
# GLA-GCN:モノクロ映像からの3次元人物位置推定のためのグローバルな適応型グラフ畳み込みネットワーク

GLA-GCN: Global-local Adaptive Graph Convolutional Network for 3D Human Pose Estimation from Monocular Video ( http://arxiv.org/abs/2307.05853v2 )

ライセンス: Link先を確認
Bruce X.B. Yu, Zhi Zhang, Yongxu Liu, Sheng-hua Zhong, Yan Liu, Chang Wen Chen(参考訳) 3d人間のポーズ推定は、有望な果物で何十年も研究されてきた。 3次元ポーズリフトは、推定ポーズと地上真実ポーズの両方がトレーニングに使用されるタスクに向けた有望な研究方向の1つである。 既存のポーズリフト作業は、主に推定されたポーズのパフォーマンス向上に重点を置いているが、地上の真実のポーズデータをテストする場合、通常はパフォーマンスが低下する。 2Dポーズの微調整や高度な2Dポーズ検出器の使用など、高品質な2Dポーズを作成することで、推定されたポーズの性能を容易に向上することができる。 そこで我々は,より高品質な推定ポーズデータの改善のために,地上の真実データによる3次元ポーズリフトの改善に注力する。 この目標に向けて,GLA-GCN(Global-local Adaptive Graph Convolutional Network)と呼ばれるシンプルなモデルを提案する。 gla-gcnは、グラフ表現を介して時空間構造をグローバルにモデル化し、個別連結層による3次元ポーズ推定のための局所ジョイント特徴をバックトレースする。 モデル設計を検証するため,Human3.6M,HumanEva-I,MPI-INF-3DHPの3つのベンチマークデータセットについて広範な実験を行った。 実験結果から,GLA-GCNを地中真理2Dで実装したことにより,最先端手法(Human3.6M,HumanEva-I,MPI-INF-3DHP)の精度は,それぞれ3%,17%,14%であった。 GitHub: https://github.com/bruceyo/GLA-GCN

3D human pose estimation has been researched for decades with promising fruits. 3D human pose lifting is one of the promising research directions toward the task where both estimated pose and ground truth pose data are used for training. Existing pose lifting works mainly focus on improving the performance of estimated pose, but they usually underperform when testing on the ground truth pose data. We observe that the performance of the estimated pose can be easily improved by preparing good quality 2D pose, such as fine-tuning the 2D pose or using advanced 2D pose detectors. As such, we concentrate on improving the 3D human pose lifting via ground truth data for the future improvement of more quality estimated pose data. Towards this goal, a simple yet effective model called Global-local Adaptive Graph Convolutional Network (GLA-GCN) is proposed in this work. Our GLA-GCN globally models the spatiotemporal structure via a graph representation and backtraces local joint features for 3D human pose estimation via individually connected layers. To validate our model design, we conduct extensive experiments on three benchmark datasets: Human3.6M, HumanEva-I, and MPI-INF-3DHP. Experimental results show that our GLA-GCN implemented with ground truth 2D poses significantly outperforms state-of-the-art methods (e.g., up to around 3%, 17%, and 14% error reductions on Human3.6M, HumanEva-I, and MPI-INF-3DHP, respectively). GitHub: https://github.com/bruceyo/GLA-GCN.
翻訳日:2023-07-25 20:16:54 公開日:2023-07-22
# CAT-ViL:ロボット手術における視覚的質問応答のための共同注意型視覚言語埋め込み

CAT-ViL: Co-Attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery ( http://arxiv.org/abs/2307.05182v2 )

ライセンス: Link先を確認
Long Bai, Mobarakol Islam, Hongliang Ren(参考訳) 医学生やジュニア外科医は、手術を学ぶ際に、上級外科医や専門医に質問に答える。 しかし、専門家はしばしば臨床や学術的な研究に忙しく、指導する時間はほとんどない。 一方、既存のディープラーニング(DL)ベースの手術用視覚質問応答システム(VQA)では、答えの場所を指定せずに簡単な回答しか得られない。 加えて、視覚言語(ViL)の埋め込みは、この種のタスクでは研究されていない研究である。 したがって、VQLA(Visual Question Localized-Answering)システムは、医学生やジュニア外科医が記録された手術ビデオから学び、理解するのに役立ちます。 本稿では,VQLA を外科的シナリオに組み込んだコAttention gaTed Vision-Language (CAT-ViL) を用いたエンドツーエンド変換器を提案する。 CAT-ViL組み込みモジュールは、視覚的およびテキストソースからのマルチモーダル機能を融合するよう設計されている。 融合埋め込みは、結合予測のための並列分類器と検出器の前に、標準データ効率のよいイメージトランスフォーマー(deit)モジュールを供給する。 我々は,MICCAI EndoVis Challenge 2017と2018の公開手術ビデオに対する実験的検証を行った。 実験の結果,提案モデルの性能とロバスト性は,最先端のアプローチと比較して高い評価を得た。 アブレーション研究は、提案された全てのコンポーネントの優れた性能をさらに証明している。 提案手法は,外科的シーン理解のための有望なソリューションを提供し,外科的訓練のための人工知能(AI)ベースのVQLAシステムにおける第一歩を開拓する。 私たちのコードは公開されています。

Medical students and junior surgeons often rely on senior surgeons and specialists to answer their questions when learning surgery. However, experts are often busy with clinical and academic work, and have little time to give guidance. Meanwhile, existing deep learning (DL)-based surgical Visual Question Answering (VQA) systems can only provide simple answers without the location of the answers. In addition, vision-language (ViL) embedding is still a less explored research in these kinds of tasks. Therefore, a surgical Visual Question Localized-Answering (VQLA) system would be helpful for medical students and junior surgeons to learn and understand from recorded surgical videos. We propose an end-to-end Transformer with the Co-Attention gaTed Vision-Language (CAT-ViL) embedding for VQLA in surgical scenarios, which does not require feature extraction through detection models. The CAT-ViL embedding module is designed to fuse multimodal features from visual and textual sources. The fused embedding will feed a standard Data-Efficient Image Transformer (DeiT) module, before the parallel classifier and detector for joint prediction. We conduct the experimental validation on public surgical videos from MICCAI EndoVis Challenge 2017 and 2018. The experimental results highlight the superior performance and robustness of our proposed model compared to the state-of-the-art approaches. Ablation studies further prove the outstanding performance of all the proposed components. The proposed method provides a promising solution for surgical scene understanding, and opens up a primary step in the Artificial Intelligence (AI)-based VQLA system for surgical training. Our code is publicly available.
翻訳日:2023-07-25 20:15:58 公開日:2023-07-22
# disco-bench: 言語モデリングのための談話認識評価ベンチマーク

Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling ( http://arxiv.org/abs/2307.08074v2 )

ライセンス: Link先を確認
Longyue Wang, Zefeng Du, Donghuai Liu, Deng Cai, Dian Yu, Haiyun Jiang, Yan Wang, Leyang Cui, Shuming Shi, Zhaopeng Tu(参考訳) 談話のモデル化 - 個々の文を超えた言語現象は、自然言語処理(NLP)の基本的かつ挑戦的な側面である。 しかし、既存の評価ベンチマークは主に文間特性の評価に焦点が当てられ、文章を横断する批判的な談話現象を見落としている。 このギャップを埋めるため,多種多様なNLPタスクを対象とし,理解,翻訳,生成を網羅した文内談話特性の評価が可能なベンチマークであるDisco-Benchを提案する。 disco-benchは文学領域の9つの文書レベルのテストセットで構成されており、中国語と英語の豊富な談話現象(例えば、コヒーレンスとコヒーレンス)を含んでいる。 言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートも設計する。 我々は、Transformer、高度な事前学習アーキテクチャ、大規模言語モデル(LLM)に基づいて、20の汎用、ドメイン内および商用モデルを評価する。 その結果,(1)評価ベンチマークの課題と必要性,(2)文章レベルのトレーニングデータに基づくきめ細かい事前学習は,談話情報のモデリングを一貫して改善していることがわかった。 私たちはデータセット、事前トレーニングされたモデル、そしてleaderboardをリリースします。この分野の研究を著しく促進できることを願っています。 https://github.com/longyuewangdcu/disco-bench。

Modeling discourse -- the linguistic phenomena that go beyond individual sentences, is a fundamental yet challenging aspect of natural language processing (NLP). However, existing evaluation benchmarks primarily focus on the evaluation of inter-sentence properties and overlook critical discourse phenomena that cross sentences. To bridge the gap, we propose Disco-Bench, a benchmark that can evaluate intra-sentence discourse properties across a diverse set of NLP tasks, covering understanding, translation, and generation. Disco-Bench consists of 9 document-level testsets in the literature domain, which contain rich discourse phenomena (e.g. cohesion and coherence) in Chinese and/or English. For linguistic analysis, we also design a diagnostic test suite that can examine whether the target models learn discourse knowledge. We totally evaluate 20 general-, in-domain and commercial models based on Transformer, advanced pretraining architectures and large language models (LLMs). Our results show (1) the challenge and necessity of our evaluation benchmark; (2) fine-grained pretraining based on literary document-level training data consistently improves the modeling of discourse information. We will release the datasets, pretrained models, and leaderboard, which we hope can significantly facilitate research in this field: https://github.com/longyuewangdcu/Disco-Bench.
翻訳日:2023-07-25 20:06:27 公開日:2023-07-22
# フレキシブルな時系列モデリングを目指して:ランク回帰によるニューラルネットワークの最適化

Towards Flexible Time-to-event Modeling: Optimizing Neural Networks via Rank Regression ( http://arxiv.org/abs/2307.08044v2 )

ライセンス: Link先を確認
Hyunjun Lee, Junhyun Lee, Taehwa Choi, Jaewoo Kang, Sangbum Choi(参考訳) 生存時間分析(英: time-to-event analysis)または生存時間分析(英: survivor analysis)は、一連の特徴からイベントの発生時期を予測することを目的としている。 この領域における大きな課題の1つは、検閲されたデータを扱うことであり、学習アルゴリズムをより複雑にすることができる。 coxの比例ハザードモデルやaft(accelerated failure time)モデルのような従来の手法はこの分野では人気があるが、比例ハザードや線形性といった仮定を必要とすることが多い。 特に、AFTモデルは、しばしば事前に特定されたパラメトリック分布の仮定を必要とする。 予測性能の向上と厳密な仮定の緩和のために,近年,ハザードモデルに対する深層学習アプローチが数多く行われている。 しかし、AFTの表現学習は、ハザードに着目した手法と比較して、その単純さと解釈性にもかかわらず、ニューラルネットワークの文献では広く研究されていない。 本稿では,DART(Time-to-event Prediction)のためのDeep AFT Rank-regressionモデルを提案する。 このモデルは、表現学習に効率的で信頼性の高いgehan's rank statisticに基づく客観的関数を用いる。 DARTは、ベースラインのイベント時間分布を確立する必要をなくすだけでなく、標準のAFTモデルでイベント時間を直接予測する利点を保っている。 提案手法は, 生存時間分布に分布的仮定を課さない, aftモデルへの半パラメトリックなアプローチである。 これにより、既存のニューラルネットワークベースのATTモデルとは異なり、追加のハイパーパラメータや複雑なモデルアーキテクチャの必要性もなくなる。 様々なベンチマークデータセットの定量的分析により、DARTは高スループットの検閲された時系列データをモデル化する大きな可能性を示唆している。

Time-to-event analysis, also known as survival analysis, aims to predict the time of occurrence of an event, given a set of features. One of the major challenges in this area is dealing with censored data, which can make learning algorithms more complex. Traditional methods such as Cox's proportional hazards model and the accelerated failure time (AFT) model have been popular in this field, but they often require assumptions such as proportional hazards and linearity. In particular, the AFT models often require pre-specified parametric distributional assumptions. To improve predictive performance and alleviate strict assumptions, there have been many deep learning approaches for hazard-based models in recent years. However, representation learning for AFT has not been widely explored in the neural network literature, despite its simplicity and interpretability in comparison to hazard-focused methods. In this work, we introduce the Deep AFT Rank-regression model for Time-to-event prediction (DART). This model uses an objective function based on Gehan's rank statistic, which is efficient and reliable for representation learning. On top of eliminating the requirement to establish a baseline event time distribution, DART retains the advantages of directly predicting event time in standard AFT models. The proposed method is a semiparametric approach to AFT modeling that does not impose any distributional assumptions on the survival time distribution. This also eliminates the need for additional hyperparameters or complex model architectures, unlike existing neural network-based AFT models. Through quantitative analysis on various benchmark datasets, we have shown that DART has significant potential for modeling high-throughput censored time-to-event data.
翻訳日:2023-07-25 20:06:02 公開日:2023-07-22
# AspectCSE:コントラスト学習と構造化知識を用いたアスペクトベースの意味的テクスチャ類似性のための文埋め込み

AspectCSE: Sentence Embeddings for Aspect-based Semantic Textual Similarity using Contrastive Learning and Structured Knowledge ( http://arxiv.org/abs/2307.07851v2 )

ライセンス: Link先を確認
Tim Schopf, Emanuel Gerber, Malte Ostendorff, Florian Matthes(参考訳) 総称文埋め込みは意味的テキストの類似性の粗い近似を提供するが、テキストを類似させる特定の側面を無視する。 逆にアスペクトベースの文埋め込みは、特定の事前定義されたアスペクトに基づいたテキスト間の類似性を提供する。 したがって、テキストの類似性予測は特定の要求に向けられ、より説明しやすい。 本稿では,アスペクトに基づく文埋め込みのコントラスト学習手法であるAspectCSEを提案する。 その結果,AspectCSEは,複数の側面にわたる情報検索タスクの平均3.97%の改善を実現していることがわかった。 また、ウィキデータ知識グラフ特性を用いて、類似性予測において複数の特定の側面が同時に考慮されるマルチアスペクト文埋め込みのモデルを訓練する。 マルチアスペクト埋め込みはアスペクト固有の情報検索タスクにおける単一アスペクト埋め込みよりも優れていることを示す。 最後に、アスペクトに基づく文埋め込み空間を調べ、異なるアスペクトラベル間の明示的な類似性トレーニングなしにも、意味的に類似したアスペクトラベルの埋め込みがしばしば近いことを実証する。

Generic sentence embeddings provide a coarse-grained approximation of semantic textual similarity but ignore specific aspects that make texts similar. Conversely, aspect-based sentence embeddings provide similarities between texts based on certain predefined aspects. Thus, similarity predictions of texts are more targeted to specific requirements and more easily explainable. In this paper, we present AspectCSE, an approach for aspect-based contrastive learning of sentence embeddings. Results indicate that AspectCSE achieves an average improvement of 3.97% on information retrieval tasks across multiple aspects compared to the previous best results. We also propose using Wikidata knowledge graph properties to train models of multi-aspect sentence embeddings in which multiple specific aspects are simultaneously considered during similarity predictions. We demonstrate that multi-aspect embeddings outperform single-aspect embeddings on aspect-specific information retrieval tasks. Finally, we examine the aspect-based sentence embedding space and demonstrate that embeddings of semantically similar aspect labels are often close, even without explicit similarity training between different aspect labels.
翻訳日:2023-07-25 20:05:30 公開日:2023-07-22
# クラウドゲームのためのニューラルビデオリカバリ

Neural Video Recovery for Cloud Gaming ( http://arxiv.org/abs/2307.07847v2 )

ライセンス: Link先を確認
Zhaoyuan He, Yifan Yang, Shuozhe Li, Diyuan Dai, Lili Qiu(参考訳) クラウドゲームは数十億ドルの産業だ。 クラウドゲームのクライアントは、その動きをインターネット上のゲームサーバに送信し、その結果のビデオのレンダリングと送信を行う。 優れたゲーム体験を提供するには、80ms未満のレイテンシが必要である。 これは、ビデオレンダリング、エンコーディング、トランスミッション、デコード、ディスプレイがその時間枠内で終了しなければならないことを意味しており、特にサーバの過負荷、ネットワークの混雑、損失のために達成が困難である。 本稿では,クラウドゲームにおいて,失われたビデオフレームを復元する新しい手法を提案する。 従来のビデオフレームリカバリとは異なり,本手法ではゲーム状態を用いて復元精度を大幅に向上し,部分復号化フレームを用いて失われた部分を復元する。 我々は、総合的なシステムを開発する。 (i)ゲーム状態の効率的な抽出 (ii)h.264ビデオデコーダを改造して、フレームのどの部分が回復を必要とするかを示すマスクを生成し、 (iii)完全または部分的な映像フレームを復元する新しいニューラルネットワークを設計すること。 提案手法は,iPhone 12およびラップトップ実装を用いて広範に評価され,ゲーム再生におけるゲーム状態の有用性と全体的な設計の有効性を実証する。

Cloud gaming is a multi-billion dollar industry. A client in cloud gaming sends its movement to the game server on the Internet, which renders and transmits the resulting video back. In order to provide a good gaming experience, a latency below 80 ms is required. This means that video rendering, encoding, transmission, decoding, and display have to finish within that time frame, which is especially challenging to achieve due to server overload, network congestion, and losses. In this paper, we propose a new method for recovering lost or corrupted video frames in cloud gaming. Unlike traditional video frame recovery, our approach uses game states to significantly enhance recovery accuracy and utilizes partially decoded frames to recover lost portions. We develop a holistic system that consists of (i) efficiently extracting game states, (ii) modifying H.264 video decoder to generate a mask to indicate which portions of video frames need recovery, and (iii) designing a novel neural network to recover either complete or partial video frames. Our approach is extensively evaluated using iPhone 12 and laptop implementations, and we demonstrate the utility of game states in the game video recovery and the effectiveness of our overall design.
翻訳日:2023-07-25 20:05:13 公開日:2023-07-22
# 読み理解モデルのための相対位置ラベルを用いたヘテロジニアスグラフとエンティティ認識自己照合の統合

Integrating a Heterogeneous Graph with Entity-aware Self-attention using Relative Position Labels for Reading Comprehension Model ( http://arxiv.org/abs/2307.10443v2 )

ライセンス: Link先を確認
Shima Foolad and Kourosh Kiani(参考訳) 機械読解タスクにおけるトランスフォーマーモデルによる著しい進歩にもかかわらず、入力シーケンスに明示的な知識がないため、複雑な推論タスクの処理には不足している。 この制限に対処するため、最近の多くの研究がモデルに外部知識を注入することを提案した。 しかし、関連する外部知識の選択、可用性の確保、追加の処理ステップの要求は依然として困難である。 本稿では,異種グラフからの推論知識を外部知識に頼ることなくトランスフォーマーアーキテクチャに統合する新しい注意パターンを提案する。 提案する注目パターンは, 単語トークンに対するグローバルな注意, 未接続のトークンとは対照的に, グラフ内のトークンに対して強い関心を示すエンティティトークンに対するグラフの注意, 各エンティティトークンとワードトークンの関係のタイプを考慮した3つの重要な要素から構成される。 この結果、関係が存在する場合、両者の間に最適な注意が向けられる。 このパターンは特別な相対的な位置ラベルと結合されており、LUKEのエンティティ対応の自己認識機構と統合することができる。 実験結果から,我々のモデルは,コモンセンス推論に着目したReCoRDデータセット上で,最先端のLUKE-GraphとベースラインのLUKEモデルの両方より優れていることがわかった。

Despite the significant progress made by transformer models in machine reading comprehension tasks, they still fall short in handling complex reasoning tasks due to the absence of explicit knowledge in the input sequence. To address this limitation, many recent works have proposed injecting external knowledge into the model. However, selecting relevant external knowledge, ensuring its availability, and requiring additional processing steps remain challenging. In this paper, we introduce a novel attention pattern that integrates reasoning knowledge derived from a heterogeneous graph into the transformer architecture without relying on external knowledge. The proposed attention pattern comprises three key elements: global-local attention for word tokens, graph attention for entity tokens that exhibit strong attention towards tokens connected in the graph as opposed to those unconnected, and the consideration of the type of relationship between each entity token and word token. This results in optimized attention between the two if a relationship exists. The pattern is coupled with special relative position labels, allowing it to integrate with LUKE's entity-aware self-attention mechanism. The experimental findings corroborate that our model outperforms both the cutting-edge LUKE-Graph and the baseline LUKE model on the ReCoRD dataset that focuses on commonsense reasoning.
翻訳日:2023-07-25 19:58:44 公開日:2023-07-22
# 道路セグメントの推奨維持のための意思決定枠組み

A Decision Making Framework for Recommended Maintenance of Road Segments ( http://arxiv.org/abs/2307.10085v2 )

ライセンス: Link先を確認
Haoyu Sun, Yan Yan(参考訳) グローバルな道路交通の急速な発展に伴い、世界中の国が道路網の建設を完了した。 しかし、それに続く課題は既存の道路の整備にある。 国が道路整備計画に限られた予算を割り当てること、道路管理部門が科学的にインフォームドされた整備決定を行うのが困難であることはよく知られている。 そのため、様々な人工知能の意思決定技術を統合して、過去の保守データを徹底的に調査し、道路整備の科学的意思決定の文脈に適応させることが緊急問題となっている。 この統合の目的は、道路管理部門により多くの科学的ツールと意思決定の証拠を提供することである。 本稿では,主に以下の4つの課題に対処する枠組みを提案する。 1)各種経路の舗装性能の予測 2 維持経路の優先順位の決定 3 過去の保守効果の評価及び総合的技術・管理指標の検討に基づく保守決定を行うこと。 4) 保守効果及び推奨保守効果に基づいて、保守区間の優先順位を決定すること。 これら4つの問題に対処することにより、限られた資金と歴史的な保守管理経験を考慮して、最適な保守計画とメンテナンスセクションのインテリジェントな意思決定を可能にする。

With the rapid development of global road transportation, countries worldwide have completed the construction of road networks. However, the ensuing challenge lies in the maintenance of existing roads. It is well-known that countries allocate limited budgets to road maintenance projects, and road management departments face difficulties in making scientifically informed maintenance decisions. Therefore, integrating various artificial intelligence decision-making techniques to thoroughly explore historical maintenance data and adapt them to the context of road maintenance scientific decision-making has become an urgent issue. This integration aims to provide road management departments with more scientific tools and evidence for decision-making. The framework proposed in this paper primarily addresses the following four issues: 1) predicting the pavement performance of various routes, 2) determining the prioritization of maintenance routes, 3) making maintenance decisions based on the evaluation of the effects of past maintenance, and considering comprehensive technical and management indicators, and 4) determining the prioritization of maintenance sections based on the maintenance effectiveness and recommended maintenance effectiveness. By tackling these four problems, the framework enables intelligent decision-making for the optimal maintenance plan and maintenance sections, taking into account limited funding and historical maintenance management experience.
翻訳日:2023-07-25 19:57:44 公開日:2023-07-22
# マルチグラインドトピー分析法による肥育性の提案に関する実証的研究

An Empirical Study on Fertility Proposals Using Multi-Grained Topic Analysis Methods ( http://arxiv.org/abs/2307.10025v2 )

ライセンス: Link先を確認
Yulin Zhou(参考訳) 出生率の問題は人口安全保障と密接に関連しており、60年ぶりに中国の人口がマイナス成長傾向の中で初めて、出生率政策の変化が地域社会にとって大きな関心事となっている。 2023年「2件のセッション」提案は、「法律の形式による国、婚姻制限の取り消しの登記の誕生」を示唆している。この話題はかつてインターネット上でホットな話題であり、出生登録と婚姻の関係を「解き放つ」ことが社会的な議論の焦点となっている。 本稿では,マイクロブログコメントの多粒性意味分析を行うために,共起意味分析,話題分析,感情分析を採用する。 婚姻制限を出生登録から外す」という提案については、個人、社会、国家を3次元で議論し、個人の行動、社会倫理、法、国家政策などの社会問題に詳述し、多くの話題において人々の感情は否定的であるように思われる。 これに基づき、政府の意思決定の参考となる8つの提案がなされ、政治問題に関する世論調査のための参考方法が確立された。

Fertility issues are closely related to population security, in 60 years China's population for the first time in a negative growth trend, the change of fertility policy is of great concern to the community. 2023 "two sessions" proposal "suggests that the country in the form of legislation, the birth of the registration of the cancellation of the marriage restriction" This topic was once a hot topic on the Internet, and "unbundling" the relationship between birth registration and marriage has become the focus of social debate. In this paper, we adopt co-occurrence semantic analysis, topic analysis and sentiment analysis to conduct multi-granularity semantic analysis of microblog comments. It is found that the discussion on the proposal of "removing marriage restrictions from birth registration" involves the individual, society and the state at three dimensions, and is detailed into social issues such as personal behaviour, social ethics and law, and national policy, with people's sentiment inclined to be negative in most of the topics. Based on this, eight proposals were made to provide a reference for governmental decision making and to form a reference method for researching public opinion on political issues.
翻訳日:2023-07-25 19:57:28 公開日:2023-07-22
# 大規模言語モデルを用いた数学的導出の生成

Generating Mathematical Derivations with Large Language Models ( http://arxiv.org/abs/2307.09998v2 )

ライセンス: Link先を確認
Jordan Meadows, Marco Valentino, Andre Freitas(参考訳) 大規模言語モデル(llms)を用いた専門分野における数学的結果の導出は、モデルの限界を識別し、潜在的に数学的発見を支援する新たな研究方向である。 本稿では,記号エンジンを用いて大規模方程式の導出を行い,目的方程式を前提から導出する際の LLM の機能について検討する。 具体的には,事前学習戦略の頑健さと一般化を特殊化モデルと比較するため,GPTの文脈内学習とT5モデルの微調整を行う。 実験結果から,flan-t5-large (matht5) はgptモデルに絶対的性能で勝っていることがわかった。 しかし、詳細な分析により、微調整されたモデルは、見当たらない記号を含む摂動や(より少ない範囲で)方程式構造の変化に対してより敏感であることが明らかになった。 さらに、1.7kの方程式と200以上の導出を解析し、不正確で無関係で冗長な方程式を含むような一般的な推論誤差と導出ステップをスキップする傾向を強調する。 最後に, 摂動に対する感度などの一般的な特性を捉える一方で, 微粒な推論誤差やモデル間の本質的な相違を明らかにすることに失敗する証拠を, 数学的導出を評価するための既存の指標の適合性について検討する。 全体として、この研究は、合成データのトレーニングモデルがより大きなアーキテクチャを超える数学的能力を向上させることを実証している。

The derivation of mathematical results in specialised fields using Large Language Models (LLMs) is an emerging research direction that can help identify models' limitations, and potentially support mathematical discovery. In this paper, we leverage a symbolic engine to generate derivations of equations at scale, and investigate the capabilities of LLMs when deriving goal equations from premises. Specifically, we employ in-context learning for GPT and fine-tune a range of T5 models to compare the robustness and generalisation of pre-training strategies to specialised models. Empirical results show that fine-tuned FLAN-T5-large (MathT5) outperforms GPT models on all static and out-of-distribution test sets in terms of absolute performance. However, an in-depth analysis reveals that the fine-tuned models are more sensitive to perturbations involving unseen symbols and (to a lesser extent) changes to equation structure. In addition, we analyse 1.7K equations and over 200 derivations to highlight common reasoning errors such as the inclusion of incorrect, irrelevant, and redundant equations, along with the tendency to skip derivation steps. Finally, we explore the suitability of existing metrics for evaluating mathematical derivations finding evidence that, while they capture general properties such as sensitivity to perturbations, they fail to highlight fine-grained reasoning errors and essential differences between models. Overall, this work demonstrates that training models on synthetic data can improve their mathematical capabilities beyond larger architectures.
翻訳日:2023-07-25 19:57:03 公開日:2023-07-22
# セキュアなマルチパーティ計算によるプライバシ保全型シンボリックレグレッション

Towards Vertical Privacy-Preserving Symbolic Regression via Secure Multiparty Computation ( http://arxiv.org/abs/2307.11756v1 )

ライセンス: Link先を確認
Du Nguyen Duy, Michael Affenzeller, Ramin-Nikzad Langerodi(参考訳) 記号回帰は、入力変数と興味の対象との関係を説明する数学的表現を探索する強力なデータ駆動手法である。 その効率性と柔軟性から、遺伝的プログラミングは記号回帰の標準的な探索技術と見なすことができる。 しかし、従来の遺伝的プログラミングアルゴリズムでは、すべてのデータを中央の場所に格納する必要があるため、データのプライバシとセキュリティに関する懸念が高まるため、必ずしも実現不可能である。 プライバシ保護研究は最近進歩しており、この問題に対する解決策を提供するかもしれない。 さらに, 既存の作業は水平分割設定のみに焦点を当てているが, もう一つの一般的なシナリオである垂直分割設定は未だ検討されていない。 本稿では,セキュアなマルチパーティ計算(Secure Multiparty Computation)と呼ばれるプライバシ保護技術を用いて,個人データを明らかにすることなく,縦型シナリオでシンボル回帰モデルを共同構築する手法を提案する。 予備実験の結果,提案手法はデータプライバシを保護しつつ,集中型ソリューションに同等の性能を提供することがわかった。

Symbolic Regression is a powerful data-driven technique that searches for mathematical expressions that explain the relationship between input variables and a target of interest. Due to its efficiency and flexibility, Genetic Programming can be seen as the standard search technique for Symbolic Regression. However, the conventional Genetic Programming algorithm requires storing all data in a central location, which is not always feasible due to growing concerns about data privacy and security. While privacy-preserving research has advanced recently and might offer a solution to this problem, their application to Symbolic Regression remains largely unexplored. Furthermore, the existing work only focuses on the horizontally partitioned setting, whereas the vertically partitioned setting, another popular scenario, has yet to be investigated. Herein, we propose an approach that employs a privacy-preserving technique called Secure Multiparty Computation to enable parties to jointly build Symbolic Regression models in the vertical scenario without revealing private data. Preliminary experimental results indicate that our proposed method delivers comparable performance to the centralized solution while safeguarding data privacy.
翻訳日:2023-07-25 19:45:26 公開日:2023-07-22
# 大規模学習率トレーニングの不安定性--ロスランドスケープの展望

The instabilities of large learning rate training: a loss landscape view ( http://arxiv.org/abs/2307.11948v1 )

ライセンス: Link先を確認
Lawrence Wang and Stephen Roberts(参考訳) 現代のニューラルネットワークは間違いなく成功している。 多くの研究が、損失景観の曲率が溶液の質に与える影響について研究している。 本研究では,大きな学習率を持つネットワークトレーニングにおいて,ヘッセン行列を考慮した損失景観について検討する。 勾配降下の不安定性を特徴とし,その不安定性と密接な関係にある \textit{landscape flattening} と \textit{landscape shift} の驚くべき現象を観察した。

Modern neural networks are undeniably successful. Numerous works study how the curvature of loss landscapes can affect the quality of solutions. In this work we study the loss landscape by considering the Hessian matrix during network training with large learning rates - an attractive regime that is (in)famously unstable. We characterise the instabilities of gradient descent, and we observe the striking phenomena of \textit{landscape flattening} and \textit{landscape shift}, both of which are intimately connected to the instabilities of training.
翻訳日:2023-07-25 18:59:39 公開日:2023-07-22
# 構造的欠落データを用いた線形モデルの協調学習

Collaboratively Learning Linear Models with Structured Missing Data ( http://arxiv.org/abs/2307.11947v1 )

ライセンス: Link先を確認
Chen Cheng, Gary Cheng, John Duchi(参考訳) エージェントの最小二乗推定を協調的に学習する問題について検討する。 各エージェントは、様々な解像度のセンサーから収集されたデータを含む機能$\unicode{x2013}$の異なるサブセットを観察します。 私たちの目標は、エージェントごとに最適な推定器を生成するためにエージェントの調整方法を決定することです。 本研究では,局所学習,集約,分散の3つのステップからなる,半教師付き分散アルゴリズムcollabを提案する。 当社の手順ではラベル付きデータを通信する必要はなく,ラベル付きデータがアクセス不能な設定で効率的かつ有用な通信を行う。 このハンディキャップにもかかわらず、我々の手順はほぼ漸近的に局所的なミニマックス最適$\unicode{x2013}$evenである。 我々はこの手法を実データと合成データでテストする。

We study the problem of collaboratively learning least squares estimates for $m$ agents. Each agent observes a different subset of the features$\unicode{x2013}$e.g., containing data collected from sensors of varying resolution. Our goal is to determine how to coordinate the agents in order to produce the best estimator for each agent. We propose a distributed, semi-supervised algorithm Collab, consisting of three steps: local training, aggregation, and distribution. Our procedure does not require communicating the labeled data, making it communication efficient and useful in settings where the labeled data is inaccessible. Despite this handicap, our procedure is nearly asymptotically local minimax optimal$\unicode{x2013}$even among estimators allowed to communicate the labeled data such as imputation methods. We test our method on real and synthetic data.
翻訳日:2023-07-25 18:59:29 公開日:2023-07-22
# 不整合衝突による絡み合いの促進

Enhancement of Entanglement via Incoherent Collisions ( http://arxiv.org/abs/2307.11964v1 )

ライセンス: Link先を確認
Xihua Yang, Mingfei Cheng, and Min Xiao(参考訳) In contrast to the general thought that the collisions are intrinsically dephasing in nature and detrimental to quantum entanglement at room or higher temperatures, here, we show that in the conventional ladder-type three-level electromagnetically induced transparency (EIT) configuration, when the probe field intensity is not very weak as compared to the pump field, the entanglement between the bright pump and probe fields can be remarkably enhanced with the increase of the collisional decay rates in a moderate range in an inhomogeneously-broadened atomic system. 強化された絡み合いは、構築的干渉の増大と、一光子と多光子遷移経路間の破壊的干渉の抑制から生じる。 実験結果から, この衝突は, 室温以上での絡み合いを増大させる有望な代替手段であり, 実験的な実装に非常に便利であり, 現実的な量子計算や量子情報処理における新たな展望と応用が開けられていることが明らかとなった。

In contrast to the general thought that the collisions are intrinsically dephasing in nature and detrimental to quantum entanglement at room or higher temperatures, here, we show that in the conventional ladder-type three-level electromagnetically induced transparency (EIT) configuration, when the probe field intensity is not very weak as compared to the pump field, the entanglement between the bright pump and probe fields can be remarkably enhanced with the increase of the collisional decay rates in a moderate range in an inhomogeneously-broadened atomic system. The strengthened entanglement results from the enhancement of constructive interference and suppression of destructive interference between one-photon and multi-photon transition pathways. Our results clearly indicate that the collisions offer a promising alternative to enhance entanglement at room or higher temperatures despite of the dephasing nature, which provides great convenience for experimental implementation, and opens new prospects and applications in realistic quantum computation and quantum information processing.
翻訳日:2023-07-25 18:50:47 公開日:2023-07-22
# MIMONet:マルチ入力マルチ出力オンデバイスディープラーニング

MIMONet: Multi-Input Multi-Output On-Device Deep Learning ( http://arxiv.org/abs/2307.11962v1 )

ライセンス: Link先を確認
Zexin Li, Xiaoxi He, Yufei Li, Shahab Nikkhoo, Wei Yang, Lothar Thiele, and Cong Liu(参考訳) 将来のインテリジェントロボットは、複数の入力(画像や音声データなど)を同時に処理し、人間のように複数の出力(性別や感情など)を生成することが期待されている。 近年の研究では、マルチインプットシングルアウトプット(MISO)ディープニューラルネットワーク(DNN)が従来のシングルインプットシングルアウトプット(SISO)モデルより優れていることが示されており、この目標に向けた重要なステップとなっている。 本稿では,待ち時間,エネルギ,メモリ使用量などの重要なパフォーマンス指標を用いて,高精度かつデバイス上での効率を実現する新しいマルチインプットマルチアウトプット(MIMO)DNNフレームワークMIMONetを提案する。 MIMONetは既存のSISOモデル圧縮技術を活用し、MIMOモデルに特化された新しいディープ圧縮手法を開発した。 この手法はMIMOモデルの特異な非自明な特性を探索し、精度の向上とデバイス上での効率向上をもたらす。 ロボットシステムで一般的に使用される3つの組込みプラットフォームに関する広範囲な実験と、TurtleBot3ロボットを用いたケーススタディにより、MIMONetは最先端のSISOモデルやMIISOモデルや、構築したベースラインMIMOモデルよりも精度が高く、デバイス上での効率が優れていることが示された。 本評価では,MIMONETの現実的適用性と,知的ロボットシステムの性能向上の可能性を強調した。

Future intelligent robots are expected to process multiple inputs simultaneously (such as image and audio data) and generate multiple outputs accordingly (such as gender and emotion), similar to humans. Recent research has shown that multi-input single-output (MISO) deep neural networks (DNN) outperform traditional single-input single-output (SISO) models, representing a significant step towards this goal. In this paper, we propose MIMONet, a novel on-device multi-input multi-output (MIMO) DNN framework that achieves high accuracy and on-device efficiency in terms of critical performance metrics such as latency, energy, and memory usage. Leveraging existing SISO model compression techniques, MIMONet develops a new deep-compression method that is specifically tailored to MIMO models. This new method explores unique yet non-trivial properties of the MIMO model, resulting in boosted accuracy and on-device efficiency. Extensive experiments on three embedded platforms commonly used in robotic systems, as well as a case study using the TurtleBot3 robot, demonstrate that MIMONet achieves higher accuracy and superior on-device efficiency compared to state-of-the-art SISO and MISO models, as well as a baseline MIMO model we constructed. Our evaluation highlights the real-world applicability of MIMONet and its potential to significantly enhance the performance of intelligent robotic systems.
翻訳日:2023-07-25 18:50:33 公開日:2023-07-22
# フォノンによるマグノン-スピン相互作用の量子パラメトリック増幅

Quantum parametric amplifiation of phonon-mediated magnon-spin interaction ( http://arxiv.org/abs/2307.11961v1 )

ライセンス: Link先を確認
Yan Wang, Hui-Lai Zhang, Jin-Lei Wu, Jie Song, Kun Yang, Wei Qin, Hui Jing, Le-Man Kuang(参考訳) 最近開発されたハイブリッドマグノニクスは、磁性の研究と量子情報処理の発展の両方に新たな機会をもたらす。 しかしながら、マグノンと特定の情報キャリア、特に機械振動子と固体スピンの間の工学的コヒーレントな量子状態伝達は、本質的に弱い相互作用と拡散成分間の周波数ミスマッチのため、依然として困難である。 本稿では,ナノマグネット中のマグノンモードとマイクロメカニカルカンチレバーの量子化機械運動(フォノン)をハイブリッド三成分系で強結合する方法を示す。 メカニカルモーションの量子パラメトリック増幅を導入することにより、コヒーレントで強化されたマグノンフォノンカップリングを実現する。 実験可能なパラメータを用いて, 機械式パラメトリック駆動により, 強結合機構や超強結合機構へシステムを動かすことができることを示した。 さらに, 分散結合系におけるナノマグネットと窒素空孔中心間のコヒーレントな状態移動と, 実質的に励起されたフォノンを介するマグノン-スピン相互作用を示す。 増幅された機械的ノイズは、低い機械的品質要因であってもシステムのコヒーレントな力学をほとんど妨げないため、追加の工学的貯留層技術を適用する必要がなくなる。 我々の研究は、新しい量子トランスデューサ、量子メモリ、高精度測定の開発の可能性を開く。

The recently developed hybrid magnonics provides new opportunities for advances in both the study of magnetism and the development of quantum information processing. However, engineering coherent quantum state transfer between magnons and specific information carriers, in particular, mechanical oscillators and solid-state spins, remains challenging due to the intrinsically weak interactions and the frequency mismatch between diffrent components. Here, we show how to strongly couple the magnon modes in a nanomagnet to the quantized mechanical motion (phonons) of a micromechanical cantilever in a hybrid tripartite system. The coherent and enhanced magnon-phonon coupling is engineered by introducing the quantum parametric amplifiation of the mechanical motion. With experimentally feasible parameters, we show that the mechanical parametric drive can be adjusted to drive the system into the strong-coupling regime and even the ultrastrong-coupling regime. Furthermore, we show the coherent state transfer between the nanomagnet and a nitrogen-vacancy center in the dispersive-coupling regime, with the magnon-spin interaction mediated by the virtually-excited squeezed phonons. The amplifid mechanical noise can hardly interrupt the coherent dynamics of the system even for low mechanical quality factors, which removes the requirement of applying additional engineered-reservoir techniques. Our work opens up prospects for developing novel quantum transducers, quantum memories and high-precision measurements.
翻訳日:2023-07-25 18:50:05 公開日:2023-07-22
# dhc:クラス不均衡半教師付き医用画像セグメンテーションのための2自由度異種共同学習フレームワーク

DHC: Dual-debiased Heterogeneous Co-training Framework for Class-imbalanced Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2307.11960v1 )

ライセンス: Link先を確認
Haonan Wang and Xiaomeng Li(参考訳) 3次元医用画像のボリュームワイドラベリングは専門知識と時間を要するため、限定ラベル付きデータによるトレーニングには半教師付き学習(SSL)が非常に望ましい。 不均衡なクラス分布は、これらの手法の現実的な応用をボトルネックにする深刻な問題であるが、あまり対処されなかった。 本稿では, この問題を解決するために, 半教師付き3次元医用画像セグメンテーションのための新しいDHCフレームワークを提案する。 具体的には、DistDW(Dis Distribution-aware Debiased Weighting)とDiffDW(Difficulty-aware Debiased Weighting)の2つの損失重み付け戦略を提案する。 このフレームワークは、これら2つの多様性と正確なサブモデルを共同でトレーニングすることで、大幅に改善される。 また、クラス不均衡な半教師付き医用画像セグメンテーションのための代表的ベンチマークも導入し、クラス不均衡設計の有効性を実証する。 提案手法は,疑似ラベルを用いたクラス不均衡問題の解消と緩和により,大幅な改善をもたらすことを示す。 さらに重要なことに、我々のメソッドは最先端のSSLメソッドよりも優れており、より難しいSSL設定のためのフレームワークの可能性を示しています。 コードとモデルは、https://github.com/xmed-lab/dhcで入手できる。

The volume-wise labeling of 3D medical images is expertise-demanded and time-consuming; hence semi-supervised learning (SSL) is highly desirable for training with limited labeled data. Imbalanced class distribution is a severe problem that bottlenecks the real-world application of these methods but was not addressed much. Aiming to solve this issue, we present a novel Dual-debiased Heterogeneous Co-training (DHC) framework for semi-supervised 3D medical image segmentation. Specifically, we propose two loss weighting strategies, namely Distribution-aware Debiased Weighting (DistDW) and Difficulty-aware Debiased Weighting (DiffDW), which leverage the pseudo labels dynamically to guide the model to solve data and learning biases. The framework improves significantly by co-training these two diverse and accurate sub-models. We also introduce more representative benchmarks for class-imbalanced semi-supervised medical image segmentation, which can fully demonstrate the efficacy of the class-imbalance designs. Experiments show that our proposed framework brings significant improvements by using pseudo labels for debiasing and alleviating the class imbalance problem. More importantly, our method outperforms the state-of-the-art SSL methods, demonstrating the potential of our framework for the more challenging SSL setting. Code and models are available at: https://github.com/xmed-lab/DHC.
翻訳日:2023-07-25 18:49:41 公開日:2023-07-22
# anatomy-aware connection classifier による冠動脈のトポロジー保存自動標識

Topology-Preserving Automatic Labeling of Coronary Arteries via Anatomy-aware Connection Classifier ( http://arxiv.org/abs/2307.11959v1 )

ライセンス: Link先を確認
Zhixing Zhang, Ziwei Zhao, Dong Wang, Shishuang Zhao, Yuhang Liu, Jia Liu, Liwei Wang(参考訳) 冠動脈の自動ラベリングは、心血管疾患の実用的な診断プロセスにおいて必須の課題である。 経験豊富な放射線学者にとって、解剖学的に規定された接続は動脈セグメントの正確なラベル付けに重要である。 本稿では,ネットワーク設計に解剖学的接続を明示的に組み込んだTopoLabという新しいフレームワークを提案する。 具体的には,階層的セグメント特徴抽出のために,セグメント内特徴集合とセグメント間特徴相互作用の戦略を導入する。 さらに,各連結セグメントペアの分類を可能にし,異なるカテゴリの動脈の先行トポロジーを効果的に活用する解剖学・アウェア接続分類器を提案する。 本手法の有効性を検証するため,動脈ラベルの高品質アノテーションをパブリック orCaScore データセットに提供した。 orCaScoreデータセットと社内データセットの両方の実験結果は、TopoLabが最先端のパフォーマンスを達成したことを示している。

Automatic labeling of coronary arteries is an essential task in the practical diagnosis process of cardiovascular diseases. For experienced radiologists, the anatomically predetermined connections are important for labeling the artery segments accurately, while this prior knowledge is barely explored in previous studies. In this paper, we present a new framework called TopoLab which incorporates the anatomical connections into the network design explicitly. Specifically, the strategies of intra-segment feature aggregation and inter-segment feature interaction are introduced for hierarchical segment feature extraction. Moreover, we propose the anatomy-aware connection classifier to enable classification for each connected segment pair, which effectively exploits the prior topology among the arteries with different categories. To validate the effectiveness of our method, we contribute high-quality annotations of artery labeling to the public orCaScore dataset. The experimental results on both the orCaScore dataset and an in-house dataset show that our TopoLab has achieved state-of-the-art performance.
翻訳日:2023-07-25 18:49:04 公開日:2023-07-22
# 最高の事前訓練モデルを選ぶ:医用画像セグメンテーションの伝達可能性推定に向けて

Pick the Best Pre-trained Model: Towards Transferability Estimation for Medical Image Segmentation ( http://arxiv.org/abs/2307.11958v1 )

ライセンス: Link先を確認
Yuncheng Yang, Meng Wei, Junjun He, Jie Yang, Jin Ye, Yun Gu(参考訳) トランスファー学習は、膨大なリソースを必要とする医用画像分割タスクのために深層ニューラルネットワークを訓練するための重要な技術である。 医療画像データが豊富にあるため、多くの研究機関は様々なデータセットでトレーニングされたモデルをリリースし、候補となるソースモデルの巨大なプールを形成できる。 したがって、適切なモデル再利用のために、ソースモデルの転送可能性(すなわち、異なる下流タスクをまたいで一般化する能力)を見積もることが不可欠である。 そこで本稿では,医療画像分割に転送学習を適用する際にその不足を補うために,新しい転送可能性推定法を提案する。 まず,既存のteアルゴリズムを用いた医用画像セグメンテーションの欠点を分析した上で,クラス一貫性と特徴量の両方を考慮したソースフリーなteフレームワークを設計した。 広範な実験により,本手法は医用画像分割におけるトランスファビリティ推定の現在のアルゴリズムを超越することを示した。 コードはhttps://github.com/EndoluminalSurgicalVision-IMR/CCFVで公開されている。

Transfer learning is a critical technique in training deep neural networks for the challenging medical image segmentation task that requires enormous resources. With the abundance of medical image data, many research institutions release models trained on various datasets that can form a huge pool of candidate source models to choose from. Hence, it's vital to estimate the source models' transferability (i.e., the ability to generalize across different downstream tasks) for proper and efficient model reuse. To make up for its deficiency when applying transfer learning to medical image segmentation, in this paper, we therefore propose a new Transferability Estimation (TE) method. We first analyze the drawbacks of using the existing TE algorithms for medical image segmentation and then design a source-free TE framework that considers both class consistency and feature variety for better estimation. Extensive experiments show that our method surpasses all current algorithms for transferability estimation in medical image segmentation. Code is available at https://github.com/EndoluminalSurgicalVision-IMR/CCFV
翻訳日:2023-07-25 18:48:35 公開日:2023-07-22
# 重要度認識更新のインシシト解釈

Implicit Interpretation of Importance Weight Aware Updates ( http://arxiv.org/abs/2307.11955v1 )

ライセンス: Link先を確認
Keyi Chen and Francesco Orabona(参考訳) そのスピードと単純さから、subgradient descendはconvex機械学習アルゴリズムで最もよく使われる最適化アルゴリズムの1つである。 しかし、学習率の調整は、一貫性のある優れたパフォーマンスを達成する上で、おそらく最も深刻なボトルネックである。 学習率への依存性を減らす一般的な方法は、暗黙的/近近的更新を使用することである。 そのようなバリエーションの1つはIWA(Importance Weight Aware)アップデートであり、各損失関数の無限小更新を無限に行う。 しかし、IWA更新の実証的な成功は、その理論によって完全には説明できない。 本稿では,IWA 更新がオンライン学習環境における通常の勾配更新よりも,過度に残念な点が多いことを初めて示す。 我々の分析は、一般化された暗黙的更新(FTRL)(Chen and Orabona, 2023)に基づいて、一般化された暗黙的更新を二重定式化を用いて解析する。 特に,IWA更新を暗黙的/近近的更新とみなすことができた。

Due to its speed and simplicity, subgradient descent is one of the most used optimization algorithms in convex machine learning algorithms. However, tuning its learning rate is probably its most severe bottleneck to achieve consistent good performance. A common way to reduce the dependency on the learning rate is to use implicit/proximal updates. One such variant is the Importance Weight Aware (IWA) updates, which consist of infinitely many infinitesimal updates on each loss function. However, IWA updates' empirical success is not completely explained by their theory. In this paper, we show for the first time that IWA updates have a strictly better regret upper bound than plain gradient updates in the online learning setting. Our analysis is based on the new framework, generalized implicit Follow-the-Regularized-Leader (FTRL) (Chen and Orabona, 2023), to analyze generalized implicit updates using a dual formulation. In particular, our results imply that IWA updates can be considered as approximate implicit/proximal updates.
翻訳日:2023-07-25 18:47:51 公開日:2023-07-22
# pomdpのためのロボットベイズ強化学習

On-Robot Bayesian Reinforcement Learning for POMDPs ( http://arxiv.org/abs/2307.11954v1 )

ライセンス: Link先を確認
Hai Nguyen, Sammie Katt, Yuchen Xiao, Christopher Amato(参考訳) データ収集の費用がかかるため、ロボット学習は難しいことが多い。 大量のデータを必要とすることは、効果的なアルゴリズムに対処し、ロボット力学のエキスパート情報を活用することができる。 ベイズ強化学習(英: Bayesian reinforcement learning, BRL)は、そのサンプル効率と事前知識を活用する能力により、そのような解法として一意に位置づけられている。 残念ながら、BRLの応用は専門家の知識を表現できないことや、その後の推論問題の解決に限られている。 本稿では,物理システムのための特殊なフレームワークを提案することにより,ロボット工学のBRLを推し進める。 特に、この知識を因子表現として捉え、後続因子化を同様の形で示し、最終的にベイズ的枠組みでモデルを定式化する。 次にモンテカルロ木探索と粒子フィルタリングに基づくサンプルベースのオンライン解法を提案する。 このアプローチは、例えば、典型的な低レベルのロボットシミュレータを使用し、環境の未知のダイナミクスに対する不確実性を扱うことができる。 我々は,人間の行動に不確実性のある2つのロボットインタラクションタスクにおいてロボットによるオン・ロボット学習を実行し,ほんの数回の実世界のエピソードの後にほぼ最適に近いパフォーマンスを達成することで,その効率を実証する。 学習したポリシーのビデオはhttps://youtu.be/H9xp60ngOesにある。

Robot learning is often difficult due to the expense of gathering data. The need for large amounts of data can, and should, be tackled with effective algorithms and leveraging expert information on robot dynamics. Bayesian reinforcement learning (BRL), thanks to its sample efficiency and ability to exploit prior knowledge, is uniquely positioned as such a solution method. Unfortunately, the application of BRL has been limited due to the difficulties of representing expert knowledge as well as solving the subsequent inference problem. This paper advances BRL for robotics by proposing a specialized framework for physical systems. In particular, we capture this knowledge in a factored representation, then demonstrate the posterior factorizes in a similar shape, and ultimately formalize the model in a Bayesian framework. We then introduce a sample-based online solution method, based on Monte-Carlo tree search and particle filtering, specialized to solve the resulting model. This approach can, for example, utilize typical low-level robot simulators and handle uncertainty over unknown dynamics of the environment. We empirically demonstrate its efficiency by performing on-robot learning in two human-robot interaction tasks with uncertainty about human behavior, achieving near-optimal performance after only a handful of real-world episodes. A video of learned policies is at https://youtu.be/H9xp60ngOes.
翻訳日:2023-07-25 18:47:18 公開日:2023-07-22
# 生存率予測のための病理・ゲノムマルチモーダルトランス

Pathology-and-genomics Multimodal Transformer for Survival Outcome Prediction ( http://arxiv.org/abs/2307.11952v1 )

ライセンス: Link先を確認
Kexin Ding, Mu Zhou, Dimitris N. Metaxas, and Shaoting Zhang(参考訳) 生存結果の評価は困難であり、がんにおける複数の臨床因子(例えば、イメージングとゲノムバイオマーカー)と本質的に関連している。 マルチモーダル分析の実施は、患者結果の新しい予測パターンを明らかにすることを約束する。 本研究では,大腸癌生存予測に病理学とゲノム学的知見を統合したマルチモーダルトランスフォーマー(PathOmics)を提案する。 我々は、ギガピクセル全体のスライド画像(WSI)と幅広いゲノムデータ(mRNA配列、コピー数変異、メチル化など)の組織ミクロ環境間の本質的な相互作用を捉えるための教師なし事前訓練を強調した。 事前学習におけるマルチモーダル知識集約の後、タスク固有のモデル微調整により、マルチモーダルデータと単一モーダルデータの両方に適用可能なデータユーティリティの範囲を広げることができる。 tcga結腸と直腸癌のコホートに対するアプローチを評価し,提案手法が最先端の研究に匹敵することを示した。 最後に, 生存率予測のためのデータ効率の高い分析手法として, 限られた数の微調整サンプルを利用することが望ましい。 コードはhttps://github.com/Cassie07/PathOmicsで入手できる。

Survival outcome assessment is challenging and inherently associated with multiple clinical factors (e.g., imaging and genomics biomarkers) in cancer. Enabling multimodal analytics promises to reveal novel predictive patterns of patient outcomes. In this study, we propose a multimodal transformer (PathOmics) integrating pathology and genomics insights into colon-related cancer survival prediction. We emphasize the unsupervised pretraining to capture the intrinsic interaction between tissue microenvironments in gigapixel whole slide images (WSIs) and a wide range of genomics data (e.g., mRNA-sequence, copy number variant, and methylation). After the multimodal knowledge aggregation in pretraining, our task-specific model finetuning could expand the scope of data utility applicable to both multi- and single-modal data (e.g., image- or genomics-only). We evaluate our approach on both TCGA colon and rectum cancer cohorts, showing that the proposed approach is competitive and outperforms state-of-the-art studies. Finally, our approach is desirable to utilize the limited number of finetuned samples towards data-efficient analytics for survival outcome prediction. The code is available at https://github.com/Cassie07/PathOmics.
翻訳日:2023-07-25 18:46:54 公開日:2023-07-22
# HIQL: オフラインのゴールコンディションRLと遅延状態のアクション

HIQL: Offline Goal-Conditioned RL with Latent States as Actions ( http://arxiv.org/abs/2307.11949v1 )

ライセンス: Link先を確認
Seohong Park, Dibya Ghosh, Benjamin Eysenbach, Sergey Levine(参考訳) 教師なし事前学習はコンピュータビジョンと自然言語処理の基盤となっている。 強化学習(RL)において、ゴール条件付きRLは、大量のラベルなし(リワードフリー)データを利用するための類似した自己教師付きアプローチを提供する可能性がある。 しかし, 多様なオフラインデータから直接学習できるゴール条件付きRLの効率的なアルゴリズムの構築は困難であり, 遠方目標の正確な値関数を正確に推定することは困難である。 それでも、目標達成問題は、遠くの目標に達するには、まず近いサブゴールを通過する必要がある構造を示す。 この構造は非常に有用であり、近くの目標に対する行動の質を評価することは、通常より遠い目標よりも容易である。 この考えに基づき、オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。 1つのアクションフリーバリュー関数を使用して、この構造を活用可能な2つのポリシーを学習する。 状態をアクションとして扱うハイレベルポリシと、このサブゴールに到達するためのアクションを予測する低レベルポリシ(潜在表現)です。 分析とディダクティックな例を通して,この階層的分解により,推定値関数の雑音に対して頑健になることを示す。 そこで,本手法をオフラインゴール取得ベンチマークに適用し,従来の手法を精査し,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に活用できることを示す。 私たちのコードはhttps://seohong.me/projects/hiql/で利用可能です。

Unsupervised pre-training has recently become the bedrock for computer vision and natural language processing. In reinforcement learning (RL), goal-conditioned RL can potentially provide an analogous self-supervised approach for making use of large quantities of unlabeled (reward-free) data. However, building effective algorithms for goal-conditioned RL that can learn directly from diverse offline data is challenging, because it is hard to accurately estimate the exact value function for faraway goals. Nonetheless, goal-reaching problems exhibit structure, such that reaching distant goals entails first passing through closer subgoals. This structure can be very useful, as assessing the quality of actions for nearby goals is typically easier than for more distant goals. Based on this idea, we propose a hierarchical algorithm for goal-conditioned RL from offline data. Using one action-free value function, we learn two policies that allow us to exploit this structure: a high-level policy that treats states as actions and predicts (a latent representation of) a subgoal and a low-level policy that predicts the action for reaching this subgoal. Through analysis and didactic examples, we show how this hierarchical decomposition makes our method robust to noise in the estimated value function. We then apply our method to offline goal-reaching benchmarks, showing that our method can solve long-horizon tasks that stymie prior methods, can scale to high-dimensional image observations, and can readily make use of action-free data. Our code is available at https://seohong.me/projects/hiql/
翻訳日:2023-07-25 18:46:32 公開日:2023-07-22
# 選択的セマンティックグルーピングによる形態的インスパイアされた非教師なしグランドセグメンテーション

Morphology-inspired Unsupervised Gland Segmentation via Selective Semantic Grouping ( http://arxiv.org/abs/2307.11989v1 )

ライセンス: Link先を確認
Qixiang Zhang, Yi Li, Cheng Xue, Xiaomeng Li(参考訳) 腺のセグメンテーションのためのディープラーニングアルゴリズムの設計は、がんの自動診断と予後に不可欠であるが、高価なアノテーションコストは、この技術の開発と応用を妨げる。 本稿では,手作業によるアノテーションの不要な非教師なし腺分節の深層学習法を初めて検討する。 既存の教師なしのセマンティクスセグメンテーション手法は、腺画像を多くの画分に過剰にセグメンテーションするか、腺領域を背景と混同して下セグメンテーションするかという大きな課題に直面する。 この課題を克服するために、我々の重要な洞察は、分節過程を導くための余分な知識として腺の形態に関する経験的手がかりを導入することである。 そこで本稿では,Selective Semantic Grouping を用いた新しい形態学インスピレーション手法を提案する。 まず経験的キューを利用して, 異なる外観の腺亜領域の提案を選択的にマイニングする。 次に、そのサブリージョンの提案の意味を明示的にグループ化し、腺に関する全体情報を要約するために形態認識意味グループ化モジュールを用いる。 このようにして、最終的なセグメンテーションネットワークは、腺に関する包括的知識を学習し、適切に記述された完全な予測を生成することができる。 GlaSデータセットとCRAGデータセットの実験を行った。 この方法はmIOUで10.56%を超える2番目に高い。

Designing deep learning algorithms for gland segmentation is crucial for automatic cancer diagnosis and prognosis, yet the expensive annotation cost hinders the development and application of this technology. In this paper, we make a first attempt to explore a deep learning method for unsupervised gland segmentation, where no manual annotations are required. Existing unsupervised semantic segmentation methods encounter a huge challenge on gland images: They either over-segment a gland into many fractions or under-segment the gland regions by confusing many of them with the background. To overcome this challenge, our key insight is to introduce an empirical cue about gland morphology as extra knowledge to guide the segmentation process. To this end, we propose a novel Morphology-inspired method via Selective Semantic Grouping. We first leverage the empirical cue to selectively mine out proposals for gland sub-regions with variant appearances. Then, a Morphology-aware Semantic Grouping module is employed to summarize the overall information about the gland by explicitly grouping the semantics of its sub-region proposals. In this way, the final segmentation network could learn comprehensive knowledge about glands and produce well-delineated, complete predictions. We conduct experiments on GlaS dataset and CRAG dataset. Our method exceeds the second-best counterpart over 10.56% at mIOU.
翻訳日:2023-07-25 18:40:31 公開日:2023-07-22
# Sparse then Prune: 効率的な視覚変換器を目指して

Sparse then Prune: Toward Efficient Vision Transformers ( http://arxiv.org/abs/2307.11988v1 )

ライセンス: Link先を確認
Yogi Prasetyo, Novanto Yudistira, Agus Wahyu Widodo(参考訳) vision transformer architectureは、自然言語処理におけるtransformerモデルの成功に触発されたディープラーニングモデルである。 しかし、自己照準機構やパラメータの多さ、大量のトレーニングデータの必要性などにより、視覚トランスフォーマーは計算量的に負担がかかる。 本研究では,視覚変換器にスパース正規化を適用する可能性や,スパース正規化後のプルーニングが性能と効率のトレードオフに与える影響について検討する。 そこで我々は,CIFAR-10,CIFAR-100,ImageNet-100データセット上の画像分類タスクに対して,スパース正規化とプルーニングをVision Transformerアーキテクチャに適用した。 視覚トランスフォーマーモデルのトレーニングプロセスは、事前トレーニングと微調整の2つの部分からなる。 事前トレーニングはimagenet21kデータを使用し、その後20エポックの微調整を行う。 CIFAR-100とImageNet-100のデータを用いてテストすると、スパース正規化モデルでは精度が0.12%向上することを示した。 さらに、スパース正規化モデルにプルーニングを適用すると、さらによい結果が得られる。 具体的には、スパース正規化のないプルーニングモデルと比較して、CIFAR-10データの平均精度を0.568%、CIFAR-100データで1.764%、ImageNet-100データで0.256%向上させる。 https://github.com/yogiprsty/Sparse-ViT

The Vision Transformer architecture is a deep learning model inspired by the success of the Transformer model in Natural Language Processing. However, the self-attention mechanism, large number of parameters, and the requirement for a substantial amount of training data still make Vision Transformers computationally burdensome. In this research, we investigate the possibility of applying Sparse Regularization to Vision Transformers and the impact of Pruning, either after Sparse Regularization or without it, on the trade-off between performance and efficiency. To accomplish this, we apply Sparse Regularization and Pruning methods to the Vision Transformer architecture for image classification tasks on the CIFAR-10, CIFAR-100, and ImageNet-100 datasets. The training process for the Vision Transformer model consists of two parts: pre-training and fine-tuning. Pre-training utilizes ImageNet21K data, followed by fine-tuning for 20 epochs. The results show that when testing with CIFAR-100 and ImageNet-100 data, models with Sparse Regularization can increase accuracy by 0.12%. Furthermore, applying pruning to models with Sparse Regularization yields even better results. Specifically, it increases the average accuracy by 0.568% on CIFAR-10 data, 1.764% on CIFAR-100, and 0.256% on ImageNet-100 data compared to pruning models without Sparse Regularization. Code can be accesed here: https://github.com/yogiprsty/Sparse-ViT
翻訳日:2023-07-25 18:40:06 公開日:2023-07-22
# 専門知識認識画像差グラフ表現学習による医用ビジュアル質問応答

Expert Knowledge-Aware Image Difference Graph Representation Learning for Difference-Aware Medical Visual Question Answering ( http://arxiv.org/abs/2307.11986v1 )

ライセンス: Link先を確認
Xinyue Hu, Lin Gu, Qiyuan An, Mengliang Zhang, Liangchen Liu, Kazuma Kobayashi, Tatsuya Harada, Ronald M. Summers, Yingying Zhu(参考訳) 医用視覚言語モデルの自動化に寄与するため,新しいケストX線差分視覚質問応答(VQA)タスクを提案する。 1対の主画像と参照画像が与えられたこのタスクは、疾患と、さらに重要なのは、両者の違いに関するいくつかの質問に答えようとしている。 これは、報告を結論付ける前に現在の画像と参照を比較する放射線科医の診断慣行と一致している。 我々は164,324対の主画像と参照画像から700,703対のQAペアを含むMIMIC-Diff-VQAという新しいデータセットを収集した。 既存の医療用VQAデータセットと比較して,臨床専門医が使用する評価・診断・介入・評価処理に適合する。 また,この課題に対処するために,新たな知識認識グラフ表現学習モデルを提案する。 提案するベースラインモデルは, 解剖学的構造, 意味, 空間的知識などの専門知識を利用して, 画像差分VQAタスクの2つの画像間の画像差を表す多関係グラフを構築する。 データセットとコードはhttps://github.com/Holipori/MIMIC-Diff-VQAで見ることができる。 この研究が医療ビジョン言語モデルをさらに前進させるだろうと考えています。

To contribute to automating the medical vision-language model, we propose a novel Chest-Xray Difference Visual Question Answering (VQA) task. Given a pair of main and reference images, this task attempts to answer several questions on both diseases and, more importantly, the differences between them. This is consistent with the radiologist's diagnosis practice that compares the current image with the reference before concluding the report. We collect a new dataset, namely MIMIC-Diff-VQA, including 700,703 QA pairs from 164,324 pairs of main and reference images. Compared to existing medical VQA datasets, our questions are tailored to the Assessment-Diagnosis-Intervention-Evaluation treatment procedure used by clinical professionals. Meanwhile, we also propose a novel expert knowledge-aware graph representation learning model to address this task. The proposed baseline model leverages expert knowledge such as anatomical structure prior, semantic, and spatial knowledge to construct a multi-relationship graph, representing the image differences between two images for the image difference VQA task. The dataset and code can be found at https://github.com/Holipori/MIMIC-Diff-VQA. We believe this work would further push forward the medical vision language model.
翻訳日:2023-07-25 18:39:41 公開日:2023-07-22
# YouTubeビデオによる視覚・言語ナビゲーションの学習

Learning Vision-and-Language Navigation from YouTube Videos ( http://arxiv.org/abs/2307.11984v1 )

ライセンス: Link先を確認
Kunyang Lin, Peihao Chen, Diwei Huang, Thomas H. Li, Mingkui Tan, Chuang Gan(参考訳) 視覚言語ナビゲーション(VLN)は、自然言語命令を用いて現実的な3D環境をナビゲートするために、エンボディエージェントを必要とする。 既存のVLNメソッドは、小規模環境や不合理なパス命令データセットのトレーニングに悩まされ、一般化を目に見えない環境に制限する。 YouTubeには大量のハウスツアービデオがあり、豊富なナビゲーション体験とレイアウト情報を提供している。 しかしながら、これらのビデオはVLNのために探索されていない。 本稿では,ハウスツアービデオから合理的なパスインストラクションペアを含む大規模データセットを作成し,エージェントを事前学習することにより,これらのビデオからエージェントを学習することを提案する。 これを実現するためには、パス命令ペアを自動的に構築し、生ビデオや未ラベルビデオから実際のレイアウト知識を活用するという課題に取り組む必要がある。 これらの問題に対処するために,まずエントロピー法を用いて経路軌道のノードを構築する。 次に,ラベルなしのトラジェクタから命令を生成するアクションアウェア生成器を提案する。 最後に、エージェントがレイアウトの知識をマイニングするよう促すために、軌跡判断前提タスクを考案する。 実験の結果,提案手法は2つのベンチマーク(R2RとREVERIE)の最先端性能を実現することがわかった。 コードはhttps://github.com/JeremyLinky/YouTube-VLNで入手できる。

Vision-and-language navigation (VLN) requires an embodied agent to navigate in realistic 3D environments using natural language instructions. Existing VLN methods suffer from training on small-scale environments or unreasonable path-instruction datasets, limiting the generalization to unseen environments. There are massive house tour videos on YouTube, providing abundant real navigation experiences and layout information. However, these videos have not been explored for VLN before. In this paper, we propose to learn an agent from these videos by creating a large-scale dataset which comprises reasonable path-instruction pairs from house tour videos and pre-training the agent on it. To achieve this, we have to tackle the challenges of automatically constructing path-instruction pairs and exploiting real layout knowledge from raw and unlabeled videos. To address these, we first leverage an entropy-based method to construct the nodes of a path trajectory. Then, we propose an action-aware generator for generating instructions from unlabeled trajectories. Last, we devise a trajectory judgment pretext task to encourage the agent to mine the layout knowledge. Experimental results show that our method achieves state-of-the-art performance on two popular benchmarks (R2R and REVERIE). Code is available at https://github.com/JeremyLinky/YouTube-VLN
翻訳日:2023-07-25 18:39:20 公開日:2023-07-22
# 属性付きネットワーク埋め込みのためのコラボレーティブグラフニューラルネットワーク

Collaborative Graph Neural Networks for Attributed Network Embedding ( http://arxiv.org/abs/2307.11981v1 )

ライセンス: Link先を確認
Qiaoyu Tan, Xin Zhang, Xiao Huang, Hao Chen, Jundong Li, and Xia Hu(参考訳) グラフニューラルネットワーク(GNN)は、属性付きネットワーク埋め込みにおいて顕著な性能を示している。 しかし、既存の取り組みは主にネットワーク構造の利用に焦点を当てているが、ノード属性の活用は初期層でのみノード機能として機能するため、かなり制限されている。 この単純な戦略は、ノード接続を増強するノード属性の可能性を阻害し、近傍がほとんど、あるいは全くない非アクティブノードの受容野を制限している。 さらに、ほとんどのGNNのトレーニング目標(すなわちネットワーク構造再構築)にもノード属性は含まれていないが、ノード属性の再構築が有用であることが研究で示されている。 したがって、グラフ畳み込み操作やトレーニング目的を含むGNNの重要なコンポーネントに、ノード属性を深く関与させることが推奨されている。 しかし、GNNのメリットを維持するためには適切な統合方法が必要であるため、これは簡単な作業である。 このギャップを埋めるために,我々は属性ネットワークの埋め込みに適したGNNアーキテクチャであるコラボレーティブグラフニューラルネットワーク-CONNを提案する。 モデルのキャパシティを向上させ 1)隣接するノードや関連属性カテゴリからのメッセージを選択的に拡散し、 2)相互相関によるノード-ノード間およびノード-属性間相互作用の協調再構築 実世界のネットワークでの実験では、CONNは最先端の埋め込みアルゴリズムを非常に優れていることを示した。

Graph neural networks (GNNs) have shown prominent performance on attributed network embedding. However, existing efforts mainly focus on exploiting network structures, while the exploitation of node attributes is rather limited as they only serve as node features at the initial layer. This simple strategy impedes the potential of node attributes in augmenting node connections, leading to limited receptive field for inactive nodes with few or even no neighbors. Furthermore, the training objectives (i.e., reconstructing network structures) of most GNNs also do not include node attributes, although studies have shown that reconstructing node attributes is beneficial. Thus, it is encouraging to deeply involve node attributes in the key components of GNNs, including graph convolution operations and training objectives. However, this is a nontrivial task since an appropriate way of integration is required to maintain the merits of GNNs. To bridge the gap, in this paper, we propose COllaborative graph Neural Networks--CONN, a tailored GNN architecture for attribute network embedding. It improves model capacity by 1) selectively diffusing messages from neighboring nodes and involved attribute categories, and 2) jointly reconstructing node-to-node and node-to-attribute-category interactions via cross-correlation. Experiments on real-world networks demonstrate that CONN excels state-of-the-art embedding algorithms with a great margin.
翻訳日:2023-07-25 18:39:00 公開日:2023-07-22
# 反復的グローバルトランスモデルを用いたMRIにおける任意レベルコントラスト線量のシミュレーション

Simulation of Arbitrary Level Contrast Dose in MRI Using an Iterative Global Transformer Model ( http://arxiv.org/abs/2307.11980v1 )

ライセンス: Link先を確認
Dayang Wang, Srivathsa Pasumarthi, Greg Zaharchuk, Ryan Chamberlain(参考訳) ガドリニウム系造影剤(GBCA)の除草効果を考えると,MRI画像における深層学習(DL)によるコントラスト線量減少と除去が牽引されている。 しかし、これらのDLアルゴリズムは高品質な低線量データセットの可用性によって制限されている。 さらに、GBCAと病理の異なるタイプは、DLアルゴリズムが確実に機能するために異なる線量レベルを必要とする。 本研究では, 異なる線量レベルに対応する任意のコントラスト強調値を持つ画像合成のための, 新たなトランスフォーマー(gformer)に基づく反復モデリング手法を提案する。 提案したGformerにはサブサンプリングに基づくアテンション機構と,様々なコントラストの特徴を捉える回転シフトモジュールが組み込まれている。 定量的評価は,提案手法が他の最先端手法よりも優れた性能を示す。 さらに, 線量削減や腫瘍分画などの下流課題の定量的評価を行い, 臨床的有用性を示す。

Deep learning (DL) based contrast dose reduction and elimination in MRI imaging is gaining traction, given the detrimental effects of Gadolinium-based Contrast Agents (GBCAs). These DL algorithms are however limited by the availability of high quality low dose datasets. Additionally, different types of GBCAs and pathologies require different dose levels for the DL algorithms to work reliably. In this work, we formulate a novel transformer (Gformer) based iterative modelling approach for the synthesis of images with arbitrary contrast enhancement that corresponds to different dose levels. The proposed Gformer incorporates a sub-sampling based attention mechanism and a rotational shift module that captures the various contrast related features. Quantitative evaluation indicates that the proposed model performs better than other state-of-the-art methods. We further perform quantitative evaluation on downstream tasks such as dose reduction and tumor segmentation to demonstrate the clinical utility.
翻訳日:2023-07-25 18:38:38 公開日:2023-07-22
# なぜ、視覚言語モデルのプロンプトチューニングはノイズの多いラベルに堅牢なのか?

Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels? ( http://arxiv.org/abs/2307.11978v1 )

ライセンス: Link先を確認
Cheng-En Wu, Yu Tian, Haichao Yu, Heng Wang, Pedro Morgado, Yu Hen Hu, Linjie Yang(参考訳) CLIPのようなビジョン言語モデルは、大規模なトレーニングデータから一般的なテキストイメージの埋め込みを学ぶ。 視覚言語モデルは、数発のプロンプトチューニングによって、新しい分類タスクに適応することができる。 このような迅速なチューニングプロセスは、ラベルノイズに対して非常に堅牢である。 このことが、プロンプトチューニングパラダイムの堅牢性に寄与する重要な理由を研究するきっかけになります。 我々は、この特性を探索し、重要な要素を見つけるために、広範な実験を行った。 1)固定クラス名トークンは、モデル最適化に強い正則化を提供し、ノイズサンプルによる勾配を減少させる。 2) 多様な汎用Webデータから学習した強力な事前学習済み画像テキスト埋め込みは,画像分類に強い事前知識を提供する。 さらに,CLIPのノイズゼロショット予測を用いてプロンプトを調整し,教師なし環境での予測精度を大幅に向上させることができることを示した。 コードはhttps://github.com/cewu/ptnlで入手できる。

Vision-language models such as CLIP learn a generic text-image embedding from large-scale training data. A vision-language model can be adapted to a new classification task through few-shot prompt tuning. We find that such a prompt tuning process is highly robust to label noises. This intrigues us to study the key reasons contributing to the robustness of the prompt tuning paradigm. We conducted extensive experiments to explore this property and find the key factors are: 1) the fixed classname tokens provide a strong regularization to the optimization of the model, reducing gradients induced by the noisy samples; 2) the powerful pre-trained image-text embedding that is learned from diverse and generic web data provides strong prior knowledge for image classification. Further, we demonstrate that noisy zero-shot predictions from CLIP can be used to tune its own prompt, significantly enhancing prediction accuracy in the unsupervised setting. The code is available at https://github.com/CEWu/PTNL.
翻訳日:2023-07-25 18:38:24 公開日:2023-07-22
# 双方向対話認識のための2ストリームマルチレベル動的点変換器

Two-stream Multi-level Dynamic Point Transformer for Two-person Interaction Recognition ( http://arxiv.org/abs/2307.11973v1 )

ライセンス: Link先を確認
Yao Liu, Gangfeng Cui, Jiahui Luo, Lina Yao and Xiaojun Chang(参考訳) 人間生活の基本的な側面として、2人の相互作用は、人々の活動、関係、社会的設定に関する意味のある情報を含んでいる。 ヒューマンアクション認識は多くのスマートアプリケーションの基礎となり、個人のプライバシーに重点を置いている。 しかし, 対人関係の認識は, 単対人行動に比べ, 身体閉塞や重なり合いの増加により, より多くの課題が生じる。 本稿では,2人インタラクション認識のための2ストリームマルチレベル動的ポイント変換器を提案する。 本モデルでは, 地域空間情報, 出現情報, 動き情報を取り込むことにより, 対人インタラクション認識の課題に対処した。 これを実現するために,IFS (Interval Frame Sampling) というフレーム選択方式を導入し,ビデオからフレームを効率的にサンプリングし,比較的短時間でより識別性の高い情報を収集する。 その後、フレームの特徴付けモジュールと、2ストリームのマルチレベル特徴集約モジュールは、サンプルフレームからグローバルかつ部分的な特徴を抽出し、その相互作用に関連する局所空間情報、外観情報、動き情報を効果的に表現する。 最後に,最終分類の学習特徴に対して自己注意を行うためにトランスフォーマを適用する。 NTU RGB+D 60とNTU RGB+D 120の相互作用サブセットである。 その結果,我々のネットワークは,すべての標準評価設定において最先端のアプローチを上回っていることがわかった。

As a fundamental aspect of human life, two-person interactions contain meaningful information about people's activities, relationships, and social settings. Human action recognition serves as the foundation for many smart applications, with a strong focus on personal privacy. However, recognizing two-person interactions poses more challenges due to increased body occlusion and overlap compared to single-person actions. In this paper, we propose a point cloud-based network named Two-stream Multi-level Dynamic Point Transformer for two-person interaction recognition. Our model addresses the challenge of recognizing two-person interactions by incorporating local-region spatial information, appearance information, and motion information. To achieve this, we introduce a designed frame selection method named Interval Frame Sampling (IFS), which efficiently samples frames from videos, capturing more discriminative information in a relatively short processing time. Subsequently, a frame features learning module and a two-stream multi-level feature aggregation module extract global and partial features from the sampled frames, effectively representing the local-region spatial information, appearance information, and motion information related to the interactions. Finally, we apply a transformer to perform self-attention on the learned features for the final classification. Extensive experiments are conducted on two large-scale datasets, the interaction subsets of NTU RGB+D 60 and NTU RGB+D 120. The results show that our network outperforms state-of-the-art approaches across all standard evaluation settings.
翻訳日:2023-07-25 18:38:12 公開日:2023-07-22
# 不変リスク最小化の分散最適性

Out-of-Distribution Optimality of Invariant Risk Minimization ( http://arxiv.org/abs/2307.11972v1 )

ライセンス: Link先を確認
Shoji Toyota, Kenji Fukumizu(参考訳) ディープニューラルネットワークは、トレーニングデータに埋め込まれたスプリアス相関を継承することが多いため、トレーニングデータを提供するためにドメインと異なる分布を持つ未発見領域への一般化に失敗する可能性がある。 M. Arjovsky et al. (2019) は、すべてのドメインの最大のリスクであるアウト・オブ・ディストリビューション(o.o.d.)リスクの概念を導入し、o.o.d.リスクの最小化問題として急激な相関による問題を定式化した。 不変リスク最小化(IRM)は、o.o.d.リスクを最小化するための有望なアプローチであると考えられている。 IRMは経験的成功でかなりの注目を集めているが、理論的な保証はほとんどない。 特に、二段階最適化問題がo.o.d.リスクの最小値を与えるという確固たる理論的保証はまだ確立されていない。 IRMの理論的正当性の提供を目的として、二段階最適化問題の解が特定の条件下でのo.o.d.リスクを最小限に抑えることを厳密に証明する。 この結果はまた、トレーニングデータを提供する分布や、o.o.d.リスクを最小限に抑えるために、双レベル最適化問題の特徴空間の次元に十分な条件を与える。

Deep Neural Networks often inherit spurious correlations embedded in training data and hence may fail to generalize to unseen domains, which have different distributions from the domain to provide training data. M. Arjovsky et al. (2019) introduced the concept out-of-distribution (o.o.d.) risk, which is the maximum risk among all domains, and formulated the issue caused by spurious correlations as a minimization problem of the o.o.d. risk. Invariant Risk Minimization (IRM) is considered to be a promising approach to minimize the o.o.d. risk: IRM estimates a minimum of the o.o.d. risk by solving a bi-level optimization problem. While IRM has attracted considerable attention with empirical success, it comes with few theoretical guarantees. Especially, a solid theoretical guarantee that the bi-level optimization problem gives the minimum of the o.o.d. risk has not yet been established. Aiming at providing a theoretical justification for IRM, this paper rigorously proves that a solution to the bi-level optimization problem minimizes the o.o.d. risk under certain conditions. The result also provides sufficient conditions on distributions providing training data and on a dimension of feature space for the bi-leveled optimization problem to minimize the o.o.d. risk.
翻訳日:2023-07-25 18:37:50 公開日:2023-07-22
# インテリジェントリモートセンシング画像品質検査システム

Intelligent Remote Sensing Image Quality Inspection System ( http://arxiv.org/abs/2307.11965v1 )

ライセンス: Link先を確認
Yijiong Yu, Tao Wang, Kang Ran, Chang Li and Hao Wu(参考訳) 遠隔センシング画像を実用化するには,品質検査が必要となる。 しかし、従来の手動検査手法は低効率である。 そこで本研究では,複数のモデルを組み合わせたリモートセンシング画像品質検査のための2段階知的システムを提案する。 その結果,提案手法は遠隔センシング画像の画質検査において優れた性能と効率を示し,その性能を上回っていることがわかった。 さらに,マルチモーダルモデルをリモートセンシング画像の画質検査に適用する可能性と可能性について,初期検討を行った。

Quality inspection is a necessary task before putting any remote sensing image into practical application. However, traditional manual inspection methods suffer from low efficiency. Hence, we propose a novel two-step intelligent system for remote sensing image quality inspection that combines multiple models, which first performs image classification and then employs the most appropriate methods to localize various forms of quality problems in the image. Results demonstrate that the proposed method exhibits excellent performance and efficiency in remote sensing image quality inspection, surpassing the performance of those one-step methods. Furthermore, we conduct an initial exploration of the feasibility and potential of applying multimodal models to remote sensing image quality inspection.
翻訳日:2023-07-25 18:37:24 公開日:2023-07-22
# 非相互結合を持つ非エルミート系のダイナミクス

Dynamics in non-Hermitian systems with nonreciprocal coupling ( http://arxiv.org/abs/2307.12021v1 )

ライセンス: Link先を確認
Jung-Wan Ryu(参考訳) 非相反結合を持つ非エルミート・ハミルトニアンは、ある種の固有源による外部利得なしに初期状態の増幅を実現できる。 複雑な固有状態と非直交固有状態の観点から、その源とその時間進化への影響について論じる。 2つの極端なハミルトニアンの例、すなわち直交固有状態を持つ複素固有ネルギと非直交固有状態を持つ実固有ネルギを持ち、複素固有ネルギからの増幅と非直交固有状態との差を解明する。

We reveal that non-Hermitian Hamiltonians with nonreciprocal coupling can achieve amplification of initial states without external gain due to a kind of inherent source. We discuss the source and its effect on time evolution in terms of complex eigenenergies and non-orthogonal eigenstates. Demonstrating two extreme cases of Hamiltonians, namely one having complex eigenenergies with orthogonal eigenstates and one having real eigenenergies with non-orthogonal eigenstates, we elucidate the differences between the amplifications from complex eigenenergies and from non-orthogonal eigenstates.
翻訳日:2023-07-25 18:29:49 公開日:2023-07-22
# 簡易パラメータフリー自己注意近似

Simple parameter-free self-attention approximation ( http://arxiv.org/abs/2307.12018v1 )

ライセンス: Link先を確認
Yuwen Zhai, Jing Hao, Liang Gao, Xinyu Li, Yiping Gao, Shumin Han(参考訳) 自己アテンションと畳み込みのハイブリッドモデルは、ViTを軽める方法の1つである。 トークン長に対する自己注意の2次計算複雑性は、エッジデバイス上でのViTの効率を制限する。 学習パラメータを持たない自己アテンション近似であるspsaを提案し,線形複雑性を持つ大域的な空間的特徴を捉えた。 spsaと畳み込みの併用効果を検証するため,画像分類と物体検出タスクに関する広範な実験を行った。

The hybrid model of self-attention and convolution is one of the methods to lighten ViT. The quadratic computational complexity of self-attention with respect to token length limits the efficiency of ViT on edge devices. We propose a self-attention approximation without training parameters, called SPSA, which captures global spatial features with linear complexity. To verify the effectiveness of SPSA combined with convolution, we conduct extensive experiments on image classification and object detection tasks.
翻訳日:2023-07-25 18:29:40 公開日:2023-07-22
# 多段階血糖値予測器のデータ駆動学習による人工膵のモデル予測制御(mpc)

Model Predictive Control (MPC) of an Artificial Pancreas with Data-Driven Learning of Multi-Step-Ahead Blood Glucose Predictors ( http://arxiv.org/abs/2307.12015v1 )

ライセンス: Link先を確認
Eleonora Maria Aiello, Mehrad Jaloli, Marzia Cescon(参考訳) 本稿では,リニア時間変動(ltv)モデル予測制御(mpc)フレームワークに統合されたデータ駆動マルチステップ・アヘッド血糖(bg)予測器を用いた1型糖尿病(t1d)に対するクローズドループインスリンデリバリーアルゴリズムの設計と評価について述べる。 グルコレギュレーションシステムのオープンループモデルを利用可能なデータから同定する代わりに,MPCで使用する予測水平線上でのBG予測全体を,過去の入力出力データの非線形関数と将来のインスリン制御入力のアフィン関数として直接適合させることを提案する。 非線形部分では,long short-term memory (lstm)ネットワークが提案され,アフィン成分では線形回帰モデルが選択される。 データから同定した自己回帰(ARX)入力モデルに基づく従来の線形MPCと比較して,1日3食という名目例,最近発行した食事生成装置で無作為な食事障害例,インスリン感受性の25$\%の低下例の3つのシミュレーションシナリオで,LSTM-MPCコントローラの有効性と欠点を評価した。 さらに,すべての症例において飼料前進食は投与されなかった。 For the more challenging random meal generation scenario, the mean $\pm$ standard deviation percent time in the range 70-180 [mg/dL] was 74.99 $\pm$ 7.09 vs. 54.15 $\pm$ 14.89, the mean $\pm$ standard deviation percent time in the tighter range 70-140 [mg/dL] was 47.78$\pm$8.55 vs. 34.62 $\pm$9.04, while the mean $\pm$ standard deviation percent time in sever hypoglycemia, i.e., $<$ 54 [mg/dl] was 1.00$\pm$3.18 vs. 9.45$\pm$11.71, for our proposed LSTM-MPC controller and the traditional ARX-MPC, respectively. 本手法は,MPCコントローラのグルコース濃度の予測精度と閉ループ性能を向上する。

We present the design and \textit{in-silico} evaluation of a closed-loop insulin delivery algorithm to treat type 1 diabetes (T1D) consisting in a data-driven multi-step-ahead blood glucose (BG) predictor integrated into a Linear Time-Varying (LTV) Model Predictive Control (MPC) framework. Instead of identifying an open-loop model of the glucoregulatory system from available data, we propose to directly fit the entire BG prediction over a predefined prediction horizon to be used in the MPC, as a nonlinear function of past input-ouput data and an affine function of future insulin control inputs. For the nonlinear part, a Long Short-Term Memory (LSTM) network is proposed, while for the affine component a linear regression model is chosen. To assess benefits and drawbacks when compared to a traditional linear MPC based on an auto-regressive with exogenous (ARX) input model identified from data, we evaluated the proposed LSTM-MPC controller in three simulation scenarios: a nominal case with 3 meals per day, a random meal disturbances case where meals were generated with a recently published meal generator, and a case with 25$\%$ decrease in the insulin sensitivity. Further, in all the scenarios, no feedforward meal bolus was administered. For the more challenging random meal generation scenario, the mean $\pm$ standard deviation percent time in the range 70-180 [mg/dL] was 74.99 $\pm$ 7.09 vs. 54.15 $\pm$ 14.89, the mean $\pm$ standard deviation percent time in the tighter range 70-140 [mg/dL] was 47.78$\pm$8.55 vs. 34.62 $\pm$9.04, while the mean $\pm$ standard deviation percent time in sever hypoglycemia, i.e., $<$ 54 [mg/dl] was 1.00$\pm$3.18 vs. 9.45$\pm$11.71, for our proposed LSTM-MPC controller and the traditional ARX-MPC, respectively. Our approach provided accurate predictions of future glucose concentrations and good closed-loop performances of the overall MPC controller.
翻訳日:2023-07-25 18:29:33 公開日:2023-07-22
# NLCUnet: ヘアラインを具体化した単一画像超解像ネットワーク

NLCUnet: Single-Image Super-Resolution Network with Hairline Details ( http://arxiv.org/abs/2307.12014v1 )

ライセンス: Link先を確認
Jiancong Feng, Yuan-Gen Wang, Fengchuang Xing(参考訳) 超解像度画像の正確な詳細を求めることは、単一画像の超解像度タスクでは難しい。 本稿では,3つのコア設計を含むヘアライン細部(NLCUnet)を有する単一画像超解像ネットワークを提案する。 具体的には、画像領域全体から学習することで、まず、局所的な注意機構を導入する。 そして、既存の作業でトレーニングされたぼやけたカーネルは不要であることがわかりました。 そこで本研究では,カーネル推定を曖昧にすることなく,奥行きの畳み込みをチャネルアテンションと統合することで,新たなネットワークアーキテクチャを構築した。 最後に、収穫された領域にできるだけ多くの意味情報を含ませるために、中央の512$\times$512の作物の中の64$\times$64の作物を、2Kサイズの画像全体の中で直接ランダムな作物の代わりに提案する。 ベンチマークDF2Kデータセットで行った多くの実験により、我々のNLCUnetはPSNRとSSIMの指標で最先端よりも優れており、視覚的に好意的なヘアラインの詳細が得られることが示された。

Pursuing the precise details of super-resolution images is challenging for single-image super-resolution tasks. This paper presents a single-image super-resolution network with hairline details (termed NLCUnet), including three core designs. Specifically, a non-local attention mechanism is first introduced to restore local pieces by learning from the whole image region. Then, we find that the blur kernel trained by the existing work is unnecessary. Based on this finding, we create a new network architecture by integrating depth-wise convolution with channel attention without the blur kernel estimation, resulting in a performance improvement instead. Finally, to make the cropped region contain as much semantic information as possible, we propose a random 64$\times$64 crop inside the central 512$\times$512 crop instead of a direct random crop inside the whole image of 2K size. Numerous experiments conducted on the benchmark DF2K dataset demonstrate that our NLCUnet performs better than the state-of-the-art in terms of the PSNR and SSIM metrics and yields visually favorable hairline details.
翻訳日:2023-07-25 18:28:58 公開日:2023-07-22
# scol : 椎体骨折評価スキャンによる腹部大動脈石灰化症に対する比較順序損失の検討

SCOL: Supervised Contrastive Ordinal Loss for Abdominal Aortic Calcification Scoring on Vertebral Fracture Assessment Scans ( http://arxiv.org/abs/2307.12006v1 )

ライセンス: Link先を確認
Afsah Saleem, Zaid Ilyas, David Suter, Ghulam Mubashar Hassan, Siobhan Reid, John T. Schousboe, Richard Prince, William D. Leslie, Joshua R. Lewis and Syed Zulqarnain Gilani(参考訳) 腹部大動脈石灰化症(AAC)は無症候性動脈硬化性心血管疾患(ASCVD)のマーカーとして知られている。 AACはDXA(Dual-Energy X-ray Absorptiometry)装置を用いて得られたVFAスキャンで観察できる。 したがって、VFA DXAスキャンにおけるAACの自動定量は、CVDのリスクをスクリーニングするために使われ、早期の介入が可能である。 本研究では,AACの量子化を順序回帰問題として定式化する。 本稿では,AACレグレッションラベルに固有の順序情報を活用するために,既存の教師付きコントラスト損失にラベル依存距離を組み込むことにより,SCOL(Supervised Contrastive Ordinal Loss)を提案する。 我々は,aac-24属間の潜在空間における特徴分離性とクラス多様性を改善するために,グローバルおよびローカルレベルでの対比順序表現を学ぶdcol(dcol)フレームワークを開発した。 2つの臨床VFA DXAスキャンデータセットを用いて,提案手法の性能評価を行い,現状の手法と比較した。 さらに,AACスコアの予測には,MACE(Major acute Cardiovascular Event)のリスクを予測するための臨床分析を行う。 その結果,この学習によりクラス間分離性が向上し,クラス内一貫性が向上し,高い感度と高い精度で高リスクのaacクラスを予測できることが分かった。

Abdominal Aortic Calcification (AAC) is a known marker of asymptomatic Atherosclerotic Cardiovascular Diseases (ASCVDs). AAC can be observed on Vertebral Fracture Assessment (VFA) scans acquired using Dual-Energy X-ray Absorptiometry (DXA) machines. Thus, the automatic quantification of AAC on VFA DXA scans may be used to screen for CVD risks, allowing early interventions. In this research, we formulate the quantification of AAC as an ordinal regression problem. We propose a novel Supervised Contrastive Ordinal Loss (SCOL) by incorporating a label-dependent distance metric with existing supervised contrastive loss to leverage the ordinal information inherent in discrete AAC regression labels. We develop a Dual-encoder Contrastive Ordinal Learning (DCOL) framework that learns the contrastive ordinal representation at global and local levels to improve the feature separability and class diversity in latent space among the AAC-24 genera. We evaluate the performance of the proposed framework using two clinical VFA DXA scan datasets and compare our work with state-of-the-art methods. Furthermore, for predicted AAC scores, we provide a clinical analysis to predict the future risk of a Major Acute Cardiovascular Event (MACE). Our results demonstrate that this learning enhances inter-class separability and strengthens intra-class consistency, which results in predicting the high-risk AAC classes with high sensitivity and high accuracy.
翻訳日:2023-07-25 18:28:34 公開日:2023-07-22
# COLosSAL:3次元医用画像セグメンテーションのためのコールドスタートアクティブラーニングベンチマーク

COLosSAL: A Benchmark for Cold-start Active Learning for 3D Medical Image Segmentation ( http://arxiv.org/abs/2307.12004v1 )

ライセンス: Link先を確認
Han Liu, Hao Li, Xing Yao, Yubo Fan, Dewei Hu, Benoit Dawant, Vishwesh Nath, Zhoubing Xu, Ipek Oguz(参考訳) 医用画像分割は医用画像解析において重要な課題である。 近年、ディープラーニングベースのアプローチは、完全に注釈付きデータセットでトレーニングされた場合、例外的なパフォーマンスを示している。 しかし、特に3d医療画像では、データアノテーションが重大なボトルネックとなることが多い。 アクティブラーニング(AL)は効率的なアノテーションのための有望なソリューションであるが、アクティブセレクションを開始するにはラベル付きサンプルの初期セットが必要である。 データプール全体がラベル付けされていない場合、初期セットとしてアノテートするサンプルをどのように選択すればよいか? これはコールドスタートalとしても知られ、これまで注釈付きデータにアクセスせずに専門家からアノテーションをリクエストできる機会は1つしかない。 コールドスタートalは多くの実用的なシナリオで非常に関連があるが、特に十分なアノテーションを必要とする3d医療セグメンテーションタスクでは、過度に検討されている。 本稿では,COLosSALと命名されたベンチマークを,医用セグメンテーションデカトロンコレクションから5つの3次元医用画像セグメンテーションタスクに対して,コールドスタートAL戦略を6つ評価する。 我々は,冷間開始型ALにおいて,予算が異なる戦略に与える影響など,徹底的なパフォーマンス分析を行い,重要なオープンな質問を探索する。 その結果,冷間始動ALは3次元セグメンテーションタスクの未解決問題であるが,いくつかの重要な傾向が観察されている。 完全なベンチマークのためのコードリポジトリ、データパーティション、ベースライン結果はhttps://github.com/MedICL-VU/COLosSALで公開されている。

Medical image segmentation is a critical task in medical image analysis. In recent years, deep learning based approaches have shown exceptional performance when trained on a fully-annotated dataset. However, data annotation is often a significant bottleneck, especially for 3D medical images. Active learning (AL) is a promising solution for efficient annotation but requires an initial set of labeled samples to start active selection. When the entire data pool is unlabeled, how do we select the samples to annotate as our initial set? This is also known as the cold-start AL, which permits only one chance to request annotations from experts without access to previously annotated data. Cold-start AL is highly relevant in many practical scenarios but has been under-explored, especially for 3D medical segmentation tasks requiring substantial annotation effort. In this paper, we present a benchmark named COLosSAL by evaluating six cold-start AL strategies on five 3D medical image segmentation tasks from the public Medical Segmentation Decathlon collection. We perform a thorough performance analysis and explore important open questions for cold-start AL, such as the impact of budget on different strategies. Our results show that cold-start AL is still an unsolved problem for 3D segmentation tasks but some important trends have been observed. The code repository, data partitions, and baseline results for the complete benchmark are publicly available at https://github.com/MedICL-VU/COLosSAL.
翻訳日:2023-07-25 18:28:05 公開日:2023-07-22
# デブラリングとレジストレーションに基づく魚眼画像のより強固な縫い付けアルゴリズム

A Stronger Stitching Algorithm for Fisheye Images based on Deblurring and Registration ( http://arxiv.org/abs/2307.11997v1 )

ライセンス: Link先を確認
Jing Hao, Jingming Xie, Jinyuan Zhang, Moyun Liu(参考訳) パノラマ撮影に適した魚眼レンズは、広い視野と低コストの利点がある。 しかし、魚眼画像は、画像登録や縫い付けの段階を阻害する可能性のある幾何学的歪みが激しい。 この欠点を解決するため,従来の画像処理法とディープラーニングを組み合わせることで,魚眼画像のより強固な縫い合わせアルゴリズムを考案する。 魚眼画像補正の段階において,Zhangキャリブレーション法により補正された魚眼画像に対する注意に基づく非線形活性化自由ネットワーク(ANAFNet)を提案する。 具体的には、ANAFNetは、ソフトアテンション技術による畳み込みニューラルネットワークに基づく古典的な単一ステージのU字型アーキテクチャを採用し、ぼやけた画像からシャープなイメージを効果的に復元することができる。 画像登録の精度を向上させるため,総合的な画像マッチングアルゴリズムであるorb-freak-gms(ofg)を提案する。 その結果,魚眼画像による高品質縫合のパノラマ画像が得られた。

Fisheye lens, which is suitable for panoramic imaging, has the prominent advantage of a large field of view and low cost. However, the fisheye image has a severe geometric distortion which may interfere with the stage of image registration and stitching. Aiming to resolve this drawback, we devise a stronger stitching algorithm for fisheye images by combining the traditional image processing method with deep learning. In the stage of fisheye image correction, we propose the Attention-based Nonlinear Activation Free Network (ANAFNet) to deblur fisheye images corrected by Zhang calibration method. Specifically, ANAFNet adopts the classical single-stage U-shaped architecture based on convolutional neural networks with soft-attention technique and it can restore a sharp image from a blurred image effectively. In the part of image registration, we propose the ORB-FREAK-GMS (OFG), a comprehensive image matching algorithm, to improve the accuracy of image registration. Experimental results demonstrate that panoramic images of superior quality stitching by fisheye images can be obtained through our method.
翻訳日:2023-07-25 18:27:42 公開日:2023-07-22
# 光学格子時計における超ブロック振動のラビ分光

Rabi Spectroscopy of Super-Bloch Oscillations in Optical Lattice Clock ( http://arxiv.org/abs/2307.11995v1 )

ライセンス: Link先を確認
Sheng-Xian Xiao, Ying Liang, Ya Zhang, and Tao Wang(参考訳) スーパーブロッホ振動(super-bloch oscillations、sbos)は、ブロッホ振動が駆動周波数の整数時間に近い状態で、格子内の自由原子に静的かつ周期的に駆動力を加える場合の巨大ブロッホ振動(bos)である。 本稿では,SBOを実空間で観測するのではなく,光学格子時計(OLC)のラビ分光法を用いて観測する方法を提案する。 原子を付加したOLCの有効モデルが, 静的および周期的な力の両方を導出した。 そこで我々は実験手法を提案し,Rabiスペクトルを実験室で達成可能なパラメータで与える。 OLCの精密分光を利用して、SBOの周期を測定することで、広い範囲の力を測定することができる。 また,フィッシャー情報を計算することで,重力測定の最適パラメータ条件も提示した。 我々の研究は、フロッケ駆動OLCにおける他のエキゾチックなダイナミクスの挙動を研究するための道を開いた。

Super-Bloch oscillations(SBOs) is giant Bloch oscillations (BOs) when applying both static and periodically driving force to free atoms in lattice at the condition that Bloch oscillations are close to integer times of driving frequencies. Rather than observe SBOs in real space, this paper presents a method to observe it using Rabi spectroscopy of Optical lattice clock(OLC). An effective model of OLC with atoms been added both static and time-periodical forces is derived. Based on that, we propose an experimental scheme and give the Rabi spectrum under lab achievable parameters. Utilizing the precision spectroscopy of OLC, force with a large range could be accurately measured by measuring the Period of SBOs. We also gave the best parameter condition of measuring gravity by calculating Fisher information. Our work paves the way to study other exotic dynamics behaviors in Floquet driving OLC.
翻訳日:2023-07-25 18:27:24 公開日:2023-07-22
# データセンターにおける検証可能なサステナビリティ

Verifiable Sustainability in Data Centers ( http://arxiv.org/abs/2307.11993v1 )

ライセンス: Link先を確認
Syed Rafiul Hussain, Patrick McDaniel, Anshul Gandhi, Kanad Ghose, Kartik Gopalan, Dongyoon Lee, Yu David Liu, Zhenhua Liu, Shuai Mu and Erez Zadok(参考訳) 持続性は、気候変動と地球を守るために不可欠です。 持続可能性に脅威をもたらす様々なシステムがあるが、データセンターはエネルギー消費と環境への影響が大きいため、特に重要である。 データセンターはますます持続可能になっているが、サステナビリティデータを報告する現在のプラクティスは、単純なグリーンウォッシングによって緩和されることが多い。 この現状を改善するためには、データセンタオペレータが報告したサステナビリティへの影響に関するデータを検証する必要がある。 そのためには、サステナビリティに関するデータが、安全で忘れられない、プライバシ保護の方法で収集、保存、集約、およびメトリクスに変換されることを保証するための、適切なインフラストラクチャが必要となる。 そこで本稿ではまず,このようなインフラストラクチャに関する新たなセキュリティ課題,運用者やユーザへの影響,データセンタなどの業界セグメントの課題に対処するための潜在的なソリューションと研究指針について紹介する。

Sustainability is crucial for combating climate change and protecting our planet. While there are various systems that can pose a threat to sustainability, data centers are particularly significant due to their substantial energy consumption and environmental impact. Although data centers are becoming increasingly accountable to be sustainable, the current practice of reporting sustainability data is often mired with simple green-washing. To improve this status quo, users as well as regulators need to verify the data on the sustainability impact reported by data center operators. To do so, data centers must have appropriate infrastructures in place that provide the guarantee that the data on sustainability is collected, stored, aggregated, and converted to metrics in a secure, unforgeable, and privacy-preserving manner. Therefore, this paper first introduces the new security challenges related to such infrastructure, how it affects operators and users, and potential solutions and research directions for addressing the challenges for data centers and other industry segments.
翻訳日:2023-07-25 18:27:06 公開日:2023-07-22
# Psy-LLM: AIに基づく大規模言語モデルによるグローバルメンタルヘルス心理学サービスのスケールアップ

Psy-LLM: Scaling up Global Mental Health Psychological Services with AI-based Large Language Models ( http://arxiv.org/abs/2307.11991v1 )

ライセンス: Link先を確認
Tin Lai, Yukun Shi, Zicong Du, Jiajie Wu, Ken Fu, Yichao Dou, Ziqi Wang(参考訳) 心理カウンセリングの需要は近年大きく伸びており、特に新型コロナウイルスの世界的な流行により、タイムリーで専門的なメンタルヘルス支援の必要性が高まっている。 オンラインの心理的カウンセリングは、この需要に応えてサービスを提供する主要な手段として浮上している。 本研究では,大規模言語モデル(LLM)を利用したオンライン心理相談における質問応答システムであるPsy-LLMフレームワークを提案する。 我々のフレームワークは、トレーニング済みのLLMと心理学者や広範囲にクロールされた心理学記事の現実のプロフェッショナルQ&Aを組み合わせる。 Psy-LLMフレームワークは医療専門家のためのフロントエンドツールとして機能し、患者のストレスを軽減するために即時対応とマインドフルネス活動を提供する。 さらに、さらなる支援を必要とする緊急ケースを特定するためのスクリーニングツールとしても機能する。 提案手法は,過度,外因性評価などの内因性指標を用いて評価し,応答有用性,流布性,妥当性,論理的評価を行った。 その結果,Psy-LLMフレームワークが心理的質問に対する一貫性と関連する回答を生成する効果が示された。 本稿では,オンライン心理コンサルテーションにおいて,ai技術を通じたメンタルヘルスサポートを強化するための大規模言語モデルの可能性について論じる。

The demand for psychological counseling has grown significantly in recent years, particularly with the global outbreak of COVID-19, which has heightened the need for timely and professional mental health support. Online psychological counseling has emerged as the predominant mode of providing services in response to this demand. In this study, we propose the Psy-LLM framework, an AI-based system leveraging Large Language Models (LLMs) for question-answering in online psychological consultation. Our framework combines pre-trained LLMs with real-world professional Q&A from psychologists and extensively crawled psychological articles. The Psy-LLM framework serves as a front-end tool for healthcare professionals, allowing them to provide immediate responses and mindfulness activities to alleviate patient stress. Additionally, it functions as a screening tool to identify urgent cases requiring further assistance. We evaluated the framework using intrinsic metrics, such as perplexity, and extrinsic evaluation metrics, with human participant assessments of response helpfulness, fluency, relevance, and logic. The results demonstrate the effectiveness of the Psy-LLM framework in generating coherent and relevant answers to psychological questions. This article concludes by discussing the potential of large language models to enhance mental health support through AI technologies in online psychological consultation.
翻訳日:2023-07-25 18:26:49 公開日:2023-07-22
# Patch-Wise Point Cloud Generation: 分断型アプローチ

Patch-Wise Point Cloud Generation: A Divide-and-Conquer Approach ( http://arxiv.org/abs/2307.12049v1 )

ライセンス: Link先を確認
Cheng Wen, Baosheng Yu, Rao Fu, Dacheng Tao(参考訳) 高忠実度点雲の生成モデルは、自律運転やロボット工学などの応用のための3d環境の合成において非常に重要である。 最近の2次元画像の深い生成モデルの成功にもかかわらず、局所的および大域的な幾何学的構造を包括的に理解することなく3次元点雲を生成することは自明ではない。 本稿では,分割・分散方式を用いて新たな3Dポイントクラウド生成フレームワークを考案し,生成プロセス全体をパッチワイズなタスクの集合に分割する。 具体的には、すべてのパッチジェネレータは学習可能なプリミティブに基づいており、ジオメトリプリミティブの情報を取得することを目的としている。 ポイントとパッチ間のインタラクションを可能にするために,ポイントとパッチのトランスフォーマを導入する。 したがって,提案手法は3次元形状の幾何学的構成から点雲生成の新しい理解に寄与する。 最も人気のあるポイントクラウドデータセットであるShapeNetのさまざまなオブジェクトカテゴリに関する実験結果は、提案されたパッチワイドポイントクラウド生成の有効性を示している。

A generative model for high-fidelity point clouds is of great importance in synthesizing 3d environments for applications such as autonomous driving and robotics. Despite the recent success of deep generative models for 2d images, it is non-trivial to generate 3d point clouds without a comprehensive understanding of both local and global geometric structures. In this paper, we devise a new 3d point cloud generation framework using a divide-and-conquer approach, where the whole generation process can be divided into a set of patch-wise generation tasks. Specifically, all patch generators are based on learnable priors, which aim to capture the information of geometry primitives. We introduce point- and patch-wise transformers to enable the interactions between points and patches. Therefore, the proposed divide-and-conquer approach contributes to a new understanding of point cloud generation from the geometry constitution of 3d shapes. Experimental results on a variety of object categories from the most popular point cloud dataset, ShapeNet, show the effectiveness of the proposed patch-wise point cloud generation, where it clearly outperforms recent state-of-the-art methods for high-fidelity point cloud generation.
翻訳日:2023-07-25 18:20:31 公開日:2023-07-22
# 量子資源削減による構造格子中の短ベクトルの探索

Finding Short Vectors in Structured Lattices with Reduced Quantum Resources ( http://arxiv.org/abs/2307.12047v1 )

ライセンス: Link先を確認
Eden Schirman, Cong Ling, Florian Mintert(参考訳) 量子暗号系の主要なプロトコルは、構造格子内の短いベクトルを見つける数学的問題に基づいている。 これらの格子の構造は、短いベクトルを見つけようとする量子および古典的アルゴリズムに有利ではないと仮定される。 この研究では、環状および負環格子に焦点を当て、これらの格子の基盤となる対称性を利用するための量子アルゴリズムの枠組みを提供する。 このフレームワークは、短いベクトルを見つけようとする量子アルゴリズムを実装するのに必要な量子リソース(量子ビット数や回路の深さなど)を大幅に節約する。 提案手法を可変量子固有解法を用いてベンチマークし,量子ビット数と回路深度を削減しつつ,よりよい結果をもたらすことを示す。 このフレームワークは、構造化格子の短いベクトルを見つけることを目的とした古典的なアルゴリズムにも適用でき、この点において量子に着想を得たアプローチと見なすことができる。

Leading protocols of post-quantum cryptosystems are based on the mathematical problem of finding short vectors in structured lattices. It is assumed that the structure of these lattices does not give an advantage for quantum and classical algorithms attempting to find short vectors. In this work we focus on cyclic and nega-cyclic lattices and give a quantum algorithmic framework of how to exploit the symmetries underlying these lattices. This framework leads to a significant saving in the quantum resources (e.g. qubits count and circuit depth) required for implementing a quantum algorithm attempting to find short vectors. We benchmark the proposed framework with the variational quantum eigensolver, and show that it leads to better results while reducing the qubits count and the circuit depth. The framework is also applicable to classical algorithms aimed at finding short vectors in structured lattices, and in this regard it could be seen as a quantum-inspired approach.
翻訳日:2023-07-25 18:20:12 公開日:2023-07-22
# 連続性方程式とその位相空間量子力学への応用

The continuity equation and its applications in phase space quantum mechanics ( http://arxiv.org/abs/2307.12046v1 )

ライセンス: Link先を確認
Jaromir Tosiek and Luca Campobasso(参考訳) 内部自由度で密度演算子で表される量子系の連続性方程式が導出される。 このようなシステムの位相空間記述を示す。 1ドル -- D ディラック方程式が議論され、その位相空間が見出される。 自由運動と非相対論的および相対論的ケースにおける散乱の位相空間表現を議論し、解説する。 非有界状態のウィグナー関数の特性を解析する。

The continuity equation for quantum systems with internal degrees of freedom and represented by density operators is derived. A phase space description of such systems is presented. The $1$ -- D Dirac equation is discussed and its phase space counterpart is found. The phase space representation of free motion and of scattering in a nonrelativistic and a relativistic case is discussed and illustrated. Properties of Wigner functions of unbound states are analysed.
翻訳日:2023-07-25 18:19:58 公開日:2023-07-22
# ロボット手術における視覚質問局所聴力の連続学習のための蒸留の再検討

Revisiting Distillation for Continual Learning on Visual Question Localized-Answering in Robotic Surgery ( http://arxiv.org/abs/2307.12045v1 )

ライセンス: Link先を確認
Long Bai, Mobarakol Islam, Hongliang Ren(参考訳) ビジュアルクエストローカライズド・アンサーリング(VQLA)システムは、外科教育における知識のあるアシスタントとして機能する。 テキストベースの回答を提供する以外、VQLAシステムは興味のある領域を強調して、手術シーンの理解を深める。 しかし、ディープニューラルネットワーク(DNN)は、新しい知識を学ぶ際に破滅的な忘れに苦しむ。 具体的には、DNNがインクリメンタルなクラスやタスクを学ぶと、古いタスクのパフォーマンスが劇的に低下します。 さらに、医療データのプライバシーやライセンスの問題から、継続学習(CL)モデルを更新する際に古いデータにアクセスすることはしばしば困難である。 そこで我々は,DNNの剛性・塑性トレードオフを逐次学習パラダイムで探求し,バランスをとるために,非経験的連続手術用VQLAフレームワークを開発した。 CL作業における蒸留損失を再考し, 剛性塑性認識蒸留(RP-Dist)と自己校正ヘテロジニアス蒸留(SH-Dist)を提案する。 ウェイトアライメント(wa)テクニックも統合され、古いタスクと新しいタスク間のウェイトバイアスを調整する。 さらに,従来のVQLAタスクと新しいVQLAタスクの重複クラスからなる外科的設定の文脈において,3つの公開外科的データセットのCLフレームワークを構築した。 広範な実験により,本手法は従来のcl法に比べて連続手術vqlaの学習と忘れることとを良好に調和させることを実証した。 私たちのコードは公開アクセス可能です。

The visual-question localized-answering (VQLA) system can serve as a knowledgeable assistant in surgical education. Except for providing text-based answers, the VQLA system can highlight the interested region for better surgical scene understanding. However, deep neural networks (DNNs) suffer from catastrophic forgetting when learning new knowledge. Specifically, when DNNs learn on incremental classes or tasks, their performance on old tasks drops dramatically. Furthermore, due to medical data privacy and licensing issues, it is often difficult to access old data when updating continual learning (CL) models. Therefore, we develop a non-exemplar continual surgical VQLA framework, to explore and balance the rigidity-plasticity trade-off of DNNs in a sequential learning paradigm. We revisit the distillation loss in CL tasks, and propose rigidity-plasticity-aware distillation (RP-Dist) and self-calibrated heterogeneous distillation (SH-Dist) to preserve the old knowledge. The weight aligning (WA) technique is also integrated to adjust the weight bias between old and new tasks. We further establish a CL framework on three public surgical datasets in the context of surgical settings that consist of overlapping classes between old and new surgical VQLA tasks. With extensive experiments, we demonstrate that our proposed method excellently reconciles learning and forgetting on the continual surgical VQLA over conventional CL methods. Our code is publicly accessible.
翻訳日:2023-07-25 18:19:51 公開日:2023-07-22
# fsdiffreg:心画像における特徴的およびスコア的拡散誘導非教師なし画像登録

FSDiffReg: Feature-wise and Score-wise Diffusion-guided Unsupervised Deformable Image Registration for Cardiac Images ( http://arxiv.org/abs/2307.12035v1 )

ライセンス: Link先を確認
Yi Qin and Xiaomeng Li(参考訳) 教師なしの変形可能な画像登録は、医療画像の難しい課題の1つである。 一連のディープラーニングソリューションでは,変形トポロジーを保ちながら高品質な変形場を得ることが求められている。 一方、拡散モデルの潜在特徴空間は変形意味論をモデル化する可能性を示している。 本稿では,拡散モデルが登録タスクを案内する能力をフル活用するために,FDG(Feature-wise Diffusion-Guided Module)とSDG(Score-wise Diffusion-Guided Module)の2つのモジュールを提案する。 具体的には、FDGは拡散モデルのマルチスケール意味的特徴を用いて変形場の生成を導く。 SDGは拡散スコアを使用して、変形トポロジーをほとんど追加の計算で保存するための最適化プロセスを導く。 3次元医用心臓画像登録タスクの実験結果から,保存トポロジを効果的に活用する改良変形場の実現能力が検証された。 コードはhttps://github.com/xmed-lab/fsdiffreg.gitで入手できる。

Unsupervised deformable image registration is one of the challenging tasks in medical imaging. Obtaining a high-quality deformation field while preserving deformation topology remains demanding amid a series of deep-learning-based solutions. Meanwhile, the diffusion model's latent feature space shows potential in modeling the deformation semantics. To fully exploit the diffusion model's ability to guide the registration task, we present two modules: Feature-wise Diffusion-Guided Module (FDG) and Score-wise Diffusion-Guided Module (SDG). Specifically, FDG uses the diffusion model's multi-scale semantic features to guide the generation of the deformation field. SDG uses the diffusion score to guide the optimization process for preserving deformation topology with barely any additional computation. Experiment results on the 3D medical cardiac image registration task validate our model's ability to provide refined deformation fields with preserved topology effectively. Code is available at: https://github.com/xmed-lab/FSDiffReg.git.
翻訳日:2023-07-25 18:19:25 公開日:2023-07-22
# 合成データを用いた自己監督・半監督ポリプセグメンテーション

Self-Supervised and Semi-Supervised Polyp Segmentation using Synthetic Data ( http://arxiv.org/abs/2307.12033v1 )

ライセンス: Link先を確認
Enric Moreu, Eric Arazo, Kevin McGuinness, Noel E. O'Connor(参考訳) 大腸ポリープの早期検出は、その治療および大腸癌予防において最も重要である。 コンピュータビジョン技術は、患者の大腸全体を調べるために手動で大腸手術を行う、診断段階の専門家を助ける可能性がある。 医用画像の最大の課題はデータの欠如であり、ポリプセグメンテーションアプローチに特有のさらなる課題は、利用可能なデータを手動でラベル付けすることの難しさである:セグメンテーションタスクのアノテーションプロセスは非常に時間がかかる。 最近のアプローチは、利用可能なラベル付きデータをうまく活用するための洗練された技術でデータ可用性の課題に対処しているが、ラベル付けの量が大幅に削減される自己教師付きまたは半教師付きパラダイムを探求する者は少ない。 両課題に対処するために,我々は合成データを活用し,実データと合成データを統合し,データセットのサイズを人工的に増加させ,ラベルのないサンプルが利用可能になった場合のトレーニングを支援する,ポリプセグメンテーションのエンドツーエンドモデルを提案する。 具体的には、pl-cut-segというモデルが合成画像を画像から画像への変換モジュールに変換し、得られた画像と実際の画像を組み合わせることで、セグメンテーションモデルをトレーニングします。 さらに,本モデルの改良版であるPL-CUT-Seg+を提案する。 モデルは、ポリプセグメンテーションの標準ベンチマークで評価され、自己および半教師付きセットアップにおける最先端結果に到達する。

Early detection of colorectal polyps is of utmost importance for their treatment and for colorectal cancer prevention. Computer vision techniques have the potential to aid professionals in the diagnosis stage, where colonoscopies are manually carried out to examine the entirety of the patient's colon. The main challenge in medical imaging is the lack of data, and a further challenge specific to polyp segmentation approaches is the difficulty of manually labeling the available data: the annotation process for segmentation tasks is very time-consuming. While most recent approaches address the data availability challenge with sophisticated techniques to better exploit the available labeled data, few of them explore the self-supervised or semi-supervised paradigm, where the amount of labeling required is greatly reduced. To address both challenges, we leverage synthetic data and propose an end-to-end model for polyp segmentation that integrates real and synthetic data to artificially increase the size of the datasets and aid the training when unlabeled samples are available. Concretely, our model, Pl-CUT-Seg, transforms synthetic images with an image-to-image translation module and combines the resulting images with real images to train a segmentation model, where we use model predictions as pseudo-labels to better leverage unlabeled samples. Additionally, we propose PL-CUT-Seg+, an improved version of the model that incorporates targeted regularization to address the domain gap between real and synthetic images. The models are evaluated on standard benchmarks for polyp segmentation and reach state-of-the-art results in the self- and semi-supervised setups.
翻訳日:2023-07-25 18:19:06 公開日:2023-07-22
# 新規sr損失関数を用いたhough空間における拡張トランスファー学習による飛行コントライルセグメンテーション

Flight Contrail Segmentation via Augmented Transfer Learning with Novel SR Loss Function in Hough Space ( http://arxiv.org/abs/2307.12032v1 )

ライセンス: Link先を確認
Junzi Sun, Esther Roosenbrand(参考訳) 航空輸送は、特に温暖化の影響による気候変動への飛行コントライルの寄与など、重要な環境問題を引き起こしている。 衛星画像からの対物検出は長年の課題だった。 従来のコンピュータビジョン技術には、様々な画像条件下での制限があり、典型的な畳み込みニューラルネットワークを用いた機械学習アプローチは、手書きの対向データセットや対向学習プロセスの不足によって妨げられている。 本稿では,最小データでコントライルを正確に検出する拡張トランスファー学習に基づく革新的なモデルを提案する。 また,画像空間をハフ空間に変換することで反則線検出を改善する新しい損失関数SRロスを提案する。 我々の研究は、航空研究における機械学習に基づく反則検出の新しい道を開き、大規模なハンドラベルデータセットの欠如に対する解決策を提供し、反則検出モデルを大幅に強化する。

Air transport poses significant environmental challenges, particularly the contribution of flight contrails to climate change due to their potential global warming impact. Detecting contrails from satellite images has been a long-standing challenge. Traditional computer vision techniques have limitations under varying image conditions, and machine learning approaches using typical convolutional neural networks are hindered by the scarcity of hand-labeled contrail datasets and contrail-tailored learning processes. In this paper, we introduce an innovative model based on augmented transfer learning that accurately detects contrails with minimal data. We also propose a novel loss function, SR Loss, which improves contrail line detection by transforming the image space into Hough space. Our research opens new avenues for machine learning-based contrail detection in aviation research, offering solutions to the lack of large hand-labeled datasets, and significantly enhancing contrail detection models.
翻訳日:2023-07-25 18:18:38 公開日:2023-07-22
# スペクトル判別器の知覚品質改善効果について

On the Effectiveness of Spectral Discriminators for Perceptual Quality Improvement ( http://arxiv.org/abs/2307.12027v1 )

ライセンス: Link先を確認
Xin Luo, Yunan Zhu, Shunxin Xu, Dong Liu(参考訳) いくつかの最近の研究は、画像のフーリエスペクトルを生成モデルとして評価するスペクトル判別器の使用を提唱している。 しかし、スペクトル判別器の有効性はまだよく解釈されていない。 我々は、SR画像の品質がスペクトル変化の影響を受けやすいため、知覚画像超解像(GANベースSR)の文脈でスペクトル判別器を調べることでこの問題に対処する。 本分析の結果, スペクトル判別器は, 高周波数域の差を識別する上で, 通常の(空間)判別器よりも優れていることがわかったが, 空間判別器は低周波数域で有利である。 したがって,スペクトルと空間の判別器を同時に使用することを提案する。 さらに、まずパッチワイドフーリエスペクトルを計算し、次にTransformerでスペクトルを集約することでスペクトル判別器を改善する。 提案手法の有効性を2倍に検証する。 一方、スペクトル判別器の追加により、得られたSR画像のスペクトルは実際の画像とよく一致し、PDのトレードオフが良くなる。 一方,アンサンブル識別器は,非参照画像品質評価タスクで実証されているように,知覚品質をより正確に予測する。

Several recent studies advocate the use of spectral discriminators, which evaluate the Fourier spectra of images for generative modeling. However, the effectiveness of the spectral discriminators is not well interpreted yet. We tackle this issue by examining the spectral discriminators in the context of perceptual image super-resolution (i.e., GAN-based SR), as SR image quality is susceptible to spectral changes. Our analyses reveal that the spectral discriminator indeed performs better than the ordinary (a.k.a. spatial) discriminator in identifying the differences in the high-frequency range; however, the spatial discriminator holds an advantage in the low-frequency range. Thus, we suggest that the spectral and spatial discriminators shall be used simultaneously. Moreover, we improve the spectral discriminators by first calculating the patch-wise Fourier spectrum and then aggregating the spectra by Transformer. We verify the effectiveness of the proposed method twofold. On the one hand, thanks to the additional spectral discriminator, our obtained SR images have their spectra better aligned to those of the real images, which leads to a better PD tradeoff. On the other hand, our ensembled discriminator predicts the perceptual quality more accurately, as evidenced in the no-reference image quality assessment task.
翻訳日:2023-07-25 18:18:23 公開日:2023-07-22
# 任意のdimentionalを持つ同一状態に対する効率的な量子圧縮

Efficient quantum compression for identically prepared states with arbitrary dimentional ( http://arxiv.org/abs/2307.12024v1 )

ライセンス: Link先を確認
Zeyu Chen, Chunhe Xiong, Kamil Khadiev, Junde Wu(参考訳) 本稿では,任意の次元を持つ同一生成状態に対する効率的な量子圧縮法を提案する。

In this paper, we present an efficient quantum compression method for identically prepared states with arbitrary dimentional.
翻訳日:2023-07-25 18:18:03 公開日:2023-07-22
# 患者選好をQ-Learningに組み込むフレキシブルなフレームワーク

A Flexible Framework for Incorporating Patient Preferences Into Q-Learning ( http://arxiv.org/abs/2307.12022v1 )

ライセンス: Link先を確認
Joshua P. Zitovsky, Leslie Wilson and Michael R. Kosorok(参考訳) 現実の医療問題では、治療効果や副作用の重症度など、多くの競合する結果がしばしば存在する。 しかしながら、動的治療体制(DTR)を推定するための統計的手法は、通常、単一の関心の結果を仮定し、複合的な結果を扱う数少ない手法は重要な制約に悩まされる。 これには、単一の時点と2つの結果への制限、自己報告された患者の好みを組み込むことができないこと、理論的保証の制限が含まれる。 そこで本稿では,Latent Utility Q-Learning (LUQ-Learning) を用いて,これらの制約に対処する新しい手法を提案する。 LUQ-Learningは、Q学習を複合的な結果設定に自然に拡張し、各患者に対する結果間の理想的なトレードオフを採用するために、潜在モデルアプローチを使用する。 従来のアプローチとは異なり、我々のフレームワークは任意の回数の時間ポイントと結果を可能にし、記述された好みを取り入れ、データに対する現実的な仮定で強い漸近的なパフォーマンスを達成する。 低腰痛に対する臨床試験と統合失調症に対するよく知られた完全治験に基づくシミュレーション実験を行った。 全ての実験において,本手法はいくつかの代替ベースラインと比較して高い競争力を持つ経験的性能を達成する。

In real-world healthcare problems, there are often multiple competing outcomes of interest, such as treatment efficacy and side effect severity. However, statistical methods for estimating dynamic treatment regimes (DTRs) usually assume a single outcome of interest, and the few methods that deal with composite outcomes suffer from important limitations. This includes restrictions to a single time point and two outcomes, the inability to incorporate self-reported patient preferences and limited theoretical guarantees. To this end, we propose a new method to address these limitations, which we dub Latent Utility Q-Learning (LUQ-Learning). LUQ-Learning uses a latent model approach to naturally extend Q-learning to the composite outcome setting and adopt the ideal trade-off between outcomes to each patient. Unlike previous approaches, our framework allows for an arbitrary number of time points and outcomes, incorporates stated preferences and achieves strong asymptotic performance with realistic assumptions on the data. We conduct simulation experiments based on an ongoing trial for low back pain as well as a well-known completed trial for schizophrenia. In all experiments, our method achieves highly competitive empirical performance compared to several alternative baselines.
翻訳日:2023-07-25 18:18:00 公開日:2023-07-22
# 意味画像合成のためのマルチスケールコントラスト学習を用いたエッジ誘導gan

Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic Image Synthesis ( http://arxiv.org/abs/2307.12084v1 )

ライセンス: Link先を確認
Hao Tang, Guolei Sun, Nicu Sebe, Luc Van Gool(参考訳) 本稿では,semantic image synthesisタスクに挑戦する新しいecganを提案する。 近年, コミュニティによってかなりの改良が加えられているが, 3つの未解決課題により, 合成画像の品質は十分とは程遠い。 1) セマンティックラベルは,詳細な構造情報を提供せず,局所的な詳細及び構造を合成することが困難である。 2)畳み込み、ダウンサンプリング、正規化といった広く採用されているcnn操作は、通常、空間分解能の損失を引き起こし、したがって元の意味情報の完全保存ができず、意味的に一貫性のない結果(例えば、小さなオブジェクトの欠如)をもたらす。 3)既存のセマンティック画像合成手法は,単一入力セマンティックレイアウトから「ローカル」セマンティック情報をモデル化することに焦点を当てている。 しかし、複数の入力セマンティックレイアウト、すなわち異なる入力レイアウトにわたる画素間のセマンティッククロスリレーションの「グローバル」セマンティック情報を無視している。 1)に取り組むために,提案する注意誘導型エッジ転送モジュールによる画像生成のガイドとして,中間表現としてエッジを使用することを提案する。 2)に取り組むために,意味情報を保存するために,クラス依存の機能マップを本来の意味レイアウトに従って選択的にハイライトする効果的なモジュールを設計した。 コントラスト学習における現在の手法に着想を得て,同じセマンティッククラスに属する画素埋め込みを強制し,異なるクラスに属するものよりも類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。 さらに,複数入力のセマンティクスレイアウトからラベル付き画素の構造を明示的に探究することにより,異なるスケールから同一クラス機能をより緊密にプッシュし,より意味的な関係を捉えることを目的とした,新しいマルチスケールコントラスト学習手法を提案する。

We propose a novel ECGAN for the challenging semantic image synthesis task. Although considerable improvements have been achieved by the community in the recent period, the quality of synthesized images is far from satisfactory due to three largely unresolved challenges. 1) The semantic labels do not provide detailed structural information, making it challenging to synthesize local details and structures; 2) The widely adopted CNN operations such as convolution, down-sampling, and normalization usually cause spatial resolution loss and thus cannot fully preserve the original semantic information, leading to semantically inconsistent results (e.g., missing small objects); 3) Existing semantic image synthesis methods focus on modeling 'local' semantic information from a single input semantic layout. However, they ignore 'global' semantic information of multiple input semantic layouts, i.e., semantic cross-relations between pixels across different input layouts. To tackle 1), we propose to use the edge as an intermediate representation which is further adopted to guide image generation via a proposed attention guided edge transfer module. To tackle 2), we design an effective module to selectively highlight class-dependent feature maps according to the original semantic layout to preserve the semantic information. To tackle 3), inspired by current methods in contrastive learning, we propose a novel contrastive learning method, which aims to enforce pixel embeddings belonging to the same semantic class to generate more similar image content than those from different classes. We further propose a novel multi-scale contrastive learning method that aims to push same-class features from different scales closer together being able to capture more semantic relations by explicitly exploring the structures of labeled pixels from multiple input semantic layouts from different scales.
翻訳日:2023-07-25 18:10:16 公開日:2023-07-22
# 深層強化学習による複数噴流による回転シリンダ上の流れのアクティブ制御

Active Control of Flow over Rotating Cylinder by Multiple Jets using Deep Reinforcement Learning ( http://arxiv.org/abs/2307.12083v1 )

ライセンス: Link先を確認
Kamyar Dobakhti, Jafar Ghazanfarian(参考訳) 人工知能の真のパワーは強化学習に現れ、その動的性質から計算と物理的により洗練されたものである。 回転と噴射は、鈍体に作用する抗力を減らすためのアクティブフロー制御の方法として証明されている。 深部強化学習(DRL)アルゴリズムと共にシリンダーに回転を追加し、複数の制御ジェットを用いて最大抗力抑制を行う。 DRL符号の特徴として,パラメータの制御,制限,回転を考慮したDRLネットワークの最適化について述べる。 この研究は、ジェット機の数と位置、センサーの位置、ジェットへの最大許容流量を、各アクチュエーションの最大許容流量と各エピソードの合計数という形で最適化することに焦点を当てる。 回転をDRLツールと組み合わせることで,渦シーディングを抑え,カルマン渦路を安定化し,ドラッグ係数を最大49.75%低減できることがわかった。 また、より多くの場所にセンサを配置することは必ずしも良い選択ではなく、ユーザのニーズと対応する構成に基づいてセンサ番号と位置を決定する必要があることも示します。 また、シリンダーが回転する場合を除き、エージェントがより高い流量にアクセスできるようにすることで性能が低下する。 いずれの場合も、エージェントはリフト係数を0に近い値に維持したり、より小さい数値で安定化することができる。

The real power of artificial intelligence appears in reinforcement learning, which is computationally and physically more sophisticated due to its dynamic nature. Rotation and injection have been a proven way of active flow control to reduce the drag force exerted on blunt bodies. Rotation will be added to the cylinder alongside the deep reinforcement learning (DRL) algorithm, which uses multiple controlled jets to reach maximum possible drag suppression. Characteristics of the DRL code, including controlling parameters, their limitations, and optimization of the DRL network for use with rotation will be presented. This work will focus on optimizing the number and positions of the jets, sensors location, and maximum allowed flow rate to jets in the form of maximum allowed flow rate of each actuation and the total number of them per episode. It is found that combining the rotation with the DRL tools is promising, since it suppresses the vortex shedding, stabilizes the Karman vortex street, and reduces the drag coefficient by up to 49.75%. Also, it will be showed that having more sensors at more locations is not always a good choice and the sensor number and location should be determined based on the need of the user and corresponding configuration. Also, allowing the agent to have access to higher flow rates, mostly reduces the performance, except when the cylinder rotates. In all cases, the agent can keep the lift coefficient at a value near zero, or stabilize it at a smaller number.
翻訳日:2023-07-25 18:09:42 公開日:2023-07-22
# 時系列マクロアクションによる時間計画領域の強化(拡張版)

Enhancing Temporal Planning Domains by Sequential Macro-actions (Extended Version) ( http://arxiv.org/abs/2307.12081v1 )

ライセンス: Link先を確認
Marco De Bortoli, Luk\'a\v{s} Chrpa, Martin Gebser and Gerald Steinbauer-Wagner(参考訳) 時間計画は、行動の実行と時間的制約との整合を伴う古典的な計画の拡張である。 永続的アクションと不変性により、複数のエージェントが共有リソース上で並列に動作するドメインのモデリングが可能になる。 したがって、時間的制約が同時アクションとイベントの一貫性を確立する場合、リソースの衝突を避けることがしばしば重要である。 残念ながら、時間的計画エンジンの性能は、ドメイン内のエージェントやオブジェクトの数が大きくなると著しく低下する傾向にある。 考えられる治療法は、古典的な計画の文脈でよく研究されているマクロアクションを使用することである。 しかし、時間的制約に従えば、アクションの同時実行とリソースの共有利用が完全に抑制されるべきではない場合、時間的計画設定ではマクロアクションの導入は極めて困難である。 我々の研究は、得られた計画の適用性を保証するシーケンシャルな時間的マクロアクションの一般的な概念、すなわち、マクロアクションによってカプセル化された元のアクションのシーケンスは常に実行可能である。 我々は,国際計画コンペティションとロボカップロジスティクスリーグを起源とする,時間的プランナーとドメインにアプローチを適用する。 本実験は,テストプランナーとドメインの大部分の計画品質だけでなく,得られた満足度プランも改善した。

Temporal planning is an extension of classical planning involving concurrent execution of actions and alignment with temporal constraints. Durative actions along with invariants allow for modeling domains in which multiple agents operate in parallel on shared resources. Hence, it is often important to avoid resource conflicts, where temporal constraints establish the consistency of concurrent actions and events. Unfortunately, the performance of temporal planning engines tends to sharply deteriorate when the number of agents and objects in a domain gets large. A possible remedy is to use macro-actions that are well-studied in the context of classical planning. In temporal planning settings, however, introducing macro-actions is significantly more challenging when the concurrent execution of actions and shared use of resources, provided the compliance to temporal constraints, should not be suppressed entirely. Our work contributes a general concept of sequential temporal macro-actions that guarantees the applicability of obtained plans, i.e., the sequence of original actions encapsulated by a macro-action is always executable. We apply our approach to several temporal planners and domains, stemming from the International Planning Competition and RoboCup Logistics League. Our experiments yield improvements in terms of obtained satisficing plans as well as plan quality for the majority of tested planners and domains.
翻訳日:2023-07-25 18:09:17 公開日:2023-07-22
# スパースデータ再構成のための潜時拡散モデルに基づく反復的再構成

Iterative Reconstruction Based on Latent Diffusion Model for Sparse Data Reconstruction ( http://arxiv.org/abs/2307.12070v1 )

ライセンス: Link先を確認
Linchao He, Hongyu Yan, Mengting Luo, Kunming Luo, Wang Wang, Wenchao Du, Hu Chen, Hongyu Yang, Yi Zhang(参考訳) スパース計測によるCT画像の再構成は、よく知られた不適切な逆問題である。 反復再構成(IR)アルゴリズムは逆問題に対する解法である。 しかし、最近のir法は対データと逆射影行列の近似を必要とする。 これらの問題に対処するために、我々は、事前訓練された遅延拡散モデル(LDM)を用いてIRを拡張する先駆的なゼロショット法であるLatent Diffusion Iterative Reconstruction (LDIR)を提案する。 非条件潜在拡散モデルで事前分布を近似することにより、LDIRは、反復的再構成とLCMを教師なし方法でうまく統合する最初の方法である。 LDIRは高解像度画像の再構成をより効率的にする。 さらに、LDIRはデータ忠実度項からの勾配を利用してLCMのサンプリングプロセスを導くので、LDIRは逆投影行列の近似を必要とせず、単一のモデルで様々なCT再構成タスクを解くことができる。 さらに,復元のサンプル一貫性を高めるために,過去の勾配情報を用いて勾配を導く新しい手法を提案する。 極めて少ないCTデータ再構成タスクの実験では、LDIRは他の最先端の教師なし手法よりも優れており、教師付き手法よりも優れており、量と品質の両面で指導的手法として確立されている。 さらに、LDIRは自然画像タスクの競合性能も達成している。 LDIRは、同様のネットワーク設定の手法に比べて、実行時間とメモリ消費が大幅に高速であることも注目に値する。 私たちのコードは公開されます。

Reconstructing Computed tomography (CT) images from sparse measurement is a well-known ill-posed inverse problem. The Iterative Reconstruction (IR) algorithm is a solution to inverse problems. However, recent IR methods require paired data and the approximation of the inverse projection matrix. To address those problems, we present Latent Diffusion Iterative Reconstruction (LDIR), a pioneering zero-shot method that extends IR with a pre-trained Latent Diffusion Model (LDM) as a accurate and efficient data prior. By approximating the prior distribution with an unconditional latent diffusion model, LDIR is the first method to successfully integrate iterative reconstruction and LDM in an unsupervised manner. LDIR makes the reconstruction of high-resolution images more efficient. Moreover, LDIR utilizes the gradient from the data-fidelity term to guide the sampling process of the LDM, therefore, LDIR does not need the approximation of the inverse projection matrix and can solve various CT reconstruction tasks with a single model. Additionally, for enhancing the sample consistency of the reconstruction, we introduce a novel approach that uses historical gradient information to guide the gradient. Our experiments on extremely sparse CT data reconstruction tasks show that LDIR outperforms other state-of-the-art unsupervised and even exceeds supervised methods, establishing it as a leading technique in terms of both quantity and quality. Furthermore, LDIR also achieves competitive performance on nature image tasks. It is worth noting that LDIR also exhibits significantly faster execution times and lower memory consumption compared to methods with similar network settings. Our code will be publicly available.
翻訳日:2023-07-25 18:08:56 公開日:2023-07-22
# リプレイ:カジュアルホログラフィーのためのマルチモーダル・マルチビュー動画

Replay: Multi-modal Multi-view Acted Videos for Casual Holography ( http://arxiv.org/abs/2307.12067v1 )

ライセンス: Link先を確認
Roman Shapovalov, Yanir Kleiman, Ignacio Rocco, David Novotny, Andrea Vedaldi, Changan Chen, Filippos Kokkinos, Ben Graham, Natalia Neverova(参考訳) Replayは、社会的に対話する人間のマルチビュー、マルチモーダルビデオのコレクションである。 それぞれのシーンは、いくつかの静的カメラとウェアラブルアクションカメラで異なる視点から高画質で撮影され、部屋のさまざまな位置にある多数のマイクで録画される。 全体として、データセットには4000分以上の映像と、700万以上のタイムスタンプ付き高解像度フレームにカメラのポーズと部分的に前景マスクが付加されている。 Replayデータセットには、新規ビュー合成、3D再構成、新規ビュー音響合成、人体と顔の分析、生成モデルの訓練など、多くの潜在的な応用がある。 異なる難易度の2つのシナリオを用いて,新規視点合成の訓練と評価のためのベンチマークを提供する。 最後に、新しいベンチマークに基づいて、いくつかのベースライン・オブ・ザ・アーティカルな手法を評価する。

We introduce Replay, a collection of multi-view, multi-modal videos of humans interacting socially. Each scene is filmed in high production quality, from different viewpoints with several static cameras, as well as wearable action cameras, and recorded with a large array of microphones at different positions in the room. Overall, the dataset contains over 4000 minutes of footage and over 7 million timestamped high-resolution frames annotated with camera poses and partially with foreground masks. The Replay dataset has many potential applications, such as novel-view synthesis, 3D reconstruction, novel-view acoustic synthesis, human body and face analysis, and training generative models. We provide a benchmark for training and evaluating novel-view synthesis, with two scenarios of different difficulty. Finally, we evaluate several baseline state-of-the-art methods on the new benchmark.
翻訳日:2023-07-25 18:08:31 公開日:2023-07-22
# フェアネス制約付きスペクトル正規化カットグラフ分割

Spectral Normalized-Cut Graph Partitioning with Fairness Constraints ( http://arxiv.org/abs/2307.12065v1 )

ライセンス: Link先を確認
Jia Li, Yanhao Wang, Arpit Merchant(参考訳) 正規化カットグラフパーティショニングは、グラフ内のノードの集合を$k$disjointクラスタに分割し、任意のクラスタと他のすべてのクラスタ間のエッジの比率を最小化することを目的としている。 本稿では,ノードの分類に敏感な属性(性別や人種など)を特徴とし,異なる集団へのメンバシップを示す分断問題の公正な変種を考察する。 私たちの目標は、正規化されたカット値を最小化しながら、各グループが各クラスタにほぼ比例的に表現されることを保証することです。 この問題を解決するために, fnmと呼ばれる2相スペクトルアルゴリズムを提案する。 第1段階では、より公正なスペクトルノードの埋め込みを得る目的関数に、我々の公正度基準に基づく拡張ラグランジアン項を付加する。 そして、第2フェーズでは、公平性と分割品質を効果的にトレードオフするフェア埋め込みから$k$クラスタを生成する丸めスキームを設計します。 9つのベンチマークデータセットを包括的に実験した結果,3つのベースライン法と比較して,fnmの優れた性能を示す。

Normalized-cut graph partitioning aims to divide the set of nodes in a graph into $k$ disjoint clusters to minimize the fraction of the total edges between any cluster and all other clusters. In this paper, we consider a fair variant of the partitioning problem wherein nodes are characterized by a categorical sensitive attribute (e.g., gender or race) indicating membership to different demographic groups. Our goal is to ensure that each group is approximately proportionally represented in each cluster while minimizing the normalized cut value. To resolve this problem, we propose a two-phase spectral algorithm called FNM. In the first phase, we add an augmented Lagrangian term based on our fairness criteria to the objective function for obtaining a fairer spectral node embedding. Then, in the second phase, we design a rounding scheme to produce $k$ clusters from the fair embedding that effectively trades off fairness and partition quality. Through comprehensive experiments on nine benchmark datasets, we demonstrate the superior performance of FNM compared with three baseline methods.
翻訳日:2023-07-25 18:08:16 公開日:2023-07-22
# 潜在ランドマークグラフを用いた階層的強化学習における探索と爆発のバランス

Balancing Exploration and Exploitation in Hierarchical Reinforcement Learning via Latent Landmark Graphs ( http://arxiv.org/abs/2307.12063v1 )

ライセンス: Link先を確認
Qingyang Zhang, Yiming Yang, Jingqing Ruan, Xuantang Xiong, Dengpeng Xing, Bo Xu(参考訳) 目標条件階層強化学習(gchrl)は、強化学習における探索・探索ジレンマに対処するための有望なパラダイムである。 ソースタスクをサブゴール条件のサブタスクに分解し、サブゴール空間での探索と利用を行う。 GCHRLの有効性は、サブゴール表現関数とサブゴール選択戦略に大きく依存している。 しかし、既存の研究は、潜伏したサブゴール表現を学習する際にGCHRLの時間的コヒーレンスを見落とし、探索と利用のバランスをとる効率的なサブゴール選択戦略を欠いている。 本稿では,これらの制約を克服するために,潜在ランドマークグラフ(HILL)を動的に構築する階層的強化学習を提案する。 HILLは、コントラッシブな表現学習目標を用いて、時間的コヒーレンスを満たす潜在サブゴナル表現を学習する。 これらの表現に基づき、ヒルは動的に潜在ランドマークグラフを構築し、ノードのノベルティ測度とエッジのユーティリティ測度を用いる。 最後に、HILLは、両方の措置を共同で検討することで、探索と搾取のバランスをとるサブゴール選択戦略を開発する。 実験の結果,hillはサンプル効率と漸近的性能において,連続制御タスクにおける最先端のベースラインよりも低い効果を示した。 私たちのコードはhttps://github.com/papercode2022/hillで利用可能です。

Goal-Conditioned Hierarchical Reinforcement Learning (GCHRL) is a promising paradigm to address the exploration-exploitation dilemma in reinforcement learning. It decomposes the source task into subgoal conditional subtasks and conducts exploration and exploitation in the subgoal space. The effectiveness of GCHRL heavily relies on subgoal representation functions and subgoal selection strategy. However, existing works often overlook the temporal coherence in GCHRL when learning latent subgoal representations and lack an efficient subgoal selection strategy that balances exploration and exploitation. This paper proposes HIerarchical reinforcement learning via dynamically building Latent Landmark graphs (HILL) to overcome these limitations. HILL learns latent subgoal representations that satisfy temporal coherence using a contrastive representation learning objective. Based on these representations, HILL dynamically builds latent landmark graphs and employs a novelty measure on nodes and a utility measure on edges. Finally, HILL develops a subgoal selection strategy that balances exploration and exploitation by jointly considering both measures. Experimental results demonstrate that HILL outperforms state-of-the-art baselines on continuous control tasks with sparse rewards in sample efficiency and asymptotic performance. Our code is available at https://github.com/papercode2022/HILL.
翻訳日:2023-07-25 18:08:00 公開日:2023-07-22
# 時間共役摂動を扱うゲーム理論ロバスト強化学習

Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations ( http://arxiv.org/abs/2307.12062v1 )

ライセンス: Link先を確認
Yongyuan Liang, Yanchao Sun, Ruijie Zheng, Xiangyu Liu, Tuomas Sandholm, Furong Huang and Stephen McAleer(参考訳) ロバスト強化学習(RL)は、環境の摂動や敵の攻撃でうまく機能する政策を訓練することを目指している。 既存のアプローチでは、典型的には摂動の空間は時間経過で同じであると仮定する。 しかし、多くの設定において、ある時間ステップで起こりうる摂動の空間は過去の摂動に依存する。 我々は,時間結合型摂動法を正式に導入し,既存のロバストな rl 法に対する新しい挑戦を提示した。 この課題に取り組むために,時間結合型ロバストrl問題を部分観測可能な2人プレイのゼロサムゲームとして扱う,新しいゲーム理論のgradを提案する。 このゲームで近似平衡を見つけることで、GRADは時間的に結合した摂動に対するエージェントの堅牢性を保証する。 種々の連続制御タスクに関する実証実験により,提案手法は,状態空間と行動空間の両方において,標準的および時間的に結合した攻撃に対するベースラインと比較して,有意な堅牢性を示すことを示した。

Robust reinforcement learning (RL) seeks to train policies that can perform well under environment perturbations or adversarial attacks. Existing approaches typically assume that the space of possible perturbations remains the same across timesteps. However, in many settings, the space of possible perturbations at a given timestep depends on past perturbations. We formally introduce temporally-coupled perturbations, presenting a novel challenge for existing robust RL methods. To tackle this challenge, we propose GRAD, a novel game-theoretic approach that treats the temporally-coupled robust RL problem as a partially-observable two-player zero-sum game. By finding an approximate equilibrium in this game, GRAD ensures the agent's robustness against temporally-coupled perturbations. Empirical experiments on a variety of continuous control tasks demonstrate that our proposed approach exhibits significant robustness advantages compared to baselines against both standard and temporally-coupled attacks, in both state and action spaces.
翻訳日:2023-07-25 18:07:37 公開日:2023-07-22
# グラフィックス処理ユニットを用いた知識グラフの高速補完

Fast Knowledge Graph Completion using Graphics Processing Units ( http://arxiv.org/abs/2307.12059v1 )

ライセンス: Link先を確認
Chun-Hee Lee, Dong-oh Kang, Hwa Jeon Song(参考訳) 知識グラフは、質問応答システム、知識ベースシステムなど、データセマンティクスに関連する多くの領域で利用することができる。 しかし、現在構築されている知識グラフは、関係の観点からより良い知識のために補足する必要がある。 これを知識グラフ補完と呼ぶ。 知識グラフ埋め込みモデルを用いて、既存の知識グラフに新たな関係性を加えるためには、$N\times N \times R$ vector operation, where $N$ is the number of entity and $R$ is the number of relation types。 非常に費用がかかる。 本稿では,知識グラフ埋め込みベクトルを用いた新しい関係を得るための,GPU上での効率的な知識グラフ補完フレームワークを提案する。 提案フレームワークでは,まず「計量空間に変換可能」を定義し,次に「計量空間に変換可能」なモデルに対して,知識グラフ補完問題を類似結合問題に変換する方法を提案する。 その後、類似性結合問題を効率的に処理するために、計量空間の性質を用いて公式を導出する。 式に基づいて,高速知識グラフ補完アルゴリズムを開発した。 最後に,本フレームワークが知識グラフ補完問題を効率的に処理できることを実験的に示す。

Knowledge graphs can be used in many areas related to data semantics such as question-answering systems, knowledge based systems. However, the currently constructed knowledge graphs need to be complemented for better knowledge in terms of relations. It is called knowledge graph completion. To add new relations to the existing knowledge graph by using knowledge graph embedding models, we have to evaluate $N\times N \times R$ vector operations, where $N$ is the number of entities and $R$ is the number of relation types. It is very costly. In this paper, we provide an efficient knowledge graph completion framework on GPUs to get new relations using knowledge graph embedding vectors. In the proposed framework, we first define "transformable to a metric space" and then provide a method to transform the knowledge graph completion problem into the similarity join problem for a model which is "transformable to a metric space". After that, to efficiently process the similarity join problem, we derive formulas using the properties of a metric space. Based on the formulas, we develop a fast knowledge graph completion algorithm. Finally, we experimentally show that our framework can efficiently process the knowledge graph completion problem.
翻訳日:2023-07-25 18:07:21 公開日:2023-07-22
# ビデオ質問応答のための時空間規則の発見

Discovering Spatio-Temporal Rationales for Video Question Answering ( http://arxiv.org/abs/2307.12058v1 )

ライセンス: Link先を確認
Yicong Li, Junbin Xiao, Chun Feng, Xiang Wang, Tat-Seng Chua(参考訳) 本稿では,複数のオブジェクトやイベントを異なる時間に含む長編映像を特徴とする複雑なビデオ質問応答(VideoQA)の解決を試みる。 この課題に対処するために,大量のビデオコンテンツから質問クリティカルな時間的モーメントと空間的オブジェクトを特定することの重要性を強調した。 そこで,我々は時空間合理化 (str) を提案する。このモジュールは相互モーダル相互作用を用いて,質問クリティカルなモーメントやオブジェクトを適応的に収集する。 見つかったビデオモーメントとオブジェクトは、答えの推論をサポートする根拠として提供されます。 さらにSTRをベースとして,STRをコアとするトランスフォーマースタイルのニューラルネットワークアーキテクチャであるTranSTRを提案する。 4つのデータセットの実験は、TrranSTRが新しい最先端(SoTA)を達成することを示している。 特に、複雑なビデオQAを特徴とするNEXT-QAとCausal-VidQAでは、以前のSoTAをそれぞれ5.8\%と6.8\%に大きく上回っている。 次に、STRの重要性と、提案する応答相互作用機構の検証について広範な研究を行う。 TranSTRの成功と包括的分析によって、この取り組みが、複雑なビデオQAにおけるより将来の取り組みを刺激することを期待しています。 コードはhttps://github.com/yl3800/transtrでリリースされる。

This paper strives to solve complex video question answering (VideoQA) which features long video containing multiple objects and events at different time. To tackle the challenge, we highlight the importance of identifying question-critical temporal moments and spatial objects from the vast amount of video content. Towards this, we propose a Spatio-Temporal Rationalization (STR), a differentiable selection module that adaptively collects question-critical moments and objects using cross-modal interaction. The discovered video moments and objects are then served as grounded rationales to support answer reasoning. Based on STR, we further propose TranSTR, a Transformer-style neural network architecture that takes STR as the core and additionally underscores a novel answer interaction mechanism to coordinate STR for answer decoding. Experiments on four datasets show that TranSTR achieves new state-of-the-art (SoTA). Especially, on NExT-QA and Causal-VidQA which feature complex VideoQA, it significantly surpasses the previous SoTA by 5.8\% and 6.8\%, respectively. We then conduct extensive studies to verify the importance of STR as well as the proposed answer interaction mechanism. With the success of TranSTR and our comprehensive analysis, we hope this work can spark more future efforts in complex VideoQA. Code will be released at https://github.com/yl3800/TranSTR.
翻訳日:2023-07-25 18:07:01 公開日:2023-07-22
# ディープニューラルネットワークを用いた低コスト赤外線カメラの温度推定

Improving temperature estimation in low-cost infrared cameras using deep neural networks ( http://arxiv.org/abs/2307.12130v1 )

ライセンス: Link先を確認
Navot Oz, Nir Sochen, David Mendelovich, Iftach Klapp(参考訳) 低コストのサーマルカメラは不正確(通常$\pm 3^\circ C$)で、検出器全体で空間変動の非均一性を持つ。 不正確さと不均一さは、カメラの周囲温度に依存する。 この研究の主な目標は、低コストカメラの温度精度を改善し、不均一性を正すことであった。 環境温度を考慮した非均一性シミュレータを開発した。 画像取得時の環境温度を組み込んだエンドツーエンドニューラルネットワークが導入された。 ニューラルネットワークは、シミュレーションされた非一様性データを用いて訓練され、物体の温度を推定し、カメラ自体によって測定された単一の画像と周囲温度のみを用いて不均一性を補正した。 その結果, 提案手法は, 従来よりも平均温度誤差を約1^\circ C$に下げることができた。 さらに、ネットワークに物理的な制約を適用することで、エラーを4.5%のコストで削減した。 検証データセットの平均温度誤差は0.37^\circ C$であった。 この手法はフィールド内の実データに基づいて検証し,等価な結果を得た。

Low-cost thermal cameras are inaccurate (usually $\pm 3^\circ C$) and have space-variant nonuniformity across their detector. Both inaccuracy and nonuniformity are dependent on the ambient temperature of the camera. The main goal of this work was to improve the temperature accuracy of low-cost cameras and rectify the nonuniformity. A nonuniformity simulator that accounts for the ambient temperature was developed. An end-to-end neural network that incorporates the ambient temperature at image acquisition was introduced. The neural network was trained with the simulated nonuniformity data to estimate the object's temperature and correct the nonuniformity, using only a single image and the ambient temperature measured by the camera itself. Results show that the proposed method lowered the mean temperature error by approximately $1^\circ C$ compared to previous works. In addition, applying a physical constraint on the network lowered the error by an additional $4\%$. The mean temperature error over an extensive validation dataset was $0.37^\circ C$. The method was verified on real data in the field and produced equivalent results.
翻訳日:2023-07-25 18:01:38 公開日:2023-07-22
# 道路上のAI:スマートシティにおける交通事故と事故検知システムに関する総合分析

AI on the Road: A Comprehensive Analysis of Traffic Accidents and Accident Detection System in Smart Cities ( http://arxiv.org/abs/2307.12128v1 )

ライセンス: Link先を確認
Victor Adewopo, Nelly Elsayed, Zag Elsayed, Murat Ozer, Victoria Wangia-Anderson, Ahmed Abdelgawad(参考訳) 事故検出と交通分析は、事故発生頻度、重大度、交通管理全体の改善を可能にするスマートシティと自律交通システムの重要な要素である。 本稿では,国家道路交通安全局(NHTSA)の事故報告サンプリングシステム(CRSS)のデータを用いて,米国各地における交通事故の包括的分析を行う。 本稿では,交通事故検知と交通分析の課題に対処するために,交通監視カメラと行動認識システムを用いて事故を自発的に検出・対応する枠組みを提案する。 提案されたフレームワークと緊急サービスを統合することで、交通カメラと機械学習アルゴリズムのパワーを活用して、交通事故への対応とヒューマンエラーの削減に効率的なソリューションを作成することができる。 スマートシティにおける事故検出システムのような高度なインテリジェンス技術は、交通管理と交通事故の深刻度を改善する。 本研究は、米国における交通事故に関する貴重な知見を提供し、交通システムの安全性と効率を高めるための実践的な解決策を提供する。

Accident detection and traffic analysis is a critical component of smart city and autonomous transportation systems that can reduce accident frequency, severity and improve overall traffic management. This paper presents a comprehensive analysis of traffic accidents in different regions across the United States using data from the National Highway Traffic Safety Administration (NHTSA) Crash Report Sampling System (CRSS). To address the challenges of accident detection and traffic analysis, this paper proposes a framework that uses traffic surveillance cameras and action recognition systems to detect and respond to traffic accidents spontaneously. Integrating the proposed framework with emergency services will harness the power of traffic cameras and machine learning algorithms to create an efficient solution for responding to traffic accidents and reducing human errors. Advanced intelligence technologies, such as the proposed accident detection systems in smart cities, will improve traffic management and traffic accident severity. Overall, this study provides valuable insights into traffic accidents in the US and presents a practical solution to enhance the safety and efficiency of transportation systems.
翻訳日:2023-07-25 18:01:22 公開日:2023-07-22
# 多体系の秩序相における絡み合い非対称性:イジング場理論

Entanglement asymmetry in the ordered phase of many-body systems: the Ising Field Theory ( http://arxiv.org/abs/2307.12127v1 )

ライセンス: Link先を確認
Luca Capizzi, Michele Mazzoni(参考訳) 量子多体系の大域的対称性は自発的に破られる。 このメカニズムが発生すると、基底状態は縮退し、順序付けられた位相に遭遇する。 本研究の目的は,特定の領域の絡み合い非対称性を調べることで,この現象を解明することである。 u(1)$ 対称性の破れという文脈で最近導入されたこの量は、任意の有限群 $g$ を包含するように拡張される。 また、ツイスト演算子を用いたレプリカ理論における場理論の枠組みも確立する。 1+1次元のイジング場理論の順序相における我々の構成を明確に示し、$\mathbb{Z}_2$対称性が自発的に破れ、合成ねじれ場の族を特徴づけるためにフォームファクタブートストラップアプローチを用いる。 区間の長さが大きくなるにつれて、イジングモデルにおける区間の絡み合い非対称性を解析的に予測する。 また、多種多様な状態に対して有効であると考えられる絡み合い非対称性と退化空孔の数に関する一般予想を提案し、いくつかのケースで明確に証明する。

Global symmetries of quantum many-body systems can be spontaneously broken. Whenever this mechanism happens, the ground state is degenerate and one encounters an ordered phase. In this study, our objective is to investigate this phenomenon by examining the entanglement asymmetry of a specific region. This quantity, which has recently been introduced in the context of $U(1)$ symmetry breaking, is extended to encompass arbitrary finite groups $G$. We also establish a field theoretic framework in the replica theory using twist operators. We explicitly demonstrate our construction in the ordered phase of the Ising field theory in 1+1 dimensions, where a $\mathbb{Z}_2$ symmetry is spontaneously broken, and we employ a form factor bootstrap approach to characterise a family of composite twist fields. Analytical predictions are provided for the entanglement asymmetry of an interval in the Ising model as the length of the interval becomes large. We also propose a general conjecture relating the entanglement asymmetry and the number of degenerate vacua, expected to be valid for a large class of states, and we prove it explicitly in some cases.
翻訳日:2023-07-25 18:01:03 公開日:2023-07-22
# 拡散-生成逆数ネットワークを用いたBatikモチーフの合成

Synthesis of Batik Motifs using a Diffusion -- Generative Adversarial Network ( http://arxiv.org/abs/2307.12122v1 )

ライセンス: Link先を確認
One Octadion, Novanto Yudistira, Diva Kurnianingtyas(参考訳) 芸術と工芸のユニークなブレンドであるバティックは、インドネシア社会の芸術的、技術的に異なる創造物である。 batikモチーフの研究は主に分類に焦点を当てている。 しかし、さらなる研究はバティックパターンの合成にまで及ぶかもしれない。 generative adversarial network (gans) は、合成データを生成する上で重要なディープラーニングモデルであるが、結果の安定性と一貫性においてしばしば課題に直面している。 本研究は,StyleGAN2-AdaおよびDiffusion技術を用いて,現実的で高品質な合成バティックパターンを生成することに焦点を当てる。 StyleGAN2-Adaは、画像のスタイルと内容の側面を分離するGANモデルのバリエーションである。 batik の文脈では、stylegan2-ada と diffusion は現実的な合成 batik パターンを生成するために使われる。 この研究はモデルアーキテクチャの調整も行い、よく計算されたバティックデータセットを使用した。 主な目標は、バティックデザイナーや職人が独特で高品質なバティックモチーフを効率的な生産時間とコストで生産することを支援することである。 定性的かつ定量的な評価結果から,本モデルでは,より細かな細部と豊かな芸術的バリエーションで,真正かつ高品質なバティックパターンを生成可能であることが示された。 データセットとコードはここでアクセスできる。https://github.com/octadion/diffusion-stylegan2-ada-pytorch

Batik, a unique blend of art and craftsmanship, is a distinct artistic and technological creation for Indonesian society. Research on batik motifs is primarily focused on classification. However, further studies may extend to the synthesis of batik patterns. Generative Adversarial Networks (GANs) have been an important deep learning model for generating synthetic data, but often face challenges in the stability and consistency of results. This research focuses on the use of StyleGAN2-Ada and Diffusion techniques to produce realistic and high-quality synthetic batik patterns. StyleGAN2-Ada is a variation of the GAN model that separates the style and content aspects in an image, whereas diffusion techniques introduce random noise into the data. In the context of batik, StyleGAN2-Ada and Diffusion are used to produce realistic synthetic batik patterns. This study also made adjustments to the model architecture and used a well-curated batik dataset. The main goal is to assist batik designers or craftsmen in producing unique and quality batik motifs with efficient production time and costs. Based on qualitative and quantitative evaluations, the results show that the model tested is capable of producing authentic and quality batik patterns, with finer details and rich artistic variations. The dataset and code can be accessed here:https://github.com/octadion/diffusion-stylegan2-ada-pytorch
翻訳日:2023-07-25 18:00:45 公開日:2023-07-22
# アベリア集団行動の量子マネー

Quantum Money from Abelian Group Actions ( http://arxiv.org/abs/2307.12120v1 )

ライセンス: Link先を確認
Mark Zhandry(参考訳) 我々は、公鍵量子マネーの候補構築と、アーベル群作用から量子雷と呼ばれる強化版を与え、楕円曲線上の適切な等質性から構築することができる。 我々は,本手法が適切な群行動に関する新たな仮定の下で安全であることを証明した。

We give a candidate construction of public key quantum money, and even a strengthened version called quantum lightning, from abelian group actions, which can in turn be constructed from suitable isogenies over elliptic curves. We prove our scheme is secure under new but plausible assumptions on suitable group actions.
翻訳日:2023-07-25 18:00:22 公開日:2023-07-22
# 低オーバーラップを有するピラミッドセマンティックグラフに基づくグローバルポイントクラウド登録

Pyramid Semantic Graph-based Global Point Cloud Registration with Low Overlap ( http://arxiv.org/abs/2307.12116v1 )

ライセンス: Link先を確認
Zhijian Qiao, Zehuan Yu, Huan Yin and Shaojie Shen(参考訳) グローバルポイントクラウドの登録は、ループ閉鎖や再ローカライゼーションといった多くのロボティクスタスクにおいて不可欠である。 残念なことに、この登録は、しばしば点雲間の重複が低く、閉塞や視点の変化による実践的な応用で頻繁に発生する。 本稿では,グローバルポイントクラウド登録の問題に,重複度が低いグラフ理論フレームワークを提案する。 そこで本研究では,堅牢なデータアソシエーションを容易にするための一貫性グラフを構築し,最先端(sota)手法に従って,信頼性の高いポーズ推定のために大学院非凸性(gnc)を採用する。 従来のアプローチとは異なり、我々は意味的な手がかりを使って高密度の点雲をスケールダウンし、問題のサイズを小さくする。 さらに,複数レベル一貫性しきい値を持つピラミッドグラフを構築し,一貫性しきい値から生じる曖昧性に対処する。 そこで我々は,最も高密度な斜め問題の解法としてカスケード勾配上昇法を提案し,一貫性しきい値毎に複数のポーズ候補を求める。 最後に、複数のポーズ候補から最適推定を選択するために高速幾何検証を用いる。 本手法は,自己収集型屋内データセットと公開kittiデータセットを用いて実施した実験により,点雲の重なりや意味的品質の低下にもかかわらず,最も高い成功率が得られることを示す。 私たちはこのプロジェクトのためにhttps://github.com/HKUST-Aerial-Robotics/Pagorをオープンソース化しました。

Global point cloud registration is essential in many robotics tasks like loop closing and relocalization. Unfortunately, the registration often suffers from the low overlap between point clouds, a frequent occurrence in practical applications due to occlusion and viewpoint change. In this paper, we propose a graph-theoretic framework to address the problem of global point cloud registration with low overlap. To this end, we construct a consistency graph to facilitate robust data association and employ graduated non-convexity (GNC) for reliable pose estimation, following the state-of-the-art (SoTA) methods. Unlike previous approaches, we use semantic cues to scale down the dense point clouds, thus reducing the problem size. Moreover, we address the ambiguity arising from the consistency threshold by constructing a pyramid graph with multi-level consistency thresholds. Then we propose a cascaded gradient ascend method to solve the resulting densest clique problem and obtain multiple pose candidates for every consistency threshold. Finally, fast geometric verification is employed to select the optimal estimation from multiple pose candidates. Our experiments, conducted on a self-collected indoor dataset and the public KITTI dataset, demonstrate that our method achieves the highest success rate despite the low overlap of point clouds and low semantic quality. We have open-sourced our code https://github.com/HKUST-Aerial-Robotics/Pagor for this project.
翻訳日:2023-07-25 18:00:17 公開日:2023-07-22
# パーソナライズされた医療の革命: モバイルaigcによる人間のデジタル双子の実現

A Revolution of Personalized Healthcare: Enabling Human Digital Twin with Mobile AIGC ( http://arxiv.org/abs/2307.12115v1 )

ライセンス: Link先を確認
Jiayuan Chen, Changyan Yi, Hongyang Du, Dusit Niyato, Jiawen Kang, Jun Cai, Xuemin (Sherman) Shen(参考訳) Mobile Artificial Intelligence-Generated Content (AIGC)技術は、エンドユーザの要求を満たしながら、情報生成プロセスを自動化するために、モバイルエッジネットワークにデプロイされたAIアルゴリズムの採用を指す。 モバイルAIGCは最近、驚くべき注目を集め、Human Digital twin (HDT)と呼ばれる新興アプリケーションにとって重要な技術になり得る。 モバイルAIGCによって強化されたHDTは、まれな疾患データを生成し、高忠実なデジタルツインをモデル化し、多目的テストベッドを構築し、24/7のカスタマイズ医療サービスを提供することで、パーソナライズされたヘルスケアに革命をもたらすことが期待されている。 本稿では,この新たなパラダイムの開発を促進するために,モバイルAIGC駆動HDTのシステムアーキテクチャを提案し,対応する設計要件と課題を強調する。 さらに、カスタマイズ手術計画とパーソナライズド医薬品におけるモバイルAIGC駆動HDTの2つのユースケースについて説明する。 さらに,提案する移動型AIGC駆動型HDTソリューションの有効性を実証するために実験を行った。 最後に、いくつかのオープンな問題と今後の方向性を簡潔に議論することで、この記事を締めくくります。

Mobile Artificial Intelligence-Generated Content (AIGC) technology refers to the adoption of AI algorithms deployed at mobile edge networks to automate the information creation process while fulfilling the requirements of end users. Mobile AIGC has recently attracted phenomenal attentions and can be a key enabling technology for an emerging application, called human digital twin (HDT). HDT empowered by the mobile AIGC is expected to revolutionize the personalized healthcare by generating rare disease data, modeling high-fidelity digital twin, building versatile testbeds, and providing 24/7 customized medical services. To promote the development of this new breed of paradigm, in this article, we propose a system architecture of mobile AIGC-driven HDT and highlight the corresponding design requirements and challenges. Moreover, we illustrate two use cases, i.e., mobile AIGC-driven HDT in customized surgery planning and personalized medication. In addition, we conduct an experimental study to prove the effectiveness of the proposed mobile AIGC-driven HDT solution, which shows a particular application in a virtual physical therapy teaching platform. Finally, we conclude this article by briefly discussing several open issues and future directions.
翻訳日:2023-07-25 17:59:50 公開日:2023-07-22
# 臨床・生物医学的課題に応用した指導対象大型言語モデルのゼロショット・マイノショットによる検討

A Zero-shot and Few-shot Study of Instruction-Finetuned Large Language Models Applied to Clinical and Biomedical Tasks ( http://arxiv.org/abs/2307.12114v1 )

ライセンス: Link先を確認
Yanis Labrak, Mickael Rouvier, Richard Dufour(参考訳) 我々は、英語の13の現実的臨床・バイオメディカル自然言語処理(NLP)タスク(NER)、質問応答(QA)、関係抽出(RE)など、最先端の4つの言語モデル(ChatGPT、Flan-T5 UL2、Tk-Instruct、Alpaca)を評価する。 我々の総合的な結果は、評価されたLLMが、ほとんどのタスク、特にQAタスクにおいてゼロおよび少数ショットシナリオにおける最先端モデルの性能にアプローチし始めたことを示している。 しかし, PubMedBERT などの医療分野において, 特定の訓練を施したモデルを用いて, 分類とREタスクが達成できることが観察された。 最後に、調査対象のタスクでllmが他のすべてのタスクを上回ることはなく、一部のモデルは他のタスクよりも適している点に注意した。

We evaluate four state-of-the-art instruction-tuned large language models (LLMs) -- ChatGPT, Flan-T5 UL2, Tk-Instruct, and Alpaca -- on a set of 13 real-world clinical and biomedical natural language processing (NLP) tasks in English, such as named-entity recognition (NER), question-answering (QA), relation extraction (RE), etc. Our overall results demonstrate that the evaluated LLMs begin to approach performance of state-of-the-art models in zero- and few-shot scenarios for most tasks, and particularly well for the QA task, even though they have never seen examples from these tasks before. However, we observed that the classification and RE tasks perform below what can be achieved with a specifically trained model for the medical field, such as PubMedBERT. Finally, we noted that no LLM outperforms all the others on all the studied tasks, with some models being better suited for certain tasks than others.
翻訳日:2023-07-25 17:59:29 公開日:2023-07-22
# 不正確な境界箱を用いた物体検出のための空間自己蒸留

Spatial Self-Distillation for Object Detection with Inaccurate Bounding Boxes ( http://arxiv.org/abs/2307.12101v1 )

ライセンス: Link先を確認
Di Wu and Pengfei Chen and Xuehui Yu and Guorong Li and Zhenjun Han and Jianbin Jiao(参考訳) 不正確なバウンディングボックスによるオブジェクト検出は、高価なハイクオリティなアノテーションデータや、低いアノテーション品質(例えば小さなオブジェクト)の必然性によって、幅広い関心を集めている。 以前の研究は通常、カテゴリ情報に大きく依存するマルチインスタンス学習(MIL)を使用して、低品質のボックスを選択して洗練する。 これらの手法は空間情報を探索することなく物体のドリフト、グループ予測、部分支配問題に悩まされる。 本稿では,空間情報をマイニングし,不正確な箱を自己蒸留方式で精製する \textbf{spatial self-distillation based object detector (ssd-det") を提案する。 ssd-det は空間的位置自己蒸留 \textbf{(spsd)} モジュールを使用して空間情報と対話的構造を利用して空間情報とカテゴリ情報を組み合わせて高品質な提案バッグを構築する。 選択手順をさらに改善するため、SSD-DetにSpatial Identity Self-Distillation \textbf{(SISD)モジュールを導入し、空間信頼を得、最適な提案を選択する。 ノイズボックスアノテーションを用いたMS-COCOおよびVOCデータセットの実験により,本手法の有効性を確認し,最先端の性能を実現する。 コードはhttps://github.com/ucas-vg/PointTinyBenchmark/tree/SSD-Detで公開されている。

Object detection via inaccurate bounding boxes supervision has boosted a broad interest due to the expensive high-quality annotation data or the occasional inevitability of low annotation quality (\eg tiny objects). The previous works usually utilize multiple instance learning (MIL), which highly depends on category information, to select and refine a low-quality box. Those methods suffer from object drift, group prediction and part domination problems without exploring spatial information. In this paper, we heuristically propose a \textbf{Spatial Self-Distillation based Object Detector (SSD-Det)} to mine spatial information to refine the inaccurate box in a self-distillation fashion. SSD-Det utilizes a Spatial Position Self-Distillation \textbf{(SPSD)} module to exploit spatial information and an interactive structure to combine spatial information and category information, thus constructing a high-quality proposal bag. To further improve the selection procedure, a Spatial Identity Self-Distillation \textbf{(SISD)} module is introduced in SSD-Det to obtain spatial confidence to help select the best proposals. Experiments on MS-COCO and VOC datasets with noisy box annotation verify our method's effectiveness and achieve state-of-the-art performance. The code is available at https://github.com/ucas-vg/PointTinyBenchmark/tree/SSD-Det.
翻訳日:2023-07-25 17:58:56 公開日:2023-07-22
# CFR-p:階層的政策抽象化によるファクトファクトリグレスト最小化とその2人マヒョンへの適用

CFR-p: Counterfactual Regret Minimization with Hierarchical Policy Abstraction, and its Application to Two-player Mahjong ( http://arxiv.org/abs/2307.12087v1 )

ライセンス: Link先を確認
Shiheng Wang(参考訳) Counterfactual Regret Minimization (CFR) はテキサス・ホールディングス・ポーカーで成功している。 我々はこのアルゴリズムをもう一つの不完全情報ゲームであるMahjongに適用する。 ポーカーゲームと比較して、Mahjongは多くの変種と非常に複雑である。 本研究は,ゲーム理論解析を行い,cfrに階層的抽象化を行うことにより,2人のマホンを学習する。 このフレームワークは他の不完全な情報ゲームに一般化することができる。

Counterfactual Regret Minimization(CFR) has shown its success in Texas Hold'em poker. We apply this algorithm to another popular incomplete information game, Mahjong. Compared to the poker game, Mahjong is much more complex with many variants. We study two-player Mahjong by conducting game theoretical analysis and making a hierarchical abstraction to CFR based on winning policies. This framework can be generalized to other imperfect information games.
翻訳日:2023-07-25 17:57:59 公開日:2023-07-22
# CorrFL: 異種IoT環境における不適切性を考慮した相関型ニューラルネットワークアーキテクチャ

CorrFL: Correlation-Based Neural Network Architecture for Unavailability Concerns in a Heterogeneous IoT Environment ( http://arxiv.org/abs/2307.12149v1 )

ライセンス: Link先を確認
Ibrahim Shaer, Abdallah Shami(参考訳) フェデレーション学習(fl)パラダイムは、現実の環境での応用を制限するいくつかの課題に直面している。 これらの課題には、ローカルモデルのアーキテクチャの不均一性と、接続上の問題により分散IoT(Internet of Things)ノードが利用できないことが含まれる。 これらの要因は、“利用可能なモデルが未使用モデルのトレーニングギャップをどのように満たせるか”という疑問を提起している。 この問題は、"Oblique Federated Learning"問題と呼ばれる。 この問題は、CO2濃度を予測するための分散IoTノードを含む研究環境において発生する。 本稿では,この問題に対処するための表現学習分野の影響を受け,相関型FL(CorrFL)アプローチを提案する。 CorrFL はモデルの不均一性に対処するために、様々なモデルの重みを共通の潜在空間に投影する。 その損失関数はモデルが存在しないときの復元損失を最小限に抑え、生成したモデル間の相関を最大化する。 後者の要因は、IoTデバイスの機能空間が交差しているためである。 CorrFLは、ひとつのIoTデバイスの可用性の欠如と、占有率を反映したアクティビティレベルの向上を含む、現実的なユースケースで評価されている。 新しい環境でトレーニングされた利用可能なiotデバイスから生成されたcorrflモデルは、ベンチマークモデルと呼ばれる異なるユースケースでトレーニングされたモデルと比較される。 評価基準は、予測の平均絶対誤差(MAE)と、交換データの量が予測性能改善に与える影響を組合せたものである。 包括的な実験手順を通じて、corrflモデルは基準ごとにベンチマークモデルを上回る結果となった。

The Federated Learning (FL) paradigm faces several challenges that limit its application in real-world environments. These challenges include the local models' architecture heterogeneity and the unavailability of distributed Internet of Things (IoT) nodes due to connectivity problems. These factors posit the question of "how can the available models fill the training gap of the unavailable models?". This question is referred to as the "Oblique Federated Learning" problem. This problem is encountered in the studied environment that includes distributed IoT nodes responsible for predicting CO2 concentrations. This paper proposes the Correlation-based FL (CorrFL) approach influenced by the representational learning field to address this problem. CorrFL projects the various model weights to a common latent space to address the model heterogeneity. Its loss function minimizes the reconstruction loss when models are absent and maximizes the correlation between the generated models. The latter factor is critical because of the intersection of the feature spaces of the IoT devices. CorrFL is evaluated on a realistic use case, involving the unavailability of one IoT device and heightened activity levels that reflect occupancy. The generated CorrFL models for the unavailable IoT device from the available ones trained on the new environment are compared against models trained on different use cases, referred to as the benchmark model. The evaluation criteria combine the mean absolute error (MAE) of predictions and the impact of the amount of exchanged data on the prediction performance improvement. Through a comprehensive experimental procedure, the CorrFL model outperformed the benchmark model in every criterion.
翻訳日:2023-07-25 17:49:53 公開日:2023-07-22
# 量子メカニカルリアリティ:絡み合いとデコヒーレンス

Quantum Mechanical Reality: Entanglement and Decoherence ( http://arxiv.org/abs/2307.12148v1 )

ライセンス: Link先を確認
Avijit Lahiri(参考訳) 量子論のオントロジーを、科学における古典理論とは大きく異なるものとして考察し、広義のカント学の伝統に従い、前者が我々の知覚から独立して、後者は断片的な解釈のビットによって前者から組み立てられる、名詞的な現実と現象的な現実を区別する。 量子論のオントロジーは主として、世界の実体は古典理論のように確率ではなく、量子力学状態(エンタングルメント)の微調整された位相を含む確率振幅によって相互に広く相関しているという考え方に基づいている。 量子相関は、局所的に生成された相関を取り除いた環境誘起デコヒーレンス過程においてグローバルに共有され、その除去は、古典的相関として現れるシステムにおいて特に顕著であり、その過程がほぼ瞬時であり、あらゆる可能性において、プランク・レジームの場のゆらぎによって駆動される。 このことは、プランクスケール物理学が不明瞭な地形のままであるため、その詳細を決定づける未知の性質の要因を指摘する。 言い換えれば、今日の量子論はプランクスケールによって設定された限られた文脈内で成り立つ。

We look into the ontology of quantum theory as distinct from that of the classical theory in the sciences, following a broadly Kantian tradition and distinguishing between the noumenal and phenomenal realities where the former is independent of our perception while the latter is assembled from the former by means of fragmentary bits of interpretation. Within this framework, theories are conceptual constructs applying to models generated in the phenomenal world within limited contexts.The ontology of quantum theory principally rests on the view that entities in the world are pervasively correlated with one another not by means of probabilities as in the case of the classical theory, but by means of probability amplitudes involving finely tuned phases of quantum mechanical states (entanglement). The quantum correlations are shared globally in the process of environment-induced decoherence whereby locally generated correlations are removed, the removal being especially manifest in the case of systems that appear as classical ones, in which case the process is almost instantaneous, being, in all likelihood, driven by field fluctuations in the Planck regime. This points to factors of an unknown nature determining its finest details, since Planck scale physics remains an obscure terrain. In other words, the present day quantum theory holds within a limited context set by the Planck scale.
翻訳日:2023-07-25 17:49:30 公開日:2023-07-22
# クリーンな川へのビジョン:スナップショットハイパースペクトルイメージングによるマクロ塑性リッターの検出

A Vision for Cleaner Rivers: Harnessing Snapshot Hyperspectral Imaging to Detect Macro-Plastic Litter ( http://arxiv.org/abs/2307.12145v1 )

ライセンス: Link先を確認
Nathaniel Hanson, Ahmet Demirkaya, Deniz Erdo\u{g}mu\c{s}, Aron Stubbins, Ta\c{s}k{\i}n Pad{\i}r, Tales Imbiriba(参考訳) 河川に入るプラスチック廃棄物は、生態系を害し、生態系や経済に悪影響を及ぼす。 大量のプラスチック廃棄物が内陸から海へと輸送され、地球規模で浮かぶ破片田の問題に繋がる。 この文脈では, 誤処理プラスチック廃棄物の効率的かつ自動化されたモニタリングが最重要である。 この問題に対処するために、河川のようなシナリオにおける計算画像を用いたマクロプラスチックごみ検出の可能性を分析する。 可視光-短波赤外高スペクトル画像による部分潜水プラスチックのリアルタイム追跡を可能にする。 実験は,特にハイパースペクトルデータと非線形分類器を活用する場合において,機械学習の分類手法に関連するイメージング戦略が高い検出精度をもたらすことを示唆する。 すべてのコード、データ、モデルはオンラインで入手できる。 https://github.com/river-lab/hyperspectral_macro_plastic_detection。

Plastic waste entering the riverine harms local ecosystems leading to negative ecological and economic impacts. Large parcels of plastic waste are transported from inland to oceans leading to a global scale problem of floating debris fields. In this context, efficient and automatized monitoring of mismanaged plastic waste is paramount. To address this problem, we analyze the feasibility of macro-plastic litter detection using computational imaging approaches in river-like scenarios. We enable near-real-time tracking of partially submerged plastics by using snapshot Visible-Shortwave Infrared hyperspectral imaging. Our experiments indicate that imaging strategies associated with machine learning classification approaches can lead to high detection accuracy even in challenging scenarios, especially when leveraging hyperspectral data and nonlinear classifiers. All code, data, and models are available online: https://github.com/RIVeR-Lab/hyperspectral_macro_plastic_detection.
翻訳日:2023-07-25 17:49:07 公開日:2023-07-22
# 深層強化学習における適応型概日リズムの創発

Emergence of Adaptive Circadian Rhythms in Deep Reinforcement Learning ( http://arxiv.org/abs/2307.12143v1 )

ライセンス: Link先を確認
Aqeel Labash, Florian Fletzer, Daniel Majoral, Raul Vicente(参考訳) 環境の規則性に適応することは、生物が出来事や計画を予測するために重要である。 顕著な例は、地球の自転の24ドルの時間帯の生物による内部化に対応する概日リズムである。 本研究では,深層強化学習エージェントにおける概日リズムの出現について検討する。 特に,飼料処理を解決しながら,信頼できる周期変動のある環境にエージェントを配置した。 学習中のエージェントの行動を体系的に特徴付け,内在的かつ訓練可能なリズムの出現を実証する。 興味深いことに、内部リズムは、再訓練せずに環境信号の位相の変化に適応する。 さらに,バイファーカレーションと位相応答曲線を用いて,人工ニューロンが環境リズムの内部化を支援するためにどのようにダイナミクスを発達させるかを解析した。 動的システムの観点から、適応は、エージェントのダイナミクスと環境リズムの最適な位相同期を可能にする位相応答を用いて、ニューロン力学における安定周期軌道の出現によって進行することを示す。

Adapting to regularities of the environment is critical for biological organisms to anticipate events and plan. A prominent example is the circadian rhythm corresponding to the internalization by organisms of the $24$-hour period of the Earth's rotation. In this work, we study the emergence of circadian-like rhythms in deep reinforcement learning agents. In particular, we deployed agents in an environment with a reliable periodic variation while solving a foraging task. We systematically characterize the agent's behavior during learning and demonstrate the emergence of a rhythm that is endogenous and entrainable. Interestingly, the internal rhythm adapts to shifts in the phase of the environmental signal without any re-training. Furthermore, we show via bifurcation and phase response curve analyses how artificial neurons develop dynamics to support the internalization of the environmental rhythm. From a dynamical systems view, we demonstrate that the adaptation proceeds by the emergence of a stable periodic orbit in the neuron dynamics with a phase response that allows an optimal phase synchronisation between the agent's dynamics and the environmental rhythm.
翻訳日:2023-07-25 17:48:55 公開日:2023-07-22
# SCPAT-GAN:ヒト冠動脈OCT像の仮想組織像におけるコンボリューショナルトランスフォーマー-GANの制約と病理

SCPAT-GAN: Structural Constrained and Pathology Aware Convolutional Transformer-GAN for Virtual Histology Staining of Human Coronary OCT images ( http://arxiv.org/abs/2307.12138v1 )

ライセンス: Link先を確認
Xueshen Li, Hongshan Liu, Xiaoyu Song, Brigitta C. Brott, Silvio H. Litovsky, and Yu Gan(参考訳) 冠動脈疾患の治療の指針として,冠動脈光コヒーレンス断層撮影(OCT)画像から仮想組織情報を生成することが必要である。 しかし、既存の手法では、大きなピクセル単位でペアリングされたトレーニングデータセットを必要とするか、あるいは病理領域をマッピングする能力に制限がある。 これらの課題に対処するため,OCT画像から仮想染色H&Eヒストロジーを生成するために,構造的制約に配慮したトランスフォーマー生成対向ネットワーク,すなわちSCPAT-GANを提案した。 提案するscpat-ganは, トランスフォーマリンネットワークを用いた構造層に病理的指導を課す新しい設計法により, 既存の手法を改良した。

There is a significant need for the generation of virtual histological information from coronary optical coherence tomography (OCT) images to better guide the treatment of coronary artery disease. However, existing methods either require a large pixel-wisely paired training dataset or have limited capability to map pathological regions. To address these issues, we proposed a structural constrained, pathology aware, transformer generative adversarial network, namely SCPAT-GAN, to generate virtual stained H&E histology from OCT images. The proposed SCPAT-GAN advances existing methods via a novel design to impose pathological guidance on structural layers using transformer-based network.
翻訳日:2023-07-25 17:48:40 公開日:2023-07-22
# 三次元載荷キャパシタ付き車両経路問題に対する強化学習によるアンロックカーボン還元電位

Unlocking Carbon Reduction Potential with Reinforcement Learning for the Three-Dimensional Loading Capacitated Vehicle Routing Problem ( http://arxiv.org/abs/2307.12136v1 )

ライセンス: Link先を確認
Stefan Schoepf, Stephen Mak, Julian Senoner, Liming Xu, Netland Torbj\"orn, Alexandra Brintrup(参考訳) 重品輸送車はサプライチェーン輸送システムにおいて重要なバックボーンであるが、イギリスでは60%の負荷効率しか持たない炭素排出にも寄与している。 効率を上げるためのソリューションとして、協調的な車両ルーティングが提案されているが、この可能性を秘めている。 ひとつの重要な課題は、コローディングとルーティングのための実行可能なソリューションの効率的な計算である。 現在の運用研究手法は,問題の大きさの増大に伴う非線形スケーリングに悩まされており,地理的に限られた領域に縛られ,日々の運用に要する時間を計算できる。 これによりルーティングのローカルオプティマのみが可能となり、グローバルオプティマイズの可能性は失われる。 約線形時間で3次元負荷容量化車両ルーティング問題を解くための強化学習モデルを開発した。 この問題は運用研究で広く研究されているが、強化学習による解決に関する出版物は存在しない。 強化学習モデルの好適なスケーリングを示し,最先端手法に対するルーティング性能のベンチマークを行う。 このモデルは、確立された方法と比較して平均3.83%から8.10%の範囲で実行される。 我々のモデルは、強化学習による大規模ロジスティクス最適化に向けた有望な第一歩であるだけでなく、この研究の流れの基礎でもある。

Heavy goods vehicles are vital backbones of the supply chain delivery system but also contribute significantly to carbon emissions with only 60% loading efficiency in the United Kingdom. Collaborative vehicle routing has been proposed as a solution to increase efficiency, but challenges remain to make this a possibility. One key challenge is the efficient computation of viable solutions for co-loading and routing. Current operations research methods suffer from non-linear scaling with increasing problem size and are therefore bound to limited geographic areas to compute results in time for day-to-day operations. This only allows for local optima in routing and leaves global optimisation potential untouched. We develop a reinforcement learning model to solve the three-dimensional loading capacitated vehicle routing problem in approximately linear time. While this problem has been studied extensively in operations research, no publications on solving it with reinforcement learning exist. We demonstrate the favourable scaling of our reinforcement learning model and benchmark our routing performance against state-of-the-art methods. The model performs within an average gap of 3.83% to 8.10% compared to established methods. Our model not only represents a promising first step towards large-scale logistics optimisation with reinforcement learning but also lays the foundation for this research stream.
翻訳日:2023-07-25 17:48:24 公開日:2023-07-22
# VC授業におけるマルチディストリビューション学習の複雑さ

The Sample Complexity of Multi-Distribution Learning for VC Classes ( http://arxiv.org/abs/2307.12135v1 )

ライセンス: Link先を確認
Pranjal Awasthi, Nika Haghtalab, Eric Zhao(参考訳) マルチディストリビューション学習は、PAC学習を複数のデータ分布を持つ設定に自然な一般化である。 PAC学習クラスにおける既知の上境界と下限の間には大きなギャップが残っている。 特に、$k$分布上のVC次元dクラスを$O(\epsilon^{-2} \ln(k)(d + k) + \min\{\epsilon^{-1} dk, \epsilon^{-4} \ln(k) d\})$と学習する際のサンプルの複雑さは理解しているが、最良の下限は$\Omega(\epsilon^{-2}(d + k \ln(k)))$である。 本稿では,この問題の最近の進展と,統計学習におけるゲームダイナミクスの利用の基礎となるハードルについて論じる。

Multi-distribution learning is a natural generalization of PAC learning to settings with multiple data distributions. There remains a significant gap between the known upper and lower bounds for PAC-learnable classes. In particular, though we understand the sample complexity of learning a VC dimension d class on $k$ distributions to be $O(\epsilon^{-2} \ln(k)(d + k) + \min\{\epsilon^{-1} dk, \epsilon^{-4} \ln(k) d\})$, the best lower bound is $\Omega(\epsilon^{-2}(d + k \ln(k)))$. We discuss recent progress on this problem and some hurdles that are fundamental to the use of game dynamics in statistical learning.
翻訳日:2023-07-25 17:48:03 公開日:2023-07-22
# 頑健なエンドツーエンド言語理解のためのモダリティ信頼度学習

Modality Confidence Aware Training for Robust End-to-End Spoken Language Understanding ( http://arxiv.org/abs/2307.12134v1 )

ライセンス: Link先を確認
Suyoun Kim, Akshat Shrivastava, Duc Le, Ju Lin, Ozlem Kalinli, Michael L. Seltzer(参考訳) 近年、音声から意味的パースを生成するエンドツーエンド(e2e)音声言語理解(slu)システムが有望になりつつある。 このアプローチでは、事前訓練された音声認識モデル(ASR)の音声およびテキスト表現を利用する単一モデルを使用し、デバイス上でのストリーミングシナリオにおいて従来のパイプラインSLUシステムより優れている。 しかしながら、E2E SLUシステムは、ASRの転写エラーによりテキスト表現品質が低い場合にも弱点を示す。 そこで本研究では,ASR仮説のモーダリティ信頼度を推定し,音声およびテキスト表現を融合させることにより,ASRエラーに対するロバスト性を高める新しいE2E SLUシステムを提案する。 2つの新しいテクニックを紹介します 1)ASR仮説の質を符号化し、有効な方法 2)E2E SLUモデルに統合するための効果的なアプローチ。 提案手法の有効性を示すため,STOPデータセットの精度向上と分析結果の共有を行う。

End-to-end (E2E) spoken language understanding (SLU) systems that generate a semantic parse from speech have become more promising recently. This approach uses a single model that utilizes audio and text representations from pre-trained speech recognition models (ASR), and outperforms traditional pipeline SLU systems in on-device streaming scenarios. However, E2E SLU systems still show weakness when text representation quality is low due to ASR transcription errors. To overcome this issue, we propose a novel E2E SLU system that enhances robustness to ASR errors by fusing audio and text representations based on the estimated modality confidence of ASR hypotheses. We introduce two novel techniques: 1) an effective method to encode the quality of ASR hypotheses and 2) an effective approach to integrate them into E2E SLU models. We show accuracy improvements on STOP dataset and share the analysis to demonstrate the effectiveness of our approach.
翻訳日:2023-07-25 17:47:43 公開日:2023-07-22
# 自然感性アルゴリズムを用いた経路計画

Route Planning Using Nature-Inspired Algorithms ( http://arxiv.org/abs/2307.12133v1 )

ライセンス: Link先を確認
Priyansh Saxena, Raahat Gupta, Akshat Maheshwari(参考訳) 組み合わせ最適化問題を解くための多くのヒューリスティックアルゴリズムがあり、一般にNature-Inspired Algorithms (NIAs)と呼ばれる。 一般に、それらはいくつかの自然現象に触発され、固有の収束と確率的な性質のため、古典的アプローチと比較して最適な結果を与えることが知られている。 ロボット工学における経路計画の問題 - 環境の障害を避けながら、開始から目標までの一連の翻訳と回転のステップを必要とする問題。 本章では、まずNature-Inspired Algorithmsの概要と、その分類と一般的な例を紹介する。 次に、NIAが経路計画問題をどう解決したかについて論じる。

There are many different heuristic algorithms for solving combinatorial optimization problems that are commonly described as Nature-Inspired Algorithms (NIAs). Generally, they are inspired by some natural phenomenon, and due to their inherent converging and stochastic nature, they are known to give optimal results when compared to classical approaches. There are a large number of applications of NIAs, perhaps the most popular being route planning problems in robotics - problems that require a sequence of translation and rotation steps from the start to the goal in an optimized manner while avoiding obstacles in the environment. In this chapter, we will first give an overview of Nature-Inspired Algorithms, followed by their classification and common examples. We will then discuss how the NIAs have applied to solve the route planning problem.
翻訳日:2023-07-25 17:47:27 公開日:2023-07-22
# 不均一源からの説明可能なトピック強化Argument Mining

Explainable Topic-Enhanced Argument Mining from Heterogeneous Sources ( http://arxiv.org/abs/2307.12131v1 )

ライセンス: Link先を確認
Jiasheng Si, Yingjie Zhu, Xingyu Shi, Deyu Zhou, Yulan He(参考訳) 核エネルギー」のような議論の的となっているターゲットが与えられ、異種源からの議論的なテキストを特定することを目的としている。 現在のアプローチでは、ターゲット関連セマンティック情報を議論テキストに統合するより良い方法を模索している。 経験的な成功にもかかわらず、2つの問題は未解決のままである。 (i)ターゲットは、単語又は句で表現され、多様なターゲット関連サブトピックのセットをカバーすることが不十分である。 (二)論証マイニングに欠かせないとされる議論における文レベルの話題情報は無視される。 上記の問題に取り組むために,新しい説明可能なトピックエンハンスド・議論マイニング手法を提案する。 具体的には、ニューラルトピックモデルと言語モデルを用いることで、対象情報を説明可能なトピック表現によって拡張する。 また、相互学習による潜在話題分布と意味表現との間の距離を最小化することにより、引数内の文レベルの話題情報を取得する。 ターゲット内設定とターゲット間設定の両方において、ベンチマークデータセットで実験が行われた。 その結果,提案モデルが最先端のベースラインに対して優れていることを示す。

Given a controversial target such as ``nuclear energy'', argument mining aims to identify the argumentative text from heterogeneous sources. Current approaches focus on exploring better ways of integrating the target-associated semantic information with the argumentative text. Despite their empirical successes, two issues remain unsolved: (i) a target is represented by a word or a phrase, which is insufficient to cover a diverse set of target-related subtopics; (ii) the sentence-level topic information within an argument, which we believe is crucial for argument mining, is ignored. To tackle the above issues, we propose a novel explainable topic-enhanced argument mining approach. Specifically, with the use of the neural topic model and the language model, the target information is augmented by explainable topic representations. Moreover, the sentence-level topic information within the argument is captured by minimizing the distance between its latent topic distribution and its semantic representation through mutual learning. Experiments have been conducted on the benchmark dataset in both the in-target setting and the cross-target setting. Results demonstrate the superiority of the proposed model against the state-of-the-art baselines.
翻訳日:2023-07-25 17:47:14 公開日:2023-07-22
# 数十億のパラメータを持つ大規模言語モデル学習のための最適化ネットワークアーキテクチャ

Optimized Network Architectures for Large Language Model Training with Billions of Parameters ( http://arxiv.org/abs/2307.12169v1 )

ライセンス: Link先を確認
Weiyang Wang, Manya Ghobadi, Kayvon Shakeri, Ying Zhang, Naader Hasani(参考訳) 本稿では,Large Language Models (LLMs) をトレーニングするためのネットワークを構築するための,確立されたパラダイムに挑戦する。 LLM は,GPU の小さなグループだけが,その内部で高い帯域幅の通信を必要とするようなユニークな通信パターンを示し,ほぼ最適トレーニング性能を実現する。 これらのGPUグループ全体で、通信は重要でなく、疎外であり、均一である。 LLMの通信要求によく似た新しいネットワークアーキテクチャを提案する。 我々のアーキテクチャは、クラスタをHBドメインと呼ばれる非ブロッキングな高帯域相互接続と相互接続するGPUの集合に分割する。 HBドメイン全体では、ネットワークはGPUと通信要求のみを接続する。 我々は、このネットワークを「レールのみ」接続と呼び、LLMトレーニングの性能を損なうことなく、最先端のクロースネットワークと比較して、提案アーキテクチャがネットワークコストを最大75%削減することを示す。

This paper challenges the well-established paradigm for building any-to-any networks for training Large Language Models (LLMs). We show that LLMs exhibit a unique communication pattern where only small groups of GPUs require high-bandwidth any-to-any communication within them, to achieve near-optimal training performance. Across these groups of GPUs, the communication is insignificant, sparse, and homogeneous. We propose a new network architecture that closely resembles the communication requirement of LLMs. Our architecture partitions the cluster into sets of GPUs interconnected with non-blocking any-to-any high-bandwidth interconnects that we call HB domains. Across the HB domains, the network only connects GPUs with communication demands. We call this network a "rail-only" connection, and show that our proposed architecture reduces the network cost by up to 75% compared to the state-of-the-art any-to-any Clos networks without compromising the performance of LLM training.
翻訳日:2023-07-25 17:40:58 公開日:2023-07-22
# 幻覚は教師なし視覚表現学習の性能を改善する

Hallucination Improves the Performance of Unsupervised Visual Representation Learning ( http://arxiv.org/abs/2307.12168v1 )

ライセンス: Link先を確認
Jing Wu, Jennifer Hobbs, Naira Hovakimyan(参考訳) シームズ構造に基づくコントラスト学習モデルは,自己指導型学習において顕著な性能を示した。 このような対照的な学習の成功は2つの条件、すなわち十分な数の正のペアとそれらの間の適切なバリエーションに依存している。 条件が満たされていない場合、これらのフレームワークはセマンティックコントラストが欠如し、オーバーフィッティングに脆弱である。 この2つの問題に対処するため,我々は,さらなるコントラストを得るために,さらにポジティブなサンプルを効率的に生成できる幻覚剤を提案する。 hallucinatorは差別化可能で、機能空間に新しいデータを生成する。 したがって、事前学習タスクを直接最適化し、ほとんど無視可能な計算を導入する。 さらに,ハロゲン化ペアの相互情報を低減し,非線形操作により円滑にする。 このプロセスは、トレーニング中に自信過剰なコントラスト学習モデルを避け、より変換不変な特徴埋め込みを達成するのに役立つ。 注目すべきは,提案するHalucinatorが,MoCoV1&V2,SimCLR,SimSiamなど,さまざまなコントラスト学習モデルによく適応していることである。 線形分類プロトコルでは、CIFAR10&100、Tiny ImageNet、STL-10、ImageNetの0.3%から3.0%までの安定した精度向上が達成されている。 この改善は、オブジェクト検出やセグメンテーションを含む下流タスクへのプリトレインエンコーダの転送にも見られます。

Contrastive learning models based on Siamese structure have demonstrated remarkable performance in self-supervised learning. Such a success of contrastive learning relies on two conditions, a sufficient number of positive pairs and adequate variations between them. If the conditions are not met, these frameworks will lack semantic contrast and be fragile on overfitting. To address these two issues, we propose Hallucinator that could efficiently generate additional positive samples for further contrast. The Hallucinator is differentiable and creates new data in the feature space. Thus, it is optimized directly with the pre-training task and introduces nearly negligible computation. Moreover, we reduce the mutual information of hallucinated pairs and smooth them through non-linear operations. This process helps avoid over-confident contrastive learning models during the training and achieves more transformation-invariant feature embeddings. Remarkably, we empirically prove that the proposed Hallucinator generalizes well to various contrastive learning models, including MoCoV1&V2, SimCLR and SimSiam. Under the linear classification protocol, a stable accuracy gain is achieved, ranging from 0.3% to 3.0% on CIFAR10&100, Tiny ImageNet, STL-10 and ImageNet. The improvement is also observed in transferring pre-train encoders to the downstream tasks, including object detection and segmentation.
翻訳日:2023-07-25 17:40:43 公開日:2023-07-22
# 非線形多共振キャビティ量子フォトニクスジャイロスコープ 量子光ナビゲーション

Nonlinear Multi-Resonant Cavity Quantum Photonics Gyroscopes Quantum Light Navigation ( http://arxiv.org/abs/2307.12167v1 )

ライセンス: Link先を確認
Mengdi Sun, Marko Lon\v{c}ar, Vassilios Kovanis and Zin Lin(参考訳) 薄膜$\chi^{(2)}$共振器 -- 量子光学非線形ジャイロまたはqongにおける非線形多共振共振器量子フォトニクスに基づくオンチップ全光ジャイロスコープを提案する。 ジャイロスコープの鍵となる特徴は、量子相関、非線形波混合、非慣性信号の共分散と共蓄積であり、すべて同じセンサ共振器内にある。 理論的にはQONGのフィッシャー情報を基本量子ノイズ条件下で解析する。 ベイズ最適化を用いてフィッシャー情報を最大化し、同じフットプリント、本質的品質因子、電力予算を持つショットノイズ制限線形ジャイロスコープよりも$\sim 900\times$の改善が可能であることを示す。

We propose an on-chip all-optical gyroscope based on nonlinear multi-resonant cavity quantum photonics in thin film $\chi^{(2)}$ resonators -- Quantum-Optic Nonlinear Gyro or QONG in short. The key feature of our gyroscope is co-arisal and co-accumulation of quantum correlations, nonlinear wave mixing and non-inertial signals, all inside the same sensor-resonator. We theoretically analyze the Fisher Information of our QONGs under fundamental quantum noise conditions. Using Bayesian optimization, we maximize the Fisher Information and show that $\sim 900\times$ improvement is possible over the shot-noise limited linear gyroscope with the same footprint, intrinsic quality factors and power budget.
翻訳日:2023-07-25 17:40:19 公開日:2023-07-22
# 模倣ゲーム: 大きな言語モデルの時代における人間とaiによるテキストの検出

The Imitation Game: Detecting Human and AI-Generated Texts in the Era of Large Language Models ( http://arxiv.org/abs/2307.12166v1 )

ライセンス: Link先を確認
Kadhim Hayawi, Sakib Shahriar, Sujith Samuel Mathew(参考訳) 人工知能(AI)ベースの大規模言語モデル(LLM)の可能性は、教育、研究、実践に革命をもたらす。 しかし、人書きテキストとAI生成テキストの区別は重要な課題となっている。 本稿では,エッセイ,物語,詩,Pythonコードなど,さまざまなジャンルの人文およびLLM生成テキストのデータセットを新たに導入した比較研究を紹介する。 いくつかの機械学習モデルを使ってテキストを分類する。 結果は、データセットのサンプルサイズが制限されているにもかかわらず、人間とAI生成したテキストを識別する上で、これらのモデルの有効性を示す。 しかし、特にストーリー執筆において、GPT生成テキストの分類が困難になる。 その結果,本モデルでは,人為的テキストと特定のLLMを区別するなどの二項分類タスクにおいて,人為的テキストと複数のLLMを識別するより複雑なマルチクラスタスクと比較して,優れた性能を示した。 我々のデータセットは、この進化する領域における将来の研究の道を開く一方で、AIテキスト検出に対する洞察に富んだ意味を提供する。

The potential of artificial intelligence (AI)-based large language models (LLMs) holds considerable promise in revolutionizing education, research, and practice. However, distinguishing between human-written and AI-generated text has become a significant task. This paper presents a comparative study, introducing a novel dataset of human-written and LLM-generated texts in different genres: essays, stories, poetry, and Python code. We employ several machine learning models to classify the texts. Results demonstrate the efficacy of these models in discerning between human and AI-generated text, despite the dataset's limited sample size. However, the task becomes more challenging when classifying GPT-generated text, particularly in story writing. The results indicate that the models exhibit superior performance in binary classification tasks, such as distinguishing human-generated text from a specific LLM, compared to the more complex multiclass tasks that involve discerning among human-generated and multiple LLMs. Our findings provide insightful implications for AI text detection while our dataset paves the way for future research in this evolving area.
翻訳日:2023-07-25 17:40:04 公開日:2023-07-22
# 筋萎縮性側索硬化症診断のための顔面点グラフ

Facial Point Graphs for Amyotrophic Lateral Sclerosis Identification ( http://arxiv.org/abs/2307.12159v1 )

ライセンス: Link先を確認
N\'icolas Barbosa Gomes, Arissa Yoshida, Mateus Roder, Guilherme Camargo de Oliveira and Jo\~ao Paulo Papa(参考訳) 初期における筋萎縮性側索硬化症(als)の同定は,治療開始の確立,展望の充実,患者の全体的な幸福の向上に不可欠である。 しかし、早期の診断と診断は簡単ではない。 よりシンプルで安価な方法は、患者の表情を計算方法で分析することによって生じる。 ALS患者が口を開けるなど特定の行動を行う場合、特定の顔の筋肉の動きは健康な人によって観察されるものと異なる。 本稿では,顔画像の形状から情報を学習し,ALSを自動的に識別する顔点グラフを提案する。 トロントのneurofaceデータセットにおける実験の結果は、提案されたアプローチが最先端の成果を上回っており、この分野の有望な発展が促進されていることを示している。

Identifying Amyotrophic Lateral Sclerosis (ALS) in its early stages is essential for establishing the beginning of treatment, enriching the outlook, and enhancing the overall well-being of those affected individuals. However, early diagnosis and detecting the disease's signs is not straightforward. A simpler and cheaper way arises by analyzing the patient's facial expressions through computational methods. When a patient with ALS engages in specific actions, e.g., opening their mouth, the movement of specific facial muscles differs from that observed in a healthy individual. This paper proposes Facial Point Graphs to learn information from the geometry of facial images to identify ALS automatically. The experimental outcomes in the Toronto Neuroface dataset show the proposed approach outperformed state-of-the-art results, fostering promising developments in the area.
翻訳日:2023-07-25 17:39:48 公開日:2023-07-22
# DIP-RL:Minecraftにおける実証推論学習

DIP-RL: Demonstration-Inferred Preference Learning in Minecraft ( http://arxiv.org/abs/2307.12158v1 )

ライセンス: Link先を確認
Ellen Novoseller, Vinicius G. Goecks, David Watkins, Josh Miller, Nicholas Waytowich(参考訳) 逐次決定のための機械学習において、アルゴリズムエージェントは、報酬信号の形式でフィードバックを受けながら環境と対話することを学ぶ。 しかし、多くの非構造化現実環境において、そのような報酬信号は未知であり、人間が望ましい振る舞いを正しく捉えた報酬信号を確実に作成することはできない。 このような非構造的でオープンな環境での課題を解決するために、自動エンコーダの訓練、RLの訓練バッチのシード化、RLの誘導のための報酬関数の学習のための行動よりも好みの推論など、3つの異なる方法で人間のデモンストレーションを利用するアルゴリズムであるDemonstration-Inferred Preference Reinforcement Learning (DIP-RL)を提案する。 Minecraftにおける木切り作業におけるDIP-RLの評価を行った。 提案手法は,ヒトの嗜好を反映した報酬関数を学習するためにRLエージェントを誘導し,DIP-RLがベースラインに対して競合的に作用することが示唆された。 DIP-RLは、マインクラフトにおける実証とペアの選好の組み合わせに関するこれまでの研究に触発され、2022年のNeurIPS MineRL BASALTコンペティションで研究賞を受賞した。 DIP-RLとベースラインの例はhttps://sites.google.com/view/dip-rlにある。

In machine learning for sequential decision-making, an algorithmic agent learns to interact with an environment while receiving feedback in the form of a reward signal. However, in many unstructured real-world settings, such a reward signal is unknown and humans cannot reliably craft a reward signal that correctly captures desired behavior. To solve tasks in such unstructured and open-ended environments, we present Demonstration-Inferred Preference Reinforcement Learning (DIP-RL), an algorithm that leverages human demonstrations in three distinct ways, including training an autoencoder, seeding reinforcement learning (RL) training batches with demonstration data, and inferring preferences over behaviors to learn a reward function to guide RL. We evaluate DIP-RL in a tree-chopping task in Minecraft. Results suggest that the method can guide an RL agent to learn a reward function that reflects human preferences and that DIP-RL performs competitively relative to baselines. DIP-RL is inspired by our previous work on combining demonstrations and pairwise preferences in Minecraft, which was awarded a research prize at the 2022 NeurIPS MineRL BASALT competition, Learning from Human Feedback in Minecraft. Example trajectory rollouts of DIP-RL and baselines are located at https://sites.google.com/view/dip-rl.
翻訳日:2023-07-25 17:39:33 公開日:2023-07-22
# マルチケロン環境におけるサプライチェーン成果への貢献者同定--分散的アプローチ

Identifying contributors to supply chain outcomes in a multi-echelon setting: a decentralised approach ( http://arxiv.org/abs/2307.12157v1 )

ライセンス: Link先を確認
Stefan Schoepf, Jack Foster, Alexandra Brintrup(参考訳) 組織はしばしば、製品の品質や納品期間といったメトリクスの変化の原因を特定するのに苦労します。 原因が、部分的に観測可能なマルチエケロンサプライチェーンの会社の境界外にある場合、このタスクはますます困難になる。 従来のサプライチェーン管理では、より良い洞察を得るためにデータ共有を提唱してきたが、実際にはデータプライバシの懸念から実現していない。 本稿では,多段階生産プロセスにおける関心の指標に対する推定貢献の分散化コンピューティングにおける説明可能な人工知能の利用を提案する。 このアプローチは、すべての計算が分散的に行われるため、サプライチェーンアクターにデータを共有するように説得する必要性を軽減します。 本手法は実多段階製造プロセスから収集したデータを用いて実証的に検証する。 その結果,shapley 添加剤を用いた集中型アプローチと比較して,品質変動源検出における本手法の有効性が示された。

Organisations often struggle to identify the causes of change in metrics such as product quality and delivery duration. This task becomes increasingly challenging when the cause lies outside of company borders in multi-echelon supply chains that are only partially observable. Although traditional supply chain management has advocated for data sharing to gain better insights, this does not take place in practice due to data privacy concerns. We propose the use of explainable artificial intelligence for decentralised computing of estimated contributions to a metric of interest in a multi-stage production process. This approach mitigates the need to convince supply chain actors to share data, as all computations occur in a decentralised manner. Our method is empirically validated using data collected from a real multi-stage manufacturing process. The results demonstrate the effectiveness of our approach in detecting the source of quality variations compared to a centralised approach using Shapley additive explanations.
翻訳日:2023-07-25 17:39:07 公開日:2023-07-22
# トランスクリプト・コンテクスト解析によるYouTube上の誤情報同定

Identifying Misinformation on YouTube through Transcript Contextual Analysis with Transformer Models ( http://arxiv.org/abs/2307.12155v1 )

ライセンス: Link先を確認
Christos Christodoulou, Nikos Salamanos, Pantelitsa Leonidou, Michail Papadakis, Michael Sirivianos(参考訳) YouTube上の誤報は重大な懸念であり、堅牢な検出戦略を必要とする。 本稿では,コンテンツの妥当性に着目したビデオ分類手法を提案する。 従来のビデオ分類タスクを,映像転写から派生したテキストコンテンツを利用してテキスト分類タスクに変換する。 我々は、分類課題を解決するために、転送学習のような高度な機械学習技術を用いる。 私たちのアプローチには、トランスファー学習の2つの形式が組み込まれています。 (a)bert、roberta、electra等の微調整ベース変圧器及び b)文変換器MPNetとRoBERTa-largeを用いた少数ショット学習。 トレーニングされたモデルを3つのデータセットに適用します。 (a)YouTube Vaccine-misinformation関連ビデオ。 (b)YouTube Pseudoscienceのビデオ、そして (c)偽ニュースデータセット(記事の集合) Fake-Newsデータセットを含め、私たちのアプローチはYouTubeビデオを超えて拡張されました。 これらのデータセットを用いて,有効情報を誤情報と区別するモデルを評価した。 微調整モデルでは, マシューズ相関係数<0.81, 精度<0.90, F1スコア<0.90。 興味深いことに、いくつかのショットモデルは、YouTube Pseudoscienceデータセットの精度とF1スコアの両方で、微調整されたモデルを20%向上させ、このアプローチの潜在的有用性を強調した。

Misinformation on YouTube is a significant concern, necessitating robust detection strategies. In this paper, we introduce a novel methodology for video classification, focusing on the veracity of the content. We convert the conventional video classification task into a text classification task by leveraging the textual content derived from the video transcripts. We employ advanced machine learning techniques like transfer learning to solve the classification challenge. Our approach incorporates two forms of transfer learning: (a) fine-tuning base transformer models such as BERT, RoBERTa, and ELECTRA, and (b) few-shot learning using sentence-transformers MPNet and RoBERTa-large. We apply the trained models to three datasets: (a) YouTube Vaccine-misinformation related videos, (b) YouTube Pseudoscience videos, and (c) Fake-News dataset (a collection of articles). Including the Fake-News dataset extended the evaluation of our approach beyond YouTube videos. Using these datasets, we evaluated the models distinguishing valid information from misinformation. The fine-tuned models yielded Matthews Correlation Coefficient>0.81, accuracy>0.90, and F1 score>0.90 in two of three datasets. Interestingly, the few-shot models outperformed the fine-tuned ones by 20% in both Accuracy and F1 score for the YouTube Pseudoscience dataset, highlighting the potential utility of this approach -- especially in the context of limited training data.
翻訳日:2023-07-25 17:38:52 公開日:2023-07-22
# モバイルデバイスにおけるリアルタイムニューラルビデオ再生と拡張

Real-Time Neural Video Recovery and Enhancement on Mobile Devices ( http://arxiv.org/abs/2307.12152v1 )

ライセンス: Link先を確認
Zhaoyuan He, Yifan Yang, Lili Qiu, Kyoungjun Park(参考訳) モバイル機器がビデオストリーミングで人気になるにつれて、これらのデバイスのストリーミングエクスペリエンスを最適化することが重要です。 ディープラーニングベースのビデオエンハンスメント技術が注目されているが、そのほとんどはモバイルデバイスでのリアルタイムエンハンスメントをサポートできない。 さらに、これらの技術の多くは超高解像度にのみ焦点を合わせており、インターネットや無線ネットワークで一般的なビデオフレームの部分的あるいは完全な損失や破損を処理できない。 これらの課題を克服するために,本稿では新しいアプローチを提案する。 私たちのアプローチは (i)新しいビデオフレーム復元方式 (ii)新しい超解像アルゴリズム,及び 3)レシーバ拡張対応ビデオビットレート適応アルゴリズム。 われわれのアプローチはiPhone 12で実装されており、毎秒30フレームをサポートすることができる(FPS)。 我々は,WiFi,3G,4G,5Gネットワークなどの様々なネットワークにおいて,我々のアプローチを評価した。 評価の結果,本手法はリアルタイムなエンハンスメントを可能にし,ビデオストリーミングシステムにおけるQoE(Quality of Experience)の24-82-%の顕著な増加をもたらすことが示された。

As mobile devices become increasingly popular for video streaming, it's crucial to optimize the streaming experience for these devices. Although deep learning-based video enhancement techniques are gaining attention, most of them cannot support real-time enhancement on mobile devices. Additionally, many of these techniques are focused solely on super-resolution and cannot handle partial or complete loss or corruption of video frames, which is common on the Internet and wireless networks. To overcome these challenges, we present a novel approach in this paper. Our approach consists of (i) a novel video frame recovery scheme, (ii) a new super-resolution algorithm, and (iii) a receiver enhancement-aware video bit rate adaptation algorithm. We have implemented our approach on an iPhone 12, and it can support 30 frames per second (FPS). We have evaluated our approach in various networks such as WiFi, 3G, 4G, and 5G networks. Our evaluation shows that our approach enables real-time enhancement and results in a significant increase in video QoE (Quality of Experience) of 24\% - 82\% in our video streaming system.
翻訳日:2023-07-25 17:38:35 公開日:2023-07-22
# 色調は筆跡認識に影響を及ぼすか? 畳み込みニューラルネットワークを用いたペルシア文字の実証的研究

Does color modalities affect handwriting recognition? An empirical study on Persian handwritings using convolutional neural networks ( http://arxiv.org/abs/2307.12150v1 )

ライセンス: Link先を確認
Abbas Zohrevand, Zahra Imani, Javad Sadri, Ching Y.Suen(参考訳) 文献における手書き認識の手法の多くは、白黒画像データベース(BW)に焦点をあてて評価されている。 本稿では,文書認識における基本的な質問に答える。 眼のシミュレータとして畳み込みニューラルネットワーク(CNN)を用いて、手書き桁と単語の色調が認識精度や速度に影響を及ぼすかどうかを調べる。 私たちの知る限りでは、これまでのところこの疑問は、手書きの3つのカラーモダリティすべてを持つ手書きデータベースが欠如しているため答えられていない。 この質問に答えるために,ペルシャの手書きデータベースから13,330個の孤立した数字と62,500個の単語を選択した。 選択したデータセットは、トレーニング、バリデーション、テストセットに分割されています。 その後、同様のcnnモデルをトレーニングサンプルで訓練する。 実験結果から,bw桁とワード画像のcnnは,他の2色モダリティに比べて高い性能を示したが,一般に,ネットワークの精度に有意な差は認められなかった。 また,3色モードのトレーニング時間の比較により,cnnを用いたbw画像における手書き文字と単語の認識がより効率的であることが判明した。

Most of the methods on handwritten recognition in the literature are focused and evaluated on Black and White (BW) image databases. In this paper we try to answer a fundamental question in document recognition. Using Convolutional Neural Networks (CNNs), as eye simulator, we investigate to see whether color modalities of handwritten digits and words affect their recognition accuracy or speed? To the best of our knowledge, so far this question has not been answered due to the lack of handwritten databases that have all three color modalities of handwritings. To answer this question, we selected 13,330 isolated digits and 62,500 words from a novel Persian handwritten database, which have three different color modalities and are unique in term of size and variety. Our selected datasets are divided into training, validation, and testing sets. Afterwards, similar conventional CNN models are trained with the training samples. While the experimental results on the testing set show that CNN on the BW digit and word images has a higher performance compared to the other two color modalities, in general there are no significant differences for network accuracy in different color modalities. Also, comparisons of training times in three color modalities show that recognition of handwritten digits and words in BW images using CNN is much more efficient.
翻訳日:2023-07-25 17:38:17 公開日:2023-07-22
# 機械学習がブレイドとフラットブレイドの不変性を発見

Machine learning discovers invariants of braids and flat braids ( http://arxiv.org/abs/2307.12185v1 )

ライセンス: Link先を確認
Alexei Lisitsa, Mateo Salles, Alexei Vernitski(参考訳) 機械学習を用いて、ブレイド(またはフラットブレイド)の例を自明または非自明と分類する。 我々のMLは、ニューラルネットワーク(マルチ層パーセプトロン)を用いた教師あり学習の形態をとっている。 分類において良い結果が得られると、それらの構造を数学的予想として解釈し、それらの予想を定理として証明することができる。 その結果、平面ブレイドの完全不変量を含むブレイドの新たな便利な不変量が得られる。

We use machine learning to classify examples of braids (or flat braids) as trivial or non-trivial. Our ML takes form of supervised learning using neural networks (multilayer perceptrons). When they achieve good results in classification, we are able to interpret their structure as mathematical conjectures and then prove these conjectures as theorems. As a result, we find new convenient invariants of braids, including a complete invariant of flat braids.
翻訳日:2023-07-25 17:29:58 公開日:2023-07-22
# 多次元マルコフ後退の表現性について

On the Expressivity of Multidimensional Markov Reward ( http://arxiv.org/abs/2307.12184v1 )

ライセンス: Link先を確認
Shuwa Miura(参考訳) 我々は,不確実な意思決定におけるマルコフ報酬の表現性を考察する。 我々はマルコフ決定過程(MDP)における報酬関数を,エージェントの望ましい振る舞いを特徴づける手段として捉えている。 望ましい行動が許容されるポリシーの集合として指定されていると仮定すると、他のポリシーよりもその集合のポリシーをより望ましいものにするスカラーあるいは多次元マルコフ報酬関数が存在するかどうかを調べる。 我々の主な成果は、そのような報酬関数の存在に必要な条件と十分な条件の両方である。 また,決定論的方針の非退化集合に対して,それを特徴付ける多次元マルコフ報酬関数が存在することも示す。

We consider the expressivity of Markov rewards in sequential decision making under uncertainty. We view reward functions in Markov Decision Processes (MDPs) as a means to characterize desired behaviors of agents. Assuming desired behaviors are specified as a set of acceptable policies, we investigate if there exists a scalar or multidimensional Markov reward function that makes the policies in the set more desirable than the other policies. Our main result states both necessary and sufficient conditions for the existence of such reward functions. We also show that for every non-degenerate set of deterministic policies, there exists a multidimensional Markov reward function that characterizes it
翻訳日:2023-07-25 17:29:49 公開日:2023-07-22
# 野生スポーツ環境におけるランナーの性能評価のためのX3Dニューラルネットワーク解析

An X3D Neural Network Analysis for Runner's Performance Assessment in a Wild Sporting Environment ( http://arxiv.org/abs/2307.12183v1 )

ライセンス: Link先を確認
David Freire-Obreg\'on, Javier Lorenzo-Navarro, Oliverio J. Santana, Daniel Hern\'andez-Sosa, Modesto Castrill\'on-Santana(参考訳) 本稿では,拡張型3D(X3D)ニューラルネットワークのスポーツ環境における伝達学習解析について述べる。 文献における行動品質評価法に触発された本手法は,超距離競技における競技者の累積レース時間(CRT)を推定するために,行動認識ネットワークを用いる。 我々は,空間,時間,幅,深さを含む複数のネットワーク軸に沿って,小さな2次元画像分類アーキテクチャを拡張する行動認識ネットワークであるX3Dの性能を評価する。 8時間から20時間の走者に対してCRTを推定した場合、平均的な絶対誤差が12分半の短い入力映像に対して、結果のニューラルネットワークが顕著な性能を提供することを示した。 最も重要な発見は、x3dが最先端のパフォーマンスを実現すると同時に、以前の作業よりも精度を高めるために、ほぼ7倍のメモリを必要とすることです。

We present a transfer learning analysis on a sporting environment of the expanded 3D (X3D) neural networks. Inspired by action quality assessment methods in the literature, our method uses an action recognition network to estimate athletes' cumulative race time (CRT) during an ultra-distance competition. We evaluate the performance considering the X3D, a family of action recognition networks that expand a small 2D image classification architecture along multiple network axes, including space, time, width, and depth. We demonstrate that the resulting neural network can provide remarkable performance for short input footage, with a mean absolute error of 12 minutes and a half when estimating the CRT for runners who have been active from 8 to 20 hours. Our most significant discovery is that X3D achieves state-of-the-art performance while requiring almost seven times less memory to achieve better precision than previous work.
翻訳日:2023-07-25 17:29:40 公開日:2023-07-22
# 連合学習におけるセキュリティとプライバシー問題

Security and Privacy Issues of Federated Learning ( http://arxiv.org/abs/2307.12181v1 )

ライセンス: Link先を確認
Jahid Hasan(参考訳) フェデレートラーニング(FL)は、複数の参加者が機密データを集中化せずに共有モデルを構築することを可能にすることによって、データのプライバシと機密性に対処するための有望なアプローチとして登場した。 しかしながら、この分散パラダイムは、flのセキュリティ保証を保証するために潜在的なリスクの包括的識別と分類を必要とする、新しいセキュリティ課題を導入する。 本稿では,大規模言語モデルを含むさまざまな機械学習モデルを対象とした,フェデレートラーニング(FL)におけるセキュリティとプライバシの包括的分類を提案する。 我々は、アグリゲータと参加者が行う攻撃を分類し、毒物攻撃、バックドア攻撃、メンバーシップ推論攻撃、gan(generative adversarial network)ベースの攻撃、およびディファレンシャルプライバシ攻撃に焦点を当てる。 さらに,今後の研究の方向性として,新たなセキュリティリスクに対するFLシステムの強化と,分散学習環境における機密データ機密性の維持という,革新的な解決策を提案する。

Federated Learning (FL) has emerged as a promising approach to address data privacy and confidentiality concerns by allowing multiple participants to construct a shared model without centralizing sensitive data. However, this decentralized paradigm introduces new security challenges, necessitating a comprehensive identification and classification of potential risks to ensure FL's security guarantees. This paper presents a comprehensive taxonomy of security and privacy challenges in Federated Learning (FL) across various machine learning models, including large language models. We specifically categorize attacks performed by the aggregator and participants, focusing on poisoning attacks, backdoor attacks, membership inference attacks, generative adversarial network (GAN) based attacks, and differential privacy attacks. Additionally, we propose new directions for future research, seeking innovative solutions to fortify FL systems against emerging security risks and uphold sensitive data confidentiality in distributed learning environments.
翻訳日:2023-07-25 17:29:25 公開日:2023-07-22
# プロトタイプ駆動型マルチモーダルmr脳腫瘍画像セグメンテーション

Prototype-Driven and Multi-Expert Integrated Multi-Modal MR Brain Tumor Image Segmentation ( http://arxiv.org/abs/2307.12180v1 )

ライセンス: Link先を確認
Yafei Zhang, Zhiyuan Li, Huafeng Li, Dapeng Tao(参考訳) マルチモーダル磁気共鳴法 (mr) 脳腫瘍画像分割法では, 従来, 入力画像からの識別的特徴を直接抽出し, 腫瘍サブ領域の分類と局在化を行う。 しかし,腫瘍サブ領域の相互包摂による情報エイリアスの影響は無視されることが多い。 さらに、既存の方法は通常、単一の腫瘍のサブリージョンの特徴を強調するために調整された努力を必要としない。 この目的のために,腫瘍のプロトタイプ駆動・マルチエキスパート統合によるマルチモーダルMR脳腫瘍セグメンテーション法を提案する。 腫瘍プロトタイプの指導下で各腫瘍サブ領域の特徴を強調することができる。 具体的には, プロトタイプの完全な情報を得るために, 単一モーダル特徴の情報不足による問題に対処するため, 異なるモーダル特徴を相互に伝達する相互伝達機構を提案する。 さらに,プロトタイプを腫瘍の特徴に移植し,対応する活性化マップを生成するプロトタイプによる特徴表現と融合法を考案した。 アクティベーションマップでは、プロトタイプのカテゴリと一致するサブリージョンの特徴を強調することができる。 セグメンテーション性能をさらに向上するために,マルチエキスパート統合による重要な情報強化と融合戦略を設計する。 この戦略は、追加機能抽出ネットワークの異なるレイヤの機能と、プロトタイプで強調された機能を統合することができる。 3つの競合脳腫瘍セグメンテーションデータセットの実験結果から,提案手法の優位性が確認された。

For multi-modal magnetic resonance (MR) brain tumor image segmentation, current methods usually directly extract the discriminative features from input images for tumor sub-region category determination and localization. However, the impact of information aliasing caused by the mutual inclusion of tumor sub-regions is often ignored. Moreover, existing methods usually do not take tailored efforts to highlight the single tumor sub-region features. To this end, a multi-modal MR brain tumor segmentation method with tumor prototype-driven and multi-expert integration is proposed. It could highlight the features of each tumor sub-region under the guidance of tumor prototypes. Specifically, to obtain the prototypes with complete information, we propose a mutual transmission mechanism to transfer different modal features to each other to address the issues raised by insufficient information on single-modal features. Furthermore, we devise a prototype-driven feature representation and fusion method with the learned prototypes, which implants the prototypes into tumor features and generates corresponding activation maps. With the activation maps, the sub-region features consistent with the prototype category can be highlighted. A key information enhancement and fusion strategy with multi-expert integration is designed to further improve the segmentation performance. The strategy can integrate the features from different layers of the extra feature extraction network and the features highlighted by the prototypes. Experimental results on three competition brain tumor segmentation datasets prove the superiority of the proposed method.
翻訳日:2023-07-25 17:29:07 公開日:2023-07-22
# ゼロショットオブジェクト非依存状態分類のための知識グラフの活用

Leveraging Knowledge Graphs for Zero-Shot Object-agnostic State Classification ( http://arxiv.org/abs/2307.12179v1 )

ライセンス: Link先を確認
Filipos Gouidis, Theodore Patkos, Antonis Argyros and Dimitris Plexousakis(参考訳) ゼロショット学習問題として,オブジェクト状態分類(osc)の問題を検討する。 具体的には、オブジェクトクラスの知識や推定に頼らずに、あるオブジェクトの状態を予測する最初のオブジェクト非依存状態分類(oasc)法を提案する。 そこで我々は,知識を構造化・整理するための知識グラフ(KGs)を活用し,視覚情報と組み合わせることで,学習セットで遭遇していないオブジェクトと状態のペアの状態の推測を可能にする。 提案手法の様々な設定における性能,いくつかの仮説,およびオブジェクト属性分類のための技術手法の現状と比較した一連の実験を行った。 実験の結果,対象クラスの知識がその状態の予測に決定的でないことが示された。 さらに,提案手法は,すべてのデータセットやベンチマークにおいて,既存の手法よりも優れた性能を示す。

We investigate the problem of Object State Classification (OSC) as a zero-shot learning problem. Specifically, we propose the first Object-agnostic State Classification (OaSC) method that infers the state of a certain object without relying on the knowledge or the estimation of the object class. In that direction, we capitalize on Knowledge Graphs (KGs) for structuring and organizing knowledge, which, in combination with visual information, enable the inference of the states of objects in object/state pairs that have not been encountered in the method's training set. A series of experiments investigate the performance of the proposed method in various settings, against several hypotheses and in comparison with state of the art approaches for object attribute classification. The experimental results demonstrate that the knowledge of an object class is not decisive for the prediction of its state. Moreover, the proposed OaSC method outperforms existing methods in all datasets and benchmarks by a great margin.
翻訳日:2023-07-25 17:28:44 公開日:2023-07-22
# 個人知識グラフにおける名前付きエンティティ解決

Named Entity Resolution in Personal Knowledge Graphs ( http://arxiv.org/abs/2307.12173v1 )

ライセンス: Link先を確認
Mayank Kejriwal(参考訳) エンティティ解決(ER)は、2つのエンティティが同じ基礎エンティティをいつ参照するかを決定する問題である。 この問題は50年以上にわたって研究され、最近では、ウェブ上で公開され、ソーシャルメディア、eコマース、検索など幅広い領域で広く使われている、巨大で異質な「知識グラフ」の時代において、新たな重要性が浮かび上がっている。 本章では、個人知識グラフ(PKG)の文脈における名前付きERの具体的問題について論じる。 まず、問題の形式的定義と、高品質で効率的なERに必要なコンポーネントから始める。 また、Webスケールデータに発生するであろういくつかの課題についても論じる。 次に、既存の技術がpkgにどのように応用できるかを特に焦点として、簡単な文献レビューを行う。 この章は、いくつかの応用と将来の研究への有望な方向性を取り上げて締めくくります。

Entity Resolution (ER) is the problem of determining when two entities refer to the same underlying entity. The problem has been studied for over 50 years, and most recently, has taken on new importance in an era of large, heterogeneous 'knowledge graphs' published on the Web and used widely in domains as wide ranging as social media, e-commerce and search. This chapter will discuss the specific problem of named ER in the context of personal knowledge graphs (PKGs). We begin with a formal definition of the problem, and the components necessary for doing high-quality and efficient ER. We also discuss some challenges that are expected to arise for Web-scale data. Next, we provide a brief literature review, with a special focus on how existing techniques can potentially apply to PKGs. We conclude the chapter by covering some applications, as well as promising directions for future research.
翻訳日:2023-07-25 17:28:31 公開日:2023-07-22
# ロボティクスにおけるモノクロ6次元物体ポーズ推定の課題

Challenges for Monocular 6D Object Pose Estimation in Robotics ( http://arxiv.org/abs/2307.12172v1 )

ライセンス: Link先を確認
Stefan Thalhammer, Dominik Bauer, Peter H\"onig, Jean-Baptiste Weibel, Jos\'e Garc\'ia-Rodr\'iguez, Markus Vincze(参考訳) オブジェクトのポーズ推定は、例えばオブジェクトの把握とシーン理解を可能にする、中核的な認識タスクである。 広く利用可能で安価で高解像度のrgbセンサーとcnnは、このモダリティに基づいて高速な推論を可能にするため、ロボティクスに特に適した単眼的アプローチとなる。 オブジェクトのポーズ推定に関する以前の調査は、様々なモダリティ、シングルビュー、マルチビュー設定、および多種類のアプリケーションを考慮したデータセットとメトリクスについて、技術の現状を確立している。 しかし、これらの作品の広い範囲は、単眼的アプローチに特有なオープンチャレンジの特定を妨げ、ロボット工学における彼らの応用への将来的な課題の導出を妨げていると論じている。 ロボット工学とコンピュータビジョンの両方からの最近の出版物の統一的な見解を提供することで、オクルージョンハンドリング、新しいポーズ表現、カテゴリーレベルのポーズ推定の形式化と改善はロボット工学にとって非常に重要な根本的な課題であることがわかった。 さらに、ロボットの性能をさらに向上させるためには、大きなオブジェクトセット、新しいオブジェクト、屈折材料、不確実性推定が中心であり、ほとんど未解決の課題である。 それらに対処するためには、オントロジ推論、変形可能性ハンドリング、シーンレベルの推論、現実的なデータセット、アルゴリズムの生態的足跡を改善する必要がある。

Object pose estimation is a core perception task that enables, for example, object grasping and scene understanding. The widely available, inexpensive and high-resolution RGB sensors and CNNs that allow for fast inference based on this modality make monocular approaches especially well suited for robotics applications. We observe that previous surveys on object pose estimation establish the state of the art for varying modalities, single- and multi-view settings, and datasets and metrics that consider a multitude of applications. We argue, however, that those works' broad scope hinders the identification of open challenges that are specific to monocular approaches and the derivation of promising future challenges for their application in robotics. By providing a unified view on recent publications from both robotics and computer vision, we find that occlusion handling, novel pose representations, and formalizing and improving category-level pose estimation are still fundamental challenges that are highly relevant for robotics. Moreover, to further improve robotic performance, large object sets, novel objects, refractive materials, and uncertainty estimates are central, largely unsolved open challenges. In order to address them, ontological reasoning, deformability handling, scene-level reasoning, realistic datasets, and the ecological footprint of algorithms need to be improved.
翻訳日:2023-07-25 17:28:17 公開日:2023-07-22
# Learn to Compress (LtC): 効率的な学習ベースのストリーミングビデオ分析

Learn to Compress (LtC): Efficient Learning-based Streaming Video Analytics ( http://arxiv.org/abs/2307.12171v1 )

ライセンス: Link先を確認
Quazi Mishkatul Alam, Israat Haque, Nael Abu-Ghazaleh(参考訳) ビデオ分析は、主にオフロード計算や、ビデオセンサーで直接消費されない状況において、エッジ設定のクラウドサービスとして実行されることが多い。 エッジデバイスから高品質なビデオデータを送信することは、帯域幅と電力使用の両方でコストがかかる。 これらのリソースを効率的に利用するストリーミングビデオ分析パイプラインを構築するためには、ビデオストリームのサイズを減らすことが不可欠である。 従来のビデオ圧縮アルゴリズムは、ビデオの意味を知らないため、分析性能に非効率かつ有害である可能性がある。 本稿では,ビデオソースと分析サーバの協調的なフレームワークであるLtCを紹介する。 特に、ltcは、教師としてサーバーの本格的な分析アルゴリズムを使用して、軽量な学生ニューラルネットワークをトレーニングし、ビデオソースにデプロイする。 学生ネットワークは、ビデオ内の様々な領域の意味的意義を理解するように訓練され、残りの領域が攻撃的な圧縮を受ける間、重要な領域を高品質に保存するために使用される。 さらに、LtCは、新しい情報を提供しない送信フレームを省略するために、特徴差に基づく新しい時間フィルタリングアルゴリズムも組み込んでいる。 全体として、LtCは28~35%の帯域幅を使用でき、最近公開されたアートストリーミングフレームワークと比較すると、レスポンス遅延が最大で45%短い。

Video analytics are often performed as cloud services in edge settings, mainly to offload computation, and also in situations where the results are not directly consumed at the video sensors. Sending high-quality video data from the edge devices can be expensive both in terms of bandwidth and power use. In order to build a streaming video analytics pipeline that makes efficient use of these resources, it is therefore imperative to reduce the size of the video stream. Traditional video compression algorithms are unaware of the semantics of the video, and can be both inefficient and harmful for the analytics performance. In this paper, we introduce LtC, a collaborative framework between the video source and the analytics server, that efficiently learns to reduce the video streams within an analytics pipeline. Specifically, LtC uses the full-fledged analytics algorithm at the server as a teacher to train a lightweight student neural network, which is then deployed at the video source. The student network is trained to comprehend the semantic significance of various regions within the videos, which is used to differentially preserve the crucial regions in high quality while the remaining regions undergo aggressive compression. Furthermore, LtC also incorporates a novel temporal filtering algorithm based on feature-differencing to omit transmitting frames that do not contribute new information. Overall, LtC is able to use 28-35% less bandwidth and has up to 45% shorter response delay compared to recently published state of the art streaming frameworks while achieving similar analytics performance.
翻訳日:2023-07-25 17:27:51 公開日:2023-07-22
# TwinLiteNet:自動運転車における走行可能エリアとレーンセグメンテーションのための効率的軽量モデル

TwinLiteNet: An Efficient and Lightweight Model for Driveable Area and Lane Segmentation in Self-Driving Cars ( http://arxiv.org/abs/2307.10705v2 )

ライセンス: Link先を確認
Quang Huy Che and Dinh Phuc Nguyen and Minh Quan Pham and Duc Khai Lam(参考訳) セマンティックセグメンテーションは、周囲の環境を理解するための自律運転において一般的な課題である。 運転可能なエリアセグメンテーションとレーン検出は、道路上の安全かつ効率的なナビゲーションに特に重要である。 しかし、オリジナルのセマンティクスセグメンテーションモデルは計算コストが高く、ハイエンドハードウェアを必要とするため、自動運転車の組み込みシステムでは実現不可能である。 本稿では,運転可能領域と車線区分の軽量モデルを提案する。 TwinLiteNetは安価に設計されているが、正確で効率的なセグメンテーション結果が得られる。 bdd100kデータセット上でtwinlitenetを評価し,現代的なモデルと比較する。 実験の結果,twinlitenetは既存の手法と同様に動作し,計算資源が大幅に少ないことがわかった。 具体的には、twinlitenet はdrivable area task の91.3%、レーン検出タスクの31.08% iou を 0.4 million のパラメータで達成し、gpu rtx a5000 で 415 fps を達成した。 さらにtwinlitenetは、jetson xavier nxで60fpsを達成したため、計算能力に制限のある組み込みデバイス上でリアルタイムに動作し、自動運転車にとって理想的なソリューションとなる。 コードは url{https://github.com/chequanghuy/TwinLiteNet} で入手できる。

Semantic segmentation is a common task in autonomous driving to understand the surrounding environment. Driveable Area Segmentation and Lane Detection are particularly important for safe and efficient navigation on the road. However, original semantic segmentation models are computationally expensive and require high-end hardware, which is not feasible for embedded systems in autonomous vehicles. This paper proposes a lightweight model for the driveable area and lane line segmentation. TwinLiteNet is designed cheaply but achieves accurate and efficient segmentation results. We evaluate TwinLiteNet on the BDD100K dataset and compare it with modern models. Experimental results show that our TwinLiteNet performs similarly to existing approaches, requiring significantly fewer computational resources. Specifically, TwinLiteNet achieves a mIoU score of 91.3% for the Drivable Area task and 31.08% IoU for the Lane Detection task with only 0.4 million parameters and achieves 415 FPS on GPU RTX A5000. Furthermore, TwinLiteNet can run in real-time on embedded devices with limited computing power, especially since it achieves 60FPS on Jetson Xavier NX, making it an ideal solution for self-driving vehicles. Code is available: url{https://github.com/chequanghuy/TwinLiteNet}.
翻訳日:2023-07-25 11:25:41 公開日:2023-07-22
# 共形動的グラフ学習を用いたエアトラヒックコントローラの負荷レベル予測

Air Traffic Controller Workload Level Prediction using Conformalized Dynamical Graph Learning ( http://arxiv.org/abs/2307.10559v2 )

ライセンス: Link先を確認
Yutian Pang, Jueming Hu, Christopher S. Lieber, Nancy J. Cooke, Yongming Liu(参考訳) 航空管制 (atc) は、地上交通管制局 (atcos) が日々の航空運用を維持するために常に注意を払わなければならない安全クリティカルサービスシステムである。 ATCoの作業負荷は、運用上の安全性と空域利用に悪影響を及ぼす可能性がある。 ATCosの過負荷を回避し、許容されるワークロードレベルを確保するためには、ATCosのワークロードを正確に予測することが重要である。 本稿では,まず,航空交通の観点からatcoの作業負荷に関する研究を概観した。 そこで,本研究では,航空交通データとワークロードラベルが得られたATCoによるHuman-in-the-loop(HITL)シミュレーションのセットアップについて紹介する。 シミュレーションは3つのphoenixアプローチのシナリオで行われ、ヒトのatcoは負荷評価(低-1から高7)を自己評価するよう要求される。 予備データ分析を行う。 次に,共形予測を用いたグラフベースのディープラーニングフレームワークを提案し,atcoのワークロードレベルを同定する。 制御器の制御下にある航空機の数は空間的にも時間的にも変化し、動的に進化するグラフとなる。 実験結果は (a)トラフィック密度機能以外に、トラフィック競合機能は、ワークロードの予測能力(すなわち、最小水平/垂直分離距離)に寄与する。 b) グラフニューラルネットワークを用いた空域の時空間グラフレイアウトから直接学習することにより,手作りの交通複雑性特性と比較して,高い予測精度が得られる。 c) 適合予測(conformal prediction)は,モデル予測精度をさらに向上させる上で有用なツールである。 使用されるコードは \href{https://github.com/ymlasu/para-atm-collection/blob/master/air-traffic-prediction/ATC-Workload-Predic tion/}{$\mathsf{Link}$} で公開されている。

Air traffic control (ATC) is a safety-critical service system that demands constant attention from ground air traffic controllers (ATCos) to maintain daily aviation operations. The workload of the ATCos can have negative effects on operational safety and airspace usage. To avoid overloading and ensure an acceptable workload level for the ATCos, it is important to predict the ATCos' workload accurately for mitigation actions. In this paper, we first perform a review of research on ATCo workload, mostly from the air traffic perspective. Then, we briefly introduce the setup of the human-in-the-loop (HITL) simulations with retired ATCos, where the air traffic data and workload labels are obtained. The simulations are conducted under three Phoenix approach scenarios while the human ATCos are requested to self-evaluate their workload ratings (i.e., low-1 to high-7). Preliminary data analysis is conducted. Next, we propose a graph-based deep-learning framework with conformal prediction to identify the ATCo workload levels. The number of aircraft under the controller's control varies both spatially and temporally, resulting in dynamically evolving graphs. The experiment results suggest that (a) besides the traffic density feature, the traffic conflict feature contributes to the workload prediction capabilities (i.e., minimum horizontal/vertical separation distance); (b) directly learning from the spatiotemporal graph layout of airspace with graph neural network can achieve higher prediction accuracy, compare to hand-crafted traffic complexity features; (c) conformal prediction is a valuable tool to further boost model prediction accuracy, resulting a range of predicted workload labels. The code used is available at \href{https://github.com/ymlasu/para-atm-collection/blob/master/air-traffic-prediction/ATC-Workload-Predic tion/}{$\mathsf{Link}$}.
翻訳日:2023-07-25 11:24:24 公開日:2023-07-22
# サイクル一貫性に基づく教師なしディープグラフマッチング

Unsupervised Deep Graph Matching Based on Cycle Consistency ( http://arxiv.org/abs/2307.08930v3 )

ライセンス: Link先を確認
Siddharth Tourani, Carsten Rother and Muhammad Haris Khan and Bogdan Savchynskyy(参考訳) 我々は,教師なし深度グラフマッチングの疎密な領域と,画像のキーポイントマッチングへの応用に寄与する。 標準の \emph{supervised} アプローチとは対照的に、本手法ではキーポイント対間の基底真理対応は不要である。 代わりに、同じオブジェクトカテゴリの画像間のマッチングの一貫性を強制することにより、自己監視される。 マッチングと一貫性損失は離散的であるため、それらの微分は直接学習には使用できない。 組合せ解のブラックボックス微分に関する最近の結果に基づいて,本手法を原理的に構築することにより,この問題に対処する。 この手法は任意のネットワークアーキテクチャや組合せ解法と互換性があるため,非常に柔軟である。 実験により,本手法は教師なしグラフマッチングのための新しい最先端技術であることがわかった。

We contribute to the sparsely populated area of unsupervised deep graph matching with application to keypoint matching in images. Contrary to the standard \emph{supervised} approach, our method does not require ground truth correspondences between keypoint pairs. Instead, it is self-supervised by enforcing consistency of matchings between images of the same object category. As the matching and the consistency loss are discrete, their derivatives cannot be straightforwardly used for learning. We address this issue in a principled way by building our method upon the recent results on black-box differentiation of combinatorial solvers. This makes our method exceptionally flexible, as it is compatible with arbitrary network architectures and combinatorial solvers. Our experimental evaluation suggests that our technique sets a new state-of-the-art for unsupervised graph matching.
翻訳日:2023-07-25 11:23:39 公開日:2023-07-22
# 弱修正変化検出のための効果的な事前及び効率的なモデル探索

Exploring Effective Priors and Efficient Models for Weakly-Supervised Change Detection ( http://arxiv.org/abs/2307.10853v2 )

ライセンス: Link先を確認
Zhenghui Zhao, Lixiang Ru, Chen Wu(参考訳) weakly-supervised change detection (wscd)は、画像レベルのアノテーションだけでピクセルレベルの変更を検出することを目的としている。 ラベルの効率のため、WSCDは最近注目を集めている。 しかし、現在のWSCDメソッドは、画像レベルのアノテーションとピクセルレベルの予測の不整合など、変更の欠如と製造の難しさにしばしば遭遇する。 特に、変化の欠如は、画像レベルのラベルが変化しているにもかかわらず、WSCDモデルが変化したピクセルを予測できない状況と、その逆は変化の作り方である。 この課題に対処するため、WSCDにおけるグローバルスケールおよびローカルスケールの事前処理を活用し、Dilated Prior(DP)デコーダとLabel Gated(LG)制約という2つのコンポーネントを提案する。 DPデコーダは、変更された画像レベルラベルでサンプルをデコードし、変更されていないラベルでサンプルをスキップし、すべて変更されていないピクセルレベルラベルで置き換える。 LGの制約は、変化した表現と画像レベルのラベルの対応から派生し、変化状態の誤予測時にモデルをペナルティ化する。 さらに,変更検出における弱教師付き学習の可能性を示す,シンプルながら強力なトランスフォーマーベースモデルであるTransWCDを開発した。 DPデコーダとLG制約をTransWCDに統合することにより、TransWCD-DLを形成する。 提案したTransWCDとTransWCD-DLは,WHU-CDデータセットの最先端手法に対して,それぞれ有意な+6.33%,+9.55%のF1スコアを達成している。 いくつかのパフォーマンス指標は、FSCD(Full-supervised Change Detection)の競合よりも多い。 コードはhttps://github.com/zhenghuizhao/TransWCDで入手できる。

Weakly-supervised change detection (WSCD) aims to detect pixel-level changes with only image-level annotations. Owing to its label efficiency, WSCD is drawing increasing attention recently. However, current WSCD methods often encounter the challenge of change missing and fabricating, i.e., the inconsistency between image-level annotations and pixel-level predictions. Specifically, change missing refer to the situation that the WSCD model fails to predict any changed pixels, even though the image-level label indicates changed, and vice versa for change fabricating. To address this challenge, in this work, we leverage global-scale and local-scale priors in WSCD and propose two components: a Dilated Prior (DP) decoder and a Label Gated (LG) constraint. The DP decoder decodes samples with the changed image-level label, skips samples with the unchanged label, and replaces them with an all-unchanged pixel-level label. The LG constraint is derived from the correspondence between changed representations and image-level labels, penalizing the model when it mispredicts the change status. Additionally, we develop TransWCD, a simple yet powerful transformer-based model, showcasing the potential of weakly-supervised learning in change detection. By integrating the DP decoder and LG constraint into TransWCD, we form TransWCD-DL. Our proposed TransWCD and TransWCD-DL achieve significant +6.33% and +9.55% F1 score improvements over the state-of-the-art methods on the WHU-CD dataset, respectively. Some performance metrics even exceed several fully-supervised change detection (FSCD) competitors. Code will be available at https://github.com/zhenghuizhao/TransWCD.
翻訳日:2023-07-25 11:12:09 公開日:2023-07-22
# BoxDiff: トレーニング不要なボックス制約拡散を用いたテキスト・画像合成

BoxDiff: Text-to-Image Synthesis with Training-Free Box-Constrained Diffusion ( http://arxiv.org/abs/2307.10816v2 )

ライセンス: Link先を確認
Jinheng Xie, Yuexiang Li, Yawen Huang, Haozhe Liu, Wentian Zhang, Yefeng Zheng and Mike Zheng Shou(参考訳) 最近のテキストから画像への拡散モデルは、高品質な画像を生成する驚くべき能力を示している。 しかし、研究者は主にテキストプロンプトだけで画像の合成方法を研究した。 他のモダリティを条件として利用する研究もあるが、箱/マスク画像ペアや微調整時間など、かなりのペアデータが必要となる。 このようなペアデータには時間と労力がかかり、クローズドセットに制限されるため、オープンワールドにおけるアプリケーションのボトルネックになる可能性がある。 本稿では,ボックスやスクリブルなどのユーザ提供条件の最も単純な形式に焦点を当てる。 上記の問題を緩和するために,与えられた空間条件に固執する合成画像内のオブジェクトやコンテキストを制御するためのトレーニングフリーな手法を提案する。 具体的には、3つの空間的制約、すなわち、インナーボックス、アウターボックス、コーナー制約は、追加のトレーニングや大量のアノテートレイアウトデータを必要としない拡散モデルのデノイングステップにシームレスに統合される。 提案した制約は, 安定拡散モデルが高忠実で多様な概念カバレッジで合成できる能力を維持しつつ, 画像中の何とどこに表示すべきかを制御できることを示す。 コードはhttps://github.com/Sierkinhane/BoxDiffで公開されている。

Recent text-to-image diffusion models have demonstrated an astonishing capacity to generate high-quality images. However, researchers mainly studied the way of synthesizing images with only text prompts. While some works have explored using other modalities as conditions, considerable paired data, e.g., box/mask-image pairs, and fine-tuning time are required for nurturing models. As such paired data is time-consuming and labor-intensive to acquire and restricted to a closed set, this potentially becomes the bottleneck for applications in an open world. This paper focuses on the simplest form of user-provided conditions, e.g., box or scribble. To mitigate the aforementioned problem, we propose a training-free method to control objects and contexts in the synthesized images adhering to the given spatial conditions. Specifically, three spatial constraints, i.e., Inner-Box, Outer-Box, and Corner Constraints, are designed and seamlessly integrated into the denoising step of diffusion models, requiring no additional training and massive annotated layout data. Extensive results show that the proposed constraints can control what and where to present in the images while retaining the ability of the Stable Diffusion model to synthesize with high fidelity and diverse concept coverage. The code is publicly available at https://github.com/Sierkinhane/BoxDiff.
翻訳日:2023-07-25 11:11:42 公開日:2023-07-22