このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230730となっている論文です。

PDF登録状況(公開日: 20230730)

TitleAuthorsAbstract論文公表日・翻訳日
# ニューラルコード生成における良いメソッド名はどの程度重要か? モデルロバスト性の観点から

How Important are Good Method Names in Neural Code Generation? A Model Robustness Perspective ( http://arxiv.org/abs/2211.15844v2 )

ライセンス: Link先を確認
Guang Yang, Yu Zhou, Wenhua Yang, Tao Yue, Xiang Chen, Taolue Chen(参考訳) プレトレーニングコード生成モデル(pcgms)は、自然言語の関数記述から、おそらくシグネチャとともに実行可能なコードを生成するニューラルネットワーク生成に広く適用されている。 PCGMの大幅な性能向上にもかかわらず、ニューラルコード生成におけるメソッド名の役割は十分に研究されていない。 本稿では,モデルロバストネスの観点から,PCGMの性能向上のための手法名によるメリットの可能性について検討し,実証する。 具体的には,RADAR (neural coDe generAtor Robustifier) という新しいアプローチを提案する。 RADARはRADAR-AttackとRADAR-Defenseの2つのコンポーネントで構成されている。 前者は、入力の一部として逆メソッド名を生成することでPCGMを攻撃し、元の入力と似た意味と視覚を持つが、PCGMを騙して全く無関係なコードスニペットを生成する。 このような攻撃に対する対策として、RADAR-Defenseは機能記述から新しいメソッド名を合成し、PCGMに供給する。 評価の結果、RADAR-Attackは3つの最先端PCGM(CodeGPT、PLBART、CodeT5)で生成したコードのコードBLEUを19.72%から38.74%削減し、ゼロショットコード生成タスクでは3つの最先端PCGM(Replit、CodeGen、CodeT5+)で生成したコードのPass@1を32.28%から44.42%削減できることがわかった。 さらに、RADAR-Defenseは、合成されたメソッド名でPCGMの性能を回復することができる。 これらの結果は、ニューラルコード生成における優れたメソッド名の重要性を強調し、ソフトウェア工学におけるモデル堅牢性の研究のメリットを示唆している。

Pre-trained code generation models (PCGMs) have been widely applied in neural code generation which can generate executable code from functional descriptions in natural languages, possibly together with signatures. Despite substantial performance improvement of PCGMs, the role of method names in neural code generation has not been thoroughly investigated. In this paper, we study and demonstrate the potential of benefiting from method names to enhance the performance of PCGMs, from a model robustness perspective. Specifically, we propose a novel approach, named RADAR (neuRAl coDe generAtor Robustifier). RADAR consists of two components: RADAR-Attack and RADAR-Defense. The former attacks a PCGM by generating adversarial method names as part of the input, which are semantic and visual similar to the original input, but may trick the PCGM to generate completely unrelated code snippets. As a countermeasure to such attacks, RADAR-Defense synthesizes a new method name from the functional description and supplies it to the PCGM. Evaluation results show that RADAR-Attack can reduce the CodeBLEU of generated code by 19.72% to 38.74% in three state-of-the-art PCGMs (i.e., CodeGPT, PLBART, and CodeT5) in the fine-tuning code generation task, and reduce the Pass@1 of generated code by 32.28% to 44.42% in three state-of-the-art PCGMs (i.e., Replit, CodeGen, and CodeT5+) in the zero-shot code generation task. Moreover, RADAR-Defense is able to reinstate the performance of PCGMs with synthesized method names. These results highlight the importance of good method names in neural code generation and implicate the benefits of studying model robustness in software engineering.
翻訳日:2023-10-24 14:09:21 公開日:2023-07-30
# ROME:再帰的オブジェクトメルティングによる画像キャプションシステムのテスト

ROME: Testing Image Captioning Systems via Recursive Object Melting ( http://arxiv.org/abs/2306.02228v2 )

ライセンス: Link先を確認
Boxi Yu, Zhiqing Zhong, Jiaqi Li, Yixing Yang, Shilin He, Pinjia He(参考訳) 画像キャプション(IC)システムは、画像中の有能なオブジェクトのテキスト記述を生成することを目的としている。 近年,視覚障害者の支援やMicrosoft Powerpointでの記述生成など,ICシステムは日々の生活にますます統合されている。 しかし、最先端のICシステム(例えばMicrosoft Azure Cognitive Services)やアルゴリズム(例えばOFA)でさえ誤ったキャプションを生成し、重要なオブジェクトの誤ったキャプション、誤解、個人の安全への脅威をもたらす可能性がある。 既存のテスト手法では、ICシステム出力の複雑な形式(自然言語の文など)を処理できないか、テストケースとして不自然な画像を生成するかのいずれかである。 これらの問題に対処するために、ICシステムを検証する新しいメタモルフィックテスト手法であるRecursive Object Melting (Rome)を導入する。 オブジェクトを挿入することでテストケースを生成する既存のアプローチとは異なり、生成されたイメージを不自然なものにすることが容易である。 ローマは、画像のキャプションにセットされたオブジェクトは、オブジェクトが溶けた後、生成されたイメージのキャプションにセットされたオブジェクトを含むと仮定する。 画像が与えられたとき、ローマはオブジェクトを再帰的に取り除き、異なる画像を生成する。 我々はローマで広く採用されている画像キャプションAPIと4つの最先端(SOTA)アルゴリズムをテストする。 その結果,ローマが生成したテストケースはSOTA ICテスト手法よりも自然に見え,原画像と同等の自然性が得られることがわかった。 一方、226枚のシード画像を用いてテストペアを生成することで、ローマは9,121件の誤った問題を高い精度で報告した(86.47%-92.17%)。 さらに,ローマが生成したテストケースを用いてオスカーの再トレーニングを行い,複数の評価指標での性能を向上させる。

Image captioning (IC) systems aim to generate a text description of the salient objects in an image. In recent years, IC systems have been increasingly integrated into our daily lives, such as assistance for visually-impaired people and description generation in Microsoft Powerpoint. However, even the cutting-edge IC systems (e.g., Microsoft Azure Cognitive Services) and algorithms (e.g., OFA) could produce erroneous captions, leading to incorrect captioning of important objects, misunderstanding, and threats to personal safety. The existing testing approaches either fail to handle the complex form of IC system output (i.e., sentences in natural language) or generate unnatural images as test cases. To address these problems, we introduce Recursive Object MElting (Rome), a novel metamorphic testing approach for validating IC systems. Different from existing approaches that generate test cases by inserting objects, which easily make the generated images unnatural, Rome melts (i.e., remove and inpaint) objects. Rome assumes that the object set in the caption of an image includes the object set in the caption of a generated image after object melting. Given an image, Rome can recursively remove its objects to generate different pairs of images. We use Rome to test one widely-adopted image captioning API and four state-of-the-art (SOTA) algorithms. The results show that the test cases generated by Rome look much more natural than the SOTA IC testing approach and they achieve comparable naturalness to the original images. Meanwhile, by generating test pairs using 226 seed images, Rome reports a total of 9,121 erroneous issues with high precision (86.47%-92.17%). In addition, we further utilize the test cases generated by Rome to retrain the Oscar, which improves its performance across multiple evaluation metrics.
翻訳日:2023-10-24 04:35:13 公開日:2023-07-30
# 自動生成テストケースによるソフトウェアテスト容易性の測定

Measuring Software Testability via Automatically Generated Test Cases ( http://arxiv.org/abs/2307.16185v1 )

ライセンス: Link先を確認
Luca Guglielmo, Leonardo Mariani, Giovanni Denaro(参考訳) ソフトウェアテスト容易性の推定は、ソフトウェアマネージャがテスト予算とソフトウェア品質を最適化するのに非常に役立ちます。 本稿では,従来のソフトウェアメトリクスに基づくテスト容易性測定手法,例えばコードのサイズや設計の複雑さなどとは大きく異なる新しい手法を提案する。 本手法は, 自動テスト生成と突然変異解析を利用して, 有効テスト症例の相対的硬さに関するエビデンスを定量化する。 本稿では,テスト容易性を推定する提案を下敷きにした直感と方法論的選択について詳述するとともに,テスト容易性を具体的に推定する手法とプロトタイプを導入し,従来のソフトウェアメトリクスと組み合わせて推定性能を比較する一連の実験から得られた知見について考察する。 その結果,テスト容易性の推定値は,ソフトウェアメトリクスに基づく手法と相乗的に組み合わせることで,予測精度を向上させることができることがわかった。

Estimating software testability can crucially assist software managers to optimize test budgets and software quality. In this paper, we propose a new approach that radically differs from the traditional approach of pursuing testability measurements based on software metrics, e.g., the size of the code or the complexity of the designs. Our approach exploits automatic test generation and mutation analysis to quantify the evidence about the relative hardness of developing effective test cases. In the paper, we elaborate on the intuitions and the methodological choices that underlie our proposal for estimating testability, introduce a technique and a prototype that allows for concretely estimating testability accordingly, and discuss our findings out of a set of experiments in which we compare the performance of our estimations both against and in combination with traditional software metrics. The results show that our testability estimates capture a complementary dimension of testability that can be synergistically combined with approaches based on software metrics to improve the accuracy of predictions.
翻訳日:2023-10-23 15:49:07 公開日:2023-07-30
# 共同等変拡散による結晶構造予測

Crystal Structure Prediction by Joint Equivariant Diffusion ( http://arxiv.org/abs/2309.04475v1 )

ライセンス: Link先を確認
Rui Jiao, Wenbing Huang, Peijia Lin, Jiaqi Han, Pin Chen, Yutong Lu, and Yang Liu(参考訳) 結晶構造予測(CSP)は様々な科学分野において重要である。 CSPは、現在普及している生成モデル(例えば拡散モデル)を用いることで対処できるが、このタスクは結晶構造の対称幾何学(翻訳、回転、周期性の不変性)によって固有の課題に直面する。 上記の対称性を組み込むために,安定結晶から構造分布を学ぶための新しい拡散モデルdiffcspを提案する。 具体的には、DiffCSP は周期的-E(3)-等変デノナイジングモデルを用いて各結晶の格子と原子座標を共同で生成し、結晶幾何学をより良くモデル化する。 特に、関連する同変生成アプローチとは異なり、DiffCSPはカルト座標以外の分数座標を利用して結晶を表現し、原子位置の拡散と生成過程を著しく促進する。 我々のDiffCSPは既存のCSP法よりも大幅に優れており、DFT法に比べて計算コストははるかに低い。 さらに、ab initio結晶生成のために拡張すると、diffcspの優性も観察される。

Crystal Structure Prediction (CSP) is crucial in various scientific disciplines. While CSP can be addressed by employing currently-prevailing generative models (e.g. diffusion models), this task encounters unique challenges owing to the symmetric geometry of crystal structures -- the invariance of translation, rotation, and periodicity. To incorporate the above symmetries, this paper proposes DiffCSP, a novel diffusion model to learn the structure distribution from stable crystals. To be specific, DiffCSP jointly generates the lattice and atom coordinates for each crystal by employing a periodic-E(3)-equivariant denoising model, to better model the crystal geometry. Notably, different from related equivariant generative approaches, DiffCSP leverages fractional coordinates other than Cartesian coordinates to represent crystals, remarkably promoting the diffusion and the generation process of atom positions. Extensive experiments verify that our DiffCSP significantly outperforms existing CSP methods, with a much lower computation cost in contrast to DFT-based methods. Moreover, the superiority of DiffCSP is also observed when it is extended for ab initio crystal generation.
翻訳日:2023-10-23 08:24:20 公開日:2023-07-30
# データ拡張と画像生成のための軌道対応主多様体フレームワーク

Trajectory-aware Principal Manifold Framework for Data Augmentation and Image Generation ( http://arxiv.org/abs/2310.07801v1 )

ライセンス: Link先を確認
Elvis Han Cui, Bingbin Li, Yanan Li, Weng Kee Wong, Donghui Wang(参考訳) 深層学習のためのデータ拡張は、モデルトレーニング、画像変換、医療画像解析など多くの分野で有用である。 多くの既存の手法は、ガウス分布のようなパラメトリック分布から新しいサンプルを生成し、入力空間または特徴空間においてデータ多様体に沿ってサンプルを生成するのはほとんど注意を払わない。 本稿では,ガウス分布よりも特徴空間に隠れた主多様体を用いた場合の理論的・実用的利点について検証する。 次に,多様体のバックボーンを復元し,特定の軌道に沿ってサンプルを生成するための,新しい軌道認識主多様体フレームワークを提案する。 オートエンコーダアーキテクチャの上に、多様体をよりコンパクトにし、少数ショット画像生成を可能にする固有次元正規化項を導入する。 実験結果から,本フレームワークはよりコンパクトな多様体表現を抽出し,分類精度を向上し,サンプル間のスムーズな変換を実現できることがわかった。

Data augmentation for deep learning benefits model training, image transformation, medical imaging analysis and many other fields. Many existing methods generate new samples from a parametric distribution, like the Gaussian, with little attention to generate samples along the data manifold in either the input or feature space. In this paper, we verify that there are theoretical and practical advantages of using the principal manifold hidden in the feature space than the Gaussian distribution. We then propose a novel trajectory-aware principal manifold framework to restore the manifold backbone and generate samples along a specific trajectory. On top of the autoencoder architecture, we further introduce an intrinsic dimension regularization term to make the manifold more compact and enable few-shot image generation. Experimental results show that the novel framework is able to extract more compact manifold representation, improve classification accuracy and generate smooth transformation among few samples.
翻訳日:2023-10-23 02:59:45 公開日:2023-07-30
# 電力変換器の回路パラメータに対する人工知能設計

Artificial-Intelligence-Based Design for Circuit Parameters of Power Converters ( http://arxiv.org/abs/2308.05751v1 )

ライセンス: Link先を確認
X. Li, X. Zhang, F. Lin, F. Blaabjerg(参考訳) パラメータ設計は電力変換器の完全性を保証する上で重要である。 一般に、電力変換器の回路パラメータ設計は、解析と推論と最適化の2つのプロセスからなる。 パラメータ設計の既存のアプローチは従来のアプローチとcao(computer-aided optimization)アプローチの2つのタイプから成り立っている。 伝統的なアプローチでは、重い人間依存が必要である。 新たなCAOアプローチは最適化プロセスを自動化するが、手作業による分析と推論プロセスが必要である。 本稿では,高精度で実装が容易な人的依存を軽減するため,電力変換器のパラメータ設計のための人工知能設計(AI-D)手法を提案する。 提案したAI-Dアプローチでは,解析と推論プロセスにおける自動化を実現するために,最適化目標と設計制約のためのデータ駆動モデルを構築するために,シミュレーションツールとバッチ正規化ニューラルネットワーク(BN-NN)を採用している。 さらに,最適化プロセスにおける自動化を実現するため,遺伝的アルゴリズムを用いて最適設計結果の探索を行う。 提案手法は, 電気自動車の48V・12Vアクセサリー負荷電源システムにおいて, 同期バックコンバータの回路パラメータ設計において検証される。 容積、電圧リップル、電流リップルに制約のある効率最適同期バックコンバータの設計ケースを提供する。 本稿の最後に、ハードウェア実験により提案したAI-Dアプローチの有効性と精度が検証された。

Parameter design is significant in ensuring a satisfactory holistic performance of power converters. Generally, circuit parameter design for power converters consists of two processes: analysis and deduction process and optimization process. The existing approaches for parameter design consist of two types: traditional approach and computer-aided optimization (CAO) approach. In the traditional approaches, heavy human-dependence is required. Even though the emerging CAO approaches automate the optimization process, they still require manual analysis and deduction process. To mitigate human-dependence for the sake of high accuracy and easy implementation, an artificial-intelligence-based design (AI-D) approach is proposed in this article for the parameter design of power converters. In the proposed AI-D approach, to achieve automation in the analysis and deduction process, simulation tools and batch-normalization neural network (BN-NN) are adopted to build data-driven models for the optimization objectives and design constraints. Besides, to achieve automation in the optimization process, genetic algorithm is used to search for optimal design results. The proposed AI-D approach is validated in the circuit parameter design of the synchronous buck converter in the 48 to 12 V accessory-load power supply system in electric vehicle. The design case of an efficiency-optimal synchronous buck converter with constraints in volume, voltage ripple, and current ripple is provided. In the end of this article, feasibility and accuracy of the proposed AI-D approach have been validated by hardware experiments.
翻訳日:2023-08-20 16:47:31 公開日:2023-07-30
# CLGT:協調学習における学生のパフォーマンス予測のためのグラフ変換器

CLGT: A Graph Transformer for Student Performance Prediction in Collaborative Learning ( http://arxiv.org/abs/2308.02038v1 )

ライセンス: Link先を確認
Tianhao Peng, Yu Liang, Wenjun Wu, Jian Ren, Zhao Pengrui, Yanjun Pu(参考訳) 協調学習パラダイムにおける学生のパフォーマンスのモデル化と予測は重要な課題である。 共同学習に関する文献で示された研究の多くは、議論フォーラムと社会学習ネットワークに焦点を当てている。 チームプロジェクトにおける学生同士の交流や、そのような相互作用が学業成績に与える影響について調査する研究はごくわずかである。 このギャップを埋めるために、私たちは研究対象としてソフトウェアエンジニアリングコースを選択します。 ソフトウェア工学のコースに参加する学生は、一緒にソフトウェアプロジェクトを立ち上げ、完成することが求められます。 本研究では,様々なチームで編成された学生の活動に基づいたインタラクショングラフを構築する。 この学生間相互作用グラフに基づいて、学生のパフォーマンスを評価し予測するための協調学習のための拡張グラフトランスフォーマフレームワーク(CLGT)を提案する。 さらに,提案するclgtには,予測結果を説明し,学生のインタラクションパターンを可視化する解釈モジュールが含まれている。 実験の結果,clgtは実世界のデータセットに基づいて予測を行うことでベースラインモデルを上回ることがわかった。 さらに,clgtは,協調学習パラダイムにおいて成績の悪い生徒を区別し,教師に早期警告を与え,適切な支援を提供する。

Modeling and predicting the performance of students in collaborative learning paradigms is an important task. Most of the research presented in literature regarding collaborative learning focuses on the discussion forums and social learning networks. There are only a few works that investigate how students interact with each other in team projects and how such interactions affect their academic performance. In order to bridge this gap, we choose a software engineering course as the study subject. The students who participate in a software engineering course are required to team up and complete a software project together. In this work, we construct an interaction graph based on the activities of students grouped in various teams. Based on this student interaction graph, we present an extended graph transformer framework for collaborative learning (CLGT) for evaluating and predicting the performance of students. Moreover, the proposed CLGT contains an interpretation module that explains the prediction results and visualizes the student interaction patterns. The experimental results confirm that the proposed CLGT outperforms the baseline models in terms of performing predictions based on the real-world datasets. Moreover, the proposed CLGT differentiates the students with poor performance in the collaborative learning paradigm and gives teachers early warnings, so that appropriate assistance can be provided.
翻訳日:2023-08-14 01:59:18 公開日:2023-07-30
# 概念的枠組みの提案--ソーシャルメディアによる公衆衛生行動の聴取

Proposing a conceptual framework: social media listening for public health behavior ( http://arxiv.org/abs/2308.02037v1 )

ライセンス: Link先を確認
Shu-Feng Tsao, Helen Chen, Samantha Meyer, Zahid A. Butt(参考訳) 既存のコミュニケーションと行動理論は、健康上の誤報に対処するために採用されている。 新型コロナウイルス(covid-19)パンデミックの調査には様々な理論やモデルが用いられてきたが、ソーシャルメディアデータや自然言語処理技術を用いたソーシャルリスニングや誤情報研究のために特別に設計されたフレームワークは存在しない。 本研究は,新しい理論に基づく誤情報研究のための概念枠組みを提案することを目的とした。 我々は、ピアレビュー誌に掲載された新型コロナウイルス関連研究で使用される理論とモデルを収集した。 理論とモデルは、健康行動、コミュニケーション、誤情報など多岐にわたる。 コンポーネントを分析して批判し、続いてデモで概念的なフレームワークを提案します。 健康信念モデル,計画行動/調整行動の理論,行動インパクトのためのコミュニケーション,超理論モデル,利用と満足理論,社会的判断理論,リスク情報探索と処理モデル,行動と社会的ドライバ,ハイプループについて検討した。 そこで我々は,既存の理論の重要な属性を統合するだけでなく,新たな属性を追加することで,公衆衛生行動の概念的枠組みとしてソーシャルメディアリスニングを提案する。 提案する概念的枠組みは、ソーシャルメディアリスニングのfreedom convoyで実証された。 提案する概念的枠組みはソーシャルメディア上での公開談話をよりよく理解するために利用することができ、他のデータ分析と統合してより包括的な画像を集めることができる。 健康上の誤情報が進化するにつれ、このフレームワークは引き続き改訂され、採用される。

Existing communications and behavioral theories have been adopted to address health misinformation. Although various theories and models have been used to investigate the COVID-19 pandemic, there is no framework specially designed for social listening or misinformation studies using social media data and natural language processing techniques. This study aimed to propose a novel yet theory-based conceptual framework for misinformation research. We collected theories and models used in COVID-19 related studies published in peer-reviewed journals. The theories and models ranged from health behaviors, communications, to misinformation. They are analyzed and critiqued for their components, followed by proposing a conceptual framework with a demonstration. We reviewed Health Belief Model, Theory of Planned Behavior/Reasoned Action, Communication for Behavioral Impact, Transtheoretical Model, Uses and Gratifications Theory, Social Judgment Theory, Risk Information Seeking and Processing Model, Behavioral and Social Drivers, and Hype Loop. Accordingly, we proposed the Social Media Listening for Public Health Behavior Conceptual Framework by not only integrating important attributes of existing theories, but also adding new attributes. The proposed conceptual framework was demonstrated in the Freedom Convoy social media listening. The proposed conceptual framework can be used to better understand public discourse on social media, and it can be integrated with other data analyses to gather a more comprehensive picture. The framework will continue to be revised and adopted as health misinformation evolves.
翻訳日:2023-08-14 01:58:59 公開日:2023-07-30
# ビジュアルプログラミングのためのChatGPTとGPT-4の評価

Evaluating ChatGPT and GPT-4 for Visual Programming ( http://arxiv.org/abs/2308.02522v1 )

ライセンス: Link先を確認
Adish Singla(参考訳) 生成AIと大規模言語モデルは、パーソナライズされたフィードバックとコンテンツを自動的に生成することによって、コンピューティング教育のランドスケープを劇的に改善する可能性がある。 最近の研究は、異なるプログラミング教育シナリオにおけるこれらのモデルの能力について研究してきたが、これらはテキストベースのプログラミング、特にPythonプログラミングにのみ考慮されている。 その結果、これらのモデルがk-8プログラミング教育で広く使われているビジュアルプログラミング領域でどのように機能するかという疑問が開かれた。 最先端のジェネレーティブモデルは、テキストベースのpythonプログラミングの能力と同等に、ビジュアルプログラミングの高度な能力を示していますか? 本研究では,各種シナリオの視覚プログラミング領域におけるChatGPT(GPT-3.5に基づく)とGPT-4(GPT-4)の2つのモデルを評価し,専門家によるアノテーションを用いた性能評価を行った。 特に、Code-dot-org と Karel による Hour of Code: Maze Challenge のドメインからの参照タスクによる評価をベースとしています。 その結果,これらのモデルでは,空間的,論理的,プログラミング的スキルを組み合わせるのに苦慮していることがわかった。 これらの結果は、ビジュアルプログラミングにおける生成モデルのパフォーマンスを改善する技術の開発に関する今後の取り組みにエキサイティングな方向を与えてくれる。

Generative AI and large language models have the potential to drastically improve the landscape of computing education by automatically generating personalized feedback and content. Recent works have studied the capabilities of these models for different programming education scenarios; however, these works considered only text-based programming, in particular, Python programming. Consequently, they leave open the question of how well these models would perform in visual programming domains popularly used for K-8 programming education. The main research question we study is: Do state-of-the-art generative models show advanced capabilities in visual programming on par with their capabilities in text-based Python programming? In our work, we evaluate two models, ChatGPT (based on GPT-3.5) and GPT-4, in visual programming domains for various scenarios and assess performance using expert-based annotations. In particular, we base our evaluation using reference tasks from the domains of Hour of Code: Maze Challenge by Code-dot-org and Karel. Our results show that these models perform poorly and struggle to combine spatial, logical, and programming skills crucial for visual programming. These results also provide exciting directions for future work on developing techniques to improve the performance of generative models in visual programming.
翻訳日:2023-08-14 01:20:54 公開日:2023-07-30
# 機械学習によるMDPの確率的ビシミュレーションの改善

Improving Probabilistic Bisimulation for MDPs Using Machine Learning ( http://arxiv.org/abs/2308.02519v1 )

ライセンス: Link先を確認
Mohammadsadegh Mohaghegh, Khayyam Salehi(参考訳) 臨界系解析のための形式的検証手法としてモデル検査の利用が提案されている。 しかし、複雑なシステムに適用する際の最大の課題は、状態宇宙爆発問題である。 この問題に対処するため,バイシミュレーションの最小化は,状態空間の爆発問題に関わる問題を克服することを目的として,ラベル付き遷移系における状態数を削減する重要な手法として登場した。 確率的振る舞いを示すシステムの場合、確率的双シミュレーションは与えられたモデルを最小化し、より少ない状態で等価な形式を得る。 近年,非決定的挙動を示す確率的システムの確率的ビシミュレーションを計算するための反復的手法の時間的複雑さを低減するために,様々な手法が導入された。 本稿では,与えられた確率モデルの状態空間をそのバイシミュレーションクラスに分割する新しい手法を提案する。 この手法は与えられたモデルのPRISMプログラムを使用し、モデルのいくつかの小さなバージョンを構築して分類器を訓練する。 そして、関連する分割を近似するために機械学習の分類技術を適用する。 結果として生じるパーティションは、メソッドの実行時間を短縮するために、標準バイシミュレーション手法の最初のものとして使用される。 実験の結果,最先端ツールに比べて実行時間を大幅に短縮できることがわかった。

The utilization of model checking has been suggested as a formal verification technique for analyzing critical systems. However, the primary challenge in applying to complex systems is state space explosion problem. To address this issue, bisimulation minimization has emerged as a prominent method for reducing the number of states in a labeled transition system, aiming to overcome the difficulties associated with the state space explosion problem. In the case of systems exhibiting stochastic behaviors, probabilistic bisimulation is employed to minimize a given model, obtaining its equivalent form with fewer states. Recently, various techniques have been introduced to decrease the time complexity of the iterative methods used to compute probabilistic bisimulation for stochastic systems that display nondeterministic behaviors. In this paper, we propose a new technique to partition the state space of a given probabilistic model to its bisimulation classes. This technique uses the PRISM program of a given model and constructs some small versions of the model to train a classifier. It then applies machine learning classification techniques to approximate the related partition. The resulting partition is used as an initial one for the standard bisimulation technique in order to reduce the running time of the method. The experimental results show that the approach can decrease significantly the running time compared to state-of-the-art tools.
翻訳日:2023-08-14 01:20:32 公開日:2023-07-30
# LaFiCMIL: 関連性のある複数インスタンス学習の観点からの大規模ファイル分類の再考

LaFiCMIL: Rethinking Large File Classification from the Perspective of Correlated Multiple Instance Learning ( http://arxiv.org/abs/2308.01413v1 )

ライセンス: Link先を確認
Tiezhu Sun, Weiguo Pian, Nadia Daoudi, Kevin Allix, Tegawend\'e F. Bissyand\'e, Jacques Klein(参考訳) トランスフォーマーベースのモデルは、幅広い言語タスクのパフォーマンスに革命をもたらした。 直感的には、生成タスクとして多くのハイレベルな表現を必要としないテキスト分類は、トランスフォーマーの強力な表現能力に包括的に対処されるだろう。 しかし、実際には、特に長いテキスト文書やその他の大きなファイルのマルチクラスおよびマルチラベル分類の領域において、強化の可能性は大きい。 変圧器ベースのモデルの性能は、主に大きな制限によって妨げられている: 制限された入力長、例えば、bertの512トークンなど。 GPUメモリの増加は、この限界をわずかに拡張できるが、現実のアプリケーションは、しばしば制限されたGPUリソースの下で動作する。 本研究では,複数インスタンス間の相関学習の観点から,入力限界問題に取り組む。 提案手法であるLaFiCMILは、自然言語処理、プログラミング言語処理、Android分析など、さまざまな領域にまたがる、バイナリ、マルチクラス、マルチラベルの分類タスクをカバーする様々な大規模なファイル分類タスクに適用可能なフレームワークである。 有効性を評価するために,Long Document Classification, Code Defect Detection, Android Malware Detectionの8つのベンチマークデータセットを用いた。 bertファミリーモデルを特徴抽出器として活用し,laficmilがすべてのベンチマークデータセットで新たな最先端性能を実現することを実証した。 これはBERTを最大20Kトークンまでスケールアップし、32Gのメモリを持つ単一のTesla V-100 GPUで動作する能力に起因する。

Transformer-based models have revolutionized the performance of a wide range of language tasks. Intuitively, one might expect text classification, which does not necessitate as many high-level representations as generative tasks, to be comprehensively addressed with the powerful representation capabilities of Transformers. However, in reality, there remains significant potential for enhancement, particularly in the areas of multi-class and multi-label classification of lengthy textual documents and other large files. The performance of Transformer-based models is mainly hindered by a major limitation: a restricted input length, e.g., 512 tokens for BERT. While an increase in GPU memory can marginally extend this limit, practical real-world applications often operate under constrained GPU resources. In this work, we tackle the input limit problem from the perspective of correlated multiple instance learning. The proposed approach, LaFiCMIL, serves as a versatile framework applicable to various large file classification tasks covering binary, multi-class, and multi-label classification tasks, spanning various domains including Natural Language Processing, Programming Language Processing, and Android Analysis. To evaluate its effectiveness, we employ eight benchmark datasets pertaining to Long Document Classification, Code Defect Detection, and Android Malware Detection. Leveraging BERT-family models as feature extractors, our experimental results demonstrate that LaFiCMIL achieves new state-of-the-art performance across all benchmark datasets. This is largely attributable to its capability of scaling BERT up to nearly 20K tokens, running on a single Tesla V-100 GPU with 32G of memory.
翻訳日:2023-08-04 15:55:05 公開日:2023-07-30
# リニア高速化による局所適応修正最適化による効果的なフェデレーション学習

Efficient Federated Learning via Local Adaptive Amended Optimizer with Linear Speedup ( http://arxiv.org/abs/2308.00522v1 )

ライセンス: Link先を確認
Yan Sun, Li Shen, Hao Sun, Liang Ding and Dacheng Tao(参考訳) アダプティブ最適化は分散学習において顕著な成功を収め、適応オプティマイザを連合学習(fl)に拡張した。 (i)グローバル適応最適化器における不正確な勾配推定による頑強な収束 (ii)局所適応最適化器による局所オーバーフィッティングによりクライアントドリフトが悪化する。 本研究では,大域的勾配降下と局所適応型修正オプティマイザを用いた運動量に基づく新しいアルゴリズムを提案する。 具体的には,適応オプティマイザ(federated local adaptive amended optimizer (\textit{fedlada}) に局所修正手法を取り入れ,前回の通信ラウンドにおけるグローバル平均オフセットを推定し,モメンタライクな用語で局所オフセットを補正することで,経験的トレーニング速度をさらに向上し,不均質なオーバーフィッティングを緩和する。 理論的には、部分的参加条件下で、非凸ケース上の線形スピードアップ特性を持つ \textit{fedlada} の収束率を確立する。 さらに,提案する‘textit{FedLADA}’の有効性を示すために,実世界のデータセットに対する広範な実験を行い,通信ラウンドを大幅に削減し,複数のベースラインよりも高い精度を実現する。

Adaptive optimization has achieved notable success for distributed learning while extending adaptive optimizer to federated Learning (FL) suffers from severe inefficiency, including (i) rugged convergence due to inaccurate gradient estimation in global adaptive optimizer; (ii) client drifts exacerbated by local over-fitting with the local adaptive optimizer. In this work, we propose a novel momentum-based algorithm via utilizing the global gradient descent and locally adaptive amended optimizer to tackle these difficulties. Specifically, we incorporate a locally amended technique to the adaptive optimizer, named Federated Local ADaptive Amended optimizer (\textit{FedLADA}), which estimates the global average offset in the previous communication round and corrects the local offset through a momentum-like term to further improve the empirical training speed and mitigate the heterogeneous over-fitting. Theoretically, we establish the convergence rate of \textit{FedLADA} with a linear speedup property on the non-convex case under the partial participation settings. Moreover, we conduct extensive experiments on the real-world dataset to demonstrate the efficacy of our proposed \textit{FedLADA}, which could greatly reduce the communication rounds and achieves higher accuracy than several baselines.
翻訳日:2023-08-02 14:13:49 公開日:2023-07-30
# 4次元エネルギー-モーメント空間におけるヴェイユ単極子のローレンツ不変性とガウスの法則によるベリー・マクスウェル方程式の構成

Constructing Berry-Maxwell equations with Lorentz invariance and Gauss' law of Weyl monopoles in 4D energy-momentum space ( http://arxiv.org/abs/2308.00612v1 )

ライセンス: Link先を確認
Yiming Pan, Ruoyu Yin(参考訳) 本稿では,ベリー曲率を運動量空間から4次元(4次元)エネルギー-運動量空間に拡張して相互電磁場を構築する。 結果として得られる支配方程式はベリー・マクスウェル方程式と呼ばれ、エネルギー-運動量のパラメータ空間を制約するためにローレンツ不変性を導入することによって導かれる。 特に、これらのベリー・マクスウェル方程式は、従来の電磁場を支配するマクスウェル方程式と比較して双対および自己双対構造を示す。 さらに,ベリー・マクスウェル方程式の存在は物質波の幾何学的位相とは独立であり,シュロディンガー方程式から直接は導出できないことを示した。 したがって、特殊相対性理論の基本原理とワイルモノポールのガウスの法則を基礎として、相互電磁場を物理現実として提案する。 我々の理論を実験的に検証するために、我々は3つの潜在的な効果を概説する。 (i)ワイルモノポールのローレンツブースト (ii)逆トウレスポンピング、及び 3)ベリー・マクスウェル方程式の平面波解

We present the construction of a reciprocal electromagnetic field by extending the Berry curvatures from momentum space into four-dimensional (4D) energy-momentum space. The resulting governing equations, termed Berry-Maxwell equations, are derived, by incorporating Lorentz invariance to constrain the parameter space of energy-momentum. Notably, these Berry-Maxwell equations exhibit dual and self-dual structures compared to the Maxwell equations governing conventional electromagnetic fields. Furthermore, we demonstrate that the very existence of Berry-Maxwell equations is independent of the geometrical phase of matter waves, implying that they cannot be directly derived from the Schrodinger equation. Consequently, we propose the reciprocal electromagnetic field as a physical reality, rooted in the fundamental principles of special relativity and Gauss's law of Weyl monopoles. To validate our theory experimentally, we outline three potential effects for verification: (i) Lorentz boost of a Weyl monopole, (ii) reciprocal Thouless pumping, and (iii) plane-wave solutions of Berry-Maxwell equations.
翻訳日:2023-08-02 13:43:44 公開日:2023-07-30
# 生成モデルのリバースエンジニアリング:生成画像からモデルハイパーパラメータを推定する

Reverse Engineering of Generative Models: Inferring Model Hyperparameters from Generated Images ( http://arxiv.org/abs/2106.07873v3 )

ライセンス: Link先を確認
Vishal Asnani, Xi Yin, Tal Hassner, Xiaoming Liu(参考訳) State-of-the-art (SOTA) Generative Models (GM)は、人間が本物の写真と区別するのが難しい写真リアルな画像を合成することができる。 操作されたメディアの同定と理解は、gmの潜在的な誤用に対する社会的懸念を軽減するために不可欠である。 これらのモデルにより生成された画像からモデルハイパーパラメータを推論するために,GMのリバースエンジニアリングを行う。 我々は、gmネットワークアーキテクチャを推定し、生成された画像を調べることで損失関数をトレーニングする『モデル解析』という新しい問題を定義している。 この問題に対処するために、生成画像からGM指紋を推定するFEN(Fingerprint Estimation Network)と、推定された指紋からネットワークアーキテクチャと損失関数を予測するPN(Parsing Network)の2つのコンポーネントからなるフレームワークを提案する。 当社のアプローチを評価するために、異なるgmが生成する1億ドルのイメージを含む偽の画像データセットを収集します。 広範な実験により、未発見のモデルのハイパーパラメータ解析の結果が奨励されている。 最後に,deepfake detection (celeb-df) と image attribution benchmarks の両方で sota 結果を報告することにより,deepfake detection と image attribution に指紋推定を活用できることを示した。

State-of-the-art (SOTA) Generative Models (GMs) can synthesize photo-realistic images that are hard for humans to distinguish from genuine photos. Identifying and understanding manipulated media are crucial to mitigate the social concerns on the potential misuse of GMs. We propose to perform reverse engineering of GMs to infer model hyperparameters from the images generated by these models. We define a novel problem, ``model parsing", as estimating GM network architectures and training loss functions by examining their generated images -- a task seemingly impossible for human beings. To tackle this problem, we propose a framework with two components: a Fingerprint Estimation Network (FEN), which estimates a GM fingerprint from a generated image by training with four constraints to encourage the fingerprint to have desired properties, and a Parsing Network (PN), which predicts network architecture and loss functions from the estimated fingerprints. To evaluate our approach, we collect a fake image dataset with $100$K images generated by $116$ different GMs. Extensive experiments show encouraging results in parsing the hyperparameters of the unseen models. Finally, our fingerprint estimation can be leveraged for deepfake detection and image attribution, as we show by reporting SOTA results on both the deepfake detection (Celeb-DF) and image attribution benchmarks.
翻訳日:2023-08-02 01:23:58 公開日:2023-07-30
# 二層ニューラルネットワークの漸近理論:バイアス-分散トレードオフを超えて

Nonasymptotic theory for two-layer neural networks: Beyond the bias-variance trade-off ( http://arxiv.org/abs/2106.04795v2 )

ライセンス: Link先を確認
Huiyuan Wang and Wei Lin(参考訳) 大規模ニューラルネットワークは、サンプルサイズに対してアクティブパラメータの数が大きい過剰パラメータ化環境においても、現代のディープラーニングの実践において非常に効果的であることが証明されている。 これは、機械学習モデルが最適な一般化のためにバイアスと分散をトレードオフしなければならないという古典的な見解と矛盾する。 この対立を解決するために,ReLUアクティベーション機能を持つ2層ニューラルネットワークに対して,スケールド変動正規化を取り入れた漸近的一般化理論を提案する。 興味深いことに、正規化子は勾配に基づく最適化の角度からリッジ回帰と等価であるが、モデルの複雑さを制御するのに群lassoと同じような役割を果たす。 この「リッジラッソ双対性(ridge-lasso duality)」を生かして、二重降下現象を再現する全てのネットワーク幅に対する新たな予測境界を得る。 さらに、過パラメータ化最小リスクは、信号が強い場合、過パラメータ化最小リスクよりも低く、適切な関数のクラスに対してほぼ最適である。 対照的に、超パラメータランダム特徴モデルは次元の呪いに苦しめられ、従って最適でないことを示した。

Large neural networks have proved remarkably effective in modern deep learning practice, even in the overparametrized regime where the number of active parameters is large relative to the sample size. This contradicts the classical perspective that a machine learning model must trade off bias and variance for optimal generalization. To resolve this conflict, we present a nonasymptotic generalization theory for two-layer neural networks with ReLU activation function by incorporating scaled variation regularization. Interestingly, the regularizer is equivalent to ridge regression from the angle of gradient-based optimization, but plays a similar role to the group lasso in controlling the model complexity. By exploiting this "ridge-lasso duality," we obtain new prediction bounds for all network widths, which reproduce the double descent phenomenon. Moreover, the overparametrized minimum risk is lower than its underparametrized counterpart when the signal is strong, and is nearly minimax optimal over a suitable class of functions. By contrast, we show that overparametrized random feature models suffer from the curse of dimensionality and thus are suboptimal.
翻訳日:2023-08-02 01:23:33 公開日:2023-07-30
# 半教師型医用画像分割のための特徴表現学習

Exploring Feature Representation Learning for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2111.10989v2 )

ライセンス: Link先を確認
Huimin Wu, Xiaomeng Li, and Kwang-Ting Cheng(参考訳) 本稿では,半教師付き医用画像分割のための簡易かつ効果的な2段階フレームワークを提案する。 整合性正規化や擬似ラベリングといった予測に直接疑似監督に依存する従来の半教師付きセグメンテーション手法とは異なり、我々の重要な洞察は、ラベル付きおよびラベルなし(擬似ラベル付き)画像による特徴表現学習を探求し、よりコンパクトでより分離された特徴空間を正規化することであり、低密度決定境界学習の道を切り拓き、セグメンテーション性能を向上させることである。 第1段階でラベル付き画像を利用する境界対応型コントラスト損失と、第2段階でラベル付き画像と擬似ラベル付き画像の両方を最適化するプロトタイプ対応コントラスト損失とを含む、ステージ適応型コントラスト学習方法を提案する。 プロトタイプ認識型コントラスト学習において重要な役割を果たす,より正確なプロトタイプ推定を行うため, aua法を用いて高品質な擬似ラベルを生成する。 AUAは画像の曖昧さを利用して予測一貫性を適応的に調整する。 本手法は,3つの医用画像セグメンテーションベンチマークにおいて最良の結果を得る。

This paper presents a simple yet effective two-stage framework for semi-supervised medical image segmentation. Unlike prior state-of-the-art semi-supervised segmentation methods that predominantly rely on pseudo supervision directly on predictions, such as consistency regularization and pseudo labeling, our key insight is to explore the feature representation learning with labeled and unlabeled (i.e., pseudo labeled) images to regularize a more compact and better-separated feature space, which paves the way for low-density decision boundary learning and therefore enhances the segmentation performance. A stage-adaptive contrastive learning method is proposed, containing a boundary-aware contrastive loss that takes advantage of the labeled images in the first stage, as well as a prototype-aware contrastive loss to optimize both labeled and pseudo labeled images in the second stage. To obtain more accurate prototype estimation, which plays a critical role in prototype-aware contrastive learning, we present an aleatoric uncertainty-aware method, namely AUA, to generate higher-quality pseudo labels. AUA adaptively regularizes prediction consistency by taking advantage of image ambiguity, which, given its significance, is under-explored by existing works. Our method achieves the best results on three public medical image segmentation benchmarks.
翻訳日:2023-08-02 01:16:24 公開日:2023-07-30
# 勧告システムのための深層探査

Deep Exploration for Recommendation Systems ( http://arxiv.org/abs/2109.12509v4 )

ライセンス: Link先を確認
Zheqing Zhu, Benjamin Van Roy(参考訳) 現代のレコメンデーションシステムは、遅れたフィードバックを探索し、学ぶことで恩恵を受けるべきです。 研究は、単一のレコメンデーションに対するユーザの反応から学ぶことに集中する傾向があります。 このような作業は、教師やバンディット学習の手法を活用し、ユーザのその後の行動から学ぶことを禁じている。 過去の研究がその後の行動から学ぶことを目指していたところでは、情報に遅れたフィードバックを導き出す効果的な方法が不足している。 フィードバックの遅れによる効果的な探索は、報酬が不足している場合に特に困難になる。 そこで我々は,レコメンデーションシステムのための深層探査手法を開発した。 特に,推薦を逐次的決定問題として定式化し,単段探索よりも深い探索の利点を示す。 本実験は,高忠実度産業用シミュレータを用いて実施し,既存のアルゴリズムに対する大幅な改善を図る。

Modern recommendation systems ought to benefit by probing for and learning from delayed feedback. Research has tended to focus on learning from a user's response to a single recommendation. Such work, which leverages methods of supervised and bandit learning, forgoes learning from the user's subsequent behavior. Where past work has aimed to learn from subsequent behavior, there has been a lack of effective methods for probing to elicit informative delayed feedback. Effective exploration through probing for delayed feedback becomes particularly challenging when rewards are sparse. To address this, we develop deep exploration methods for recommendation systems. In particular, we formulate recommendation as a sequential decision problem and demonstrate benefits of deep exploration over single-step exploration. Our experiments are carried out with high-fidelity industrial-grade simulators and establish large improvements over existing algorithms.
翻訳日:2023-08-02 01:14:48 公開日:2023-07-30
# 翻訳は多言語言語モデリングに役立つか?

Does Transliteration Help Multilingual Language Modeling? ( http://arxiv.org/abs/2201.12501v3 )

ライセンス: Link先を確認
Ibraheem Muhammad Moosa, Mahmud Elahi Akhter, Ashfia Binte Habib(参考訳) スクリプトの多様性は、密接に関連する言語間の語彙的重複を減らすことで、MLLM(Multilingual Language Models)に挑戦する。 したがって、異なるスクリプトを共通スクリプトに翻訳することで、MLLMの下流タスク性能を向上させることができる。 この文脈におけるMLLMに対する音訳の効果を実証的に測定する。 我々は、世界でもっとも多様なスクリプトを持つindicglue言語に注目し、indicglueベンチマークでモデルを評価した。 マン・ホイットニーu試験を行い,音訳の効果が有意かどうかを厳密に検証した。 翻訳は、比較的高いリソース言語に悪影響を及ぼすことなく、低リソース言語に恩恵をもたらすことが分かりました。 また,FLORES-101データセットからの並列文を中心としたカーネルアライメントを用いて,モデルの言語間表現類似度を測定した。 異なる言語にまたがる並列文に対して,翻訳に基づくモデルはより類似した文表現を学習する。

Script diversity presents a challenge to Multilingual Language Models (MLLM) by reducing lexical overlap among closely related languages. Therefore, transliterating closely related languages that use different writing scripts to a common script may improve the downstream task performance of MLLMs. We empirically measure the effect of transliteration on MLLMs in this context. We specifically focus on the Indic languages, which have the highest script diversity in the world, and we evaluate our models on the IndicGLUE benchmark. We perform the Mann-Whitney U test to rigorously verify whether the effect of transliteration is significant or not. We find that transliteration benefits the low-resource languages without negatively affecting the comparatively high-resource languages. We also measure the cross-lingual representation similarity of the models using centered kernel alignment on parallel sentences from the FLORES-101 dataset. We find that for parallel sentences across different languages, the transliteration-based model learns sentence representations that are more similar.
翻訳日:2023-08-02 01:04:57 公開日:2023-07-30
# 相関スキームによる正則グラフからの部分因子

Subfactors from regular graphs induced by association schemes ( http://arxiv.org/abs/2201.07310v3 )

ライセンス: Link先を確認
Radhakrishnan Balu(参考訳) 正則グラフ上でのファッショニング量子ウォークを可能にする数学的構造と固有系におけるそれらの実現との関係を明らかにする。 我々の主人公は、下因子の正準構造を持つタイプII行列から合成できるアソシエーションスキームである。 このようにして、Fock空間と相互作用する関係スキームによって誘導される距離正則グラフの増大に量子ウォークを設定し、サブファクタによって記述される任意のシステムとそれらを関連付ける。 このアプローチで扱われる可能性のあるグラフの大規模なファミリーについて詳しく論じる。 関連スキームと実現可能なanyonシステムの分類は複雑な組合せ問題であり、量子ウォークアプリケーションに基づくアプローチでその一部に取り組む。

We clarify the relations between the mathematical structures that enable fashioning quantum walks on regular graphs and their realizations in anyonic systems. Our protagonist is association schemes that may be synthesized from type-II matrices which have a canonical construction of subfactors. This way we set up quantum walks on growing distance-regular graphs induced by association schemes via interacting Fock spaces and relate them to anyon systems described by subfactors. We discuss in detail a large family of graphs that may be treated within this approach. Classification of association schemes and realizable anyon systems are complex combinatorial problems and we tackle a part of it with a quantum walk application based approach.
翻訳日:2023-08-02 01:04:31 公開日:2023-07-30
# 記憶を通した推論: 最寄りの知識グラフ埋め込み

Reasoning Through Memorization: Nearest Neighbor Knowledge Graph Embeddings ( http://arxiv.org/abs/2201.05575v4 )

ライセンス: Link先を確認
Peng Wang, Xin Xie, Xiaohan Wang, Ningyu Zhang(参考訳) 従来の知識グラフの埋め込みアプローチは通常、エンティティを表現にマッピングし、スコア関数を使用して対象エンティティを予測するが、通常、希少または未確認のエンティティを推論するのに苦労する。 本稿では,k-nearest 近傍のエンティティ分布を線形に補間することにより,事前学習言語モデルを用いた知識グラフ埋め込み手法 kNN-KGE を提案する。 我々は、知識ストアからのエンティティ埋め込み空間内の距離に基づいて、最も近い隣人を計算する。 我々のアプローチは、モデルパラメーターにおいて暗黙的にではなく、希少または新興のエンティティを明示的に記憶することができる。 実験の結果,提案手法はインダクティブリンクとトランスダクティブリンクの予測結果を改善でき,少ない三重項数で低リソース設定でパフォーマンスが向上し,明示的なメモリによる推論が容易になることが示された。 コードはhttps://github.com/zjunlp/KNN-KGで入手できる。

Previous knowledge graph embedding approaches usually map entities to representations and utilize score functions to predict the target entities, yet they typically struggle to reason rare or emerging unseen entities. In this paper, we propose kNN-KGE, a new knowledge graph embedding approach with pre-trained language models, by linearly interpolating its entity distribution with k-nearest neighbors. We compute the nearest neighbors based on the distance in the entity embedding space from the knowledge store. Our approach can allow rare or emerging entities to be memorized explicitly rather than implicitly in model parameters. Experimental results demonstrate that our approach can improve inductive and transductive link prediction results and yield better performance for low-resource settings with only a few triples, which might be easier to reason via explicit memory. Code is available at https://github.com/zjunlp/KNN-KG.
翻訳日:2023-08-02 01:04:03 公開日:2023-07-30
# 静止時の機能的脳ネットワークの持続的状態空間推定

Persistent Homological State-Space Estimation of Functional Human Brain Networks at Rest ( http://arxiv.org/abs/2201.00087v3 )

ライセンス: Link先を確認
Moo K. Chung, Shih-Gu Huang, Ian C. Carroll, Vince D. Calhoun, H. Hill Goldsmith(参考訳) 人間の機能的脳ネットワークを動的に変化する状態空間を推定するための新しいデータ駆動トポロジカルデータ分析(TDA)手法を提案する。 このアプローチは,脳ネットワークを動的にトポロジカルな状態に変えるネットワークとクラスタ間のトポロジカル距離をペナルティ化する。 本手法は,ネットワーク間のwasserstein距離を通じて,データの時間次元を考慮に入れる。 本手法は,脳ネットワークの状態空間推定によく用いられるk-meansクラスタリングよりも優れることを示す。 機能的脳ネットワークを動的に変化する状態空間をより正確に決定するために,本手法を適用した。 その後,脳ネットワーク全体のトポロジが,ツインスタディデザインを用いた遺伝学的特徴であるかどうかという課題に対処する。

We present a new data driven topological data analysis (TDA) approach for estimating state spaces in dynamically changing human functional brain networks of human. Our approach penalizes the topological distance between networks and clusters dynamically changing brain networks into topologically distinct states. Our method takes into account the temporal dimension of the data through the Wasserstein distance between networks. Our method is shown to outperform the widely used k-means clustering often used in estimating the state space in brain networks. The method is applied to more accurately determine the state spaces of dynamically changing functional brain networks. Subsequently, we address the question of whether the overall topology of brain networks is a heritable feature using the twin study design.
翻訳日:2023-08-02 01:03:47 公開日:2023-07-30
# プロセスアウトカム予測における説明可能性:解釈可能かつ忠実なモデルを実現するためのガイドライン

Explainability in Process Outcome Prediction: Guidelines to Obtain Interpretable and Faithful Models ( http://arxiv.org/abs/2203.16073v5 )

ライセンス: Link先を確認
Alexander Stevens, Johannes De Smedt(参考訳) 最近の予測プロセス監視の分野では、説明可能な人工知能分野のモデルを使用するようにシフトされているが、その評価は主にパフォーマンスベースのメトリクスによって行われるため、説明の動作可能性や影響は考慮されていない。 本稿では,プロセス結果予測の分野において,説明の解釈可能性と説明可能性モデルの忠実性を通じて説明可能性を定義する。 導入された特性は、プロセスベースの分析に典型的なイベント、ケース、制御フローの観点から分析されます。 これにより、本質的に生成された説明とポストホックな説明を比較することができる。 13のリアルライフイベントログに7つの分類器をベンチマークし、透明で非透明な機械学習とディープラーニングモデルをカバーし、さらに説明可能性のテクニックを補完する。 次に、イベントログ仕様に基づいて適切なモデルを選択することができるX-MOPというガイドラインを提案し、プロセス結果予測に典型的な様々な前処理、モデル複雑さ、説明可能性技術がモデルの説明可能性にどのように影響するかを洞察する。

Although a recent shift has been made in the field of predictive process monitoring to use models from the explainable artificial intelligence field, the evaluation still occurs mainly through performance-based metrics, thus not accounting for the actionability and implications of the explanations. In this paper, we define explainability through the interpretability of the explanations and the faithfulness of the explainability model in the field of process outcome prediction. The introduced properties are analysed along the event, case, and control flow perspective which are typical for a process-based analysis. This allows comparing inherently created explanations with post-hoc explanations. We benchmark seven classifiers on thirteen real-life events logs, and these cover a range of transparent and non-transparent machine learning and deep learning models, further complemented with explainability techniques. Next, this paper contributes a set of guidelines named X-MOP which allows selecting the appropriate model based on the event log specifications, by providing insight into how the varying preprocessing, model complexity and explainability techniques typical in process outcome prediction influence the explainability of the model.
翻訳日:2023-08-02 00:56:29 公開日:2023-07-30
# HiFi++: 帯域拡張と音声強調のための統一フレームワーク

HiFi++: a Unified Framework for Bandwidth Extension and Speech Enhancement ( http://arxiv.org/abs/2203.13086v3 )

ライセンス: Link先を確認
Pavel Andreev, Aibek Alanov, Oleg Ivanov, Dmitry Vetrov(参考訳) 生成的敵ネットワークは、最近、自己回帰モデルやフローベースモデルよりも優れた神経ボコーディング性能を示した。 本稿では,この成功を条件付き音声生成の他のタスクにも拡張できることを示す。 特に,HiFi vocoders をベースとして,帯域拡張と音声強調のための新しい HiFi++ 汎用フレームワークを提案する。 ジェネレータアーキテクチャの改善により、hifi++は、計算リソースを大幅に削減しながら、これらのタスクの最先端と、より良く、あるいは互換性のあるパフォーマンスを示す。 本手法の有効性は, 様々な実験により検証された。

Generative adversarial networks have recently demonstrated outstanding performance in neural vocoding outperforming best autoregressive and flow-based models. In this paper, we show that this success can be extended to other tasks of conditional audio generation. In particular, building upon HiFi vocoders, we propose a novel HiFi++ general framework for bandwidth extension and speech enhancement. We show that with the improved generator architecture, HiFi++ performs better or comparably with the state-of-the-art in these tasks while spending significantly less computational resources. The effectiveness of our approach is validated through a series of extensive experiments.
翻訳日:2023-08-02 00:56:10 公開日:2023-07-30
# BoMD: ノイズの多い胸部X線分類のためのマルチラベルディスクリプタのバグ

BoMD: Bag of Multi-label Descriptors for Noisy Chest X-ray Classification ( http://arxiv.org/abs/2203.01937v4 )

ライセンス: Link先を確認
Yuanhong Chen, Fengbei Liu, Hu Wang, Chong Wang, Yu Tian, Yuyuan Liu, Gustavo Carneiro(参考訳) 深層学習法は、医用画像問題において顕著な分類精度を示しており、これは主に、クリーンラベルを手動でアノテートした大規模なデータセットが利用可能であることに起因する。 しかし, 手動注記のコストが高いことから, 新たな医用画像分類問題は, 放射線報告書から抽出された機械生成雑音ラベルに依存する必要があると考えられる。 実際、多くのチェストX線分類器(CXR)はすでにノイズラベルを持つデータセットからモデル化されているが、その訓練手順は一般にノイズラベルサンプルに対して堅牢ではないため、準最適モデルにつながる。 さらに、CXRデータセットは主にマルチラベルであるため、現在のマルチクラス問題用に設計されたノイズラベル学習手法は容易に適応できない。 本稿では,データセットからサンプルを検出・スムースにラベル付けし,一般的なマルチラベル分類器の訓練に使用する,ノイズの多いマルチラベルcxr学習のための新しい手法を提案する。 提案手法は,マルチラベル画像アノテーションからBERTモデルによって生成された意味記述子と類似性を促進するために,複数ラベル記述子の袋を最適化する。 ノイズの多いマルチラベルトレーニングセットとクリーンなテストセットに関する実験では、多くのcxrマルチラベル分類ベンチマークにおいて、最先端の精度と堅牢性が得られた。

Deep learning methods have shown outstanding classification accuracy in medical imaging problems, which is largely attributed to the availability of large-scale datasets manually annotated with clean labels. However, given the high cost of such manual annotation, new medical imaging classification problems may need to rely on machine-generated noisy labels extracted from radiology reports. Indeed, many Chest X-ray (CXR) classifiers have already been modelled from datasets with noisy labels, but their training procedure is in general not robust to noisy-label samples, leading to sub-optimal models. Furthermore, CXR datasets are mostly multi-label, so current noisy-label learning methods designed for multi-class problems cannot be easily adapted. In this paper, we propose a new method designed for the noisy multi-label CXR learning, which detects and smoothly re-labels samples from the dataset, which is then used to train common multi-label classifiers. The proposed method optimises a bag of multi-label descriptors (BoMD) to promote their similarity with the semantic descriptors produced by BERT models from the multi-label image annotation. Our experiments on diverse noisy multi-label training sets and clean testing sets show that our model has state-of-the-art accuracy and robustness in many CXR multi-label classification benchmarks.
翻訳日:2023-08-02 00:54:49 公開日:2023-07-30
# 顔画像品質評価における余分なミス:新しいデータベースとモデル

Going the Extra Mile in Face Image Quality Assessment: A Novel Database and Model ( http://arxiv.org/abs/2207.04904v2 )

ライセンス: Link先を確認
Shaolin Su, Hanhe Lin, Vlad Hosu, Oliver Wiedemann, Jinqiu Sun, Yu Zhu, Hantao Liu, Yanning Zhang, Dietmar Saupe(参考訳) 画像品質評価のための正確な計算モデル(IQA)は、画像フィルタリング、画像処理、画像生成など多くの視覚的応用に有用である。 顔画像の研究はコンピュータビジョン研究において重要なサブフィールドであるが、顔IQAデータやモデルがないため、顔超解像、顔強調、顔編集などの顔画像処理タスクにおける現在のIQAメトリクスの精度が制限されている。 このギャップを狭めるために、本稿では、さまざまな状況において、これまで開発された最大の注釈付きIQAデータベースを紹介します。 さらに,データベースに基づいて顔画像の品質を正確に予測する新たなディープラーニングモデルを提案する。 プレトレーニング済みの既成生成モデルで符号化されたリッチな統計を利用して、生成前の情報を取得し、それを潜時参照として使用して、盲点IQAを促進する。 実験結果は,face iqaのための提案するデータセットの価値と,提案モデルの優れた性能の両方を示す。

An accurate computational model for image quality assessment (IQA) benefits many vision applications, such as image filtering, image processing, and image generation. Although the study of face images is an important subfield in computer vision research, the lack of face IQA data and models limits the precision of current IQA metrics on face image processing tasks such as face superresolution, face enhancement, and face editing. To narrow this gap, in this paper, we first introduce the largest annotated IQA database developed to date, which contains 20,000 human faces -- an order of magnitude larger than all existing rated datasets of faces -- of diverse individuals in highly varied circumstances. Based on the database, we further propose a novel deep learning model to accurately predict face image quality, which, for the first time, explores the use of generative priors for IQA. By taking advantage of rich statistics encoded in well pretrained off-the-shelf generative models, we obtain generative prior information and use it as latent references to facilitate blind IQA. The experimental results demonstrate both the value of the proposed dataset for face IQA and the superior performance of the proposed model.
翻訳日:2023-08-02 00:47:17 公開日:2023-07-30
# 自己スーパービジョンによるクロスドメイン音声認識の促進

Boosting Cross-Domain Speech Recognition with Self-Supervision ( http://arxiv.org/abs/2206.09783v2 )

ライセンス: Link先を確認
Han Zhu, Gaofeng Cheng, Jindong Wang, Wenxin Hou, Pengyuan Zhang, Yonghong Yan(参考訳) 自動音声認識(asr)のクロスドメイン性能は,トレーニング分布とテスト分布のミスマッチにより著しく阻害される可能性がある。 対象ドメインは通常ラベル付きデータがなく、音響レベルや言語レベルでドメインシフトが存在するため、非教師なしドメイン適応(UDA)をASRに実行することは困難である。 従来, 自己監督学習 (SSL) や擬似ラベル学習 (PL) は, 未ラベルデータの自己監督を利用してUDAに有効であることが示された。 しかし、これらの自己スーパービジョンは、以前の作業では対処できなかったミスマッチしたドメイン分布のパフォーマンス低下にも直面する。 この研究は、事前学習および微調整のパラダイムにおいて、ラベルなしデータを完全に活用する体系的なUDAフレームワークを提案する。 一方、SSL事前トレーニングモデルのドメインミスマッチを軽減するために、継続事前トレーニングとデータ再生技術を適用します。 一方,本研究では,PL手法に基づくドメイン適応型微調整手法を提案する。まず,誤った擬似ラベルに対する感度を下げるための二重分岐PL法を設計し,また,疑似ラベルの正当性を改善するための不確実性認識信頼度フィルタリング戦略を考案し,さらに,目的とするドメインの知識を取り入れた2段階のPL手法を導入し,より正確なドメインの擬似ラベルを生成する。 様々なクロスドメインシナリオにおける実験結果は、提案手法が効果的にクロスドメイン性能を高め、以前のアプローチを大きく上回ることを示している。

The cross-domain performance of automatic speech recognition (ASR) could be severely hampered due to the mismatch between training and testing distributions. Since the target domain usually lacks labeled data, and domain shifts exist at acoustic and linguistic levels, it is challenging to perform unsupervised domain adaptation (UDA) for ASR. Previous work has shown that self-supervised learning (SSL) or pseudo-labeling (PL) is effective in UDA by exploiting the self-supervisions of unlabeled data. However, these self-supervisions also face performance degradation in mismatched domain distributions, which previous work fails to address. This work presents a systematic UDA framework to fully utilize the unlabeled data with self-supervision in the pre-training and fine-tuning paradigm. On the one hand, we apply continued pre-training and data replay techniques to mitigate the domain mismatch of the SSL pre-trained model. On the other hand, we propose a domain-adaptive fine-tuning approach based on the PL technique with three unique modifications: Firstly, we design a dual-branch PL method to decrease the sensitivity to the erroneous pseudo-labels; Secondly, we devise an uncertainty-aware confidence filtering strategy to improve pseudo-label correctness; Thirdly, we introduce a two-step PL approach to incorporate target domain linguistic knowledge, thus generating more accurate target domain pseudo-labels. Experimental results on various cross-domain scenarios demonstrate that the proposed approach effectively boosts the cross-domain performance and significantly outperforms previous approaches.
翻訳日:2023-08-02 00:46:27 公開日:2023-07-30
# 画像分類におけるディープニューラルネットワークのモデル量子化に関する包括的調査

A Comprehensive Survey on Model Quantization for Deep Neural Networks in Image Classification ( http://arxiv.org/abs/2205.07877v3 )

ライセンス: Link先を確認
Babak Rokh, Ali Azarpeyvand, Alireza Khanteymoori(参考訳) 近年,Deep Neural Networks(DNN)による機械学習の進歩が注目されている。 高い精度を示す一方で、DNNは膨大な数のパラメータと計算と関連付けられ、高いメモリ使用量とエネルギー消費につながる。 その結果、制約のあるハードウェアリソースを持つデバイスにDNNをデプロイすることは、大きな課題となる。 これを解決するために、DNNアクセラレータの最適化に様々な圧縮技術が広く用いられている。 有望なアプローチは量子化であり、全精度値が低ビット幅精度で格納される。 量子化はメモリ要求を減らすだけでなく、低コスト操作を低コスト操作に置き換える。 DNN量子化はハードウェア設計における柔軟性と効率性を提供し、様々な手法で広く採用されている。 量子化は従来の研究で広く利用されてきたため、異なる量子化アプローチの理解、分析、比較を提供する統合レポートが必要である。 その結果、画像分類に焦点をあてて、量子化の概念と方法の包括的調査を行う。 本稿では,クラスタリングに基づく量子化手法について述べ,全精度値近似のためのスケールファクタパラメータの利用について検討する。 さらに,ストレートスルー推定器や量子化正規化を含む,量子化dnnのトレーニングを徹底的に検討した。 本稿では,量子化DNNにおける浮動小数点演算の低コスト化と,量子化における異なる層の感度について説明する。 さらに,数値化手法の評価指標と画像分類タスクにおける重要なベンチマークについて述べる。 また,CIFAR-10およびImageNet上での最先端手法の精度を示す。

Recent advancements in machine learning achieved by Deep Neural Networks (DNNs) have been significant. While demonstrating high accuracy, DNNs are associated with a huge number of parameters and computation, which leads to high memory usage and energy consumption. As a result, deploying of DNNs on devices with constrained hardware resources poses significant challenges. To overcome this, various compression techniques have been widely employed to optimize DNN accelerators. A promising approach is quantization, in which the full-precision values are stored in low bit-width precision. Quantization not only reduces memory requirements but also replaces high-cost operations with low-cost ones. DNN quantization offers flexibility and efficiency in hardware design, making it a widely adopted technique in various methods. Since quantization has been extensively utilized in previous works, there is a need for an integrated report that provides an understanding, analysis, and comparison of different quantization approaches. Consequently, we present a comprehensive survey of quantization concepts and methods, with a focus on image classification. We describe clustering-based quantization methods and explore the use of a scale factor parameter for approximating full-precision values. Moreover, we thoroughly review the training of quantized DNN, including the use of straight-through estimator and quantized regularization. We explain the replacement of floating-point operations with low-cost bitwise operations in a quantized DNN and the sensitivity of different layers in quantization. Furthermore, we highlight the evaluation metrics for quantized methods and important benchmarks in image classification task. We also present the accuracy of the state-of-the-art methods on CIFAR-10 and ImageNet.
翻訳日:2023-08-02 00:44:29 公開日:2023-07-30
# CLIPの機能空間に画像詳細を注入する

Injecting Image Details into CLIP's Feature Space ( http://arxiv.org/abs/2208.14649v4 )

ライセンス: Link先を確認
Zilun Zhang, Cuifeng Shen, Yuan Shen, Huixin Xiong, Xinyu Zhou(参考訳) CLIPライクなVisual Language Modelは、画像とテキストのための機能的なジョイント特徴空間を提供するが、CILPライクなモデルのイメージ入力サイズ(例:224)の制限により、高解像度画像(例:2240)を入力すると、特徴表現に微妙な詳細が失われる。 本研究では,画像の詳細を注入し,元のCLIPと同じ意味空間を共有する高解像度画像に対して,単一の特徴表現を生成できる効率的なフレームワークを提案する。 このフレームワークでは,任意のスケールのオブジェクトをカバーできる慎重に設計されたイメージパッチ法から抽出したCLIP機能に基づいて,機能融合モデルを訓練する。 実世界および合成データセット上でのクラストリガークエリから画像を取得することで,我々のフレームワークを検証し,これらのタスクの大幅な性能向上を示す。 さらに,我々のフレームワークの詳細な検索能力を十分に実証するために,CLVER-DSと呼ばれるCLEVRに似た合成データセットを構築した。

Although CLIP-like Visual Language Models provide a functional joint feature space for image and text, due to the limitation of the CILP-like model's image input size (e.g., 224), subtle details are lost in the feature representation if we input high-resolution images (e.g., 2240). In this work, we introduce an efficient framework that can produce a single feature representation for a high-resolution image that injects image details and shares the same semantic space as the original CLIP. In the framework, we train a feature fusing model based on CLIP features extracted from a carefully designed image patch method that can cover objects of any scale, weakly supervised by image-agnostic class prompted queries. We validate our framework by retrieving images from class prompted queries on the real world and synthetic datasets, showing significant performance improvement on these tasks. Furthermore, to fully demonstrate our framework's detail retrieval ability, we construct a CLEVR-like synthetic dataset called CLVER-DS, which is fully annotated and has a controllable object scale.
翻訳日:2023-08-02 00:37:34 公開日:2023-07-30
# 古典的なモデルは、目標に絞られた光モデルよりも、Juzhang 1.0 Gaussian Boson Samplerのより良い説明であるかもしれない。

Classical models may be a better explanation of the Jiuzhang 1.0 Gaussian Boson Sampler than its targeted squeezed light model ( http://arxiv.org/abs/2207.10058v6 )

ライセンス: Link先を確認
Javier Mart\'inez-Cifuentes, K. M. Fonseca-Romero, Nicol\'as Quesada(参考訳) 最近、Zhongらはしきい値検出器を用いて最大144モードのガウスボソンサンプリング実験を行った。 著者らはこれらの実験の実装により、Juzhang 1.0 と Jiuzhang 2.0 という量子計算上の優位性を達成したと主張している。 これらの実験結果は、モード、ベイズ仮説テスト、重出力生成(hog)テストとの統計的相関の比較などのテストを用いて、いくつかの古典的な仮説と敵に対して検証される。 本稿では, 干渉計に送信されたコヒーレント状態の混合物の確率分布を用いて, これらの実験を検証するための古典的仮説を提案する。 高光子数密度系における構成について、統計相関の比較は実験の基礎的真実(2モードの圧縮状態が干渉計に送信される)を我々の代替仮説と区別しない。 ベイズテストは、Juzhang 1.0以外のすべての構成について、基礎的な真実は我々の代替仮説よりも実験データのよりありそうな説明であることを示している。 同様の結果がホグテストで得られた:jiuzhang 2.0の全ての構成について、実験サンプルは我々の代替分布で得られたサンプルよりも高い基底真理確率を持つことを示し、jiuzhang 1.0ではテストは決定的ではない。 本結果は,今後のGBS実験の検証において考慮すべき新しい仮説を提供し,GBSの文脈で量子優位性を検証するための適切なメトリクスを特定する必要性に光を当てた。 また、量子的特徴を欠いたJuzhang 1.0実験の古典的な説明は除外されていないことも示している。

Recently, Zhong et al. performed landmark Gaussian boson sampling experiments with up to 144 modes using threshold detectors. The authors claim to have achieved quantum computational advantage with the implementation of these experiments, named Jiuzhang 1.0 and Jiuzhang 2.0. Their experimental results are validated against several classical hypotheses and adversaries using tests such as the comparison of statistical correlations between modes, Bayesian hypothesis testing and the Heavy Output Generation (HOG) test. We propose an alternative classical hypothesis for the validation of these experiments using the probability distribution of mixtures of coherent states sent into a lossy interferometer; these input mixed states, which we term squashed states, have vacuum fluctuations in one quadrature and excess fluctuations in the other. We find that for configurations in the high photon number density regime, the comparison of statistical correlations does not tell apart the ground truth of the experiment (two-mode squeezed states sent into an interferometer) from our alternative hypothesis. The Bayesian test indicates that, for all configurations excepting Jiuzhang 1.0, the ground truth is a more likely explanation of the experimental data than our alternative hypothesis. A similar result is obtained for the HOG test: for all configurations of Jiuzhang 2.0, the test indicates that the experimental samples have higher ground truth probability than the samples obtained form our alternative distribution; for Jiuzhang 1.0 the test is inconclusive. Our results provide a new hypothesis that should be considered in the validation of future GBS experiments, and shed light into the need to identify proper metrics to verify quantum advantage in the context of GBS. They also indicate that a classical explanation of the Jiuzhang 1.0 experiment, lacking any quantum features, has not been ruled out.
翻訳日:2023-08-02 00:35:39 公開日:2023-07-30
# 永続ホモロジーのための$k$-Meansクラスタリング

$k$-Means Clustering for Persistent Homology ( http://arxiv.org/abs/2210.10003v3 )

ライセンス: Link先を確認
Yueqi Cao, Prudence Leung, Anthea Monod(参考訳) 永続ホモロジー(Persistent homology)は、データセット内のトポロジ的特徴を永続化ダイアグラムとして抽出し要約するトポロジ的データ分析の中心となる方法論である。 しかし、その代数的構成は、非常に複雑な幾何学を持つ永続図形の計量空間を誘導する。 本稿では,永続図空間上での$k$-meansクラスタリングアルゴリズムの収束を証明し,karush-kuhn-tuckerフレームワークにおける最適化問題に対する解の理論的性質を確立する。 さらに、永続化図自体の埋め込みや、永続化尺度としての一般化など、永続ホモロジーの様々な表現に関する数値実験を行い、クラスタリング性能は永続化図に直接依存し、それらのベクトル化表現よりも優れていることを示した。

Persistent homology is a methodology central to topological data analysis that extracts and summarizes the topological features within a dataset as a persistence diagram; it has recently gained much popularity from its myriad successful applications to many domains. However, its algebraic construction induces a metric space of persistence diagrams with a highly complex geometry. In this paper, we prove convergence of the $k$-means clustering algorithm on persistence diagram space and establish theoretical properties of the solution to the optimization problem in the Karush--Kuhn--Tucker framework. Additionally, we perform numerical experiments on various representations of persistent homology, including embeddings of persistence diagrams as well as diagrams themselves and their generalizations as persistence measures; we find that clustering performance directly on persistence diagrams and measures outperform their vectorized representations.
翻訳日:2023-08-02 00:26:50 公開日:2023-07-30
# Herring-Flicker結合とDzyaloshinskii-Moriya相互作用を持つ2量子ハイゼンベルクXXZモデルの磁場下での熱的コヒーレンス

Thermal quantum coherence of two-qutrit Heisenberg XXZ model with Herring-Flicker coupling and Dzyaloshinskii-Moriya interaction under magnetic field ( http://arxiv.org/abs/2209.15311v3 )

ライセンス: Link先を確認
Brahim Adnane, Younes Moqine, Abdelhadi Belouad, El Bou\^azzaoui Choubabi, Rachid Hou\c{c}a(参考訳) 本研究では,一様磁場下での2量子Heisenberg XXZモデルの絡み合いと,Herring-Flicker結合によるz軸Dzyaloshinskii-Moriya相互作用を特徴付けるために,$l_1$-normコヒーレンスの概念を用いる。 我々は,Herring-Flicker結合の温度,磁場,DM相互作用,距離を全て制御可能であることを示す。 しかし、高温や強磁場では状態系は絡み合いが小さくなり、逆もまた然りである。 また,z軸DM相互作用の増加に伴い絡み合いが増大することが示唆された。 さらに、スピンの強み結合を設定することにより、等方性 XY と XXX ハイゼンベルク模型を迅速に復元する。 最後に、Herring-Flicker結合は絡み合いの程度に影響を与える。 実際、ニシンとフリッカーのカップリングと温度が小さい場合は、絡み合いの度合いが最も高い。 それでも、Herring-Flicker結合がかなりの値である場合、絡み合いの度合いは安定する傾向にある。

In this study, we use the concept of $l_1$-norm coherence to characterize the entanglement of a two--qutrit Heisenberg XXZ model for subject to a uniform magnetic field and z--axis Dzyaloshinskii--Moriya interaction with Herring-Flicker coupling. We show the temperature, magnetic field, DM interaction, and distance of Herring-Flicker coupling all can control the entanglement. However, the state system becomes less entangled at high temperatures or strong magnetic fields and vice versa. Our findings also suggest that entanglement rises when the z--axis DM interaction increases. Moreover, by setting the strengths coupling of the spin, we quickly recover the isotropic XY and XXX Heisenberg models. Finally, Herring-Flicker coupling affects the degree of entanglement. In fact, when Herring-Flicker coupling and temperature are at small values, the degree of entanglement is at its highest. Still, when Herring-Flicker coupling is at substantial values, the degree of entanglement tends to stabilize.
翻訳日:2023-08-02 00:26:07 公開日:2023-07-30
# モジュール化と合成による弱畳み込みニューラルネットワークモデル

Patching Weak Convolutional Neural Network Models through Modularization and Composition ( http://arxiv.org/abs/2209.06116v3 )

ライセンス: Link先を確認
Binhang Qi, Hailong Sun, Xiang Gao, Hongyu Zhang(参考訳) 多くのアプリケーションで大きな成功を収めているが、ディープニューラルネットワークは必ずしも堅牢ではない。 例えば、分類タスクのための畳み込みニューロンネットワーク(cnn)モデルは、しばしば特定の種類のオブジェクトの分類において不十分に機能する。 本研究では,CNNモデルの弱い部分を,コストのかかるモデル全体の再トレーニングによって改善するのではなく,パッチを当てることに関心がある。 ソフトウェア工学におけるモジュール化と構成という基本的な概念に触発され、圧縮モジュール化アプローチであるcnnsplitterを提案し、n$-class分類のための強力なcnnモデルをより小さなcnnモジュールに分解する。 各モジュールは、強モデルの畳み込みカーネルの一部を含むサブモデルである。 ターゲットクラス(TC)で不満足に機能する弱いCNNモデルをパッチするために、弱いCNNモデルと強力なCNNモデルから得られる対応するモジュールを合成する。 したがって、弱いCNNモデルのTC認識能力はパッチ適用によって改善される。 さらに、TCと誤分類されたサンプルを非TCと正しく分類できるため、非TCを認識する能力も向上した。 広く使われている3つのデータセットに対する2つの代表的CNNによる実験の結果、TCにおける精度とリコールの平均改善率は12.54%と2.14%である。 さらに、パッチは非TCの精度を1.18%向上させる。 その結果、CNNSplitterはモジュール化と構成により弱いCNNモデルにパッチを当てることができ、ロバストなCNNモデルを開発するための新しいソリューションを提供することが示された。

Despite great success in many applications, deep neural networks are not always robust in practice. For instance, a convolutional neuron network (CNN) model for classification tasks often performs unsatisfactorily in classifying some particular classes of objects. In this work, we are concerned with patching the weak part of a CNN model instead of improving it through the costly retraining of the entire model. Inspired by the fundamental concepts of modularization and composition in software engineering, we propose a compressed modularization approach, CNNSplitter, which decomposes a strong CNN model for $N$-class classification into $N$ smaller CNN modules. Each module is a sub-model containing a part of the convolution kernels of the strong model. To patch a weak CNN model that performs unsatisfactorily on a target class (TC), we compose the weak CNN model with the corresponding module obtained from a strong CNN model. The ability of the weak CNN model to recognize the TC can thus be improved through patching. Moreover, the ability to recognize non-TCs is also improved, as the samples misclassified as TC could be classified as non-TCs correctly. Experimental results with two representative CNNs on three widely-used datasets show that the averaged improvement on the TC in terms of precision and recall are 12.54% and 2.14%, respectively. Moreover, patching improves the accuracy of non-TCs by 1.18%. The results demonstrate that CNNSplitter can patch a weak CNN model through modularization and composition, thus providing a new solution for developing robust CNN models.
翻訳日:2023-08-02 00:24:07 公開日:2023-07-30
# 空間的非可換性を有する量子力学系の量子シミュレーション

Quantum simulation of quantum mechanical system with spatial noncommutativity ( http://arxiv.org/abs/2211.08338v4 )

ライセンス: Link先を確認
S. Hasibul Hassan Chowdhury, Talal Ahmed Chowdhury, Salah Nasri, Omar Ibna Nazim and Shaikh Saad(参考訳) 量子シミュレーションは、実験的な実現が現在の技術で複雑または到達不能である高エネルギー物理学のモデルについてシミュレーションし、洞察を得ることのできる、有望な研究の道のりとなった。 本研究では,非可換幾何学と非可換場理論に着想を得た,空間的非可換性を持つ量子力学系である,そのようなモデルの量子シミュレーションを実証する。 このような非可換量子系のハミルトニアンを通常の量子力学的ハミルトニアンに写像し、トロッター・スズキ積公式を用いて量子シミュレーションを行う。 さらに,非可換性パラメータが量子シミュレーション,特にトロッター誤差に与える影響を識別し,その値がシミュレーションに与える影響を指摘する。

Quantum simulation has become a promising avenue of research that allows one to simulate and gain insight into the models of High Energy Physics whose experimental realizations are either complicated or inaccessible with current technology. We demonstrate the quantum simulation of such a model, a quantum mechanical system with spatial noncommutativity, which is inspired by the works in Noncommutative Geometry and Noncommutative Field theory for a universal quantum computer. We use the novel group theoretical formalism to map the Hamiltonian of such a noncommutative quantum system into the ordinary quantum mechanical Hamiltonian and then carry out the quantum simulation using the Trotter-Suzuki product formula. Furthermore, we distinguish the impact of the noncommutativity parameter on the quantum simulation, especially on the Trotter error, and point out how its sizable value affects the simulation.
翻訳日:2023-08-02 00:17:56 公開日:2023-07-30
# 量子オープンシステムにおける詳細なバランス違反

Violation of Detailed Balance in Quantum Open Systems ( http://arxiv.org/abs/2211.03070v3 )

ライセンス: Link先を確認
Robert Alicki, Milan \v{S}indelka and David Gelbwaser-Klimovsky(参考訳) 低密度極限法を適用した量子マルコフマスター方程式を用いて、熱力学平衡の希薄気体に浸漬した量子系のダイナミクスを考察する。 浴槽温度のギブス状態は常に定常であり、この状態の詳細なバランス状態はボルン近似を超えて破ることができる。 この違反は、熱平衡における持続確率と熱電流の存在を可能にする熱化機構を生成する散乱T-行列の時間反転対称性の欠如と関連している。 この現象は、外部磁場中の3つの量子ドット間の電子ホッピングのモデルによって説明される。

We consider the dynamics of a quantum system immersed in a dilute gas at thermodynamics equilibrium using a quantum Markovian master equation derived by applying the low-density limit technique. It is shown that the Gibbs state at the bath temperature is always stationary while the detailed balance condition at this state can be violated beyond the Born approximation. This violation is generically related to the absence of time-reversal symmetry for the scattering T-matrix, which produces a thermalization mechanism that allows the presence of persistent probability and heat currents at thermal equilibrium. This phenomenon is illustrated by a model of an electron hopping between three quantum dots in an external magnetic field.
翻訳日:2023-08-02 00:17:05 公開日:2023-07-30
# Human-in-the-Loop Mixup

Human-in-the-Loop Mixup ( http://arxiv.org/abs/2211.01202v3 )

ライセンス: Link先を確認
Katherine M. Collins, Umang Bhatt, Weiyang Liu, Vihari Piratla, Ilia Sucholutsky, Bradley Love, Adrian Weller(参考訳) モデル表現を人間に適応させることにより、堅牢性と一般化が改善されている。 しかし、そのような手法はしばしば標準的な観測データに焦点を当てる。 合成データは増殖しており、機械学習の多くの進歩に寄与している。しかし、合成ラベルが人間と知覚的に一致しているかどうかは、必ずしも明確ではない。 我々は、モデルロバスト性、一般化、キャリブレーションを改善するための強力な正則化器として、ミックスアップで使用される合成データに焦点を当てた。 我々は,HILL MixE Suiteとしてリリースした包括的エコレーションインタフェースを設計し,参加者159名を募集し,その不確実性とともに,混合例による知覚的判断を提供する。 人間の知覚は、伝統的に合成点に使われるラベルと一貫して一致せず、特に人間の不確実性を取り入れた場合、下流モデルの信頼性を高めるためにこれらの発見の適用性を実証し始める。 当社はh-mixと呼ばれる新しいデータハブで、エリシッシブな判断を全てリリースします。

Aligning model representations to humans has been found to improve robustness and generalization. However, such methods often focus on standard observational data. Synthetic data is proliferating and powering many advances in machine learning; yet, it is not always clear whether synthetic labels are perceptually aligned to humans -- rendering it likely model representations are not human aligned. We focus on the synthetic data used in mixup: a powerful regularizer shown to improve model robustness, generalization, and calibration. We design a comprehensive series of elicitation interfaces, which we release as HILL MixE Suite, and recruit 159 participants to provide perceptual judgments along with their uncertainties, over mixup examples. We find that human perceptions do not consistently align with the labels traditionally used for synthetic points, and begin to demonstrate the applicability of these findings to potentially increase the reliability of downstream models, particularly when incorporating human uncertainty. We release all elicited judgments in a new data hub we call H-Mix.
翻訳日:2023-08-02 00:16:54 公開日:2023-07-30
# 医療画像のソースフリーセグメンテーションのための教師なしモデル適応

Unsupervised Model Adaptation for Source-free Segmentation of Medical Images ( http://arxiv.org/abs/2211.00807v2 )

ライセンス: Link先を確認
Serban Stan, Mohammad Rostami(参考訳) 近年のディープニューラルネットワークの普及により、十分なトレーニングデータが提供された場合、医療分野における人間レベルのパフォーマンスを達成するための意味セグメンテーションネットワークが確立されている。 しかし、このようなネットワークは、分布外画像のセマンティクスマップの予測を任務とする場合には一般化せず、新しい分布のモデル再訓練が必要となる。 この高価なプロセスは、トレーニングラベルを生成するために専門家の知識を必要とする。 分布シフトは、MRIやCTスキャナーなどの撮像装置の選択によって、医学領域で自然に発生する可能性がある。 モデルが完全に注釈付けされた \textit{source domain} でトレーニングされた後、ターゲットドメイン内のイメージのラベル付けの必要性に対処するため、教師なしドメイン適応(UDA)を使用することができる。 ほとんどのUDAアプローチは、共有ソース/ターゲット潜在機能空間を作成することで、ターゲットの一般化を保証する。 これにより、ソーストレーニングされた分類器がターゲットドメインのパフォーマンスを維持することができる。 しかし、多くのudaアプローチでは、ソースとターゲットデータアクセスの連携が必要であり、患者情報に関してプライバシリークが発生する可能性がある。 本稿では,適応時にソースデータにアクセスする必要がなく,患者データのプライバシを維持することができる医用画像分割のためのUDAアルゴリズムを提案する。 最適な輸送量に基づく分布距離メートル法を最小化することにより,適応時のソース潜時特徴の近似に頼り,ジョイントソース/ターゲット埋め込み空間を作成する。 当社のアプローチは,プライバシ要件を付加しても,近年のUDA医療セグメント化と競合することを示す。

The recent prevalence of deep neural networks has lead semantic segmentation networks to achieve human-level performance in the medical field when sufficient training data is provided. Such networks however fail to generalize when tasked with predicting semantic maps for out-of-distribution images, requiring model re-training on the new distributions. This expensive process necessitates expert knowledge in order to generate training labels. Distribution shifts can arise naturally in the medical field via the choice of imaging device, i.e. MRI or CT scanners. To combat the need for labeling images in a target domain after a model is successfully trained in a fully annotated \textit{source domain} with a different data distribution, unsupervised domain adaptation (UDA) can be used. Most UDA approaches ensure target generalization by creating a shared source/target latent feature space. This allows a source trained classifier to maintain performance on the target domain. However most UDA approaches require joint source and target data access, which may create privacy leaks with respect to patient information. We propose an UDA algorithm for medical image segmentation that does not require access to source data during adaptation, and is thus capable in maintaining patient data privacy. We rely on an approximation of the source latent features at adaptation time, and create a joint source/target embedding space by minimizing a distributional distance metric based on optimal transport. We demonstrate our approach is competitive to recent UDA medical segmentation works even with the added privacy requisite.
翻訳日:2023-08-02 00:16:10 公開日:2023-07-30
# M-GenSeg: Annotation-Efficient Supervision を用いたターゲットモード腫瘍分割のためのドメイン適応

M-GenSeg: Domain Adaptation For Target Modality Tumor Segmentation With Annotation-Efficient Supervision ( http://arxiv.org/abs/2212.07276v2 )

ライセンス: Link先を確認
Malo Alefsen de Boisredon d'Assier and Eugene Vorontsov and Samuel Kadoury(参考訳) ディープニューラルネットワークを用いた医用画像の自動セグメンテーションは通常、十分な教師付きトレーニングを必要とする。 しかし、これらのモデルは様々な画像モダリティでうまく一般化できない。 この欠点は、専門家の注釈付きデータの限られた可用性によって増幅され、モダリティをまたいだ大規模にそのようなメソッドのデプロイを妨げている。 そこで本研究では,非ペア型バイモーダルデータセットにおけるクロスモダリティ腫瘍分割のための半教師付き生成訓練戦略であるm-gensegを提案する。 既知の健全な画像を追加することで、教師なしの目標は、セグメンテーションタスクと並行する背景から腫瘍を分離することをモデルに促す。 そして,モダリティ間の画像変換をモデルに教えることで,利用可能なピクセルレベルのアノテーションをソースモダリティから活用し,無注釈のターゲットモダリティにおけるセグメンテーションを可能にする。 公開BraTS 2020チャレンジデータから4つの異なるコントラスト配列からなる脳腫瘍セグメント化データセットの性能評価を行った。 我々は,unannotated target modalityにおいて,最先端のドメイン適応ベースラインに対するdiceスコアの一貫した改善を報告している。 以前の技術とは異なり、M-GenSegは部分的に注釈付きソースモダリティでトレーニングする機能も導入している。

Automated medical image segmentation using deep neural networks typically requires substantial supervised training. However, these models fail to generalize well across different imaging modalities. This shortcoming, amplified by the limited availability of expert annotated data, has been hampering the deployment of such methods at a larger scale across modalities. To address these issues, we propose M-GenSeg, a new semi-supervised generative training strategy for cross-modality tumor segmentation on unpaired bi-modal datasets. With the addition of known healthy images, an unsupervised objective encourages the model to disentangling tumors from the background, which parallels the segmentation task. Then, by teaching the model to convert images across modalities, we leverage available pixel-level annotations from the source modality to enable segmentation in the unannotated target modality. We evaluated the performance on a brain tumor segmentation dataset composed of four different contrast sequences from the public BraTS 2020 challenge data. We report consistent improvement in Dice scores over state-of-the-art domain-adaptive baselines on the unannotated target modality. Unlike the prior art, M-GenSeg also introduces the ability to train with a partially annotated source modality.
翻訳日:2023-08-02 00:07:07 公開日:2023-07-30
# 通勤ゲートのSWAPゲート挿入における初期写像問題に対するSATアプローチ

A SAT approach to the initial mapping problem in SWAP gate insertion for commuting gates ( http://arxiv.org/abs/2212.05666v2 )

ライセンス: Link先を確認
Atsushi Matsuo, Shigeru Yamashita, Daniel J. Egger(参考訳) ほとんどの量子回路は、量子ハードウェア上で量子ビット接続に制限のあるSWAPゲート挿入を必要とする。 2ビットゲートを交換するブロックに対する有望なSWAPゲート挿入方法は、結合マップ上で同時に実行可能なSWAPゲートの層を適用した所定のスワップ戦略である。 スワップ戦略に対する優れた初期マッピングは、必要なスワップゲートの数を減らす。 しかし、量子近似最適化アルゴリズム(QAOA)やイジン・ハミルトニアンのトロッター化シミュレーションのように、回路が通勤ゲートで構成されている場合でも、よい初期写像を見つけることは難しい問題である。 そこで本研究では,スワップ戦略を応用したコンミューティングゲートをハードウェアにトランスパイアした回路の初期マッピングをsatで求める手法を提案する。 この手法は500ノードのランダムな3正則グラフに対するゲート数を65%削減する。 さらに,SATの定式化とクラスタリングアルゴリズムを組み合わせたヒューリスティックな手法を提案する。 このアプローチは、1000ノードのランダムな3正則グラフの自明な初期マッピングとランダムな初期マッピングの両方と比較して、スワップ層数を25%削減する。 良い初期写像は、数百の量子ビットを持つノイズの多い量子ハードウェア上で、スパース問題に適用されたQAOAやIsing Hamiltonianシミュレーションのような量子アルゴリズムの研究を可能にする。

Most quantum circuits require SWAP gate insertion to run on quantum hardware with limited qubit connectivity. A promising SWAP gate insertion method for blocks of commuting two-qubit gates is a predetermined swap strategy which applies layers of SWAP gates simultaneously executable on the coupling map. A good initial mapping for the swap strategy reduces the number of required swap gates. However, even when a circuit consists of commuting gates, e.g., as in the Quantum Approximate Optimization Algorithm (QAOA) or trotterized simulations of Ising Hamiltonians, finding a good initial mapping is a hard problem. We present a SAT-based approach to find good initial mappings for circuits with commuting gates transpiled to the hardware with swap strategies. Our method achieves a 65% reduction in gate count for random three-regular graphs with 500 nodes. In addition, we present a heuristic approach that combines the SAT formulation with a clustering algorithm to reduce large problems to a manageable size. This approach reduces the number of swap layers by 25% compared to both a trivial and random initial mapping for a random three-regular graph with 1000 nodes. Good initial mappings will therefore enable the study of quantum algorithms, such as QAOA and Ising Hamiltonian simulation applied to sparse problems, on noisy quantum hardware with several hundreds of qubits.
翻訳日:2023-08-02 00:06:46 公開日:2023-07-30
# X$^2$-VLM:視覚言語タスクのためのオールインワン事前学習モデル

X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks ( http://arxiv.org/abs/2211.12402v2 )

ライセンス: Link先を確認
Yan Zeng, Xinsong Zhang, Hang Li, Jiawei Wang, Jipeng Zhang, Wangchunshu Zhou(参考訳) ビジョン言語事前学習は、大量のデータからビジョンと言語間のアライメントを学習することを目的としている。 既存の手法のほとんどは画像テキストのアライメントのみを学習する。 事前訓練されたオブジェクト検出器を使用して、オブジェクトレベルでの視覚言語アライメントを利用するものもある。 本稿では,多粒度アライメントと多粒度ローカライゼーションを同時に学習する統合事前学習フレームワークにより,多粒度視覚言語アライメントの学習を提案する。 そこで本研究では, フレキシブルなモジュラーアーキテクチャを備えたオールインワンモデルであるX$^2$-VLMを紹介し, 画像テキスト事前学習とビデオテキスト事前学習をさらに統合する。 X$^2$-VLMは、多様なテキスト記述に関連する無制限の視覚概念を学習することができる。 実験の結果、X$^2$-VLMは、画像テキストとビデオテキストの両方のタスクに対して、ベースおよび大規模で最高の性能を示し、性能とモデルスケールのトレードオフが良好であることがわかった。 さらに、X$^2$-VLMのモジュラ設計により、どんな言語やドメインでも高い転送性が得られることを示す。 例えば、テキストエンコーダをxlm-rに置き換えることで、x$^2$-vlmは、多言語事前学習なしで最先端の多言語マルチモーダル事前学習モデルを上回る。 コードと事前学習されたモデルはhttps://github.com/zengyan-97/x2-vlmで入手できる。

Vision language pre-training aims to learn alignments between vision and language from a large amount of data. Most existing methods only learn image-text alignments. Some others utilize pre-trained object detectors to leverage vision language alignments at the object level. In this paper, we propose to learn multi-grained vision language alignments by a unified pre-training framework that learns multi-grained aligning and multi-grained localization simultaneously. Based on it, we present X$^2$-VLM, an all-in-one model with a flexible modular architecture, in which we further unify image-text pre-training and video-text pre-training in one model. X$^2$-VLM is able to learn unlimited visual concepts associated with diverse text descriptions. Experiment results show that X$^2$-VLM performs the best on base and large scale for both image-text and video-text tasks, making a good trade-off between performance and model scale. Moreover, we show that the modular design of X$^2$-VLM results in high transferability for it to be utilized in any language or domain. For example, by simply replacing the text encoder with XLM-R, X$^2$-VLM outperforms state-of-the-art multilingual multi-modal pre-trained models without any multilingual pre-training. The code and pre-trained models are available at https://github.com/zengyan-97/X2-VLM.
翻訳日:2023-08-02 00:05:00 公開日:2023-07-30
# MEAformer: メタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランス

MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality Hybrid ( http://arxiv.org/abs/2212.14454v4 )

ライセンス: Link先を確認
Zhuo Chen, Jiaoyan Chen, Wen Zhang, Lingbing Guo, Yin Fang, Yufeng Huang, Yichi Zhang, Yuxia Geng, Jeff Z. Pan, Wenting Song, Huajun Chen(参考訳) マルチモーダルエンティティアライメント(mmea)は、関連する画像に関連づけられた複数の知識グラフ(kgs)にまたがる同一のエンティティを見つけることを目的としている。 しかし、現在のMMEAアルゴリズムは、異なる実体のモダリティ選好のバリエーションを無視したマルチモーダル実体表現のためのKGレベルのモダリティ融合戦略に依存しており、ぼやけた画像や関係のようなモダリティのノイズに対する頑健さを損なう。 本稿では、メタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランスフォーマーであるMEAformerを紹介し、より微細なエンティティレベルのアライメント融合とアライメントのために、モダリティ間の相互相関係数を動的に予測する。 実験の結果, 教師付き, 教師なし, 反復的, 低リソース設定を含む複数の訓練シナリオにおいて, モデルがSOTA性能を達成するだけでなく, 限られたパラメータ数, 効率的な実行時, 解釈可能性を持つことがわかった。 私たちのコードはhttps://github.com/zjukg/meaformerで利用可能です。

Multi-modal entity alignment (MMEA) aims to discover identical entities across different knowledge graphs (KGs) whose entities are associated with relevant images. However, current MMEA algorithms rely on KG-level modality fusion strategies for multi-modal entity representation, which ignores the variations of modality preferences of different entities, thus compromising robustness against noise in modalities such as blurry images and relations. This paper introduces MEAformer, a multi-modal entity alignment transformer approach for meta modality hybrid, which dynamically predicts the mutual correlation coefficients among modalities for more fine-grained entity-level modality fusion and alignment. Experimental results demonstrate that our model not only achieves SOTA performance in multiple training scenarios, including supervised, unsupervised, iterative, and low-resource settings, but also has a limited number of parameters, efficient runtime, and interpretability. Our code is available at https://github.com/zjukg/MEAformer.
翻訳日:2023-08-01 23:55:34 公開日:2023-07-30
# 合成オープンドメインダイアログによるタスクボットエンゲージメントの強化

Enhancing Task Bot Engagement with Synthesized Open-Domain Dialog ( http://arxiv.org/abs/2212.10008v2 )

ライセンス: Link先を確認
Miaoran Li, Baolin Peng, Michel Galley, Jianfeng Gao, Zhu Zhang(参考訳) タスク指向ダイアログ(TOD)やオープンドメインダイアログ(ODD)など,さまざまなタイプの会話のためのダイアログシステムの構築に多くの努力がなされている。 通常、様々なダイアログモードを融合する人間レベルの会話を模倣するには、todとoddの両方を効果的に処理し、異なる知識ソースにアクセスするシステムを構築することが不可欠である。 融合タスクのための利用可能なデータの欠如に対処するために,様々な環境で知識に基づくオッズとtodを組み合わせた対話を自動的に生成するフレームワークを提案する。 さらに,TODモードとODDモードを適切に適用し,異なる知識ソースにアクセスして,融合タスクに効果的に対処できる統合モデルPivotBotを導入する。 評価結果は,TODタスクとODDタスクをシームレスに切り替える上で,提案モデルが優れていることを示す。

Many efforts have been made to construct dialog systems for different types of conversations, such as task-oriented dialog (TOD) and open-domain dialog (ODD). To better mimic human-level conversations that usually fuse various dialog modes, it is essential to build a system that can effectively handle both TOD and ODD and access different knowledge sources. To address the lack of available data for the fused task, we propose a framework for automatically generating dialogues that combine knowledge-grounded ODDs and TODs in various settings. Additionally, we introduce a unified model PivotBot that is capable of appropriately adopting TOD and ODD modes and accessing different knowledge sources in order to effectively tackle the fused task. Evaluation results demonstrate the superior ability of the proposed model to switch seamlessly between TOD and ODD tasks.
翻訳日:2023-08-01 23:54:57 公開日:2023-07-30
# フェイススワップ映像の視覚リアリズム評価

Visual Realism Assessment for Face-swap Videos ( http://arxiv.org/abs/2302.00918v2 )

ライセンス: Link先を確認
Xianyun Sun, Beibei Dong, Caiyong Wang, Bo Peng, Jing Dong(参考訳) ディープラーニングベースのフェイススワップビデオは、ディープフェイク(deep fakes)としても知られ、ますます現実的になりつつある。 これらの顔スワップビデオの悪質な利用は、幅広い懸念を引き起こした。 研究コミュニティは、これらの偽ビデオの自動検出に力を入れているが、人間の目が知覚する視覚リアリズムの評価はまだ未調査の次元である。 視覚リアリズムアセスメント(VRA)は、特定のフェイススワップビデオによってもたらされる潜在的な影響を評価するために不可欠であり、異なるフェイススワップ手法を比較するための品質評価指標としても重要である。 本稿では,従来の手作り機能からさまざまなディープラーニング機能まで,さまざまな自動VRAモデルの有効性を評価するベンチマークを構築することで,この新たなVRA方向への小さな一歩を踏み出す。 評価はdfgc 2022と呼ばれる最近のコンペティションデータセットに基づいており、1400の多様なフェイススワップビデオが含まれており、視覚リアリズムに平均意見スコア(mos)を付けている。 11のモデルと3つのプロトコルを用いた包括的な実験結果を示し,考察した。 フェース・スワップ・ビデオと手法の評価に有効なVRAモデルの開発の可能性を示す。 既存のVRAのディープフェイク検出機能の有用性も注目に値する。 コードはhttps://github.com/xianyunsun/vra.gitにある。

Deep-learning based face-swap videos, also known as deep fakes, are becoming more and more realistic and deceiving. The malicious usage of these face-swap videos has caused wide concerns. The research community has been focusing on the automatic detection of these fake videos, but the assessment of their visual realism, as perceived by human eyes, is still an unexplored dimension. Visual realism assessment, or VRA, is essential for assessing the potential impact that may be brought by a specific face-swap video, and it is also important as a quality assessment metric to compare different face-swap methods. In this paper, we make a small step towards this new VRA direction by building a benchmark for evaluating the effectiveness of different automatic VRA models, which range from using traditional hand-crafted features to different kinds of deep-learning features. The evaluations are based on a recent competition dataset named DFGC 2022, which contains 1400 diverse face-swap videos that are annotated with Mean Opinion Scores (MOS) on visual realism. Comprehensive experiment results using 11 models and 3 protocols are shown and discussed. We demonstrate the feasibility of devising effective VRA models for assessing face-swap videos and methods. The particular usefulness of existing deepfake detection features for VRA is also noted. The code can be found at https://github.com/XianyunSun/VRA.git.
翻訳日:2023-08-01 23:46:28 公開日:2023-07-30
# state of art visionモデルにおける分散性能の欠如

Out of Distribution Performance of State of Art Vision Model ( http://arxiv.org/abs/2301.10750v2 )

ライセンス: Link先を確認
Md Salman Rahman and Wonkwon Lee(参考訳) 視覚変換器(ViT)は、視覚認識タスクの最先端に進歩した。 最新の研究によると、トランスフォーマーはCNNよりも堅牢だ。 ViTの自己保持機構は、CNNよりも堅牢である。 それにもかかわらず、これらの結論は不公平な実験条件に基づいており、いくつかのモデルを比較するだけで、ロバストネス性能の全シナリオを表現できないことがわかった。 本研究では,注意と畳み込みのメカニズムだけでなく,畳み込みと注意の機構,シーケンスベースモデル,補足探索,ネットワークベース手法を組み合わせたニューラルネットワークによる統一学習環境において,58種類の最先端コンピュータビジョンモデルの性能について検討する。 本研究は,ロバスト性がトレーニング設定とモデルタイプに依存し,分散型によって性能が異なることを実証する。 私たちの研究は、コンピュータビジョンモデルの堅牢性をよりよく理解し、ベンチマークするのに役立ちます。

The vision transformer (ViT) has advanced to the cutting edge in the visual recognition task. Transformers are more robust than CNN, according to the latest research. ViT's self-attention mechanism, according to the claim, makes it more robust than CNN. Even with this, we discover that these conclusions are based on unfair experimental conditions and just comparing a few models, which did not allow us to depict the entire scenario of robustness performance. In this study, we investigate the performance of 58 state-of-the-art computer vision models in a unified training setup based not only on attention and convolution mechanisms but also on neural networks based on a combination of convolution and attention mechanisms, sequence-based model, complementary search, and network-based method. Our research demonstrates that robustness depends on the training setup and model types, and performance varies based on out-of-distribution type. Our research will aid the community in better understanding and benchmarking the robustness of computer vision models.
翻訳日:2023-08-01 23:45:52 公開日:2023-07-30
# サポートラインを用いた多次元クラスタの生成

Generating Multidimensional Clusters With Support Lines ( http://arxiv.org/abs/2301.10327v2 )

ライセンス: Link先を確認
Nuno Fachada, Diogo de Andrade(参考訳) 合成データは、クラスタリング技術の評価、実際のデータの補完と拡張、与えられた問題空間のより完全なカバレッジを可能にするために不可欠である。 結果として、合成データジェネレータは、よく理解された生成手順と、クラスタ分析アルゴリズムを体系的に調査するための解釈可能な手段を提供しながら、膨大な量のデータを生成する可能性がある。 本稿では,任意の分布を用いて線分をサポートする多次元クラスタを作成可能な合成データ生成のためのモジュール手法であるclugenを提案する。 Clugenはオープンソースで、包括的なユニットテストとドキュメント化が行われ、Python、R、Julia、MATLAB/Octaveエコシステムで利用できる。 提案手法は,様々な次元においてリッチで多様な結果を生み出すことができ,クラスタリングアルゴリズムの評価に適しており,多様なクラスタリング関連研究タスクにおいて広く利用されるフレームワークとなる可能性を秘めている。

Synthetic data is essential for assessing clustering techniques, complementing and extending real data, and allowing for more complete coverage of a given problem's space. In turn, synthetic data generators have the potential of creating vast amounts of data -- a crucial activity when real-world data is at premium -- while providing a well-understood generation procedure and an interpretable instrument for methodically investigating cluster analysis algorithms. Here, we present Clugen, a modular procedure for synthetic data generation, capable of creating multidimensional clusters supported by line segments using arbitrary distributions. Clugen is open source, comprehensively unit tested and documented, and is available for the Python, R, Julia, and MATLAB/Octave ecosystems. We demonstrate that our proposal can produce rich and varied results in various dimensions, is fit for use in the assessment of clustering algorithms, and has the potential to be a widely used framework in diverse clustering-related research tasks.
翻訳日:2023-08-01 23:45:09 公開日:2023-07-30
# 社会メタバース:挑戦と解決策

Social Metaverse: Challenges and Solutions ( http://arxiv.org/abs/2301.10221v3 )

ライセンス: Link先を確認
Yuntao Wang, Zhou Su, and Miao Yan(参考訳) ソーシャルメタバース(Social Metaverse)は、ユーザーが遊び、買い物、仕事、社会化するための一連の相互接続された仮想世界を組み合わせたデジタル空間である。 人工知能(AI)の進歩とデータプライバシに関する関心の高まりと並行して、フェデレーション学習(FL)は、プライバシ保護によるAIを活用した社会メタバースへのパラダイムシフトとして推奨されている。 しかしながら、プライバシユーティリティのトレードオフ、学習信頼性、AIモデル盗難といった課題は、実際のメタバースアプリケーションにおけるFLの展開を妨げる。 本稿では,ソーシャルメタバースにおけるプライバシ利用のトレードオフを改善するために,ユーザ/アバター間の広く普及するソーシャル関係を利用して,ソーシャルアウェアな階層的flフレームワーク,すなわちsocialflを前進させる。 次に,ブロックチェーンに基づくアグリゲータフリーなロバストfl機構を,新たなブロック構造とオン/オフチェーンコラボレーションを特徴とするコンセンサスプロトコルによって考案した。 さらに、スマートコントラクトとデジタル透かしに基づいて、AIモデル盗難や社会メタバースの衝突アバターを防止するために、自動フェデレーションAI(FedAI)モデルのオーナシップ証明機構が設計されている。 実験により,提案フレームワークの有効性と有効性が確認された。 最後に,この新興地域での今後の研究の方向性について展望する。

Social metaverse is a shared digital space combining a series of interconnected virtual worlds for users to play, shop, work, and socialize. In parallel with the advances of artificial intelligence (AI) and growing awareness of data privacy concerns, federated learning (FL) is promoted as a paradigm shift towards privacy-preserving AI-empowered social metaverse. However, challenges including privacy-utility tradeoff, learning reliability, and AI model thefts hinder the deployment of FL in real metaverse applications. In this paper, we exploit the pervasive social ties among users/avatars to advance a social-aware hierarchical FL framework, i.e., SocialFL for a better privacy-utility tradeoff in the social metaverse. Then, an aggregator-free robust FL mechanism based on blockchain is devised with a new block structure and an improved consensus protocol featured with on/off-chain collaboration. Furthermore, based on smart contracts and digital watermarks, an automatic federated AI (FedAI) model ownership provenance mechanism is designed to prevent AI model thefts and collusive avatars in social metaverse. Experimental findings validate the feasibility and effectiveness of proposed framework. Finally, we envision promising future research directions in this emerging area.
翻訳日:2023-08-01 23:44:32 公開日:2023-07-30
# 人間ライクアライメントと認識アルゴリズムに基づく複雑な環境における読み出しポインターメーター

Read Pointer Meters in complex environments based on a Human-like Alignment and Recognition Algorithm ( http://arxiv.org/abs/2302.14323v2 )

ライセンス: Link先を確認
Yan Shu, Shaohui Liu, Honglei Xu, Feng Jiang(参考訳) 近年,多数の機器の収集が可能なアナログ計測機器の自動読解システムの開発が注目されている。 それでも、現実世界のアプリケーションへのデプロイを妨げる2つの大きな障害がある。 最初の問題は、パイプライン全体の速度を考慮することはめったにないことです。 2つ目は、低画質の画像(メーターの破損、ぼかし、不均一なスケールなど)を扱うことができないことだ。 本稿では,これらの問題を克服するための人間型アライメントと認識アルゴリズムを提案する。 より具体的には、改良された空間トランスフォーマーネットワーク(stn)に基づいて自己自律的に画像のフロントビューを得るための空間変換モジュール(stm)を提案する。 一方、エンドツーエンドのトレーニングフレームワークによって正確なメーター値を推測するために、バリュー獲得モジュール(VAM)が提案されている。 従来の研究とは対照的に,本モデルでは,人間の動作を模倣した学習可能な処理によって完全に実装されたメーターを協調認識し,より高い性能を実現する。 実験結果から,提案モデルの有効性を精度と効率の観点から検証した。

Recently, developing an automatic reading system for analog measuring instruments has gained increased attention, as it enables the collection of numerous state of equipment. Nonetheless, two major obstacles still obstruct its deployment to real-world applications. The first issue is that they rarely take the entire pipeline's speed into account. The second is that they are incapable of dealing with some low-quality images (i.e., meter breakage, blur, and uneven scale). In this paper, we propose a human-like alignment and recognition algorithm to overcome these problems. More specifically, a Spatial Transformed Module(STM) is proposed to obtain the front view of images in a self-autonomous way based on an improved Spatial Transformer Networks(STN). Meanwhile, a Value Acquisition Module(VAM) is proposed to infer accurate meter values by an end-to-end trained framework. In contrast to previous research, our model aligns and recognizes meters totally implemented by learnable processing, which mimics human's behaviours and thus achieves higher performances. Extensive results verify the good robustness of the proposed model in terms of the accuracy and efficiency.
翻訳日:2023-08-01 23:37:52 公開日:2023-07-30
# サンプリングのための勾配流:平均場モデル、ガウス近似およびアフィン不変性

Gradient Flows for Sampling: Mean-Field Models, Gaussian Approximations and Affine Invariance ( http://arxiv.org/abs/2302.11024v4 )

ライセンス: Link先を確認
Yifan Chen, Daniel Zhengyu Huang, Jiaoyang Huang, Sebastian Reich, Andrew M. Stuart(参考訳) 未知の正規化定数で確率分布をサンプリングすることは、計算科学と工学の基本的な問題である。 このタスクは全ての確率測度に対する最適化問題とみなすことができ、初期分布は勾配流を介して動的に所望の最小値へと発展させることができる。 平均場モデルは、確率測度の空間における勾配流によって法則が支配されるが、これらの平均場モデルの粒子近似はアルゴリズムの基盤を形成する。 勾配流のアプローチは変分推論のアルゴリズムの基礎にもなり、ガウスのような確率分布のパラメータ化された族上で最適化が行われ、基礎となる勾配流はパラメータ化された族に制限される。 勾配流の異なるエネルギー汎関数とメトリクスを選択することで、異なる収束特性を持つ異なるアルゴリズムが生じる。 本稿では,このエネルギー選択から生じる勾配流が正規化定数に依存しないという特異な性質を持つことを示した上で,Kulback-Leiblerの発散に着目する。 この指標について,fisher-rao,wasserstein,steinメトリクスの変種に注目し,勾配流と対応する平均場モデルに対するアフィン不変性を導入し,与えられた計量がアフィン不変性をもたらすかどうかを判定し,そうでない場合はアフィン不変量にするように修正する。 確率密度空間とガウス空間の両方における勾配流の研究を行った。 ガウス空間内の流れは、流れのガウス近似として理解することができる。 計量とモーメント閉包に基づくガウス近似が一致することを示し、それら間の接続を確立し、アフィン不変性の利点を示す長期収束特性について検討する。

Sampling a probability distribution with an unknown normalization constant is a fundamental problem in computational science and engineering. This task may be cast as an optimization problem over all probability measures, and an initial distribution can be evolved to the desired minimizer dynamically via gradient flows. Mean-field models, whose law is governed by the gradient flow in the space of probability measures, may also be identified; particle approximations of these mean-field models form the basis of algorithms. The gradient flow approach is also the basis of algorithms for variational inference, in which the optimization is performed over a parameterized family of probability distributions such as Gaussians, and the underlying gradient flow is restricted to the parameterized family. By choosing different energy functionals and metrics for the gradient flow, different algorithms with different convergence properties arise. In this paper, we concentrate on the Kullback-Leibler divergence after showing that, up to scaling, it has the unique property that the gradient flows resulting from this choice of energy do not depend on the normalization constant. For the metrics, we focus on variants of the Fisher-Rao, Wasserstein, and Stein metrics; we introduce the affine invariance property for gradient flows, and their corresponding mean-field models, determine whether a given metric leads to affine invariance, and modify it to make it affine invariant if it does not. We study the resulting gradient flows in both probability density space and Gaussian space. The flow in the Gaussian space may be understood as a Gaussian approximation of the flow. We demonstrate that the Gaussian approximation based on the metric and through moment closure coincide, establish connections between them, and study their long-time convergence properties showing the advantages of affine invariance.
翻訳日:2023-08-01 23:37:21 公開日:2023-07-30
# 密度-ポテンシャルマッピングの構造 第二部:磁場を含めて

The structure of the density-potential mapping. Part II: Including magnetic fields ( http://arxiv.org/abs/2303.01357v2 )

ライセンス: Link先を確認
Markus Penz, Erik I. Tellgren, Mih\'aly A. Csirik, Michael Ruggenthaler, Andre Laestadius(参考訳) 密度汎関数理論(DFT)のホヘンベルク・コーンの定理は、一体粒子密度だけで電子系の基底状態における完全な特徴づけの基礎として広く考えられている。 一連の2つの論文のパート~IIでは、磁場を含むDFTの異なる拡張におけるこの定理の状況を明らかにすることを目的としている。 特に、電流密度汎関数理論(CDFT)について論じ、従来の常磁性CDFTやいくつかの非標準代替品を含む文献で知られている異なる定式化について検討する。 前者にとって、ホーエンベルク=コーンの定理は反例のためにもはや有効ではないことが知られている。 それでも、常磁性CDFTは標準DFTに最も近い数学的枠組みを持ち、標準DFTと同様に、密度汎関数の非微分性はモロー・ヨシダ正則化によって緩和することができる。 興味深い洞察は、Maxwell-Schr\"odinger DFTと量子電気力学DFTの両方から得ることができる。

The Hohenberg-Kohn theorem of density-functional theory (DFT) is broadly considered the conceptual basis for a full characterization of an electronic system in its ground state by just the one-body particle density. In this Part~II of a series of two articles, we aim at clarifying the status of this theorem within different extensions of DFT including magnetic fields. We will in particular discuss current-density-functional theory (CDFT) and review the different formulations known in the literature, including the conventional paramagnetic CDFT and some non-standard alternatives. For the former, it is known that the Hohenberg-Kohn theorem is no longer valid due to counterexamples. Nonetheless, paramagnetic CDFT has the mathematical framework closest to standard DFT and, just like in standard DFT, non-differentiability of the density functional can be mitigated through Moreau-Yosida regularization. Interesting insights can be drawn from both Maxwell-Schr\"odinger DFT and quantum-electrodynamical DFT, which are also discussed here.
翻訳日:2023-08-01 23:26:15 公開日:2023-07-30
# 階層的模倣学習による都市走行の解釈可能な運動プランナ

Interpretable Motion Planner for Urban Driving via Hierarchical Imitation Learning ( http://arxiv.org/abs/2303.13986v2 )

ライセンス: Link先を確認
Bikun Wang, Zhipeng Wang, Chenhao Zhu, Zhiqiang Zhang, Zhichen Wang, Penghong Lin, Jingchu Liu and Qian Zhang(参考訳) 学習に基づくアプローチは、自律運転の分野で顕著なパフォーマンスを達成した。 ニューラルネットワークの素晴らしい能力と大量の人間の運転データを活用することで、複雑なパターンや運転行動のルールを、自律運転システムに利益をもたらすモデルとしてコード化することができる。 さらに、意思決定と行動計画モジュールにおいて、データ駆動型の研究が増えている。 しかし、ニューラルネットワークの信頼性と安定性はまだ不確実性に満ちている。 本稿では,ハイレベルグリッドベース行動プランナと低レベル軌道プランナを含む階層型計画アーキテクチャを提案する。 高レベルプランナーが一貫した経路を見つける責任があるため、低レベルプランナーは実行可能な軌道を生成する。 本手法をクローズドループシミュレーションと実世界走行の両方で評価し,複雑な都市自律運転シナリオにおいて,ニューラルネットワークプランナが優れた性能を示した。

Learning-based approaches have achieved remarkable performance in the domain of autonomous driving. Leveraging the impressive ability of neural networks and large amounts of human driving data, complex patterns and rules of driving behavior can be encoded as a model to benefit the autonomous driving system. Besides, an increasing number of data-driven works have been studied in the decision-making and motion planning module. However, the reliability and the stability of the neural network is still full of uncertainty. In this paper, we introduce a hierarchical planning architecture including a high-level grid-based behavior planner and a low-level trajectory planner, which is highly interpretable and controllable. As the high-level planner is responsible for finding a consistent route, the low-level planner generates a feasible trajectory. We evaluate our method both in closed-loop simulation and real world driving, and demonstrate the neural network planner has outstanding performance in complex urban autonomous driving scenarios.
翻訳日:2023-08-01 23:18:22 公開日:2023-07-30
# 顕微鏡2体電位の散乱長と有効範囲

Scattering length and effective range of microscopic two-body potentials ( http://arxiv.org/abs/2303.04591v2 )

ライセンス: Link先を確認
Mathias Mac\^edo-Lima and Lucas Madeira(参考訳) 散乱過程は、物理学のいくつかの分野における系の分布と性質を実験的に探索する基礎的な方法である。 低エネルギーでの2体散乱を考えると、ド・ブロイ波長が電位の範囲よりも大きい場合、高い角運動量を持つ部分波は通常重要でない。 支配的な貢献は、一般に$s$-wave scatteringとして知られる$l=0$偏波によるものである。 この状況は原子物理学、例えば冷原子ガスや核物理学、例えば核構造や物質において非常に関係がある。 この写本は、所望の量を計算する数値的アプローチをカバーしながら、トピックへの教育的導入を目的としている。 散乱長と有効範囲の概念に特に注意を払って低エネルギー散乱を導入する。 これらの2つの量は、低エネルギー過程を普遍的に記述する有効範囲近似に現れる。 球対称二体ポテンシャルの散乱長と有効範囲を計算する数値計算法について概説する。 例えば、この方法を球面井戸、修正された P\"oschl-Teller, Gaussian, Lennard-Jones ポテンシャルに適用する。 学生が同様の計算を実行し、他の潜在能力に拡張できるように、このツールを提供したいと思っています。

Scattering processes are a fundamental way of experimentally probing distributions and properties of systems in several areas of physics. Considering two-body scattering at low energies, when the de Broglie wavelength is larger than the range of the potential, partial waves with high angular momentum are typically unimportant. The dominant contribution comes from $l=0$ partial waves, commonly known as $s$-wave scattering. This situation is very relevant in atomic physics, e.g. cold atomic gases, and nuclear physics, e.g. nuclear structure and matter. This manuscript is intended as a pedagogical introduction to the topic while covering a numerical approach to compute the desired quantities. We introduce low-energy scattering with particular attention to the concepts of scattering length and effective range. These two quantities appear in the effective-range approximation, which universally describes low-energy processes. We outline a numerical procedure for calculating the scattering length and effective range of spherically symmetric two-body potentials. As examples, we apply the method to the spherical well, modified P\"oschl-Teller, Gaussian, and Lennard-Jones potentials. We hope to provide the tools so students can implement similar calculations and extend them to other potentials.
翻訳日:2023-08-01 23:16:06 公開日:2023-07-30
# ドメイン外インテント検出とインテント発見のためのハイブリッドアーキテクチャ

A Hybrid Architecture for Out of Domain Intent Detection and Intent Discovery ( http://arxiv.org/abs/2303.04134v2 )

ライセンス: Link先を確認
Masoud Akbari, Ali Mohades, M. Hassan Shirali-Shahreza(参考訳) Intent Detectionは、タスク指向対話システムにおける自然言語理解ユニット(NLU)のタスクの1つである。 Out of Scope (OOS) と Out of Domain (OOD) の入力は、これらのシステムを問題に陥る可能性がある。 一方、タスク指向対話システムにおいて、Intent Detectionのモデルをトレーニングするためにラベル付きデータセットが必要である。 ラベル付きデータセットの作成には時間がかかり、人的リソースが必要です。 この記事の目的は、上記の問題に対処することである。 OOD/OOS入力を識別するタスクは、OOD/OOS Intent Detectionと呼ばれる。 また、新しい意図の発見やOOD入力の擬似ラベル付けもIntent Discoveryでよく知られている。 OODインテント検出部では,入力データ分布に依存しない未知のインテントを識別するために変分オートエンコーダを用いる。 その後、教師なしクラスタリング法を用いて、OOD/OOS入力の裏にある異なる未知の意図を発見する。 また,OOD/OOS表現に対して,クラスタリングに満ちた表現間の距離を拡大するために,非線形次元削減手法を適用した。 提案手法は,OOD/OOS Intent DetectionとIntent Discoveryの双方で優れた結果が得られ,英語とペルシア語のベースラインを通過することを示す。

Intent Detection is one of the tasks of the Natural Language Understanding (NLU) unit in task-oriented dialogue systems. Out of Scope (OOS) and Out of Domain (OOD) inputs may run these systems into a problem. On the other side, a labeled dataset is needed to train a model for Intent Detection in task-oriented dialogue systems. The creation of a labeled dataset is time-consuming and needs human resources. The purpose of this article is to address mentioned problems. The task of identifying OOD/OOS inputs is named OOD/OOS Intent Detection. Also, discovering new intents and pseudo-labeling of OOD inputs is well known by Intent Discovery. In OOD intent detection part, we make use of a Variational Autoencoder to distinguish between known and unknown intents independent of input data distribution. After that, an unsupervised clustering method is used to discover different unknown intents underlying OOD/OOS inputs. We also apply a non-linear dimensionality reduction on OOD/OOS representations to make distances between representations more meaning full for clustering. Our results show that the proposed model for both OOD/OOS Intent Detection and Intent Discovery achieves great results and passes baselines in English and Persian languages.
翻訳日:2023-08-01 23:15:47 公開日:2023-07-30
# one-4-all:具体的ナビゲーションのための神経電位場

One-4-All: Neural Potential Fields for Embodied Navigation ( http://arxiv.org/abs/2303.04011v3 )

ライセンス: Link先を確認
Sacha Morin, Miguel Saavedra-Ruiz, Liam Paull(参考訳) ロボット工学の基本課題は、2つの場所をナビゲートすることだ。 特に、現実世界のナビゲーションには高次元RGB画像による長期計画が必要であり、エンドツーエンドの学習ベースアプローチでは大きな課題となる。 現在のセミパラメトリック法は、学習したモジュールと環境のトポロジカルメモリを組み合わせ、しばしば以前に収集した画像のグラフとして表されることによって、長い水平ナビゲーションを実現する。 しかし、これらのグラフを実際に使用するには、多くのプルーニングヒューリスティックをチューニングする必要がある。 これらのヒューリスティックは、スプリアスエッジを避け、ランタイムメモリ使用を制限し、大規模な環境で合理的に高速なグラフクエリを維持するために必要である。 本研究では,自己教師型および多様体学習を利用した1-4-All(O4A)を用いて,目標を画像として指定したグラフフリーでエンドツーエンドなナビゲーションパイプラインを得る。 ナビゲーションは、画像埋め込み上で連続的に定義されるポテンシャル関数を厳格に最小化する。 rgbデータと制御の非熟練な探索シーケンスでオフラインで訓練され、深さや姿勢の測定は不要である。 我々は,8つの模擬ギブソン屋内環境において,O4Aが長距離目標に到達できることを示し,その結果の埋め込みは,たとえポーズが観測されていなくても,位相的に地上の真理写像に類似していることを示した。 さらに,Jackal UGVプラットフォームを用いた実世界のナビゲーションの成功例を示す。

A fundamental task in robotics is to navigate between two locations. In particular, real-world navigation can require long-horizon planning using high-dimensional RGB images, which poses a substantial challenge for end-to-end learning-based approaches. Current semi-parametric methods instead achieve long-horizon navigation by combining learned modules with a topological memory of the environment, often represented as a graph over previously collected images. However, using these graphs in practice requires tuning a number of pruning heuristics. These heuristics are necessary to avoid spurious edges, limit runtime memory usage and maintain reasonably fast graph queries in large environments. In this work, we present One-4-All (O4A), a method leveraging self-supervised and manifold learning to obtain a graph-free, end-to-end navigation pipeline in which the goal is specified as an image. Navigation is achieved by greedily minimizing a potential function defined continuously over image embeddings. Our system is trained offline on non-expert exploration sequences of RGB data and controls, and does not require any depth or pose measurements. We show that O4A can reach long-range goals in 8 simulated Gibson indoor environments and that resulting embeddings are topologically similar to ground truth maps, even if no pose is observed. We further demonstrate successful real-world navigation using a Jackal UGV platform.
翻訳日:2023-08-01 23:15:27 公開日:2023-07-30
# 大規模言語モデルは医療に使えるか? 臨床言語理解に関する比較研究

Are Large Language Models Ready for Healthcare? A Comparative Study on Clinical Language Understanding ( http://arxiv.org/abs/2304.05368v3 )

ライセンス: Link先を確認
Yuqing Wang, Yun Zhao, Linda Petzold(参考訳) 大規模言語モデル(llm)は医療を含む様々な領域で大きな進歩を遂げている。 しかし、臨床言語理解タスクの特殊性は、さらなる調査を保証できる固有の課題と限界を提示する。 本研究では,臨床言語理解タスクの領域内で,最新のLCM(GPT-3.5,GPT-4,Bard)を総合的に評価する。 これらのタスクは、名前付きエンティティ認識、関係抽出、自然言語推論、意味的テキスト類似性、文書分類、質問応答など、さまざまな範囲にまたがる。 また,臨床シナリオに関連のある情報的質問や回答を抽出することにより,LSMのパフォーマンス向上に資する新規なプロンプト戦略,セルフクエストプロンプト(SQP)を導入する。 本評価は,医療関連課題における LLM の有効性向上のための課題特化学習戦略の重要性と促進手法の意義を裏付けるものである。 さらに,難解な関係抽出タスクにおける深度誤差解析は,SQPを用いた改善のための誤り分布と潜在的な方法に関する貴重な知見を提供する。 本研究は,医療分野におけるLLMの活用の実践的意義を明らかにし,今後の研究の基盤となり,医療分野への応用の可能性について考察した。

Large language models (LLMs) have made significant progress in various domains, including healthcare. However, the specialized nature of clinical language understanding tasks presents unique challenges and limitations that warrant further investigation. In this study, we conduct a comprehensive evaluation of state-of-the-art LLMs, namely GPT-3.5, GPT-4, and Bard, within the realm of clinical language understanding tasks. These tasks span a diverse range, including named entity recognition, relation extraction, natural language inference, semantic textual similarity, document classification, and question-answering. We also introduce a novel prompting strategy, self-questioning prompting (SQP), tailored to enhance LLMs' performance by eliciting informative questions and answers pertinent to the clinical scenarios at hand. Our evaluation underscores the significance of task-specific learning strategies and prompting techniques for improving LLMs' effectiveness in healthcare-related tasks. Additionally, our in-depth error analysis on the challenging relation extraction task offers valuable insights into error distribution and potential avenues for improvement using SQP. Our study sheds light on the practical implications of employing LLMs in the specialized domain of healthcare, serving as a foundation for future research and the development of potential applications in healthcare settings.
翻訳日:2023-08-01 23:07:15 公開日:2023-07-30
# 大規模レコメンデーションシステムにおけるオンラインバンディット探索の評価

Evaluating Online Bandit Exploration In Large-Scale Recommender System ( http://arxiv.org/abs/2304.02572v3 )

ライセンス: Link先を確認
Hongbo Guo, Ruben Naeff, Alex Nikulkov, Zheqing Zhu(参考訳) バンディット学習はレコメンダシステムのためのデザイン選択として人気が高まっている。 コミュニティからのバンディット学習への強い関心にもかかわらず、多くのバンディット学習アプローチが生産化を妨げている複数のボトルネックが残っている。 ひとつの大きなボトルネックは、公正でデータ漏洩のないbanditアルゴリズムの有効性をテストする方法である。 教師付き学習アルゴリズムとは異なり、バンディット学習アルゴリズムは探索的性質を通じてデータ収集プロセスに重点を置いている。 このような探索的行動は、古典的なa/bテスト設定において不公平な評価を引き起こす可能性がある。 本研究では,我々の大規模ショートビデオレコメンデータシステムに対して,uper confidence bound(ucb)を適用し,新しいメトリクスセットを用いた生産バンディット学習ライフサイクルのためのテストフレームワークを提案する。 広範な実験結果から,実験設計は推薦システムにおけるバンディット学習の性能を十分に評価できることがわかった。

Bandit learning has been an increasingly popular design choice for recommender system. Despite the strong interest in bandit learning from the community, there remains multiple bottlenecks that prevent many bandit learning approaches from productionalization. One major bottleneck is how to test the effectiveness of bandit algorithm with fairness and without data leakage. Different from supervised learning algorithms, bandit learning algorithms emphasize greatly on the data collection process through their explorative nature. Such explorative behavior may induce unfair evaluation in a classic A/B test setting. In this work, we apply upper confidence bound (UCB) to our large scale short video recommender system and present a test framework for the production bandit learning life-cycle with a new set of metrics. Extensive experiment results show that our experiment design is able to fairly evaluate the performance of bandit learning in the recommender system.
翻訳日:2023-08-01 23:05:36 公開日:2023-07-30
# エンタングルメントエンハンスドデュアルコーム分光法

Entanglement-enhanced dual-comb spectroscopy ( http://arxiv.org/abs/2304.01516v3 )

ライセンス: Link先を確認
Haowei Shi, Zaijun Chen, Scott E. Fraser, Mengjie Yu, Zheshen Zhang and Quntao Zhuang(参考訳) dual-comb interferometryは、2つのレーザー周波数コムの干渉を利用して、分光応用において前例のない能力を提供する。 過去10年間で、最先端のシステムは、真空変動によるショットノイズによって、単位取得時間当たりの信号対雑音比が根本的に制限される地点に達した。 この問題に対処するために、量子資源を活用して信号対雑音比の性能を著しく向上するエンタングルメント強化デュアルコム分光プロトコルを提案する。 実システムの性能を解析するために,実用的な雑音を考慮した双対コム分光の量子モデルを開発した。 このモデルに基づき, ヘテロダイン検出におけるショットノイズを抑制するために, 各コーム線にサイドバンド絡み合いを有する量子コームを提案する。 以上の結果から,uwからmwのパワー範囲において大きな量子効果を示し,生体・化学センシングへの応用において特に魅力的な技術である。 さらに、量子コムは非線形光学を用いて設計することができ、短期実験を約束する。

Dual-comb interferometry harnesses the interference of two laser frequency combs to provide unprecedented capability in spectroscopy applications. In the past decade, the state-of-the-art systems have reached a point where the signal-to-noise ratio per unit acquisition time is fundamentally limited by shot noise from vacuum fluctuations. To address the issue, we propose an entanglement-enhanced dual-comb spectroscopy protocol that leverages quantum resources to significantly improve the signal-to-noise ratio performance. To analyze the performance of real systems, we develop a quantum model of dual-comb spectroscopy that takes practical noises into consideration. Based on this model, we propose quantum combs with side-band entanglement around each comb lines to suppress the shot noise in heterodyne detection. Our results show significant quantum advantages in the uW to mW power range, making this technique particularly attractive for biological and chemical sensing applications. Furthermore, the quantum comb can be engineered using nonlinear optics and promises near-term experimentation.
翻訳日:2023-08-01 23:05:22 公開日:2023-07-30
# モデル再設計によるディープニューラルネットワークモデルの再利用

Reusing Deep Neural Network Models through Model Re-engineering ( http://arxiv.org/abs/2304.00245v2 )

ライセンス: Link先を確認
Binhang Qi, Hailong Sun, Xiang Gao, Hongyu Zhang, Zhaotian Li, Xudong Liu(参考訳) 今日のソフトウェア開発において重要なタスクとなったディープニューラルネットワーク(DNN)モデルのトレーニングは、しばしば計算リソースと時間の観点からコストがかかる。 ソフトウェア再利用のインスピレーションにより、既存の再利用によるDNNモデルの構築が近年注目を集めている。 DNNモデルの再利用に対する以前のアプローチには2つの制限がある。 1)モデル全体の再利用は、モデルの機能(ラベル)のごく一部しか必要とされないが、多くのオーバーヘッド(例えば、推論の計算コストや時間コスト)を引き起こす。 2) モデル再利用は、再利用モデルの欠陥と弱点を継承するので、新しいシステムはセキュリティ攻撃の脅威にさらされる。 上記の問題を解決するために、トレーニング済みのDNNモデルを再設計して再利用性を向上させるツールであるSeaMを提案する。 具体的には、対象問題と訓練されたモデルを考えると、SeaMは勾配に基づく探索法を用いて、対象問題に関連するモデルの重みを探索する。 関連する重みのみを保持する再設計モデルは、対象の問題を解決するために再利用される。 広く使われているモデルに対する評価の結果、seamによって製造された再設計モデルは元のモデルの10.11%の重みしか含んでおらず、推論時間に関して42.41%削減された。 ターゲット問題に対して、再設計されたモデルは、分類精度5.85%で元のモデルより優れている。 さらに、再設計されたモデルの再使用は、モデル全体の再利用よりも平均57%少ない欠陥を継承する。 私たちは、再利用のオーバーヘッドと欠陥の継承を減らすアプローチが、実用的なモデルの再利用にとって重要な一歩だと信じています。

Training deep neural network (DNN) models, which has become an important task in today's software development, is often costly in terms of computational resources and time. With the inspiration of software reuse, building DNN models through reusing existing ones has gained increasing attention recently. Prior approaches to DNN model reuse have two main limitations: 1) reusing the entire model, while only a small part of the model's functionalities (labels) are required, would cause much overhead (e.g., computational and time costs for inference), and 2) model reuse would inherit the defects and weaknesses of the reused model, and hence put the new system under threats of security attack. To solve the above problem, we propose SeaM, a tool that re-engineers a trained DNN model to improve its reusability. Specifically, given a target problem and a trained model, SeaM utilizes a gradient-based search method to search for the model's weights that are relevant to the target problem. The re-engineered model that only retains the relevant weights is then reused to solve the target problem. Evaluation results on widely-used models show that the re-engineered models produced by SeaM only contain 10.11% weights of the original models, resulting 42.41% reduction in terms of inference time. For the target problem, the re-engineered models even outperform the original models in classification accuracy by 5.85%. Moreover, reusing the re-engineered models inherits an average of 57% fewer defects than reusing the entire model. We believe our approach to reducing reuse overhead and defect inheritance is one important step forward for practical model reuse.
翻訳日:2023-08-01 23:05:06 公開日:2023-07-30
# 遅延チョイススキームにおけるコヒーレント誘導量子相関

Coherently induced quantum correlation in a delayed-choice scheme ( http://arxiv.org/abs/2303.15052v2 )

ライセンス: Link先を確認
B. S. Ham(参考訳) 量子絡み合いは古典物理学では得られないユニークな量子特徴として知られている。 しかし、過去数十年間、量子絡み合いに関するそのような理解は、奇妙な量子力学の限られた世界に私たちを閉じ込めたかもしれない。 単一光子とは異なり、ペア光子間の位相関係は量子の特徴を理解する鍵となる。 近年、不可解な量子的特徴に対する直感的なアプローチが登場し、選択的測定による積-ベイジス重ね合わせのコヒーレンス操作に光を当てている。 ここでは、ポアソン分散コヒーレント光子を用いた偏光パス相関を励起するコヒーレンス操作を、独立局所パラメータの古典的励起結合相関係に対して提示する。 このために、偏光・ベイシスランダムネスの合成には線形光学が用いられ、偏光基底の選択的測定にはゲート型ヘテロダイン検出技術が採用されている。 その結果、非局所量子機能は決定論的に理解されるようになった。

Quantum entanglement is known as a unique quantum feature that cannot be obtained by classical physics. Over the last several decades, however, such an understanding on quantum entanglement might have confined us in a limited world of weird quantum mechanics. Unlike a single photon, a definite phase relation between paired photons is the key to understanding quantum features. Recently, an intuitive approach to the otherwise mysterious quantum features has emerged and shined a light on coherence manipulations of product-basis superposition via selective measurements. Here, a coherence manipulation is presented to excite polarization-path correlation using Poisson-distributed coherent photons for a classically excited joint-phase relation of independent local parameters. For this, linear optics is used for the preparation of the polarization-basis randomness, and a gated heterodyne detection technique is adopted for the selective measurement of polarization bases. As a result, the nonlocal quantum feature is now coherently understood in a deterministic way.
翻訳日:2023-08-01 23:04:40 公開日:2023-07-30
# 誤差補正による貯留層計算:確率力学系の長期挙動

Reservoir Computing with Error Correction: Long-term Behaviors of Stochastic Dynamical Systems ( http://arxiv.org/abs/2305.00669v2 )

ライセンス: Link先を確認
Cheng Fang, Yubin Lu, Ting Gao, Jinqiao Duan(参考訳) 確率力学系の予測と動的挙動の把握は重大な問題である。 本稿では,Reservoir Computingと正規化フローを組み合わせたデータ駆動型フレームワークを提案する。このフレームワークは,エラーモデリングを模倣して従来のReservoir Computingのパフォーマンスを改善し,両方のアプローチの利点を統合する。 基礎となる確率力学系についての仮定は少ないが、このモデルフリーな手法は確率力学系の長期的発展を予測し、動的挙動を再現する。 提案手法の有効性を,確率的Van der Pal発振器,El Ni\~no-Southern Oscillation簡易モデル,確率的Lorenzシステムなどいくつかの実験で検証した。 これらの実験はマルコフ/非マルコフおよび線形/非線形確率微分方程式または確率遅延微分方程式によって定義される定常/非定常確率過程からなる。 さらに,ノイズ誘発ティッピング現象,緩和振動,確率的混合モード振動,ストレンジアトラクタの複製について検討した。

The prediction of stochastic dynamical systems and the capture of dynamical behaviors are profound problems. In this article, we propose a data-driven framework combining Reservoir Computing and Normalizing Flow to study this issue, which mimics error modeling to improve traditional Reservoir Computing performance and integrates the virtues of both approaches. With few assumptions about the underlying stochastic dynamical systems, this model-free method successfully predicts the long-term evolution of stochastic dynamical systems and replicates dynamical behaviors. We verify the effectiveness of the proposed framework in several experiments, including the stochastic Van der Pal oscillator, El Ni\~no-Southern Oscillation simplified model, and stochastic Lorenz system. These experiments consist of Markov/non-Markov and stationary/non-stationary stochastic processes which are defined by linear/nonlinear stochastic differential equations or stochastic delay differential equations. Additionally, we explore the noise-induced tipping phenomenon, relaxation oscillation, stochastic mixed-mode oscillation, and replication of the strange attractor.
翻訳日:2023-08-01 22:57:50 公開日:2023-07-30
# 放射光源のための高エネルギー相関多光子X線回折の理論

Theory of high-energy correlated multiphoton x-ray diffraction for synchrotron radiation sources ( http://arxiv.org/abs/2304.11440v3 )

ライセンス: Link先を確認
Arunangshu Debnath, Robin Santra(参考訳) 放射光源を用いた高エネルギーX線回折測定の解釈に適した,非相対論的極限における多光子回折現象の理論的定式化について述べる。 近似の階層と極限ケースの体系的解析について述べる。 回折信号の畳み込み表現は、相関署名に寄与する物理資源の分類を可能にする。 この定式化は、弾性および非弾性回折散乱における相関符号の不在または存在を記述できる理論記述を開発することを目的としている。 これらの相関シグネチャを入力場変調多体電子密度相関の観点から解釈することは、構造イメージング研究の新しい展望を提供する。 より本質的には、関連する再構成アルゴリズムの理論的発展に必要なフレームワークを提供する。

We present a theoretical formulation for the multiphoton diffraction phenomenology in the nonrelativistic limit, suitable for interpreting high-energy x-ray diffraction measurements using synchrotron radiation sources. A hierarchy of approximations and the systematic analysis of limiting cases are presented. A convolutional representation of the diffraction signal allows classification of the physical resources contributing to the correlation signatures. The formulation is intended for developing a theoretical description capable of describing plausible absence or presence of correlation signatures in elastic and inelastic diffractive scattering. Interpreting these correlation signatures in terms of the incoming field modulated many-body electronic density correlations provides a novel perspective for structural imaging studies. More essentially, it offers a framework necessary for theoretical developments of associated reconstruction algorithms.
翻訳日:2023-08-01 22:56:36 公開日:2023-07-30
# ドメイン一般化意味セグメンテーションのための二段スタイライゼーション変調

Dual Stage Stylization Modulation for Domain Generalized Semantic Segmentation ( http://arxiv.org/abs/2304.09347v3 )

ライセンス: Link先を確認
Gabriel Tjio, Ping Liu, Chee-Keong Kwoh, Joey Tianyi Zhou(参考訳) 深層モデルのトレーニングに十分なラベル付きデータを得ることは、現実のアプリケーションではしばしば困難である。 この問題に対処するため,我々は,単一ソース領域一般意味セグメンテーションのための新しい解を提案する。 近年,幻覚技術を用いたデータ多様性向上手法が検討されている。 しかし、過剰な幻覚は、特に不均衡なデータセットのパフォーマンスを低下させる可能性がある。 実験で示したように、マイノリティクラスは多数派クラスに比べて幻覚によるパフォーマンス低下の影響を受けやすい。 この課題に対処するため,Adversarial Semantic Hallucination+ (ASH+) フレームワーク内に2段階のFeature Transform (dFT) 層を導入する。 ASH+フレームワークは幻覚強度の二重ステージ操作を行う。 提案手法は,各画素の意味情報を活用することで,画素毎の幻覚強度を適応的に調整し,幻覚に対するきめ細かい制御を行う。 提案手法の有効性を検証するために,semantic segmentation benchmark datasets (cityscapes and synthia) を用いた総合実験を行った。 定量的および定性的な比較は、我々のアプローチがCityscapesデータセットの最先端の手法と競合し、SynTHIAデータセットの既存のソリューションを上回ることを示している。 私たちのフレームワークのコードは研究コミュニティで簡単に利用できます。

Obtaining sufficient labeled data for training deep models is often challenging in real-life applications. To address this issue, we propose a novel solution for single-source domain generalized semantic segmentation. Recent approaches have explored data diversity enhancement using hallucination techniques. However, excessive hallucination can degrade performance, particularly for imbalanced datasets. As shown in our experiments, minority classes are more susceptible to performance reduction due to hallucination compared to majority classes. To tackle this challenge, we introduce a dual-stage Feature Transform (dFT) layer within the Adversarial Semantic Hallucination+ (ASH+) framework. The ASH+ framework performs a dual-stage manipulation of hallucination strength. By leveraging semantic information for each pixel, our approach adaptively adjusts the pixel-wise hallucination strength, thus providing fine-grained control over hallucination. We validate the effectiveness of our proposed method through comprehensive experiments on publicly available semantic segmentation benchmark datasets (Cityscapes and SYNTHIA). Quantitative and qualitative comparisons demonstrate that our approach is competitive with state-of-the-art methods for the Cityscapes dataset and surpasses existing solutions for the SYNTHIA dataset. Code for our framework will be made readily available to the research community.
翻訳日:2023-08-01 22:56:12 公開日:2023-07-30
# 勝利へのコンピテンス:医療画像分割のための擬似ラベルの強化

Compete to Win: Enhancing Pseudo Labels for Barely-supervised Medical Image Segmentation ( http://arxiv.org/abs/2304.07519v2 )

ライセンス: Link先を確認
Huimin Wu, Xiaomeng Li, Yiqun Lin, and Kwang-Ting Cheng(参考訳) 本研究では,ラベル付きデータ,すなわち1桁の症例の少ない医療画像の分割について検討した。 我々は,最先端の半教師あり解の相互監督の鍵となる限界は,前景クラスの不満足な精度であり,ほとんど教師なし学習下での劣化の結果につながることを観察する。 本稿では,擬似ラベル品質を向上させるためのCompete-to-Win法(ComWin)を提案する。 1つのモデルの予測を疑似ラベルとして直接使用するのとは対照的に、我々の重要なアイデアは、異なるネットワークが生成する複数の信頼度マップを比較して、最も信頼度の高いものを選択することによって高品質な擬似ラベルを生成するべきであるということです。 境界認識エンハンスモジュールの統合により、境界付近の擬似ラベルをさらに洗練するため、comwinの強化バージョン、すなわちcomwin+が提案されている。 実験により,心臓構造分画,膵分画,大腸腫瘍分画の3つの医用画像データセットにおいて,本手法が最善の性能を発揮できることが判明した。 ソースコードはhttps://github.com/huiimin5/comwinで入手できる。

This study investigates barely-supervised medical image segmentation where only few labeled data, i.e., single-digit cases are available. We observe the key limitation of the existing state-of-the-art semi-supervised solution cross pseudo supervision is the unsatisfactory precision of foreground classes, leading to a degenerated result under barely-supervised learning. In this paper, we propose a novel Compete-to-Win method (ComWin) to enhance the pseudo label quality. In contrast to directly using one model's predictions as pseudo labels, our key idea is that high-quality pseudo labels should be generated by comparing multiple confidence maps produced by different networks to select the most confident one (a compete-to-win strategy). To further refine pseudo labels at near-boundary areas, an enhanced version of ComWin, namely, ComWin+, is proposed by integrating a boundary-aware enhancement module. Experiments show that our method can achieve the best performance on three public medical image datasets for cardiac structure segmentation, pancreas segmentation and colon tumor segmentation, respectively. The source code is now available at https://github.com/Huiimin5/comwin.
翻訳日:2023-08-01 22:55:50 公開日:2023-07-30
# オンポリシー強化学習によるオークション型レコメンダシステムの長期的価値最適化

Optimizing Long-term Value for Auction-Based Recommender Systems via On-Policy Reinforcement Learning ( http://arxiv.org/abs/2305.13747v3 )

ライセンス: Link先を確認
Ruiyang Xu, Jalaj Bhandari, Dmytro Korenkevych, Fan Liu, Yuchen He, Alex Nikulkov, Zheqing Zhu(参考訳) オークションベースのレコメンデーターシステムはオンライン広告プラットフォームで一般的であるが、通常、ユーザの行動に対するレコメンデーションの下流効果を無視して、すぐに期待されるリターン指標に基づいてレコメンデーションスロットを割り当てるように最適化されている。 本研究では,オークションベースのレコメンデーションシステムにおいて,長期リターン指標の最適化に強化学習を用いる。 基本強化学習アルゴリズムである時間差学習を用いて,長期ユーザエンゲージメント指標の高いレコメンデーションに向けてシステムをバイアスする1段階のポリシー改善手法を実装した。 これはオークションフレームワークとの互換性を維持しながら、長期にわたって価値を最適化する。 提案手法は,提案手法が既存のオークションベースポリシーを有効に改善することを示す動的プログラミングの考え方に基づいている。 オークションベースのレコメンデーションシステムで実施したオンラインA/Bテストを通じて,提案手法がユーザエンゲージメントの長期指標において,現在の生産システムより優れていることを実証的に証明した。

Auction-based recommender systems are prevalent in online advertising platforms, but they are typically optimized to allocate recommendation slots based on immediate expected return metrics, neglecting the downstream effects of recommendations on user behavior. In this study, we employ reinforcement learning to optimize for long-term return metrics in an auction-based recommender system. Utilizing temporal difference learning, a fundamental reinforcement learning algorithm, we implement an one-step policy improvement approach that biases the system towards recommendations with higher long-term user engagement metrics. This optimizes value over long horizons while maintaining compatibility with the auction framework. Our approach is grounded in dynamic programming ideas which show that our method provably improves upon the existing auction-based base policy. Through an online A/B test conducted on an auction-based recommender system which handles billions of impressions and users daily, we empirically establish that our proposed method outperforms the current production system in terms of long-term user engagement metrics.
翻訳日:2023-08-01 22:47:45 公開日:2023-07-30
# ニュースからの因果知識グラフの構築と解釈

Constructing and Interpreting Causal Knowledge Graphs from News ( http://arxiv.org/abs/2305.09359v2 )

ライセンス: Link先を確認
Fiona Anting Tan, Debdeep Paul, Sahim Yamaura, Miura Koji and See-Kiong Ng(参考訳) 多くの金融職は、過去と現在における因果関係について学ぶためにニュースに頼り、将来についての情報的な決定と予測を行う。 オンラインで利用可能なニュースの量が増え続ける中、構造化されていないテキストから因果イベントの抽出を自動化する必要がある。 本研究では,(1)因果関係の抽出,(2)因果関係の抽出,(2)論点クラスタリングと表現の2つのステップを用いて,ニュースから因果知識グラフ(KG)を構築する手法を提案する。 我々は,リコール,正確性,解釈性を重視したグラフの構築を目指している。 抽出には、多くの初期の研究がすでにテキストから因果KGを構築しているが、多くは初歩的なパターンベースの手法を採用している。 最新のBERTベースの抽出モデルとパターンベースの抽出モデルを用いて、このギャップを埋める。 その結果,高い精度を維持しながら,高いリコールを達成できた。 クラスタリングのために、引数をクラスタ化するためにトピックモデリングアプローチを利用して、グラフの接続性を高めました。 その結果,15,686個の非連結グラフの代わりに,ユーザがより因果関係を推測できる1つの連結グラフが得られた。 最終的なKGは因果関係を効果的に把握し、伝達し、実験を通じて検証し、複数のユースケースとユーザフィードバックを提供します。

Many financial jobs rely on news to learn about causal events in the past and present, to make informed decisions and predictions about the future. With the ever-increasing amount of news available online, there is a need to automate the extraction of causal events from unstructured texts. In this work, we propose a methodology to construct causal knowledge graphs (KGs) from news using two steps: (1) Extraction of Causal Relations, and (2) Argument Clustering and Representation into KG. We aim to build graphs that emphasize on recall, precision and interpretability. For extraction, although many earlier works already construct causal KGs from text, most adopt rudimentary pattern-based methods. We close this gap by using the latest BERT-based extraction models alongside pattern-based ones. As a result, we achieved a high recall, while still maintaining a high precision. For clustering, we utilized a topic modelling approach to cluster our arguments, so as to increase the connectivity of our graph. As a result, instead of 15,686 disconnected subgraphs, we were able to obtain 1 connected graph that enables users to infer more causal relationships from. Our final KG effectively captures and conveys causal relationships, validated through experiments, multiple use cases and user feedback.
翻訳日:2023-08-01 22:46:09 公開日:2023-07-30
# 有限トレース上の合成によるモデルチェック戦略

Model Checking Strategies from Synthesis Over Finite Traces ( http://arxiv.org/abs/2305.08319v3 )

ライセンス: Link先を確認
Suguman Bansal and Yong Li and Lucas Martinelli Tabajara and Moshe Y. Vardi and Andrew Wells(参考訳) LTLf合成ツールによって生成される戦略の正当性を検証する能力によって、有限トレース上での線形時間論理(LTLf)からの反応性合成の革新が増幅される。 これは、"em ltlf model checking} の作業の動機となります。 しかし、LTLfモデルチェックは簡単ではない。 LTLf合成によって生成される戦略は、実行が有限だが非有界長または無限長であるような変換子または非終端変換子を用いて表すことができる。 合成において、同じ複雑さと類似したアルゴリズムを示すため、あるタイプのトランスデューサが他方よりも優れているという証拠はない。 本稿では,モデル検査において,2種類のトランスデューサが根本的に異なることを示す。 我々の中心的な結果は、非終端トランスデューサのLTLfモデル検査が終端トランスデューサのモデル検査よりも難しいことである。 これらの問題はそれぞれEXPSPACE完全かつPSPACE完全であることを示す。 したがって、検証の可能性を考えると、LTLf合成ツールは終端トランスデューサを合成すべきである。 これは、我々の知る限りでは、ltlf合成において一方のトランスデューサを他方のトランスデューサに使用するための\emph{first} 証拠である。

The innovations in reactive synthesis from {\em Linear Temporal Logics over finite traces} (LTLf) will be amplified by the ability to verify the correctness of the strategies generated by LTLf synthesis tools. This motivates our work on {\em LTLf model checking}. LTLf model checking, however, is not straightforward. The strategies generated by LTLf synthesis may be represented using {\em terminating} transducers or {\em non-terminating} transducers where executions are of finite-but-unbounded length or infinite length, respectively. For synthesis, there is no evidence that one type of transducer is better than the other since they both demonstrate the same complexity and similar algorithms. In this work, we show that for model checking, the two types of transducers are fundamentally different. Our central result is that LTLf model checking of non-terminating transducers is \emph{exponentially harder} than that of terminating transducers. We show that the problems are EXPSPACE-complete and PSPACE-complete, respectively. Hence, considering the feasibility of verification, LTLf synthesis tools should synthesize terminating transducers. This is, to the best of our knowledge, the \emph{first} evidence to use one transducer over the other in LTLf synthesis.
翻訳日:2023-08-01 22:45:49 公開日:2023-07-30
# Mesh2SSM: 表面メッシュから解剖の統計的形状モデルへ

Mesh2SSM: From Surface Meshes to Statistical Shape Models of Anatomy ( http://arxiv.org/abs/2305.07805v2 )

ライセンス: Link先を確認
Krithika Iyer, Shireen Elhabian(参考訳) 統計的形状モデリングは、医療画像(MRIやCTスキャンなど)で捉えたセグメント化された解剖学から重要な形状パラメータを発見する計算過程である。 人間の解剖学における実質的な非線形変動の存在は、しばしば伝統的な形状モデリングプロセスを困難にしている。 深層学習技術は、形状の複雑な非線形表現を学習し、基礎となる人口レベルの変動に忠実な統計的形状モデルを生成することができる。 しかし、既存のディープラーニングモデルは依然として制限があり、トレーニングのために確立/最適化された形状モデルが必要である。 我々は、教師なしの置換不変表現学習を活用して、テンプレートポイントクラウドを主観的なメッシュに変形する方法を推定し、対応性に基づく形状モデルを作成する新しいアプローチであるMesh2SSMを提案する。 Mesh2SSMは集団固有のテンプレートも学習でき、テンプレート選択によるバイアスを低減できる。 提案手法はメッシュ上で直接動作し,計算効率が高いため,従来型および深層学習に基づくSSMアプローチの代替となる。

Statistical shape modeling is the computational process of discovering significant shape parameters from segmented anatomies captured by medical images (such as MRI and CT scans), which can fully describe subject-specific anatomy in the context of a population. The presence of substantial non-linear variability in human anatomy often makes the traditional shape modeling process challenging. Deep learning techniques can learn complex non-linear representations of shapes and generate statistical shape models that are more faithful to the underlying population-level variability. However, existing deep learning models still have limitations and require established/optimized shape models for training. We propose Mesh2SSM, a new approach that leverages unsupervised, permutation-invariant representation learning to estimate how to deform a template point cloud to subject-specific meshes, forming a correspondence-based shape model. Mesh2SSM can also learn a population-specific template, reducing any bias due to template selection. The proposed method operates directly on meshes and is computationally efficient, making it an attractive alternative to traditional and deep learning-based SSM approaches.
翻訳日:2023-08-01 22:45:27 公開日:2023-07-30
# chatgptに関する調査:aiが生成するコンテンツ、課題、ソリューション

A Survey on ChatGPT: AI-Generated Contents, Challenges, and Solutions ( http://arxiv.org/abs/2305.18339v2 )

ライセンス: Link先を確認
Yuntao Wang, Yanghe Pan, Miao Yan, Zhou Su, and Tom H. Luan(参考訳) ChatGPTのような大規模な人工知能(AI)モデルの普及に伴い、AIGC(AI- generated content)が注目され、コンテンツ生成と知識表現のパラダイムシフトを導いている。 AIGCは、生成可能な大規模なAIアルゴリズムを使用して、ユーザが提供するプロンプトに基づいて、大規模で高品質で人間らしいコンテンツをより高速で低コストで作成する、あるいは置き換える。 AIGCの最近の顕著な進歩にもかかわらず、セキュリティ、プライバシ、倫理、法的課題に対処する必要がある。 本稿では,aigcパラダイムの作業原則,セキュリティとプライバシの脅威,最先端のソリューション,今後の課題に関する詳細な調査を行う。 具体的には、まずAIGCの実現可能な技術、一般的なアーキテクチャについて検討し、その動作モードと重要な特徴について論じる。 そして、AIGCに対するセキュリティおよびプライバシの脅威の分類を調査し、GPTおよびAIGC技術の倫理的および社会的意味を強調する。 さらに,AIGCモデルとその生成コンテンツに関する拡張可能なAIGCパラダイムに対する,最先端のAIGC透かし手法について概説する。 最後に,AIGCに関する今後の課題と研究の方向性を明らかにする。

With the widespread use of large artificial intelligence (AI) models such as ChatGPT, AI-generated content (AIGC) has garnered increasing attention and is leading a paradigm shift in content creation and knowledge representation. AIGC uses generative large AI algorithms to assist or replace humans in creating massive, high-quality, and human-like content at a faster pace and lower cost, based on user-provided prompts. Despite the recent significant progress in AIGC, security, privacy, ethical, and legal challenges still need to be addressed. This paper presents an in-depth survey of working principles, security and privacy threats, state-of-the-art solutions, and future challenges of the AIGC paradigm. Specifically, we first explore the enabling technologies, general architecture of AIGC, and discuss its working modes and key characteristics. Then, we investigate the taxonomy of security and privacy threats to AIGC and highlight the ethical and societal implications of GPT and AIGC technologies. Furthermore, we review the state-of-the-art AIGC watermarking approaches for regulatable AIGC paradigms regarding the AIGC model and its produced content. Finally, we identify future challenges and open research directions related to AIGC.
翻訳日:2023-08-01 21:04:31 公開日:2023-07-30
# MRN:増分多言語テキスト認識のための多重ルーティングネットワーク

MRN: Multiplexed Routing Network for Incremental Multilingual Text Recognition ( http://arxiv.org/abs/2305.14758v3 )

ライセンス: Link先を確認
Tianlun Zheng, Zhineng Chen, BingChen Huang, Wei Zhang and Yu-Gang Jiang(参考訳) 多言語テキスト認識(mltr)システムは、一般的に固定された言語群にフォーカスしており、新しく追加された言語を扱うか、常に変化するデータ分布に適応するのが困難である。 本稿では,バッチで異なる言語を導入するインクリメンタル学習(il)の文脈において,インクリメンタルmltr(imltr)タスクを提案する。 IMLTRは、リハーサルセット内のサンプル文字の不均一な分布を指し、過去の記憶として少量の古いデータを保持するために使用されるリハーサル不均衡のため、特に困難である。 この問題に対処するため,Multiplexed Routing Network (MRN)を提案する。 MRNは現在見られる言語ごとに認識器を訓練する。 その後、認識器を重み付けするリハーサルセットに基づいて言語領域予測器が学習される。 認識器は元のデータから派生しているため、MRNは古いデータへの依存を効果的に減らし、破滅的な忘れ物との戦いを改善する。 MLT17 と MLT19 のデータセット上で MRN を広範囲に評価した。 これは既存の汎用ilメソッドを大きなマージンで上回り、異なる設定で平均精度が10.3%から35.8%に向上した。 コードはhttps://github.com/simplify23/MRNで入手できる。

Multilingual text recognition (MLTR) systems typically focus on a fixed set of languages, which makes it difficult to handle newly added languages or adapt to ever-changing data distribution. In this paper, we propose the Incremental MLTR (IMLTR) task in the context of incremental learning (IL), where different languages are introduced in batches. IMLTR is particularly challenging due to rehearsal-imbalance, which refers to the uneven distribution of sample characters in the rehearsal set, used to retain a small amount of old data as past memories. To address this issue, we propose a Multiplexed Routing Network (MRN). MRN trains a recognizer for each language that is currently seen. Subsequently, a language domain predictor is learned based on the rehearsal set to weigh the recognizers. Since the recognizers are derived from the original data, MRN effectively reduces the reliance on older data and better fights against catastrophic forgetting, the core issue in IL. We extensively evaluate MRN on MLT17 and MLT19 datasets. It outperforms existing general-purpose IL methods by large margins, with average accuracy improvements ranging from 10.3% to 35.8% under different settings. Code is available at https://github.com/simplify23/MRN.
翻訳日:2023-08-01 21:01:29 公開日:2023-07-30
# ChatGPTを用いたカラム型アノテーション

Column Type Annotation using ChatGPT ( http://arxiv.org/abs/2306.00745v2 )

ライセンス: Link先を確認
Keti Korini, Christian Bizer(参考訳) カラム型アノテーションは、リレーショナルテーブルの列に各列に含まれる値の意味型をアノテートするタスクである。 カラム型アノテーションは、データレイクのコンテキストにおけるデータ検索とデータ統合のための重要な前処理ステップである。 State-of-the-art column型アノテーションメソッドは、知識グラフのプロパティにマッチするテーブル列や、列型アノテーションのBERTのような微調整済み言語モデルに依存する。 本研究では、異なるアプローチを採用し、カラム型アノテーションにChatGPTを用いて検討する。 ゼロショットと少数ショットの設定で異なるプロンプト設計を評価し,タスク定義とモデルへの詳細な指示を提供する実験を行った。 さらに、テーブルに記述されたエンティティのクラスを決定する2ステップのテーブルアノテーションパイプラインを実装し、そのクラスに応じて、全体の語彙の関連するサブセットのみを使用して、ChatGPTにアノテートする。 chatgptは命令と2ステップのパイプラインを使って、ゼロショットとワンショットのセットアップで85%以上のf1スコアに達する。 同様のF1スコアに達するには、RoBERTaモデルを356の例で微調整する必要がある。 この比較は、ChatGPTが、最小限のタスク固有の実演を条件に、カラムタイプのアノテーションタスクに対して競合的な結果を提供できることを示している。

Column type annotation is the task of annotating the columns of a relational table with the semantic type of the values contained in each column. Column type annotation is an important pre-processing step for data search and data integration in the context of data lakes. State-of-the-art column type annotation methods either rely on matching table columns to properties of a knowledge graph or fine-tune pre-trained language models such as BERT for column type annotation. In this work, we take a different approach and explore using ChatGPT for column type annotation. We evaluate different prompt designs in zero- and few-shot settings and experiment with providing task definitions and detailed instructions to the model. We further implement a two-step table annotation pipeline which first determines the class of the entities described in the table and depending on this class asks ChatGPT to annotate columns using only the relevant subset of the overall vocabulary. Using instructions as well as the two-step pipeline, ChatGPT reaches F1 scores of over 85% in zero- and one-shot setups. To reach a similar F1 score a RoBERTa model needs to be fine-tuned with 356 examples. This comparison shows that ChatGPT is able deliver competitive results for the column type annotation task given no or only a minimal amount of task-specific demonstrations.
翻訳日:2023-08-01 20:52:53 公開日:2023-07-30
# ド・ジッター宇宙におけるエンタングルメントパートナーとモノガミー

Entanglement partners and monogamy in de Sitter universes ( http://arxiv.org/abs/2305.18662v2 )

ライセンス: Link先を確認
Yasusada Nambu and Koji Yamaguchi(参考訳) ド・ジッター宇宙における量子場によって定義される局所空間モードの絡み合いについて検討する。 導入モードは、局所モードが割り当てられた2つの領域間の分離が宇宙の地平線よりも大きくなるときに、非絡み合いを示す。 これらの局所モード間の分離性の出現を理解するために、S. Camalet が提唱したモノガミー不等式を適用する。 量子場によって定義される焦点2成分モードを純粋4モードガウス状態に埋め込み、そのパートナーモードを同定する。 次に,単元関係のガウス版を適用することで,二元モードとそのパートナーモードとの外部絡み合いが二元モードの絡み合いを制約することを示す。 したがって、ド・ジッター宇宙における局所モードの分離性の出現は、絡み合いモノガミーの観点から理解することができる。

We investigate entanglement of local spatial modes defined by a quantum field in a de Sitter universe. The introduced modes show dis-entanglement behavior when the separation between two regions where local modes are assigned becomes larger than the cosmological horizon. To understand the emergence of separability between these local modes, we apply the monogamy inequality proposed by S. Camalet. We embed the focusing bipartite mode defined by the quantum field in a pure four-mode Gaussian state, and identify its partner modes. Then applying a Gaussian version of the monogamy relation, we show that the external entanglement between the bipartite mode and its partner modes constrains the entanglement of the bipartite mode. Thus the emergence of separability of local modes in the de Sitter universe can be understood from the perspective of entanglement monogamy.
翻訳日:2023-08-01 20:51:54 公開日:2023-07-30
# G-NM:数値時系列予測モデルのグループ

G-NM: A Group of Numerical Time Series Prediction Models ( http://arxiv.org/abs/2306.11667v4 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) 本研究では,数値時系列予測モデル群 (G-NM) と総称される数値時系列予測モデルの包括的アンサンブルの開発と実装に焦点を当てた。 この包括的セットは、リカレントニューラルネットワーク(RNN)やLong Short-Term Memory(LSTM)といった現代のニューラルネットワークモデルに加えて、Autoregressive Integrated moving Average(ARIMA)、Holt-Wintersのメソッド、SVR(Support Vector Regression)といった従来のモデルを含む。 G-NMは、複雑な自然現象に固有のパターンや傾向に関連する予測能力を増強するために明確に構成されている。 これらの事象に関連する時系列データを利用することで、g-nmは長期にわたってそのような現象の予測を容易にする。 本研究の目的は,このような事象に対する我々の理解を深めることと,予測の精度を著しく向上させることである。 g-nmは時系列データに現れる線形および非線形の依存関係、季節性、トレンドの両方をカプセル化する。 これらのモデルはそれぞれ、線形トレンドと季節性を扱うARIMAのレジリエンス、非線形パターンをキャプチャするSVRの習熟度、時系列データの様々なコンポーネントをモデル化するLSTMの適応性など、さまざまな長所に貢献している。 g-nmポテンシャルの活用を通じて,大規模時系列予測モデルにおける最先端の進歩を試みている。 我々は,本研究が,自然界を構成する複雑な事象を理解し,予測するための,現在進行中の取り組みにおいて,重要な足掛かりとなることを期待する。

In this study, we focus on the development and implementation of a comprehensive ensemble of numerical time series forecasting models, collectively referred to as the Group of Numerical Time Series Prediction Model (G-NM). This inclusive set comprises traditional models such as Autoregressive Integrated Moving Average (ARIMA), Holt-Winters' method, and Support Vector Regression (SVR), in addition to modern neural network models including Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM). G-NM is explicitly constructed to augment our predictive capabilities related to patterns and trends inherent in complex natural phenomena. By utilizing time series data relevant to these events, G-NM facilitates the prediction of such phenomena over extended periods. The primary objective of this research is to both advance our understanding of such occurrences and to significantly enhance the accuracy of our forecasts. G-NM encapsulates both linear and non-linear dependencies, seasonalities, and trends present in time series data. Each of these models contributes distinct strengths, from ARIMA's resilience in handling linear trends and seasonality, SVR's proficiency in capturing non-linear patterns, to LSTM's adaptability in modeling various components of time series data. Through the exploitation of the G-NM potential, we strive to advance the state-of-the-art in large-scale time series forecasting models. We anticipate that this research will represent a significant stepping stone in our ongoing endeavor to comprehend and forecast the complex events that constitute the natural world.
翻訳日:2023-08-01 20:45:27 公開日:2023-07-30
# 量子近似最適化アルゴリズムのための多重レベル跳躍初期化

Multilevel leapfrogging initialization for quantum approximate optimization algorithm ( http://arxiv.org/abs/2306.06986v3 )

ライセンス: Link先を確認
Xiao-Hui Ni, Bin-Bin Cai, Hai-Ling Liu, Su-Juan Qin, Fei Gao and Qiao-Yan Wen(参考訳) 量子近似最適化アルゴリズム (QAOA) は、組合せ最適化問題の解法として広く用いられているハイブリッド量子古典アルゴリズムである。 しかし、QAOAで必要とされる外部パラメータ最適化は、QAOAのボトルネックとなるパラメータ化量子回路の最適パラメータを見つけるために、広範囲なリソースを消費する傾向にある。 この課題を克服するために,我々はまず,量子強化学習,量子回路設計,その他の領域に拡張可能なマルチレベル跳躍学習(m-leap)を提案する。 m-leapは最適化中に回路の深さを段階的に増加させ、レベル$p$の最適化パラメータに基づいてレベル$p+r$(r>1$)の初期パラメータを予測する。 そこで本稿では,M-Leapと補間手法を組み合わせることで最適化を初期化するためのマルチレベル跳躍補間戦略(MLI)を提案する。 我々は、maxcut問題でパフォーマンスをベンチマークする。 Interpolation-based Strategy (INTERP)と比較して、MLIは古典的な外的学習ループの最適化ラウンドの少なくとも半分を削減している。 シミュレーションの結果、MLIが準最適解を得る場合、MLIの実行時間はInterPの1/3であることが示された。 さらに,MLIの拡張であるマルチスタートを導入することで,greedy-MLI戦略を提案する。 シミュレーションの結果,greedy-MLIは残りの2つの手法よりも平均性能が高いことがわかった。 準オプティマを少数のコストで見つける効率で、我々の方法は他の量子アルゴリズムに光を放つかもしれない。

The quantum approximate optimization algorithm (QAOA) is a prospective hybrid quantum-classical algorithm widely used to solve combinatorial optimization problems. However, the external parameter optimization required in QAOA tends to consume extensive resources to find the optimal parameters of the parameterized quantum circuit, which may be the bottleneck of QAOA. To meet this challenge, we first propose multilevel leapfrogging learning (M-Leap) that can be extended to quantum reinforcement learning, quantum circuit design, and other domains. M-Leap incrementally increases the circuit depth during optimization and predicts the initial parameters at level $p+r$ ($r>1$) based on the optimized parameters at level $p$, cutting down the optimization rounds. Then, we propose a multilevel leapfrogging-interpolation strategy (MLI) for initializing optimizations by combining M-Leap with the interpolation technique. We benchmark its performance on the Maxcut problem. Compared with the Interpolation-based strategy (INTERP), MLI cuts down at least half the number of rounds of optimization for the classical outer learning loop. Remarkably, the simulation results demonstrate that the running time of MLI is 1/3 of INTERP when MLI gets quasi-optimal solutions. In addition, we present the greedy-MLI strategy by introducing multi-start, which is an extension of MLI. The simulation results show that greedy-MLI can get a higher average performance than the remaining two methods. With their efficiency to find the quasi-optima in a fraction of costs, our methods may shed light in other quantum algorithms.
翻訳日:2023-08-01 20:44:25 公開日:2023-07-30
# スケッチによるクープマン作用素の推定と大規模力学系の学習

Estimating Koopman operators with sketching to provably learn large scale dynamical systems ( http://arxiv.org/abs/2306.04520v2 )

ライセンス: Link先を確認
Giacomo Meanti, Antoine Chatalic, Vladimir R. Kostic, Pietro Novelli, Massimiliano Pontil, Lorenzo Rosasco(参考訳) クープマン作用素の理論は、複雑な力学系を予測・解析するために非パラメトリック機械学習アルゴリズムを展開できる。 カーネル空間における主成分回帰(PCR)や還元階数回帰(RRR)のような推定器は、システムの時間進化に関する有限経験的観測からクープマン作用素を確実に学習することができる。 これらのアプローチを非常に長い軌道に拡張することは困難であり、計算を可能とするために適切な近似を導入する必要がある。 本稿では,ランダム射影(エッチング)を用いたカーネルベースのkoopman演算子推定器の効率を向上させる。 我々は、合成および大規模分子動力学データセットに関する広範な実験を行い、新しい「エッチング」推定器を導出し、実装し、テストする。 さらに,統計的学習率と計算効率とのトレードオフを鋭く特徴づける非漸近的誤差境界を確立する。 実験および理論的解析により,提案手法は大規模力学系を学習するための健全かつ効率的な手法であることが示された。 特に本実験は,PCRやRRRと同じ精度を維持しつつ,より高速に推定できることを示した。

The theory of Koopman operators allows to deploy non-parametric machine learning algorithms to predict and analyze complex dynamical systems. Estimators such as principal component regression (PCR) or reduced rank regression (RRR) in kernel spaces can be shown to provably learn Koopman operators from finite empirical observations of the system's time evolution. Scaling these approaches to very long trajectories is a challenge and requires introducing suitable approximations to make computations feasible. In this paper, we boost the efficiency of different kernel-based Koopman operator estimators using random projections (sketching). We derive, implement and test the new "sketched" estimators with extensive experiments on synthetic and large-scale molecular dynamics datasets. Further, we establish non asymptotic error bounds giving a sharp characterization of the trade-offs between statistical learning rates and computational efficiency. Our empirical and theoretical analysis shows that the proposed estimators provide a sound and efficient way to learn large scale dynamical systems. In particular our experiments indicate that the proposed estimators retain the same accuracy of PCR or RRR, while being much faster.
翻訳日:2023-08-01 20:43:18 公開日:2023-07-30
# YONA:ビデオポリープの正確な検出には、隣接する参照フレームが1つ必要

YONA: You Only Need One Adjacent Reference-frame for Accurate and Fast Video Polyp Detection ( http://arxiv.org/abs/2306.03686v2 )

ライセンス: Link先を確認
Yuncheng Jiang, Zixun Zhang, Ruimao Zhang, Guanbin Li, Shuguang Cui, Zhen Li(参考訳) 正確なポリープ検出は臨床直腸癌診断に不可欠である。 コロニービデオには静止画像よりも豊富な情報が含まれており、深層学習のための貴重なリソースとなっている。 多フレーム時間/空間アグリゲーションによるビデオポリープ検出に多大な努力が払われている。 しかし、一般的な固定カメラビデオとは異なり、大腸内視鏡ビデオにおけるカメラ移動シーンは、急激なビデオジッタを引き起こし、既存のビデオ検出モデルの不安定なトレーニングにつながる。 さらに、ポリプの隠れた性質と複雑な背景環境は、既存のビデオ検出器の性能をさらに阻害する。 本稿では,ビデオポリープ検出のための効率的なエンドツーエンドトレーニングフレームワークである \textbf{YONA} (\textbf{Y}ou \textbf{O}ned one \textbf{N}eed one \textbf{A}djacent Reference-frame) 法を提案する。 YONAは、隣接するフレームの情報をフル活用し、複数フレームのコラボレーションなしで現在のフレーム上でポリプ検出を行う。 具体的には、前景については、前景の類似性に応じて、現在のフレームのチャネル活性化パターンを隣接する参照フレームに適応的に整合させる。 背景としては,フレーム間差による背景動的アライメントを行い,空間ジッタが生み出す無効な特徴を解消する。 さらに、ヨナはトレーニング中にクロスフレームのコントラスト学習を適用し、真理境界ボックスを活用して、ポリプと背景に対するモデルの認識を改善する。 3つの公開課題ベンチマークの定量的および定性的な実験により、提案されたYONAは、従来の最先端の競合よりも精度と速度に大きな差があることが証明された。

Accurate polyp detection is essential for assisting clinical rectal cancer diagnoses. Colonoscopy videos contain richer information than still images, making them a valuable resource for deep learning methods. Great efforts have been made to conduct video polyp detection through multi-frame temporal/spatial aggregation. However, unlike common fixed-camera video, the camera-moving scene in colonoscopy videos can cause rapid video jitters, leading to unstable training for existing video detection models. Additionally, the concealed nature of some polyps and the complex background environment further hinder the performance of existing video detectors. In this paper, we propose the \textbf{YONA} (\textbf{Y}ou \textbf{O}nly \textbf{N}eed one \textbf{A}djacent Reference-frame) method, an efficient end-to-end training framework for video polyp detection. YONA fully exploits the information of one previous adjacent frame and conducts polyp detection on the current frame without multi-frame collaborations. Specifically, for the foreground, YONA adaptively aligns the current frame's channel activation patterns with its adjacent reference frames according to their foreground similarity. For the background, YONA conducts background dynamic alignment guided by inter-frame difference to eliminate the invalid features produced by drastic spatial jitters. Moreover, YONA applies cross-frame contrastive learning during training, leveraging the ground truth bounding box to improve the model's perception of polyp and background. Quantitative and qualitative experiments on three public challenging benchmarks demonstrate that our proposed YONA outperforms previous state-of-the-art competitors by a large margin in both accuracy and speed.
翻訳日:2023-08-01 20:43:00 公開日:2023-07-30
# マルチモーダル入力を用いたgpt4スタイルの言語モデルのトレーニングで何が重要か?

What Matters in Training a GPT4-Style Language Model with Multimodal Inputs? ( http://arxiv.org/abs/2307.02469v2 )

ライセンス: Link先を確認
Yan Zeng, Hanbo Zhang, Jiani Zheng, Jiangnan Xia, Guoqiang Wei, Yang Wei, Yuchen Zhang, Tao Kong(参考訳) GPT4のような大規模言語モデル(LLM)の最近の進歩は、与えられた画像のオープンエンド命令に従う際、例外的なマルチモーダル機能を示している。 しかし、これらのモデルの性能はネットワーク構造、トレーニングデータ、トレーニング戦略などの設計選択に大きく依存しており、これらの選択は文献では広く議論されていないため、この分野の進歩を定量化することは困難である。 そこで本稿では,このようなモデルのトレーニングについて,定量的かつ質的に体系的かつ包括的な研究を行う。 制御された設定で20以上の変種を実装します。 具体的には、ネットワーク構造に対して異なるLCMバックボーンとモデル設計を比較する。 トレーニングデータについては,データの影響とサンプリング戦略について検討する。 本研究では,多角化プロンプトが学習モデルの命令追従能力に及ぼす影響について検討する。 ベンチマークでは、クラウドソーシングによる画像とビデオの両方のタスクを含む、私たちの最高の知識、包括的な評価セットに最初に貢献する。 提案するLynxは,既存のオープンソースGPT4スタイルのモデルと比較して,最高のマルチモーダル生成能力を保ちながら,最も正確なマルチモーダル理解を実現する。

Recent advancements in Large Language Models (LLMs) such as GPT4 have displayed exceptional multi-modal capabilities in following open-ended instructions given images. However, the performance of these models heavily relies on design choices such as network structures, training data, and training strategies, and these choices have not been extensively discussed in the literature, making it difficult to quantify progress in this field. To address this issue, this paper presents a systematic and comprehensive study, quantitatively and qualitatively, on training such models. We implement over 20 variants with controlled settings. Concretely, for network structures, we compare different LLM backbones and model designs. For training data, we investigate the impact of data and sampling strategies. For instructions, we explore the influence of diversified prompts on the instruction-following ability of the trained models. For benchmarks, we contribute the first, to our best knowledge, comprehensive evaluation set including both image and video tasks through crowd-sourcing. Based on our findings, we present Lynx, which performs the most accurate multi-modal understanding while keeping the best multi-modal generation ability compared to existing open-sourced GPT4-style models.
翻訳日:2023-08-01 20:34:25 公開日:2023-07-30
# グローバルおよびローカル表現に基づくマルチネットワークコントラスト学習

Multi-network Contrastive Learning Based on Global and Local Representations ( http://arxiv.org/abs/2306.15930v2 )

ライセンス: Link先を確認
Weiquan Li, Xianzhong Long, Yun Li(参考訳) 自己教師付き学習の人気により、ラベル付きデータに頼ることなくモデルをトレーニングすることが可能になった。 しかしながら、既存の自己教師付きコントラスト学習手法の多くは、グローバル特徴情報とローカル特徴情報の組み合わせを見落としていることが多い。 本稿では,グローバルおよびローカル表現に基づくマルチネットワークコントラスト学習フレームワークを提案する。 複数のネットワークを通じて自己指導型コントラスト学習のためのグローバル・ローカル特徴情報を導入する。 モデルは、複数のネットワークから生成される埋め込みペアを対比して、画像の異なるスケールで特徴情報を学習する。 このフレームワークはまた、コントラストに使用されるサンプル数を拡大し、モデルのトレーニング効率を向上させる。 3つのベンチマークデータセットの線形評価結果から,本手法は従来の自己教師付き学習法よりも優れていることが示された。

The popularity of self-supervised learning has made it possible to train models without relying on labeled data, which saves expensive annotation costs. However, most existing self-supervised contrastive learning methods often overlook the combination of global and local feature information. This paper proposes a multi-network contrastive learning framework based on global and local representations. We introduce global and local feature information for self-supervised contrastive learning through multiple networks. The model learns feature information at different scales of an image by contrasting the embedding pairs generated by multiple networks. The framework also expands the number of samples used for contrast and improves the training efficiency of the model. Linear evaluation results on three benchmark datasets show that our method outperforms several existing classical self-supervised learning methods.
翻訳日:2023-08-01 20:33:41 公開日:2023-07-30
# 知的取引確率波方程式に基づく複雑適応学習の理論

Theory of Complex Adaptive Learning Based on a Subject's Intelligent Trading Probability Wave Equation ( http://arxiv.org/abs/2306.15554v4 )

ライセンス: Link先を確認
Leilei Shi, Bing-Hong Wang, Xinshuai Guo, Guocheng Wang(参考訳) 複雑適応学習は知的であり、生命と無生物の複雑なシステムにおいて不可欠である。 複雑なシステムは、相互作用する多くの個人や単位を含み、相互作用するときに隠れたパターンを示し、自然科学から社会科学まで、ほぼ全ての伝統的な分野において広く起こる。 最近の研究では、いわゆる建築材料が学習できることを示した。 複雑な系の定式化のメカニズムを探求する科学者を刺激する。 しかし、それは非常に難しい。 ここでは,複素系の局所的力学平衡を対象とする普遍的規則あるいは複素適応学習法則を,貿易量-価格確率波方程式から抽出し,その応用として複素量子系に適用しようとする。 複雑な量子系に作用する運動量力が非局在化されていれば、相互作用コヒーレンスにおけるインテリジェンスのような性質を持つ粒子が証明される。 これは時間間隔で観測された移動粒子の累積確率である。 したがって、複雑な量子系の粒子は、金融市場の複雑さにおけるトレーダーのそれと正確に複雑な適応学習機構によって支配される強化座標において、複雑な適応学習または知性のような性質を持つと仮定する。 この仮定により、量子力学における絡み合いの革新的な解釈を提案する。 量子の絡み合いはコペンハーゲンの主流派が維持するコヒーレント状態の重ね合わせの状態ではないと結論付けている。 相補的な2つの力と可変力の間の相互作用におけるコヒーレントな状態である。 著者らは,新しい技術経路における絡み合い資源の産業生産を示唆し,その妥当性を検証し,その理論が完全になるまでさらに改良する実験結果を見据えた。

Complex adaptive learning is intelligent and crucial in living and inanimate complex systems. A complex system comprises many interacting individuals or units, shows hidden patterns as they interact, and widely occurs in almost every traditional discipline, from natural to social sciences. A recent study has demonstrated a so-called architected material capable of learning. It stimulates scientists to explore the mechanism of complex systems formulation. However, it is very challenging. Here the authors attempt to extract a universal rule or a law of complex adaptive learning subject to local dynamic equilibrium in complex systems from a trading volume-price probability wave equation and apply it to complex quantum systems as its application. It proves particles capable of intelligence-like properties in interactive coherence if the momentum force exerted on the complex quantum systems is non-localized. It is the cumulative probability of the moving particles observed in a time interval. Thus, it assumes that particles in complex quantum systems have a complex adaptive learning- or intelligence-like property in a reinforced coordinate, governed by the exact complex adaptive learning mechanism as that of traders in the complexity of the financial markets. With this assumption, the authors propose an innovative interpretation of entanglement in quantum mechanics. It concludes that quantum entanglement is not a state of the superposition of coherent states as the mainstream Copenhagen school of thought maintains. It is a coherent state in the interaction between two opposite, complementary, and variable forces. The authors look forward to the experimental results to examine its validity and further improve the theory until it is perfect, suggesting industrial production of entanglement resources in new technical routes available
翻訳日:2023-08-01 20:33:30 公開日:2023-07-30
# リコメンダシステムのためのスケーラブルなニューラルコンテキスト帯域

Scalable Neural Contextual Bandit for Recommender Systems ( http://arxiv.org/abs/2306.14834v2 )

ライセンス: Link先を確認
Zheqing Zhu, Benjamin Van Roy(参考訳) 高品質なレコメンダシステムは、ユーザと効果的かつ探索的なインタラクションを通じて、革新的かつ関連性の高いコンテンツを提供するべきである。 しかし、既存のレコメンデーションシステムのバックボーンを形成する教師付き学習ベースのニューラルネットワークは、認識されたユーザの関心を生かし、未知のユーザの選好を効率的に見つけ出すには不十分である。 ニューラルネットワークによるオンライン探索を可能にするために、ニューラルネットワークのコンテキストバンディットアルゴリズムでは、いくつかの進歩があったが、その厄介な計算要求は、現実世界のレコメンデーションシステムで広く採用されることを妨げる。 本研究では,リコメンデータシステムのためのスケーラブルなサンプル効率ニューラルコンテキスト帯域幅アルゴリズムを提案する。 そこで我々は,トンプソンの大規模サンプリングを可能にするてんかん性ニューラルネットワークアーキテクチャENR( Epistemic Neural Recommendation)を設計した。 実世界のタスクを用いた2つの異なる大規模な実験において、ENRは、最先端のニューラルネットワークの帯域幅アルゴリズムと比較して、クリックスルー率とユーザレーティングを少なくとも9%と6%向上させる。 さらに、最高の性能のベースラインアルゴリズムと比較して、少なくとも29%のユーザインタラクションで同等のパフォーマンスを実現する。 注目すべきは、これらの改善を達成している間に、ENRはニューラルネットワークのコンテキスト帯域ベースラインアルゴリズムよりも、桁違いに少ない計算リソースを要求することである。

High-quality recommender systems ought to deliver both innovative and relevant content through effective and exploratory interactions with users. Yet, supervised learning-based neural networks, which form the backbone of many existing recommender systems, only leverage recognized user interests, falling short when it comes to efficiently uncovering unknown user preferences. While there has been some progress with neural contextual bandit algorithms towards enabling online exploration through neural networks, their onerous computational demands hinder widespread adoption in real-world recommender systems. In this work, we propose a scalable sample-efficient neural contextual bandit algorithm for recommender systems. To do this, we design an epistemic neural network architecture, Epistemic Neural Recommendation (ENR), that enables Thompson sampling at a large scale. In two distinct large-scale experiments with real-world tasks, ENR significantly boosts click-through rates and user ratings by at least 9% and 6% respectively compared to state-of-the-art neural contextual bandit algorithms. Furthermore, it achieves equivalent performance with at least 29% fewer user interactions compared to the best-performing baseline algorithm. Remarkably, while accomplishing these improvements, ENR demands orders of magnitude fewer computational resources than neural contextual bandit baseline algorithms.
翻訳日:2023-08-01 20:32:34 公開日:2023-07-30
# 下流治療効果推定のためのベイズ因果発見手法のベンチマーク

Benchmarking Bayesian Causal Discovery Methods for Downstream Treatment Effect Estimation ( http://arxiv.org/abs/2307.04988v3 )

ライセンス: Link先を確認
Chris Chinenye Emezue, Alexandre Drouin, Tristan Deleu, Stefan Bauer, Yoshua Bengio(参考訳) 意思決定における因果関係の実践的有用性は、因果関係の発見と因果関係の推測の絡み合いによってもたらされる。 それでも、下流推論に不十分な重点を置く因果発見手法の評価において、顕著なギャップが存在する。 このギャップに対処するため,GFlowNetsに基づく新たな手法を含む7つの基本因果探索手法を,治療効果推定の下流課題に基づいて評価した。 分散レベルの評価の実装を通じて,総合的および実世界のシナリオと低データシナリオの両方を考慮した,これらの因果的発見手法の有効性に関する貴重な洞察を提供する。 研究の結果、研究対象のアルゴリズムのいくつかは、多種多様なATEモードを効果的に捉えることができ、一方で、(無関係な)リコールと精度に影響を与える多くの低確率モードを学習する傾向にあることが示された。

The practical utility of causality in decision-making is widespread and brought about by the intertwining of causal discovery and causal inference. Nevertheless, a notable gap exists in the evaluation of causal discovery methods, where insufficient emphasis is placed on downstream inference. To address this gap, we evaluate seven established baseline causal discovery methods including a newly proposed method based on GFlowNets, on the downstream task of treatment effect estimation. Through the implementation of a distribution-level evaluation, we offer valuable and unique insights into the efficacy of these causal discovery methods for treatment effect estimation, considering both synthetic and real-world scenarios, as well as low-data scenarios. The results of our study demonstrate that some of the algorithms studied are able to effectively capture a wide range of useful and diverse ATE modes, while some tend to learn many low-probability modes which impacts the (unrelaxed) recall and precision.
翻訳日:2023-08-01 20:24:37 公開日:2023-07-30
# ChatGPTは良いが、Bing Chatはベトナムの学生にとってより良い

ChatGPT is Good but Bing Chat is Better for Vietnamese Students ( http://arxiv.org/abs/2307.08272v3 )

ライセンス: Link先を確認
Xuan-Quy Dao, Ngoc-Bich Le(参考訳) 本研究では,ベトナムの学生のニーズに応えた2つのSOTA大言語モデル,すなわちChatGPTとMicrosoft Bing Chat(BingChat)の有効性を検討した。 ChatGPTは複数の分野において熟練度を示すが、Bing Chatはより有利な選択肢として現れる。 我々は、数学、文学、英語、物理学、化学、生物学、歴史、地理、市民教育を含む様々な分野における彼らの学術的成果の比較分析を行う。 以上の結果から, BingChatはChatGPTよりも優れた性能を示し, 文献を除けばChatGPTが優れた性能を示したことが示唆された。 加えて、BingChatはGPT-3.5をベースにしたChatGPTとは対照的に、より高度なGPT-4技術を使用している。 これにより、BingChatは理解し、推論し、創造的で情報的なテキストを生成することができる。 さらに、BingChatがベトナムでアクセス可能であり、応答内のハイパーリンクと引用の統合は、その優位性を強化するのに役立つ。 分析では,ChatGPTは賞賛に値する品質を示すが,BingChatはベトナムの学生に対してより謝罪されたソリューションを提供する。

This study examines the efficacy of two SOTA large language models (LLMs), namely ChatGPT and Microsoft Bing Chat (BingChat), in catering to the needs of Vietnamese students. Although ChatGPT exhibits proficiency in multiple disciplines, Bing Chat emerges as the more advantageous option. We conduct a comparative analysis of their academic achievements in various disciplines, encompassing mathematics, literature, English language, physics, chemistry, biology, history, geography, and civic education. The results of our study suggest that BingChat demonstrates superior performance compared to ChatGPT across a wide range of subjects, with the exception of literature, where ChatGPT exhibits better performance. Additionally, BingChat utilizes the more advanced GPT-4 technology in contrast to ChatGPT, which is built upon GPT-3.5. This allows BingChat to improve to comprehension, reasoning and generation of creative and informative text. Moreover, the fact that BingChat is accessible in Vietnam and its integration of hyperlinks and citations within responses serve to reinforce its superiority. In our analysis, it is evident that while ChatGPT exhibits praiseworthy qualities, BingChat presents a more apdated solutions for Vietnamese students.
翻訳日:2023-08-01 20:13:29 公開日:2023-07-30
# ワンショットデコーディング: 自己教師型ディープラーニングベース極性デコーダ

For One-Shot Decoding: Self-supervised Deep Learning-Based Polar Decoder ( http://arxiv.org/abs/2307.08004v2 )

ライセンス: Link先を確認
Huiying Song, Yihao Luo, Yuma Fukuzawa(参考訳) 極性符号のワンショット復号を可能にする自己教師付き深層学習に基づく復号方式を提案する。 提案手法では,ニューラルネットワーク(NN)を教師付き学習で訓練するラベルとして使用するのではなく,自己教師付き学習によって極符号のジェネレータ行列を活用することにより,境界距離デコーダとして機能するように訓練されている。 このアプローチは、事前に定義されたラベルへの依存を排除し、通信システム内の実際のデータを直接トレーニングする可能性を高め、適用性を高める。 さらに、コンピュータシミュレーションは、 (i)提案方式のビット誤り率 (BER) とブロック誤り率 (BLER) の性能は、非常に短いパケットに対して最大アフターイデコーダ (MAP) に近づくことができる。 (ii)提案するnnデコーダ(nnd)は,従来よりもはるかに優れた一般化能力を示す。

We propose a self-supervised deep learning-based decoding scheme that enables one-shot decoding of polar codes. In the proposed scheme, rather than using the information bit vectors as labels for training the neural network (NN) through supervised learning as the conventional scheme did, the NN is trained to function as a bounded distance decoder by leveraging the generator matrix of polar codes through self-supervised learning. This approach eliminates the reliance on predefined labels, empowering the potential to train directly on the actual data within communication systems and thereby enhancing the applicability. Furthermore, computer simulations demonstrate that (i) the bit error rate (BER) and block error rate (BLER) performances of the proposed scheme can approach those of the maximum a posteriori (MAP) decoder for very short packets and (ii) the proposed NN decoder (NND) exhibits much superior generalization ability compared to the conventional one.
翻訳日:2023-08-01 20:13:08 公開日:2023-07-30
# yolic: エッジデバイス上でのオブジェクトのローカライズと分類の効率的な方法

YOLIC: An Efficient Method for Object Localization and Classification on Edge Devices ( http://arxiv.org/abs/2307.06689v3 )

ライセンス: Link先を確認
Kai Su, Yoichi Tomioka, Qiangfu Zhao, Yong Liu(参考訳) Tiny AIの領域では、エッジデバイス上でオブジェクトのローカライズと分類を行う効率的な方法である'You Only Look at Interested Cells' (YOLIC)を紹介する。 意味セグメンテーションとオブジェクト検出の強みをシームレスにブレンドすることで、yolicは優れた計算効率と精度を提供する。 個々のピクセルではなく分類にCells of Interestを採用することで、YOLICは関連する情報をカプセル化し、計算負荷を低減し、粗いオブジェクト形状推論を可能にする。 重要なことに、YoLICは潜在的なオブジェクトの位置、サイズ、形状に関する情報を提供する所定のセル構成に重きを置いているため、バウンディングボックスの回帰は不要である。 シングルラベル分類制限の問題に対処するため、重なり合うオブジェクトや近接するオブジェクトを効果的に認識するために、各セルにマルチラベル分類アプローチを適用する。 本稿では, Raspberry Pi 4B CPU上での動作速度が30fpsを超えながら, YOLICが最先端のYOLOアルゴリズムに匹敵する検出性能を実現することを示すために, 複数のデータセットに対する広範な実験を行った。 データセット、セルデザイナー、画像アノテーションツール、ソースコードなど、この研究に関連するすべてのリソースは、プロジェクトのwebサイトhttps://kai3316.github.io/yolic.github.ioで公開されている。

In the realm of Tiny AI, we introduce ``You Only Look at Interested Cells" (YOLIC), an efficient method for object localization and classification on edge devices. Through seamlessly blending the strengths of semantic segmentation and object detection, YOLIC offers superior computational efficiency and precision. By adopting Cells of Interest for classification instead of individual pixels, YOLIC encapsulates relevant information, reduces computational load, and enables rough object shape inference. Importantly, the need for bounding box regression is obviated, as YOLIC capitalizes on the predetermined cell configuration that provides information about potential object location, size, and shape. To tackle the issue of single-label classification limitations, a multi-label classification approach is applied to each cell for effectively recognizing overlapping or closely situated objects. This paper presents extensive experiments on multiple datasets to demonstrate that YOLIC achieves detection performance comparable to the state-of-the-art YOLO algorithms while surpassing in speed, exceeding 30fps on a Raspberry Pi 4B CPU. All resources related to this study, including datasets, cell designer, image annotation tool, and source code, have been made publicly available on our project website at https://kai3316.github.io/yolic.github.io
翻訳日:2023-08-01 20:12:31 公開日:2023-07-30
# 明示的位置強調によるロバストシーン画像の高分解能化に向けて

Towards Robust Scene Text Image Super-resolution via Explicit Location Enhancement ( http://arxiv.org/abs/2307.09749v2 )

ライセンス: Link先を確認
Hang Guo, Tao Dai, Guanghao Meng, Shu-Tao Xia(参考訳) 下流のテキスト認識精度を高めながら画質を向上させるscene text image super- resolution (stisr)が最近大きな成功を収めている。 しかし、既存のほとんどの手法は前景(文字領域)と背景(非文字領域)を同じプロセスで処理し、複雑な背景から乱れを無視し、性能を制限している。 そこで本稿では,文字領域を明示的にモデル化し,高レベルのテキスト固有ガイダンスを高解像度に作成する手法であるLEMMAを提案する。 キャラクタの位置を効果的にモデル化するために,アテンションマップ列に基づいてキャラクタ領域の特徴を抽出する位置拡張モジュールを提案する。 また,マルチモーダルアライメントモジュールを提案することにより,双方向のビジュアル・セマンティクスアライメントを行い,高品質の事前ガイダンスを生成し,提案する適応型融合モジュールを用いて,超解像分枝に適応的に組み込む。 テキストズームと4つのシーンテキスト認識ベンチマークの実験は、他の最先端手法よりも優れた方法を示している。 コードはhttps://github.com/csguoh/LEMMAで入手できる。

Scene text image super-resolution (STISR), aiming to improve image quality while boosting downstream scene text recognition accuracy, has recently achieved great success. However, most existing methods treat the foreground (character regions) and background (non-character regions) equally in the forward process, and neglect the disturbance from the complex background, thus limiting the performance. To address these issues, in this paper, we propose a novel method LEMMA that explicitly models character regions to produce high-level text-specific guidance for super-resolution. To model the location of characters effectively, we propose the location enhancement module to extract character region features based on the attention map sequence. Besides, we propose the multi-modal alignment module to perform bidirectional visual-semantic alignment to generate high-quality prior guidance, which is then incorporated into the super-resolution branch in an adaptive manner using the proposed adaptive fusion module. Experiments on TextZoom and four scene text recognition benchmarks demonstrate the superiority of our method over other state-of-the-art methods. Code is available at https://github.com/csguoh/LEMMA.
翻訳日:2023-08-01 20:03:39 公開日:2023-07-30
# 深層強化学習による複数噴流による回転シリンダ上の流れのアクティブ制御

Active Control of Flow over Rotating Cylinder by Multiple Jets using Deep Reinforcement Learning ( http://arxiv.org/abs/2307.12083v2 )

ライセンス: Link先を確認
Kamyar Dobakhti, Jafar Ghazanfarian(参考訳) 人工知能の真のパワーは強化学習に現れ、その動的性質から計算と物理的により洗練されたものである。 回転と注入は、鈍体での抗力低減のためのアクティブフロー制御で証明されたいくつかの方法である。 本稿では,複数の制御ジェットを用いて最大抗力抑制を行う深部強化学習(DRL)アルゴリズムとともに,シリンダに回転を付加する。 DRL符号の特徴として,パラメータの制御,制限,回転を考慮したDRLネットワークの最適化について述べる。 本研究は, ジェットの数と位置, センサ位置, 最大許容流量を, 各アクティベーションの最大流量と各エピソードの総流量の形式で最適化することに焦点を当てる。 回転とDRLの組み合わせは渦の沈みを抑え、カルマン渦路を安定化させ、抵抗係数を最大49.75%減少させるので有望であることがわかった。 また、より多くの場所にセンサを配置することは必ずしも良い選択ではなく、ユーザのニーズと対応する構成に基づいてセンサ番号と位置を決定する必要があることも示します。 また、シリンダーが回転する場合を除き、エージェントがより高い流量にアクセスできるようにすることで性能が低下する。 いずれの場合も、エージェントはリフト係数を0に近い値に維持したり、より小さい数値で安定化することができる。

The real power of artificial intelligence appears in reinforcement learning, which is computationally and physically more sophisticated due to its dynamic nature. Rotation and injection are some of the proven ways in active flow control for drag reduction on blunt bodies. In this paper, rotation will be added to the cylinder alongside the deep reinforcement learning (DRL) algorithm, which uses multiple controlled jets to reach the maximum possible drag suppression. Characteristics of the DRL code, including controlling parameters, their limitations, and optimization of the DRL network for use with rotation will be presented. This work will focus on optimizing the number and positions of the jets, the sensors location, and the maximum allowed flow rate to jets in the form of the maximum allowed flow rate of each actuation and the total number of them per episode. It is found that combining the rotation and DRL is promising since it suppresses the vortex shedding, stabilizes the Karman vortex street, and reduces the drag coefficient by up to 49.75%. Also, it will be shown that having more sensors at more locations is not always a good choice and the sensor number and location should be determined based on the need of the user and corresponding configuration. Also, allowing the agent to have access to higher flow rates, mostly reduces the performance, except when the cylinder rotates. In all cases, the agent can keep the lift coefficient at a value near zero, or stabilize it at a smaller number.
翻訳日:2023-08-01 19:52:59 公開日:2023-07-30
# AIが信頼性の高いFlood Forecastへのグローバルアクセスを拡大

AI Increases Global Access to Reliable Flood Forecasts ( http://arxiv.org/abs/2307.16104v1 )

ライセンス: Link先を確認
Grey Nearing, Deborah Cohen, Vusumuzi Dube, Martin Gauch, Oren Gilon, Shaun Harrigan, Avinatan Hassidim, Frederik Kratzert, Asher Metzger, Sella Nevo, Florian Pappenberger, Christel Prudhomme, Guy Shalev, Shlomo Shenzis, Tadele Tekalign, Dana Weitzner, Yoss Matias(参考訳) 洪水は最もありふれた自然災害の1つであり、しばしば密集した流れの監視網を欠く発展途上国に不釣り合いな影響をもたらす。 洪水のリスクを軽減するには正確な警告とタイムリーな警告が不可欠であるが、正確な水理シミュレーションモデルは通常、適用された各流域の長いデータ記録に校正する必要がある。 我々は人工知能(AI)モデルを開発し,最大7日間の時間スケールで極端な水文現象を予測した。 このモデルは、すべての大陸、リードタイム、リターン期間にわたって、最先端のグローバル水文学モデル(Copernicus Emergency Management Service Global Flood Awareness System)を著しく上回っている。 世界の流域のわずか数パーセントが流水量計を備えており、特に人為的な洪水の影響に弱い発展途上国では不均等な数の未採水池があるため、AIは特に未採水池の予測に有効である。 我々は,南アメリカとアフリカにおける極端な事象の予報を作成し,ヨーロッパと北アメリカの現在の芸術水準に迫る信頼性を実現し,現在のアート・ノウキャスト(0日間リードタイム)に類似した4日から6日間のリードタイムで信頼性を達成する。 さらに、私たちは2年間のリターン期間イベントに対して、現在のアキュラシーに似た10年間のリターン期間イベントに対して、アキュラシーを達成しています。 本稿では,80か国以上で公開されている(自由かつオープンな)予測をリアルタイムに生成する,運用早期警告システムに組み込んだモデルを提案する。 このAIとオープンデータを使った作業は、信頼できる洪水警報へのグローバルアクセスを改善し続けるために、水文データの可用性を高める必要性を強調している。

Floods are one of the most common and impactful natural disasters, with a disproportionate impact in developing countries that often lack dense streamflow monitoring networks. Accurate and timely warnings are critical for mitigating flood risks, but accurate hydrological simulation models typically must be calibrated to long data records in each watershed where they are applied. We developed an Artificial Intelligence (AI) model to predict extreme hydrological events at timescales up to 7 days in advance. This model significantly outperforms current state of the art global hydrology models (the Copernicus Emergency Management Service Global Flood Awareness System) across all continents, lead times, and return periods. AI is especially effective at forecasting in ungauged basins, which is important because only a few percent of the world's watersheds have stream gauges, with a disproportionate number of ungauged basins in developing countries that are especially vulnerable to the human impacts of flooding. We produce forecasts of extreme events in South America and Africa that achieve reliability approaching the current state of the art in Europe and North America, and we achieve reliability at between 4 and 6-day lead times that are similar to current state of the art nowcasts (0-day lead time). Additionally, we achieve accuracies over 10-year return period events that are similar to current accuracies over 2-year return period events, meaning that AI can provide warnings earlier and over larger and more impactful events. The model that we develop in this paper has been incorporated into an operational early warning system that produces publicly available (free and open) forecasts in real time in over 80 countries. This work using AI and open data highlights a need for increasing the availability of hydrological data to continue to improve global access to reliable flood warnings.
翻訳日:2023-08-01 17:48:23 公開日:2023-07-30
# 理想的な対向攻撃のニューラルネットワーク近似と対向訓練の収束について

On Neural Network approximation of ideal adversarial attack and convergence of adversarial training ( http://arxiv.org/abs/2307.16099v1 )

ライセンス: Link先を確認
Rajdeep Haldar and Qifan Song(参考訳) 逆アタックは通常、入力データとモデルに対する勾配に基づく操作で表現されるため、攻撃が発生するたびに重い計算が行われる。 本研究では,逆攻撃を訓練可能な関数として表現するアイデアを,さらに勾配計算をすることなく確立する。 まず,理論上の最善の攻撃は,適切な条件下では,滑らかな部分的関数(ピースワイズh\"older関数)として表現できることを動機づける。 そして,そのような関数の近似結果をニューラルネットワークによって求める。 次に、ニューラルネットワークによる理想的な攻撃プロセスをエミュレートし、攻撃ネットワークとトレーニングモデル(防御ネットワーク)との間の数学的ゲームへの敵意トレーニングを低減させる。 また,このような条件下での対人訓練において,サンプルサイズ$n$の対人損失の収束率も得られる。

Adversarial attacks are usually expressed in terms of a gradient-based operation on the input data and model, this results in heavy computations every time an attack is generated. In this work, we solidify the idea of representing adversarial attacks as a trainable function, without further gradient computation. We first motivate that the theoretical best attacks, under proper conditions, can be represented as smooth piece-wise functions (piece-wise H\"older functions). Then we obtain an approximation result of such functions by a neural network. Subsequently, we emulate the ideal attack process by a neural network and reduce the adversarial training to a mathematical game between an attack network and a training model (a defense network). We also obtain convergence rates of adversarial loss in terms of the sample size $n$ for adversarial training in such a setting.
翻訳日:2023-08-01 17:47:51 公開日:2023-07-30
# 1\times1$畳み込みネットワークによる軽量画像の超高解像度化

Fully $1\times1$ Convolutional Network for Lightweight Image Super-Resolution ( http://arxiv.org/abs/2307.16140v1 )

ライセンス: Link先を確認
Gang Wu, Junjun Jiang, Kui Jiang, Xianming Liu(参考訳) 深層モデルはシングルイメージスーパーレゾリューション(sisr)タスク、特に大きなカーネルを持つ大規模モデル(3\times3$以上)において重要なプロセスを達成している。 しかし、そのようなモデルの計算量が多いため、リアルタイムのリソース制約のある環境でのデプロイメントが妨げられる。 逆に、$1\times1$の畳み込みは計算効率を大幅に向上させるが、SISRモデルに不可欠な局所空間表現の集約に苦労する。 この二分法に反応して、$3\times3$と$1\times1$カーネルのメリットを調和させ、軽量なSISRタスクにおいて大きな可能性を活用することを提案する。 具体的には,shift-conv-based network (scnet) という,単純かつ効果的で完全な 1\times1$ 畳み込みネットワークを提案する。 パラメータフリーの空間シフト演算を組み込むことで、計算効率を著しく向上しつつ、強力な表現能力を備えた完全な1\times1$畳み込みネットワークを備える。 SCNetは、完全な1\times1$畳み込み構造にもかかわらず、通常の畳み込みを使用する既存の軽量SRモデルの性能と一貫して一致または超えている。

Deep models have achieved significant process on single image super-resolution (SISR) tasks, in particular large models with large kernel ($3\times3$ or more). However, the heavy computational footprint of such models prevents their deployment in real-time, resource-constrained environments. Conversely, $1\times1$ convolutions bring substantial computational efficiency, but struggle with aggregating local spatial representations, an essential capability to SISR models. In response to this dichotomy, we propose to harmonize the merits of both $3\times3$ and $1\times1$ kernels, and exploit a great potential for lightweight SISR tasks. Specifically, we propose a simple yet effective fully $1\times1$ convolutional network, named Shift-Conv-based Network (SCNet). By incorporating a parameter-free spatial-shift operation, it equips the fully $1\times1$ convolutional network with powerful representation capability while impressive computational efficiency. Extensive experiments demonstrate that SCNets, despite its fully $1\times1$ convolutional structure, consistently matches or even surpasses the performance of existing lightweight SR models that employ regular convolutions.
翻訳日:2023-08-01 17:39:15 公開日:2023-07-30
# 大規模言語モデルにおけるユーザ制御型知識融合:創造性と幻覚のバランス

User-Controlled Knowledge Fusion in Large Language Models: Balancing Creativity and Hallucination ( http://arxiv.org/abs/2307.16139v1 )

ライセンス: Link先を確認
Chen Zhang(参考訳) 現代の対話システムでは、多様で関連性があり創造的な応答を生成する能力のために、LLM(Large Language Models)の使用が指数関数的に増加している。 彼らの強みにもかかわらず、LLMの創造性と外部知識への忠実さのバランスを崩すことは重要な課題である。 本稿では,LLMの想像能力と現実情報への付着性のバランスを調節する,革新的なユーザ制御機構を提案する。 本手法では,llm訓練の微調整段階での数値タグを取り入れ,生成した応答における基準知識に対する信頼度を表す。 この度合いは、ROUGEスコアを用いた語彙重なり測定、Sentence-BERT埋め込みを用いた意味的類似度、LLMの自己評価スコアによって計算される。 モデル推論の間、ユーザはこの数値タグを操作できるので、llmの外部知識への依存度を制御することができる。 各種シナリオに対して広範な実験を行い,LLM応答の品質と精度を確保する上で,本手法の適応性とその有効性を示す。 その結果、創造性と幻覚のバランスを維持しつつ、LCMの汎用性を高めるアプローチの可能性を強調した。

In modern dialogue systems, the use of Large Language Models (LLMs) has grown exponentially due to their capacity to generate diverse, relevant, and creative responses. Despite their strengths, striking a balance between the LLMs' creativity and their faithfulness to external knowledge remains a key challenge. This paper presents an innovative user-controllable mechanism that modulates the balance between an LLM's imaginative capabilities and its adherence to factual information. Our approach incorporates a numerical tag during the fine-tuning phase of the LLM's training, representing the degree of faithfulness to the reference knowledge in the generated responses. This degree is computed through an automated process that measures lexical overlap using ROUGE scores, semantic similarity using Sentence-BERT embeddings, and an LLM's self-evaluation score. During model inference, users can manipulate this numerical tag, thus controlling the degree of the LLM's reliance on external knowledge. We conduct extensive experiments across various scenarios, demonstrating the adaptability of our method and its efficacy in ensuring the quality and accuracy of the LLM's responses. The results highlight the potential of our approach to enhance the versatility of LLMs while maintaining a balance between creativity and hallucination.
翻訳日:2023-08-01 17:38:51 公開日:2023-07-30
# 交互量子ウォークによる決定論的空間探索への普遍的アプローチ

Universal approach to deterministic spatial search via alternating quantum walks ( http://arxiv.org/abs/2307.16133v1 )

ライセンス: Link先を確認
Qingwen Wang, Ying Jiang, Shiguang Feng, and Lvzhou Li(参考訳) 空間探索は、グラフ上のマークされた頂点を見つけることを目的とした量子計算において重要な問題である。 本稿では,様々なグラフ上の決定論的量子探索アルゴリズムを交互に設計するための新しい普遍的アプローチを提案する。 この手法は探索空間を一連の部分空間に分割し、これらの部分空間上で決定論的量子探索を行う。 我々は、ジョンソングラフ、ルークグラフ、完全二乗グラフ、完全二部グラフに対して、量子アルゴリズムが100〜%の成功確率を持つマークされた頂点を見つけ、古典的アルゴリズムよりも二次的な高速化を達成することを証明して、このアプローチの柔軟性を強調する。 これは、既存の結果を証明する別の簡潔な方法を与えるだけでなく、より一般的なグラフで新しい発見をもたらす。

Spatial search is an important problem in quantum computation, which aims to find a marked vertex on a graph. We propose a novel and universal approach for designing deterministic quantum search algorithms on a variety of graphs via alternating quantum walks. The approach divides the search space into a series of subspaces and performs deterministic quantum searching on these subspaces. We highlight the flexibility of our approach by proving that for Johnson graphs, rook graphs, complete-square graphs and complete bipartite graphs, our quantum algorithms can find the marked vertex with $100\%$ success probability and achieve quadratic speedups over classical algorithms. This not only gives an alternative succinct way to prove the existing results, but also leads to new findings on more general graphs.
翻訳日:2023-08-01 17:38:28 公開日:2023-07-30
# 量子コンピュータの利用に関する包括的調査:どの目的でクビットが使われているか?

A comprehensive survey on quantum computer usage: How many qubits are employed for what purposes? ( http://arxiv.org/abs/2307.16130v1 )

ライセンス: Link先を確認
Tsubasa Ichikawa, Hideaki Hakoshima, Koji Inui, Kosuke Ito, Ryo Matsuda, Kosuke Mitarai, Koichi Miyamoto, Wataru Mizukami, Kaoru Mizuta, Toshio Mori, Yuichiro Nakano, Akimoto Nakayama, Ken N. Okada, Takanori Sugimoto, Souichi Takahira, Nayuta Takemori, Satoyuki Tsukano, Hiroshi Ueda, Ryo Watanabe, Yuichiro Yoshida, Keisuke Fujii(参考訳) 量子力学の法則に基づく量子コンピュータ(qcs)は、素因数分解や量子多体系のシミュレーションのようないくつかの計算タスクにおいて、古典的コンピュータよりも高速であることが期待されている。 過去10年間で、QCの研究と開発が急速に進んでいる。 今では数百の物理キュービットが使われており、いくつかの驚くべき実験が、特定の計算タスクで古典的コンピュータを上回っています。 一方、QCの典型的な使用法は定かではない。 ここでは,arxiv の quant-ph セクションに投稿された論文について広範な調査を行い,その要約に qcs を用いたと主張している。 我々は,QCの研究・開発の現状を理解するため,採用キュービット数,QPUベンダ数,アプリケーションドメイン数など,論文に関する記述統計を評価した。 調査の結果,出版物の年次数は増加傾向にあり,典型的なクビット数は6~10であり,量子ボリューム(QV)の増加とともに増加することがわかった。 プリプリントのほとんどは量子機械学習、凝縮物質物理学、量子化学などの応用に特化しているが、量子エラー補正と量子ノイズ軽減は他のトピックよりも多くの量子ビットを使用する。 これらのことから、qvの増加は基本的に関連しており、量子誤差補正の実験や、より量子ビットの浅い回路によるノイズ緩和が行われる。

Quantum computers (QCs), which work based on the law of quantum mechanics, are expected to be faster than classical computers in several computational tasks such as prime factoring and simulation of quantum many-body systems. In the last decade, research and development of QCs have rapidly advanced. Now hundreds of physical qubits are at our disposal, and one can find several remarkable experiments actually outperforming the classical computer in a specific computational task. On the other hand, it is unclear what the typical usages of the QCs are. Here we conduct an extensive survey on the papers that are posted in the quant-ph section in arXiv and claim to have used QCs in their abstracts. To understand the current situation of the research and development of the QCs, we evaluated the descriptive statistics about the papers, including the number of qubits employed, QPU vendors, application domains and so on. Our survey shows that the annual number of publications is increasing, and the typical number of qubits employed is about six to ten, growing along with the increase in the quantum volume (QV). Most of the preprints are devoted to applications such as quantum machine learning, condensed matter physics, and quantum chemistry, while quantum error correction and quantum noise mitigation use more qubits than the other topics. These imply that the increase in QV is fundamentally relevant, and more experiments for quantum error correction, and noise mitigation using shallow circuits with more qubits will take place.
翻訳日:2023-08-01 17:38:13 公開日:2023-07-30
# SEED-Bench: ジェネレータによるマルチモーダルLLMのベンチマーク

SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension ( http://arxiv.org/abs/2307.16125v1 )

ライセンス: Link先を確認
Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, Ying Shan(参考訳) 強力な大規模言語モデル(llms)に基づいて、最近の生成型マルチモーダル大言語モデル(mllm)は重要な研究分野として注目され、理解と生成の両方に顕著な能力を示している。 本稿では,SEED-Bench というベンチマークを導入することで,MLLM における生成的理解の評価を,生成的モデルを包括的に評価するための予備的なステップとして扱う。 SEED-Benchは、画像とビデオの両方のモダリティの理解を含む12の評価次元にまたがる、正確な人間のアノテーションによる19Kの複数の選択質問からなる。 自動フィルタリングと手作業による検証プロセスを統合することで,特定の評価次元を対象とするマルチチョース質問を生成するための高度なパイプラインを開発した。 人間のアノテーションを基本とした複数選択質問は、モデル性能の客観的かつ効率的な評価を可能にし、評価中に人間やGPTの介入が不要になる。 さらに,空間的および時間的理解を網羅し,全12次元にわたる18モデルの性能を評価する。 評価結果から既存のMLLMの限界を明らかにすることで,SEED-Benchが今後の研究を動機づけるための洞察を提供することを目指している。 私たちは、モデル能力を評価し調査するためのプラットフォームを提供するためのリーダーボードをローンチし、一貫して維持します。

Based on powerful Large Language Models (LLMs), recent generative Multimodal Large Language Models (MLLMs) have gained prominence as a pivotal research area, exhibiting remarkable capability for both comprehension and generation. In this work, we address the evaluation of generative comprehension in MLLMs as a preliminary step towards a comprehensive assessment of generative models, by introducing a benchmark named SEED-Bench. SEED-Bench consists of 19K multiple choice questions with accurate human annotations (x 6 larger than existing benchmarks), which spans 12 evaluation dimensions including the comprehension of both the image and video modality. We develop an advanced pipeline for generating multiple-choice questions that target specific evaluation dimensions, integrating both automatic filtering and manual verification processes. Multiple-choice questions with groundtruth options derived from human annotation enables an objective and efficient assessment of model performance, eliminating the need for human or GPT intervention during evaluation. We further evaluate the performance of 18 models across all 12 dimensions, covering both the spatial and temporal understanding. By revealing the limitations of existing MLLMs through evaluation results, we aim for SEED-Bench to provide insights for motivating future research. We will launch and consistently maintain a leaderboard to provide a platform for the community to assess and investigate model capability.
翻訳日:2023-08-01 17:37:29 公開日:2023-07-30
# 自律運転におけるロバスト物体検出のための不確実性エンコードマルチモーダル融合

Uncertainty-Encoded Multi-Modal Fusion for Robust Object Detection in Autonomous Driving ( http://arxiv.org/abs/2307.16121v1 )

ライセンス: Link先を確認
Yang Lou, Qun Song, Qian Xu, Rui Tan, Jianping Wang(参考訳) マルチモーダルフュージョンは、自律運転知覚の物体検出に有望な結果を示した。 しかし、既存の多くの核融合スキームはそれぞれの核融合入力の品質を考慮せず、1つ以上のセンサーで悪い状況に陥る可能性がある。 予測的不確実性は、実行時の単一モーダルオブジェクト検出性能を特徴付けるために適用されてきたが、マルチモーダル融合に不確実性を取り込むことは、主に不確実性のクロスモーダル非互換性と様々な状況に対する異なる感受性のために、有効な解決策を欠いている。 このギャップを埋めるために, 単一モードの不確かさをLiDAR-camera 融合に明示的に組み込んだ Uncertainty-Encoded Mixture-of-Experts (UMoE) を提案する。 UMoEは個々の専門家ネットワークを使用して、各センサーの検出結果をエンコードされた不確実性と共に処理する。 そして、専門家ネットワークの出力をゲーティングネットワークで解析して融合重量を決定する。 提案されたUMoEモジュールは、任意のプロポーザル融合パイプラインに統合できる。 評価の結果、umoeは、極端な天候、敵対的、盲目な攻撃シナリオにおいて、最先端の提案レベルのマルチモーダル物体検出器と比較して、最大10.67%、3.17%、および5.40%のパフォーマンス向上を達成した。

Multi-modal fusion has shown initial promising results for object detection of autonomous driving perception. However, many existing fusion schemes do not consider the quality of each fusion input and may suffer from adverse conditions on one or more sensors. While predictive uncertainty has been applied to characterize single-modal object detection performance at run time, incorporating uncertainties into the multi-modal fusion still lacks effective solutions due primarily to the uncertainty's cross-modal incomparability and distinct sensitivities to various adverse conditions. To fill this gap, this paper proposes Uncertainty-Encoded Mixture-of-Experts (UMoE) that explicitly incorporates single-modal uncertainties into LiDAR-camera fusion. UMoE uses individual expert network to process each sensor's detection result together with encoded uncertainty. Then, the expert networks' outputs are analyzed by a gating network to determine the fusion weights. The proposed UMoE module can be integrated into any proposal fusion pipeline. Evaluation shows that UMoE achieves a maximum of 10.67%, 3.17%, and 5.40% performance gain compared with the state-of-the-art proposal-level multi-modal object detectors under extreme weather, adversarial, and blinding attack scenarios.
翻訳日:2023-08-01 17:36:43 公開日:2023-07-30
# 非線形逆問題に対する再電流運動量加速度を持つディープアンロールネットワーク

Deep Unrolling Networks with Recurrent Momentum Acceleration for Nonlinear Inverse Problems ( http://arxiv.org/abs/2307.16120v1 )

ライセンス: Link先を確認
Qingping Zhou, Jiayu Qian, Junqi Tang, Jinglai Li(参考訳) モデルベースの反復アルゴリズムとデータ駆動型ディープラーニングソリューションの強みを組み合わせることで、deep unrolling network(dunets)は逆イメージング問題を解決するための一般的なツールとなっている。 DuNetは、多くの線形逆問題に適用されているが、非線形問題は、その手法の性能を損なう傾向がある。 最適化アルゴリズムでよく用いられる運動量加速技術に着想を得て,長期記憶再帰ニューラルネットワーク(LSTM-RNN)を用いて運動量加速過程をシミュレートするリカレント運動量加速(RMA)フレームワークを提案する。 RMAモジュールは、LSTM-RNNが以前の勾配から知識を学び、保持する能力を活用する。 RMAを学習近位勾配降下法(LPGD)と学習原始双対法(LPD)の2つの一般的なDuNetに適用し,それぞれLPGD-RMAとLPD-RMAとなる。 非線形デコンボリューション問題と境界値が制限された電気インピーダンストモグラフィ問題という2つの非線形逆問題に関する実験結果を提供する。 最初の実験で、RMAによる改善は問題の非線形性に関して大きく増加することがわかった。 第2の例の結果はさらに、RMAスキームがDuNetの性能を著しく改善することを示した。

Combining the strengths of model-based iterative algorithms and data-driven deep learning solutions, deep unrolling networks (DuNets) have become a popular tool to solve inverse imaging problems. While DuNets have been successfully applied to many linear inverse problems, nonlinear problems tend to impair the performance of the method. Inspired by momentum acceleration techniques that are often used in optimization algorithms, we propose a recurrent momentum acceleration (RMA) framework that uses a long short-term memory recurrent neural network (LSTM-RNN) to simulate the momentum acceleration process. The RMA module leverages the ability of the LSTM-RNN to learn and retain knowledge from the previous gradients. We apply RMA to two popular DuNets -- the learned proximal gradient descent (LPGD) and the learned primal-dual (LPD) methods, resulting in LPGD-RMA and LPD-RMA respectively. We provide experimental results on two nonlinear inverse problems: a nonlinear deconvolution problem, and an electrical impedance tomography problem with limited boundary measurements. In the first experiment we have observed that the improvement due to RMA largely increases with respect to the nonlinearity of the problem. The results of the second example further demonstrate that the RMA schemes can significantly improve the performance of DuNets in strongly ill-posed problems.
翻訳日:2023-08-01 17:36:01 公開日:2023-07-30
# Augmented Math: 静的テキストによるARベースの探索可能な説明のオーサリング

Augmented Math: Authoring AR-Based Explorable Explanations by Augmenting Static Math Textbooks ( http://arxiv.org/abs/2307.16112v1 )

ライセンス: Link先を確認
Neil Chulpongsatorn, Mille Skovhus Lunding, Nishan Soni, Ryo Suzuki(参考訳) プログラムなしで静的な数学教科書を増補することにより、arで探索可能な説明を作成できる機械学習ベースのアプローチであるared mathを紹介する。 静的文書を補足するため,本システムは,光学的文字認識(ocr)とコンピュータビジョンを用いて,与えられた文書から数式と図形を抽出する。 抽出したコンテンツをバインドして操作することで、ユーザはモバイルARインターフェースを通じてインタラクティブなアニメーションをドキュメント上にオーバーレイすることができる。 これにより、教師や学生のような非技術者のユーザーは、既存の数学教科書やハンドアウトをオンデマンドでパーソナライズされた探索可能な説明に変換することができる。 システムを設計するために,我々はまず,既存の探索可能な数学説明を分析し,共通の設計戦略を同定した。 そこで本研究では,抽出されたコンテンツに基づいて自動的に生成できる拡張手法を開発した。 1)動的値。 2)インタラクティブな数値。 3) 関係のハイライト。 4)具体例,及び 5) ステップバイステップヒント。 本システムを評価するために,予備ユーザテストとエキスパートインタビューという2つのユーザ調査を行った。 その結果,本システムは数学概念の学習により多くの興味をそそる経験を得られることがわかった。

We introduce Augmented Math, a machine learning-based approach to authoring AR explorable explanations by augmenting static math textbooks without programming. To augment a static document, our system first extracts mathematical formulas and figures from a given document using optical character recognition (OCR) and computer vision. By binding and manipulating these extracted contents, the user can see the interactive animation overlaid onto the document through mobile AR interfaces. This empowers non-technical users, such as teachers or students, to transform existing math textbooks and handouts into on-demand and personalized explorable explanations. To design our system, we first analyzed existing explorable math explanations to identify common design strategies. Based on the findings, we developed a set of augmentation techniques that can be automatically generated based on the extracted content, which are 1) dynamic values, 2) interactive figures, 3) relationship highlights, 4) concrete examples, and 5) step-by-step hints. To evaluate our system, we conduct two user studies: preliminary user testing and expert interviews. The study results confirm that our system allows more engaging experiences for learning math concepts.
翻訳日:2023-08-01 17:35:34 公開日:2023-07-30
# トランスフュージョン:3次元動作予測のための実用的で効果的なトランスフォーマーベース拡散モデル

TransFusion: A Practical and Effective Transformer-based Diffusion Model for 3D Human Motion Prediction ( http://arxiv.org/abs/2307.16106v1 )

ライセンス: Link先を確認
Sibo Tian, Minghui Zheng, and Xiao Liang(参考訳) 人間の動きを予測することは、未来のインテリジェントなリマニュファクチャリングシステムにおいて、安全で効果的な人間ロボットの密接なコラボレーションを保証する上で重要な役割を果たす。 既存の研究は2つのグループに分けられる: 正確さ、単一の将来の動きを予測すること、観察に基づいて多様な予測を生成すること。 前者のグループは人間の運動の不確実性と多様性に対処できず、後者のグループはしばしば基底的真理から遠ざかったり、歴史的文脈において非現実的になったりしている。 これらの課題に対処するために、トランスフュージョン(TransFusion)を提案する。トランスフュージョン(TransFusion)は、あるレベルの多様性を維持しながら、より起こりやすいサンプルを生成することができる3次元人間の動作予測のための革新的で実践的な拡散ベースモデルである。 私たちのモデルは、浅い層と深い層の間の長いスキップ接続を持つバックボーンとしてtransformerを利用します。 さらに,周波数空間における動き列のモデル化に離散コサイン変換を用いることにより,性能の向上を図る。 クロスアテンションや適応層正規化といった余分なモジュールを用いて過去の観測動作の予測を条件付ける従来の拡散モデルとは対照的に,条件を含む全ての入力をトークンとして扱い,既存のアプローチと比較してより軽量なモデルを作成する。 ヒトの動作予測モデルの有効性を検証するため,ベンチマークデータセットを用いて大規模な実験を行った。

Predicting human motion plays a crucial role in ensuring a safe and effective human-robot close collaboration in intelligent remanufacturing systems of the future. Existing works can be categorized into two groups: those focusing on accuracy, predicting a single future motion, and those generating diverse predictions based on observations. The former group fails to address the uncertainty and multi-modal nature of human motion, while the latter group often produces motion sequences that deviate too far from the ground truth or become unrealistic within historical contexts. To tackle these issues, we propose TransFusion, an innovative and practical diffusion-based model for 3D human motion prediction which can generate samples that are more likely to happen while maintaining a certain level of diversity. Our model leverages Transformer as the backbone with long skip connections between shallow and deep layers. Additionally, we employ the discrete cosine transform to model motion sequences in the frequency space, thereby improving performance. In contrast to prior diffusion-based models that utilize extra modules like cross-attention and adaptive layer normalization to condition the prediction on past observed motion, we treat all inputs, including conditions, as tokens to create a more lightweight model compared to existing approaches. Extensive experimental studies are conducted on benchmark datasets to validate the effectiveness of our human motion prediction model.
翻訳日:2023-08-01 17:35:14 公開日:2023-07-30
# tmpnn:テイラー写像分解に基づく高次多項式回帰

TMPNN: High-Order Polynomial Regression Based on Taylor Map Factorization ( http://arxiv.org/abs/2307.16105v1 )

ライセンス: Link先を確認
Andrei Ivanov, Stefan Maria Ailuro(参考訳) 多項式回帰は広く使われ、非線形パターンを表現するのに役立つ。 しかし、非常に高い多項式順序を考えると、見当たらないデータに対する過剰フィッティングや外挿能力の低下につながる可能性がある。 本稿ではテイラー写像の分解に基づく高次多項式回帰を構築する方法を提案する。 このメソッドは、自然にマルチターゲット回帰を実装し、ターゲット間の内部関係を捉えることができる。 さらに,微分方程式の系という形でのモデル解釈のアプローチを提案する。 UCIオープンアクセスデータセット、Feynmanシンボリック回帰データセット、Friedman-1データセットをベンチマークすることにより、提案手法が最先端の回帰手法に匹敵する性能を示し、特定のタスクにおいて性能を向上することを示す。

Polynomial regression is widely used and can help to express nonlinear patterns. However, considering very high polynomial orders may lead to overfitting and poor extrapolation ability for unseen data. The paper presents a method for constructing a high-order polynomial regression based on the Taylor map factorization. This method naturally implements multi-target regression and can capture internal relationships between targets. Additionally, we introduce an approach for model interpretation in the form of systems of differential equations. By benchmarking on UCI open access datasets, Feynman symbolic regression datasets, and Friedman-1 datasets, we demonstrate that the proposed method performs comparable to the state-of-the-art regression methods and outperforms them on specific tasks.
翻訳日:2023-08-01 17:34:48 公開日:2023-07-30
# キャビティqedにおけるxyモデルによる量子計測

Quantum metrology enhanced by an XY model in cavity-QED ( http://arxiv.org/abs/2307.16166v1 )

ライセンス: Link先を確認
Yuguo Su, Wangjun Lu, and Hai-Long Shi(参考訳) 量子メトロロジーは与えられた量子資源を用いて、測定の実用的限界を克服する経路を提供し、必然的に情報を歪ませる。 そこで本稿では,キャビティ量子電磁力学に基づく有望なプロトコルを提案する。このプロトコルでは,閉じ込められたスピンが弱い磁場を感知する一方,キャビティ磁場は高精度な測定を行うことができる。 量子フィッシャー情報を計算することにより、スピン間のXY相互作用がハイゼンベルク限界まで測定精度を高めるには不可欠であることを示す。 異方性パラメータ $\gamma$ の効果を考察し、秩序相領域の弱磁場に対してハイゼンベルク限界感度が接近可能であることを示した。 提案プロトコルにより得られたメロジカルゲインは,100光子を資源として使用する場合,標準量子限界を超えて10~20dBまで拡張することができる。 超伝導回路と強結合光キャビティシステムは,本プロトコルを実装するための理想的なプラットフォームである。

Quantum metrology employs given quantum resources to provide a route to overcome practical limits of measurements, which inevitably distort the information. Here we propose a promising protocol based on a cavity quantum electrodynamics system where the trapped spins are responsible for sensing a weak field meanwhile the cavity field allows us to perform high-precision measurements. By calculating the quantum Fisher information, we show that the XY interaction among spins is indispensable for enhancing the measurement precision to the Heisenberg limit. We discuss the effect of the anisotropy parameter $\gamma$ and show that Heisenberg limit sensitivity could be approached for a weak magnetic field in the ordered phase region. The metrological gain provided by our protocol could be enhanced beyond the standard quantum limit by 10-20 dB when using 100 photons as a resource. Superconducting circuit and strong coupling optical cavity systems are ideal platforms to implement our protocol.
翻訳日:2023-08-01 17:28:59 公開日:2023-07-30
# RKHSにおける密度比の適応学習

Adaptive learning of density ratios in RKHS ( http://arxiv.org/abs/2307.16164v1 )

ライセンス: Link先を確認
Werner Zellinger, Stefan Kindermann, Sergei V. Pereverzyev(参考訳) 有限個の密度の観測から2つの確率密度の比を推定することは、二サンプルテスト、分散推定、生成モデル、共変量シフト適応、条件密度推定、新規性検出における機械学習および統計学における中心的な問題である。 本研究では,実密度比と再現カーネルヒルベルト空間(RKHS)のモデルとの正則化ブレグマン偏差を最小化する,大規模な密度比推定法を解析する。 我々は,新しい有限サンプル誤差境界を導出し,密度比の正則性を知らずに境界を最小化するlepskii型パラメータ選択原理を提案する。 二次損失の特別な場合、この手法は適応的にミニマックス最適誤差率を達成する。 数値図面が提供される。

Estimating the ratio of two probability densities from finitely many observations of the densities is a central problem in machine learning and statistics with applications in two-sample testing, divergence estimation, generative modeling, covariate shift adaptation, conditional density estimation, and novelty detection. In this work, we analyze a large class of density ratio estimation methods that minimize a regularized Bregman divergence between the true density ratio and a model in a reproducing kernel Hilbert space (RKHS). We derive new finite-sample error bounds, and we propose a Lepskii type parameter choice principle that minimizes the bounds without knowledge of the regularity of the density ratio. In the special case of quadratic loss, our method adaptively achieves a minimax optimal error rate. A numerical illustration is provided.
翻訳日:2023-08-01 17:28:44 公開日:2023-07-30
# 2次元前方ソナーの仰角推定の自己教師あり学習における運動変性

Motion Degeneracy in Self-supervised Learning of Elevation Angle Estimation for 2D Forward-Looking Sonar ( http://arxiv.org/abs/2307.16160v1 )

ライセンス: Link先を確認
Yusheng Wang, Yonghoon Ji, Chujie Wu, Hiroshi Tsuchiya, Hajime Asama, Atsushi Yamashita(参考訳) 2Dフォワードのソナーは水中ロボットの知覚に欠かせないセンサーだ。 この分野でよく知られた問題は、ソナーイメージング中に標高方向の欠落情報を推定することである。 フライスルーミッションでは、3dマッピングとロボットナビゲーションのために画像あたりの3d情報を見積もる必要がある。 最近の学習に基づく手法は、その強みを実証しているが、まだ欠点がある。 教師あり学習法は高品質な結果を得たが、3d接地ラベルの取得にはさらなる努力が必要かもしれない。 既存の自己監督法では,3次元教師付き合成画像による事前訓練が必要である。 本研究は, 合成画像を用いた事前学習を行なわずに, 高度角推定の安定な自己教師付き学習を実現することを目的とする。 自己監督学習中の障害は、運動変性の問題によって引き起こされる可能性がある。 まず,主監視信号に関連する2次元前方ソナーの運動場を解析する。 現代の学習フレームワークを用いて,学習データセットが効果的な動作で構築されている場合,ネットワークは合成データの知識を必要とせず,自己教師ありで訓練できることを示す。 シミュレーションと実実験の両方が提案手法を検証する。

2D forward-looking sonar is a crucial sensor for underwater robotic perception. A well-known problem in this field is estimating missing information in the elevation direction during sonar imaging. There are demands to estimate 3D information per image for 3D mapping and robot navigation during fly-through missions. Recent learning-based methods have demonstrated their strengths, but there are still drawbacks. Supervised learning methods have achieved high-quality results but may require further efforts to acquire 3D ground-truth labels. The existing self-supervised method requires pretraining using synthetic images with 3D supervision. This study aims to realize stable self-supervised learning of elevation angle estimation without pretraining using synthetic images. Failures during self-supervised learning may be caused by motion degeneracy problems. We first analyze the motion field of 2D forward-looking sonar, which is related to the main supervision signal. We utilize a modern learning framework and prove that if the training dataset is built with effective motions, the network can be trained in a self-supervised manner without the knowledge of synthetic data. Both simulation and real experiments validate the proposed method.
翻訳日:2023-08-01 17:28:30 公開日:2023-07-30
# 分散強化学習のための変数制御

Variance Control for Distributional Reinforcement Learning ( http://arxiv.org/abs/2307.16152v1 )

ライセンス: Link先を確認
Qi Kuang, Zhoufan Zhu, Liwen Zhang, Fan Zhou(参考訳) 分布強化学習 (DRL) は近年広く研究されているが, 分布環境におけるQ関数推定器の有効性についてはほとんど研究されていない。 q関数の近似誤差がトレーニングプロセス全体に与える影響を十分に理解するために、いくつかの誤差解析を行い、理論的に、バイアスと誤差項の分散を減らす方法を示す。 この新たな理解により、新しい推定器であるemph{Quantiled Expansion Mean} (QEM)を構築し、統計的観点から新しいDRLアルゴリズム(QEMRL)を導入する。 我々は,Atari と Mujoco のベンチマークタスクにおいて,QEMRL アルゴリズムを広範囲に評価し,QEMRL がサンプル効率と収束性能の点で,ベースラインアルゴリズムよりも大幅に改善できることを実証した。

Although distributional reinforcement learning (DRL) has been widely examined in the past few years, very few studies investigate the validity of the obtained Q-function estimator in the distributional setting. To fully understand how the approximation errors of the Q-function affect the whole training process, we do some error analysis and theoretically show how to reduce both the bias and the variance of the error terms. With this new understanding, we construct a new estimator \emph{Quantiled Expansion Mean} (QEM) and introduce a new DRL algorithm (QEMRL) from the statistical perspective. We extensively evaluate our QEMRL algorithm on a variety of Atari and Mujoco benchmark tasks and demonstrate that QEMRL achieves significant improvement over baseline algorithms in terms of sample efficiency and convergence performance.
翻訳日:2023-08-01 17:28:14 公開日:2023-07-30
# StylePrompter:すべてのスタイルに注意が必要だ

StylePrompter: All Styles Need Is Attention ( http://arxiv.org/abs/2307.16151v1 )

ライセンス: Link先を確認
Chenyi Zhuang, Pan Gao, Aljosa Smolic(参考訳) GANインバージョンは、与えられた画像を対応するGAN(Generative Adversarial Networks)の潜在コードに変換することを目的としている。 ほとんどの逆変換は畳み込みニューラルネットワーク(cnns)に基づいているため、階層的ビジョントランスフォーマーバックボーンを革新的に転送し、トークンレベルで$\mathcal{w^+}$潜在コードを予測する。 さらに,SMART(Style-driven Multi-scale Adaptive Refinement Transformer)を$\mathcal{F}$空間に適用して,ジェネレータの中間スタイルの特徴を洗練させる。 スタイル特徴を、エンコーダの機能マップから失われたアイデンティティ情報を検索するクエリとして扱うことで、SMARTは高品質な反転画像を生成するだけでなく、驚くほど編集作業に適応できる。 そして、StylePrompterがより不整合な$\mathcal{W^+}$にあることを証明し、SMARTの可制御性を示す。 最後に、定量的かつ定性的な実験は、StylePrompterが再構築品質と編集性のバランスをとる上で望ましいパフォーマンスを達成できることを示し、ほとんどの編集に適合するほど「スマート」であり、他の$\mathcal{F}$-involved inversionメソッドよりも優れている。

GAN inversion aims at inverting given images into corresponding latent codes for Generative Adversarial Networks (GANs), especially StyleGAN where exists a disentangled latent space that allows attribute-based image manipulation at latent level. As most inversion methods build upon Convolutional Neural Networks (CNNs), we transfer a hierarchical vision Transformer backbone innovatively to predict $\mathcal{W^+}$ latent codes at token level. We further apply a Style-driven Multi-scale Adaptive Refinement Transformer (SMART) in $\mathcal{F}$ space to refine the intermediate style features of the generator. By treating style features as queries to retrieve lost identity information from the encoder's feature maps, SMART can not only produce high-quality inverted images but also surprisingly adapt to editing tasks. We then prove that StylePrompter lies in a more disentangled $\mathcal{W^+}$ and show the controllability of SMART. Finally, quantitative and qualitative experiments demonstrate that StylePrompter can achieve desirable performance in balancing reconstruction quality and editability, and is "smart" enough to fit into most edits, outperforming other $\mathcal{F}$-involved inversion methods.
翻訳日:2023-08-01 17:27:58 公開日:2023-07-30
# スマートグリッドにおけるエネルギー盗難検出と予測に有効なLSTM-DDPM方式

An Effective LSTM-DDPM Scheme for Energy Theft Detection and Forecasting in Smart Grid ( http://arxiv.org/abs/2307.16149v1 )

ライセンス: Link先を確認
Xun Yuan and Yang Yang and Arwa Alromih and Prosanta Gope and Biplab Sikdar(参考訳) スマートグリッドシステムにおけるエネルギー盗難検知(ETD)とエネルギー消費予測(ECF)は相互に連携する課題である。 これらの問題に対処することは、システムセキュリティの確保に不可欠である。 本稿では,スマートグリッドシステムにおけるETDとECFの相互接続課題について述べる。 提案手法では,long short-term memory (lstm) とdenoising diffusion probabilistic model (ddpm) を組み合わせて入力再構成と予測を行う。 レコンストラクションエラーと予測エラーを利用して、システムは、異なる種類の攻撃を検出する際に、レコンストラクションエラーと予測エラーに基づく方法を用いて、エネルギー盗難のインスタンスを識別する。 実世界のデータセットと合成データセットに関する広範な実験を通じて、提案手法はETDおよびECF問題のベースライン法より優れている。 アンサンブル法はETD性能を著しく向上させ、ベースライン法が検出できないエネルギー盗難攻撃を正確に検出する。 この研究はETDとECFの課題に対処するための包括的で効果的なソリューションを提供し、有望な結果を示し、スマートグリッドシステムのセキュリティを改善している。

Energy theft detection (ETD) and energy consumption forecasting (ECF) are two interconnected challenges in smart grid systems. Addressing these issues collectively is crucial for ensuring system security. This paper addresses the interconnected challenges of ETD and ECF in smart grid systems. The proposed solution combines long short-term memory (LSTM) and a denoising diffusion probabilistic model (DDPM) to generate input reconstruction and forecasting. By leveraging the reconstruction and forecasting errors, the system identifies instances of energy theft, with the methods based on reconstruction error and forecasting error complementing each other in detecting different types of attacks. Through extensive experiments on real-world and synthetic datasets, the proposed scheme outperforms baseline methods in ETD and ECF problems. The ensemble method significantly enhances ETD performance, accurately detecting energy theft attacks that baseline methods fail to detect. The research offers a comprehensive and effective solution for addressing ETD and ECF challenges, demonstrating promising results and improved security in smart grid systems.
翻訳日:2023-08-01 17:27:30 公開日:2023-07-30
# フロートランスを用いたビデオフレーム補間

Video Frame Interpolation with Flow Transformer ( http://arxiv.org/abs/2307.16144v1 )

ライセンス: Link先を確認
Pan Gao, Haoyue Tian, Jie Qin(参考訳) ビデオフレーム補間は畳み込みニューラルネットワークの開発で積極的に研究されてきた。 しかしながら、畳み込みにおけるカーネル重み共有の固有の制限のため、畳み込みによって生成される補間フレームは詳細を失う可能性がある。 対照的に、Transformerのアテンションメカニズムは、各ピクセルのコントリビューションをよりよく区別することができ、また、長距離画素依存をキャプチャできるため、ビデオ補間に大きな可能性がある。 しかし、オリジナルのTransformerは2D画像によく使われており、ビデオフレーム補間のための時間的自己アテンションを考慮したTransformerベースのフレームワークの開発は未解決のままである。 本稿では,光流からの運動ダイナミクスを自己着脱機構に組み込むために,映像フレーム補間フロートランスを提案する。 具体的には, 流れの誘導と一致した局所領域における時間的自己着脱を計算し, 合理的に低複雑性を維持しつつ, フレームを大きな動きで補間するのに好適な流れ変圧器ブロックを設計する。 さらに,マルチスケール動作を考慮したマルチスケールアーキテクチャを構築し,全体的な性能を向上する。 3つのベンチマークの大規模な実験により,提案手法は最先端の手法よりも視覚的品質のよい補間フレームを生成可能であることが示された。

Video frame interpolation has been actively studied with the development of convolutional neural networks. However, due to the intrinsic limitations of kernel weight sharing in convolution, the interpolated frame generated by it may lose details. In contrast, the attention mechanism in Transformer can better distinguish the contribution of each pixel, and it can also capture long-range pixel dependencies, which provides great potential for video interpolation. Nevertheless, the original Transformer is commonly used for 2D images; how to develop a Transformer-based framework with consideration of temporal self-attention for video frame interpolation remains an open issue. In this paper, we propose Video Frame Interpolation Flow Transformer to incorporate motion dynamics from optical flows into the self-attention mechanism. Specifically, we design a Flow Transformer Block that calculates the temporal self-attention in a matched local area with the guidance of flow, making our framework suitable for interpolating frames with large motion while maintaining reasonably low complexity. In addition, we construct a multi-scale architecture to account for multi-scale motion, further improving the overall performance. Extensive experiments on three benchmarks demonstrate that the proposed method can generate interpolated frames with better visual quality than state-of-the-art methods.
翻訳日:2023-08-01 17:27:13 公開日:2023-07-30
# 構造保存合成:MRI-CT翻訳用マスクガン

Structure-Preserving Synthesis: MaskGAN for Unpaired MR-CT Translation ( http://arxiv.org/abs/2307.16143v1 )

ライセンス: Link先を確認
Minh Hieu Phan, Zhibin Liao, Johan W. Verjans, Minh-Son To(参考訳) 医療画像合成は、ペアデータの不足のため難しい課題である。 いくつかの方法では、不適切なデータを活用するためにcycleganを適用しているが、しばしば解剖学をシフトする不正確なマッピングを生成する。 この問題は、ソースとターゲットのモダリティのイメージが極めて不一致である場合にさらに悪化する。 近年,補足的セグメンテーションネットワークを導入してこの問題に対処する手法が提案されている。 残念ながら、この戦略にはコストと時間を要するピクセルレベルのアノテーションが必要です。 この問題を解決するために,自動抽出された粗いマスクを利用して構造整合性を実現する新しい費用効率のフレームワークMaskGANを提案する。 本手法では, マスクジェネレータを用いて解剖学的構造を概説し, コンテンツジェネレータを用いてCTコンテンツを合成する。 広範囲にわたる実験により、MaskGANは、小児の急速な成長によりMRIとCTスキャンが著しく不一致している、挑戦的な小児科のデータセット上で、最先端の合成方法よりも優れていることが示された。 具体的には、MaskGANは専門家のアノテーションを必要とせずに解剖学的構造を保存できる。 この論文のコードは \href{https://github.com/HieuPhan33/MaskGAN}{https://github.com/HieuPhan33/MaskGAN} にある。

Medical image synthesis is a challenging task due to the scarcity of paired data. Several methods have applied CycleGAN to leverage unpaired data, but they often generate inaccurate mappings that shift the anatomy. This problem is further exacerbated when the images from the source and target modalities are heavily misaligned. Recently, current methods have aimed to address this issue by incorporating a supplementary segmentation network. Unfortunately, this strategy requires costly and time-consuming pixel-level annotations. To overcome this problem, this paper proposes MaskGAN, a novel and cost-effective framework that enforces structural consistency by utilizing automatically extracted coarse masks. Our approach employs a mask generator to outline anatomical structures and a content generator to synthesize CT contents that align with these structures. Extensive experiments demonstrate that MaskGAN outperforms state-of-the-art synthesis methods on a challenging pediatric dataset, where MR and CT scans are heavily misaligned due to rapid growth in children. Specifically, MaskGAN excels in preserving anatomical structures without the need for expert annotations. The code for this paper can be found at \href{https://github.com/HieuPhan33/MaskGAN}{https://github.com/HieuPhan33/MaskGAN}.
翻訳日:2023-08-01 17:26:51 公開日:2023-07-30
# 医療画像における暗黙的神経表現 : 比較検討

Implicit Neural Representation in Medical Imaging: A Comparative Survey ( http://arxiv.org/abs/2307.16142v1 )

ライセンス: Link先を確認
Amirali Molaei and Amirhossein Aminimehr and Armin Tavakoli and Amirhossein Kazerouni and Bobby Azad and Reza Azad and Dorit Merhof(参考訳) Inlicit Neural representations (INR) はシーン再構成やコンピュータグラフィックスにおいて強力なパラダイムとして注目され、顕著な成果を上げている。 ニューラルネットワークを利用して暗黙の連続関数を通じてデータをパラメータ化することで、INRはいくつかの利点を提供する。 これらの領域を超えたINRの可能性を認識し,医療画像の分野でのINRモデルの包括的概要を提供する。 医療環境では、多くの困難かつ不適切な問題が存在し、INRは魅力的な解決策となる。 この調査は、画像再構成、セグメンテーション、登録、新しいビュー合成、圧縮など、様々な医療画像タスクにおけるinrsの適用を探求する。 INRの利点と限界について論じ、その解像度に依存しない性質、メモリ効率、局所性バイアスを避ける能力、および異なるタスクへの適応を可能にする微分可能性を強調した。 さらに,医療画像データに特有の課題と考察,例えば,データの可用性,計算複雑性,ダイナミックな臨床現場分析について考察した。 また、マルチモーダルイメージング、リアルタイムおよびインタラクティブシステムの統合、臨床決定支援のためのドメイン適応など、将来の研究の方向性と機会を特定する。 医用画像解析におけるINRのさらなる探索と実装を容易にするため,我々は引用された研究のまとめと,そのオープンソース実装である \href{https://github.com/mindflow-institue/Awesome-Implicit-Neural-Representations-in-Medical-imaging} について紹介した。 最後に,最新の論文を定期的に取り入れることを目指しています。

Implicit neural representations (INRs) have gained prominence as a powerful paradigm in scene reconstruction and computer graphics, demonstrating remarkable results. By utilizing neural networks to parameterize data through implicit continuous functions, INRs offer several benefits. Recognizing the potential of INRs beyond these domains, this survey aims to provide a comprehensive overview of INR models in the field of medical imaging. In medical settings, numerous challenging and ill-posed problems exist, making INRs an attractive solution. The survey explores the application of INRs in various medical imaging tasks, such as image reconstruction, segmentation, registration, novel view synthesis, and compression. It discusses the advantages and limitations of INRs, highlighting their resolution-agnostic nature, memory efficiency, ability to avoid locality biases, and differentiability, enabling adaptation to different tasks. Furthermore, the survey addresses the challenges and considerations specific to medical imaging data, such as data availability, computational complexity, and dynamic clinical scene analysis. It also identifies future research directions and opportunities, including integration with multi-modal imaging, real-time and interactive systems, and domain adaptation for clinical decision support. To facilitate further exploration and implementation of INRs in medical image analysis, we have provided a compilation of cited studies along with their available open-source implementations on \href{https://github.com/mindflow-institue/Awesome-Implicit-Neural-Representations-in-Medical-imaging}. Finally, we aim to consistently incorporate the most recent and relevant papers regularly.
翻訳日:2023-08-01 17:26:27 公開日:2023-07-30
# 瞳孔学習機構

Pupil Learning Mechanism ( http://arxiv.org/abs/2307.16141v1 )

ライセンス: Link先を確認
Rua-Huan Tsaih, Yu-Hang Chien, Shih-Yi Chien(参考訳) 人工ニューラルネットワークの研究は、消失する勾配と過適合の問題の両方にほとんど対処しない。 本研究では,2層ニューラルネットワーク (2LNN) のネットワーク構造と重みを変化させる学習機構 (PLM) を導出するために, 解釈, 抽出, 理解, クラミング, 整理といった特徴を持つ瞳孔学習手順に従う。 PLMは、逐次学習、適応学習、完全学習、過度な学習のためのモジュールで構成されている。 銅価格予測データセットに基づいて,plmモジュールの設計モジュールを検証する実験と,plmの性能評価実験を行った。 実験により, PLMモジュールの設計が線形回帰モデルと従来のバックプロパゲーションベース2LNNモデルよりも優れていることを示す。

Studies on artificial neural networks rarely address both vanishing gradients and overfitting issues. In this study, we follow the pupil learning procedure, which has the features of interpreting, picking, understanding, cramming, and organizing, to derive the pupil learning mechanism (PLM) by which to modify the network structure and weights of 2-layer neural networks (2LNNs). The PLM consists of modules for sequential learning, adaptive learning, perfect learning, and less-overfitted learning. Based upon a copper price forecasting dataset, we conduct an experiment to validate the PLM module design modules, and an experiment to evaluate the performance of PLM. The empirical results indeed approve the PLM module design and show the superiority of the proposed PLM model over the linear regression model and the conventional backpropagation-based 2LNN model.
翻訳日:2023-08-01 17:25:55 公開日:2023-07-30
# hd-fusion:マルチノイズ推定を用いた詳細なテキストから3d生成

HD-Fusion: Detailed Text-to-3D Generation Leveraging Multiple Noise Estimation ( http://arxiv.org/abs/2307.16183v1 )

ライセンス: Link先を確認
Jinbo Wu and Xiaobo Gao and Xing Liu and Zhengyang Shen and Chen Zhao and Haocheng Feng and Jingtuo Liu and Errui Ding(参考訳) 本稿では,2次元拡散事前を利用したテキスト・ツー・3次元コンテンツ生成について検討し,生成した3次元モデルの品質とディテールを向上する。 テキストから3Dまでの最近の進歩(Magic3D)は、高解像度(例:512 x 512)のレンダリングを用いることで、潜時拡散プリミティブを用いた高品質な3Dモデルを作成することができることを示している。 モデルの品質とディテールをさらに向上する可能性を持つ高解像度のレンダリングを実現するために,複数のノイズ推定プロセスと事前訓練された2次元拡散を組み合わせた新しいアプローチを提案する。 テキストから画像を生成するために複数の識別結果に結合するBar-Tal et al.sの研究では,SDS損失やVSD損失などの蒸留損失の計算を統合する。 提案手法を実験的に評価した。 その結果,提案手法はベースラインと比較して高品質な細部を生成できることがわかった。

In this paper, we study Text-to-3D content generation leveraging 2D diffusion priors to enhance the quality and detail of the generated 3D models. Recent progress (Magic3D) in text-to-3D has shown that employing high-resolution (e.g., 512 x 512) renderings can lead to the production of high-quality 3D models using latent diffusion priors. To enable rendering at even higher resolutions, which has the potential to further augment the quality and detail of the models, we propose a novel approach that combines multiple noise estimation processes with a pretrained 2D diffusion prior. Distinct from the Bar-Tal et al.s' study which binds multiple denoised results to generate images from texts, our approach integrates the computation of scoring distillation losses such as SDS loss and VSD loss which are essential techniques for the 3D content generation with 2D diffusion priors. We experimentally evaluated the proposed approach. The results show that the proposed approach can generate high-quality details compared to the baselines.
翻訳日:2023-08-01 17:18:14 公開日:2023-07-30
# 遺伝子集合のコレクションの冗長性を考慮した教師なしランキング

Redundancy-aware unsupervised rankings for collections of gene sets ( http://arxiv.org/abs/2307.16182v1 )

ライセンス: Link先を確認
Chiara Balestra, Carlo Maj, Emmanuel M\"uller, Andreas Mayr(参考訳) 遺伝子セットの生物学的役割は、それらをコレクションにまとめるために使われる。 これらのコレクションは、しばしば高次元、重なり合い、冗長な集合の族であり、従ってそれらの内容の直接的な解釈と研究を前提としている。 バイオインフォマティクスは、それらの次元を減らしたり、解釈可能性を高めるための解決策を探した。 一つの可能性は重複する遺伝子集合を集約してより大きな経路を作り出すことであるが、改変された生物学的経路は生物学的に正当化できない。 本稿では,重要度スコアを用いて,集合的包括的視点からコンテキストを研究するコレクションの経路をランク付けすることを提案する。 提案したShapley値に基づくスコアは、一重項の分布と族内の集合の大きさを考慮し、さらに、Shapley値の計算の通常の指数的複雑さを回避するためのトリックである。 最後に、得られたランキングに冗長性意識を含めるという課題に対処し、この場合、顕著な交点を示す場合、集合は冗長である。 ランク付けは、遺伝子集合の集まりの次元を減らすために使用され、冗長性が低く、なおかつ高い範囲の遺伝子を示す。 さらに,遺伝子セット富化分析における選択の影響について検討する。 提案手法は, バイオインフォマティクスにおいて, 遺伝子集合の集合の解釈可能性を高めるための実用的有用性を示し, シェープリー値の計算に冗長性を含める。

The biological roles of gene sets are used to group them into collections. These collections are often characterized by being high-dimensional, overlapping, and redundant families of sets, thus precluding a straightforward interpretation and study of their content. Bioinformatics looked for solutions to reduce their dimension or increase their intepretability. One possibility lies in aggregating overlapping gene sets to create larger pathways, but the modified biological pathways are hardly biologically justifiable. We propose to use importance scores to rank the pathways in the collections studying the context from a set covering perspective. The proposed Shapley values-based scores consider the distribution of the singletons and the size of the sets in the families; Furthermore, a trick allows us to circumvent the usual exponential complexity of Shapley values' computation. Finally, we address the challenge of including a redundancy awareness in the obtained rankings where, in our case, sets are redundant if they show prominent intersections. The rankings can be used to reduce the dimension of collections of gene sets, such that they show lower redundancy and still a high coverage of the genes. We further investigate the impact of our selection on Gene Sets Enrichment Analysis. The proposed method shows a practical utility in bioinformatics to increase the interpretability of the collections of gene sets and a step forward to include redundancy into Shapley values computations.
翻訳日:2023-08-01 17:17:55 公開日:2023-07-30
# ガッピング金属を用いたカシミール・リフシッツ力の調整のためのノブ

A knob to tune the Casimir-Lifshitz force with gapped metals ( http://arxiv.org/abs/2307.16181v1 )

ライセンス: Link先を確認
M. Bostr\"om, M. Rizwan Khan, H. R. Gopidi, I. Brevik, Y. Li, C. Persson, O. I. Malyi(参考訳) 電磁場の量子揺らぎによって固体と分子の間に生じる長距離力であるカシミール・リフシッツ相互作用は、固体物理学において広く研究されている。 この相互作用における分極の度合いは、関連する物質の誘電特性に影響され、バンド間遷移、自由キャリア寄与、フォノン寄与、励起子寄与などの要因によって決定される。 特殊な電子構造を持つ新しい種類の材料であるガッペ金属は誘電特性を操る可能性を提供し、カシミール・リフシッツ相互作用をもたらす。 本研究では,La$_3$Te$_4$-based gaped metal system における有限温度カシミール-リフシッツ相互作用について理論的に検討した。 ギャップ状金属の非化学量効果は、キャシミール・リフシッツ相互作用のサインさえも、大きさや大きさを制御できることを示した。 原子間力顕微鏡の先端に取り付けられたla$_3$te$_4$表面と金球の間のカシミール力の確率論による測定可能な補正を予測した。

The Casimir-Lifshitz interaction, a long-range force that arises between solids and molecules due to quantum fluctuations in electromagnetic fields, has been widely studied in solid-state physics. The degree of polarization in this interaction is influenced by the dielectric properties of the materials involved, which in turn are determined by factors such as band-to-band transitions, free carrier contributions, phonon contributions, and exciton contributions. Gapped metals, a new class of materials with unique electronic structures, offer the potential to manipulate dielectric properties and, consequently, the Casimir-Lifshitz interaction. In this study, we theoretically investigate the finite temperature Casimir-Lifshitz interaction in La$_3$Te$_4$-based gapped metal systems with varying off-stoichiometry levels. We demonstrate that off-stoichiometric effects in gapped metals can be used to control the magnitude and, in some cases, even the sign of Casimir-Lifshitz interactions. We predict measurable corrections due to stoichiometry on the predicted Casimir force between a La$_3$Te$_4$ surface and a gold sphere, attached to an atomic force microscopy tip.
翻訳日:2023-08-01 17:17:31 公開日:2023-07-30
# LLMはパーソナリティを高めるか? MBTIテストが大規模言語モデルの驚くべき評価に

Do LLMs Possess a Personality? Making the MBTI Test an Amazing Evaluation for Large Language Models ( http://arxiv.org/abs/2307.16180v1 )

ライセンス: Link先を確認
Keyu Pan, Yawen Zeng(参考訳) 大規模言語モデル(LLM)の分野は大きな進歩を遂げ、その知識の蓄積能力は人間のものに近づきつつある。 さらに、即興学習や強化学習といった高度な技術がllmに関連する倫理的懸念や幻覚問題に対処するために用いられており、人間的価値観との整合に近づいている。 この状況は、人間のような能力を持つLLMが人間のような性格を持っているかどうかという疑問を自然に提起する。 本稿では, LLM の評価指標として, 人格評価ツールである Myers-Briggs Type Indicator (MBTI) の有効性を検討することを目的とする。 具体的には、広範な実験が実施される。 1)異なるLLMの性格タイプ。 2)即興工学によるパーソナリティタイプ変更の可能性 3) トレーニングデータセットはモデルのパーソナリティにどのように影響するか。 MBTIは厳密な評価ではないが、LLMと人間の性格の類似性を反映することができる。 実際には、MBTIは粗い指標として機能する可能性がある。 私たちのコードはhttps://github.com/HarderThenHarder/transformers_tasks/tree/main/LLM/llms_mbtiで利用可能です。

The field of large language models (LLMs) has made significant progress, and their knowledge storage capacity is approaching that of human beings. Furthermore, advanced techniques, such as prompt learning and reinforcement learning, are being employed to address ethical concerns and hallucination problems associated with LLMs, bringing them closer to aligning with human values. This situation naturally raises the question of whether LLMs with human-like abilities possess a human-like personality? In this paper, we aim to investigate the feasibility of using the Myers-Briggs Type Indicator (MBTI), a widespread human personality assessment tool, as an evaluation metric for LLMs. Specifically, extensive experiments will be conducted to explore: 1) the personality types of different LLMs, 2) the possibility of changing the personality types by prompt engineering, and 3) How does the training dataset affect the model's personality. Although the MBTI is not a rigorous assessment, it can still reflect the similarity between LLMs and human personality. In practice, the MBTI has the potential to serve as a rough indicator. Our codes are available at https://github.com/HarderThenHarder/transformers_tasks/tree/main/LLM/llms_mbti.
翻訳日:2023-08-01 17:17:11 公開日:2023-07-30
# CNNを用いたカリブ海の屋根分類のためのVHR後航空画像とLiDARデータの利用

Fusing VHR Post-disaster Aerial Imagery and LiDAR Data for Roof Classification in the Caribbean using CNNs ( http://arxiv.org/abs/2307.16177v1 )

ライセンス: Link先を確認
Isabelle Tingzon, Nuala Margaret Cowan, Pierre Chrzanowski(参考訳) 建築特性の正確かつ最新の情報は、脆弱性評価に不可欠であるが、災害リスク管理に必要な重要な露光データセットを得るには、従来の調査実施に伴う高コストと長期の時間枠が障害となる可能性がある。 本研究では,2017年のハリケーン・マリアに続いてドミニカで得られた高解像度の正光線と空中LiDARデータから屋根特性の自動分類に深層学習技術を活用する。 マルチモーダル地球観測データの融合は、単一のデータソースのみを使用するよりも優れていることを示す。 提案手法を用いて, 屋根材分類におけるF1スコアの0.93と0.92をそれぞれ達成した。 この研究は、政府がカリブ海の回復力と災害対応を改善するための、よりタイムリーな情報構築を支援することを目的としている。

Accurate and up-to-date information on building characteristics is essential for vulnerability assessment; however, the high costs and long timeframes associated with conducting traditional field surveys can be an obstacle to obtaining critical exposure datasets needed for disaster risk management. In this work, we leverage deep learning techniques for the automated classification of roof characteristics from very high-resolution orthophotos and airborne LiDAR data obtained in Dominica following Hurricane Maria in 2017. We demonstrate that the fusion of multimodal earth observation data performs better than using any single data source alone. Using our proposed methods, we achieve F1 scores of 0.93 and 0.92 for roof type and roof material classification, respectively. This work is intended to help governments produce more timely building information to improve resilience and disaster response in the Caribbean.
翻訳日:2023-08-01 17:16:52 公開日:2023-07-30
# InvVis: 可逆可視化のための大規模データ埋め込み

InvVis: Large-Scale Data Embedding for Invertible Visualization ( http://arxiv.org/abs/2307.16176v1 )

ライセンス: Link先を確認
Huayuan Ye, Chenhui Li, Yang Li and Changbo Wang(参考訳) InvVisは、画像から可視化を再構成またはさらに修正する、可逆可視化のための新しいアプローチである。 InvVisは、チャートデータ、チャート情報、ソースコードなど、膨大な量のデータを視覚化画像に埋め込むことができる。 符号化された画像は、原画像と知覚的に区別できない。 画像の形でグラフデータを効率よく表現し,大容量データの埋め込みを可能にする手法を提案する。 また,インバータブルニューラルネットワークに基づくモデルを概説し,高品質なデータ隠蔽と公開を実現する。 InvVisのさまざまなアプリケーションシナリオを調査し、実装する。 さらに,データ埋め込み品質,データ復元精度,データ符号化能力など,さまざまな観点から評価を行うための一連の評価実験を実施している。 実験の結果, 可逆可視化におけるInvVisの大きな可能性を示した。

We present InvVis, a new approach for invertible visualization, which is reconstructing or further modifying a visualization from an image. InvVis allows the embedding of a significant amount of data, such as chart data, chart information, source code, etc., into visualization images. The encoded image is perceptually indistinguishable from the original one. We propose a new method to efficiently express chart data in the form of images, enabling large-capacity data embedding. We also outline a model based on the invertible neural network to achieve high-quality data concealing and revealing. We explore and implement a variety of application scenarios of InvVis. Additionally, we conduct a series of evaluation experiments to assess our method from multiple perspectives, including data embedding quality, data restoration accuracy, data encoding capacity, etc. The result of our experiments demonstrates the great potential of InvVis in invertible visualization.
翻訳日:2023-08-01 17:16:37 公開日:2023-07-30
# デュアルアクティブブリッジコンバータの変調戦略のための実験的拡張によるデータ駆動モデリング

Data-Driven Modeling with Experimental Augmentation for the Modulation Strategy of the Dual-Active-Bridge Converter ( http://arxiv.org/abs/2307.16173v1 )

ライセンス: Link先を確認
X. Li, J. Pou, J. Dong, F. Lin, C. Wen, S. Mukherjee, X. Zhang(参考訳) 電力変換器の性能モデリングでは、メインストリームのアプローチは基本的に知識ベースであり、マンパワーの重荷とモデリング精度の低下に苦しんでいる。 最近の新しいデータ駆動技術は、シミュレーションデータからの自動モデリングによって人間の依存を大幅に軽減している。 しかし、モデルの違いは、未モデル化の寄生虫、欠陥のある熱・磁気モデル、予測不可能な環境条件などによって生じる可能性がある。 純粋なシミュレーションに基づくこれらの不正確なデータ駆動モデルは、物理世界の実用的な性能を表現できず、パワーコンバータモデリングにおけるそれらの応用を妨げる。 そこで本研究では,実験データとシミュレーションデータの両方を活用する,実験拡張(D2EA)を用いた新しいデータ駆動モデリングを提案する。 D2EAでは、シミュレーションデータは基本的な機能的景観を確立することを目的としており、実験データは実世界の実際のパフォーマンスのマッチングに焦点を当てている。 ニュートラルポイントクランプ型デュアルアクティブブリッジ(NPC-DAB)コンバータのハイブリッド変調の効率最適化のためにD2EA方式をインスタンス化する。 提案したD2EAアプローチは、99.92%の効率モデリング精度を実現し、2kWハードウェア実験において、98.45%のピーク効率が達成された。 全体として、d2eaはデータ軽量であり、一目で見れば精度が高く、非常に実用的なデータ駆動モデルを実現できます。

For the performance modeling of power converters, the mainstream approaches are essentially knowledge-based, suffering from heavy manpower burden and low modeling accuracy. Recent emerging data-driven techniques greatly relieve human reliance by automatic modeling from simulation data. However, model discrepancy may occur due to unmodeled parasitics, deficient thermal and magnetic models, unpredictable ambient conditions, etc. These inaccurate data-driven models based on pure simulation cannot represent the practical performance in physical world, hindering their applications in power converter modeling. To alleviate model discrepancy and improve accuracy in practice, this paper proposes a novel data-driven modeling with experimental augmentation (D2EA), leveraging both simulation data and experimental data. In D2EA, simulation data aims to establish basic functional landscape, and experimental data focuses on matching actual performance in real world. The D2EA approach is instantiated for the efficiency optimization of a hybrid modulation for neutral-point-clamped dual-active-bridge (NPC-DAB) converter. The proposed D2EA approach realizes 99.92% efficiency modeling accuracy, and its feasibility is comprehensively validated in 2-kW hardware experiments, where the peak efficiency of 98.45% is attained. Overall, D2EA is data-light and can achieve highly accurate and highly practical data-driven models in one shot, and it is scalable to other applications, effortlessly.
翻訳日:2023-08-01 17:16:23 公開日:2023-07-30
# HierVST:階層型適応ゼロショット音声スタイル転送

HierVST: Hierarchical Adaptive Zero-shot Voice Style Transfer ( http://arxiv.org/abs/2307.16171v1 )

ライセンス: Link先を確認
Sang-Hoon Lee, Ha-Yeong Choi, Hyung-Seok Oh, Seong-Whan Lee(参考訳) 音声スタイル転送(VST)分野の急速な進歩にもかかわらず、最近のゼロショットVSTシステムは、新しい話者の音声スタイルを転送する能力に欠けていた。 本稿では,階層型適応型ゼロショットVSTモデルであるHierVSTを提案する。 テキストの書き起こしがなければ、階層的変動推論と自己教師型表現を利用してモデルを訓練するためにのみ音声データセットを使用する。 さらに,ピッチ表現と波形音声を逐次生成する階層型適応生成器を採用する。 さらに,無条件生成を用いて音響表現における話者関係音響能力を向上させる。 階層的な適応構造により、モデルは新しい音声スタイルに適応し、音声を段階的に変換することができる。 実験により,本手法はゼロショットVSTシナリオにおいて,他のVSTモデルよりも優れていることが示された。 オーディオサンプルは \url{https://hiervst.github.io/} で入手できる。

Despite rapid progress in the voice style transfer (VST) field, recent zero-shot VST systems still lack the ability to transfer the voice style of a novel speaker. In this paper, we present HierVST, a hierarchical adaptive end-to-end zero-shot VST model. Without any text transcripts, we only use the speech dataset to train the model by utilizing hierarchical variational inference and self-supervised representation. In addition, we adopt a hierarchical adaptive generator that generates the pitch representation and waveform audio sequentially. Moreover, we utilize unconditional generation to improve the speaker-relative acoustic capacity in the acoustic representation. With a hierarchical adaptive structure, the model can adapt to a novel voice style and convert speech progressively. The experimental results demonstrate that our method outperforms other VST models in zero-shot VST scenarios. Audio samples are available at \url{https://hiervst.github.io/}.
翻訳日:2023-08-01 17:15:59 公開日:2023-07-30
# 光格子中の強相互作用ボース気体の散逸ダイナミクスの半古典的記述

Semiclassical descriptions of dissipative dynamics of strongly interacting Bose gases in optical lattices ( http://arxiv.org/abs/2307.16170v1 )

ライセンス: Link先を確認
Kazuma Nagao, Ippei Danshita, Seiji Yunoki(参考訳) 超低温気体実験で実現可能な強相互作用状態における散逸ボース・ハバード系の実時間ダイナミクスを記述するための半古典的手法を開発した。 具体的には、システムの効果的なリンドブラッドマスター方程式を解くために、2種類のSU(3) truncated Wigner近似(TWA)を提案する。 1つ目は、有限レベルまたはスピン系に対して離散的TWAを使用し、オンサイト散逸項とオンサイト相互作用項が位相空間変数で線型化される古典的な運動方程式に基づいている。 他方のアプローチでは、非線形ドリフト力と確率的力項の脱コヒーレンス効果を含む確率的ランゲヴィン方程式を用いて、軌道の初期条件を典型的な初期量子状態に対する準確率分布で重み付けする。 これらの手法を2体損失のあるシステムに適用し、その結果を小型システムの正確な数値解と比較する。 前者のアプローチは後者よりも長時間のダイナミクスを正しくシミュレートできることを示す。 また、実験に匹敵する大規模なセットアップの時間進化を計算する。 実験により得られた超流動-モット絶縁体クロスオーバーにおけるホッピング振幅とオンサイト相互作用の比の段階的変化にともなう力学に対する連続量子ゼノ効果を,離散的TWA法により定性的に捉えることができることを示す。

We develop semiclassical methods for describing real-time dynamics of dissipative Bose-Hubbard systems in a strongly interacting regime, which can be realized in experiments with ultracold gases. Specifically, we present two kinds of SU(3) truncated Wigner approximation (TWA) for solving an effective Lindblad master equation of the systems. The first one employs the discrete TWA for finite levels or spin systems and is based on a classical equation of motion in which the onsite dissipation term, as well as the onsite interaction term, is linearized in the phase space variables. The other approach utilizes a stochastic Langevin equation, including decoherence effects in terms of nonlinear drift force and stochastic force terms, in which the initial conditions of trajectories are weighted with a quasiprobability distribution for a typical initial quantum state. We apply these methods to the systems with two-body losses and compare their results with the exact numerical solutions for a small system. We show that the former approach can simulate correctly longer-time dynamics than the latter one. We also calculate the time evolution for a large size setup that is comparable to experiments. We numerically demonstrate that the discrete TWA approach is able to qualitatively capture the continuous quantum Zeno effect on dynamics subjected to a gradual change of the ratio between the hopping amplitude and the onsite interaction across the superfluid-Mott insulator crossover, which has been observed experimentally.
翻訳日:2023-08-01 17:15:44 公開日:2023-07-30
# StarSRGAN: リアル・ワールド・ブラインド・スーパーリゾリューションの改善

StarSRGAN: Improving Real-World Blind Super-Resolution ( http://arxiv.org/abs/2307.16169v1 )

ライセンス: Link先を確認
Khoa D. Vo, Len T. Bui(参考訳) コンピュータビジョンにおける視覚超解像(SR)の目的は、画像の低解像度化の原因となる劣化過程を事前に知ることなく、画像の解像度を改善することである。 State of the Art (SOTA)モデルであるReal-ESRGANは、より複雑な劣化モデルを用いて現実の劣化をシミュレートし、視覚的に魅力的な結果をもたらす。 しかし、近年の手法により、Real-ESRGANの超解像品質を改善する余地は残されている。 本研究は,5つのアーキテクチャを用いた視覚超解像タスクのための新しいGANモデルであるStarSRGANを紹介する。 提案モデルでは, MANIQA と AHIQ の精度を約10%向上した SOTA 性能を Real-ESRGAN と実験的に比較した。 さらに、小型版として、StarSRGAN Liteは、約7.5倍高速な再構築速度(540pから4Kへのリアルタイムアップサンプリング)を提供するが、画像品質の90%近くを維持し、将来の研究のためのリアルタイムSR体験の開発を容易にする。 私たちのコードはhttps://github.com/kynthesis/starsrganでリリースしています。

The aim of blind super-resolution (SR) in computer vision is to improve the resolution of an image without prior knowledge of the degradation process that caused the image to be low-resolution. The State of the Art (SOTA) model Real-ESRGAN has advanced perceptual loss and produced visually compelling outcomes using more complex degradation models to simulate real-world degradations. However, there is still room to improve the super-resolved quality of Real-ESRGAN by implementing recent techniques. This research paper introduces StarSRGAN, a novel GAN model designed for blind super-resolution tasks that utilize 5 various architectures. Our model provides new SOTA performance with roughly 10% better on the MANIQA and AHIQ measures, as demonstrated by experimental comparisons with Real-ESRGAN. In addition, as a compact version, StarSRGAN Lite provides approximately 7.5 times faster reconstruction speed (real-time upsampling from 540p to 4K) but can still keep nearly 90% of image quality, thereby facilitating the development of a real-time SR experience for future research. Our codes are released at https://github.com/kynthesis/StarSRGAN.
翻訳日:2023-08-01 17:15:17 公開日:2023-07-30
# テンプレートに基づく形状再構成のためのメッシュ密度適応

Mesh Density Adaptation for Template-based Shape Reconstruction ( http://arxiv.org/abs/2307.16205v1 )

ライセンス: Link先を確認
Yucheol Jung, Hyomin Kim, Gyeongha Hwang, Seung-Hwan Baek, Seungyong Lee(参考訳) テンプレートメッシュ変形に基づく3次元形状復元では、スムーズなエネルギーなどの正則化を用いて、再構成を望ましい方向に導く。 本稿では,メッシュ内の頂点密度という正規化においてしばしば見過ごされる性質を強調する。 密度を注意深く制御しなければ、復元は形状の詳細付近の頂点のサンプル不足に苦しむ可能性がある。 アンダーサンプリング問題を解決するために,メッシュ密度適応法を提案する。 メッシュ密度適応エネルギーは,変形により複雑な構造物近傍の頂点密度を増加させ,形状詳細の再構成に寄与する。 逆レンダリングと非剛体表面登録という2つのタスクでメッシュ密度適応のユーザビリティと性能を実証する。 メッシュ密度適応のない場合と比較して, より正確な再構成結果が得られる。

In 3D shape reconstruction based on template mesh deformation, a regularization, such as smoothness energy, is employed to guide the reconstruction into a desirable direction. In this paper, we highlight an often overlooked property in the regularization: the vertex density in the mesh. Without careful control on the density, the reconstruction may suffer from under-sampling of vertices near shape details. We propose a novel mesh density adaptation method to resolve the under-sampling problem. Our mesh density adaptation energy increases the density of vertices near complex structures via deformation to help reconstruction of shape details. We demonstrate the usability and performance of mesh density adaptation with two tasks, inverse rendering and non-rigid surface registration. Our method produces more accurate reconstruction results compared to the cases without mesh density adaptation.
翻訳日:2023-08-01 17:09:19 公開日:2023-07-30
# Visual-Language Foundation Modelを用いたオープンセットドメイン適応

Open-Set Domain Adaptation with Visual-Language Foundation Models ( http://arxiv.org/abs/2307.16204v1 )

ライセンス: Link先を確認
Qing Yu and Go Irie and Kiyoharu Aizawa(参考訳) 非教師付きドメイン適応(UDA)は、ラベル付きデータを持つソースドメインからラベル付きデータを持つターゲットドメインへの知識の転送に非常に効果的であることが証明されている。 対象ドメインにラベル付きデータがないことと未知のクラスが存在する可能性があるため、オープンセットドメイン適応(ODA)はトレーニングフェーズ中にこれらのクラスを識別する潜在的な解決策として浮上している。 既存のODAアプローチは、ソースドメインとターゲットドメイン間の分散シフトを解決することを目的としているが、ほとんどのメソッドは、ターゲットドメインへの適応を伴うソースドメイン上のImageNet事前トレーニングモデルを微調整する。 CLIP(Contrastive Language- Image Pre-Training)のような近年の視覚言語基礎モデル(VLFM)は,多くの分散シフトに対して堅牢であるため,ODAの性能を大幅に向上させる必要がある。 本稿では,Odaに人気のあるVLFMであるCLIPを採用する一般的な方法について検討する。 CLIPを用いたゼロショット予測の性能について検討し,CLIPの出力でODAモデルを支援するエントロピー最適化戦略を提案する。 提案手法は,ODA問題に対処する上での有効性を実証し,様々なベンチマークの最先端結果を実現する。

Unsupervised domain adaptation (UDA) has proven to be very effective in transferring knowledge obtained from a source domain with labeled data to a target domain with unlabeled data. Owing to the lack of labeled data in the target domain and the possible presence of unknown classes, open-set domain adaptation (ODA) has emerged as a potential solution to identify these classes during the training phase. Although existing ODA approaches aim to solve the distribution shifts between the source and target domains, most methods fine-tuned ImageNet pre-trained models on the source domain with the adaptation on the target domain. Recent visual-language foundation models (VLFM), such as Contrastive Language-Image Pre-Training (CLIP), are robust to many distribution shifts and, therefore, should substantially improve the performance of ODA. In this work, we explore generic ways to adopt CLIP, a popular VLFM, for ODA. We investigate the performance of zero-shot prediction using CLIP, and then propose an entropy optimization strategy to assist the ODA models with the outputs of CLIP. The proposed approach achieves state-of-the-art results on various benchmarks, demonstrating its effectiveness in addressing the ODA problem.
翻訳日:2023-08-01 17:09:09 公開日:2023-07-30
# ゼロパディングを用いた深部畳み込みニューラルネットワーク:特徴抽出と学習

Deep Convolutional Neural Networks with Zero-Padding: Feature Extraction and Learning ( http://arxiv.org/abs/2307.16203v1 )

ライセンス: Link先を確認
Zhi Han, Baichen Liu, Shao-Bo Lin, Ding-Xuan Zhou(参考訳) 本稿では,特徴抽出と学習におけるゼロパディングを用いたディープ畳み込みニューラルネットワーク(DCNN)の性能について検討する。 翻訳等価性の実現におけるゼロパディングの役割の検証と、その翻訳不変性によるプール化の検証を経て、同じ数の自由パラメータで、ディープ完全連結ネットワーク(DFCN)はゼロパディングを持つDCNNで表現可能であることを示す。 これは,DCNNが特徴抽出においてDFCNよりも本質的に優れていることを示す。 その結果,DCNNとゼロパディングの共通一貫性を導出し,学習過程における翻訳不変性を示す。 我々の理論結果はおもちゃシミュレーションと実データ実行の両方を含む数値実験によって検証される。

This paper studies the performance of deep convolutional neural networks (DCNNs) with zero-padding in feature extraction and learning. After verifying the roles of zero-padding in enabling translation-equivalence, and pooling in its translation-invariance driven nature, we show that with similar number of free parameters, any deep fully connected networks (DFCNs) can be represented by DCNNs with zero-padding. This demonstrates that DCNNs with zero-padding is essentially better than DFCNs in feature extraction. Consequently, we derive universal consistency of DCNNs with zero-padding and show its translation-invariance in the learning process. All our theoretical results are verified by numerical experiments including both toy simulations and real-data running.
翻訳日:2023-08-01 17:08:46 公開日:2023-07-30
# 医療対話情報抽出のための知識強化二段階生成枠組み

A Knowledge-enhanced Two-stage Generative Framework for Medical Dialogue Information Extraction ( http://arxiv.org/abs/2307.16200v1 )

ライセンス: Link先を確認
Zefa Hu, Ziyi Ni, Jing Shi, Shuang Xu, Bo Xu(参考訳) 本稿では,診断対話システムや電子カルテの自動作成システム(emrs)において不可欠な医療対話(md-tspe)からの用語対抽出について述べる。 過去数年間、md-tspeの研究は、特に生成的手法による顕著な進歩の後、研究の注目を集めている。 しかし、これらの生成手法は、項-統計対からなる全シーケンスを1段階で出力し、先行知識の統合を無視し、項間の関係をモデル化し、各項の状態を予測することを要求する。 本稿では、上記の課題に対処するため、知識強化二段階生成フレームワーク(KTGF)を提案する。 タスク固有のプロンプトを用いて、MD-TSPEを2つのフェーズで統合した生成形式で完了させる単一モデルを用いて、まず全ての項を生成し、次に生成された各項の状態を生成する。 このようにして、第1相の項のみを含むシーケンスから、項間の関係をより効果的に学習することができ、第2相の知識強化プロンプトは、生成した項のカテゴリおよびステータス候補をステータス生成に活用することができる。 さらに,提案する特殊ステータス ``not mentioned' は,低リソース設定において重要な第2フェーズにおいて,より多くの用語を利用可能とし,トレーニングデータを充実させる。 中入・CMDDデータセットを用いた実験により,提案手法は,フルトレーニングおよび低リソース設定における最先端モデルと比較して,優れた結果が得られることが示された。

This paper focuses on term-status pair extraction from medical dialogues (MD-TSPE), which is essential in diagnosis dialogue systems and the automatic scribe of electronic medical records (EMRs). In the past few years, works on MD-TSPE have attracted increasing research attention, especially after the remarkable progress made by generative methods. However, these generative methods output a whole sequence consisting of term-status pairs in one stage and ignore integrating prior knowledge, which demands a deeper understanding to model the relationship between terms and infer the status of each term. This paper presents a knowledge-enhanced two-stage generative framework (KTGF) to address the above challenges. Using task-specific prompts, we employ a single model to complete the MD-TSPE through two phases in a unified generative form: we generate all terms the first and then generate the status of each generated term. In this way, the relationship between terms can be learned more effectively from the sequence containing only terms in the first phase, and our designed knowledge-enhanced prompt in the second phase can leverage the category and status candidates of the generated term for status generation. Furthermore, our proposed special status ``not mentioned" makes more terms available and enriches the training data in the second phase, which is critical in the low-resource setting. The experiments on the Chunyu and CMDD datasets show that the proposed method achieves superior results compared to the state-of-the-art models in the full training and low-resource settings.
翻訳日:2023-08-01 17:08:33 公開日:2023-07-30
# 上海のTTS改善--単語セグメンテーションによるトーンサンディーへの取り組み

Improving TTS for Shanghainese: Addressing Tone Sandhi via Word Segmentation ( http://arxiv.org/abs/2307.16199v1 )

ライセンス: Link先を確認
Yuanhao Chen(参考訳) トーンは、主に都市上海で話される中華料理である上海ネッセの韻律の重要な要素である。 上海の複数の音節の単語すべてに適用されるトーンサンディーは、自然に聞こえる音声の鍵となる。 残念ながら、AppleのVoiceOverのような最近の上海ネスTTS(text-to-speech)の研究は、トーンサンディー、特にLD(left-dominant sandhi)のパフォーマンスが低かった。 ここでは,テキスト前処理中の単語セグメンテーションにより,TSモデルにおける音色サンディ生成の品質が向上することを示す。 同じ単語内のシラブルには特別なシンボルがアノテートされ、LDのドメインの韻律情報のプロキシとして機能する。 静的停止を主目的とする韻律アノテーションの一般的な実践とは対照的に,韻律アノテーションは動的音節現象にも適用可能であることを示す。 私は,このプロジェクトが,上海語の公式な言語記述を計算プロジェクトに持ち込む出発点になることを期待している。 上海語を近似するためにマンダリンモデルを用いたのは久しぶりだが、独自の言語的特徴を持つ異なる言語であり、そのデジタル化と再生はそう扱うべきである。

Tone is a crucial component of the prosody of Shanghainese, a Wu Chinese variety spoken primarily in urban Shanghai. Tone sandhi, which applies to all multi-syllabic words in Shanghainese, then, is key to natural-sounding speech. Unfortunately, recent work on Shanghainese TTS (text-to-speech) such as Apple's VoiceOver has shown poor performance with tone sandhi, especially LD (left-dominant sandhi). Here I show that word segmentation during text preprocessing can improve the quality of tone sandhi production in TTS models. Syllables within the same word are annotated with a special symbol, which serves as a proxy for prosodic information of the domain of LD. Contrary to the common practice of using prosodic annotation mainly for static pauses, this paper demonstrates that prosodic annotation can also be applied to dynamic tonal phenomena. I anticipate this project to be a starting point for bringing formal linguistic accounts of Shanghainese into computational projects. Too long have we been using the Mandarin models to approximate Shanghainese, but it is a different language with its own linguistic features, and its digitisation and revitalisation should be treated as such.
翻訳日:2023-08-01 17:08:09 公開日:2023-07-30
# 深層学習による消化管粘膜障害分類

Gastrointestinal Mucosal Problems Classification with Deep Learning ( http://arxiv.org/abs/2307.16198v1 )

ライセンス: Link先を確認
Mohammadhasan Goharian, Vahid Goharian, Hamidreza Bolhasani(参考訳) 消化管粘膜の変化は数年後にがんを発症し、早期診断はがんの予防や早期治療に非常に有用である。 本稿では,ポリープ,潰瘍性大腸炎,食道炎,正常Zライン,正常Pylorus,正常Cecum,染料リフテッドポリープ,染料リフテッドマージンの8種類の粘膜変化と解剖学的特徴を深層学習により予測した。 本論文ではニューラルネットワークを用いた。 これは、人間のニューラルネットワークのように動作するブラックボックス人工知能アルゴリズムである。 本稿では,画像処理におけるよく知られたニューラルネットワークの1つである畳み込みニューラルネットワーク(cnns)に基づく転送学習(tl)について述べる。 我々は、VGG、Inception、Xception、ResNetといった有名なCNNアーキテクチャを比較した。 我々の最良のモデルは、テスト画像で93%の精度を得た。 最終的に,本モデルを実際の内視鏡および大腸内視鏡像に応用し,問題を分類した。

Gastrointestinal mucosal changes can cause cancers after some years and early diagnosing them can be very useful to prevent cancers and early treatment. In this article, 8 classes of mucosal changes and anatomical landmarks including Polyps, Ulcerative Colitis, Esophagitis, Normal Z-Line, Normal Pylorus, Normal Cecum, Dyed Lifted Polyps, and Dyed Lifted Margin were predicted by deep learning. We used neural networks in this article. It is a black box artificial intelligence algorithm that works like a human neural system. In this article, Transfer Learning (TL) based on the Convolutional Neural Networks (CNNs), which is one of the well-known types of neural networks in image processing is used. We compared some famous CNN architecture including VGG, Inception, Xception, and ResNet. Our best model got 93% accuracy in test images. At last, we used our model in some real endoscopy and colonoscopy movies to classify problems.
翻訳日:2023-08-01 17:07:45 公開日:2023-07-30
# 時系列データ分析のための個人別フェデレーション学習のシャッフル

Shuffled Differentially Private Federated Learning for Time Series Data Analytics ( http://arxiv.org/abs/2307.16196v1 )

ライセンス: Link先を確認
Chenxi Huang, Chaoyang Jiang, Zhenghua Chen(参考訳) 信頼できる連合学習は、クライアントのプライバシを確保しながら、最適なパフォーマンスを達成することを目的としています。 既存のプライバシー保存型連合学習アプローチは、主に画像データ用に調整されており、時系列データのためのアプリケーションがない。 さらに、時系列データ分析モデルにおける保護ノイズ化は、時間依存学習に著しく干渉し、精度が低下する。 これらの問題に対処するため、時系列データのためのプライバシー保護フェデレーション学習アルゴリズムを開発した。 具体的には、プライバシ保護信頼境界をクライアントに拡張するために、ローカルディファレンシャルプライバシを採用しています。 シャッフル技術も取り入れて,プライバシの増幅を実現し,ローカルディファレンシャルプライバシの活用による精度低下を緩和しています。 5つの時系列データセットで広範な実験が行われた。 評価の結果,小クライアントシナリオと大規模クライアントシナリオの両方において,非プライベートフェデレーション学習に比べて精度の低下が最小であることが判明した。 同じレベルのプライバシ保護の下では,両シナリオの集中型差分私的学習と比較して精度が向上した。

Trustworthy federated learning aims to achieve optimal performance while ensuring clients' privacy. Existing privacy-preserving federated learning approaches are mostly tailored for image data, lacking applications for time series data, which have many important applications, like machine health monitoring, human activity recognition, etc. Furthermore, protective noising on a time series data analytics model can significantly interfere with temporal-dependent learning, leading to a greater decline in accuracy. To address these issues, we develop a privacy-preserving federated learning algorithm for time series data. Specifically, we employ local differential privacy to extend the privacy protection trust boundary to the clients. We also incorporate shuffle techniques to achieve a privacy amplification, mitigating the accuracy decline caused by leveraging local differential privacy. Extensive experiments were conducted on five time series datasets. The evaluation results reveal that our algorithm experienced minimal accuracy loss compared to non-private federated learning in both small and large client scenarios. Under the same level of privacy protection, our algorithm demonstrated improved accuracy compared to the centralized differentially private federated learning in both scenarios.
翻訳日:2023-08-01 17:07:28 公開日:2023-07-30
# 16ビットニューラルネットワークトレーニングにおけるバックプロパゲーションにおける数値的不安定さの軽減法

An Efficient Approach to Mitigate Numerical Instability in Backpropagation for 16-bit Neural Network Training ( http://arxiv.org/abs/2307.16189v1 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) 本研究では,機械学習モデルの16ビット計算において観測される数値不安定性の複雑さ,特にRMSPropやAdamのような一般的な最適化アルゴリズムを用いる場合について検討する。 この不安定性は、ディープニューラルネットワークのトレーニングフェーズで一般的に経験され、学習プロセスを混乱させ、そのようなモデルの効果的な展開を妨げる。 この数値不安定性の背後にある主要な原因は、単一の超パラメータであるエプシロンである。 これらのオプティマイザにおける16ビット計算におけるepsilonの役割の詳細な調査により、その値の微調整がrmspropとadamの機能を回復し、16ビットニューラルネットワークの有効利用を可能にすることが明らかとなった。 同定された数値不安定問題を軽減する新しい手法を提案する。 この手法は,Adamオプティマイザからの更新を活かし,16ビット計算における学習プロセスの堅牢性を大幅に向上させる。 本研究は、低精度計算における最適化の理解を深め、より効率的で安定したモデルトレーニングのための新しい道を開く深層ニューラルネットワークの訓練における長年の課題に対して効果的な解決策を提供する。

In this research, we delve into the intricacies of the numerical instability observed in 16-bit computations of machine learning models, particularly when employing popular optimization algorithms such as RMSProp and Adam. This instability is commonly experienced during the training phase of deep neural networks, leading to disrupted learning processes and hindering the effective deployment of such models. We identify the single hyperparameter, epsilon, as the main culprit behind this numerical instability. An in-depth exploration of the role of epsilon in these optimizers within 16-bit computations reveals that a minor adjustment of its value can restore the functionality of RMSProp and Adam, consequently enabling the effective utilization of 16-bit neural networks. We propose a novel method to mitigate the identified numerical instability issues. This method capitalizes on the updates from the Adam optimizer and significantly improves the robustness of the learning process in 16-bit computations. This study contributes to better understanding of optimization in low-precision computations and provides an effective solution to a longstanding issue in training deep neural networks, opening new avenues for more efficient and stable model training.
翻訳日:2023-08-01 17:07:10 公開日:2023-07-30
# ESP:マルチエージェント強化学習に先立つ爆発的対称性

ESP: Exploiting Symmetry Prior for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2307.16186v1 )

ライセンス: Link先を確認
Xin Yu, Rongye Shi, Pu Feng, Yongkai Tian, Jie Luo, Wenjun Wu(参考訳) マルチエージェント強化学習(MARL)は近年,有望な成果を上げている。 しかし、既存の強化学習手法の多くは、モデルトレーニングに大量のデータを必要とする。 加えて、データ効率の強化学習は、現在のMARLアプローチでは無視される強い帰納バイアスを構築する必要がある。 本稿では,マルチエージェントシステムの対称性現象に触発されて,既存のmarl法にデータ拡張とよく設計された一貫性損失を統合することにより,事前知識を活用できる枠組みを提案する。 さらに、提案フレームワークはモデルに依存しず、現在のMARLアルゴリズムのほとんどに適用できる。 複数の課題に対する実験により,提案手法の有効性が示された。 さらに,本フレームワークを物理マルチロボットテストベッドに適用し,その優位性を示す。

Multi-agent reinforcement learning (MARL) has achieved promising results in recent years. However, most existing reinforcement learning methods require a large amount of data for model training. In addition, data-efficient reinforcement learning requires the construction of strong inductive biases, which are ignored in the current MARL approaches. Inspired by the symmetry phenomenon in multi-agent systems, this paper proposes a framework for exploiting prior knowledge by integrating data augmentation and a well-designed consistency loss into the existing MARL methods. In addition, the proposed framework is model-agnostic and can be applied to most of the current MARL algorithms. Experimental tests on multiple challenging tasks demonstrate the effectiveness of the proposed framework. Moreover, the proposed framework is applied to a physical multi-robot testbed to show its superiority.
翻訳日:2023-08-01 17:06:51 公開日:2023-07-30
# 画像・映像・音声・言語タスクのための統一モデル

Unified Model for Image, Video, Audio and Language Tasks ( http://arxiv.org/abs/2307.16184v1 )

ライセンス: Link先を確認
Mustafa Shukor, Corentin Dancette, Alexandre Rame, Matthieu Cord(参考訳) 大規模言語モデル(LLM)は、汎用エージェントの野心的な探求を幻想からかなり遠ざかっている。 このような一般的なモデルを構築する上で重要なハードルは、タスクとモダリティの多様性と多様性である。 有望な解決策は統一であり、一つの統一フレームワーク内で多数のタスクとモダリティをサポートすることができる。 大規模なデータセットで訓練されたFlamingo (Alayrac et al., 2022)のような大規模なモデルはほとんど2つのモダリティをサポートできないが、現在の小型モデルと中規模モデルはまだ2つのモダリティに制限されている。 すべてのモダリティを効率的にサポートする統一モデルを構築することは可能ですか? そこで我々は,この野心的な目標に向けての一歩として,UnIVALを提案する。 データセットのサイズや数十億のパラメータを持つモデルに頼ることなく、0.55bのパラメータユニバルモデルは2つのモダリティを超えて、テキスト、イメージ、ビデオ、オーディオを1つのモデルに統合します。 我々のモデルはタスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクで効率的に事前学習される。 UnIVALは、画像およびビデオテキストタスク間で、既存の最先端アプローチと競合するパフォーマンスを示す。 画像とビデオテキストのモダリティから学んだ特徴表現は、オーディオに事前学習されていないにもかかわらず、オーディオテキストタスクで微調整された場合、モデルが競合性能を達成することができる。 統一モデルにより,異なるマルチモーダルタスクで訓練されたモデルの重み補間によるマルチモーダルモデルマージに関する新しい研究を提案し,その効果を分散一般化に示している。 最後に,タスク間の相乗効果を示すことによって,統合の動機付けを行う。 モデルウェイトとコードは以下にリリースされている。

Large Language Models (LLMs) have made the ambitious quest for generalist agents significantly far from being a fantasy. A key hurdle for building such general models is the diversity and heterogeneity of tasks and modalities. A promising solution is unification, allowing the support of a myriad of tasks and modalities within one unified framework. While few large models (e.g., Flamingo (Alayrac et al., 2022), trained on massive datasets, can support more than two modalities, current small to mid-scale unified models are still limited to 2 modalities, usually image-text or video-text. The question that we ask is: is it possible to build efficiently a unified model that can support all modalities? To answer this, we propose UnIVAL, a step further towards this ambitious goal. Without relying on fancy datasets sizes or models with billions of parameters, the ~ 0.25B parameter UnIVAL model goes beyond two modalities and unifies text, images, video, and audio into a single model. Our model is efficiently pretrained on many tasks, based on task balancing and multimodal curriculum learning. UnIVAL shows competitive performance to existing state-of-the-art approaches, across image and video-text tasks. The feature representations learned from image and video-text modalities, allows the model to achieve competitive performance when finetuned on audio-text tasks, despite not being pretrained on audio. Thanks to the unified model, we propose a novel study on multimodal model merging via weight interpolation of models trained on different multimodal tasks, showing their benefits in particular for out-of-distribution generalization. Finally, we motivate unification by showing the synergy between tasks. The model weights and code are released here: https://github.com/mshukor/UnIVAL.
翻訳日:2023-08-01 17:06:40 公開日:2023-07-30
# scribblevc:視覚クラス埋め込みを用いたscribbleによる医用画像セグメンテーション

ScribbleVC: Scribble-supervised Medical Image Segmentation with Vision-Class Embedding ( http://arxiv.org/abs/2307.16226v1 )

ライセンス: Link先を確認
Zihan Li, Yuan Zheng, Xiangde Luo, Dandan Shan, Qingqi Hong(参考訳) 医療画像分割は、臨床意思決定、治療計画、疾患モニタリングにおいて重要な役割を果たす。 しかし,良質な注記の欠如,画像ノイズ,患者間の解剖学的差異などにより,医用画像の正確な分割が困難である。 さらに、既存のラベル効率の手法と完全に教師された手法の間には、まだかなりの性能差がある。 そこで我々は,マルチモーダル情報エンハンスメント機構による視覚とクラス埋め込みを利用した,scribble-supervised medical image segmentationのための新しいフレームワークscribblevcを提案する。 さらに、ScribbleVCはCNN機能とTransformer機能を利用して、より良い視覚的特徴抽出を実現している。 提案手法は,スクリブルベースアプローチとセグメンテーションネットワークとクラスエンベディングモジュールを組み合わせることで,正確なセグメンテーションマスクを生成する。 ScribbleVCを3つのベンチマークデータセットで評価し、最先端の手法と比較する。 実験の結果,提案手法は既存の手法よりも精度,堅牢性,効率の点で優れていた。 データセットとコードはgithubで公開されている。

Medical image segmentation plays a critical role in clinical decision-making, treatment planning, and disease monitoring. However, accurate segmentation of medical images is challenging due to several factors, such as the lack of high-quality annotation, imaging noise, and anatomical differences across patients. In addition, there is still a considerable gap in performance between the existing label-efficient methods and fully-supervised methods. To address the above challenges, we propose ScribbleVC, a novel framework for scribble-supervised medical image segmentation that leverages vision and class embeddings via the multimodal information enhancement mechanism. In addition, ScribbleVC uniformly utilizes the CNN features and Transformer features to achieve better visual feature extraction. The proposed method combines a scribble-based approach with a segmentation network and a class-embedding module to produce accurate segmentation masks. We evaluate ScribbleVC on three benchmark datasets and compare it with state-of-the-art methods. The experimental results demonstrate that our method outperforms existing approaches in terms of accuracy, robustness, and efficiency. The datasets and code are released on GitHub.
翻訳日:2023-08-01 16:59:22 公開日:2023-07-30
# 歴史的ヘブライ語テキストのOCR誤り訂正のためのニューラルネットワーク学習の最適化

Optimizing the Neural Network Training for OCR Error Correction of Historical Hebrew Texts ( http://arxiv.org/abs/2307.16220v1 )

ライセンス: Link先を確認
Omri Suissa, Avshalom Elmalech, Maayan Zhitomirsky-Geffet(参考訳) 過去数十年間、書籍や新聞などの文書の大規模なアーカイブが光文字認識を用いてデジタル化されてきた。 この技術は特に歴史文書でエラーを起こしやすい。 OCRエラーを修正するために、自然言語解析やニューラルネットワークなどの機械学習技術に基づく後処理アルゴリズムが提案されている。 ニューラルネットワークの欠点は、トレーニングに必要な大量の手作業によるラベル付きデータである。 本稿では,比較的少ない手作業で作成したデータを用いて,ヘブライのocr後修正のための軽量ニューラルネットワークのトレーニング手法を提案する。 本研究の目的は,OCRポストコレクションのニューラルネットワーク結果を改善するために,言語やタスク固有のトレーニングデータを自動的に生成する手法を開発し,歴史的文書のOCRポストコレクションに最も有効なデータセットの種類を調査することである。 この目的のために、複数のデータセットを用いた一連の実験を行った。 評価コーパスはJPressプロジェクトのヘブライ語の新聞に基づいていた。 共通言語とコーパス固有のocr誤りを学習するために, 歴史的オクルード新聞の分析を行った。 提案手法を用いたネットワークトレーニングは,ランダムに生成したエラーよりも効果的であることがわかった。 また,ocr後修正のためのニューラルネットワークの性能は,トレーニングデータのジャンルや領域に大きく依存することを示した。 さらに,提案手法で学習したニューラルネットワークは,ocr後修正や複雑なスペルチェッカのための最先端ニューラルネットワークよりも優れている。 これらの結果は、多くのデジタル人文科学プロジェクトにとって実践的な意味を持つかもしれない。

Over the past few decades, large archives of paper-based documents such as books and newspapers have been digitized using Optical Character Recognition. This technology is error-prone, especially for historical documents. To correct OCR errors, post-processing algorithms have been proposed based on natural language analysis and machine learning techniques such as neural networks. Neural network's disadvantage is the vast amount of manually labeled data required for training, which is often unavailable. This paper proposes an innovative method for training a light-weight neural network for Hebrew OCR post-correction using significantly less manually created data. The main research goal is to develop a method for automatically generating language and task-specific training data to improve the neural network results for OCR post-correction, and to investigate which type of dataset is the most effective for OCR post-correction of historical documents. To this end, a series of experiments using several datasets was conducted. The evaluation corpus was based on Hebrew newspapers from the JPress project. An analysis of historical OCRed newspapers was done to learn common language and corpus-specific OCR errors. We found that training the network using the proposed method is more effective than using randomly generated errors. The results also show that the performance of the neural network for OCR post-correction strongly depends on the genre and area of the training data. Moreover, neural networks that were trained with the proposed method outperform other state-of-the-art neural networks for OCR post-correction and complex spellcheckers. These results may have practical implications for many digital humanities projects.
翻訳日:2023-08-01 16:59:01 公開日:2023-07-30
# MR画像におけるバイアス場補正のための教師なし分解ネットワーク

Unsupervised Decomposition Networks for Bias Field Correction in MR Image ( http://arxiv.org/abs/2307.16219v1 )

ライセンス: Link先を確認
Dong Liang, Xingyu Qiu, Kuanquan Wang, Gongning Luo, Wei Wang, Yashu Liu(参考訳) 不完全なMRデバイスや画像オブジェクトによって引き起こされるバイアス場は、MR画像に強度不均一を導入し、MR画像解析法の性能を低下させる。 多くの振り返りアルゴリズムがバイアス補正を促進するために開発され、深層学習に基づく手法の性能が向上した。 しかし、学習段階において、教師付きディープラーニングベースの手法は、合成バイアス場に大きく依存する。 バイアス場の形成は非常に複雑であるため、合成データによりMR画像の真の物理的特性を模倣することは困難である。 バイアス場補正と画像セグメンテーションは強く関連しているが、このセグメンテーションマップは元のMR画像からバイアス場を分離して精度良く得られ、逆のセグメンテーションマップによってバイアス値が示される。 そこで我々は,バイアスのないmr画像を得るために,バイアスデータのみをトレーニングした新しい教師なし分解ネットワークを提案する。 ネットワークは、各クラスに属する各画素の確率を予測するセグメンテーション部と、交互に最適化されたバイアス場を算出する推定部とから構成される。 さらに,ファジィクラスタリングと乗法バイアス場の組み合わせに基づく損失関数も考案した。 提案する損失関数は, バイアス場の滑らかさを導入し, 異なるクラス間のソフトな関係を, 一貫性内制約下で構築する。 広範な実験により,提案手法はバイアス場を正確に推定し,より良いバイアス補正結果が得られることを示した。 コードはリンクで入手できる。 https://github.com/LeongDong/Bias-Decomposition-Networks。

Bias field, which is caused by imperfect MR devices or imaged objects, introduces intensity inhomogeneity into MR images and degrades the performance of MR image analysis methods. Many retrospective algorithms were developed to facilitate the bias correction, to which the deep learning-based methods outperformed. However, in the training phase, the supervised deep learning-based methods heavily rely on the synthesized bias field. As the formation of the bias field is extremely complex, it is difficult to mimic the true physical property of MR images by synthesized data. While bias field correction and image segmentation are strongly related, the segmentation map is precisely obtained by decoupling the bias field from the original MR image, and the bias value is indicated by the segmentation map in reverse. Thus, we proposed novel unsupervised decomposition networks that are trained only with biased data to obtain the bias-free MR images. Networks are made up of: a segmentation part to predict the probability of every pixel belonging to each class, and an estimation part to calculate the bias field, which are optimized alternately. Furthermore, loss functions based on the combination of fuzzy clustering and the multiplicative bias field are also devised. The proposed loss functions introduce the smoothness of bias field and construct the soft relationships among different classes under intra-consistency constraints. Extensive experiments demonstrate that the proposed method can accurately estimate bias fields and produce better bias correction results. The code is available on the link: https://github.com/LeongDong/Bias-Decomposition-Networks.
翻訳日:2023-08-01 16:58:43 公開日:2023-07-30
# デジタル人文科学におけるディープニューラルネットワークを用いたテキスト解析

Text Analysis Using Deep Neural Networks in Digital Humanities and Information Science ( http://arxiv.org/abs/2307.16217v1 )

ライセンス: Link先を確認
Omri Suissa, Avshalom Elmalech, Maayan Zhitomirsky-Geffet(参考訳) 計算技術と人文科学を組み合わせることは、テキスト、画像、音声、ビデオ、その他のアーティファクトのデジタル化、検索、アナリザブル化を目標とする継続的な取り組みである。 近年、ディープニューラルネットワーク(DNN)は、自動テキスト分析と自然言語処理(NLP)の分野を支配しており、超人的なパフォーマンスを示す場合もある。 DNNは、スペルチェック、言語検出、エンティティ抽出、著者検出、質問応答など、DH(Digital Humanities)研究に関連する多くのNLPタスクを解決する最先端の機械学習アルゴリズムである。 これらの教師付きアルゴリズムは、多数の"right"と"wrong"の例からパターンを学び、新しい例に適用する。 しかし、DH研究におけるテキストリソースの分析にDNNを用いることで、トレーニングデータの有効性とドメイン適応の必要性の2つの主な課題が提示される。 本稿では,近年の文献におけるDH研究の活用事例とその可能性について分析し,DHの専門家がいつ,どのように適切な深層学習アプローチを選択するかの実践的決定モデルを構築した。 さらに,本稿では,DHコミュニティにおける深層学習モデルの活用によるメリットに対する意識を高めることを目的とする。

Combining computational technologies and humanities is an ongoing effort aimed at making resources such as texts, images, audio, video, and other artifacts digitally available, searchable, and analyzable. In recent years, deep neural networks (DNN) dominate the field of automatic text analysis and natural language processing (NLP), in some cases presenting a super-human performance. DNNs are the state-of-the-art machine learning algorithms solving many NLP tasks that are relevant for Digital Humanities (DH) research, such as spell checking, language detection, entity extraction, author detection, question answering, and other tasks. These supervised algorithms learn patterns from a large number of "right" and "wrong" examples and apply them to new examples. However, using DNNs for analyzing the text resources in DH research presents two main challenges: (un)availability of training data and a need for domain adaptation. This paper explores these challenges by analyzing multiple use-cases of DH studies in recent literature and their possible solutions and lays out a practical decision model for DH experts for when and how to choose the appropriate deep learning approaches for their research. Moreover, in this paper, we aim to raise awareness of the benefits of utilizing deep learning models in the DH community.
翻訳日:2023-08-01 16:58:18 公開日:2023-07-30
# 半構造化ヘテロジニアス知識グラフのためのディープニューラルネットワークによる質問応答

Question Answering with Deep Neural Networks for Semi-Structured Heterogeneous Genealogical Knowledge Graphs ( http://arxiv.org/abs/2307.16214v1 )

ライセンス: Link先を確認
Omri Suissa, Maayan Zhitomirsky-Geffet, Avshalom Elmalech(参考訳) ユーザ生成系図の普及に伴い,新たな系図情報システムが開発されている。 最先端の自然言語応答アルゴリズムは、自己認識ネットワークに基づくディープニューラルネットワーク(DNN)アーキテクチャを使用する。 しかしながら、これらのモデルのいくつかはシーケンスベースの入力を使用し、グラフベースの構造を扱うには適さないが、グラフベースのDNNモデルは、系領域に存在しない知識グラフの高度な包括性に依存している。 さらに、これらの教師付きDNNモデルは、系譜領域にない訓練データセットを必要とする。 本研究は,系譜系図を用いた質問応答のエンドツーエンドアプローチを提案する。 1)系図を知識グラフとして表現する。 2)テキストに変換します。 3)非構造化テキストと組み合わせて, 4)トランスフォームに基づく質問応答モデルのトレーニング。 専用アプローチの必要性を評価するために,自動生成した系譜データセットで訓練された微調整モデル (uncle-bert) と最先端の質問応答モデルの比較を行った。 以上の結果から,系譜的質問に対する回答とオープンドメイン質問との有意な差異が示唆された。 さらに,提案手法は,精度を高めつつ複雑さを低減し,系図研究や実世界のプロジェクトにも実用的な意味を持ち,専門家や一般市民にもアクセス可能な系図データを提供する。

With the rising popularity of user-generated genealogical family trees, new genealogical information systems have been developed. State-of-the-art natural question answering algorithms use deep neural network (DNN) architecture based on self-attention networks. However, some of these models use sequence-based inputs and are not suitable to work with graph-based structure, while graph-based DNN models rely on high levels of comprehensiveness of knowledge graphs that is nonexistent in the genealogical domain. Moreover, these supervised DNN models require training datasets that are absent in the genealogical domain. This study proposes an end-to-end approach for question answering using genealogical family trees by: 1) representing genealogical data as knowledge graphs, 2) converting them to texts, 3) combining them with unstructured texts, and 4) training a trans-former-based question answering model. To evaluate the need for a dedicated approach, a comparison between the fine-tuned model (Uncle-BERT) trained on the auto-generated genealogical dataset and state-of-the-art question-answering models was per-formed. The findings indicate that there are significant differences between answering genealogical questions and open-domain questions. Moreover, the proposed methodology reduces complexity while increasing accuracy and may have practical implications for genealogical research and real-world projects, making genealogical data accessible to experts as well as the general public.
翻訳日:2023-08-01 16:57:54 公開日:2023-07-30
# 歴史的ヘブライ語テキストのOCR誤り訂正のための周期最適化ニューラルネットワーク

Toward a Period-Specific Optimized Neural Network for OCR Error Correction of Historical Hebrew Texts ( http://arxiv.org/abs/2307.16213v1 )

ライセンス: Link先を確認
Omri Suissa, Maayan Zhitomirsky-Geffet, Avshalom Elmalech(参考訳) 過去数十年間、書籍や新聞など、紙ベースの歴史的文書の大規模なアーカイブがocr(optical character recognition)技術を使ってデジタル化されてきた。 残念なことに、この広く使われている技術は、特に数百年前にOCRedドキュメントが書かれたとき、エラーを起こしやすい。 ニューラルネットワークはocr後修正を含む様々なテキスト処理タスクの解決に成功している。 歴史的コーパスにニューラルネットワークを使用する主な欠点は、学習に必要な十分な大規模なトレーニングデータセットが欠如していることである。 さらに、ヘブライ語におけるOCR誤り訂正のためのニューラルネットワークのハイパーパラメータ(事前定義されたパラメータ)の最適構造と値が、その特徴から何であるかは明らかになっていない。 さらに、言語はジャンルや時代によって変化する。 これらの変化は、OCR後ニューラルネットワークモデルの精度に影響を与える可能性がある。 これらの課題を克服するために、ヘブライ語でOCR後補正のための効果的なニューラルネットワークを構築するために、OCRエラーとハイパーパラメータ最適化を用いた人工トレーニングデータセットを生成するための新しいマルチフェーズ手法を開発した。

Over the past few decades, large archives of paper-based historical documents, such as books and newspapers, have been digitized using the Optical Character Recognition (OCR) technology. Unfortunately, this broadly used technology is error-prone, especially when an OCRed document was written hundreds of years ago. Neural networks have shown great success in solving various text processing tasks, including OCR post-correction. The main disadvantage of using neural networks for historical corpora is the lack of sufficiently large training datasets they require to learn from, especially for morphologically-rich languages like Hebrew. Moreover, it is not clear what are the optimal structure and values of hyperparameters (predefined parameters) of neural networks for OCR error correction in Hebrew due to its unique features. Furthermore, languages change across genres and periods. These changes may affect the accuracy of OCR post-correction neural network models. To overcome these challenges, we developed a new multi-phase method for generating artificial training datasets with OCR errors and hyperparameters optimization for building an effective neural network for OCR post-correction in Hebrew.
翻訳日:2023-08-01 16:57:33 公開日:2023-07-30
# 状態不確実性を考慮したロバストなマルチエージェント強化学習

Robust Multi-Agent Reinforcement Learning with State Uncertainty ( http://arxiv.org/abs/2307.16212v1 )

ライセンス: Link先を確認
Sihong He, Songyang Han, Sanbao Su, Shuo Han, Shaofeng Zou, Fei Miao(参考訳) 実世界のマルチエージェント強化学習(MARL)アプリケーションでは、エージェントは完全な状態情報(例えば不正確な測定や悪意のある攻撃)を持っておらず、エージェントのポリシーの堅牢性に挑戦する。 MARLの展開においてロバスト性は重要になっているが、MARLにおける状態の不確実性の研究は、問題定式化やアルゴリズム設計においてもほとんど行われていない。 このロバスト性問題とそれに対応する研究の欠如により、本研究における状態の不確実性を伴うMARLの問題を研究する。 我々は、この困難な問題の理論的、実証的な分析に最初の試みを提供する。 まず,状態摂動敵のセットをマルコフゲームに導入することにより,状態摂動敵(mg-spa)を伴うマルコフゲームとして問題をモデル化する。 次に、MG-SPAの解概念としてロバスト平衡(RE)を導入する。 このような堅牢な平衡が存在する条件を与えるなど、MG-SPAに関する基本的な分析を行う。 そこで我々は, 収束保証とともに, その平衡を求める頑健なマルチエージェントQ-ラーニング (RMAQ) アルゴリズムを提案する。 高次元状態-作用空間を扱うために,本論文から導出されたポリシー勾配の解析的表現に基づいて,ロバストなマルチエージェントアクタ-クリティカル (RMAAC) アルゴリズムを設計する。 我々のRMAACアルゴリズムは,複数のマルチエージェント環境において,状態不確実性が存在する場合に,複数のMARL法および堅牢なMARL法より優れる。 ソースコードは \url{https://github.com/sihongho/robust_marl_with_state_uncertainty} で公開されている。

In real-world multi-agent reinforcement learning (MARL) applications, agents may not have perfect state information (e.g., due to inaccurate measurement or malicious attacks), which challenges the robustness of agents' policies. Though robustness is getting important in MARL deployment, little prior work has studied state uncertainties in MARL, neither in problem formulation nor algorithm design. Motivated by this robustness issue and the lack of corresponding studies, we study the problem of MARL with state uncertainty in this work. We provide the first attempt to the theoretical and empirical analysis of this challenging problem. We first model the problem as a Markov Game with state perturbation adversaries (MG-SPA) by introducing a set of state perturbation adversaries into a Markov Game. We then introduce robust equilibrium (RE) as the solution concept of an MG-SPA. We conduct a fundamental analysis regarding MG-SPA such as giving conditions under which such a robust equilibrium exists. Then we propose a robust multi-agent Q-learning (RMAQ) algorithm to find such an equilibrium, with convergence guarantees. To handle high-dimensional state-action space, we design a robust multi-agent actor-critic (RMAAC) algorithm based on an analytical expression of the policy gradient derived in the paper. Our experiments show that the proposed RMAQ algorithm converges to the optimal value function; our RMAAC algorithm outperforms several MARL and robust MARL methods in multiple multi-agent environments when state uncertainty is present. The source code is public on \url{https://github.com/sihongho/robust_marl_with_state_uncertainty}.
翻訳日:2023-08-01 16:57:15 公開日:2023-07-30
# マルチモーダルエンティティアライメントにおける不確かであいまいな視覚モダリティの再考

Rethinking Uncertainly Missing and Ambiguous Visual Modality in Multi-Modal Entity Alignment ( http://arxiv.org/abs/2307.16210v1 )

ライセンス: Link先を確認
Zhuo Chen, Lingbing Guo, Yin Fang, Yichi Zhang, Jiaoyan Chen, Jeff Z. Pan, Yangning Li, Huajun Chen, Wen Zhang(参考訳) エンティティアライメント(EA)の重要な拡張として、マルチモーダルエンティティアライメント(MMEA)は、関連する視覚情報を利用して、異なる知識グラフ(KG)間で同一のエンティティを識別することを目的としている。 しかし、既存のmmeaアプローチは主にマルチモーダルエンティティの特徴の融合パラダイムに集中しているが、視覚画像の欠如と内在的な曖昧さという広範囲にわたる現象によって生じる課題は無視されている。 本稿では,提案するデータセットmmea-umvmにおける最新のmmeaモデルのベンチマークにより,視覚モダリティの不完全性のさらなる分析を行い,モデル性能を評価するための標準(非イテレーティブ)および反復訓練パラダイムを用いて,バイリンガルとモノリンガルをカバーするアライメントkgのタイプについて述べる。 本研究は、モダリティの不完全性に直面したモデルがモダリティノイズを過大に満たし、モダリティの欠落率の高い性能振動や低下を示すことを示唆する。 これは、追加のマルチモーダルデータがeaに悪影響を及ぼす可能性があることを証明している。 これらの課題に対処するために、不確実で曖昧な視覚的モダリティに対処するために、堅牢なマルチモーダルエンティティアライメントアプローチであるUMAEAを導入する。 97のベンチマークスプリットすべてでSOTA性能を継続的に達成し、パラメータや時間消費が制限された既存のベースラインを大幅に上回り、他のモデルの特定された制限を効果的に緩和する。 コードとベンチマークデータはhttps://github.com/zjukg/UMAEA.comで公開されています。

As a crucial extension of entity alignment (EA), multi-modal entity alignment (MMEA) aims to identify identical entities across disparate knowledge graphs (KGs) by exploiting associated visual information. However, existing MMEA approaches primarily concentrate on the fusion paradigm of multi-modal entity features, while neglecting the challenges presented by the pervasive phenomenon of missing and intrinsic ambiguity of visual images. In this paper, we present a further analysis of visual modality incompleteness, benchmarking latest MMEA models on our proposed dataset MMEA-UMVM, where the types of alignment KGs covering bilingual and monolingual, with standard (non-iterative) and iterative training paradigms to evaluate the model performance. Our research indicates that, in the face of modality incompleteness, models succumb to overfitting the modality noise, and exhibit performance oscillations or declines at high rates of missing modality. This proves that the inclusion of additional multi-modal data can sometimes adversely affect EA. To address these challenges, we introduce UMAEA , a robust multi-modal entity alignment approach designed to tackle uncertainly missing and ambiguous visual modalities. It consistently achieves SOTA performance across all 97 benchmark splits, significantly surpassing existing baselines with limited parameters and time consumption, while effectively alleviating the identified limitations of other models. Our code and benchmark data are available at https://github.com/zjukg/UMAEA.
翻訳日:2023-08-01 16:56:44 公開日:2023-07-30
# 世界規模:深層ニューラルネットワークを用いた異種系譜知識グラフを用いた数値集計質問応答

Around the GLOBE: Numerical Aggregation Question-Answering on Heterogeneous Genealogical Knowledge Graphs with Deep Neural Networks ( http://arxiv.org/abs/2307.16208v1 )

ライセンス: Link先を確認
Omri Suissa, Maayan Zhitomirsky-Geffet, Avshalom Elmalech(参考訳) テキストコーパス探索のための重要なAIツールの1つは、自然言語質問回答(QA)である。 キーワードベースの検索エンジンとは異なり、qaアルゴリズムは自然言語質問を受け取り、処理し、ユーザーが手動でスキャンする必要のあるドキュメントの長いリストではなく、これらの質問に対する正確な回答を生成する。 DNNに基づく最先端QAアルゴリズムは、様々な領域でうまく採用された。 しかし、系譜学領域のQAはいまだ解明されていないが、この分野の研究者(および人文科学や社会科学の他の分野)は、自然言語で質問したり、具体的な回答を受け取ったり、大きなコーパスの中に隠された洞察を得る能力から大きな恩恵を受けることができる。 近ごろ、系譜学領域における実数QAについていくつかの研究が行われてきたが、我々の知る限りでは、数値集約QA(例えば、数、平均、最大など)のより困難な課題について、これまでの研究は行われていない。 文化遺産ドメインの調査に関心のある研究者(および一般人)にとって,数値集計qaは遠隔読書と分析に不可欠である。 そこで本研究では,系統樹の数値集約QAのための新しいエンドツーエンド手法を提案する。 1)データセット生成を訓練するための自動方法 2変圧器を用いたテーブル選択方法、及び 3) 最適化されたトランスフォーマーベース数値集約qaモデル。 その結果、提案アーキテクチャであるGLOBEは、現在の最先端モデルに比べてわずか21%の精度で87%の精度で、最先端モデルとパイプラインを上回ります。 本研究は系譜情報センターや博物館に実際的な意味を持ち,専門家や一般市民にとって,系図データ研究の容易かつスケーラブル化を図っている。

One of the key AI tools for textual corpora exploration is natural language question-answering (QA). Unlike keyword-based search engines, QA algorithms receive and process natural language questions and produce precise answers to these questions, rather than long lists of documents that need to be manually scanned by the users. State-of-the-art QA algorithms based on DNNs were successfully employed in various domains. However, QA in the genealogical domain is still underexplored, while researchers in this field (and other fields in humanities and social sciences) can highly benefit from the ability to ask questions in natural language, receive concrete answers and gain insights hidden within large corpora. While some research has been recently conducted for factual QA in the genealogical domain, to the best of our knowledge, there is no previous research on the more challenging task of numerical aggregation QA (i.e., answering questions combining aggregation functions, e.g., count, average, max). Numerical aggregation QA is critical for distant reading and analysis for researchers (and the general public) interested in investigating cultural heritage domains. Therefore, in this study, we present a new end-to-end methodology for numerical aggregation QA for genealogical trees that includes: 1) an automatic method for training dataset generation; 2) a transformer-based table selection method, and 3) an optimized transformer-based numerical aggregation QA model. The findings indicate that the proposed architecture, GLOBE, outperforms the state-of-the-art models and pipelines by achieving 87% accuracy for this task compared to only 21% by current state-of-the-art models. This study may have practical implications for genealogical information centers and museums, making genealogical data research easy and scalable for experts as well as the general public.
翻訳日:2023-08-01 16:56:14 公開日:2023-07-30
# 仮想空間を用いた日常活動のイベント中心知識グラフの合成

Synthesizing Event-centric Knowledge Graphs of Daily Activities Using Virtual Space ( http://arxiv.org/abs/2307.16206v1 )

ライセンス: Link先を確認
Shusaku Egami, Takanori Ugai, Mikiko Oono, Koji Kitamura, Ken Fukuda(参考訳) 人工知能(AI)は、ソフトウェアエージェント、ロボット、サイバー物理システムに具体化され、家庭環境における日常生活の様々な文脈情報を理解し、様々な状況における人間の行動や意思決定を支援することが期待されている。 シーングラフと知識グラフ(KG)構築技術は、この期待に応える知識に基づく具体的質問に多くの注目を集めている。 しかし、物理空間における様々な実験条件下での日常活動の実データ収集と管理は非常にコストがかかり、意図や文脈を理解するAIの開発は困難である。 将来的には, 条件の変更が容易な仮想空間と, 条件の変更が困難な物理空間の両方からのデータを組み合わせることで, 日常の生活行動を分析することが期待されている。 しかし,仮想空間を用いた日常活動のKG構築とその応用に関する研究はまだ進んでいない。 人間の日常生活におけるai開発を促進するためには、まだ可能性と課題を明確にする必要がある。 そこで本研究では,仮想空間における日常生活活動の合成KGを生成するためのVirtualHome2KGフレームワークを提案する。 本フレームワークは,提案するイベント中心スキーマと仮想空間シミュレーション結果に基づいて,日常行動の合成映像データと映像内容に対応する文脈意味データの両方を補強する。 そのため、コンテキスト認識データの解析が可能であり、関連するデータや意味情報が不十分なため、従来開発が困難であった様々なアプリケーションを開発することができる。 また,提案するvirtualhome2kgフレームワークの有用性と可能性について,クエリ,埋め込み,クラスタリングによる日々のアクティビティの分析,フォールリスク検出など,いくつかのユースケースを通じて実証した。

Artificial intelligence (AI) is expected to be embodied in software agents, robots, and cyber-physical systems that can understand the various contextual information of daily life in the home environment to support human behavior and decision making in various situations. Scene graph and knowledge graph (KG) construction technologies have attracted much attention for knowledge-based embodied question answering meeting this expectation. However, collecting and managing real data on daily activities under various experimental conditions in a physical space are quite costly, and developing AI that understands the intentions and contexts is difficult. In the future, data from both virtual spaces, where conditions can be easily modified, and physical spaces, where conditions are difficult to change, are expected to be combined to analyze daily living activities. However, studies on the KG construction of daily activities using virtual space and their application have yet to progress. The potential and challenges must still be clarified to facilitate AI development for human daily life. Thus, this study proposes the VirtualHome2KG framework to generate synthetic KGs of daily life activities in virtual space. This framework augments both the synthetic video data of daily activities and the contextual semantic data corresponding to the video contents based on the proposed event-centric schema and virtual space simulation results. Therefore, context-aware data can be analyzed, and various applications that have conventionally been difficult to develop due to the insufficient availability of relevant data and semantic information can be developed. We also demonstrate herein the utility and potential of the proposed VirtualHome2KG framework through several use cases, including the analysis of daily activities by querying, embedding, and clustering, and fall risk detection among ...
翻訳日:2023-08-01 16:55:48 公開日:2023-07-30
# 結晶性固体中のトポロジカル電子バンド

Topological electronic bands in crystalline solids ( http://arxiv.org/abs/2307.16258v1 )

ライセンス: Link先を確認
Andrew T. Boothroyd(参考訳) 現在、トポロジーは結晶性固体の電子状態の探索と分類の手段として確立されている。 このレビューは、この分野の新しい研究者に適したトポロジカル電子バンド構造について、穏やかだがしっかりと紹介するものである。 まず、トポロジーから関連する概念を概説し、次に周期ポテンシャルにおける非相互作用電子の理論を概説する。 次にベリー相とベリー曲率の概念を説明し、キー公式を導出する。 論文の残りの部分は、電子状態のトポロジーと観測可能な性質の意義に基づいて結晶性固体を分類するためにこれらのアイデアがどのように適用されるかを扱う。 対象とするトピックには、運動量空間におけるバンド退化の決定における対称性の役割、チャーン数とZ2位相不変量、表面電子状態、二次元および三次元位相絶縁体、ワイルおよびディラック半金属などがある。

Topology is now securely established as a means to explore and classify electronic states in crystalline solids. This review provides a gentle but firm introduction to topological electronic band structure suitable for new researchers in the field. I begin by outlining the relevant concepts from topology, then give a summary of the theory of non-interacting electrons in periodic potentials. Next, I explain the concepts of the Berry phase and Berry curvature, and derive key formulae. The remainder of the article deals with how these ideas are applied to classify crystalline solids according to the topology of the electronic states, and the implications for observable properties. Among the topics covered are the role of symmetry in determining band degeneracies in momentum space, the Chern number and Z2 topological invariants, surface electronic states, two- and three-dimensional topological insulators, and Weyl and Dirac semimetals
翻訳日:2023-08-01 16:50:52 公開日:2023-07-30
# 3dネットワークと2dネットワーク間のクロスティーチングによるスパースアノテーションを用いた3次元医用画像分割

3D Medical Image Segmentation with Sparse Annotation via Cross-Teaching between 3D and 2D Networks ( http://arxiv.org/abs/2307.16256v1 )

ライセンス: Link先を確認
Heng Cai, Lei Qi, Qian Yu, Yinghuan Shi, Yang Gao(参考訳) 医用画像のセグメンテーションは通常、大きく正確な注釈付きデータセットを必要とする。 しかし、ピクセル単位でのアノテーションの取得は、ドメインの専門家からの多大な労力を要する労働集約的な作業であり、実用的な臨床シナリオの取得が困難である。 このような状況では、必要なアノテーションの量を減らすことがより実用的なアプローチである。 sparseアノテーションは、いくつかのスライスのみに注釈を付け、正確な境界を保存するため、バウンディングボックスやスクリブルのような従来の弱いアノテーションメソッドよりもいくつかの利点がある。 しかし,監督信号の不足のため,注意の疎通から学ぶことは困難である。 この問題に対処するために,3次元ネットワークと2次元ネットワークの相互学習を用いて,スパースアノテーションから頑健に学習できるフレームワークを提案する。 これらのネットワークの特徴を考慮し,ハードソフト信頼しきい値と一貫性のあるラベル融合の2つの擬似ラベル選択戦略を開発した。 MMWHSデータセットに対する実験結果から,本手法は最先端(SOTA)半教師付きセグメンテーション法よりも優れていることが示された。 さらに,本手法は,完全教師付き上限値に匹敵する結果が得られる。

Medical image segmentation typically necessitates a large and precisely annotated dataset. However, obtaining pixel-wise annotation is a labor-intensive task that requires significant effort from domain experts, making it challenging to obtain in practical clinical scenarios. In such situations, reducing the amount of annotation required is a more practical approach. One feasible direction is sparse annotation, which involves annotating only a few slices, and has several advantages over traditional weak annotation methods such as bounding boxes and scribbles, as it preserves exact boundaries. However, learning from sparse annotation is challenging due to the scarcity of supervision signals. To address this issue, we propose a framework that can robustly learn from sparse annotation using the cross-teaching of both 3D and 2D networks. Considering the characteristic of these networks, we develop two pseudo label selection strategies, which are hard-soft confidence threshold and consistent label fusion. Our experimental results on the MMWHS dataset demonstrate that our method outperforms the state-of-the-art (SOTA) semi-supervised segmentation methods. Moreover, our approach achieves results that are comparable to the fully-supervised upper bound result.
翻訳日:2023-08-01 16:50:38 公開日:2023-07-30
# Count, Decode and Fetch: 手書き漢字誤り訂正の新しいアプローチ

Count, Decode and Fetch: A New Approach to Handwritten Chinese Character Error Correction ( http://arxiv.org/abs/2307.16253v1 )

ライセンス: Link先を確認
Pengfei Hu, Jiefeng Ma, Zhenrong Zhang, Jun Du and Jianshu Zhang(参考訳) 近年,漢字をイデオロギー記述シーケンス(IDS)に分解するエンコーダデコーダ法を用いることで,手書き漢字の誤り訂正が大幅に改善されている。 しかし、既存の手法では、IDS配列に固有の言語情報を暗黙的にキャプチャし、エンコードし、文字と一致するIDS配列を生成する傾向にある。 これは、デコーダが代わりに見た文字にマッチするIDSシーケンスを生成するため、目に見えないミススペル文字を扱う場合の課題である。 そこで我々は,未確認の誤字に対するより優れた一般化を示す新しいアプローチであるCount,Decode and Fetch(CDF)を紹介する。 CDFは主にカウンタ、デコーダ、フェッチの3つの部分で構成されている。 第1段階では、カウンタはシンボルレベルの位置アノテーションなしで各ラジカルクラスの数を予測する。 第2段階では、デコーダはカウント情報を使用し、ステップごとにIDSシーケンスステップを生成する。 さらに、各時間ステップで計数情報を更新することにより、デコーダは各ラジカルの存在を認識する。 分解されたIDSシーケンスで、与えられた文字がミススペルされているかどうかを判断できる。 ミススペルされた場合、トランスダクティブ転送学習戦略下のフェッチーは、ユーザが元々書こうとしていた理想的特徴を予測する。 提案手法を既存のエンコーダデコーダモデルに統合し,性能を大幅に向上させる。

Recently, handwritten Chinese character error correction has been greatly improved by employing encoder-decoder methods to decompose a Chinese character into an ideographic description sequence (IDS). However, existing methods implicitly capture and encode linguistic information inherent in IDS sequences, leading to a tendency to generate IDS sequences that match seen characters. This poses a challenge when dealing with an unseen misspelled character, as the decoder may generate an IDS sequence that matches a seen character instead. Therefore, we introduce Count, Decode and Fetch (CDF), a novel approach that exhibits better generalization towards unseen misspelled characters. CDF is mainly composed of three parts: the counter, the decoder, and the fetcher. In the first stage, the counter predicts the number of each radical class without the symbol-level position annotations. In the second stage, the decoder employs the counting information and generates the IDS sequence step by step. Moreover, by updating the counting information at each time step, the decoder becomes aware of the existence of each radical. With the decomposed IDS sequence, we can determine whether the given character is misspelled. If it is misspelled, the fetcher under the transductive transfer learning strategy predicts the ideal character that the user originally intended to write. We integrate our method into existing encoder-decoder models and significantly enhance their performance.
翻訳日:2023-08-01 16:50:16 公開日:2023-07-30
# DRL4Route: ピックアップおよびデリバリ経路予測のための深層強化学習フレームワーク

DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and Delivery Route Prediction ( http://arxiv.org/abs/2307.16246v1 )

ライセンス: Link先を確認
Xiaowei Mao, Haomin Wen, Hengrui Zhang, Huaiyu Wan, Lixia Wu, Jianbin Zheng, Haoyuan Hu, Youfang Lin(参考訳) 現在のタスクプールから作業者の将来のサービス経路を推定することを目的としたピックアップ・アンド・デリバリ・ルート予測(pdrp)が近年注目を集めている。 教師付き学習に基づくディープニューラルネットワークは、巨大な履歴データから労働者の行動パターンをキャプチャする能力を持つため、タスクの主要なモデルとなっている。 有望ではあるが、トレーニングプロセスに区別不能なテスト基準を導入することに失敗し、トレーニングとテスト基準のミスマッチを引き起こした。 実用システムに適用すると、パフォーマンスが大幅に低下します。 本稿では,経路予測タスクへの強化学習(rl)を一般化する最初の試みとして,新しいrlベースのフレームワークであるdrl4routeを提案する。 従来のディープラーニングモデルの行動学習能力と強化学習の非微分的客観的最適化能力とを組み合わせる。 drl4routeは、既存のディープラーニングモデルを強化するためのプラグアンドプレイコンポーネントとして機能する。 このフレームワークに基づいて,ロジスティックサービスにおけるPDRPのためのDRL4Route-GAEモデルをさらに実装する。 これは、ポリシー勾配推定のバイアスと分散のバランスをとることができる一般化アドバンテージ推定器を備えたアクター批判アーキテクチャに従い、より最適なポリシーを達成する。 大規模なオフライン実験とオンライン展開により、DRL4Route-GAEはロケーションスクエア偏差(LSD)を0.9%-2.7%改善し、Accuracy@3(ACC@3)を2.4%-3.2%改善した。

Pick-up and Delivery Route Prediction (PDRP), which aims to estimate the future service route of a worker given his current task pool, has received rising attention in recent years. Deep neural networks based on supervised learning have emerged as the dominant model for the task because of their powerful ability to capture workers' behavior patterns from massive historical data. Though promising, they fail to introduce the non-differentiable test criteria into the training process, leading to a mismatch in training and test criteria. Which considerably trims down their performance when applied in practical systems. To tackle the above issue, we present the first attempt to generalize Reinforcement Learning (RL) to the route prediction task, leading to a novel RL-based framework called DRL4Route. It combines the behavior-learning abilities of previous deep learning models with the non-differentiable objective optimization ability of reinforcement learning. DRL4Route can serve as a plug-and-play component to boost the existing deep learning models. Based on the framework, we further implement a model named DRL4Route-GAE for PDRP in logistic service. It follows the actor-critic architecture which is equipped with a Generalized Advantage Estimator that can balance the bias and variance of the policy gradient estimates, thus achieving a more optimal policy. Extensive offline experiments and the online deployment show that DRL4Route-GAE improves Location Square Deviation (LSD) by 0.9%-2.7%, and Accuracy@3 (ACC@3) by 2.4%-3.2% over existing methods on the real-world dataset.
翻訳日:2023-08-01 16:49:55 公開日:2023-07-30
# sr-r$^2$kac:単一画像デフォーカスデブラリングの改善

SR-R$^2$KAC: Improving Single Image Defocus Deblurring ( http://arxiv.org/abs/2307.16242v1 )

ライセンス: Link先を確認
Peng Tang, Zhiqiang Xu, Pengfei Wei, Xiaobin Hu, Peilin Zhao, Xin Cao, Chunlai Zhou, Tobias Lasser(参考訳) 逆カーネル特性のさらなる探索により,単一画像デフォーカス除去(SIDD)のための効率的な深層学習法を提案する。 現在の逆カーネル法、すなわちカーネル共有並列アトラス畳み込み(KPAC)は空間的に異なるデフォーカスのぼかしに対処できるが、この種の大きなぼかしを扱うには困難である。 この問題に対処するために、Residual and Recursive Kernel-sharing Atrous Convolution (R$^2$KAC)を提案する。 R$^2$KACは、逆カーネルベースのデコンボリューションを一定サイズで連続的に使用することにより、予期せぬ大きなぼやけを除去するが、リングアーティファクトを生成する。 具体的には、マルチスケールの逆カーネルをシミュレートするカーネル共有アラス畳み込みの上で、R$^2$KACは大きな逆カーネルをシミュレートするために再帰的にアラス畳み込みを適用する。 特に、カーネル共有アトーラス畳み込みの上に、r$^2$kac はアトーラス畳み込みを再帰的に積み上げ、大きな逆核をシミュレートする。 さらに再帰的な積み重ね、すなわちリングアーティファクトの偶発的効果を緩和するため、アトラス畳み込みの間にidショートカットを追加し、残余のデコンボリューションをシミュレートする。 最後に、R$^2$KACネットワークにスケールリカレントモジュールが組み込まれ、SR-R$^2$KACとなる。 実験結果から,本手法が最先端性能を実現することを示す。

We propose an efficient deep learning method for single image defocus deblurring (SIDD) by further exploring inverse kernel properties. Although the current inverse kernel method, i.e., kernel-sharing parallel atrous convolution (KPAC), can address spatially varying defocus blurs, it has difficulty in handling large blurs of this kind. To tackle this issue, we propose a Residual and Recursive Kernel-sharing Atrous Convolution (R$^2$KAC). R$^2$KAC builds on a significant observation of inverse kernels, that is, successive use of inverse-kernel-based deconvolutions with fixed size helps remove unexpected large blurs but produces ringing artifacts. Specifically, on top of kernel-sharing atrous convolutions used to simulate multi-scale inverse kernels, R$^2$KAC applies atrous convolutions recursively to simulate a large inverse kernel. Specifically, on top of kernel-sharing atrous convolutions, R$^2$KAC stacks atrous convolutions recursively to simulate a large inverse kernel. To further alleviate the contingent effect of recursive stacking, i.e., ringing artifacts, we add identity shortcuts between atrous convolutions to simulate residual deconvolutions. Lastly, a scale recurrent module is embedded in the R$^2$KAC network, leading to SR-R$^2$KAC, so that multi-scale information from coarse to fine is exploited to progressively remove the spatially varying defocus blurs. Extensive experimental results show that our method achieves the state-of-the-art performance.
翻訳日:2023-08-01 16:49:25 公開日:2023-07-30
# シナプス塑性モデルとバイオインスパイア非教師なし深層学習

Synaptic Plasticity Models and Bio-Inspired Unsupervised Deep Learning: A Survey ( http://arxiv.org/abs/2307.16236v1 )

ライセンス: Link先を確認
Gabriele Lagani, Fabrizio Falchi, Claudio Gennaro, Giuseppe Amato(参考訳) 最近登場したディープラーニング(dl)に基づく技術は、人工知能(ai)の分野で様々なタスクで優れた成果を上げている。 しかし、これらは敵の入力に対する堅牢性、生態学的影響、および大量のトレーニングデータの必要性に関連するいくつかの課題に直面している。 研究者たちは、生物学的な脳が持つ印象的な能力により、生物学的に接地したメカニズムにますます関心を寄せている。 本調査では, シナプスの可塑性モデル, DLシナリオへの応用, スパイキングニューラルネットワーク(SNN)における可塑性モデルとの関係について検討した。 バイオインスパイアされたディープラーニング(bio-Inspired Deep Learning, BIDL)は、私たちの現在の技術だけでなく、インテリジェンスに対する理解も進めることを目指して、エキサイティングな研究の方向性を示している。

Recently emerged technologies based on Deep Learning (DL) achieved outstanding results on a variety of tasks in the field of Artificial Intelligence (AI). However, these encounter several challenges related to robustness to adversarial inputs, ecological impact, and the necessity of huge amounts of training data. In response, researchers are focusing more and more interest on biologically grounded mechanisms, which are appealing due to the impressive capabilities exhibited by biological brains. This survey explores a range of these biologically inspired models of synaptic plasticity, their application in DL scenarios, and the connections with models of plasticity in Spiking Neural Networks (SNNs). Overall, Bio-Inspired Deep Learning (BIDL) represents an exciting research direction, aiming at advancing not only our current technologies but also our understanding of intelligence.
翻訳日:2023-08-01 16:48:51 公開日:2023-07-30
# ニューラルネットワークのスパイキングとバイオインスパイアされた深層学習:サーベイ

Spiking Neural Networks and Bio-Inspired Supervised Deep Learning: A Survey ( http://arxiv.org/abs/2307.16235v1 )

ライセンス: Link先を確認
Gabriele Lagani, Fabrizio Falchi, Claudio Gennaro, Giuseppe Amato(参考訳) 長い間、生物学と神経科学の分野は、人工知能(AI)技術の発展に向けて、コンピュータ科学者にとって大きなインスピレーションの源だった。 この調査は、最近の生物学的にインスパイアされたAIのアプローチの包括的なレビューを提供することを目的としている。 生体ニューロンにおける計算とシナプス可塑性の主な原理を導入し、スパイキングニューラルネットワーク(SNN)モデルの徹底的なプレゼンテーションを行い、従来のバックプロップベースの最適化が直接適用されないSNNトレーニングに関する主な課題を強調した。 そこで,本研究では,従来のネットワークとスパイクネットワークの両方において,バックプロップの代替となるバイオインスパイアされたトレーニング手法について論じる。 バイオインスパイアされたディープラーニング(BIDL)は、現在のモデルの計算能力と生物学的妥当性の向上にアプローチする。

For a long time, biology and neuroscience fields have been a great source of inspiration for computer scientists, towards the development of Artificial Intelligence (AI) technologies. This survey aims at providing a comprehensive review of recent biologically-inspired approaches for AI. After introducing the main principles of computation and synaptic plasticity in biological neurons, we provide a thorough presentation of Spiking Neural Network (SNN) models, and we highlight the main challenges related to SNN training, where traditional backprop-based optimization is not directly applicable. Therefore, we discuss recent bio-inspired training methods, which pose themselves as alternatives to backprop, both for traditional and spiking networks. Bio-Inspired Deep Learning (BIDL) approaches towards advancing the computational capabilities and biological plausibility of current models.
翻訳日:2023-08-01 16:48:36 公開日:2023-07-30
# 大規模言語モデルのためのプライベートウォーターマーク

A Private Watermark for Large Language Models ( http://arxiv.org/abs/2307.16230v1 )

ライセンス: Link先を確認
Aiwei Liu, Leyi Pan, Xuming Hu, Shu'ang Li, Lijie Wen, Irwin King and Philip S. Yu(参考訳) 近年,大型言語モデル (LLM) のテキスト透かしアルゴリズムは,偽ニュースや著作権問題を含むLLMが生成するテキストの潜在的な害を軽減している。 しかし、現在のテキストアルゴリズムの透かし検出には、生成プロセスのキーが必要であるため、違反や偽造の影響を受けやすい。 本研究では,両段階で同じキーを使用するのではなく,それぞれ異なる2つのニューラルネットワークを用いて電子透かしの生成と検出を行うことにより,現在のテキスト透かしアルゴリズムを拡張した最初のプライベート透かしアルゴリズムを提案する。 一方、透かし生成および検出ネットワークのパラメータの一部を共有することにより、検出ネットワークを極めて効率的に行うことができる。 実験の結果,両ネットワークのパラメータサイズが小さいため,生成速度と検出速度に最小限の影響を伴って高い検出精度が保証された。 また,その後の解析により,検出ネットワークからの透かし生成ルールの復元が困難であることを実証した。

Recently, text watermarking algorithms for large language models (LLMs) have been mitigating the potential harms of text generated by the LLMs, including fake news and copyright issues. However, the watermark detection of current text algorithms requires the key from the generation process, making them susceptible to breaches and counterfeiting. In this work, we propose the first private watermarking algorithm, which extends the current text watermarking algorithms by using two different neural networks respectively for watermark generation and detection, rather than using the same key at both stages. Meanwhile, part of the parameters of the watermark generation and detection networks are shared, which makes the detection network achieve a high accuracy very efficiently. Experiments show that our algorithm ensures high detection accuracy with minimal impact on generation and detection speed, due to the small parameter size of both networks. Additionally, our subsequent analysis demonstrates the difficulty of reverting the watermark generation rules from the detection network.
翻訳日:2023-08-01 16:48:22 公開日:2023-07-30
# 自律移動型オンデマンドシステムのロバストな電気自動車バランス:マルチエージェント強化学習アプローチ

Robust Electric Vehicle Balancing of Autonomous Mobility-On-Demand System: A Multi-Agent Reinforcement Learning Approach ( http://arxiv.org/abs/2307.16228v1 )

ライセンス: Link先を確認
Sihong He, Shuo Han, Fei Miao(参考訳) 電気自動車(EAV)は、経済と社会的利益のために、将来の自動運転モビリティ・オン・デマンド(AMoD)システムに注目を集めている。 しかし、EAVのユニークな充電パターン(充電時間、充電頻度、予測不可能な充電行動など)は、E-AMoDシステムにおけるEAVの供給を正確に予測することが困難である。 さらに、モビリティ需要の予測の不確実性は、需給不確実性の下での統合車両バランスソリューションを設計することが緊急かつ困難な課題となる。 強化学習に基づくE-AMoDバランスアルゴリズムの成功にもかかわらず、EV供給や移動需要による状態の不確実性は未解明のままである。 本研究では,E-AMoDシステムにおけるEAVバランスのためのマルチエージェント強化学習(MARL)ベースのフレームワークを設計し,車両バランスソリューションを損なう可能性のあるEAVサプライとモビリティ要求の不確実性の両方をモデル化する。 次に、都市全体での需給比率と充電利用率のバランスをとるために、ロバストなEAVバランスポリシをトレーニングするためのロバストなE-AMoDバランシングMARL(REBAMA)アルゴリズムを提案する。 提案手法は, 不確実性を考慮しない非ロバストMARL法と比較して, それぞれ19.28%, 28.18%, 3.97%の報奨, 課金利用フェアネス, 需給フェアネスを改善した。 提案手法はロバストな最適化に基づく手法と比較して, 報酬, 課金利用フェアネス, 供給需要フェアネスをそれぞれ8.21%, 8.29%, 9.42%改善できる。

Electric autonomous vehicles (EAVs) are getting attention in future autonomous mobility-on-demand (AMoD) systems due to their economic and societal benefits. However, EAVs' unique charging patterns (long charging time, high charging frequency, unpredictable charging behaviors, etc.) make it challenging to accurately predict the EAVs supply in E-AMoD systems. Furthermore, the mobility demand's prediction uncertainty makes it an urgent and challenging task to design an integrated vehicle balancing solution under supply and demand uncertainties. Despite the success of reinforcement learning-based E-AMoD balancing algorithms, state uncertainties under the EV supply or mobility demand remain unexplored. In this work, we design a multi-agent reinforcement learning (MARL)-based framework for EAVs balancing in E-AMoD systems, with adversarial agents to model both the EAVs supply and mobility demand uncertainties that may undermine the vehicle balancing solutions. We then propose a robust E-AMoD Balancing MARL (REBAMA) algorithm to train a robust EAVs balancing policy to balance both the supply-demand ratio and charging utilization rate across the whole city. Experiments show that our proposed robust method performs better compared with a non-robust MARL method that does not consider state uncertainties; it improves the reward, charging utilization fairness, and supply-demand fairness by 19.28%, 28.18%, and 3.97%, respectively. Compared with a robust optimization-based method, the proposed MARL algorithm can improve the reward, charging utilization fairness, and supply-demand fairness by 8.21%, 8.29%, and 9.42%, respectively.
翻訳日:2023-08-01 16:47:53 公開日:2023-07-30
# InfoStyler: アートスタイル転送のためのアンタングル情報ブロック

InfoStyler: Disentanglement Information Bottleneck for Artistic Style Transfer ( http://arxiv.org/abs/2307.16227v1 )

ライセンス: Link先を確認
Yueming Lyu, Yue Jiang, Bo Peng, Jing Dong(参考訳) アートスタイルの転送は、アートワークのスタイルをオリジナルの全体コンテンツを維持しながら写真に転送することを目的としている。 多くの先行研究は、スタイル統計をコンテンツイメージに転送する様々な転送モジュールの設計に重点を置いていた。 コンテンツの特徴とスタイルの特徴の明確な乱れを最初から無視することは有効であるが、コンテンツ保存とスタイル転送のバランスをとることは困難である。 そこで本研究では,事前学習した符号化ネットワークから,コンテンツとスタイル表現の双方について,最小限の情報を取得するために,InfoStylerという新しい情報分散手法を提案する。 infostylerは、コンテンツ画像からスタイル統計を取り除き、スタイル画像からコンテンツ構造を取り除いて、情報圧縮問題として不等角表現学習を定式化する。 さらに, 分節学習をさらに促進するために, 内容領域とスタイル領域を再構築し, クロスドメイン情報ボトルネック(ib)学習戦略を提案する。 我々のInfoStylerは、コンテンツ構造保存とスタイルパターンの豊かさのバランスを保ちながら高品質なスタイリング画像を合成できることを示した。

Artistic style transfer aims to transfer the style of an artwork to a photograph while maintaining its original overall content. Many prior works focus on designing various transfer modules to transfer the style statistics to the content image. Although effective, ignoring the clear disentanglement of the content features and the style features from the first beginning, they have difficulty in balancing between content preservation and style transferring. To tackle this problem, we propose a novel information disentanglement method, named InfoStyler, to capture the minimal sufficient information for both content and style representations from the pre-trained encoding network. InfoStyler formulates the disentanglement representation learning as an information compression problem by eliminating style statistics from the content image and removing the content structure from the style image. Besides, to further facilitate disentanglement learning, a cross-domain Information Bottleneck (IB) learning strategy is proposed by reconstructing the content and style domains. Extensive experiments demonstrate that our InfoStyler can synthesize high-quality stylized images while balancing content structure preservation and style pattern richness.
翻訳日:2023-08-01 16:46:52 公開日:2023-07-30
# 微小塑性粉体に対するエッジベース物体検出の実装

Implementing Edge Based Object Detection For Microplastic Debris ( http://arxiv.org/abs/2307.16289v1 )

ライセンス: Link先を確認
Amardeep Singh, Prof. Charles Jia, Prof. Donald Kirk(参考訳) プラスチックは、我々の日々の活動において欠かせない部分であり、生分解性のない性質と安価な生産価格のために問題の原因となっている。 これらの問題により、廃棄の余効や適切な処分の欠如を緩和し、対応することが課題となり、それによって廃棄物は場所に集中し、植物や動物の生態系を乱すことになる。 埋立地のゴミ処理場や自然水域のゴミ処理場に廃棄物が蓄積されるにつれて, プラスチックの破片レベルが上昇し続けており, この流れを埋めるか, 止めるかが急務である。 手動のソート操作と検出は解決策を提供するが、無駄を取り除くためにロボットの付属物と関連づけられた高度に高度なコンピュータイメージを使用して拡張することができる。 このレポートにおけるフォーカスの第一の応用は、インターネットへの光依存と遠隔地での情報を中継する能力によって、目新しさを増したコンピュータビジョンとオープンビジョンである。 これらの応用は、海や川でプラスチックの破片が増加する問題に対抗し、接続をほとんど必要とせず、適度なメンテナンスで同じ結果が得られるエッジベースのモビリティデバイスの開発に応用することができる。 このプロジェクトの主な発見は、画像中のムダを検出するためにテストおよびデプロイされた様々な方法と、異なるムダタイプと比較することである。 プロジェクトは、拡張CNNアプローチを使用してサンプル画像の時間的検出が可能な実行可能なモデルを生成することができる。 プロジェクトの小さな部分は、廃棄物検出研究を大規模環境に拡張するための最良のハードウェアを含む、最高の精度に到達するために必要な事前処理ステップのより良い解釈も達成している。

Plastic has imbibed itself as an indispensable part of our day to day activities, becoming a source of problems due to its non-biodegradable nature and cheaper production prices. With these problems, comes the challenge of mitigating and responding to the aftereffects of disposal or the lack of proper disposal which leads to waste concentrating in locations and disturbing ecosystems for both plants and animals. As plastic debris levels continue to rise with the accumulation of waste in garbage patches in landfills and more hazardously in natural water bodies, swift action is necessary to plug or cease this flow. While manual sorting operations and detection can offer a solution, they can be augmented using highly advanced computer imagery linked with robotic appendages for removing wastes. The primary application of focus in this report are the much-discussed Computer Vision and Open Vision which have gained novelty for their light dependence on internet and ability to relay information in remote areas. These applications can be applied to the creation of edge-based mobility devices that can as a counter to the growing problem of plastic debris in oceans and rivers, demanding little connectivity and still offering the same results with reasonably timed maintenance. The principal findings of this project cover the various methods that were tested and deployed to detect waste in images, as well as comparing them against different waste types. The project has been able to produce workable models that can perform on time detection of sampled images using an augmented CNN approach. Latter portions of the project have also achieved a better interpretation of the necessary preprocessing steps required to arrive at the best accuracies, including the best hardware for expanding waste detection studies to larger environments.
翻訳日:2023-08-01 16:39:01 公開日:2023-07-30
# ストレージシステムの予測可能性の学習に向けて

Towards Learned Predictability of Storage Systems ( http://arxiv.org/abs/2307.16288v1 )

ライセンス: Link先を確認
Chenyuan Wu(参考訳) クラウドコンピューティングとビッグデータ技術の急速な発展により、ストレージシステムはデータセンターの基本的なビルディングブロックとなり、フラッシュソリッドステートドライブや不揮発性メモリなどのハードウェア革新や、RAIDや分散ファイルシステムなどのソフトウェア基盤を取り入れている。 ストレージの普及と関心にもかかわらず、信頼性の高いストレージシステムの設計と実装は、パフォーマンスの不安定さと一般的なハードウェア障害のため、依然として難しい。 積極的な予測はストレージシステムの信頼性を大幅に強化する。 予測には、パフォーマンスと失敗の2つの側面がある。 理想的には、遅いIOリクエストを事前に検出し、実際に発生する前にデバイス障害を予測することで、特にテールレイテンシと高可用性を備えたストレージシステムを構築することができる。 その重要性はよく認識されているが、ストレージシステムにおけるこのような積極的な予測は特に困難である。 近年,ストレージシステムの予測可能性に向けて,様々な機構とフィールド研究が提案されている。 本稿では,これらのメカニズムとフィールドスタディについて,機械学習に基づくブラックボックスアプローチに着目した調査を行う。 3つの代表的な研究成果に基づき、この分野で機械学習をどのように適用すべきかを論じる。 それぞれの研究成果の強さや限界も詳細に評価されている。

With the rapid development of cloud computing and big data technologies, storage systems have become a fundamental building block of datacenters, incorporating hardware innovations such as flash solid state drives and non-volatile memories, as well as software infrastructures such as RAID and distributed file systems. Despite the growing popularity and interests in storage, designing and implementing reliable storage systems remains challenging, due to their performance instability and prevailing hardware failures. Proactive prediction greatly strengthens the reliability of storage systems. There are two dimensions of prediction: performance and failure. Ideally, through detecting in advance the slow IO requests, and predicting device failures before they really happen, we can build storage systems with especially low tail latency and high availability. While its importance is well recognized, such proactive prediction in storage systems, on the other hand, is particularly difficult. To move towards predictability of storage systems, various mechanisms and field studies have been proposed in the past few years. In this report, we present a survey of these mechanisms and field studies, focusing on machine learning based black-box approaches. Based on three representative research works, we discuss where and how machine learning should be applied in this field. The strengths and limitations of each research work are also evaluated in detail.
翻訳日:2023-08-01 16:38:31 公開日:2023-07-30
# AutoMLとDecision Forestsを用いたインド下級裁判所の遅延予測

Predicting delays in Indian lower courts using AutoML and Decision Forests ( http://arxiv.org/abs/2307.16285v1 )

ライセンス: Link先を確認
Mohit Bhatnagar, Shivraj Huchhanavar(参考訳) 本稿では,インドの下級裁判所において,出願時に利用可能な事例情報に基づいて遅延を予測する分類モデルを提案する。 このモデルは2010年に提出された4200万件の訴訟のデータセットと、10年間にわたる結果に基づいて構築されている。 データセットはインドの7000以上の下級裁判所から作成されている。 著者らはAutoMLを用いて、ペンダンシーのすべての期間にわたるマルチクラス分類モデルを開発し、二分決定森林分類器を使用して遅延分類の予測精度を向上した。 最良のモデルは81.4%の精度を達成し、精度、リコール、f1は0.81であった。 この研究は、司法、裁判所、裁判官、主題、関連する当事者など、関連するデータポイントに基づいて、インドの裁判所で遅延を予測するAIモデルの実現可能性を示している。 また,研究成果を文献に照らして考察し,改善と今後の研究の分野を提案する。 著者らは、この分析に使用されるデータセットとPythonのコードファイルを作成し、インドにおける司法改革の重要かつ現代的な分野のさらなる研究に利用した。

This paper presents a classification model that predicts delays in Indian lower courts based on case information available at filing. The model is built on a dataset of 4.2 million court cases filed in 2010 and their outcomes over a 10-year period. The data set is drawn from 7000+ lower courts in India. The authors employed AutoML to develop a multi-class classification model over all periods of pendency and then used binary decision forest classifiers to improve predictive accuracy for the classification of delays. The best model achieved an accuracy of 81.4%, and the precision, recall, and F1 were found to be 0.81. The study demonstrates the feasibility of AI models for predicting delays in Indian courts, based on relevant data points such as jurisdiction, court, judge, subject, and the parties involved. The paper also discusses the results in light of relevant literature and suggests areas for improvement and future research. The authors have made the dataset and Python code files used for the analysis available for further research in the crucial and contemporary field of Indian judicial reform.
翻訳日:2023-08-01 16:38:11 公開日:2023-07-30
# 量子クリロフ部分空間対角化におけるサンプリング誤差解析

Sampling Error Analysis in Quantum Krylov Subspace Diagonalization ( http://arxiv.org/abs/2307.16279v1 )

ライセンス: Link先を確認
Gwonhak Lee, Dongkeun Lee, and Joonsuk Huh(参考訳) 量子クリロフ部分空間対角化(Quantum Krylov subspace diagonalization, QKSD)は、量子回路深度が制限された初期のフォールトトレラント時代の量子位相推定に代えて用いられる新しい手法である。 古典的なKrylov部分空間対角化(KSD)やLanczos法とは対照的に、QKSDは量子コンピュータを利用して、より高速なKrylov射影によって大きなハミルトンの固有値を効率的に推定する。 しかし、機械精度にのみ関心を持つ古典的KSDとは異なり、QKSDは本質的には有限個のサンプルから生じる誤差を伴う。 さらに, 人工直交基底の確立が困難であったため, 条件の悪さがしばしば発生し, ノイズに弱い解が生じる。 本研究では,サンプリングノイズと固有値に対する効果の関係を評価するための漸近的理論フレームワークを提案する。 また,不条件ベースを排除し,大規模条件数に対処する最適解を提案する。 一次元ハバードモデルの数値シミュレーションは、有限サンプリングの誤差境界が良条件領域の実験誤差を正確に予測することを示した。

Quantum Krylov subspace diagonalization (QKSD) is an emerging method used in place of quantum phase estimation for the early fault-tolerant era, where limited quantum circuit depth is available. In contrast to the classical Krylov subspace diagonalization (KSD) or the Lanczos method, QKSD exploits the quantum computer to efficiently estimate the eigenvalues of large-size Hamiltonians through a faster Krylov projection. However, unlike classical KSD, which is solely concerned with machine precision, QKSD is inherently accompanied by errors originating from a finite number of samples. Moreover, due to difficulty establishing an artificial orthogonal basis, ill-conditioning problems are often encountered, rendering the solution vulnerable to noise. In this work, we present a nonasymptotic theoretical framework to assess the relationship between sampling noise and its effects on eigenvalues. We also propose an optimal solution to cope with large condition numbers by eliminating the ill-conditioned bases. Numerical simulations of the one-dimensional Hubbard model demonstrate that the error bound of finite samplings accurately predicts the experimental errors in well-conditioned regions.
翻訳日:2023-08-01 16:37:53 公開日:2023-07-30
# Stylized Projected GAN: 高速でリアルな画像生成のための新しいアーキテクチャ

Stylized Projected GAN: A Novel Architecture for Fast and Realistic Image Generation ( http://arxiv.org/abs/2307.16275v1 )

ライセンス: Link先を確認
Md Nurul Muttakin, Malik Shahid Sultan, Robert Hoehndorf, Hernando Ombao(参考訳) ジェネレータと判別器を用いてデータを生成するには、通常ganが高品質な画像を生成するが、敵対的な設定でganを訓練することは難しい。 GANは収束のために高い計算能力とハイパーパラメータ正規化を必要とする。 プロジェクションされたGANは、トランスファーラーニングを使用して生成された実際のサンプルを事前訓練された特徴空間に投影することで、GANのトレーニング困難に対処する。 投影されたGANはトレーニング時間と収束性を向上するが、生成した画像中のアーティファクトを生成し、生成したサンプルの品質を低減し、Stylized Projected GANと呼ばれる最適化アーキテクチャを提案し、スタイルGANのマッピングネットワークとFast GANのスキップ層励起を統合する。 統合モジュールは、生成された画像内のアーティファクトの問題を軽減するために、fast ganのジェネレータアーキテクチャに組み込まれる。

Generative Adversarial Networks are used for generating the data using a generator and a discriminator, GANs usually produce high-quality images, but training GANs in an adversarial setting is a difficult task. GANs require high computation power and hyper-parameter regularization for converging. Projected GANs tackle the training difficulty of GANs by using transfer learning to project the generated and real samples into a pre-trained feature space. Projected GANs improve the training time and convergence but produce artifacts in the generated images which reduce the quality of the generated samples, we propose an optimized architecture called Stylized Projected GANs which integrates the mapping network of the Style GANs with Skip Layer Excitation of Fast GAN. The integrated modules are incorporated within the generator architecture of the Fast GAN to mitigate the problem of artifacts in the generated images.
翻訳日:2023-08-01 16:37:30 公開日:2023-07-30
# zkDL:Deep Learning Trainingの効率的なゼロ知識証明

zkDL: Efficient Zero-Knowledge Proofs of Deep Learning Training ( http://arxiv.org/abs/2307.16273v1 )

ライセンス: Link先を確認
Haochen Sun, Hongyang Zhang(参考訳) 近年のディープラーニングの進歩は、人々の生活の様々な側面に大きな変化をもたらした。 一方、これらの急速な発展は、ディープネットワークのトレーニングプロセスの正当性に関する懸念を引き起こしている。 しかし、信頼できないAI開発者の知的特性を保護するため、モデルパラメータと検証者によるトレーニングデータにアクセスしてトレーニングプロセスを直接検査することがしばしば禁止される。 この課題に対して,ディープラーニング学習の効率的なゼロ知識証明であるzkDLを提案する。 zkDLのコアとなるzkReLUは、ReLUアクティベーション関数の証明時間と証明サイズを最適化した特別なゼロ知識証明プロトコルである。 学習過程全体の証明システムにzkreluを統合するために,ニューラルネットワークから演算回路を新規に構築する手法を提案する。 並列計算資源を豊富に活用することにより、ネットワーク深さの係数による証明時間と証明サイズを削減できる。 結果として、zkDLは2億のパラメータを持つ16層ニューラルネットワークに対して、トレーニングステップあたり20kB未満のサイズの1分未満で、データとモデルパラメータのプライバシを確保しながら、完全かつ健全な証明を生成することができる。

The recent advancements in deep learning have brought about significant changes in various aspects of people's lives. Meanwhile, these rapid developments have raised concerns about the legitimacy of the training process of deep networks. However, to protect the intellectual properties of untrusted AI developers, directly examining the training process by accessing the model parameters and training data by verifiers is often prohibited. In response to this challenge, we present zkDL, an efficient zero-knowledge proof of deep learning training. At the core of zkDL is zkReLU, a specialized zero-knowledge proof protocol with optimized proving time and proof size for the ReLU activation function, a major obstacle in verifiable training due to its non-arithmetic nature. To integrate zkReLU into the proof system for the entire training process, we devise a novel construction of an arithmetic circuit from neural networks. By leveraging the abundant parallel computation resources, this construction reduces proving time and proof sizes by a factor of the network depth. As a result, zkDL enables the generation of complete and sound proofs, taking less than a minute with a size of less than 20 kB per training step, for a 16-layer neural network with 200M parameters, while ensuring the privacy of data and model parameters.
翻訳日:2023-08-01 16:37:14 公開日:2023-07-30
# ライドバーグあるいは分子合成次元を持つ有限温度量子物質

Finite-Temperature Quantum Matter with Rydberg or Molecule Synthetic Dimensions ( http://arxiv.org/abs/2307.16269v1 )

ライセンス: Link先を確認
Sohail Dasgupta, Chunhan Feng, Bryce Gadway, Richard T. Scalettar and Kaden R. A. Hazzard(参考訳) 合成次元プラットフォームは、エンジニアリング量子物質のためのユニークな経路を提供する。 我々は、超低温原子(または極性分子)の多体系の相図を合成次元として計算し、粒子は光学マイクロトラップアレイ内の実空間に配置され、双極子-双極子交換相互作用を介して相互作用する。 平均場理論を用いて、3つの秩序相が見つかる - 2つは合成次元で局所化され、Refのゼロ温度基底状態として予測される。 [Sci. Rep., 8, 1 (2018) および Phys. A 99, 013624 (2019)] それらの特徴は、ハミルトニアンの自発的に破れた離散対称性を同定することである。 また、位相図を温度と相互作用強度の関数として計算し、両者の相互作用の兆しを示す。 6つ以上の合成部位と魅力的な相互作用を持つ系の大きさの場合、熱相転移は第1または第2次となり、相境界上の三臨界点となる。 相境界の3臨界点およびその他の特別な点の合成次元サイズ依存性を調べることにより、熱力学的に大きな合成次元の物理に光を当てた。

Synthetic dimension platforms offer unique pathways for engineering quantum matter. We compute the phase diagram of a many-body system of ultracold atoms (or polar molecules) with a set of Rydberg states (or rotational states) as a synthetic dimension, where the particles are arranged in real space in optical microtrap arrays and interact via dipole-dipole exchange interaction. Using mean-field theory, we find three ordered phases - two are localized in the synthetic dimension, predicted as zero-temperature ground states in Refs. [Sci. Rep., 8, 1 (2018) and Phys. Rev. A 99, 013624 (2019)], and a delocalized phase. We characterize them by identifying the spontaneously broken discrete symmetries of the Hamiltonian. We also compute the phase diagram as a function of temperature and interaction strength, for both signs of the interaction. For system sizes with more than six synthetic sites and attractive interactions, we find that the thermal phase transitions can be first or second order, which leads to a tri-critical point on the phase boundary. By examining the dependence of the tri-critical point and other special points of the phase boundary on the synthetic dimension size, we shed light on the physics for thermodynamically large synthetic dimension.
翻訳日:2023-08-01 16:36:53 公開日:2023-07-30
# 量子最適輸送:量子チャネルと量子ビット

Quantum Optimal Transport: Quantum Channels and Qubits ( http://arxiv.org/abs/2307.16268v1 )

ライセンス: Link先を確認
Giacomo De Palma and Dario Trevisan(参考訳) これらのノートは、2022年9月にerd\"os centerで量子構造に関する最適な輸送に関する学校の第二著者が行った講義に基づいている。 1つは一般化された輸送計画としての量子チャネルに基づくもので、もう1つはマルチキュービット系における1次ハミング・ワッサーシュタイン距離の概念に基づくものである。 素材は、有限次元の設定に焦点をあてて初等的に提示される。

These notes are based on the lectures given by the second author at the School on Optimal Transport on Quantum Structures at Erd\"os Center in September 2022. The focus of the exposition is on two recently introduced approaches on quantum optimal transport: one based on quantum channels as generalized transport plans, the other based on the notion of Hamming-Wasserstein distance of order 1 on multiple-qubit systems. The material is presented in an elementary manner with a focus on the finite-dimensional setting.
翻訳日:2023-08-01 16:36:29 公開日:2023-07-30
# 階層型マルチラベルテキスト分類の最近の進歩:調査

Recent Advances in Hierarchical Multi-label Text Classification: A Survey ( http://arxiv.org/abs/2307.16265v1 )

ライセンス: Link先を確認
Rundong Liu, Wenhan Liang, Weijun Luo, Yuxiang Song, He Zhang, Ruohua Xu, Yunfeng Li, Ming Liu(参考訳) 階層型マルチラベルテキスト分類は、入力テキストを複数のラベルに分類することを目的としている。 これは、科学文献のアーカイブなど、多くの現実世界の応用において重要なタスクである。 本稿では,オープンソースデータセット,主要手法,評価指標,学習戦略,現在の課題などを含む階層型マルチラベルテキスト分類の最近の進歩について調査する。 今後の研究の方向性も、この分野をさらに改善するためにリストアップされている。

Hierarchical multi-label text classification aims to classify the input text into multiple labels, among which the labels are structured and hierarchical. It is a vital task in many real world applications, e.g. scientific literature archiving. In this paper, we survey the recent progress of hierarchical multi-label text classification, including the open sourced data sets, the main methods, evaluation metrics, learning strategies and the current challenges. A few future research directions are also listed for community to further improve this field.
翻訳日:2023-08-01 16:36:21 公開日:2023-07-30
# medico 2020 polyp segmentationとmedai 2021 transparency challengeによる大腸内視鏡におけるポリープおよびインスツルメンテーション法の客観的検証

An objective validation of polyp and instrument segmentation methods in colonoscopy through Medico 2020 polyp segmentation and MedAI 2021 transparency challenges ( http://arxiv.org/abs/2307.16262v1 )

ライセンス: Link先を確認
Debesh Jha, Vanshali Sharma, Debapriya Banik, Debayan Bhattacharya, Kaushiki Roy, Steven A. Hicks, Nikhil Kumar Tomar, Vajira Thambawita, Adrian Krenzer, Ge-Peng Ji, Sahadev Poudel, George Batchkala, Saruar Alam, Awadelrahman M. A. Ahmed, Quoc-Huy Trinh, Zeshan Khan, Tien-Phat Nguyen, Shruti Shrestha, Sabari Nathan, Jeonghwan Gwak, Ritika K. Jha, Zheyuan Zhang, Alexander Schlaefer, Debotosh Bhattacharjee, M.K. Bhuyan, Pradip K. Das, Sravanthi Parsa, Sharib Ali, Michael A. Riegler, P{\aa}l Halvorsen, Ulas Bagci, Thomas De Lange(参考訳) 大腸内視鏡画像の自動解析は先天性ポリープの早期検出の重要性を動機とする研究の活発な分野である。 しかし, 生検におけるポリープ検出は, 内科医のスキルや経験の変化, 注意力の欠如, 疲労など多彩な要因により, 高いポリープミス率につながる可能性がある。 深層学習は、見過ごされたポリプや異常をリアルタイムで検出し分類するスコピストを支援するものとして、この課題に対する有望な解決策として現れています。 アルゴリズムの正確性に加えて、透明性と解釈性はアルゴリズムの予測の理由と方法を説明する上で重要である。 さらに、ほとんどのアルゴリズムはプライベートデータ、クローズドソース、あるいはプロプライエタリなソフトウェアで開発されており、再現性に欠ける。 そこで我々は, 効率的で透明な方法の開発を促進するために, 「メディコオートマチック・ポリープ・セグメンテーション(Medico 2020)」と「メディコ:医療画像セグメンテーション(MedAI 2021)」のコンペティションを組織した。 本報告では, それぞれのコントリビューションを包括的に分析し, ベストパフォーマンスメソッドの強さを強調し, クリニックへの臨床翻訳の可能性について考察する。 透明性タスクのために、専門家の胃腸科医を含む複数の学際チームが各投稿にアクセスし、オープンソースプラクティス、障害事例分析、アブレーション研究、評価のユーザビリティと理解可能性に基づいてチームを評価し、モデルの臨床展開に対する信頼性をより深く理解した。 この課題の包括的分析を通じて,ポリープと手術器具のセグメンテーションの進歩を強調するだけでなく,より透明で理解しやすいAIベースの大腸内視鏡システムを構築するための質的評価を奨励する。

Automatic analysis of colonoscopy images has been an active field of research motivated by the importance of early detection of precancerous polyps. However, detecting polyps during the live examination can be challenging due to various factors such as variation of skills and experience among the endoscopists, lack of attentiveness, and fatigue leading to a high polyp miss-rate. Deep learning has emerged as a promising solution to this challenge as it can assist endoscopists in detecting and classifying overlooked polyps and abnormalities in real time. In addition to the algorithm's accuracy, transparency and interpretability are crucial to explaining the whys and hows of the algorithm's prediction. Further, most algorithms are developed in private data, closed source, or proprietary software, and methods lack reproducibility. Therefore, to promote the development of efficient and transparent methods, we have organized the "Medico automatic polyp segmentation (Medico 2020)" and "MedAI: Transparency in Medical Image Segmentation (MedAI 2021)" competitions. We present a comprehensive summary and analyze each contribution, highlight the strength of the best-performing methods, and discuss the possibility of clinical translations of such methods into the clinic. For the transparency task, a multi-disciplinary team, including expert gastroenterologists, accessed each submission and evaluated the team based on open-source practices, failure case analysis, ablation studies, usability and understandability of evaluations to gain a deeper understanding of the models' credibility for clinical deployment. Through the comprehensive analysis of the challenge, we not only highlight the advancements in polyp and surgical instrument segmentation but also encourage qualitative evaluation for building more transparent and understandable AI-based colonoscopy systems.
翻訳日:2023-08-01 16:36:13 公開日:2023-07-30
# 自己教師付き音声表現を用いた誤認識検出

Mispronunciation detection using self-supervised speech representations ( http://arxiv.org/abs/2307.16324v1 )

ライセンス: Link先を確認
Jazmin Vidal, Pablo Riera and Luciana Ferrer(参考訳) 近年、自己教師付き学習(ssl)モデルは、様々な音声処理タスク、特にデータ不足の状況において有望な結果を生み出している。 本稿では,第2言語学習者の誤発音検出におけるSSLモデルの利用について検討する。 下流の2つのアプローチを比較します 1)英語ネイティブデータを用いた音声認識モデル(PR)の訓練と評価 2)非ネイティブ英語データを用いた対象タスクのモデルを直接トレーニングする。 従来のDNNに基づく音声認識モデルから抽出した表現と同様に,これらの2つのSSL表現の性能を比較した。 L2Arctic と EpaDB では,音声レベルで発音ラベルを付加した非ネイティブ音声の2つのデータセットを評価する。 全体として、ターゲットタスク用にトレーニングされた下流モデルを使用することで、最高のパフォーマンスが得られ、上流モデルも同じようにタスクを実行することが分かっています。

In recent years, self-supervised learning (SSL) models have produced promising results in a variety of speech-processing tasks, especially in contexts of data scarcity. In this paper, we study the use of SSL models for the task of mispronunciation detection for second language learners. We compare two downstream approaches: 1) training the model for phone recognition (PR) using native English data, and 2) training a model directly for the target task using non-native English data. We compare the performance of these two approaches for various SSL representations as well as a representation extracted from a traditional DNN-based speech recognition model. We evaluate the models on L2Arctic and EpaDB, two datasets of non-native speech annotated with pronunciation labels at the phone level. Overall, we find that using a downstream model trained for the target task gives the best performance and that most upstream models perform similarly for the task.
翻訳日:2023-08-01 16:30:17 公開日:2023-07-30
# RoseNNa: ニューラルネットワーク推論のための高性能でポータブルなライブラリと計算流体力学への応用

RoseNNa: A performant, portable library for neural network inference with application to computational fluid dynamics ( http://arxiv.org/abs/2307.16322v1 )

ライセンス: Link先を確認
Ajay Bati, Spencer H. Bryngelson(参考訳) ニューラルネットワークベースの機械学習の台頭は、その機能をサポートするためにtensorflowやpytorchなど、ハイレベルなライブラリに取って代わられた。 計算流体力学(CFD)研究者はこの傾向の恩恵を受け、シミュレーション時間を短縮する強力なニューラルネットワークを生み出した。 例えば、多層パーセプトロン(MLP)とLong Short Term Memory(LSTM)リカレントベース(RNN)アーキテクチャは、乱流のようなサブグリッド物理効果を表現できる。 ニューラルネットワークをCFDソルバに実装することは、機械学習とCFDに使用されるプログラミング言語がほとんど重複しないため困難である。 rosennaは非侵襲的で軽量(1000行)なニューラルネットワーク推論のためのパフォーマンスツールで、c/c++やfortranで記述されたcfdのようなpdeソルバの強化に使用される小さなネットワークにフォーカスしている。 RoseNNaは、一般的なニューラルネットワークトレーニングパッケージからトレーニング済みモデルを、CとFortran APIを備えた高性能なFortranライブラリに自動変換することで、これを実現する。 これにより、トレーニングされたニューラルネットワークへのアクセスに必要な労力が削減され、CFD研究者が構築し依存するPDE解決器のパフォーマンスが維持される。 RoseNNaは、API呼び出しのオーバーヘッドコストを削減した後でも、100層未満の隠蔽層と100ニューロンを持つMLPとLSTM RNNにおいて、PyTorch(Python)とlibtorch(C++)を確実に上回っている。 スピードアップは、テスト対象のニューラルネットワークサイズの範囲がより小さく大きい場合の、これら確立されたライブラリの約10倍から2倍の速度です。

The rise of neural network-based machine learning ushered in high-level libraries, including TensorFlow and PyTorch, to support their functionality. Computational fluid dynamics (CFD) researchers have benefited from this trend and produced powerful neural networks that promise shorter simulation times. For example, multilayer perceptrons (MLPs) and Long Short Term Memory (LSTM) recurrent-based (RNN) architectures can represent sub-grid physical effects, like turbulence. Implementing neural networks in CFD solvers is challenging because the programming languages used for machine learning and CFD are mostly non-overlapping, We present the roseNNa library, which bridges the gap between neural network inference and CFD. RoseNNa is a non-invasive, lightweight (1000 lines), and performant tool for neural network inference, with focus on the smaller networks used to augment PDE solvers, like those of CFD, which are typically written in C/C++ or Fortran. RoseNNa accomplishes this by automatically converting trained models from typical neural network training packages into a high-performance Fortran library with C and Fortran APIs. This reduces the effort needed to access trained neural networks and maintains performance in the PDE solvers that CFD researchers build and rely upon. Results show that RoseNNa reliably outperforms PyTorch (Python) and libtorch (C++) on MLPs and LSTM RNNs with less than 100 hidden layers and 100 neurons per layer, even after removing the overhead cost of API calls. Speedups range from a factor of about 10 and 2 faster than these established libraries for the smaller and larger ends of the neural network size ranges tested.
翻訳日:2023-08-01 16:30:05 公開日:2023-07-30
# 歩行型バイオマーカーの自己教師付き学習

Self-Supervised Learning of Gait-Based Biomarkers ( http://arxiv.org/abs/2307.16321v1 )

ライセンス: Link先を確認
R. James Cotton, J.D. Peiffer, Kunal Shah, Allison DeLillo, Anthony Cimorelli, Shawana Anarwala, Kayan Abdou, and Tasos Karakostas(参考訳) マーカーレスモーションキャプチャー(MMC)は、歩行データから最も臨床的に意味のある情報をどのように抽出するかという疑問を提起し、よりアクセスしやすくすることで、歩行分析に革命をもたらす。 画像処理から自然言語処理まで、さまざまな分野において、大量の無注釈データからの自己教師付き学習(SSL)は下流タスクに非常に効果的な表現をもたらす。 しかし、歩行と運動の効果的な表現を学習するためにSSLは限られており、MCCによる歩行分析には適用されていない。 歩行に適用されていないSSLの目的の1つは対照的な学習であり、類似したサンプルを学習空間に近づける表現を見つける。 学習された類似度指標が臨床的に有意義な差異を捉えれば、下流の多くの臨床課題において有用な表現となる。 コントラスト学習は因果マスキングと組み合わせて将来のタイムステップを予測することもできるが、これは歩行の動的性質を考えると魅力的なSSL目標である。 リハビリテーション病院におけるMCCを用いた歩行解析にこれらの手法を適用した。 注記なしの歩行データによる対比学習は,臨床的に有意義な情報をキャプチャする表現を学習する。 本研究は, バイオマーカーの枠組みを用いてこの学習表現を調査し, 診断と反応の両方のバイオマーカーとして, 診断と歩容を正確に分類でき, それぞれ入院治療に反応することを示す。 最終的に、これらの学習された表現により、予測的かつ予後のよい歩行に基づくバイオマーカーが、MCCのさらなる活用により、リハビリテーションにおける運動の定量化を促進することを期待する。

Markerless motion capture (MMC) is revolutionizing gait analysis in clinical settings by making it more accessible, raising the question of how to extract the most clinically meaningful information from gait data. In multiple fields ranging from image processing to natural language processing, self-supervised learning (SSL) from large amounts of unannotated data produces very effective representations for downstream tasks. However, there has only been limited use of SSL to learn effective representations of gait and movement, and it has not been applied to gait analysis with MMC. One SSL objective that has not been applied to gait is contrastive learning, which finds representations that place similar samples closer together in the learned space. If the learned similarity metric captures clinically meaningful differences, this could produce a useful representation for many downstream clinical tasks. Contrastive learning can also be combined with causal masking to predict future timesteps, which is an appealing SSL objective given the dynamical nature of gait. We applied these techniques to gait analyses performed with MMC in a rehabilitation hospital from a diverse clinical population. We find that contrastive learning on unannotated gait data learns a representation that captures clinically meaningful information. We probe this learned representation using the framework of biomarkers and show it holds promise as both a diagnostic and response biomarker, by showing it can accurately classify diagnosis from gait and is responsive to inpatient therapy, respectively. We ultimately hope these learned representations will enable predictive and prognostic gait-based biomarkers that can facilitate precision rehabilitation through greater use of MMC to quantify movement in rehabilitation.
翻訳日:2023-08-01 16:29:36 公開日:2023-07-30
# ウィグナー函数のモヤル方程式はリウヴィル方程式の量子アナログか?

Is the Moyal equation for the Wigner function a quantum analogue of the Liouville equation? ( http://arxiv.org/abs/2307.16316v1 )

ライセンス: Link先を確認
E.E. Perepelkin, B.I. Sadovnikov, N.G. Inozemtseva, E.V. Burlakov, P.V. Afonin(参考訳) モヤル方程式は、位相空間における量子系のウィグナー関数の進化を記述する。 方程式の右辺は、プランク定数の力に比例する係数を持つ無限級数を含む。 古典的なリウヴィル方程式の量子アナログとしてモヤル方程式の解釈がある。 実際、プランク定数が 0 になる傾向にあるような制限に対する古典的通過の概念を使用すると、正式にはモヤル方程式の右辺が 0 になる傾向がある。 その結果、モヤル方程式は分布関数の古典的なリウヴィル方程式となる。 本稿では、モヤル方程式の右辺がプランク定数に明示的に依存せず、級数の全項が有意な寄与をすることができることを示す。 古典的記述と量子的記述の間の遷移はプランク定数ではなく空間的スケールに関係している。 {\guillemotleft}quadratic funnel{\guillemotright} という形でポテンシャルを持つモデル量子系について、シュリンガー方程式の正確な3次元解を見つけ、対応するウィグナー関数を紙に構築する。 位相空間における軌跡解析を用いて、モヤル方程式の右辺の表現に基づいて、空間的マイクロスケールでは、粒子運動の無限個数 {\guillemotleft}trajectories{\guillemotright} が存在し(トラジェクトリの概念は不定である)、マクロスケールを通過すると、すべての {\guillemotleft}trajectories{\guillemotright} が古典的軌跡の周りに集中することが示されている。

The Moyal equation describes the evolution of the Wigner function of a quantum system in the phase space. The right-hand side of the equation contains an infinite series with coefficients proportional to powers of the Planck constant. There is an interpretation of the Moyal equation as a quantum analogue of the classical Liouville equation. Indeed, if one uses the notion of the classical passage to the limit as the Planck constant tends to zero, then formally the right-hand side of the Moyal equation tends to zero. As a result, the Moyal equation becomes the classical Liouville equation for the distribution function. In this paper, we show that the right side of the Moyal equation does not explicitly depend on the Planck constant, and all terms of the series can make a significant contribution. The transition between the classical and quantum descriptions is related not to the Planck constant, but to the spatial scale. For a model quantum system with a potential in the form of a {\guillemotleft}quadratic funnel{\guillemotright}, an exact 3D solution of the Schr\"odinger equation is found and the corresponding Wigner function is constructed in the paper. Using trajectory analysis in the phase space, based on the representation of the right-hand side of the Moyal equation, it is shown that on the spatial microscale there is an infinite number of {\guillemotleft}trajectories{\guillemotright} of the particle motion (thereby the concept of a trajectory is indefinite), and when passing to the macroscale, all {\guillemotleft}trajectories{\guillemotright} concentrate around the classical trajectory.
翻訳日:2023-08-01 16:29:08 公開日:2023-07-30
# 線形回帰の実践的ロバスト性監査に向けて

Towards Practical Robustness Auditing for Linear Regression ( http://arxiv.org/abs/2307.16315v1 )

ライセンス: Link先を確認
Daniel Freund and Samuel B. Hopkins(参考訳) 本研究では,データセットに含まれる最小二乗回帰の係数の符号を逆にする,データセットの小さな部分集合の存在を探索または否定する実用的なアルゴリズムについて検討する。 一般線形回帰問題に対する混合整数2次制約最適化法と特別な場合の厳密な欲望法を用いて,この課題に対する確立されたアルゴリズム手法の性能を実証的に検討した。 これらの手法は,技術水準を大きく上回っており,数次元の回帰問題のロバスト性検査に有用であることを示す。 しかし、特に3ドル以上の回帰問題に対する影響のあるサンプルの小さな集合の存在を否定する重要なタスクにおいて、重要な計算上のボトルネックが残っている。 我々は,近年のアルゴリズムロバスト統計学の革新から導かれたアイデアを用いて,スペクトルアルゴリズムを用いてこの問題に一歩前進する。 我々は,既知の手法の限界をいくつかの課題データセットにまとめ,さらなるアルゴリズム革新を促す。

We investigate practical algorithms to find or disprove the existence of small subsets of a dataset which, when removed, reverse the sign of a coefficient in an ordinary least squares regression involving that dataset. We empirically study the performance of well-established algorithmic techniques for this task -- mixed integer quadratically constrained optimization for general linear regression problems and exact greedy methods for special cases. We show that these methods largely outperform the state of the art and provide a useful robustness check for regression problems in a few dimensions. However, significant computational bottlenecks remain, especially for the important task of disproving the existence of such small sets of influential samples for regression problems of dimension $3$ or greater. We make some headway on this challenge via a spectral algorithm using ideas drawn from recent innovations in algorithmic robust statistics. We summarize the limitations of known techniques in several challenge datasets to encourage further algorithmic innovation.
翻訳日:2023-08-01 16:28:35 公開日:2023-07-30
# 稀な肝細胞癌を伴うマルチパラメトリックMRIのマスク誘導データ拡張

Mask-guided Data Augmentation for Multiparametric MRI Generation with a Rare Hepatocellular Carcinoma ( http://arxiv.org/abs/2307.16314v1 )

ライセンス: Link先を確認
Karen Sanchez, Carlos Hinojosa, Kevin Arias, Henry Arguello, Denis Kouame, Olivier Meyrignac, and Adrian Basarab(参考訳) データ拡張は、古典的にディープラーニングモデル全体のパフォーマンスを改善するために使用される。 しかし、医学的応用、特にマルチパラメトリックデータセットでは困難である。 例えば、合成画像を生成するためにいくつかのアプリケーションで使われる伝統的な幾何学的変換は、患者の解剖学を非現実的な方法で修正することができる。 そのため、医療分野では、例えば、与えられた病理を現実的に模倣するために、専用の画像生成技術が必要である。 本稿では,巨大肝細胞癌に対するt1動脈,t1ポータル,t2)磁気共鳴画像(mri)の合成と,それに対応する腫瘍マスクを生成的深層学習により生成する新しいデータ拡張アーキテクチャを提案する。 提案アーキテクチャは、合成データ作成のためにPix2Pixネットワークで入力として使用される肝腫瘍マスクと腹部縁を作成する。 この方法の効率は、肝病変患者890ドルのmriトリプレットの限られたマルチパラメトリックデータセットでトレーニングし、1,000ドルの合成トリプレットとその対応する肝腫瘍マスクを生成することで実証される。 その結果、frechetインセプション距離スコアは86.55$であった。 提案されたアプローチは、2021年にフランス放射線学会が主催したデータ拡張チャレンジの勝者となった。

Data augmentation is classically used to improve the overall performance of deep learning models. It is, however, challenging in the case of medical applications, and in particular for multiparametric datasets. For example, traditional geometric transformations used in several applications to generate synthetic images can modify in a non-realistic manner the patients' anatomy. Therefore, dedicated image generation techniques are necessary in the medical field to, for example, mimic a given pathology realistically. This paper introduces a new data augmentation architecture that generates synthetic multiparametric (T1 arterial, T1 portal, and T2) magnetic resonance images (MRI) of massive macrotrabecular subtype hepatocellular carcinoma with their corresponding tumor masks through a generative deep learning approach. The proposed architecture creates liver tumor masks and abdominal edges used as input in a Pix2Pix network for synthetic data creation. The method's efficiency is demonstrated by training it on a limited multiparametric dataset of MRI triplets from $89$ patients with liver lesions to generate $1,000$ synthetic triplets and their corresponding liver tumor masks. The resulting Frechet Inception Distance score was $86.55$. The proposed approach was among the winners of the 2021 data augmentation challenge organized by the French Society of Radiology.
翻訳日:2023-08-01 16:28:21 公開日:2023-07-30
# ビデオシーングラフ生成のための3重相関誘導ラベル補間

Triple Correlations-Guided Label Supplementation for Unbiased Video Scene Graph Generation ( http://arxiv.org/abs/2307.16309v1 )

ライセンス: Link先を確認
Wenqing Wang, Kaifeng Gao, Yawei Luo, Tao Jiang, Fei Gao, Jian Shao, Jianwen Sun, Jun Xiao(参考訳) video-based scene graph generation (vidsgg)は、ビジュアルエンティティとその関係を識別することで、動的グラフでビデオコンテンツを表現することを目的としたアプローチである。 トレーニングデータに本質的に偏りのある分布とアノテーションの欠如のため、現在のvidsggメソッドは、表現の少ない述語ではパフォーマンスが低くなることが判明した。 本稿では,この難解な問題に対して,接頭辞に現れるべき述語を補足し,明示的な解決法を提案する。 提案手法はTricoと呼ばれる3つの相補的時空間相関を探索することにより,欠落した述語を補足する。 これらの相関により、欠落ラベルを効果的に補うことができ、偏りのない述語予測が可能となる。 我々は、最も広く使われているvidsggデータセット、すなわちvidvrdとvidorにおけるtricoの有効性を検証する。 広範囲にわたる実験は、特に尾の述語においてトリコが達成した最先端のパフォーマンスを示している。

Video-based scene graph generation (VidSGG) is an approach that aims to represent video content in a dynamic graph by identifying visual entities and their relationships. Due to the inherently biased distribution and missing annotations in the training data, current VidSGG methods have been found to perform poorly on less-represented predicates. In this paper, we propose an explicit solution to address this under-explored issue by supplementing missing predicates that should be appear in the ground-truth annotations. Dubbed Trico, our method seeks to supplement the missing predicates by exploring three complementary spatio-temporal correlations. Guided by these correlations, the missing labels can be effectively supplemented thus achieving an unbiased predicate predictions. We validate the effectiveness of Trico on the most widely used VidSGG datasets, i.e., VidVRD and VidOR. Extensive experiments demonstrate the state-of-the-art performance achieved by Trico, particularly on those tail predicates.
翻訳日:2023-08-01 16:28:01 公開日:2023-07-30
# multi-stakeholder qualitative preference query による推論と表現

Representing and Reasoning with Multi-Stakeholder Qualitative Preference Queries ( http://arxiv.org/abs/2307.16307v1 )

ライセンス: Link先を確認
Samik Basu, Vasant Honavar, Ganesh Ram Santhanam, Jia Tao(参考訳) 公共政策、医療、ビジネス、災害対応など多くの意思決定シナリオでは、複数の利害関係者の好みを調節する必要がある。 我々は, cp-net, ci-net, tcp-net, cp-theory など, 利害関係者が質的選好言語で自分の選好を表現する場面において, マルチ・ステイクホルダの質的選好を持つ推論の形式的扱いを初めて提供する。 例えば、$\mlangpref{\psi_1}{\psi_2}{A}$($\psi_1$を満たす結果の集合として、利害関係者の集合によって$\psi_2$を満たす結果よりも好まれる結果の集合として)。 実践的なアプリケーションシナリオにより,このようなクエリの代替セマンティクスを導入・分析し,それらの相互関係について検討する。 変更不要な$\mu$-calculusのモデルチェックを用いて,マルチステークホルダの定性的嗜好クエリに応答する確率的正解アルゴリズムを提案する。 提案手法の有効性を示す実験結果について述べる。

Many decision-making scenarios, e.g., public policy, healthcare, business, and disaster response, require accommodating the preferences of multiple stakeholders. We offer the first formal treatment of reasoning with multi-stakeholder qualitative preferences in a setting where stakeholders express their preferences in a qualitative preference language, e.g., CP-net, CI-net, TCP-net, CP-Theory. We introduce a query language for expressing queries against such preferences over sets of outcomes that satisfy specified criteria, e.g., $\mlangpref{\psi_1}{\psi_2}{A}$ (read loosely as the set of outcomes satisfying $\psi_1$ that are preferred over outcomes satisfying $\psi_2$ by a set of stakeholders $A$). Motivated by practical application scenarios, we introduce and analyze several alternative semantics for such queries, and examine their interrelationships. We provide a provably correct algorithm for answering multi-stakeholder qualitative preference queries using model checking in alternation-free $\mu$-calculus. We present experimental results that demonstrate the feasibility of our approach.
翻訳日:2023-08-01 16:27:43 公開日:2023-07-30
# 通過しない:凸最適化の予測と最適化におけるゼロ勾配問題

You Shall not Pass: the Zero-Gradient Problem in Predict and Optimize for Convex Optimization ( http://arxiv.org/abs/2307.16304v1 )

ライセンス: Link先を確認
Grigorii Veviurko, Wendelin B\"ohmer, and Mathijs de Weerdt(参考訳) 予測と最適化は、機械学習を用いて最適化問題の未知のパラメータを予測する、人気の高い意思決定パラダイムである。 パラメータの予測誤差を最小化する代わりに、タスクパフォーマンスを損失関数として使用する予測モデルを訓練する。 convex最適化領域では、最近開発された問題パラメータ上の最適化問題解を区別する手法により、予測と最適化が著しく進歩している。 本稿では,このアプローチの欠点であるゼロ勾配問題(0-gradient problem)を特定し,その解決法を提案する。 提案手法は微分最適化の数学的性質に基づき, 2つの実世界のベンチマークを用いて検証する。

Predict and optimize is an increasingly popular decision-making paradigm that employs machine learning to predict unknown parameters of optimization problems. Instead of minimizing the prediction error of the parameters, it trains predictive models using task performance as a loss function. In the convex optimization domain, predict and optimize has seen significant progress due to recently developed methods for differentiating optimization problem solutions over the problem parameters. This paper identifies a yet unnoticed drawback of this approach -- the zero-gradient problem -- and introduces a method to solve it. The suggested method is based on the mathematical properties of differential optimization and is verified using two real-world benchmarks.
翻訳日:2023-08-01 16:27:17 公開日:2023-07-30
# 医療における情報技術の統合 : 都市・地域保健の最近の展開, 課題, 今後の展望

Integrating Information Technology in Healthcare: Recent Developments, Challenges, and Future Prospects for Urban and Regional Health ( http://arxiv.org/abs/2307.16296v1 )

ライセンス: Link先を確認
Shipu Debnath(参考訳) 医療におけるテクノロジーの利用は近年ますます人気が高まっており、医療の届け方、患者の成果、費用対効果が改善される可能性がある。 本稿では, 医療, 特に都市, パーソナライズドメディカル医療において, テクノロジーがどのように使われているかについて概説する。 この論文は、電子健康記録、遠隔医療、遠隔監視、医療画像、ウェアラブルデバイス、人工知能など、医療でテクノロジーが使われているさまざまな方法について議論する。 また、患者のデータをプライベートかつセキュアに保つこと、さまざまなテクノロジシステムが連携できること、患者がテクノロジを快適に利用できることなど、医療にテクノロジを使用することで生じる課題や問題にも目を向けています。 さらに, 医療における技術の可能性について検討し, 患者がいかに容易に治療を受けられるか, ケアの質, 医療費などについて検討した。 また、テクノロジーが個々の患者にケアをパーソナライズする方法についても語っている。 最後に、主なポイントを要約し、医療提供者や政策立案者に対して勧告を行い、今後の研究の方向性を提案する。 全体として、このレビューはテクノロジーが医療を改善するのにどのように役立つかを示し、テクノロジーをこのように使うことで生じる課題も認めている。

The use of technology in healthcare has become increasingly popular in recent years, with the potential to improve how healthcare is delivered, patient outcomes, and cost-effectiveness. This review paper provides an overview of how technology has been used in healthcare, particularly in cities and for personalized medicine. The paper discusses different ways technology is being used in healthcare, such as electronic health records, telemedicine, remote monitoring, medical imaging, wearable devices, and artificial intelligence. It also looks at the challenges and problems that come with using technology in healthcare, such as keeping patient data private and secure, making sure different technology systems can work together, and ensuring patients are comfortable using technology. In addition, the paper explores the potential of technology in healthcare, including improving how easily patients can get care, the quality of care they receive, and the cost of care. It also talks about how technology can help personalize care to individual patients. Finally, the paper summarizes the main points, makes recommendations for healthcare providers and policymakers, and suggests directions for future research. Overall, this review shows how technology can be used to improve healthcare, while also acknowledging the challenges that come with using technology in this way.
翻訳日:2023-08-01 16:27:07 公開日:2023-07-30
# 大域的最適適応測定による最小消費状態判別

Minimum-consumption state discrimination with global optimal adaptive measurements ( http://arxiv.org/abs/2307.16347v1 )

ライセンス: Link先を確認
Boxuan Tian, Wenzhe Yan, Zhibo Hou, Guo-Yong Xiang, Chuan-Feng Li and Guang-Can Guo(参考訳) 固定許容誤差率に対する非直交量子状態の判別は、多くの量子情報処理タスクにおいて信頼できる出発点である。 重要な要求は、平均的なリソース消費を最小限にすることである。 更新された後続確率を微妙に利用することにより,任意の誤差率要件,事前確率,およびいかなる測定制限にも適用される,汎用的大域的最適適応(GOA)アプローチを開発する。 局所的な測定制限の下では,従来のグローバル最適固定局所射影(gofp)法よりも効率的であり,局所境界として機能するグローバル最適適応局所(goal)戦略を実現する。 より効率的な2コピ集団測定を取り入れた場合、局所境界をさらに上回るグローバル最適適応集合(GOAC)戦略を得る。 我々はgoac法を実験的に実現し,その効率性を示す。 適応性と集団測定の両方のパワーを活用することで、我々の研究は最小消費量子状態判別の重要なステップとなる。

Discriminating non-orthogonal quantum states for a fixed admissible error rate is a reliable starting point for many quantum information processing tasks. The key request is to minimize the average resource consumption. By subtly using the updated posterior probability, here we develop a general global optimal adaptive (GOA) approach, which applies to any error rate requirement, any prior probability, and any measurement restrictions. Under local measurement restrictions, we achieve a global optimal adaptive local (GOAL) strategy, which is much more efficient than the previous global optimal fixed local projective (GOFP) method and serves as a local bound. When incorporating the more efficient two-copy collective measurements, we obtain a global optimal adaptive collective (GOAC) strategy to further beat the local bound. We experimentally realize our GOAC method and demonstrate its efficiency advantages over GOAL and GOFP. By exploiting the power of both adaptivity and collective measurements, our work marks an important step in minimum-consumption quantum state discrimination.
翻訳日:2023-08-01 16:19:43 公開日:2023-07-30
# フルスタック量子ソフトウェアの実践 - エコシステム,利害関係者,課題

Full-Stack Quantum Software in Practice: Ecosystem, Stakeholders and Challenges ( http://arxiv.org/abs/2307.16345v1 )

ライセンス: Link先を確認
Vlad Stirbu, Majid Haghparast, Muhammad Waseem, Niraj Dayama, Tommi Mikkonen(参考訳) 量子コンピューティングの出現は、多くの科学・産業分野を変革できる革命的パラダイムを導入した。 それでも、現実世界のアプリケーションで量子ソフトウェアを実用的に活用することは大きな課題である。 ハードウェア実装のバリエーション、量子アルゴリズムの複雑さ、量子および従来のソフトウェアの統合、標準化されたソフトウェアと通信インターフェースの欠如といった要因は、この分野における熟練労働者の開発を妨げる。 本稿では、量子コンピューティングソフトウェア開発プロセスを確立するための具体的アプローチを探求し、様々な利害関係者の懸念に対処する。 これらの課題に対処することで、様々な分野における量子コンピューティングの有効活用の道を開くことを目指している。

The emergence of quantum computing has introduced a revolutionary paradigm capable of transforming numerous scientific and industrial sectors. Nevertheless, realizing the practical utilization of quantum software in real-world applications presents significant challenges. Factors such as variations in hardware implementations, the intricacy of quantum algorithms, the integration of quantum and traditional software, and the absence of standardized software and communication interfaces hinder the development of a skilled workforce in this domain. This paper explores tangible approaches to establishing quantum computing software development process and addresses the concerns of various stakeholders. By addressing these challenges, we aim to pave the way for the effective utilization of quantum computing in diverse fields.
翻訳日:2023-08-01 16:19:24 公開日:2023-07-30
# キックトップにおける量子再発

Quantum recurrences in the kicked top ( http://arxiv.org/abs/2307.16343v1 )

ライセンス: Link先を確認
Amit Anand, Jack Davis and Shohini Ghose(参考訳) 対応原理は、基礎となる量子力学から古典的カオスの出現を理解する上で重要な役割を果たす。 ここでは、次元に関係なく古典的カオス力学と類似しない無限の量子力学の族を示す。 これらは、有限個のキックの後に同一性として作用する量子キックトップにおけるストロボスコープユニタリ進化の形を取る。 これらの状態に依存しない周期性は全ての次元に存在するため、それらの存在は対応原理の普遍的違反を表している。 さらに、これらの周期性と量子キックロータ、特に量子反共振現象との関係についても論じる。

The correspondence principle plays an important role in understanding the emergence of classical chaos from an underlying quantum mechanics. Here we present an infinite family of quantum dynamics that never resembles the analogous classical chaotic dynamics irrespective of dimension. These take the form of stroboscopic unitary evolutions in the quantum kicked top that act as the identity after a finite number of kicks. Because these state-independent temporal periodicities are present in all dimensions, their existence represents a universal violation of the correspondence principle. We further discuss the relationship of these periodicities with the quantum kicked rotor, in particular the phenomenon of quantum anti-resonance.
翻訳日:2023-08-01 16:19:13 公開日:2023-07-30
# Proof-of-Federated-Learning-Subchain:Federated Learningに基づくフリーパートナー選択サブチェーン

Proof-of-Federated-Learning-Subchain: Free Partner Selection Subchain Based on Federated Learning ( http://arxiv.org/abs/2307.16342v1 )

ライセンス: Link先を確認
Boyang Li, Bingyu Shen, Qing Lu, Taeho Jung, Yiyu Shi(参考訳) ブロックチェーン社会の継続的な繁栄は、暗号通貨をサポートするスキームの新しいデザインの研究を動機付ける。 以前は、深層学習モデルトレーニングタスクのような有用な作業にハッシュを置き換えるために、複数のPoDLコンセンサスが提案されていた。 エネルギーは台帳を維持しながらより効率的に消費される。 しかし、ディープラーニングモデルは問題に特化しており、非常に複雑である。 現在のPoDLコンセンサスでは、現実の世界で実現するために多くの作業が必要です。 本稿では,このギャップを埋めるためにProof-of-Federated-Learning-Subchain(PoFLSC)という新しいコンセンサスを提案する。 我々は、トレーニング、挑戦、監査活動を記録するためにサブチェーンを適用し、パートナー選択における貴重なデータセットの重要性を強調した。 サブチェーン内の20人の鉱夫を模擬し,PoFLSCの有効性を実証した。 さらに、予約優先順序に関するプールサイズを減少させると、異なるシナリオにおける性能の低下率差は、サブチェーンプールのサイズが制限された場合に、より高いシェープ値(SV)を持つ鉱夫が選択する機会を得られることを示す。 実施した実験において、poflscコンセンサスは、サブチェーンマネージャが、競合するサブチェーンの確立と維持のために、予約優先度とコントリビュータのコアパーティションを認識することを支援した。

The continuous thriving of the Blockchain society motivates research in novel designs of schemes supporting cryptocurrencies. Previously multiple Proof-of-Deep-Learning(PoDL) consensuses have been proposed to replace hashing with useful work such as deep learning model training tasks. The energy will be more efficiently used while maintaining the ledger. However deep learning models are problem-specific and can be extremely complex. Current PoDL consensuses still require much work to realize in the real world. In this paper, we proposed a novel consensus named Proof-of-Federated-Learning-Subchain(PoFLSC) to fill the gap. We applied a subchain to record the training, challenging, and auditing activities and emphasized the importance of valuable datasets in partner selection. We simulated 20 miners in the subchain to demonstrate the effectiveness of PoFLSC. When we reduce the pool size concerning the reservation priority order, the drop rate difference in the performance in different scenarios further exhibits that the miner with a higher Shapley Value (SV) will gain a better opportunity to be selected when the size of the subchain pool is limited. In the conducted experiments, the PoFLSC consensus supported the subchain manager to be aware of reservation priority and the core partition of contributors to establish and maintain a competitive subchain.
翻訳日:2023-08-01 16:19:03 公開日:2023-07-30
# 非コッヘン・スペック・コンテクスト性

Non-Kochen-Specker Contextuality ( http://arxiv.org/abs/2307.16339v1 )

ライセンス: Link先を確認
Mladen Pavicic(参考訳) 量子コンテキスト性は量子計算と通信をサポートする。 主要車両の1つはハイパーグラフである。 最も精巧なものはコチェン=スペクターであるが、この種のものではない文脈集合の別のクラスもある。 彼らの表現は、ほとんど作用素ベースであり、3次元から6次元の空間における特別な構成に制限されている。 以前は、ハイパーグラフがこれらすべてを満たすことを示し、この論文では、任意の次元でそのような非コッチェン・スペクターハイパーグラフを生成するために、複雑性が次元にスケールアップしない一般的な方法を与え、最大16次元空間での例を与える。 我々の自動生成は確率的かつランダムであるが、蓄積されたデータの統計により、必要なサイズと構造を持つ集合をフィルタリングすることができる。

Quantum contextuality supports quantum computation and communication. One of its main vehicles is hypergraphs. The most elaborated are the Kochen-Specker ones, but there is also another class of contextual sets that are not of this kind. Their representation has been mostly operator-based and limited to special constructs in three- to six-dim spaces, a notable example of which is the Yu-Oh set. Previously, we showed that hypergraphs underlie all of them, and in this paper, we give general methods - whose complexity does not scale up with the dimension - for generating such non-Kochen-Specker hypergraphs in any dimension and give examples in up to 16-dim spaces. Our automated generation is probabilistic and random, but the statistics of accumulated data enable one to filter out sets with the required size and structure.
翻訳日:2023-08-01 16:18:41 公開日:2023-07-30
# 予測プロンプトと大規模言語モデルを用いたマルチチョイス質問に対する気晴らし生成

Distractor generation for multiple-choice questions with predictive prompting and large language models ( http://arxiv.org/abs/2307.16338v1 )

ライセンス: Link先を確認
Semere Kiros Bitew, Johannes Deleu, Chris Develder and Thomas Demeester(参考訳) ChatGPTのような大規模言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示し、研究者と実践者の両方から大きな注目を集めている。 しかし、教育的な文脈では、我々は依然として、マルチチョイス質問(MCQ)のためのLLM(英語版)を用いて、散逸子(英語版)を生成するパフォーマンスギャップを観察する。 本研究では,ChatGPT などの LLM を誘導する手法を提案する。質問バンクから自動で抽出した質問項目や,テキスト内例から抽出した質問項目に関連性のある注意を喚起する。 既存のテストセットを定量的に評価することでLCMベースのソリューションを評価するとともに,人間の専門家,すなわち教師による品質評価を通じて評価する。 その結果,教師に提示された注意散布者の平均53%は,即時使用に適した高品質で,最先端のモデルに匹敵するものと評価された。 また、ゼロショットのChatGPTと数ショットのChatGPTとを静的な例で比較することにより、高品質なイントラクタ生成におけるアプローチ1の効果を示す。

Large Language Models (LLMs) such as ChatGPT have demonstrated remarkable performance across various tasks and have garnered significant attention from both researchers and practitioners. However, in an educational context, we still observe a performance gap in generating distractors -- i.e., plausible yet incorrect answers -- with LLMs for multiple-choice questions (MCQs). In this study, we propose a strategy for guiding LLMs such as ChatGPT, in generating relevant distractors by prompting them with question items automatically retrieved from a question bank as well-chosen in-context examples. We evaluate our LLM-based solutions using a quantitative assessment on an existing test set, as well as through quality annotations by human experts, i.e., teachers. We found that on average 53% of the generated distractors presented to the teachers were rated as high-quality, i.e., suitable for immediate use as is, outperforming the state-of-the-art model. We also show the gains of our approach 1 in generating high-quality distractors by comparing it with a zero-shot ChatGPT and a few-shot ChatGPT prompted with static examples.
翻訳日:2023-08-01 16:18:26 公開日:2023-07-30
# AIを利用した悪質なソーシャルボットネットの解剖

Anatomy of an AI-powered malicious social botnet ( http://arxiv.org/abs/2307.16336v1 )

ライセンス: Link先を確認
Kai-Cheng Yang and Filippo Menczer(参考訳) 大規模言語モデル(LLM)は、多様な主題にまたがる現実的なテキストを生成する優れた能力を示す。 偽コンテンツは偽の意図で作り出せるのではないかという懸念が持ち上がっているが、これまでのところ証拠はいまだに残されている。 本稿では、ChatGPTを用いて人間的なコンテンツを生成するTwitterボットネットのケーススタディを提案する。 ヒューリスティックスによって1,140のアカウントを特定し,手動アノテーションで検証する。 これらのアカウントは偽のペルソナの密集した集団を形成し、マシンが生成したコンテンツや盗まれた画像を投稿し、返信やリツイートを通じて互いに関わり合います。 ChatGPTが生成したコンテンツは不審なウェブサイトを促進し、有害なコメントを広める。 AIボットネットのアカウントは、調整パターンを通じて検出できるが、現在の最先端のLLMコンテンツ分類器は、野生の人間のアカウントと区別できない。 これらの発見は、AI対応のソーシャルボットによる脅威を浮き彫りにしている。

Large language models (LLMs) exhibit impressive capabilities in generating realistic text across diverse subjects. Concerns have been raised that they could be utilized to produce fake content with a deceptive intention, although evidence thus far remains anecdotal. This paper presents a case study about a Twitter botnet that appears to employ ChatGPT to generate human-like content. Through heuristics, we identify 1,140 accounts and validate them via manual annotation. These accounts form a dense cluster of fake personas that exhibit similar behaviors, including posting machine-generated content and stolen images, and engage with each other through replies and retweets. ChatGPT-generated content promotes suspicious websites and spreads harmful comments. While the accounts in the AI botnet can be detected through their coordination patterns, current state-of-the-art LLM content classifiers fail to discriminate between them and human accounts in the wild. These findings highlight the threats posed by AI-enabled social bots.
翻訳日:2023-08-01 16:18:06 公開日:2023-07-30
# 2つの混合器と不確かさの量子近似ベイズ最適化アルゴリズム

Quantum Approximate Bayesian Optimization Algorithms with Two Mixers and Uncertainty Quantification ( http://arxiv.org/abs/2307.16335v1 )

ライセンス: Link先を確認
Jungin E. Kim and Yan Wang(参考訳) 量子近似最適化アルゴリズムの探索効率は、アルゴリズムの古典的側面と量子的側面の両方に依存する。 近年,2つのミキサーを含む量子近似ベイズ最適化アルゴリズム (QABOA) が開発され,古典最適化器のサンプリング効率向上のために代用された。 連続時間型量子ウォークミキサーは探索の促進に使われ、一般化されたグローバーミキサーも活用の改善に使われている。 本稿では,QABOAの拡張による探索効率の向上について述べる。 探索効率は2つの側面により向上する。 まず、探索用と搾取用とを含む2つのミキサーを交互に適用する。 第二に、量子回路の不確実性は、基底状態分布の曲率に基づいて新しい量子Mat\'ernカーネルで定量化され、最適値を得る確率が増加する。 提案した2混合QABOAは,2つの離散および4つの混合整数問題に対して,不確実かつ不確実な2混合QABOAと比較した。 その結果, 不確実な定量化が可能な2混合QABOAは, 6つの問題のうち5つにおいて, 効率と整合性に優れた性能を示した。 また,一般化グロバーミキサーを用いたqaboaは,単一ミキサーアルゴリズムの中で最高の性能を示し,探索効率向上における活用の利点と探索・探索バランスの重要性を示した。

The searching efficiency of the quantum approximate optimization algorithm is dependent on both the classical and quantum sides of the algorithm. Recently a quantum approximate Bayesian optimization algorithm (QABOA) that includes two mixers was developed, where surrogate-based Bayesian optimization is applied to improve the sampling efficiency of the classical optimizer. A continuous-time quantum walk mixer is used to enhance exploration, and the generalized Grover mixer is also applied to improve exploitation. In this paper, an extension of the QABOA is proposed to further improve its searching efficiency. The searching efficiency is enhanced through two aspects. First, two mixers, including one for exploration and the other for exploitation, are applied in an alternating fashion. Second, uncertainty of the quantum circuit is quantified with a new quantum Mat\'ern kernel based on the kurtosis of the basis state distribution, which increases the chance of obtaining the optimum. The proposed new two-mixer QABOAs with and without uncertainty quantification are compared with three single-mixer QABOAs on two discrete and four mixed-integer problems. The results show that the proposed two-mixer QABOA with uncertainty quantification has the best performance in efficiency and consistency for five out of the six problems. The results also show that QABOA with the generalized Grover mixer performs the best among the single-mixer algorithms, thereby demonstrating the benefit of exploitation and the importance of dynamic exploration-exploitation balance in improving searching efficiency.
翻訳日:2023-08-01 16:17:51 公開日:2023-07-30
# クエリベースのブラックボックス攻撃に対するステートフル防御のための理論的に原則化されたトレードオフ

Theoretically Principled Trade-off for Stateful Defenses against Query-Based Black-Box Attacks ( http://arxiv.org/abs/2307.16331v1 )

ライセンス: Link先を確認
Ashish Hooda, Neal Mangaokar, Ryan Feng, Kassem Fawaz, Somesh Jha, Atul Prakash(参考訳) 敵対的な例は、制約されたブラックボックス条件下であっても、成功率を脅かすような機械学習システムの完全性を脅かす。 ステートフルな防御は効果的な対策として現れ、最近のクエリのバッファを維持し、類似度が高い新しいクエリを検出することで潜在的な攻撃を検出する。 しかしながら、これらの防御は基本的に攻撃検出と偽陽性率のトレードオフを生じさせ、このトレードオフは典型的には、手探りの特徴抽出器と、経験的にうまく機能する類似性閾値によって最適化される。 このトレードオフの形式的限界とそれに影響を与える特徴抽出/アンダーライジング問題領域の正確な性質について、現在の理解はほとんどない。 本研究は,ステートフルディフェンスに対する検出と偽陽性率のトレードオフを理論的に評価することで,このギャップに対処することを目的とする。 我々は,一般的な特徴抽出器の検知率の上限を提供し,このトレードオフがブラックボックス攻撃の収束に与える影響を分析する。 次に、複数のデータセットにわたる経験的評価とステートフルな防御で理論的な結果を支持する。

Adversarial examples threaten the integrity of machine learning systems with alarming success rates even under constrained black-box conditions. Stateful defenses have emerged as an effective countermeasure, detecting potential attacks by maintaining a buffer of recent queries and detecting new queries that are too similar. However, these defenses fundamentally pose a trade-off between attack detection and false positive rates, and this trade-off is typically optimized by hand-picking feature extractors and similarity thresholds that empirically work well. There is little current understanding as to the formal limits of this trade-off and the exact properties of the feature extractors/underlying problem domain that influence it. This work aims to address this gap by offering a theoretical characterization of the trade-off between detection and false positive rates for stateful defenses. We provide upper bounds for detection rates of a general class of feature extractors and analyze the impact of this trade-off on the convergence of black-box attacks. We then support our theoretical findings with empirical evaluations across multiple datasets and stateful defenses.
翻訳日:2023-08-01 16:17:26 公開日:2023-07-30
# シークエンシャル製品の性質

Properties of Sequential Products ( http://arxiv.org/abs/2307.16327v1 )

ライセンス: Link先を確認
Stanley Gudder(参考訳) 我々の基本的な概念は、有限次元複素ヒルベルト空間 $h$ に対する効果の集合 $\mathcal{e}(h)$ である。 a,b\in\mathcal{E}(H)$ とすると、逐次積 $a[\mathcal{I}]b$ of $a$ とすると$b$ と定義される。 逐次積は、$a$の測定に使用される$\mathcal{i}$の演算に依存する。 まず、このシーケンシャルな生成物の性質を研究することから始める。 b\mapsto a[\mathcal{I}]b$ は加法的で凸な同型であり、$a\mapsto a[\mathcal{I}]b$ が非常に少ない条件を満足することを示す。 これは、$a$の測定が後に$b$の測定に干渉する可能性があるためである。 我々はkraus, l\"uders, holevo操作に対する逐次積を研究し,これらの演算を特徴付ける性質を見いだす。 可換性を意味する$a[\mathcal{i}]b$ に対する反復可能な効果と条件を考える。 効果$a$を与えられた効果$b$の概念を導入し、その性質を研究する。 次に、シーケンシャルな積を観測対象と観測対象に拡張し、実数値観測対象の統計的性質を開発する。 これは対応する確率作用素を用いて達成される。 最後に,条件付き観測値に対する不確実性原理を導入する。

Our basic concept is the set $\mathcal{E}(H)$ of effects on a finite dimensional complex Hilbert space $H$. If $a,b\in\mathcal{E}(H)$, we define the sequential product $a[\mathcal{I}]b$ of $a$ then $b$. The sequential product depends on the operation $\mathcal{I}$ used to measure $a$. We begin by studying the properties of this sequential product. It is observed that $b\mapsto a[\mathcal{I}]b$ is an additive, convex morphism and we show by examples that $a\mapsto a[\mathcal{I}]b$ enjoys very few conditions. This is because a measurement of $a$ can interfere with a later measurement of $b$. We study sequential products relative to Kraus, L\"uders and Holevo operations and find properties that characterize these operations. We consider repeatable effects and conditions on $a[\mathcal{I}]b$ that imply commutativity. We introduce the concept of an effect $b$ given an effect $a$ and study its properties. We next extend the sequential product to observables and instruments and develop statistical properties of real-valued observables. This is accomplished by employing corresponding stochastic operators. Finally, we introduce an uncertainty principle for conditioned observables.
翻訳日:2023-08-01 16:17:10 公開日:2023-07-30
# レーティングに基づく強化学習

Rating-based Reinforcement Learning ( http://arxiv.org/abs/2307.16348v1 )

ライセンス: Link先を確認
Devin White, Mingkang Wu, Ellen Novoseller, Vernon Lawhern, Nick Waytowich, Yongcan Cao(参考訳) 本稿では,人間格付けを用いた新しい評価に基づく強化学習手法を開発し,強化学習における人的指導を得る。 既存の選好ベースおよびランキングベースの強化学習パラダイムとは異なり,評価に基づく強化学習アプローチは,サンプルペア間の相対的な比較を伴わずに,個々の軌跡の人間による評価に基づく。 評価に基づく強化学習アプローチは、人間格付けの新しい予測モデルと、新しい多クラス損失関数に基づいている。 我々は,新しい評価に基づく強化学習手法の有効性とメリットを評価するために,合成評価と実人評価に基づく実験を行った。

This paper develops a novel rating-based reinforcement learning approach that uses human ratings to obtain human guidance in reinforcement learning. Different from the existing preference-based and ranking-based reinforcement learning paradigms, based on human relative preferences over sample pairs, the proposed rating-based reinforcement learning approach is based on human evaluation of individual trajectories without relative comparisons between sample pairs. The rating-based reinforcement learning approach builds on a new prediction model for human ratings and a novel multi-class loss function. We conduct several experimental studies based on synthetic ratings and real human ratings to evaluate the effectiveness and benefits of the new rating-based reinforcement learning approach.
翻訳日:2023-08-01 16:08:01 公開日:2023-07-30
# すべての領域の裏側にシフトがある:パノラマ意味セグメンテーションのための歪み認識視覚トランスフォーマーの適用

Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation ( http://arxiv.org/abs/2207.11860v4 )

ライセンス: Link先を確認
Jiaming Zhang, Kailun Yang, Hao Shi, Simon Rei{\ss}, Kunyu Peng, Chaoxiang Ma, Haodong Fu, Philip H. S. Torr, Kaiwei Wang, Rainer Stiefelhagen(参考訳) 本稿では, パノラマ画像における画像歪みと物体変形, 2)360度画像における意味アノテーションの欠如という2つの重要な課題により, 未探索のパノラマ意味セグメンテーションに対処する。 まず,パノラマ意味セグメンテーションのための改良版,すなわち,dpe(deformable patch embedded)とdmlpv2モジュールを備えたtrans4pass+を提案する。 第2に,非教師なしドメイン適応パノラマセグメンテーションのための擬似ラベル整流による相互型適応(mpa)戦略を強化する。 第3に、Pinhole-to-Panoramic(Pin2Pan)適応とは別に、9,080パノラマ画像を持つ新しいデータセット(SynPASS)を作成し、360度画像におけるSynthetic-to-Real(Syn2Real)適応スキームを容易にする。 室内および屋外のシナリオをカバーする広範な実験を行い,各シナリオをpin2panおよびsyn2real regimensを用いて検討した。 Trans4PASS+は4つのドメイン適応型パノラマセマンティックセマンティックセマンティックベンチマークで最先端のパフォーマンスを達成する。 コードはhttps://github.com/jamycheung/trans4passで入手できる。

In this paper, we address panoramic semantic segmentation which is under-explored due to two critical challenges: (1) image distortions and object deformations on panoramas; (2) lack of semantic annotations in the 360-degree imagery. To tackle these problems, first, we propose the upgraded Transformer for Panoramic Semantic Segmentation, i.e., Trans4PASS+, equipped with Deformable Patch Embedding (DPE) and Deformable MLP (DMLPv2) modules for handling object deformations and image distortions whenever (before or after adaptation) and wherever (shallow or deep levels). Second, we enhance the Mutual Prototypical Adaptation (MPA) strategy via pseudo-label rectification for unsupervised domain adaptive panoramic segmentation. Third, aside from Pinhole-to-Panoramic (Pin2Pan) adaptation, we create a new dataset (SynPASS) with 9,080 panoramic images, facilitating Synthetic-to-Real (Syn2Real) adaptation scheme in 360-degree imagery. Extensive experiments are conducted, which cover indoor and outdoor scenarios, and each of them is investigated with Pin2Pan and Syn2Real regimens. Trans4PASS+ achieves state-of-the-art performances on four domain adaptive panoramic semantic segmentation benchmarks. Code is available at https://github.com/jamycheung/Trans4PASS.
翻訳日:2023-08-01 11:16:07 公開日:2023-07-30
# 因果探究の幾何学的表記法

A Geometric Notion of Causal Probing ( http://arxiv.org/abs/2307.15054v2 )

ライセンス: Link先を確認
Cl\'ement Guerner, Anej Svete, Tianyu Liu, Alexander Warstadt, Ryan Cotterell(参考訳) 大規模言語モデルは、予測を行うためにテキストの実数値表現に依存する。 これらの表現には、モデルが訓練したデータから得た情報が含まれており、言語特性の知識や、性別に基づく人口統計バイアスの形式が含まれる。 増大する仕事体は、表現空間の部分空間上の直交射影を用いて、このような概念に関する情報を取り除くことを検討している。 我々は、言語モデルの表現空間の部分空間において、$\textit{intrinsic}$の情報の公式な定義を提案し、この作業に寄与する。 部分空間の成分とその直交補集合を独立に扱うことにより,スプリアス相関(kumar et al., 2022)の失敗モードを回避する反事実的アプローチを提案する。 部分空間における情報の対実的概念は$\textit{causal}$概念部分空間によって最適化されることを示す。 さらに,この介入により,表現の概念成分の値を操作することで,概念制御生成を試みることができる。 経験的に、r-lace (ravfogel et al., 2022) は、我々の枠組みの約半分の概念情報を含む1次元部分空間を返す。 我々の因果制御による介入は、少なくとも1つのモデルにおいて、R-LACEで返される部分空間は、生成された単語の概念値を精度良く操作できることを示している。

Large language models rely on real-valued representations of text to make their predictions. These representations contain information learned from the data that the model has trained on, including knowledge of linguistic properties and forms of demographic bias, e.g., based on gender. A growing body of work has considered removing information about concepts such as these using orthogonal projections onto subspaces of the representation space. We contribute to this body of work by proposing a formal definition of $\textit{intrinsic}$ information in a subspace of a language model's representation space. We propose a counterfactual approach that avoids the failure mode of spurious correlations (Kumar et al., 2022) by treating components in the subspace and its orthogonal complement independently. We show that our counterfactual notion of information in a subspace is optimized by a $\textit{causal}$ concept subspace. Furthermore, this intervention allows us to attempt concept controlled generation by manipulating the value of the conceptual component of a representation. Empirically, we find that R-LACE (Ravfogel et al., 2022) returns a one-dimensional subspace containing roughly half of total concept information under our framework. Our causal controlled intervention shows that, for at least one model, the subspace returned by R-LACE can be used to manipulate the concept value of the generated word with precision.
翻訳日:2023-08-01 11:10:03 公開日:2023-07-30
# eavesdropper's classical shadowsによる監視量子力学の学習可能性遷移

Learnability transitions in monitored quantum dynamics via eavesdropper's classical shadows ( http://arxiv.org/abs/2307.15011v2 )

ライセンス: Link先を確認
Matteo Ippoliti and Vedika Khemani(参考訳) 計測された量子力学は、最近、平衡から離れた量子多体系の相構造のためのリッチドメインとして出現した。 本研究では,量子多体系ではなく,古典的測定結果にアクセス可能な盗聴者の視点からダイナミクスを観察した。 量子システムから古典的な計測記録(情報パワー)への情報フローの測定は、測定誘起相転移(MIPT)に対応して相転移することを示す。 この遷移は、監視されたダイナミクスと任意の古典的計算資源の完全な古典的記述を与えると、システムの未知の初期量子状態の性質を学習するeavesdropperの(in)能力を決定する。 この学習可能性遷移を、盗聴者がこの問題に適用可能な古典的シャドウプロトコルを定義することで具体化し、MIPTが様々なシャドウ推定タスクのサンプル複雑性の遷移として現れ、低測定フェーズでは困難になることを示す。 パウリ期待値(miptが典型的なパウリ作用素の最適学習可能性の点として現れる)、多体忠実性、u(1)$対称力学における大域電荷の3つの応用に注目した。 我々の研究は学習可能性の傘の下でmiptの異なる表現を統一し、古典的影を通してこの概念を一般的な操作的意味を与える。

Monitored quantum dynamics -- unitary evolution interspersed with measurements -- has recently emerged as a rich domain for phase structure in quantum many-body systems away from equilibrium. Here we study monitored dynamics from the point of view of an eavesdropper who has access to the classical measurement outcomes, but not to the quantum many-body system. We show that a measure of information flow from the quantum system to the classical measurement record -- the informational power -- undergoes a phase transition in correspondence with the measurement-induced phase transition (MIPT). This transition determines the eavesdropper's (in)ability to learn properties of an unknown initial quantum state of the system, given a complete classical description of the monitored dynamics and arbitrary classical computational resources. We make this learnability transition concrete by defining classical shadows protocols that the eavesdropper may apply to this problem, and show that the MIPT manifests as a transition in the sample complexity of various shadow estimation tasks, which become harder in the low-measurement phase. We focus on three applications of interest: Pauli expectation values (where we find the MIPT appears as a point of optimal learnability for typical Pauli operators), many-body fidelity, and global charge in $U(1)$-symmetric dynamics. Our work unifies different manifestations of the MIPT under the umbrella of learnability and gives this notion a general operational meaning via classical shadows.
翻訳日:2023-08-01 11:09:42 公開日:2023-07-30