このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230805となっている論文です。

PDF登録状況(公開日: 20230805)

TitleAuthorsAbstract論文公表日・翻訳日
# 開発者毎のマイクロサービス - これがOSSのトレンドか?

One Microservice per Developer: Is This the Trend in OSS? ( http://arxiv.org/abs/2308.02843v1 )

ライセンス: Link先を確認
Dario Amoroso d'Aragona and Xiaoxhou Li and Tomas Cerny and Andrea Janes and Valentina Lenarduzzi and Davide Taibi(参考訳) マイクロサービスシステムの開発と管理を行う場合には、それぞれのマイクロサービスを特定のチームが所有することを提案する。 事実上、特定のサービスを管理する責任を持つチームは1つだけです。 したがって、1人の開発者は1つのチームに属しなければならない。 というプラクティスは、大規模な開発チームを持つ大規模プロジェクトでは特に一般的です。 オープンソースプロジェクトのbazaarスタイルのソフトウェア開発モデルに基づいて、bazaarのベンダーのような異なるプログラマがシステムのさまざまな部分の開発を支援することを提案します。この記事では、マイクロサービスベースのオープンソースプロジェクトで予想される戦略である"開発者一人当たりのマイクロサービス"の振る舞いを観察できるかどうかを調査します。 マイクロサービスベースのOS38プロジェクトを対象に実験を行った。 私たちの調査結果は、DevOpsチーム専用のプロジェクトを除いて、この戦略がオープンソース開発者によって尊重されることはめったにないことを示している。

When developing and managing microservice systems, practitioners suggest that each microservice should be owned by a particular team. In effect, there is only one team with the responsibility to manage a given service. Consequently, one developer should belong to only one team. This practice of "one-microservice-per-developer" is especially prevalent in large projects with an extensive development team. Based on the bazaar-style software development model of Open Source Projects, in which different programmers, like vendors at a bazaar, offer to help out developing different parts of the system, this article investigates whether we can observe the "one-microservice-per-developer" behavior, a strategy we assume anticipated within microservice based Open Source Projects. We conducted an empirical study among 38 microservice-based OS projects. Our findings indicate that the strategy is rarely respected by open-source developers except for projects that have dedicated DevOps teams.
翻訳日:2023-10-23 15:23:08 公開日:2023-08-05
# LLMはココレートの箱のようなもの:コード生成におけるChatGPTの非決定性

LLM is Like a Box of Chocolates: the Non-determinism of ChatGPT in Code Generation ( http://arxiv.org/abs/2308.02828v1 )

ライセンス: Link先を確認
Shuyin Ouyang, Jie M. Zhang, Mark Harman, Meng Wang(参考訳) 最近、ソフトウェアエンジニアリングタスク、特にコード生成のためのLarge Language Models(LLM)の研究が爆発的に増えている。 しかし、LSMの結果は非常に不安定であり、決定論的には同じプロンプトに対して全く異なるコードを返す。 非決定論は科学的結論の正当性への脅威である。 非決定論が高ければ、科学的な結論は、研究者が経験的な分析でその行動をコントロールするために行動を変えない限り、単純に信頼できない。 本稿では,非決定論が実際に高いことを証明する実証的研究を行い,この行動変化の必要性を概説する。 ChatGPTはコード生成研究の文献ですでに広く使われているため、我々はChatGPTの研究を選択します。 我々は,3つのコード生成ベンチマーク(CodeContests,APPS,HumanEval)から829のコード生成問題を解析した結果を報告する。 異なる要求に対するテスト出力がゼロであるコーディングタスクの比率は,CodeContests,APPS,HumanEvalそれぞれ72.73%,60.40%,65.85%であった。 さらに、温度を0に設定しても、コード生成における決定性は保証されないが、非決定性はデフォルトの設定よりも低い(温度=1)。 これらの結果は、現在、科学的結論の妥当性に重大な脅威があることを確認した。 LLMに基づくより堅固な科学基盤の研究を行うためには、研究者は結論の導出において非決定性を考慮する必要がある。

There has been a recent explosion of research on Large Language Models (LLMs) for software engineering tasks, in particular code generation. However, results from LLMs can be highly unstable; nondeterministically returning very different codes for the same prompt. Non-determinism is a potential menace to scientific conclusion validity. When non-determinism is high, scientific conclusions simply cannot be relied upon unless researchers change their behaviour to control for it in their empirical analyses. This paper conducts an empirical study to demonstrate that non-determinism is, indeed, high, thereby underlining the need for this behavioural change. We choose to study ChatGPT because it is already highly prevalent in the code generation research literature. We report results from a study of 829 code generation problems from three code generation benchmarks (i.e., CodeContests, APPS, and HumanEval). Our results reveal high degrees of non-determinism: the ratio of coding tasks with zero equal test output across different requests is 72.73%, 60.40%, and 65.85% for CodeContests, APPS, and HumanEval, respectively. In addition, we find that setting the temperature to 0 does not guarantee determinism in code generation, although it indeed brings less non-determinism than the default configuration (temperature=1). These results confirm that there is, currently, a significant threat to scientific conclusion validity. In order to put LLM-based research on firmer scientific foundations, researchers need to take into account non-determinism in drawing their conclusions.
翻訳日:2023-10-23 15:22:51 公開日:2023-08-05
# アンチコンテントサンプリングによるcovid-19誤情報の監査と強固化

Auditing and Robustifying COVID-19 Misinformation Datasets via Anticontent Sampling ( http://arxiv.org/abs/2310.07078v1 )

ライセンス: Link先を確認
Clay H. Yoo and Ashiqur R. KhudaBukhsh(参考訳) この論文は2つの重要な貢献をする。 第一に、小型データで訓練された高度に特殊なレアなコンテンツ分類器は、一般的に野生で観察される負のクラス(アンチコンテント)の豊かさと局所的な多様性に限定される。 その結果、テストセットで観察されたこれらの分類器の強い性能は、現実世界の設定に変換されない。 新型コロナウイルス(covid-19)の誤情報検出の文脈では、複数のデータセットを内部で監査し、最近言及されているいくつかのデータセットでトレーニングされたモデルは、ワイルドで評価すると反コンテンツに弱いことを実証する。 第2に,手動アノテーションを必要とせず,反コンテントに挑戦してトレーニングデータを反復的に強化し,これらの分類器を堅牢化する,新たなアクティブラーニングパイプラインを提案する。

This paper makes two key contributions. First, it argues that highly specialized rare content classifiers trained on small data typically have limited exposure to the richness and topical diversity of the negative class (dubbed anticontent) as observed in the wild. As a result, these classifiers' strong performance observed on the test set may not translate into real-world settings. In the context of COVID-19 misinformation detection, we conduct an in-the-wild audit of multiple datasets and demonstrate that models trained with several prominently cited recent datasets are vulnerable to anticontent when evaluated in the wild. Second, we present a novel active learning pipeline that requires zero manual annotation and iteratively augments the training data with challenging anticontent, robustifying these classifiers.
翻訳日:2023-10-23 03:23:17 公開日:2023-08-05
# アルツハイマー病診断のためのdual-graph fusion convolutional network

Dynamic Dual-Graph Fusion Convolutional Network For Alzheimer's Disease Diagnosis ( http://arxiv.org/abs/2308.15484v1 )

ライセンス: Link先を確認
Fanshi Li, Zhihui Wang, Yifan Guo, Congcong Liu, Yanjie Zhu, Yihang Zhou, Jun Li, Dong Liang, Haifeng Wang(参考訳) 本稿では,アルツハイマー病(ad)の診断性能を改善するために,dual-graph fusion convolutional networkを提案する。 論文の主な貢献は以下のとおりである。 a)ADタスクの診断のためのエンドツーエンドパイプラインである新しい動的GCNアーキテクチャを提案する。 b) 提案するアーキテクチャは,gcnのグラフ構造を動的に調整し,基礎となる潜在性グラフを学習することにより,より良い診断結果を得ることができる。 (c)特徴グラフ学習と動的グラフ学習を取り入れ,他の雑音特徴の重みを減らしながら,被験者の有用な特徴をより重み付けする。 実験の結果,本モデルが柔軟性と安定性を提供し,優れた分類結果が得られた。

In this paper, a dynamic dual-graph fusion convolutional network is proposed to improve Alzheimer's disease (AD) diagnosis performance. The following are the paper's main contributions: (a) propose a novel dynamic GCN architecture, which is an end-to-end pipeline for diagnosis of the AD task; (b) the proposed architecture can dynamically adjust the graph structure for GCN to produce better diagnosis outcomes by learning the optimal underlying latent graph; (c) incorporate feature graph learning and dynamic graph learning, giving those useful features of subjects more weight while decreasing the weights of other noise features. Experiments indicate that our model provides flexibility and stability while achieving excellent classification results in AD diagnosis.
翻訳日:2023-09-03 21:21:52 公開日:2023-08-05
# Flashlight Search Medial Axis: ピクセルフリーの細孔ネットワーク抽出アルゴリズム

Flashlight Search Medial Axis: A Pixel-Free Pore-Network Extraction Algorithm ( http://arxiv.org/abs/2308.10990v1 )

ライセンス: Link先を確認
Jie Liu, Tao Zhang, Shuyu Sun(参考訳) 気孔網モデル(pnms)は,過去数十年間,多孔質媒質中の流動の研究において重要なツールとなり,その精度は気孔網の抽出に大きく依存している。 従来の細孔ネットワーク抽出法はピクセルに基づいており、高品質の画像を必要とする。 ここでは,連続空間における細孔ネットワーク抽出のために,フラッシュライト探索媒介軸 (FSMA) アルゴリズムと呼ばれる画素フリーの手法を提案する。 二次元空間における探索領域は直線であり、一方表面領域は三次元のシナリオで探索される。 したがって、FSMAアルゴリズムは次元減少の考え方に従い、中間軸は空空間のすべての点を計算する代わりに、わずか数点で特定できる。 このようにして、この手法の計算複雑性は従来の画素ベース抽出法に比べて大幅に低減され、大規模な細孔ネットワーク抽出が可能となる。 FSMAアルゴリズムは2次元および3次元の多孔質媒体を特徴とするケースに基づいて,細孔ネットワークのトポロジ的構造や細孔と喉頭中心の位置に関わらず良好に機能する。 このアルゴリズムは、クローズドケースとオープンバウンダリケースの両方を調べるためにも利用できる。 最後に、fsmaアルゴリズムは多孔質媒質中の多相流の研究において非常に重要であるデッドエンド孔を探索することができる。

Pore-network models (PNMs) have become an important tool in the study of fluid flow in porous media over the last few decades, and the accuracy of their results highly depends on the extraction of pore networks. Traditional methods of pore-network extraction are based on pixels and require images with high quality. Here, a pixel-free method called the flashlight search medial axis (FSMA) algorithm is proposed for pore-network extraction in a continuous space. The search domain in a two-dimensional space is a line, whereas a surface domain is searched in a three-dimensional scenario. Thus, the FSMA algorithm follows the dimensionality reduction idea; the medial axis can be identified using only a few points instead of calculating every point in the void space. In this way, computational complexity of this method is greatly reduced compared to that of traditional pixel-based extraction methods, thus enabling large-scale pore-network extraction. Based on cases featuring two- and three-dimensional porous media, the FSMA algorithm performs well regardless of the topological structure of the pore network or the positions of the pore and throat centers. This algorithm can also be used to examine both closed- and open-boundary cases. Finally, the FSMA algorithm can search dead-end pores, which is of great significance in the study of multiphase flow in porous media.
翻訳日:2023-08-27 05:08:06 公開日:2023-08-05
# weldmon: 費用対効果の高い超音波溶接機条件監視システム

WeldMon: A Cost-effective Ultrasonic Welding Machine Condition Monitoring System ( http://arxiv.org/abs/2308.05756v1 )

ライセンス: Link先を確認
Beitong Tian, Kuan-Chieh Lu, Ahmadreza Eslaminia, Yaohui Wang, Chenhui Shao, Klara Nahrstedt(参考訳) 超音波溶接機はリチウム電池産業において重要な役割を担い、電池と導体との結合を促進する。 高品質溶接の確保は不可欠であり、早期品質管理にツール条件監視システムが不可欠である。 しかし、既存のモニタリング手法はコスト、ダウンタイム、適応性の課題に直面している。 本稿では,カスタムデータ取得システムとリアルタイム解析用に設計されたデータ解析パイプラインを利用する,安価な超音波溶接機条件監視システムWeldMonを提案する。 我々の分類アルゴリズムは自動生成機能と手作り機能を組み合わせて, 条件分類作業における最先端手法(92.5%)と比較して, クロスバリデーション精度(平均95.8%)に優れる。 データ拡張手法は,概念ドリフト問題を緩和し,ツール条件の分類精度を8.3%向上させる。 すべてのアルゴリズムはローカルで動作し、溶接サイクルごとにデータを処理するのに385ミリ秒しか必要としない。 WeldMonと商用システムを実際の超音波溶接機に展開し、総合的な比較を行った。 本研究は,コスト効率,高性能,信頼性の高いツール条件監視システムの開発の可能性を明らかにするものである。

Ultrasonic welding machines play a critical role in the lithium battery industry, facilitating the bonding of batteries with conductors. Ensuring high-quality welding is vital, making tool condition monitoring systems essential for early-stage quality control. However, existing monitoring methods face challenges in cost, downtime, and adaptability. In this paper, we present WeldMon, an affordable ultrasonic welding machine condition monitoring system that utilizes a custom data acquisition system and a data analysis pipeline designed for real-time analysis. Our classification algorithm combines auto-generated features and hand-crafted features, achieving superior cross-validation accuracy (95.8% on average over all testing tasks) compared to the state-of-the-art method (92.5%) in condition classification tasks. Our data augmentation approach alleviates the concept drift problem, enhancing tool condition classification accuracy by 8.3%. All algorithms run locally, requiring only 385 milliseconds to process data for each welding cycle. We deploy WeldMon and a commercial system on an actual ultrasonic welding machine, performing a comprehensive comparison. Our findings highlight the potential for developing cost-effective, high-performance, and reliable tool condition monitoring systems.
翻訳日:2023-08-20 16:47:54 公開日:2023-08-05
# OrcoDCS: IoT-EdgeオーケストレーションオンラインDeep Compressed Sensing Framework

OrcoDCS: An IoT-Edge Orchestrated Online Deep Compressed Sensing Framework ( http://arxiv.org/abs/2308.05757v1 )

ライセンス: Link先を確認
Cheng-Wei Ching, Chirag Gupta, Zi Huang, Liting Hu(参考訳) 無線センサネットワーク(WSN)上の圧縮データアグリゲーション(CDA)はタスク固有であり、環境変化を受ける。 しかしながら、既存の圧縮データ集約(cda)フレームワーク(例えば、圧縮センシングベースのデータアグリゲーション、ディープラーニング(dl)ベースのデータアグリゲーション)は、異なるセンシングタスクや環境変化を処理するために必要な柔軟性と適応性を持っていません。 さらに、フォローアップIoTデータ駆動型ディープラーニング(DL)ベースのアプリケーションのパフォーマンスも考慮していない。 これらの欠点に対処するために、OrcoDCSを提案する。OrcoDCSは、IoTデバイスグループとそのセンサータスクに対する高い柔軟性と適応性を提供する、IoT-Edgeで編成されたオンラインの深層圧縮センシングフレームワークである。 当社の作業の斬新さは、特別に設計された非対称なオートエンコーダを活用することで、WSN上でのIoT-Edgeオーケストレーションオンライントレーニングフレームワークの設計とデプロイです。 我々は,orcodcsがトレーニング時間において最先端dcdaを上回っており,異なるリコンストラクションタスクが与えられた場合の柔軟性と適応性が著しく向上し,追従アプリケーションの性能が向上することを示す。

Compressed data aggregation (CDA) over wireless sensor networks (WSNs) is task-specific and subject to environmental changes. However, the existing compressed data aggregation (CDA) frameworks (e.g., compressed sensing-based data aggregation, deep learning(DL)-based data aggregation) do not possess the flexibility and adaptivity required to handle distinct sensing tasks and environmental changes. Additionally, they do not consider the performance of follow-up IoT data-driven deep learning (DL)-based applications. To address these shortcomings, we propose OrcoDCS, an IoT-Edge orchestrated online deep compressed sensing framework that offers high flexibility and adaptability to distinct IoT device groups and their sensing tasks, as well as high performance for follow-up applications. The novelty of our work is the design and deployment of IoT-Edge orchestrated online training framework over WSNs by leveraging an specially-designed asymmetric autoencoder, which can largely reduce the encoding overhead and improve the reconstruction performance and robustness. We show analytically and empirically that OrcoDCS outperforms the state-of-the-art DCDA on training time, significantly improves flexibility and adaptability when distinct reconstruction tasks are given, and achieves higher performance for follow-up applications.
翻訳日:2023-08-20 16:38:34 公開日:2023-08-05
# 対話型レコメンダシステムにおけるユーザインテントモデリングの理解:システム文献レビュー

Understanding User Intent Modeling for Conversational Recommender Systems: A Systematic Literature Review ( http://arxiv.org/abs/2308.08496v1 )

ライセンス: Link先を確認
Siamak Farshidi, Kiyan Rezaee, Sara Mazaheri, Amir Hossein Rahimi, Ali Dadashzadeh, Morteza Ziabakhsh, Sadegh Eskandari, and Slinger Jansen(参考訳) コンテキスト: ユーザ意図モデリングは自然言語処理において重要なプロセスであり、ユーザの要求の背後にある基本的な目的を特定し、パーソナライズされた応答を可能にすることを目的としています。 文献(過去10年間に13,000以上の論文)で導入された多数のアプローチでは、関連する概念とAIベースのシステムで一般的に使用されるモデルを理解することが不可欠である。 方法: 対話型レコメンデーションシステムの設計によく使用されるモデルについて, 系統的な文献レビューを行った。 収集したデータから,研究者がシステムに最適なモデルを選択するのを支援する決定モデルを開発した。 さらに,提案モデルの有効性を評価するために2つのケーススタディを行った。 結果: 59種類の異なるモデルを分析し, 74種類の特徴を同定した。 我々は、潜在的なモデルの組み合わせ、モデル選択のトレンド、品質問題、評価尺度、およびこれらのモデルのトレーニングと評価に頻繁に使用されるデータセットに関する洞察を提供した。 コントリビューション:本研究は,ユーザ意図モデリングの実践的洞察と包括的理解に寄与し,より効果的でパーソナライズされた対話レコメンデーションシステムの開発を促進する。 Conversational Recommender Systemにより、研究者は適合意図モデリングフレームワークのより体系的で効率的な評価を行うことができる。

Context: User intent modeling is a crucial process in Natural Language Processing that aims to identify the underlying purpose behind a user's request, enabling personalized responses. With a vast array of approaches introduced in the literature (over 13,000 papers in the last decade), understanding the related concepts and commonly used models in AI-based systems is essential. Method: We conducted a systematic literature review to gather data on models typically employed in designing conversational recommender systems. From the collected data, we developed a decision model to assist researchers in selecting the most suitable models for their systems. Additionally, we performed two case studies to evaluate the effectiveness of our proposed decision model. Results: Our study analyzed 59 distinct models and identified 74 commonly used features. We provided insights into potential model combinations, trends in model selection, quality concerns, evaluation measures, and frequently used datasets for training and evaluating these models. Contribution: Our study contributes practical insights and a comprehensive understanding of user intent modeling, empowering the development of more effective and personalized conversational recommender systems. With the Conversational Recommender System, researchers can perform a more systematic and efficient assessment of fitting intent modeling frameworks.
翻訳日:2023-08-20 16:21:32 公開日:2023-08-05
# 音声の匿名化:話者匿名化手法の評価と設計

Anonymizing Speech: Evaluating and Designing Speaker Anonymization Techniques ( http://arxiv.org/abs/2308.04455v1 )

ライセンス: Link先を確認
Pierre Champion(参考訳) 音声ユーザインタフェースの利用が増加し、音声データの収集と保存が急増した。 データ収集は、ほとんどの音声サービスを支える効率的なツールの開発を可能にするが、集中ストレージが個人の音声データをサイバー脅威に脆弱にするため、ユーザーにとって深刻なプライバシー問題を引き起こす。 AmazonのAlexa、GoogleのHome、AppleのSiriといった音声ベースのデジタルアシスタントの利用が増加し、パーソナル音声データの収集が容易になったことで、音声クローズとスピーカー/ジェンダー/病理/etcの悪意ある使用のリスクが高まった。 認識が高まりました 本論文は,音声の匿名化と匿名化の程度を評価するための解を提案する。 本研究において、匿名化とは、音声信号(例えば、言語コンテンツへのアクセス)の有用性(有効性)を維持しつつ、個人音声データをアイデンティティーと結びつかないものにすることを指す。 まず、評価プロトコルがプライバシー保護の程度を適切に評価するために考慮する必要があるいくつかの課題を特定することから始める。 評価のために匿名化システムをどのように構成するかを明確にし、多くの実用的なデプロイメント構成ではプライバシ評価が許されていないことを強調する。 さらに,最も一般的な音声変換に基づく匿名化システムについて検討し,いくつかの制限を克服するための新しい手法を提案する前に,その弱点を特定する。 匿名化システムのすべてのコンポーネントを分離し、各コンポーネントに関連付けられた話者PPIの度合いを評価する。 次に,各コンポーネントに対して,実用性を維持しながら話者ppiを可能な限り削減するための変換手法を提案する。 我々は、量子化に基づく変換に基づく匿名化アルゴリズムを、最もよく使われ、よく知られたノイズベースアプローチの代替として推奨する。 最後に,匿名化を回避すべく,新たな攻撃手法を提案する。

The growing use of voice user interfaces has led to a surge in the collection and storage of speech data. While data collection allows for the development of efficient tools powering most speech services, it also poses serious privacy issues for users as centralized storage makes private personal speech data vulnerable to cyber threats. With the increasing use of voice-based digital assistants like Amazon's Alexa, Google's Home, and Apple's Siri, and with the increasing ease with which personal speech data can be collected, the risk of malicious use of voice-cloning and speaker/gender/pathological/etc. recognition has increased. This thesis proposes solutions for anonymizing speech and evaluating the degree of the anonymization. In this work, anonymization refers to making personal speech data unlinkable to an identity while maintaining the usefulness (utility) of the speech signal (e.g., access to linguistic content). We start by identifying several challenges that evaluation protocols need to consider to evaluate the degree of privacy protection properly. We clarify how anonymization systems must be configured for evaluation purposes and highlight that many practical deployment configurations do not permit privacy evaluation. Furthermore, we study and examine the most common voice conversion-based anonymization system and identify its weak points before suggesting new methods to overcome some limitations. We isolate all components of the anonymization system to evaluate the degree of speaker PPI associated with each of them. Then, we propose several transformation methods for each component to reduce as much as possible speaker PPI while maintaining utility. We promote anonymization algorithms based on quantization-based transformation as an alternative to the most-used and well-known noise-based approach. Finally, we endeavor a new attack method to invert anonymization.
翻訳日:2023-08-10 16:51:58 公開日:2023-08-05
# 持続可能な開発指向型キャンパス自転車共有サイト評価モデル:ヘナン工科大学を事例として

Sustainable development-oriented campus bike-sharing site evaluation model: A case study of Henan Polytechnic University ( http://arxiv.org/abs/2308.04454v1 )

ライセンス: Link先を確認
Huimin Qi, Xianghong Li, Kai Yin, Xiangnan Song, Xufei Fang(参考訳) 持続可能な輸送手段の推進は、環境にやさしく効率的なキャンパス移動システムの追求においてますます重要になっている。 これらの選択肢の中で、自転車共有プログラムは交通渋滞を緩和し、二酸化炭素排出量を削減し、キャンパス全体の持続可能性を高める能力にかなりの注意を払っている。 しかし、自転車共有サイトの不適切な選択は、無秩序な駐車や自転車共有の無差別な配置など、キャンパスにおける持続不可能な慣行の問題を増大させている。 そこで本研究では,改良型Delphiとファジィ総合評価手法を統合した,持続可能な開発指向型自転車共有サイト評価モデルを提案する。 14の評価指標をまず4次元から選択し, 専門家経験とデルファイ法の改良により, パーキングスポットのユーザ特性, 利用特性, 環境持続可能性, 社会持続可能性について検討した。 次に, 分析階層法とエントロピー重み法を用いて, 評価指標の重み付けを決定し, 頑健で客観的な評価枠組みを確立する。 最後に, ファジィ包括的評価手法を実装し, 位置選択の質評価を行った。 提案する評価システムを用いたケーススタディとして,河南工科大学南キャンパスを選定した。 本研究は, 持続可能な開発原理に基づいて, キャンパス自転車共有のための総合的位置選択評価システムを提案することによって, 既存の知識体系に寄与する。

Promoting sustainable transportation options is increasingly crucial in the pursuit of environmentally friendly and efficient campus mobility systems. Among these options, bike-sharing programs have garnered substantial attention for their capacity to mitigate traffic congestion, decrease carbon emissions, and enhance overall campus sustainability. However, improper selection of bike-sharing sites has led to the growing problems of unsustainable practices in campus, including the disorderly parking and indiscriminate placement of bike-sharing. To this end, this paper proposes a novel sustainable development-oriented campus bike-sharing site evaluation model integrating the improved Delphi and fuzzy comprehensive evaluation approaches. Fourteen evaluation metrics are firstly selected from four dimensions: the user features, implementation and usage characteristics of parking spots, environmental sustainability, and social sustainability, through the combination of expert experience and the improved Delphi method. Then, the analytic hierarchy process and the entropy weight method are employed to determine the weights of the evaluation indices, ensuring a robust and objective assessment framework. The fuzzy comprehensive evaluation method is finally implemented to evaluate the quality of location selection. South Campus of Henan Polytechnic University is selected as a case study using the proposed evaluation system. This work contributes to the existing body of knowledge by presenting a comprehensive location selection evaluation system for campus bike-sharing, informed by the principles of sustainable development.
翻訳日:2023-08-10 16:51:32 公開日:2023-08-05
# マルチ購入行動:モデリング、推定、最適化

Multi-Purchase Behavior: Modeling, Estimation and Optimization ( http://arxiv.org/abs/2006.08055v2 )

ライセンス: Link先を確認
Theja Tulabandhula, Deeksha Sinha, Saketh Reddy Karra, Prasoon Patidar(参考訳) オンライン小売業者やeコマースプラットフォーム向けに最適化されたレコメンデーションを表示するために、複数の商品の購入をモデル化する問題を調査した。 本稿では,Bundle-MVL-Kファミリと呼ばれる類似のマルチ購入モデル群を提案し,このモデルに対して最適化されたレコメンデーションを効率的に計算するバイナリ検索に基づく反復戦略を開発する。 最適な推奨集合の計算の難しさを確立し,計算の高速化を支援する最適解のいくつかの構造的性質を導出する。 これは、選択モデルのマルチ購入クラスを運用する最初の試みの1つである。 複数の購入行動のモデリングと収益の獲得との間には,最初の定量的な関連性を示す。 モデル適合性, 予測収益率, 実行時間短縮など, 実世界の複数のデータセットを用いて, 競合するソリューションと比較して, モデリングおよび最適化手法の有効性を示す。 例えば、複数の購入を考慮に入れると期待される収益利益は、$\sim 1500$のインスタンスのmnlモデルと比較すると、ta fengおよびutiショッピングデータセットの相対的な観点で$\sim5\%である。 さらに、実世界のデータセット6ドルに対して、我々のモデルのテストログのような適合度は、相対的に平均17セント%以上である。 本研究は, マルチ購入決定, 消費者需要分析, 小売店最適化問題に寄与する。 モデルの単純さと最適化手法の反復的な性質により、実践者は厳しい計算上の制約を満たしながら、大規模、特にeコマースプラットフォームや他のマーケットプレースでの実用的な推奨アプリケーションで収入を増加させます。

We study the problem of modeling purchase of multiple products and utilizing it to display optimized recommendations for online retailers and e-commerce platforms. We present a parsimonious multi-purchase family of choice models called the Bundle-MVL-K family, and develop a binary search based iterative strategy that efficiently computes optimized recommendations for this model. We establish the hardness of computing optimal recommendation sets, and derive several structural properties of the optimal solution that aid in speeding up computation. This is one of the first attempts at operationalizing multi-purchase class of choice models. We show one of the first quantitative links between modeling multiple purchase behavior and revenue gains. The efficacy of our modeling and optimization techniques compared to competing solutions is shown using several real world datasets on multiple metrics such as model fitness, expected revenue gains and run-time reductions. For example, the expected revenue benefit of taking multiple purchases into account is observed to be $\sim5\%$ in relative terms for the Ta Feng and UCI shopping datasets, when compared to the MNL model for instances with $\sim 1500$ products. Additionally, across $6$ real world datasets, the test log-likelihood fits of our models are on average $17\%$ better in relative terms. Our work contributes to the study multi-purchase decisions, analyzing consumer demand and the retailers optimization problem. The simplicity of our models and the iterative nature of our optimization technique allows practitioners meet stringent computational constraints while increasing their revenues in practical recommendation applications at scale, especially in e-commerce platforms and other marketplaces.
翻訳日:2023-08-09 18:10:22 公開日:2023-08-05
# 金融詐欺検出のためのテキストデータマイニング:深層学習アプローチ

Textual Data Mining for Financial Fraud Detection: A Deep Learning Approach ( http://arxiv.org/abs/2308.03800v1 )

ライセンス: Link先を確認
Qiuru Li(参考訳) 本稿では,自然言語処理(以下NLP)のバイナリ分類タスクを,金融詐欺テキストの分析に活用するためのディープラーニング手法を提案する。 第一に、私はhkex newsから規制発表と執行報せを検索し、不正企業を定義し、md&aレポートを抽出した上で、ラベルとレポートタイムでレポートから文章を整理しました。 私の手法では,埋め込み層を有する多層型パーセプトロン,バニラリカレントニューラルネットワーク(rnn),long-short term memory(lstm),gated recurrent unit(gru)など,さまざまなニューラルネットワークモデルを用いてテキスト分類を行った。 この多種多様なモデルを用いて、金融詐欺検出の精度を総合的に比較することを目的とする。 本研究は, 深層学習, NLP, 金融の交差点における研究の進展に寄与し, より堅牢で効果的な不正検出手法の追求において, 業界実践者, 規制当局, 研究者に貴重な洞察を与えている。

In this report, I present a deep learning approach to conduct a natural language processing (hereafter NLP) binary classification task for analyzing financial-fraud texts. First, I searched for regulatory announcements and enforcement bulletins from HKEX news to define fraudulent companies and to extract their MD&A reports before I organized the sentences from the reports with labels and reporting time. My methodology involved different kinds of neural network models, including Multilayer Perceptrons with Embedding layers, vanilla Recurrent Neural Network (RNN), Long-Short Term Memory (LSTM), and Gated Recurrent Unit (GRU) for the text classification task. By utilizing this diverse set of models, I aim to perform a comprehensive comparison of their accuracy in detecting financial fraud. My results bring significant implications for financial fraud detection as this work contributes to the growing body of research at the intersection of deep learning, NLP, and finance, providing valuable insights for industry practitioners, regulators, and researchers in the pursuit of more robust and effective fraud detection methodologies.
翻訳日:2023-08-09 15:33:15 公開日:2023-08-05
# C^3$:ビデオ音声対話におけるコントラスト学習

$C^3$: Compositional Counterfactual Contrastive Learning for Video-grounded Dialogues ( http://arxiv.org/abs/2106.08914v2 )

ライセンス: Link先を確認
Hung Le, Nancy F. Chen, Steven C.H. Hoi(参考訳) video-grounded dialogue systemは、ビデオ理解と対話理解を統合し、対話とビデオのコンテキストの両方に関連する応答を生成することを目的としている。 既存のアプローチのほとんどはディープラーニングモデルを採用しており、利用可能な比較的小さなデータセットを考えると、驚くべきパフォーマンスを達成している。 しかし、結果はマルチモーダル推論を開発するのではなく、データセットのバイアスを利用して部分的に達成され、その結果は限定的な一般化をもたらす。 本稿では,映像対話における実例と実例の対比学習を開発するために,合成対実的コントラスト学習(C^3$)の新たなアプローチを提案する。 具体的には,対話における映像やトークンの時間的ステップに基づいて,実演/実演サンプリングをデザインし,オブジェクトレベルの分散や動作レベルの分散を利用したコントラスト損失関数を提案する。 従来の手法と異なり,生成時の表現空間を最適化するために,合成出力トークン間のコントラスト的隠れ状態表現に着目した。 我々は、avsd(audio-visual scene-aware dialogues)ベンチマークで有望な性能向上を達成し、映像と対話コンテキストの接地における我々のアプローチの利点を示した。

Video-grounded dialogue systems aim to integrate video understanding and dialogue understanding to generate responses that are relevant to both the dialogue and video context. Most existing approaches employ deep learning models and have achieved remarkable performance, given the relatively small datasets available. However, the results are partly accomplished by exploiting biases in the datasets rather than developing multimodal reasoning, resulting in limited generalization. In this paper, we propose a novel approach of Compositional Counterfactual Contrastive Learning ($C^3$) to develop contrastive training between factual and counterfactual samples in video-grounded dialogues. Specifically, we design factual/counterfactual sampling based on the temporal steps in videos and tokens in dialogues and propose contrastive loss functions that exploit object-level or action-level variance. Different from prior approaches, we focus on contrastive hidden state representations among compositional output tokens to optimize the representation space in a generation setting. We achieved promising performance gains on the Audio-Visual Scene-Aware Dialogues (AVSD) benchmark and showed the benefits of our approach in grounding video and dialogue context.
翻訳日:2023-08-09 01:39:21 公開日:2023-08-05
# yor\`ub\'a動詞句機械翻訳システムにおける英語の設計と実装

Design and Implementation of English To Yor\`ub\'a Verb Phrase Machine Translation System ( http://arxiv.org/abs/2104.04125v2 )

ライセンス: Link先を確認
Benjamin Ajibade and Safiriyu Eludiora(参考訳) 本研究の目的は,母国語における動詞句群に対して,英語の動詞句文を同義語に翻訳可能な英語-ヨルバ機械翻訳システムを開発することであり,ソース言語とターゲット言語の両方からの単語が収集された。 辞書翻訳は、辞書内の一致する単語の値を割り当てることで行われる。 2つの言語の構文は文脈自由文法を用いて実現され,書き換え規則を有限状態オートマトンで検証した。 人体評価法を応用し, 専門家の流用率を測定した。 評価の結果, システム出力の70%以上の応答が一致し, サンプリングしたGoogle翻訳よりも優れた性能を示した。

We aim to develop an English-to-Yoruba machine translation system which can translate English verb phrase text to its Yoruba equivalent.Words from both languages Source Language and Target Language were collected for the verb phrase group in the home domain. The lexical translation is done by assigning values of the matching word in the dictionary. The syntax of the two languages was realized using Context-Free Grammar, we validated the rewrite rules with finite state automata. The human evaluation method was used and expert fluency was scored. The evaluation shows the system performed better than that of sampled Google translation with over 70 percent of the response matching that of the system's output.
翻訳日:2023-08-09 01:38:59 公開日:2023-08-05
# 条件付き期待作用素の非パラメトリック近似

Nonparametric approximation of conditional expectation operators ( http://arxiv.org/abs/2012.12917v3 )

ライセンス: Link先を確認
Mattes Mollenhauer and P\'eter Koltai(参考訳) 局所コンパクトハウスドルフ空間上の 2 つの確率変数 $X,Y$ の合同分布を考えると、最小の仮定の下で、$[Pf](x) := \mathbb{E}[f(Y) \mid X = x ]$ で定義される$L^2$-operator の統計的近似を研究する。 その領域を変更することで、Hilbert-Schmidt作用素が再生カーネルヒルベルト空間に作用する作用素ノルムにおいて、$P$を任意に適切に近似できることを示す。 この事実は、高密度部分空間上の有限ランク作用素によって、$P$がコンパクトでない場合でも、$P$を均一に推定することができる。 収束モードの観点からは、ガレルキン法のような古典的なパラメトリック射影法よりもカーネルベース技術の方が優れている。 これはまた、非パラメトリックな推定値である$p$が収束するオブジェクトを制限する新しい視点を提供する。 応用として,これらの結果はマルコフ遷移作用素のスペクトル解析技術群において特に重要であることを示す。 本研究は,カーネルベース非パラメトリック推論における多種多様な手法の理論的基礎であるいわゆるカーネル条件平均埋め込みに対する新たな漸近的視点を与える。

Given the joint distribution of two random variables $X,Y$ on some second countable locally compact Hausdorff space, we investigate the statistical approximation of the $L^2$-operator defined by $[Pf](x) := \mathbb{E}[ f(Y) \mid X = x ]$ under minimal assumptions. By modifying its domain, we prove that $P$ can be arbitrarily well approximated in operator norm by Hilbert-Schmidt operators acting on a reproducing kernel Hilbert space. This fact allows to estimate $P$ uniformly by finite-rank operators over a dense subspace even when $P$ is not compact. In terms of modes of convergence, we thereby obtain the superiority of kernel-based techniques over classically used parametric projection approaches such as Galerkin methods. This also provides a novel perspective on which limiting object the nonparametric estimate of $P$ converges to. As an application, we show that these results are particularly important for a large family of spectral analysis techniques for Markov transition operators. Our investigation also gives a new asymptotic perspective on the so-called kernel conditional mean embedding, which is the theoretical foundation of a wide variety of techniques in kernel-based nonparametric inference.
翻訳日:2023-08-09 01:38:21 公開日:2023-08-05
# 固定化分類器を用いたクラス増分学習

Class-incremental Learning with Pre-allocated Fixed Classifiers ( http://arxiv.org/abs/2010.08657v3 )

ライセンス: Link先を確認
Federico Pernici, Matteo Bruni, Claudio Baecchi, Francesco Turchini, Alberto Del Bimbo(参考訳) 授業インクリメンタルラーニングでは、学習エージェントは、新しいクラスを学習しながら前のクラスを忘れないように、データのストリームに直面します。 ニューラルネットワークは、以前取得した知識を忘れるため、この設定で苦しむことが知られている。 この問題に対処するために、有効な手法はエピソディックメモリに格納された過去のデータを活用し、新しいクラスに対応するために最終分類器ノードを拡張する。 本研究では,拡張型分類器を,学習フェーズの開始時から多くの事前配置された出力ノードが分類損失権を受けるような,新しい固定型分類器に置き換える。 標準拡張分類器とは対照的に、以下のことができる。 (a)未発見の将来のクラスの出力ノードは、漸進的に到達する正のサンプルとともに学習の始めから、まず負のサンプルを見る。 (b)学習モデルに新しいクラスが組み込まれているため、幾何学的構成を変えない特徴を学ぶ。 公開データセットを用いた実験では、提案手法は拡張型分類器と同じくらい有効であり、それ以外は存在しない内部特徴表現の興味深い特徴を示す。 多数のクラスを事前に配置したアブレーション研究は,アプローチをさらに検証する。

In class-incremental learning, a learning agent faces a stream of data with the goal of learning new classes while not forgetting previous ones. Neural networks are known to suffer under this setting, as they forget previously acquired knowledge. To address this problem, effective methods exploit past data stored in an episodic memory while expanding the final classifier nodes to accommodate the new classes. In this work, we substitute the expanding classifier with a novel fixed classifier in which a number of pre-allocated output nodes are subject to the classification loss right from the beginning of the learning phase. Contrarily to the standard expanding classifier, this allows: (a) the output nodes of future unseen classes to firstly see negative samples since the beginning of learning together with the positive samples that incrementally arrive; (b) to learn features that do not change their geometric configuration as novel classes are incorporated in the learning model. Experiments with public datasets show that the proposed approach is as effective as the expanding classifier while exhibiting novel intriguing properties of the internal feature representation that are otherwise not-existent. Our ablation study on pre-allocating a large number of classes further validates the approach.
翻訳日:2023-08-09 01:37:43 公開日:2023-08-05
# マルチエージェント信頼地域政策最適化

Multi-Agent Trust Region Policy Optimization ( http://arxiv.org/abs/2010.07916v3 )

ライセンス: Link先を確認
Hepeng Li and Haibo He(参考訳) 信頼領域ポリシー最適化(TRPO)をマルチエージェント強化学習(MARL)問題に拡張する。 TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。 コンセンサス最適化モデルに一連の近似を加えることにより,マルチエージェントTRPO (MATRPO) と呼ばれる分散MARLアルゴリズムを提案する。 このアルゴリズムは、ローカルな観測と個人の報酬に基づいて分散ポリシーを最適化することができる。 エージェントは他のエージェントの観察、報酬、ポリシー、価値/アクション-バリュー機能を知る必要はない。 エージェントは、トレーニングプロセス中に隣人との確率比率のみを共有します。 アルゴリズムは完全に分散され、プライバシーを保護している。 2つの協調ゲームに関する実験は、複雑なMARLタスクにおける堅牢な性能を示す。

We extend trust region policy optimization (TRPO) to multi-agent reinforcement learning (MARL) problems. We show that the policy update of TRPO can be transformed into a distributed consensus optimization problem for multi-agent cases. By making a series of approximations to the consensus optimization model, we propose a decentralized MARL algorithm, which we call multi-agent TRPO (MATRPO). This algorithm can optimize distributed policies based on local observations and private rewards. The agents do not need to know observations, rewards, policies or value/action-value functions of other agents. The agents only share a likelihood ratio with their neighbors during the training process. The algorithm is fully decentralized and privacy-preserving. Our experiments on two cooperative games demonstrate its robust performance on complicated MARL tasks.
翻訳日:2023-08-09 01:37:27 公開日:2023-08-05
# カーネルロバスト仮説テスト

Kernel Robust Hypothesis Testing ( http://arxiv.org/abs/2203.12777v3 )

ライセンス: Link先を確認
Zhongchang Sun and Shaofeng Zou(参考訳) 強固な仮説検定の問題は、ヌルと代替仮説の下では、データ生成分布が不確実性集合に含まれると仮定され、不確実性集合上の最悪の場合分布の下で適切に実行されるテストを設計することが目的である。 本稿では,不確実性集合を核法を用いてデータ駆動的に構築する。すなわち,ヌル仮説とオルタナティブ仮説のサンプル実験分布を中心に構成し,再生成核ヒルベルト空間における分布の平均埋め込み距離,すなわち最大平均偏差(mmd)によって制約する。 The Bayesian set and the Neyman-Pearson set。 最悪の場合のエラー確率を最小化する目的のベイズ設定の場合、アルファベットが有限であるときにまず最適なテストを求める。 アルファベットが無限の場合、最悪のケースの平均誤差確率を定量化するためにトラクタブル近似を提案し、未知のサンプルに一般化する設計試験にカーネル平滑化法をさらに適用した。 直接堅牢なカーネルテストも提案され、指数関数的に一貫性があることが証明された。 誤ったアラームの最悪のケース確率の制約を受けるミス検出の最悪のケース確率を最小化することを目的としたニーマン・ピアソン・セッティングでは、効率的な堅牢なカーネルテストが提案され、漸近的に最適であることが示されている。 提案したロバスト試験の性能を示す数値的な結果が得られた。

The problem of robust hypothesis testing is studied, where under the null and the alternative hypotheses, the data-generating distributions are assumed to be in some uncertainty sets, and the goal is to design a test that performs well under the worst-case distributions over the uncertainty sets. In this paper, uncertainty sets are constructed in a data-driven manner using kernel method, i.e., they are centered around empirical distributions of training samples from the null and alternative hypotheses, respectively; and are constrained via the distance between kernel mean embeddings of distributions in the reproducing kernel Hilbert space, i.e., maximum mean discrepancy (MMD). The Bayesian setting and the Neyman-Pearson setting are investigated. For the Bayesian setting where the goal is to minimize the worst-case error probability, an optimal test is firstly obtained when the alphabet is finite. When the alphabet is infinite, a tractable approximation is proposed to quantify the worst-case average error probability, and a kernel smoothing method is further applied to design test that generalizes to unseen samples. A direct robust kernel test is also proposed and proved to be exponentially consistent. For the Neyman-Pearson setting, where the goal is to minimize the worst-case probability of miss detection subject to a constraint on the worst-case probability of false alarm, an efficient robust kernel test is proposed and is shown to be asymptotically optimal. Numerical results are provided to demonstrate the performance of the proposed robust tests.
翻訳日:2023-08-09 01:29:32 公開日:2023-08-05
# 可観測物の分布による相対エントロピー

Relative Entropy via Distribution of Observables ( http://arxiv.org/abs/2203.01964v3 )

ライセンス: Link先を確認
George Androulakis, Tiju Cherian John(参考訳) 正の自己共役作用素の分布からpetz-r\'enyi と umegaki relative entropy の式を得る。 r\'enyi と kullback-leibler divergences の古典的結果を適用し、petz-r\'enyi と umegaki relative entropy に関する既知の結果の新たな証明を得た。 これらの中で最も重要なのは、petz-r\'enyi $\alpha$-relative entropy の有限性に必要な十分条件である。 ここで示されるすべての結果は有限次元と無限次元の両方において有効である。 特に、これらの結果はフォック空間の状態に対して有効であり、従って連続変数量子情報理論に適用できる。

We obtain formulas for Petz-R\'enyi and Umegaki relative entropy from the idea of distribution of a positive selfadjoint operator. Classical results on R\'enyi and Kullback-Leibler divergences are applied to obtain new results and new proofs for some known results about Petz-R\'enyi and Umegaki relative entropy. Most important among these, is a necessary and sufficient condition for the finiteness of the Petz-R\'enyi $\alpha$-relative entropy. All of the results presented here are valid in both finite and infinite dimensions. In particular, these results are valid for states in Fock spaces and thus are applicable to continuous variable quantum information theory.
翻訳日:2023-08-09 01:29:04 公開日:2023-08-05
# KINet:ロボットプッシュ操作のための教師なしフォワードモデル

KINet: Unsupervised Forward Models for Robotic Pushing Manipulation ( http://arxiv.org/abs/2202.09006v3 )

ライセンス: Link先を確認
Alireza Rezazadeh, Changhyun Choi(参考訳) オブジェクト中心表現は前方予測に不可欠な抽象化である。 ほとんどの既存のフォワードモデルは、広範囲の監視(オブジェクトクラスやバウンディングボックスなど)を通してこの表現を学習するが、そのような基礎的な情報は現実にはアクセスできない。 これを解決するために、キーポイント表現に基づいたオブジェクトインタラクションを推論するエンドツーエンドのアン教師なしフレームワークKINet(Keypoint Interaction Network)を紹介します。 視覚的観察を用いて,オブジェクトとキーポイント座標を関連付けることを学び,キーポイント埋め込みとその関係の集合としてシステムのグラフ表現を発見する。 その後、コントラスト推定を用いてアクション条件フォワードモデルを学び、将来のキーポイント状態を予測する。 キーポイント空間における物理的推論を学習することにより、我々のモデルは、異なる数のオブジェクト、新しい背景、見えないオブジェクトのジオメトリを持つシナリオに自動的に一般化する。 実験は,下流ロボット操作タスクにおける前方予測と平面型物体中心表現の学習におけるモデルの有効性を実証する。

Object-centric representation is an essential abstraction for forward prediction. Most existing forward models learn this representation through extensive supervision (e.g., object class and bounding box) although such ground-truth information is not readily accessible in reality. To address this, we introduce KINet (Keypoint Interaction Network) -- an end-to-end unsupervised framework to reason about object interactions based on a keypoint representation. Using visual observations, our model learns to associate objects with keypoint coordinates and discovers a graph representation of the system as a set of keypoint embeddings and their relations. It then learns an action-conditioned forward model using contrastive estimation to predict future keypoint states. By learning to perform physical reasoning in the keypoint space, our model automatically generalizes to scenarios with a different number of objects, novel backgrounds, and unseen object geometries. Experiments demonstrate the effectiveness of our model in accurately performing forward prediction and learning plannable object-centric representations for downstream robotic pushing manipulation tasks.
翻訳日:2023-08-09 01:28:28 公開日:2023-08-05
# 主基底行列表現に基づく三部構造絡みの検出

Detection of tripartite entanglement based on principal basis matrix representations ( http://arxiv.org/abs/2202.06176v2 )

ライセンス: Link先を確認
Hui Zhao, Yu-Qiu Liu, Shao-Ming Fei, Zhi-Xi Wang and Naihuan Jing(参考訳) 密度行列の主基底行列表現を用いて三部量子系の絡み合いについて検討する。 シュミット分解と局所ユニタリ変換を用いて、まず一般状態をより単純な形式に変換し、次に単純化された密度行列の相関テンソルから特別な行列を構成する。 これらの行列の異なる線形結合に基づいて、三成分状態の絡み合いを検出するために必要な条件が提示される。 詳細な例では,本手法は従来よりも絡み合った状態を検出することができる。

We study the entanglement in tripartite quantum systems by using the principal basis matrix representations of density matrices. Using the Schmidt decomposition and local unitary transformation, we first convert the general states to simpler forms and then construct some special matrices from the correlation tensors of the simplified density matrices. Based on the different linear combinations of these matrices, necessary conditions are presented to detect entanglement of tripartite states. Detailed examples show that our method can detect more entangled states than previous ones.
翻訳日:2023-08-09 01:28:09 公開日:2023-08-05
# マルチモーダル画像合成と編集:調査と分類

Multimodal Image Synthesis and Editing: A Survey and Taxonomy ( http://arxiv.org/abs/2112.13592v5 )

ライセンス: Link先を確認
Fangneng Zhan, Yingchen Yu, Rongliang Wu, Jiahui Zhang, Shijian Lu, Lingjie Liu, Adam Kortylewski, Christian Theobalt, Eric Xing(参考訳) 実世界の様々なモダリティに情報が存在するため、コンピュータビジョンやディープラーニング研究において、マルチモーダル情報間の効果的な相互作用と融合がマルチモーダルデータの生成と認識に重要な役割を果たしている。 マルチモーダル情報間の相互作用をモデル化するスーパーパワーにより、近年はマルチモーダル画像合成と編集がホットな研究トピックとなっている。 ネットワークトレーニングのための明確なガイダンスを提供する代わりに、マルチモーダルガイダンスは直感的で柔軟な画像合成と編集の手段を提供する。 一方で,マルチモーダルな特徴のアライメント,高解像度画像の合成,忠実な評価指標など,いくつかの課題に直面している。 本研究では,近年のマルチモーダル画像合成・編集・分類学の進歩を,データモダリティやモデルタイプに応じて包括的に把握する。 まず、画像合成と編集における異なるガイダンスモダリティの紹介から始め、そのモデルタイプに応じて多モード画像合成と編集アプローチを広範囲に記述する。 その後、ベンチマークデータセットと評価メトリクスおよび対応する実験結果について述べる。 最後に,現在の研究課題と今後の研究の方向性について考察する。 この調査に関連するプロジェクトはhttps://github.com/fnzhan/mise.comで入手できる。

As information exists in various modalities in real world, effective interaction and fusion among multimodal information plays a key role for the creation and perception of multimodal data in computer vision and deep learning research. With superb power in modeling the interaction among multimodal information, multimodal image synthesis and editing has become a hot research topic in recent years. Instead of providing explicit guidance for network training, multimodal guidance offers intuitive and flexible means for image synthesis and editing. On the other hand, this field is also facing several challenges in alignment of multimodal features, synthesis of high-resolution images, faithful evaluation metrics, etc. In this survey, we comprehensively contextualize the advance of the recent multimodal image synthesis and editing and formulate taxonomies according to data modalities and model types. We start with an introduction to different guidance modalities in image synthesis and editing, and then describe multimodal image synthesis and editing approaches extensively according to their model types. After that, we describe benchmark datasets and evaluation metrics as well as corresponding experimental results. Finally, we provide insights about the current research challenges and possible directions for future research. A project associated with this survey is available at https://github.com/fnzhan/MISE.
翻訳日:2023-08-09 01:26:51 公開日:2023-08-05
# 非対称二部待ち行列システムにおける効率的な分散マルチエージェント学習

Efficient decentralized multi-agent learning in asymmetric bipartite queueing systems ( http://arxiv.org/abs/2206.03324v3 )

ライセンス: Link先を確認
Daniel Freund and Thodoris Lykouris and Wentao Weng(参考訳) サービスシステムの標準モデルである2部待ち行列システムにおける分散マルチエージェント学習について検討した。 特に、nエージェントは、通信なしで同じアルゴリズムを実行することによって、完全に分散化された方法でkサーバからサービスを要求する。 従来の分散アルゴリズムは対称システムに限定され、サーバ数で指数関数的に低下する性能を持ち、共有ランダム性とユニークなエージェントidによる通信を必要とし、計算上要求される。 これとは対照的に,各エージェントによって分散的に実行されると,非対称な2部待ち行列システムにおいて効率良く性能が向上し,さらにロバスト性も向上する,単純な学習アルゴリズムを提供する。 その過程で,問題の集中的なケースに対して,初の証明可能なUPBベースのアルゴリズムを提供する。

We study decentralized multi-agent learning in bipartite queueing systems, a standard model for service systems. In particular, N agents request service from K servers in a fully decentralized way, i.e, by running the same algorithm without communication. Previous decentralized algorithms are restricted to symmetric systems, have performance that is degrading exponentially in the number of servers, require communication through shared randomness and unique agent identities, and are computationally demanding. In contrast, we provide a simple learning algorithm that, when run decentrally by each agent, leads the queueing system to have efficient performance in general asymmetric bipartite queueing systems while also having additional robustness properties. Along the way, we provide the first provably efficient UCB-based algorithm for the centralized case of the problem.
翻訳日:2023-08-09 01:20:36 公開日:2023-08-05
# kNN-Embed:多目的候補検索のためのローカルな平滑な埋め込みミックス

kNN-Embed: Locally Smoothed Embedding Mixtures For Multi-interest Candidate Retrieval ( http://arxiv.org/abs/2205.06205v3 )

ライセンス: Link先を確認
Ahmed El-Kishky, Thomas Markovich, Kenny Leung, Frank Portman, Aria Haghighi, Ying Xiao(参考訳) 候補検索はレコメンデーションシステムにおける第1段階であり、軽量システムを用いて入力ユーザに対して潜在的に関連するアイテムを検索する。 これらの候補項目は、より複雑なランキングモデルを用いて、リコメンデータシステムの後半段階でランク付けされ、刈り取られる。 推薦ファンネルの最上部として、下流ランキングモデルにフィードするハイリコール候補セットを検索することが重要である。 一般的なアプローチは、1つの高密度クエリ埋め込みから近い近傍(ANN)探索を活用することであるが、このアプローチは、多くの近い重複を持つ低多様性の結果をもたらす可能性がある。 ユーザが複数の関心を持つことが多いため、候補検索は、ユーザの複数の関心を反映した多様な候補セットを理想的に返すべきである。 そこで我々は,高密度ANN検索における多様性向上のための一般的なアプローチであるkNN-Embedを紹介する。 kNN-Embedは、各ユーザを学習アイテムクラスタ上のスムーズな混合として表現し、ユーザの“関心”を区別する。 各ユーザの混合成分をそれぞれの混合重みに比例してクエリすることにより、ユーザの関心事から要素を反映する候補の多様性の高い集合を検索する。 knn-embed と標準 ann 候補検索を実験的に比較し、3 つのデータセット間の全体的なリコールとダイバーシティの改善を示す。 この作業を伴って、私たちは大規模なTwitterフォローグラフデータセット(https://huggingface.co/datasets/Twitter/TwitterFollowGraph)をオープンソース化しました。

Candidate retrieval is the first stage in recommendation systems, where a light-weight system is used to retrieve potentially relevant items for an input user. These candidate items are then ranked and pruned in later stages of recommender systems using a more complex ranking model. As the top of the recommendation funnel, it is important to retrieve a high-recall candidate set to feed into downstream ranking models. A common approach is to leverage approximate nearest neighbor (ANN) search from a single dense query embedding; however, this approach this can yield a low-diversity result set with many near duplicates. As users often have multiple interests, candidate retrieval should ideally return a diverse set of candidates reflective of the user's multiple interests. To this end, we introduce kNN-Embed, a general approach to improving diversity in dense ANN-based retrieval. kNN-Embed represents each user as a smoothed mixture over learned item clusters that represent distinct "interests" of the user. By querying each of a user's mixture component in proportion to their mixture weights, we retrieve a high-diversity set of candidates reflecting elements from each of a user's interests. We experimentally compare kNN-Embed to standard ANN candidate retrieval, and show significant improvements in overall recall and improved diversity across three datasets. Accompanying this work, we open source a large Twitter follow-graph dataset (https://huggingface.co/datasets/Twitter/TwitterFollowGraph), to spur further research in graph-mining and representation learning for recommender systems.
翻訳日:2023-08-09 01:17:41 公開日:2023-08-05
# generative adversarial network(gan-cest)を用いた3次元mt/cest画像の高速化と定量化

Accelerated and Quantitative 3D Semisolid MT/CEST Imaging using a Generative Adversarial Network (GAN-CEST) ( http://arxiv.org/abs/2207.11297v2 )

ライセンス: Link先を確認
Jonah Weigand-Whittier (1), Maria Sedykh (2), Kai Herz (3 and 4), Jaume Coll-Font (1 and 5), Anna N. Foster (1 and 5), Elizabeth R. Gerstner (6), Christopher Nguyen (1 and 5 and 7), Moritz Zaiss (2 and 3), Christian T. Farrar (1) and Or Perlman (1 and 8 and 9) ((1) Athinoula A. Martinos Center for Biomedical Imaging, Department of Radiology, Massachusetts General Hospital and Harvard Medical School, Charlestown, MA, USA, (2) Department of Neuroradiology, Friedrich-Alexander Universit\"at Erlangen-N\"urnberg (FAU), University Hospital Erlangen, Erlangen, Germany, (3) Magnetic Resonance Center, Max Planck Institute for Biological Cybernetics, T\"ubingen, Germany, (4) Department of Biomedical Magnetic Resonance, University of T\"ubingen, T\"ubingen, Germany, (5) Cardiovascular Research Center, Cardiology Division, Massachusetts General Hospital, Charlestown, MA, USA, (6) Massachusetts General Hospital Cancer Center, Harvard Medical School, Boston, MA, USA, (7) Health Science Technology, Harvard-MIT, Cambridge, MA, USA, (8) Department of Biomedical Engineering, Tel Aviv University, Tel Aviv, Israel, (9) Sagol School of Neuroscience, Tel Aviv University, Tel Aviv, Israel)(参考訳) 目的: 定量的な3次元化学交換飽和移動(CEST)および半固体磁化移動(MT)イメージングに必要な取得時間を著しく短縮し、迅速な化学交換パラメータマップの再構築を可能にする。 方法: 健常者, がん患者, 心臓患者のL-アルギニンファントム, 全身脳, ふくらはぎ筋の3次元CESTおよびMT磁気共鳴指紋(MRF)データセットを, 3つの異なるスキャナーモデルとコイルを用いて3つの異なる部位の3T臨床スキャナーを用いて取得した。 次にgan-cest(generative adversarial network supervised framework)を設計、訓練し、入力データ空間から量的交換パラメータ空間へのマッピングを学習し、知覚的および定量的なコンテンツを保存した。 結果: GAN-CEST 3D取得時間は42-52秒で, CEST-MRFより70%短かった。 脳全体の定量的再構築には0.8秒を要した。 GANをベースとしたL-アルギニン濃度とpH(Pearson's r > 0.97, NRMSE < 1.5%)との間には良好な一致が認められた。 脳腫瘍患者のGAN-CEST画像は、それぞれ3.8$\pm$1.3%と4.6$\pm$1.3%、SSIMは96.3$\pm$1.6%、95.0$\pm$2.4%である。 半固体交換パラメータはnrmse < 7%, ssim > 94%であった。 GAN-CESTはMRFに比べて性能が向上しノイズが低減した。 結論: GAN-CESTは,訓練中に利用できない病態やスキャナーモデルに直面する場合であっても,定量的半固形MT/CESTマッピングの取得時間を著しく短縮することができる。

Purpose: To substantially shorten the acquisition time required for quantitative 3D chemical exchange saturation transfer (CEST) and semisolid magnetization transfer (MT) imaging and allow for rapid chemical exchange parameter map reconstruction. Methods: Three-dimensional CEST and MT magnetic resonance fingerprinting (MRF) datasets of L-arginine phantoms, whole-brains, and calf muscles from healthy volunteers, cancer patients, and cardiac patients were acquired using 3T clinical scanners at 3 different sites, using 3 different scanner models and coils. A generative adversarial network supervised framework (GAN-CEST) was then designed and trained to learn the mapping from a reduced input data space to the quantitative exchange parameter space, while preserving perceptual and quantitative content. Results: The GAN-CEST 3D acquisition time was 42-52 seconds, 70% shorter than CEST-MRF. The quantitative reconstruction of the entire brain took 0.8 seconds. An excellent agreement was observed between the ground truth and GAN-based L-arginine concentration and pH values (Pearson's r > 0.97, NRMSE < 1.5%). GAN-CEST images from a brain-tumor subject yielded a semi-solid volume fraction and exchange rate NRMSE of 3.8$\pm$1.3% and 4.6$\pm$1.3%, respectively, and SSIM of 96.3$\pm$1.6% and 95.0$\pm$2.4%, respectively. The mapping of the calf-muscle exchange parameters in a cardiac patient, yielded NRMSE < 7% and SSIM > 94% for the semi-solid exchange parameters. In regions with large susceptibility artifacts, GAN-CEST has demonstrated improved performance and reduced noise compared to MRF. Conclusion: GAN-CEST can substantially reduce the acquisition time for quantitative semisolid MT/CEST mapping, while retaining performance even when facing pathologies and scanner models that were not available during training.
翻訳日:2023-08-09 01:10:38 公開日:2023-08-05
# DC-ShadowNet: Unsupervised Domain-Classifier Guided Network を用いたシングルイメージハードとソフトシャドウ除去

DC-ShadowNet: Single-Image Hard and Soft Shadow Removal Using Unsupervised Domain-Classifier Guided Network ( http://arxiv.org/abs/2207.10434v2 )

ライセンス: Link先を確認
Yeying Jin, Aashish Sharma, and Robby T. Tan(参考訳) 単一の画像からのシャドー除去は、一般的には未解決の問題である。 既存の学習ベース手法の多くは教師あり学習を用いており、訓練には多数のペア画像(陰影と対応する非陰影画像)を必要とする。 最近の教師なし手法である Mask-ShadowGAN~\cite{Hu19} はこの制限に対処する。 しかし、影領域を表すために二項マスクが必要であるため、柔らかい影には適用できない。 そこで本研究では,非教師付きドメイン分類器誘導影除去ネットワークdc-shadownetを提案する。 具体的には、shadow/shadow-freeドメイン分類器をジェネレータとその判別器に統合し、シャドウ領域に集中できるようにする。 ネットワークをトレーニングするために,物理系シャドウフリー色度,シャドウロバスト知覚特徴,境界平滑性に基づく新たな損失を導入する。 さらに,教師なしのネットワークをテスト時のトレーニングに利用することで,さらに結果が向上することを示す。 実験により,これらの新成分はすべてソフトシャドウを処理できるとともに,従来のシャドウ除去法よりも定量的かつ定性的にハードシャドウを処理できることを示した。 我々のコードは以下の通りである。 \url{https://github.com/jinyeying/DC-ShadowNet-Hard-and-Soft-Shadow-Removal}。

Shadow removal from a single image is generally still an open problem. Most existing learning-based methods use supervised learning and require a large number of paired images (shadow and corresponding non-shadow images) for training. A recent unsupervised method, Mask-ShadowGAN~\cite{Hu19}, addresses this limitation. However, it requires a binary mask to represent shadow regions, making it inapplicable to soft shadows. To address the problem, in this paper, we propose an unsupervised domain-classifier guided shadow removal network, DC-ShadowNet. Specifically, we propose to integrate a shadow/shadow-free domain classifier into a generator and its discriminator, enabling them to focus on shadow regions. To train our network, we introduce novel losses based on physics-based shadow-free chromaticity, shadow-robust perceptual features, and boundary smoothness. Moreover, we show that our unsupervised network can be used for test-time training that further improves the results. Our experiments show that all these novel components allow our method to handle soft shadows, and also to perform better on hard shadows both quantitatively and qualitatively than the existing state-of-the-art shadow removal methods. Our code is available at: \url{https://github.com/jinyeying/DC-ShadowNet-Hard-and-Soft-Shadow-Removal}.
翻訳日:2023-08-09 01:09:35 公開日:2023-08-05
# QSAN: 達成可能な量子自己アテンションネットワーク

QSAN: A Near-term Achievable Quantum Self-Attention Network ( http://arxiv.org/abs/2207.07563v4 )

ライセンス: Link先を確認
Jinjing Shi and Ren-Xin Zhao and Wenxuan Wang and Shichao Zhang and Xuelong Li(参考訳) SAM(Self-Attention Mechanism)は、特徴の内部接続を捉えるのに優れ、機械学習モデルの性能を大幅に向上させ、高次元データの効率的なキャラクタリゼーションと特徴抽出を必要とする。 短期量子デバイスにおける画像分類タスクに対して,新しい量子自己注意ネットワーク(QSAN)を提案する。 まず,Quantum Logic similarity (QLS) とQuantum Bit Self-Attention Score Matrix (QBSASM) を含むQSAM(Quantum Self-Attention Mechanism) をQSANの理論的基礎として検討し,SAMのデータ表現を強化する。 QLSは、QSANが量子コンピュータ上で完全に実装されるように内部積を得るのを防ぐために使用され、QSANの進化によりQBSASMは、出力の注意分布を効果的に反映する密度行列を生成する。 そして、量子座標のプロトタイプが導入された中間過程において、測定時間の圧縮を十分に考慮し、qbsasmを取得するためのqsanの一段階実現と量子回路の枠組みを、出力と制御ビットとの数学的関係を記述する量子回路において設計し、プログラミングを容易にする。 最終的に、Pennylaneプラットフォームを用いたMNISTの手法比較とバイナリ分類実験により、QSANはハードウェア効率の良いアンサッツとQAOAアンサッツよりも約1.7倍、約2.3倍の速度で収束し、同様のパラメータ構成と100%の予測精度で再現できることを示した。 qsanは、画像および他のデータの一次および二次関係の高速かつ詳細な解析に非常に適しており、モデルの情報抽出能力向上の観点から量子コンピュータビジョンの応用に大きな可能性がある。

Self-Attention Mechanism (SAM) is good at capturing the internal connections of features and greatly improves the performance of machine learning models, espeacially requiring efficient characterization and feature extraction of high-dimensional data. A novel Quantum Self-Attention Network (QSAN) is proposed for image classification tasks on near-term quantum devices. First, a Quantum Self-Attention Mechanism (QSAM) including Quantum Logic Similarity (QLS) and Quantum Bit Self-Attention Score Matrix (QBSASM) is explored as the theoretical basis of QSAN to enhance the data representation of SAM. QLS is employed to prevent measurements from obtaining inner products to allow QSAN to be fully implemented on quantum computers, and QBSASM as a result of the evolution of QSAN to produce a density matrix that effectively reflects the attention distribution of the output. Then, the framework for one-step realization and quantum circuits of QSAN are designed for fully considering the compression of the measurement times to acquire QBSASM in the intermediate process, in which a quantum coordinate prototype is introduced as well in the quantum circuit for describing the mathematical relation between the output and control bits to facilitate programming. Ultimately, the method comparision and binary classification experiments on MNIST with the pennylane platform demonstrate that QSAN converges about 1.7x and 2.3x faster than hardware-efficient ansatz and QAOA ansatz respevtively with similar parameter configurations and 100% prediction accuracy, which indicates it has a better learning capability. QSAN is quite suitable for fast and in-depth analysis of the primary and secondary relationships of image and other data, which has great potential for applications of quantum computer vision from the perspective of enhancing the information extraction ability of models.
翻訳日:2023-08-09 01:09:13 公開日:2023-08-05
# ディープ・ゲイト認識に関する包括的調査:アルゴリズム,データセット,課題

A Comprehensive Survey on Deep Gait Recognition: Algorithms, Datasets and Challenges ( http://arxiv.org/abs/2206.13732v2 )

ライセンス: Link先を確認
Chuanfu Shen, Shiqi Yu, Jilong Wang, George Q. Huang and Liang Wang(参考訳) 歩行認識は、遠くにいる人を識別することを目的としており、長距離かつ非協力的な歩行者認識に有望な解決策となる。 近年,深層学習技術を活用した歩行認識の大幅な進歩は,多くの挑戦的なシナリオにおいて大きな成功を収めている。 深部歩行認識が実験室データセットでほぼ完璧な性能を達成している背景に対して、最近の研究は、堅牢な奥行き表現モデリング、野生の歩行認識、さらには赤外線や奥行きカメラのような新しい視覚センサからの認識を含む、歩行認識に新たな挑戦を導入した。 一方、歩行認識の性能向上は、生体認証のセキュリティと社会のプライバシー保護に関する懸念を浮き彫りにするかもしれない。 深層学習を用いた最近の文献に関する包括的調査と,歩行バイオメトリックスのプライバシーとセキュリティに関する議論を行った。 本研究は,提案する分類に基づく新しい視点を通して,既存の深部歩行認識手法を概観する。 提案する分類体系は,従来の歩行認識手法をモデル的・外見的手法に分類する手法と異なるが,我々の分類体系は,深層表現学習と深層ネットワークアーキテクチャという2つの視点から深い歩行認識を考察し,現在のアプローチをミクロレベルとマクロレベルの両方から評価している。 データセットの最新のレビューや、さまざまなシナリオのパフォーマンス評価も含んでいます。 最後に,歩行バイオメトリックスに関するプライバシとセキュリティの懸念を紹介し,今後の研究の課題と可能性について論じる。

Gait recognition aims to identify a person at a distance, serving as a promising solution for long-distance and less-cooperation pedestrian recognition. Recently, significant advancements in gait recognition have achieved inspiring success in many challenging scenarios by utilizing deep learning techniques. Against the backdrop that deep gait recognition has achieved almost perfect performance in laboratory datasets, much recent research has introduced new challenges for gait recognition, including robust deep representation modeling, in-the-wild gait recognition, and even recognition from new visual sensors such as infrared and depth cameras. Meanwhile, the increasing performance of gait recognition might also reveal concerns about biometrics security and privacy prevention for society. We provide a comprehensive survey on recent literature using deep learning and a discussion on the privacy and security of gait biometrics. This survey reviews the existing deep gait recognition methods through a novel view based on our proposed taxonomy. The proposed taxonomy differs from the conventional taxonomy of categorizing available gait recognition methods into the model- or appearance-based methods, while our taxonomic hierarchy considers deep gait recognition from two perspectives: deep representation learning and deep network architectures, illustrating the current approaches from both micro and macro levels. We also include up-to-date reviews of datasets and performance evaluations on diverse scenarios. Finally, we introduce privacy and security concerns on gait biometrics and discuss outstanding challenges and potential directions for future research.
翻訳日:2023-08-09 01:07:23 公開日:2023-08-05
# 非線形因子モデルにおけるディープラーニングに基づく残差:低信号-雑音比の戻り値の精度行列推定

Deep Learning Based Residuals in Non-linear Factor Models: Precision Matrix Estimation of Returns with Low Signal-to-Noise Ratio ( http://arxiv.org/abs/2209.04512v2 )

ライセンス: Link先を確認
Mehmet Caner Maurizio Daniele(参考訳) 本稿では、ディープラーニングフレームワーク内の非線形因子モデルを用いて、大規模ポートフォリオにおける資産返却の精度行列に対する一貫した推定と収束率を提案する。 金融市場に典型的な低信号対雑音比環境でも有効であり,弱い要因にも適合する。 本理論解析により,資産数拡大のためのディープニューラルネットワークに基づく予測予測リスクの一様境界が確立される。 さらに、深層ニューラルネットワークにおける誤り共分散の新しい一貫したデータ依存推定器を提供する。 本モデルは広範なシミュレーションと経験的手法において優れた精度を示す。

This paper introduces a consistent estimator and rate of convergence for the precision matrix of asset returns in large portfolios using a non-linear factor model within the deep learning framework. Our estimator remains valid even in low signal-to-noise ratio environments typical for financial markets and is compatible with weak factors. Our theoretical analysis establishes uniform bounds on expected estimation risk based on deep neural networks for an expanding number of assets. Additionally, we provide a new consistent data-dependent estimator of error covariance in deep neural networks. Our models demonstrate superior accuracy in extensive simulations and the empirics.
翻訳日:2023-08-09 00:59:52 公開日:2023-08-05
# 熱散逸の存在下での量子強化学習

Quantum reinforcement learning in the presence of thermal dissipation ( http://arxiv.org/abs/2208.06450v2 )

ライセンス: Link先を確認
M. L. Olivera-Atencio, L. Lamata, M. Morillo, J. Casado-Pascual(参考訳) 量子強化学習における熱散逸の影響について検討した。 この目的のために、非散逸性量子強化学習プロトコルを熱散逸の存在に適応させる。 解析計算と数値シミュレーションを行い、散逸が十分な低温下での量子強化学習プロトコルの性能を著しく低下させることはないという証拠を得る。 熱散逸の現実的な実験条件下での量子強化学習は、変化する環境と相互作用し、それに適応できる量子エージェントの実現への道を開く。

A study of the effect of thermal dissipation on quantum reinforcement learning is performed. For this purpose, a nondissipative quantum reinforcement learning protocol is adapted to the presence of thermal dissipation. Analytical calculations as well as numerical simulations are carried out obtaining evidence that dissipation do not significantly degrade the performance of the quantum reinforcement learning protocol for sufficiently low temperatures, being in some cases even beneficial. Quantum reinforcement learning under realistic experimental conditions of thermal dissipation opens an avenue for the realization of quantum agents able to interact with a changing environment, and adapt to it, with plausible many applications inside quantum technologies and machine learning.
翻訳日:2023-08-09 00:59:22 公開日:2023-08-05
# 逐次バッチ交代訓練による3次元物体検出における領域適応

Domain Adaptation in 3D Object Detection with Gradual Batch Alternation Training ( http://arxiv.org/abs/2210.10180v2 )

ライセンス: Link先を確認
Mrigank Rochan, Xingxin Chen, Alaap Grandhi, Eduardo R. Corral-Soto, Bingbing Liu(参考訳) lidarに基づく3次元物体検出における領域適応の問題を考える。 本研究では,大規模ラベル付きソースドメインから不十分なラベル付きターゲットドメインに適応可能な,段階的バッチ交代と呼ばれる,単純かつ効果的なトレーニング戦略を提案する。 そのアイデアは、ソースとターゲットドメインデータからのサンプルのバッチを別の方法でトレーニングを開始することですが、トレーニングが進むにつれて、徐々にソースドメインデータの量を削減します。 このように、モデルは徐々にターゲットドメインに移行し、最終的にはより適応します。 once, pandaset, waymo, nuscenesという4つのベンチマーク自律運転データセットにおける3dオブジェクト検出のためのドメイン適応実験は、先行技術や強力なベースラインよりも大きなパフォーマンス向上を示している。

We consider the problem of domain adaptation in LiDAR-based 3D object detection. Towards this, we propose a simple yet effective training strategy called Gradual Batch Alternation that can adapt from a large labeled source domain to an insufficiently labeled target domain. The idea is to initiate the training with the batch of samples from the source and target domain data in an alternate fashion, but then gradually reduce the amount of the source domain data over time as the training progresses. This way the model slowly shifts towards the target domain and eventually better adapt to it. The domain adaptation experiments for 3D object detection on four benchmark autonomous driving datasets, namely ONCE, PandaSet, Waymo, and nuScenes, demonstrate significant performance gains over prior arts and strong baselines.
翻訳日:2023-08-09 00:50:20 公開日:2023-08-05
# フレキシブルな社会的推論は、報酬が観察できない時にターゲットとなる社会学習を促進する

Flexible social inference facilitates targeted social learning when rewards are not observable ( http://arxiv.org/abs/2212.00869v2 )

ライセンス: Link先を確認
Robert D. Hawkins, Andrew M. Berdahl, Alex "Sandy" Pentland, Joshua B. Tenenbaum, Noah D. Goodman, P. M. Krafft(参考訳) グループは、個人が他人の成功から学べるときにより効果的にコーディネートする。 しかし、このような知識の獲得は必ずしも容易ではない。特に、成功が公共の視点から隠されている現実世界環境では。 社会的推論能力はこのギャップを埋めるのに役立ち、個人が他人の根底にある知識や行動の観察可能な軌跡からの成功に対する信念を更新できると提案する。 我々は,人間の行動の3つの研究において,より単純なヒューリスティックスと社会的推論モデルを比較した。 実験1では,非推論モデルにより予測されるよりも,グループサイズの関数として平均性能が向上することが確認された。 実験2では、個人が社会的情報にどのように依存するかを評価するために人工エージェントを導入した。 実験3では、これらの発見をより複雑な報酬環境に一般化した。 その結果,個人の社会的認知と集団行動の柔軟性との関連性について考察した。

Groups coordinate more effectively when individuals are able to learn from others' successes. But acquiring such knowledge is not always easy, especially in real-world environments where success is hidden from public view. We suggest that social inference capacities may help bridge this gap, allowing individuals to update their beliefs about others' underlying knowledge and success from observable trajectories of behavior. We compared our social inference model against simpler heuristics in three studies of human behavior in a collective sensing task. In Experiment 1, we found that average performance improves as a function of group size at a rate greater than predicted by non-inferential models. Experiment 2 introduced artificial agents to evaluate how individuals selectively rely on social information. Experiment 3 generalized these findings to a more complex reward landscape. Taken together, our findings provide insight into the relationship between individual social cognition and the flexibility of collective behavior.
翻訳日:2023-08-09 00:41:22 公開日:2023-08-05
# オフライン監視学習V.S.オンライン直接政策最適化:ニューラルネットワークに基づく最適フィードバック制御のための比較研究と統一学習パラダイム

Offline Supervised Learning V.S. Online Direct Policy Optimization: A Comparative Study and A Unified Training Paradigm for Neural Network-Based Optimal Feedback Control ( http://arxiv.org/abs/2211.15930v2 )

ライセンス: Link先を確認
Yue Zhao, Jiequn Han(参考訳) この研究は、最適制御問題に対してニューラルネットワークベースのフィードバックコントローラを効率的に解くことを目的としている。 まず,オフライン教師付き学習とオンライン直接政策最適化の2つのアプローチの比較研究を行った。 教師付き学習アプローチの学習部は比較的容易であるが、この手法の成功はオープンループ最適制御ソルバによって生成される最適制御データセットに大きく依存する。 対照的に、直接最適化は、最適制御問題を事前計算の必要なしに直接最適化問題に変換するが、ダイナミクスに関連した目的は、問題を複雑にしたときの最適化が困難である。 本研究は,オフライン教師付き学習の優先度を,最適性と訓練時間という観点で強調する。 これらの課題,データセット,最適化を克服するために,これらを補完し,最適フィードバック制御のための統一トレーニングパラダイムとして事前訓練と微調整戦略を提案し,パフォーマンスとロバスト性をさらに向上させる。 私たちのコードはhttps://github.com/yzhao98/DeepOptimalControlで利用可能です。

This work is concerned with solving neural network-based feedback controllers efficiently for optimal control problems. We first conduct a comparative study of two mainstream approaches: offline supervised learning and online direct policy optimization. Albeit the training part of the supervised learning approach is relatively easy, the success of the method heavily depends on the optimal control dataset generated by open-loop optimal control solvers. In contrast, direct optimization turns the optimal control problem into an optimization problem directly without any requirement of pre-computing, but the dynamics-related objective can be hard to optimize when the problem is complicated. Our results highlight the priority of offline supervised learning in terms of both optimality and training time. To overcome the main challenges, dataset, and optimization, in the two approaches respectively, we complement them and propose the Pre-train and Fine-tune strategy as a unified training paradigm for optimal feedback control, which further improves the performance and robustness significantly. Our code is available at https://github.com/yzhao98/DeepOptimalControl.
翻訳日:2023-08-09 00:41:05 公開日:2023-08-05
# 単一画像からの反射層の推定:反射誘導と影/特異認識の統合

Estimating Reflectance Layer from A Single Image: Integrating Reflectance Guidance and Shadow/Specular Aware Learning ( http://arxiv.org/abs/2211.14751v3 )

ライセンス: Link先を確認
Yeying Jin, Ruoteng Li, Wenhan Yang, Robby T. Tan(参考訳) 単一の画像から反射層を推定することは難しい課題である。 入力画像にシャドーやスペクトルハイライトが含まれていると、反射層の不正確な推定がしばしば発生するため、より困難になる。 そこで本研究では,リフレクタンスガイダンスとシャドウ/スペック・アウェア(S-Aware)ネットワークを含む2段階の学習手法を提案する。 第1段階では、先行ベースのシャドウフリー及びスペクラーフリー画像により誘導される新規損失の制約により、シャドウ及びスペクティリティのない初期反射層を得る。 第二段改良において、反射層が影や特異点に依存しないようにさらに強制するために、入力画像と反射像を区別するS-Awareネットワークを導入する。 我々のネットワークは、シャドー/シャドーフリー、スペキュラ/スペキュラフリーのクラスを分類し、アクティベーション機能をシャドー/特定領域にフォーカスするアテンションマップとして機能させる。 定量的および定性的評価により,提案手法は影や特異性のない反射層推定において,最先端の手法よりも優れていた。 コードは: \url{https://github.com/jinyeying/S-Aware-network}。

Estimating the reflectance layer from a single image is a challenging task. It becomes more challenging when the input image contains shadows or specular highlights, which often render an inaccurate estimate of the reflectance layer. Therefore, we propose a two-stage learning method, including reflectance guidance and a Shadow/Specular-Aware (S-Aware) network to tackle the problem. In the first stage, an initial reflectance layer free from shadows and specularities is obtained with the constraint of novel losses that are guided by prior-based shadow-free and specular-free images. To further enforce the reflectance layer to be independent of shadows and specularities in the second-stage refinement, we introduce an S-Aware network that distinguishes the reflectance image from the input image. Our network employs a classifier to categorize shadow/shadow-free, specular/specular-free classes, enabling the activation features to function as attention maps that focus on shadow/specular regions. Our quantitative and qualitative evaluations show that our method outperforms the state-of-the-art methods in the reflectance layer estimation that is free from shadows and specularities. Code is at: \url{https://github.com/jinyeying/S-Aware-network}.
翻訳日:2023-08-09 00:40:29 公開日:2023-08-05
# フォールトトレラント量子計算の逆問題

A Converse for Fault-tolerant Quantum Computation ( http://arxiv.org/abs/2211.00697v3 )

ライセンス: Link先を確認
Uthirakalyani G and Anuj K. Nayak and Avhishek Chatterjee(参考訳) フォールトトレラントな量子計算の技術が改善を続ける中、次のような質問をするのも自然である。 本稿では,ユニタリ演算子を含む多数の演算クラスに対して$\epsilon$-accurate実装に必要な冗長性の下限を求める。 実際に関係している部分指数深度とサブ線形ゲートサイズの場合、冗長性の境界は既知の下界よりも厳密である。 我々は, 整合制約を満たす有限ブロック長量子通信問題に, フォールトトレラント計算を接続することにより, この境界を求める。 ここで得られる冗長性の下限は、非分解性雑音に対するノイズ閾値の上限を厳密に小さくする。 我々の境界は、ゲートの出力のノイズが非i.i.dである場合に直接延びるが、ゲート間のノイズはi.i.dである。

As techniques for fault-tolerant quantum computation keep improving, it is natural to ask: what is the fundamental lower bound on redundancy? In this paper, we obtain a lower bound on the redundancy required for $\epsilon$-accurate implementation of a large class of operations that includes unitary operators. For the practically relevant case of sub-exponential depth and sub-linear gate size, our bound on redundancy is tighter than the known lower bounds. We obtain this bound by connecting fault-tolerant computation with a set of finite blocklength quantum communication problems whose accuracy requirements satisfy a joint constraint. The lower bound on redundancy obtained here leads to a strictly smaller upper bound on the noise threshold for non-degradable noise. Our bound directly extends to the case where noise at the outputs of a gate are non-i.i.d. but noise across gates are i.i.d.
翻訳日:2023-08-09 00:39:20 公開日:2023-08-05
# 信頼できるマルチモーダル運動予測に向けて:アウトプットの全体的評価と解釈可能性

Towards trustworthy multi-modal motion prediction: Holistic evaluation and interpretability of outputs ( http://arxiv.org/abs/2210.16144v2 )

ライセンス: Link先を確認
Sandra Carrasco Limeros, Sylwia Majchrowska, Joakim Johnander, Christoffer Petersson, Miguel \'Angel Sotelo, David Fern\'andez Llorca(参考訳) 他の道路エージェントの動きを予測することで、自動運転車は安全かつ効率的な経路計画を行うことができる。 道路エージェントの挙動は多くの要因に依存するため、このタスクは非常に複雑であり、将来の軌道の数は相当である(マルチモーダル)。 マルチモーダル動作予測に対処するために提案されたほとんどのアプローチは、解釈可能性に制限のある複雑な機械学習システムに基づいている。 さらに、現在のベンチマークで使用されるメトリクスは、アウトプットの多様性や許容性など、問題のすべての側面を評価していない。 本研究は,信頼に値する人工知能の設計に必要ないくつかの要件に基づき,信頼に値する動き予測システムの設計に向けて進むことを目的とする。 出力の評価基準、堅牢性、解釈可能性に焦点を当てる。 まず、評価指標を総合的に分析し、現在のベンチマークの主なギャップを特定し、新しい総合評価フレームワークを提案する。 次に,知覚システムにおける雑音のシミュレーションによる空間的・時間的ロバスト性の評価手法を提案する。 提案した評価フレームワークでは,出力の解釈可能性を高め,よりバランスの取れた結果を生成するために,マルチモーダル動作予測モデルにアタッチ可能な意図予測層を提案する。 このアプローチの有効性は、マルチモーダル軌道と意図の可視化において異なる要素を探索する調査を通じて評価される。 提案手法と知見は,自律走行車における信頼性の高い動作予測システムの開発に大きく貢献し,安全性と信頼性向上に寄与する。

Predicting the motion of other road agents enables autonomous vehicles to perform safe and efficient path planning. This task is very complex, as the behaviour of road agents depends on many factors and the number of possible future trajectories can be considerable (multi-modal). Most prior approaches proposed to address multi-modal motion prediction are based on complex machine learning systems that have limited interpretability. Moreover, the metrics used in current benchmarks do not evaluate all aspects of the problem, such as the diversity and admissibility of the output. In this work, we aim to advance towards the design of trustworthy motion prediction systems, based on some of the requirements for the design of Trustworthy Artificial Intelligence. We focus on evaluation criteria, robustness, and interpretability of outputs. First, we comprehensively analyse the evaluation metrics, identify the main gaps of current benchmarks, and propose a new holistic evaluation framework. We then introduce a method for the assessment of spatial and temporal robustness by simulating noise in the perception system. To enhance the interpretability of the outputs and generate more balanced results in the proposed evaluation framework, we propose an intent prediction layer that can be attached to multi-modal motion prediction models. The effectiveness of this approach is assessed through a survey that explores different elements in the visualization of the multi-modal trajectories and intentions. The proposed approach and findings make a significant contribution to the development of trustworthy motion prediction systems for autonomous vehicles, advancing the field towards greater safety and reliability.
翻訳日:2023-08-09 00:39:05 公開日:2023-08-05
# 画像劣化の関連定量化

Relationship Quantification of Image Degradations ( http://arxiv.org/abs/2212.04148v3 )

ライセンス: Link先を確認
Wenxin Wang, Boyun Li, Yuanbiao Gou, Peng Hu, Wangmeng Zuo and Xi Peng(参考訳) 本稿では,画像復元における2つの課題について検討する。 一 画像劣化と画像劣化の関係の定量化方法 二 定量化関係を利用して、特定の復旧作業のパフォーマンスを向上させる方法 最初の課題に取り組むために、我々は、アンカー劣化とアンカー劣化と補助劣化の混合を用いてそれぞれ訓練された2つのモデル間のバリデーション損失の平均ドロップ率差として定義される分解相関指数(DRI)を提案した。 driを用いて劣化関係を定量化することで 一 正のDRIは、列車模型の補助として特定劣化を利用して、常に性能改善を予測する。 二 画像復元性能にとって劣化割合が重要であること。 言い換えると、アンカーと補助劣化とを適切な割合で混合した場合のみ、修復性能が向上する。 さらに, 得られた劣化組合せが, 補助劣化の助けを借りて, アンカー劣化性能を向上させることができるかどうかを推定する, 簡易かつ効果的な方法(DPD)を提案する。 大規模実験により, 脱臭, 脱臭, 脱灰, 脱皮における方法の有効性が検証された。 コードは受理後にリリースされます。

In this paper, we study two challenging but less-touched problems in image restoration, namely, i) how to quantify the relationship between image degradations and ii) how to improve the performance of a specific restoration task using the quantified relationship. To tackle the first challenge, we proposed a Degradation Relationship Index (DRI) which is defined as the mean drop rate difference in the validation loss between two models which are respectively trained using the anchor degradation and the mixture of the anchor and the auxiliary degradations. Through quantifying the degradation relationship using DRI, we reveal that i) a positive DRI always predicts performance improvement by using the specific degradation as an auxiliary to train models; ii) the degradation proportion is crucial to the image restoration performance. In other words, the restoration performance is improved only if the anchor and the auxiliary degradations are mixed with an appropriate proportion. Based on the observations, we further propose a simple but effective method (dubbed DPD) to estimate whether the given degradation combinations could improve the performance on the anchor degradation with the assistance of the auxiliary degradation. Extensive experimental results verify the effectiveness of our method in dehazing, denoising, deraining, and desnowing. The code will be released after acceptance.
翻訳日:2023-08-09 00:27:53 公開日:2023-08-05
# バイレベル雑音対応によるグラフマッチング

Graph Matching with Bi-level Noisy Correspondence ( http://arxiv.org/abs/2212.04085v3 )

ライセンス: Link先を確認
Yijie Lin, Mouxing Yang, Jun Yu, Peng Hu, Changqing Zhang, Xi Peng(参考訳) 本稿では,ノードレベル雑音対応 (nnc) とエッジレベル雑音対応 (enc) を示すbiレベル雑音対応 (bnc) のグラフマッチングにおける新しい問題について検討する。 簡単に言うと、画像間の認識性や視点の違いが貧弱なため、オフセットと混乱でいくつかのキーポイントを不正確なアノテートすることは避けられないため、2つの関連するノード、すなわちNC間のミスマッチが生じる。 一方、ノイズの多いノード対ノード対応は、エッジ対エッジ対応をさらに汚染し、ECCにつながる。 BNCの課題として, コントラストマッチング (Contrastive Matching with Momentum Distillation) という新しい手法を提案する。 具体的には、以下の利点を享受する頑健な2次コントラスト損失を有する方法を提案する。 一 GMカスタマイズ2次コントラスト学習パラダイムによるノード対ノード及びエッジ対エッジ相関の探索 二 モーメント教員が推定する自信に基づいて、騒音の割り当てを適応的にペナルティする。 3つの実世界のデータセットに対する大規模な実験は、12の競合ベースラインと比較して、我々のモデルの堅牢性を示している。 コードはhttps://github.com/XLearning-SCU/2023-ICCV-COMMONで公開されている。

In this paper, we study a novel and widely existing problem in graph matching (GM), namely, Bi-level Noisy Correspondence (BNC), which refers to node-level noisy correspondence (NNC) and edge-level noisy correspondence (ENC). In brief, on the one hand, due to the poor recognizability and viewpoint differences between images, it is inevitable to inaccurately annotate some keypoints with offset and confusion, leading to the mismatch between two associated nodes, i.e., NNC. On the other hand, the noisy node-to-node correspondence will further contaminate the edge-to-edge correspondence, thus leading to ENC. For the BNC challenge, we propose a novel method termed Contrastive Matching with Momentum Distillation. Specifically, the proposed method is with a robust quadratic contrastive loss which enjoys the following merits: i) better exploring the node-to-node and edge-to-edge correlations through a GM customized quadratic contrastive learning paradigm; ii) adaptively penalizing the noisy assignments based on the confidence estimated by the momentum teacher. Extensive experiments on three real-world datasets show the robustness of our model compared with 12 competitive baselines. The code is available at https://github.com/XLearning-SCU/2023-ICCV-COMMON.
翻訳日:2023-08-09 00:27:35 公開日:2023-08-05
# L-SeqSleepNet:自動睡眠停止のための全サイクル長周期モデリング

L-SeqSleepNet: Whole-cycle Long Sequence Modelling for Automatic Sleep Staging ( http://arxiv.org/abs/2301.03441v3 )

ライセンス: Link先を確認
Huy Phan, Kristian P. Lorenzen, Elisabeth Heremans, Oliver Y. Ch\'en, Minh C. Tran, Philipp Koch, Alfred Mertins, Mathias Baumert, Kaare Mikkelsen, Maarten De Vos(参考訳) ヒトの睡眠は約90分間の周期で循環し、睡眠データに長い時間的依存を暗示する。 しかし、睡眠ステージングモデルを開発する際の長期的な依存関係を探求することは、まだ修正されていない。 本研究では,睡眠サイクル全体の論理をエンコードすることは睡眠ステージング性能を向上させる上で重要であるが,既存のディープラーニングモデルにおける逐次モデリングアプローチはその目的のためには非効率であることを示す。 そこで本研究では,睡眠ステージングのためのサイクルごとの睡眠情報を考慮した学習モデルL-SeqSleepNetを提案する。 様々なサイズの4つの異なるデータベース上でL-SeqSleepNetを評価し,従来のポリソノグラフィ (PSG) における頭皮脳波 (cEEGrid) や脳内脳波 (cEEGrid) の3つの異なる脳波設定に対してモデルにより得られた最先端の性能を示す。 分析の結果、L-SeqSleepNetはN2睡眠(分類の面では主要な階級)の優位性を緩和し、他の睡眠段階におけるエラーを軽減できることがわかった。 さらにネットワークの堅牢性が向上し,ベースラインメソッドのパフォーマンスが著しく低下したすべての対象において,その性能が大幅に向上した。 最後に、列長が増加すると、計算時間はサブ線形速度でしか成長しない。

Human sleep is cyclical with a period of approximately 90 minutes, implying long temporal dependency in the sleep data. Yet, exploring this long-term dependency when developing sleep staging models has remained untouched. In this work, we show that while encoding the logic of a whole sleep cycle is crucial to improve sleep staging performance, the sequential modelling approach in existing state-of-the-art deep learning models are inefficient for that purpose. We thus introduce a method for efficient long sequence modelling and propose a new deep learning model, L-SeqSleepNet, which takes into account whole-cycle sleep information for sleep staging. Evaluating L-SeqSleepNet on four distinct databases of various sizes, we demonstrate state-of-the-art performance obtained by the model over three different EEG setups, including scalp EEG in conventional Polysomnography (PSG), in-ear EEG, and around-the-ear EEG (cEEGrid), even with a single EEG channel input. Our analyses also show that L-SeqSleepNet is able to alleviate the predominance of N2 sleep (the major class in terms of classification) to bring down errors in other sleep stages. Moreover the network becomes much more robust, meaning that for all subjects where the baseline method had exceptionally poor performance, their performance are improved significantly. Finally, the computation time only grows at a sub-linear rate when the sequence length increases.
翻訳日:2023-08-09 00:20:42 公開日:2023-08-05
# 拡散モデルにおけるデータ法医学:メンバーシッププライバシの体系的分析

Data Forensics in Diffusion Models: A Systematic Analysis of Membership Privacy ( http://arxiv.org/abs/2302.07801v2 )

ライセンス: Link先を確認
Derui Zhu, Dingfan Chen, Jens Grossklags, Mario Fritz(参考訳) 近年、拡散モデルは画像生成の分野で大きな成功を収め、AIベースの画像処理アプリケーションの最先端技術となった。 拡散モデルの最近の進歩によってもたらされた多くの利点にもかかわらず、その潜在的な誤用、特にプライバシー侵害と知的財産侵害に関する懸念もある。 特に、それらのユニークな特徴は、そのようなモデルの現実世界の展開を考えると、新しい攻撃面を開く。 攻撃ベクトルの徹底的な研究により,拡散モデルに対するメンバシップ推論攻撃の系統的解析を開発し,拡散モデルに特有な攻撃シナリオに合わせた新たな攻撃手法を提案する。 提案手法は容易に入手可能な量を利用して,現実的なシナリオにおいてほぼ完全な攻撃性能(>0.9 AUCROC)を実現する。 提案手法の有効性を実証し,画像生成タスクにおける拡散モデルを用いた場合のプライバシと知的財産権リスクを検討することの重要性を強調した。

In recent years, diffusion models have achieved tremendous success in the field of image generation, becoming the stateof-the-art technology for AI-based image processing applications. Despite the numerous benefits brought by recent advances in diffusion models, there are also concerns about their potential misuse, specifically in terms of privacy breaches and intellectual property infringement. In particular, some of their unique characteristics open up new attack surfaces when considering the real-world deployment of such models. With a thorough investigation of the attack vectors, we develop a systematic analysis of membership inference attacks on diffusion models and propose novel attack methods tailored to each attack scenario specifically relevant to diffusion models. Our approach exploits easily obtainable quantities and is highly effective, achieving near-perfect attack performance (>0.9 AUCROC) in realistic scenarios. Our extensive experiments demonstrate the effectiveness of our method, highlighting the importance of considering privacy and intellectual property risks when using diffusion models in image generation tasks.
翻訳日:2023-08-09 00:10:16 公開日:2023-08-05
# キャプションとしての要約:自動テキスト要約による科学文書のフィギュアキャプションの生成

Summaries as Captions: Generating Figure Captions for Scientific Documents with Automated Text Summarization ( http://arxiv.org/abs/2302.12324v2 )

ライセンス: Link先を確認
Chieh-Yang Huang, Ting-Yao Hsu, Ryan Rossi, Ani Nenkova, Sungchul Kim, Gromit Yeuk-Yin Chan, Eunyee Koh, Clyde Lee Giles, Ting-Hao 'Kenneth' Huang(参考訳) 優れたフィギュアキャプションは、紙の読者が複雑な科学的な数字を理解するのに役立つ。 残念ながら、刊行された論文でさえ、しばしば字幕が不足している。 自動キャプション生成は、より良い品質のために洗練された開始キャプションを提供することで、紙の書き手を助けることができる。 先行研究は、しばしば視覚から言語へのタスクとして、字幕生成を扱った。 本稿では,学術文書におけるテキスト要約タスクとして,より効果的に取り組むことができることを示す。 事前学習した抽象要約モデルであるPEGASUSを微調整し、図式参照段落(図3の表示など)を図形キャプションに要約した。 大規模arXiv図を用いた実験により, 自動評価と人的評価の両方において, 従来の視覚法よりも優れていた。 さらに,2つの課題に焦点をあてた詳細な調査を行った。 (i)低品質の著者による字幕・字幕の共通存在 (二)優れたキャプションの明確な基準がないこと。 私たちのコードとデータは、https://github.com/Crowd-AI-Lab/Generating-Figure-Captions-as-a-Text-Summarization-Task.comで利用可能です。

Good figure captions help paper readers understand complex scientific figures. Unfortunately, even published papers often have poorly written captions. Automatic caption generation could aid paper writers by providing good starting captions that can be refined for better quality. Prior work often treated figure caption generation as a vision-to-language task. In this paper, we show that it can be more effectively tackled as a text summarization task in scientific documents. We fine-tuned PEGASUS, a pre-trained abstractive summarization model, to specifically summarize figure-referencing paragraphs (e.g., "Figure 3 shows...") into figure captions. Experiments on large-scale arXiv figures show that our method outperforms prior vision methods in both automatic and human evaluations. We further conducted an in-depth investigation focused on two key challenges: (i) the common presence of low-quality author-written captions and (ii) the lack of clear standards for good captions. Our code and data are available at: https://github.com/Crowd-AI-Lab/Generating-Figure-Captions-as-a-Text-Summarization-Task.
翻訳日:2023-08-09 00:01:05 公開日:2023-08-05
# 難治性シーズール検出のための次元差低減と分類手法の実証分析

Empirical analysis of Different Dimensionality Reduction and Classification Techniques for Epileptic Seizure detection ( http://arxiv.org/abs/2302.12012v3 )

ライセンス: Link先を確認
Rabel Guharoy, Nanda Dulal Jana, Suparna Biswas and Lalit Garg(参考訳) 電子脳波計(eeg)は、脳の電気活動を記録する非侵襲検査である。 これは、異なる脳疾患などの疾患の診断に使用される。 脳波信号はてんかん検出のために撮影され、離散ウェーブレット変換(DWT)と機械学習分類器を用いてててんかん検出を行う。 てんかん発作検出では、主に機械学習の分類器と統計的特徴が使用される。 脳波信号の隠れた情報は、脳に影響を及ぼす疾患を検出するのに役立つ。 時々、時間と周波数領域の目的における脳波の最小変化を特定するのが複雑になる。 DWTは周波数帯域の異なる信号の適切な分解と特徴抽出を行うことができる。 3次元化アルゴリズム、主成分分析(PCA)、独立成分分析(ICA)、線形判別分析(LDA)を用いる。 最後に、融合規則を用いて特徴を選定し、最後に3つの異なる分類器、SVM(Support Vector Machine)、NB(Naive Bayes)、KNN(K-Nearest-Neighbor)を個別に使用した。 提案されたフレームワークはBonnデータセットでテストされる。 シミュレーションの結果、LDAとNBの組み合わせは、LDAとSVMの89.17%、LDAとKNNの80.42%、PCAとNBの89.92%、PCAとSVMの85.58%、PCAとKNNの80.42%、ICAとNBの82.33%、ICAとSVMの90.42%、ICAとKNNの90.42%など、他の分類器の組合せよりも100%精度が高い。 また、LDAとNBの組み合わせは100%、100%、100%、100%、100%、100%の感度、特異性、精度、精度、そしてリコールを示す。 その結果、このモデルの有効性が証明された。

An Electroencephalogram (EEG) is a non-invasive exam that records the brain's electrical activity. This is used to help diagnose conditions such as different brain problems. EEG signals are taken for epilepsy detection, and with Discrete Wavelet Transform (DWT) and machine learning classifier, they perform epilepsy detection. In Epilepsy seizure detection, machine learning classifiers and statistical features are mainly used. The hidden information in the EEG signal helps detect diseases affecting the brain. Sometimes it is complicated to identify the minimum changes in the EEG in the time and frequency domain's purpose. The DWT can give a suitable decomposition of the signals in different frequency bands and feature extraction. We use the tri-dimensionality reduction algorithm, Principal Component Analysis (PCA), Independent Component Analysis (ICA), and Linear Discriminant Analysis (LDA). Finally, features are selected by using a fusion rule and at the last step, three different classifiers, Support Vector Machine (SVM), Naive Bayes (NB), and K-Nearest-Neighbor (KNN) have been used individually for the classification. The proposed framework is tested on the Bonn dataset. The simulation results provide 100% accuracy for the LDA and NB combination outperforming accuracy with other classifiers combinations, including 89.17% for LDA and SVM, 80.42% for LDA and KNN, 89.92% for PCA and NB, 85.58% PCA and SVM, 80.42% PCA and KNN, 82.33% for ICA and NB, 90.42% for ICA and SVM, 90% for ICA and KNN. Also, the LDA and NB combination shows the sensitivity, specificity, accuracy, Precision, and Recall of 100%, 100%, 100%, 100%, and 100%. The results prove the effectiveness of this model.
翻訳日:2023-08-09 00:00:47 公開日:2023-08-05
# スパイク効率的な教師なし学習のための不均一神経とシナプスダイナミクス:理論と設計原理

Heterogeneous Neuronal and Synaptic Dynamics for Spike-Efficient Unsupervised Learning: Theory and Design Principles ( http://arxiv.org/abs/2302.11618v2 )

ライセンス: Link先を確認
Biswadeep Chakraborty and Saibal Mukhopadhyay(参考訳) 本稿では, 神経・シナプス力学の不均一性により, リカレントスパイキングニューラルネットワーク(RSNN)のスパイク活性が低下し, 予測性能が向上し, スパイク効率(教師なし)学習が可能となることを示す。 ニューロンの結合/相対化ダイナミクスの多様性は、rsnnのより異なる入力パターン(メモリ容量が高い)を学習する能力を改善し、分類と予測性能の向上に繋がることを示した。 さらに,synapsesのspike-timing-dependent-plasticity(stdp)ダイナミクスはスパイキング活性を減少させるが,メモリ容量は維持できることを示した。 解析結果は,スパイキング活性と記憶容量の比として定義される$\mathcal{e}$を改善するために,ニューロンとシナプスの異種性を決定するためにベイズ最適化を用いた異種rsnn設計を動機付けている。 時系列分類および予測タスクにおける実験結果から,hrsnnの最適化は,均質なrsnnと比較して,性能の向上とスパイキング活性の低減に寄与することが示された。

This paper shows that the heterogeneity in neuronal and synaptic dynamics reduces the spiking activity of a Recurrent Spiking Neural Network (RSNN) while improving prediction performance, enabling spike-efficient (unsupervised) learning. We analytically show that the diversity in neurons' integration/relaxation dynamics improves an RSNN's ability to learn more distinct input patterns (higher memory capacity), leading to improved classification and prediction performance. We further prove that heterogeneous Spike-Timing-Dependent-Plasticity (STDP) dynamics of synapses reduce spiking activity but preserve memory capacity. The analytical results motivate Heterogeneous RSNN design using Bayesian optimization to determine heterogeneity in neurons and synapses to improve $\mathcal{E}$, defined as the ratio of spiking activity and memory capacity. The empirical results on time series classification and prediction tasks show that optimized HRSNN increases performance and reduces spiking activity compared to a homogeneous RSNN.
翻訳日:2023-08-09 00:00:10 公開日:2023-08-05
# マイクロ波ポンプによるマグノン-ポラリトンハイブリッド化の制御

Control of the magnon-polariton hybridization with a microwave pump ( http://arxiv.org/abs/2302.08665v2 )

ライセンス: Link先を確認
C. Zhang, Jinwei Rao, C. Y. Wang, Z. J. Chen, K. X. Zhao, Bimu Yao, Xu-Guang Xu and Wei Lu(参考訳) ポンプ誘起マグノンモード (PIMs) は近年、スピンダイナミクスに顕著なチューニング性を与えるフェライトの基本的な励起が発見された。 本稿では,空洞マグノン系をマイクロ波ポンプとの平衡から遠ざけることにより,PIMとキャビティマグノンポラリトン(CMP)の結合について検討する。 我々の実験では、ウォーカーモードはPIMとキャビティ光子を同時に結合し、単一のキャビティ構造に2つの強いコヒーレント結合プロセスを組み合わせる。 このようなPIM-CMPハイブリッド化システムは、PIMとCMPの両方から補完特性を取得し、磁場、ポンプパワー、ポンプ周波数で自由に操作できる。 これらのコヒーレント操作は、材料の性質と電磁境界条件によって制限された固有特性を超えたユニークな振る舞いを示し、ハイブリッドデバイスの制御を拡張する機会を生み出している。

Pump-induced magnon modes (PIMs) are recently discovered elementary excitations in ferrimagnets that offer significant tunability to spin dynamics. Here, we investigate the coupling between a PIM and cavity magnon polaritons (CMPs) by driving a cavity magnonic system away from equilibrium with a microwave pump. In our experiment, the Walker mode simultaneously couples with the PIM and cavity photons and thus combines two strongly coherent coupling processes in a single cavity structure. Such a PIM-CMP hybridization system acquires complementary properties from both the PIM and CMPs, allowing it to be freely manipulated by the magnetic field, the pump power and the pump frequency. These coherent manipulations exhibit unique behaviors beyond the intrinsic properties limited by the material nature and electromagnetic boundary conditions, thereby creating opportunities for extending the control of hybrid devices.
翻訳日:2023-08-08 23:58:26 公開日:2023-08-05
# ニューラルネットワークのキャリブレーションにおける期待一貫性

Expectation consistency for calibration of neural networks ( http://arxiv.org/abs/2303.02644v2 )

ライセンス: Link先を確認
Lucas Clart\'e, Bruno Loureiro, Florent Krzakala, Lenka Zdeborov\'a(参考訳) その驚くべき性能にもかかわらず、ディープニューラルネットワークは予測の信頼性に対して過剰に最適化される傾向があると報告されている。 したがって、ニューラルネットワークの効率的かつ効率的なキャリブレーション方法を見つけることは、ディープラーニングにおける不確実性定量化を改善するための重要な取り組みである。 本稿では,最終層重みのトレーニング後の再スケーリングを行い,平均検証信頼度と正しいラベルの平均比率とを一致させることにより,予測一貫性(ec)と呼ばれる新しい校正手法を提案する。 まず,ec法が異なるニューラルネットワークアーキテクチャとデータセットにまたがる温度スケーリング(ts)と同様のキャリブレーション性能を実現し,同様の検証サンプルと計算リソースを必要とすることを示した。 しかしながら、ec は西森同一性として知られるベイズ最適性原理に基づく原理的手法であると主張する。 次に,合成環境におけるTSとECの漸近的評価を行い,その性能が目的関数に大きく依存していることを示す。 特に、ECがTSを著しく上回る事例について論じる。

Despite their incredible performance, it is well reported that deep neural networks tend to be overoptimistic about their prediction confidence. Finding effective and efficient calibration methods for neural networks is therefore an important endeavour towards better uncertainty quantification in deep learning. In this manuscript, we introduce a novel calibration technique named expectation consistency (EC), consisting of a post-training rescaling of the last layer weights by enforcing that the average validation confidence coincides with the average proportion of correct labels. First, we show that the EC method achieves similar calibration performance to temperature scaling (TS) across different neural network architectures and data sets, all while requiring similar validation samples and computational resources. However, we argue that EC provides a principled method grounded on a Bayesian optimality principle known as the Nishimori identity. Next, we provide an asymptotic characterization of both TS and EC in a synthetic setting and show that their performance crucially depends on the target function. In particular, we discuss examples where EC significantly outperforms TS.
翻訳日:2023-08-08 23:48:56 公開日:2023-08-05
# NovPhy: オープンワールド環境における物理推論のためのテストベッド

NovPhy: A Testbed for Physical Reasoning in Open-world Environments ( http://arxiv.org/abs/2303.01711v2 )

ライセンス: Link先を確認
Chathura Gamage, Vimukthini Pinto, Cheng Xue, Peng Zhang, Ekaterina Nikonova, Matthew Stephenson, Jochen Renz(参考訳) 物理的環境と相互作用するAIシステムの出現により、これらのAIシステムに物理的推論機能を統合することへの関心が高まっている。 しかし、実際の物理的環境で動作する物理推論能力だけで十分だろうか? 現実の世界では、これまで遭遇したことのない新しい状況に常に直面する。 人間として、我々はこれらの状況にうまく適応する能力がある。 同様に、エージェントは、オープンワールドの物理的環境で適切に動作するために、ノベルティの影響下で機能する能力を持つ必要がある。 このようなAIシステムの開発を容易にするために,エージェントが新規性の存在下で物理的シナリオを推論し,それに応じて行動を取ることを必要とする新しいテストベッド,NovPhyを提案する。 テストベッドは、エージェントが物理シナリオの新規性を検出し、適応するよう要求するタスクで構成されている。 テストベッドでタスクを作成するために、様々なノベルティ空間を表す8つのノベルティを開発し、物理環境でよく遭遇する5つのシナリオに適用する。 テストベッド設計では,異なる物理シナリオに適用された場合の新規性に対する性能と,異なる新規性を適用した場合の物理的シナリオにおける性能の2つの能力を評価する。 我々は,人間,学習エージェント,ヒューリスティックエージェントを用いて徹底的な評価を行う。 評価の結果,人間のパフォーマンスはエージェントのパフォーマンスをはるかに超えることがわかった。 一部のエージェントは、正常なタスクのパフォーマンスが良好であっても、新規性がある場合には著しく悪化し、新規性に適応できるエージェントは通常、人間よりも遅く適応する。 我々は,オープンワールドの物理環境での運用において,人間レベル以上の能力を持つ知的エージェントの開発を促進する。 Testbed Webサイト: https://github.com/phy-q/novphy

Due to the emergence of AI systems that interact with the physical environment, there is an increased interest in incorporating physical reasoning capabilities into those AI systems. But is it enough to only have physical reasoning capabilities to operate in a real physical environment? In the real world, we constantly face novel situations we have not encountered before. As humans, we are competent at successfully adapting to those situations. Similarly, an agent needs to have the ability to function under the impact of novelties in order to properly operate in an open-world physical environment. To facilitate the development of such AI systems, we propose a new testbed, NovPhy, that requires an agent to reason about physical scenarios in the presence of novelties and take actions accordingly. The testbed consists of tasks that require agents to detect and adapt to novelties in physical scenarios. To create tasks in the testbed, we develop eight novelties representing a diverse novelty space and apply them to five commonly encountered scenarios in a physical environment. According to our testbed design, we evaluate two capabilities of an agent: the performance on a novelty when it is applied to different physical scenarios and the performance on a physical scenario when different novelties are applied to it. We conduct a thorough evaluation with human players, learning agents, and heuristic agents. Our evaluation shows that humans' performance is far beyond the agents' performance. Some agents, even with good normal task performance, perform significantly worse when there is a novelty, and the agents that can adapt to novelties typically adapt slower than humans. We promote the development of intelligent agents capable of performing at the human level or above when operating in open-world physical environments. Testbed website: https://github.com/phy-q/novphy
翻訳日:2023-08-08 23:48:38 公開日:2023-08-05
# グラフ畳み込みネットワークに対する意味的バックドア攻撃

A semantic backdoor attack against Graph Convolutional Networks ( http://arxiv.org/abs/2302.14353v2 )

ライセンス: Link先を確認
Jiazhu Dai, Zhipeng Xiong(参考訳) グラフ畳み込みネットワーク(GCN)は、ノード分類やグラフ分類など、様々なグラフ構造化タスクの問題に対処するのに非常に効果的である。 しかし、最近の研究では、GCNはバックドア攻撃と呼ばれる新たな種類の脅威に弱いことが示されており、攻撃されたモデルが良性サンプルで良好に動作するように、敵が隠れたバックドアをGCNに注入することができる。 本稿では,このようなセマンティックなバックドア攻撃がGCNに対して可能かどうかを考察し,GCNにおけるセキュリティ脆弱性の存在を明らかにするために,グラフ分類の文脈下でのSBAG(Semantic Backdoor Attack)を提案する。 SBAGはサンプルの特定の種類のノードをバックドアトリガーとして使用し、中毒訓練データを通じてGCNモデルに隠れたバックドアを注入する。 バックドアがアクティベートされ、GCNsモデルは、サンプルが十分なトリガーノードを含む限り、修正されていないサンプルでも攻撃者が指定した悪意のある分類結果を与える。 SBAGを4つのグラフデータセット上で評価する。 実験の結果、SBAGは2種類の攻撃サンプルに対して、それぞれ99.9%と82%以上の攻撃成功率を達成でき、毒性率は5%未満であることが示唆された。

Graph Convolutional Networks (GCNs) have been very effective in addressing the issue of various graph-structured related tasks, such as node classification and graph classification. However, recent research has shown that GCNs are vulnerable to a new type of threat called the backdoor attack, where the adversary can inject hidden backdoor into the GCNs so that the attacked model performs well on benign samples, whereas its prediction will be maliciously changed to the attacker-specified target label if the hidden backdoor is activated by the attacker-defined trigger. In this paper, we investigate whether such semantic backdoor attacks are possible for GCNs and propose a Semantic Backdoor Attack against GCNs(SBAG) under the context of graph classification to reveal the existence of this security vulnerability in GCNs. The SBAG uses a certain type of node in the samples as a backdoor trigger and injects hidden backdoor into GCNs models through poisoning training data. The backdoor will be activated and the GCNs models will give malicious classification results specified by the attacker even on unmodified samples as long as the samples contain enough trigger nodes. We evaluate the SBAG on four graph datasets. The experimental results indicate that the SBAG can achieve attack success rate of around 99.9% and over 82% for two kinds of attack samples respectively,with poisoning rate of less than 5%.
翻訳日:2023-08-08 23:47:37 公開日:2023-08-05
# ラベルノイズ学習のためのダイナミクス・アウェアロス

Dynamics-Aware Loss for Learning with Label Noise ( http://arxiv.org/abs/2303.11562v3 )

ライセンス: Link先を確認
Xiu-Chuan Li, Xiaobo Xia, Fei Zhu, Tongliang Liu, Xu-Yao Zhang, Cheng-Lin Liu(参考訳) ラベルノイズはディープニューラルネットワーク(DNN)に深刻な脅威をもたらす。 堅牢性で適合性を調整できるロバスト損失関数を利用することは、この問題に対処するための単純だが効果的な戦略である。 しかし、これらの2つの要因間の広く使われている静的トレードオフは、ラベルノイズによるDNN学習のダイナミクスと矛盾し、性能が低下する。 そこで本稿では,この問題を解決するためにDAL(Dynamics-Aware Los)を提案する。 DNNは、まず有益なパターンを学習し、次に有害なラベルノイズを徐々に過度にオーバーフィットする傾向があるので、DALは最初に適合能力を強化し、その後徐々に堅牢性を向上させる。 さらに、後段ではラベルノイズと戦闘不適合の負の影響をさらに低減するため、DNNはハードノイズよりも簡単な例に重点を置いて、ブートストラップ項を導入する。 詳細な理論解析と広範な実験結果の両方が本手法の優越性を示している。 ソースコードはhttps://github.com/xiuchuanli/dalにあります。

Label noise poses a serious threat to deep neural networks (DNNs). Employing robust loss functions which reconcile fitting ability with robustness is a simple but effective strategy to handle this problem. However, the widely-used static trade-off between these two factors contradicts the dynamics of DNNs learning with label noise, leading to inferior performance. Therefore, we propose a dynamics-aware loss (DAL) to solve this problem. Considering that DNNs tend to first learn beneficial patterns, then gradually overfit harmful label noise, DAL strengthens the fitting ability initially, then gradually improves robustness. Moreover, at the later stage, to further reduce the negative impact of label noise and combat underfitting simultaneously, we let DNNs put more emphasis on easy examples than hard ones and introduce a bootstrapping term. Both the detailed theoretical analyses and extensive experimental results demonstrate the superiority of our method. Our source code can be found in https://github.com/XiuchuanLi/DAL.
翻訳日:2023-08-08 23:41:45 公開日:2023-08-05
# eP-ALM: 言語モデルの効率的な知覚増強

eP-ALM: Efficient Perceptual Augmentation of Language Models ( http://arxiv.org/abs/2303.11403v3 )

ライセンス: Link先を確認
Mustafa Shukor, Corentin Dancette, Matthieu Cord(参考訳) 大規模言語モデル(LLM)は、これまでになく大規模なモデルで現れる前例のない機能で、世界に印象を与えてきました。 視覚面では、トランスフォーマーモデル(すなわちViT)は同じ傾向を辿り、挑戦的なベンチマークで最高のパフォーマンスを達成する。 このようなユニモーダルモデルが豊富に存在すると、自然な疑問が生まれ、マルチモーダルなタスクに取り組むためにこの傾向に従う必要があるのだろうか? 本研究では,既存のモデルの効率的な適応のために,むしろ直接的な努力をすることを提案し,知覚を伴う言語モデルの拡張を提案する。 視覚言語タスクに事前学習されたモデルを適用する既存のアプローチは、その効率を妨げるいくつかの重要なコンポーネントに依存している。 特に、多くのパラメータをトレーニングし、大きなマルチモーダルプリトレーニングに依存し、巨大な画像テキストデータセットでトレーニングされたエンコーダ(クリップなど)を使用し、大きな推論オーバーヘッドを追加する。 加えて、これらのアプローチのほとんどはゼロショットとコンテキスト学習に重点を置いており、直接の微調整にはほとんど努力していない。 マルチモーダルタスクに単調モデルを適用するのに必要な最小限の計算労力について検討し、単調事前学習モデルに効率よく適応する異なるアプローチとともに、新しい挑戦的なセットアップを提案する。 我々は,全パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを前倒しすることで,提案した設定に従って,VQA と Captioning の他のベースラインを著しく上回ることを示す。 コードは、https://github.com/mshukor/eP-ALM.comで入手できる。

Large Language Models (LLMs) have so far impressed the world, with unprecedented capabilities that emerge in models at large scales. On the vision side, transformer models (i.e., ViT) are following the same trend, achieving the best performance on challenging benchmarks. With the abundance of such unimodal models, a natural question arises; do we need also to follow this trend to tackle multimodal tasks? In this work, we propose to rather direct effort to efficient adaptations of existing models, and propose to augment Language Models with perception. Existing approaches for adapting pretrained models for vision-language tasks still rely on several key components that hinder their efficiency. In particular, they still train a large number of parameters, rely on large multimodal pretraining, use encoders (e.g., CLIP) trained on huge image-text datasets, and add significant inference overhead. In addition, most of these approaches have focused on Zero-Shot and In Context Learning, with little to no effort on direct finetuning. We investigate the minimal computational effort needed to adapt unimodal models for multimodal tasks and propose a new challenging setup, alongside different approaches, that efficiently adapts unimodal pretrained models. We show that by freezing more than 99% of total parameters, training only one linear projection layer, and prepending only one trainable token, our approach (dubbed eP-ALM) significantly outperforms other baselines on VQA and Captioning across Image, Video, and Audio modalities, following the proposed setup. The code is available here: https://github.com/mshukor/eP-ALM.
翻訳日:2023-08-08 23:41:29 公開日:2023-08-05
# 学生のt分布の混合による多目的眼疾患スクリーニング

Reliable Multimodality Eye Disease Screening via Mixture of Student's t Distributions ( http://arxiv.org/abs/2303.09790v2 )

ライセンス: Link先を確認
Ke Zou and Tian Lin and Xuedong Yuan and Haoyu Chen and Xiaojing Shen and Meng Wang and Huazhu Fu(参考訳) 眼科では多彩な眼疾患スクリーニングが重要であり、それぞれのパフォーマンスを補完するために様々な情報源からの情報を統合している。 しかし、既存の手法は各一様性の信頼性を評価するのに弱いため、信頼できないモダリティを直接融合させるとスクリーニングエラーが発生する可能性がある。 そこで本研究では,眼疾患スクリーニングのためのマルチモーダル・ビジュアル・フュージョン・パイプラインであるeyemostを紹介し,ユニモーダリティに対する信頼性を評価,多分散融合の観点からのマルチモーダリティ情報をエレガントに統合する。 具体的には,ユニモダリティの局所的不確かさと融合モダリティのグローバルな不確実性の両方を推定し,信頼性の高い分類結果を得る。 さらに重要なのは、学生の$t$分布の混合案が適応的に異なるモダリティを統合し、モデルに重い尾を持つ特性を付与し、堅牢性と信頼性を高めることである。 パブリックデータセットと社内データセットの両方の実験結果から,我々のモデルは現在の手法よりも信頼性が高いことがわかった。 さらに、EyeMostはデータ品質判別器として機能する可能性があり、多目的眼疾患スクリーニングのための信頼性の高い意思決定を可能にする。

Multimodality eye disease screening is crucial in ophthalmology as it integrates information from diverse sources to complement their respective performances. However, the existing methods are weak in assessing the reliability of each unimodality, and directly fusing an unreliable modality may cause screening errors. To address this issue, we introduce a novel multimodality evidential fusion pipeline for eye disease screening, EyeMoSt, which provides a measure of confidence for unimodality and elegantly integrates the multimodality information from a multi-distribution fusion perspective. Specifically, our model estimates both local uncertainty for unimodality and global uncertainty for the fusion modality to produce reliable classification results. More importantly, the proposed mixture of Student's $t$ distributions adaptively integrates different modalities to endow the model with heavy-tailed properties, increasing robustness and reliability. Our experimental findings on both public and in-house datasets show that our model is more reliable than current methods. Additionally, EyeMost has the potential ability to serve as a data quality discriminator, enabling reliable decision-making for multimodality eye disease screening.
翻訳日:2023-08-08 23:40:56 公開日:2023-08-05
# 医療報告作成のためのクロスモーダル因果介入

Cross-Modal Causal Intervention for Medical Report Generation ( http://arxiv.org/abs/2303.09117v2 )

ライセンス: Link先を確認
Weixing Chen, Yang Liu, Ce Wang, Jiarui Zhu, Guanbin Li and Liang Lin(参考訳) 医療報告生成(MRG)は、放射線医の重荷を軽減し、所定の放射線画像に従って対応する医療報告を自動生成するコンピュータ支援診断および医薬指導に不可欠である。 しかし,視覚・言語バイアスによって引き起こされる画像テキストデータのスプリアス相関から,病変領域を正確に記述する正確なレポートの作成が困難である。 さらに、クロスモーダルな共同創設者は通常観察不可能で、明示的な方法で排除することが難しい。 本稿では,MRGのクロスモーダルデータバイアス,すなわちクロスモーダル因果介入を新たな視点から緩和し,視覚的疎結合モジュール(VDM)と言語的疎結合モジュール(LDM)からなるMRGのための新しい視覚言語因果干渉(VLCI)フレームワークを提案する。 具体的には、汎用的な意味抽出器がないため、vdmは高価な細かなアノテーションを使わずにパッチベースのローカルおよびグローバル機能からvisual confoundersを探索し、分離する。 同時に、医学全体を包含する知識の欠如により、ldmは用語データベースを構築することなく、視覚的な特徴と高頻度の文脈によって引き起こされる言語共起者を排除している。 IU-XrayとMIMIC-CXRデータセットの大規模な実験により、我々のVLCIは最先端のMRG法よりも大幅に優れていることが示された。 コードとモデルはhttps://github.com/WissingChen/VLCIとhttps://github.com/HCPLab-SYSU/CausalVLRで入手できる。

Medical report generation (MRG) is essential for computer-aided diagnosis and medication guidance, which can relieve the heavy burden of radiologists by automatically generating the corresponding medical reports according to the given radiology image. However, due to the spurious correlations within image-text data induced by visual and linguistic biases, it is challenging to generate accurate reports reliably describing lesion areas. Moreover, the cross-modal confounders are usually unobservable and challenging to be eliminated in an explicit way. In this paper, we aim to mitigate the cross-modal data bias for MRG from a new perspective, i.e., cross-modal causal intervention, and propose a novel Visual-Linguistic Causal Intervention (VLCI) framework for MRG, which consists of a visual deconfounding module (VDM) and a linguistic deconfounding module (LDM), to implicitly mitigate the visual-linguistic confounders by causal front-door intervention. Specifically, due to the absence of a generalized semantic extractor, the VDM explores and disentangles the visual confounders from the patch-based local and global features without expensive fine-grained annotations. Simultaneously, due to the lack of knowledge encompassing the entire medicine, the LDM eliminates the linguistic confounders caused by salient visual features and high-frequency context without constructing a terminology database. Extensive experiments on IU-Xray and MIMIC-CXR datasets show that our VLCI significantly outperforms the state-of-the-art MRG methods. The code and models are available at https://github.com/WissingChen/VLCI and https://github.com/HCPLab-SYSU/CausalVLR.
翻訳日:2023-08-08 23:40:37 公開日:2023-08-05
# DAE-Talker:拡散オートエンコーダを用いた高忠実度音声駆動音声生成

DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder ( http://arxiv.org/abs/2303.17550v3 )

ライセンス: Link先を確認
Chenpng Du, Qi Chen, Tianyu He, Xu Tan, Xie Chen, Kai Yu, Sheng Zhao, Jiang Bian(参考訳) 最近の研究は音声による音声音声生成に大きな進歩を遂げているが、生成したビデオの品質は実際の録音よりまだ遅れている。 この理由の1つは、人間の知識に基づいて設計され、顔の動きを正確に記述できない、顔のランドマークや3DMM係数のような手作りの中間表現を使用することである。 さらに、これらの手法には、これらの表現を抽出するための外部事前訓練モデルが必要である。 これらの制約に対処するため,拡散オートエンコーダ(DAE)から得られたデータ駆動型潜在表現を利用するDAE-Talkerを提案する。 DAEは、画像を潜伏ベクトルにエンコードする画像エンコーダと、画像から再構成するDDIM画像デコーダとを含む。 我々は,対話型ビデオフレームのdaeを訓練し,その潜在表現をコンフォーメータベースの音声2ラテントモデルの訓練対象として抽出する。 これにより、DAE-Talkerは、テンプレートビデオから所定のヘッドポーズに頼るのではなく、完全なビデオフレームを合成し、音声の内容に合わせて自然な頭部の動きを生成することができる。 また, ポーズ制御性のために, speech2latentにおけるポーズモデリングも導入する。 また,個々のフレームで訓練されたddim画像デコーダを用いて連続的な映像フレームを生成する新しい手法を提案する。 実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。 また,提案手法の有効性を分析し,DAE-Talkerのポーズ制御性を示す。

While recent research has made significant progress in speech-driven talking face generation, the quality of the generated video still lags behind that of real recordings. One reason for this is the use of handcrafted intermediate representations like facial landmarks and 3DMM coefficients, which are designed based on human knowledge and are insufficient to precisely describe facial movements. Additionally, these methods require an external pretrained model for extracting these representations, whose performance sets an upper bound on talking face generation. To address these limitations, we propose a novel method called DAE-Talker that leverages data-driven latent representations obtained from a diffusion autoencoder (DAE). DAE contains an image encoder that encodes an image into a latent vector and a DDIM image decoder that reconstructs the image from it. We train our DAE on talking face video frames and then extract their latent representations as the training target for a Conformer-based speech2latent model. This allows DAE-Talker to synthesize full video frames and produce natural head movements that align with the content of speech, rather than relying on a predetermined head pose from a template video. We also introduce pose modelling in speech2latent for pose controllability. Additionally, we propose a novel method for generating continuous video frames with the DDIM image decoder trained on individual frames, eliminating the need for modelling the joint distribution of consecutive frames directly. Our experiments show that DAE-Talker outperforms existing popular methods in lip-sync, video fidelity, and pose naturalness. We also conduct ablation studies to analyze the effectiveness of the proposed techniques and demonstrate the pose controllability of DAE-Talker.
翻訳日:2023-08-08 23:30:17 公開日:2023-08-05
# 医療データ強化のための大規模言語モデル--患者とTrial Matchingの例

Large Language Models for Healthcare Data Augmentation: An Example on Patient-Trial Matching ( http://arxiv.org/abs/2303.16756v2 )

ライセンス: Link先を確認
Jiayi Yuan, Ruixiang Tang, Xiaoqian Jiang, Xia Hu(参考訳) 患者と適切な臨床試験を合わせるプロセスは、医学研究を進め、最適なケアを提供するために不可欠である。 しかし、現在のアプローチでは、データの標準化、倫理的考察、電子健康記録(EHR)と臨床試験基準との相互運用性の欠如といった課題に直面している。 本稿では,ehlsと臨床試験記述との互換性を改善するために,それらの高度な自然言語生成能力を活用することで,これらの課題に対処するための大規模言語モデル(llms)の可能性を検討する。 本稿では,LLMに基づく患者心電図マッチング(LLM-PTM)のための革新的なプライバシ・アウェアなデータ拡張手法を提案する。 本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新データの一般化性を12.12%向上させた。 さらに,本手法の有効性をさらに説明し,基礎となる原理をより深く理解するためのケーススタディを提示する。

The process of matching patients with suitable clinical trials is essential for advancing medical research and providing optimal care. However, current approaches face challenges such as data standardization, ethical considerations, and a lack of interoperability between Electronic Health Records (EHRs) and clinical trial criteria. In this paper, we explore the potential of large language models (LLMs) to address these challenges by leveraging their advanced natural language generation capabilities to improve compatibility between EHRs and clinical trial descriptions. We propose an innovative privacy-aware data augmentation approach for LLM-based patient-trial matching (LLM-PTM), which balances the benefits of LLMs while ensuring the security and confidentiality of sensitive patient data. Our experiments demonstrate a 7.32% average improvement in performance using the proposed LLM-PTM method, and the generalizability to new data is improved by 12.12%. Additionally, we present case studies to further illustrate the effectiveness of our approach and provide a deeper understanding of its underlying principles.
翻訳日:2023-08-08 23:29:00 公開日:2023-08-05
# Take 5: 機能追加による解釈可能な画像分類

Take 5: Interpretable Image Classification with a Handful of Features ( http://arxiv.org/abs/2303.13166v2 )

ライセンス: Link先を確認
Thomas Norrenbrock, Marco Rudolph, Bodo Rosenhahn(参考訳) ディープニューラルネットワークは、ほとんど理解不能な何千もの機能を使って、1つのクラスを識別する。 本稿では,深層ニューラルネットワークにおいて,解釈可能性の計測可能な側面を持つ解釈可能なスパースおよび低次元最終決定層を提案し,細粒度画像分類について実証する。 人間は、その特徴が解釈可能で、1つの決定に使用されるのはごくわずかであるならば、機械学習モデルの判断しか理解できないと主張する。 その場合、最終層はスパースでなければならず、特徴を解釈するために低次元化する必要がある。 スパース低次元決定SLDDモデルを用いたモデルと呼ぶ。 本研究では,SLDDモデルが高次元の高次元決定層よりも局所的・グローバル的に解釈しやすく,競争精度を維持可能であることを示す。 さらに,モデルの特徴の多様性と精度を向上させる損失関数を提案する。 より解釈可能なsddモデルではクラス当たり50の機能のうち5つしか使用できませんが、一般的なベンチマークデータセットで2048の機能を持つベースラインモデルと比較して、97%から100%の精度を維持しています。

Deep Neural Networks use thousands of mostly incomprehensible features to identify a single class, a decision no human can follow. We propose an interpretable sparse and low dimensional final decision layer in a deep neural network with measurable aspects of interpretability and demonstrate it on fine-grained image classification. We argue that a human can only understand the decision of a machine learning model, if the features are interpretable and only very few of them are used for a single decision. For that matter, the final layer has to be sparse and, to make interpreting the features feasible, low dimensional. We call a model with a Sparse Low-Dimensional Decision SLDD-Model. We show that a SLDD-Model is easier to interpret locally and globally than a dense high-dimensional decision layer while being able to maintain competitive accuracy. Additionally, we propose a loss function that improves a model's feature diversity and accuracy. Our more interpretable SLDD-Model only uses 5 out of just 50 features per class, while maintaining 97% to 100% of the accuracy on four common benchmark datasets compared to the baseline model with 2048 features.
翻訳日:2023-08-08 23:28:21 公開日:2023-08-05
# ディーゼル機関のガス流力学と未知パラメータ予測のための物理インフォームニューラルネットワーク

Physics-informed neural networks for predicting gas flow dynamics and unknown parameters in diesel engines ( http://arxiv.org/abs/2304.13799v2 )

ライセンス: Link先を確認
Kamaljyoti Nath, Xuhui Meng, Daniel J Smith, George Em Karniadakis(参考訳) 本稿では,ディーゼル機関の健康状態を監視するための物理情報ニューラルネットワーク (PINN) を提案する。 目的は、エンジンのダイナミクスを評価し、未知のパラメータを"平均値"モデルで識別し、メンテナンス要件を予測することである。 PINNモデルは、選択した状態変数の測定データを用いて、可変形状ターボチャージャーと排気ガス再循環を備えたディーゼルエンジンに適用される。 その結果、PINNモデルが未知パラメータと雑音データの両方を正確に同時に予測し、損失関数における自己適応重みの重要性を高速収束のために示している。 これらのシミュレーションの入力データは実際のエンジンの動作条件に由来するが、出力はシミュレーションデータであり、実世界の力学系を予測するピンの能力の実用的なケーススタディである。 ディーゼル機関の平均値モデルには、ある状態を表す経験式が組み込まれているが、これらの式は他のエンジンには一般化できない。 これを解決するために、PINNモデルに加えてディープニューラルネットワーク(DNN)の利用を検討する。 dnnは実験室のテストデータを用いて訓練され、平均値モデルでエンジン固有の経験式をモデル化するために使用され、エンジンの状態をより柔軟かつ適応的に表現できる。 言い換えると、平均値モデルはエンジンの状態を表すのに pinn model と dnns の両方を使用し、 pinn はエンジン全体のダイナミクスの物理ベースの理解を提供し、dnns は経験式をよりエンジン固有で適応的な表現を提供する。 この2つのアプローチを組み合わせることで,ディーゼル機関の健全性と性能を総合的かつ多目的にモニタリングする手法を提案する。

This paper presents a physics-informed neural network (PINN) approach for monitoring the health of diesel engines. The aim is to evaluate the engine dynamics, identify unknown parameters in a "mean value" model, and anticipate maintenance requirements. The PINN model is applied to diesel engines with a variable-geometry turbocharger and exhaust gas recirculation, using measurement data of selected state variables. The results demonstrate the ability of the PINN model to predict simultaneously both unknown parameters and dynamics accurately with both clean and noisy data, and the importance of the self-adaptive weight in the loss function for faster convergence. The input data for these simulations are derived from actual engine running conditions, while the outputs are simulated data, making this a practical case study of PINN's ability to predict real-world dynamical systems. The mean value model of the diesel engine incorporates empirical formulae to represent certain states, but these formulae may not be generalizable to other engines. To address this, the study considers the use of deep neural networks (DNNs) in addition to the PINN model. The DNNs are trained using laboratory test data and are used to model the engine-specific empirical formulae in the mean value model, allowing for a more flexible and adaptive representation of the engine's states. In other words, the mean value model uses both the PINN model and the DNNs to represent the engine's states, with the PINN providing a physics-based understanding of the engine's overall dynamics and the DNNs offering a more engine-specific and adaptive representation of the empirical formulae. By combining these two approaches, the study aims to offer a comprehensive and versatile approach to monitoring the health and performance of diesel engines.
翻訳日:2023-08-08 23:11:34 公開日:2023-08-05
# 育種パターンを持つホップフィールドモデル--教師による自己教師型学習モデル

Hopfield model with planted patterns: a teacher-student self-supervised learning model ( http://arxiv.org/abs/2304.13710v2 )

ライセンス: Link先を確認
Francesco Alemanno, Luca Camanzi, Gianluca Manzan and Daniele Tantari(参考訳) ホップフィールドネットワークはメモリ記憶と検索のパラダイムモデルとして知られているが、現代の人工知能システムは主に機械学習のパラダイムに基づいている。 ホップフィールドモデルと構造的パターンの適切な一般化の観点から,教師が教師に指導する自己教師付き学習問題をボルツマンマシンで定式化することが可能であり,スピン変数は機械の重みとパターンがトレーニングセットの例に対応する。 本研究では,トレーニングセットサイズ,データセットノイズ,推論温度(すなわち重みの正規化)を用いて位相図を解析し,学習性能の分析を行った。 小さいが情報的なデータセットで、機械は記憶によって学習できる。 ノイズの多いデータセットでは、クリティカルしきい値を超える多数のサンプルが必要になる。 この体制では、システムの記憶容量制限は、システムの一般化が可能な学習体制の発生の機会となる。

While Hopfield networks are known as paradigmatic models for memory storage and retrieval, modern artificial intelligence systems mainly stand on the machine learning paradigm. We show that it is possible to formulate a teacher-student self-supervised learning problem with Boltzmann machines in terms of a suitable generalization of the Hopfield model with structured patterns, where the spin variables are the machine weights and patterns correspond to the training set's examples. We analyze the learning performance by studying the phase diagram in terms of the training set size, the dataset noise and the inference temperature (i.e. the weight regularization). With a small but informative dataset the machine can learn by memorization. With a noisy dataset, an extensive number of examples above a critical threshold is needed. In this regime the memory storage limits of the system becomes an opportunity for the occurrence of a learning regime in which the system can generalize.
翻訳日:2023-08-08 23:11:05 公開日:2023-08-05
# point-based fusion を用いた時間整合オンライン奥行き推定

Temporally Consistent Online Depth Estimation Using Point-Based Fusion ( http://arxiv.org/abs/2304.07435v3 )

ライセンス: Link先を確認
Numair Khan, Eric Penner, Douglas Lanman, and Lei Xiao(参考訳) 深度推定は、3次元再構成、新しい視点合成、計算写真などの多くのコンピュータビジョン問題において重要なステップである。 既存の作業のほとんどは、シングルフレームからの深さ推定に重点を置いている。 ビデオに適用すると、その結果は時間的一貫性が欠如し、フリックや水泳のアーティファクトが表示される。 本稿では,オンライン環境での映像ストリームの時間的一貫した深度マップを推定することを目的とする。 これは、将来のフレームが利用できないため難しい問題であり、メソッドは一貫性を強制するか、以前の推定からエラーを修正するかを選択する必要がある。 動的オブジェクトの存在はさらに問題を複雑にする。 本稿では、各フレームを動的に更新するグローバルポイントクラウドと、画像空間における学習融合アプローチを用いて、これらの課題に対処することを提案する。 当社のアプローチは一貫性を促進し、同時にエラーや動的オブジェクトの処理も可能にします。 定性的,定量的な結果から,一貫した映像深度推定のための最先端の精度が得られた。

Depth estimation is an important step in many computer vision problems such as 3D reconstruction, novel view synthesis, and computational photography. Most existing work focuses on depth estimation from single frames. When applied to videos, the result lacks temporal consistency, showing flickering and swimming artifacts. In this paper we aim to estimate temporally consistent depth maps of video streams in an online setting. This is a difficult problem as future frames are not available and the method must choose between enforcing consistency and correcting errors from previous estimations. The presence of dynamic objects further complicates the problem. We propose to address these challenges by using a global point cloud that is dynamically updated each frame, along with a learned fusion approach in image space. Our approach encourages consistency while simultaneously allowing updates to handle errors and dynamic objects. Qualitative and quantitative results show that our method achieves state-of-the-art quality for consistent video depth estimation.
翻訳日:2023-08-08 23:08:59 公開日:2023-08-05
# 画像の脅威:ロボットマニピュレーションにおける深い政策学習のためのベイジアンシーン

The Treachery of Images: Bayesian Scene Keypoints for Deep Policy Learning in Robotic Manipulation ( http://arxiv.org/abs/2305.04718v2 )

ライセンス: Link先を確認
Jan Ole von Hartz, Eugenio Chisari, Tim Welschehold, Wolfram Burgard, Joschka Boedecker, Abhinav Valada(参考訳) ロボット操作のための政策学習では、サンプル効率が最も重要である。 したがって、カメラ観察からよりコンパクトな表現を学習し抽出することは有望な道のりである。 しかし、現在の手法はシーンの完全な可観測性やスケールの不変性に悩まされることが多い。 多くのタスクや設定において、この仮定は、シーン内のオブジェクトがしばしばカメラの視野の外に隠されたり、横たわったりするため、その位置に関してカメラの観察が曖昧である。 この問題に対処するために,baksという,スケール不変なキーポイントを追跡するベイズ的手法を提案する。 本手法は画像内固有のあいまいさを解消し,対称オブジェクトとオクルード・オブ・ビューオブジェクトのキーポイント追跡を可能にする。 本手法は,手首カメラ観測から多目的ロボット操作の課題を学習し,他の表現学習技術と比較して,ポリシー学習の利点を示す。 さらに, 障害物, 閉塞, ノイズ深度測定などの乱れに対する顕著な頑健さと, シミュレーションと実世界のロボット実験の両方において目に見えない物体への一般化を示す。

In policy learning for robotic manipulation, sample efficiency is of paramount importance. Thus, learning and extracting more compact representations from camera observations is a promising avenue. However, current methods often assume full observability of the scene and struggle with scale invariance. In many tasks and settings, this assumption does not hold as objects in the scene are often occluded or lie outside the field of view of the camera, rendering the camera observation ambiguous with regard to their location. To tackle this problem, we present BASK, a Bayesian approach to tracking scale-invariant keypoints over time. Our approach successfully resolves inherent ambiguities in images, enabling keypoint tracking on symmetrical objects and occluded and out-of-view objects. We employ our method to learn challenging multi-object robot manipulation tasks from wrist camera observations and demonstrate superior utility for policy learning compared to other representation learning techniques. Furthermore, we show outstanding robustness towards disturbances such as clutter, occlusions, and noisy depth measurements, as well as generalization to unseen objects both in simulation and real-world robotic experiments.
翻訳日:2023-08-08 23:02:23 公開日:2023-08-05
# 残差計算のない車両検出と分類:ランダム摂動注入によるHEVC画像デコーディングの高速化

Vehicle Detection and Classification without Residual Calculation: Accelerating HEVC Image Decoding with Random Perturbation Injection ( http://arxiv.org/abs/2305.08265v3 )

ライセンス: Link先を確認
Muhammet Sebul Berato\u{g}lu and Beh\c{c}et U\u{g}ur T\"oreyin(参考訳) ビデオ分析,特に交通監視の分野では,映像データの処理と理解のための効率的かつ効果的な手法の必要性が高まっている。 従来のフルビデオデコーディング技術は計算集約的で時間を要するため、研究者は圧縮された領域における代替アプローチを探求する。 本研究では,高効率ビデオ符号化(HEVC)ビットストリームから画像を再構成する,ランダム摂動に基づく圧縮領域法を提案する。 本手法は,映像理解タスクに関連する情報を保持しつつ,特に車両の検知・分類を重要なユースケースとして重視しながら,元の画像の凝縮表現を作成し,残差に対するランダムな摂動の置換を提案する最初の方法である。 残差データを使用しないことにより,提案手法は画像再構成プロセスに必要なデータを大幅に削減し,より効率的な情報保存と送信を可能にする。 これは、監視アプリケーションに関わる膨大なビデオデータを考える際に特に重要である。 提案手法は,一般のビットベクトルデータセットに適用することで,従来のフルデコード法に比べて復元速度が著しく向上し,画素領域法よりも約56%高速であることを示す。 さらに,画素領域法と比較して検出精度が99.9%,分類精度96.84%であり,画素領域法よりわずか0.98%低い。 さらに,データサイズが大幅に削減され,ストレージや送信の効率が向上することを示す。 本研究は、速度とデータサイズが重要な要因である交通監視アプリケーションにおいて、圧縮されたドメインメソッドの可能性を立証する。

In the field of video analytics, particularly traffic surveillance, there is a growing need for efficient and effective methods for processing and understanding video data. Traditional full video decoding techniques can be computationally intensive and time-consuming, leading researchers to explore alternative approaches in the compressed domain. This study introduces a novel random perturbation-based compressed domain method for reconstructing images from High Efficiency Video Coding (HEVC) bitstreams, specifically designed for traffic surveillance applications. To the best of our knowledge, our method is the first to propose substituting random perturbations for residual values, creating a condensed representation of the original image while retaining information relevant to video understanding tasks, particularly focusing on vehicle detection and classification as key use cases. By not using residual data, our proposed method significantly reduces the data needed in the image reconstruction process, allowing for more efficient storage and transmission of information. This is particularly important when considering the vast amount of video data involved in surveillance applications. Applied to the public BIT-Vehicle dataset, we demonstrate a significant increase in the reconstruction speed compared to the traditional full decoding approach, with our proposed method being approximately 56% faster than the pixel domain method. Additionally, we achieve a detection accuracy of 99.9%, on par with the pixel domain method, and a classification accuracy of 96.84%, only 0.98% lower than the pixel domain method. Furthermore, we showcase the significant reduction in data size, leading to more efficient storage and transmission. Our research establishes the potential of compressed domain methods in traffic surveillance applications, where speed and data size are critical factors.
翻訳日:2023-08-08 22:50:55 公開日:2023-08-05
# 粗粒度決定論と非ユニタリダイナミクスによる自発的局所化

Spontaneous localisation from a coarse-grained deterministic and non-unitary dynamics ( http://arxiv.org/abs/2305.06706v2 )

ライセンス: Link先を確認
Kartik Kakade, Avnish Singh and Tejinder P. Singh(参考訳) 波動関数の崩壊は、量子重ね合わせの原理と決定論的進化に反するように見える。 客観的崩壊モデルは、シュリンガー方程式に確率的非一意的かつノルム保存的な修正を加えることによって、この現象の動的説明を提案する。 本稿では,量子系が非単元的だがノルム保存的進化の下でどのように進化するかを問う。 適切な条件下では、量子線型重ね合わせが壊れる単純な2量子ビットモデルを用いて、システムは予測可能のいずれかの代替に駆動されることを示す。 この決定論的力学が粗粒度で低分解能で観測された場合、結果はボルン確率則に従ってランダムに現れる。 したがって, 客観的崩壊モデルにおいて, 非ユニタリティと確率性の役割に光を当てる。

Collapse of the wave function appears to violate the quantum superposition principle as well as deterministic evolution. Objective collapse models propose a dynamical explanation for this phenomenon, by making a stochastic non-unitary and norm-preserving modification to the Schr\"odinger equation. In the present article we ask how a quantum system evolves under a {\it deterministic} and non-unitary but norm-preserving evolution? We show using a simple two-qubit model that under suitable conditions, quantum linear superposition is broken, with the system predictably driven to one or the other alternatives. If this deterministic dynamics is coarse-grained and observed over a lower time resolution, the outcomes appear random while obeying the Born probability rule. Our analysis hence throws light on the distinct roles of non-unitarity and of stochasticity in objective collapse models.
翻訳日:2023-08-08 22:49:46 公開日:2023-08-05
# 側方膝X線写真, デモグラフィーデータ, シンプティック・アセスメントに基づく膝蓋骨関節症の進展予測のための深層学習

Deep Learning for Predicting Progression of Patellofemoral Osteoarthritis Based on Lateral Knee Radiographs, Demographic Data and Symptomatic Assessments ( http://arxiv.org/abs/2305.05927v2 )

ライセンス: Link先を確認
Neslihan Bayramoglu, Martin Englund, Ida K. Haugen, Muneaki Ishijima, Simo Saarakkala(参考訳) 本研究では, 深層学習(DL)と注意機構を用いて, 7年間にわたる膝蓋骨関節症(PFOA)のX線学的進展を予測する枠組みを提案する。 本研究はMOST研究のベースラインから被験者(被験者1832名,膝3276名)を抽出した。 PF関節領域は, 側膝X線上の自動ランドマーク検出ツール(BoneFinder)を用いて同定した。 画像データに基づいてPFOA進行を予測するために, エンドツーエンドのDL法を開発した。 既知リスク要因に基づくベースラインのセットを開発し, 勾配押し上げ機 (GBM) を用いて解析した。 危険因子は, 年齢, 性別, BMI, WOMACスコア, 関節X線学的関節炎ステージ (KLスコア) であった。 最後に,画像および臨床データを用いてアンサンブルモデルを訓練した。 個々のモデルの中で, 深層畳み込みニューラルネットワークのアテンションモデルの性能は, AUCが0.856, APが0.431, 深層学習が0.4, AUC=0.832, AP=0.4, AUC=0.767, AP=0.334) で最高の性能を示した。 画像データと臨床変数をアンサンブルモデルに含めることで、統計的により強力なPFOA進行予測が可能となった(AUC = 0.865, AP=0.447)が、この小さなパフォーマンス向上の臨床的意義はいまだ不明である。 本研究では,画像および臨床変数を用いてPFOAの進行を予測する機械学習モデルの可能性を示した。 これらのモデルは、進行リスクの高い患者を識別し、新しい治療に優先順位を付けるために使用できる。 しかし,MOSTデータセットを用いた研究では,モデル精度は優れていたが,今後は外部の患者コホートを用いて検証する必要がある。

In this study, we propose a novel framework that utilizes deep learning (DL) and attention mechanisms to predict the radiographic progression of patellofemoral osteoarthritis (PFOA) over a period of seven years. This study included subjects (1832 subjects, 3276 knees) from the baseline of the MOST study. PF joint regions-of-interest were identified using an automated landmark detection tool (BoneFinder) on lateral knee X-rays. An end-to-end DL method was developed for predicting PFOA progression based on imaging data in a 5-fold cross-validation setting. A set of baselines based on known risk factors were developed and analyzed using gradient boosting machine (GBM). Risk factors included age, sex, BMI and WOMAC score, and the radiographic osteoarthritis stage of the tibiofemoral joint (KL score). Finally, we trained an ensemble model using both imaging and clinical data. Among the individual models, the performance of our deep convolutional neural network attention model achieved the best performance with an AUC of 0.856 and AP of 0.431; slightly outperforming the deep learning approach without attention (AUC=0.832, AP= 0.4) and the best performing reference GBM model (AUC=0.767, AP= 0.334). The inclusion of imaging data and clinical variables in an ensemble model allowed statistically more powerful prediction of PFOA progression (AUC = 0.865, AP=0.447), although the clinical significance of this minor performance gain remains unknown. This study demonstrated the potential of machine learning models to predict the progression of PFOA using imaging and clinical variables. These models could be used to identify patients who are at high risk of progression and prioritize them for new treatments. However, even though the accuracy of the models were excellent in this study using the MOST dataset, they should be still validated using external patient cohorts in the future.
翻訳日:2023-08-08 22:49:21 公開日:2023-08-05
# 逐次後進推論による多様で忠実な知識に基づく対話生成

Diverse and Faithful Knowledge-Grounded Dialogue Generation via Sequential Posterior Inference ( http://arxiv.org/abs/2306.01153v2 )

ライセンス: Link先を確認
Yan Xu, Deqian Kong, Dehong Xu, Ziwei Ji, Bo Pang, Pascale Fung, Ying Nian Wu(参考訳) 事実知識を用いて多様性と忠実さで応答を生成する能力は、人間のような信頼できる対話システムを構築する上で最重要である。 共通戦略は、知識選択と応答生成を別々に最適化する2段階のパラダイムを採用し、これらの2つのタスクの固有の相関性を見落とし、条件付き変分法を利用して推論ネットワークを用いて知識選択と応答生成を協調的に最適化する。 本稿では,後続分布からおよそサンプリングすることで,知識を選択し,対話を生成する,逐次的後続推論(Sequential Posterior Inference, SPI)と呼ばれるエンドツーエンド学習フレームワークを提案する。 他の方法とは異なり、SPIは推論ネットワークを必要とせず、後部分布の単純な幾何学を仮定する。 この直感的で直感的なSPI推論手順は、応答生成モデルを直接クエリし、正確な知識選択と忠実な応答の生成を可能にする。 また,2つの共通対話データセット(ウィザード・オブ・ウィキペディアとホール-E)を用いた実験結果から,SPIが従来の強力なベースラインを自動評価と人的評価の両方で上回ることを示した。

The capability to generate responses with diversity and faithfulness using factual knowledge is paramount for creating a human-like, trustworthy dialogue system. Common strategies either adopt a two-step paradigm, which optimizes knowledge selection and response generation separately, and may overlook the inherent correlation between these two tasks, or leverage conditional variational method to jointly optimize knowledge selection and response generation by employing an inference network. In this paper, we present an end-to-end learning framework, termed Sequential Posterior Inference (SPI), capable of selecting knowledge and generating dialogues by approximately sampling from the posterior distribution. Unlike other methods, SPI does not require the inference network or assume a simple geometry of the posterior distribution. This straightforward and intuitive inference procedure of SPI directly queries the response generation model, allowing for accurate knowledge selection and generation of faithful responses. In addition to modeling contributions, our experimental results on two common dialogue datasets (Wizard of Wikipedia and Holl-E) demonstrate that SPI outperforms previous strong baselines according to both automatic and human evaluation metrics.
翻訳日:2023-08-08 22:41:18 公開日:2023-08-05
# MedAugment: 医用画像解析のためのユニバーサル自動データ拡張プラグイン

MedAugment: Universal Automatic Data Augmentation Plug-in for Medical Image Analysis ( http://arxiv.org/abs/2306.17466v2 )

ライセンス: Link先を確認
Zhaoshan Liu and Qiujie Lv and Yifan Li and Ziduo Yang and Lei Shen(参考訳) データ拡張(DA)は、データ不足を軽減するためにコンピュータビジョンの分野で広く実装されているが、医療画像分析(MIA)では複数の課題に直面している。 MIAにおけるDAアプローチは、一般的なDAと生成的敵ネットワークベースDAの両方を含む。 しかし、前者のアプローチは主に経験駆動であり、後者のアプローチは、定量的な合成品質とモード崩壊によって妨げられる。 そこで我々は,MedAugment というプラグイン・アンド・ユースDA手法を開発し,MIA フィールドの恩恵を受けるために自動 DA を利用する。 自然画像と医学画像の違いに対処するため,強調空間をピクセル増補空間と空間増補空間に分けた。 さらに,空間からDA操作をサンプリングする場合に,新たな動作サンプリング戦略を提案する。 メダグメントの性能と普遍性を示すために,4つの分類データセットと3つのセグメンテーションデータセットについて広範な実験を行った。 その結果、MedAugmentは既存のDAメソッドよりも優れていることがわかった。 この研究は、プラグアンドユースMedAugmentがMIAコミュニティに利益をもたらすことを示唆している。 コードはhttps://github.com/NUS-Tim/MedAugment.comで入手できる。

Data Augmentation (DA) has been widely implemented in the field of computer vision to alleviate the data shortage, whereas the DA in Medical Image Analysis (MIA) faces multiple challenges. The prevalent DA approaches in MIA encompass both general DA and generative adversarial network-based DA. However, the former approach is predominantly experience-driven, and the latter approach can be hindered by unquantifiable synthesis quality and mode collapse. Here, we develop a plug-and-use DA method, named MedAugment, to leverage the automatic DA to benefit the MIA field. To address the differences between natural and medical images, we divide the augmentation space into pixel augmentation space and spatial augmentation space. Moreover, a novel operation sampling strategy is proposed when sampling DA operations from the spaces. To demonstrate the performance and universality of MedAugment, we conduct extensive experiments on four classification datasets and three segmentation datasets. The results show that MedAugment outperforms existing DA methods. This work suggests that the plug-and-use MedAugment may benefit the MIA community. Code is available at https://github.com/NUS-Tim/MedAugment.
翻訳日:2023-08-08 22:32:02 公開日:2023-08-05
# 連合学習のための弾性拘束型メタリーナー

Elastically-Constrained Meta-Learner for Federated Learning ( http://arxiv.org/abs/2306.16703v3 )

ライセンス: Link先を確認
Peng Lan, Donglai Chen, Chong Xie, Keshu Chen, Jinyuan He, Juntao Zhang, Yonghong Chen and Yan Xu(参考訳) フェデレーション学習(federated learning)は、データ共有を禁止する複数のパーティに対して、機械学習モデルを協調的にトレーニングするアプローチである。 フェデレーション学習の課題のひとつは、単一のモデルがすべてのクライアントのデータ分散に適合できないため、クライアント間の非iidデータである。 Per-FedAvgのようなメタ学習は、この課題に対処するために導入された。 メタラーニングはすべてのクライアントで初期パラメータを共有することを学ぶ。 各クライアントは勾配降下を使用して、初期化をローカルデータ分布に迅速に適応させ、モデルのパーソナライズを実現する。 しかしながら、非凸損失関数とサンプリング更新のランダム性のため、メタラーニングアプローチは、同じクライアントに対して局所的適応において不安定な目標を持つ。 この適応方向の変動はメタラーニングの収束を妨げる。 この課題を克服するために、歴史的局所適応モデルを用いて内部ループの方向を制限し、弾性拘束法を提案する。 その結果、現在のラウンドインナーループは歴史的な目標を保持し、より良いソリューションに適応する。 実験により,提案手法はメタラーニングの収束を促進させ,計算やコミュニケーションを増すことなくパーソナライズを向上できることが示された。 提案手法は3つの公開データセットにおいて,すべての指標でSOTAを達成した。

Federated learning is an approach to collaboratively training machine learning models for multiple parties that prohibit data sharing. One of the challenges in federated learning is non-IID data between clients, as a single model can not fit the data distribution for all clients. Meta-learning, such as Per-FedAvg, is introduced to cope with the challenge. Meta-learning learns shared initial parameters for all clients. Each client employs gradient descent to adapt the initialization to local data distributions quickly to realize model personalization. However, due to non-convex loss function and randomness of sampling update, meta-learning approaches have unstable goals in local adaptation for the same client. This fluctuation in different adaptation directions hinders the convergence in meta-learning. To overcome this challenge, we use the historical local adapted model to restrict the direction of the inner loop and propose an elastic-constrained method. As a result, the current round inner loop keeps historical goals and adapts to better solutions. Experiments show our method boosts meta-learning convergence and improves personalization without additional calculation and communication. Our method achieved SOTA on all metrics in three public datasets.
翻訳日:2023-08-08 22:31:44 公開日:2023-08-05
# 人工知能と生物学的誤用:言語モデルと生物学的デザインツールの差別化リスク

Artificial intelligence and biological misuse: Differentiating risks of language models and biological design tools ( http://arxiv.org/abs/2306.13952v4 )

ライセンス: Link先を確認
Jonas B. Sandbrink(参考訳) 人工知能(AI)の進歩が生命科学の進歩を促進するにつれ、生物エージェントの兵器化や誤用も可能となるかもしれない。 本稿では,大規模言語モデル (LLM) と生物設計ツール (BDT) の2種類のAIツールを区別する。 GPT-4のようなLLMはすでに、歴史的生物学的兵器開発で遭遇した障壁を取り除くために、二重用途の情報を提供することができる。 LLMを研究室のアシスタントや自律科学ツールに変えることで、研究を支援する能力はさらに向上する。 したがって、LDMは特に生物学的誤用に対する障壁を低くする。 対照的に、BDTは高度なアクターの能力を拡大する。 具体的には、BDTはパンデミックの病原体をこれまで見たことよりもはるかに悪化させ、予測可能で標的となる生物兵器の形式を可能にする可能性がある。 LLMとBDTが組み合わさると、生物剤による害の天井が上がり、広くアクセスできるようになる。 さまざまな介入がリスク管理に役立ちます。 独立したプレリリース評価により、開発者は新しいモデルの危険な能力を排除できる。 強力な科学ツールによるリスクは、正当な研究者に異なるアクセスを提供することによって軽減される可能性がある。 最後に、リスク軽減に必須となるのは、遺伝子合成産物の普遍的スクリーニングと強化である。

As advancements in artificial intelligence (AI) propel progress in the life sciences, they may also enable the weaponisation and misuse of biological agents. This article differentiates two classes of AI tools that pose such biosecurity risks: large language models (LLMs) and biological design tools (BDTs). LLMs, such as GPT-4, are already able to provide dual-use information that removes some barriers encountered by historical biological weapons efforts. As LLMs are turned into lab assistants and autonomous science tools, this will further increase their ability to support research. Thus, LLMs will in particular lower barriers to biological misuse. In contrast, BDTs will expand the capabilities of sophisticated actors. Concretely, BDTs may enable the creation of pandemic pathogens substantially worse than anything seen to date and could enable forms of more predictable and targeted biological weapons. In combination, LLMs and BDTs could raise the ceiling of harm from biological agents and could make them broadly accessible. A range of interventions would help to manage risks. Independent pre-release evaluations could ensure that developers have eliminated dangerous capabilities of new models. Risks from powerful science tools might be mitigated through providing differentiated access to legitimate researchers. Lastly, essential for mitigating risks will be universal and enhanced screening of gene synthesis products.
翻訳日:2023-08-08 22:31:11 公開日:2023-08-05
# ユビキタスなセマンティックメタバースへの挑戦,アプローチ,機会

Towards Ubiquitous Semantic Metaverse: Challenges, Approaches, and Opportunities ( http://arxiv.org/abs/2307.06687v2 )

ライセンス: Link先を確認
Kai Li, Billy Pik Lik Lau, Xin Yuan, Wei Ni, Mohsen Guizani, Chau Yuen(参考訳) 近年,拡張現実(AR)と仮想現実(VR)ユーザーのための没入型サイバー仮想体験に革命をもたらすために,ユビキタスセマンティック・メタバースが研究されている。 本研究では,ユビキタス・セマンティック・メタバース(AI),時空間データ表現(STDR),セマンティック・オブ・モノ(SIoT),セマンティック・エンハンスド・デジタル・ツイン(SDT)の4つの基本システムコンポーネントのインテリジェンスと時空間特性に着目した。 遠隔教育,作業とコラボレーション,エンタテイメントと社会化,医療,eコマースマーケティングなど,ユビキタスなセマンティックメタバースの典型的なユースケースと,インテリジェントでパーソナライズされたコンテキスト対応インタラクションを可能にする4つの基本システムコンポーネントの代表的な技術について徹底的に調査した。 さらに、スケーラビリティと相互運用性、プライバシとセキュリティ、パフォーマンス測定と標準化、倫理的考慮と責任あるAIを含む、将来のユビキタスなセマンティックなメタバースを構築する機会を概説する。 これらの課題に対処することは、ユーザとar/vrアプリケーションに没入的な体験を提供する、堅牢でセキュアで倫理的に健全なシステム環境を構築する上で重要である。

In recent years, ubiquitous semantic Metaverse has been studied to revolutionize immersive cyber-virtual experiences for augmented reality (AR) and virtual reality (VR) users, which leverages advanced semantic understanding and representation to enable seamless, context-aware interactions within mixed-reality environments. This survey focuses on the intelligence and spatio-temporal characteristics of four fundamental system components in ubiquitous semantic Metaverse, i.e., artificial intelligence (AI), spatio-temporal data representation (STDR), semantic Internet of Things (SIoT), and semantic-enhanced digital twin (SDT). We thoroughly survey the representative techniques of the four fundamental system components that enable intelligent, personalized, and context-aware interactions with typical use cases of the ubiquitous semantic Metaverse, such as remote education, work and collaboration, entertainment and socialization, healthcare, and e-commerce marketing. Furthermore, we outline the opportunities for constructing the future ubiquitous semantic Metaverse, including scalability and interoperability, privacy and security, performance measurement and standardization, as well as ethical considerations and responsible AI. Addressing those challenges is important for creating a robust, secure, and ethically sound system environment that offers engaging immersive experiences for the users and AR/VR applications.
翻訳日:2023-08-08 22:23:42 公開日:2023-08-05
# ガッピングおよびドープグラフェンの原子またはナノ粒子に対するカシミール-ポルダー力: 大きな分離における漸近挙動

Casimir-Polder Force on Atoms or Nanoparticles from the Gapped and Doped Graphene: Asymptotic Behavior at Large Separations ( http://arxiv.org/abs/2307.03497v2 )

ライセンス: Link先を確認
Galina L. Klimchitskaya and Vladimir M. Mostepanenko(参考訳) エネルギーギャップと化学ポテンシャルを有する実グラフェンシートから大きく分離した原子とナノ粒子に作用するカシミール・ポルダー力は、リフシッツ理論の枠組みで研究されている。 熱量子場理論の第一原理に基づくグラフェンの偏光テンソルによって表される反射係数が用いられる。 グラフェンの場合、リフシッツの公式の0周波数項が全カシミール・ポルダー力の99\%以上を占める分離距離は標準熱長より小さいことが示されている。 しかし, この結果によれば, グラフェンの古典的限界は, プランク定数に依存しない力となるが, エネルギーギャップと化学ポテンシャルの値によって, リフシッツ公式のゼロ周波数項によって決定される大きな分離の限界よりも, はるかに大きな分離に達する可能性がある。 大規模な分離におけるリフシッツ公式のゼロ周波数項に対する解析的漸近式が導出される。 これらの漸近表現は、エネルギーギャップの増大と化学ポテンシャルの増大により増大する分離距離から始まる数値計算の結果と最大1\%の値に一致する。 得られた結果の応用可能性について論じる。

The Casimir-Polder force acting on atoms and nanoparticles spaced at large separations from real graphene sheet possessing some energy gap and chemical potential is investigated in the framework of the Lifshitz theory. The reflection coefficients expressed via the polarization tensor of graphene found based on the first principles of thermal quantum field theory are used. It is shown that for graphene the separation distances starting from which the zero-frequency term of the Lifshitz formula contributes more than 99\% of the total Casimir-Polder force are less than the standard thermal length. According to our results, however, the classical limit for graphene, where the force becomes independent on the Planck constant, may be reached at much larger separations than the limit of large separations determined by the zero-frequency term of the Lifshitz formula depending on the values of the energy gap and chemical potential. The analytic asymptotic expressions for the zero-frequency term of the Lifshitz formula at large separations are derived. These asymptotic expressions agree up to 1\% with the results of numerical computations starting from some separation distance which increases with increasing energy gap and decreases with increasing chemical potential. Possible applications of the obtained results are discussed.
翻訳日:2023-08-08 22:22:32 公開日:2023-08-05
# SoK:プライバシ保護データ合成

SoK: Privacy-Preserving Data Synthesis ( http://arxiv.org/abs/2307.02106v2 )

ライセンス: Link先を確認
Yuzheng Hu, Fan Wu, Qinbin Li, Yunhui Long, Gonzalo Munilla Garrido, Chang Ge, Bolin Ding, David Forsyth, Bo Li, Dawn Song(参考訳) データ分析の普及に伴い、データのプライバシ保護が最重要課題となっている。 その結果、プライバシ保存データ分析を目的としたメカニズムの開発が急増している。 しかし、これらのアプローチはタスク固有であり、新しいタスクのためのアルゴリズムを設計するのは面倒なプロセスである。 代わりに、(理想的には)プライベート情報を欠く合成データを作成することができる。 本稿では,プライバシ保護データ合成(PPDS)に注目し,その分野の総合的な概要,分析,議論を行う。 具体的には,統計的手法と深層学習(DL)に基づく手法という,PPDSにおける2つの顕著な研究領域を統合するマスターレシピを提案する。 マスターレシピでは、統計的手法をモデリングと表現の選択に分割し、異なる生成的モデリング原理によるDLに基づく手法について検討する。 本研究は,本研究の総合的な参照テーブルとキーテイクアウトを蒸留し,既存の文献のオープンな問題を同定する。 異なるPPDSメソッドの背後にある設計原則は何ですか? これらの手法をどのように分類すればいいのか、各カテゴリの利点と欠点は何か? 異なる現実のシナリオでメソッド選択のガイドラインを提供できますか? 我々は,プライベート画像合成の課題に対してdlベースの手法をいくつかベンチマークし,dp-merfは汎用的手法であると結論づける。 最後に,過去10年間の成果を体系化することで,今後の方向性を特定し,研究者の行動を求める。

As the prevalence of data analysis grows, safeguarding data privacy has become a paramount concern. Consequently, there has been an upsurge in the development of mechanisms aimed at privacy-preserving data analyses. However, these approaches are task-specific; designing algorithms for new tasks is a cumbersome process. As an alternative, one can create synthetic data that is (ideally) devoid of private information. This paper focuses on privacy-preserving data synthesis (PPDS) by providing a comprehensive overview, analysis, and discussion of the field. Specifically, we put forth a master recipe that unifies two prominent strands of research in PPDS: statistical methods and deep learning (DL)-based methods. Under the master recipe, we further dissect the statistical methods into choices of modeling and representation, and investigate the DL-based methods by different generative modeling principles. To consolidate our findings, we provide comprehensive reference tables, distill key takeaways, and identify open problems in the existing literature. In doing so, we aim to answer the following questions: What are the design principles behind different PPDS methods? How can we categorize these methods, and what are the advantages and disadvantages associated with each category? Can we provide guidelines for method selection in different real-world scenarios? We proceed to benchmark several prominent DL-based methods on the task of private image synthesis and conclude that DP-MERF is an all-purpose approach. Finally, upon systematizing the work over the past decade, we identify future directions and call for actions from researchers.
翻訳日:2023-08-08 22:22:12 公開日:2023-08-05
# 大規模言語モデル(LLM)時代のレコメンダシステム

Recommender Systems in the Era of Large Language Models (LLMs) ( http://arxiv.org/abs/2307.02046v2 )

ライセンス: Link先を確認
Wenqi Fan, Zihuai Zhao, Jiatong Li, Yunqing Liu, Xiaowei Mei, Yiqi Wang, Zhen Wen, Fei Wang, Xiangyu Zhao, Jiliang Tang, and Qing Li(参考訳) eコマースとWebアプリケーションの繁栄により、Recommender Systems(RecSys)は私たちの日常生活の重要なコンポーネントとなり、ユーザの好みに合わせてパーソナライズされた提案を提供しています。 ディープニューラルネットワーク(dnn)は,ユーザ-テーマ間インタラクションのモデル化やテキスト側情報の導入によって,レコメンダシステムの拡張において大きな進歩を遂げているが,dnnベースの手法では,ユーザの興味の理解やテキスト側情報の取り込みの難しさ,さまざまなレコメンデーションシナリオへの一般化の不安定性,予測の推論など,依然として限界に直面している。 一方、ChatGPTやGPT4といった大規模言語モデル(LLM)の出現は、自然言語処理(NLP)と人工知能(AI)の分野に革命をもたらした。 その結果、最近の研究はレコメンダシステムを強化するためにLLMのパワーを活用しようと試みている。 レコメンダシステムにおけるこの研究の方向性の急速な進化を考えると、既存のllmによるレコメンダシステムの概要を体系的に概観し、関連する分野の研究者に深い理解を提供する必要がある。 そこで本稿では, プレトレーニング, ファインチューニング, プロンプティングなど, LLMを活用したレコメンデータシステムの総合的なレビューを行う。 具体的には、まず、ユーザやアイテムの表現を学習するためのLLM(機能エンコーダ)のパワーを利用する代表的手法を紹介する。 次に,3つのパラダイム,すなわち事前学習,微調整,プロンプトからレコメンデーションシステムを強化するためのLLMの最近の技術について概説する。 最後に、この新興分野における今後の方向性を包括的に論じる。

With the prosperity of e-commerce and web applications, Recommender Systems (RecSys) have become an important component of our daily life, providing personalized suggestions that cater to user preferences. While Deep Neural Networks (DNNs) have made significant advancements in enhancing recommender systems by modeling user-item interactions and incorporating textual side information, DNN-based methods still face limitations, such as difficulties in understanding users' interests and capturing textual side information, inabilities in generalizing to various recommendation scenarios and reasoning on their predictions, etc. Meanwhile, the emergence of Large Language Models (LLMs), such as ChatGPT and GPT4, has revolutionized the fields of Natural Language Processing (NLP) and Artificial Intelligence (AI), due to their remarkable abilities in fundamental responsibilities of language understanding and generation, as well as impressive generalization and reasoning capabilities. As a result, recent studies have attempted to harness the power of LLMs to enhance recommender systems. Given the rapid evolution of this research direction in recommender systems, there is a pressing need for a systematic overview that summarizes existing LLM-empowered recommender systems, to provide researchers in relevant fields with an in-depth understanding. Therefore, in this paper, we conduct a comprehensive review of LLM-empowered recommender systems from various aspects including Pre-training, Fine-tuning, and Prompting. More specifically, we first introduce representative methods to harness the power of LLMs (as a feature encoder) for learning representations of users and items. Then, we review recent techniques of LLMs for enhancing recommender systems from three paradigms, namely pre-training, fine-tuning, and prompting. Finally, we comprehensively discuss future directions in this emerging field.
翻訳日:2023-08-08 22:21:30 公開日:2023-08-05
# 効率的な言語モデルの微調整のためのntk近似mlp融合

NTK-approximating MLP Fusion for Efficient Language Model Fine-tuning ( http://arxiv.org/abs/2307.08941v2 )

ライセンス: Link先を確認
Tianxin Wei, Zeming Guo, Yifan Chen, Jingrui He(参考訳) 訓練済み言語モデル(PLM)の微調整は、多くの自然言語処理アプリケーションにおいて主要な戦略として現れる。 しかし、特に計算能力の低いエッジデバイスでは、PLMの微調整や推論も高価である。 いくつかの一般的なアプローチ(量子化や蒸留など)は、PLM微調整の計算/メモリを削減するために広く研究され、一方、単発圧縮技術はほとんど研究されていない。 本稿では,PLM における多層パーセプトロン (MLP) モジュールのニューラルネットワークの勾配勾配ダイナミクスを明らかにするニューラルタンジェントカーネル (NTK) について検討し,NTK 近似 MLP 融合による軽量 PLM の創出を提案する。 そこで我々は、MLPをサブMLPのバンドルとして再考し、それらを所定の数のセンタロイドに分類し、圧縮MLPとして復元し、元のPLMのNTKを驚くほどよく近似させることを示した。 提案手法の有効性を検証するため,自然言語理解(NLU)と生成(NLG)の両タスクを用いたPLM微調整実験を行った。 私たちのコードはhttps://github.com/weitianxin/MLP_Fusion.comで利用可能です。

Fine-tuning a pre-trained language model (PLM) emerges as the predominant strategy in many natural language processing applications. However, even fine-tuning the PLMs and doing inference are expensive, especially on edge devices with low computing power. Some general approaches (e.g. quantization and distillation) have been widely studied to reduce the compute/memory of PLM fine-tuning, while very few one-shot compression techniques are explored. In this paper, we investigate the neural tangent kernel (NTK)--which reveals the gradient descent dynamics of neural networks--of the multilayer perceptrons (MLP) modules in a PLM and propose to coin a lightweight PLM through NTK-approximating MLP fusion. To achieve this, we reconsider the MLP as a bundle of sub-MLPs, and cluster them into a given number of centroids, which can then be restored as a compressed MLP and surprisingly shown to well approximate the NTK of the original PLM. Extensive experiments of PLM fine-tuning on both natural language understanding (NLU) and generation (NLG) tasks are provided to verify the effectiveness of the proposed method MLP fusion. Our code is available at https://github.com/weitianxin/MLP_Fusion.
翻訳日:2023-08-08 20:35:49 公開日:2023-08-05
# ワンショット画像誘導による一般画像変換

General Image-to-Image Translation with One-Shot Image Guidance ( http://arxiv.org/abs/2307.14352v2 )

ライセンス: Link先を確認
Bin Cheng, Zuhao Liu, Yunbo Peng, Yue Lin(参考訳) 大規模テキスト・画像ペアで事前学習した大規模テキスト・画像モデルは最近画像合成において優れた性能を示している。 しかし、画像はプレーンテキストよりも直感的な視覚概念を提供することができる。 望みの視覚概念を既存のイメージ、例えば肖像画に統合するにはどうすればいいのか? 現在の方法は、コンテンツを保存したり、視覚概念を効果的に翻訳する能力が欠けているため、この要求を満たすには不十分である。 そこで本研究では,画像中のコンテンツを保存し,単一の参照画像でガイドされる視覚概念を翻訳する機能を備えた,視覚概念トランスレータ(VCT)という新しいフレームワークを提案する。 提案するVCTは、内容と概念を抽出する内容概念反転(CCI)プロセスと、抽出した情報を収集して対象画像を得る内容概念融合(CCF)プロセスとを含む。 1つの参照画像のみを与えられた場合、提案するvctは、優れた結果を得て、幅広い一般的な画像から画像への翻訳タスクを完了することができる。 提案手法の優越性と有効性を証明するため,広範な実験を行った。 コードはhttps://github.com/crystalneuro/visual-concept-translatorで入手できる。

Large-scale text-to-image models pre-trained on massive text-image pairs show excellent performance in image synthesis recently. However, image can provide more intuitive visual concepts than plain text. People may ask: how can we integrate the desired visual concept into an existing image, such as our portrait? Current methods are inadequate in meeting this demand as they lack the ability to preserve content or translate visual concepts effectively. Inspired by this, we propose a novel framework named visual concept translator (VCT) with the ability to preserve content in the source image and translate the visual concepts guided by a single reference image. The proposed VCT contains a content-concept inversion (CCI) process to extract contents and concepts, and a content-concept fusion (CCF) process to gather the extracted information to obtain the target image. Given only one reference image, the proposed VCT can complete a wide range of general image-to-image translation tasks with excellent results. Extensive experiments are conducted to prove the superiority and effectiveness of the proposed methods. Codes are available at https://github.com/CrystalNeuro/visual-concept-translator.
翻訳日:2023-08-08 20:28:25 公開日:2023-08-05
# eegデータと表現学習を用いたニューラルメモリデコード

Neural Memory Decoding with EEG Data and Representation Learning ( http://arxiv.org/abs/2307.13181v2 )

ライセンス: Link先を確認
Glenn Bruns, Michael Haidar, and Federico Rubino(参考訳) 脳波データからメモリのニューラルデコードを行う手法について述べる。 この方法を用いて、リコールされる概念は、平均トップ1の精度が78.4%(確率4%)のEEGトレースから特定することができる。 脳活動の脳波記録を低次元空間にマッピングするために、教師付きコントラスト損失を伴う深部表現学習を用いる。 表現学習は使用されるため、たとえトレーニングデータセットに現れなくても概念を識別することができる。 しかし、そのような概念ごとに参照EEGデータが存在する必要がある。 また,情報検索問題への本手法の適用について述べる。 ニューラル情報検索では、ユーザが文書の内容を参照している間に脳波データをキャプチャし、予測された文書へのリンクのリストを生成する。

We describe a method for the neural decoding of memory from EEG data. Using this method, a concept being recalled can be identified from an EEG trace with an average top-1 accuracy of about 78.4% (chance 4%). The method employs deep representation learning with supervised contrastive loss to map an EEG recording of brain activity to a low-dimensional space. Because representation learning is used, concepts can be identified even if they do not appear in the training data set. However, reference EEG data must exist for each such concept. We also show an application of the method to the problem of information retrieval. In neural information retrieval, EEG data is captured while a user recalls the contents of a document, and a list of links to predicted documents is produced.
翻訳日:2023-08-08 20:26:49 公開日:2023-08-05
# DiffPose:ビデオに基づく人文推定のための時空間拡散モデル

DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose Estimation ( http://arxiv.org/abs/2307.16687v2 )

ライセンス: Link先を確認
Runyang Feng, Yixing Gao, Tze Ho Elden Tse, Xueqing Ma, Hyung Jin Chang(参考訳) 現実的画像生成のために当初提案されていたノイズ拡散確率モデルは、最近様々な知覚タスク(物体検出や画像分割など)で成功し、コンピュータビジョンにおいてますます注目を集めている。 しかし,マルチフレームのポーズ推定にモデルを拡張することは,映像に時間次元を加えることによる非自明である。 さらに重要なことに、キーポイント領域に焦点を当てた学習表現は、人間の関節の正確な位置決めに不可欠である。 それにもかかわらず、拡散に基づく方法の適応は、そのような目的を達成する方法に不明確である。 本稿では,映像に基づく人間のポーズ推定を条件付きヒートマップ生成問題として定式化する,新しい拡散アーキテクチャDiffPoseを提案する。 まず、時間的情報をよりよく活用するために、フレーム間で視覚的証拠を集約し、各認知段階の特徴を条件として利用する時空間表現学習器を提案する。 さらに,複数スケールにわたる局所的な関節とグローバルなコンテキストの相関関係を決定する,ルックアップベースのマルチスケール特徴相互作用機構を提案する。 このメカニズムはキーポイント領域に焦点を当てた繊細な表現を生成する。 また、拡散モデルを拡張して、ポーズ推定タスクにおけるDiffPoseの2つの特徴を示す。 (i)複数組のポーズ推定を組み合わせて予測精度を向上させる能力、特にジョイントに挑戦すること (ii)モデルを再トレーニングすることなく、機能改良のための反復的なステップの数を調整する能力。 DiffPoseは、PoseTrack2017、PoseTrack2018、PoseTrack21という3つのベンチマークで、最先端の結果を新たに設定する。

Denoising diffusion probabilistic models that were initially proposed for realistic image generation have recently shown success in various perception tasks (e.g., object detection and image segmentation) and are increasingly gaining attention in computer vision. However, extending such models to multi-frame human pose estimation is non-trivial due to the presence of the additional temporal dimension in videos. More importantly, learning representations that focus on keypoint regions is crucial for accurate localization of human joints. Nevertheless, the adaptation of the diffusion-based methods remains unclear on how to achieve such objective. In this paper, we present DiffPose, a novel diffusion architecture that formulates video-based human pose estimation as a conditional heatmap generation problem. First, to better leverage temporal information, we propose SpatioTemporal Representation Learner which aggregates visual evidences across frames and uses the resulting features in each denoising step as a condition. In addition, we present a mechanism called Lookup-based MultiScale Feature Interaction that determines the correlations between local joints and global contexts across multiple scales. This mechanism generates delicate representations that focus on keypoint regions. Altogether, by extending diffusion models, we show two unique characteristics from DiffPose on pose estimation task: (i) the ability to combine multiple sets of pose estimates to improve prediction accuracy, particularly for challenging joints, and (ii) the ability to adjust the number of iterative steps for feature refinement without retraining the model. DiffPose sets new state-of-the-art results on three benchmarks: PoseTrack2017, PoseTrack2018, and PoseTrack21.
翻訳日:2023-08-08 20:17:10 公開日:2023-08-05
# ニューラルネットワークフィードバックループの効率的な相互作用認識区間解析

Efficient Interaction-Aware Interval Analysis of Neural Network Feedback Loops ( http://arxiv.org/abs/2307.14938v2 )

ライセンス: Link先を確認
Saber Jafarpour and Akash Harapanahalli and Samuel Coogan(参考訳) 本稿では,ニューラルネットワークコントローラを用いたシステムのインターバル到達性に関する計算効率の高いフレームワークを提案する。 提案手法では,オープンループシステムとニューラルネットワークコントローラの包摂関数を利用して,閉ループシステムをより大きな次元の埋め込みシステムに埋め込む。 システムとコントローラの相互作用を異なる方法で考慮した閉ループ埋め込みシステムを構築するための2つの方法を提案する。 相互接続に基づくアプローチでは、ニューラルネットワーク包摂関数をオープンループ包摂関数に置換することで、各座標の最悪の進化を別々に考える。 インタラクションベースのアプローチでは、新しいJacobianベースの包摂関数を使用して、最先端のニューラルネットワーク検証を活用することで、オープンループシステムとコントローラの間の一階のインタラクションをキャプチャする。 最後に、このアプローチを reachmm という python フレームワークで実装し、その効率性とスケーラビリティをベンチマークや200ドルのステートディメンションの例で示します。

In this paper, we propose a computationally efficient framework for interval reachability of systems with neural network controllers. Our approach leverages inclusion functions for the open-loop system and the neural network controller to embed the closed-loop system into a larger-dimensional embedding system, where a single trajectory over-approximates the original system's behavior under uncertainty. We propose two methods for constructing closed-loop embedding systems, which account for the interactions between the system and the controller in different ways. The interconnection-based approach considers the worst-case evolution of each coordinate separately by substituting the neural network inclusion function into the open-loop inclusion function. The interaction-based approach uses novel Jacobian-based inclusion functions to capture the first-order interactions between the open-loop system and the controller by leveraging state-of-the-art neural network verifiers. Finally, we implement our approach in a Python framework called ReachMM to demonstrate its efficiency and scalability on benchmarks and examples ranging to $200$ state dimensions.
翻訳日:2023-08-08 20:14:59 公開日:2023-08-05
# エキスパートラベルのないロバスト車両ナビゲーションのためのLiDARビュー合成

LiDAR View Synthesis for Robust Vehicle Navigation Without Expert Labels ( http://arxiv.org/abs/2308.01424v2 )

ライセンス: Link先を確認
Jonathan Schmidt, Qadeer Khan, Daniel Cremers(参考訳) 自動運転車のディープラーニングモデルは、公道における重要な運転シナリオを安全に管理するために、さまざまなトレーニングデータセットを必要とする。 これには、対向車線や歩道など、分岐した軌跡からのデータが含まれる。 このようなデータは現実世界で収集するには危険すぎる。 RGB画像を用いたデータ拡張手法が提案されている。 しかし、LiDARセンサーに基づくソリューションは少ない。 そこで本稿では,新たな視点からLiDAR点雲を合成することを提案する。 LiDARビュー合成はメッシュ再構成とレイキャスティングを用いて行われる。 我々は、LiDARスキャンを入力とし、将来の軌跡を出力として予測するディープラーニングモデルを訓練する。 次に、この予測軌道にウェイポイントコントローラを適用し、エゴ車両のスロットルおよびステアリングラベルを決定する。 本手法では,原本および合成lidar系列のエキスパート駆動ラベルを必要としない。 代わりに、LiDARオドメトリーからラベルを推測する。 提案手法の有効性を網羅的なオンライン評価と同時作業との比較で示す。 以上の結果から,特にモデルロバスト性の観点からLiDAR点雲の合成の重要性が示唆された。 プロジェクトページ: https://jonathsch.github.io/lidar- synthesis/

Deep learning models for self-driving cars require a diverse training dataset to manage critical driving scenarios on public roads safely. This includes having data from divergent trajectories, such as the oncoming traffic lane or sidewalks. Such data would be too dangerous to collect in the real world. Data augmentation approaches have been proposed to tackle this issue using RGB images. However, solutions based on LiDAR sensors are scarce. Therefore, we propose synthesizing additional LiDAR point clouds from novel viewpoints without physically driving at dangerous positions. The LiDAR view synthesis is done using mesh reconstruction and ray casting. We train a deep learning model, which takes a LiDAR scan as input and predicts the future trajectory as output. A waypoint controller is then applied to this predicted trajectory to determine the throttle and steering labels of the ego-vehicle. Our method neither requires expert driving labels for the original nor the synthesized LiDAR sequence. Instead, we infer labels from LiDAR odometry. We demonstrate the effectiveness of our approach in a comprehensive online evaluation and with a comparison to concurrent work. Our results show the importance of synthesizing additional LiDAR point clouds, particularly in terms of model robustness. Project page: https://jonathsch.github.io/lidar-synthesis/
翻訳日:2023-08-08 20:09:29 公開日:2023-08-05
# ディジタル量子コンピュータにおける粒子分布のフルカウント統計

Full-counting statistics of particle distribution on a digital quantum computer ( http://arxiv.org/abs/2308.01255v2 )

ライセンス: Link先を確認
Yun-Zhuo Fan and Dan-Bo Zhang(参考訳) FCS(Full-counting statistics)は、特徴関数からシステムの統計情報にアクセスする強力なフレームワークを提供する。 しかし、汎用相互作用量子系に対するFCSの応用は、量子多体問題の古典的シミュレーションの本質的な困難によって妨げられることが多い。 本稿では、相互作用系の粒子分布と累積を両立させることができるFCSの量子アルゴリズムを提案する。 このアルゴリズムは量子計算によって特性関数を評価し、その分布と累積物を古典的後処理で抽出する。 ディジタル信号処理理論により,特徴関数のサンプリング点数を用いて精度の依存性を分析する。 我々は、興味のない量子状態のいくつかの成分をフィルタリングすることにより、正確なFCSのためのサンプリングポイントの所望数を削減できることを示す。 数値シミュレーションにより,混合イジングモデルのための領域壁のFCSを実演する。 このアルゴリズムは、量子コンピュータ上の全計数統計を研究するための道筋を示唆する。

Full-counting statistics (FCS) provides a powerful framework to access the statistical information of a system from the characteristic function. However, applications of FCS for generic interacting quantum systems often be hindered by the intrinsic difficulty of classical simulation of quantum many-body problems. Here, we propose a quantum algorithm for FCS that can obtain both the particle distribution and cumulants of interacting systems. The algorithm evaluates the characteristic functions by quantum computing and then extracts the distribution and cumulants with classical post-processing. With digital signal processing theory, we analyze the dependency of accuracy with the number of sampling points for the characteristic functions. We show that the desired number of sampling points for accurate FCS can be reduced by filtering some components of the quantum state that are not of interest. By numeral simulation, we demonstrate FCS of domain walls for the mixed Ising model. The algorithm suggests an avenue for studying full-counting statistics on quantum computers.
翻訳日:2023-08-08 20:08:51 公開日:2023-08-05
# カモフラージュ物体検出のための拡散モデル

Diffusion Model for Camouflaged Object Detection ( http://arxiv.org/abs/2308.00303v2 )

ライセンス: Link先を確認
Zhennan Chen, Rongrong Gao, Tian-Zhu Xiang, Fan Lin(参考訳) camouflaged object detectionは、バックグラウンドと非常に似たオブジェクトを識別することを目的とした、難しいタスクである。 そこで,本稿では,拡散モデルのノイズから画像へのデノージングを強力に行うため,迷彩物体検出のための拡散ベースフレームワークdiffcodを提案し,このフレームワークは,迷彩物体分割タスクを雑音マスクからオブジェクトマスクへのデノージング拡散プロセスとして捉える。 具体的には、被写体マスクが地対面マスクからランダム分布に拡散し、設計されたモデルは、このノイズ処理を逆転することを学習する。 減音学習を強化するために、先行入力画像が符号化され、減音拡散モデルに統合され、拡散過程を導く。 さらに、画像から抽出した条件意味的特徴と拡散雑音の埋め込みとを相互注意機構を介して相互作用させ、聴覚学習を強化するインジェクションアテンションモジュール(IAM)を設計する。 4つの広く使われているcodベンチマークデータセットに関する広範囲な実験により、提案手法は、既存の11の最先端手法、特にカモフラージュされたオブジェクトの詳細なテクスチャセグメンテーションに比べて良好な性能が得られることが示された。 私たちのコードは、https://github.com/ZNan-Chen/diffCOD.comで公開されます。

Camouflaged object detection is a challenging task that aims to identify objects that are highly similar to their background. Due to the powerful noise-to-image denoising capability of denoising diffusion models, in this paper, we propose a diffusion-based framework for camouflaged object detection, termed diffCOD, a new framework that considers the camouflaged object segmentation task as a denoising diffusion process from noisy masks to object masks. Specifically, the object mask diffuses from the ground-truth masks to a random distribution, and the designed model learns to reverse this noising process. To strengthen the denoising learning, the input image prior is encoded and integrated into the denoising diffusion model to guide the diffusion process. Furthermore, we design an injection attention module (IAM) to interact conditional semantic features extracted from the image with the diffusion noise embedding via the cross-attention mechanism to enhance denoising learning. Extensive experiments on four widely used COD benchmark datasets demonstrate that the proposed method achieves favorable performance compared to the existing 11 state-of-the-art methods, especially in the detailed texture segmentation of camouflaged objects. Our code will be made publicly available at: https://github.com/ZNan-Chen/diffCOD.
翻訳日:2023-08-08 20:06:51 公開日:2023-08-05
# DaMSTF: ドメイン適応のためのメタ自己学習の強化

DaMSTF: Domain Adversarial Learning Enhanced Meta Self-Training for Domain Adaptation ( http://arxiv.org/abs/2308.02753v1 )

ライセンス: Link先を確認
Menglong Lu, Zhen Huang, Yunxiang Zhao, Zhiliang Tian, Yang Liu and Dongsheng Li(参考訳) 自己学習はドメイン適応の重要な研究線として現れる。 モデルの予測をラベルなしデータの擬似ラベルとして取ることで、自己学習はモデルをターゲットドメインの擬似インスタンスでブートストラップする。 しかし、擬似ラベル(ラベルノイズ)の予測誤差は自己学習の性能に挑戦する。 この問題に対処するために、従来のアプローチでは信頼性の高い擬似インスタンス、すなわち予測信頼度の高い擬似インスタンスのみを使用してモデルを再トレーニングした。 これらの戦略はラベルノイズを効果的に低減するが、難しい例を見逃しがちである。 本稿では,ドメイン適応のための新しい自己学習フレームワーク,すなわちdamstf(domain adversarial learning enhanced self-training framework)を提案する。 まず、DaMSTFはメタラーニングを行い、各擬似インスタンスの重要性を推定し、ラベルノイズを同時に低減し、ハードサンプルを保存する。 次に,メタバリデーションセット構築のためのメタコンストラクタを設計し,メタバリデーションセットの品質を向上させることにより,メタ学習モジュールの有効性を保証する。 第3に,メタ学習モジュールはトレーニング指導の消失に悩まされ,最適度が劣る傾向にあることがわかった。 この目的のために,ヒューリスティックニューラルネットワークの初期化手法としてドメイン逆学習を採用することで,メタ学習モジュールがより最適に収束するのに役立つ。 理論的および実験的に,提案するdamstfの有効性を実証する。 クロスドメイン感情分類タスクでは、DaMSTFはBERTのパフォーマンスを平均4%近く改善する。

Self-training emerges as an important research line on domain adaptation. By taking the model's prediction as the pseudo labels of the unlabeled data, self-training bootstraps the model with pseudo instances in the target domain. However, the prediction errors of pseudo labels (label noise) challenge the performance of self-training. To address this problem, previous approaches only use reliable pseudo instances, i.e., pseudo instances with high prediction confidence, to retrain the model. Although these strategies effectively reduce the label noise, they are prone to miss the hard examples. In this paper, we propose a new self-training framework for domain adaptation, namely Domain adversarial learning enhanced Self-Training Framework (DaMSTF). Firstly, DaMSTF involves meta-learning to estimate the importance of each pseudo instance, so as to simultaneously reduce the label noise and preserve hard examples. Secondly, we design a meta constructor for constructing the meta-validation set, which guarantees the effectiveness of the meta-learning module by improving the quality of the meta-validation set. Thirdly, we find that the meta-learning module suffers from the training guidance vanishment and tends to converge to an inferior optimal. To this end, we employ domain adversarial learning as a heuristic neural network initialization method, which can help the meta-learning module converge to a better optimal. Theoretically and experimentally, we demonstrate the effectiveness of the proposed DaMSTF. On the cross-domain sentiment classification task, DaMSTF improves the performance of BERT with an average of nearly 4%.
翻訳日:2023-08-08 18:59:51 公開日:2023-08-05
# DeDrift:コンテンツドリフトでロバストな類似性検索

DeDrift: Robust Similarity Search under Content Drift ( http://arxiv.org/abs/2308.02752v1 )

ライセンス: Link先を確認
Dmitry Baranchuk, Matthijs Douze, Yash Upadhyay, I. Zeki Yalniz(参考訳) メディア共有サイトでアップロード・検索されたコンテンツの統計的分布は季節的、社会学的、技術的要因によって時間とともに変化する。 埋め込み空間における近接探索に基づく大規模類似度探索ツールにおけるこの「コンテンツドリフト」の影響について検討する。 コストのかかるインデックス再構成が頻繁に行われない限り、コンテンツドリフトは検索精度と効率を低下させる。 一般に、クエリとデータベースの分布が変化するため、この劣化は特に深刻である。 時間的情報が長期間にわたって利用できる実世界の画像とビデオデータセットを導入・分析する。 学習に基づいて,埋め込み量子化器を更新して大規模インデックス構造をオンザフライで連続的に適応させるdedriftを開発した。 DeDriftはクエリやデータベースの内容のドリフトによる精度の劣化をほとんどなくし、完全なインデックス再構築よりも100倍高速である。

The statistical distribution of content uploaded and searched on media sharing sites changes over time due to seasonal, sociological and technical factors. We investigate the impact of this "content drift" for large-scale similarity search tools, based on nearest neighbor search in embedding space. Unless a costly index reconstruction is performed frequently, content drift degrades the search accuracy and efficiency. The degradation is especially severe since, in general, both the query and database distributions change. We introduce and analyze real-world image and video datasets for which temporal information is available over a long time period. Based on the learnings, we devise DeDrift, a method that updates embedding quantizers to continuously adapt large-scale indexing structures on-the-fly. DeDrift almost eliminates the accuracy degradation due to the query and database content drift while being up to 100x faster than a full index reconstruction.
翻訳日:2023-08-08 18:59:26 公開日:2023-08-05
# NeRFs:最高の3D表現の検索

NeRFs: The Search for the Best 3D Representation ( http://arxiv.org/abs/2308.02751v1 )

ライセンス: Link先を確認
Ravi Ramamoorthi(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、ビュー合成や画像ベースのレンダリングにおける問題や、コンピュータグラフィックスやビジョンなど他の多くのアプリケーションにおいて、選択の表現となっている。 中心となるNeRFは、3Dシーンや3D幾何学の新しい表現を記述する。 メッシュ、不均一マップ、マルチプレーンイメージ、さらにはボクセルグリッドなどの代わりに、ビュー依存放射率やニューラルネットワークをクエリすることで得られるボリューム密度といったボリュームパラメータを備えた連続ボリュームとしてシーンを表現する。 現在、NeRF表現は広く使われており、何千もの論文が毎年拡張または構築され、複数の著者やウェブサイトが概要と調査を提供し、多くの産業アプリケーションやスタートアップ企業を提供している。 本稿では、NeRFの表現を概観し、ビュー合成と関連する問題に最適な3次元表現を見つけるための30年間の探求について述べる。 次に、NeRF表現の観点から新しい展開を記述し、3D表現の将来についていくつかの観察と考察を行う。

Neural Radiance Fields or NeRFs have become the representation of choice for problems in view synthesis or image-based rendering, as well as in many other applications across computer graphics and vision, and beyond. At their core, NeRFs describe a new representation of 3D scenes or 3D geometry. Instead of meshes, disparity maps, multiplane images or even voxel grids, they represent the scene as a continuous volume, with volumetric parameters like view-dependent radiance and volume density obtained by querying a neural network. The NeRF representation has now been widely used, with thousands of papers extending or building on it every year, multiple authors and websites providing overviews and surveys, and numerous industrial applications and startup companies. In this article, we briefly review the NeRF representation, and describe the three decades-long quest to find the best 3D representation for view synthesis and related problems, culminating in the NeRF papers. We then describe new developments in terms of NeRF representations and make some observations and insights regarding the future of 3D representations.
翻訳日:2023-08-08 18:59:11 公開日:2023-08-05
# ハイブリッド量子古典的アプローチによるロジスティック指向結合包装問題の解法

Solving Logistic-Oriented Bin Packing Problems Through a Hybrid Quantum-Classical Approach ( http://arxiv.org/abs/2308.02787v1 )

ライセンス: Link先を確認
Sebasti\'an V. Romero, Eneko Osaba, Esther Villar-Rodriguez and Ant\'on Asla(参考訳) Bin Packing Problemは産業応用の古典的な問題である。 実際、アイテムをビンに効率的に詰め込むことは、多くのロジスティックな企業において最も難しい課題の一つであり、ストレージコストの削減や車両のスペース割り当ての改善にとって重要な課題である。 本稿では、以前に公表したQ4RealBPPと呼ばれる量子古典的フレームワークを活用し、Bin Packing Problemの現実指向のインスタンスの解決について詳しく述べる。 この目的から,本論文は以下の特徴を概説する。 一 異質なビンの存在 二 問題の3次元だけでなく、1次元及び2次元の事例を解決するための枠組みの拡張 三 商品ビン協会の要件及び iv) 納品の優先順位。 これらの機能はすべて本論文でテストされており、Q4RealBPPが現実のオブジェクト指向のインスタンスを解くことができる。

The Bin Packing Problem is a classic problem with wide industrial applicability. In fact, the efficient packing of items into bins is one of the toughest challenges in many logistic corporations and is a critical issue for reducing storage costs or improving vehicle space allocation. In this work, we resort to our previously published quantum-classical framework known as Q4RealBPP, and elaborate on the solving of real-world oriented instances of the Bin Packing Problem. With this purpose, this paper gravitates on the following characteristics: i) the existence of heterogeneous bins, ii) the extension of the framework to solve not only three-dimensional, but also one- and two-dimensional instances of the problem, iii) requirements for item-bin associations, and iv) delivery priorities. All these features have been tested in this paper, as well as the ability of Q4RealBPP to solve real-world oriented instances.
翻訳日:2023-08-08 18:51:10 公開日:2023-08-05
# 視線推定のための半教師付きコントラスト回帰

Semi-supervised Contrastive Regression for Estimation of Eye Gaze ( http://arxiv.org/abs/2308.02784v1 )

ライセンス: Link先を確認
Somsukla Maiti, Akshansh Gupta(参考訳) インテリジェントシステムのためのヒューマンマシンインタフェースの増大に伴い、視線制御システムの開発が求められている。 人間の相互作用の非インタラクティブな形態である視線は、最も適したアプローチの1つである。 出現に基づくディープラーニングモデルは、視線推定に最も広く使われている。 しかし、これらのモデルの性能はラベル付きガゼデータセットのサイズに完全に影響され、実質的には性能の一般化に影響を及ぼす。 本稿では,視線方向推定のための半教師付きコントラスト学習フレームワークの開発を目的とする。 小さなラベル付き視線データセットで、フレームワークは目に見えない顔画像でも汎用的なソリューションを見つけることができる。 本稿では,類似画像間の類似性合意を最大化するとともに,埋め込み表現の冗長性を低減できる新しいコントラスト損失パラダイムを提案する。 コントラスト回帰フレームワークは,視線推定に使用されるいくつかのコントラスト学習手法と比較して,優れた性能を示す。

With the escalated demand of human-machine interfaces for intelligent systems, development of gaze controlled system have become a necessity. Gaze, being the non-intrusive form of human interaction, is one of the best suited approach. Appearance based deep learning models are the most widely used for gaze estimation. But the performance of these models is entirely influenced by the size of labeled gaze dataset and in effect affects generalization in performance. This paper aims to develop a semi-supervised contrastive learning framework for estimation of gaze direction. With a small labeled gaze dataset, the framework is able to find a generalized solution even for unseen face images. In this paper, we have proposed a new contrastive loss paradigm that maximizes the similarity agreement between similar images and at the same time reduces the redundancy in embedding representations. Our contrastive regression framework shows good performance in comparison to several state of the art contrastive learning techniques used for gaze estimation.
翻訳日:2023-08-08 18:50:50 公開日:2023-08-05
# 頚椎細胞学分類のための開始ネットワークの投票序列化

A Voting-Stacking Ensemble of Inception Networks for Cervical Cytology Classification ( http://arxiv.org/abs/2308.02781v1 )

ライセンス: Link先を確認
Linyi Qian, Qian Huang, Yulin Chen, Junzhou Chen(参考訳) 子宮頸癌は女性の健康を脅かす最も深刻な疾患の1つである。 早期発見と診断は、頸部細胞診の分類が不可欠である癌リスクを著しく減少させる可能性がある。 研究者は最近、頚部癌の自動診断のためのネットワークを多数設計しているが、これらの個々のモデルの精度と大小は、実用的な応用ニーズを満たすことができない。 そこで本研究では,3つのインセプションネットワークをベース学習者として採用し,それらのアウトプットを投票アンサンブルで統合した,投票集計アンサンブル戦略を提案する。 アンサンブルモデルで誤分類されたサンプルは、線形分類モデルをメタラーナーとして訓練し、最終的な予測を行う新しいトレーニングセットを生成する。 さらに、パフォーマンスをさらに向上させるために、マルチレベルスタックアンサンブルフレームワークも設計されている。 この方法は,SIPakMed,Herlev,Mendleyの各データセットで評価され,それぞれ100\%,100\%,100\%の精度が得られた。 実験結果は、現在の最先端(SOTA)法よりも優れており、スクリーニングの負荷を減らし、病理学者が子宮頸がんを検出するのに役立つ可能性を示している。 作業のソースコードは \underline{https://github.com/qianlinyi/Voting-Stacking-Ensemble} で公開されている。

Cervical cancer is one of the most severe diseases threatening women's health. Early detection and diagnosis can significantly reduce cancer risk, in which cervical cytology classification is indispensable. Researchers have recently designed many networks for automated cervical cancer diagnosis, but the limited accuracy and bulky size of these individual models cannot meet practical application needs. To address this issue, we propose a Voting-Stacking ensemble strategy, which employs three Inception networks as base learners and integrates their outputs through a voting ensemble. The samples misclassified by the ensemble model generate a new training set on which a linear classification model is trained as the meta-learner and performs the final predictions. In addition, a multi-level Stacking ensemble framework is designed to improve performance further. The method is evaluated on the SIPakMed, Herlev, and Mendeley datasets, achieving accuracies of 100\%, 100\%, and 100\%, respectively. The experimental results outperform the current state-of-the-art (SOTA) methods, demonstrating its potential for reducing screening workload and helping pathologists detect cervical cancer. The source code of the work is available at \underline{https://github.com/qianlinyi/Voting-Stacking-Ensemble}.
翻訳日:2023-08-08 18:50:36 公開日:2023-08-05
# デュアル劣化による低光画像強調のためのディープアンフォールディングネットワーク

Dual Degradation-Inspired Deep Unfolding Network for Low-Light Image Enhancement ( http://arxiv.org/abs/2308.02776v1 )

ライセンス: Link先を確認
Huake Wang, Xingsong Hou, Xiaoyang Yan(参考訳) 低照度画像強調は深部強調モデルに基づいて大きな進歩を遂げているが、そのほとんどは精巧なブラックボックスネットワークによる拡張性能に重点を置いており、拡張モデルの物理的意義を探求することはめったにない。 本稿では,低照度画像強調のためのDual degrAdation-InSpired Deep Unfolding Network(DASUNet)を提案する。 具体的には,低光度画像の劣化機構を明示的にシミュレートする2重劣化モデル(ddm)を構築した。 輝度空間と彩度空間の分解特異性を考慮して、2つの異なる画像先行を学習する。 提案手法をトラクタブルにするために,提案手法を改良した最適化手法を設計する。 さらに、設計されたソリューションを特定のディープネットワークに展開し、反復更新ルールを模倣してDASUNetを形成する。 局所および長距離情報は、畳み込みとトランスフォーマーの利点を継承する事前モデリングモジュール(PMM)によって得られ、二重劣化前の表現能力を向上する。 さらに、2つの劣化モデルの相互作用を促進するために、空間集約モジュール(SAM)が提示される。 複数の人気の低照度画像データセットに対する大規模な実験は、標準的な低照度画像強調法と比較してDASUNetの有効性を検証する。 ソースコードと事前訓練されたモデルは公開されます。

Although low-light image enhancement has achieved great stride based on deep enhancement models, most of them mainly stress on enhancement performance via an elaborated black-box network and rarely explore the physical significance of enhancement models. Towards this issue, we propose a Dual degrAdation-inSpired deep Unfolding network, termed DASUNet, for low-light image enhancement. Specifically, we construct a dual degradation model (DDM) to explicitly simulate the deterioration mechanism of low-light images. It learns two distinct image priors via considering degradation specificity between luminance and chrominance spaces. To make the proposed scheme tractable, we design an alternating optimization solution to solve the proposed DDM. Further, the designed solution is unfolded into a specified deep network, imitating the iteration updating rules, to form DASUNet. Local and long-range information are obtained by prior modeling module (PMM), inheriting the advantages of convolution and Transformer, to enhance the representation capability of dual degradation priors. Additionally, a space aggregation module (SAM) is presented to boost the interaction of two degradation models. Extensive experiments on multiple popular low-light image datasets validate the effectiveness of DASUNet compared to canonical state-of-the-art low-light image enhancement methods. Our source code and pretrained model will be publicly available.
翻訳日:2023-08-08 18:50:15 公開日:2023-08-05
# EduChat:インテリジェント教育のための大規模言語モデルベースのチャットボットシステム

EduChat: A Large-Scale Language Model-based Chatbot System for Intelligent Education ( http://arxiv.org/abs/2308.02773v1 )

ライセンス: Link先を確認
Yuhao Dan, Zhikai Lei, Yiyang Gu, Yong Li, Jianghao Yin, Jiaju Lin, Linhao Ye, Zhiyan Tie, Yougen Zhou, Yilei Wang, Aimin Zhou, Ze Zhou, Qin Chen, Jie Zhou, Liang He, Xipeng Qiu(参考訳) EduChat (https://www.educhat.top/)は、教育分野における大規模言語モデル(LLM)ベースのチャットボットシステムである。 その目標は、パーソナライズされた公正で思いやりのある知的教育をサポートし、教師、学生、そして両親に奉仕することである。 心理学と教育の理論に導かれ、オープン質問応答、エッセイ評価、ソクラテス的教育、および既存の基本的なllmに基づく感情支援といった教育機能をさらに強化する。 特に,教育コーパスの事前学習によってドメイン固有の知識を習得し,設計したシステムプロンプトや指示を微調整することで,様々なスキルを刺激する。 現在、EduChatはオープンソースプロジェクトとしてオンラインで利用可能であり、そのコード、データ、モデルパラメータはプラットフォームで利用可能である(GitHub https://github.com/icalk-nlp/EduChat, Hugging Face https://huggingface.co/ecnu-icalk など)。 また、その能力をオンラインでデモする準備もしています(https://vimeo.com/851004454)。 このイニシアチブは、知的教育のためのLLMの研究と応用を促進することを目的としている。

EduChat (https://www.educhat.top/) is a large-scale language model (LLM)-based chatbot system in the education domain. Its goal is to support personalized, fair, and compassionate intelligent education, serving teachers, students, and parents. Guided by theories from psychology and education, it further strengthens educational functions such as open question answering, essay assessment, Socratic teaching, and emotional support based on the existing basic LLMs. Particularly, we learn domain-specific knowledge by pre-training on the educational corpus and stimulate various skills with tool use by fine-tuning on designed system prompts and instructions. Currently, EduChat is available online as an open-source project, with its code, data, and model parameters available on platforms (e.g., GitHub https://github.com/icalk-nlp/EduChat, Hugging Face https://huggingface.co/ecnu-icalk ). We also prepare a demonstration of its capabilities online (https://vimeo.com/851004454). This initiative aims to promote research and applications of LLMs for intelligent education.
翻訳日:2023-08-08 18:49:54 公開日:2023-08-05
# 高分解能知識転送を用いた1段階低解像度テキスト認識

One-stage Low-resolution Text Recognition with High-resolution Knowledge Transfer ( http://arxiv.org/abs/2308.02770v1 )

ライセンス: Link先を確認
Hang Guo, Tao Dai, Mingyan Zhu, Guanghao Meng, Bin Chen, Zhi Wang, Shu-Tao Xia(参考訳) 低解像度(LR)テキスト画像から文字を認識することは、情報不足と低画質画像のノイズやぼやけのために大きな課題となる。 現在、低解像度テキスト認識(LTR)のソリューションは、2段階のパイプラインに依存しており、第1段階として超解像度で、続いて第2段階の認識を行う。 このパイプラインは直感的で直感的なものだが、さらに超高解像度ネットワークを使用する必要があり、トレーニングやテスト中に非効率性を引き起こす。 さらに、第2ステージの認識精度は第1ステージの復元品質に大きく依存し、非効率の原因となる。 本研究では,認識器を低解像度入力に適応させ,知識を高分解能に伝達する,という新しい視点から,これらの課題に対処しようとする。 本研究では,多段階の知識伝達を実現するための効率的かつ効果的な知識蒸留フレームワークを提案する。 具体的には、解像度ギャップの低減と文字領域のフォーカスで文字位置の知識を抽出し、意味的コントラストの損失を用いてコントラスト学習を行い、ソフトロジットの損失は局所的な単語レベルとグローバルなシーケンスレベルの学習をソフト教師ラベルから促進する。 広範な実験により、提案する1段パイプラインは、有効性と効率の点で、優れたロバスト性を伴うスーパーレゾリューションベースの2段フレームワークを著しく上回っていることが示された。 コードはhttps://github.com/csguoh/kd-ltrで入手できる。

Recognizing characters from low-resolution (LR) text images poses a significant challenge due to the information deficiency as well as the noise and blur in low-quality images. Current solutions for low-resolution text recognition (LTR) typically rely on a two-stage pipeline that involves super-resolution as the first stage followed by the second-stage recognition. Although this pipeline is straightforward and intuitive, it has to use an additional super-resolution network, which causes inefficiencies during training and testing. Moreover, the recognition accuracy of the second stage heavily depends on the reconstruction quality of the first stage, causing ineffectiveness. In this work, we attempt to address these challenges from a novel perspective: adapting the recognizer to low-resolution inputs by transferring the knowledge from the high-resolution. Guided by this idea, we propose an efficient and effective knowledge distillation framework to achieve multi-level knowledge transfer. Specifically, the visual focus loss is proposed to extract the character position knowledge with resolution gap reduction and character region focus, the semantic contrastive loss is employed to exploit the contextual semantic knowledge with contrastive learning, and the soft logits loss facilitates both local word-level and global sequence-level learning from the soft teacher label. Extensive experiments show that the proposed one-stage pipeline significantly outperforms super-resolution based two-stage frameworks in terms of effectiveness and efficiency, accompanied by favorable robustness. Code is available at https://github.com/csguoh/KD-LTR.
翻訳日:2023-08-08 18:49:32 公開日:2023-08-05
# 量子誤差補正の雑音耐性の最小化:コード最適化のための考察

Demystifying Noise Resilience of Quantum Error Correction: Insights for Code Optimization ( http://arxiv.org/abs/2308.02769v1 )

ライセンス: Link先を確認
Avimita Chatterjee, Subrata Das and Swaroop Ghosh(参考訳) 量子誤り訂正符号(QECC)は、脆弱な量子状態をノイズやエラーから保護することにより、信頼性の高い量子コンピューティングを実現するために重要である。 しかし、QECCの雑音耐性を分析し、最適な符号を選択するのに役立っている。 本稿では,2つのqecc - 繰り返し符号と表面符号 - を,シミュレーションを用いて異なるエラータイプとノイズモデルで解析する。 表面コードはビットとフェーズのフリップエラーに対して堅牢である。 その中でも、ローテーションされた表面符号は、単純さとキュービットオーバーヘッドの低下に起因するしきい値が高い場合に最もよく機能する。 ノイズしきい値(またはQECCが非効率になる点)は、現代の量子プロセッサで見られる誤り率を上回る。 特定のエラーやノイズモデルが支配的な量子ハードウェアに直面すると、リソース要求の観点から、表面コードの実装において識別可能な階層が現れる。 この順序付けは繰り返し、回転しない、回転した表面コードを通して一貫して観察される。 我々のノイズモデル解析は、コード容量モデルを最も悲観的で回路レベルのモデルとして位置づけている。 この研究はエラー閾値をマッピングし、現代の量子プロセッサに対する表面符号の利点を明らかにした。 また、より高いコード距離を示し、ラウンドは継続的にパフォーマンスを改善します。 しかし、過剰な距離はクビットオーバーヘッドを必然的に増加させる。 最適表面符号パラメータにターゲットの論理誤差率と量子ビット数を整合させることにより、信頼性と量子ビット資源のバランスをとるためにこれらの符号を調整する必要があることを実証した。

Quantum error correction codes (QECCs) are critical for realizing reliable quantum computing by protecting fragile quantum states against noise and errors. However, limited research has analyzed the noise resilience of QECCs to help select optimal codes. This paper conducts a comprehensive study analyzing two QECCs - repetition codes and surface codes - under different error types and noise models using simulations. Surface codes emerge robust to both bit and phase flip errors. Among them, rotated surface codes perform best with higher thresholds attributed to simplicity and lower qubit overhead. The noise threshold, or the point at which QECCs become ineffective, surpasses the error rate found in contemporary quantum processors. When confronting quantum hardware where a specific error or noise model is dominant, a discernible hierarchy emerges for surface code implementation in terms of resource demand. This ordering is consistently observed across repetition, unrotated, and rotated surface codes. Our noise model analysis ranks the code-capacity model as the most pessimistic and circuit-level model as the most realistic. The study maps error thresholds, revealing surface code's advantage over modern quantum processors. It also shows higher code distances and rounds consistently improve performance. However, excessive distances needlessly increase qubit overhead. By matching target logical error rates and feasible number of qubits to optimal surface code parameters, our study demonstrates the necessity of tailoring these codes to balance reliability and qubit resources.
翻訳日:2023-08-08 18:49:03 公開日:2023-08-05
# スーパーヒート制御のためのSim2Real Transfer of Deep Reinforcement Learning

Surrogate Empowered Sim2Real Transfer of Deep Reinforcement Learning for ORC Superheat Control ( http://arxiv.org/abs/2308.02765v1 )

ライセンス: Link先を確認
Runze Lin, Yangyang Luo, Xialai Wu, Junghui Chen, Biao Huang, Lei Xie, Hongye Su(参考訳) 有機ランキンサイクル (orc) は, 簡易な構造とメンテナンスの容易さから, 産業廃棄物の熱回収に広く用いられている。 しかし、プロセス産業におけるスマート製造の文脈では、従来のモデルに基づく最適化制御手法は、ORCシステムの様々な動作条件や突然の動作モードの変更に適応できない。 深層強化学習(drl)は、制御されたプラントの明示的なモデルを必要としない環境と相互作用することで直接制御目標を達成するため、不確実性のある状況において大きな利点がある。 しかし、DRLの物理的ORCシステムへの直接適用は受け入れ難い安全リスクを示し、モデルプラントミスマッチによる一般化性能は、ORC制御要求をサポートするには不十分である。 そこで本稿では,省エネシステム最適化制御のための新しい簡易で実現可能でユーザフレンドリーなソリューションを提供することを目的とした,orc過熱制御のためのsim2実数転送学習に基づくdrl制御手法を提案する。 実験の結果,提案手法は,ORC制御問題におけるDRLのトレーニング速度を大幅に改善し,Sim2Real転送による複数の操作条件下でのエージェントの一般化性能問題を解くことがわかった。

The Organic Rankine Cycle (ORC) is widely used in industrial waste heat recovery due to its simple structure and easy maintenance. However, in the context of smart manufacturing in the process industry, traditional model-based optimization control methods are unable to adapt to the varying operating conditions of the ORC system or sudden changes in operating modes. Deep reinforcement learning (DRL) has significant advantages in situations with uncertainty as it directly achieves control objectives by interacting with the environment without requiring an explicit model of the controlled plant. Nevertheless, direct application of DRL to physical ORC systems presents unacceptable safety risks, and its generalization performance under model-plant mismatch is insufficient to support ORC control requirements. Therefore, this paper proposes a Sim2Real transfer learning-based DRL control method for ORC superheat control, which aims to provide a new simple, feasible, and user-friendly solution for energy system optimization control. Experimental results show that the proposed method greatly improves the training speed of DRL in ORC control problems and solves the generalization performance issue of the agent under multiple operating conditions through Sim2Real transfer.
翻訳日:2023-08-08 18:48:39 公開日:2023-08-05
# Dataopsy: Aggregate Query Sculptingを用いたスケーラブルで流動的なビジュアル探索

Dataopsy: Scalable and Fluid Visual Exploration using Aggregate Query Sculpting ( http://arxiv.org/abs/2308.02764v1 )

ライセンス: Link先を確認
Md Naimul Hoque and Niklas Elmqvist(参考訳) 本稿では,大規模多次元データに対する顔付きビジュアルクエリ技術であるアグリゲートクエリー彫刻(AQS)を提案する。 スケーラブルな"クエリテクニックとして、AQSは、データセット全体のアグリゲーションを表す単一の視覚的マークで視覚化を開始する。 次に、p6: pivot(属性に基づくアグリゲートを参照)、パーティション(スペース内にアグリゲートを配置する)、peek(アグリゲートビジュアル表現を使用したサブセット内を参照)、pill(2つ以上のサブセットをマージする)、project(新しい基板へのサブセットの抽出)、prune(現在関心がないアグリゲートを破棄する)という一連の操作を通じてデータセットを段階的に探索することができる。 デスクトップおよびタッチベースのモバイルデバイス上での流動的なインタラクション用に設計された,aqsのプロトタイプ実装であるdataopsyを用いてaqsを検証する。 2つのケーススタディと3つのアプリケーション例を用いてaqsとdataopsyを実演する。

We present aggregate query sculpting (AQS), a faceted visual query technique for large-scale multidimensional data. As a "born scalable" query technique, AQS starts visualization with a single visual mark representing an aggregation of the entire dataset. The user can then progressively explore the dataset through a sequence of operations abbreviated as P6: pivot (facet an aggregate based on an attribute), partition (lay out a facet in space), peek (see inside a subset using an aggregate visual representation), pile (merge two or more subsets), project (extracting a subset into a new substrate), and prune (discard an aggregate not currently of interest). We validate AQS with Dataopsy, a prototype implementation of AQS that has been designed for fluid interaction on desktop and touch-based mobile devices. We demonstrate AQS and Dataopsy using two case studies and three application examples.
翻訳日:2023-08-08 18:48:20 公開日:2023-08-05
# 分類ニューラルネットワークの中間隠れ層における神経崩壊

Neural Collapse in the Intermediate Hidden Layers of Classification Neural Networks ( http://arxiv.org/abs/2308.02760v1 )

ライセンス: Link先を確認
Liam Parker, Emre Onal, Anton Stengel, Jake Intrater(参考訳) Neural Collapse (NC)は、分類ニューラルネットワークの最後の隠蔽層におけるクラスの表現を正確に記述する。 この説明は、これらのネットワークが機能をどのように学習し、ゼロトレーニングエラーを克服したトレーニング時にうまく一般化するかについての洞察を提供する。 しかし、今日まで(nc)はこれらのネットワークの最終層でしか研究されていない。 本稿では,これらの分類器の中間隠れ層に(nc)が出現する初めての包括的経験的解析を行う。 我々は,様々なネットワークアーキテクチャ,アクティベーション,データセットを調べ,任意のレイヤの崩壊度がニューラルネットワークのレイヤの深さと正の相関関係にあるような,ネットワークの中間隠れ層の大部分である程度 (nc) が出現することを示す。 さらに,(1) 標本中のクラス内分散の減少は,ネットワークの浅い層で起こる,(2) クラス間の角度分離は,隠れ層深度と一貫して増加し,(3) 単純なデータセットはネットワークの浅い層にのみ必要であり,一方,より難しいものはネットワーク全体を必要とする,といったことを指摘した。 最終的に、これらの結果は分類ニューラルネットワークによる特徴の構造的伝播に関する詳細な洞察を与える。

Neural Collapse (NC) gives a precise description of the representations of classes in the final hidden layer of classification neural networks. This description provides insights into how these networks learn features and generalize well when trained past zero training error. However, to date, (NC) has only been studied in the final layer of these networks. In the present paper, we provide the first comprehensive empirical analysis of the emergence of (NC) in the intermediate hidden layers of these classifiers. We examine a variety of network architectures, activations, and datasets, and demonstrate that some degree of (NC) emerges in most of the intermediate hidden layers of the network, where the degree of collapse in any given layer is typically positively correlated with the depth of that layer in the neural network. Moreover, we remark that: (1) almost all of the reduction in intra-class variance in the samples occurs in the shallower layers of the networks, (2) the angular separation between class means increases consistently with hidden layer depth, and (3) simple datasets require only the shallower layers of the networks to fully learn them, whereas more difficult ones require the entire network. Ultimately, these results provide granular insights into the structural propagation of features through classification neural networks.
翻訳日:2023-08-08 18:47:59 公開日:2023-08-05
# デュアルカラー空間における深部画像調和

Deep Image Harmonization in Dual Color Spaces ( http://arxiv.org/abs/2308.02813v1 )

ライセンス: Link先を確認
Linfeng Tan, Jiangtong Li, Li Niu and Liqing Zhang(参考訳) イメージ調和は、前景と背景の矛盾に対処するために、複合前景の外観を調整する画像合成において不可欠なステップである。 既存の手法は主に相関した$RGB$色空間で動作し、絡み合った特徴と限られた表現能力をもたらす。 対照的に、デコレーション色空間(例えば$lab$)は、ディコレーション色と照明の統計を提供するデコレーションチャネルを持つ。 本稿では、両色空間における画像調和について検討し、アンタングル付き$RGB$とアンタングル付き$L$,$a$,$b$の機能を補足することで、ハーモナイズプロセスにおける作業負荷を軽減する。 このネットワークは、$rgb$調和バックボーン、$lab$エンコーディングモジュール、$lab$コントロールモジュールで構成されている。 バックボーンは複合画像を調和画像に変換するU-Netネットワークである。 $Lab$エンコーディングモジュールの3つのエンコーダは、$L$, $a$, $b$チャネルから独立して3つのコントロールコードを抽出する。 私たちのコードとモデルは、 \href{https://github.com/bcmi/DucoNet-Image-Harmonization}{https://github.com/bcmi/DucoNet-Image-Harmonization}で利用可能です。

Image harmonization is an essential step in image composition that adjusts the appearance of composite foreground to address the inconsistency between foreground and background. Existing methods primarily operate in correlated $RGB$ color space, leading to entangled features and limited representation ability. In contrast, decorrelated color space (e.g., $Lab$) has decorrelated channels that provide disentangled color and illumination statistics. In this paper, we explore image harmonization in dual color spaces, which supplements entangled $RGB$ features with disentangled $L$, $a$, $b$ features to alleviate the workload in harmonization process. The network comprises a $RGB$ harmonization backbone, an $Lab$ encoding module, and an $Lab$ control module. The backbone is a U-Net network translating composite image to harmonized image. Three encoders in $Lab$ encoding module extract three control codes independently from $L$, $a$, $b$ channels, which are used to manipulate the decoder features in harmonization backbone via $Lab$ control module. Our code and model are available at \href{https://github.com/bcmi/DucoNet-Image-Harmonization}{https://github.com/bcmi/DucoNet-Image-Harmonization}.
翻訳日:2023-08-08 18:40:16 公開日:2023-08-05
# 分子通信のための人工知能

Artificial Intelligence for Molecular Communication ( http://arxiv.org/abs/2308.02812v1 )

ライセンス: Link先を確認
Max Bartunik, Jens Kirchner, Oliver Keszocze(参考訳) 分子通信は、特に電気信号が避けられる状況において、小型デバイス間でのデータ伝送のための新しいアプローチである。 通信は、ナノスケールの分子(または他の粒子)をチャネルを介して送信することに基づいている。 分子通信デバイスは、サイズ、温度、放射線の制約により適用できないアンテナベースの伝送システムに代わる手段を提供するため、医療応用において大きな可能性を持っている。 通信はデジタル信号を分子の濃度に変換することによって実現される。 これらの分子は通信チャネルの反対側で検出され、デジタル信号に変換される。 送信チャネルの正確なモデリングは、通信チャネルのデータ不足や時間変化パラメータ(例えば、医療機器を装着している人の動き)による可能性があるため、多くの場合不可能である。 これにより信号の復調が非常に困難になる。 復調のための多くのアプローチは、人工ニューラルネットワークという大きな成功を収めた特定のアプローチで議論されてきた。 これらのネットワークは人間の脳における決定過程を模倣し、ノイズの多い入力データを確実に分類することができる。 このようなネットワークのトレーニングは、大量のトレーニングデータに依存する。 技術としての分子通信は、まだ開発の初期段階にあるため、このデータは必ずしも容易に利用できない。 本稿では,理論チャネルモデルに基づく合成データに基づくニューラルネットワークを用いた復調手法と,プロトタイプテストベッドによる実測値を用いた手法について検討する。 本稿では,フィールド分子間通信の概要について概説し,伝送信号の復調過程における課題と,人工ニューラルネットワークに基づくこれらの課題へのアプローチについて述べる。

Molecular communication is a novel approach for data transmission between miniaturized devices, especially in contexts where electrical signals are to be avoided. The communication is based on sending molecules (or other particles) at nano scale through channel instead sending electrons over a wire. Molecular communication devices have a large potential in medical applications as they offer an alternative to antenna-based transmission systems that may not be applicable due to size, temperature, or radiation constraints. The communication is achieved by transforming a digital signal into concentrations of molecules. These molecules are then detected at the other end of the communication channel and transformed back into a digital signal. Accurately modeling the transmission channel is often not possible which may be due to a lack of data or time-varying parameters of the channel (e. g., the movements of a person wearing a medical device). This makes demodulation of the signal very difficult. Many approaches for demodulation have been discussed with one particular approach having tremendous success: artificial neural networks. These networks imitate the decision process in the human brain and are capable of reliably classifying noisy input data. Training such a network relies on a large set of training data. As molecular communication as a technology is still in its early development phase, this data is not always readily available. We discuss neural network-based demodulation approaches relying on synthetic data based on theoretical channel models as well as works using actual measurements produced by a prototype test bed. In this work, we give a general overview over the field molecular communication, discuss the challenges in the demodulations process of transmitted signals, and present approaches to these challenges that are based on artificial neural networks.
翻訳日:2023-08-08 18:39:52 公開日:2023-08-05
# 時空間山火事発生時のサロゲート生成モデル

A generative model for surrogates of spatial-temporal wildfire nowcasting ( http://arxiv.org/abs/2308.02810v1 )

ライセンス: Link先を確認
Sibo Cheng and Yike Guo and Rossella Arcucci(参考訳) 世界中の山火事の増加は、リアルタイムの火の流し込みの必要性を招いた。 セルオートマトンや計算流体力学などの物理モデルは高忠実度火の拡散シミュレーションを提供するが、計算コストは高く、時間がかかる。 火災予報のための機械学習モデルの開発に多くの努力が注がれている。 しかし、これらのモデルはしばしば地域固有のもので、訓練のためにかなりの量のシミュレーションデータを必要とする。 この結果、異なるエコリージョンに対する膨大な計算努力がもたらされる。 本研究では,3次元ベクトル量子化変分オートエンコーダを用いて,あるエコリージョンの山火事発生地域を時空間的に生成する生成モデルを提案する。 このモデルは、最近カリフォルニア州で起きた大規模な山火事(チムニー火災)のエコリージョンでテストされている。 数値計算の結果,植生や斜面などの物理変数の影響を考慮し,コヒーレントかつ構造的な火災シナリオの生成に成功した。 生成されたデータは、シミュレーションデータと実際の煙突火災イベントの両方でテストされたワイルドファイアの拡散を予測するためのサロゲートモデルのトレーニングにも使用される。

Recent increase in wildfires worldwide has led to the need for real-time fire nowcasting. Physics-driven models, such as cellular automata and computational fluid dynamics can provide high-fidelity fire spread simulations but they are computationally expensive and time-consuming. Much effort has been put into developing machine learning models for fire prediction. However, these models are often region-specific and require a substantial quantity of simulation data for training purpose. This results in a significant amount of computational effort for different ecoregions. In this work, a generative model is proposed using a three-dimensional Vector-Quantized Variational Autoencoders to generate spatial-temporal sequences of unseen wildfire burned areas in a given ecoregion. The model is tested in the ecoregion of a recent massive wildfire event in California, known as the Chimney fire. Numerical results show that the model succeed in generating coherent and structured fire scenarios, taking into account the impact from geophysical variables, such as vegetation and slope. Generated data are also used to train a surrogate model for predicting wildfire dissemination, which has been tested on both simulation data and the real Chimney fire event.
翻訳日:2023-08-08 18:39:29 公開日:2023-08-05
# miamix: multi-stage augmented mixed sample data augmentation 法による画像分類の強化

MiAMix: Enhancing Image Classification through a Multi-stage Augmented Mixied Sample Data Augmentation Method ( http://arxiv.org/abs/2308.02804v1 )

ライセンス: Link先を確認
Wen Liang, Youzhi Liang, Jianguo Jia(参考訳) ディープラーニングの分野ではかなり進歩しているにもかかわらず、オーバーフィッティングは重要な課題であり、様々なコンピュータビジョンタスクにおけるモデル一般化を強化する能力のため、データ拡張は特に有望なアプローチとして現れている。 様々な戦略が提案されているが、Mixed Sample Data Augmentation (MSDA) はモデルの性能向上と一般化に大きな可能性を示している。 マルチステージAugmented Mixupの略であるMiAMixという新しいミックスアップ手法を提案する。 MiAMixは、画像強化をミックスアップフレームワークに統合し、複数の多様化混合法を同時に利用し、ミキシングマスク増強法をランダムに選択して混合方法を改善する。 最近の手法では給与情報を利用し、miamixは計算効率も考慮し、追加のオーバーヘッドを削減し、既存のトレーニングパイプラインと簡単に統合できるように設計されている。 筆者らは4つの画像ベンチマークを用いてMiaMixを総合的に評価し、現在最先端の混合サンプルデータ拡張技術と比較し、MIAMixが計算オーバーヘッドを伴わずに性能を向上することを示す。

Despite substantial progress in the field of deep learning, overfitting persists as a critical challenge, and data augmentation has emerged as a particularly promising approach due to its capacity to enhance model generalization in various computer vision tasks. While various strategies have been proposed, Mixed Sample Data Augmentation (MSDA) has shown great potential for enhancing model performance and generalization. We introduce a novel mixup method called MiAMix, which stands for Multi-stage Augmented Mixup. MiAMix integrates image augmentation into the mixup framework, utilizes multiple diversified mixing methods concurrently, and improves the mixing method by randomly selecting mixing mask augmentation methods. Recent methods utilize saliency information and the MiAMix is designed for computational efficiency as well, reducing additional overhead and offering easy integration into existing training pipelines. We comprehensively evaluate MiaMix using four image benchmarks and pitting it against current state-of-the-art mixed sample data augmentation techniques to demonstrate that MIAMix improves performance without heavy computational overhead.
翻訳日:2023-08-08 18:39:10 公開日:2023-08-05
# テンソル正規化群を持つ(1+1)次元o(3)非線形シグマモデルの絡み合いとr\'enyiエントロピー

Entanglement and R\'enyi entropies of (1+1)-dimensional O(3) nonlinear sigma model with tensor renormalization group ( http://arxiv.org/abs/2308.02798v1 )

ライセンス: Link先を確認
Xiao Luo, Yoshinobu Kuramashi(参考訳) 1+1)次元o(3)非線形シグマモデルのエンタングルメントとr\'enyiエントロピーをテンソル正規化群法を用いて検討した。 中心電荷は両エントロピーの漸近スケーリング特性から決定される。 また、エンタングルメントエントロピーと$n\rightarrow 1$の次 R'eny エントロピーとの整合性についても検討する。

We investigate the entanglement and R\'enyi entropies for the (1+1)-dimensional O(3) nonlinear sigma model using the tensor renormalization group method. The central charge is determined from the asymptotic scaling properties of both entropies. We also examine the consistency between the entanglement entropy and the $n$th-order R\'enyi entropy with $n\rightarrow 1$.
翻訳日:2023-08-08 18:38:51 公開日:2023-08-05
# 薄型オンセンサ型ナノフォトニックアレイカメラ

Thin On-Sensor Nanophotonic Array Cameras ( http://arxiv.org/abs/2308.02797v1 )

ライセンス: Link先を確認
Praneeth Chakravarthula, Jipeng Sun, Xiao Li, Chenyang Lei, Gene Chou, Mario Bijelic, Johannes Froesch, Arka Majumdar, Felix Heide(参考訳) 今日のコモディティカメラシステムは、シーンから発する光をイメージとして記録されるセンサーの位置にマッピングするために複合光学に依存している。 光学的収差、すなわちガウスの線形光学モデルからの逸脱を伴わずに画像を記録するために、典型的なレンズシステムは、既存のコモディティカメラの高さに責任を持つ光学素子のスタックをますます複雑化する。 本研究では,歪んだレンズレットの配列と学習した再構成アプローチを用いた代替として, \emph{flat nanophotonic computational cameras} について検討する。 光アレイは、700〜nmの高さで平らで、センサーから2.5〜mmの距離のセンサーカバーガラスの上に埋め込まれている。 準曲面の高色応答に取り組み、センサ全体のアレイを設計するために、可視光スペクトルを連続的にサンプリングし、異なる入射場に対する光学変調を個々のレンズに分解する微分可能最適化法を提案する。 我々は,生成拡散モデルを用いて暗黙の先行標本をサンプリングする \emph{learned probabilistic reconstruction} 法を用いて,平面画像からメガピクセル画像を再構成する。 ブロードバンドにおける 'emph{scene-dependent aberrations' に取り組み, 異なる照明条件下でのペア捕獲訓練データを取得する方法を提案する。 提案するフラットカメラの設計をシミュレーションおよび実験プロトタイプを用いて評価し,単一ナノフォトニック層で広帯域の多様なシーンから画像を復元できることを確認した。

Today's commodity camera systems rely on compound optics to map light originating from the scene to positions on the sensor where it gets recorded as an image. To record images without optical aberrations, i.e., deviations from Gauss' linear model of optics, typical lens systems introduce increasingly complex stacks of optical elements which are responsible for the height of existing commodity cameras. In this work, we investigate \emph{flat nanophotonic computational cameras} as an alternative that employs an array of skewed lenslets and a learned reconstruction approach. The optical array is embedded on a metasurface that, at 700~nm height, is flat and sits on the sensor cover glass at 2.5~mm focal distance from the sensor. To tackle the highly chromatic response of a metasurface and design the array over the entire sensor, we propose a differentiable optimization method that continuously samples over the visible spectrum and factorizes the optical modulation for different incident fields into individual lenses. We reconstruct a megapixel image from our flat imager with a \emph{learned probabilistic reconstruction} method that employs a generative diffusion model to sample an implicit prior. To tackle \emph{scene-dependent aberrations in broadband}, we propose a method for acquiring paired captured training data in varying illumination conditions. We assess the proposed flat camera design in simulation and with an experimental prototype, validating that the method is capable of recovering images from diverse scenes in broadband with a single nanophotonic layer.
翻訳日:2023-08-08 18:38:41 公開日:2023-08-05
# OBESEYE: 機械学習と説明可能なAIを用いた肥満管理のための解釈可能なダイエットレコメンダ

OBESEYE: Interpretable Diet Recommender for Obesity Management using Machine Learning and Explainable AI ( http://arxiv.org/abs/2308.02796v1 )

ライセンス: Link先を確認
Mrinmoy Roy, Srabonti Das, Anica Tasnim Protity(参考訳) 多くの非感染性疾患の主要な原因である肥満は、主に身体の要求以上の摂食と適切な活動の欠如のために起こる。 したがって、健康であるためには、特に共生の患者にとって、温かい食事計画が必要となる。 しかし、栄養素の要求は物理的および疾患の状態によって異なるため、栄養素の正確な量の把握は困難である。 本研究では,個人が健康に必要な栄養素量を予測するための,機械学習に基づく新しいシステムを提案する。 我々は, 線形回帰, サポートベクターマシン (SVM), 決定木, ランダムフォレスト, XGBoost, LightGBM, その他の3種類の微量栄養素, 炭水化物, タンパク質, 脂肪消費予測などの機械学習アルゴリズムを適用した。 流体予測における線形回帰,炭水化物予測におけるランダムフォレスト,タンパク質および脂肪予測におけるLightGBMを用いて,低根平均二乗誤差(RMSE)を高い精度で達成した。 我々は,我々のダイエットレコメンデーターシステムであるOBESEYEが,コンコビデンスや体調を考慮してダイエットを推奨し,肥満の解消を促進する唯一の方法であると考えている。

Obesity, the leading cause of many non-communicable diseases, occurs mainly for eating more than our body requirements and lack of proper activity. So, being healthy requires heathy diet plans, especially for patients with comorbidities. But it is difficult to figure out the exact quantity of each nutrient because nutrients requirement varies based on physical and disease conditions. In our study we proposed a novel machine learning based system to predict the amount of nutrients one individual requires for being healthy. We applied different machine learning algorithms: linear regression, support vector machine (SVM), decision tree, random forest, XGBoost, LightGBM on fluid and 3 other major micronutrients: carbohydrate, protein, fat consumption prediction. We achieved high accuracy with low root mean square error (RMSE) by using linear regression in fluid prediction, random forest in carbohydrate prediction and LightGBM in protein and fat prediction. We believe our diet recommender system, OBESEYE, is the only of its kind which recommends diet with the consideration of comorbidities and physical conditions and promote encouragement to get rid of obesity.
翻訳日:2023-08-08 18:38:14 公開日:2023-08-05
# 展開に優しい超高解像度トランスフォーマーユニット「unfolding once」

Unfolding Once is Enough: A Deployment-Friendly Transformer Unit for Super-Resolution ( http://arxiv.org/abs/2308.02794v1 )

ライセンス: Link先を確認
Yong Liu, Hang Dong, Boyang Liang, Songwei Liu, Qingji Dong, Kai Chen, Fangmin Chen, Lean Fu, and Fei Wang(参考訳) 近年、シングルイメージ・スーパーレゾリューション(sisr)用の視覚トランスフォーマーがいくつか試みられている。 SISRモデルの中間特性の高解像度化はメモリと計算要求を増大させるため、効率的なSISRトランスが好まれる。 一般的なトランスフォーマーバックボーンに基づいて、多くの手法が、印象的なパフォーマンスを実現しつつ、自己着脱モジュールの計算複雑性を減らすための合理的なスキームを探求している。 しかしながら、これらの手法はトレーニングプラットフォーム(pytorch/tensorflowなど)のパフォーマンスにのみ焦点を合わせ、デプロイプラットフォーム(tensorrtなど)のさらなる最適化を行わない。 したがって、それらは必然的に冗長なオペレータを含み、実際のアプリケーションへのその後のデプロイの課題となる。 本稿では,これらの問題を緩和するために,UFONE(UnFolding ONce is Enough)という,デプロイメントフレンドリーなトランスフォーマーユニットを提案する。 各UFONEでは,パッチから局所構造情報を効率的に再構築する内パッチトランスフォーマ層 (ITL) と,パッチ間の長距離依存関係を利用する空間認識層 (SAL) を導入する。 UFONEに基づいて、SISRタスクのためのデプロイメントフレンドリーな内部パッチ変換ネットワーク(DITN)を提案する。 さらに,提案するtensorrt上のditnの展開効率をさらに高めるため,層正規化の効率的な代替を提供し,特定の演算子に対する核融合最適化戦略を提案する。 広範な実験により,我々のモデルは,高いデプロイ効率で質的かつ定量的な性能で,競争力のある結果が得られることが示された。 コードは \url{https://github.com/yongliuy/DITN} で入手できる。

Recent years have witnessed a few attempts of vision transformers for single image super-resolution (SISR). Since the high resolution of intermediate features in SISR models increases memory and computational requirements, efficient SISR transformers are more favored. Based on some popular transformer backbone, many methods have explored reasonable schemes to reduce the computational complexity of the self-attention module while achieving impressive performance. However, these methods only focus on the performance on the training platform (e.g., Pytorch/Tensorflow) without further optimization for the deployment platform (e.g., TensorRT). Therefore, they inevitably contain some redundant operators, posing challenges for subsequent deployment in real-world applications. In this paper, we propose a deployment-friendly transformer unit, namely UFONE (i.e., UnFolding ONce is Enough), to alleviate these problems. In each UFONE, we introduce an Inner-patch Transformer Layer (ITL) to efficiently reconstruct the local structural information from patches and a Spatial-Aware Layer (SAL) to exploit the long-range dependencies between patches. Based on UFONE, we propose a Deployment-friendly Inner-patch Transformer Network (DITN) for the SISR task, which can achieve favorable performance with low latency and memory usage on both training and deployment platforms. Furthermore, to further boost the deployment efficiency of the proposed DITN on TensorRT, we also provide an efficient substitution for layer normalization and propose a fusion optimization strategy for specific operators. Extensive experiments show that our models can achieve competitive results in terms of qualitative and quantitative performance with high deployment efficiency. Code is available at \url{https://github.com/yongliuy/DITN}.
翻訳日:2023-08-08 18:37:51 公開日:2023-08-05
# 不均質な時間MMMAグラフによるフラッド検出のクラウドソーシング

Crowdsourcing Fraud Detection over Heterogeneous Temporal MMMA Graph ( http://arxiv.org/abs/2308.02793v1 )

ライセンス: Link先を確認
Zequan Xu, Qihang Sun, Shaofeng Hu, Jieming Shi, Hui Li(参考訳) 多目的メッセージングモバイルアプリ(MMMA)を用いたクリックファームビジネスの興隆は、サイバー犯罪者を誘惑し、クラウドソーシング詐欺を犯し、農業労働者をクリックさせる経済的損失を引き起こす。 本稿では,MMMAのヘテロジニアス時間グラフ(HTG)上での不正検出をクラウドソーシングするための,CMTという新しいコントラスト型マルチビュー学習手法を提案する。 cmtはhtgの多様性とダイナミクスの両方を捉え、クラウドソーシングによる不正検出のための高品質な表現を生成する。 我々は,代表的MMMA WeChatの業界規模のHTG上で,クラウドソーシング詐欺を検出するためにCMTをデプロイし,他の手法よりも優れています。 CMTはまた、大規模な公的金融HTGにおける不正検出の有望な結果を示し、他のグラフ異常検出タスクにも適用可能であることを示す。

The rise of the click farm business using Multi-purpose Messaging Mobile Apps (MMMAs) tempts cybercriminals to perpetrate crowdsourcing frauds that cause financial losses to click farm workers. In this paper, we propose a novel contrastive multi-view learning method named CMT for crowdsourcing fraud detection over the heterogeneous temporal graph (HTG) of MMMA. CMT captures both heterogeneity and dynamics of HTG and generates high-quality representations for crowdsourcing fraud detection in a self-supervised manner. We deploy CMT to detect crowdsourcing frauds on an industry-size HTG of a representative MMMA WeChat and it significantly outperforms other methods. CMT also shows promising results for fraud detection on a large-scale public financial HTG, indicating that it can be applied in other graph anomaly detection tasks.
翻訳日:2023-08-08 18:37:21 公開日:2023-08-05
# pseudo-labeling と knowledge distillation によるクラスインクリメンタルセグメンテーション

Few-shot Class-Incremental Semantic Segmentation via Pseudo-Labeling and Knowledge Distillation ( http://arxiv.org/abs/2308.02790v1 )

ライセンス: Link先を確認
Chengjia Jiang, Tao Wang, Sien Li, Jinyang Wang, Shirui Wang, Antonios Antoniou(参考訳) セマンティックセグメンテーションモデルの新しいクラスをいくつかの例から学習する問題に対処するが、これは以下の2つの理由から困難である。 第一に、基礎となるクラス分布を捉えるために限られた新規データから学ぶことは困難である。 第二に、既存のクラスの知識を維持し、破滅的な忘れ物を避けることは困難である。 限られたデータから学ぶためには,新しい授業をより効果的に学ぶために,限定的な訓練アノテーションを強化する擬似ラベル戦略を提案する。 新しいクラスとずっと大きなラベル付き画像のセットでラベル付けされた画像が1つか数つだけある場合、ラベル付き画像からラベル付き画像への知識を2つのステップで粗く細かな擬似ラベル付けアプローチで転送します。 具体的には、シーンレベルに設定されたラベル付き画像において、ラベル付き画像と最寄りの画像とをマッチングし、類似したシーンレイアウトの画像を得る。 続いて、この近所で偽のラベルを入手し、マイナショットアノテーションで学習した分類器を適用する。 さらに,ラベル付きデータとラベルなしデータの両方に知識蒸留を用い,既存のクラスに関する知識を保持する。 上記のステップを、統一的な学習目標を持つ単一の畳み込みニューラルネットワークに統合する。 都市景観とkittiデータセットに関する広範な実験は、自動運転ドメインにおける提案手法の有効性を検証する。 コードはhttps://github.com/ChasonJiang/FSCILSSから入手できる。

We address the problem of learning new classes for semantic segmentation models from few examples, which is challenging because of the following two reasons. Firstly, it is difficult to learn from limited novel data to capture the underlying class distribution. Secondly, it is challenging to retain knowledge for existing classes and to avoid catastrophic forgetting. For learning from limited data, we propose a pseudo-labeling strategy to augment the few-shot training annotations in order to learn novel classes more effectively. Given only one or a few images labeled with the novel classes and a much larger set of unlabeled images, we transfer the knowledge from labeled images to unlabeled images with a coarse-to-fine pseudo-labeling approach in two steps. Specifically, we first match each labeled image to its nearest neighbors in the unlabeled image set at the scene level, in order to obtain images with a similar scene layout. This is followed by obtaining pseudo-labels within this neighborhood by applying classifiers learned on the few-shot annotations. In addition, we use knowledge distillation on both labeled and unlabeled data to retain knowledge on existing classes. We integrate the above steps into a single convolutional neural network with a unified learning objective. Extensive experiments on the Cityscapes and KITTI datasets validate the efficacy of the proposed approach in the self-driving domain. Code is available from https://github.com/ChasonJiang/FSCILSS.
翻訳日:2023-08-08 18:37:06 公開日:2023-08-05
# feather -- モデルを共有およびデプロイするためのPython SDK

feather -- a Python SDK to share and deploy models ( http://arxiv.org/abs/2308.02838v1 )

ライセンス: Link先を確認
Nihir Vedd and Paul Riga(参考訳) 中心となるのは、モデル開発者が20行未満のコードでモデル用の共有可能なユーザーインターフェイスを構築できるツールだった。 Python SDKを使用して、開発者はユーザーが対話するビジュアルコンポーネントを指定する。 (例えば、ユーザがファイルをアップロードできるfileuploadコンポーネント)。 私達のサービスは 1) 他者がユーザインターフェースを介してモデルにアクセスし,視覚的に使用することができるURL 2) モデルへのプログラム的なリクエストを可能にするAPIエンドポイント。 本稿では,フェザーのモチベーションと,AI研究者や開発者に提供することを目的とした価値について論じる。 例えば、sdkはマルチステップモデルをサポートし、ホールドアウトデータセットに対して自動評価を実行するように拡張できる。 さらに、包括的な技術と実装の詳細も提供します。 N.B.羽根は現在休眠プロジェクトである。 私たちは研究目的でコードをオープンソース化しました。

At its core, feather was a tool that allowed model developers to build shareable user interfaces for their models in under 20 lines of code. Using the Python SDK, developers specified visual components that users would interact with. (e.g. a FileUpload component to allow users to upload a file). Our service then provided 1) a URL that allowed others to access and use the model visually via a user interface; 2) an API endpoint to allow programmatic requests to a model. In this paper, we discuss feather's motivations and the value we intended to offer AI researchers and developers. For example, the SDK can support multi-step models and can be extended to run automatic evaluation against held out datasets. We additionally provide comprehensive technical and implementation details. N.B. feather is presently a dormant project. We have open sourced our code for research purposes: https://github.com/feather-ai/
翻訳日:2023-08-08 18:32:02 公開日:2023-08-05
# 量子機械学習におけるオープン量子システムの利点

Benefits of Open Quantum Systems for Quantum Machine Learning ( http://arxiv.org/abs/2308.02837v1 )

ライセンス: Link先を確認
Mar\'ia Laura Olivera-Atencio, Lucas Lamata, and Jes\'us Casado-Pascual(参考訳) 量子機械学習は、データ処理と問題解決の革命を約束する分野である。 しかし, 環境との結合によって生じる消散やノイズは, 量子デバイスのコヒーレンスや性能に影響を及ぼすため, その実用的利用への大きな障害として一般的に認識されている。 これらのデバイスに対する悪影響を緩和し制御するために、多大な努力がなされている。 この視点は異なるアプローチを採り、ノイズや散逸の可能性を、それらと戦うのではなく活用することを目指している。 驚くべきことに、これらの一見有害な要因は、特定の状況下で量子機械学習アルゴリズムの運用において実質的な利点をもたらすことが示されている。 量子機械学習アルゴリズムをオープン量子システムに適用することの意義を探求し、理解することは、ノイズと散逸を効果的に活用する戦略を開発するための道を開く。 この視点で分析された最近の研究は、散逸とノイズが提供する可能性のある他の隠れた利益を明らかにするための最初のステップにすぎない。 この分野の研究が進むにつれて、量子コンピューティングの未来を形作る重要な発見が期待されている。

Quantum machine learning is a discipline that holds the promise of revolutionizing data processing and problem-solving. However, dissipation and noise arising from the coupling with the environment are commonly perceived as major obstacles to its practical exploitation, as they impact the coherence and performance of the utilized quantum devices. Significant efforts have been dedicated to mitigate and control their negative effects on these devices. This Perspective takes a different approach, aiming to harness the potential of noise and dissipation instead of combatting them. Surprisingly, it is shown that these seemingly detrimental factors can provide substantial advantages in the operation of quantum machine learning algorithms under certain circumstances. Exploring and understanding the implications of adapting quantum machine learning algorithms to open quantum systems opens up pathways for devising strategies that effectively leverage noise and dissipation. The recent works analyzed in this Perspective represent only initial steps towards uncovering other potential hidden benefits that dissipation and noise may offer. As exploration in this field continues, significant discoveries are anticipated that could reshape the future of quantum computing.
翻訳日:2023-08-08 18:31:52 公開日:2023-08-05
# スケール不変ニューラルネットワークを用いた正等質関数近似

Approximating Positive Homogeneous Functions with Scale Invariant Neural Networks ( http://arxiv.org/abs/2308.02836v1 )

ライセンス: Link先を確認
Stefan Bamberger, Reinhard Heckel, Felix Krahmer(参考訳) 我々は,$relu$ネットワークを用いて線形逆問題をどの程度解くことができるか検討する。 線形性から生じるスケーリング不変性のため、そのような問題に対する最適再構成関数 $f$ は正の同次、すなわち全ての非負の$\lambda$に対して $f(\lambda x) = \lambda f(x)$ を満たす。 relu$ネットワークでは、この条件はバイアス項のないネットワークを考えることを指す。 まず,少ない線形測定値からスパースベクトルの回復を検討する。 隠れた層が1つしかない$relu$-ネットワークは、ネットワークの幅に関係なく、ほぼ同じでも、$$$sparseベクターを回収することができないことを証明します。 しかし、2つの隠蔽層では、任意の精度と任意の空間レベル$s$の近似回復が安定な方法で可能である。 この結果から,低ランク行列回復や位相回復を含む,より広範な回復問題に拡張する。 さらに,ニューラルネットワークを用いた一般正等質関数の近似についても考察する。 従来の研究を拡張して,このような条件をニューラルネットワークで近似できる新たな結果を導出する。 我々の結果は、逆問題に対するニューラルネットワークが通常非常に大きなリプシッツ定数を持つが、相反するノイズに対しても非常によく機能することを示す以前の作品との矛盾のように見える点にも光を当てた。 すなわち、表現率の誤差境界には、小さな定数項と雑音レベルで線形な項の組み合わせが含まれており、非常に小さな雑音レベルに対してのみ頑健性が生じる可能性があることを示している。

We investigate to what extent it is possible to solve linear inverse problems with $ReLu$ networks. Due to the scaling invariance arising from the linearity, an optimal reconstruction function $f$ for such a problem is positive homogeneous, i.e., satisfies $f(\lambda x) = \lambda f(x)$ for all non-negative $\lambda$. In a $ReLu$ network, this condition translates to considering networks without bias terms. We first consider recovery of sparse vectors from few linear measurements. We prove that $ReLu$- networks with only one hidden layer cannot even recover $1$-sparse vectors, not even approximately, and regardless of the width of the network. However, with two hidden layers, approximate recovery with arbitrary precision and arbitrary sparsity level $s$ is possible in a stable way. We then extend our results to a wider class of recovery problems including low-rank matrix recovery and phase retrieval. Furthermore, we also consider the approximation of general positive homogeneous functions with neural networks. Extending previous work, we establish new results explaining under which conditions such functions can be approximated with neural networks. Our results also shed some light on the seeming contradiction between previous works showing that neural networks for inverse problems typically have very large Lipschitz constants, but still perform very well also for adversarial noise. Namely, the error bounds in our expressivity results include a combination of a small constant term and a term that is linear in the noise level, indicating that robustness issues may occur only for very small noise levels.
翻訳日:2023-08-08 18:31:32 公開日:2023-08-05
# 物理相互作用の因果配列による物理ベースタスク生成

Physics-Based Task Generation Through Causal Sequence of Physical Interactions ( http://arxiv.org/abs/2308.02835v1 )

ライセンス: Link先を確認
Chathura Gamage, Vimukthini Pinto, Matthew Stephenson, Jochen Renz(参考訳) 物理的な環境でタスクを実行することは、現実世界で動作するAIシステムにとって決定的に難しい問題である。 物理シミュレーションに基づくタスクは、この課題に対処する研究を促進するためにしばしば用いられる。 本稿ではまず,物体間の物理的相互作用の因果関係を用いて物理シナリオを定義するための体系的なアプローチを提案する。 そこで,これらのシナリオを入力として,物理シミュレーション環境でタスクを生成する手法を提案する。 本手法は、物理系タスクの解法に必要な粒度力学をよりよく理解し、aiシステムの物理的推論能力の正確な評価を容易にする。 本研究では,物理ベースのパズルゲームangry birdsを用いてタスク生成手法を実証し,物理的安定性,意図した物理的相互作用による可解性,意図しない解を用いた偶発的可解性など,様々な指標を用いて生成タスクを評価する。 提案手法を用いて生成したタスクは,物理推論エージェントの微妙な評価を容易にし,より洗練された実世界のアプリケーションのためのエージェント開発への道を開くことができると考えている。

Performing tasks in a physical environment is a crucial yet challenging problem for AI systems operating in the real world. Physics simulation-based tasks are often employed to facilitate research that addresses this challenge. In this paper, first, we present a systematic approach for defining a physical scenario using a causal sequence of physical interactions between objects. Then, we propose a methodology for generating tasks in a physics-simulating environment using these defined scenarios as inputs. Our approach enables a better understanding of the granular mechanics required for solving physics-based tasks, thereby facilitating accurate evaluation of AI systems' physical reasoning capabilities. We demonstrate our proposed task generation methodology using the physics-based puzzle game Angry Birds and evaluate the generated tasks using a range of metrics, including physical stability, solvability using intended physical interactions, and accidental solvability using unintended solutions. We believe that the tasks generated using our proposed methodology can facilitate a nuanced evaluation of physical reasoning agents, thus paving the way for the development of agents for more sophisticated real-world applications.
翻訳日:2023-08-08 18:31:06 公開日:2023-08-05
# 実世界画像キャプションとシーン識別の包括的分析

A Comprehensive Analysis of Real-World Image Captioning and Scene Identification ( http://arxiv.org/abs/2308.02833v1 )

ライセンス: Link先を確認
Sai Suprabhanu Nallapaneni, Subrahmanyam Konakanchi(参考訳) 画像キャプションは、画像の自然言語記述を生成するコンピュータビジョンタスクである。 この方法は、画像検索システム、医療、および様々な産業を含む様々な分野に多くの応用がある。 しかし、画像キャプションの研究は盛んに行われているが、ほとんどの研究は、実世界の画像キャプションの課題を探求することなく、高品質な画像や制御環境に焦点を当てている。 実世界のイメージキャプションは、多くの注意点を持つ複雑でダイナミックな環境を伴い、品質が極めて低い場合が多いため、人間にとっても難しい課題である。 本稿では,MIT屋内シーンデータセットを用いて構築された65以上のシーンクラスの800以上の画像からなる実世界のデータセットを用いて,様々なエンコーディング機構,言語デコーダ,訓練手順に基づいて構築された各種モデルの性能を評価する。 このデータセットは、画像のユニークな視点から標準画像キャプションモデルによってカバーされる詳細を要約することにより、より記述的なキャプションを生成するic3アプローチを使用してキャプションされる。

Image captioning is a computer vision task that involves generating natural language descriptions for images. This method has numerous applications in various domains, including image retrieval systems, medicine, and various industries. However, while there has been significant research in image captioning, most studies have focused on high quality images or controlled environments, without exploring the challenges of real-world image captioning. Real-world image captioning involves complex and dynamic environments with numerous points of attention, with images which are often very poor in quality, making it a challenging task, even for humans. This paper evaluates the performance of various models that are built on top of different encoding mechanisms, language decoders and training procedures using a newly created real-world dataset that consists of over 800+ images of over 65 different scene classes, built using MIT Indoor scenes dataset. This dataset is captioned using the IC3 approach that generates more descriptive captions by summarizing the details that are covered by standard image captioning models from unique view-points of the image.
翻訳日:2023-08-08 18:30:47 公開日:2023-08-05
# 確率モデルチェックによるマルチエージェント検証と制御

Multi-Agent Verification and Control with Probabilistic Model Checking ( http://arxiv.org/abs/2308.02829v1 )

ライセンス: Link先を確認
David Parker(参考訳) 確率モデル検査(probabilistic model checking)は、不確実性や確率性の文脈で動作するソフトウェアやハードウェアシステムに関する形式的自動推論の手法である。 論理学、オートマトン、グラフ理論から最適化、数値法、制御に至るまで、様々な分野のアイデアと技術に基づいて構築される。 近年、確率論的モデル検査はゲーム理論のアイデアを統合するために拡張されており、特に確率ゲームのようなモデルや平衡のような解の概念を用いて、異なる目的を持つ複数の有理エージェントの相互作用を正式に検証している。 これは、敵対的または協力的な方法で行動するエージェントを柔軟に推論する手段を提供し、人工知能、ロボティクス、自律システムなどの新しい問題に対処する機会を開く。 本稿では,この領域の進歩のいくつかを要約し,それらが既に使われている応用を強調する。 本稿では,確率的モデル検査の強みをマルチエージェント設定に適用するか,あるいは適用可能な可能性について論じ,この分野のさらなる進歩に必要な課題について概説する。

Probabilistic model checking is a technique for formal automated reasoning about software or hardware systems that operate in the context of uncertainty or stochasticity. It builds upon ideas and techniques from a diverse range of fields, from logic, automata and graph theory, to optimisation, numerical methods and control. In recent years, probabilistic model checking has also been extended to integrate ideas from game theory, notably using models such as stochastic games and solution concepts such as equilibria, to formally verify the interaction of multiple rational agents with distinct objectives. This provides a means to reason flexibly about agents acting in either an adversarial or a collaborative fashion, and opens up opportunities to tackle new problems within, for example, artificial intelligence, robotics and autonomous systems. In this paper, we summarise some of the advances in this area, and highlight applications for which they have already been used. We discuss how the strengths of probabilistic model checking apply, or have the potential to apply, to the multi-agent setting and outline some of the key challenges required to make further progress in this field.
翻訳日:2023-08-08 18:30:30 公開日:2023-08-05
# SwinGar: フリースウィングガーメントのためのスペクトル誘起ニューラル動的変形

SwinGar: Spectrum-Inspired Neural Dynamic Deformation for Free-Swinging Garments ( http://arxiv.org/abs/2308.02827v1 )

ライセンス: Link先を確認
Tianxing Li, Rui Shi, Qing Zhu, Takashi Kanai(参考訳) 本研究は,ダイナミックエフェクトとパーソナライズドディテールを備えた衣服の変形を生成するための,スペクトルに基づく新しい学習手法を提案する。 衣料アニメーションの分野における既存の手法は、静的な行動または個々の衣料品の特定のネットワークモデルに限られており、多様な衣料が要求される現実のシナリオにおける適用性を妨げている。 提案手法は,任意のトポロジとゆるみを持つ異なる衣服の動的挙動を予測する統一的なフレームワークを提供することにより,これらの制約を克服する。 まず,低周波に対するバイアス問題は常に教師あり学習を阻害し,過度に滑らかな変形をもたらすことを観察する。 この問題に対処するために、スペクトルの観点から周波数制御戦略を導入し、変形の高周波詳細を生成する。 また,ネットワークを高度に一般化し,様々な衣料変形を効果的に学習できるようにするため,グローバル形状情報の一般化記述を実現するスペクトル記述子を提案する。 以上の戦略に基づき,周波数制御可能なアテンション機構と長期記憶を統合した動的衣服変形推定器を開発した。 推定器は、衣服や人体から入力された表現的特徴を取り入れ、メッシュトポロジーや頂点数によらず、さまざまな衣服の連続的な変形を自動的に出力する。 最後に,衣服の現実性をさらに高めるための神経衝突処理手法を提案する。 実験により, 各種フリースウィング服に対するアプローチの有効性と, 最先端の手法よりも優れていることを示した。

Our work presents a novel spectrum-inspired learning-based approach for generating clothing deformations with dynamic effects and personalized details. Existing methods in the field of clothing animation are limited to either static behavior or specific network models for individual garments, which hinders their applicability in real-world scenarios where diverse animated garments are required. Our proposed method overcomes these limitations by providing a unified framework that predicts dynamic behavior for different garments with arbitrary topology and looseness, resulting in versatile and realistic deformations. First, we observe that the problem of bias towards low frequency always hampers supervised learning and leads to overly smooth deformations. To address this issue, we introduce a frequency-control strategy from a spectral perspective that enhances the generation of high-frequency details of the deformation. In addition, to make the network highly generalizable and able to learn various clothing deformations effectively, we propose a spectral descriptor to achieve a generalized description of the global shape information. Building on the above strategies, we develop a dynamic clothing deformation estimator that integrates frequency-controllable attention mechanisms with long short-term memory. The estimator takes as input expressive features from garments and human bodies, allowing it to automatically output continuous deformations for diverse clothing types, independent of mesh topology or vertex count. Finally, we present a neural collision handling method to further enhance the realism of garments. Our experimental results demonstrate the effectiveness of our approach on a variety of free-swinging garments and its superiority over state-of-the-art methods.
翻訳日:2023-08-08 18:30:13 公開日:2023-08-05
# 幾何学問題を解決するための記号的文字認識モデル

A Symbolic Character-Aware Model for Solving Geometry Problems ( http://arxiv.org/abs/2308.02823v1 )

ライセンス: Link先を確認
Maizhen Ning, Qiu-Feng Wang, Kaizhu Huang, Xiaowei Huang(参考訳) AIは数学の問題解決において大きな進歩を遂げてきたが、テキストとダイアグラムの両方に依存しているため、幾何学の問題はまだ難しい。 テキスト記述では、"$\triangle$ABC" のような記号文字が対応するダイアグラムを接続するブリッジとして機能することが多い。 しかし、記号文字を個々の文字(例えば'A'、'B'、'C')にトークン化することで、既存の著作物はそれらを明示的に研究することができず、図との意味的関係を失う。 本稿では,テキストとダイアグラムの両方において,これらの文字の役割を完全に解明し,マルチモーダル推論フレームワークの下でモデルを最適化する記号的文字認識モデルを開発する。 テキストエンコーダでは、個々のシンボル文字をマージして1つの意味単位を形成するとともに、対応する図からの幾何学的情報も提案する。 ダイアグラムエンコーダでは、シンボル文字をラベルとしてマルチラベル分類フレームワークで事前トレーニングします。 さらに,マスク付き画像モデリング補助タスク下での自己教師付き学習手法により,幾何学図理解能力を向上させる。 提案モデルを一般的なエンコーダ・デコーダパイプラインに統合することにより,GeoQAとGeometry3Kを含む2つのベンチマークデータセットにその優位性を示す。 具体的には、GeoQAでは、解答精度が60.0\%から64.1\%に向上し、新しい最先端精度が達成されるが、Geometry3Kでは、解答平均ステップを6.9から6.0に減らし、解答精度を極端に高める。

AI has made significant progress in solving math problems, but geometry problems remain challenging due to their reliance on both text and diagrams. In the text description, symbolic characters such as "$\triangle$ABC" often serve as a bridge to connect the corresponding diagram. However, by simply tokenizing symbolic characters into individual letters (e.g., 'A', 'B' and 'C'), existing works fail to study them explicitly and thus lose the semantic relationship with the diagram. In this paper, we develop a symbolic character-aware model to fully explore the role of these characters in both text and diagram understanding and optimize the model under a multi-modal reasoning framework. In the text encoder, we propose merging individual symbolic characters to form one semantic unit along with geometric information from the corresponding diagram. For the diagram encoder, we pre-train it under a multi-label classification framework with the symbolic characters as labels. In addition, we enhance the geometry diagram understanding ability via a self-supervised learning method under the masked image modeling auxiliary task. By integrating the proposed model into a general encoder-decoder pipeline for solving geometry problems, we demonstrate its superiority on two benchmark datasets, including GeoQA and Geometry3K, with extensive experiments. Specifically, on GeoQA, the question-solving accuracy is increased from 60.0\% to 64.1\%, achieving a new state-of-the-art accuracy; on Geometry3K, we reduce the question average solving steps from 6.9 down to 6.0 with marginally higher solving accuracy.
翻訳日:2023-08-08 18:29:27 公開日:2023-08-05
# 金融指標追跡のための強化学習

Reinforcement Learning for Financial Index Tracking ( http://arxiv.org/abs/2308.02820v1 )

ライセンス: Link先を確認
Xianhua Peng, Chenyin Gong, Xue Dong He(参考訳) 本稿では、リターンベーストラッキングエラーとバリューベーストラッキングエラーの両方による金融指標追跡問題の離散時間無限ホライゾン動的定式化を初めて提案する。 この定式化は、価格に制限されない市場情報変数の時間的ダイナミクスを取り入れ、取引コストの正確な計算を可能にし、全体的な追跡エラーと取引コストのトレードオフを考慮し、長期間のデータ有効利用を可能にし、既存のモデルの限界を克服する。 この定式化はまた、現金注入または引き出しの新しい決定変数を許可する。 本稿では,バナッハ固定点反復法を用いて,取引ボリュームの非線形関数として規定される取引コストを正確に計算できるポートフォリオ再バランス方程式を提案する。 動的定式化の解法として深部強化学習法(RL法)の拡張を提案する。 本手法は,金融データの1つのサンプルパスを新規なトレーニング方式で利用可能にすることで,データ制限の問題を解消する。 17年間の試験セットに基づく包括的実証研究により,提案手法は,追跡精度の面ではベンチマーク手法を上回り,現金回収戦略によって余剰利益を得る可能性を持つことが示された。

We propose the first discrete-time infinite-horizon dynamic formulation of the financial index tracking problem under both return-based tracking error and value-based tracking error. The formulation overcomes the limitations of existing models by incorporating the intertemporal dynamics of market information variables not limited to prices, allowing exact calculation of transaction costs, accounting for the tradeoff between overall tracking error and transaction costs, allowing effective use of data in a long time period, etc. The formulation also allows novel decision variables of cash injection or withdraw. We propose to solve the portfolio rebalancing equation using a Banach fixed point iteration, which allows to accurately calculate the transaction costs specified as nonlinear functions of trading volumes in practice. We propose an extension of deep reinforcement learning (RL) method to solve the dynamic formulation. Our RL method resolves the issue of data limitation resulting from the availability of a single sample path of financial data by a novel training scheme. A comprehensive empirical study based on a 17-year-long testing set demonstrates that the proposed method outperforms a benchmark method in terms of tracking accuracy and has the potential for earning extra profit through cash withdraw strategy.
翻訳日:2023-08-08 18:28:33 公開日:2023-08-05
# 加齢に伴う骨密度の変化に関する新しい定義とctによる骨密度測定

The changing rule of human bone density with aging based on a novel definition and mensuration of bone density with computed tomography ( http://arxiv.org/abs/2308.02815v1 )

ライセンス: Link先を確認
Linmi Tao, Ruiyang Liu, Yuanbiao Wang, Yuezhi Zhou, Li Huo, Guilan Hu, Xiangsong Zhang, Zuo-Xiang He(参考訳) 骨ポローシスやフラギリティ骨折は高齢の人々の健康に関する主要な関心事となっている。 しかし,X線吸収法による骨密度の経時変化の測定は,種々の要因からの干渉による個人的リスク評価に制限がある。 本研究では,ct画像における骨密度分布の革新的な統計モデルを提案するとともに,骨画素のct値に基づいて骨密度を測定する新しい手法を提案する。 骨密度は成人期39歳から80歳までの年齢とともに直線的に低下し,女性では男性に比べて約1.6倍の速さを示した。 これは、更年期の女性や50歳前後の男性では骨密度が低下し始めるという広く受け入れられている概念と矛盾する。 加齢に伴う変化の線形性は、加齢に伴う人体の動態に関するさらなる洞察を与える。 その結果,世界保健機関 (WHO) による骨粗しょう症の定義は, 年齢による骨密度の標準偏差に改めるべきであることが示唆された。 これらの結果は, 骨医療研究の新たな道を開き, 骨粗しょう症の臨床研究の場となった。

Osteoporosis and fragility fractures have emerged as major public health concerns in an aging population. However, measuring age-related changes in bone density using dual-energy X-ray absorptiometry has limited personalized risk assessment due to susceptibility to interference from various factors. In this study, we propose an innovative statistical model of bone pixel distribution in fine-segmented computed tomography (CT) images, along with a novel approach to measuring bone density based on CT values of bone pixels. Our findings indicate that bone density exhibits a linear decline with age during adulthood between the ages of 39 and 80, with the rate of decline being approximately 1.6 times faster in women than in men. This contradicts the widely accepted notion that bone density starts declining in women at menopause and in men at around 50 years of age. The linearity of age-related changes provides further insights into the dynamics of the aging human body. Consequently, our findings suggest that the definition of osteoporosis by the World Health Organization should be revised to the standard deviation of age-based bone density. Furthermore, these results open up new avenues for research in bone health care and clinical investigation of osteoporosis.
翻訳日:2023-08-08 18:28:03 公開日:2023-08-05
# マルチモデル慣性センサのデータベース設計

Data-Based Design of Multi-Model Inferential Sensors ( http://arxiv.org/abs/2308.02872v1 )

ライセンス: Link先を確認
Martin Mojto, Karol Lubu\v{s}k\'y, Miroslav Fikar, Radoslav Paulen(参考訳) 本稿では,推定センサ設計の問題に対処する。 産業プロセスの非線形特性は通常、十分な精度で単純な線形推論センサを設計する主な限界である。 推論センサの予測性能を向上し,その線形構造を維持できないために,マルチモデル推論センサは簡単な選択肢である。 本論文では, 最先端のアプローチの欠点を軽減するために, マルチモデル推論センサの設計に新たな2つのアプローチを提案する。 開発手法の実証のために,実世界の石油化学精製装置である真空ガス水素化装置の推論センサを設計した。 マルチモデル推論センサの性能を、各種単一モデル推論センサと精製に使用される電流(参照)推論センサとを比較した。 その結果、シングル/マルチモデル推論センサの最先端設計技術に対する大幅な改善が示された。

This paper deals with the problem of inferential (soft) sensor design. The nonlinear character of industrial processes is usually the main limitation to designing simple linear inferential sensors with sufficient accuracy. In order to increase the inferential sensor predictive performance and yet to maintain its linear structure, multi-model inferential sensors represent a straightforward option. In this contribution, we propose two novel approaches for the design of multi-model inferential sensors aiming to mitigate some drawbacks of the state-of-the-art approaches. For a demonstration of the developed techniques, we design inferential sensors for a Vacuum Gasoil Hydrogenation unit, which is a real-world petrochemical refinery unit. The performance of the multi-model inferential sensor is compared against various single-model inferential sensors and the current (referential) inferential sensor used in the refinery. The results show substantial improvements over the state-of-the-art design techniques for single-/multi-model inferential sensors.
翻訳日:2023-08-08 18:20:24 公開日:2023-08-05
# ApproBiVT:早期停止とチェックポイント平均化による近似バイアス分散トレードオフを用いたASRモデルの一般化

ApproBiVT: Lead ASR Models to Generalize Better Using Approximated Bias-Variance Tradeoff Guided Early Stopping and Checkpoint Averaging ( http://arxiv.org/abs/2308.02870v1 )

ライセンス: Link先を確認
Fangyuan Wang, Ming Hao, Yuhai Shi, Bo Xu(参考訳) 従来の自動音声認識(ASR)モデルのレシピは、 1)早期停止による過失防止のための検証セットを頼りにトレーニングセット上で複数のチェックポイントを訓練する。 2) 最終モデルを得るためのいくつかの最終チェックポイントまたは最も低い検証損失の平均値。 本稿では, バイアス分散トレードオフの観点から, 早期停止点とチェックポイント平均値を再考し, 更新する。 理論的には、バイアスと分散はモデルの適合性と変数を表し、それらのトレードオフは全体の一般化誤差を決定する。 正確に評価するのは非現実的です 代替として、トレーニング損失と検証損失をバイアスと分散のプロキシとして捉え、トレードオフを使った早期停止とチェックポイント平均化、すなわち近似バイアス分散トレードオフ(ApproBiVT)を導出する。 AISHELL-1とAISHELL-2でそれぞれ2.5%-3.7%と3.1%-4.6%のCER削減を実現した。

The conventional recipe for Automatic Speech Recognition (ASR) models is to 1) train multiple checkpoints on a training set while relying on a validation set to prevent overfitting using early stopping and 2) average several last checkpoints or that of the lowest validation losses to obtain the final model. In this paper, we rethink and update the early stopping and checkpoint averaging from the perspective of the bias-variance tradeoff. Theoretically, the bias and variance represent the fitness and variability of a model and the tradeoff of them determines the overall generalization error. But, it's impractical to evaluate them precisely. As an alternative, we take the training loss and validation loss as proxies of bias and variance and guide the early stopping and checkpoint averaging using their tradeoff, namely an Approximated Bias-Variance Tradeoff (ApproBiVT). When evaluating with advanced ASR models, our recipe provides 2.5%-3.7% and 3.1%-4.6% CER reduction on the AISHELL-1 and AISHELL-2, respectively.
翻訳日:2023-08-08 18:20:11 公開日:2023-08-05
# ビデオカプセル内視鏡における出血領域分割のための半教師付き学習

Semi-supervised Learning for Segmentation of Bleeding Regions in Video Capsule Endoscopy ( http://arxiv.org/abs/2308.02869v1 )

ライセンス: Link先を確認
Hechen Li, Yanan Wu, Long Bai, An Wang, Tong Chen, Hongliang Ren(参考訳) 現代の診断技術の領域では、ビデオカプセル内視鏡(VCE)は、出血を含む様々な消化管(GI)の病態を診断する上で、その高効率で非侵襲的な性質の出発点である。 これらの病態の診断と治療が成功するためには,VCE画像における出血部位の正確な認識が重要である。 ディープラーニングベースの手法は、VCEイメージの自動解析のための強力なツールとして登場したが、包括的なアノテーションを備えた大規模なトレーニングデータセットを必要とすることが多い。 これらのラベル付きデータセットの取得には時間がかかり、コストがかかり、ドメインの専門知識が必要になります。 この問題を軽減するため,VCE内の出血領域セグメンテーションに対して,半教師付き学習(SSL)アプローチを採用した。 平均教師方式を採用することで、同じアーキテクチャの教師モデルとともに、SCSEアテンションブロックを備えた学生U-Netを構築する。 これらのモデルのパラメータはトレーニングプロセスを通じて交互に更新される。 Kvasir-Capsuleデータセットを様々なGI出血条件を含む実験に使用しています。 特に、このデータセットのセグメンテーションアノテーションを自分たちで開発しています。 実験の結果はSSLベースのセグメンテーション戦略の有効性を支持し,識別精度を損なうことなく,モデルトレーニングのための大量のアノテーションへの依存を減らす能力を示した。

In the realm of modern diagnostic technology, video capsule endoscopy (VCE) is a standout for its high efficacy and non-invasive nature in diagnosing various gastrointestinal (GI) conditions, including obscure bleeding. Importantly, for the successful diagnosis and treatment of these conditions, accurate recognition of bleeding regions in VCE images is crucial. While deep learning-based methods have emerged as powerful tools for the automated analysis of VCE images, they often demand large training datasets with comprehensive annotations. Acquiring these labeled datasets tends to be time-consuming, costly, and requires significant domain expertise. To mitigate this issue, we have embraced a semi-supervised learning (SSL) approach for the bleeding regions segmentation within VCE. By adopting the `Mean Teacher' method, we construct a student U-Net equipped with an scSE attention block, alongside a teacher model of the same architecture. These models' parameters are alternately updated throughout the training process. We use the Kvasir-Capsule dataset for our experiments, which encompasses various GI bleeding conditions. Notably, we develop the segmentation annotations for this dataset ourselves. The findings from our experiments endorse the efficacy of the SSL-based segmentation strategy, demonstrating its capacity to reduce reliance on large volumes of annotations for model training, without compromising on the accuracy of identification.
翻訳日:2023-08-08 18:19:55 公開日:2023-08-05
# NP-SemiSeg: 半教師付きセマンティックセグメンテーションを満たすニューラルプロセス

NP-SemiSeg: When Neural Processes meet Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2308.02866v1 )

ライセンス: Link先を確認
Jianfeng Wang, Daniela Massiceti, Xiaolin Hu, Vladimir Pavlovic, Thomas Lukasiewicz(参考訳) 半教師付きセマンティックセグメンテーションでは、トレーニング時にピクセルワイズラベルをラベル付き画像に割り当てる。 これは、ピクセルワイドラベルの収集が時間やコストで実現不可能な、幅広い現実世界のアプリケーションで有用である。 モデルによるクラスワイズ確率分布から各画素の擬似ラベルを予測し,半教師付きセマンティックセマンティックセマンティクスへのアプローチ しかし、もし予測された確率分布が間違っているなら、これはセグメンテーションの結果が貧弱になり、医療画像や自動運転車のような安全クリティカルなシステムにノックオン結果をもたらす可能性がある。 したがって、モデルが知らないことを理解することは重要であり、これは主に不確かさの定量化によって達成される。 近年,半教師付き画像分類において神経過程(nps)が研究され,不確実性定量化のための計算効率が高く効果的な手法となっている。 本研究では,NPを半教師付きセマンティックセグメンテーションに適応させることにより一歩前進し,NP-SemiSegと呼ばれる新しいモデルを実現する。 公開ベンチマークPASCAL VOC 2012とCityscapesのNP-SemiSegを異なるトレーニング設定で評価し,その有効性を検証した。

Semi-supervised semantic segmentation involves assigning pixel-wise labels to unlabeled images at training time. This is useful in a wide range of real-world applications where collecting pixel-wise labels is not feasible in time or cost. Current approaches to semi-supervised semantic segmentation work by predicting pseudo-labels for each pixel from a class-wise probability distribution output by a model. If the predicted probability distribution is incorrect, however, this leads to poor segmentation results, which can have knock-on consequences in safety critical systems, like medical images or self-driving cars. It is, therefore, important to understand what a model does not know, which is mainly achieved by uncertainty quantification. Recently, neural processes (NPs) have been explored in semi-supervised image classification, and they have been a computationally efficient and effective method for uncertainty quantification. In this work, we move one step forward by adapting NPs to semi-supervised semantic segmentation, resulting in a new model called NP-SemiSeg. We experimentally evaluated NP-SemiSeg on the public benchmarks PASCAL VOC 2012 and Cityscapes, with different training settings, and the results verify its effectiveness.
翻訳日:2023-08-08 18:19:33 公開日:2023-08-05
# 教師なしプロンプト学習による画像キャプションの一般化

Improving Generalization of Image Captioning with Unsupervised Prompt Learning ( http://arxiv.org/abs/2308.02862v1 )

ライセンス: Link先を確認
Hongchen Wei, Zhenzhong Chen(参考訳) 事前訓練された視覚言語モデルは、手作りのプロンプトを伴って画像キャプションにおいて印象的なゼロショット能力を示した。 一方、手作りのプロンプトは人間の事前知識を利用してモデルを導く。 しかし、異なるドメイン間の多様性のため、不変な事前知識を提供する手作りのプロンプトは、いくつかのドメインに対してモード崩壊をもたらす可能性がある。 いくつかの研究は専門家の知識と指導データセットを取り入れようとしたが、結果は高価で幻覚につながった。 本稿では,アノテートデータを必要とせず,対象領域のドメイン固有プロンプトベクトルを学習する画像キャプション(ジェネリック)の一般化を改善するための教師なしプロンプト学習手法を提案する。 GeneICは、事前訓練されたContrastive Language-Image Pre-Training (CLIP)モデルとビジュアルおよび言語モダリティを一致させ、属性とセマンティック一貫性という2つの側面からドメイン固有のプロンプトベクトルを最適化する。 具体的には、geneicは最初に、元の画像と意味的な類似性を維持しながら、異なる属性を持つ属性転送画像を生成する。 そして、GeneICはCLIPを使用して画像と生成された文の類似度を測定する。 原画像と属性変換画像の変数および不変性を探索することにより、属性一貫性は、画像と文の属性変化方向を制約し、ドメイン固有の知識を学習する。 意味一貫性は生成した文と画像の類似性を直接測定し、生成した文の精度と包括性を保証する。 その結果、GeneICはプロンプトベクトルのみを最適化し、大きなモデルの知識を効果的に保持し、ドメイン固有の知識を導入する。

Pretrained visual-language models have demonstrated impressive zero-shot abilities in image captioning, when accompanied by hand-crafted prompts. Meanwhile, hand-crafted prompts utilize human prior knowledge to guide the model. However, due to the diversity between different domains, such hand-crafted prompt that provide invariant prior knowledge may result in mode collapse for some domains. Some researches attempted to incorporate expert knowledge and instruction datasets, but the results were costly and led to hallucinations. In this paper, we propose an unsupervised prompt learning method to improve Generalization of Image Captioning (GeneIC), which learns a domain-specific prompt vector for the target domain without requiring annotated data. GeneIC aligns visual and language modalities with a pre-trained Contrastive Language-Image Pre-Training (CLIP) model, thus optimizing the domain-specific prompt vector from two aspects: attribute and semantic consistency. Specifically, GeneIC first generates attribute-transferred images with differing attributes, while retaining semantic similarity with original images. Then, GeneIC uses CLIP to measure the similarity between the images and the generated sentences. By exploring the variable and invariant features in the original images and attribute-transferred images, attribute consistency constrains the attribute change direction of both images and sentences to learn domain-specific knowledge. The semantic consistency directly measures the similarity between the generated sentences and images to ensure the accuracy and comprehensiveness of the generated sentences. Consequently, GeneIC only optimizes the prompt vectors, which effectively retains the knowledge in the large model and introduces domain-specific knowledge.
翻訳日:2023-08-08 18:19:10 公開日:2023-08-05
# スコアリングをアレンジで置き換える: 学習からランクへのコンテクスト・セット・トゥ・アレンジメント・フレームワーク

Replace Scoring with Arrangement: A Contextual Set-to-Arrangement Framework for Learning-to-Rank ( http://arxiv.org/abs/2308.02860v1 )

ライセンス: Link先を確認
Jiarui Jin, Xianyu Chen, Weinan Zhang, Mengyue Yang, Yang Wang, Yali Du, Yong Yu, Jun Wang(参考訳) learning-to-rankはトップnレコメンデーションタスクの中核となるテクニックであり、理想的なランカはアイテムセットからアレンジメント(すなわち置換)へのマッピングである。 既存のソリューションのほとんどは確率的ランキング原理(PRP)のパラダイムに該当する。すなわち、まず候補セットで各項目をスコアし、次にソート操作を行い、トップランキングリストを生成する。 しかし,これらのアプローチは,個々の得点における候補項目間の文脈依存を無視し,ソート操作は不可分である。 上記の問題を回避すべく,個別のスコア付けやソート操作を必要とせず,候補項目の置換を直接生成する新しいフレームワークであるset-to-arrangement ranking (starank)を提案する。 その結果、starankは、アイテムの接地関連スコアにアクセスせずに、接地順の順列のみにアクセスできる場合にのみ動作することができる。 この目的のために、STARankはまずユーザブラウジング履歴のコンテキストで候補項目を読み、その表現をPlanet-Luceモジュールに入力して、指定された項目をリストに配置する。 スタークの監視に与えられた接地順の置換を効果的に利用するために,placett-luceモデルの内部一貫性を活用し,計算効率の良いリストワイズ損失を導出する。 2つのラーニング・トゥ・ランクベンチマークデータセットと3つのトップn実世界のレコメンデーションデータセットにおける9つの最先端手法に対する実験的比較は、従来のランキング指標でスタークの優位を示している。 これらのランキング指標は、リスト内の項目間の文脈依存の影響を考慮せず、既存のメトリクスを特別なケースとして扱うことができる、シミュレーションに基づく新しいランキング指標のファミリーを設計することに注意する。 STARank は、PBM と UBM のシミュレーションベースのメトリクスで、常により良いパフォーマンスを達成することができる。

Learning-to-rank is a core technique in the top-N recommendation task, where an ideal ranker would be a mapping from an item set to an arrangement (a.k.a. permutation). Most existing solutions fall in the paradigm of probabilistic ranking principle (PRP), i.e., first score each item in the candidate set and then perform a sort operation to generate the top ranking list. However, these approaches neglect the contextual dependence among candidate items during individual scoring, and the sort operation is non-differentiable. To bypass the above issues, we propose Set-To-Arrangement Ranking (STARank), a new framework directly generates the permutations of the candidate items without the need for individually scoring and sort operations; and is end-to-end differentiable. As a result, STARank can operate when only the ground-truth permutations are accessible without requiring access to the ground-truth relevance scores for items. For this purpose, STARank first reads the candidate items in the context of the user browsing history, whose representations are fed into a Plackett-Luce module to arrange the given items into a list. To effectively utilize the given ground-truth permutations for supervising STARank, we leverage the internal consistency property of Plackett-Luce models to derive a computationally efficient list-wise loss. Experimental comparisons against 9 the state-of-the-art methods on 2 learning-to-rank benchmark datasets and 3 top-N real-world recommendation datasets demonstrate the superiority of STARank in terms of conventional ranking metrics. Notice that these ranking metrics do not consider the effects of the contextual dependence among the items in the list, we design a new family of simulation-based ranking metrics, where existing metrics can be regarded as special cases. STARank can consistently achieve better performance in terms of PBM and UBM simulation-based metrics.
翻訳日:2023-08-08 18:18:40 公開日:2023-08-05
# 大入力乱数抽出のためのサンプルサブブロックハッシュ

Sampled sub-block hashing for large input randomness extraction ( http://arxiv.org/abs/2308.02856v1 )

ライセンス: Link先を確認
Hong Jie Ng, Wen Yu Kon, Ignatius William Primaatmaja, Chao Wang, Charles Lim(参考訳) ランダム性抽出は、実用的な量子暗号システムにおいて重要な後処理ステップである。 統計的ゆらぎを考慮すると、大きな入力データサイズが必要となるため、ランダム性抽出プロセスの速度とリソース消費が著しく低下し、システム全体の性能が低下する可能性がある。 本研究では,大規模な入力ブロックを複数のサブブロックにランダムに分割し,個別に処理することで,この問題を回避するためのサンプルサブブロックハッシュ手法を提案する。 シミュレーションと実験を通じて,本手法が資源利用率を低く保ちながら,システムスループットの桁違いな改善を実現することを実証する。 さらに,提案手法は,一般化エントロピー蓄積フレームワークを満足する量子暗号プロトコルの汎用クラスに適用可能であり,量子鍵分布や量子乱数生成といった量子暗号応用における高速後処理に対する高い期待と汎用性を示す。

Randomness extraction is an essential post-processing step in practical quantum cryptography systems. When statistical fluctuations are taken into consideration, the requirement of large input data size could heavily penalise the speed and resource consumption of the randomness extraction process, thereby limiting the overall system performance. In this work, we propose a sampled sub-block hashing approach to circumvent this problem by randomly dividing the large input block into multiple sub-blocks and processing them individually. Through simulations and experiments, we demonstrate that our method achieves an order-of-magnitude improvement in system throughput while keeping the resource utilisation low. Furthermore, our proposed approach is applicable to a generic class of quantum cryptographic protocols that satisfy the generalised entropy accumulation framework, presenting a highly promising and general solution for high-speed post-processing in quantum cryptographic applications such as quantum key distribution and quantum random number generation.
翻訳日:2023-08-08 18:18:02 公開日:2023-08-05
# 病理組織学における正規化のためのジェネレーティブ・アドバイサル・ネットワーク

Generative Adversarial Networks for Stain Normalisation in Histopathology ( http://arxiv.org/abs/2308.02851v1 )

ライセンス: Link先を確認
Jack Breen, Kieran Zucker, Katie Allen, Nishant Ravikumar, Nicolas M. Orsi(参考訳) 近年のデジタル病理の急速な発展は、臨床診断の精度と効率を改善するために人工知能ベースのツールを開発する理想的な機会となった。 現在の研究における重要な障害の1つは、デジタル病理画像全体にわたる高レベルの視覚変動であり、モデルが目に見えないデータの一般化を損なう原因となっている。 Stain normalizationは、画像の構造的内容を変更することなく、デジタル病理画像の視覚的プロファイルを標準化することを目的としている。 本章では,GAN(Generative Adversarial Network)を利用したアプローチを中心に,デジタル病理学における染色正規化に使用されるさまざまな手法について検討する。 典型的には、GANベースの手法は非生成的アプローチよりも優れているが、より大きな計算要求のためにコストがかかる。 しかし、GANと非GANは異なるシナリオと異なるパフォーマンス指標で互いに優れており、どの手法が一般的な染色正規化に最適かは明らかではない。 これは現在進行中の研究分野であり、研究者は病理画像を効率的かつ効果的に正規化し、aiモデルをより堅牢かつ汎用的にするための方法の特定を目指している。

The rapid growth of digital pathology in recent years has provided an ideal opportunity for the development of artificial intelligence-based tools to improve the accuracy and efficiency of clinical diagnoses. One of the significant roadblocks to current research is the high level of visual variability across digital pathology images, causing models to generalise poorly to unseen data. Stain normalisation aims to standardise the visual profile of digital pathology images without changing the structural content of the images. In this chapter, we explore different techniques which have been used for stain normalisation in digital pathology, with a focus on approaches which utilise generative adversarial networks (GANs). Typically, GAN-based methods outperform non-generative approaches but at the cost of much greater computational requirements. However, it is not clear which method is best for stain normalisation in general, with different GAN and non-GAN approaches outperforming each other in different scenarios and according to different performance metrics. This is an ongoing field of study as researchers aim to identify a method which efficiently and effectively normalises pathology images to make AI models more robust and generalisable.
翻訳日:2023-08-08 18:17:45 公開日:2023-08-05
# ロボット支援鼻気管挿管へのトランスフォーマーを用いたランドマーク検出

Landmark Detection using Transformer Toward Robot-assisted Nasal Airway Intubation ( http://arxiv.org/abs/2308.02845v1 )

ライセンス: Link先を確認
Tianhang Liu, Hechen Li, Long Bai, Yanan Wu, An Wang, Mobarakol Islam, Hongliang Ren(参考訳) ロボット支援の気道挿管応用は、目標や臓器の特定に高い精度を必要とする。 2つの重要な目印である鼻孔と喉頭は、鼻腔挿管の段階に合わせて挿管中に検出される。 自動ランドマーク検出は正確な位置決めと定量的評価を提供する。 検出変換器(DeTR)は、オブジェクト検出器を長距離依存の新しいパラダイムに導く。 しかし、現在のDeTRは収束するために長いイテレーションを必要とし、小さなオブジェクトを検出するのにうまく機能しない。 本稿では,変形可能なdetrを用いたトランスフォーマチックランドマーク検出法と,ロボット支援インキュベーションにおけるランドマーク検出のためのセマンティックアライメントマッチングモジュールを提案する。 semantics alignerは、最も識別的な機能を使用して、オブジェクトクエリとイメージ機能のセマンティクスを同じ埋め込み空間で効果的に調整することができる。 ソリューションの性能を評価するために,公開アクセス可能なglottisデータセットを使用し,nostril検出データセットに自動アノテートを行う。 実験の結果,検出精度の競争性能が示された。 私たちのコードは公開アクセス可能です。

Robot-assisted airway intubation application needs high accuracy in locating targets and organs. Two vital landmarks, nostrils and glottis, can be detected during the intubation to accommodate the stages of nasal intubation. Automated landmark detection can provide accurate localization and quantitative evaluation. The Detection Transformer (DeTR) leads object detectors to a new paradigm with long-range dependence. However, current DeTR requires long iterations to converge, and does not perform well in detecting small objects. This paper proposes a transformer-based landmark detection solution with deformable DeTR and the semantic-aligned-matching module for detecting landmarks in robot-assisted intubation. The semantics aligner can effectively align the semantics of object queries and image features in the same embedding space using the most discriminative features. To evaluate the performance of our solution, we utilize a publicly accessible glottis dataset and automatically annotate a nostril detection dataset. The experimental results demonstrate our competitive performance in detection accuracy. Our code is publicly accessible.
翻訳日:2023-08-08 18:17:27 公開日:2023-08-05
# 編集可能な新規ビュー合成のための統一分解・合成型NeRFの学習

Learning Unified Decompositional and Compositional NeRF for Editable Novel View Synthesis ( http://arxiv.org/abs/2308.02840v1 )

ライセンス: Link先を確認
Yuxin Wang, Wayne Wu, Dan Xu(参考訳) 暗黙の神経表現は、現実世界の3Dシーンをモデル化する上で強力な能力を示し、新しいビュー合成において優れた性能を提供している。 本稿では,暗黙的なニューラルシーン表現に基づく共同シーンノベルビューの合成と編集という,より困難なシナリオをターゲットにする。 この方向の最先端の手法は、一般的にこれらの2つのタスク(例えば、ビュー合成と編集)のために別々のネットワークを構築することを考える。 したがって、これらの2つのタスク間の相互作用と相関のモデリングは非常に限定的であり、高品質なシーン表現の学習には不可欠である。 そこで本研究では,実際のシーンをモデル化するための共同シーン分解と構成を効果的に行うため,NeRF(Neural Radiance Field)フレームワークを提案する。 この分解は、異なるオブジェクトと背景の歪んだ3D表現を学習し、シーン編集を可能にし、シーン構成は、新しいビュー合成のためのシーン全体の表現をモデル化する。 具体的には,2段階のNeRFフレームワークを用いて,点サンプリングのガイダンスとして大域ラディアンス場を予測する粗いステージを学習し,第2段階では,新しい1ホットオブジェクトラディアンスフィールド正規化モジュールと擬似監督によりシーン分解を行い,不明瞭な背景領域を処理する。 分解モジュールからの活性化を利用して、分解対象レベルの放射場をさらに構成する。 広範に定量的および定性的な結果から,本手法がシーン分解および構成において有効であることを示す。

Implicit neural representations have shown powerful capacity in modeling real-world 3D scenes, offering superior performance in novel view synthesis. In this paper, we target a more challenging scenario, i.e., joint scene novel view synthesis and editing based on implicit neural scene representations. State-of-the-art methods in this direction typically consider building separate networks for these two tasks (i.e., view synthesis and editing). Thus, the modeling of interactions and correlations between these two tasks is very limited, which, however, is critical for learning high-quality scene representations. To tackle this problem, in this paper, we propose a unified Neural Radiance Field (NeRF) framework to effectively perform joint scene decomposition and composition for modeling real-world scenes. The decomposition aims at learning disentangled 3D representations of different objects and the background, allowing for scene editing, while scene composition models an entire scene representation for novel view synthesis. Specifically, with a two-stage NeRF framework, we learn a coarse stage for predicting a global radiance field as guidance for point sampling, and in the second fine-grained stage, we perform scene decomposition by a novel one-hot object radiance field regularization module and a pseudo supervision via inpainting to handle ambiguous background regions occluded by objects. The decomposed object-level radiance fields are further composed by using activations from the decomposition module. Extensive quantitative and qualitative results show the effectiveness of our method for scene decomposition and composition, outperforming state-of-the-art methods for both novel-view synthesis and editing tasks.
翻訳日:2023-08-08 18:17:10 公開日:2023-08-05
# 歌声転写における性公平性の解明

Elucidate Gender Fairness in Singing Voice Transcription ( http://arxiv.org/abs/2308.02898v1 )

ライセンス: Link先を確認
Xiangming Gu and Wei Zeng and Ye Wang(参考訳) 男性と女性は通常、音色やピッチといった歌声の音響特性が異なることが知られているが、これらの性別に基づく特徴が、ピッチを含む歌唱音声転写(svt)においてパフォーマンスの格差をもたらすかどうかについては検討されていない。 このような格差は公平性の問題を引き起こし、下流のSVTアプリケーションのユーザエクスペリエンスに深刻な影響を及ぼす可能性がある。 そこで本研究では,SVTシステムの女性優位性を,様々なモデルやデータセットで実証する。 異なるピッチ分布は、性別データの不均衡ではなく、この格差に寄与する。 この問題に対処するために、属性予測器を用いて性別ラベルを予測し、SVTシステムを逆さまに訓練し、音響表現の性差を強制する手法を提案する。 ピッチ分布が性別バイアスに寄与する可能性のある先行知識を活用し,属性予測者に音符イベントを与えることで,人口集団間の音響表現を条件付きで調整する手法を提案する。 複数のベンチマークSVTデータセットに対する実証実験により、本手法は、ドメイン内およびドメイン外の両方の歌唱データにおいて、SVTパフォーマンスの無視可能な劣化により、性別バイアス(最大50%)を大幅に低減し、フェアネスとユーティリティのトレードオフが向上することが示された。

It is widely known that males and females typically possess different sound characteristics when singing, such as timbre and pitch, but it has never been explored whether these gender-based characteristics lead to a performance disparity in singing voice transcription (SVT), whose target includes pitch. Such a disparity could cause fairness issues and severely affect the user experience of downstream SVT applications. Motivated by this, we first demonstrate the female superiority of SVT systems, which is observed across different models and datasets. We find that different pitch distributions, rather than gender data imbalance, contribute to this disparity. To address this issue, we propose using an attribute predictor to predict gender labels and adversarially training the SVT system to enforce the gender-invariance of acoustic representations. Leveraging the prior knowledge that pitch distributions may contribute to the gender bias, we propose conditionally aligning acoustic representations between demographic groups by feeding note events to the attribute predictor. Empirical experiments on multiple benchmark SVT datasets show that our method significantly reduces gender bias (up to more than 50%) with negligible degradation of overall SVT performance, on both in-domain and out-of-domain singing data, thus offering a better fairness-utility trade-off.
翻訳日:2023-08-08 18:11:19 公開日:2023-08-05
# 対数移動性向上のための適応モデルアンサンブル逆数攻撃

An Adaptive Model Ensemble Adversarial Attack for Boosting Adversarial Transferability ( http://arxiv.org/abs/2308.02897v1 )

ライセンス: Link先を確認
Bin Chen, Jia-Li Yin, Shukai Chen, Bo-Hao Chen and Ximeng Liu(参考訳) 敵の例の転送可能性特性により、敵はブラックボックス攻撃を行うことができる(すなわち、攻撃者はターゲットモデルについて知識を持たない)が、転送ベースの敵攻撃は大きな注目を集めている。 以前の研究は主に、入力の重要な部分の歪みを増幅するために、勾配の変化や画像変換を研究する。 これらの手法は、CNNからCNNへの限定的な差のあるモデル間での転送に有効であるが、CNNからViTへの大きな差があるモデル間での転送には常に失敗する。 あるいは、モデルのアンサンブル対向攻撃は、様々なアーキテクチャを持つサロゲートモデルからの出力を融合してアンサンブル損失を得るために提案され、生成されたアンサンブル対向攻撃例は複数のモデルを同時に騙すことができるため、他のモデルに転送される可能性が高くなる。 しかし、既存のアンサンブル攻撃は単純にサロゲートモデルの出力を均等に融合させるため、敵の例の本質的な伝達情報を捕捉して増幅する効果がない。 本稿では,AdaEAと呼ばれる適応型アンサンブル攻撃を提案し,各モデルからの出力の融合を適応的に制御する。 さらに、更新方向を更に同期させるために、余分な差分低減フィルタを導入する。 その結果、さまざまなデータセットに対する既存のアンサンブル攻撃よりも大幅に改善され、提案されたAdaEAは、既存の転送ベースの攻撃を促進できるようになり、その有効性と汎用性をさらに証明できる。

While the transferability property of adversarial examples allows the adversary to perform black-box attacks (i.e., the attacker has no knowledge about the target model), the transfer-based adversarial attacks have gained great attention. Previous works mostly study gradient variation or image transformations to amplify the distortion on critical parts of inputs. These methods can work on transferring across models with limited differences, i.e., from CNNs to CNNs, but always fail in transferring across models with wide differences, such as from CNNs to ViTs. Alternatively, model ensemble adversarial attacks are proposed to fuse outputs from surrogate models with diverse architectures to get an ensemble loss, making the generated adversarial example more likely to transfer to other models as it can fool multiple models concurrently. However, existing ensemble attacks simply fuse the outputs of the surrogate models evenly, thus are not efficacious to capture and amplify the intrinsic transfer information of adversarial examples. In this paper, we propose an adaptive ensemble attack, dubbed AdaEA, to adaptively control the fusion of the outputs from each model, via monitoring the discrepancy ratio of their contributions towards the adversarial objective. Furthermore, an extra disparity-reduced filter is introduced to further synchronize the update direction. As a result, we achieve considerable improvement over the existing ensemble attacks on various datasets, and the proposed AdaEA can also boost existing transfer-based attacks, which further demonstrates its efficacy and versatility.
翻訳日:2023-08-08 18:10:52 公開日:2023-08-05
# Euler-Bernoulliビーム素子の物理インフォームドガウス過程モデル

Physics-informed Gaussian process model for Euler-Bernoulli beam elements ( http://arxiv.org/abs/2308.02894v1 )

ライセンス: Link先を確認
Gledson Rodrigo Tondo and Sebastian Rau and Igor Kavrakov and Guido Morgenthal(参考訳) 物理インフォームド機械学習モデルは多出力ガウス過程の形で、オイラー・ベルヌーリビーム方程式を用いて定式化される。 適切なデータセットが与えられた場合、モデルは構造物の曲げ剛性の分析値の回帰、応答の補間、潜在物理量に対する確率的推論に使うことができる。 本研究では, 回帰曲げ剛性評価を行い, 予測品質に対する測定ノイズの影響を調べる数値シミュレーションによるカンチレバービームに適用した。 さらに, マハラノビス距離を用いて構造系における損傷の場所と程度を推定する構造的健康モニタリングの文脈において, 回帰確率剛性分布を用いる。 開発したフレームワークを検証するために実験を行い, 推定された解析構造モデルを更新するために異種データセットの測定を行った。

A physics-informed machine learning model, in the form of a multi-output Gaussian process, is formulated using the Euler-Bernoulli beam equation. Given appropriate datasets, the model can be used to regress the analytical value of the structure's bending stiffness, interpolate responses, and make probabilistic inferences on latent physical quantities. The developed model is applied on a numerically simulated cantilever beam, where the regressed bending stiffness is evaluated and the influence measurement noise on the prediction quality is investigated. Further, the regressed probabilistic stiffness distribution is used in a structural health monitoring context, where the Mahalanobis distance is employed to reason about the possible location and extent of damage in the structural system. To validate the developed framework, an experiment is conducted and measured heterogeneous datasets are used to update the assumed analytical structural model.
翻訳日:2023-08-08 18:10:25 公開日:2023-08-05
# 複数の盗聴者に対して安全なディープJSCC

Secure Deep-JSCC Against Multiple Eavesdroppers ( http://arxiv.org/abs/2308.02892v1 )

ライセンス: Link先を確認
Seyyed Amirhossein Ameli Kalkhoran, Mehdi Letafati, Ecenaz Erdemir, Babak Hossein Khalaj, Hamid Behroozi, and Deniz G\"und\"uz(参考訳) 本稿では,セキュア通信のための深層学習支援ジョイントソースチャネル符号化(Deep-JSCC)手法の一般化について述べる。 本稿では,複数の盗聴者に対して複雑なフェージングチャネル上でセキュアな通信を行うためのエンドツーエンド(e2e)学習ベースアプローチを提案する。 溶出と非溶出の双方のシナリオについて検討した。 コルーディング戦略では、eavesdroppersはロジットを共有して、アンサンブル学習法に基づく個人属性を共同推論し、非コルーディング設定では単独で行動する。 目的は、送信された画像のプライベートな(センシティブな)情報を盗聴者が推測することを防ぐと同時に、画像が最小限の歪みで正規の受信者に届けることである。 プライバシファンネルとワイヤタップチャネル符号化の考え方を一般化することにより、正規ノードにおける画像回復と盗聴者への情報漏洩とのトレードオフを特徴付ける。 この秘密ファンネルフレームワークを解決するために,我々はディープニューラルネットワーク(dnn)を実装し,特定のデータ分散に頼らずに,データ駆動型セキュアな通信方式を実現する。 CIFAR-10データセット上のシミュレーションは機密効用トレードオフを検証する。 提案手法の一般化を検証するため,Rayleigh fading, Nakagami-m, AWGN チャネルの逆精度も検討した。 提案するセキュアなニューラルエンコーディングを用いることで,敵の精度を28%低下させることができる。

In this paper, a generalization of deep learning-aided joint source channel coding (Deep-JSCC) approach to secure communications is studied. We propose an end-to-end (E2E) learning-based approach for secure communication against multiple eavesdroppers over complex-valued fading channels. Both scenarios of colluding and non-colluding eavesdroppers are studied. For the colluding strategy, eavesdroppers share their logits to collaboratively infer private attributes based on ensemble learning method, while for the non-colluding setup they act alone. The goal is to prevent eavesdroppers from inferring private (sensitive) information about the transmitted images, while delivering the images to a legitimate receiver with minimum distortion. By generalizing the ideas of privacy funnel and wiretap channel coding, the trade-off between the image recovery at the legitimate node and the information leakage to the eavesdroppers is characterized. To solve this secrecy funnel framework, we implement deep neural networks (DNNs) to realize a data-driven secure communication scheme, without relying on a specific data distribution. Simulations over CIFAR-10 dataset verifies the secrecy-utility trade-off. Adversarial accuracy of eavesdroppers are also studied over Rayleigh fading, Nakagami-m, and AWGN channels to verify the generalization of the proposed scheme. Our experiments show that employing the proposed secure neural encoding can decrease the adversarial accuracy by 28%.
翻訳日:2023-08-08 18:10:09 公開日:2023-08-05
# 製品コードの高次元拡張はロバストなテスト容易性よりも強い

High-dimensional Expansion of Product Codes is Stronger than Robust and Agreement Testability ( http://arxiv.org/abs/2308.02889v1 )

ライセンス: Link先を確認
Gleb Kalachev(参考訳) 製品拡張と呼ばれる製品コードのコバウンダリ拡張特性について検討し,qLDPCコードの構築において重要な役割を担った。 前述したように、この性質は線形距離を持つ2つの符号の製品に対する堅牢なテスト容易性と合意テスト容易性と同値である。 まず、線形距離の多くの符号の積に対する堅牢なテスト容易性は、一致テスト容易性と等価であることを示す。 第2に,ロバストにテスト可能であるが製品展開しない線形距離の3つの符号の積の例を示す。

We study the coboundary expansion property of product codes called product expansion, which played a key role in all recent constructions of good qLDPC codes. It was shown before that this property is equivalent to robust testability and agreement testability for products of two codes with linear distance. First, we show that robust testability for product of many codes with linear distance is equivalent to agreement testability. Second, we provide an example of product of three codes with linear distance which is robustly testable but not product expanding.
翻訳日:2023-08-08 18:09:46 公開日:2023-08-05
# 軌道角運動量の固有状態を記述する経路分布

Path distributions for describing eigenstates of orbital angular momentum ( http://arxiv.org/abs/2308.02884v1 )

ライセンス: Link先を確認
Randall M. Feenstra(参考訳) 軌道角運動量固有状態の波動関数を形成するために経路の確率振幅が合計される方法について述べる。 定常相解析の一般化を用いて、任意の固有状態に対して経路がどのように寄与するかを測る分布が導出される。 長い旅行時間の極限において、これらの分布は、経路の終点の間の古典的移動を記述する運動量変数の実数値、非負関数であることが判明する(非古典的経路を含む経路は、弾力性(elastica)の項で記述される)。 分布は、この特性運動量の両方の関数であり、また、エンドポイントを接続する測地線の、選択された座標系のz軸に対して傾きを与える極角である。 結果として得られた記述は、軌道角運動量を記述するためによく知られた「ベクトルモデル」の代替となり、重要な点は、量子数 $\ell$ が 0 である場合(すなわち s-状態)の処理を含む。

The manner in which probability amplitudes of paths sum up to form wave functions of orbital angular momentum eigenstates is described. Using a generalization of stationary-phase analysis, distributions are derived that provide a measure of how paths contribute towards any given eigenstate. In the limit of long travel-time, these distributions turn out to be real-valued, non-negative functions of a momentum variable that describes classical travel between the endpoints of a path (with the paths explicitly including nonclassical ones, described in terms of elastica). The distributions are functions of both this characteristic momentum as well as a polar angle that provides a tilt, relative to the z-axis of the chosen coordinate system, of the geodesic that connects the endpoints. The resulting description provides a replacement for the well-known "vector model" for describing orbital angular momentum, and importantly, it includes treatment of the case when the quantum number $\ell$ is zero (i.e., s-states).
翻訳日:2023-08-08 18:09:34 公開日:2023-08-05
# 教師なしLiDARセマンティックセグメンテーションのためのクロスモーダル・クロスドメイン学習

Cross-modal & Cross-domain Learning for Unsupervised LiDAR Semantic Segmentation ( http://arxiv.org/abs/2308.02883v1 )

ライセンス: Link先を確認
Yiyang Chen, Shanshan Zhao, Changxing Ding, Liyao Tang, Chaoyue Wang, Dacheng Tao(参考訳) 近年,対象領域における3次元LiDARセマンティックセグメンテーション(DLSS)のラベリングコストを緩和するために,2次元画像と3次元LiDARデータを用いたクロスモーダルドメイン適応法が研究されている。 しかし、そのような設定では、ソースドメイン内のペア2Dと3Dデータは、追加の努力で収集される。 2D-3Dプロジェクションは、3Dモデルが2Dモデルから意味情報を学習できるようにするため、ソース3Dデータの必要性をさらに排除し、ソース2D画像のみに依存するかどうかを問う。 そこで本研究では,セマンティックアノテーションを持つ2次元データセット(ソース)と,ペアだが注釈のない2次元画像と3次元LiDARデータ(ターゲット)が利用できる新しい3DLSS環境について検討する。 このシナリオで3DLSSを実現するために,クロスモーダル・クロスドメイン学習(CoMoDaL)を提案する。 具体的には、CoMoDaLはモデリングを目指しています。 1)非対向源2d画像とターゲット3dlidarデータ間のモード間クロスドメイン蒸留、及び 2) 対象2次元画像と3次元LiDARデータペア間のドメイン内クロスモーダルガイダンス。 共モーダルでは、異なるモダリティとドメインのセマンティクスを2つのモダリティの混合サンプルを構築して関連付けるために、点から画素へのアライメントやプロトタイプからピクセルへのアライメントといったいくつかの制約を適用することを提案する。 いくつかのデータセットに対する実験結果から,提案手法では,ラベル付きLiDARデータの監督なしに,CoMoDaLのセグメンテーションを実現することができることがわかった。 さらなる分析を行うためにアブレーションも実施されている。 コードは公開されます。

In recent years, cross-modal domain adaptation has been studied on the paired 2D image and 3D LiDAR data to ease the labeling costs for 3D LiDAR semantic segmentation (3DLSS) in the target domain. However, in such a setting the paired 2D and 3D data in the source domain are still collected with additional effort. Since the 2D-3D projections can enable the 3D model to learn semantic information from the 2D counterpart, we ask whether we could further remove the need of source 3D data and only rely on the source 2D images. To answer it, this paper studies a new 3DLSS setting where a 2D dataset (source) with semantic annotations and a paired but unannotated 2D image and 3D LiDAR data (target) are available. To achieve 3DLSS in this scenario, we propose Cross-Modal and Cross-Domain Learning (CoMoDaL). Specifically, our CoMoDaL aims at modeling 1) inter-modal cross-domain distillation between the unpaired source 2D image and target 3D LiDAR data, and 2) the intra-domain cross-modal guidance between the target 2D image and 3D LiDAR data pair. In CoMoDaL, we propose to apply several constraints, such as point-to-pixel and prototype-to-pixel alignments, to associate the semantics in different modalities and domains by constructing mixed samples in two modalities. The experimental results on several datasets show that in the proposed setting, the developed CoMoDaL can achieve segmentation without the supervision of labeled LiDAR data. Ablations are also conducted to provide more analysis. Code will be available publicly.
翻訳日:2023-08-08 18:09:14 公開日:2023-08-05
# 非コヒーレントオーバーザエア計算による動的電力制御によるプライベートフェデレーション学習

Private Federated Learning with Dynamic Power Control via Non-Coherent Over-the-Air Computation ( http://arxiv.org/abs/2308.02881v1 )

ライセンス: Link先を確認
Anbang Zhang, Shuaishuai Guo, Shuai Liu(参考訳) モデル重みのプライバシをさらに保ち、フェデレーション学習(fl)におけるモデル性能を向上させるため、動的電力制御に基づくaircomp(over-the-air computation)方式を提案する。 エッジ装置(ED)は、隣接する2つの直交周波数分割(OFDM)サブキャリアを活性化して局所確率勾配の兆候を送信し、エッジサーバ(ES)における多数票(MV)は、サブキャリアのエネルギー蓄積を利用して得られる。 そこで本稿では,MVアグリゲーション値のバイアスアグリゲーションをさらにオフセットする動的パワー制御アルゴリズムを提案する。 提案手法は,時間同期誤差,チャネルのフェージング,ノイズの影響を緩和できることを示す。 このスキームの理論的収束証明は再帰的である。

To further preserve model weight privacy and improve model performance in Federated Learning (FL), FL via Over-the-Air Computation (AirComp) scheme based on dynamic power control is proposed. The edge devices (EDs) transmit the signs of local stochastic gradients by activating two adjacent orthogonal frequency division multi-plexing (OFDM) subcarriers, and majority votes (MVs) at the edge server (ES) are obtained by exploiting the energy accumulation on the subcarriers. Then, we propose a dynamic power control algorithm to further offset the biased aggregation of the MV aggregation values. We show that the whole scheme can mitigate the impact of the time synchronization error, channel fading and noise. The theoretical convergence proof of the scheme is re-derived.
翻訳日:2023-08-08 18:08:42 公開日:2023-08-05
# 医療におけるメタラーニング:調査

Meta-learning in healthcare: A survey ( http://arxiv.org/abs/2308.02877v1 )

ライセンス: Link先を確認
Alireza Rafiei, Ronald Moore, Sina Jahromi, Farshid Hajati, Rishikesan Kamaleswaran(参考訳) 機械学習、メタ学習、学習のサブセットとして、事前の知識と経験を駆使してモデルの能力を改善することを目指している。 メタラーニングパラダイムは、サンプルの不足、ドメインシフト、一般化といった従来の学習アプローチの課題に適切に対処することができる。 これらの特徴は、利用可能なデータが不十分であり、データ収集方法が異なる様々な医療状況において、影響力のあるソリューションを開発するのに適した選択肢としてメタラーニングを位置づけている。 この調査は、医療領域における幅広いメタラーニングアプリケーションについて論じ、それが重要な医療課題にどのように対処できるのか、どこで対応できるかについての洞察を提供する。 まずメタラーニングの理論的基礎と重要な方法について述べる。 次に,医療分野で採用されているメタラーニングのアプローチを,マルチタスク学習とマルチタスク学習の2つの主要なカテゴリに分け,その研究を調査した。 最後に、メタラーニング研究における現在の課題に注目し、潜在的な解決策を議論し、医療におけるメタラーニングの将来展望を提供する。

As a subset of machine learning, meta-learning, or learning to learn, aims at improving the model's capabilities by employing prior knowledge and experience. A meta-learning paradigm can appropriately tackle the conventional challenges of traditional learning approaches, such as insufficient number of samples, domain shifts, and generalization. These unique characteristics position meta-learning as a suitable choice for developing influential solutions in various healthcare contexts, where the available data is often insufficient, and the data collection methodologies are different. This survey discusses meta-learning broad applications in the healthcare domain to provide insight into how and where it can address critical healthcare challenges. We first describe the theoretical foundations and pivotal methods of meta-learning. We then divide the employed meta-learning approaches in the healthcare domain into two main categories of multi/single-task learning and many/few-shot learning and survey the studies. Finally, we highlight the current challenges in meta-learning research, discuss the potential solutions and provide future perspectives on meta-learning in healthcare.
翻訳日:2023-08-08 18:08:27 公開日:2023-08-05
# 色点雲生成のためのスケッチとテキスト誘導拡散モデル

Sketch and Text Guided Diffusion Model for Colored Point Cloud Generation ( http://arxiv.org/abs/2308.02874v1 )

ライセンス: Link先を確認
Zijie Wu, Yaonan Wang, Mingtao Feng, He Xie, Ajmal Mian(参考訳) 拡散確率モデルはテキスト誘導画像生成において顕著な成功を収めている。 しかし、3dモデルを含む十分なデータがないため、3d形状の生成は依然として困難である。 さらに、テキストベースの3次元形状の記述は本質的に曖昧で詳細が欠けている。 本稿では,物体の手書きスケッチとテキスト記述を併用した色点雲生成のためのスケッチとテキスト誘導確率拡散モデルを提案する。 ジョイント拡散過程において点座標と色値を漸進的に拡散してガウス分布に達する。 したがって、色点雲の生成は、スケッチとテキストによって条件づけられた逆拡散過程を学習し、所望の形状と色を反復的に復元する。 特に,効果的なスケッチテキスト埋め込みを学ぶために,本モデルはカプセルアテンションネットワークに基づいて,テキストプロンプトとスケッチの結合埋め込みを適応的に集約する。 本モデルでは, 形状生成に段階拡散を用い, 外観プロンプトの異なる部位に色を割り当て, 正確な形状を第一段階から保存する。 これにより、外観再編集や部分分割など、複数のタスクに拡張する柔軟性が得られます。 実験により,本モデルが最近のポイントクラウド生成技術より優れていることが示された。

Diffusion probabilistic models have achieved remarkable success in text guided image generation. However, generating 3D shapes is still challenging due to the lack of sufficient data containing 3D models along with their descriptions. Moreover, text based descriptions of 3D shapes are inherently ambiguous and lack details. In this paper, we propose a sketch and text guided probabilistic diffusion model for colored point cloud generation that conditions the denoising process jointly with a hand drawn sketch of the object and its textual description. We incrementally diffuse the point coordinates and color values in a joint diffusion process to reach a Gaussian distribution. Colored point cloud generation thus amounts to learning the reverse diffusion process, conditioned by the sketch and text, to iteratively recover the desired shape and color. Specifically, to learn effective sketch-text embedding, our model adaptively aggregates the joint embedding of text prompt and the sketch based on a capsule attention network. Our model uses staged diffusion to generate the shape and then assign colors to different parts conditioned on the appearance prompt while preserving precise shapes from the first stage. This gives our model the flexibility to extend to multiple tasks, such as appearance re-editing and part segmentation. Experimental results demonstrate that our model outperforms recent state-of-the-art in point cloud generation.
翻訳日:2023-08-08 18:08:08 公開日:2023-08-05
# 脊椎手術におけるマーカーレス手術ナビゲーションにおけるポーズ更新による自動登録

Automatic registration with continuous pose updates for marker-less surgical navigation in spine surgery ( http://arxiv.org/abs/2308.02917v1 )

ライセンス: Link先を確認
Florentin Liebmann, Marco von Atzigen, Dominik St\"utz, Julian Wolf, Lukas Zingg, Daniel Suter, Laura Leoty, Hooman Esfandiari, Jess G. Snedeker, Martin R. Oswald, Marc Pollefeys, Mazda Farshad, Philipp F\"urnstahl(参考訳) ペディクルスクリュー配置のための確立された外科用ナビゲーションシステムは正確であることが証明されているが、登録や手術指導に制限がある。 術中解剖への事前データの登録は、有害な放射線への曝露を含む時間を要する、エラーを起こしやすい作業である。 従来型ディスプレイによる手術指導は, 術者の立場から情報をその場で提示することはできないため, 広く知られている欠点がある。 その結果, 術後の外科医中心のナビゲーションフィードバックによる放射線のない自動登録法が望まれる。 そこで本研究では,腰椎椎間板固定術の登録問題を自動的に無放射線で解決する手法を提案する。 深層ニューラルネットワークを用いて腰椎を分割し,その向きを同時に予測し,術前モデルに初期ポーズを与えるように訓練し,手術的咬合を処理しながら,各椎骨を個別に洗練し,gpuアクセラレーションを用いてリアルタイムに更新する。 拡張現実ベースのナビゲーションシステムとの統合により、直感的な外科的ガイダンスが提供される。 登録方法は, 登録成功率96\%, 目標登録誤差2.73mm, スクリュー軌道誤差1.79{\deg}, スクリュー進入点誤差2.43mmの公開データセット上で検証された。 さらに、パイプライン全体が前生検で検証され、100\%のスクリュー精度と1.20mmの登録精度が得られた。 本研究は臨床要件を満たし,完全自動登録アプローチにおけるrgb-dデータの可能性と拡張現実指導の併用を強調する。

Established surgical navigation systems for pedicle screw placement have been proven to be accurate, but still reveal limitations in registration or surgical guidance. Registration of preoperative data to the intraoperative anatomy remains a time-consuming, error-prone task that includes exposure to harmful radiation. Surgical guidance through conventional displays has well-known drawbacks, as information cannot be presented in-situ and from the surgeon's perspective. Consequently, radiation-free and more automatic registration methods with subsequent surgeon-centric navigation feedback are desirable. In this work, we present an approach that automatically solves the registration problem for lumbar spinal fusion surgery in a radiation-free manner. A deep neural network was trained to segment the lumbar spine and simultaneously predict its orientation, yielding an initial pose for preoperative models, which then is refined for each vertebra individually and updated in real-time with GPU acceleration while handling surgeon occlusions. An intuitive surgical guidance is provided thanks to the integration into an augmented reality based navigation system. The registration method was verified on a public dataset with a mean of 96\% successful registrations, a target registration error of 2.73 mm, a screw trajectory error of 1.79{\deg} and a screw entry point error of 2.43 mm. Additionally, the whole pipeline was validated in an ex-vivo surgery, yielding a 100\% screw accuracy and a registration accuracy of 1.20 mm. Our results meet clinical demands and emphasize the potential of RGB-D data for fully automatic registration approaches in combination with augmented reality guidance.
翻訳日:2023-08-08 18:00:36 公開日:2023-08-05
# Pruned Elementsによる逆消去 - グラフロテリチケットの改善に向けて

Adversarial Erasing with Pruned Elements: Towards Better Graph Lottery Ticket ( http://arxiv.org/abs/2308.02916v1 )

ライセンス: Link先を確認
Yuwen Wang, Shunyu Liu, Kaixuan Chen, Tongtian Zhu, Ji Qiao, Mengjie Shi, Yuanyu Wan, Mingli Song(参考訳) Graph Lottery Ticket (GLT) はコアサブグラフとスパースサブネットワークを組み合わせることで,大規模入力グラフ上での深部グラフニューラルネットワーク(GNN)の計算コストを低減し,元の性能を維持している。 しかし、入賞研究における当選GLTは、グラフ/モデル解析におけるエッジ/ウェイトの重要性の動的変化を無視し、入賞券の魅力を損なうことなく、再評価・再考することなく反復等級ベースプルーニング(IMP)を適用して得られる。 本稿では,pruned graph 接続とモデルパラメータにおける既存の見落としの貴重な情報を glt に再グループ化し,最終的な性能を向上させる予想を定式化する。 具体的には, 逆相補的消去(ACE)フレームワークを提案し, 刈り取られた部品から貴重な情報を探索し, ACE-GLTと呼ばれるより強力なGLTを開発する。 主なアイデアは、IMPの各ラウンドの後に刈り取られたエッジ/ウェイトから貴重な情報をマイニングし、ACE技術を用いてGLT処理を洗練させることである。 最後に, ACE-GLT は GLT を探索する既存手法よりも優れていることを示す。 私たちのコードは公開されます。

Graph Lottery Ticket (GLT), a combination of core subgraph and sparse subnetwork, has been proposed to mitigate the computational cost of deep Graph Neural Networks (GNNs) on large input graphs while preserving original performance. However, the winning GLTs in exisiting studies are obtained by applying iterative magnitude-based pruning (IMP) without re-evaluating and re-considering the pruned information, which disregards the dynamic changes in the significance of edges/weights during graph/model structure pruning, and thus limits the appeal of the winning tickets. In this paper, we formulate a conjecture, i.e., existing overlooked valuable information in the pruned graph connections and model parameters which can be re-grouped into GLT to enhance the final performance. Specifically, we propose an adversarial complementary erasing (ACE) framework to explore the valuable information from the pruned components, thereby developing a more powerful GLT, referred to as the ACE-GLT. The main idea is to mine valuable information from pruned edges/weights after each round of IMP, and employ the ACE technique to refine the GLT processing. Finally, experimental results demonstrate that our ACE-GLT outperforms existing methods for searching GLT in diverse tasks. Our code will be made publicly available.
翻訳日:2023-08-08 18:00:11 公開日:2023-08-05
# DiffDance:ダンス生成のためのケースド・ヒューマンモーション拡散モデル

DiffDance: Cascaded Human Motion Diffusion Model for Dance Generation ( http://arxiv.org/abs/2308.02915v1 )

ライセンス: Link先を確認
Qiaosong Qi, Le Zhuo, Aixi Zhang, Yue Liao, Fei Fang, Si Liu, Shuicheng Yan(参考訳) 音楽を聞くと、人々がリズムに合わせて踊るのは自然なことです。 しかし, 自動ダンス生成は, 人の動きの物理的制約や, 対象音楽とのリズムアライメントなどにより, 難しい課題である。 従来の自己回帰法は、サンプリング中に複合的なエラーを導入し、ダンスシーケンスの長期構造を捉えるのに苦労する。 これらの制限に対処するために,高分解能長尺ダンス生成のための新しいカスケード動拡散モデルdiffdanceを提案する。 このモデルは、音楽間拡散モデルとシーケンス超解像拡散モデルからなる。 条件生成のための音楽と動きのギャップを埋めるために、DiffDanceは事前訓練された音声表現学習モデルを用いて、音楽埋め込みを抽出し、その埋め込み空間をコントラッシブ・ロスを介して動きに合わせる。 また, 拡散モデルのトレーニング中に, モデル出力を物理的に妥当に制限するために, 複数の幾何学的損失を組み込んで, 拡散時間の経過とともに適応的に変化する動的損失重みを加えた。 ベンチマークデータセット aist++ を用いた包括的実験により,ディフュージョンは入力音楽と効果的に一致する現実的なダンスシーケンスを生成できることを実証した。 これらの結果は、最先端の自己回帰法による結果に匹敵する。

When hearing music, it is natural for people to dance to its rhythm. Automatic dance generation, however, is a challenging task due to the physical constraints of human motion and rhythmic alignment with target music. Conventional autoregressive methods introduce compounding errors during sampling and struggle to capture the long-term structure of dance sequences. To address these limitations, we present a novel cascaded motion diffusion model, DiffDance, designed for high-resolution, long-form dance generation. This model comprises a music-to-dance diffusion model and a sequence super-resolution diffusion model. To bridge the gap between music and motion for conditional generation, DiffDance employs a pretrained audio representation learning model to extract music embeddings and further align its embedding space to motion via contrastive loss. During training our cascaded diffusion model, we also incorporate multiple geometric losses to constrain the model outputs to be physically plausible and add a dynamic loss weight that adaptively changes over diffusion timesteps to facilitate sample diversity. Through comprehensive experiments performed on the benchmark dataset AIST++, we demonstrate that DiffDance is capable of generating realistic dance sequences that align effectively with the input music. These results are comparable to those achieved by state-of-the-art autoregressive methods.
翻訳日:2023-08-08 17:59:43 公開日:2023-08-05
# グラフニューラルネットワークとnonextensive entropyを用いたグローバル金融市場の異常検出

Anomaly Detection in Global Financial Markets with Graph Neural Networks and Nonextensive Entropy ( http://arxiv.org/abs/2308.02914v1 )

ライセンス: Link先を確認
Kleyton da Costa(参考訳) 異常検出は、特に多くの変数を持つシステムにおいて、難しい課題である。 異常は分析データと統計的に異なる傾向にあり、まれな事象、故障、システム誤用から生じる可能性がある。 本研究では,非集中エントロピーによる不確実性を考慮したグラフニューラルネットワーク(GNN)を用いて,グローバル金融市場の異常を検出する能力について検討した。 その結果,危機前後における高度に相関する資産の複雑構造は減少し,危機前後の非隣り合わせエントロピーパラメータでは統計的に異常数が異なることがわかった。

Anomaly detection is a challenging task, particularly in systems with many variables. Anomalies are outliers that statistically differ from the analyzed data and can arise from rare events, malfunctions, or system misuse. This study investigated the ability to detect anomalies in global financial markets through Graph Neural Networks (GNN) considering an uncertainty scenario measured by a nonextensive entropy. The main findings show that the complex structure of highly correlated assets decreases in a crisis, and the number of anomalies is statistically different for nonextensive entropy parameters considering before, during, and after crisis.
翻訳日:2023-08-08 17:59:21 公開日:2023-08-05
# Gottesman-Kitaev-Preskill Codesによるボソニック量子誤差補正の進歩:理論・工学・応用

Advances in Bosonic Quantum Error Correction with Gottesman-Kitaev-Preskill Codes: Theory, Engineering and Applications ( http://arxiv.org/abs/2308.02913v1 )

ライセンス: Link先を確認
Anthony J. Brady, Alec Eickbusch, Shraddha Singh, Jing Wu and Quntao Zhuang(参考訳) 量子情報を一組の高調波発振器に符号化することは、信頼性のある量子情報処理のためのノイズを軽減するためのハードウェア効率の良い手法と考えられる。 量子ビットを振動子にエンコードするために、猫符号、二項符号、ゴッテマン・キタエフ・プレスキル(GKP)符号を含む様々な符号が提案されている。 これらのボソニック符号は、量子誤差補正の分岐点に達した最初のものの一つである。 さらに、GKP状態はボソニックチャネルにおける近接-最適量子通信速度を可能にするだけでなく、多くの発振器への発振器の誤り補正を可能にする。 本稿では、超伝導回路アーキテクチャの最近の実験的進歩とマルチモードGKP量子ビット符号と発振器・オシレータ(O2O)符号の理論的進歩に焦点を当て、GKP符号の基本動作機構、性能評価および多くの応用に焦点を当てる。 まず、ボソニック符号に必要な事前の連続変数形式から始める。 次に、GKP状態の物理的実現に関わる量子工学に進む。 本稿では,超伝導アーキテクチャにおけるGKP安定化と準備について深く掘り下げ,光領域におけるGKP状態を実現するための提案について検討する。 最後に、マルチモードGKP量子ビットとGKP-O2O符号を示し、コード性能を調べ、計算、通信、センシングなどの量子情報処理タスクにおけるGKP符号の適用について議論する。

Encoding quantum information into a set of harmonic oscillators is considered a hardware efficient approach to mitigate noise for reliable quantum information processing. Various codes have been proposed to encode a qubit into an oscillator -- including cat codes, binomial codes and Gottesman-Kitaev-Preskill (GKP) codes. These bosonic codes are among the first to reach a break-even point for quantum error correction. Furthermore, GKP states not only enable close-to-optimal quantum communication rates in bosonic channels, but also allow for error correction of an oscillator into many oscillators. This review focuses on the basic working mechanism, performance characterization, and the many applications of GKP codes, with emphasis on recent experimental progress in superconducting circuit architectures and theoretical progress in multimode GKP qubit codes and oscillators-to-oscillators (O2O) codes. We begin with a preliminary continuous-variable formalism needed for bosonic codes. We then proceed to the quantum engineering involved to physically realize GKP states. We take a deep dive into GKP stabilization and preparation in superconducting architectures and examine proposals for realizing GKP states in the optical domain (along with a concise review of GKP realization in trapped-ion platforms). Finally, we present multimode GKP qubits and GKP-O2O codes, examine code performance and discuss applications of GKP codes in quantum information processing tasks such as computing, communication, and sensing.
翻訳日:2023-08-08 17:59:09 公開日:2023-08-05
# フォトニックスピン軌道エンタングルメントによる光渦高調波発生

Optical vortex harmonic generation facilitated by photonic spin-orbit entanglement ( http://arxiv.org/abs/2308.02911v1 )

ライセンス: Link先を確認
Chang Kyun Ha, Eun Mi Kim, Kyoung Jun Moon, and Myeong Soo Kang(参考訳) 光子はスピン軌道結合を受けることができ、電磁場の偏光(スピン)と空間プロファイル(軌道)が相互作用し混合される。 強いフォトニックスピン軌道結合は、光学モードがスピン軌道の絡み合いを特徴とする小さな断面に閉じ込められた光伝播によって生じると考えられている。 しかし、フォトニックハミルトニアンは一般に非線形性を示すが、非線形光学におけるスピン軌道の絡み合いの役割と含意はほとんど注目されず、まだ解明されていない。 本稿では、スピン軌道の絡み合いが異なる光周波数間のスピン-軌道移動を促進する非線形光周波数変換の最初の実験例を報告する。 スピン偏極ガウスポンプビームで多モード光ナノファイバーを励起することにより、等方性媒質において長年禁止されたプロセスとみなされてきた第3高調波で光渦を生成する。 我々の研究は、1つのガウスポンプビームのみを組み込んだ効率的な光渦発生のためのユニークな強力な手段を提供する。 我々の研究は、スピン軌道結合サブ波長導波路の新たな可能性を開き、様々なタイプの構造化光を含む非線形光学の基礎研究を刺激し、テレコムフォトニックネットワークと長寿命量子メモリからなるハイブリッド量子システムの実現への道を開く。

Photons can undergo spin-orbit coupling, by which the polarization (spin) and spatial profile (orbit) of the electromagnetic field interact and mix. Strong photonic spin-orbit coupling may reportedly arise from light propagation confined in a small cross-section, where the optical modes feature spin-orbit entanglement. However, while photonic Hamiltonians generally exhibit nonlinearity, the role and implication of spin-orbit entanglement in nonlinear optics have received little attention and are still elusive. Here, we report the first experimental demonstration of nonlinear optical frequency conversion, where spin-orbit entanglement facilitates spin-to-orbit transfer among different optical frequencies. By pumping a multimode optical nanofiber with a spin-polarized Gaussian pump beam, we produce an optical vortex at the third harmonic, which has long been regarded as a forbidden process in isotropic media. Our findings offer a unique and powerful means for efficient optical vortex generation that only incorporates a single Gaussian pump beam, in sharp contrast to any other approaches employing structured pump fields or sophisticatedly designed media. Our work opens up new possibilities of spin-orbit-coupling subwavelength waveguides, inspiring fundamental studies of nonlinear optics involving various types of structured light, as well as paving the way for the realization of hybrid quantum systems comprised of telecom photonic networks and long-lived quantum memories.
翻訳日:2023-08-08 17:58:38 公開日:2023-08-05
# where and how: スパース入力からの神経放射野の混乱の緩和

Where and How: Mitigating Confusion in Neural Radiance Fields from Sparse Inputs ( http://arxiv.org/abs/2308.02908v1 )

ライセンス: Link先を確認
Yanqi Bao, Yuxin Li, Jing Huo, Tianyu Ding, Xinyue Liang, Wenbin Li and Yang Gao(参考訳) スパース・インプット(NeRF-S)からのニューラル・ラジアンス・フィールドは、観測された視点の限られた新規な視点を合成する大きな可能性を示している。 しかしながら、少ない入力の固有の制限と非隣接ビュー間のギャップのため、レンダリング結果はしばしば過剰なフィッティングと霧のような表面、つまりボリュームレンダリング中に私たちが「融合」と呼ぶ現象に苦しむ。 本稿では,この混乱の根本原因を分析し,その原因を「どこで」と「どのように」の2つの基本的な問いに分類する。 この目的のために,新たな学習フレームワークであるWaH-NeRFを提案する。 サンプルの「場所」は? NeRF-Sでは、限られた視点から生じるサンプル配置の混乱に対処するため、変形可能なサンプリング戦略と重みに基づく相互情報損失を導入する。 (ii)「どのように」予測するか? NeRF-Sでは、ポーズの摂動に基づく半教師付きNeRF学習パラダイムとPixel-Patch対応損失を提案し、トレーニングとテストの視点の相違による予測混乱を軽減する。 提案するモジュールと損失関数を統合することで,従来の方法よりもNeRF-S設定で優れていた。 コードはhttps://github.com/bbbbby-99/WaH-NeRFで入手できる。

Neural Radiance Fields from Sparse input} (NeRF-S) have shown great potential in synthesizing novel views with a limited number of observed viewpoints. However, due to the inherent limitations of sparse inputs and the gap between non-adjacent views, rendering results often suffer from over-fitting and foggy surfaces, a phenomenon we refer to as "CONFUSION" during volume rendering. In this paper, we analyze the root cause of this confusion and attribute it to two fundamental questions: "WHERE" and "HOW". To this end, we present a novel learning framework, WaH-NeRF, which effectively mitigates confusion by tackling the following challenges: (i)"WHERE" to Sample? in NeRF-S -- we introduce a Deformable Sampling strategy and a Weight-based Mutual Information Loss to address sample-position confusion arising from the limited number of viewpoints; and (ii) "HOW" to Predict? in NeRF-S -- we propose a Semi-Supervised NeRF learning Paradigm based on pose perturbation and a Pixel-Patch Correspondence Loss to alleviate prediction confusion caused by the disparity between training and testing viewpoints. By integrating our proposed modules and loss functions, WaH-NeRF outperforms previous methods under the NeRF-S setting. Code is available https://github.com/bbbbby-99/WaH-NeRF.
翻訳日:2023-08-08 17:58:14 公開日:2023-08-05
# FAST: フォント非依存のシーンテキスト編集

FAST: Font-Agnostic Scene Text Editing ( http://arxiv.org/abs/2308.02905v1 )

ライセンス: Link先を確認
Alloy Das, Prasun Roy, Saumik Bhattacharya, Subhankar Ghosh, Umapada Pal, Michael Blumenstein(参考訳) シーンテキスト編集(ste)は困難な研究課題であり、画像の背景や元のテキストのフォントスタイルを維持しつつ、画像中の既存のテキストを変更することを目的としている。 様々な現実的な応用により、近年STEに対するいくつかのアプローチが研究されている。 しかし,既存のSTE手法の多くは,(1)複雑な画像背景,(2)多様なフォントスタイル,(3)テキスト内における単語長の変化など,編集性能が劣っている。 このような編集性能の劣る問題に対処するため,我々はFASTというフォントに依存しない新しいシーンテキスト編集フレームワークを提案し,マスク生成とスタイル転送を組み合わせた自然な外観を保ちながら,任意のスタイルや場所のテキストを同時に生成する。 提案手法は,すべての画素を直接修正するため,既存の手法とは異なる。 代わりに、提案手法では背景の邪魔をなくすフィルタリング機構を導入し、ネットワークが編集が必要なテキスト領域のみに焦点を合わせられるようにした。 さらに、テキストスタイルの転送モジュールは、単語の長さの変化による課題を軽減するように設計されている。 広範囲にわたる実験とアブレーションを行い,提案手法が質的および定量的に既存の手法を上回っていることを実証した。

Scene Text Editing (STE) is a challenging research problem, and it aims to modify existing texts in an image while preserving the background and the font style of the original text of the image. Due to its various real-life applications, researchers have explored several approaches toward STE in recent years. However, most of the existing STE methods show inferior editing performance because of (1) complex image backgrounds, (2) various font styles, and (3) varying word lengths within the text. To address such inferior editing performance issues, in this paper, we propose a novel font-agnostic scene text editing framework, named FAST, for simultaneously generating text in arbitrary styles and locations while preserving a natural and realistic appearance through combined mask generation and style transfer. The proposed approach differs from the existing methods as they directly modify all image pixels. Instead, the proposed method has introduced a filtering mechanism to remove background distractions, allowing the network to focus solely on the text regions where editing is required. Additionally, a text-style transfer module has been designed to mitigate the challenges posed by varying word lengths. Extensive experiments and ablations have been conducted, and the results demonstrate that the proposed method outperforms the existing methods both qualitatively and quantitatively.
翻訳日:2023-08-08 17:57:50 公開日:2023-08-05
# LaDA: ゼロショット言語間ニューラルネットワークモデリングのための潜在対話アクション

LaDA: Latent Dialogue Action For Zero-shot Cross-lingual Neural Network Language Modeling ( http://arxiv.org/abs/2308.02903v1 )

ライセンス: Link先を確認
Zhanyu Ma and Jian Ye and Shuang Cheng(参考訳) 言語間適応は限られた資源を持つ音声言語理解システム(SLU)において有効であることが証明されている。 既存のメソッドは、特にスクリプト、形態、構文のソース言語と大きく異なる遠方の言語では、意図の検出やスロットの充填に不満足であることが多い。 LaDA(Latent Dialogue Action)層は、上記の問題に対処するためにデコード戦略を最適化するために提案される。 このモデルは潜伏対話アクションの付加層から成り立っている。 複雑な多言語インテントと遠方の言語のスロット値で会話を処理できるシステムの性能を向上させることができる。 我々の知る限り、これは復号段階における言語間SLUポリシーの最適化に潜伏変数を用いた最初の徹底的な研究である。 LaDAは、ゼロショットと少数ショットの両方の適応のために、パブリックデータセットの最先端結果を取得する。

Cross-lingual adaptation has proven effective in spoken language understanding (SLU) systems with limited resources. Existing methods are frequently unsatisfactory for intent detection and slot filling, particularly for distant languages that differ significantly from the source language in scripts, morphology, and syntax. Latent Dialogue Action (LaDA) layer is proposed to optimize decoding strategy in order to address the aforementioned issues. The model consists of an additional layer of latent dialogue action. It enables our model to improve a system's capability of handling conversations with complex multilingual intent and slot values of distant languages. To the best of our knowledge, this is the first exhaustive investigation of the use of latent variables for optimizing cross-lingual SLU policy during the decode stage. LaDA obtains state-of-the-art results on public datasets for both zero-shot and few-shot adaptation.
翻訳日:2023-08-08 17:57:30 公開日:2023-08-05
# 安定エコー状態ネットワークのエッジ

Edge of stability echo state networks ( http://arxiv.org/abs/2308.02902v1 )

ライセンス: Link先を確認
Andrea Ceni, Claudio Gallicchio(参考訳) 本稿では,安定エコー状態ネットワーク (edge of stability echo state network, es$^2$n) と呼ばれる新しいリザーバコンピューティング (rc) アーキテクチャを提案する。 導入されたES$2$Nモデルは、(標準ESNのような)非線形貯水池と直交変換を実装する線形貯水池の凸結合として貯水池層を定義することに基づいている。 我々は、導入されたモデルの数学的解析を行い、ES2N写像のヤコビアンの固有スペクトル全体が、制御可能な半径の複素円の環状近傍に含まれることを証明し、この性質を利用して、ES$^2$Nのフォワードダイナミクスが設計によってカオスのエッジに近づきつつあることを示す。 また,本実験により,新たに導入された貯水池モデルにより,理論上の短期記憶容量が最大となることを示す。 同時に、ES$^2$N は、標準 ESN と比較して、メモリと非線形性の間の良好なトレードオフを提供するとともに、自己回帰非線形モデリングにおける性能を大幅に改善することを示した。

In this paper, we propose a new Reservoir Computing (RC) architecture, called the Edge of Stability Echo State Network (ES$^2$N). The introduced ES$^2$N model is based on defining the reservoir layer as a convex combination of a nonlinear reservoir (as in the standard ESN), and a linear reservoir that implements an orthogonal transformation. We provide a thorough mathematical analysis of the introduced model, proving that the whole eigenspectrum of the Jacobian of the ES2N map can be contained in an annular neighbourhood of a complex circle of controllable radius, and exploit this property to demonstrate that the ES$^2$N's forward dynamics evolves close to the edge-of-chaos regime by design. Remarkably, our experimental analysis shows that the newly introduced reservoir model is able to reach the theoretical maximum short-term memory capacity. At the same time, in comparison to standard ESN, ES$^2$N is shown to offer a favorable trade-off between memory and nonlinearity, as well as a significant improvement of performance in autoregressive nonlinear modeling.
翻訳日:2023-08-08 17:57:17 公開日:2023-08-05
# dPASP:ニューロシンボリックラーニングと推論のための総合的微分確率的アンサーセットプログラミング環境

dPASP: A Comprehensive Differentiable Probabilistic Answer Set Programming Environment For Neurosymbolic Learning and Reasoning ( http://arxiv.org/abs/2308.02944v1 )

ライセンス: Link先を確認
Renato Lui Geh, Jonas Gon\c{c}alves, Igor Cataneo Silveira, Denis Deratani Mau\'a, Fabio Gagliardi Cozman(参考訳) 本稿では,ニューロシンボリック推論のための新しい宣言的確率論的論理プログラミングフレームワークdPASPを提案する。 このフレームワークは、神経述語、論理的制約、間隔値の確率的選択を含む離散確率的モデルの仕様化を可能にし、低レベルの知覚(イメージ、テキストなど)、常識的推論、および(ヴォーグ)統計的知識を組み合わせたモデルをサポートする。 これら全ての機能をサポートするために,非決定論的,矛盾的,不完全,統計的知識を表現できる確率的論理プログラムのためのいくつかの意味論について論じる。 また,神経述語を用いた勾配ベースの学習と,選択された意味論に基づく確率的選択について論じる。 次に、言語での推論と学習をサポートする実装パッケージと、いくつかのサンプルプログラムについて説明する。 このパッケージでは、深層学習システムの内部動作に関する最小限のユーザー知識を必要とすると同時に、かなり洗練されたモデルと損失関数のエンドツーエンドのトレーニングを可能にする。

We present dPASP, a novel declarative probabilistic logic programming framework for differentiable neuro-symbolic reasoning. The framework allows for the specification of discrete probabilistic models with neural predicates, logic constraints and interval-valued probabilistic choices, thus supporting models that combine low-level perception (images, texts, etc), common-sense reasoning, and (vague) statistical knowledge. To support all such features, we discuss the several semantics for probabilistic logic programs that can express nondeterministic, contradictory, incomplete and/or statistical knowledge. We also discuss how gradient-based learning can be performed with neural predicates and probabilistic choices under selected semantics. We then describe an implemented package that supports inference and learning in the language, along with several example programs. The package requires minimal user knowledge of deep learning system's inner workings, while allowing end-to-end training of rather sophisticated models and loss functions.
翻訳日:2023-08-08 17:51:32 公開日:2023-08-05
# 量子電磁力学における散乱振幅を超えたゴースト絡みの観測

Observing ghost entanglement beyond scattering amplitudes in quantum electrodynamics ( http://arxiv.org/abs/2308.02942v1 )

ライセンス: Link先を確認
Chiara Marletto and Vlatko Vedral(参考訳) 電荷間の相互作用の完全な局所的な量子計算では、ローレンツゲージ内の電磁ベクトルポテンシャルの4つのモードをすべて使用する必要がある。 However, it is frequently stated that only the two transverse modes of the vector potential are ``real" in that they contain photons that can actually be detected. The photons present in the other two modes, the scalar and the longitudinal, are considered unobservable, and are referred to as ``virtual particles" or ``ghosts". Here we argue that this view is erroneous and that even these modes can, in fact, be observed. We present an experiment which is designed to measure the entanglement generated between a charge and the scalar modes. This entanglement is a direct function of the number of photons present in the scalar field. Our conclusion therefore is that the scalar quantum variables are as ``real" as the transverse ones, where reality is defined by their ability to affect the charge. この顕著な結果は、局所的な手段によって137個の電子を含む電荷よりも大きい電荷の重畳を検出できないことである。

A fully local quantum account of the interactions experienced between charges requires us to use all the four modes of the electromagnetic vector potential, in the Lorenz gauge. However, it is frequently stated that only the two transverse modes of the vector potential are ``real" in that they contain photons that can actually be detected. The photons present in the other two modes, the scalar and the longitudinal, are considered unobservable, and are referred to as ``virtual particles" or ``ghosts". Here we argue that this view is erroneous and that even these modes can, in fact, be observed. We present an experiment which is designed to measure the entanglement generated between a charge and the scalar modes. This entanglement is a direct function of the number of photons present in the scalar field. Our conclusion therefore is that the scalar quantum variables are as ``real" as the transverse ones, where reality is defined by their ability to affect the charge. A striking consequence of this is that we cannot detect by local means a superposition of a charge bigger than that containing 137 electrons.
翻訳日:2023-08-08 17:51:13 公開日:2023-08-05
# 天然ガス産業における不確実性定量化プロトコルの開発に向けて

Towards the Development of an Uncertainty Quantification Protocol for the Natural Gas Industry ( http://arxiv.org/abs/2308.02941v1 )

ライセンス: Link先を確認
Babajide Kolade(参考訳) 機械学習(ml)モデルと機械モデルを用いたシミュレーションは、意思決定プロセスを伝えるためにしばしば行われる。 シミュレーション結果の不確実性は、特定のシナリオのシミュレーション結果が、その後の分析や決定に影響を及ぼす広い、しかし不特定な信頼範囲を持つ可能性があるため、意思決定プロセスにとって重要である。 本研究の目的は、機械学習および機械シミュレーションモデルの予測の不確実性を評価するプロトコルを開発することである。 このプロトコルは不確実な定量化ワークフローを概説し、計算された関心量に対する予測可能性の信頼できる境界を確立し、モデルの十分性を評価するのに使用できる。 このプロトコルは、機械学習とメカニスティックモデリングにおける重要な不確実性ソースを特定し、これらのソースに対して適用可能な不確実性伝播方法を定義し、出力不確実性に対する統計的に合理的な推定器を含む。 この研究は、ガス流通産業に関連する事例のテストにプロトコルを適用し、その応用から学んだことを提示する。 この論文は、業界内で不確実性定量化を広く採用するための道筋を概説する短い議論で締めくくっている。

Simulations using machine learning (ML) models and mechanistic models are often run to inform decision-making processes. Uncertainty estimates of simulation results are critical to the decision-making process because simulation results of specific scenarios may have wide, but unspecified, confidence bounds that may impact subsequent analyses and decisions. The objective of this work is to develop a protocol to assess uncertainties in predictions of machine learning and mechanistic simulation models. The protocol will outline an uncertainty quantification workflow that may be used to establish credible bounds of predictability on computed quantities of interest and to assess model sufficiency. The protocol identifies key sources of uncertainties in machine learning and mechanistic modeling, defines applicable methods of uncertainty propagation for these sources, and includes statistically rational estimators for output uncertainties. The work applies the protocol to test cases relevant to the gas distribution industry and presents learnings from its application. The paper concludes with a brief discussion outlining a pathway to the wider adoption of uncertainty quantification within the industry
翻訳日:2023-08-08 17:50:59 公開日:2023-08-05
# 暗い肌の個人が街路でより危険にさらされる―自動運転システムの公正性問題

Dark-Skin Individuals Are at More Risk on the Street: Unmasking Fairness Issues of Autonomous Driving Systems ( http://arxiv.org/abs/2308.02935v1 )

ライセンス: Link先を確認
Xinyue Li and Zhenpeng Chen and Jie M. Zhang and Federica Sarro and Ying Zhang and Xuanzhe Liu(参考訳) 本稿では,自律走行システムにおける重要な課題である自動歩行者検出の公平性試験を行う。 大規模実世界のデータセット上で,人口集団間で広く研究されている8つの歩行者検出器を評価した。 その結果、16,070の性別ラベル、20,115の年齢ラベル、3,513の肌色ラベルを持つ8,311の画像が得られた。 以上の結果から,年齢や肌の色調に有意な公平性が認められた。 成人の検知精度は小児に比べて19.67%高く、光肌と暗肌の差は7.52%である。 しかし、性別は検出精度が1.1%しか差がない。 さらに、自律走行テストの文献で考察された一般的なシナリオを調査し、暗い肌の歩行者に対するバイアスが、低いコントラストと低い輝度のシナリオで著しく増加することを見出した。 我々は、自動運転の公正性に関する将来の研究を支援するために、コード、データ、結果を公開します。

This paper conducts fairness testing on automated pedestrian detection, a crucial but under-explored issue in autonomous driving systems. We evaluate eight widely-studied pedestrian detectors across demographic groups on large-scale real-world datasets. To enable thorough fairness testing, we provide extensive annotations for the datasets, resulting in 8,311 images with 16,070 gender labels, 20,115 age labels, and 3,513 skin tone labels. Our findings reveal significant fairness issues related to age and skin tone. The detection accuracy for adults is 19.67% higher compared to children, and there is a 7.52% accuracy disparity between light-skin and dark-skin individuals. Gender, however, shows only a 1.1% difference in detection accuracy. Additionally, we investigate common scenarios explored in the literature on autonomous driving testing, and find that the bias towards dark-skin pedestrians increases significantly under scenarios of low contrast and low brightness. We publicly release the code, data, and results to support future research on fairness in autonomous driving.
翻訳日:2023-08-08 17:50:42 公開日:2023-08-05
# nussbaum-szko{\l}a分布による量子$f$-divergencesと$f$-divergence不等式への応用

Quantum $f$-divergences via Nussbaum-Szko{\l}a Distributions and Applications to $f$-divergence Inequalities ( http://arxiv.org/abs/2308.02929v1 )

ライセンス: Link先を確認
George Androulakis, Tiju Cherian John(参考訳) この記事の主な結果は、2つの状態の量子的$f$-divergenceが、対応するnussbaum-szko{\l}a分布の古典的$f$-divergenceに等しいことを示している。 これは、対応する古典的実体を用いて量子エントロピー量の特定の性質を研究するための一般的な枠組みを提供する。 主な結果の有用性は、古典的結果からいくつかの量子 f$-divergence の不等式を得ることによって示される。 ここで示されるすべての結果は有限次元と無限次元の両方で有効であり、従って連続変数系にも適用できる。 本論文では,nussbaum-szko{\l}a分布を用いた文献の包括的考察についても述べる。

The main result in this article shows that the quantum $f$-divergence of two states is equal to the classical $f$-divergence of the corresponding Nussbaum-Szko{\l}a distributions. This provides a general framework for studying certain properties of quantum entropic quantities using the corresponding classical entities. The usefulness of the main result is illustrated by obtaining several quantum $f$-divergence inequalities from their classical counterparts. All results presented here are valid in both finite and infinite dimensions and hence can be applied to continuous variable systems as well. A comprehensive review of the instances in the literature where Nussbaum-Szko{\l}a distributions are used, is also provided in this article.
翻訳日:2023-08-08 17:50:23 公開日:2023-08-05
# 密検索のための一貫性フィルタリングフリー教師なし学習に向けて

Towards Consistency Filtering-Free Unsupervised Learning for Dense Retrieval ( http://arxiv.org/abs/2308.02926v1 )

ライセンス: Link先を確認
Haoxiang Shi, Sumio Fujita and Tetsuya Sakai(参考訳) ドメイン転送は、現代の神経情報検索(IR)において一般的な課題である。 この問題を解決するために、従来の研究では、整合フィルタリングによって生成されたドメイン固有の手動アノテーションと合成データを用いて、一般的なランク付けを微調整し、ドメイン固有のランク付けを生成する。 しかし、そのような整合性フィルタのトレーニングは計算コストが高く、モデル効率を大幅に低下させる。 さらに、一貫性フィルタリングは、しばしば検索意図を特定し、ターゲットドメイン内のクエリとコーパス分布を認識するのに苦労する。 本研究では,一貫性フィルタを直接擬似ラベル法,疑似関係フィードバック法,非教師付きキーワード生成法のいずれかに置き換え,一貫性のない教師なし密検索を実現する。 実験により,TextRankをベースとした擬似関連フィードバックが他の手法よりも優れていることを示す。 さらに,提案手法の学習効率と推論効率について検討した。 その結果,フィルタリングフリーな教師なし学習は,検索性能を維持しつつ,訓練や推論の効率を継続的に改善できることがわかった。 場合によっては、特定のデータセットに基づいてパフォーマンスを改善することもできる。

Domain transfer is a prevalent challenge in modern neural Information Retrieval (IR). To overcome this problem, previous research has utilized domain-specific manual annotations and synthetic data produced by consistency filtering to finetune a general ranker and produce a domain-specific ranker. However, training such consistency filters are computationally expensive, which significantly reduces the model efficiency. In addition, consistency filtering often struggles to identify retrieval intentions and recognize query and corpus distributions in a target domain. In this study, we evaluate a more efficient solution: replacing the consistency filter with either direct pseudo-labeling, pseudo-relevance feedback, or unsupervised keyword generation methods for achieving consistent filtering-free unsupervised dense retrieval. Our extensive experimental evaluations demonstrate that, on average, TextRank-based pseudo relevance feedback outperforms other methods. Furthermore, we analyzed the training and inference efficiency of the proposed paradigm. The results indicate that filtering-free unsupervised learning can continuously improve training and inference efficiency while maintaining retrieval performance. In some cases, it can even improve performance based on particular datasets.
翻訳日:2023-08-08 17:50:09 公開日:2023-08-05
# convformer:シーケンシャルユーザモデリングのための再検討トランスフォーマ

ConvFormer: Revisiting Transformer for Sequential User Modeling ( http://arxiv.org/abs/2308.02925v1 )

ライセンス: Link先を確認
Hao Wang, Jianxun Lian, Mingqi Wu, Haoxuan Li, Jiajun Fan, Wanyue Xu, Chaozhuo Li, Xing Xie(参考訳) パーソナライズされたレコメンデーションシステムにおいて重要なタスクであるシーケンシャルなユーザモデリングは、ユーザが好む次の項目を予測することに焦点を当て、ユーザの行動シーケンスを深く理解する必要がある。 様々なドメインにわたるトランスフォーマーベースのモデルが著しく成功したにもかかわらず、ユーザ動作の理解におけるその潜在能力は未解決のままである。 本稿では,最先端性能向上を目的とした変圧器ライクなアーキテクチャを再検討する。 まず、Transformerベースのメソッドのコアビルディングブロックを再検討し、シーケンシャルなユーザモデリングのコンテキスト内でアイテム・ツー・イテム・メカニズムの有効性を分析する。 徹底的な実験分析を行い、効率的なシーケンシャルなユーザーモデルを考案するための3つの重要な基準を特定し、将来のデザインをインスピレーションし形作るための実践的ガイドラインとして機能することを期待する。 次に,これらの基準を満たした,シンプルかつ強力なトランスフォーマアーキテクチャ修正であるconvformerを導入する。 さらに,超長いシーケンスの処理に伴う複雑性を最小化する高速化手法を提案する。 4つの公開データセットの実験では、ConvFormerの優位性を示し、提案した基準の有効性を確認する。

Sequential user modeling, a critical task in personalized recommender systems, focuses on predicting the next item a user would prefer, requiring a deep understanding of user behavior sequences. Despite the remarkable success of Transformer-based models across various domains, their full potential in comprehending user behavior remains untapped. In this paper, we re-examine Transformer-like architectures aiming to advance state-of-the-art performance. We start by revisiting the core building blocks of Transformer-based methods, analyzing the effectiveness of the item-to-item mechanism within the context of sequential user modeling. After conducting a thorough experimental analysis, we identify three essential criteria for devising efficient sequential user models, which we hope will serve as practical guidelines to inspire and shape future designs. Following this, we introduce ConvFormer, a simple but powerful modification to the Transformer architecture that meets these criteria, yielding state-of-the-art results. Additionally, we present an acceleration technique to minimize the complexity associated with processing extremely long sequences. Experiments on four public datasets showcase ConvFormer's superiority and confirm the validity of our proposed criteria.
翻訳日:2023-08-08 17:49:49 公開日:2023-08-05
# 新興ゼロタッチセルラーネットワークにおける巧妙なmdtベースの攻撃を防御するai対応フレームワーク

An AI-Enabled Framework to Defend Ingenious MDT-based Attacks on the Emerging Zero Touch Cellular Networks ( http://arxiv.org/abs/2308.02923v1 )

ライセンス: Link先を確認
Aneeqa Ijaz, Waseem Raza, Hasan Farooq, Marvin Manalastas, Ali Imran(参考訳) 自己組織化ネットワーク(son)の機能と、ゼロタッチオートメーションソリューションなどの新たなバリエーションによって提供されるディープオートメーションは、ますます密集したワイヤレスネットワークとiot(internet of things)の主要な実現手段である。 目的を達成するために、ほとんどの自動化機能は、ドライブテストの最小化(MDT)レポートに依存している。 mdtレポートは、ネットワークの状態とパフォーマンスに関する推論を生成するために使用され、それに従ってネットワークパラメータが動的に変化する。 しかし、コモディティユーザデバイス、特に低コストのIoTデバイスからのMDTレポートの収集は、新興の深層自動化無線ネットワークに対する敵の攻撃を開始するための脆弱なエントリポイントとなる。 これにより、IoTおよびセルネットワークのセキュリティ脅威に新たな次元が加えられる。 IoT、SON、あるいはゼロタッチ自動化に関する既存の文献は、この重要な問題に対処していない。 本稿では,悪質なMDTレポートを漏洩したユーザ機器(UE)から悪質なMDTレポートを悪用することにより,その攻撃の第一弾となる影響を調査する。 我々は、この攻撃が共通のネットワーク自動化機能の性能に与える影響を強調した。 また、機械学習を用いて悪意のあるMDTレポートを検出し、排除し、使用事例を通じて検証するための新しいMDTレポート識別フレームワーク(MRIF)を提案する。 したがって、防御機構は、反対MDT攻撃に対するゼロタッチ自動化SONエンジンの弾力性と堅牢性を提供することができる。

Deep automation provided by self-organizing network (SON) features and their emerging variants such as zero touch automation solutions is a key enabler for increasingly dense wireless networks and pervasive Internet of Things (IoT). To realize their objectives, most automation functionalities rely on the Minimization of Drive Test (MDT) reports. The MDT reports are used to generate inferences about network state and performance, thus dynamically change network parameters accordingly. However, the collection of MDT reports from commodity user devices, particularly low cost IoT devices, make them a vulnerable entry point to launch an adversarial attack on emerging deeply automated wireless networks. This adds a new dimension to the security threats in the IoT and cellular networks. Existing literature on IoT, SON, or zero touch automation does not address this important problem. In this paper, we investigate an impactful, first of its kind adversarial attack that can be launched by exploiting the malicious MDT reports from the compromised user equipment (UE). We highlight the detrimental repercussions of this attack on the performance of common network automation functions. We also propose a novel Malicious MDT Reports Identification framework (MRIF) as a countermeasure to detect and eliminate the malicious MDT reports using Machine Learning and verify it through a use-case. Thus, the defense mechanism can provide the resilience and robustness for zero touch automation SON engines against the adversarial MDT attacks
翻訳日:2023-08-08 17:49:28 公開日:2023-08-05
# 一般化線形モデルのための構造付き低ランクテンソル

Structured Low-Rank Tensors for Generalized Linear Models ( http://arxiv.org/abs/2308.02922v1 )

ライセンス: Link先を確認
Batoul Taki, Anand D. Sarwate, and Waheed U. Bajwa(参考訳) 近年の研究では、回帰問題における係数テンソルにテンソル構造を導入すると、ベクトル法に比べてより信頼性の高いパラメータ推定とサンプル複雑性の低下につながることが示されている。 一般化線形モデル(GLM)問題における低分離ランク(LSR)と呼ばれる新しい低ランクテンソルモデルについて検討する。 有名なTuckerとCANDECOMP/PARAFAC(CP)モデルを一般化したLSRモデルは、ブロックテンソル分解(BTD)モデルの特別なケースであり、GLMモデルの係数テンソルに課される。 本研究では, LSR 構造テンソル GLM におけるパラメータ推定のためのブロック座標降下アルゴリズムを提案する。 最も重要なことは、LSRテンソルGLM問題の係数テンソルを推定する際の誤差しきい値の最小値の下界を導出する。 ミニマックス境界は、LSRテンソル GLM 問題における固有自由度に比例し、そのサンプルの複雑さはベクトル化された GLM のそれよりも著しく低い可能性があることを示唆している。 この結果は、CP および Tucker 構造 GLM における推定誤差を下げることにも特化できる。 導出境界はタッカー線形回帰の文献におけるタイト境界に匹敵するものであり、ミニマックス下限のタイト性はさらに数値的に評価される。 最後に、合成データセットに関する数値実験により、3つの回帰型(線形、ロジスティック、ポアソン)に対して提案したLSRテンソルモデルの有効性が示された。 医用画像データセットのコレクションに関する実験は、限られたサンプルの実際の不均衡データに対して、他のテンソルモデル(tuckerおよびcp)よりもlsrモデルの有用性を示す。

Recent works have shown that imposing tensor structures on the coefficient tensor in regression problems can lead to more reliable parameter estimation and lower sample complexity compared to vector-based methods. This work investigates a new low-rank tensor model, called Low Separation Rank (LSR), in Generalized Linear Model (GLM) problems. The LSR model -- which generalizes the well-known Tucker and CANDECOMP/PARAFAC (CP) models, and is a special case of the Block Tensor Decomposition (BTD) model -- is imposed onto the coefficient tensor in the GLM model. This work proposes a block coordinate descent algorithm for parameter estimation in LSR-structured tensor GLMs. Most importantly, it derives a minimax lower bound on the error threshold on estimating the coefficient tensor in LSR tensor GLM problems. The minimax bound is proportional to the intrinsic degrees of freedom in the LSR tensor GLM problem, suggesting that its sample complexity may be significantly lower than that of vectorized GLMs. This result can also be specialised to lower bound the estimation error in CP and Tucker-structured GLMs. The derived bounds are comparable to tight bounds in the literature for Tucker linear regression, and the tightness of the minimax lower bound is further assessed numerically. Finally, numerical experiments on synthetic datasets demonstrate the efficacy of the proposed LSR tensor model for three regression types (linear, logistic and Poisson). Experiments on a collection of medical imaging datasets demonstrate the usefulness of the LSR model over other tensor models (Tucker and CP) on real, imbalanced data with limited available samples.
翻訳日:2023-08-08 17:49:03 公開日:2023-08-05
# 一般マルチウェイ比較に基づくスペクトルランキング推定

Spectral Ranking Inferences based on General Multiway Comparisons ( http://arxiv.org/abs/2308.02918v1 )

ライセンス: Link先を確認
Jianqing Fan, Zhipeng Lou, Weichen Wang, Mengxin Yu(参考訳) 本稿では,比較グラフが不均質な大きさの超エッジと与えられた超エッジとで構成される非常に一般的かつ現実的な構成において,比較対象の観測されていない選好スコアの推定と不確かさの定量化におけるスペクトル法の性能について検討する。 このような設定は、実アプリケーションでは広く行き渡っており、グラフのランダム性や、一般的に使用されるブラッドリー・テリー・ルース(btl)やプラケット・ルース(pl)モデルに課される制限的な均質なサンプリング仮定を回避している。 さらに,BTLモデルやPLモデルが適切である場合,スペクトル推定器とMLE(Maximum Likelihood Estimator)の関係を明らかにする。 等重化バニラスペクトル法から推定される最適重み付けを2段階のスペクトル法で適用することで,MLEと同じ漸近効率が得られることがわかった。 推定された選好スコアの漸近分布を考えると、固定グラフとランダムグラフの設定の両方に適用可能な1サンプルと2サンプルの両方のランク付けを行うための包括的なフレームワークも導入する。 有効な2サンプルランク試験法が提案されたのはこれが初めてである。 最後に,本研究の成果を総合的な数値シミュレーションにより検証し,その後,統計雑誌や映画ランキングの統計的推測に応用した。

This paper studies the performance of the spectral method in the estimation and uncertainty quantification of the unobserved preference scores of compared entities in a very general and more realistic setup in which the comparison graph consists of hyper-edges of possible heterogeneous sizes and the number of comparisons can be as low as one for a given hyper-edge. Such a setting is pervasive in real applications, circumventing the need to specify the graph randomness and the restrictive homogeneous sampling assumption imposed in the commonly-used Bradley-Terry-Luce (BTL) or Plackett-Luce (PL) models. Furthermore, in the scenarios when the BTL or PL models are appropriate, we unravel the relationship between the spectral estimator and the Maximum Likelihood Estimator (MLE). We discover that a two-step spectral method, where we apply the optimal weighting estimated from the equal weighting vanilla spectral method, can achieve the same asymptotic efficiency as the MLE. Given the asymptotic distributions of the estimated preference scores, we also introduce a comprehensive framework to carry out both one-sample and two-sample ranking inferences, applicable to both fixed and random graph settings. It is noteworthy that it is the first time effective two-sample rank testing methods are proposed. Finally, we substantiate our findings via comprehensive numerical simulations and subsequently apply our developed methodologies to perform statistical inferences on statistics journals and movie rankings.
翻訳日:2023-08-08 17:48:35 公開日:2023-08-05
# オンラインゲームにおける中国の検閲とその回避に関する研究

A Study of China's Censorship and Its Evasion Through the Lens of Online Gaming ( http://arxiv.org/abs/2308.02961v1 )

ライセンス: Link先を確認
Yuzhou Feng and Ruyu Zhai and Radu Sion and Bogdan Carbunar(参考訳) 過去20年間、中国は未成年者のオンラインゲームへのアクセスを中毒予防システム(APSe)を使って制限してきた。 同時に、また異なる手段、すなわち中国のグレートファイアウォール(GFW)を通じて、国際インターネットへの一般市民のアクセスを制限している。 本稿では,これらの制限が若者のオンラインゲーマーとその回避活動に与える影響について検討する。 調査 (n = 2,415) と半構造化インタビュー (n = 35) の結果, 一般的に展開されているAPS回避技術とAPS脆弱性が明らかになった。 我々は、APSは、非常に若いオンラインゲームプレイヤーに対してさえも、設計通りに機能せず、一般的な回避技術に慣れ親しんだり、危険への脱感を与えることで、明日の成人のための検閲回避訓練場として機能することができると結論付けた。 これらの研究から得られた知見は、検閲に抵抗するシステムの開発者に対して、将来のユーザの認識と回避戦略についてさらに情報を与え、検閲対象の聴衆に人気があるサービスやプラットフォームを活用するツールの設計を支援するかもしれない。

For the past 20 years, China has increasingly restricted the access of minors to online games using addiction prevention systems (APSes). At the same time, and through different means, i.e., the Great Firewall of China (GFW), it also restricts general population access to the international Internet. This paper studies how these restrictions impact young online gamers, and their evasion efforts. We present results from surveys (n = 2,415) and semi-structured interviews (n = 35) revealing viable commonly deployed APS evasion techniques and APS vulnerabilities. We conclude that the APS does not work as designed, even against very young online game players, and can act as a censorship evasion training ground for tomorrow's adults, by familiarization with and normalization of general evasion techniques, and desensitization to their dangers. Findings from these studies may further inform developers of censorship-resistant systems about the perceptions and evasion strategies of their prospective users, and help design tools that leverage services and platforms popular among the censored audience.
翻訳日:2023-08-08 17:40:34 公開日:2023-08-05
# 建物抽出と高さ推定のためのマルチタスク学習のためのデータ融合

Data Fusion for Multi-Task Learning of Building Extraction and Height Estimation ( http://arxiv.org/abs/2308.02960v1 )

ライセンス: Link先を確認
Saad Ahmed Jamal, Arioluwa Aribisala(参考訳) 本稿では,dfc23トラック2コンテストで提案された都市復興問題に基づき,光学衛星画像とレーダー画像の両方を用いた建物抽出と高さ推定のマルチタスク学習手法を提案する。 特徴を再利用し,複数のタスク間の暗黙の制約を形成することで,より優れたソリューションを提供することができるマルチタスク学習の初期目標とは対照的に,本論文では,ビルディング抽出と高さ推定の個別実装について報告する。 設計実験の結果, 建物抽出と高さ推定の基準値が有意に増加した。

In accordance with the urban reconstruction problem proposed by the DFC23 Track 2 Contest, this paper attempts a multitask-learning method of building extraction and height estimation using both optical and radar satellite imagery. Contrary to the initial goal of multitask learning which could potentially give a superior solution by reusing features and forming implicit constraints between multiple tasks, this paper reports the individual implementation of the building extraction and height estimation under constraints. The baseline results for the building extraction and the height estimation significantly increased after designed experiments.
翻訳日:2023-08-08 17:40:16 公開日:2023-08-05
# dermosegdiff : 皮膚病変郭清のための境界認識セグメンテーション拡散モデル

DermoSegDiff: A Boundary-aware Segmentation Diffusion Model for Skin Lesion Delineation ( http://arxiv.org/abs/2308.02959v1 )

ライセンス: Link先を確認
Afshin Bozorgpour and Yousef Sadegheih and Amirhossein Kazerouni and Reza Azad and Dorit Merhof(参考訳) 皮膚病変の分節は皮膚疾患の早期発見と正確な診断において重要な役割を担っている。 Denoising Diffusion Probabilistic Models (DDPM) は画像生成能力に注目されている。 これらの進歩に基づいて,学習過程における境界情報を含む皮膚病変分類のための新しいフレームワークであるDermoSegDiffを提案する。 提案手法では,トレーニング中に境界線を優先する新たな損失関数を導入し,他の領域の重要性を徐々に低減する。 また,ネットワーク内のノイズやセマンティック情報を巧みに統合する,U-Netベースの新しい denoising Networkを導入している。 複数の皮膚セグメンテーションデータセットの実験結果は、既存のCNN、トランスフォーマー、拡散に基づくアプローチよりもDermoSegDiffの方が優れていることを示した。 実装は \href{https://github.com/mindflow-institue/dermosegdiff}{GitHub} で公開されている。

Skin lesion segmentation plays a critical role in the early detection and accurate diagnosis of dermatological conditions. Denoising Diffusion Probabilistic Models (DDPMs) have recently gained attention for their exceptional image-generation capabilities. Building on these advancements, we propose DermoSegDiff, a novel framework for skin lesion segmentation that incorporates boundary information during the learning process. Our approach introduces a novel loss function that prioritizes the boundaries during training, gradually reducing the significance of other regions. We also introduce a novel U-Net-based denoising network that proficiently integrates noise and semantic information inside the network. Experimental results on multiple skin segmentation datasets demonstrate the superiority of DermoSegDiff over existing CNN, transformer, and diffusion-based approaches, showcasing its effectiveness and generalization in various scenarios. The implementation is publicly accessible on \href{https://github.com/mindflow-institue/dermosegdiff}{GitHub}
翻訳日:2023-08-08 17:40:07 公開日:2023-08-05
# K-band: K-space サブセット上の確率勾配Descent による自己教師型MRI再構成

K-band: Self-supervised MRI Reconstruction via Stochastic Gradient Descent over K-space Subsets ( http://arxiv.org/abs/2308.02958v1 )

ライセンス: Link先を確認
Frederic Wang, Han Qi, Alfredo De Goyeneche, Reinhard Heckel, Michael Lustig, and Efrat Shimron(参考訳) ディープラーニング(DL)手法は逆問題の解決には強力だが,高品質なトレーニングデータへの依存が大きなハードルとなっている。 これは高次元(ダイナミック/ボルメトリー)磁気共鳴イメージング(MRI)において重要であり、高分解能完全サンプリングk空間データの取得は現実的ではない。 我々はkバンドと呼ばれる新しい数学的枠組みを導入し、部分的かつ限定的なk空間データのみを用いてDLモデルを訓練する。 具体的には、k-空間部分集合上の確率勾配降下(SGD)によるトレーニングを導入する。 各トレーニングイテレーションでは、完全にサンプリングされたk空間を勾配を計算する代わりに、小さなk空間の部分のみを使用する。 この概念は、異なるサンプリング戦略と互換性がある。ここでは、k空間の「バンド」の方法を示す。 本手法は, 2つの単純な条件を満たした場合に, 完全に教師付きで計算された勾配を確率的に近似することを解析的に証明する。 (i)新しいスキャン毎に限定解像度軸がランダムにランダムに選択されるので、k空間はトレーニングセット全体にわたって完全にカバーされる。 (ii) 損失関数は分析的に導出されるマスクで重み付けされ, 高精度な詳細な再構成が容易である。 生MRIデータを用いた数値実験により、kバンドは限定分解能データで訓練された他の2つの方法より優れており、高分解能データで訓練された最先端(SoTA)法と互換性があることが示された。 そのため、kバンドは、限られた解像度のデータのみを使用したトレーニングの利点により、SoTAの性能を得る。 この研究は、実践的で実装が容易な自己監督型トレーニングフレームワークを導入し、迅速な獲得と自己監督型再構築を伴い、理論的保証を提供する。

Although deep learning (DL) methods are powerful for solving inverse problems, their reliance on high-quality training data is a major hurdle. This is significant in high-dimensional (dynamic/volumetric) magnetic resonance imaging (MRI), where acquisition of high-resolution fully sampled k-space data is impractical. We introduce a novel mathematical framework, dubbed k-band, that enables training DL models using only partial, limited-resolution k-space data. Specifically, we introduce training with stochastic gradient descent (SGD) over k-space subsets. In each training iteration, rather than using the fully sampled k-space for computing gradients, we use only a small k-space portion. This concept is compatible with different sampling strategies; here we demonstrate the method for k-space "bands", which have limited resolution in one dimension and can hence be acquired rapidly. We prove analytically that our method stochastically approximates the gradients computed in a fully-supervised setup, when two simple conditions are met: (i) the limited-resolution axis is chosen randomly-uniformly for every new scan, hence k-space is fully covered across the entire training set, and (ii) the loss function is weighed with a mask, derived here analytically, which facilitates accurate reconstruction of high-resolution details. Numerical experiments with raw MRI data indicate that k-band outperforms two other methods trained on limited-resolution data and performs comparably to state-of-the-art (SoTA) methods trained on high-resolution data. k-band hence obtains SoTA performance, with the advantage of training using only limited-resolution data. This work hence introduces a practical, easy-to-implement, self-supervised training framework, which involves fast acquisition and self-supervised reconstruction and offers theoretical guarantees.
翻訳日:2023-08-08 17:39:50 公開日:2023-08-05
# 誰が賢いの? AIに基づくスマートコントラクト作成に関する実証的研究

Who is Smarter? An Empirical Study of AI-based Smart Contract Creation ( http://arxiv.org/abs/2308.02955v1 )

ライセンス: Link先を確認
Rabimba Karanjai, Edward Li, Lei Xu, Weidong Shi(参考訳) chatgptやgoogle palm2のような大規模言語モデル(llm)をスマートコントラクト生成に導入することは、aiペアプログラマの最初の確立された例のようだ。 LLMは多数のオープンソーススマートコントラクトにアクセスでき、他のコード生成ツールよりもより広範なコードをSolidityで利用することができる。 スマートコントラクト生成のためのLCMの初期的および非公式な評価は有望であるが,これらのモデルの限界と利点を検討するためには,体系的な評価が必要である。 本研究の目的は,LLMによるスマートコントラクトのための生成コードの品質を評価することである。 また、LLMに供給される入力パラメータの品質と多様性の影響を評価することを目的とする。 この目的を達成するために、有効性、正確性、効率の観点から生成されたコードを評価する実験的なセットアップを作成しました。 我々の研究は、生成されたスマートコントラクトにセキュリティバグが導入されるという重要な証拠と、コードが影響を受けている全体的な品質と正確性を発見した。 しかし、我々は改善できる領域も特定した。 また,生成したスマートコントラクトコードのプロセス,品質,安全性を改善するためのいくつかの研究方向を提案する。

The introduction of large language models (LLMs) like ChatGPT and Google Palm2 for smart contract generation seems to be the first well-established instance of an AI pair programmer. LLMs have access to a large number of open-source smart contracts, enabling them to utilize more extensive code in Solidity than other code generation tools. Although the initial and informal assessments of LLMs for smart contract generation are promising, a systematic evaluation is needed to explore the limits and benefits of these models. The main objective of this study is to assess the quality of generated code provided by LLMs for smart contracts. We also aim to evaluate the impact of the quality and variety of input parameters fed to LLMs. To achieve this aim, we created an experimental setup for evaluating the generated code in terms of validity, correctness, and efficiency. Our study finds crucial evidence of security bugs getting introduced in the generated smart contracts as well as the overall quality and correctness of the code getting impacted. However, we also identified the areas where it can be improved. The paper also proposes several potential research directions to improve the process, quality and safety of generated smart contract codes.
翻訳日:2023-08-08 17:39:19 公開日:2023-08-05
# 回折光ネットワークを用いたマルチスペクトル定量位相イメージング

Multispectral Quantitative Phase Imaging Using a Diffractive Optical Network ( http://arxiv.org/abs/2308.02952v1 )

ライセンス: Link先を確認
Che-Yung Shen, Jingxi Li, Deniz Mengu, Aydogan Ozcan(参考訳) ラベルフリーイメージング技術として、定量位相イメージング(QPI)は、生物学、材料科学、工学の様々な応用のために透明標本の光路長情報を提供する。 マルチスペクトルQPIは、複数のスペクトル帯にまたがる定量的位相情報を測定し、試料の波長比位相と分散特性を調べることができる。 本稿では,透過的な位相のみの物体のマルチスペクトル定量的位相イメージングを全光で行うことができる回折プロセッサの設計について述べる。 本設計では,空間的に設計した回折層を深層学習により最適化し,入力対象の位相プロファイルを所定の波長セットで符号化し,出力面の空間強度変化を符号化することにより,モノクロ焦点平面アレイを用いたマルチスペクトルqpiを実現する。 数値シミュレーションにより,可視スペクトルの9および16のスペクトル帯で位相イメージングを同時に行うように,回折マルチスペクトルプロセッサを実演する。 これらの回折マルチスペクトルプロセッサは、すべての波長チャネルで均一な性能を維持し、各ターゲット波長で適度なqpi性能を示す。 これらの差分型プロセッサの設計の一般化は、薄いpapスメア画像を含む、見えないオブジェクトの数値テストによって検証される。 受動誘電体回折材料を用いた全光学処理能力のため、この回折多スペクトルQPIプロセッサは、高出力の定量的位相顕微鏡と分光のためのコンパクトで高効率なソリューションを提供する。 このフレームワークは電磁スペクトルの様々な場所で動作し、幅広い位相イメージングおよびセンシング用途に使用することができる。

As a label-free imaging technique, quantitative phase imaging (QPI) provides optical path length information of transparent specimens for various applications in biology, materials science, and engineering. Multispectral QPI measures quantitative phase information across multiple spectral bands, permitting the examination of wavelength-specific phase and dispersion characteristics of samples. Here, we present the design of a diffractive processor that can all-optically perform multispectral quantitative phase imaging of transparent phase-only objects in a snapshot. Our design utilizes spatially engineered diffractive layers, optimized through deep learning, to encode the phase profile of the input object at a predetermined set of wavelengths into spatial intensity variations at the output plane, allowing multispectral QPI using a monochrome focal plane array. Through numerical simulations, we demonstrate diffractive multispectral processors to simultaneously perform quantitative phase imaging at 9 and 16 target spectral bands in the visible spectrum. These diffractive multispectral processors maintain uniform performance across all the wavelength channels, revealing a decent QPI performance at each target wavelength. The generalization of these diffractive processor designs is validated through numerical tests on unseen objects, including thin Pap smear images. Due to its all-optical processing capability using passive dielectric diffractive materials, this diffractive multispectral QPI processor offers a compact and power-efficient solution for high-throughput quantitative phase microscopy and spectroscopy. This framework can operate at different parts of the electromagnetic spectrum and be used for a wide range of phase imaging and sensing applications.
翻訳日:2023-08-08 17:39:02 公開日:2023-08-05
# クロスドメイン計測・単位・コンテキスト抽出のためのマルチソース(事前)トレーニング

Multi-Source (Pre-)Training for Cross-Domain Measurement, Unit and Context Extraction ( http://arxiv.org/abs/2308.02951v1 )

ライセンス: Link先を確認
Yueling Li, Sebastian Martschat, Simone Paolo Ponzetto(参考訳) 本稿では,事前学習言語モデルに基づく自動計測と文脈抽出のためのクロスドメイン手法を提案する。 マルチソース,マルチドメインコーパスを構築し,エンドツーエンドの抽出パイプラインをトレーニングする。 次に、マルチソースタスク適応型事前学習と微調整を適用し、モデルのクロスドメイン一般化能力をベンチマークする。 さらに,タスク固有のエラー解析の概念化と応用を行い,今後の課題に対する洞察を導出する。 結果から,マルチソーストレーニングが最高の結果をもたらすのに対して,シングルソーストレーニングは各ドメインに対して最高の結果をもたらすことが示唆された。 セットアップは量値や単位の抽出に成功しているが、文脈的実体の抽出を改善するためにはさらなる研究が必要である。 この作業で使用されるクロスドメインコーパスをオンラインで提供します。

We present a cross-domain approach for automated measurement and context extraction based on pre-trained language models. We construct a multi-source, multi-domain corpus and train an end-to-end extraction pipeline. We then apply multi-source task-adaptive pre-training and fine-tuning to benchmark the cross-domain generalization capability of our model. Further, we conceptualize and apply a task-specific error analysis and derive insights for future work. Our results suggest that multi-source training leads to the best overall results, while single-source training yields the best results for the respective individual domain. While our setup is successful at extracting quantity values and units, more research is needed to improve the extraction of contextual entities. We make the cross-domain corpus used in this work available online.
翻訳日:2023-08-08 17:38:36 公開日:2023-08-05
# 人工的汎用知能の基準--chatgptを用いた仮説推論

A criterion for Artificial General Intelligence: hypothetic-deductive reasoning, tested on ChatGPT ( http://arxiv.org/abs/2308.02950v1 )

ライセンス: Link先を確認
Louis Vervoort, Vitaliy Mizyakov, Anastasia Ugleva(参考訳) 我々は、高度なAIであるGPT-4が"思考機械"(AGI)として資格を得るためにマスターすべき重要な推論スキルは、仮説に基づく推論であると主張している。 問題解法または質問解法は、一般に、ある仮説の集合 T が問題や問題に適用されることを仮定し、解や解をTから導出する、という2つのステップを含むと解釈できる。 仮説推論の基本的な代理は因果推論である。 両方の推論に対する単純なテストを提案し,それをchatgptに適用する。 我々の研究は、現在チャットボットは、考慮される問題がやや複雑であればすぐに、どちらの推論にも限界があることを示している。 しかし、もしAIが十分に広い範囲の文脈でこの種の推論が可能であれば、AIはAGIになるだろうと提案する。

We argue that a key reasoning skill that any advanced AI, say GPT-4, should master in order to qualify as 'thinking machine', or AGI, is hypothetic-deductive reasoning. Problem-solving or question-answering can quite generally be construed as involving two steps: hypothesizing that a certain set of hypotheses T applies to the problem or question at hand, and deducing the solution or answer from T - hence the term hypothetic-deductive reasoning. An elementary proxy of hypothetic-deductive reasoning is causal reasoning. We propose simple tests for both types of reasoning, and apply them to ChatGPT. Our study shows that, at present, the chatbot has a limited capacity for either type of reasoning, as soon as the problems considered are somewhat complex. However, we submit that if an AI would be capable of this type of reasoning in a sufficiently wide range of contexts, it would be an AGI.
翻訳日:2023-08-08 17:38:25 公開日:2023-08-05
# MomentaMorph: Momenta, Shooting, Correction を用いた教師なし空間時間登録

MomentaMorph: Unsupervised Spatial-Temporal Registration with Momenta, Shooting, and Correction ( http://arxiv.org/abs/2308.02949v1 )

ライセンス: Link先を確認
Zhangxing Bian, Shuwen Wei, Yihao Liu, Junyu Chen, Jiachen Zhuo, Fangxu Xing, Jonghye Woo, Aaron Carass, Jerry L. Prince(参考訳) 磁気共鳴イメージング(tMRI)は、変形中の組織の運動を測定するために何十年も使われてきた。 しかし,これらの画像の周期パターン,特に動きが大きい場合には,tmriからの登録に基づく動き推定は困難である。 より大きな動きで、登録手法は局所的な最適値に閉じ込められ、運動推定誤差につながる。 繰り返しパターンと大動きの存在下でのラグランジュ運動推定のための新しい「モメンタ、シューティング、補正」フレームワークを提案する。 このフレームワークはリー代数とリー群原理に基づいており、接ベクトル空間のモーメントを蓄積し、微分同相空間における指数写像を用いて真の最適性への迅速な近似を行い、局所最適性を回避する。 その後の補正ステップは、真の最適への収束を保証する。 2D 合成データセットと実3D tMRI データセットの結果から,大規模動きと反復パターンのなかの2D/3D 運動場を正確に,高密度かつ高密度に推定する手法の有効性が示された。

Tagged magnetic resonance imaging (tMRI) has been employed for decades to measure the motion of tissue undergoing deformation. However, registration-based motion estimation from tMRI is difficult due to the periodic patterns in these images, particularly when the motion is large. With a larger motion the registration approach gets trapped in a local optima, leading to motion estimation errors. We introduce a novel "momenta, shooting, and correction" framework for Lagrangian motion estimation in the presence of repetitive patterns and large motion. This framework, grounded in Lie algebra and Lie group principles, accumulates momenta in the tangent vector space and employs exponential mapping in the diffeomorphic space for rapid approximation towards true optima, circumventing local optima. A subsequent correction step ensures convergence to true optima. The results on a 2D synthetic dataset and a real 3D tMRI dataset demonstrate our method's efficiency in estimating accurate, dense, and diffeomorphic 2D/3D motion fields amidst large motion and repetitive patterns.
翻訳日:2023-08-08 17:38:09 公開日:2023-08-05
# カーネル予測ネットワークを用いた画素幅カーネル推定によるブラインド動作の劣化

Blind Motion Deblurring with Pixel-Wise Kernel Estimation via Kernel Prediction Networks ( http://arxiv.org/abs/2308.02947v1 )

ライセンス: Link先を確認
Guillermo Carbajal, Patricia Vitoria, Jos\'e Lezama, and Pablo Mus\'e(参考訳) 近年、写真における動きのぼやけの除去は、ぼやけた画像から鋭い画像へ直接マッピングするように訓練されたディープラーニングベースの手法によって、目覚ましい進歩を遂げている。 このため、前方分解モデルを明示的に使用するアプローチは、あまり注目されなかった。 しかし、ブラー生成の明確な仕様は、中間段階として、この手法の一般化と説明可能性を促進する。 この目的を達成するために,高密度な非一様運動のぼかし推定に基づく学習に基づく動き退化手法を提案する。 具体的には、第1のネットワークは、画像適応基底運動カーネルの集合と対応する混合係数とからなる軽量表現を用いて、画素毎の濃密な動きボケカーネルを推定する。 そして、第1のネットワークと共同で訓練された第2のネットワークは、第1のネットワークで推定されたモーションカーネルフィールドを用いて、非ブリンドデコンボリューション法を展開する。 畳み込みに基づく非一様モーションボケ劣化モデルに従って合成されたシャープ/ブラリーペア上でネットワークを訓練することにより、モデル駆動の側面をさらに促進する。 定性的かつ定量的な評価は、カーネル予測ネットワークが正確な動きのぼかし推定を発生し、遅延パイプラインが既存のエンドツーエンドの深層学習法に比べて競合的あるいは優位な実際のぼかし画像の復元につながることを示している。 コードとトレーニングされたモデルはhttps://github.com/guillermocarbajal/j-mkpd/で入手できる。

In recent years, the removal of motion blur in photographs has seen impressive progress in the hands of deep learning-based methods, trained to map directly from blurry to sharp images. For this reason, approaches that explicitly use a forward degradation model received significantly less attention. However, a well-defined specification of the blur genesis, as an intermediate step, promotes the generalization and explainability of the method. Towards this goal, we propose a learning-based motion deblurring method based on dense non-uniform motion blur estimation followed by a non-blind deconvolution approach. Specifically, given a blurry image, a first network estimates the dense per-pixel motion blur kernels using a lightweight representation composed of a set of image-adaptive basis motion kernels and the corresponding mixing coefficients. Then, a second network trained jointly with the first one, unrolls a non-blind deconvolution method using the motion kernel field estimated by the first network. The model-driven aspect is further promoted by training the networks on sharp/blurry pairs synthesized according to a convolution-based, non-uniform motion blur degradation model. Qualitative and quantitative evaluation shows that the kernel prediction network produces accurate motion blur estimates, and that the deblurring pipeline leads to restorations of real blurred images that are competitive or superior to those obtained with existing end-to-end deep learning-based methods. Code and trained models are available at https://github.com/GuillermoCarbajal/J-MKPD/.
翻訳日:2023-08-08 17:37:48 公開日:2023-08-05
# マルチ露光画像スタックにおける露光率のロバスト推定

Robust estimation of exposure ratios in multi-exposure image stacks ( http://arxiv.org/abs/2308.02968v1 )

ライセンス: Link先を確認
Param Hanji and Rafa{\l} K. Mantiuk(参考訳) マルチ露光画像スタックをハイダイナミックレンジ(HDR)画像にマージするには、正確な露光時間を知る必要がある。 例えば、カメラのEXIFメタデータから抽出された露出時間が不正確な場合、再構成されたHDR画像は、スムーズな勾配でバンドリングアーティファクトを明らかにする。 そこで本研究では,入力画像から露光率を直接推定する手法を提案する。 カメラノイズによる推定誤差を最小限に抑えるために,一対の露光から画素を選択できる最適化問題として露出時間推定を導出する。 対数領域に画素値が表される場合、線形解法を用いて効率よく問題を解くことができる。 複数の空間タイルから画素を収集することにより、カメラや物体の動きによる画素の不一致に容易に対応できることを示す。 提案する自動露光推定とアライメントは,一般的なデータセットにおけるバンドングアーティファクトを除去し,ディスプレイの変調伝達関数の測定など,物理的に正確な再構成を必要とするアプリケーションに必須である。 このメソッドのコードは利用可能である。

Merging multi-exposure image stacks into a high dynamic range (HDR) image requires knowledge of accurate exposure times. When exposure times are inaccurate, for example, when they are extracted from a camera's EXIF metadata, the reconstructed HDR images reveal banding artifacts at smooth gradients. To remedy this, we propose to estimate exposure ratios directly from the input images. We derive the exposure time estimation as an optimization problem, in which pixels are selected from pairs of exposures to minimize estimation error caused by camera noise. When pixel values are represented in the logarithmic domain, the problem can be solved efficiently using a linear solver. We demonstrate that the estimation can be easily made robust to pixel misalignment caused by camera or object motion by collecting pixels from multiple spatial tiles. The proposed automatic exposure estimation and alignment eliminates banding artifacts in popular datasets and is essential for applications that require physically accurate reconstructions, such as measuring the modulation transfer function of a display. The code for the method is available.
翻訳日:2023-08-08 17:29:26 公開日:2023-08-05
# 不均衡データセットからの学習のための一般化オーバーサンプリングと関連理論

Generalized Oversampling for Learning from Imbalanced datasets and Associated Theory ( http://arxiv.org/abs/2308.02966v1 )

ライセンス: Link先を確認
Samuel Stocksieker and Denys Pommeret and Arthur Charpentier(参考訳) 教師あり学習では、実際の不均衡なデータセットに直面することが多い。 この状況により、標準アルゴリズムの学習が困難になる。 不均衡学習における研究と解決策は主に分類タスクに焦点を当てている。 その重要性にもかかわらず、不均衡回帰の解はほとんど存在しない。 本稿では、分類と回帰に使用できるカーネル密度推定に基づいて、データ拡張手法であるGOLIATHアルゴリズムを提案する。 この一般的なアプローチは、ガウスノイズのような摂動に基づくもの、SMOTEのような補間に基づくもの、という2つの大きな合成オーバーサンプリングのファミリーを含んでいる。 また、これらの機械学習アルゴリズムの明示的な形式と条件密度、特にSMOTEに対して表現を提供する。 新しい合成データジェネレータが推論される。 我々は,GOLIATHを,対象値に対するワイルドブートストラップ再サンプリング技術と組み合わせた不均衡回帰に適用する。 不均衡な回帰状況におけるGOLIATHアルゴリズムの性能を評価する。 私たちはこのアプローチを経験的に評価し比較し、既存の最先端技術よりも大幅に改善しています。

In supervised learning, it is quite frequent to be confronted with real imbalanced datasets. This situation leads to a learning difficulty for standard algorithms. Research and solutions in imbalanced learning have mainly focused on classification tasks. Despite its importance, very few solutions exist for imbalanced regression. In this paper, we propose a data augmentation procedure, the GOLIATH algorithm, based on kernel density estimates which can be used in classification and regression. This general approach encompasses two large families of synthetic oversampling: those based on perturbations, such as Gaussian Noise, and those based on interpolations, such as SMOTE. It also provides an explicit form of these machine learning algorithms and an expression of their conditional densities, in particular for SMOTE. New synthetic data generators are deduced. We apply GOLIATH in imbalanced regression combining such generator procedures with a wild-bootstrap resampling technique for the target values. We evaluate the performance of the GOLIATH algorithm in imbalanced regression situations. We empirically evaluate and compare our approach and demonstrate significant improvement over existing state-of-the-art techniques.
翻訳日:2023-08-08 17:29:07 公開日:2023-08-05
# 拡散モデルを用いた確率的メッシュ回復のための生成的アプローチ

Generative Approach for Probabilistic Human Mesh Recovery using Diffusion Models ( http://arxiv.org/abs/2308.02963v1 )

ライセンス: Link先を確認
Hanbyel Cho, Junmo Kim(参考訳) 本研究は、与えられた2次元画像から3次元人体メッシュを再構築する問題に焦点を当てる。 人間のメッシュ回復のタスクのあいまいさにもかかわらず、既存のほとんどの研究は単一の出力を回帰する方法を採用してきた。 これとは対照的に,複数の妥当な結果を考慮し,分別拡散過程を利用する「diffusion-based human mesh recovery (diff-hmr)」という生成的アプローチフレームワークを提案する。 トレーニングフェーズの間、SMPLパラメータは接地構造パラメータからランダム分布に拡散され、Diff-HMRはこの拡散の逆過程を学習する。 推論フェーズでは、モデルが与えられたランダムなSMPLパラメータを、入力画像と整合する対応するパラメータに徐々に洗練する。 生成的なアプローチであるDiff-HMRは、入力ノイズが変化するにつれて、同じ入力画像に対して多様な結果を生成することができる。 検証実験を行い,提案手法が人間のメッシュ回復の課題のあいまいさを,確率的手法で効果的にモデル化できることを実証した。 コードはhttps://github.com/hanbyel0105/diff-hmrで入手できる。

This work focuses on the problem of reconstructing a 3D human body mesh from a given 2D image. Despite the inherent ambiguity of the task of human mesh recovery, most existing works have adopted a method of regressing a single output. In contrast, we propose a generative approach framework, called "Diffusion-based Human Mesh Recovery (Diff-HMR)" that takes advantage of the denoising diffusion process to account for multiple plausible outcomes. During the training phase, the SMPL parameters are diffused from ground-truth parameters to random distribution, and Diff-HMR learns the reverse process of this diffusion. In the inference phase, the model progressively refines the given random SMPL parameters into the corresponding parameters that align with the input image. Diff-HMR, being a generative approach, is capable of generating diverse results for the same input image as the input noise varies. We conduct validation experiments, and the results demonstrate that the proposed framework effectively models the inherent ambiguity of the task of human mesh recovery in a probabilistic manner. The code is available at https://github.com/hanbyel0105/Diff-HMR
翻訳日:2023-08-08 17:28:54 公開日:2023-08-05
# 科学とエンジニアリングとは何か? 理科見本市における学生プロジェクトの大規模分析

Science and engineering for what? A large-scale analysis of students' projects in science fairs ( http://arxiv.org/abs/2308.02962v1 )

ライセンス: Link先を確認
Adelmo Eloy, Thomas Palmeira Ferraz, Fellip Silva Alves, Roseli de Deus Lopes(参考訳) 科学と工学の見本市は、K-12の学生が本物のSTEMの実践に参加する機会を提供している。 特に、学生は、どのテーマ、質問、アプローチが科学的取り組みを導くかを定義することによって、真正でオープンな調査プロセスを経験する機会を与えられる。 本研究では,過去20年間にブラジルで開催された全国科学見本市で開催されている5000以上のプロジェクトから,学生の探究とデザインを導く主要なトピックを特定するために,トピックモデリングを用いてデータを分析した。 分析の結果,時間,地域,学校設定など,幅広いトピックが探索されていることが明らかとなった。 これらの結果と提案手法は、科学フェアの文脈におけるさらなる研究を支援するだけでなく、異なる環境におけるオープンな調査経験の学生を支援するために、コンテキスト固有のリソースの指導と設計を通知する。

Science and Engineering fairs offer K-12 students opportunities to engage with authentic STEM practices. Particularly, students are given the chance to experience authentic and open inquiry processes, by defining which themes, questions and approaches will guide their scientific endeavors. In this study, we analyzed data from over 5,000 projects presented at a nationwide science fair in Brazil over the past 20 years using topic modeling to identify the main topics that have driven students' inquiry and design. Our analysis identified a broad range of topics being explored, with significant variations over time, region, and school setting. We argue those results and proposed methodology can not only support further research in the context of science fairs, but also inform instruction and design of contexts-specific resources to support students in open inquiry experiences in different settings.
翻訳日:2023-08-08 17:28:34 公開日:2023-08-05
# 関係指向:知識整合因果aiへ向けて

Relation-Oriented: Toward Knowledge-Aligned Causal AI ( http://arxiv.org/abs/2307.16387v3 )

ライセンス: Link先を確認
Jia Li, Xiang Li(参考訳) 機械学習では、観測変数が事前に存在し、関係構築の段階を設定する観察指向原理を自然に適用する。 従来のモデルには十分だが、ビッグデータとAIの統合は、観測モデルと実際の理解との相違を露呈する。 対照的に、人間は関係によって定義された認知的実体を形作り、観察的な構成物に限定されるのではなく、時間的空間と超次元空間にまたがる知識を定式化することができる。 本研究は,コンピュータビジョンと健康情報学の直観的な例に照らされた,現在のモデリングパラダイムにおける,このミスアライメントのルーツについて考察する。 また,関係指向モデリングの実践的実装として,広範な実験検証によって支援される関係定義表現学習手法を提案する。 アリが床の二次元平面に居住する類似性を考える。 これらのアリがモデルを構築する場合、最も近い木を基準として2次元モデルの標高を指定することができる。 モデリングによって、彼らは木の中間層での破壊が増加し、子供に遭遇する確率が高いことを示す。 しかし、人間を3次元の人間だと理解できないため、この現象を「高さ」という新しい次元で解釈する代わりに、木の中間層にのみ関連付ける。 身長の異なる別の木に移行し、中間レベルがもはやリスクを示さない場合、人間の行動は効果的にモデル化するには複雑すぎると結論づけるかもしれない。 同様に、時系列をモデル化するとき、私たちは通常、一つのタイムラインとして「時間」という次元を割引します。

In machine learning, we naturally apply an Observation-Oriented principle, in which observational variables preexist and set the stage for constructing relationships. While sufficient for traditional models, the integration of AI with big data exposes the misalignment between the observational models and our actual comprehension. Contrarily, humans shape cognitive entities defined by relationships, enabling us to formulate knowledge across temporal and hyper-dimensional spaces, rather than being confined to observational constructs. From an innovative Relation-Oriented perspective, this study examines the roots of this misalignment within our current modeling paradigm, illuminated by intuitive examples from computer vision and health informatics. We also introduce the relation-defined representation learning methodology as a practical implementation of Relation-Oriented modeling, supported by extensive experimental validation. Consider an analogy where ants dwell on a two-dimensional plane of a floor. If these ants were to construct models, they might use the nearest tree as a reference to specify the elevation in their two-dimensional models. By modeling, they observe an increased disruption at the tree's mid-level, which indicates a higher chance of encountering children. However, since they fail to comprehend humans as three-dimensional beings, instead of interpreting this phenomenon in a new dimension, "height", they solely relate it to the tree's mid-level. If they migrate to a different tree with a varying height, where mid-level no longer presents a risk, they might conclude that human behavior is too complex to model effectively. Similarly, when modeling time series, we usually discount the dimension, "time", as a single timeline, which has become our "tree".
翻訳日:2023-08-08 10:48:37 公開日:2023-08-05
# 医療における情報技術の統合 : 都市・地域保健の最近の展開, 課題, 今後の展望

Integrating Information Technology in Healthcare: Recent Developments, Challenges, and Future Prospects for Urban and Regional Health ( http://arxiv.org/abs/2307.16296v3 )

ライセンス: Link先を確認
Shipu Debnath(参考訳) 医療におけるテクノロジーの利用は近年ますます人気が高まっており、医療の届け方、患者の成果、費用対効果が改善される可能性がある。 本稿では, 医療, 特に都市, パーソナライズドメディカル医療において, テクノロジーがどのように使われているかについて概説する。 この論文は、電子健康記録、遠隔医療、遠隔監視、医療画像、ウェアラブルデバイス、人工知能など、医療でテクノロジーが使われているさまざまな方法について議論する。 また、患者のデータをプライベートかつセキュアに保つこと、さまざまなテクノロジシステムが連携できること、患者がテクノロジを快適に利用できることなど、医療にテクノロジを使用することで生じる課題や問題にも目を向けています。 さらに, 医療における技術の可能性について検討し, 患者がいかに容易に治療を受けられるか, ケアの質, 医療費などについて検討した。 また、テクノロジーが個々の患者にケアをパーソナライズする方法についても語っている。 最後に、主なポイントを要約し、医療提供者や政策立案者に対して勧告を行い、今後の研究の方向性を提案する。 全体として、このレビューはテクノロジーが医療を改善するのにどのように役立つかを示し、テクノロジーをこのように使うことで生じる課題も認めている。

The use of technology in healthcare has become increasingly popular in recent years, with the potential to improve how healthcare is delivered, patient outcomes, and cost-effectiveness. This review paper provides an overview of how technology has been used in healthcare, particularly in cities and for personalized medicine. The paper discusses different ways technology is being used in healthcare, such as electronic health records, telemedicine, remote monitoring, medical imaging, wearable devices, and artificial intelligence. It also looks at the challenges and problems that come with using technology in healthcare, such as keeping patient data private and secure, making sure different technology systems can work together, and ensuring patients are comfortable using technology. In addition, the paper explores the potential of technology in healthcare, including improving how easily patients can get care, the quality of care they receive, and the cost of care. It also talks about how technology can help personalize care to individual patients. Finally, the paper summarizes the main points, makes recommendations for healthcare providers and policymakers, and suggests directions for future research. Overall, this review shows how technology can be used to improve healthcare, while also acknowledging the challenges that come with using technology in this way.
翻訳日:2023-08-08 10:48:09 公開日:2023-08-05
# ガイド付きAPSFとグラディエント適応畳み込みを用いた夜間ヘイズ画像の可視性向上

Enhancing Visibility in Nighttime Haze Images Using Guided APSF and Gradient Adaptive Convolution ( http://arxiv.org/abs/2308.01738v2 )

ライセンス: Link先を確認
Yeying Jin, Beibei Lin, Wending Yan, Wei Ye, Yuan Yuan and Robby T. Tan(参考訳) 暗い夜のシーンの視認性は、低光度、激しい輝き、光散乱、多色光源の存在など、複数の要因によってしばしば低下する。 既存の夜間の消光法は、しばしば光や低照度の条件を扱うのに苦労し、過度に暗い視界または抑圧されていない光の出力をもたらす。 本稿では,明度を抑え,低照度領域を増大させることにより,夜間の暗視画像からの視認性を高める。 我々のフレームワークは、発光効果を扱うために、蛍光光対から学習する。 具体的には、夜間画像の光源を検出するために光源認識ネットワークを提案し、次にAPSF(Angular Point Spread Function)誘導光描画を行う。 私たちのフレームワークは、レンダリングされたイメージでトレーニングされ、グロー抑制につながります。 さらに,グラデーション適応畳み込みを利用して,エッジやテクスチャをぼんやりとしたシーンで捉える。 抽出されたエッジとテクスチャを活用することで,重要な構造的詳細を失うことなく,シーンのコントラストを高める。 低光強度を高めるために,ネットワークは注意マップを学習し,ガンマ補正によって調整する。 この注目は、低照度領域に高い値と、光沢領域に低い値を持つ。 リアルタイムヘイズ画像の広範囲評価を行い,本手法の有効性を実証した。 実験により,GTA5夜間ヘイズデータセットのPSNRは30.38dBで,最先端の手法よりも13$\%高い性能を示した。 私たちのデータとコードは、 \url{https://github.com/jinyeying/nighttime_dehaze} で利用可能です。

Visibility in hazy nighttime scenes is frequently reduced by multiple factors, including low light, intense glow, light scattering, and the presence of multicolored light sources. Existing nighttime dehazing methods often struggle with handling glow or low-light conditions, resulting in either excessively dark visuals or unsuppressed glow outputs. In this paper, we enhance the visibility from a single nighttime haze image by suppressing glow and enhancing low-light regions. To handle glow effects, our framework learns from the rendered glow pairs. Specifically, a light source aware network is proposed to detect light sources of night images, followed by the APSF (Angular Point Spread Function)-guided glow rendering. Our framework is then trained on the rendered images, resulting in glow suppression. Moreover, we utilize gradient-adaptive convolution, to capture edges and textures in hazy scenes. By leveraging extracted edges and textures, we enhance the contrast of the scene without losing important structural details. To boost low-light intensity, our network learns an attention map, then adjusted by gamma correction. This attention has high values on low-light regions and low values on haze and glow regions. Extensive evaluation on real nighttime haze images, demonstrates the effectiveness of our method. Our experiments demonstrate that our method achieves a PSNR of 30.38dB, outperforming state-of-the-art methods by 13$\%$ on GTA5 nighttime haze dataset. Our data and code is available at: \url{https://github.com/jinyeying/nighttime_dehaze}.
翻訳日:2023-08-08 10:43:36 公開日:2023-08-05