このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240316となっている論文です。

PDF登録状況(公開日: 20240316)

TitleAuthorsAbstract論文公表日・翻訳日
# 機械学習、プロキシアプリケーション、スケジューリング優先度を利用したトリニティの最適化

Optimizing Performance on Trinity Utilizing Machine Learning, Proxy Applications and Scheduling Priorities ( http://arxiv.org/abs/2404.10617v1 )

ライセンス: Link先を確認
Phil Romero, (参考訳) 現在のスーパーコンピュータではノード数が増加し続けており、Trinityの前半には9400以上の計算ノードが含まれている。 今日のクラスタの速度は最も遅いノードによって制限されているため、これまで以上に遅いノードを識別し、実行可能であればパフォーマンスを改善し、パフォーマンスクリティカル実行時の遅いノードの使用を最小限に抑えることが重要である。 これは、定期的に発生する保守作業であり、遅い実行ノードを評価して対処し、ダウンタイムを最小化しながら結果の軽減を行うことで、ユーザへの影響を最小限に抑えることが重要である。 これらの問題は、多くの場合、高速実行ハードウェアアセスメントテストの体系的な適用、機械学習の適用、大規模クラスタの効率向上にパフォーマンスデータを活用することで解決できる。 MPIとOpenMPの両方を利用したプロキシアプリケーションは、ノード性能を評価するための長期実行アプリケーションの代用としてデータを生成するために開発された。 マシンラーニングは、パフォーマンスの低いノードを特定するために適用され、パフォーマンスの低いノードの影響を最小限に抑え、システムの効率を高めるためのポリシーが議論されている。 本稿では,高速に実行されるプロキシテストを生成するプロセスについて述べるとともに,アウトレーラを分離するさまざまな方法を検討するとともに,スケジューリングに使用する順序付きリストを生成してタスクを遂行する。

The sheer number of nodes continues to increase in todays supercomputers, the first half of Trinity alone contains more than 9400 compute nodes. Since the speed of todays clusters are limited by the slowest nodes, it more important than ever to identify slow nodes, improve their performance if it can be done, and assure minimal usage of slower nodes during performance critical runs. This is an ongoing maintenance task that occurs on a regular basis and, therefore, it is important to minimize the impact upon its users by assessing and addressing slow performing nodes and mitigating their consequences while minimizing down time. These issues can be solved, in large part, through a systematic application of fast running hardware assessment tests, the application of Machine Learning, and making use of performance data to increase efficiency of large clusters. Proxy applications utilizing both MPI and OpenMP were developed to produce data as a substitute for long runtime applications to evaluate node performance. Machine learning is applied to identify underperforming nodes, and policies are being discussed to both minimize the impact of underperforming nodes and increase the efficiency of the system. In this paper, I will describe the process used to produce quickly performing proxy tests, consider various methods to isolate the outliers, and produce ordered lists for use in scheduling to accomplish this task.
翻訳日:2024-04-21 19:45:03 公開日:2024-03-16
# 量子コンピュータを用いた絡み合い力学による素数同定

Using quantum computers to identify prime numbers via entanglement dynamics ( http://arxiv.org/abs/2403.14703v1 )

ライセンス: Link先を確認
Victor F. dos Santos, Jonas Maziero, (参考訳) 素数の同定は、歴史的および現代的に重要な意味を持つ基本的な数学的追求である。 素数理論と量子物理学の間の潜在的なつながりを探索することは、科学的な探求において魅力的なフロンティアである。 A. L. M. Southier et al [Phys. Rev. A 108, 042404 (2023)] による最近の研究で、2つの調和振動子(または2つのスピン$s$粒子)を分離可能なコヒーレントな状態で最初に生成した絡み合いダイナミクスが素数同定の経路を提供するために実証された。 この基礎に基づいて、このレターは一般化されたアプローチを示し、量子ビットベースの量子コンピュータでこの理論概念を実現するための決定論的アルゴリズムの概要を示す。 解析の結果,本アルゴリズムで用いられる対角ユニタリ演算は,一般対角ユニタリ(J. Welch et al , New J. Phys. 16, 033040 (2014))の指数関数的複雑性と対比して,次数2の多項式時間複雑性を示すことがわかった。 この進歩は、素数同定と関連する計算課題に対する量子コンピューティングの可能性を強調している。

The identification of prime numbers stands as a fundamental mathematical pursuit with significant historical and contemporary significance. Exploring potential connections between prime number theory and quantum physics represents a compelling frontier in scientific inquiry. In a recent study by A. L. M. Southier et al. [Phys. Rev. A 108, 042404 (2023)], the entanglement dynamics of two harmonic oscillators (or of two spin $s$ particles) initially prepared in a separable-coherent state was demonstrated to offer a pathway for prime number identification. Building upon this foundation, this Letter presents a generalized approach and outlines a deterministic algorithm for realizing this theoretical concept on qubit-based quantum computers. Our analysis reveals that the diagonal unitary operations employed in our algorithm exhibit a polynomial time complexity of degree two, contrasting with the previously reported exponential complexity of general diagonal unitaries [J. Welch et al., New J. Phys. 16, 033040 (2014)]. This advancement underscores the potential of quantum computing for prime number identification and related computational challenges.
翻訳日:2024-04-07 23:24:36 公開日:2024-03-16
# スマートシティにおける大気質モニタリングシステムのためのルールベース複合イベント処理

Rule based Complex Event Processing for an Air Quality Monitoring System in Smart City ( http://arxiv.org/abs/2403.14701v1 )

ライセンス: Link先を確認
Shashi Shekhar Kumar, Ritesh Chandra, Sonali Agarwal, (参考訳) 近年, スマートシティを基盤とした開発は, 建築における多彩な性質と, 人間の体系的居住の計画により, 勢いを増している。 世界保健機関(WHO)の報告によると、大気汚染は深刻な呼吸器疾患を引き起こす。 したがって、利害関係者による時間的な決定をすることで、効果を最小限に抑えるために、空気質のリアルタイムモニタリングが必要である。 大気汚染は, NH3, O3, SO2, NO2などの様々な組成からなり, その濃度は場所によって異なる。 CEPは、定義済みのルールに基づいてデータストリームで動作し、複雑なパターンを検出し、利害関係者の意思決定を支援する。 当初、データセットはインドのCPCB(Central Pollution Control Board)から収集され、そのデータは前処理され、Apache Kafkaに渡された。 そして、空気質パラダイムに基づいた知識グラフを開発した。 その結果、事前処理されたデータをRDF(Resource Description Framework)データに変換し、Apache Jenaを使用してCEPエンジンに取り込み、意思決定サポートを強化する知識グラフと統合する。 同時に、決定木を用いてルールを抽出し、CPCBのいくつかの基底真理パラメータをCEPエンジンに追加して取り込み、複雑なパターンを決定する。 その結果、SPARQLクエリは、複雑なイベント検出に基づいて、空気品質の状態を良し悪し、重大で有害なものとして取得するリアルタイムRDFデータセットに使用される。 提案手法の検証には,CEPエンジンへのイベントのデプロイにさまざまなRDFを使用しており,その性能を経時的に検証し,単純で複雑なクエリを実行する。

In recent years, smart city-based development has gained momentum due to its versatile nature in architecture and planning for the systematic habitation of human beings. According to World Health Organization (WHO) report, air pollution causes serious respiratory diseases. Hence, it becomes necessary to real-time monitoring of air quality to minimize effect by taking time-bound decisions by the stakeholders. The air pollution comprises various compositions such as NH3, O3, SO2, NO2, etc., and their concentrations vary from location to location.The research work proposes an integrated framework for monitoring air quality using rule-based Complex Event Processing (CEP) and SPARQL queries. CEP works with the data stream based on predefined rules to detect the complex pattern, which helps in decision support for stakeholders. Initially, the dataset was collected from the Central Pollution Control Board (CPCB) of India and this data was then preprocessed and passed through Apache Kafka. Then a knowledge graph developed based on the air quality paradigm. Consequently, convert preprocessed data into Resource Description Framework (RDF) data, and integrate with Knowledge graph which is ingested to CEP engine using Apache Jena for enhancing the decision support . Simultaneously, rules are extracted using a decision tree, and some ground truth parameters of CPCB are added and ingested to the CEP engine to determine the complex patterns. Consequently, the SPARQL query is used on real-time RDF dataset for fetching the condition of air quality as good, poor, severe, hazardous etc based on complex events detection. For validating the proposed approach various chunks of RDF are used for the deployment of events to the CEP engine, and its performance is examined over time while performing simple and complex queries.
翻訳日:2024-04-01 03:23:33 公開日:2024-03-16
# 高等教育における学生支援の国際化のための大規模言語モデルを用いたチャットボット

Large language model-powered chatbots for internationalizing student support in higher education ( http://arxiv.org/abs/2403.14702v1 )

ライセンス: Link先を確認
Achraf Hsain, Hamza El Housni, (参考訳) 本研究は, GPT-3.5 と GPT-4 Turbo を利用したチャットボット技術の高等教育への統合について検討し,国際化とデジタルトランスフォーメーションを活用することを目的とした。 学生のエンゲージメント、情報アクセス、サポートを改善するために、LLM(Large Language Models)の設計、実装、および応用に力を注いでいる。 Python 3、GPT API、LangChain、Chroma Vector Storeといった技術を活用して、チャットボットテストのための高品質でタイムリーで関連するテキストデータセットを作成することを強調する。 発見は、チャットボットが包括的な応答を提供することの有効性、ユーザによる従来の方法よりも優先されること、エラー率の低いことを示します。 チャットボットのリアルタイムエンゲージメント、メモリ能力、重要なデータアクセスを高く評価することで、アクセシビリティ、効率、満足度を高める可能性を示している。 この研究は、このチャットボットが高等教育の国際化に大きく貢献し、教育の強化と戦略開発におけるデジタル技術の役割についてさらなる調査を行うことを示唆している。

This research explores the integration of chatbot technology powered by GPT-3.5 and GPT-4 Turbo into higher education to enhance internationalization and leverage digital transformation. It delves into the design, implementation, and application of Large Language Models (LLMs) for improving student engagement, information access, and support. Utilizing technologies like Python 3, GPT API, LangChain, and Chroma Vector Store, the research emphasizes creating a high-quality, timely, and relevant transcript dataset for chatbot testing. Findings indicate the chatbot's efficacy in providing comprehensive responses, its preference over traditional methods by users, and a low error rate. Highlighting the chatbot's real-time engagement, memory capabilities, and critical data access, the study demonstrates its potential to elevate accessibility, efficiency, and satisfaction. Concluding, the research suggests the chatbot significantly aids higher education internationalization, proposing further investigation into digital technology's role in educational enhancement and strategy development.
翻訳日:2024-04-01 03:23:33 公開日:2024-03-16
# プランニングとリカバリに基づくフェデレーションラーニング

Federated Learning based on Pruning and Recovery ( http://arxiv.org/abs/2403.15439v1 )

ライセンス: Link先を確認
Chengjie Ma, (参考訳) 実環境におけるクライアントのネットワーク速度の多様性を考慮した,異種環境のための新しいフェデレーション学習トレーニングフレームワークを提案する。 このフレームワークは、非同期学習アルゴリズムとプルーニング技術を統合し、異種デバイスを含むシナリオにおいて、従来のフェデレーション学習アルゴリズムの非効率性に効果的に対処し、また、不確実性問題に対処し、非同期アルゴリズムで特定のクライアントのトレーニングを不十分にする。 トレーニング中のモデルサイズを漸進的に復元することで、フレームワークはモデルの正確性を保ちながら、モデルのトレーニングを高速化する。 さらに、同期学習と同様の非同期フェデレーション学習を可能にするバッファリング機構を導入して、フェデレーション学習集約プロセスの強化も導入する。 さらに、グローバルモデルをクライアントに送信するサーバのプロセスにおける最適化により、通信オーバーヘッドが削減される。 さまざまなデータセットに対する我々の実験は、こう示しています。 一 従来の非同期FLやヘテロFLに比べてトレーニング時間を大幅に短縮し、収束精度を向上させる。 (II) このアプローチの利点は、異種クライアントと非IIDクライアントデータとのシナリオにおいてより顕著である。

A novel federated learning training framework for heterogeneous environments is presented, taking into account the diverse network speeds of clients in realistic settings. This framework integrates asynchronous learning algorithms and pruning techniques, effectively addressing the inefficiencies of traditional federated learning algorithms in scenarios involving heterogeneous devices, as well as tackling the staleness issue and inadequate training of certain clients in asynchronous algorithms. Through the incremental restoration of model size during training, the framework expedites model training while preserving model accuracy. Furthermore, enhancements to the federated learning aggregation process are introduced, incorporating a buffering mechanism to enable asynchronous federated learning to operate akin to synchronous learning. Additionally, optimizations in the process of the server transmitting the global model to clients reduce communication overhead. Our experiments across various datasets demonstrate that: (i) significant reductions in training time and improvements in convergence accuracy are achieved compared to conventional asynchronous FL and HeteroFL; (ii) the advantages of our approach are more pronounced in scenarios with heterogeneous clients and non-IID client data.
翻訳日:2024-04-01 02:54:20 公開日:2024-03-16
# トポロジカルな観点からの言語学

Linguistics from a topological viewpoint ( http://arxiv.org/abs/2403.15440v1 )

ライセンス: Link先を確認
Rui Dong, (参考訳) 言語学における分類学データベースは通常分類学的に評価される。 その結果、データの明確な可視化は困難である。 本稿では,複数の対応解析手法とトポロジカルデータ解析手法を適用し,南アメリカ諸語のトポロジ的形状を解析するワークフローについて述べる。

Typological databases in linguistics are usually categorical-valued. As a result, it is difficult to have a clear visualization of the data. In this paper, we describe a workflow to analyze the topological shapes of South American languages by applying multiple correspondence analysis technique and topological data analysis methods.
翻訳日:2024-04-01 02:54:20 公開日:2024-03-16
# 個人化効果予測のためのウェアラブルセンサデータと自己報告日記の統合

Integrating Wearable Sensor Data and Self-reported Diaries for Personalized Affect Forecasting ( http://arxiv.org/abs/2403.13841v1 )

ライセンス: Link先を確認
Zhongqi Yang, Yuning Wang, Ken S. Yamashita, Maryam Sabah, Elahe Khatibi, Iman Azimi, Nikil Dutt, Jessica L. Borelli, Amir M. Rahmani, (参考訳) 感情状態は、影響の指標として、全体の健康に重要なものであり、発症前に正確な予測を行う。 現在の研究は、ウェアラブルやモバイルデバイスのデータを用いた、短期的影響の即時検出を中心にしている。 これらの研究は、典型的には客観的な感覚測定に焦点を当てており、日記やノートなど、他の形で報告された情報を無視していることが多い。 本稿では,状況予測に影響を及ぼすマルチモーダルディープラーニングモデルを提案する。 このモデルは、トランスフォーマーエンコーダと事前訓練された言語モデルを組み合わせることで、客観的なメトリクスと自己報告された日記の統合分析を容易にする。 本モデルの有効性を検証するため,大学生を登録して1年以上監視し,生理的,環境的,睡眠的,代謝的,身体活動的パラメータを含む広範囲なデータセットを,参加者が提供したオープンエンドのテキスト日記とともに収集する。 その結果, 予測精度82.50%, 負の影響82.76%, 前週の予測精度82.76%が得られた。 モデルの有効性は、その説明可能性によってさらに高められる。

Emotional states, as indicators of affect, are pivotal to overall health, making their accurate prediction before onset crucial. Current studies are primarily centered on immediate short-term affect detection using data from wearable and mobile devices. These studies typically focus on objective sensory measures, often neglecting other forms of self-reported information like diaries and notes. In this paper, we propose a multimodal deep learning model for affect status forecasting. This model combines a transformer encoder with a pre-trained language model, facilitating the integrated analysis of objective metrics and self-reported diaries. To validate our model, we conduct a longitudinal study, enrolling college students and monitoring them over a year, to collect an extensive dataset including physiological, environmental, sleep, metabolic, and physical activity parameters, alongside open-ended textual diaries provided by the participants. Our results demonstrate that the proposed model achieves predictive accuracy of 82.50% for positive affect and 82.76% for negative affect, a full week in advance. The effectiveness of our model is further elevated by its explainability.
翻訳日:2024-03-22 18:28:52 公開日:2024-03-16
# スピードランニングとパス積分

Speedrunning and path integrals ( http://arxiv.org/abs/2403.13008v1 )

ライセンス: Link先を確認
Gabriele Lami, (参考訳) 本稿では,古典シミュレーションにおける量子力学の簡易版表現として,スピードランニングの概念について検討する。 この類似性は、量子力学が古典力学のシミュレーションから生まれるというより広い考え方を理解するための単純化されたアプローチと見なすことができる。 スピードランニングの概念は、プレイヤーがニュートンの最初の法則を通して解釈できる「自然の力」と見なされるシミュレーションの観点から検討される。 この一般的な仮定から始めれば、経路積分の数学的表現を用いて、これらの2つの分野の間のブリッジを構築することが目的である。 また,最適戦略の探索を目的とした機械学習手法とゲームシミュレーションの中間層としての利用も検討した。 この記事では、主にシミュレーションにおける古典物理学と量子物理学の関係に焦点をあて、ローレンツ変換や仮想粒子に対する不変性のようなフィールド理論の技術的な問題を除く。

In this article we will explore the concept of speedrunning as a representation of a simplified version of quantum mechanics within a classical simulation. This analogy can be seen as a simplified approach to understanding the broader idea that quantum mechanics may emerge from classical mechanics simulations due to the limitations of the simulation. The concept of speedrunning will be explored from the perspective inside the simulation, where the player is seen as a "force of nature" that can be interpreted through Newton's first law. Starting from this general assumption, the aim is to build a bridge between these two fields by using the mathematical representation of path integrals. The use of such an approach as an intermediate layer between machine learning techniques aimed at finding an optimal strategy and a game simulation is also analysed. This article will focus primarily on the relationship between classical and quantum physics within the simulation, leaving aside more technical issues in field theory such as invariance with respect to Lorentz transformations and virtual particles.
翻訳日:2024-03-21 21:08:57 公開日:2024-03-16
# 弱教師付き関係抽出のための表現学習

Representation Learning for Weakly Supervised Relation Extraction ( http://arxiv.org/abs/2105.00815v3 )

ライセンス: Link先を確認
Zhuang Li, (参考訳) 近年では情報抽出やサブタスクであるリレーショナル抽出が急速に発展している。 関係抽出は文中のエンティティ間の意味的関係を検出することができる。 現在、関係抽出タスクに多くの効率的なアプローチが適用されている。 教師付き学習アプローチには特に優れたパフォーマンスがある。 しかし、難しい課題がまだたくさんある。 最も深刻な問題の1つは、手動でラベル付けされたデータを取得するのが難しいことである。 ほとんどの場合、教師付きアプローチの限られたデータは、粗悪なパフォーマンスに等しい。 このように、限られたトレーニングデータしか持たない状況下では、教師なし事前学習による教師なしベースラインシステムの性能向上に重点を置いている。 フィーチャーは、教師付きアプローチを改善する上で重要なコンポーネントの1つです。 伝統的なアプローチは、専門家の知識と高価な人的労働を必要とする手作りの特徴を適用するのが一般的である。 トレーニングセットのサイズが小さい場合、モデルのパラメータは低く見積もられる。 本論文では,関係表現の構文・意味的パターンを多用した分散テキスト表現の特徴を学習するための,教師なし事前学習モデルについて述べる。 実験により, 従来の手作りの特徴と組み合わせることで, 関係抽出のためのロジスティック分類モデルの性能が向上することが実証された。

Recent years have seen rapid development in Information Extraction, as well as its subtask, Relation Extraction. Relation Extraction is able to detect semantic relations between entities in sentences. Currently, many efficient approaches have been applied to relation extraction tasks. Supervised learning approaches especially have good performance. However, there are still many difficult challenges. One of the most serious problems is that manually labeled data is difficult to acquire. In most cases, limited data for supervised approaches equals lousy performance. Thus here, under the situation with only limited training data, we focus on how to improve the performance of our supervised baseline system with unsupervised pre-training. Feature is one of the key components in improving the supervised approaches. Traditional approaches usually apply hand-crafted features, which require expert knowledge and expensive human labor. However, this type of feature might suffer from data sparsity: when the training set size is small, the model parameters might be poorly estimated. In this thesis, we present several novel unsupervised pre-training models to learn the distributed text representation features, which are encoded with rich syntactic-semantic patterns of relation expressions. The experiments have demonstrated that this type of feature, combine with the traditional hand-crafted features, could improve the performance of the logistic classification model for relation extraction, especially on the classification of relations with only minor training instances.
翻訳日:2024-03-21 02:10:44 公開日:2024-03-16
# 大量生産のための深部生成設計

Deep Generative Design for Mass Production ( http://arxiv.org/abs/2403.12098v1 )

ライセンス: Link先を確認
Jihoon Kim, Yongmin Kwon, Namwoo Kang, (参考訳) ジェネレーティブデザイン(GD)は、進化的デザインアプローチとして進化し、従来の制約を超えた多様な革新的なソリューションを作成するために高度なアルゴリズムとAIを使用している。 その成功にもかかわらず、GDは複雑なデザインの製造可能性に関する重大な課題に直面しており、しばしば標準的な製造プロセスの制限と大量生産には適さない添加物製造への依存のために広範囲な手作業による修正を必要としている。 本研究は, ダイカストおよび射出成形に関連する制約を2次元深度画像を用いてGDに組み込むことにより, これらの製造可能性に対処する革新的な枠組みを提案する。 この方法は、複雑な3次元幾何学を製造可能なプロファイルに単純化し、製造不可能なオーバーハングのような実現不可能な特徴を除去し、厚みやリブ設計などの本質的な製造面を直接考慮できるようにする。 その結果、以前は大量生産には適さない設計が実現可能なソリューションに変換される。 従来の3次元形状生成法よりも効率的な2次元生成モデルを採用することで、このアプローチをさらに強化する。 本研究は, この枠組みの有効性を実証し, 革新的かつ重要な, 製造可能な設計の創出を実証するものである。 実用的な製造上の考慮事項をGDに統合するこのシフトは、純粋にインスピレーションを受けた概念から、実行可能な生産可能なソリューションへと移行する、重要な進歩を示している。 本研究は,GDと製造課題との整合性向上に向けた大きな一歩として,より広範な産業導入に向けたGDの有用性と可能性を明らかにした。

Generative Design (GD) has evolved as a transformative design approach, employing advanced algorithms and AI to create diverse and innovative solutions beyond traditional constraints. Despite its success, GD faces significant challenges regarding the manufacturability of complex designs, often necessitating extensive manual modifications due to limitations in standard manufacturing processes and the reliance on additive manufacturing, which is not ideal for mass production. Our research introduces an innovative framework addressing these manufacturability concerns by integrating constraints pertinent to die casting and injection molding into GD, through the utilization of 2D depth images. This method simplifies intricate 3D geometries into manufacturable profiles, removing unfeasible features such as non-manufacturable overhangs and allowing for the direct consideration of essential manufacturing aspects like thickness and rib design. Consequently, designs previously unsuitable for mass production are transformed into viable solutions. We further enhance this approach by adopting an advanced 2D generative model, which offer a more efficient alternative to traditional 3D shape generation methods. Our results substantiate the efficacy of this framework, demonstrating the production of innovative, and, importantly, manufacturable designs. This shift towards integrating practical manufacturing considerations into GD represents a pivotal advancement, transitioning from purely inspirational concepts to actionable, production-ready solutions. Our findings underscore usefulness and potential of GD for broader industry adoption, marking a significant step forward in aligning GD with the demands of manufacturing challenges.
翻訳日:2024-03-20 18:51:33 公開日:2024-03-16
# 深層強化学習を促進するための適応的合理活動

Adaptive Rational Activations to Boost Deep Reinforcement Learning ( http://arxiv.org/abs/2102.09407v5 )

ライセンス: Link先を確認
Quentin Delfosse, Patrick Schramowski, Martin Mundt, Alejandro Molina, Kristian Kersting, (参考訳) 生物学の最近の知見によると、知性はニューロン間の接続から生まれるだけでなく、個々のニューロンが以前予想されていたよりも計算上の責任を負っている。 この観点は、異なる強化学習環境を常に変化させる状況において重要であるが、現在のアプローチでは、主に静的アクティベーション関数を使用している。 本研究では、なぜ有理が適応可能なアクティベーション関数に適しているのか、なぜニューラルネットワークへの含意が重要であるのかを動機づける。 残差ネットワークの繰り返しに着想を得て、有理単位が残差接続の下で閉じている条件を導出し、自然な正則化(recurrent-rational)を定式化する。 我々は,Atariゲームにおいて,(繰り返しの)アクティベーションを伴う人気アルゴリズムの装備が一貫した改善をもたらし,特に単純なDQNをDDQNやRainbowと競合する固いアプローチに変換することを実証した。

Latest insights from biology show that intelligence not only emerges from the connections between neurons but that individual neurons shoulder more computational responsibility than previously anticipated. This perspective should be critical in the context of constantly changing distinct reinforcement learning environments, yet current approaches still primarily employ static activation functions. In this work, we motivate why rationals are suitable for adaptable activation functions and why their inclusion into neural networks is crucial. Inspired by recurrence in residual networks, we derive a condition under which rational units are closed under residual connections and formulate a naturally regularised version: the recurrent-rational. We demonstrate that equipping popular algorithms with (recurrent-)rational activations leads to consistent improvements on Atari games, especially turning simple DQN into a solid approach, competitive to DDQN and Rainbow.
翻訳日:2024-03-20 07:06:24 公開日:2024-03-16
# ランダムオブジェクトを用いたランダムフォレスト重み付き局所フレシェ回帰

Random Forest Weighted Local Fréchet Regression with Random Objects ( http://arxiv.org/abs/2202.04912v4 )

ライセンス: Link先を確認
Rui Qiu, Zhou Yu, Ruoqing Zhu, (参考訳) 統計分析は計量空間の複雑なデータとますます対立している。 Petersen と M\"uller (2019) は、複素距離空間値応答とユークリッド予測子を持つ Fr'echet 回帰の一般的なパラダイムを確立した。 しかし、局所的なアプローチは非パラメトリックカーネルの平滑化を伴い、次元の呪いに苦しむ。 この問題に対処するため、本稿では、新しいランダム森林重み付き局所Fr'echet回帰パラダイムを提案する。 このアプローチの主なメカニズムは、ランダムな森林によって生成される局所適応型カーネルに依存している。 第1の方法はこれらの重みを局所平均として用いて条件付きFr'echet平均を解き、第2の方法は局所線形Fr'echet回帰を行い、どちらも既存のFr'echet回帰法を大幅に改善する。 無限次U-プロセスの理論と無限次$M_{m_n}$-推定器に基づいて、局所定数推定器の一貫性、収束率、漸近正規性を確立する。 数値解析により,分布関数,対称正定値行列,球面データなど,一般的に遭遇する応答の多種多様さで,本手法の優位性を示す。 提案の実践的メリットは、ニューヨークタクシーデータおよび人死亡データに適用することでも示される。

Statistical analysis is increasingly confronted with complex data from metric spaces. Petersen and M\"uller (2019) established a general paradigm of Fr\'echet regression with complex metric space valued responses and Euclidean predictors. However, the local approach therein involves nonparametric kernel smoothing and suffers from the curse of dimensionality. To address this issue, we in this paper propose a novel random forest weighted local Fr\'echet regression paradigm. The main mechanism of our approach relies on a locally adaptive kernel generated by random forests. Our first method uses these weights as the local average to solve the conditional Fr\'echet mean, while the second method performs local linear Fr\'echet regression, both significantly improving existing Fr\'echet regression methods. Based on the theory of infinite order U-processes and infinite order $M_{m_n}$-estimator, we establish the consistency, rate of convergence, and asymptotic normality for our local constant estimator, which covers the current large sample theory of random forests with Euclidean responses as a special case. Numerical studies show the superiority of our methods with several commonly encountered types of responses such as distribution functions, symmetric positive-definite matrices, and sphere data. The practical merits of our proposals are also demonstrated through the application to New York taxi data and human mortality data.
翻訳日:2024-03-20 07:06:24 公開日:2024-03-16
# スキルマシン:強化学習における時間論理スキル構成

Skill Machines: Temporal Logic Skill Composition in Reinforcement Learning ( http://arxiv.org/abs/2205.12532v2 )

ライセンス: Link先を確認
Geraud Nangue Tasse, Devon Jarvis, Steven James, Benjamin Rosman, (参考訳) エージェントは、同じ環境で言語を通して特定できる多様な問題を解決することが望ましい。 このようなエージェントを得るための一般的なアプローチは、以前のタスクで学んだスキルを再利用して、新しいタスクに合成することである。 しかし、これは、言語における高次目標を論理的にも時間的にも組み合わせることのできる、組合せ的に多数の方法によって引き起こされる次元性の呪いによる挑戦的な問題である。 この問題に対処するために,エージェントはまず,その環境におけるすべてのハイレベルな目標を達成するのに十分なスキルプリミティブのセットを学習するフレームワークを提案する。 エージェントは論理的にも時間的にも柔軟にそれらを構成することができ、線形時間論理の正規フラグメントのような任意の正規言語で時間論理仕様を確実に達成することができる。 これによりエージェントは、複雑な時間論理タスクの仕様から、ほぼ最適な振る舞いをゼロショットにマッピングできる。 我々はこれを高次元のビデオゲームや連続制御環境と同様に表形式で実験的に実証する。 最後に、最適動作が望まれる場合には、通常の非政治強化学習アルゴリズムを用いて、スキルマシンの性能を向上できることを実証する。

It is desirable for an agent to be able to solve a rich variety of problems that can be specified through language in the same environment. A popular approach towards obtaining such agents is to reuse skills learned in prior tasks to generalise compositionally to new ones. However, this is a challenging problem due to the curse of dimensionality induced by the combinatorially large number of ways high-level goals can be combined both logically and temporally in language. To address this problem, we propose a framework where an agent first learns a sufficient set of skill primitives to achieve all high-level goals in its environment. The agent can then flexibly compose them both logically and temporally to provably achieve temporal logic specifications in any regular language, such as regular fragments of linear temporal logic. This provides the agent with the ability to map from complex temporal logic task specifications to near-optimal behaviours zero-shot. We demonstrate this experimentally in a tabular setting, as well as in a high-dimensional video game and continuous control environment. Finally, we also demonstrate that the performance of skill machines can be improved with regular off-policy reinforcement learning algorithms when optimal behaviours are desired.
翻訳日:2024-03-20 07:06:24 公開日:2024-03-16
# 双線形関数の最大最適化のための競合共進化アルゴリズムの実行時解析

Runtime Analysis of Competitive co-Evolutionary Algorithms for Maximin Optimisation of a Bilinear Function ( http://arxiv.org/abs/2206.15238v2 )

ライセンス: Link先を確認
Per Kristian Lehre, (参考訳) 共進化的アルゴリズムには、ハードウェア設計、ボードゲーム戦略の進化、ソフトウェアバグのパッチなど、幅広い応用がある。 しかし、これらのアルゴリズムは理解が不十分であり、勾配の喪失、相対的な過剰一般化、中程度の客観的安定など、しばしば病理学的な振る舞いによって制限される。 共進化的アルゴリズムが解を効率的にかつ確実に見つけることを予測できる理論を開発することは、オープンな挑戦である。 本稿では,人口ベース競争共進化型アルゴリズムのランタイム解析開発における第一歩について述べる。 我々は、共進化的プロセスのパフォーマンスを記述し、推論するための数学的枠組みを提供する。 このフレームワークの例は、単純な共進化的アルゴリズムが多項式期待時間で解を得るシナリオを示している。 最後に、共進化的アルゴリズムが解を得るのに圧倒的に高い確率で指数時間を必要とするような設定について述べる。

Co-evolutionary algorithms have a wide range of applications, such as in hardware design, evolution of strategies for board games, and patching software bugs. However, these algorithms are poorly understood and applications are often limited by pathological behaviour, such as loss of gradient, relative over-generalisation, and mediocre objective stasis. It is an open challenge to develop a theory that can predict when co-evolutionary algorithms find solutions efficiently and reliable. This paper provides a first step in developing runtime analysis for population-based competitive co-evolutionary algorithms. We provide a mathematical framework for describing and reasoning about the performance of co-evolutionary processes. An example application of the framework shows a scenario where a simple co-evolutionary algorithm obtains a solution in polynomial expected time. Finally, we describe settings where the co-evolutionary algorithm needs exponential time with overwhelmingly high probability to obtain a solution.
翻訳日:2024-03-20 06:58:04 公開日:2024-03-16
# 次元フリーリッジレグレッション

Dimension free ridge regression ( http://arxiv.org/abs/2210.08571v2 )

ライセンス: Link先を確認
Chen Cheng, Andrea Montanari, (参考訳) ランダム行列理論は高次元統計学や理論的機械学習において広く有用な道具となっている。 しかし、ランダム行列理論は、列の数がデータ行列の行数に比例して増加する比例漸近に主に焦点を当てている。 これは、列がサンプルの共変量や行に対応する統計学において、必ずしも最も自然な設定ではない。 d.d. data $(x_i, y_i)$, $i\le n$, where $x_i$ is a feature vector and $y_i = \beta^\top x_i +\epsilon_i \in\mathbb{R}$ is a response.d.d. data $(x_i, y_i)$, $i\le n$, where $x_i$ is a feature vector and $y_i = \beta^\top x_i +\epsilon_i \in\mathbb{R}$ is a response。 特徴ベクトルを高次元、あるいは無限次元とし、その場合、それは分離可能なヒルベルト空間に属し、$z_i := \Sigma^{-1/2}x_i$ のいずれかを i.d. のエントリを持つか、あるいはある凸濃度特性を満たすように仮定する。 この設定では、「等価」なシーケンスモデル(対角行列を持つ回帰モデル)のバイアスと分散の観点から、リッジ回帰のバイアスと分散を近似する非漸近境界を確立する。 近似は、いくつかの明示的な小さな$\Delta$に対して、$(1\pm \Delta)$で有界な乗法的因子である。 以前は、そのような近似結果は比例的な体制でしか知られておらず、加法的な誤りまでしか知られていなかったが、特に、0$に収まると余剰リスクの振る舞いを特徴づけることができなかった。 我々の一般的な理論は、(より良い誤差率で)比例規則で以前の結果を回復する。 新しい応用として、定期的に変化するスペクトルを持つヒルベルト共変量に対して、完全に明示的で鋭い尾根回帰特性を得る。 最後に、過度にパラメータ化された近接補間条件を分析し、鋭い「良性オーバーフィッティング」保証を得る。

Random matrix theory has become a widely useful tool in high-dimensional statistics and theoretical machine learning. However, random matrix theory is largely focused on the proportional asymptotics in which the number of columns grows proportionally to the number of rows of the data matrix. This is not always the most natural setting in statistics where columns correspond to covariates and rows to samples. With the objective to move beyond the proportional asymptotics, we revisit ridge regression ($\ell_2$-penalized least squares) on i.i.d. data $(x_i, y_i)$, $i\le n$, where $x_i$ is a feature vector and $y_i = \beta^\top x_i +\epsilon_i \in\mathbb{R}$ is a response. We allow the feature vector to be high-dimensional, or even infinite-dimensional, in which case it belongs to a separable Hilbert space, and assume either $z_i := \Sigma^{-1/2}x_i$ to have i.i.d. entries, or to satisfy a certain convex concentration property. Within this setting, we establish non-asymptotic bounds that approximate the bias and variance of ridge regression in terms of the bias and variance of an `equivalent' sequence model (a regression model with diagonal design matrix). The approximation is up to multiplicative factors bounded by $(1\pm \Delta)$ for some explicitly small $\Delta$. Previously, such an approximation result was known only in the proportional regime and only up to additive errors: in particular, it did not allow to characterize the behavior of the excess risk when this converges to $0$. Our general theory recovers earlier results in the proportional regime (with better error rates). As a new application, we obtain a completely explicit and sharp characterization of ridge regression for Hilbert covariates with regularly varying spectrum. Finally, we analyze the overparametrized near-interpolation setting and obtain sharp `benign overfitting' guarantees.
翻訳日:2024-03-20 06:58:04 公開日:2024-03-16
# SIFU:フェデレーション最適化における効率的かつ予測可能なクライアントアンラーニングのための逐次インフォームド・フェデレーション・アンラーニング

SIFU: Sequential Informed Federated Unlearning for Efficient and Provable Client Unlearning in Federated Optimization ( http://arxiv.org/abs/2211.11656v5 )

ライセンス: Link先を確認
Yann Fraboni, Martin Van Waerebeke, Kevin Scaman, Richard Vidal, Laetitia Kameni, Marco Lorenzi, (参考訳) 機械学習の安全性において、機械学習(MU)はますます重要になっているトピックであり、トレーニング手順から与えられたデータポイントのコントリビューションを取り除くことを目的としている。 フェデレーテッド・アンラーニング(FU)は、フェデレーテッド・トレーニングルーチンから特定のクライアントのコントリビューションを解放するためにMUを拡張することである。 いくつかのFU手法が提案されているが、現在ではFedAvgルーチンに正式なアンラーニング保証を提供する一般的なアプローチは欠如しており、クライアントの損失関数に対する凸仮定を超えたスケーラビリティと一般化が保証されている。 我々は,このギャップを,凸最適化と非凸最適化の両方に適用可能なSIFU(Sequential Informed Federated Unlearning)を提案することで埋めることを目指している。 SIFUは自然にクライアントに追加の計算コストなしでFedAvgに適用され、未学習タスクの品質に関する正式な保証を提供する。 SIFUの未学習特性を理論的に解析し、その効果を最先端の未学習手法のパネルと比較する。

Machine Unlearning (MU) is an increasingly important topic in machine learning safety, aiming at removing the contribution of a given data point from a training procedure. Federated Unlearning (FU) consists in extending MU to unlearn a given client's contribution from a federated training routine. While several FU methods have been proposed, we currently lack a general approach providing formal unlearning guarantees to the FedAvg routine, while ensuring scalability and generalization beyond the convex assumption on the clients' loss functions. We aim at filling this gap by proposing SIFU (Sequential Informed Federated Unlearning), a new FU method applying to both convex and non-convex optimization regimes. SIFU naturally applies to FedAvg without additional computational cost for the clients and provides formal guarantees on the quality of the unlearning task. We provide a theoretical analysis of the unlearning properties of SIFU, and practically demonstrate its effectiveness as compared to a panel of unlearning methods from the state-of-the-art.
翻訳日:2024-03-20 06:58:04 公開日:2024-03-16
# 攻撃者としてのナビゲーション : フェデレートラーニングによるロバストな体操エージェントの構築に向けて

Navigation as Attackers Wish? Towards Building Robust Embodied Agents under Federated Learning ( http://arxiv.org/abs/2211.14769v4 )

ライセンス: Link先を確認
Yunchao Zhang, Zonglin Di, Kaiwen Zhou, Cihang Xie, Xin Eric Wang, (参考訳) フェデレートされたエージェント学習は、トレーニング中に各クライアント(個々の環境)にデータをローカルに保持することで、個々の視覚環境のデータプライバシを保護する。 しかし、ローカルデータは、フェデレートされた学習下でサーバにアクセスできないため、攻撃者は、ローカルクライアントのトレーニングデータに容易に毒を塗って、エージェントに通知なしでバックドアを構築することができる。 このようなエージェントの配備は、攻撃者がバックドアを介して望むようにエージェントをナビゲートし制御するので、人間に潜在的に害を与えるリスクを高める。 本稿では,ビザンチン・ロバスト連合型エージェント学習に向けて,視覚・言語ナビゲーション(VLN)の課題に対する攻撃と防御について検討する。 まず、悪意のあるクライアントがローカルな軌跡データを操作し、バックドアをグローバルなモデルに埋め込むという、シンプルで効果的な攻撃戦略であるNavigation as Wish(NAW)を導入する。 2つのVLNデータセット(R2RとRxR)の結果は、NAWが通常のテストセットのパフォーマンスに影響を与えることなく、言語命令にかかわらず、デプロイされたVLNエージェントを容易にナビゲートできることを示している。 そこで我々は,フェデレートされたVLNにおけるNAW攻撃を防御する新しいPBAを提案する。これにより,サーバは,訓練中に区別できるように,良性クライアントと悪質クライアントとの視覚的・言語的アライメントの「プロンプト」をサーバに提供する。 NAW攻撃からグローバルモデルを保護するためのPBA法の有効性を検証する。この手法は,R2RとRxRの防衛基準において,他の最先端の防衛手法よりも優れる。

Federated embodied agent learning protects the data privacy of individual visual environments by keeping data locally at each client (the individual environment) during training. However, since the local data is inaccessible to the server under federated learning, attackers may easily poison the training data of the local client to build a backdoor in the agent without notice. Deploying such an agent raises the risk of potential harm to humans, as the attackers may easily navigate and control the agent as they wish via the backdoor. Towards Byzantine-robust federated embodied agent learning, in this paper, we study the attack and defense for the task of vision-and-language navigation (VLN), where the agent is required to follow natural language instructions to navigate indoor environments. First, we introduce a simple but effective attack strategy, Navigation as Wish (NAW), in which the malicious client manipulates local trajectory data to implant a backdoor into the global model. Results on two VLN datasets (R2R and RxR) show that NAW can easily navigate the deployed VLN agent regardless of the language instruction, without affecting its performance on normal test sets. Then, we propose a new Prompt-Based Aggregation (PBA) to defend against the NAW attack in federated VLN, which provides the server with a ''prompt'' of the vision-and-language alignment variance between the benign and malicious clients so that they can be distinguished during training. We validate the effectiveness of the PBA method on protecting the global model from the NAW attack, which outperforms other state-of-the-art defense methods by a large margin in the defense metrics on R2R and RxR.
翻訳日:2024-03-20 06:58:04 公開日:2024-03-16
# ネットワーク上の大規模多重テストについて:漸近的アプローチ

On Large-Scale Multiple Testing Over Networks: An Asymptotic Approach ( http://arxiv.org/abs/2211.16059v4 )

ライセンス: Link先を確認
Mehrdad Pournaderi, Yu Xiang, (参考訳) この研究は、ネットワーク上の大規模多重テストのための通信効率と計算効率の手法の開発に関係しており、多くの実用的応用に注目されている。 我々は漸近的なアプローチを採り、分散設定に合わせて、比例マッチングとグリーディーアグリゲーションという2つの手法を提案する。 比例マッチング法は、グローバルなBH性能を達成するが、真のヌル仮説の(推定)比率と各ノードにおけるp値の数との1ショットの通信しか必要としない。 漸近最適パワーに焦点をあてることで、漸近最適解の明示的な特徴づけを提供することで、BH手順を超えていく。 これにより、各ノードの最適拒絶領域を効果的に近似するグリーディ集約法が導かれる一方、計算効率はグリーディ型アプローチから自然に得られる。 さらに,両手法とも,FDRとパワーの両面での収束率を示す。 理論的な知見を裏付けるために, 様々な難易度設定に対する大規模な数値計算結果を提供する。

This work concerns developing communication- and computation-efficient methods for large-scale multiple testing over networks, which is of interest to many practical applications. We take an asymptotic approach and propose two methods, proportion-matching and greedy aggregation, tailored to distributed settings. The proportion-matching method achieves the global BH performance yet only requires a one-shot communication of the (estimated) proportion of true null hypotheses as well as the number of p-values at each node. By focusing on the asymptotic optimal power, we go beyond the BH procedure by providing an explicit characterization of the asymptotic optimal solution. This leads to the greedy aggregation method that effectively approximates the optimal rejection regions at each node, while computation efficiency comes from the greedy-type approach naturally. Moreover, for both methods, we provide the rate of convergence for both the FDR and power. Extensive numerical results over a variety of challenging settings are provided to support our theoretical findings.
翻訳日:2024-03-20 06:58:04 公開日:2024-03-16
# 浅回路サンプリングのための無条件量子アドバンテージ

Unconditional Quantum Advantage for Sampling with Shallow Circuits ( http://arxiv.org/abs/2301.00995v4 )

ライセンス: Link先を確認
Adam Bene Watts, Natalie Parham, (参考訳) Bravyi、Gosset、Koenigによる最近の研究は、一定の深さの量子回路で解ける探索問題が存在するが、ファンインが有界な任意の定深さの古典回路では解けないことを示した。 入力非依存のサンプリングタスクに対して、同様の分離の証明を達成できますか? 本稿では,古典回路に与えられるランダムな入力ビットの数が有界である場合に,この疑問に対する答えがイエスであることを示す。 分布 $D_{n}$ over $\{0,1\}^n$ を導入し、定数深度均一な量子回路ファミリ $\{C_n\}_n$ を構成する。 任意の$\delta < 1$に対して、無条件に、入力 $kn + n^\delta$ i.d. Bernouli の確率変数がエントロピー 1/k$ であり、総変動距離が $D_{n}$ に近い出力は深さ $\Omega(\log \log n)$ となるような有界なファンインゲートを持つ任意の古典回路が、深さ $\Omega(\log \log n)$ であることを示す。 これは、定数深度量子回路が定数深度有界ファンイン古典回路で再現できない分布から、加法誤差までもサンプリングできるという無条件の証明を与える。 また、アドバイス付き定数深度量子回路とバウンドファンインとファンアウト付き古典回路との類似の分離を示すが、非バウンド数のi.i.dランダム入力へのアクセスは可能である。 分布$D_n$と古典回路下限は、ヴァイオラの業績にインスパイアされ、彼は、ある異なる(しかし関連する)分布を、一定深さのファンイン古典回路でおよそサンプリングできないことを示す。

Recent work by Bravyi, Gosset, and Koenig showed that there exists a search problem that a constant-depth quantum circuit can solve, but that any constant-depth classical circuit with bounded fan-in cannot. They also pose the question: Can we achieve a similar proof of separation for an input-independent sampling task? In this paper, we show that the answer to this question is yes when the number of random input bits given to the classical circuit is bounded. We introduce a distribution $D_{n}$ over $\{0,1\}^n$ and construct a constant-depth uniform quantum circuit family $\{C_n\}_n$ such that $C_n$ samples from a distribution close to $D_{n}$ in total variation distance. For any $\delta < 1$ we also prove, unconditionally, that any classical circuit with bounded fan-in gates that takes as input $kn + n^\delta$ i.i.d. Bernouli random variables with entropy $1/k$ and produces output close to $D_{n}$ in total variation distance has depth $\Omega(\log \log n)$. This gives an unconditional proof that constant-depth quantum circuits can sample from distributions that can't be reproduced by constant-depth bounded fan-in classical circuits, even up to additive error. We also show a similar separation between constant-depth quantum circuits with advice and classical circuits with bounded fan-in and fan-out, but access to an unbounded number of i.i.d random inputs. The distribution $D_n$ and classical circuit lower bounds are inspired by work of Viola, in which he shows a different (but related) distribution cannot be sampled from approximately by constant-depth bounded fan-in classical circuits.
翻訳日:2024-03-20 06:48:15 公開日:2024-03-16
# 非エルミート多体局在の静的およびダイナミクス

Statics and Dynamics of non-Hermitian Many-Body Localization ( http://arxiv.org/abs/2301.01763v3 )

ライセンス: Link先を確認
József Mák, M. J. Bhaseen, Arijeet Pal, (参考訳) 多体局在相は、ユニタリダイナミクスを持つ不規則相互作用系における初期状態の記憶を保持する。 ユニタリティの崩壊による局所的な位相の安定性は、散逸の存在下での実験に関係している。 ここでは,非エルミート摂動が多体局在に与える影響について検討する。 非対称ホッピングによりユニタリ性を破る相互作用する波多野・ネルソンモデルに焦点をあてる。 相互作用強度と非ハーミティシティの関数として,中間スペクトル固有状態の位相図を探索する。 非接触例とは対照的に,本症例は局所的な状態に対する2段階のアプローチと一致している。 また、粒子の不均衡の力学についても検討する。 緩和時間スケールの分布は局所化相とエルゴード相とで定性的に異なることを示す。 本研究は, 乱れたオープンシステムにおける中間的動的状態の可能性を示している。

Many-body localized phases retain memory of their initial conditions in disordered interacting systems with unitary dynamics. The stability of the localized phase due to the breakdown of unitarity is of relevance to experiment in the presence of dissipation. Here we investigate the impact of non-Hermitian perturbations on many-body localization. We focus on the interacting Hatano-Nelson model which breaks unitarity via asymmetric hopping. We explore the phase diagram for the mid-spectrum eigenstates as a function of the interaction strength and the non-Hermiticity. In contrast to the non-interacting case, our findings are consistent with a two-step approach to the localized regime. We also study the dynamics of the particle imbalance. We show that the distribution of relaxation time scales differs qualitatively between the localized and ergodic phases. Our findings suggest the possibility of an intermediate dynamical regime in disordered open systems.
翻訳日:2024-03-20 06:48:15 公開日:2024-03-16
# Agnostic Visual Recommendation System: オープンチャレンジと今後の方向性

Agnostic Visual Recommendation Systems: Open Challenges and Future Directions ( http://arxiv.org/abs/2302.00569v2 )

ライセンス: Link先を確認
Luca Podo, Bardh Prenkaj, Paola Velardi, (参考訳) ビジュアライゼーション・レコメンデーション・システム(VRS)は、データから洞察に富んだ可視化を作成し、情報発見において専門家でないユーザをサポートすることを目的とした、新しくて挑戦的な研究分野である。 この領域で提案されている多くのコントリビューションのうち、あるシステムは人間のアナリストを模倣してデータ内の関連する関係を識別し、これらの関係を洞察に富んだチャートで表現するための適切な設計選択を行うという野心的な目標を受け入れている。 これらのシステムは、人間が提供する制約やルールに頼らず、自律的にタスクを学習しようとするため、VRSを「非依存」と表現する。 VRSの高度な応用可能性にもかかわらず、それらの進歩は、推奨アルゴリズムをトレーニングするための標準化データセットの欠如、設計規則の学習の難しさ、生成されたプロットの知覚的有効性を評価するための定量的基準の定義など、いくつかの障害によって妨げられている。 本稿では,VRSに関する文献を要約し,今後の研究方向性について概説する。

Visualization Recommendation Systems (VRSs) are a novel and challenging field of study aiming to help generate insightful visualizations from data and support non-expert users in information discovery. Among the many contributions proposed in this area, some systems embrace the ambitious objective of imitating human analysts to identify relevant relationships in data and make appropriate design choices to represent these relationships with insightful charts. We denote these systems as "agnostic" VRSs since they do not rely on human-provided constraints and rules but try to learn the task autonomously. Despite the high application potential of agnostic VRSs, their progress is hindered by several obstacles, including the absence of standardized datasets to train recommendation algorithms, the difficulty of learning design rules, and defining quantitative criteria for evaluating the perceptual effectiveness of generated plots. This paper summarizes the literature on agnostic VRSs and outlines promising future research directions.
翻訳日:2024-03-20 06:48:15 公開日:2024-03-16
# プライベートで公正で正確な:医療画像における大規模でプライバシー保護のAIモデルを訓練する

Private, fair and accurate: Training large-scale, privacy-preserving AI models in medical imaging ( http://arxiv.org/abs/2302.01622v5 )

ライセンス: Link先を確認
Soroosh Tayebi Arasteh, Alexander Ziller, Christiane Kuhl, Marcus Makowski, Sven Nebelung, Rickmer Braren, Daniel Rueckert, Daniel Truhn, Georgios Kaissis, (参考訳) 人工知能(AI)モデルは、医療分野でますます使われている。 しかし、医療データは極めて敏感であるため、その保護を確実にするための特別な予防措置が必要である。 プライバシ保護のための金の標準は、モデルのトレーニングに差分プライバシー(DP)を導入することである。 先行研究は、DPがモデル精度と公平性に悪影響を及ぼすことを示しており、医学では受け入れられず、プライバシ保護技術の普及への主要な障壁となっている。 本研究では,AIモデルのプライバシ保護トレーニングが,非プライベートトレーニングと比較して精度と公平性に与える影響を評価した。 そこで我々は,(1)高品質な胸部X線撮影用大データセット(N=193,311),(2)腹部CT画像のデータセット(N=1,625)の2つのデータセットを用いて,膵管腺癌(PDAC)の存在を分類した。 どちらも遡及的に収集され、経験豊富な放射線学者によって手動でラベル付けされた。 次に、Pearsonのrまたは統計パリティ差(統計パリティ差)として測定された、非プライベートディープ畳み込みニューラルネットワーク(CNN)とプライバシ保護(DP)モデルの、受信者-操作特性曲線(AUROC)の領域として測定されたプライバシユーティリティトレードオフと、プライバシ-フェアネストレードオフを比較した。 プライバシー保護訓練は精度が低かったが、年齢、性別、共道徳に対する差別を増幅することはなかった。 我々の研究は、実際の臨床データセットの困難な現実的な状況下では、診断深層学習モデルのプライバシー保護トレーニングは、優れた診断精度と公正さで可能であることを示しています。

Artificial intelligence (AI) models are increasingly used in the medical domain. However, as medical data is highly sensitive, special precautions to ensure its protection are required. The gold standard for privacy preservation is the introduction of differential privacy (DP) to model training. Prior work indicates that DP has negative implications on model accuracy and fairness, which are unacceptable in medicine and represent a main barrier to the widespread use of privacy-preserving techniques. In this work, we evaluated the effect of privacy-preserving training of AI models regarding accuracy and fairness compared to non-private training. For this, we used two datasets: (1) A large dataset (N=193,311) of high quality clinical chest radiographs, and (2) a dataset (N=1,625) of 3D abdominal computed tomography (CT) images, with the task of classifying the presence of pancreatic ductal adenocarcinoma (PDAC). Both were retrospectively collected and manually labeled by experienced radiologists. We then compared non-private deep convolutional neural networks (CNNs) and privacy-preserving (DP) models with respect to privacy-utility trade-offs measured as area under the receiver-operator-characteristic curve (AUROC), and privacy-fairness trade-offs, measured as Pearson's r or Statistical Parity Difference. We found that, while the privacy-preserving trainings yielded lower accuracy, they did largely not amplify discrimination against age, sex or co-morbidity. Our study shows that -- under the challenging realistic circumstances of a real-life clinical dataset -- the privacy-preserving training of diagnostic deep learning models is possible with excellent diagnostic accuracy and fairness.
翻訳日:2024-03-20 06:48:15 公開日:2024-03-16
# マスケード言語モデリングにおける表現障害

Representation Deficiency in Masked Language Modeling ( http://arxiv.org/abs/2302.02060v2 )

ライセンス: Link先を確認
Yu Meng, Jitin Krishnan, Sinong Wang, Qifan Wang, Yuning Mao, Han Fang, Marjan Ghazvininejad, Jiawei Han, Luke Zettlemoyer, (参考訳) Masked Language Modeling (MLM) は、その単純さと有効性から、双方向テキストエンコーダを事前学習するための最も顕著なアプローチの1つである。 MLMに関する注目すべき懸念は、特別な$\texttt{[MASK]}$シンボルが事前トレーニングデータと下流データの間に相違を引き起こすことである。 我々は、MLM事前学習が、$\texttt{[MASK]}$トークンのみを表すために、いくつかのモデル次元を割り当て、結果として、実際のトークンに対する表現不足が生じ、$\textt{[MASK]}$トークンを使わずに下流データに適用された場合、事前訓練されたモデルの表現が制限されることを経験的および理論的に示す。 そこで本研究では,Masked Autoencoder アーキテクチャを MLM で事前トレーニングする MAE-LM を提案し,$\texttt{[MASK]} のトークンをエンコーダから除外する。 実験により,MAE-LMは実トークン表現におけるモデル次元の利用を改良し,GLUEおよびSQuADベンチマークで微調整した場合,MAE-LMは異なる事前学習設定とモデルサイズでMLM事前学習モデルより一貫して優れることを示した。

Masked Language Modeling (MLM) has been one of the most prominent approaches for pretraining bidirectional text encoders due to its simplicity and effectiveness. One notable concern about MLM is that the special $\texttt{[MASK]}$ symbol causes a discrepancy between pretraining data and downstream data as it is present only in pretraining but not in fine-tuning. In this work, we offer a new perspective on the consequence of such a discrepancy: We demonstrate empirically and theoretically that MLM pretraining allocates some model dimensions exclusively for representing $\texttt{[MASK]}$ tokens, resulting in a representation deficiency for real tokens and limiting the pretrained model's expressiveness when it is adapted to downstream data without $\texttt{[MASK]}$ tokens. Motivated by the identified issue, we propose MAE-LM, which pretrains the Masked Autoencoder architecture with MLM where $\texttt{[MASK]}$ tokens are excluded from the encoder. Empirically, we show that MAE-LM improves the utilization of model dimensions for real token representations, and MAE-LM consistently outperforms MLM-pretrained models across different pretraining settings and model sizes when fine-tuned on the GLUE and SQuAD benchmarks.
翻訳日:2024-03-20 06:48:15 公開日:2024-03-16
# ドメイン関係によるドメインの一般化の改善

Improving Domain Generalization with Domain Relations ( http://arxiv.org/abs/2302.02609v2 )

ライセンス: Link先を確認
Huaxiu Yao, Xinyu Yang, Xinyi Pan, Shengchao Liu, Pang Wei Koh, Chelsea Finn, (参考訳) 分散シフトは機械学習において重要な課題であり、トレーニングされたモデルとは異なるディストリビューションに直面した場合、テスト段階でモデルのパフォーマンスが低下することが多い。 本稿では、トレーニングしたドメインとは異なる新しいドメインにモデルを適用する際に発生するドメインシフトに注目し、D$^3$Gという新しいアプローチを提案する。 ドメイン不変の単一モデルを学習しようとする従来の方法とは異なり、D$^3$Gはドメインメタデータに基づいたドメイン類似性を活用してドメイン固有モデルを学習する。 具体的には、D$3$Gはトレーニング段階で訓練ドメイン固有の関数の集合を学習し、テスト段階でのドメイン関係に基づいてそれらを重み付けする。 これらのドメイン関係は、ドメインメタデータから直接取得し、学習することができる。 軽微な仮定の下では、ドメイン関係を用いて訓練領域固有の関数を重み付けすると、従来の平均化手法と比較してドメイン外一般化がより強くなることを理論的に証明する。 温度回帰,土地利用分類,分子結合親和性予測などのタスクに対して,実世界のデータセットを用いてD$^3$Gの有効性を実証的に評価した。 以上の結果から,D$^3$Gは最先端の手法より一貫して優れていた。

Distribution shift presents a significant challenge in machine learning, where models often underperform during the test stage when faced with a different distribution than the one they were trained on. This paper focuses on domain shifts, which occur when the model is applied to new domains that are different from the ones it was trained on, and propose a new approach called D$^3$G. Unlike previous methods that aim to learn a single model that is domain invariant, D$^3$G leverages domain similarities based on domain metadata to learn domain-specific models. Concretely, D$^3$G learns a set of training-domain-specific functions during the training stage and reweights them based on domain relations during the test stage. These domain relations can be directly obtained and learned from domain metadata. Under mild assumptions, we theoretically prove that using domain relations to reweight training-domain-specific functions achieves stronger out-of-domain generalization compared to the conventional averaging approach. Empirically, we evaluate the effectiveness of D$^3$G using real-world datasets for tasks such as temperature regression, land use classification, and molecule-protein binding affinity prediction. Our results show that D$^3$G consistently outperforms state-of-the-art methods.
翻訳日:2024-03-20 06:48:15 公開日:2024-03-16
# 確率的および対向的オンライン凸最適化のための最適オンラインミラーダイス

Optimistic Online Mirror Descent for Bridging Stochastic and Adversarial Online Convex Optimization ( http://arxiv.org/abs/2302.04552v3 )

ライセンス: Link先を確認
Sijia Chen, Yu-Jie Zhang, Wei-Wei Tu, Peng Zhao, Lijun Zhang, (参考訳) 確率的オンライン凸最適化と対向的オンライン凸最適化の補間として, Sachs らにより, 確率的拡張逆数 (SEA) モデルが導入された。 滑らかな条件下では、楽観的追従正規化リーダ(FTRL)の期待された後悔は、凸函数に対する累積確率分散$\sigma_{1:T}^2$と累積逆変分$\Sigma_{1:T}^2$に依存することを示した。 また、強い凸函数に対して、最大確率分散$\sigma_{\max}^2$と最大逆変分$\Sigma_{\max}^2$に基づいて、少し弱い境界を与える。 これらの研究から着想を得て,SEAモデルに対する楽観的オンラインミラー降下(OMD)の理論的保証について検討した。 凸函数と滑らかな函数に対しては、個々の函数の凸性要件なしに同じ$\mathcal{O}(\sqrt{\sigma_{1:T}^2}+\sqrt{\Sigma_{1:T}^2})$ regret bound が得られる。 強凸かつ滑らかな函数に対しては、$\mathcal{O}((\sigma_{\max}^2 + \Sigma_{\max}^2) \log (\sigma_{1:T}^2+\Sigma_{1:T}^2))$bound を $\mathcal{O}((\sigma_{\max}^2 + \Sigma_{\max}^2) \log T)$ result とする。 exp-concave と滑らかな函数に対して、新しい $\mathcal{O}(d\log(\sigma_{1:T}^2+\Sigma_{1:T}^2))$bound を達成する。 OMDフレームワークにより、動的後悔の最小化とオンライン機能が非滑らかなシナリオについて研究する作業を広げる。 非定常シナリオにおける静的な後悔境界よりも、凸関数と滑らかな関数を持つSEAモデルに対する最初の動的後悔保証を確立する。 さらに,SEAモデルにおける非平滑関数と凸関数を扱うために,暗黙の更新を施した楽観的OMD上に構築した新しいアルゴリズムを提案する。

Stochastically Extended Adversarial (SEA) model is introduced by Sachs et al. [2022] as an interpolation between stochastic and adversarial online convex optimization. Under the smoothness condition, they demonstrate that the expected regret of optimistic follow-the-regularized-leader (FTRL) depends on the cumulative stochastic variance $\sigma_{1:T}^2$ and the cumulative adversarial variation $\Sigma_{1:T}^2$ for convex functions. They also provide a slightly weaker bound based on the maximal stochastic variance $\sigma_{\max}^2$ and the maximal adversarial variation $\Sigma_{\max}^2$ for strongly convex functions. Inspired by their work, we investigate the theoretical guarantees of optimistic online mirror descent (OMD) for the SEA model. For convex and smooth functions, we obtain the same $\mathcal{O}(\sqrt{\sigma_{1:T}^2}+\sqrt{\Sigma_{1:T}^2})$ regret bound, without the convexity requirement of individual functions. For strongly convex and smooth functions, we establish an $\mathcal{O}((\sigma_{\max}^2 + \Sigma_{\max}^2) \log (\sigma_{1:T}^2+\Sigma_{1:T}^2))$ bound, better than their $\mathcal{O}((\sigma_{\max}^2 + \Sigma_{\max}^2) \log T)$ result. For exp-concave and smooth functions, we achieve a new $\mathcal{O}(d\log(\sigma_{1:T}^2+\Sigma_{1:T}^2))$ bound. Owing to the OMD framework, we broaden our work to study dynamic regret minimization and scenarios where the online functions are non-smooth. We establish the first dynamic regret guarantee for the SEA model with convex and smooth functions, which is more favorable than static regret bounds in non-stationary scenarios. Furthermore, to deal with non-smooth and convex functions in the SEA model, we propose novel algorithms building on optimistic OMD with an implicit update, which provably attain static regret and dynamic regret guarantees without smoothness conditions.
翻訳日:2024-03-20 06:48:15 公開日:2024-03-16
# Koopman-based generalization bound: New aspect for full-rank weights

Koopman-based generalization bound: New aspect for full-rank weights ( http://arxiv.org/abs/2302.05825v3 )

ライセンス: Link先を確認
Yuka Hashimoto, Sho Sonoda, Isao Ishikawa, Atsushi Nitanda, Taiji Suzuki, (参考訳) クープマン演算子を用いたニューラルネットワークの一般化のための新しいバウンダリを提案する。 既存の作品の多くは低ランクの重量行列に重点を置いているのに対し、我々はフルランクの重量行列に焦点をあてている。 私たちの境界は、ウェイト行列の条件数が小さい場合、既存のノルムベース境界よりも厳密である。 特に、重み行列が直交している場合、ネットワークの幅には全く依存しない。 私たちの境界は既存の境界とは矛盾しないが、既存の境界を補完するものである。 いくつかの既存の経験的結果によって支持されるように、低ランク性は一般化の唯一の理由ではない。 さらに、我々の境界は、より厳密な境界を得るために、既存の境界と結合することができる。 その結果,ニューラルネットワークの高階重み行列による一般化の理解に新たな光を当て,演算子理論解析とニューラルネットワークの一般化の関連性を提供する。

We propose a new bound for generalization of neural networks using Koopman operators. Whereas most of existing works focus on low-rank weight matrices, we focus on full-rank weight matrices. Our bound is tighter than existing norm-based bounds when the condition numbers of weight matrices are small. Especially, it is completely independent of the width of the network if the weight matrices are orthogonal. Our bound does not contradict to the existing bounds but is a complement to the existing bounds. As supported by several existing empirical results, low-rankness is not the only reason for generalization. Furthermore, our bound can be combined with the existing bounds to obtain a tighter bound. Our result sheds new light on understanding generalization of neural networks with full-rank weight matrices, and it provides a connection between operator-theoretic analysis and generalization of neural networks.
翻訳日:2024-03-20 06:48:15 公開日:2024-03-16
# コピュラを用いた人工集団生成のための転写可能モデル

Copula-based transferable models for synthetic population generation ( http://arxiv.org/abs/2302.09193v2 )

ライセンス: Link先を確認
Pascal Jutras-Dubé, Mohammad B. Al-Khasawneh, Zhichao Yang, Javier Bas, Fabian Bastin, Cinzia Cirillo, (参考訳) 集団合成は、行動モデリングとシミュレーションのために、標的とするマイクロエージェントの人口の合成的かつ現実的な表現を生成する。 伝統的な手法は、国勢調査データや旅行調査のような対象の人口サンプルに依存することが多く、特に小さな地理的規模で、高いコストと小さなサンプルサイズのために制限に直面している。 本研究では,実験的辺縁分布のみが知られている対象個体群を対象とした合成データを生成するためのコプラに基づく新しい枠組みを提案する。 本手法は, 異なる個体群からのサンプルを類似の限界依存性で利用し, 空間成分を集団合成に導入し, より現実的な生成物として様々な情報源を検討する。 具体的には、このプロセスはデータを正規化し、それを与えられたコプラの実現として扱い、ターゲットの人口の限界に関する情報を組み込む前に生成モデルを訓練する。 American Community Surveyのデータを利用して、標準ルート平均二乗誤差(SRMSE)といわゆるサンプルゼロを用いて、我々のフレームワークの性能を評価する。 我々は、ある個体群から別の個体群へ学習したモデルを移す能力に焦点をあてる。 実験では,同じ地理的レベルの地域間での移動試験や,地理的レベルの低い地域間での移動試験を含め,様々な空間的文脈におけるフレームワークの適応性を評価する。 我々は,ベイジアンネットワーク,変分オートエンコーダ,ジェネレーティブ・アドバーサリアル・ネットワーク,およびコーパス・フレームワークを個別に組み合わせて比較した。 その結果,コプラは参照データの限界値にマッチする機械学習手法を強化することがわかった。 さらに、トランスファービリティ実験におけるSRMSEの観点では反復的比例フィッティングを一貫して上回り、元のトレーニングサンプルでは見つからないユニークな観察を導入した。

Population synthesis involves generating synthetic yet realistic representations of a target population of micro-agents for behavioral modeling and simulation. Traditional methods, often reliant on target population samples, such as census data or travel surveys, face limitations due to high costs and small sample sizes, particularly at smaller geographical scales. We propose a novel framework based on copulas to generate synthetic data for target populations where only empirical marginal distributions are known. This method utilizes samples from different populations with similar marginal dependencies, introduces a spatial component into population synthesis, and considers various information sources for more realistic generators. Concretely, the process involves normalizing the data and treat it as realizations of a given copula, and then training a generative model before incorporating the information on the marginals of the target population. Utilizing American Community Survey data, we assess our framework's performance through standardized root mean squared error (SRMSE) and so-called sampled zeros. We focus on its capacity to transfer a model learned from one population to another. Our experiments include transfer tests between regions at the same geographical level as well as to lower geographical levels, hence evaluating the framework's adaptability in varied spatial contexts. We compare Bayesian Networks, Variational Autoencoders, and Generative Adversarial Networks, both individually and combined with our copula framework. Results show that the copula enhances machine learning methods in matching the marginals of the reference data. Furthermore, it consistently surpasses Iterative Proportional Fitting in terms of SRMSE in the transferability experiments, while introducing unique observations not found in the original training sample.
翻訳日:2024-03-20 06:38:27 公開日:2024-03-16
# ビットワイド排他とビット回転の合成の加法微分確率について

On additive differential probabilities of the composition of bitwise exclusive-or and a bit rotation ( http://arxiv.org/abs/2303.04097v2 )

ライセンス: Link先を確認
Nikolay Kolomeec, Ivan Sutormin, Denis Bykov, Matvey Panferov, Tatyana Bonich, (参考訳) 加算微分確率 $\mathrm{adp}^{\mathrm{XR}}$ のビットワイドXORの合成とビットローテーションの特性について検討し、この差分を加法変調2^n$ を用いて表現する。 この構成は、2^n$、ビット回転、ビットワイズXORの加算を含むARX構造において広く用いられている。 そのようなプリミティブの微分暗号解析は最大$\mathrm{adp}^{\mathrm{XR}}$で、入力や出力の違いが固定される。 この確率を計算する効率的な方法がある(Velichkov et al, 2011)が、その性質の多くは未だに不明である。 この研究において、最大値は $\mathrm{adp}^{\mathrm{XR}}$ となり、回転は1ビット左/右であり、入力差の1つが固定される。 $\mathrm{adp}^{\mathrm{XR}}$ の対称性も得られる。 正規表現パターンの観点で不可能な微分を全て提供し、それらの数を推定する。 この数は 1 ビット左回転に対して最大であり、ビットワイド XOR の不可能な微分の数よりも顕著に少ない。

Properties of the additive differential probability $\mathrm{adp}^{\mathrm{XR}}$ of the composition of bitwise XOR and a bit rotation are investigated, where the differences are expressed using addition modulo $2^n$. This composition is widely used in ARX constructions consisting of additions modulo $2^n$, bit rotations and bitwise XORs. Differential cryptanalysis of such primitives may involve maximums of $\mathrm{adp}^{\mathrm{XR}}$, where some of its input or output differences are fixed. Although there is an efficient way to calculate this probability (Velichkov et al, 2011), many of its properties are still unknown. In this work, we find maximums of $\mathrm{adp}^{\mathrm{XR}}$, where the rotation is one bit left/right and one of its input differences is fixed. Some symmetries of $\mathrm{adp}^{\mathrm{XR}}$ are obtained as well. We provide all its impossible differentials in terms of regular expression patterns and estimate the number of them. This number turns out to be maximal for the one bit left rotation and noticeably less than the number of impossible differentials of bitwise XOR.
翻訳日:2024-03-20 06:38:27 公開日:2024-03-16
# 超高速人工知能:原子スケール量子システムを用いた機械学習

Ultrafast artificial intelligence: Machine learning with atomic-scale quantum systems ( http://arxiv.org/abs/2303.12231v2 )

ライセンス: Link先を確認
Thomas Pfeifer, Matthias Wollenhaupt, Manfred Lein, (参考訳) 我々は、計算資源として強い光-物質相互作用を用いて、0から9の間の手書き桁を認識するようモデル原子を訓練する。 トレーニングでは、範囲0〜9の手書き桁の個々の画像を、形状のレーザーパルス(データ入力パルス)に変換する。 入力パルスと同時に、直交方向に偏光した別の形状パルス(プログラムパルス)が原子に適用され、時間依存のシュリンガー方程式に従って量子力学的に進化する。 最適なプログラムパルスの目的は、入力された桁に対応する特定の原子の最終状態にシステムを誘導することである。 高次元探索空間における最適なプログラムパルスを見つけるための計算力によって制限されている基本最適化スキームに対して、約40 %の成功率を示す。 この原子知能画像認識方式は、より大きな(例えば分子)システムに対してスケーラブルであり、他の学習/分類タスクに対して容易に再プログラム可能であり、数十フェムト秒までの時間スケールで動作する。 これは、最も高速な光学オンチップニューロモルフィックシステムや光加速器など、現在実装されている他の機械学習アプローチを桁違いに上回る可能性を秘めている。

We train a model atom to recognize hand-written digits between 0 and 9, employing intense light--matter interaction as a computational resource. For training, individual images of hand-written digits in the range 0-9 are converted into shaped laser pulses (data input pulses). Simultaneously with an input pulse, another shaped pulse (program pulse), polarized in the orthogonal direction, is applied to the atom and the system evolves quantum mechanically according to the time-dependent Schr\"odinger equation. The purpose of the optimal program pulse is to direct the system into specific atomic final states that correspond to the input digits. A success rate of about 40\% is demonstrated here for a basic optimization scheme, so far limited by the computational power to find the optimal program pulse in a high-dimensional search space. This atomic-intelligence image-recognition scheme is scalable towards larger (e.g. molecular) systems, is readily reprogrammable towards other learning/classification tasks and operates on time scales down to tens of femtoseconds. It has the potential to outpace other currently implemented machine-learning approaches, including the fastest optical on-chip neuromorphic systems and optical accelerators, by orders of magnitude.
翻訳日:2024-03-20 06:38:27 公開日:2024-03-16
# TFS-ViT:ドメインの一般化のためのToken-Level機能スティル化

TFS-ViT: Token-Level Feature Stylization for Domain Generalization ( http://arxiv.org/abs/2303.15698v3 )

ライセンス: Link先を確認
Mehrdad Noori, Milad Cheraghalikhani, Ali Bahri, Gustavo A. Vargas Hakim, David Osowiechi, Ismail Ben Ayed, Christian Desrosiers, (参考訳) 畳み込みニューラルネットワーク(CNN)のような標準的なディープラーニングモデルには、トレーニング中に見られない領域に一般化する能力がない。 この問題は、ソースとターゲットデータが同一の i.d. 分布から来るようなモデルの一般的な仮定がしばしば間違っているためである。 近年、視覚変換器(ViT)は、幅広いコンピュータビジョンタスクにおいて優れた性能を示している。 しかし、新しい領域に一般化する能力について研究する研究はほとんどない。 本稿では、新しいドメインを合成することで、ViTのパフォーマンスを未確認データに向上させる、ドメイン一般化のための最初のToken-level Feature Stylization(TFS-ViT)アプローチを提案する。 提案手法は,異なる領域の画像の正規化統計を混合することによりトークンの特徴を変換する。 我々は、クラス(CLS)トークンのアテンションマップを用いて、異なる画像領域に対応するトークンの正規化統計を計算・混合する、注目対応型スタイリングの新しい戦略により、このアプローチをさらに改善する。 提案手法はバックボーンモデルの選択に柔軟であり,任意のViTアーキテクチャにも容易に適用可能である。 総合的な実験により、ドメイン一般化のための5つの挑戦的なベンチマークにおいて、我々のアプローチが最先端のパフォーマンスを達成できることが示され、異なるタイプのドメインシフトに対処する能力を示す。 実装は以下の通りである。 https://github.com/Mehrdad-Noori/TFS-ViT_Token-level_Feature_Stylization。

Standard deep learning models such as convolutional neural networks (CNNs) lack the ability of generalizing to domains which have not been seen during training. This problem is mainly due to the common but often wrong assumption of such models that the source and target data come from the same i.i.d. distribution. Recently, Vision Transformers (ViTs) have shown outstanding performance for a broad range of computer vision tasks. However, very few studies have investigated their ability to generalize to new domains. This paper presents a first Token-level Feature Stylization (TFS-ViT) approach for domain generalization, which improves the performance of ViTs to unseen data by synthesizing new domains. Our approach transforms token features by mixing the normalization statistics of images from different domains. We further improve this approach with a novel strategy for attention-aware stylization, which uses the attention maps of class (CLS) tokens to compute and mix normalization statistics of tokens corresponding to different image regions. The proposed method is flexible to the choice of backbone model and can be easily applied to any ViT-based architecture with a negligible increase in computational complexity. Comprehensive experiments show that our approach is able to achieve state-of-the-art performance on five challenging benchmarks for domain generalization, and demonstrate its ability to deal with different types of domain shifts. The implementation is available at: https://github.com/Mehrdad-Noori/TFS-ViT_Token-level_Feature_Stylization.
翻訳日:2024-03-20 06:38:27 公開日:2024-03-16
# 単一振動子を用いた貯留層計算における量子性と学習性能

Quantumness and Learning Performance in Reservoir Computing with a Single Oscillator ( http://arxiv.org/abs/2304.03462v2 )

ライセンス: Link先を確認
Arsalan Motamedi, Hadi Zadeh-Haghighi, Christoph Simon, (参考訳) 量子モデルと古典モデルを用いた学習時系列における単一発振器を用いた貯水池計算のパワーについて検討する。 このスキームは遅延微分方程式の解であるマッキーグラスカオス時系列(MG)を学習することを示した。 本結果は,古典的非線形発振器と比較して,量子非線形モデルの方が学習性能に優れたことを示唆している。 プロセス中の貯水池の量子度を測定するためのアプローチを開発し、Lee-Jeongのマクロ度測定が非古典性測定であることを示した。 We note that the evaluation of the Lee-Jeong measure is calculatedly more efficient than the Wigner negativity。 幅広い初期状態と様々なハイパーパラメータを用いて量子性と性能の関係を探索し、量子性が学習性能を向上させることを観察する。 しかし、本研究では、量子性の無差別な増加は、その応用に注意を要する結果をもたらすものではないことを明らかにしている。 我々はこの現象を議論し、高い量子性によって性能が向上する条件を特定しようとする。

We explore the power of reservoir computing with a single oscillator in learning time series using quantum and classical models. We demonstrate that this scheme learns the Mackey--Glass (MG) chaotic time series, a solution to a delay differential equation. Our results suggest that the quantum nonlinear model is more effective in terms of learning performance compared to a classical non-linear oscillator. We develop approaches for measuring the quantumness of the reservoir during the process, proving that Lee-Jeong's measure of macroscopicity is a non-classicality measure. We note that the evaluation of the Lee-Jeong measure is computationally more efficient than the Wigner negativity. Exploring the relationship between quantumness and performance by examining a broad range of initial states and varying hyperparameters, we observe that quantumness in some cases improves the learning performance. However, our investigation reveals that an indiscriminate increase in quantumness does not consistently lead to improved outcomes, necessitating caution in its application. We discuss this phenomenon and attempt to identify conditions under which a high quantumness results in improved performance.
翻訳日:2024-03-20 06:38:27 公開日:2024-03-16
# Sheaf4Rec:グラフベースのレコメンダシステムのためのせん断ニューラルネットワーク

Sheaf4Rec: Sheaf Neural Networks for Graph-based Recommender Systems ( http://arxiv.org/abs/2304.09097v3 )

ライセンス: Link先を確認
Antonio Purificato, Giulia Cassarà, Federico Siciliano, Pietro Liò, Fabrizio Silvestri, (参考訳) グラフニューラルネットワーク(GNN)の最近の進歩は、レコメンデーションシステムを含む様々なアプリケーションで広く採用されている。 GNNは、ノードがユーザやアイテムを表現し、エッジが好みの関係を示すグラフを効率的にモデル化することで、レコメンデーションシステムによって引き起こされる課題に対処する上で有効であることが証明されている。 しかし、現在のGNN技術は単一の静的ベクトルを用いてノードを表現しており、ユーザやアイテムの複雑な複雑さを適切に捉えていない可能性がある。 これらの制限を克服するために、カテゴリ理論に着想を得た最先端モデルを統合する方法を提案する。 単一のベクトル表現とは異なり、シーフニューラルネットワークとその対応するラプラシアンはベクトル空間を用いて各ノード(およびエッジ)を表現する。 提案手法は, この理論を活かし, 推論中に効果的に活用可能なより包括的な表現を実現し, 幅広いグラフ関連タスクに適用可能な汎用的手法を提供し, 並列化しない性能を示す。 提案モデルでは,F1-Score@10では最大8.53%,NDCG@10では最大11.29%,ニューラルグラフ協調フィルタリング(NGCF)やKGTORe,最近開発されたGNNベースのモデルでは最大11.29%向上した。 私たちは、他のGNNベースの競合モデルと比較して2.5%から37%までの大幅なランタイム改善を観察し、より良いパフォーマンスを実現しながら、より効率的な情報処理方法を示している。 コードはhttps://github.com/antoniopurificato/Sheaf4Rec.comで入手できる。

Recent advancements in Graph Neural Networks (GNN) have facilitated their widespread adoption in various applications, including recommendation systems. GNNs have proven to be effective in addressing the challenges posed by recommendation systems by efficiently modeling graphs in which nodes represent users or items and edges denote preference relationships. However, current GNN techniques represent nodes by means of a single static vector, which may inadequately capture the intricate complexities of users and items. To overcome these limitations, we propose a solution integrating a cutting-edge model inspired by category theory: Sheaf4Rec. Unlike single vector representations, Sheaf Neural Networks and their corresponding Laplacians represent each node (and edge) using a vector space. Our approach takes advantage from this theory and results in a more comprehensive representation that can be effectively exploited during inference, providing a versatile method applicable to a wide range of graph-related tasks and demonstrating unparalleled performance. Our proposed model exhibits a noteworthy relative improvement of up to 8.53% on F1-Score@10 and an impressive increase of up to 11.29% on NDCG@10, outperforming existing state-of-the-art models such as Neural Graph Collaborative Filtering (NGCF), KGTORe and other recently developed GNN-based models. In addition to its superior predictive capabilities, Sheaf4Rec shows remarkable improvements in terms of efficiency: we observe substantial runtime improvements ranging from 2.5% up to 37% when compared to other GNN-based competitor models, indicating a more efficient way of handling information while achieving better performance. Code is available at https://github.com/antoniopurificato/Sheaf4Rec.
翻訳日:2024-03-20 06:38:27 公開日:2024-03-16
# 高次元多目的問題に対するランクベース学習と局所モデルに基づく進化的アルゴリズム

Rank-Based Learning and Local Model Based Evolutionary Algorithm for High-Dimensional Expensive Multi-Objective Problems ( http://arxiv.org/abs/2304.09444v4 )

ライセンス: Link先を確認
Guodong Chen, Jiu Jimmy Jiao, Xiaoming Xue, Zhongzheng Wang, (参考訳) 近年,複雑で計算コストのかかる多目的最適化問題を解くために,サロゲート支援進化アルゴリズムが広く開発されている。 しかし、高次元最適化問題を扱う場合、これらのサロゲート支援多目的進化アルゴリズムの性能は大幅に低下する。 本研究では,高次元高コスト多目的最適化問題に対して,新しい分類器支援のランクベース学習と局所モデルに基づく多目的進化アルゴリズム(CLMEA)を提案する。 提案アルゴリズムは,分類器支援のランクベース学習,ハイパーボリュームベースの非支配探索,および比較的スパースな対象空間における局所探索の3つの部分から構成される。 具体的には、確率論的ニューラルネットワークを分類器として構築し、子孫を複数のランクに分割する。 異なる階級の子孫はランクベースの学習戦略を用いて、実機能評価のためのより有望で有意義な候補を生成する。 次に、対象関数を近似する代理として放射基底関数ネットワークを構築する。 代理モデルによって支援された非支配的解を探索した後,高ボリューム改善の候補を実際の評価のために選択する。 その後、溶液の多様性を維持するために、群集距離で測定された非支配的な溶液からの最も不確実な試料点をガイド親として選択し、前部の不確実な領域にさらに埋め込む。 地熱貯留層熱抽出最適化におけるベンチマーク問題と実世界の応用の実験結果から,提案アルゴリズムは現状のサロゲート支援多目的進化アルゴリズムと比較して優れた性能を示した。 この作業のソースコードはhttps://github.com/JellyChen7/CLMEA.comで公開されている。

Surrogate-assisted evolutionary algorithms have been widely developed to solve complex and computationally expensive multi-objective optimization problems in recent years. However, when dealing with high-dimensional optimization problems, the performance of these surrogate-assisted multi-objective evolutionary algorithms deteriorate drastically. In this work, a novel Classifier-assisted rank-based learning and Local Model based multi-objective Evolutionary Algorithm (CLMEA) is proposed for high-dimensional expensive multi-objective optimization problems. The proposed algorithm consists of three parts: classifier-assisted rank-based learning, hypervolume-based non-dominated search, and local search in the relatively sparse objective space. Specifically, a probabilistic neural network is built as classifier to divide the offspring into a number of ranks. The offspring in different ranks uses rank-based learning strategy to generate more promising and informative candidates for real function evaluations. Then, radial basis function networks are built as surrogates to approximate the objective functions. After searching non-dominated solutions assisted by the surrogate model, the candidates with higher hypervolume improvement are selected for real evaluations. Subsequently, in order to maintain the diversity of solutions, the most uncertain sample point from the non-dominated solutions measured by the crowding distance is selected as the guided parent to further infill in the uncertain region of the front. The experimental results of benchmark problems and a real-world application on geothermal reservoir heat extraction optimization demonstrate that the proposed algorithm shows superior performance compared with the state-of-the-art surrogate-assisted multi-objective evolutionary algorithms. The source code for this work is available at https://github.com/JellyChen7/CLMEA.
翻訳日:2024-03-20 06:38:27 公開日:2024-03-16
# 境界状態を示す無質量相互作用フェルミオンセルオートマトン

A massless interacting Fermionic Cellular Automaton exhibiting bound states ( http://arxiv.org/abs/2304.14687v2 )

ライセンス: Link先を確認
Edoardo Centofanti, Alessandro Bisio, Paolo Perinotti, (参考訳) 本稿では, 1+1次元の無質量ディラックフェルミオンを局所的, 数保存相互作用と組み合わせたフェルミオンセルオートマトンモデルを提案する。 2つの粒子セクターの対角化は、総運動量と結合定数の特定の値が境界状態の形成を可能にすることを示している。 さらに、ワイル方程式をシミュレートするセルオートマトン等方性群の下で不変な局所的数保存相互作用の分類を示す。

We present a Fermionic Cellular Automaton model which describes massless Dirac fermion in 1+1 dimension coupled with local, number preserving interaction. The diagonalization of the two particle sector shows that specific values of the total momentum and of the coupling constant allows for the formation of bound states. Furthermore, we present a classification of the local number-preserving interactions that are invariant under the isotropy group of the cellular automaton which simulates the Weyl equation.
翻訳日:2024-03-20 06:28:31 公開日:2024-03-16
# 長距離双極子-双極子相互作用による系次元の減少

Reducing system dimensionality with long-range collective dipole-dipole interactions ( http://arxiv.org/abs/2305.04777v4 )

ライセンス: Link先を確認
Ashwin K. Boddeti, Yi Wang, Xitlali G. Juarez, Alexandra Boltasseva, Teri W. Odom, Vladimir Shalaev, Hadiseh Alaeian, Zubin Jacob, (参考訳) 次元は長距離双極子-双極子相互作用(DDI)において重要な役割を果たす。 共振性ナノフォトニック構造は, 集団崩壊ダイナミクスによって明らかにされるように, 相互作用するエミッタのアンサンブルの見かけの次元を変化させることを示す。 長い距離のDDIを持つ共鳴ナノフォトニック構造における相互作用する量子エミッタの密接なアンサンブルの測定では、エミッタが3Dで分散されているにもかかわらず、有効次元が$\bar{d} = 2.20 (12)$に減少することを示した。 これは、見かけの次元が$\bar{d} = 3.00$である同次環境とは対照的である。 我々の研究は、相互作用するエミッタのアンサンブルで次元を操作するための有望な道を示す。

Dimensionality plays a crucial role in long-range dipole-dipole interactions (DDIs). We demonstrate that a resonant nanophotonic structure modifies the apparent dimensionality in an interacting ensemble of emitters, as revealed by population decay dynamics. Our measurements on a dense ensemble of interacting quantum emitters in a resonant nanophotonic structure with long-range DDIs reveal an effective dimensionality reduction to $\bar{d} = 2.20 (12)$, despite the emitters being distributed in 3D. This contrasts the homogeneous environment, where the apparent dimension is $\bar{d} = 3.00$. Our work presents a promising avenue to manipulate dimensionality in an ensemble of interacting emitters.
翻訳日:2024-03-20 06:28:31 公開日:2024-03-16
# 確率的保証を持つニューラルネットワークのロバストな対実的説明

Robust Counterfactual Explanations for Neural Networks With Probabilistic Guarantees ( http://arxiv.org/abs/2305.11997v3 )

ライセンス: Link先を確認
Faisal Hamman, Erfaun Noorani, Saumitra Mishra, Daniele Magazzeni, Sanghamitra Dutta, (参考訳) モデルが更新されたり、あるいは少し変更されたりしても有効であるような、堅牢な反事実的な説明を生成することへの関心が高まっている。 堅牢な反事実を見つけるために、既存の文献では、元のモデル $m$ と新しいモデル $M$ がパラメータ空間、すなわち $\|\text{Params}(M){-}\text{Params}(m)\|{<}\Delta$ に有界であると仮定することが多い。 しかし、モデルはしばしばパラメータ空間において、与えられたデータセットの予測や精度をほとんど、あるいは全く変更することなく大きく変化する。 本研究では,データ多様体上の点に対する予測の変化が制限されるようなパラメータ空間の任意の変更を可能にする,$\textit{naturally-occurring}$ model changeという数学的抽象化を導入する。 次に、微分可能なモデル、例えばニューラルネットワークの潜在的なモデル変化に対する反ファクトの堅牢性を定量化するために、$\textit{Stability}$という尺度を提案する。 我々の主な貢献は、我々の測度で定義されるように、十分高い値の $\textit{Stability}$ の反事実が、高い確率でのモデル変化(独立ガウスのリプシッツ関数に対する平均濃度境界)の後に有効であることを示すことである。 我々の定量化は、常に利用できるとは限らないデータポイントの周囲の局所的なリプシッツ定数に依存するため、提案手法の実践的緩和を検証し、モデル変更後のニューラルネットワークの堅牢な反事実を見つけるために、どのように組み込むことができるかを実験的に実証する。 この研究はまた、モデル乗法(ラショモン効果としても知られる)と興味深い関係を持つ。

There is an emerging interest in generating robust counterfactual explanations that would remain valid if the model is updated or changed even slightly. Towards finding robust counterfactuals, existing literature often assumes that the original model $m$ and the new model $M$ are bounded in the parameter space, i.e., $\|\text{Params}(M){-}\text{Params}(m)\|{<}\Delta$. However, models can often change significantly in the parameter space with little to no change in their predictions or accuracy on the given dataset. In this work, we introduce a mathematical abstraction termed $\textit{naturally-occurring}$ model change, which allows for arbitrary changes in the parameter space such that the change in predictions on points that lie on the data manifold is limited. Next, we propose a measure -- that we call $\textit{Stability}$ -- to quantify the robustness of counterfactuals to potential model changes for differentiable models, e.g., neural networks. Our main contribution is to show that counterfactuals with sufficiently high value of $\textit{Stability}$ as defined by our measure will remain valid after potential $\textit{naturally-occurring}$ model changes with high probability (leveraging concentration bounds for Lipschitz function of independent Gaussians). Since our quantification depends on the local Lipschitz constant around a data point which is not always available, we also examine practical relaxations of our proposed measure and demonstrate experimentally how they can be incorporated to find robust counterfactuals for neural networks that are close, realistic, and remain valid after potential model changes. This work also has interesting connections with model multiplicity, also known as, the Rashomon effect.
翻訳日:2024-03-20 06:28:31 公開日:2024-03-16
# 個人差分潜流拡散モデル

Differentially Private Latent Diffusion Models ( http://arxiv.org/abs/2305.15759v4 )

ライセンス: Link先を確認
Saiyue Lyu, Michael F. Liu, Margarita Vinaroz, Mijung Park, (参考訳) 拡散モデル(DM)は、非微分プライベートな方法で高品質な高次元画像を生成するために広く用いられている。 この課題に対処するため、最近の論文では、DMを公開データで事前訓練し、DP-SGDを用いて比較的短期間にプライベートデータで微調整することを提案している。 本稿では,LDM(Latent Diffusion Models)を採用することにより,DPを用いたDMの現状をさらに改善する。 LDMは、高次元の画素を低次元の潜在表現にマッピングする強力な事前学習オートエンコーダを備えており、DMをより効率的に高速に訓練することができる。 提案アルゴリズムでは,DM全体を微調整するのではなく,各層におけるLDMの注意モジュールのみをプライバシに敏感なデータで微調整し,トレーニング可能なパラメータの数を約90%削減し,DM全体を微調整するよりも精度が向上した。 DP-SGDで微調整するパラメータ空間が小さくなれば、いくつかの公開プライベートなベンチマークデータペアで新たな最先端結果が得られます。我々のアプローチでは、より現実的で高次元の画像(256x256)を生成できます。 提案手法は,高画質の高次元DP画像を生成するため,より強力で訓練効率のよい差分DMをトレーニングするための有望な方向を提供する。

Diffusion models (DMs) are widely used for generating high-quality high-dimensional images in a non-differentially private manner. To address this challenge, recent papers suggest pre-training DMs with public data, then fine-tuning them with private data using DP-SGD for a relatively short period. In this paper, we further improve the current state of DMs with DP by adopting the Latent Diffusion Models (LDMs). LDMs are equipped with powerful pre-trained autoencoders that map the high-dimensional pixels into lower-dimensional latent representations, in which DMs are trained, yielding a more efficient and fast training of DMs. In our algorithm, DP-LDMs, rather than fine-tuning the entire DMs, we fine-tune only the attention modules of LDMs at varying layers with privacy-sensitive data, reducing the number of trainable parameters by roughly 90% and achieving a better accuracy, compared to fine-tuning the entire DMs. The smaller parameter space to fine-tune with DP-SGD helps our algorithm to achieve new state-of-the-art results in several public-private benchmark data pairs.Our approach also allows us to generate more realistic, high-dimensional images (256x256) and those conditioned on text prompts with differential privacy, which have not been attempted before us, to the best of our knowledge. Our approach provides a promising direction for training more powerful, yet training-efficient differentially private DMs, producing high-quality high-dimensional DP images.
翻訳日:2024-03-20 04:32:24 公開日:2024-03-16
# ブレンディングヒューリスティックスによるオフラインRLの改善

Improving Offline RL by Blending Heuristics ( http://arxiv.org/abs/2306.00321v2 )

ライセンス: Link先を確認
Sinong Geng, Aldo Pacchiano, Andrey Kolobov, Ching-An Cheng, (参考訳) 本稿では,値ブートストラップに基づくオフラインRLアルゴリズムの簡易な性能改善手法であるHUBLを提案する。 HUBLはこれらのアルゴリズムで使用されるベルマン演算子を修正し、ブートストラップされた値をモンテカルロの戻り値で推定されるヒューリスティックな演算子に部分的に置き換える。 高いリターンを持つトラジェクトリでは、HUBLはヒューリスティックな値に依存し、ブートストレッピングは少なく、そうでなければブートストレッピングに強く依存する。 HUBLは、オフラインデータセットを調整された報酬と割引係数で緩和することにより、既存のオフラインRL実装と非常に簡単に組み合わせられる。 我々は、オフラインRLに対するHUBLの効果を、オフラインRLの複雑さを減らし、有限サンプル性能を増大させるものとして説明する理論を導出した。 さらに、HUBLは、4つの最先端ブートストラップベースのオフラインRLアルゴリズム(ATAC、CQL、TD3+BC、IQL)のポリシー品質を、D4RLおよびMeta-Worldベンチマークの平均27データセットで9%改善することを示した。

We propose Heuristic Blending (HUBL), a simple performance-improving technique for a broad class of offline RL algorithms based on value bootstrapping. HUBL modifies the Bellman operators used in these algorithms, partially replacing the bootstrapped values with heuristic ones that are estimated with Monte-Carlo returns. For trajectories with higher returns, HUBL relies more on the heuristic values and less on bootstrapping; otherwise, it leans more heavily on bootstrapping. HUBL is very easy to combine with many existing offline RL implementations by relabeling the offline datasets with adjusted rewards and discount factors. We derive a theory that explains HUBL's effect on offline RL as reducing offline RL's complexity and thus increasing its finite-sample performance. Furthermore, we empirically demonstrate that HUBL consistently improves the policy quality of four state-of-the-art bootstrapping-based offline RL algorithms (ATAC, CQL, TD3+BC, and IQL), by 9% on average over 27 datasets of the D4RL and Meta-World benchmarks.
翻訳日:2024-03-20 04:32:24 公開日:2024-03-16
# 有限な状態空間をもつマルコフ決定過程における最適政策のベイズ学習

Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space ( http://arxiv.org/abs/2306.02574v3 )

ライセンス: Link先を確認
Saghar Adler, Vijay Subramanian, (参考訳) 通信ネットワークやコンピュータシステムのキューイングモデルなど、多くの現実的なアプリケーションのモデルは、数え切れないほど無限の状態空間を持つ。 最適ポリシーを生成するために開発されたアルゴリズムおよび学習手順は、主に有限状態設定に焦点を当てており、これらのモデルに直接適用しない。 この問題を克服するために、離散時間可算な状態空間 Markov Decision Processs (MDPs) の族を未知のパラメータ $\theta\in\Theta$ で制御し、有限作用空間 $\mathcal A$ と非有界コスト関数を持つ数え切れない無限状態空間 $\mathcal X=\mathbb{Z}_+^d$ で定義される。 ランダムな未知パラメータ $\boldsymbol{\theta}^*$ でベイズ的視点を取る。 未知のMDPを最適に制御するため,各エピソードの冒頭でベイズの規則によって形成された後続分布を用いてパラメータ推定を行い,そのエピソード中に適用されるポリシーを決定する。 パラメータ毎に選択されたポリシーに従うことにより得られるマルコフ連鎖の安定性を確保するため、エルゴディディティ仮定を課す。 この条件と平均コストベルマン方程式の解を用いて、我々のアルゴリズムに対するベイズ的後悔の上に$\tilde O(dh^d\sqrt{|\mathcal A|T})$上界を定め、そこでは$T$が時間水平である。 最後に,提案アルゴリズムの適用性を明らかにするために,未知のダイナミクスを持つ2つの異なる待ち行列モデルについて検討し,提案アルゴリズムが近似最適制御アルゴリズムの開発に応用可能であることを示す。

Models of many real-life applications, such as queuing models of communication networks or computing systems, have a countably infinite state-space. Algorithmic and learning procedures that have been developed to produce optimal policies mainly focus on finite state settings, and do not directly apply to these models. To overcome this lacuna, in this work we study the problem of optimal control of a family of discrete-time countable state-space Markov Decision Processes (MDPs) governed by an unknown parameter $\theta\in\Theta$, and defined on a countably-infinite state space $\mathcal X=\mathbb{Z}_+^d$, with finite action space $\mathcal A$, and an unbounded cost function. We take a Bayesian perspective with the random unknown parameter $\boldsymbol{\theta}^*$ generated via a given fixed prior distribution on $\Theta$. To optimally control the unknown MDP, we propose an algorithm based on Thompson sampling with dynamically-sized episodes: at the beginning of each episode, the posterior distribution formed via Bayes' rule is used to produce a parameter estimate, which then decides the policy applied during the episode. To ensure the stability of the Markov chain obtained by following the policy chosen for each parameter, we impose ergodicity assumptions. From this condition and using the solution of the average cost Bellman equation, we establish an $\tilde O(dh^d\sqrt{|\mathcal A|T})$ upper bound on the Bayesian regret of our algorithm, where $T$ is the time-horizon. Finally, to elucidate the applicability of our algorithm, we consider two different queuing models with unknown dynamics, and show that our algorithm can be applied to develop approximately optimal control algorithms.
翻訳日:2024-03-20 04:32:24 公開日:2024-03-16
# 大型パッチ変換器を用いた変分モンテカルロ

Variational Monte Carlo with Large Patched Transformers ( http://arxiv.org/abs/2306.03921v2 )

ライセンス: Link先を確認
Kyle Sprague, Stefanie Czischek, (参考訳) トランスフォーマーのような大規模な言語モデルは、最近、テキストと画像生成に大きな力を示している。 この成功は、配列内の要素間の長距離相関をキャプチャする能力によって引き起こされる。 同じ特徴により、変圧器は量子ビット系のシミュレーションにおいて相関を記述するという課題に対処する強力な波動関数アンサッツとなる。 ここでは2次元Rydberg原子配列を考察し、変分基底状態探索のための従来のリカレントニューラルネットワークよりもトランスフォーマーの精度が高いことを示す。 さらに、大きな原子パッチのシーケンスを考慮した、大きなパッチ付きトランスフォーマーモデルを導入し、このアーキテクチャがシミュレーションを著しく加速することを示す。 提案されたアーキテクチャは、最先端の量子モンテカルロ法を超える精度で基底状態を再構築し、物質の異なる相と相転移における大きなリドベルク系の研究を可能にする。 妥当な計算コストでの高精度基底状態表現は、一般的な大規模量子多体系に対する新たな洞察を約束する。

Large language models, like transformers, have recently demonstrated immense powers in text and image generation. This success is driven by the ability to capture long-range correlations between elements in a sequence. The same feature makes the transformer a powerful wavefunction ansatz that addresses the challenge of describing correlations in simulations of qubit systems. Here we consider two-dimensional Rydberg atom arrays to demonstrate that transformers reach higher accuracies than conventional recurrent neural networks for variational ground state searches. We further introduce large, patched transformer models, which consider a sequence of large atom patches, and show that this architecture significantly accelerates the simulations. The proposed architectures reconstruct ground states with accuracies beyond state-of-the-art quantum Monte Carlo methods, allowing for the study of large Rydberg systems in different phases of matter and at phase transitions. Our high-accuracy ground state representations at reasonable computational costs promise new insights into general large-scale quantum many-body systems.
翻訳日:2024-03-20 04:32:24 公開日:2024-03-16
# 拡散における拡散:テキスト・ビジョン・コンディション・ジェネレーションのための周期的ワンウェイ拡散

Diffusion in Diffusion: Cyclic One-Way Diffusion for Text-Vision-Conditioned Generation ( http://arxiv.org/abs/2306.08247v6 )

ライセンス: Link先を確認
Ruoyu Wang, Yongqi Yang, Zhihao Qian, Ye Zhu, Yu Wu, (参考訳) 粒子運動を記述する物理学における拡散現象から派生した拡散生成モデルは、認知軌道に沿ったデータ空間における確率的ランダムウォークの特性を継承する。 しかし、画像領域間の本質的な相互干渉は、所定の条件付けから低レベル画素情報の保存が望まれる現実的なダウンストリームアプリケーションシナリオの必要性と矛盾する(例えば、ユーザが提供する単一画像に基づいてパーソナライズされた生成や着色といったカスタマイズタスク)。 本研究では,拡散特性(機械学習)における拡散(物理)について検討し,条件付けから低レベルの画素情報を保存する必要がある多目的カスタマイズアプリケーションシナリオにおいて,事前学習した凍結拡散モデルが与えられた拡散現象の方向を制御するための循環一方向拡散(COW)法を提案する。 特に,基礎となるテキスト・画像拡散モデルや学習補助ネットワークを微調整して追加条件を組み込んだ現在の手法とは異なり,本手法はタスクニーズを理解するための新しい視点を提供し,学習自由な方法で広範囲のカスタマイズシナリオに適用できる。 広範囲な実験結果から,提案したCOWは,アプリケーション設定の厳密な視覚条件に基づいて,よりフレキシブルなカスタマイズを実現することができることがわかった。 プロジェクトページ: https://wangruoyu02.github.io/cow.github.io/

Originating from the diffusion phenomenon in physics that describes particle movement, the diffusion generative models inherit the characteristics of stochastic random walk in the data space along the denoising trajectory. However, the intrinsic mutual interference among image regions contradicts the need for practical downstream application scenarios where the preservation of low-level pixel information from given conditioning is desired (e.g., customization tasks like personalized generation and inpainting based on a user-provided single image). In this work, we investigate the diffusion (physics) in diffusion (machine learning) properties and propose our Cyclic One-Way Diffusion (COW) method to control the direction of diffusion phenomenon given a pre-trained frozen diffusion model for versatile customization application scenarios, where the low-level pixel information from the conditioning needs to be preserved. Notably, unlike most current methods that incorporate additional conditions by fine-tuning the base text-to-image diffusion model or learning auxiliary networks, our method provides a novel perspective to understand the task needs and is applicable to a wider range of customization scenarios in a learning-free manner. Extensive experiment results show that our proposed COW can achieve more flexible customization based on strict visual conditions in different application settings. Project page: https://wangruoyu02.github.io/cow.github.io/.
翻訳日:2024-03-20 04:22:24 公開日:2024-03-16
# Jumanji: JAXにおけるスケーラブルな強化学習環境の多種多様なスイート

Jumanji: a Diverse Suite of Scalable Reinforcement Learning Environments in JAX ( http://arxiv.org/abs/2306.09884v2 )

ライセンス: Link先を確認
Clément Bonnet, Daniel Luo, Donal Byrne, Shikha Surana, Sasha Abramowitz, Paul Duckworth, Vincent Coyette, Laurence I. Midgley, Elshadai Tegegn, Tristan Kalloniatis, Omayma Mahjoub, Matthew Macfarlane, Andries P. Smit, Nathan Grinsztajn, Raphael Boige, Cemlyn N. Waters, Mohamed A. Mimouni, Ulrich A. Mbou Sob, Ruan de Kock, Siddarth Singh, Daniel Furelos-Blanco, Victor Le, Arnu Pretorius, Alexandre Laterre, (参考訳) オープンソースの強化学習(RL)環境は、AIアルゴリズムの開発を進める上で重要な役割を担っている。 現代のRL研究では、より広い範囲の現実世界のアプリケーションで利用できるようにするために、パフォーマンス、拡張性、モジュール性を備えたシミュレーション環境が必要である。 そこで本稿では,高速でフレキシブルでスケーラブルなRL環境のスイートであるJumanjiを紹介する。 Jumanjiは、業界で頻繁に遭遇する組合せ問題に焦点を当てた一連の環境を提供し、一般的な意思決定タスクに挑戦する。 JAXとGPUやTPUなどのハードウェアアクセラレータの効率を活用することで、Jumanjiは研究アイデアの迅速なイテレーションと大規模な実験を可能にし、最終的にはより有能なエージェントに権限を与える。 既存のRL環境スイートとは異なり、Jumanjiは非常にカスタマイズ可能で、ユーザが必要に応じて初期状態の配布と問題複雑さを調整できる。 さらに,各環境に対してアクタクリティカルなベースラインを提供し,スケーリングと一般化のシナリオに関する予備的な知見を添えた。 Jumanjiは、RL環境のスピード、適応性、拡張性のための新しい標準を設定することを目指している。

Open-source reinforcement learning (RL) environments have played a crucial role in driving progress in the development of AI algorithms. In modern RL research, there is a need for simulated environments that are performant, scalable, and modular to enable their utilization in a wider range of potential real-world applications. Therefore, we present Jumanji, a suite of diverse RL environments specifically designed to be fast, flexible, and scalable. Jumanji provides a suite of environments focusing on combinatorial problems frequently encountered in industry, as well as challenging general decision-making tasks. By leveraging the efficiency of JAX and hardware accelerators like GPUs and TPUs, Jumanji enables rapid iteration of research ideas and large-scale experimentation, ultimately empowering more capable agents. Unlike existing RL environment suites, Jumanji is highly customizable, allowing users to tailor the initial state distribution and problem complexity to their needs. Furthermore, we provide actor-critic baselines for each environment, accompanied by preliminary findings on scaling and generalization scenarios. Jumanji aims to set a new standard for speed, adaptability, and scalability of RL environments.
翻訳日:2024-03-20 04:22:24 公開日:2024-03-16
# MUBen:分子表現モデルの不確かさのベンチマーク

MUBen: Benchmarking the Uncertainty of Molecular Representation Models ( http://arxiv.org/abs/2306.10060v3 )

ライセンス: Link先を確認
Yinghao Li, Lingkai Kong, Yuanqi Du, Yue Yu, Yuchen Zhuang, Wenhao Mu, Chao Zhang, (参考訳) 大量のラベルのないデータに基づいて事前訓練された大規模な分子表現モデルは、分子特性を予測することに成功している。 しかし、これらのモデルは微調整されたデータに過度に適合する傾向があり、結果としてトレーニング分布の外にあるテストデータに対する過信的な予測が生じる。 この問題を解決するために、モデルのキャリブレーションを改善するために不確実量化法(UQ)を用いることができる。 多くのUQアプローチが存在するが、それらすべてが性能改善につながるわけではない。 分子前訓練モデルを改善するためのUQを含む研究もあるが、適切なバックボーンの選択方法と信頼性の高い分子不確実性推定のためのUQ法は未検討のままである。 このギャップに対処するために,最先端のバックボーン分子表現モデルに対する異なるUQ手法の評価を行い,それらの機能について検討するMUBenを提案する。 異なる分子記述子を異なるカテゴリのUQ手法で入力として様々なバックボーンを微調整することにより、アーキテクチャ決定やトレーニング戦略の影響を批判的に評価する。 本研究は、材料科学や薬物発見などの分野における不確実性クリティカルな応用の研究を促進するために、バックボーンモデルのUQを選択するための洞察を提供する。

Large molecular representation models pre-trained on massive unlabeled data have shown great success in predicting molecular properties. However, these models may tend to overfit the fine-tuning data, resulting in over-confident predictions on test data that fall outside of the training distribution. To address this issue, uncertainty quantification (UQ) methods can be used to improve the models' calibration of predictions. Although many UQ approaches exist, not all of them lead to improved performance. While some studies have included UQ to improve molecular pre-trained models, the process of selecting suitable backbone and UQ methods for reliable molecular uncertainty estimation remains underexplored. To address this gap, we present MUBen, which evaluates different UQ methods for state-of-the-art backbone molecular representation models to investigate their capabilities. By fine-tuning various backbones using different molecular descriptors as inputs with UQ methods from different categories, we critically assess the influence of architectural decisions and training strategies. Our study offers insights for selecting UQ for backbone models, which can facilitate research on uncertainty-critical applications in fields such as materials science and drug discovery.
翻訳日:2024-03-20 04:22:24 公開日:2024-03-16
# 第一量子化パウリ-フィッシャーハミルトニアンの量子シミュレーション

Quantum Simulation of the First-Quantized Pauli-Fierz Hamiltonian ( http://arxiv.org/abs/2306.11198v2 )

ライセンス: Link先を確認
Priyanka Mukhopadhyay, Torin F. Stetina, Nathan Wiebe, (参考訳) 我々は、量子力学をシミュレートするための明示的な再帰的分割と征服のアプローチを提供し、多粒子パウリ・フィエルツ・ハミルトニアンに基づく離散第一量子化非相対論的QEDハミルトニアンを導出する。 この再帰的分割および征服アルゴリズムをハミルトニアンに適用し、量子化を用いた具体的なシミュレーションアルゴリズムと比較する。 我々の分割と征服のアルゴリズムは、最低次トロッター化を用いて、固定格子間隔を$\widetilde{O}(\Lambda N^2\eta^2 t^2 /\epsilon)$ for grid size $N$, $\eta$ Particle, Simulation time $t$, field cutoff $\Lambda$, error $\epsilon$とスケールする。 我々の量子化アルゴリズムは$\widetilde{O}(N(\eta+N)(\eta +\Lambda^2) t\log(1/\epsilon))$としてスケールする。 このことは、na\ の分割と低次分割公式でさえ、我々の分割と形式主義の征服を通じて、大きな$\Lambda$に対して、量子化よりも優れたスケーリングを得られることを示している。 我々は、これらの2つのアルゴリズムの相対コストを、光子の自然放出や電子の光イオン化といった応用に関係のあるシステムで比較する。 我々は,パラメータの異なる状態に対して,一方の手法が他方よりも有利であることが観察された。 最後に、回路コストのより良い分析に使用できるマルチコントロールXゲート群の実装方法を含む、ゲート最適化のための新しいアルゴリズムおよび回路レベル技術を提案する。

We provide an explicit recursive divide and conquer approach for simulating quantum dynamics and derive a discrete first quantized non-relativistic QED Hamiltonian based on the many-particle Pauli Fierz Hamiltonian. We apply this recursive divide and conquer algorithm to this Hamiltonian and compare it to a concrete simulation algorithm that uses qubitization. Our divide and conquer algorithm, using lowest order Trotterization, scales for fixed grid spacing as $\widetilde{O}(\Lambda N^2\eta^2 t^2 /\epsilon)$ for grid size $N$, $\eta$ particles, simulation time $t$, field cutoff $\Lambda$ and error $\epsilon$. Our qubitization algorithm scales as $\widetilde{O}(N(\eta+N)(\eta +\Lambda^2) t\log(1/\epsilon)) $. This shows that even a na\"ive partitioning and low-order splitting formula can yield, through our divide and conquer formalism, superior scaling to qubitization for large $\Lambda$. We compare the relative costs of these two algorithms on systems that are relevant for applications such as the spontaneous emission of photons, and the photoionization of electrons. We observe that for different parameter regimes, one method can be favored over the other. Finally, we give new algorithmic and circuit level techniques for gate optimization including a new way of implementing a group of multi-controlled-X gates that can be used for better analysis of circuit cost.
翻訳日:2024-03-20 04:22:24 公開日:2024-03-16
# ニオブ緩衝層を有するシリコン基板上のタンタル超伝導共振器のマイクロ波特性

Microwave characterization of tantalum superconducting resonators on silicon substrate with niobium buffer layer ( http://arxiv.org/abs/2306.15258v2 )

ライセンス: Link先を確認
Yoshiro Urade, Kay Yakushiji, Manabu Tsujimoto, Takahiro Yamada, Kazumasa Makise, Wataru Mizubayashi, Kunihiro Inomata, (参考訳) 未加熱シリコン基板上にスパッタされたタンタル薄膜は10mK環境下で約10GHzのマイクロ波で特徴付けられる。 タンタル膜に先立ってニオブ緩衝層を堆積することにより,体中心立方体格子(\alpha$-Ta)を用いたタンタルの相を選択的に成長させることができることを示す。 超伝導転移温度や結晶性などの薄膜の物性はバッファ層の追加によって著しく変化する。 複合膜に基づくコプラナー導波路共振器は, バッファ層を持たない膜に比べて, 内部品質を著しく向上させた。 内部品質係数は、大光子数制限で2ドル10^7$に近づいた。 2レベル系(TLS)損失による単光子レベルでの品質係数は低下するが,膜表面の非晶質シリコン層がTLS損失の主な原因であることが明らかとなった。 内部品質因子の温度依存性は200mK未満の顕著な上昇を示し,TLS-TLS相互作用の存在が示唆された。 現在の低損失タンタル膜は基板加熱なしで堆積することができ、超伝導量子エレクトロニクスに様々な応用が期待できる。

Tantalum thin films sputtered on unheated silicon substrates are characterized with microwaves at around 10 GHz in a 10 mK environment. We show that the phase of tantalum with a body-centered cubic lattice ($\alpha$-Ta) can be grown selectively by depositing a niobium buffer layer prior to a tantalum film. The physical properties of the films, such as superconducting transition temperature and crystallinity, change markedly with the addition of the buffer layer. Coplanar waveguide resonators based on the composite film exhibit significantly enhanced internal quality factors compared with a film without the buffer layer. The internal quality factor approaches $2\times 10^7$ at a large-photon-number limit. While the quality factor decreases at the single-photon level owing to two-level system (TLS) loss, we have identified the primary cause of TLS loss to be the amorphous silicon layer at the film-substrate interface, which originates from the substrate cleaning before the film deposition rather than the film itself. The temperature dependence of the internal quality factors shows a marked rise below 200 mK, suggesting the presence of TLS-TLS interactions. The present low-loss tantalum films can be deposited without substrate heating and thus have various potential applications in superconducting quantum electronics.
翻訳日:2024-03-20 04:22:24 公開日:2024-03-16
# カメラISPパイプラインの劣化非依存表現の学習

Learning Degradation-Independent Representations for Camera ISP Pipelines ( http://arxiv.org/abs/2307.00761v3 )

ライセンス: Link先を確認
Yanhui Guo, Fangzhou Luo, Xiaolin Wu, (参考訳) 画像信号処理(ISP)パイプラインはデジタルカメラにおいて基本的な役割を担い、生のベイアセンサデータをRGB画像に変換する。 しかし、ISP生成画像は、センサノイズ、分解ノイズ、圧縮アーティファクト、ISOやガンマ値などの誤ったISPハイパーパラメータ設定による悪影響から生じる複合劣化により、通常不完全性に悩まされる。 一般的な意味では、これらのISPの欠陥は劣化と見なすことができる。 ISP劣化の非常に複雑なメカニズムは、画像復元のためのディープニューラルネットワーク(DNN)の一般化能力と、下流タスクへの適応性に大きな課題をもたらす。 そこで本研究では, 自己教師付き学習ベースライン表現の洗練を通じて, 劣化非依存表現(DiR)を学習するための新しいDNN手法を提案する。 提案手法は領域一般化能力に優れており,本実験で検証したブラインド画像復元,オブジェクト検出,インスタンスセグメンテーションなど,さまざまな下流タスクにおける最先端の手法よりも優れている。

Image signal processing (ISP) pipeline plays a fundamental role in digital cameras, which converts raw Bayer sensor data to RGB images. However, ISP-generated images usually suffer from imperfections due to the compounded degradations that stem from sensor noises, demosaicing noises, compression artifacts, and possibly adverse effects of erroneous ISP hyperparameter settings such as ISO and gamma values. In a general sense, these ISP imperfections can be considered as degradations. The highly complex mechanisms of ISP degradations, some of which are even unknown, pose great challenges to the generalization capability of deep neural networks (DNN) for image restoration and to their adaptability to downstream tasks. To tackle the issues, we propose a novel DNN approach to learn degradation-independent representations (DiR) through the refinement of a self-supervised learned baseline representation. The proposed DiR learning technique has remarkable domain generalization capability and consequently, it outperforms state-of-the-art methods across various downstream tasks, including blind image restoration, object detection, and instance segmentation, as verified in our experiments.
翻訳日:2024-03-20 04:12:33 公開日:2024-03-16
# スパイクタイミング依存塑性を用いた深層教師なし学習

Deep Unsupervised Learning Using Spike-Timing-Dependent Plasticity ( http://arxiv.org/abs/2307.04054v2 )

ライセンス: Link先を確認
Sen Lu, Abhronil Sengupta, (参考訳) Spike-Timing-Dependent Plasticity (STDP)は、スパイキングニューラルネットワーク(SNN)の教師なし学習メカニズムであり、ニューロモルフィックハードウェアコミュニティから大きな注目を集めている。 しかし、このようなローカル学習技術をより深いネットワークや大規模タスクに拡張することは、いまだ解明されていない。 本研究では,ネットワーク出力のSTDPクラスタリングプロセスによって生成された擬似ラベルを用いて,ニューロモルフィックな環境で展開可能なレートベースの畳み込みネットワークを訓練するDeep-STDPフレームワークについて検討する。 私たちは、$k$-meansクラスタリングアプローチとは対照的に、Tiny ImageNetデータセットの10クラスのサブセットで、より高い精度で24.56\%と3.5\times$高速収束速度を実現しています。

Spike-Timing-Dependent Plasticity (STDP) is an unsupervised learning mechanism for Spiking Neural Networks (SNNs) that has received significant attention from the neuromorphic hardware community. However, scaling such local learning techniques to deeper networks and large-scale tasks has remained elusive. In this work, we investigate a Deep-STDP framework where a rate-based convolutional network, that can be deployed in a neuromorphic setting, is trained in tandem with pseudo-labels generated by the STDP clustering process on the network outputs. We achieve $24.56\%$ higher accuracy and $3.5\times$ faster convergence speed at iso-accuracy on a 10-class subset of the Tiny ImageNet dataset in contrast to a $k$-means clustering approach.
翻訳日:2024-03-20 04:12:33 公開日:2024-03-16
# DALL.Eを用いた農業環境における画像データセットの作成:AIによる生成型大規模言語モデル

Creating Image Datasets in Agricultural Environments using DALL.E: Generative AI-Powered Large Language Model ( http://arxiv.org/abs/2307.08789v3 )

ライセンス: Link先を確認
Ranjan Sapkota, Dawood Ahmed, Manoj Karkee, (参考訳) 本研究では,農業におけるデータ生成・可視化技術の発展における人工知能(AI),特にOpenAIによるDALL.Eモデルの役割について検討した。 先進的なAIイメージジェネレータであるDALL.Eは、ChatGPTの言語処理と連携して、テキスト記述や画像ヒントをリアルな映像表現に変換する。 この研究は、画像生成のアプローチとして、テキスト・ツー・イメージと画像・ツー・イメージ(偏差)の両方を用いた。 実生作物の環境を表現した6種類のデータセットを作成した。 これらのAI生成画像は、実際の農業分野のセンサーが捉えた地上の真実画像と比較された。 The comparison was based on Peak Signal-to-Noise Ratio (PSNR) and Feature similarity Index (FSIM) metrics。 画像対画像生成は、テキスト対画像法よりも平均PSNRが5.78%増加し、画像の明瞭度と品質が向上した。 しかし、この手法は平均的なFSIMを10.23%減少させ、元の画像と構造的およびテクスチャ的類似性が低下したことを示している。 これらの手法と同様に、画像から画像までの手法で生成した画像は、テキストから画像へのアプローチで生成した画像よりもリアルであることを示した。 その結果、DALL.Eが現実的な農業用画像データセットを生成する可能性を強調し、画像ベースの精密農業ソリューションの開発と導入を加速させた。

This research investigated the role of artificial intelligence (AI), specifically the DALL.E model by OpenAI, in advancing data generation and visualization techniques in agriculture. DALL.E, an advanced AI image generator, works alongside ChatGPT's language processing to transform text descriptions and image clues into realistic visual representations of the content. The study used both approaches of image generation: text-to-image and image-to image (variation). Six types of datasets depicting fruit crop environment were generated. These AI-generated images were then compared against ground truth images captured by sensors in real agricultural fields. The comparison was based on Peak Signal-to-Noise Ratio (PSNR) and Feature Similarity Index (FSIM) metrics. The image-to-image generation exhibited a 5.78% increase in average PSNR over text-to-image methods, signifying superior image clarity and quality. However, this method also resulted in a 10.23% decrease in average FSIM, indicating a diminished structural and textural similarity to the original images. Similar to these measures, human evaluation also showed that images generated using image-to-image-based method were more realistic compared to those generated with text-to-image approach. The results highlighted DALL.E's potential in generating realistic agricultural image datasets and thus accelerating the development and adoption of imaging-based precision agricultural solutions.
翻訳日:2024-03-20 04:12:33 公開日:2024-03-16
# RLCD:言語モデルアライメントのためのコントラスト蒸留による強化学習

RLCD: Reinforcement Learning from Contrastive Distillation for Language Model Alignment ( http://arxiv.org/abs/2307.12950v3 )

ライセンス: Link先を確認
Kevin Yang, Dan Klein, Asli Celikyilmaz, Nanyun Peng, Yuandong Tian, (参考訳) 人間のフィードバックを使わずに自然言語(例えば、より無害な)で表現された原則に従うために言語モデルを整合させる手法であるReinforcement Learning from Contrastive Distillation (RLCD)を提案する。 RLCDは2つの対照的なモデル出力から選好ペアを生成し、1つは、与えられた原則に従うように設計された正のプロンプトを使用し、もう1つは、それらに違反するように設計された負のプロンプトを使用する。 2つの異なるプロンプトを使用すると、平均してモデル出力がより区別されるようになり、人間のアノテーションがない場合には、よりクリーンな選好ラベルが生成される。 次に、選好ペアを用いて選好モデルを訓練し、強化学習によりベース非整合言語モデルを改善する。 RLCD は RLAIF (Bai et al , 2022b) とコンテキスト蒸留 (Huang et al , 2022b) のベースラインを3つの多彩なアライメントタスク(無害性, 有用性, ストーリーアウトライン生成)で上回り, 7B モデルと 30B モデルの両方を用いて嗜好データをシミュレートする。

We propose Reinforcement Learning from Contrastive Distillation (RLCD), a method for aligning language models to follow principles expressed in natural language (e.g., to be more harmless) without using human feedback. RLCD creates preference pairs from two contrasting model outputs, one using a positive prompt designed to encourage following the given principles, and one using a negative prompt designed to encourage violating them. Using two different prompts causes model outputs to be more differentiated on average, resulting in cleaner preference labels in the absence of human annotations. We then use the preference pairs to train a preference model, which is in turn used to improve a base unaligned language model via reinforcement learning. Empirically, RLCD outperforms RLAIF (Bai et al., 2022b) and context distillation (Huang et al., 2022) baselines across three diverse alignment tasks--harmlessness, helpfulness, and story outline generation--and when using both 7B and 30B model scales for simulating preference data.
翻訳日:2024-03-20 04:12:33 公開日:2024-03-16
# Spaceyze:空間対応最適化による地理空間ビデオ分析システム

Spatialyze: A Geospatial Video Analytics System with Spatial-Aware Optimizations ( http://arxiv.org/abs/2308.03276v3 )

ライセンス: Link先を確認
Chanwut Kittivorawong, Yongming Ge, Yousef Helal, Alvin Cheung, (参考訳) 携帯電話や監視カメラのようなコモディティなハードウェアを使って撮影されるビデオは、時間や場所などの様々なメタデータを記録する。 このような地理空間的ビデオは日常的に遭遇し,その量は著しく増加している。 しかし、そのようなデータと効率的に対話できるデータ管理システムは存在しません。 本稿では,地理空間ビデオのエンドツーエンドクエリのための新しいフレームワークであるSpatialyzeについて述べる。 Spatialyzeにはドメイン固有の言語があり、ユーザは3ステップで宣言的で、ビルド-フィルタ-オブザーバのパラダイムを使って、地理空間ビデオ分析ワークフローを構築することができる。 内部的には、Spatialyzeはワークフローの宣言的な性質、ビデオに格納された時間空間メタデータ、現実世界のオブジェクトの物理的な振る舞いを活用してワークフローの実行を最適化する。 実世界のビデオとワークフローを用いた結果から、Spatialyzeは、最適化されていない実行と比較して最大97.1%の精度を維持しながら、実行時間を最大5.3倍に削減できることがわかった。

Videos that are shot using commodity hardware such as phones and surveillance cameras record various metadata such as time and location. We encounter such geospatial videos on a daily basis and such videos have been growing in volume significantly. Yet, we do not have data management systems that allow users to interact with such data effectively. In this paper, we describe Spatialyze, a new framework for end-to-end querying of geospatial videos. Spatialyze comes with a domain-specific language where users can construct geospatial video analytic workflows using a 3-step, declarative, build-filter-observe paradigm. Internally, Spatialyze leverages the declarative nature of such workflows, the temporal-spatial metadata stored with videos, and physical behavior of real-world objects to optimize the execution of workflows. Our results using real-world videos and workflows show that Spatialyze can reduce execution time by up to 5.3x, while maintaining up to 97.1% accuracy compared to unoptimized execution.
翻訳日:2024-03-20 04:12:33 公開日:2024-03-16
# 詳細分析による初等中等教育のための回転拡張蒸留法

Rotation Augmented Distillation for Exemplar-Free Class Incremental Learning with Detailed Analysis ( http://arxiv.org/abs/2308.15236v2 )

ライセンス: Link先を確認
Xiuwei Chen, Xiaobin Chang, (参考訳) クラスインクリメンタルラーニング(CIL)は、インクリメンタルタスクに沿って、古いクラスと新しいクラスの両方を認識することを目的としている。 CILのディープニューラルネットワークは破滅的な忘れ込みに悩まされており、いくつかのアプローチでは、この問題を軽減するために、exemplar-based settingとして知られる以前のタスクからexemplarsを保存することに頼っている。 それとは対照的に,本論文では,古いクラスサンプルが保存されていないExemplar-Freeセッティングに焦点を当てている。 深層機能学習における可塑性と安定性のバランス付けは、新しいクラスからの監督だけでは困難である。 既存のExemplar-Free CILメソッドの多くは、全体的なパフォーマンスのみを報告し、さらなる分析を欠いている。 本研究では, 相補的な指標を用いて, 異なる手法を詳細に検討する。 さらに, 簡易なCIL法である回転拡張蒸留法 (RAD) を提案し, この手法は, Exemplar-Free 設定下での最上位性能の1つを実現する。 詳細な分析によると、RADの利点は可塑性と安定性のバランスが優れていることを示している。 最後に、最先端メソッドのさらなるデモと比較のために、初期クラスを減らしたより難易度の高い例のない設定を行う。

Class incremental learning (CIL) aims to recognize both the old and new classes along the increment tasks. Deep neural networks in CIL suffer from catastrophic forgetting and some approaches rely on saving exemplars from previous tasks, known as the exemplar-based setting, to alleviate this problem. On the contrary, this paper focuses on the Exemplar-Free setting with no old class sample preserved. Balancing the plasticity and stability in deep feature learning with only supervision from new classes is more challenging. Most existing Exemplar-Free CIL methods report the overall performance only and lack further analysis. In this work, different methods are examined with complementary metrics in greater detail. Moreover, we propose a simple CIL method, Rotation Augmented Distillation (RAD), which achieves one of the top-tier performances under the Exemplar-Free setting. Detailed analysis shows our RAD benefits from the superior balance between plasticity and stability. Finally, more challenging exemplar-free settings with fewer initial classes are undertaken for further demonstrations and comparisons among the state-of-the-art methods.
翻訳日:2024-03-20 04:02:28 公開日:2024-03-16
# MVDream:3次元生成のための多視点拡散

MVDream: Multi-view Diffusion for 3D Generation ( http://arxiv.org/abs/2308.16512v3 )

ライセンス: Link先を確認
Yichun Shi, Peng Wang, Jianglong Ye, Mai Long, Kejie Li, Xiao Yang, (参考訳) 本稿では,テキストプロンプトから一貫した多視点画像を生成することができる拡散モデルMVDreamを紹介する。 2次元データと3次元データの両方から学習すると、多視点拡散モデルは2次元拡散モデルの一般化可能性と3次元レンダリングの整合性を達成することができる。 このような多視点拡散モデルは、暗黙的に3次元表現に非依存な3次元の一般化可能であることを実証する。 Score Distillation Smplingによる3D生成に適用でき、既存の2Dリフト法の一貫性と安定性を著しく向上させることができる。 また、DreamBoothに似た2Dの例から新しいコンセプトを学ぶこともできる。

We introduce MVDream, a diffusion model that is able to generate consistent multi-view images from a given text prompt. Learning from both 2D and 3D data, a multi-view diffusion model can achieve the generalizability of 2D diffusion models and the consistency of 3D renderings. We demonstrate that such a multi-view diffusion model is implicitly a generalizable 3D prior agnostic to 3D representations. It can be applied to 3D generation via Score Distillation Sampling, significantly enhancing the consistency and stability of existing 2D-lifting methods. It can also learn new concepts from a few 2D examples, akin to DreamBooth, but for 3D generation.
翻訳日:2024-03-20 04:02:28 公開日:2024-03-16
# コンテンツと行動の理解、シミュレート、最適化のための大規模コンテンツと行動モデル

Large Content And Behavior Models To Understand, Simulate, And Optimize Content And Behavior ( http://arxiv.org/abs/2309.00359v4 )

ライセンス: Link先を確認
Ashmit Khandelwal, Aditya Agrawal, Aanisha Bhattacharyya, Yaman K Singla, Somesh Singh, Uttaran Bhattacharya, Ishita Dasgupta, Stefano Petrangeli, Rajiv Ratn Shah, Changyou Chen, Balaji Krishnamurthy, (参考訳) シャノンとウィーバーの基本的な情報理論は、コミュニケーションを技術、意味、有効性の3つのレベルに分ける。 技術的レベルは送信されたシンボルの正確な再構築を扱うが、意味的および有効性レベルは推測された意味とその受信者への影響を扱う。 大きな言語モデル(LLM)は、その広範な一般化性を持ち、第2段階に向けて多少前進する。 しかし、LLMや他の通信モデルは、望まれる受信者行動や意図に対する通信の予測と最適化のために設計されていない。 結果として、現代の通信システムでは、有効性はほとんど触れられていない。 本稿では, LLM のトレーニングコーパスにおいて, 受信者の「行動トークン」である共有, クリック, 購入, リツイートを紹介し, 受信者の動作を最適化し, 行動を予測する。 学習したモデルは,コンテンツ理解タスクにおけるLCMと同じような性能を示すだけでなく,行動シミュレーション,コンテンツシミュレーション,行動理解,行動ドメイン適応のための行動次元の一般化能力を示す。 3つのコーパス上の幅広いタスクを用いて,これらすべての機能について結果を示す。 これらのモデルをLCBM(Large Content and Behavior Models)と呼ぶ。 さらに,LCBMに関するさらなる研究を促進するため,コミュニケータ,メッセージ,対応する受信者行動を含むリポジトリであるContent Behavior Corpus (CBC) を新たにリリースした(https://behavior-in-the-wild.github.io/LCBM)。

Shannon and Weaver's seminal information theory divides communication into three levels: technical, semantic, and effectiveness. While the technical level deals with the accurate reconstruction of transmitted symbols, the semantic and effectiveness levels deal with the inferred meaning and its effect on the receiver. Large Language Models (LLMs), with their wide generalizability, make some progress towards the second level. However, LLMs and other communication models are not conventionally designed for predicting and optimizing communication for desired receiver behaviors and intents. As a result, the effectiveness level remains largely untouched by modern communication systems. In this paper, we introduce the receivers' "behavior tokens," such as shares, likes, clicks, purchases, and retweets, in the LLM's training corpora to optimize content for the receivers and predict their behaviors. Other than showing similar performance to LLMs on content understanding tasks, our trained models show generalization capabilities on the behavior dimension for behavior simulation, content simulation, behavior understanding, and behavior domain adaptation. We show results on all these capabilities using a wide range of tasks on three corpora. We call these models Large Content and Behavior Models (LCBMs). Further, to spur more research on LCBMs, we release our new Content Behavior Corpus (CBC), a repository containing communicator, message, and corresponding receiver behavior (https://behavior-in-the-wild.github.io/LCBM).
翻訳日:2024-03-20 04:02:28 公開日:2024-03-16
# デジタルステススコープによる生体信号を用いた呼吸器疾患の分類とバイオメトリックス解析

Respiratory Disease Classification and Biometric Analysis Using Biosignals from Digital Stethoscopes ( http://arxiv.org/abs/2309.07183v2 )

ライセンス: Link先を確認
Constantino Álvarez Casado, Manuel Lage Cañellas, Matteo Pedone, Xiaoting Wu, Le Nguyen, Miguel Bordallo López, (参考訳) 呼吸器疾患は世界中で死に至る主要な原因であり、より高速で正確な診断ツールの必要性を浮き彫りにしている。 本研究は, 自動呼吸器疾患分類とバイオメトリックス解析にデジタル聴診器技術を活用した新しいアプローチを提案する。 当社のアプローチは,従来のオースカルテーションの実践を大幅に強化する可能性がある。 各種呼吸状態の分類に機械学習モデルを訓練する。 本手法は経験的モード分解法(EMD)とスペクトル分析法を用いて,デジタル聴診器が捉えた音響データに埋め込まれた臨床関連バイオシグナーを分離する手法とは異なる。 このアプローチは、音響データ内の心血管および呼吸パターンに密接に関連した情報に焦点を当てる。 スペクトル分析とフィルタリング技術は、内在モード関数(IMF)をこれらの生理現象と強く相関している。 これらのバイオシグナーは、予測モデリングのための包括的な特徴抽出プロセスを実行する。 これらの機能は、分類タスクと回帰タスクの両方のために、いくつかの機械学習モデルをトレーニングするインプットとして機能する。 本手法は,2値分類(健康と疾患のバランス精度89%)と多値分類(72%)の2値分類(肺炎やPDなどの特定の疾患のバランス精度72%)において高い精度を実現する。 本研究は,音響データのみに基づく年齢と身体量指数(BMI)を推定できる回帰モデルを導入するとともに,性分類のモデルを導入する。 本研究は,デジタル・ヘルス,遠隔医療,遠隔患者モニタリングの進歩に寄与し,支援・遠隔診断能力を大幅に向上させる知的デジタル聴診器の可能性を明らかにするものである。

Respiratory diseases remain a leading cause of mortality worldwide, highlighting the need for faster and more accurate diagnostic tools. This work presents a novel approach leveraging digital stethoscope technology for automatic respiratory disease classification and biometric analysis. Our approach has the potential to significantly enhance traditional auscultation practices. By leveraging one of the largest publicly available medical database of respiratory sounds, we train machine learning models to classify various respiratory health conditions. Our method differs from conventional methods by using Empirical Mode Decomposition (EMD) and spectral analysis techniques to isolate clinically relevant biosignals embedded within acoustic data captured by digital stethoscopes. This approach focuses on information closely tied to cardiovascular and respiratory patterns within the acoustic data. Spectral analysis and filtering techniques isolate Intrinsic Mode Functions (IMFs) strongly correlated with these physiological phenomena. These biosignals undergo a comprehensive feature extraction process for predictive modeling. These features then serve as input to train several machine learning models for both classification and regression tasks. Our approach achieves high accuracy in both binary classification (89% balanced accuracy for healthy vs. diseased) and multi-class classification (72% balanced accuracy for specific diseases like pneumonia and COPD). For the first time, this work introduces regression models capable of estimating age and body mass index (BMI) based solely on acoustic data, as well as a model for sex classification. Our findings underscore the potential of intelligent digital stethoscopes to significantly enhance assistive and remote diagnostic capabilities, contributing to advancements in digital health, telehealth, and remote patient monitoring.
翻訳日:2024-03-20 04:02:28 公開日:2024-03-16
# Sparse Index Tracking:$\ell_0$-Constrained Portfolioによる同時資産選定と資本配分

Sparse Index Tracking: Simultaneous Asset Selection and Capital Allocation via $\ell_0$-Constrained Portfolio ( http://arxiv.org/abs/2309.10152v3 )

ライセンス: Link先を確認
Eisuke Yamagata, Shunsuke Ono, (参考訳) スパース指数追跡は、金融指標を追跡するためにスパースポートフォリオを構築する、顕著なパッシブポートフォリオ管理戦略である。 スパースポートフォリオは、取引コストの削減と不正資産の回避の観点から、完全なポートフォリオよりも好ましい。 ポートフォリオの空間性を達成するため、従来の研究では$\ell_p$-norm正規化を$\ell_0$-norm正規化の連続代用として利用してきた。 これらの定式化はスパースポートフォリオを構築することができるが、ポートフォリオ内の資産の正確な上限を定義するためのパラメータの調整が複雑で時間を要するため、その実践的応用は困難である。 本稿では,ポートフォリオの資産数に対する上限値の制御を容易にするために,$\ell_0$-norm制約を用いたスパースインデックストラッキングの新たな問題式を提案する。 さらに,本手法はポートフォリオとターンオーバー間隔の制約を選択可能とし,再バランス間隔毎にアセット更新を制限することにより,トランザクションコストをさらに削減する。 さらに,本手法を主成分分割法に基づく効率的な解法を開発した。 最後に,S&P500およびRussell3000インデックスデータセットを用いた実験により提案手法の有効性について述べる。

Sparse index tracking is a prominent passive portfolio management strategy that constructs a sparse portfolio to track a financial index. A sparse portfolio is preferable to a full portfolio in terms of reducing transaction costs and avoiding illiquid assets. To achieve portfolio sparsity, conventional studies have utilized $\ell_p$-norm regularizations as a continuous surrogate of the $\ell_0$-norm regularization. Although these formulations can construct sparse portfolios, their practical application is challenging due to the intricate and time-consuming process of tuning parameters to define the precise upper limit of assets in the portfolio. In this paper, we propose a new problem formulation of sparse index tracking using an $\ell_0$-norm constraint that enables easy control of the upper bound on the number of assets in the portfolio. Moreover, our approach offers a choice between constraints on portfolio and turnover sparsity, further reducing transaction costs by limiting asset updates at each rebalancing interval. Furthermore, we develop an efficient algorithm for solving this problem based on a primal-dual splitting method. Finally, we illustrate the effectiveness of the proposed method through experiments on the S&P500 and Russell3000 index datasets.
翻訳日:2024-03-20 03:52:43 公開日:2024-03-16
# OpenChat: 混合品質データによるオープンソースの言語モデルの改善

OpenChat: Advancing Open-source Language Models with Mixed-Quality Data ( http://arxiv.org/abs/2309.11235v2 )

ライセンス: Link先を確認
Guan Wang, Sijie Cheng, Xianyuan Zhan, Xiangang Li, Sen Song, Yang Liu, (参考訳) 今日では、LLaMAのようなオープンソースの大規模言語モデルが登場している。 近年、教師付き微調整(SFT)と強化学習微調整(RLFT)が取り入れられ、これらのモデルと人間の目標が一致している。 しかし、SFT法は、全てのトレーニングデータを均等に混合品質で扱う一方、RLFT法は高品質なペアワイドまたはランキングベースの選好データを必要とする。 本研究では,混合品質データを用いたオープンソースの言語モデルを構築するために,OpenChatという新しいフレームワークを提案する。 具体的には、限られた量の専門家データと大量の準最適データとを混合した一般的なSFTトレーニングデータについて、選好ラベルなしで検討する。 本稿では,C(onditioned)-RLFTを提案する。C(onditioned)-RLFTは,異なるデータソースを粗大な報酬ラベルとみなし,相補的なデータ品質情報を活用するためのクラス条件付きポリシーを学習する。 興味深いことに、C-RLFTの最適ポリシーは、軽量でコストのかかる人選好ラベリングを回避したシングルステージのRLフリー教師あり学習によって容易に解決できる。 C-RLFTで微調整したopenchat-13bは,3つの標準ベンチマークの広範な実験により,13bのオープンソース言語モデルの中で最も高い平均性能を実現している。 さらに,AGIEvalを用いてモデル一般化性能を検証する。 最後に、OpenChatの有効性と堅牢性について、一連の分析を行います。 私たちのコード、データ、モデルは、https://github.com/imoneoi/openchatとhttps://huggingface.co/openchatで公開されています。

Nowadays, open-source large language models like LLaMA have emerged. Recent developments have incorporated supervised fine-tuning (SFT) and reinforcement learning fine-tuning (RLFT) to align these models with human goals. However, SFT methods treat all training data with mixed quality equally, while RLFT methods require high-quality pairwise or ranking-based preference data. In this study, we present a novel framework, named OpenChat, to advance open-source language models with mixed-quality data. Specifically, we consider the general SFT training data, consisting of a small amount of expert data mixed with a large proportion of sub-optimal data, without any preference labels. We propose the C(onditioned)-RLFT, which regards different data sources as coarse-grained reward labels and learns a class-conditioned policy to leverage complementary data quality information. Interestingly, the optimal policy in C-RLFT can be easily solved through single-stage, RL-free supervised learning, which is lightweight and avoids costly human preference labeling. Through extensive experiments on three standard benchmarks, our openchat-13b fine-tuned with C-RLFT achieves the highest average performance among all 13b open-source language models. Moreover, we use AGIEval to validate the model generalization performance, in which only openchat-13b surpasses the base model. Finally, we conduct a series of analyses to shed light on the effectiveness and robustness of OpenChat. Our code, data, and models are publicly available at https://github.com/imoneoi/openchat and https://huggingface.co/openchat.
翻訳日:2024-03-20 03:52:43 公開日:2024-03-16
# バイオメディカル抽象化のテキスト可読性向上のための大規模言語モデルと制御機構の検討

Investigating Large Language Models and Control Mechanisms to Improve Text Readability of Biomedical Abstracts ( http://arxiv.org/abs/2309.13202v2 )

ライセンス: Link先を確認
Zihao Li, Samuel Belkadi, Nicolo Micheletti, Lifeng Han, Matthew Shardlow, Goran Nenadic, (参考訳) 医学文献は複雑な言語と到達不能な専門用語を用いることが多い。 そのため、公衆衛生リテラシーを改善する上で、単純化が重要な役割を担っている。 このようなタスクを自動化するために自然言語処理(NLP)モデルを適用することで、平易な読者に対して迅速かつ直接的なアクセシビリティを実現することができる。 本研究では,生物医学的抽象の単純化作業における最先端の大規模言語モデル (LLM) の能力について,生物医学的抽象のプレーン言語適応のためのデータセット (\textbf{PLABA}) を用いて検討する。 適用方法としては、ドメインファインチューニングとプロンプトベースラーニング(PBL)がある。 1)エンコーダデコーダモデル(T5、SciFive、BART) 2) OpenAI および BioGPT からのデコーダのみの GPT モデル (GPT-3.5 および GPT-4) と BART モデルにおける制御制御機構について検討した。 BLEU,ROUGE,SARI,BERTscoreなど,さまざまな自動評価指標を用い,人的評価を行った。 BART-L-w-CT(BART-L-w-CT)機構ではSARIスコアが46.54、T5ベースではBERTscore 72.62と報告されている。 人間による評価では、BART-L-w-CTsはT5-Base(2.9 vs. 2.2)よりもシンプルさが向上し、T5-BaseはBART-L-w-CTs(3.1 vs. 2.6)よりも保存性が向上した。 我々はまた、システムのアウトプットを例に分類し、このタスクに関する今後の研究に光を当てることを望んだ。 我々のコード、微調整モデル、データ分割は \url{https://github.com/HECTA-UoM/PLABA-MU} \begin{IEEEkeywords} 大言語モデル、テキスト単純化、バイオメディカルNLP、コントロールメカニズム、ヘルスインフォマティクス \end{IEEEkeywords} で利用可能である。

Biomedical literature often uses complex language and inaccessible professional terminologies. That is why simplification plays an important role in improving public health literacy. Applying Natural Language Processing (NLP) models to automate such tasks allows for quick and direct accessibility for lay readers. In this work, we investigate the ability of state-of-the-art large language models (LLMs) on the task of biomedical abstract simplification, using the publicly available dataset for plain language adaptation of biomedical abstracts (\textbf{PLABA}). The methods applied include domain fine-tuning and prompt-based learning (PBL) on: 1) Encoder-decoder models (T5, SciFive, and BART), 2) Decoder-only GPT models (GPT-3.5 and GPT-4) from OpenAI and BioGPT, and 3) Control-token mechanisms on BART-based models. We used a range of automatic evaluation metrics, including BLEU, ROUGE, SARI, and BERTscore, and also conducted human evaluations. BART-Large with Control Token (BART-L-w-CT) mechanisms reported the highest SARI score of 46.54 and T5-base reported the highest BERTscore 72.62. In human evaluation, BART-L-w-CTs achieved a better simplicity score over T5-Base (2.9 vs. 2.2), while T5-Base achieved a better meaning preservation score over BART-L-w-CTs (3.1 vs. 2.6). We also categorised the system outputs with examples, hoping this will shed some light for future research on this task. Our code, fine-tuned models, and data splits are available at \url{https://github.com/HECTA-UoM/PLABA-MU} \begin{IEEEkeywords} Large Language Models, Text Simplification, Biomedical NLP, Control Mechanisms, Health Informatics \end{IEEEkeywords}
翻訳日:2024-03-20 03:52:43 公開日:2024-03-16
# LLMによる誤報検出は可能か?

Can LLM-Generated Misinformation Be Detected? ( http://arxiv.org/abs/2309.13788v3 )

ライセンス: Link先を確認
Canyu Chen, Kai Shu, (参考訳) LLM(Large Language Models)の出現は、変革的な影響をもたらした。 しかし、ChatGPTのようなLCMを悪用して誤報を発生させる可能性は、オンラインの安全と公衆の信頼に深刻な懸念を抱いている。 LLMが生成した誤報は、人間が書いた誤報よりも有害か? 本稿では,検出困難の観点からこの問題に取り組むことを提案する。 まず LLM 生成の誤情報を分類する。 次に,LLMを用いた誤情報生成の潜在的な現実的手法を分類し,検証する。 そして、広範囲にわたる実証調査により、LLMが生成する誤報は、人間や検出者にとって同じ意味を持つ人間が書いた誤報に比べて検出が難しいことが判明した。 また,LLM時代の誤報と対策について考察した。

The advent of Large Language Models (LLMs) has made a transformative impact. However, the potential that LLMs such as ChatGPT can be exploited to generate misinformation has posed a serious concern to online safety and public trust. A fundamental research question is: will LLM-generated misinformation cause more harm than human-written misinformation? We propose to tackle this question from the perspective of detection difficulty. We first build a taxonomy of LLM-generated misinformation. Then we categorize and validate the potential real-world methods for generating misinformation with LLMs. Then, through extensive empirical investigation, we discover that LLM-generated misinformation can be harder to detect for humans and detectors compared to human-written misinformation with the same semantics, which suggests it can have more deceptive styles and potentially cause more harm. We also discuss the implications of our discovery on combating misinformation in the age of LLMs and the countermeasures.
翻訳日:2024-03-20 03:52:43 公開日:2024-03-16
# 複雑度から明瞭度:クリフォードの幾何学的代数と凸性によるディープニューラルネットワーク重みの解析的表現

From Complexity to Clarity: Analytical Expressions of Deep Neural Network Weights via Clifford's Geometric Algebra and Convexity ( http://arxiv.org/abs/2309.16512v3 )

ライセンス: Link先を確認
Mert Pilanci, (参考訳) 本稿では,幾何(クリフォード)代数と凸最適化に基づくニューラルネットワークの新しい解析手法を提案する。 我々は,標準正規化損失のトレーニングにおいて,深部ReLUニューラルネットワークの最適重みがトレーニングサンプルのウェッジ積によって与えられることを示した。 さらに、トレーニング問題は、トレーニングデータセットの幾何学的構造を符号化するウェッジ製品特徴よりも凸最適化に還元される。 この構造は、データベクトルによって生成される三角形と平行同位体の符号付き体積で与えられる。 凸問題は、関連するウェッジ製品の特徴のみを発見するために$\ell_1$正規化によってサンプルの小さな部分集合を見つける。 私たちの分析は、ディープニューラルネットワークの内部動作に関する新しい視点を提供し、隠れた層の役割に光を当てます。

In this paper, we introduce a novel analysis of neural networks based on geometric (Clifford) algebra and convex optimization. We show that optimal weights of deep ReLU neural networks are given by the wedge product of training samples when trained with standard regularized loss. Furthermore, the training problem reduces to convex optimization over wedge product features, which encode the geometric structure of the training dataset. This structure is given in terms of signed volumes of triangles and parallelotopes generated by data vectors. The convex problem finds a small subset of samples via $\ell_1$ regularization to discover only relevant wedge product features. Our analysis provides a novel perspective on the inner workings of deep neural networks and sheds light on the role of the hidden layers.
翻訳日:2024-03-20 03:52:43 公開日:2024-03-16
# 自律運転における協調認識における適応的コミュニケーション

Adaptive Communications in Collaborative Perception with Domain Alignment for Autonomous Driving ( http://arxiv.org/abs/2310.00013v3 )

ライセンス: Link先を確認
Senkang Hu, Zhengru Fang, Haonan An, Guowen Xu, Yuan Zhou, Xianhao Chen, Yuguang Fang, (参考訳) 複数の連結車両と自律車両の協調認識は、車両が通信を介して補助情報を交換できるようにすることで、知覚能力を大幅に向上させることができる。 従来のアプローチの進歩にもかかわらず、チャネルのばらつきとコラボレーティブな車両間のデータの異質性により、依然として課題は残る。 これらの問題に対処するために,通信グラフを動的に調整し,データの不均一性から副作用を緩和しながら平均伝送遅延を最小化する,チャネル対応協調認識フレームワークACC-DAを提案する。 私たちの小説は3つの側面にある。 まず、通信グラフを構築し、異なるチャネル情報の状態に応じて送信遅延を最小化できる送信遅延最小化法を設計する。 次に、速度歪みトレードオフを動的に調整し、知覚効率を向上させる適応データ再構成機構を提案する。 さらに、データ送信時の時間的冗長性を最小化する。 最後に、異なる車両間の領域ギャップを緩和し、目標タスクの性能を向上させることができるように、異なる車両のデータ分布を整合させるドメインアライメント方式を提案する。 総合的な実験により,既存の最先端技術と比較し,本手法の有効性を実証した。

Collaborative perception among multiple connected and autonomous vehicles can greatly enhance perceptive capabilities by allowing vehicles to exchange supplementary information via communications. Despite advances in previous approaches, challenges still remain due to channel variations and data heterogeneity among collaborative vehicles. To address these issues, we propose ACC-DA, a channel-aware collaborative perception framework to dynamically adjust the communication graph and minimize the average transmission delay while mitigating the side effects from the data heterogeneity. Our novelties lie in three aspects. We first design a transmission delay minimization method, which can construct the communication graph and minimize the transmission delay according to different channel information state. We then propose an adaptive data reconstruction mechanism, which can dynamically adjust the rate-distortion trade-off to enhance perception efficiency. Moreover, it minimizes the temporal redundancy during data transmissions. Finally, we conceive a domain alignment scheme to align the data distribution from different vehicles, which can mitigate the domain gap between different vehicles and improve the performance of the target task. Comprehensive experiments demonstrate the effectiveness of our method in comparison to the existing state-of-the-art works.
翻訳日:2024-03-20 03:52:43 公開日:2024-03-16
# 強化学習における一般化のための意識に着想を得た時空間的抽象化

Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning ( http://arxiv.org/abs/2310.00229v4 )

ライセンス: Link先を確認
Mingde Zhao, Safa Alver, Harm van Seijen, Romain Laroche, Doina Precup, Yoshua Bengio, (参考訳) 人間の意識的な計画から着想を得たモデルベース強化学習フレームワークSkipperを提案する。 これにより、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に分解し、環境の関連部分におけるスパースな意思決定と集中型計算を可能にします。 この分解は、頂点と辺が後からエンドツーエンドに学習される有向グラフとして表される抽象的なプロキシ問題の抽出に依存する。 我々の理論分析は、適切な仮定の下で性能保証を提供し、我々のアプローチが役に立つと期待される場所を確立する。 一般化に焦点を当てた実験は、既存の最先端階層的計画法と比較して、ゼロショット一般化におけるスキッパーの顕著な優位性を検証する。

Inspired by human conscious planning, we propose Skipper, a model-based reinforcement learning framework utilizing spatio-temporal abstractions to generalize better in novel situations. It automatically decomposes the given task into smaller, more manageable subtasks, and thus enables sparse decision-making and focused computation on the relevant parts of the environment. The decomposition relies on the extraction of an abstracted proxy problem represented as a directed graph, in which vertices and edges are learned end-to-end from hindsight. Our theoretical analyses provide performance guarantees under appropriate assumptions and establish where our approach is expected to be helpful. Generalization-focused experiments validate Skipper's significant advantage in zero-shot generalization, compared to some existing state-of-the-art hierarchical planning methods.
翻訳日:2024-03-20 03:42:41 公開日:2024-03-16
# 大規模視覚言語モデルにおける物体幻覚の分析と緩和

Analyzing and Mitigating Object Hallucination in Large Vision-Language Models ( http://arxiv.org/abs/2310.00754v2 )

ライセンス: Link先を確認
Yiyang Zhou, Chenhang Cui, Jaehong Yoon, Linjun Zhang, Zhun Deng, Chelsea Finn, Mohit Bansal, Huaxiu Yao, (参考訳) 大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。 しかし、LVLMはいまだに物体幻覚に悩まされており、これは画像に実際に存在しない物体を含む記述を生成する問題である。 これは視覚的な要約や推論など、多くの視覚言語タスクに悪影響を及ぼす可能性がある。 この問題に対処するため,LVLM の幻覚後修正のための簡単なアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。 LUREは、共起(画像中の他の物体の頻出)、不確実性(LVLM復号時に高い不確実性を持つ物体)、物体の位置(生成されたテキストの後半部分でしばしば幻覚)など、物体の幻覚の根底にある重要な要因の厳密な統計分析に基礎を置いている。 LUREは任意のLVLMとシームレスに統合することもできる。 我々は,LUREを6つのオープンソースLVLM上で評価し,これまでのベストアプローチよりも23%改善した。 GPTと人的評価の両方において、LUREは一貫してトップにランクインしている。 私たちのデータとコードはhttps://github.com/YiyangZhou/LURE.comで公開されています。

Large vision-language models (LVLMs) have shown remarkable abilities in understanding visual information with human languages. However, LVLMs still suffer from object hallucination, which is the problem of generating descriptions that include objects that do not actually exist in the images. This can negatively impact many vision-language tasks, such as visual summarization and reasoning. To address this issue, we propose a simple yet powerful algorithm, LVLM Hallucination Revisor (LURE), to post-hoc rectify object hallucination in LVLMs by reconstructing less hallucinatory descriptions. LURE is grounded in a rigorous statistical analysis of the key factors underlying object hallucination, including co-occurrence (the frequent appearance of certain objects alongside others in images), uncertainty (objects with higher uncertainty during LVLM decoding), and object position (hallucination often appears in the later part of the generated text). LURE can also be seamlessly integrated with any LVLMs. We evaluate LURE on six open-source LVLMs, achieving a 23% improvement in general object hallucination evaluation metrics over the previous best approach. In both GPT and human evaluations, LURE consistently ranks at the top. Our data and code are available at https://github.com/YiyangZhou/LURE.
翻訳日:2024-03-20 03:42:41 公開日:2024-03-16
# Adherence-Aware Advice の学習

Learning to Make Adherence-Aware Advice ( http://arxiv.org/abs/2310.00817v2 )

ライセンス: Link先を確認
Guanting Chen, Xiaocheng Li, Chunlin Sun, Hanzhao Wang, (参考訳) 人工知能(AI)システムは、人間の意思決定においてますます顕著な役割を担っているため、人間とAIの相互作用の領域では課題が表面化している。 1つの課題は、AIレコメンデーションを無視した人間の不適切な考慮、そしてAIが最も適切かどうかを選択的にアドバイスする必要性によって、AIの亜最適ポリシーから生じる。 本稿では, 逐次意思決定モデルを提案する。 一 人間の従順性(人間が機械の助言に従う/拒絶する確率)を考慮し、 (ii) マシンがアドバイスを一時的に控えるように、遅延オプションを組み込む。 最適なアドバイスポリシーを学習し、重要なタイムスタンプでのみアドバイスを行う学習アルゴリズムを提供する。 問題に依存しない強化学習アルゴリズムと比較して,我々の特殊学習アルゴリズムは理論収束性を向上するだけでなく,経験的性能も高い。

As artificial intelligence (AI) systems play an increasingly prominent role in human decision-making, challenges surface in the realm of human-AI interactions. One challenge arises from the suboptimal AI policies due to the inadequate consideration of humans disregarding AI recommendations, as well as the need for AI to provide advice selectively when it is most pertinent. This paper presents a sequential decision-making model that (i) takes into account the human's adherence level (the probability that the human follows/rejects machine advice) and (ii) incorporates a defer option so that the machine can temporarily refrain from making advice. We provide learning algorithms that learn the optimal advice policy and make advice only at critical time stamps. Compared to problem-agnostic reinforcement learning algorithms, our specialized learning algorithms not only enjoy better theoretical convergence properties but also show strong empirical performance.
翻訳日:2024-03-20 03:42:41 公開日:2024-03-16
# L2MAC:大規模コード生成のための大規模言語モデル自動計算機

L2MAC: Large Language Model Automatic Computer for Extensive Code Generation ( http://arxiv.org/abs/2310.02003v3 )

ライセンス: Link先を確認
Samuel Holt, Max Ruiz Luyten, Mihaela van der Schaar, (参考訳) トランスフォーマーベースの大規模言語モデル(LLM)は、基盤となるトランスフォーマーアーキテクチャの固定されたコンテキストウィンドウによって制約され、長い一貫性のある出力を生成する能力を妨げる。 メモリ拡張LDMは有望なソリューションであるが,(1)読み出しのみに集中し,新たなメモリの結合への進化を減少させる,あるいは(2)他のドメインに適応できない非常に特殊なメモリを使用するため,現在のアプローチでは長い出力タスクを処理できない。 本稿では,L2MAC について述べる。L2MAC は LLM をベースとしたマルチエージェントシステムである LLM をベースとした初の実用的記憶型自動計算機 (von Neumann アーキテクチャ) フレームワークで,長期的かつ一貫した出力生成を実現する。 そのメモリには2つのコンポーネントがある: 命令レジストリは、ユーザ登録タスクを解決するプロンプトプログラムで集約され、ファイルストアは、最終的な出力と中間出力を含む。 各命令は別個のLCMエージェントによって実行され、そのコンテキストは、ファイルストアとの効果的な相互作用を確保するために、正確なメモリ読み書きが可能な制御ユニットによって管理される。 これらのコンポーネントにより、L2MACは、複雑なユーザ指定タスクを満たす出力を生成しながら、有限コンテキストウィンドウの制約をバイパスして、広範な出力を生成することができる。 我々は,L2MACがシステム設計タスクの大規模コードベースの生成において最先端のパフォーマンスを実現し,詳細なユーザ指定タスクの実装において,他のコーディング手法を著しく上回っていることを実証的に証明し,この性能ギャップの原因について貴重な知見を提供する。

Transformer-based large language models (LLMs) are constrained by the fixed context window of the underlying transformer architecture, hindering their ability to produce long and coherent outputs. Memory-augmented LLMs are a promising solution, but current approaches cannot handle long output generation tasks since they (1) only focus on reading memory and reduce its evolution to the concatenation of new memories or (2) use very specialized memories that cannot adapt to other domains. This paper presents L2MAC, the first practical LLM-based stored-program automatic computer (von Neumann architecture) framework, an LLM-based multi-agent system, for long and consistent output generation. Its memory has two components: the instruction registry, which is populated with a prompt program to solve the user-given task, and a file store, which will contain the final and intermediate outputs. Each instruction in turn is executed by a separate LLM agent, whose context is managed by a control unit capable of precise memory reading and writing to ensure effective interaction with the file store. These components enable L2MAC to generate extensive outputs, bypassing the constraints of the finite context window while producing outputs that fulfill a complex user-specified task. We empirically demonstrate that L2MAC achieves state-of-the-art performance in generating large codebases for system design tasks, significantly outperforming other coding methods in implementing the detailed user-specified task, and we provide valuable insights into the reasons for this performance gap.
翻訳日:2024-03-20 03:42:41 公開日:2024-03-16
# 1+1$次元のダンクル-フォッカー-プランク方程式

The Dunkl-Fokker-Planck Equation in $1+1$ Dimensions ( http://arxiv.org/abs/2310.05016v3 )

ライセンス: Link先を確認
R. D. Mota, D. Ojeda-Guillén, M. A. Xicoténcatl, (参考訳) 空間微分をダンクル微分に置き換えることで、(1+1)次元のフォッカー・プランク方程式を一般化する。 Dunkl-Fokker-Planck固有値方程式を求め,高調波発振器と遠心型ポテンシャルを求める。 さらに、ドリフト関数が奇数であれば、最近開発されたウィグナー・ダンクル超対称性のそれよりも結果を小さくする。

By replacing the spatial derivative with the Dunkl derivative, we generalize the Fokker-Planck equation in (1+1) dimensions. We obtain the Dunkl-Fokker-Planck eigenvalues equation and solve it for the harmonic oscillator plus a centrifugal-type potential. Furthermore, when the drift function is odd, we reduce our results to those of the recently developed Wigner-Dunkl supersymmetry.
翻訳日:2024-03-20 03:32:38 公開日:2024-03-16
# Robust-GBDT: ラベルノイズとクラス不均衡の有無による語彙分類のための非凸損失GBDT

Robust-GBDT: GBDT with Nonconvex Loss for Tabular Classification in the Presence of Label Noise and Class Imbalance ( http://arxiv.org/abs/2310.05067v2 )

ライセンス: Link先を確認
Jiaqi Luo, Yuedong Quan, Shixin Xu, (参考訳) 表の分類タスクにおけるラベルノイズへの対処は、機械学習において永続的な課題となる。 堅牢なブースティング手法はバイナリ分類において有望であることを示しているが、複雑なマルチクラスシナリオにおけるそれらの有効性はしばしば制限されている。 さらに、不均衡なデータセット、欠落した値、計算の非効率といった問題は、その実用性をさらに複雑にする。 本稿では,GBDT(Gradient Boosted Decision Trees)のパワーと,ラベルノイズに対する非凸損失関数のレジリエンスを組み合わせた,画期的なアプローチであるRobust-GBDTを紹介する。 特定の領域における局所凸性を活用することで、Robust-GBDTは前例のない頑丈さを示し、従来の知恵に挑戦する。 高度なGBDTとクラス不均衡に適した新しいRobust Focal Lossとのシームレスな統合により、特にノイズや不均衡なデータセットにおいて、Robust-GBDTは一般化能力を著しく向上する。 そのユーザフレンドリな設計は、既存のオープンソースコードとの統合を容易にし、計算効率とスケーラビリティを向上させる。 広汎な実験により、ロバストGBDTは、他のノイズ汚染法よりも優れていることが検証され、ラベルノイズの中で正確な分類のための新しい標準が確立された。 この研究は機械学習のパラダイムシフトを象徴し、さまざまな現実世界のアプリケーションにまたがる、堅牢で正確な分類の新しい時代への道を歩む。

Dealing with label noise in tabular classification tasks poses a persistent challenge in machine learning. While robust boosting methods have shown promise in binary classification, their effectiveness in complex, multi-class scenarios is often limited. Additionally, issues like imbalanced datasets, missing values, and computational inefficiencies further complicate their practical utility. This study introduces Robust-GBDT, a groundbreaking approach that combines the power of Gradient Boosted Decision Trees (GBDT) with the resilience of nonconvex loss functions against label noise. By leveraging local convexity within specific regions, Robust-GBDT demonstrates unprecedented robustness, challenging conventional wisdom. Through seamless integration of advanced GBDT with a novel Robust Focal Loss tailored for class imbalance, Robust-GBDT significantly enhances generalization capabilities, particularly in noisy and imbalanced datasets. Notably, its user-friendly design facilitates integration with existing open-source code, enhancing computational efficiency and scalability. Extensive experiments validate Robust-GBDT's superiority over other noise-robust methods, establishing a new standard for accurate classification amidst label noise. This research heralds a paradigm shift in machine learning, paving the way for a new era of robust and precise classification across diverse real-world applications.
翻訳日:2024-03-20 03:32:38 公開日:2024-03-16
# 暗示学習のためのメモリ一貫性ニューラルネットワーク

Memory-Consistent Neural Networks for Imitation Learning ( http://arxiv.org/abs/2310.06171v2 )

ライセンス: Link先を確認
Kaustubh Sridhar, Souradeep Dutta, Dinesh Jayaraman, James Weimer, Insup Lee, (参考訳) 模倣学習は、専門家によるデモンストレーションへのアクセスを活用することで、代替アプローチと比較して、ポリシー合成をかなり単純化する。 このような模倣ポリシーでは、トレーニングサンプルから離れたエラーが特に重要である。 政策行動アウトプットの稀なスリップアップさえも、政策が未熟な将来状態につながるため、時間とともに急速に複雑化する可能性がある。 我々は、事前記録されたデモ以上のものからポリシーを都合よく訓練するために、簡単な'behavior cloning''を再検討するが、複雑なエラー現象に対処するために、モデルクラスを慎重に設計する。 私たちの‘Memory-Consistent Neural Network’(MCNN)出力は、プロトタイプ‘`Memory'トレーニングサンプルに固定された明確な許容領域内に留まることが難しい。 MCNNポリシーによって誘導される準最適ギャップに対して保証された上限を提供する。 MLP, Transformer, Diffusionといった10種類の模倣学習タスクにMCNNを使用し, ロボット操作と運転, プロジェクティブインプットと視覚入力, さまざまなサイズと種類の実演データにまたがって, MCNNは, 模倣学習用としてバニラディープニューラルネットワークよりも適していることを示す。 Webサイト: https://sites.google.com/view/mcnn-imitation

Imitation learning considerably simplifies policy synthesis compared to alternative approaches by exploiting access to expert demonstrations. For such imitation policies, errors away from the training samples are particularly critical. Even rare slip-ups in the policy action outputs can compound quickly over time, since they lead to unfamiliar future states where the policy is still more likely to err, eventually causing task failures. We revisit simple supervised ``behavior cloning'' for conveniently training the policy from nothing more than pre-recorded demonstrations, but carefully design the model class to counter the compounding error phenomenon. Our ``memory-consistent neural network'' (MCNN) outputs are hard-constrained to stay within clearly specified permissible regions anchored to prototypical ``memory'' training samples. We provide a guaranteed upper bound for the sub-optimality gap induced by MCNN policies. Using MCNNs on 10 imitation learning tasks, with MLP, Transformer, and Diffusion backbones, spanning dexterous robotic manipulation and driving, proprioceptive inputs and visual inputs, and varying sizes and types of demonstration data, we find large and consistent gains in performance, validating that MCNNs are better-suited than vanilla deep neural networks for imitation learning applications. Website: https://sites.google.com/view/mcnn-imitation
翻訳日:2024-03-20 03:32:38 公開日:2024-03-16
# 次世代コンピュータビジョンのためのスパイク型ニューロモルフィックコンピューティング

Spike-based Neuromorphic Computing for Next-Generation Computer Vision ( http://arxiv.org/abs/2310.09692v2 )

ライセンス: Link先を確認
Md Sakib Hasan, Catherine D. Schuman, Zhongyang Zhang, Tauhidur Rahman, Garrett S. Rose, (参考訳) ニューロモルフィック・コンピューティングは、従来のフォン・ノイマン・コンピューティング・パラダイムと比較してエネルギー効率の桁違いの改善を約束する。 目標は、材料、デバイス、回路、アーキテクチャ、アルゴリズムなど、さまざまな抽象レイヤの革新を通じて実現可能な脳機能を学び、エミュレートすることで、適応的でフォールトトレラントで低フットプリントで高速で低エネルギーのインテリジェントシステムを開発することである。 複雑なビジョンタスクのエネルギー消費は、より大きなデータセットとリソース制約されたエッジデバイスがますます普及するにつれて指数関数的に増加し続けており、スパイクベースのニューロモルフィックコンピューティングアプローチは、現在ビジョンフィールドを支配しているディープ畳み込みニューラルネットワークに代わることができる。 本章では、ニューロモルフィックコンピューティングを紹介し、デザインスタックの異なるレイヤ(デバイス、回路、アルゴリズム)からいくつかの代表例を概説し、近い将来、コンピュータビジョンに期待できるいくつかのエキサイティングな応用と今後の研究方向性を結論付けます。

Neuromorphic Computing promises orders of magnitude improvement in energy efficiency compared to traditional von Neumann computing paradigm. The goal is to develop an adaptive, fault-tolerant, low-footprint, fast, low-energy intelligent system by learning and emulating brain functionality which can be realized through innovation in different abstraction layers including material, device, circuit, architecture and algorithm. As the energy consumption in complex vision tasks keep increasing exponentially due to larger data set and resource-constrained edge devices become increasingly ubiquitous, spike-based neuromorphic computing approaches can be viable alternative to deep convolutional neural network that is dominating the vision field today. In this book chapter, we introduce neuromorphic computing, outline a few representative examples from different layers of the design stack (devices, circuits and algorithms) and conclude with a few exciting applications and future research directions that seem promising for computer vision in the near future.
翻訳日:2024-03-20 03:22:50 公開日:2024-03-16
# プログレッシブ3D:複雑なセマンティックプロンプトによるテキストから3Dコンテンツ作成のためのプログレッシブローカル編集

Progressive3D: Progressively Local Editing for Text-to-3D Content Creation with Complex Semantic Prompts ( http://arxiv.org/abs/2310.11784v2 )

ライセンス: Link先を確認
Xinhua Cheng, Tianyu Yang, Jianan Wang, Yu Li, Lei Zhang, Jian Zhang, Li Yuan, (参考訳) 近年のテキスト・ツー・3D生成手法は,画像拡散モデルと最適化戦略の進歩により,印象的な3Dコンテンツ作成能力を実現する。 しかし、現在の手法は、セマンティックスにおける複雑なプロンプト、すなわち異なる属性で結合された複数の相互作用オブジェクトを記述するプロンプトに対して正しい3Dコンテンツを生成するのに苦労している。 本研究では,複雑なプロンプトのための正確な3Dコンテンツを作成するために,全世代を一連の局所的なプログレッシブな編集ステップに分解するProgressive3Dというフレームワークを提案する。 さらに,提案手法では,プロンプト間の意味的差異に注目する最適化プロセスの促進を目的として,重なり合った意味的コンポーネント抑圧手法を提案する。 広汎な実験により,提案するプログレッシブ3Dフレームワークは複雑なセマンティクスを持つプロンプトに対して正確な3Dコンテンツを生成し,異なる3D表現によって駆動される様々なテキストから3Dメソッドに対して一般的であることが示された。

Recent text-to-3D generation methods achieve impressive 3D content creation capacity thanks to the advances in image diffusion models and optimizing strategies. However, current methods struggle to generate correct 3D content for a complex prompt in semantics, i.e., a prompt describing multiple interacted objects binding with different attributes. In this work, we propose a general framework named Progressive3D, which decomposes the entire generation into a series of locally progressive editing steps to create precise 3D content for complex prompts, and we constrain the content change to only occur in regions determined by user-defined region prompts in each editing step. Furthermore, we propose an overlapped semantic component suppression technique to encourage the optimization process to focus more on the semantic differences between prompts. Extensive experiments demonstrate that the proposed Progressive3D framework generates precise 3D content for prompts with complex semantics and is general for various text-to-3D methods driven by different 3D representations.
翻訳日:2024-03-20 03:22:50 公開日:2024-03-16
# 定常拡散による因果モデリング

Causal Modeling with Stationary Diffusions ( http://arxiv.org/abs/2310.17405v2 )

ライセンス: Link先を確認
Lars Lorch, Andreas Krause, Bernhard Schölkopf, (参考訳) 我々は因果推論に対する新しいアプローチを開発する。 因果グラフ上の構造方程式ではなく、定常密度が介入の下で系の振舞いをモデル化する確率微分方程式(SDE)を学ぶ。 これらの定常拡散モデルは、非巡回性の一般的な仮定は言うまでもなく、因果グラフの形式主義を必要としない。 いくつかのケースでは、変数に対する目に見えない介入を一般化し、しばしば古典的なアプローチよりも優れていることを示す。 提案手法は,再生カーネルヒルベルト空間における拡散発生器の定常状態を表す新しい理論結果に基づく。 固定性(KDS)からのカーネルの逸脱は、独立した関心の客観的な機能である。

We develop a novel approach towards causal inference. Rather than structural equations over a causal graph, we learn stochastic differential equations (SDEs) whose stationary densities model a system's behavior under interventions. These stationary diffusion models do not require the formalism of causal graphs, let alone the common assumption of acyclicity. We show that in several cases, they generalize to unseen interventions on their variables, often better than classical approaches. Our inference method is based on a new theoretical result that expresses a stationarity condition on the diffusion's generator in a reproducing kernel Hilbert space. The resulting kernel deviation from stationarity (KDS) is an objective function of independent interest.
翻訳日:2024-03-20 03:12:40 公開日:2024-03-16
# ブラックボックスの内部:ニューラルネットワークによるアメリカの景気後退のリアルタイム予測

Inside the black box: Neural network-based real-time prediction of US recessions ( http://arxiv.org/abs/2310.17571v2 )

ライセンス: Link先を確認
Seulki Chung, (参考訳) 標準フィードフォワードニューラルネットワーク(FFN)と2種類の特定のリカレントニューラルネットワーク、長短期メモリ(LSTM)とゲートリカレントユニット(GRU)は、1967年から2021年までのアメリカの不況をモデル化するために使用される。 推定されたモデルは、アメリカでの大恐慌とコビッド19の景気後退をリアルタイムに予測するために使用される。 予測性能は従来の線形モデル、標準ロジットモデル、リッジロジットモデルと比較される。 アウトオブサンプル性能は、特に長期予測タスクにおいて、リセッション予測領域におけるLSTMとGRUの適用を示唆している。 それらは、選択された統計指標のセットに関して、5つの異なる予測地平線を越えて、他のタイプのモデルよりも優れている。 GRUとリッジロジットモデルに,それぞれニューラルネットワークと線形モデル群で最高の演奏者としてシェープな加法的説明法(SHAP)を適用し,変数の重要性について考察した。 GRUとリッジロジットモデルとの違いは、SHAP値によって決定される不等変数順序に反映されるためである。 これらの異なる重み付けは、GRUの柔軟性と、ビジネスサイクルの非対称性と非線形性を捉える能力に起因する可能性がある。 SHAP法はいくつかの重要な不況指標を提供する。 最大3カ月の予測では、株価指数、実質GDP、私的住宅固定投資は、短期的な予測可能性が非常に高く、長期にわたる予測では、リセッション(景気後退)に対する用語の拡散と生産物価指数は強い説明力を持っている。 これらの知見は、GRUの局所的解釈可能なモデル非依存的説明(LIME)やリッジロジットモデルに対する限界効果など、他の解釈手法に対して堅牢である。

A standard feedforward neural network (FFN) and two specific types of recurrent neural networks, long short-term memory (LSTM) and gated recurrent unit (GRU), are used for modeling US recessions in the period from 1967 to 2021. The estimated models are then employed to conduct real-time predictions of the Great Recession and the Covid-19 recession in the US. Their predictive performances are compared to those of the traditional linear models, the standard logit model and the ridge logit model. The out-of-sample performance suggests the application of LSTM and GRU in the area of recession forecasting, especially for the long-term forecasting tasks. They outperform other types of models across five different forecast horizons with respect to a selected set of statistical metrics. Shapley additive explanations (SHAP) method is applied to GRU and the ridge logit model as the best performer in the neural network and linear model group, respectively, to gain insight into the variable importance. The evaluation of variable importance differs between GRU and the ridge logit model, as reflected in their unequal variable orders determined by the SHAP values. These different weight assignments can be attributed to GRUs flexibility and capability to capture the business cycle asymmetries and nonlinearities. The SHAP method delivers some key recession indicators. For forecasting up to 3 months, the stock price index, real GDP, and private residential fixed investment show great short-term predictability, while for longer-term forecasting up to 12 months, the term spread and the producer price index have strong explanatory power for recessions. These findings are robust against other interpretation methods such as the local interpretable model-agnostic explanations (LIME) for GRU and the marginal effects for the ridge logit model.
翻訳日:2024-03-20 03:12:40 公開日:2024-03-16
# 動的不変データ拡張によるモデルフリー強化学習更新の理解

Understanding when Dynamics-Invariant Data Augmentations Benefit Model-Free Reinforcement Learning Updates ( http://arxiv.org/abs/2310.17786v2 )

ライセンス: Link先を確認
Nicholas E. Corrado, Josiah P. Hanna, (参考訳) 近年,強化学習(RL)タスクにおいて,ドメイン知識を活用する手法としてデータ拡張(DA)が登場し,データ効率が大幅に向上することも多い。 従来の研究は、拡張データをモデルフリーなRL更新に直接組み込むことの有用性を実証してきたが、特定のDA戦略がデータ効率を向上するかどうかについてはよく理解されていない。 本稿では,観察的学習改善に寄与するDAの一般的な側面を明らかにすることを目的とする。 本研究では,動的不変なデータ拡張機能を備えたスパース・リワードタスクに着目し,DAのより一般的な理解とRLトレーニングへの統合に向けた最初のステップとして機能する。 実験により, DAの3つの関連する側面として, 状態-行動カバレッジ, 報酬密度, 更新毎に発生する拡張遷移数(再生率の増大)を分離した。 実験の結果,1) 報酬密度の増加よりも, 状態-行動カバレッジの増大がデータ効率に与える影響が大きいこと,2) 追加再生率の低下がデータ効率を大幅に改善すること,の2つの結論が得られた。 実際、実験的な研究における特定のタスクは、リプレイ比率が十分に低い場合にのみ解決可能である。

Recently, data augmentation (DA) has emerged as a method for leveraging domain knowledge to inexpensively generate additional data in reinforcement learning (RL) tasks, often yielding substantial improvements in data efficiency. While prior work has demonstrated the utility of incorporating augmented data directly into model-free RL updates, it is not well-understood when a particular DA strategy will improve data efficiency. In this paper, we seek to identify general aspects of DA responsible for observed learning improvements. Our study focuses on sparse-reward tasks with dynamics-invariant data augmentation functions, serving as an initial step towards a more general understanding of DA and its integration into RL training. Experimentally, we isolate three relevant aspects of DA: state-action coverage, reward density, and the number of augmented transitions generated per update (the augmented replay ratio). From our experiments, we draw two conclusions: (1) increasing state-action coverage often has a much greater impact on data efficiency than increasing reward density, and (2) decreasing the augmented replay ratio substantially improves data efficiency. In fact, certain tasks in our empirical study are solvable only when the replay ratio is sufficiently low.
翻訳日:2024-03-20 03:12:40 公開日:2024-03-16
# オフライン強化学習と模倣学習のためのガイド付きデータ強化

Guided Data Augmentation for Offline Reinforcement Learning and Imitation Learning ( http://arxiv.org/abs/2310.18247v2 )

ライセンス: Link先を確認
Nicholas E. Corrado, Yuxiao Qu, John U. Balis, Adam Labiosa, Josiah P. Hanna, (参考訳) オフライン強化学習(RL)では、RLエージェントは、以前に収集したデータの固定データセットのみを使用してタスクを解決することを学習する。 オフラインのRLは、現実世界のロボット制御ポリシーを学ぶのに成功しているが、通常は、アウト・オブ・ディストリビューション状態に一般化する効果的なポリシーを学ぶために、大量の専門家品質のデータを必要とする。 残念ながら、そのようなデータは多くの場合、現実世界のタスクで取得するのが困難で費用がかかる。 近年のいくつかの研究は、データ拡張(DA)を利用して、データの追加を安価に生成しているが、ほとんどのDA研究はランダムな方法で拡張を適用し、最終的に非常に最適な拡張体験を生み出している。 本研究では,有能な拡張データを生成する人間誘導型DAフレームワークであるGuDA(Guid Data Augmentation)を提案する。 GuDAの背後にある重要な洞察は、専門家データを生成するのに必要なアクションのシーケンスを示すのは難しいかもしれないが、拡張軌跡セグメントがタスク完了に向けた進捗を表す場合、ユーザーは容易に特徴付けることができるということである。 これにより、ユーザは、拡張可能な空間を制限して、最適でない拡張データを自動的に拒否することができる。 GuDAからポリシーを抽出するために、オフザシェルフのオフライン強化学習と行動クローニングアルゴリズムを用いる。 我々は,物理ロボットサッカーの課題とシミュレーションD4RLナビゲーションタスク,シミュレーション自律運転タスク,シミュレーションサッカータスクについてGuDAを評価する。 経験的に、GuDAは、潜在的に最適でない経験の小さな初期データセットを与えられた場合の学習を可能にし、ランダムなDA戦略とモデルベースのDA戦略を上回ります。

In offline reinforcement learning (RL), an RL agent learns to solve a task using only a fixed dataset of previously collected data. While offline RL has been successful in learning real-world robot control policies, it typically requires large amounts of expert-quality data to learn effective policies that generalize to out-of-distribution states. Unfortunately, such data is often difficult and expensive to acquire in real-world tasks. Several recent works have leveraged data augmentation (DA) to inexpensively generate additional data, but most DA works apply augmentations in a random fashion and ultimately produce highly suboptimal augmented experience. In this work, we propose Guided Data Augmentation (GuDA), a human-guided DA framework that generates expert-quality augmented data. The key insight behind GuDA is that while it may be difficult to demonstrate the sequence of actions required to produce expert data, a user can often easily characterize when an augmented trajectory segment represents progress toward task completion. Thus, a user can restrict the space of possible augmentations to automatically reject suboptimal augmented data. To extract a policy from GuDA, we use off-the-shelf offline reinforcement learning and behavior cloning algorithms. We evaluate GuDA on a physical robot soccer task as well as simulated D4RL navigation tasks, a simulated autonomous driving task, and a simulated soccer task. Empirically, GuDA enables learning given a small initial dataset of potentially suboptimal experience and outperforms a random DA strategy as well as a model-based DA strategy.
翻訳日:2024-03-20 03:12:40 公開日:2024-03-16
# タンパク質-タンパク質相互作用の高度化による設計の学習

Learning to design protein-protein interactions with enhanced generalization ( http://arxiv.org/abs/2310.18515v3 )

ライセンス: Link先を確認
Anton Bushuiev, Roman Bushuiev, Petr Kouba, Anatolii Filkin, Marketa Gabrielova, Michal Gabriel, Jiri Sedlar, Tomas Pluskal, Jiri Damborsky, Stanislav Mazurenko, Josef Sivic, (参考訳) タンパク質-タンパク質相互作用(PPI)を増強する変異の発見は、生物医学研究の進展と改善された治療法の開発に重要である。 機械学習のアプローチは分野をかなり進歩させてきたが、実践的なシナリオにおけるトレーニングデータ以上の一般化に苦慮することが多い。 この作品の貢献は3倍である。 まず,3次元タンパク質-タンパク質相互作用の最大かつ非冗長なデータセットであるPPIRefを構築し,大規模学習を効果的に行う。 第2に、PPIRefデータセットをプリトレーニングPPIformerに利用し、多種多様なタンパク質結合変異を一般化する新しいSE(3)-equivariantモデルを提案する。 我々はPPIフォーマを微調整し,タンパク質とタンパク質の相互作用に対する変異の影響を予測する。 最後に,SARS-CoV-2に対するヒト抗体を最適化し,スタフィロキナーゼの血栓溶解活性を増大させることにより,新しいPPIフォーマーアプローチのさらなる一般化を実証した。

Discovering mutations enhancing protein-protein interactions (PPIs) is critical for advancing biomedical research and developing improved therapeutics. While machine learning approaches have substantially advanced the field, they often struggle to generalize beyond training data in practical scenarios. The contributions of this work are three-fold. First, we construct PPIRef, the largest and non-redundant dataset of 3D protein-protein interactions, enabling effective large-scale learning. Second, we leverage the PPIRef dataset to pre-train PPIformer, a new SE(3)-equivariant model generalizing across diverse protein-binder variants. We fine-tune PPIformer to predict effects of mutations on protein-protein interactions via a thermodynamically motivated adjustment of the pre-training loss function. Finally, we demonstrate the enhanced generalization of our new PPIformer approach by outperforming other state-of-the-art methods on new, non-leaking splits of standard labeled PPI mutational data and independent case studies optimizing a human antibody against SARS-CoV-2 and increasing the thrombolytic activity of staphylokinase.
翻訳日:2024-03-20 03:12:40 公開日:2024-03-16
# キャビティマグノメカニクス:古典から量子へ

Cavity magnomechanics: from classical to quantum ( http://arxiv.org/abs/2310.19237v3 )

ライセンス: Link先を確認
Xuan Zuo, Zhi-Yuan Fan, Hang Qian, Ming-Song Ding, Huatang Tan, Hao Xiong, Jie Li, (参考訳) 磁気材料中のマグノンに基づくハイブリッド量子システムは、過去10年間で大きな進歩を遂げた。 これらは、マイクロ波光子、光子、振動フォノン、超伝導量子ビットとマグノンの結合に基づいて構築されている。 特に、マグノン、マイクロ波キャビティ光子、振動フォノン間の相互作用はキャビティ・マグノメカニクス(CMM)の系を形成し、キャビティQED、マグノニクス、量子光学、量子情報の各分野にまたがる。 ここでは、この新興分野の実験的、理論的進歩について概観する。 まず, マグノメカニカルカップリングの基礎となる理論を紹介し, マグノメカニカルな透過性, マグノメカニカルな動的バックアクション, マグノン-フォノンのクロスカー非線形性など, 実験的に観測されたいくつかの代表的な古典現象について紹介する。 また、マグノン、フォノン、光子の異なる種類の量子状態を作成するためのCMMシステムの可能性を示す理論的な提案や、それに基づくマグノメカニクス、光力学、関連する量子プロトコルを組み合わせたハイブリッドシステムについても論じる。 最後に、このレビューを要約し、この分野での今後の研究の方向性を概観する。

Hybrid quantum systems based on magnons in magnetic materials have made significant progress in the past decade. They are built based on the couplings of magnons with microwave photons, optical photons, vibration phonons, and superconducting qubits. In particular, the interactions among magnons, microwave cavity photons, and vibration phonons form the system of cavity magnomechanics (CMM), which lies in the interdisciplinary field of cavity QED, magnonics, quantum optics, and quantum information. Here, we review the experimental and theoretical progress of this emerging field. We first introduce the underlying theories of the magnomechanical coupling, and then some representative classical phenomena that have been experimentally observed, including magnomechanically induced transparency, magnomechanical dynamical backaction, magnon-phonon cross-Kerr nonlinearity, etc. We also discuss a number of theoretical proposals, which show the potential of the CMM system for preparing different kinds of quantum states of magnons, phonons, and photons, and hybrid systems combining magnomechanics and optomechanics and relevant quantum protocols based on them. Finally, we summarize this review and provide an outlook for the future research directions in this field.
翻訳日:2024-03-20 03:12:40 公開日:2024-03-16
# REBAR:時系列コントラスト学習のための検索ベース再構築

REBAR: Retrieval-Based Reconstruction for Time-series Contrastive Learning ( http://arxiv.org/abs/2311.00519v3 )

ライセンス: Link先を確認
Maxwell A. Xu, Alexander Moreno, Hui Wei, Benjamin M. Marlin, James M. Rehg, (参考訳) 自己教師付きコントラスト学習ヒンジの成功は、正のデータペアを識別することであり、埋め込み空間にまとめられると、この空間は後続の下流タスクに有用な情報をエンコードする。 肯定的なペアを構築することは自明ではない。ペアリングは共有の意味を反映するほどに類似している必要があるが、クラス内での変動を捉えるのに十分異なる。 視覚における古典的なアプローチは、確立された不変性を利用して正の対を構成するが、時系列領域における不変性は明らかにはならない。 本研究では,正の対を同定するための学習尺度を用いた新しい手法を提案する。 我々のRetrieval-Based Reconstruction (REBAR) は、2つのシーケンス間の類似度を、一方のシーケンスを他方から取得した情報で再構成した結果の再構成誤差として測定する。 そして、2つの配列がREBARの類似度が高い場合、正のペアとしてラベル付けする。 検証実験により,REBAR誤差は相互クラスメンバシップの予測子であることを示す。 コントラスト学習フレームワークに統合されると、REBARメソッドは様々なモードで下流タスクにおける最先端のパフォーマンスを実現する埋め込みを学習する。

The success of self-supervised contrastive learning hinges on identifying positive data pairs, such that when they are pushed together in embedding space, the space encodes useful information for subsequent downstream tasks. Constructing positive pairs is non-trivial as the pairing must be similar enough to reflect a shared semantic meaning, but different enough to capture within-class variation. Classical approaches in vision use augmentations to exploit well-established invariances to construct positive pairs, but invariances in the time-series domain are much less obvious. In our work, we propose a novel method of using a learned measure for identifying positive pairs. Our Retrieval-Based Reconstruction (REBAR) measure measures the similarity between two sequences as the reconstruction error that results from reconstructing one sequence with retrieved information from the other. Then, if the two sequences have high REBAR similarity, we label them as a positive pair. Through validation experiments, we show that the REBAR error is a predictor of mutual class membership. Once integrated into a contrastive learning framework, our REBAR method learns an embedding that achieves state-of-the-art performance on downstream tasks across various modalities.
翻訳日:2024-03-20 03:12:40 公開日:2024-03-16
# IMPUS:拡散モデルを用いた知覚的一様サンプリングによる画像モーフィング

IMPUS: Image Morphing with Perceptually-Uniform Sampling Using Diffusion Models ( http://arxiv.org/abs/2311.06792v2 )

ライセンス: Link先を確認
Zhaoyuan Yang, Zhengyang Yu, Zhiwei Xu, Jaskirat Singh, Jing Zhang, Dylan Campbell, Peter Tu, Richard Hartley, (参考訳) 画像ペアが与えられたスムーズで直接的かつ現実的な補間を生成するIMPUS(Perceptually-uniform sample)を用いた拡散型画像モーフィング手法を提案する。 2つの画像の埋め込みは、特に有意な意味差がある場合、潜伏拡散モデルの異なる条件付き分布に依存する可能性がある。 このギャップを埋めるために、局所線型かつ連続的なテキスト埋め込み空間とガウス潜在空間を補間する。 まず、まずエンドポイントテキストの埋め込みを最適化し、次に確率フローODEを用いてイメージを潜在空間にマッピングする。 間接的なモーフィングパスを取る既存の作業とは異なり、モデル適応は直接パスを生成し、補間された画像のゴーストアーティファクトを抑制する。 そこで本研究では,新たな相対的知覚経路の多様性スコアに基づくヒューリスティックなボトルネック制約を提案する。 また、補間画像間の視覚的スムーズな変化を可能にする知覚一様サンプリング手法を提案する。 広範囲な実験により、IMPUSはスムーズで、直接的で、現実的な画像形態を達成でき、他のいくつかの生成タスクに適応可能であることが検証された。

We present a diffusion-based image morphing approach with perceptually-uniform sampling (IMPUS) that produces smooth, direct and realistic interpolations given an image pair. The embeddings of two images may lie on distinct conditioned distributions of a latent diffusion model, especially when they have significant semantic difference. To bridge this gap, we interpolate in the locally linear and continuous text embedding space and Gaussian latent space. We first optimize the endpoint text embeddings and then map the images to the latent space using a probability flow ODE. Unlike existing work that takes an indirect morphing path, we show that the model adaptation yields a direct path and suppresses ghosting artifacts in the interpolated images. To achieve this, we propose a heuristic bottleneck constraint based on a novel relative perceptual path diversity score that automatically controls the bottleneck size and balances the diversity along the path with its directness. We also propose a perceptually-uniform sampling technique that enables visually smooth changes between the interpolated images. Extensive experiments validate that our IMPUS can achieve smooth, direct, and realistic image morphing and is adaptable to several other generative tasks.
翻訳日:2024-03-20 03:02:46 公開日:2024-03-16
# LLMにおける知識グラフは幻覚を抑制するか? : サーベイ

Can Knowledge Graphs Reduce Hallucinations in LLMs? : A Survey ( http://arxiv.org/abs/2311.07914v2 )

ライセンス: Link先を確認
Garima Agrawal, Tharindu Kumarage, Zeyad Alghamdi, Huan Liu, (参考訳) 現代のLSMは幻覚を引き起こす傾向があり、主にモデル内の知識ギャップから生じる。 この限界に対処するために、研究者は、幻覚を減らし、推論精度を高めることを目的として、外部知識を取り入れてLCMを増強する様々な戦略を採用している。 これらの戦略の中で、知識グラフを外部情報源として活用することは、有望な結果を示してきた。 本研究では,LLMにおけるこれらの知識グラフに基づく増補手法を総合的に検討し,幻覚の緩和効果に着目した。 我々は,これらの手法を3つの集団に分類し,方法論的比較と性能評価を行った。 最後に,これらの技術の動向と課題について考察し,今後の研究の道筋について概説する。

The contemporary LLMs are prone to producing hallucinations, stemming mainly from the knowledge gaps within the models. To address this critical limitation, researchers employ diverse strategies to augment the LLMs by incorporating external knowledge, aiming to reduce hallucinations and enhance reasoning accuracy. Among these strategies, leveraging knowledge graphs as a source of external information has demonstrated promising results. In this survey, we comprehensively review these knowledge-graph-based augmentation techniques in LLMs, focusing on their efficacy in mitigating hallucinations. We systematically categorize these methods into three overarching groups, offering methodological comparisons and performance evaluations. Lastly, this survey explores the current trends and challenges associated with these techniques and outlines potential avenues for future research in this emerging field.
翻訳日:2024-03-20 03:02:46 公開日:2024-03-16
# 複数インスタンス学習による逐次的時系列分類

Inherently Interpretable Time Series Classification via Multiple Instance Learning ( http://arxiv.org/abs/2311.10049v3 )

ライセンス: Link先を確認
Joseph Early, Gavin KC Cheung, Kurt Cutajar, Hanting Xie, Jas Kandola, Niall Twomey, (参考訳) 伝統的な時系列分類法(TSC)は、しばしばブラックボックスであり、意思決定プロセスの固有の解釈を曖昧にしている。 本研究では、この問題を解決するためにMIL(Multiple Instance Learning)を活用し、MILLET: Multiple Instance Learning for Locally Explainable Time Series Classificationという新しいフレームワークを提案する。 我々はMILLETを既存のディープラーニングTSCモデルに適用し、予測性能を損なうことなく(場合によっては改善しても)本質的に解釈可能であることを示す。 85 UCR TSCデータセット上でMILLETを評価し,解釈可能性評価を容易にするために特別に設計された新しい合成データセットを提案する。 これらのデータセットにおいて、MILLETは、他のよく知られた解釈可能性法よりも高い品質のスパース説明を迅速に生成することを示した。 私たちの知る限り、GitHubで入手可能なMILLET(https://github.com/JAEarly/MILTimeSeriesClassification)は、TSCのための一般的なMILメソッドを開発し、それらを広範囲のドメインに適用する最初の方法です。

Conventional Time Series Classification (TSC) methods are often black boxes that obscure inherent interpretation of their decision-making processes. In this work, we leverage Multiple Instance Learning (MIL) to overcome this issue, and propose a new framework called MILLET: Multiple Instance Learning for Locally Explainable Time series classification. We apply MILLET to existing deep learning TSC models and show how they become inherently interpretable without compromising (and in some cases, even improving) predictive performance. We evaluate MILLET on 85 UCR TSC datasets and also present a novel synthetic dataset that is specially designed to facilitate interpretability evaluation. On these datasets, we show MILLET produces sparse explanations quickly that are of higher quality than other well-known interpretability methods. To the best of our knowledge, our work with MILLET, which is available on GitHub (https://github.com/JAEarly/MILTimeSeriesClassification), is the first to develop general MIL methods for TSC and apply them to an extensive variety of domains
翻訳日:2024-03-20 03:02:46 公開日:2024-03-16
# ループ変換器は学習アルゴリズムに優れている

Looped Transformers are Better at Learning Learning Algorithms ( http://arxiv.org/abs/2311.12424v3 )

ライセンス: Link先を確認
Liu Yang, Kangwook Lee, Robert Nowak, Dimitris Papailiopoulos, (参考訳) トランスフォーマーは、Gargらによって報告されているように、様々な(ラテント)モデルからデータ適合性問題をインコンテキストで解決する効果を実証してきたが、トランスフォーマーアーキテクチャに固有の反復構造が存在しないことは、従来の機械学習手法でよく使われている反復アルゴリズムをエミュレートする上での課題である。 そこで本稿では, 繰り返し特性を変換器アーキテクチャに組み込むことを目的として, ループ変換器アーキテクチャとその学習手法の活用を提案する。 実験結果から、ループ変換器は、パラメータ数の10%未満を生かしながら、様々なデータ適合問題の解法において、標準変圧器に匹敵する性能を達成することが示唆された。

Transformers have demonstrated effectiveness in in-context solving data-fitting problems from various (latent) models, as reported by Garg et al. However, the absence of an inherent iterative structure in the transformer architecture presents a challenge in emulating the iterative algorithms, which are commonly employed in traditional machine learning methods. To address this, we propose the utilization of looped transformer architecture and its associated training methodology, with the aim of incorporating iterative characteristics into the transformer architectures. Experimental results suggest that the looped transformer achieves performance comparable to the standard transformer in solving various data-fitting problems, while utilizing less than 10% of the parameter count.
翻訳日:2024-03-20 03:02:46 公開日:2024-03-16
# 量子力学活性の厳密な解法

Exact solution to quantum dynamical activity ( http://arxiv.org/abs/2311.12627v2 )

ライセンス: Link先を確認
Tomohiro Nishiyama, Yoshihiko Hasegawa, (参考訳) 量子力学活性は、量子速度制限や量子熱力学的不確実性関係のようなトレードオフ関係における熱力学的コストを構成する。 しかし、量子力学の活性を計算することは困難である。 本稿では,連続行列積状態法の展開による量子力学の正確な解を提案する。 さらに、導出された正確な解を用いて、ハミルトニアンおよびジャンプ作用素の標準偏差を含む力学活性の上限を決定する。 数値シミュレーションにより,正確な解と上限を確認した。

The quantum dynamical activity constitutes a thermodynamic cost in trade-off relations such as the quantum speed limit and the quantum thermodynamic uncertainty relation. However, calculating the quantum dynamical activity has been a challenge. In this paper, we present the exact solution for the quantum dynamical activity by deploying the continuous matrix product state method. Moreover, using the derived exact solution, we determine the upper bound of the dynamical activity, which comprises the standard deviation of the system Hamiltonian and jump operators. We confirm the exact solution and the upper bound by performing numerical simulations.
翻訳日:2024-03-20 03:02:46 公開日:2024-03-16
# Adaptive Calibration:スパイキングニューラルネットワークの統一変換フレームワーク

Adaptive Calibration: A Unified Conversion Framework of Spiking Neural Networks ( http://arxiv.org/abs/2311.14265v2 )

ライセンス: Link先を確認
Ziqing Wang, Yuetong Fang, Jiahang Cao, Renjing Xu, (参考訳) スパイキングニューラルネットワーク(SNN)は、従来のニューラルネットワーク(ANN)に代わる有望なエネルギー効率の代替として登場した。 それにもかかわらず、実際のシナリオでANNのパフォーマンスギャップを埋めることは、依然として大きな課題である。 本稿では,確立したSNNキャリブレーション変換フレームワークを通じて,SNNの性能向上と効率向上という2つの目的に対処することに焦点を当てる。 生体神経系にインスパイアされた新しいアダプティブ・フィリングニューロンモデル(AdaFire)を提案する。 さらに,本研究の効率向上のために,感性スパイク圧縮(SSC)技術と適応時間ステップ(IAT)技術という2つの新しい手法を提案する。 これらの技術は変換過程におけるエネルギー消費と遅延の両方を相乗的に低減し、SNNの全体的な効率を向上させる。 提案手法は,2D,3D,イベント駆動型分類において優れた性能と効率性を示すとともに,オブジェクト検出やセグメンテーションタスクよりも優れていることを示す。

Spiking Neural Networks (SNNs) have emerged as a promising energy-efficient alternative to traditional Artificial Neural Networks (ANNs). Despite this, bridging the performance gap with ANNs in practical scenarios remains a significant challenge. This paper focuses on addressing the dual objectives of enhancing the performance and efficiency of SNNs through the established SNN Calibration conversion framework. Inspired by the biological nervous system, we propose a novel Adaptive-Firing Neuron Model (AdaFire) that dynamically adjusts firing patterns across different layers, substantially reducing conversion errors within limited timesteps. Moreover, to meet our efficiency objectives, we propose two novel strategies: an Sensitivity Spike Compression (SSC) technique and an Input-aware Adaptive Timesteps (IAT) technique. These techniques synergistically reduce both energy consumption and latency during the conversion process, thereby enhancing the overall efficiency of SNNs. Extensive experiments demonstrate our approach outperforms state-of-the-art SNNs methods, showcasing superior performance and efficiency in 2D, 3D, and event-driven classification, as well as object detection and segmentation tasks.
翻訳日:2024-03-20 03:02:46 公開日:2024-03-16
# シンフォニー: 同種の点中心球高調波による分子生成

Symphony: Symmetry-Equivariant Point-Centered Spherical Harmonics for Molecule Generation ( http://arxiv.org/abs/2311.16199v2 )

ライセンス: Link先を確認
Ameya Daigavane, Song Kim, Mario Geiger, Tess Smidt, (参考訳) 分子断片から分子を反復的に生成する3次元分子ジオメトリーのための,$E(3)$-equivariantの自己回帰生成モデルであるSymphonyを提案する。 分子に対するG-SchNetやG-SphereNetのような既存の自己回帰モデルでは、分子の3次元対称性を尊重するために回転不変の特徴を利用する。 対照的に、Symphonyは高次の$E(3)$-equivariant機能を持つメッセージパッシングを使用する。 これにより、球面調和信号による確率分布の新たな表現が可能となり、分子の3次元幾何学を効率的にモデル化することができる。 我々は,SymphonyがQM9データセットから精度よく小さな分子を生成できることを示し,既存の自己回帰モデルより優れ,拡散モデルの性能に近づいていることを示す。

We present Symphony, an $E(3)$-equivariant autoregressive generative model for 3D molecular geometries that iteratively builds a molecule from molecular fragments. Existing autoregressive models such as G-SchNet and G-SphereNet for molecules utilize rotationally invariant features to respect the 3D symmetries of molecules. In contrast, Symphony uses message-passing with higher-degree $E(3)$-equivariant features. This allows a novel representation of probability distributions via spherical harmonic signals to efficiently model the 3D geometry of molecules. We show that Symphony is able to accurately generate small molecules from the QM9 dataset, outperforming existing autoregressive models and approaching the performance of diffusion models.
翻訳日:2024-03-20 02:52:49 公開日:2024-03-16
# より統一されたコンテキスト内ビジュアル理解を目指して

Towards More Unified In-context Visual Understanding ( http://arxiv.org/abs/2312.02520v2 )

ライセンス: Link先を確認
Dianmo Sheng, Dongdong Chen, Zhentao Tan, Qiankun Liu, Qi Chu, Jianmin Bao, Tao Gong, Bin Liu, Shengwei Xu, Nenghai Yu, (参考訳) 大規模言語モデル(LLM)の急速な進歩は、自然言語処理領域における最先端のアプローチとして、文脈内学習(ICL)の出現を加速させた。 近年、ICLはセマンティックセグメンテーションや画像キャプションといった視覚的理解タスクに採用され、有望な結果が得られている。 しかし、既存のビジュアルICLフレームワークでは、複数のモダリティにまたがるコンテンツの生成が不可能であるため、潜在的な使用シナリオが制限される。 この問題に対処するために,マルチモーダル出力を有効にした視覚的理解のための新しいICLフレームワークを提案する。 まず、テキストと視覚的プロンプトの両方を、インターリーブされたインコンテキストシーケンスとして構造化された統一表現空間に量子化し、埋め込む。 次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行い、コンテキスト内学習を容易にする。 この設計により、統合パイプラインにおけるマルチモーダル出力によるコンテキスト内視覚理解タスクの処理が可能となり、実験結果により、我々のモデルは、特殊モデルや以前のICLベースラインと比較して、競争性能が向上することが示された。 全体として、本研究はマルチモーダル・イン・コンテクスト学習へのさらなる一歩を踏み出した。

The rapid advancement of large language models (LLMs) has accelerated the emergence of in-context learning (ICL) as a cutting-edge approach in the natural language processing domain. Recently, ICL has been employed in visual understanding tasks, such as semantic segmentation and image captioning, yielding promising results. However, existing visual ICL framework can not enable producing content across multiple modalities, which limits their potential usage scenarios. To address this issue, we present a new ICL framework for visual understanding with multi-modal output enabled. First, we quantize and embed both text and visual prompt into a unified representational space, structured as interleaved in-context sequences. Then a decoder-only sparse transformer architecture is employed to perform generative modeling on them, facilitating in-context learning. Thanks to this design, the model is capable of handling in-context vision understanding tasks with multimodal output in a unified pipeline.Experimental results demonstrate that our model achieves competitive performance compared with specialized models and previous ICL baselines. Overall, our research takes a further step toward unified multimodal in-context learning.
翻訳日:2024-03-20 02:52:49 公開日:2024-03-16
# Explore, Select, Derive, and Recall: モバイルタスク自動化のためのヒューマンライクなメモリによるLLMの拡張

Explore, Select, Derive, and Recall: Augmenting LLM with Human-like Memory for Mobile Task Automation ( http://arxiv.org/abs/2312.03003v2 )

ライセンス: Link先を確認
Sunjae Lee, Junyoung Choi, Jungjae Lee, Munim Hasan Wasi, Hojun Choi, Steven Y. Ko, Sangeun Oh, Insik Shin, (参考訳) 大規模言語モデル(LLM)の出現により、モバイルタスク自動化の分野で新たな機会が開かれた。 その優れた言語理解と推論能力により、ユーザーは複雑で反復的なタスクを自動化できる。 しかし, LLMの信頼性が低く, 運用コストも高いため, 実用性は非常に限られている。 これらの問題に対処するために,本論文では,人間ライクなアプリメモリを備えた,革新的なLCMベースのモバイルタスクオートマトンであるMobileGPTを紹介する。 MobileGPTは、モバイルアプリと対話する人間の認知プロセスをエミュレートする。 このアプローチは、タスクの手順をより正確かつ効率的な学習を可能にし、それをより小さくモジュール化されたサブタスクに分解し、様々な目的に再使用、再配置、適応することができる。 オンライン LLM サービス (GPT-3.5 および GPT-4) を用いて MobileGPT を実装し,その性能評価を行った。 その結果、MobileGPTは82.5%の精度で新しいタスクの自動化と学習が可能であり、GPT-4のベースラインに比べてレイテンシとコストを62.5%、コストを68.8%削減しながら、ほぼ完全(98.75%)の精度で異なるコンテキストに適応できることがわかった。

The advent of large language models (LLMs) has opened up new opportunities in the field of mobile task automation. Their superior language understanding and reasoning capabilities allow users to automate complex and repetitive tasks. However, due to the inherent unreliability and high operational cost of LLMs, their practical applicability is quite limited. To address these issues, this paper introduces MobileGPT, an innovative LLM-based mobile task automator equipped with a human-like app memory. MobileGPT emulates the cognitive process of humans interacting with a mobile app -- explore, select, derive, and recall. This approach allows for a more precise and efficient learning of a task's procedure by breaking it down into smaller, modular sub-tasks that can be re-used, re-arranged, and adapted for various objectives. We implement MobileGPT using online LLMs services (GPT-3.5 and GPT-4) and evaluate its performance on a dataset of 160 user instructions across 8 widely used mobile apps. The results indicate that MobileGPT can automate and learn new tasks with 82.5% accuracy, and is able to adapt them to different contexts with near perfect (98.75%) accuracy while reducing both latency and cost by 62.5% and 68.8%, respectively, compared to the GPT-4 powered baseline.
翻訳日:2024-03-20 02:52:49 公開日:2024-03-16
# ソフトMAC:予測型接触モデルと人工剛体と衣服の双方向結合による異種軟体シミュレーション

SoftMAC: Differentiable Soft Body Simulation with Forecast-based Contact Model and Two-way Coupling with Articulated Rigid Bodies and Clothes ( http://arxiv.org/abs/2312.03297v2 )

ライセンス: Link先を確認
Min Liu, Gang Yang, Siyuan Luo, Lin Shao, (参考訳) 微分物理学シミュレーションは、勾配に基づく最適化を通じて、これまで難解だった課題に対処する方法を提供し、それによってロボット関連問題の解法効率を大幅に改善する。 多様なロボット操作シナリオに微分可能シミュレーションを適用するためには、様々な材料を統一されたフレームワークに統合することが課題である。 我々は,柔らかい体と硬い体と衣服を結合する,微分可能なシミュレーションフレームワークであるSoftMACを提案する。 ソフトMACは、連続力学に基づくマテリアルポイント法(MPM)で軟体をシミュレートする。 非自然的リバウンドのような他のアーティファクトを導入することなく、侵入を効果的に抑制できる新しい予測ベースのMPM接触モデルを提供する。 変形性および非体積性の衣服メッシュとMPM粒子を結合するために,局所領域の符号付き距離場を再構成する浸透追跡アルゴリズムを提案する。 以前の研究と異なり、SoftMACは各モードの完全なダイナミクスをシミュレートし、明示的で微分可能なカップリング機構を持つ凝集系にそれらを組み込む。 この機能はSoftMACに、マニピュレータとして機能するソフトボディや不動システムなど、幅広い相互作用のスペクトルを扱う権限を与える。 下流ロボット操作アプリケーションにおいて,提案した差別化可能なパイプラインの有効性と精度を検証するための総合的な実験を行った。 追加資料とビデオはプロジェクトのWebサイトでhttps://sites.google.com/view/softmac.comで公開されている。

Differentiable physics simulation provides an avenue to tackle previously intractable challenges through gradient-based optimization, thereby greatly improving the efficiency of solving robotics-related problems. To apply differentiable simulation in diverse robotic manipulation scenarios, a key challenge is to integrate various materials in a unified framework. We present SoftMAC, a differentiable simulation framework that couples soft bodies with articulated rigid bodies and clothes. SoftMAC simulates soft bodies with the continuum-mechanics-based Material Point Method (MPM). We provide a novel forecast-based contact model for MPM, which effectively reduces penetration without introducing other artifacts like unnatural rebound. To couple MPM particles with deformable and non-volumetric clothes meshes, we also propose a penetration tracing algorithm that reconstructs the signed distance field in local area. Diverging from previous works, SoftMAC simulates the complete dynamics of each modality and incorporates them into a cohesive system with an explicit and differentiable coupling mechanism. The feature empowers SoftMAC to handle a broader spectrum of interactions, such as soft bodies serving as manipulators and engaging with underactuated systems. We conducted comprehensive experiments to validate the effectiveness and accuracy of the proposed differentiable pipeline in downstream robotic manipulation applications. Supplementary materials and videos are available on our project website at https://sites.google.com/view/softmac.
翻訳日:2024-03-20 02:52:49 公開日:2024-03-16
# スペイン語における効率的な質問応答のための言語モデル知識蒸留法

Language Model Knowledge Distillation for Efficient Question Answering in Spanish ( http://arxiv.org/abs/2312.04193v2 )

ライセンス: Link先を確認
Adrián Bazaga, Pietro Liò, Gos Micklem, (参考訳) 事前訓練されたスペイン語モデルの開発における最近の進歩は、質問応答など多くの自然言語処理(NLP)タスクにおいて大きな進歩をもたらしている。 しかし、効率的なモデルがないことは、リソース制約のある環境でそのようなモデルを採用する上で障壁となる。 したがって、スペイン語のより小さな蒸留モデルは高度にスケーラブルであることが証明され、様々なタスクやシナリオでさらなる採用が促進された。 本研究では,RoBERTa をベースとした圧縮言語モデルである SpanishTinyRoBERTa を開発した。 これを実現するために,我々は,大規模モデルから軽量モデルへの知識蒸留を採用し,計算資源が限られている分野においてもより広範な実装が可能でありながら,性能の犠牲を負うことがない。 実験の結果, 濃縮蒸留モデルでは, 精度は高いが, 推算速度は著しく向上することがわかった。 この研究は、様々なNLPタスクにわたるスペイン語モデルのためのモデル圧縮のさらなる研究と研究の出発点となる。

Recent advances in the development of pre-trained Spanish language models has led to significant progress in many Natural Language Processing (NLP) tasks, such as question answering. However, the lack of efficient models imposes a barrier for the adoption of such models in resource-constrained environments. Therefore, smaller distilled models for the Spanish language could be proven to be highly scalable and facilitate their further adoption on a variety of tasks and scenarios. In this work, we take one step in this direction by developing SpanishTinyRoBERTa, a compressed language model based on RoBERTa for efficient question answering in Spanish. To achieve this, we employ knowledge distillation from a large model onto a lighter model that allows for a wider implementation, even in areas with limited computational resources, whilst attaining negligible performance sacrifice. Our experiments show that the dense distilled model can still preserve the performance of its larger counterpart, while significantly increasing inference speedup. This work serves as a starting point for further research and investigation of model compression efforts for Spanish language models across various NLP tasks.
翻訳日:2024-03-20 02:42:50 公開日:2024-03-16
# EpiDiff: 局所化エピポーラ制約拡散による多視点合成の促進

EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion ( http://arxiv.org/abs/2312.06725v2 )

ライセンス: Link先を確認
Zehuan Huang, Hao Wen, Junting Dong, Yaohui Wang, Yangguang Li, Xinyuan Chen, Yan-Pei Cao, Ding Liang, Yu Qiao, Bo Dai, Lu Sheng, (参考訳) 単一のビューからマルチビュー画像を生成することにより、単一のイメージ上に条件付けられた3Dメッシュの迅速な生成が容易になる。 拡散モデルに3次元グローバル表現を導入する最近の手法は、一貫性のあるマルチビューを生成する可能性を示しているが、それらは生成速度を減らし、一般化性と品質を維持する上での課題に直面している。 本稿では,局所的対話型多視点拡散モデルであるEpiDiffを提案する。 提案手法の核となるのは,凍結拡散モデルに軽量なエピポーラアテンションブロックを挿入し,エピポーラ制約を活用して隣接するビューの特徴写像間のクロスビュー相互作用を可能にすることである。 新たに初期化された3Dモデリングモジュールは、拡散モデルの本来の特徴分布を保持し、様々なベース拡散モデルとの互換性を示す。 実験の結果、EpiDiffは16枚のマルチビュー画像をわずか12秒で生成し、PSNR、SSIM、LPIPSなどの品質評価指標を上回っている。 さらに、EpiDiffはビューのより多様な分布を生成し、生成されたマルチビューから再構築品質を改善することができる。 プロジェクトページはhttps://huanngzh.github.io/EpiDiff/。

Generating multiview images from a single view facilitates the rapid generation of a 3D mesh conditioned on a single image. Recent methods that introduce 3D global representation into diffusion models have shown the potential to generate consistent multiviews, but they have reduced generation speed and face challenges in maintaining generalizability and quality. To address this issue, we propose EpiDiff, a localized interactive multiview diffusion model. At the core of the proposed approach is to insert a lightweight epipolar attention block into the frozen diffusion model, leveraging epipolar constraints to enable cross-view interaction among feature maps of neighboring views. The newly initialized 3D modeling module preserves the original feature distribution of the diffusion model, exhibiting compatibility with a variety of base diffusion models. Experiments show that EpiDiff generates 16 multiview images in just 12 seconds, and it surpasses previous methods in quality evaluation metrics, including PSNR, SSIM and LPIPS. Additionally, EpiDiff can generate a more diverse distribution of views, improving the reconstruction quality from generated multiviews. Please see our project page at https://huanngzh.github.io/EpiDiff/.
翻訳日:2024-03-20 02:42:50 公開日:2024-03-16
# 信頼できる皮膚病変分類のためのコンフォーマル予測の実証検証

Empirical Validation of Conformal Prediction for Trustworthy Skin Lesions Classification ( http://arxiv.org/abs/2312.07460v2 )

ライセンス: Link先を確認
Jamil Fayyad, Shadi Alijani, Homayoun Najjaran, (参考訳) 背景と目的: 不確実性定量化は信頼性と堅牢性の実現に寄与する重要な分野である。 これは、特にリスクの高いアプリケーションにおいて、補完的な情報を提供することによって、安全な意思決定の強化に役立ちます。 既存の研究は、しばしば特定の仮定の下で機能するか、不確実性を効果的に説明するためにネットワークアーキテクチャに実質的な変更を必要とする様々な手法を探索してきた。 本研究の目的は, 分布のない不確実性定量化手法であるコンフォーマル予測(Conformal Prediction)について検討し, 医療画像分野の様々な手法に固有の利点と限界を包括的に理解することである。 方法:本研究では,深層ニューラルネットワークにおける不確実性定量化を評価するために,コンフォーマル予測,モンテカルロドロップアウト,エビデンシャルディープラーニングアプローチを開発した。 これらの方法の有効性を,色素性皮膚病変および血液型の検出に焦点をあてた3つの医用画像データセットを用いて評価した。 結果: 実験結果から, コンフォーマル予測法を応用した不確実性定量化の顕著な向上が示され, その他の2手法の性能を上回った。 さらに、各不確実性手法の有効性について、ドメインシフトデータセットからのアウト・オブ・ディストリビューション・サンプルの扱いについて考察した。 結論: 結論は、さまざまなテスト条件にまたがる整合予測の堅牢で一貫したパフォーマンスを強調します。 これにより、安全クリティカルなアプリケーションにおいて、意思決定の選択肢として好まれる。

Background and objective: Uncertainty quantification is a pivotal field that contributes to realizing reliable and robust systems. It becomes instrumental in fortifying safe decisions by providing complementary information, particularly within high-risk applications. existing studies have explored various methods that often operate under specific assumptions or necessitate substantial modifications to the network architecture to effectively account for uncertainties. The objective of this paper is to study Conformal Prediction, an emerging distribution-free uncertainty quantification technique, and provide a comprehensive understanding of the advantages and limitations inherent in various methods within the medical imaging field. Methods: In this study, we developed Conformal Prediction, Monte Carlo Dropout, and Evidential Deep Learning approaches to assess uncertainty quantification in deep neural networks. The effectiveness of these methods is evaluated using three public medical imaging datasets focused on detecting pigmented skin lesions and blood cell types. Results: The experimental results demonstrate a significant enhancement in uncertainty quantification with the utilization of the Conformal Prediction method, surpassing the performance of the other two methods. Furthermore, the results present insights into the effectiveness of each uncertainty method in handling Out-of-Distribution samples from domain-shifted datasets. Our code is available at: Conclusions: Our conclusion highlights a robust and consistent performance of conformal prediction across diverse testing conditions. This positions it as the preferred choice for decision-making in safety-critical applications.
翻訳日:2024-03-20 02:42:50 公開日:2024-03-16
# 心理学的応用におけるLCMのフロンティアを探る : 総合的なレビュー

Exploring the Frontiers of LLMs in Psychological Applications: A Comprehensive Review ( http://arxiv.org/abs/2401.01519v3 )

ライセンス: Link先を確認
Luoma Ke, Song Tong, Peng Cheng, Kaiping Peng, (参考訳) 本稿では,心理学応用における大規模言語モデル(LLM)のフロンティアについて考察する。 心理学はいくつかの理論的変化を経験しており、現在の人工知能(AI)と機械学習(特にLLM)の使用は、新しい研究の方向性を開くことを約束している。 本稿では,ChatGPT などの LLM が心理的研究をどのように変化させているのかを詳細に調査する。 認知・行動学、臨床・カウンセリング、教育・発達学、社会的・文化的心理学など、心理学の様々な分野におけるLLMの影響について論じ、人間の認知と行動の側面をシミュレートする可能性を強調した。 この論文は、文学レビュー、仮説生成、実験的デザイン、実験的主題、データ分析、学術的執筆、心理学におけるピアレビューのための革新的なツールを提供する、人間のようなテキスト生成をエミュレートするこれらのモデルの能力について論じている。 LLMは心理学における研究方法論の進歩に不可欠であるが、この論文は彼らの技術的・倫理的課題にも注意を払っている。 データプライバシ、心理的研究にLLMを使うことの倫理的意味、モデルの制限をより深く理解する必要がある、といった問題があります。 研究者は、倫理基準に固執し、これらの技術をセンシティブな領域に展開する可能性を考慮して、心理的研究にLCMを責任を持って使用するべきである。 この記事では、心理学におけるLLMの現状を概観し、潜在的なメリットと課題を探求する。 これは、研究者がLSMの利点を責任を持って活用し、関連するリスクに対処するための行動である。

This paper explores the frontiers of large language models (LLMs) in psychology applications. Psychology has undergone several theoretical changes, and the current use of Artificial Intelligence (AI) and Machine Learning, particularly LLMs, promises to open up new research directions. We provide a detailed exploration of how LLMs like ChatGPT are transforming psychological research. It discusses the impact of LLMs across various branches of psychology, including cognitive and behavioral, clinical and counseling, educational and developmental, and social and cultural psychology, highlighting their potential to simulate aspects of human cognition and behavior. The paper delves into the capabilities of these models to emulate human-like text generation, offering innovative tools for literature review, hypothesis generation, experimental design, experimental subjects, data analysis, academic writing, and peer review in psychology. While LLMs are essential in advancing research methodologies in psychology, the paper also cautions about their technical and ethical challenges. There are issues like data privacy, the ethical implications of using LLMs in psychological research, and the need for a deeper understanding of these models' limitations. Researchers should responsibly use LLMs in psychological studies, adhering to ethical standards and considering the potential consequences of deploying these technologies in sensitive areas. Overall, the article provides a comprehensive overview of the current state of LLMs in psychology, exploring potential benefits and challenges. It serves as a call to action for researchers to leverage LLMs' advantages responsibly while addressing associated risks.
翻訳日:2024-03-20 02:32:43 公開日:2024-03-16
# VLLaVO: LLMによる視覚ギャップの緩和

VLLaVO: Mitigating Visual Gap through LLMs ( http://arxiv.org/abs/2401.03253v2 )

ライセンス: Link先を確認
Shuhao Chen, Yulong Zhang, Weisen Jiang, Jiangang Lu, Yu Zhang, (参考訳) ディープラーニングモデルによる最近の進歩は、独立的かつ同一に分散された仮定に依存しており、ドメインシフトを伴う現実のシナリオにおけるアプリケーションの障害となっている。 この問題を解決するために、クロスドメイン学習は、トレーニングとテストデータのドメインシフトを減らすために、ドメイン不変の知識を抽出することを目的としている。 しかし、視覚的クロスドメイン学習においては、従来の手法は画像のモダリティのみに焦点をあて、テキストのモダリティを組み込むことの潜在的な利点を無視している。 本研究では,視覚言語モデルと大規模言語モデルを組み合わせたVLLaVOを提案する。 VLLaVOは視覚言語モデルを使用して画像を詳細なテキスト記述に変換する。 大規模言語モデルは、設計された命令テンプレートによって生成されたソース/ターゲットドメインのテキスト記述に基づいて微調整される。 ドメイン一般化と教師なしドメイン適応設定の下での大規模な実験結果から,提案手法の有効性が示された。

Recent advances achieved by deep learning models rely on the independent and identically distributed assumption, hindering their applications in real-world scenarios with domain shifts. To tackle this issue, cross-domain learning aims at extracting domain-invariant knowledge to reduce the domain shift between training and testing data. However, in visual cross-domain learning, traditional methods concentrate solely on the image modality, disregarding the potential benefits of incorporating the text modality. In this work, we propose VLLaVO, combining Vision language models and Large Language models as Visual cross-dOmain learners. VLLaVO uses vision-language models to convert images into detailed textual descriptions. A large language model is then finetuned on textual descriptions of the source/target domain generated by a designed instruction template. Extensive experimental results under domain generalization and unsupervised domain adaptation settings demonstrate the effectiveness of the proposed method.
翻訳日:2024-03-20 02:32:42 公開日:2024-03-16
# 交渉による言語モデルエージェンシーの評価

Evaluating Language Model Agency through Negotiations ( http://arxiv.org/abs/2401.04536v2 )

ライセンス: Link先を確認
Tim R. Davidson, Veniamin Veselovsky, Martin Josifoski, Maxime Peyrard, Antoine Bosselut, Michal Kosinski, Robert West, (参考訳) 交渉ゲームを用いた言語モデル (LM) エージェントの評価手法を提案する。 このアプローチは実世界のユースケースをよりよく反映し、代替のLMベンチマークの欠点のいくつかに対処する。 ネゴシエーションゲームにより、マルチターン、クロスモデル相互作用、複雑性の変調、およびサイドステップの偶発的データ漏洩を研究できる。 提案手法は,広く使用されている6つのLMをテストし,セルフプレイとクロスプレイの両方で性能とアライメントを評価する。 注目すべき発見は以下のとおりである。 (i)ここでテストされたクローズドソースモデルのみがこれらのタスクを完了することができた。 (二)協力型バーゲティングゲームは、モデルにとって最も困難であることが判明し、 (三)最強のモデルでさえ、しばしばより弱い相手に「ロゼ」する

We introduce an approach to evaluate language model (LM) agency using negotiation games. This approach better reflects real-world use cases and addresses some of the shortcomings of alternative LM benchmarks. Negotiation games enable us to study multi-turn, and cross-model interactions, modulate complexity, and side-step accidental evaluation data leakage. We use our approach to test six widely used and publicly accessible LMs, evaluating performance and alignment in both self-play and cross-play settings. Noteworthy findings include: (i) only closed-source models tested here were able to complete these tasks; (ii) cooperative bargaining games proved to be most challenging to the models; and (iii) even the most powerful models sometimes "lose" to weaker opponents
翻訳日:2024-03-20 02:22:38 公開日:2024-03-16
# 極性分子間の相互作用の回転状態依存性

Rotational state dependence of interactions between polar molecules ( http://arxiv.org/abs/2401.05958v3 )

ライセンス: Link先を確認
Etienne F. Walraven, Tijs Karman, (参考訳) 分子間の長距離静電相互作用は相対配向に強く依存しており、回転状態依存として現れる。 同じ回転量子状態の分子間の相互作用は、魅力的なファンデルワールス相互作用である。 回転状態における相互作用は、1つの量子ショー共鳴双極子-双極子相互作用によって異なる。 分子が1つ以上の量子によって異なる回転状態にある場合、ファンデルワールス相互作用が反動的に現れることを示す。 ミリケルビン以下の温度では、この効果は衝突による損失を桁違いに減少させる。 これらの反発相互作用は、超低温極性分子を用いた量子シミュレーションや不純物物理学の応用に繋がる。

The long-range electrostatic interactions between molecules depend strongly on their relative orientation, which manifests as a rotational state dependence. Interactions between molecules in the same rotational quantum state are well-known attractive rotational van der Waals interactions. Interactions in rotational states that differ by one quantum show resonant dipole-dipole interactions. We show that where molecules are in rotational states that differ by more than one quantum, they exhibit repulsive van der Waals interactions. At temperatures below a millikelvin, this effect can reduce collisional loss by multiple orders of magnitude. These repulsive interactions lead to applications in quantum simulation and impurity physics with ultracold polar molecules.
翻訳日:2024-03-20 02:22:38 公開日:2024-03-16
# レーザ冷却分子の光ツイーザへの決定的負荷法

A scheme for deterministic loading of laser-cooled molecules into optical tweezers ( http://arxiv.org/abs/2401.06028v3 )

ライセンス: Link先を確認
Etienne F. Walraven, Michael R. Tarbutt, Tijs Karman, (参考訳) 我々は、レーザー冷却された分子を光ツイーザに繰り返しロードし、2つの追加量子によって回転的に励起される貯蔵状態に転送することを提案する。 これらの貯蔵状態における分子の衝突損失は抑制され、双極子遮断は複数の分子の蓄積を防ぐ。 3サイクルを施すことで、1つの分子でツイーザーを80~\%の成功率でロードし、残余の衝突損失によって制限される。 これにより、負荷効率が向上し、ツイーザーアレイの再配置に要する時間が短縮され、そうでなければ中性分子量子コンピュータのスケーラビリティが制限される。

We propose to repeatedly load laser-cooled molecules into optical tweezers, and transfer them to storage states that are rotationally excited by two additional quanta. Collisional loss of molecules in these storage states is suppressed, and a dipolar blockade prevents the accumulation of more than one molecule. Applying three cycles loads tweezers with single molecules at an 80~\% success rate, limited by residual collisional loss. This improved loading efficiency reduces the time needed for rearrangement of tweezer arrays, which would otherwise limit the scalability of neutral molecule quantum computers.
翻訳日:2024-03-20 02:22:38 公開日:2024-03-16
# 拡散モデル多様体における逆例の相違

Adversarial Examples are Misaligned in Diffusion Model Manifolds ( http://arxiv.org/abs/2401.06637v5 )

ライセンス: Link先を確認
Peter Lorenz, Ricard Durall, Janis Keuper, (参考訳) 近年,拡散モデル (DM) がデータ分布の近似に成功し, 最先端の生成結果が得られた。 それでも、これらのモデルの汎用性は、画像インペイント、セグメンテーション、敵対的堅牢性など、様々な視覚的応用を含むように、生成能力を超えて拡張されている。 本研究は,拡散モデルのレンズによる敵攻撃の研究に焦点をあてる。 しかし,本研究の目的は,画像分類器の対角的堅牢性の向上には関与しない。 その代わり、私たちは拡散モデルを利用して、画像に対するこれらの攻撃によって引き起こされる異常を検出し、分析することに重点を置いています。 そこで本研究では,拡散モデルを用いた変換過程において,逆例の分布のアライメントを系統的に検討する。 このアプローチの有効性は、CIFAR-10とImageNetデータセットで評価される。 その結果、良性画像と攻撃画像とを効果的に識別できる顕著な能力が示され、敵のインスタンスがDMの学習多様体と一致しないという説得力のある証拠が得られた。

In recent years, diffusion models (DMs) have drawn significant attention for their success in approximating data distributions, yielding state-of-the-art generative results. Nevertheless, the versatility of these models extends beyond their generative capabilities to encompass various vision applications, such as image inpainting, segmentation, adversarial robustness, among others. This study is dedicated to the investigation of adversarial attacks through the lens of diffusion models. However, our objective does not involve enhancing the adversarial robustness of image classifiers. Instead, our focus lies in utilizing the diffusion model to detect and analyze the anomalies introduced by these attacks on images. To that end, we systematically examine the alignment of the distributions of adversarial examples when subjected to the process of transformation using diffusion models. The efficacy of this approach is assessed across CIFAR-10 and ImageNet datasets, including varying image sizes in the latter. The results demonstrate a notable capacity to discriminate effectively between benign and attacked images, providing compelling evidence that adversarial instances do not align with the learned manifold of the DMs.
翻訳日:2024-03-20 02:22:38 公開日:2024-03-16
# 多数派・少数派:名前付きエンティティ認識のためのデータ不均衡学習法

Majority or Minority: Data Imbalance Learning Method for Named Entity Recognition ( http://arxiv.org/abs/2401.11431v2 )

ライセンス: Link先を確認
Sota Nemoto, Shunsuke Kitada, Hitoshi Iyatomi, (参考訳) データ不均衡は、機械学習(ML)タスク、特に自然言語処理(NLP)におけるエンティティ認識(NER)において重要な課題となる。 NERは、多数のマイノリティクラス(エンティティクラス)と1つのマジョリティクラス(Oクラス)を特徴とする、長いテール分布とデータ不均衡を示す。 この不均衡は、Oクラスとしてエンティティクラスを誤って分類する。 この問題に対処するために,多数派あるいは少数派(MoM)学習という,シンプルで効果的な学習手法を提案する。 MoM学習は、基礎的真理が多数派であるサンプルのみに計算された損失を従来のMLモデルの損失に組み込む。 4つのNERデータセット(日本語と英語)に対する評価実験により,MoM学習は多数派のパフォーマンスを犠牲にすることなくマイノリティクラスの予測性能を向上し,最先端の手法よりも有効であることが示された。 また,NERで一般的に使用されるシーケンシャルラベリングや機械読影理解として,フレームワークを用いたMoM学習の評価を行った。 さらに、MoM学習は言語やフレームワークに関わらず、一貫したパフォーマンス向上を実現している。

Data imbalance presents a significant challenge in various machine learning (ML) tasks, particularly named entity recognition (NER) within natural language processing (NLP). NER exhibits a data imbalance with a long-tail distribution, featuring numerous minority classes (i.e., entity classes) and a single majority class (i.e., O-class). This imbalance leads to misclassifications of the entity classes as the O-class. To tackle this issue, we propose a simple and effective learning method named majority or minority (MoM) learning. MoM learning incorporates the loss computed only for samples whose ground truth is the majority class into the loss of the conventional ML model. Evaluation experiments on four NER datasets (Japanese and English) showed that MoM learning improves prediction performance of the minority classes without sacrificing the performance of the majority class and is more effective than widely known and state-of-the-art methods. We also evaluated MoM learning using frameworks as sequential labeling and machine reading comprehension, which are commonly used in NER. Furthermore, MoM learning has achieved consistent performance improvements regardless of language or framework.
翻訳日:2024-03-20 02:22:38 公開日:2024-03-16
# スパースグリッド型不連続検出のためのグラフインフォームニューラルネットワーク

Graph-Informed Neural Networks for Sparse Grid-Based Discontinuity Detectors ( http://arxiv.org/abs/2401.13652v3 )

ライセンス: Link先を確認
Francesco Della Santa, Sandra Pieraccini, (参考訳) 本稿では,不連続関数の不連続界面を検出するための新しい手法を提案する。 このアプローチでは、グラフインフォームドニューラルネットワーク(GINN)とスパースグリッドを利用して、3より大きい次元の領域でも不連続検出に対処する。 スパースグリッド上の問題点を特定するために訓練されたGINNは、グリッド上に構築されたグラフ構造を利用して、効率的で正確な不連続検出性能を実現する。 また,一般のスパースグリッド型検出器に対する再帰的アルゴリズムを導入し,収束特性と容易な適用性を特徴とする。 次元 n = 2 および n = 4 の関数に関する数値実験は、不連続界面の検出における GINN の効率性とロバストな一般化を実証する。 特に、トレーニングされたGINNはポータビリティと汎用性を提供し、様々なアルゴリズムとの統合とユーザ間の共有を可能にしている。

In this paper, we present a novel approach for detecting the discontinuity interfaces of a discontinuous function. This approach leverages Graph-Informed Neural Networks (GINNs) and sparse grids to address discontinuity detection also in domains of dimension larger than 3. GINNs, trained to identify troubled points on sparse grids, exploit graph structures built on the grids to achieve efficient and accurate discontinuity detection performances. We also introduce a recursive algorithm for general sparse grid-based detectors, characterized by convergence properties and easy applicability. Numerical experiments on functions with dimensions n = 2 and n = 4 demonstrate the efficiency and robust generalization of GINNs in detecting discontinuity interfaces. Notably, the trained GINNs offer portability and versatility, allowing integration into various algorithms and sharing among users.
翻訳日:2024-03-20 02:12:30 公開日:2024-03-16
# EdgeOL: エッジデバイス上でのオンライン学習の効率性

EdgeOL: Efficient in-situ Online Learning on Edge Devices ( http://arxiv.org/abs/2401.16694v2 )

ライセンス: Link先を確認
Sheng Li, Geng Yuan, Yawen Wu, Yue Dai, Chao Wu, Alex K. Jones, Jingtong Hu, Yanzhi Wang, Xulong Tang, (参考訳) ロボット支援老人介護や物体認識といった新しい応用は、一般的にディープラーニングニューラルネットワーク(DNN)を使用し、自然に要求される。 一 ストリーミングの推論要求の処理及び処理 二 可能な展開シナリオの変更に対応すること。 これらのニーズを満たすために、オンラインモデル微調整が広く採用されている。 しかし、不適切な微調整方式ではエネルギー消費が大幅に増加し、エッジデバイスへの展開が困難になる可能性がある。 本稿では,予測精度,微調整実行時間,エネルギー効率を最適化するエッジオンライン学習フレームワークEdgeOLを提案する。 実験結果から、EdgeOLは、全体の微調整実行時間を64%削減し、エネルギー消費を52%削減し、オンラインの即時学習戦略よりも平均推定精度を1.75%向上させることがわかった。

Emerging applications, such as robot-assisted eldercare and object recognition, generally employ deep learning neural networks (DNNs) and naturally require: i) handling streaming-in inference requests and ii) adapting to possible deployment scenario changes. Online model fine-tuning is widely adopted to satisfy these needs. However, an inappropriate fine-tuning scheme could involve significant energy consumption, making it challenging to deploy on edge devices. In this paper, we propose EdgeOL, an edge online learning framework that optimizes inference accuracy, fine-tuning execution time, and energy efficiency through both inter-tuning and intra-tuning optimizations. Experimental results show that, on average, EdgeOL reduces overall fine-tuning execution time by 64%, energy consumption by 52%, and improves average inference accuracy by 1.75% over the immediate online learning strategy.
翻訳日:2024-03-20 02:12:30 公開日:2024-03-16
# 量子メタフォトニクス : 最近の進歩と展望

Quantum metaphotonics: recent advances and perspective ( http://arxiv.org/abs/2401.16761v2 )

ライセンス: Link先を確認
Jihua Zhang, Yuri Kivshar, (参考訳) 量子メタフォトニクス(Quantum metaphotonics)は、サブ波長共振器とそれらの準曲面のような平面構造を用いて光の量子状態を生成し、操作し、検出するメタ光学の最先端サブフィールドとして登場した。 量子技術の様々な応用のためのオンチップ量子システムの設計を開発することで、現在のバルク量子光学素子の小型化に大きな可能性を秘めている。 過去数年間、この分野は興味深い理論のアイデア、画期的な実験、新しい応用提案の急増を目撃してきた。 本論は,近年の進歩を要約するとともに,この急速に発展する研究分野のさらなる進歩を展望することを目的としている。

Quantum metaphotonics has emerged as a cutting-edge subfield of meta-optics employing subwavelength resonators and their planar structures such as metasurfaces to generate, manipulate, and detect quantum states of light. It holds a great potential for the miniaturization of current bulky quantum optical elements by developing a design of on-chip quantum systems for various applications of quantum technologies. Over the past few years, this field has witnessed a surge of intriguing theoretical ideas, groundbreaking experiments, and novel application proposals. This perspective paper aims to summarize the most recent advancements and also provide a perspective on the further progress in this rapidly developing field of research.
翻訳日:2024-03-20 02:12:30 公開日:2024-03-16
# 効率的な検索増産のための財務報告チャンキング

Financial Report Chunking for Effective Retrieval Augmented Generation ( http://arxiv.org/abs/2402.05131v3 )

ライセンス: Link先を確認
Antonio Jimeno Yepes, Yao You, Jan Milczek, Sebastian Laverde, Renyu Li, (参考訳) チャンキング情報は、検索拡張生成(RAG)の重要なステップである。 現在の研究は主に段落レベルのチャンキングに焦点を当てている。 このアプローチは、すべてのテキストを等しいものとして扱い、文書の構造に含まれる情報を無視する。 本稿では,文書の構造的要素によって,単に段落レベルのチャンクを超えて文書をチャンクし,文書をチャンクするアプローチを提案する。 これらの構成要素に文書を分割すると、チューニングせずに最高のチャンクサイズとなる文書をチャンクする新しい方法が生成される。 本稿では,文書理解モデルによって注釈付けされた要素タイプに基づくチャンキングが,検索した情報の全体的なコンテキストと精度にどのように貢献するかを評価する新しいフレームワークを提案する。 また、この手法がRAG支援質問&回答タスクのパフォーマンスにどのように影響するかを示す。 本研究は, 各種要素の包括的分析, 有効情報検索における役割, およびRAG出力の品質への影響について検討した。 要素タイプベースのチャンキングのサポートを見つけることは、財務報告のRAG結果を大幅に改善します。 本研究により,高精度なRAGの発見方法についても答えることができた。

Chunking information is a key step in Retrieval Augmented Generation (RAG). Current research primarily centers on paragraph-level chunking. This approach treats all texts as equal and neglects the information contained in the structure of documents. We propose an expanded approach to chunk documents by moving beyond mere paragraph-level chunking to chunk primary by structural element components of documents. Dissecting documents into these constituent elements creates a new way to chunk documents that yields the best chunk size without tuning. We introduce a novel framework that evaluates how chunking based on element types annotated by document understanding models contributes to the overall context and accuracy of the information retrieved. We also demonstrate how this approach impacts RAG assisted Question & Answer task performance. Our research includes a comprehensive analysis of various element types, their role in effective information retrieval, and the impact they have on the quality of RAG outputs. Findings support that element type based chunking largely improve RAG results on financial reporting. Through this research, we are also able to answer how to uncover highly accurate RAG.
翻訳日:2024-03-20 02:02:06 公開日:2024-03-16
# ガウスのMin-Max理論とその応用

A Novel Gaussian Min-Max Theorem and its Applications ( http://arxiv.org/abs/2402.07356v2 )

ライセンス: Link先を確認
Danil Akhtiamov, David Bosch, Reza Ghane, K Nithin Varma, Babak Hassibi, (参考訳) ゴードンの祝福された結果により、ある不等式が満たされれば、2つのガウス過程のmin-maxの挙動を比較することができる。 この結果の結果として、高次元統計学、機械学習、非滑らかな最適化、信号処理に多大な影響を及ぼしたガウスのmin-max (GMT) と凸ガウスのmin-max (CGMT) の定理が導かれる。 どちらの定理も、ゴードンの比較不等式を満たす一対のガウス過程に依存している。 これまでにこれらの不等式を満たすガウス過程は発見されていない。 本稿では、そのような新しいペアを同定する。 結果として得られる定理は、古典的な GMT と CGMT 定理を、一次過程において基礎となるガウス行列が iid 行を持つ場合から、独立だが非独立に分散している場合まで拡張する。 新しいCGMTは、多ソースガウス回帰問題や一般ガウス混合モデルの二項分類に応用される。

A celebrated result by Gordon allows one to compare the min-max behavior of two Gaussian processes if certain inequality conditions are met. The consequences of this result include the Gaussian min-max (GMT) and convex Gaussian min-max (CGMT) theorems which have had far-reaching implications in high-dimensional statistics, machine learning, non-smooth optimization, and signal processing. Both theorems rely on a pair of Gaussian processes, first identified by Slepian, that satisfy Gordon's comparison inequalities. To date, no other pair of Gaussian processes satisfying these inequalities has been discovered. In this paper, we identify such a new pair. The resulting theorems extend the classical GMT and CGMT Theorems from the case where the underlying Gaussian matrix in the primary process has iid rows to where it has independent but non-identically-distributed ones. The new CGMT is applied to the problems of multi-source Gaussian regression, as well as to binary classification of general Gaussian mixture models.
翻訳日:2024-03-20 02:02:06 公開日:2024-03-16
# 機械学習原子間ポテンシャルのためのモンテカルト原子クラスター展開

Cartesian atomic cluster expansion for machine learning interatomic potentials ( http://arxiv.org/abs/2402.07472v2 )

ライセンス: Link先を確認
Bingqing Cheng, (参考訳) 機械学習の原子間ポテンシャルは、物質科学と化学における大規模で正確な原子モデルに革命をもたらしている。 多くのポテンシャルは、アトミッククラスタ拡張または同変メッセージパッシングフレームワークを使用する。 このようなフレームワークは典型的には球面調和を角基底関数として使用し、次にクレブシュ=ゴルダン縮約を用いて回転対称性を保ち、表現や計算オーバーヘッドに冗長性をもたらす。 カルテシアン配位子に基づく原子密度膨張法を提案する。 このアプローチは、相互作用体秩序を維持しながら、原子環境の完全なポリノルミ非依存的な特徴を提供する。 さらに, 各種化学元素の低次元埋め込みと原子間メッセージパッシングを統合した。 CACE (Cartesian Atomic Cluster Expansion) は、高い精度、安定性、一般化性を示す。 バルク水, 小分子および25元素高エントロピー合金を含む多種多様なシステムにおいて, その性能を検証した。

Machine learning interatomic potentials are revolutionizing large-scale, accurate atomistic modelling in material science and chemistry. Many potentials use atomic cluster expansion or equivariant message passing frameworks. Such frameworks typically use spherical harmonics as angular basis functions, and then use Clebsch-Gordan contraction to maintain rotational symmetry, which may introduce redundancies in representations and computational overhead. We propose an alternative: a Cartesian-coordinates-based atomic density expansion. This approach provides a complete set of polynormially indepedent features of atomic environments while maintaining interaction body orders. Additionally, we integrate low-dimensional embeddings of various chemical elements and inter-atomic message passing. The resulting potential, named Cartesian Atomic Cluster Expansion (CACE), exhibits good accuracy, stability, and generalizability. We validate its performance in diverse systems, including bulk water, small molecules, and 25-element high-entropy alloys.
翻訳日:2024-03-20 02:02:06 公開日:2024-03-16
# グラフ学習タスクのためのソフトプロンプトLLMは可能か?

Can we Soft Prompt LLMs for Graph Learning Tasks? ( http://arxiv.org/abs/2402.10359v2 )

ライセンス: Link先を確認
Zheyuan Liu, Xiaoxin He, Yijun Tian, Nitesh V. Chawla, (参考訳) グラフは、ソーシャルネットワーク、生物学的データ、引用ネットワークといった現実世界のアプリケーションにおける複雑な関係を表現する上で重要な役割を果たす。 近年,Large Language Models (LLM) は様々な領域で大きな成功を収めており,特にグラフに LLM を適用している。 しかし, LLMをグラフモダリティに直接適用することは, グラフとテキストモダリティの相違やミスマッチにより, 独特な課題を生じさせる。 そこで本研究では,グラフ情報をソフトプロンプトでLLMに整合させる新しいフレームワークであるGraphPrompterを紹介する。 具体的には、GraphPrompterは、複雑なグラフ情報をエンコードするグラフニューラルネットワークと、テキスト情報を効果的に処理するLLMの2つの主要コンポーネントで構成されている。 ノード分類およびリンク予測タスクに基づく各種ベンチマークデータセットの総合実験により,提案手法の有効性を実証した。 GraphPrompterフレームワークは、グラフ関連タスクの予測子としてLLMの実質的な能力を明らかにし、研究者が現実のグラフシナリオのスペクトルを越えてLLMをより効果的に利用できるようにする。

Graph plays an important role in representing complex relationships in real-world applications such as social networks, biological data and citation networks. In recent years, Large Language Models (LLMs) have achieved tremendous success in various domains, which makes applying LLMs to graphs particularly appealing. However, directly applying LLMs to graph modalities presents unique challenges due to the discrepancy and mismatch between the graph and text modalities. Hence, to further investigate LLMs' potential for comprehending graph information, we introduce GraphPrompter, a novel framework designed to align graph information with LLMs via soft prompts. Specifically, GraphPrompter consists of two main components: a graph neural network to encode complex graph information and an LLM that effectively processes textual information. Comprehensive experiments on various benchmark datasets under node classification and link prediction tasks demonstrate the effectiveness of our proposed method. The GraphPrompter framework unveils the substantial capabilities of LLMs as predictors in graph-related tasks, enabling researchers to utilize LLMs across a spectrum of real-world graph scenarios more effectively.
翻訳日:2024-03-20 02:02:06 公開日:2024-03-16
# ChatGPTは開発者を支援するか? コード生成のための大規模言語モデルの実証評価

Can ChatGPT Support Developers? An Empirical Evaluation of Large Language Models for Code Generation ( http://arxiv.org/abs/2402.11702v2 )

ライセンス: Link先を確認
Kailun Jin, Chung-Yu Wang, Hung Viet Pham, Hadi Hemmati, (参考訳) 大規模言語モデル(LLM)は、コード生成において顕著な習熟度を示しており、様々な開発シナリオにおいてその有望な能力を示す多くの先行研究がある。 しかし、これらの研究は主に研究環境での評価を提供しており、LLMが現実世界の開発者をいかに効果的に支援できるかを理解するための大きなギャップを残している。 これを解決するために、私たちは、開発者とChatGPT(GitHubなどのプラットフォーム上のShare Link機能でキャプチャされた)の会話から収集されたデータセットであるDevGPTで会話を経験的に分析しました。 私たちの経験から,LLM生成コードを使用する現在のプラクティスは,一般的には,高レベルな概念のデモやドキュメントの例の提供に限られています。 これらの結果は、現代のソフトウェア開発において不可欠な部分になる前に、コード生成におけるLLMを改善するには、将来的な作業が必要であることを示唆している。

Large language models (LLMs) have demonstrated notable proficiency in code generation, with numerous prior studies showing their promising capabilities in various development scenarios. However, these studies mainly provide evaluations in research settings, which leaves a significant gap in understanding how effectively LLMs can support developers in real-world. To address this, we conducted an empirical analysis of conversations in DevGPT, a dataset collected from developers' conversations with ChatGPT (captured with the Share Link feature on platforms such as GitHub). Our empirical findings indicate that the current practice of using LLM-generated code is typically limited to either demonstrating high-level concepts or providing examples in documentation, rather than to be used as production-ready code. These findings indicate that there is much future work needed to improve LLMs in code generation before they can be integral parts of modern software development.
翻訳日:2024-03-20 02:02:06 公開日:2024-03-16
# NEO-BENCH: ニューロジズムを用いた大規模言語モデルのロバスト性評価

NEO-BENCH: Evaluating Robustness of Large Language Models with Neologisms ( http://arxiv.org/abs/2402.12261v2 )

ライセンス: Link先を確認
Jonathan Zheng, Alan Ritter, Wei Xu, (参考訳) 大規模言語モデル(LLM)の性能は、モデルトレーニングに使用されるデータと推論中に見られる新しいテキストの間の時間的ドリフトから低下する。 データドリフトを引き起こす言語変更の未調査の道の1つは、新しい言葉形式であるネオロジズムの出現である。 我々は、いくつかの一般的な収集手法を用いて、近年のイングランドのネオロジズムの多様な資源を創出する。 我々は,新語を含む文と,新語を代替語に置き換えるほぼ同一の文とを比較して,新語を用いた時間的ドリフトの分析を行った。 モデル性能は1つの新語が文中に導入されるとき、機械翻訳においてほぼ半減する。 これらの結果から,様々な自然言語理解タスクとモデルパープレキシティを備えた新語に一般化するLLMの能力を評価するためのベンチマークを構築した。 後続の知識カットオフのモデルでは、より難易度が低くなり、下流のタスクでより良く機能する。 LLMは単語の言語的起源にもとづいて異なる影響を受けており、静的LLMにはネオロジズムが複雑であることを示している。 実験を再現するためのベンチマークとコードをリリースします。

The performance of Large Language Models (LLMs) degrades from the temporal drift between data used for model training and newer text seen during inference. One understudied avenue of language change causing data drift is the emergence of neologisms -- new word forms -- over time. We create a diverse resource of recent English neologisms by using several popular collection methods. We analyze temporal drift using neologisms by comparing sentences containing new words with near-identical sentences that replace neologisms with existing substitute words. Model performance is nearly halved in machine translation when a single neologism is introduced in a sentence. Motivated by these results, we construct a benchmark to evaluate LLMs' ability to generalize to neologisms with various natural language understanding tasks and model perplexity. Models with later knowledge cutoff dates yield lower perplexities and perform better in downstream tasks. LLMs are also affected differently based on the linguistic origins of words, indicating that neologisms are complex for static LLMs to address. We will release our benchmark and code for reproducing our experiments.
翻訳日:2024-03-20 02:02:06 公開日:2024-03-16
# GenAudit: 言語モデル出力のエラーをエビデンスで修正する

GenAudit: Fixing Factual Errors in Language Model Outputs with Evidence ( http://arxiv.org/abs/2402.12566v2 )

ライセンス: Link先を確認
Kundan Krishna, Sanjana Ramprasad, Prakhar Gupta, Byron C. Wallace, Zachary C. Lipton, Jeffrey P. Bigham, (参考訳) LLMは、参照ドキュメントへのアクセスを提供しても、事実的に誤ったステートメントを生成することができる。 このようなエラーは、ハイテイクなアプリケーション(例えば、医療やファイナンスのための文書化されたQA)では危険である可能性がある。 GenAudit - 文書基底タスクの事実チェック LLM 応答を支援するためのツール。 GenAuditは、レファレンス文書でサポートされていないクレームを修正したり削除したりすることでLCMレスポンスを編集することを提案し、また、サポートしているように見える事実の参照から証拠を提示する。 これらのタスクを実行するためにモデルをトレーニングし、ユーザに対して推奨の編集とエビデンスを示すインタラクティブインターフェースを設計します。 GenAuditは、さまざまなドメインから文書を要約する際に、8つの異なるLCM出力でエラーを検出することができる。 システムによってほとんどのエラーがフラグ付けされていることを保証するため,精度への影響を最小限に抑えつつエラーリコールを増大させる手法を提案する。 ツール(GenAudit)とファクトチェックモデルを公開しています。

LLMs can generate factually incorrect statements even when provided access to reference documents. Such errors can be dangerous in high-stakes applications (e.g., document-grounded QA for healthcare or finance). We present GenAudit -- a tool intended to assist fact-checking LLM responses for document-grounded tasks. GenAudit suggests edits to the LLM response by revising or removing claims that are not supported by the reference document, and also presents evidence from the reference for facts that do appear to have support. We train models to execute these tasks, and design an interactive interface to present suggested edits and evidence to users. Comprehensive evaluation by human raters shows that GenAudit can detect errors in 8 different LLM outputs when summarizing documents from diverse domains. To ensure that most errors are flagged by the system, we propose a method that can increase the error recall while minimizing impact on precision. We release our tool (GenAudit) and fact-checking model for public use.
翻訳日:2024-03-20 02:02:06 公開日:2024-03-16
# 対数行列化と行列ノルムの不等式と量子情報への応用

Log-majorization and matrix norm inequalities with application to quantum information ( http://arxiv.org/abs/2402.16067v2 )

ライセンス: Link先を確認
Fumio Hiai, (参考訳) 我々は多変量金-トンプソントレースの不等式とカルチャー平均(すなわち重み付き幾何平均の多変量拡張)に関連して行列の対数行列化に関心がある。 アラキの対数行列化の拡張を示し、量子情報の$\alpha$-$z$-R\'enyi分散に適用する。 黄金-トンプソン型多変量トレース不等式とカルチャー平均のノルム不等式について論じる。 本論文は、加重幾何平均の標準不等式における等しい場合の著者の古い結果の証明を補正するための付録を含む。

We are concerned with log-majorization for matrices in connection with the multivariate Golden--Thompson trace inequality and the Karcher mean (i.e., a multivariate extension of the weighted geometric mean). We show an extension of Araki's log-majorization and apply it to the $\alpha$-$z$-R\'enyi divergence in quantum information. We discuss the equality cases in the multivariate trace inequality of Golden--Thompson type and in the norm inequality for the Karcher mean. The paper includes an appendix to correct the proof of the author's old result on the equality case in the norm inequality for the weighted geometric mean.
翻訳日:2024-03-20 01:52:05 公開日:2024-03-16
# 拡散モデルに基づく画像編集:サーベイ

Diffusion Model-Based Image Editing: A Survey ( http://arxiv.org/abs/2402.17525v2 )

ライセンス: Link先を確認
Yi Huang, Jiancheng Huang, Yifan Liu, Mingfu Yan, Jiaxi Lv, Jianzhuang Liu, Wei Xiong, He Zhang, Shifeng Chen, Liangliang Cao, (参考訳) 拡散モデルの一般化は、様々な画像生成および編集タスクのための強力なツールとして現れ、無条件または入力条件で視覚的コンテンツの合成を容易にする。 その中核となる考え方は、画像に徐々にノイズを加える過程を逆転させることで、複雑な分布から高品質なサンプルを生成することだ。 本稿では,画像編集における拡散モデルを用いた既存手法の概要について概説する。 学習戦略やユーザ入力条件,達成可能な特定の編集タスクの配列など,さまざまな観点から,これらの作業の徹底的な分析と分類について検討する。 さらに,画像のインペイントやアウトペイントに特に注意を払って,従来のコンテクスト駆動と現在のマルチモーダル条件の両方を探索し,その方法論を包括的に分析する。 テキスト誘導画像編集アルゴリズムの性能を更に評価するために,革新的な指標であるLMM Scoreを特徴とする系統的ベンチマークであるEditEvalを提案する。 最後に,現状の限界に対処し,今後の研究の方向性を示唆する。 付属するリポジトリはhttps://github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methodsで公開されている。

Denoising diffusion models have emerged as a powerful tool for various image generation and editing tasks, facilitating the synthesis of visual content in an unconditional or input-conditional manner. The core idea behind them is learning to reverse the process of gradually adding noise to images, allowing them to generate high-quality samples from a complex distribution. In this survey, we provide an exhaustive overview of existing methods using diffusion models for image editing, covering both theoretical and practical aspects in the field. We delve into a thorough analysis and categorization of these works from multiple perspectives, including learning strategies, user-input conditions, and the array of specific editing tasks that can be accomplished. In addition, we pay special attention to image inpainting and outpainting, and explore both earlier traditional context-driven and current multimodal conditional methods, offering a comprehensive analysis of their methodologies. To further evaluate the performance of text-guided image editing algorithms, we propose a systematic benchmark, EditEval, featuring an innovative metric, LMM Score. Finally, we address current limitations and envision some potential directions for future research. The accompanying repository is released at https://github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods.
翻訳日:2024-03-20 01:41:04 公開日:2024-03-16
# 検索は正確な生成である

Retrieval is Accurate Generation ( http://arxiv.org/abs/2402.17532v3 )

ライセンス: Link先を確認
Bowen Cao, Deng Cai, Leyang Cui, Xuxin Cheng, Wei Bi, Yuexian Zou, Shuming Shi, (参考訳) 標準言語モデルは、固定、有限、スタンドアロンの語彙からトークンを選択してテキストを生成する。 本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。 このパラダイムシフトの最も重要な課題の1つは、テキストの文字列を様々な方法でセグメント化でき、各セグメントを多数の可能なドキュメントから検索できるため、トレーニングのオラクルを決定することである。 そこで本稿では,言語的ヒューリスティックス(Huristics)を用いたオークルの初期化と,反復的自己強化によるオークルのブートストラップを提案する。 実験結果から,本モデルは各種知識集約タスクにおける標準言語モデルよりも優れるだけでなく,オープンエンドテキスト生成における生成品質の向上も示している。 例えば、標準言語モデルと比較して、私たちのモデルはOpenbookQAで23.47%から36.27%に精度を上げ、オープンエンドテキスト生成で42.61%から81.58%にMAUVEのスコアを改善する。 注目すべきことに,本モデルでは,いくつかの検索拡張ベースラインにおいて,最高の性能と低レイテンシを実現している。 結論として,検索はより正確な生成であり,本研究が新たなパラダイムシフトのさらなる研究を促進することを願っている。

Standard language models generate text by selecting tokens from a fixed, finite, and standalone vocabulary. We introduce a novel method that selects context-aware phrases from a collection of supporting documents. One of the most significant challenges for this paradigm shift is determining the training oracles, because a string of text can be segmented in various ways and each segment can be retrieved from numerous possible documents. To address this, we propose to initialize the training oracles using linguistic heuristics and, more importantly, bootstrap the oracles through iterative self-reinforcement. Extensive experiments show that our model not only outperforms standard language models on a variety of knowledge-intensive tasks but also demonstrates improved generation quality in open-ended text generation. For instance, compared to the standard language model counterpart, our model raises the accuracy from 23.47% to 36.27% on OpenbookQA, and improves the MAUVE score from 42.61% to 81.58% in open-ended text generation. Remarkably, our model also achieves the best performance and the lowest latency among several retrieval-augmented baselines. In conclusion, we assert that retrieval is more accurate generation and hope that our work will encourage further research on this new paradigm shift.
翻訳日:2024-03-20 01:41:04 公開日:2024-03-16
# グラフ探索問題に対する学習アルゴリズム

Learning-Based Algorithms for Graph Searching Problems ( http://arxiv.org/abs/2402.17736v2 )

ライセンス: Link先を確認
Adela Frances DePavia, Erasmo Tani, Ali Vakilian, (参考訳) 本稿では,Banerjee et al (2022) が最近導入した予測付きグラフ探索の問題点について考察する。 この問題では、ある頂点$r$から始まるエージェントが(潜在的に未知の)グラフ$G$をトラバースして、移動した全距離を最小化しながら隠れたゴールノード$g$を見つける必要がある。 任意のノード$v$において、エージェントは、$v$から$g$までの距離のノイズの多い推定を受信する。 我々は未知のグラフ上でこの探索タスクのアルゴリズムを設計する。 未知の重み付きグラフに関する最初の公式な保証を確立し、提案するアルゴリズムが予測誤差に最適あるいはほぼ最適であることを示す下界を提供する。 さらに, 逆誤差に対して頑健であるだけでなく, 誤差が確率的である典型例においても, アルゴリズムが良好に動作することを示す数値実験を行った。 最後に、既知のグラフを探索する際、 Banerjee et al (2022) のアルゴリズムに代替的なより単純な性能境界を提供し、この設定に対して新しい下界を確立する。

We consider the problem of graph searching with prediction recently introduced by Banerjee et al. (2022). In this problem, an agent, starting at some vertex $r$ has to traverse a (potentially unknown) graph $G$ to find a hidden goal node $g$ while minimizing the total distance travelled. We study a setting in which at any node $v$, the agent receives a noisy estimate of the distance from $v$ to $g$. We design algorithms for this search task on unknown graphs. We establish the first formal guarantees on unknown weighted graphs and provide lower bounds showing that the algorithms we propose have optimal or nearly-optimal dependence on the prediction error. Further, we perform numerical experiments demonstrating that in addition to being robust to adversarial error, our algorithms perform well in typical instances in which the error is stochastic. Finally, we provide alternative simpler performance bounds on the algorithms of Banerjee et al. (2022) for the case of searching on a known graph, and establish new lower bounds for this setting.
翻訳日:2024-03-20 01:41:04 公開日:2024-03-16
# 事前学習型言語モデルに対するグラディエントフリー適応型グローバルプルーニング

Gradient-Free Adaptive Global Pruning for Pre-trained Language Models ( http://arxiv.org/abs/2402.17946v2 )

ライセンス: Link先を確認
Guangji Bai, Yijiang Li, Chen Ling, Kibaek Kim, Liang Zhao, (参考訳) LLaMAやGPTのような大規模言語モデル(LLM)が自然言語処理に与える影響は、その禁止的な計算要求に反する。 プルーニングは重要な圧縮戦略として現れ、メモリと計算効率の両方を向上させるために空間性を導入している。 しかし、従来のグローバルプルーニングはスケーラビリティの問題によりLLMにとって実用的ではないが、ローカルプルーニングは効率性に拘わらず、最適以下のソリューションにつながる。 これらの課題に対処するため,我々は,アダプティブ・グローバル・プルーニング(Adaptive Global Pruning, AdaGP)を提案する。 AdaGPのアプローチは、LLMをモジュラー関数の連鎖として概念化し、問題分解のための補助変数を活用するもので、LLMの実用的適用を促進するだけでなく、特に最先端の手法を超越した高疎度なシステムにおいて、大幅な性能向上を示す。

The transformative impact of large language models (LLMs) like LLaMA and GPT on natural language processing is countered by their prohibitive computational demands. Pruning has emerged as a pivotal compression strategy, introducing sparsity to enhance both memory and computational efficiency. Yet, traditional global pruning is impractical for LLMs due to scalability issues, while local pruning, despite its efficiency, leads to suboptimal solutions. Addressing these challenges, we propose Adaptive Global Pruning (AdaGP), a novel framework that redefines the global pruning process into manageable, coordinated subproblems, allowing for resource-efficient optimization with global optimality. AdaGP's approach, which conceptualizes LLMs as a chain of modular functions and leverages auxiliary variables for problem decomposition, not only facilitates a pragmatic application on LLMs but also demonstrates significant performance improvements, particularly in high-sparsity regimes where it surpasses current state-of-the-art methods.
翻訳日:2024-03-20 01:41:04 公開日:2024-03-16
# 条件付きデコーダによる映像のニューラル表現の強化

Boosting Neural Representations for Videos with a Conditional Decoder ( http://arxiv.org/abs/2402.18152v3 )

ライセンス: Link先を確認
Xinjie Zhang, Ren Yang, Dailan He, Xingtong Ge, Tongda Xu, Yan Wang, Hongwei Qin, Jun Zhang, (参考訳) Inlicit Neural representations (INR) は、ビデオストレージと処理において有望なアプローチとして登場し、様々なビデオタスクにおいて顕著な汎用性を示している。 しかし、既存の手法は、主にターゲットフレームの復号中に中間機能の整列が不十分なため、表現能力を十分に活用できないことが多い。 本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。 具体的には,時間対応アフィン変換モジュールを備えた条件デコーダを用いて,フレームインデックスを事前条件として使用して,中間特徴とターゲットフレームを効果的に整合させる。 さらに, 正弦波型NeRV型ブロックを導入し, 多様な中間特性を生成し, パラメータ分布のバランスを保ち, モデルのキャパシティを向上する。 提案手法は,高頻度情報保存再生損失を伴って,ビデオレグレッションの再生品質と収束速度において複数のベースラインINRを向上し,より優れた塗装および補間結果を示す。 さらに、一貫したエントロピー最小化手法を統合し、これらの強化INRに基づいてビデオコーデックを開発する。 UVGデータセットの実験では、拡張コーデックはベースラインINRよりも大幅に優れており、従来のコーデックや学習ベースのコーデックに比べて競合速度歪み性能が優れていることが確認された。 コードはhttps://github.com/Xinjie-Q/Boosting-NeRVで入手できる。

Implicit neural representations (INRs) have emerged as a promising approach for video storage and processing, showing remarkable versatility across various video tasks. However, existing methods often fail to fully leverage their representation capabilities, primarily due to inadequate alignment of intermediate features during target frame decoding. This paper introduces a universal boosting framework for current implicit video representation approaches. Specifically, we utilize a conditional decoder with a temporal-aware affine transform module, which uses the frame index as a prior condition to effectively align intermediate features with target frames. Besides, we introduce a sinusoidal NeRV-like block to generate diverse intermediate features and achieve a more balanced parameter distribution, thereby enhancing the model's capacity. With a high-frequency information-preserving reconstruction loss, our approach successfully boosts multiple baseline INRs in the reconstruction quality and convergence speed for video regression, and exhibits superior inpainting and interpolation results. Further, we integrate a consistent entropy minimization technique and develop video codecs based on these boosted INRs. Experiments on the UVG dataset confirm that our enhanced codecs significantly outperform baseline INRs and offer competitive rate-distortion performance compared to traditional and learning-based codecs. Code is available at https://github.com/Xinjie-Q/Boosting-NeRV.
翻訳日:2024-03-20 01:41:04 公開日:2024-03-16
# ChatDiet: LLM拡張フレームワークによるパーソナライズされた栄養指向食品レコメンデーションチャットボットの活用

ChatDiet: Empowering Personalized Nutrition-Oriented Food Recommender Chatbots through an LLM-Augmented Framework ( http://arxiv.org/abs/2403.00781v2 )

ライセンス: Link先を確認
Zhongqi Yang, Elahe Khatibi, Nitish Nagesh, Mahyar Abbasian, Iman Azimi, Ramesh Jain, Amir M. Rahmani, (参考訳) 食品が健康に与える影響は、先進的な栄養指向の食品レコメンデーションサービスを必要とする。 従来の手法は、パーソナライゼーション、説明可能性、対話性といった重要な要素を欠いていることが多い。 大きな言語モデル(LLM)は解釈可能性と説明可能性をもたらすが、彼らのスタンドアロンの使用は真のパーソナライゼーションを達成するには不十分である。 本稿では、栄養指向食品レコメンデーションチャットボットに特化して設計された、新しいLLMフレームワークChatDietを紹介する。 ChatDietは、オーケストラが補完する個人モデルと人口モデルを統合し、シームレスに関連する情報を検索し、処理する。 個人モデルは、因果発見と推論技術を活用して、特定のユーザに対してパーソナライズされた栄養効果を評価する一方、人口モデルは、食品栄養内容に関する一般化された情報を提供する。 オーケストレータは、両方のモデルの出力をLLMに回収し、シナジー化し、提供し、ターゲットとする健康結果をサポートするように設計された、調整された食品レコメンデーションを提供する。 その結果、個人の好みに合わせて、パーソナライズされた説明可能な食品レコメンデーションが動的に配信される。 ChatDietの評価には説得力のあるケーススタディが含まれており、個別の栄養効果を推定するための因果的個人モデルを確立している。 評価では,99%の有効率を示す食品推薦試験や,説明可能性,パーソナライゼーション,対話性といったChatDietの強みが評価された。

The profound impact of food on health necessitates advanced nutrition-oriented food recommendation services. Conventional methods often lack the crucial elements of personalization, explainability, and interactivity. While Large Language Models (LLMs) bring interpretability and explainability, their standalone use falls short of achieving true personalization. In this paper, we introduce ChatDiet, a novel LLM-powered framework designed specifically for personalized nutrition-oriented food recommendation chatbots. ChatDiet integrates personal and population models, complemented by an orchestrator, to seamlessly retrieve and process pertinent information. The personal model leverages causal discovery and inference techniques to assess personalized nutritional effects for a specific user, whereas the population model provides generalized information on food nutritional content. The orchestrator retrieves, synergizes and delivers the output of both models to the LLM, providing tailored food recommendations designed to support targeted health outcomes. The result is a dynamic delivery of personalized and explainable food recommendations, tailored to individual user preferences. Our evaluation of ChatDiet includes a compelling case study, where we establish a causal personal model to estimate individual nutrition effects. Our assessments, including a food recommendation test showcasing a 92\% effectiveness rate, coupled with illustrative dialogue examples, underscore ChatDiet's strengths in explainability, personalization, and interactivity.
翻訳日:2024-03-20 01:41:04 公開日:2024-03-16
# Polynormer: 線形時間における多項式圧縮グラフ変換器

Polynormer: Polynomial-Expressive Graph Transformer in Linear Time ( http://arxiv.org/abs/2403.01232v2 )

ライセンス: Link先を確認
Chenhui Deng, Zichao Yue, Zhiru Zhang, (参考訳) グラフトランスフォーマー(GT)は、メッセージパッシンググラフニューラルネットワーク(GNN)よりも理論的に表現力のある、有望なアーキテクチャとして登場した。 しかし、典型的なGTモデルは少なくとも2次複雑性を持つので、大きなグラフにスケールすることはできない。 最近提案された線形GTはいくつかあるが、GNNのグラフデータセットにはまだ遅れている。 GTの表現性とスケーラビリティのトレードオフのバランスをとるために,多項式表現型GTモデルであるPolynormerを提案する。 Polynormerは入力特徴の高次多項式を学習する新しいベースモデルの上に構築されている。 基本モデル置換同変を可能にするため、グラフトポロジーとノード特徴を別々に統合し、局所的および大域的等変アテンションモデルを作成する。 その結果、ポリノーマーは線形局所-言語的アテンションスキームを採用し、アテンションスコアによって係数が制御される高次同変多項式を学習する。 ポリノーマーは、数百万のノードを持つ大きなグラフを含む、13$のホモフィルとヘテロフィルのデータセットで評価されている。 我々の広範な実験結果から,Polynormerは,非線形アクティベーション関数を使わずとも,ほとんどのデータセットにおいて,最先端のGNNとGTのベースラインよりも優れていることが示された。

Graph transformers (GTs) have emerged as a promising architecture that is theoretically more expressive than message-passing graph neural networks (GNNs). However, typical GT models have at least quadratic complexity and thus cannot scale to large graphs. While there are several linear GTs recently proposed, they still lag behind GNN counterparts on several popular graph datasets, which poses a critical concern on their practical expressivity. To balance the trade-off between expressivity and scalability of GTs, we propose Polynormer, a polynomial-expressive GT model with linear complexity. Polynormer is built upon a novel base model that learns a high-degree polynomial on input features. To enable the base model permutation equivariant, we integrate it with graph topology and node features separately, resulting in local and global equivariant attention models. Consequently, Polynormer adopts a linear local-to-global attention scheme to learn high-degree equivariant polynomials whose coefficients are controlled by attention scores. Polynormer has been evaluated on $13$ homophilic and heterophilic datasets, including large graphs with millions of nodes. Our extensive experiment results show that Polynormer outperforms state-of-the-art GNN and GT baselines on most datasets, even without the use of nonlinear activation functions.
翻訳日:2024-03-20 01:41:04 公開日:2024-03-16
# SERVAL: Oracle-Level ゼロショット医療予測に向けた垂直モデルと LLM のシナジー学習

SERVAL: Synergy Learning between Vertical Models and LLMs towards Oracle-Level Zero-shot Medical Prediction ( http://arxiv.org/abs/2403.01570v2 )

ライセンス: Link先を確認
Jiahuan Yan, Jintai Chen, Chaowen Hu, Bo Zheng, Yaojun Hu, Jimeng Sun, Jian Wu, (参考訳) 近年の大規模言語モデル (LLM) の開発は, 汎用的, 常識的質問に対して, 目覚ましいゼロショット能力を示した。 しかし、LLMのドメイン固有の垂直質問への応用は、主に垂直知識の屈辱問題と欠陥のため、まだ遅れている。 さらに、垂直データアノテーションプロセスは、しばしば労働集約的な専門家の関与を必要とするため、モデルの垂直能力を高めるためのさらなる課題が提示される。 本稿では,LLMと小型モデルの両方において,相互強化による教師なしの垂直機能開発を目的とした相乗学習パイプラインSERVALを提案する。 具体的には、SERVALはLDMのゼロショット出力をアノテーションとして利用し、信頼性を活用して、スクラッチから堅牢な垂直モデルを教える。 逆に、訓練された垂直モデルはLLMファインチューニングをガイドし、ゼロショット能力を向上し、反復的なプロセスを通じて両方のモデルを徐々に改善する。 複雑な垂直的な知識と高価なアノテーションで知られている医療分野において、包括的な実験は、金のラベルにアクセスせずに、SERVALがOpenAI GPT-3.5のシナジー学習を行い、シンプルなモデルが10の広く使用されている医療データセットで完全に監督された競争性能を達成することを示した。 これらのデータセットは、垂直に専門化された診断シナリオ(糖尿病、心臓病、COVID-19など)を表現し、LDMの垂直能力を洗練し、垂直モデルをスクラッチからトレーニングするSERVALの可能性を強調している。

Recent development of large language models (LLMs) has exhibited impressive zero-shot proficiency on generic and common sense questions. However, LLMs' application on domain-specific vertical questions still lags behind, primarily due to the humiliation problems and deficiencies in vertical knowledge. Furthermore, the vertical data annotation process often requires labor-intensive expert involvement, thereby presenting an additional challenge in enhancing the model's vertical capabilities. In this paper, we propose SERVAL, a synergy learning pipeline designed for unsupervised development of vertical capabilities in both LLMs and small models by mutual enhancement. Specifically, SERVAL utilizes the LLM's zero-shot outputs as annotations, leveraging its confidence to teach a robust vertical model from scratch. Reversely, the trained vertical model guides the LLM fine-tuning to enhance its zero-shot capability, progressively improving both models through an iterative process. In medical domain, known for complex vertical knowledge and costly annotations, comprehensive experiments show that, without access to any gold labels, SERVAL with the synergy learning of OpenAI GPT-3.5 and a simple model attains fully-supervised competitive performance across ten widely used medical datasets. These datasets represent vertically specialized medical diagnostic scenarios (e.g., diabetes, heart diseases, COVID-19), highlighting the potential of SERVAL in refining the vertical capabilities of LLMs and training vertical models from scratch, all achieved without the need for annotations.
翻訳日:2024-03-20 01:41:04 公開日:2024-03-16
# テンポラルデータ分類のための完全メムリスタ型貯留層計算の解析と解析

Analysis and Fully Memristor-based Reservoir Computing for Temporal Data Classification ( http://arxiv.org/abs/2403.01827v2 )

ライセンス: Link先を確認
Ankur Singh, Sanghyeon Choi, Gunuk Wang, Maryaradhiya Daimari, Byung-Geun Lee, (参考訳) Reservoir Computing (RC) は特に時空間信号の処理に有効なニューロモルフィックなフレームワークを提供する。 時間的処理技術で知られるRCは、従来のリカレントニューラルネットワークと比較してトレーニングコストを大幅に削減する。 ハードウェアデプロイメントにおける重要なコンポーネントは、動的リザーブ状態を生成する機能である。 本研究は,4ビット以上で符号化された16個の異なる状態を実現可能なWOxベースのmemristorと,読み出し層内にTiOxベースのmemristorを用いた長期メモリコンポーネントを組み込んだ,新しいデュアルメモリRCシステムを提案する。 我々は,両メムリスタタイプを徹底的に検討し,時間的データセットの処理にRCシステムを活用する。 提案したRCシステムの性能は,不完全入力を用いた孤立音声認識とMackey-Glass時系列予測の2つのベンチマークタスクによって検証される。 このシステムは桁認識において98.84%の精度を達成し、時系列予測タスクにおいて0.036の低正規化ルート平均二乗誤差(NRMSE)を維持した。 本研究は, 複雑な時間的課題の管理において, メムリスタをベースとしたRCシステムの適応性を照らし, ニューロモルフィックコンピューティングにおけるさらなる革新の基盤となる。

Reservoir computing (RC) offers a neuromorphic framework that is particularly effective for processing spatiotemporal signals. Known for its temporal processing prowess, RC significantly lowers training costs compared to conventional recurrent neural networks. A key component in its hardware deployment is the ability to generate dynamic reservoir states. Our research introduces a novel dual-memory RC system, integrating a short-term memory via a WOx-based memristor, capable of achieving 16 distinct states encoded over 4 bits, and a long-term memory component using a TiOx-based memristor within the readout layer. We thoroughly examine both memristor types and leverage the RC system to process temporal data sets. The performance of the proposed RC system is validated through two benchmark tasks: isolated spoken digit recognition with incomplete inputs and Mackey-Glass time series prediction. The system delivered an impressive 98.84% accuracy in digit recognition and sustained a low normalized root mean square error (NRMSE) of 0.036 in the time series prediction task, underscoring its capability. This study illuminates the adeptness of memristor-based RC systems in managing intricate temporal challenges, laying the groundwork for further innovations in neuromorphic computing.
翻訳日:2024-03-20 01:41:04 公開日:2024-03-16
# HyperPredict: 変形可能な画像登録におけるインスタンス特異な正規化のためのハイパーパラメータ効果の推定

HyperPredict: Estimating Hyperparameter Effects for Instance-Specific Regularization in Deformable Image Registration ( http://arxiv.org/abs/2403.02069v2 )

ライセンス: Link先を確認
Aisha L. Shuaibu, Ivor J. A. Simpson, (参考訳) 医用画像登録法は、画像類似度メトリックを最大化することにより、画像のペア/グループを整列する幾何学変換を推定する。 この問題は、いくつかの解が等価な可能性を持つ可能性があり、また、画像の類似性のために純粋に最適化することは、到達不可能な変換をもたらす。 これらの理由から、有意義な登録結果を得るためには正規化項が不可欠である。 しかし、これは損失項間のトレードオフとなる$\lambda$と呼ばれる少なくとも1つのハイパーパラメータを導入する必要がある。 いくつかの状況では、推定された変換の質はハイパーパラメータの選択に大きく依存しており、データの特徴によって異なる選択が要求されることがある。 これらのハイパーパラメータの効果を分析するには、テスト時に一般的に利用できないラベル付きデータが必要である。 本稿では,ハイパーパラメータの影響を評価し,与えられた画像対に対して最適な値を選択する方法を提案する。 HyperPredictと呼ばれる我々のアプローチは、画像ペアを登録するための特定のハイパーパラメータを選択する効果を、結果のセグメンテーションオーバーラップを予測し、変形の滑らかさを測定することで学習するマルチ層パーセプトロンを実装している。 このアプローチにより,ラベル付きデータを必要とすることなく,テスト時に最適なハイパーパラメータを選択できる。 さらに、最適なハイパーパラメータを定義するために使われる基準は、フレキシブルなポストトレーニングであり、特定の特性を効率的に選択することができる。 我々は,最近のディープラーニング手法(cLapIRN)とアルゴリズム手法(Niftyreg)を用いて,OASIS脳MRデータセットにおける提案手法の評価を行った。 その結果、正規化ハイパーパラメータの効果を予測する上で優れた性能を示し、ハイパーパラメータ選択に対する画像ペア固有のアプローチの利点を強調した。

Methods for medical image registration infer geometric transformations that align pairs/groups of images by maximising an image similarity metric. This problem is ill-posed as several solutions may have equivalent likelihoods, also optimising purely for image similarity can yield implausible transformations. For these reasons regularization terms are essential to obtain meaningful registration results. However, this requires the introduction of at least one hyperparameter often termed $\lambda$, that serves as a tradeoff between loss terms. In some situations, the quality of the estimated transformation greatly depends on hyperparameter choice, and different choices may be required depending on the characteristics of the data. Analyzing the effect of these hyperparameters requires labelled data, which is not commonly available at test-time. In this paper, we propose a method for evaluating the influence of hyperparameters and subsequently selecting an optimal value for given image pairs. Our approach which we call HyperPredict, implements a Multi-Layer Perceptron that learns the effect of selecting particular hyperparameters for registering an image pair by predicting the resulting segmentation overlap and measure of deformation smoothness. This approach enables us to select optimal hyperparameters at test time without requiring labelled data, removing the need for a one-size-fits-all cross-validation approach. Furthermore, the criteria used to define optimal hyperparameter is flexible post-training, allowing us to efficiently choose specific properties. We evaluate our proposed method on the OASIS brain MR dataset using a recent deep learning approach(cLapIRN) and an algorithmic method(Niftyreg). Our results demonstrate good performance in predicting the effects of regularization hyperparameters and highlight the benefits of our image-pair specific approach to hyperparameter selection.
翻訳日:2024-03-20 01:31:10 公開日:2024-03-16
# TTPXHunter: サイバー脅威レポートのTTPとして行動可能な脅威情報抽出

TTPXHunter: Actionable Threat Intelligence Extraction as TTPs from Finished Cyber Threat Reports ( http://arxiv.org/abs/2403.03267v2 )

ライセンス: Link先を確認
Nanda Rani, Bikash Saha, Vikas Maurya, Sandeep Kumar Shukla, (参考訳) 敵の様相を理解することは、組織が効果的な防衛戦略を採用し、コミュニティで知性を共有するのを助ける。 この知識は、脅威分析レポート内の非構造化自然言語テキストにしばしば存在する。 脅威レポートの文で説明されたmodus operandiを解釈し、構造化フォーマットに変換するには、翻訳ツールが必要である。 本研究は、TTPXHunterという手法を用いて、サイバー脅威レポートから脅威情報を自動的に抽出する手法を紹介する。 サイバードメイン固有の自然言語処理(NLP)を活用して、少数派のTTPに対する文を増補し、脅威分析レポートにおいてTPを微調整する。 TTPにおける脅威知能の知識は、サイバー脅威を包括的に理解し、検出と緩和戦略の強化に不可欠である。 我々は、39,296のサンプルからなる強化文-TTPデータセットと、149の現実世界のサイバー脅威インテリジェンスレポート-TTPデータセットという2つのデータセットを作成します。 さらに、拡張文データセットとサイバー脅威レポートに基づいて、TPXHunterを評価する。 TTPXHunterは、拡張データセット上で92.42%のf1スコアを達成し、レポートデータセットで評価すると、f1スコアの97.09%を達成して、TTP抽出における既存の最先端ソリューションを上回っている。 TTPXHunterは、攻撃行動に関する素早く行動可能な洞察を提供することで、サイバーセキュリティの脅威情報を大幅に改善する。 この進歩は脅威情報分析を自動化し、サイバーセキュリティの専門家がサイバー脅威と戦うための重要なツールを提供する。

Understanding the modus operandi of adversaries aids organizations in employing efficient defensive strategies and sharing intelligence in the community. This knowledge is often present in unstructured natural language text within threat analysis reports. A translation tool is needed to interpret the modus operandi explained in the sentences of the threat report and translate it into a structured format. This research introduces a methodology named TTPXHunter for the automated extraction of threat intelligence in terms of Tactics, Techniques, and Procedures (TTPs) from finished cyber threat reports. It leverages cyber domain-specific state-of-the-art natural language processing (NLP) to augment sentences for minority class TTPs and refine pinpointing the TTPs in threat analysis reports significantly. The knowledge of threat intelligence in terms of TTPs is essential for comprehensively understanding cyber threats and enhancing detection and mitigation strategies. We create two datasets: an augmented sentence-TTP dataset of 39,296 samples and a 149 real-world cyber threat intelligence report-to-TTP dataset. Further, we evaluate TTPXHunter on the augmented sentence dataset and the cyber threat reports. The TTPXHunter achieves the highest performance of 92.42% f1-score on the augmented dataset, and it also outperforms existing state-of-the-art solutions in TTP extraction by achieving an f1-score of 97.09% when evaluated over the report dataset. TTPXHunter significantly improves cybersecurity threat intelligence by offering quick, actionable insights into attacker behaviors. This advancement automates threat intelligence analysis, providing a crucial tool for cybersecurity professionals fighting cyber threats.
翻訳日:2024-03-20 01:31:10 公開日:2024-03-16
# MG-TSD:ガイド付き学習プロセスによる多粒度時系列拡散モデル

MG-TSD: Multi-Granularity Time Series Diffusion Models with Guided Learning Process ( http://arxiv.org/abs/2403.05751v2 )

ライセンス: Link先を確認
Xinyao Fan, Yueying Wu, Chang Xu, Yuhao Huang, Weiqing Liu, Jiang Bian, (参考訳) 近年, 拡散確率モデルは, 高忠実度サンプルの生成能力に優れ, 時系列予測に注目が集まっている。 しかし,確率的時系列予測タスクにおけるモデリング能力の有効利用は,確率的性質から生じる不安定性の問題もあって,未解決の問題が残る。 この課題に対処するために、拡散モデルの学習過程をガイドするために、中間拡散段階において与えられたデータ中の固有の粒度レベルを活用することにより、最先端の予測性能を実現する、新しいMulti-Granularity Time Series Diffusion (MG-TSD)モデルを導入する。 ターゲットを構築するには、データ分布を標準正規分布に逐次劣化させる拡散モデルの前方プロセスが、粒度の細かいデータを粗粒度の表現に平滑化させるプロセスと直感的に整合し、結果として微粒度の分布特性が徐々に失われるという観察に動機づけられる。 本研究では,新しい多粒性誘導拡散損失関数を導出し,様々な粒度レベルの粗粒データを効果的に活用するための簡潔な実装法を提案する。 さらに重要なことは、私たちのアプローチは追加の外部データに依存しないので、様々なドメインにまたがって汎用的で適用できます。 実世界のデータセットで行った大規模な実験により、MG-TSDモデルは既存の時系列予測法より優れていることが示された。

Recently, diffusion probabilistic models have attracted attention in generative time series forecasting due to their remarkable capacity to generate high-fidelity samples. However, the effective utilization of their strong modeling ability in the probabilistic time series forecasting task remains an open question, partially due to the challenge of instability arising from their stochastic nature. To address this challenge, we introduce a novel Multi-Granularity Time Series Diffusion (MG-TSD) model, which achieves state-of-the-art predictive performance by leveraging the inherent granularity levels within the data as given targets at intermediate diffusion steps to guide the learning process of diffusion models. The way to construct the targets is motivated by the observation that the forward process of the diffusion model, which sequentially corrupts the data distribution to a standard normal distribution, intuitively aligns with the process of smoothing fine-grained data into a coarse-grained representation, both of which result in a gradual loss of fine distribution features. In the study, we derive a novel multi-granularity guidance diffusion loss function and propose a concise implementation method to effectively utilize coarse-grained data across various granularity levels. More importantly, our approach does not rely on additional external data, making it versatile and applicable across various domains. Extensive experiments conducted on real-world datasets demonstrate that our MG-TSD model outperforms existing time series prediction methods.
翻訳日:2024-03-20 01:21:18 公開日:2024-03-16
# RepoHyper: Repository-Levelコード補完に必要なコンテキスト検索の改善

RepoHyper: Better Context Retrieval Is All You Need for Repository-Level Code Completion ( http://arxiv.org/abs/2403.06095v2 )

ライセンス: Link先を確認
Huy N. Phan, Hoang N. Phan, Tien N. Nguyen, Nghi D. Q. Bui, (参考訳) Code Large Language Models (CodeLLMs) は、コード補完タスクにおいて、驚くほどの熟練度を示している。 しかしながら、関係するファイルやクラス階層の複雑さなど、プロジェクトリポジトリの広範なコンテキストを完全に理解するに足りず、その結果、より正確でない補完が得られます。 これらの制限を克服するため、リポジトリレベルのコード補完に関連する複雑な問題に対処するために設計された多面的フレームワークである \tool を提示する。 これは、コードリポジトリの広大なコンテキストをカプセル化する、新しいセマンティックグラフ構造である。 さらに、RepoHyperは、グラフ拡張とRSGに適用されるリンク予測アルゴリズムを含む \textit{Expand and Refine} 検索手法を活用し、関連するコードスニペットの効率的な検索と優先順位付けを可能にする。 評価の結果,<tool>はリポジトリレベルのコード補完において既存の手法よりも優れており,複数の強力なベースラインと比較して,さまざまなデータセットの精度が向上していることがわかった。 RepoHyperの実装は、~\url{https://github.com/FSoft-AI4Code/RepoHyper}で確認できます。

Code Large Language Models (CodeLLMs) have demonstrated impressive proficiency in code completion tasks. However, they often fall short of fully understanding the extensive context of a project repository, such as the intricacies of relevant files and class hierarchies, which can result in less precise completions. To overcome these limitations, we present \tool, a multifaceted framework designed to address the complex challenges associated with repository-level code completion. Central to \tool is the {\em Repo-level Semantic Graph} (RSG), a novel semantic graph structure that encapsulates the vast context of code repositories. Furthermore, RepoHyper leverages \textit{Expand and Refine} retrieval method, including a graph expansion and a link prediction algorithm applied to the RSG, enabling the effective retrieval and prioritization of relevant code snippets. Our evaluations show that \tool markedly outperforms existing techniques in repository-level code completion, showcasing enhanced accuracy across various datasets when compared to several strong baselines. Our implementation of RepoHyper can be found at~\url{https://github.com/FSoft-AI4Code/RepoHyper}.
翻訳日:2024-03-20 01:21:18 公開日:2024-03-16
# 公平な医用画像分類のための基礎モデルに基づくユニバーサルデバイアス編集

Universal Debiased Editing on Foundation Models for Fair Medical Image Classification ( http://arxiv.org/abs/2403.06104v2 )

ライセンス: Link先を確認
Ruinan Jin, Wenlong Deng, Minghui Chen, Xiaoxiao Li, (参考訳) ファンデーションモデル(FM)がAIで優位に立つ時代において,この研究では,FM APIを用いた医療画像の偏り,特に画素と感度属性の急激な相関について論じる。 従来のバイアス緩和手法は、WebホストされたFMへのアクセスが制限されていることと、FM APIで符号化された基盤となるバイアスに対処することの難しさにより、制限に直面している。 そこで本研究では,UDEノイズを発生させるU(niversal)D(ebiased)E(diting)戦略を提案する。 UDEはFM APIの埋め込みとイメージ自体のバイアスを軽減することができる。 さらに、UDEはホワイトボックスとブラックボックスのFM APIに適しており、ブラックボックスAPIでは勾配がアクセスできない場合にG(reedy) (Z)eroth-O(rder) (GeZO) の最適化を導入しました。 我々のパイプライン全体は、直接モデル操作や重要な計算資源を必要とせずに、様々な医療状況にまたがって適用可能な公平性に配慮した画像編集を可能にする。 本手法の有効性を実証し, 患者集団, 疾患間の公平性, 有用性について検討した。 AI駆動医療の時代において、この研究は医療診断をより公平にし、事前訓練された画像FMにおけるバイアス軽減の実践的な解決策を示す。

In the era of Foundation Models' (FMs) rising prominence in AI, our study addresses the challenge of biases in medical images while using FM API, particularly spurious correlations between pixels and sensitive attributes. Traditional methods for bias mitigation face limitations due to the restricted access to web-hosted FMs and difficulties in addressing the underlying bias encoded within the FM API. We propose an U(niversal) D(ebiased) E(diting) strategy, termed UDE, which generates UDE noise to mask such spurious correlation. UDE is capable of mitigating bias both within the FM API embedding and the images themselves. Furthermore, UDE is suitable for both white-box and black-box FM APIs, where we introduced G(reedy) (Z)eroth-O(rder) (GeZO) optimization for it when the gradient is inaccessible in black-box APIs. Our whole pipeline enables fairness-aware image editing that can be applied across various medical contexts without requiring direct model manipulation or significant computational resources. Our empirical results demonstrate the method's effectiveness in maintaining fairness and utility across different patient groups and diseases. In the era of AI-driven medicine, this work contributes to making healthcare diagnostics more equitable, showcasing a practical solution for bias mitigation in pre-trained image FMs.
翻訳日:2024-03-20 01:21:18 公開日:2024-03-16
# サンプルプロンプを用いたコンテキスト内残差学習による一般異常検出に向けて

Toward Generalist Anomaly Detection via In-context Residual Learning with Few-shot Sample Prompts ( http://arxiv.org/abs/2403.06495v3 )

ライセンス: Link先を確認
Jiawen Zhu, Guansong Pang, (参考訳) 本稿では,GAD(Generalist Anomaly Detection)の問題点を考察し,対象データに対するさらなるトレーニングを行なわずに,異なるアプリケーションドメインからさまざまなデータセットの異常を検出するための1つの単一検出モデルを訓練することを目的とする。 最近の研究では、CLIPのような大規模な事前学習されたビジュアルランゲージモデル(VLM)が、様々なデータセットから産業的欠陥を検出するための強力な一般化能力を持っていることが示されているが、それらの手法は欠陥に関する手作りのテキストプロンプトに大きく依存しているため、自然画像における医学的画像異常や意味的異常など、他のアプリケーションにおける異常への一般化が困難である。 本研究では,サンプルプロンプトとしてGADモデルを数ショットの正常な画像で訓練することを提案する。 そこで本研究では,GADの文脈内残差学習モデル(InCTRL)を学習する手法を提案する。 クエリ画像と数発のサンプルプロンプト間の残差の全体的評価に基づいて、通常のサンプルから異常を識別する補助データセットを用いて訓練する。 データセットにかかわらず、異常の定義に従って、通常のサンプルよりも大きな残基が異常に対して期待されているため、InCTRLはさらなるトレーニングをすることなく、異なるドメインをまたいで一般化することができる。 9つのADデータセットに関する総合的な実験を行い、工業的欠陥異常、医療的異常、セマンティック異常の検出をカプセル化したGADベンチマークを構築した。 コードはhttps://github.com/mala-lab/InCTRLで入手できる。

This paper explores the problem of Generalist Anomaly Detection (GAD), aiming to train one single detection model that can generalize to detect anomalies in diverse datasets from different application domains without any further training on the target data. Some recent studies have shown that large pre-trained Visual-Language Models (VLMs) like CLIP have strong generalization capabilities on detecting industrial defects from various datasets, but their methods rely heavily on handcrafted text prompts about defects, making them difficult to generalize to anomalies in other applications, e.g., medical image anomalies or semantic anomalies in natural images. In this work, we propose to train a GAD model with few-shot normal images as sample prompts for AD on diverse datasets on the fly. To this end, we introduce a novel approach that learns an in-context residual learning model for GAD, termed InCTRL. It is trained on an auxiliary dataset to discriminate anomalies from normal samples based on a holistic evaluation of the residuals between query images and few-shot normal sample prompts. Regardless of the datasets, per definition of anomaly, larger residuals are expected for anomalies than normal samples, thereby enabling InCTRL to generalize across different domains without further training. Comprehensive experiments on nine AD datasets are performed to establish a GAD benchmark that encapsulate the detection of industrial defect anomalies, medical anomalies, and semantic anomalies in both one-vs-all and multi-class setting, on which InCTRL is the best performer and significantly outperforms state-of-the-art competing methods. Code is available at https://github.com/mala-lab/InCTRL.
翻訳日:2024-03-20 01:21:18 公開日:2024-03-16
# 仮想深度合成による信頼度を考慮したRGB-D顔認識

Confidence-Aware RGB-D Face Recognition via Virtual Depth Synthesis ( http://arxiv.org/abs/2403.06529v2 )

ライセンス: Link先を確認
Zijian Chen, Mei Wang, Weihong Deng, Hongzhi Shi, Dongchao Wen, Yingjie Zhang, Xingchen Cui, Jian Zhao, (参考訳) 2D顔認証は、照明、閉塞、ポーズの変化により、制約のない環境において課題に遭遇する。 近年の研究では、深度情報を組み込んだRGB-D顔認証に焦点が当てられている。 しかし、十分なペアリングRGB-Dトレーニングデータの収集は高価で時間を要するため、広範なデプロイメントを妨げる。 本研究では,まず,深度モデル事前学習のための3次元Morphable Modelsによって生成された多様な深度データセットを構築する。 そこで本研究では,手軽に利用できるRGBと深度モデルを利用したドメイン非依存の事前学習フレームワークを提案する。 2つの異なるネットワークをシームレスに統合し、RGBと深度情報の相補的な利点を活用して精度を向上させるために、革新的な適応信頼度重み付け(ACW)を提案する。 このメカニズムは、各モダリティに対する信頼度推定を学習し、スコアレベルでモダリティ融合を達成するように設計されている。 我々の手法はシンプルで軽量であり、バックボーンモデルを超えたACWトレーニングが必要である。 複数の公立RGB-D顔認証ベンチマーク実験では, 従来の手法を上回り, 深度推定と特徴融合による性能評価を行い, 提案手法の有効性を検証した。

2D face recognition encounters challenges in unconstrained environments due to varying illumination, occlusion, and pose. Recent studies focus on RGB-D face recognition to improve robustness by incorporating depth information. However, collecting sufficient paired RGB-D training data is expensive and time-consuming, hindering wide deployment. In this work, we first construct a diverse depth dataset generated by 3D Morphable Models for depth model pre-training. Then, we propose a domain-independent pre-training framework that utilizes readily available pre-trained RGB and depth models to separately perform face recognition without needing additional paired data for retraining. To seamlessly integrate the two distinct networks and harness the complementary benefits of RGB and depth information for improved accuracy, we propose an innovative Adaptive Confidence Weighting (ACW). This mechanism is designed to learn confidence estimates for each modality to achieve modality fusion at the score level. Our method is simple and lightweight, only requiring ACW training beyond the backbone models. Experiments on multiple public RGB-D face recognition benchmarks demonstrate state-of-the-art performance surpassing previous methods based on depth estimation and feature fusion, validating the efficacy of our approach.
翻訳日:2024-03-20 01:21:18 公開日:2024-03-16
# ALaRM:階層的リワードモデリングによるアライン言語モデル

ALaRM: Align Language Models via Hierarchical Rewards Modeling ( http://arxiv.org/abs/2403.06754v2 )

ライセンス: Link先を確認
Yuhang Lai, Siyuan Wang, Shujun Liu, Xuanjing Huang, Zhongyu Wei, (参考訳) ALaRMは、人間からのフィードバック(RLHF)からの強化学習における最初の階層的報酬をモデル化するフレームワークであり、大きな言語モデル(LLM)と人間の好みとの整合性を高めるために設計されている。 このフレームワークは、アスペクト固有の報酬と全体報酬を統合することで、人間の監視信号の不整合と疎結合にしばしば苦労する、現在のアライメントアプローチの限界に対処する。 この統合により、特に複雑でオープンなテキスト生成タスクにおいて、言語モデルの望ましい結果に対するより正確で一貫したガイダンスが可能になる。 一貫性に基づいて複数の報酬をフィルタリングして組み合わせる方法論を利用することで、このフレームワークはモデルの整合性を改善するための信頼性の高いメカニズムを提供する。 我々は,長文質問応答や機械翻訳タスクの応用,対比較にgpt-3.5-turboを用い,既存のベースラインよりも改善した手法を検証した。 本研究は,LLMトレーニングプロセスにおける階層型報酬モデリングの有効性を,人間の嗜好の整合性向上のために評価するものである。 コードをhttps://ALaRM-fdu.github.ioでリリースします。

We introduce ALaRM, the first framework modeling hierarchical rewards in reinforcement learning from human feedback (RLHF), which is designed to enhance the alignment of large language models (LLMs) with human preferences. The framework addresses the limitations of current alignment approaches, which often struggle with the inconsistency and sparsity of human supervision signals, by integrating holistic rewards with aspect-specific rewards. This integration enables more precise and consistent guidance of language models towards desired outcomes, particularly in complex and open text generation tasks. By employing a methodology that filters and combines multiple rewards based on their consistency, the framework provides a reliable mechanism for improving model alignment. We validate our approach through applications in long-form question answering and machine translation tasks, employing gpt-3.5-turbo for pairwise comparisons, and demonstrate improvements over existing baselines. Our work underscores the effectiveness of hierarchical rewards modeling in refining LLM training processes for better human preference alignment. We release our code at https://ALaRM-fdu.github.io.
翻訳日:2024-03-20 01:21:18 公開日:2024-03-16
# 除去に基づくノード影響の高速推定

Fast Inference of Removal-Based Node Influence ( http://arxiv.org/abs/2403.08333v2 )

ライセンス: Link先を確認
Weikai Li, Zhiping Xiao, Xiao Luo, Yizhou Sun, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ内の情報拡散パターンをキャプチャするために広く利用されている。 優れたパフォーマンスが達成されているが、ノードの影響を評価する新たなトレンドトピックが存在する。 本稿では,ノードの除去による学習GNNモデルの予測変化を計測するノードの影響評価手法を提案する。 現実世界のアプリケーションは、"Twitterアカウントの極性を予測するタスクにおいて、特定のアカウントが削除された場合、他のアカウントの極性をどのように変更するか"である。 我々は,ノード除去に伴うノードやエッジの変化をシミュレート可能な代理モデルとして,GNNを使用している。 我々の目標は、各ノードに対する影響スコアを取得することであり、簡単な方法は、各ノードを交互に削除し、修正したグラフにトレーニングされたGNNを適用して、新しい予測を生成することである。 信頼性はあるが時間を要するので、効率的な方法が必要です。 グラフ敵攻撃や反事実的説明のような関連する作業行は、問題設定が異なるため、我々のニーズを直接満たすことはできない。 本稿では,ノード除去の影響を近似するために勾配情報を用いたNOde-Removal-based fAst GNN推論(NORA)を提案する。 すべてのノードに対する影響スコアを近似するために、1つの前進伝播と1つのバックプロパゲーションしかかからない。 6つのデータセットと6つのGNNモデルに対する大規模な実験により、NORAの有効性が検証された。 私たちのコードはhttps://github.com/weikai-li/NORA.git.comで公開されています。

Graph neural networks (GNNs) are widely utilized to capture the information spreading patterns in graphs. While remarkable performance has been achieved, there is a new trending topic of evaluating node influence. We propose a new method of evaluating node influence, which measures the prediction change of a trained GNN model caused by removing a node. A real-world application is, "In the task of predicting Twitter accounts' polarity, had a particular account been removed, how would others' polarity change?". We use the GNN as a surrogate model whose prediction could simulate the change of nodes or edges caused by node removal. Our target is to obtain the influence score for every node, and a straightforward way is to alternately remove every node and apply the trained GNN on the modified graph to generate new predictions. It is reliable but time-consuming, so we need an efficient method. The related lines of work, such as graph adversarial attack and counterfactual explanation, cannot directly satisfy our needs, since their problem settings are different. We propose an efficient, intuitive, and effective method, NOde-Removal-based fAst GNN inference (NORA), which uses the gradient information to approximate the node-removal influence. It only costs one forward propagation and one backpropagation to approximate the influence score for all nodes. Extensive experiments on six datasets and six GNN models verify the effectiveness of NORA. Our code is available at https://github.com/weikai-li/NORA.git.
翻訳日:2024-03-19 23:24:38 公開日:2024-03-16
# キャビティ光学効果による原子間力顕微鏡カンチレバーの品質因子の制御

Control of quality factor of atomic force microscopy cantilever by cavity optomechanical effect ( http://arxiv.org/abs/2403.10740v1 )

ライセンス: Link先を確認
Noah Austin-Bingamon, Binod D. C., Yoichi Miyahara, (参考訳) 動的モード原子間力顕微鏡では、品質因子が基本的な役割を果たす。 本稿では,Fabry-P'erot光干渉計における原子間力顕微鏡カンチレバーの品質係数を変更する手法を提案する。 実験装置は2つの別々のレーザー源を使用してカンチレバーの振動を検出し、励起する。 励起レーザーの強度変調がカンチレバーの振動を駆動する一方、平均強度は繊維とカンチレバーの空洞の長さを変えることなく、光学的力による品質係数の変更に使用できる。 この技術は、偏向測定感度に影響を与えることなく、様々な種類の測定に対して品質係数を最適化することを可能にする。 予想外の周波数シフトも観測され、有限要素シミュレーションを用いて検証されたカンチレバーのヤング率の温度依存性としてモデル化された。 モデルは熱周波数シフトを補うために使用された。 シミュレーションは、光学パワー、温度、周波数シフトの関係を提供した。

Quality factor plays a fundamental role in dynamic mode atomic force microscopy. We present a technique to modify the quality factor of an atomic force microscopy cantilever within a Fabry-P\'erot optical interferometer. The experimental setup uses two separate laser sources to detect and excite the oscillation of the cantilever. While the intensity modulation of the excitation laser drives the oscillation of the cantilever, the average intensity can be used to modify the quality factor via optomechanical force, without changing the fiber-cantilever cavity length. The technique enables users to optimize the quality factor for different types of measurements without influencing the deflection measurement sensitivity. An unexpected frequency shift was also observed and modelled as temperature dependence of the cantilever's Young's modulus, which was validated using finite element simulation. The model was used to compensate for the thermal frequency shift. The simulation provided relations between optical power, temperature, and frequency shift.
翻訳日:2024-03-19 22:04:53 公開日:2024-03-16
# ゲームとレファレンス:エピデミック予防とコントロールのための政策組合せ合成

Game and Reference: Policy Combination Synthesis for Epidemic Prevention and Control ( http://arxiv.org/abs/2403.10744v1 )

ライセンス: Link先を確認
Zhiyi Tan, Bingkun Bao, (参考訳) 近年、SARS、H1N1、COVID-19などの破滅的な流行に対する予防・規制政策について、知事に参考にするために、疫病対策モデルがますます使われてきている。 既存の研究は2つの問題に制約されている: まず、従来の手法は実世界の意思決定における要素のほとんどをモデル化できないため、効果評価に基づく政策を策定する。 第二に、人間の主観性と認知的限界は、歴史的政策を意思決定モデルの訓練に最適とは限りません。 これらの目的のために,疫病対策のための新しい政策組合せ合成(PCS)モデルを提案する。 特に、極端な決定を防止するため、我々は、生産政策をより人間らしくするよう強制するために、モデル作成政策と実際の政策の間の敵対的学習を導入する。 一方、最適でない歴史的政策の影響を最小限に抑えるため、類似したシナリオ下での最高の歴史的政策から経験をモデルに引き出すために、対照的な学習を採用する。 対立学習と対照的学習は、モデルが常に有用な情報を学ぶことを保証するために、実際のポリシーの包括的な効果に基づいて適応される。 実世界のデータに対する大規模な実験により,提案モデルの有効性が証明された。

In recent years, epidemic policy-making models are increasingly being used to provide reference for governors on prevention and control policies against catastrophic epidemics such as SARS, H1N1 and COVID-19. Existing studies are currently constrained by two issues: First, previous methods develop policies based on effect evaluation, since few of factors in real-world decision-making can be modeled, the output policies will then easily become extreme. Second, the subjectivity and cognitive limitation of human make the historical policies not always optimal for the training of decision models. To these ends, we present a novel Policy Combination Synthesis (PCS) model for epidemic policy-making. Specially, to prevent extreme decisions, we introduce adversarial learning between the model-made policies and the real policies to force the output policies to be more human-liked. On the other hand, to minimize the impact of sub-optimal historical policies, we employ contrastive learning to let the model draw on experience from the best historical policies under similar scenarios. Both adversarial and contrastive learning are adaptive based on the comprehensive effects of real policies to ensure the model always learns useful information. Extensive experiments on real-world data prove the effectiveness of the proposed model.
翻訳日:2024-03-19 22:04:53 公開日:2024-03-16
# 小半径ベクトル探索

Vector search with small radiuses ( http://arxiv.org/abs/2403.10746v1 )

ライセンス: Link先を確認
Gergely Szilvasy, Pierre-Emmanuel Mazaré, Matthijs Douze, (参考訳) 近年, ベクトル探索の精度は, 正確なベクトル検索結果を基底事実として考慮して, 固定サイズ(トップk検索)の結果リストのリコールが主流となっている。 計算には便利だが、この計量はベクトル探索を統合する完全系のエンドツーエンドの精度と遠縁である。 本稿では,例えば,クエリ画像がデータベース画像と一致するか否かを判断するなど,ベクトル検索結果によって決定が難しい場合に焦点をあてる。 我々はこれを範囲探索タスクとして解決し、クエリから特定の半径内にある全てのベクトルが返される。 本研究では,クエリー・ツー・ベクター距離に基づいて,範囲探索結果の値を厳密にモデル化できることを示す。 これにより、範囲探索の指標 RSM が得られ、これは原則的であり、エンドツーエンドの評価を行なわずに計算が容易である。 本稿では,この指標を画像検索に適用する。 トップk検索に適応した索引付け手法が必ずしも RSM を最大化しないことを示す。 特に、逆ファイルベースインデックスの場合、限られたクラスタを訪問し、ベクトルを符号化することで、最適に近い結果が得られることを示す。

In recent years, the dominant accuracy metric for vector search is the recall of a result list of fixed size (top-k retrieval), considering as ground truth the exact vector retrieval results. Although convenient to compute, this metric is distantly related to the end-to-end accuracy of a full system that integrates vector search. In this paper we focus on the common case where a hard decision needs to be taken depending on the vector retrieval results, for example, deciding whether a query image matches a database image or not. We solve this as a range search task, where all vectors within a certain radius from the query are returned. We show that the value of a range search result can be modeled rigorously based on the query-to-vector distance. This yields a metric for range search, RSM, that is both principled and easy to compute without running an end-to-end evaluation. We apply this metric to the case of image retrieval. We show that indexing methods that are adapted for top-k retrieval do not necessarily maximize the RSM. In particular, for inverted file based indexes, we show that visiting a limited set of clusters and encoding vectors compactly yields near optimal results.
翻訳日:2024-03-19 22:04:53 公開日:2024-03-16
# 侵入型及び非侵入型縮小次数モデルのための潜時空間ダイナミクス同定アルゴリズムの総合的レビュー

A Comprehensive Review of Latent Space Dynamics Identification Algorithms for Intrusive and Non-Intrusive Reduced-Order-Modeling ( http://arxiv.org/abs/2403.10748v1 )

ライセンス: Link先を確認
Christophe Bonneville, Xiaolong He, April Tran, Jun Sur Park, William Fries, Daniel A. Messenger, Siu Wun Cheung, Yeonjong Shin, David M. Bortz, Debojyoti Ghosh, Jiun-Shyan Chen, Jonathan Belof, Youngsoo Choi, (参考訳) 偏微分方程式(PDE)の数値解法は物理系のシミュレートに広く用いられている。 しかし、計算コストは様々な科学的・工学的応用において大きなボトルネックであり続けており、それは減階モデル(ROM)の開発を動機付けている。 近年、機械学習ベースのROMが広く普及し、従来のROM手法のいくつかの制限、特にアドベクションに支配されたシステムに対処することを約束している。 この章では、PDEが支配する高忠実度データを、通常の微分方程式(ODE)が支配する単純で低次元の潜在空間データに変換するLaSDI(Latent Space Dynamics Identification)と呼ばれる特定のフレームワークに焦点を当てる。 これらのODEは、ROM予測のために学習し、補間することができる。 LaSDIのビルディングブロックはアプリケーションによって簡単に変更できるので、LaSDIフレームワークは柔軟です。 特に、熱力学の法則をLaSDIモデル(tLaSDI)に適用し、弱形(WLaSDI)を介してノイズの存在下での堅牢性を高め、アクティブラーニング(gLaSDI, GPLaSDI)を通して高忠実度トレーニングデータを効率よく選択し、ガウス過程(GPLaSDI)を介してROM予測の不確実性を定量化する戦略を提案する。 本稿では,バーガース方程式,非線形熱伝導問題,プラズマ物理問題に対するLaSDIアルゴリズムの性能を実証し,LaSDIアルゴリズムが数パーセント未満の相対誤差を最大数千倍のスピードアップで達成可能であることを示した。

Numerical solvers of partial differential equations (PDEs) have been widely employed for simulating physical systems. However, the computational cost remains a major bottleneck in various scientific and engineering applications, which has motivated the development of reduced-order models (ROMs). Recently, machine-learning-based ROMs have gained significant popularity and are promising for addressing some limitations of traditional ROM methods, especially for advection dominated systems. In this chapter, we focus on a particular framework known as Latent Space Dynamics Identification (LaSDI), which transforms the high-fidelity data, governed by a PDE, to simpler and low-dimensional latent-space data, governed by ordinary differential equations (ODEs). These ODEs can be learned and subsequently interpolated to make ROM predictions. Each building block of LaSDI can be easily modulated depending on the application, which makes the LaSDI framework highly flexible. In particular, we present strategies to enforce the laws of thermodynamics into LaSDI models (tLaSDI), enhance robustness in the presence of noise through the weak form (WLaSDI), select high-fidelity training data efficiently through active learning (gLaSDI, GPLaSDI), and quantify the ROM prediction uncertainty through Gaussian processes (GPLaSDI). We demonstrate the performance of different LaSDI approaches on Burgers equation, a non-linear heat conduction problem, and a plasma physics problem, showing that LaSDI algorithms can achieve relative errors of less than a few percent and up to thousands of times speed-ups.
翻訳日:2024-03-19 22:04:53 公開日:2024-03-16
# 大規模言語モデルを用いたソーシャルメディアの抑うつ検出

Depression Detection on Social Media with Large Language Models ( http://arxiv.org/abs/2403.10750v1 )

ライセンス: Link先を確認
Xiaochong Lan, Yiming Cheng, Li Sheng, Chen Gao, Yong Li, (参考訳) うつ病は危ない。 しかし、精神的な健康意識の欠如と便秘の恐れのため、多くの患者は診断や治療を積極的に求めておらず、有害な結果をもたらす。 抑うつ検出は、個人がうつ病に苦しむかどうかを、ソーシャルメディア上の投稿履歴を分析して判断することを目的としており、早期発見と介入に大いに役立つ。 主な課題は2つある。 1)専門的な医療知識が必要で、 2)精度と説明性の両方を必要とする。 そこで本研究では,医学知識と大規模言語モデル(LLM)の最近の進歩を融合した,DORISと呼ばれる新しい抑うつ検出システムを提案する。 具体的には,まず,リスクの高いテキストが診断基準を満たしているかどうかをアノテートするためのLCMベースのソリューションを提案する。 さらに,感情強度の高いテキストを検索し,ユーザの歴史的気分記録から批判情報を要約する。 第2の課題に取り組むために、LSMと従来の分類器を組み合わせて医療知識誘導機能を統合する。 ベンチマークデータセットの大規模な実験結果から,現在の最良ベースラインと比較して,AUPRCでは0.036の改善が見られ,本手法の有効性とNLPアプリケーションとしての価値が示された。

Depression harms. However, due to a lack of mental health awareness and fear of stigma, many patients do not actively seek diagnosis and treatment, leading to detrimental outcomes. Depression detection aims to determine whether an individual suffers from depression by analyzing their history of posts on social media, which can significantly aid in early detection and intervention. It mainly faces two key challenges: 1) it requires professional medical knowledge, and 2) it necessitates both high accuracy and explainability. To address it, we propose a novel depression detection system called DORIS, combining medical knowledge and the recent advances in large language models (LLMs). Specifically, to tackle the first challenge, we proposed an LLM-based solution to first annotate whether high-risk texts meet medical diagnostic criteria. Further, we retrieve texts with high emotional intensity and summarize critical information from the historical mood records of users, so-called mood courses. To tackle the second challenge, we combine LLM and traditional classifiers to integrate medical knowledge-guided features, for which the model can also explain its prediction results, achieving both high accuracy and explainability. Extensive experimental results on benchmarking datasets show that, compared to the current best baseline, our approach improves by 0.036 in AUPRC, which can be considered significant, demonstrating the effectiveness of our approach and its high value as an NLP application.
翻訳日:2024-03-19 22:04:53 公開日:2024-03-16
# LIGHTCODE:フィードバックのあるチャネルの光解析とニューラルコード

LIGHTCODE: Light Analytical and Neural Codes for Channels with Feedback ( http://arxiv.org/abs/2403.10751v1 )

ライセンス: Link先を確認
Sravan Kumar Ankireddy, Krishna Narayanan, Hyeji Kim, (参考訳) フィードバックのあるチャネルのための信頼性と効率のよい符号の設計は、通信理論における長年にわたる課題である。 ディープラーニング技術を活用することで大幅な改善が達成されているが、ニューラルネットワークは高い計算コスト、解釈可能性の欠如、リソース制約された設定における限られた実用性に悩まされることが多い。 我々は,通信システムに適した低複雑さの符号化方式を設計することに注力する。 我々は分析コードとニューラルコードの両方を前進させる。 まず,Schalkwijk-Kailath (SK) と Gallager-Nakiboglu (GN) のスキームにインスパイアされた解析的符号化スキームである POWERBLAST が,SK と GN のスキームに対して顕著な信頼性向上を実現し,高信号-雑音比(SNR)領域におけるニューラルコードよりも優れていることを示した。 次に、低SNR領域の信頼性を高めるために、既存のディープラーニングベースのコードと比較して、わずかなメモリと計算を使いながら最先端の信頼性を実現する軽量なニューラルコードであるLIGHTCODEを提案する。 最後に、学習したコードを体系的に解析し、LIGHTCODEとPOWERBLASTの接続を確立し、性能に不可欠なコンポーネントを特定し、線形回帰解析によって支援された解釈を提供する。

The design of reliable and efficient codes for channels with feedback remains a longstanding challenge in communication theory. While significant improvements have been achieved by leveraging deep learning techniques, neural codes often suffer from high computational costs, a lack of interpretability, and limited practicality in resource-constrained settings. We focus on designing low-complexity coding schemes that are interpretable and more suitable for communication systems. We advance both analytical and neural codes. First, we demonstrate that POWERBLAST, an analytical coding scheme inspired by Schalkwijk-Kailath (SK) and Gallager-Nakiboglu (GN) schemes, achieves notable reliability improvements over both SK and GN schemes, outperforming neural codes in high signal-to-noise ratio (SNR) regions. Next, to enhance reliability in low-SNR regions, we propose LIGHTCODE, a lightweight neural code that achieves state-of-the-art reliability while using a fraction of memory and compute compared to existing deep-learning-based codes. Finally, we systematically analyze the learned codes, establishing connections between LIGHTCODE and POWERBLAST, identifying components crucial for performance, and providing interpretation aided by linear regression analysis.
翻訳日:2024-03-19 22:04:53 公開日:2024-03-16
# クラッシュレポートマイニングに基づくバグローカライゼーションの影響:開発者の視点

The Impact Of Bug Localization Based on Crash Report Mining: A Developers' Perspective ( http://arxiv.org/abs/2403.10753v1 )

ライセンス: Link先を確認
Marcos Medeiros, Uirá Kulesza, Roberta Coelho, Rodrigo Bonifácio, Christoph Treude, Eiji Adachi, (参考訳) 開発者はしばしば、バグの根本原因を理解するためにクラッシュレポートを使う。 しかし、ログデータベースに多くのクラッシュレポートがある場合、このような情報からバグの多いソースコードスニペットを見つけることは難しい作業である。 この問題を軽減するため,最近の研究では,クラッシュレポートデータのグループ化とスタックトレース情報によるバグ発見のためのアプローチを提案し,評価している。 このようなアプローチの有効性は、主にバグ修正コミットの実際の変更コードと比較することで評価されている。 したがって、既存の文献では、ソフトウェア企業の日々の生活におけるそのようなアプローチの使用についての議論がまだ欠けているため、これらのアプローチの使用に対する開発者の認識が説明できる。 本稿では,ソフトウェア企業の3つの開発チームにおいて,クラッシュレポートをグループ化し,バグのあるコードを毎週18ヶ月にわたって発見するためのアプローチを用いた経験を報告する。 私たちは75万以上のクラッシュレポートをグループ化し、130のイシューを開き、18人の開発者とチームのリーダからフィードバックを集めました。 その結果、クラッシュ報告グループに関連するシステムログの量は、開発者が分析対象のバグを選択するのに使用する基準ではないことがわかった。 代わりに、顧客優先の機能の提供の必要性、複雑なクラッシュレポート(アーキテクチャ上の負債など)の解決が難しいことなど、他の要因も検討された。 この調査で調査されたアプローチは、バギーファイルの大部分を正しく示唆していた。 本研究では,事故報告から抽出した不審なファイルや方法の有用性について,開発者が自身の見解を公開し,関連するバグを修正した。

Developers often use crash reports to understand the root cause of bugs. However, locating the buggy source code snippet from such information is a challenging task, mainly when the log database contains many crash reports. To mitigate this issue, recent research has proposed and evaluated approaches for grouping crash report data and using stack trace information to locate bugs. The effectiveness of such approaches has been evaluated by mainly comparing the candidate buggy code snippets with the actual changed code in bug-fix commits -- which happens in the context of retrospective repository mining studies. Therefore, the existing literature still lacks discussing the use of such approaches in the daily life of a software company, which could explain the developers' perceptions on the use of these approaches. In this paper, we report our experience of using an approach for grouping crash reports and finding buggy code on a weekly basis for 18 months, within three development teams in a software company. We grouped over 750,000 crash reports, opened over 130 issues, and collected feedback from 18 developers and team leaders. Among other results, we observe that the amount of system logs related to a crash report group is not the only criteria developers use to choose a candidate bug to be analyzed. Instead, other factors were considered, such as the need to deliver customer-prioritized features and the difficulty of solving complex crash reports (e.g., architectural debts), to cite some. The approach investigated in this study correctly suggested the buggy file most of the time -- the approach's precision was around 80%. In this study, the developers also shared their perspectives on the usefulness of the suspicious files and methods extracted from crash reports to fix related bugs.
翻訳日:2024-03-19 22:04:53 公開日:2024-03-16
# Match-Stereo-Videos: Consistent Dynamic Stereo Matchingのための双方向アライメント

Match-Stereo-Videos: Bidirectional Alignment for Consistent Dynamic Stereo Matching ( http://arxiv.org/abs/2403.10755v1 )

ライセンス: Link先を確認
Junpeng Jing, Ye Mao, Krystian Mikolajczyk, (参考訳) 動的ステレオマッチングは、ステレオビデオと動的オブジェクトとの一貫性のある相違を推定するタスクである。 近年の学習ベース手法では,一対のステレオペア上での最適性能が優先され,時間的矛盾が生じている。 既存のビデオ手法では、フレームごとのマッチングとウィンドウベースのコストアグリゲーションが時間次元にわたって適用され、ウィンドウサイズのスケールでの低周波発振につながる。 そこで本研究では,隣接フレームの双方向アライメント機構を基本動作として開発する。 さらに,一貫した動的ステレオマッチングを実現する新しいフレームワークBiDAStereoを提案する。 既存の手法とは異なり、我々はこのタスクを局所的なマッチングとグローバルアグリゲーションとしてモデル化する。 局所的に、隣接するフレームから情報をプールし、時間的整合性を改善するために、3重フレーム方式で相関を考察する。 グローバルに、シーケンス全体の一貫性を利用して、集約のための動的シーンキューを抽出するために、モーションプロパゲーション・リカレント・ユニットを開発する。 大規模実験により,提案手法の性能,予測精度の向上,各種ベンチマークの最先端結果の達成が示された。

Dynamic stereo matching is the task of estimating consistent disparities from stereo videos with dynamic objects. Recent learning-based methods prioritize optimal performance on a single stereo pair, resulting in temporal inconsistencies. Existing video methods apply per-frame matching and window-based cost aggregation across the time dimension, leading to low-frequency oscillations at the scale of the window size. Towards this challenge, we develop a bidirectional alignment mechanism for adjacent frames as a fundamental operation. We further propose a novel framework, BiDAStereo, that achieves consistent dynamic stereo matching. Unlike the existing methods, we model this task as local matching and global aggregation. Locally, we consider correlation in a triple-frame manner to pool information from adjacent frames and improve the temporal consistency. Globally, to exploit the entire sequence's consistency and extract dynamic scene cues for aggregation, we develop a motion-propagation recurrent unit. Extensive experiments demonstrate the performance of our method, showcasing improvements in prediction quality and achieving state-of-the-art results on various commonly used benchmarks.
翻訳日:2024-03-19 21:54:53 公開日:2024-03-16
# オープン情報抽出のためのルール

Rules still work for Open Information Extraction ( http://arxiv.org/abs/2403.10758v1 )

ライセンス: Link先を確認
Jialin Hua, Liangqing Luo, Weiying Ping, Yan Liao, Chunhai Tao, Xuewen Lub, (参考訳) オープン情報抽出(OIE)は、ドメインに関係なく、自然言語テキストから表面関係とその対応する引数を抽出することを目的としている。 本稿では,中国語テキストに適した革新的なOIEモデルであるAPRCOIEを提案する。 従来のモデルから切り離されたモデルでは,抽出パターンを自律的に生成する。 このモデルは中国OIEの新しいパターン形式を定義し、自動パターン生成手法を提案する。 このようにして、このモデルは、複雑で多様な中国の文法現象を扱うことができる。 テンソル演算に基づく予備フィルタを設計し,抽出手順を効率的に行う。 モデルをトレーニングするために,大規模な中国語OIEデータセットを手動でアノテートした。 比較評価では、APRCOIEは現在の中国のOIEモデルより優れており、達成可能なOIE性能の境界を大きく広げている。 APRCOIEのコードとアノテーション付きデータセットはGitHubで公開されている(https://github.com/jialin666/APRCOIE_v1)。

Open information extraction (OIE) aims to extract surface relations and their corresponding arguments from natural language text, irrespective of domain. This paper presents an innovative OIE model, APRCOIE, tailored for Chinese text. Diverging from previous models, our model generates extraction patterns autonomously. The model defines a new pattern form for Chinese OIE and proposes an automated pattern generation methodology. In that way, the model can handle a wide array of complex and diverse Chinese grammatical phenomena. We design a preliminary filter based on tensor computing to conduct the extraction procedure efficiently. To train the model, we manually annotated a large-scale Chinese OIE dataset. In the comparative evaluation, we demonstrate that APRCOIE outperforms state-of-the-art Chinese OIE models and significantly expands the boundaries of achievable OIE performance. The code of APRCOIE and the annotated dataset are released on GitHub (https://github.com/jialin666/APRCOIE_v1)
翻訳日:2024-03-19 21:54:53 公開日:2024-03-16
# ハイブリッドアクション深部強化学習によるドローンと移動帯電器のスケジューリング

Scheduling Drone and Mobile Charger via Hybrid-Action Deep Reinforcement Learning ( http://arxiv.org/abs/2403.10761v1 )

ライセンス: Link先を確認
Jizhe Dou, Haotian Zhang, Guodong Sun, (参考訳) 近年、無人航空機(一般にドローン)の運用寿命を延ばすためのワイヤレス充電器の使用に関して、産業や学界への関心が高まっている。 本稿では,充電器を利用したドローンアプリケーションについて考察する。ドローンは一定の関心点を観測するために配置され,充電器はドローンのバッテリーを充電するために移動することができる。 我々は、ドローンと移動充電器のルートと充電スケジュールに注目し、タスク実行中にドローンが動作し続けることを保証しながら、可能な限り短時間で高観測ユーティリティを得る。 基本的に、提案されたドローン充電器スケジューリング問題は、ドローンと移動充電器がタスクを完了させるために協力する2つのエージェントとして機能する、多段階の意思決定プロセスである。 2つのエージェントの離散-連続的ハイブリッドアクション空間は、我々の問題に重大な課題を生じさせる。 この問題に対処するため、我々は、標準ポリシー学習アルゴリズムを用いて潜時連続行動を生成するハイブリッドアクション深層強化学習フレームワークHaDMCを提案する。 表現学習によって動機づけられた我々は、アクションデコーダを特別に設計し、訓練する。 ドローンと充電器が直接環境と対話できるように、潜伏した連続的なアクションを元の離散的かつ連続的なアクションに変換する2つのパイプラインを含んでいる。 モデルトレーニングに相互学習スキームを組み込み,個別の行動よりも協調性を重視した。 本研究では,HDMCを評価するための大規模な数値実験を行い,最先端の深層強化学習手法と比較する。 実験の結果,提案手法の有効性と有効性を示した。

Recently there has been a growing interest in industry and academia, regarding the use of wireless chargers to prolong the operational longevity of unmanned aerial vehicles (commonly knowns as drones). In this paper we consider a charger-assisted drone application: a drone is deployed to observe a set points of interest, while a charger can move to recharge the drone's battery. We focus on the route and charging schedule of the drone and the mobile charger, to obtain high observation utility with the shortest possible time, while ensuring the drone remains operational during task execution. Essentially, this proposed drone-charger scheduling problem is a multi-stage decision-making process, in which the drone and the mobile charger act as two agents who cooperate to finish a task. The discrete-continuous hybrid action space of the two agents poses a significant challenge in our problem. To address this issue, we present a hybrid-action deep reinforcement learning framework, called HaDMC, which uses a standard policy learning algorithm to generate latent continuous actions. Motivated by representation learning, we specifically design and train an action decoder. It involves two pipelines to convert the latent continuous actions into original discrete and continuous actions, by which the drone and the charger can directly interact with environment. We embed a mutual learning scheme in model training, emphasizing the collaborative rather than individual actions. We conduct extensive numerical experiments to evaluate HaDMC and compare it with state-of-the-art deep reinforcement learning approaches. The experimental results show the effectiveness and efficiency of our solution.
翻訳日:2024-03-19 21:54:53 公開日:2024-03-16
# 高速分布ロバスト最適化のためのプリマル双対アルゴリズム

A Primal-Dual Algorithm for Faster Distributionally Robust Optimization ( http://arxiv.org/abs/2403.10763v1 )

ライセンス: Link先を確認
Ronak Mehta, Jelena Diakonikolas, Zaid Harchaoui, (参考訳) 我々は、閉じた凸不確実性セットと、$f$-DRO、Wasserstein-DRO、および実際に使用されるスペクトル/$L$-riskの定式化を含む設定を含む、ペナル化された分散ロバスト最適化(DRO)問題を考察する。 本稿では,Dragoについて述べる。Dragoは,DRO問題に対して,最先端の線形収束率を実現する確率的原始双対アルゴリズムである。 この方法はランダム化成分と巡回成分の両方をミニバッチ化と組み合わせ、DROにおける原始問題と双対問題の特異な非対称性を効果的に扱う。 分類と回帰の数値的なベンチマークで理論的結果を支持する。

We consider the penalized distributionally robust optimization (DRO) problem with a closed, convex uncertainty set, a setting that encompasses the $f$-DRO, Wasserstein-DRO, and spectral/$L$-risk formulations used in practice. We present Drago, a stochastic primal-dual algorithm that achieves a state-of-the-art linear convergence rate on strongly convex-strongly concave DRO problems. The method combines both randomized and cyclic components with mini-batching, which effectively handles the unique asymmetric nature of the primal and dual problems in DRO. We support our theoretical results with numerical benchmarks in classification and regression.
翻訳日:2024-03-19 21:54:53 公開日:2024-03-16
# ECRC: 韓国のGCN対話における感情・因果認識

ECRC: Emotion-Causality Recognition in Korean Conversation for GCN ( http://arxiv.org/abs/2403.10764v1 )

ライセンス: Link先を確認
J. K. Lee, T. M. Chung, (参考訳) 会話場面における感情とその根本原因の同時分析に関するマルチタスク学習では,大規模ラベル付きデータセットを効果的に処理し,訓練するためにディープニューラルネットワーク手法が用いられた。 しかしながら、これらのアプローチは一般的に、単語レベルの埋め込みと文レベルの埋め込みという2つの方法の1つに依存しているため、コーパス全体にわたる文脈分析の実行に限られる。 前者は多義語や同義語に苦しむが、後者は長文を処理する際に情報損失を引き起こす。 本研究では,単語レベルの埋め込みと文レベルの埋め込みの両方を活用することで,過去の埋め込みの限界を克服する。 さらに,新しいグラフ構造に基づく会話(ECRC)モデルにおける感情の因果性認識を提案し,両者の埋め込み手法の強みを生かした。 このモデルは、双方向長短期メモリ(Bi-LSTM)とグラフニューラルネットワーク(GCN)モデルを韓国の会話分析のために一意に統合する。 1つの埋め込み法にのみ依存するモデルと比較して、提案モデルは言語の特徴や関係といった抽象概念を効果的に構成し、情報損失を最小限に抑える。 モデル性能を評価するため、3つのディープニューラルネットワークモデルのマルチタスク学習結果とグラフ構造を比較した。 さらに,韓国語と英語のデータセットを用いて提案モデルの評価を行った。 実験結果から,ノード特性とエッジ特性をグラフ構造に組み込んだ場合のマルチタスク学習(74.62%,75.30%)において,モデルの有効性が示された。 同様の結果は、韓国のECCデータセットとウェルネスデータセット(それぞれ74.62%と73.44%)で記録され、IEMOCAPの英語データセットでは71.35%であった。

In this multi-task learning study on simultaneous analysis of emotions and their underlying causes in conversational contexts, deep neural network methods were employed to effectively process and train large labeled datasets. However, these approaches are typically limited to conducting context analyses across the entire corpus because they rely on one of the two methods: word- or sentence-level embedding. The former struggles with polysemy and homonyms, whereas the latter causes information loss when processing long sentences. In this study, we overcome the limitations of previous embeddings by utilizing both word- and sentence-level embeddings. Furthermore, we propose the emotion-causality recognition in conversation (ECRC) model, which is based on a novel graph structure, thereby leveraging the strengths of both embedding methods. This model uniquely integrates the bidirectional long short-term memory (Bi-LSTM) and graph neural network (GCN) models for Korean conversation analysis. Compared with models that rely solely on one embedding method, the proposed model effectively structures abstract concepts, such as language features and relationships, thereby minimizing information loss. To assess model performance, we compared the multi-task learning results of three deep neural network models with varying graph structures. Additionally, we evaluated the proposed model using Korean and English datasets. The experimental results show that the proposed model performs better in emotion and causality multi-task learning (74.62% and 75.30%, respectively) when node and edge characteristics are incorporated into the graph structure. Similar results were recorded for the Korean ECC and Wellness datasets (74.62% and 73.44%, respectively) with 71.35% on the IEMOCAP English dataset.
翻訳日:2024-03-19 21:54:53 公開日:2024-03-16
# 経時的不均一処理効果推定のためのODE発見

ODE Discovery for Longitudinal Heterogeneous Treatment Effects Inference ( http://arxiv.org/abs/2403.10766v1 )

ライセンス: Link先を確認
Krzysztof Kacprzyk, Samuel Holt, Jeroen Berrevoets, Zhaozhi Qian, Mihaela van der Schaar, (参考訳) 偏見のない治療効果を推測することは、機械学習コミュニティで広く注目を集めている。 近年,我々のコミュニティでは,標準設定,高次元処理設定,縦方向設定など,数多くのソリューションが提案されている。 非常に多様だが、このソリューションは主に、代入バイアスの推論と同時修正のためにニューラルネットワークに依存している。 新しいアプローチは通常、新しい(あるいは洗練された)アーキテクチャと学習アルゴリズムを提案することで、以前のアプローチの上に構築される。 しかし、最終的な結果(ニューラルネットワークベースの推論マシン)はいまだ無意味だ。 本稿では, 閉形式常微分方程式 (ODE) という, 異なるタイプの解を縦方向の設定で導入する。 私たちはまだODEを学ぶために継続的な最適化に依存していますが、結果として生じる推論マシンはもはやニューラルネットワークではありません。 そうすることで、解釈可能性、不規則サンプリング、異なる識別仮定のセットなど、いくつかの利点が得られる。 とりわけ、治療効果に全く新しい革新をもたらす可能性があるため、全く新しいタイプのソリューションの導入が最も重要な貢献であると考えています。 我々は、ODE発見法を治療効果法に変換するフレームワークとして、コントリビューションを定式化することで、これを促進します。

Inferring unbiased treatment effects has received widespread attention in the machine learning community. In recent years, our community has proposed numerous solutions in standard settings, high-dimensional treatment settings, and even longitudinal settings. While very diverse, the solution has mostly relied on neural networks for inference and simultaneous correction of assignment bias. New approaches typically build on top of previous approaches by proposing new (or refined) architectures and learning algorithms. However, the end result -- a neural-network-based inference machine -- remains unchallenged. In this paper, we introduce a different type of solution in the longitudinal setting: a closed-form ordinary differential equation (ODE). While we still rely on continuous optimization to learn an ODE, the resulting inference machine is no longer a neural network. Doing so yields several advantages such as interpretability, irregular sampling, and a different set of identification assumptions. Above all, we consider the introduction of a completely new type of solution to be our most important contribution as it may spark entirely new innovations in treatment effects in general. We facilitate this by formulating our contribution as a framework that can transform any ODE discovery method into a treatment effects method.
翻訳日:2024-03-19 21:54:53 公開日:2024-03-16
# 人間の比較によるアライメントの確率論的アプローチ

A Probabilistic Approach for Alignment with Human Comparisons ( http://arxiv.org/abs/2403.10771v1 )

ライセンス: Link先を確認
Junyu Cao, Mohsen Bayati, (参考訳) 成長するトレンドは、人間の知識を学習フレームワークに統合し、微妙な人間のフィードバックを活用してAIモデルを洗練することである。 これらの進歩にもかかわらず、人間の比較が従来の微調整プロセスを改善する特定の条件を記述する包括的な理論的枠組みは開発されていない。 このギャップを埋めるために,ノイズデータと高次元モデルから生じる制約に対処するために,人間の比較を効果的に活用することを検討した。 確率的二分法を用いて機械学習と人間のフィードバックを結びつける2段階の「スーパービジョン・ファインチューニング+Human Comparison」(SFT+HC)フレームワークを提案する。 この2段階のフレームワークは、まずSFTプロシージャを介してノイズラベル付きデータから低次元の表現を学習し、続いて人間比較を用いてモデルアライメントを改善する。 本稿では,アライメントフェーズの有効性を検討するために,LNCA(label-noise-to-comparison-accuracy)という新しい概念を導入する。 本稿では,「SFT+HC」フレームワークが純粋なSFTアプローチより優れている条件を理論的に同定し,この比を利用して,サンプルの複雑さの低減にヒト評価器を組み込むことの利点を明らかにする。 LNCA比の条件がAmazon Mechanical Turk実験によって実施されたケーススタディで満たされていることを検証した。

A growing trend involves integrating human knowledge into learning frameworks, leveraging subtle human feedback to refine AI models. Despite these advances, no comprehensive theoretical framework describing the specific conditions under which human comparisons improve the traditional supervised fine-tuning process has been developed. To bridge this gap, this paper studies the effective use of human comparisons to address limitations arising from noisy data and high-dimensional models. We propose a two-stage "Supervised Fine Tuning+Human Comparison" (SFT+HC) framework connecting machine learning with human feedback through a probabilistic bisection approach. The two-stage framework first learns low-dimensional representations from noisy-labeled data via an SFT procedure, and then uses human comparisons to improve the model alignment. To examine the efficacy of the alignment phase, we introduce a novel concept termed the "label-noise-to-comparison-accuracy" (LNCA) ratio. This paper theoretically identifies the conditions under which the "SFT+HC" framework outperforms pure SFT approach, leveraging this ratio to highlight the advantage of incorporating human evaluators in reducing sample complexity. We validate that the proposed conditions for the LNCA ratio are met in a case study conducted via an Amazon Mechanical Turk experiment.
翻訳日:2024-03-19 21:54:53 公開日:2024-03-16
# DPPE:グラディエント近似を用いたプレノクセル環境における高密度空間推定

DPPE: Dense Pose Estimation in a Plenoxels Environment using Gradient Approximation ( http://arxiv.org/abs/2403.10773v1 )

ライセンス: Link先を確認
Christopher Kolios, Yeganeh Bahoo, Sajad Saeedi, (参考訳) Plenoxels環境上で機能する高密度ポーズ推定アルゴリズムDPPEを提案する。 近年の神経放射場技術の発展により、環境表現の強力なツールであることが示されている。 最近のニューラルレンダリングアルゴリズムでは、トレーニング期間とレンダリング速度の両方が大幅に改善されている。 Plenoxelsは、レンダリングにVoxelに含まれるPlenopticボリューム要素を使用し、トレーニング時間を短縮し、レンダリング精度を向上し、ニューラルネットコンポーネントを除去する、完全微分可能な放射場技術を導入した。 本研究では,6-DoF単分子RGBのみのポーズ推定手法をPlenoxelsに導入し,摂動後の地中真理カメラのポーズを復元する手法を提案する。 我々は、確率勾配勾配を用いた古典的テンプレートマッチング手法のバリエーションを用いて、再レンダリングにおける誤差を最小限に抑えてポーズを最適化する。 特に,Plenoxelsの高速レンダリング速度を利用してポーズ勾配の一部を数値的に近似する手法について,中央差分法を用いて検討する。 このような手法がポーズ推定に有効であることを示す。 最後に、画像サブサンプリングとプレノキセルグリッドの分解に焦点をあて、問題空間の重要成分に対するアブレーションを行う。 プロジェクトウェブサイト: https://sites.google.com/view/dppe

We present DPPE, a dense pose estimation algorithm that functions over a Plenoxels environment. Recent advances in neural radiance field techniques have shown that it is a powerful tool for environment representation. More recent neural rendering algorithms have significantly improved both training duration and rendering speed. Plenoxels introduced a fully-differentiable radiance field technique that uses Plenoptic volume elements contained in voxels for rendering, offering reduced training times and better rendering accuracy, while also eliminating the neural net component. In this work, we introduce a 6-DoF monocular RGB-only pose estimation procedure for Plenoxels, which seeks to recover the ground truth camera pose after a perturbation. We employ a variation on classical template matching techniques, using stochastic gradient descent to optimize the pose by minimizing errors in re-rendering. In particular, we examine an approach that takes advantage of the rapid rendering speed of Plenoxels to numerically approximate part of the pose gradient, using a central differencing technique. We show that such methods are effective in pose estimation. Finally, we perform ablations over key components of the problem space, with a particular focus on image subsampling and Plenoxel grid resolution. Project website: https://sites.google.com/view/dppe
翻訳日:2024-03-19 21:54:53 公開日:2024-03-16
# 大規模言語モデルにおけるバイアス検出:微調整KcBERT

Detecting Bias in Large Language Models: Fine-tuned KcBERT ( http://arxiv.org/abs/2403.10774v1 )

ライセンス: Link先を確認
J. K. Lee, T. M. Chung, (参考訳) 大規模言語モデル(LLM)の急速な進歩により、自然言語処理能力は人間のものと類似し、LLMは教育や医療といった様々な社会的領域で広く活用されている。 これらのモデルの汎用性は増大しているが、主観的かつ規範的な言語を生成する可能性があり、特にオンライン攻撃的な言語によって、社会集団間の差別的治療や結果をもたらす。 本稿では,社会的な偏見や民族的,性別的,人種的偏見などの害を,テンプレートベースのマスケッド言語モデリング(MLM)を用いて,双方向エンコーダ表現(KcBERT)とKOLDデータを用いて,韓国のコメントを微調整したモデルで定義する。 バイアスを定量的に評価するために,LPBSとCBSのメトリクスを用いる。 KcBERTと比較すると、微調整されたモデルは民族バイアスの減少を示すが、性別や人種バイアスの著しい変化を示す。 これらの結果に基づき,社会的バイアスを軽減する2つの方法を提案する。 第一に、事前学習段階におけるデータバランスのアプローチは、特定の単語の発生の分布を調整し、周囲の有害な単語を有害でない単語に変換することによってデータの均一性を調整する。 第2に、トレーニング中の段階において、ドロップアウトと正規化を調整し、トレーニング損失の減少を確認することにより、デバイアスング規則化を適用する。 我々の貢献は、言語に依存した特徴により、韓国語モデルに社会的バイアスが存在することを示すことである。

The rapid advancement of large language models (LLMs) has enabled natural language processing capabilities similar to those of humans, and LLMs are being widely utilized across various societal domains such as education and healthcare. While the versatility of these models has increased, they have the potential to generate subjective and normative language, leading to discriminatory treatment or outcomes among social groups, especially due to online offensive language. In this paper, we define such harm as societal bias and assess ethnic, gender, and racial biases in a model fine-tuned with Korean comments using Bidirectional Encoder Representations from Transformers (KcBERT) and KOLD data through template-based Masked Language Modeling (MLM). To quantitatively evaluate biases, we employ LPBS and CBS metrics. Compared to KcBERT, the fine-tuned model shows a reduction in ethnic bias but demonstrates significant changes in gender and racial biases. Based on these results, we propose two methods to mitigate societal bias. Firstly, a data balancing approach during the pre-training phase adjusts the uniformity of data by aligning the distribution of the occurrences of specific words and converting surrounding harmful words into non-harmful words. Secondly, during the in-training phase, we apply Debiasing Regularization by adjusting dropout and regularization, confirming a decrease in training loss. Our contribution lies in demonstrating that societal bias exists in Korean language models due to language-dependent characteristics.
翻訳日:2024-03-19 21:54:53 公開日:2024-03-16
# ポットの融解から表現の誤りへ - ジェネレーティブAIのハームを探る

From Melting Pots to Misrepresentations: Exploring Harms in Generative AI ( http://arxiv.org/abs/2403.10776v1 )

ライセンス: Link先を確認
Sanjana Gautam, Pranav Narayanan Venkit, Sourojit Ghosh, (参考訳) GeminiやGPTといった先進的な生成モデルの普及に伴い、AI-as-a-Service(AIaaS)に分類される社会技術システムへのモデルの導入が顕著に増加した。 多様な分野にまたがる多角性にもかかわらず、これらのモデルにおける差別的傾向に関する懸念は続き、特に様々な社会デミノグラフィー次元で選択された「多数」人口層を好んでいる。 メディア表現の多様化を求める声が広まってはいるものの、人種や民族の少数派は、AIaaSの文脈の中で永続的な歪曲、ステレオタイピング、無視に直面し続けている。 本研究は,社会的危害の文脈における研究状況の批判的要約を提供し,会話の意義に焦点をあてる。 また、今後の研究経路の定義を支援するため、議論に導かれたオープンエンドな研究課題も提示する。

With the widespread adoption of advanced generative models such as Gemini and GPT, there has been a notable increase in the incorporation of such models into sociotechnical systems, categorized under AI-as-a-Service (AIaaS). Despite their versatility across diverse sectors, concerns persist regarding discriminatory tendencies within these models, particularly favoring selected `majority' demographics across various sociodemographic dimensions. Despite widespread calls for diversification of media representations, marginalized racial and ethnic groups continue to face persistent distortion, stereotyping, and neglect within the AIaaS context. In this work, we provide a critical summary of the state of research in the context of social harms to lead the conversation to focus on their implications. We also present open-ended research questions, guided by our discussion, to help define future research pathways.
翻訳日:2024-03-19 21:54:53 公開日:2024-03-16
# HCF-Net:赤外線小物体検出のための階層型コンテキスト融合ネットワーク

HCF-Net: Hierarchical Context Fusion Network for Infrared Small Object Detection ( http://arxiv.org/abs/2403.10778v1 )

ライセンス: Link先を確認
Shibiao Xu, ShuChen Zheng, Wenhao Xu, Rongtao Xu, Changwei Wang, Jiguang Zhang, Xiaoqiang Teng, Ao Li, Li Guo, (参考訳) 赤外線小物体検出は、通常は数ピクセルしか持たない、赤外線画像中の小さな物体の認識と位置決めを含む重要なコンピュータビジョンタスクである。 しかし、物体の大きさが小さくなり、赤外線画像の背景が複雑になるため、困難に直面している。 本稿では,複数の実用モジュールによる赤外線小物体検出性能を大幅に向上する深層学習手法HCF-Netを提案する。 具体的には、PPAモジュール、DASIモジュール、MDCRモジュールを含む。 PPAモジュールはマルチブランチ機能抽出戦略を使用して、さまざまなスケールとレベルで特徴情報をキャプチャする。 DASIモジュールは適応的なチャネル選択と融合を可能にする。 MDCRモジュールは、複数の深さ分離可能な畳み込み層を通して異なる受容領域の空間的特徴をキャプチャする。 SIRST赤外線単一フレーム画像データセットの大規模な実験結果から,提案したHCF-Netは従来の学習モデルやディープラーニングモデルを上回る性能を示した。 コードはhttps://github.com/zhengshuchen/HCFNetで入手できる。

Infrared small object detection is an important computer vision task involving the recognition and localization of tiny objects in infrared images, which usually contain only a few pixels. However, it encounters difficulties due to the diminutive size of the objects and the generally complex backgrounds in infrared images. In this paper, we propose a deep learning method, HCF-Net, that significantly improves infrared small object detection performance through multiple practical modules. Specifically, it includes the parallelized patch-aware attention (PPA) module, dimension-aware selective integration (DASI) module, and multi-dilated channel refiner (MDCR) module. The PPA module uses a multi-branch feature extraction strategy to capture feature information at different scales and levels. The DASI module enables adaptive channel selection and fusion. The MDCR module captures spatial features of different receptive field ranges through multiple depth-separable convolutional layers. Extensive experimental results on the SIRST infrared single-frame image dataset show that the proposed HCF-Net performs well, surpassing other traditional and deep learning models. Code is available at https://github.com/zhengshuchen/HCFNet.
翻訳日:2024-03-19 21:54:53 公開日:2024-03-16
# 日常的スマートデバイスによる日常機能スクリーニングと心理療法介入のためのLLMベースの会話型AIセラピスト

LLM-based Conversational AI Therapist for Daily Functioning Screening and Psychotherapeutic Intervention via Everyday Smart Devices ( http://arxiv.org/abs/2403.10779v1 )

ライセンス: Link先を確認
Jingping Nie, Hanya Shao, Yuang Fan, Qijia Shao, Haoxuan You, Matthias Preindl, Xiaofan Jiang, (参考訳) 世界的メンタルヘルス危機にもかかわらず、スクリーニング、専門家、治療へのアクセスは高いままである。 認可された精神療法士と共同で、大きな言語モデル(LLM)とスマートデバイスを活用してメンタルヘルスのセルフケアを改善するプラットフォームである、精神療法的介入(CaiTI)を備えた会話型AIセラピストを提案する。 CaiTIは、自然と精神療法の会話を使って日々の機能を確認することができる。 CaiTIは強化学習を活用して、パーソナライズされた会話フローを提供する。 CaiTIはユーザーの反応を正確に理解し解釈することができる。 会話中にさらに注意が必要である場合、ケイタイは認知行動療法(CBT)やモチベーション面接(MI)など、会話精神療法の介入を提供することができる。 ライセンスされた精神療法士が作成したデータセットを活用し、CaiTIの会話の流れに沿ったタスクにおいて、様々なLSMのパフォーマンスを実験し、マイクロベンチマークを行い、その強みと弱点について議論する。 精神療法士とともに、CaiTIを実践し、14日間、24週間の研究を行った。 この研究結果は、セラピストによって検証され、CaiTIが自然にユーザーと会話し、ユーザーの反応を正確に理解し、解釈し、精神療法の介入を適切に効果的に提供できることを実証している。 CaiTI LLMsは, 精神療法の診断・治療を支援するとともに, 日常的に機能するスクリーニング, 予防的精神療法介入システムの改善に有効である。

Despite the global mental health crisis, access to screenings, professionals, and treatments remains high. In collaboration with licensed psychotherapists, we propose a Conversational AI Therapist with psychotherapeutic Interventions (CaiTI), a platform that leverages large language models (LLM)s and smart devices to enable better mental health self-care. CaiTI can screen the day-to-day functioning using natural and psychotherapeutic conversations. CaiTI leverages reinforcement learning to provide personalized conversation flow. CaiTI can accurately understand and interpret user responses. When the user needs further attention during the conversation, CaiTI can provide conversational psychotherapeutic interventions, including cognitive behavioral therapy (CBT) and motivational interviewing (MI). Leveraging the datasets prepared by the licensed psychotherapists, we experiment and microbenchmark various LLMs' performance in tasks along CaiTI's conversation flow and discuss their strengths and weaknesses. With the psychotherapists, we implement CaiTI and conduct 14-day and 24-week studies. The study results, validated by therapists, demonstrate that CaiTI can converse with users naturally, accurately understand and interpret user responses, and provide psychotherapeutic interventions appropriately and effectively. We showcase the potential of CaiTI LLMs to assist the mental therapy diagnosis and treatment and improve day-to-day functioning screening and precautionary psychotherapeutic intervention systems.
翻訳日:2024-03-19 21:54:53 公開日:2024-03-16
# Segment Any Object Model (SAOM): マルチクラスマルチインスタンスセグメンテーションのための実シミュレーションファインチューニング戦略

Segment Any Object Model (SAOM): Real-to-Simulation Fine-Tuning Strategy for Multi-Class Multi-Instance Segmentation ( http://arxiv.org/abs/2403.10780v1 )

ライセンス: Link先を確認
Mariia Khan, Yue Qiu, Yuren Cong, Jumana Abu-Khalaf, David Suter, Bodo Rosenhahn, (参考訳) マルチクラスのマルチインスタンスセグメンテーションは、イメージ内の複数のオブジェクトクラスと同じクラスの複数のインスタンスのマスクを識別するタスクである。 SAM(Foundational Segment Anything Model)は、マルチクラスのマルチインスタンスセグメンテーション用に設計されているが、様々な現実世界のアプリケーション向けに「すべて」モードで部分または部分マスクを出力する傾向がある。 全物体セグメンテーションマスクは、特にロボット工学の応用において、屋内のシーン理解において重要な役割を担っている。 我々はSAMのための新しい領域不変なReal-to-Simulation(Real-Sim)ファインチューニング戦略を提案する。 物体画像とAi2Thorシミュレータから収集した地中真実データを用いて微調整を行う。 そこで我々は,Segment Any Object Model (SAOM) を「すべて」モードで動作させるため,新しい近接代入法を提案し,各接地トラスマスクの点埋め込みを更新する。 SAOMは、Ai2Thorシミュレータから収集したデータセットに基づいて評価される。 SAOMはSAMを大幅に改善し,mIoUは28%,mAccは25%増加した。 さらに,実世界データ(sim-to-real)をトレーニングすることなく,実環境における有望な一般化性能を示す。 データセットとコードは公開後にリリースされる。

Multi-class multi-instance segmentation is the task of identifying masks for multiple object classes and multiple instances of the same class within an image. The foundational Segment Anything Model (SAM) is designed for promptable multi-class multi-instance segmentation but tends to output part or sub-part masks in the "everything" mode for various real-world applications. Whole object segmentation masks play a crucial role for indoor scene understanding, especially in robotics applications. We propose a new domain invariant Real-to-Simulation (Real-Sim) fine-tuning strategy for SAM. We use object images and ground truth data collected from Ai2Thor simulator during fine-tuning (real-to-sim). To allow our Segment Any Object Model (SAOM) to work in the "everything" mode, we propose the novel nearest neighbour assignment method, updating point embeddings for each ground-truth mask. SAOM is evaluated on our own dataset collected from Ai2Thor simulator. SAOM significantly improves on SAM, with a 28% increase in mIoU and a 25% increase in mAcc for 54 frequently-seen indoor object classes. Moreover, our Real-to-Simulation fine-tuning strategy demonstrates promising generalization performance in real environments without being trained on the real-world data (sim-to-real). The dataset and the code will be released after publication.
翻訳日:2024-03-19 21:54:53 公開日:2024-03-16
# 中国風雲の発生を探る : 二つの偏見的発言についての一考察

Exploring Chinese Humor Generation: A Study on Two-Part Allegorical Sayings ( http://arxiv.org/abs/2403.10781v1 )

ライセンス: Link先を確認
Rongwu Xu, (参考訳) ヒューマン・ランゲージの文化的に曖昧な側面であるHummorは、特に中国のユーモアにおいて、計算理解と生成の課題を提起している。 本稿では,中国語のユーモアを理解・生成するための最先端言語モデルの有用性について考察する。 中規模言語モデルの微調整と大規模学習の促進という,2つの優れたトレーニング手法を採用している。 我々の新しい微調整アプローチは、融合したPinyin埋め込みを組み込んでホモフォンを考察し、ユーモア要素を区別するために合成ハードネガティブを用いた対照的な学習を利用する。 人間の注釈による結果は、これらのモデルがユーモラスな偏見を生み出す可能性を示し、証明が実用的で効果的な方法であることが証明された。 しかし、人間の創造性にマッチする偏見的な発言を生み出すには、まだ改善の余地がある。

Humor, a culturally nuanced aspect of human language, poses challenges for computational understanding and generation, especially in Chinese humor, which remains relatively unexplored in the NLP community. This paper investigates the capability of state-of-the-art language models to comprehend and generate Chinese humor, specifically focusing on training them to create allegorical sayings. We employ two prominent training methods: fine-tuning a medium-sized language model and prompting a large one. Our novel fine-tuning approach incorporates fused Pinyin embeddings to consider homophones and employs contrastive learning with synthetic hard negatives to distinguish humor elements. Human-annotated results show that these models can generate humorous allegorical sayings, with prompting proving to be a practical and effective method. However, there is still room for improvement in generating allegorical sayings that match human creativity.
翻訳日:2024-03-19 21:54:53 公開日:2024-03-16
# 可視赤外人物再同定のための双方向多段階領域一般化

Bidirectional Multi-Step Domain Generalization for Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2403.10782v1 )

ライセンス: Link先を確認
Mahdi Alehdaghi, Pourya Shamsolmoali, Rafael M. O. Cruz, Eric Granger, (参考訳) 可視赤外人物再識別(V-I ReID)における重要な課題は、モダリティ間の重要な相違に効果的に対処できるバックボーンモデルを訓練することである。 単一の中間ブリッジドメインを生成する最先端の手法は、この生成されたドメインが十分な共通識別情報を適切に取得できないため、効果が低いことが多い。 本稿では,双方向多段階領域一般化(BMDG)について紹介する。 BMDGは、IとVの両方のモダリティから抽出された身体部分の特徴を発見し、整列することで、複数の仮想中間ドメインを生成する。 実際、BMDGは2つのステップでモダリティギャップを減らすことを目指している。 第一に、VとIの画像から共有およびモダリティ不変の身体部分のプロトタイプを学習することにより、特徴空間におけるモダリティを整合させる。 そして、双方向多段階学習を適用して特徴表現を一般化し、各ステップにおける特徴表現を段階的に洗練し、両方のモダリティからより多くのプロトタイプを組み込む。 特に,本手法は,モダリティ間の重要な識別的特徴を捕捉する共有プロトタイプを識別・整合させることにより,モダリティ間のギャップを最小化し,その情報に基づいて複数のブリッジングステップを用いて特徴表現を強化する。 挑戦的なV-I ReIDデータセットを用いて行った実験は、我々のBMDGアプローチがV-Iの人物ReIDから中間ドメインを生成する最先端のパーツベースモデルや手法より優れていることを示している。

A key challenge in visible-infrared person re-identification (V-I ReID) is training a backbone model capable of effectively addressing the significant discrepancies across modalities. State-of-the-art methods that generate a single intermediate bridging domain are often less effective, as this generated domain may not adequately capture sufficient common discriminant information. This paper introduces the Bidirectional Multi-step Domain Generalization (BMDG), a novel approach for unifying feature representations across diverse modalities. BMDG creates multiple virtual intermediate domains by finding and aligning body part features extracted from both I and V modalities. Indeed, BMDG aims to reduce the modality gaps in two steps. First, it aligns modalities in feature space by learning shared and modality-invariant body part prototypes from V and I images. Then, it generalizes the feature representation by applying bidirectional multi-step learning, which progressively refines feature representations in each step and incorporates more prototypes from both modalities. In particular, our method minimizes the cross-modal gap by identifying and aligning shared prototypes that capture key discriminative features across modalities, then uses multiple bridging steps based on this information to enhance the feature representation. Experiments conducted on challenging V-I ReID datasets indicate that our BMDG approach outperforms state-of-the-art part-based models or methods that generate an intermediate domain from V-I person ReID.
翻訳日:2024-03-19 21:54:53 公開日:2024-03-16
# 安定Garment:安定拡散によるガーメント中心生成

StableGarment: Garment-Centric Generation via Stable Diffusion ( http://arxiv.org/abs/2403.10783v1 )

ライセンス: Link先を確認
Rui Wang, Hailong Guo, Jiaming Liu, Huaxia Li, Haibo Zhao, Xu Tang, Yao Hu, Hao Tang, Peipei Li, (参考訳) 本稿では,GCテキスト・ツー・イメージ,制御可能なGCテキスト・ツー・イメージ,スタイリングされたGCテキスト・ツー・イメージ,堅牢な仮想トライ・オンなど,GC生成タスクに対処するための統一フレームワークであるStableGarmentを紹介する。 主な課題は、トレーニング済みの安定拡散の柔軟性を維持しながら、衣服の複雑なテクスチャを維持することである。 我々のソリューションは、付加的な自己注意層(ASA)を備えたデノイングUNetのトレーニング可能なコピーである衣料エンコーダの開発である。 これらのASA層は、細かなテクスチャを伝達するために特別に考案され、また、スタイリングされたイメージを作成するためのスタイリングされたベースモデルの統合を容易にする。 さらに、専用のtry-on ControlNetを組み込むことで、StableGarmentは仮想try-onタスクを精度良く実行できる。 また、モデルがプロンプトに従う能力を維持するために、高品質な合成データを生成する新しいデータエンジンを構築します。 広汎な実験により,既存の仮想試行法ではSOTA(State-of-the-art)の結果が得られ,様々な衣服中心の画像生成に広く応用できる可能性が示された。

In this paper, we introduce StableGarment, a unified framework to tackle garment-centric(GC) generation tasks, including GC text-to-image, controllable GC text-to-image, stylized GC text-to-image, and robust virtual try-on. The main challenge lies in retaining the intricate textures of the garment while maintaining the flexibility of pre-trained Stable Diffusion. Our solution involves the development of a garment encoder, a trainable copy of the denoising UNet equipped with additive self-attention (ASA) layers. These ASA layers are specifically devised to transfer detailed garment textures, also facilitating the integration of stylized base models for the creation of stylized images. Furthermore, the incorporation of a dedicated try-on ControlNet enables StableGarment to execute virtual try-on tasks with precision. We also build a novel data engine that produces high-quality synthesized data to preserve the model's ability to follow prompts. Extensive experiments demonstrate that our approach delivers state-of-the-art (SOTA) results among existing virtual try-on methods and exhibits high flexibility with broad potential applications in various garment-centric image generation.
翻訳日:2024-03-19 21:45:00 公開日:2024-03-16
# ContourDiff: Contour-Guided Diffusion Modelによる画像変換

ContourDiff: Unpaired Image Translation with Contour-Guided Diffusion Models ( http://arxiv.org/abs/2403.10786v1 )

ライセンス: Link先を確認
Yuwen Chen, Nicholas Konz, Hanxue Gu, Haoyu Dong, Yaqian Chen, Lin Li, Jisoo Lee, Maciej A. Mazurowski, (参考訳) さまざまなモダリティ(例えばCTからMRI)にわたる正確な医療画像の翻訳には、多くの下流臨床および機械学習の応用がある。 これを実現するためにいくつかの方法が提案されているが、解剖学的忠実性を維持することよりも、出力領域の特徴に関して知覚的品質を優先することが多い。 しかし、入力領域からのマスクを利用して出力領域に変換された画像を含むセグメンテーションモデルを開発する場合、多くのタスクにおいて、翻訳中の解剖の維持が不可欠である。 これらの課題に対処するために、画像のドメイン不変な解剖学的輪郭表現を利用する新しいフレームワークであるContourDiffを提案する。 これらの表現は画像から簡単に抽出できるが、解剖学的内容の正確な空間的制約を形成する。 本稿では,任意の入力領域からの画像の輪郭表現を興味のある出力領域の画像に変換する拡散モデルを提案する。 拡散サンプリングの各ステップで輪郭を制約として適用することにより、解剖学的内容の保存を確実にする。 本手法は,CTからMRIに変換された画像に対して,元のCTマスクを用いてセグメント化モデルを訓練し,その性能を実MRIで検証することによって評価する。 提案手法は,学習中に入力ドメイン情報にアクセスする必要がなく,他の未ペア画像翻訳手法よりも大幅に性能が向上する。

Accurately translating medical images across different modalities (e.g., CT to MRI) has numerous downstream clinical and machine learning applications. While several methods have been proposed to achieve this, they often prioritize perceptual quality with respect to output domain features over preserving anatomical fidelity. However, maintaining anatomy during translation is essential for many tasks, e.g., when leveraging masks from the input domain to develop a segmentation model with images translated to the output domain. To address these challenges, we propose ContourDiff, a novel framework that leverages domain-invariant anatomical contour representations of images. These representations are simple to extract from images, yet form precise spatial constraints on their anatomical content. We introduce a diffusion model that converts contour representations of images from arbitrary input domains into images in the output domain of interest. By applying the contour as a constraint at every diffusion sampling step, we ensure the preservation of anatomical content. We evaluate our method by training a segmentation model on images translated from CT to MRI with their original CT masks and testing its performance on real MRIs. Our method outperforms other unpaired image translation methods by a significant margin, furthermore without the need to access any input domain information during training.
翻訳日:2024-03-19 21:45:00 公開日:2024-03-16
# コントラスト変換器を改良した時系列表現学習

Time Series Representation Learning with Supervised Contrastive Temporal Transformer ( http://arxiv.org/abs/2403.10787v1 )

ライセンス: Link先を確認
Yuansan Liu, Sudanthi Wijewickrema, Christofer Bester, Stephen O'Leary, James Bailey, (参考訳) 時系列データの効果的な表現を見つけることは有用だが難しい作業である。 いくつかの研究では、この問題に対処するために自己教師なしまたは教師なしの学習手法を利用している。 しかし、より優れた表現のために利用可能なラベル情報をどのように活用するかについては、まだ未解決のままである。 この質問に答えるために、時系列および表現学習領域における既存の技術を活用し、単純な新しい融合モデルを開発した: \textbf{S}upervised \textbf{CO}ntrastive \textbf{T}emporal \textbf{T}ransformer (SCOTT)。 まず,変化不変表現の学習を支援するために,様々な時系列データに対する適切な拡張手法について検討する。 次に、TransformerとTemporal Convolutional Networksを組み合わせて、グローバル機能とローカル機能の両方を効率的に学習する。 最後に,ラベル付き時系列データの表現学習のために,Supervised Contrastive Lossを単純化する。 UCRアーカイブから45のデータセットを用いて,下流タスクである時系列分類におけるSCOTTの事前評価を行った。 その結果,SCOTTが学習した表現では,従来の最先端モデル(23/45データセットでは最高,9ベースラインモデルでは最高)よりも弱い分類器でも同等かそれ以上に動作可能であることがわかった。 その後、人間の活動データセットと外科的患者データセットの2つのデータセット上で、SCOTTが現実世界のタスクであるオンライン変化点検出(CPD)に対処する能力について検討した。 本モデルでは,オンラインCDD問題の信頼性と効率性(精度-リコール曲線下では,それぞれ$\sim$98\%,$\sim$97\%)を示す。 さらに,本モデルが早期検出に有効であることを示すとともに,他の候補と比較した性能を示す。

Finding effective representations for time series data is a useful but challenging task. Several works utilize self-supervised or unsupervised learning methods to address this. However, there still remains the open question of how to leverage available label information for better representations. To answer this question, we exploit pre-existing techniques in time series and representation learning domains and develop a simple, yet novel fusion model, called: \textbf{S}upervised \textbf{CO}ntrastive \textbf{T}emporal \textbf{T}ransformer (SCOTT). We first investigate suitable augmentation methods for various types of time series data to assist with learning change-invariant representations. Secondly, we combine Transformer and Temporal Convolutional Networks in a simple way to efficiently learn both global and local features. Finally, we simplify Supervised Contrastive Loss for representation learning of labelled time series data. We preliminarily evaluate SCOTT on a downstream task, Time Series Classification, using 45 datasets from the UCR archive. The results show that with the representations learnt by SCOTT, even a weak classifier can perform similar to or better than existing state-of-the-art models (best performance on 23/45 datasets and highest rank against 9 baseline models). Afterwards, we investigate SCOTT's ability to address a real-world task, online Change Point Detection (CPD), on two datasets: a human activity dataset and a surgical patient dataset. We show that the model performs with high reliability and efficiency on the online CPD problem ($\sim$98\% and $\sim$97\% area under precision-recall curve respectively). Furthermore, we demonstrate the model's potential in tackling early detection and show it performs best compared to other candidates.
翻訳日:2024-03-19 21:45:00 公開日:2024-03-16
# サイバー作戦における対人クナプサックと共通情報の二次的効果

Adversarial Knapsack and Secondary Effects of Common Information for Cyber Operations ( http://arxiv.org/abs/2403.10789v1 )

ライセンス: Link先を確認
Jon Goohs, Georgel Savin, Lucas Starks, Josiah Dykstra, William Casey, (参考訳) Flip-Itゲームのバリエーションは、ネットワークサイバー操作のモデル化に応用されている。 Flip-Itは不確実性と制御の損失を正確に表現できるが、操作に不可欠なリソース制約は課さない。 フラッグ(CTF)スタイルの競争ゲーム、例えばFlip-Itは、不確実性と制御の喪失を伴いますが、リソース使用に現実的な制約を課します。 そのため、実際のサイバー操作とよく似ている。 我々は,CTFコンペティションのための動的ネットワーク制御ゲームを形式化し,各タイムステップの静的ゲームを詳細に述べる。 静的ゲームは、プレイヤーが2人しかいない場合、Adversarial Knapsack (AK) または Dueling Knapsack (DK) と呼ばれる新しい最適化問題のインスタンスとして再構成することができる。 そこで我々は,Adversarial Knapsack最適化問題を,重み付きKnapsack問題と相互作用するシステムとして定義し,特にサイバー操作やCTFゲームなど,競合する最適化目標を持つ複数のエージェントを含む一般的なシナリオへの応用について説明する。 シナリオ、報酬、コストに対する一般的な認識は、非協力的なゲームのステージにつくでしょう。 批判的に言えば、合理的なプレイヤーは、AKのソリューション -- より良い応答とより高い報酬 -- が、AKの最適解を予想できるならば、その解が可能であると仮定するかもしれない。 したがって、相手の信念モデリングのような二次推論は、合理的なプレイヤーには期待でき、プレイヤーが微妙な報酬差の操作を行うような不安定なタイプを導入することができる。 これを分析するために、我々は、合理的エージェントがいかにヒューリスティックに操作を探索できるかを検討するために、最良の応答アルゴリズムとシミュレーションソフトウェアを提供する。 さらに,CVSS(Common Vulnerability Scoring System)のようなメトリクスが,サイバー操作における二次的推論を強化する可能性を予測して,ゲームモデルが提供する洞察を要約する。

Variations of the Flip-It game have been applied to model network cyber operations. While Flip-It can accurately express uncertainty and loss of control, it imposes no essential resource constraints for operations. Capture the flag (CTF) style competitive games, such as Flip-It , entail uncertainties and loss of control, but also impose realistic constraints on resource use. As such, they bear a closer resemblance to actual cyber operations. We formalize a dynamical network control game for CTF competitions and detail the static game for each time step. The static game can be reformulated as instances of a novel optimization problem called Adversarial Knapsack (AK) or Dueling Knapsack (DK) when there are only two players. We define the Adversarial Knapsack optimization problems as a system of interacting Weighted Knapsack problems, and illustrate its applications to general scenarios involving multiple agents with conflicting optimization goals, e.g., cyber operations and CTF games in particular. Common awareness of the scenario, rewards, and costs will set the stage for a non-cooperative game. Critically, rational players may second guess that their AK solution -- with a better response and higher reward -- is possible if opponents predictably play their AK optimal solutions. Thus, secondary reasoning which such as belief modeling of opponents play can be anticipated for rational players and will introduce a type of non-stability where players maneuver for slight reward differentials. To analyze this, we provide the best-response algorithms and simulation software to consider how rational agents may heuristically search for maneuvers. We further summarize insights offered by the game model by predicting that metrics such as Common Vulnerability Scoring System (CVSS) may intensify the secondary reasoning in cyber operations.
翻訳日:2024-03-19 21:45:00 公開日:2024-03-16
# QuantumLeak: クラウドベースのNISQマシンによる量子ニューラルネットワークのステアリング

QuantumLeak: Stealing Quantum Neural Networks from Cloud-based NISQ Machines ( http://arxiv.org/abs/2403.10790v1 )

ライセンス: Link先を確認
Zhenxiao Fu, Min Yang, Cheng Chu, Yilun Xu, Gang Huang, Fan Chen, (参考訳) 変分量子回路(VQC)は量子ニューラルネットワーク(QNN)を実装する強力なツールとなり、様々な複雑な問題に対処している。 よく訓練されたVQCは、クラウドベースのNoisy Intermediate Scale Quantum (NISQ) コンピュータ上にホストされる貴重な知的資産として機能し、悪意のあるVQC盗難攻撃を受けやすい。 しかし、古典的な機械学習モデルのために設計された従来のモデル抽出技術は、現在の装置のノイズが大きいため、NISQコンピュータに適用する際の課題に直面する。 本稿では,クラウドベースのNISQマシンからのQNNモデル抽出手法であるQuantumLeakを紹介する。 既存の古典的モデルステルス技術と比較して、QuantumLeakはローカルVQCの精度を4.99\%$\sim$7.35\%改善している。

Variational quantum circuits (VQCs) have become a powerful tool for implementing Quantum Neural Networks (QNNs), addressing a wide range of complex problems. Well-trained VQCs serve as valuable intellectual assets hosted on cloud-based Noisy Intermediate Scale Quantum (NISQ) computers, making them susceptible to malicious VQC stealing attacks. However, traditional model extraction techniques designed for classical machine learning models encounter challenges when applied to NISQ computers due to significant noise in current devices. In this paper, we introduce QuantumLeak, an effective and accurate QNN model extraction technique from cloud-based NISQ machines. Compared to existing classical model stealing techniques, QuantumLeak improves local VQC accuracy by 4.99\%$\sim$7.35\% across diverse datasets and VQC architectures.
翻訳日:2024-03-19 21:45:00 公開日:2024-03-16
# 対戦型マルチエージェントゲームにおける拡散強化学習階層型モーションプランニング

Diffusion-Reinforcement Learning Hierarchical Motion Planning in Adversarial Multi-agent Games ( http://arxiv.org/abs/2403.10794v1 )

ライセンス: Link先を確認
Zixuan Wu, Sean Ye, Manisha Natarajan, Matthew C. Gombolay, (参考訳) 強化学習(RL-)に基づくモーションプランニングは、最近、自律ナビゲーションからロボット操作まで、従来のアプローチより優れている可能性が示されている。 本研究では,部分的に観察可能なマルチエージェント追従ゲーム(PEG)において,回避対象の動作計画タスクに焦点を当てた。 これらの追尾回避問題は、捜索・救助活動や監視ロボットなど、さまざまな応用に関係しており、ロボットは、検出や捕獲を避けながら、知性を集め、任務を遂行するために、効果的に行動計画する必要がある。 本稿では,環境データに応答するグローバルパスを計画するために,高レベルの拡散モデルを統合する階層型アーキテクチャを提案する。 提案手法は拡散モデルを利用してRLアルゴリズムをより効率的に探索し,説明可能性と予測可能性を向上させることにより,ベースラインを51.2%向上させる。

Reinforcement Learning- (RL-)based motion planning has recently shown the potential to outperform traditional approaches from autonomous navigation to robot manipulation. In this work, we focus on a motion planning task for an evasive target in a partially observable multi-agent adversarial pursuit-evasion games (PEG). These pursuit-evasion problems are relevant to various applications, such as search and rescue operations and surveillance robots, where robots must effectively plan their actions to gather intelligence or accomplish mission tasks while avoiding detection or capture themselves. We propose a hierarchical architecture that integrates a high-level diffusion model to plan global paths responsive to environment data while a low-level RL algorithm reasons about evasive versus global path-following behavior. Our approach outperforms baselines by 51.2% by leveraging the diffusion model to guide the RL algorithm for more efficient exploration and improves the explanability and predictability.
翻訳日:2024-03-19 21:45:00 公開日:2024-03-16
# 単語からルートへ:大規模言語モデルの適用から自動車ルーティング

From Words to Routes: Applying Large Language Models to Vehicle Routing ( http://arxiv.org/abs/2403.10795v1 )

ライセンス: Link先を確認
Zhehui Huang, Guangyao Shi, Gaurav S. Sukhatme, (参考訳) LLMは、自然言語によるタスク記述を備えたロボット工学(例えば、操作とナビゲーション)において、驚くべき進歩を見せている。 LLMが自然言語タスク記述で車載ルーティング問題(VRP)を解決する能力は何なのだろうか? 本研究では,この問題を3つのステップで研究する。 まず、21種類の単車または複数車種のルーティング問題を持つデータセットを構築する。 第2に、テキスト・コード生成の4つの基本的プロンプトパラダイムにおけるLCMの性能を評価し、それぞれ異なるタイプのテキスト入力を含む。 自然言語のタスク記述から直接コードを生成する基本的プロンプトパラダイムは,56%の実現可能性,40%の最適性,53%の効率を達成し,GPT-4に最適であることがわかった。 第3に,LSMが最初の試みで正しいソリューションを提供できないという観測に基づいて,自己デバッグや自己検証を含む自己回帰によるソリューションの洗練を可能にするフレームワークを提案する。 GPT-4では,提案手法は実現可能性の16%,最適性は7%,効率は15%向上する。 さらに,タスク記述に対する GPT-4 の感度について検討し,タスク記述から特定の詳細が省略された場合のパフォーマンスがどう変化するかに注目した。 以上の結果から, 有効性は4%, 最適性は4%, 効率は5%であった。 Webサイト: https://sites.google.com/view/words-to-routes/

LLMs have shown impressive progress in robotics (e.g., manipulation and navigation) with natural language task descriptions. The success of LLMs in these tasks leads us to wonder: What is the ability of LLMs to solve vehicle routing problems (VRPs) with natural language task descriptions? In this work, we study this question in three steps. First, we construct a dataset with 21 types of single- or multi-vehicle routing problems. Second, we evaluate the performance of LLMs across four basic prompt paradigms of text-to-code generation, each involving different types of text input. We find that the basic prompt paradigm, which generates code directly from natural language task descriptions, performs the best for GPT-4, achieving 56% feasibility, 40% optimality, and 53% efficiency. Third, based on the observation that LLMs may not be able to provide correct solutions at the initial attempt, we propose a framework that enables LLMs to refine solutions through self-reflection, including self-debugging and self-verification. With GPT-4, our proposed framework achieves a 16% increase in feasibility, a 7% increase in optimality, and a 15% increase in efficiency. Moreover, we examine the sensitivity of GPT-4 to task descriptions, specifically focusing on how its performance changes when certain details are omitted from the task descriptions, yet the core meaning is preserved. Our findings reveal that such omissions lead to a notable decrease in performance: 4% in feasibility, 4% in optimality, and 5% in efficiency. Website: https://sites.google.com/view/words-to-routes/
翻訳日:2024-03-19 21:45:00 公開日:2024-03-16
# 汎用検索のための混合スケールグループを用いた教師なし協調メトリック学習

Unsupervised Collaborative Metric Learning with Mixed-Scale Groups for General Object Retrieval ( http://arxiv.org/abs/2403.10798v1 )

ライセンス: Link先を確認
Shichao Kan, Yuhai Deng, Yixiong Liang, Lihui Cen, Zhe Qu, Yigang Cen, Zhihai He, (参考訳) 画像データセットで視覚オブジェクトを検索する作業は、サイズが変化するオブジェクトの効率的なマッチングと正確な位置決めを必要とするため、難しい。 セグメントエイズモデル(SAM)は、オブジェクト空間コンテキストを抽出する潜在的なソリューションを提供するが、ローカルオブジェクトの埋め込みを学習することは難しい問題である。 本稿では,異なるスケールのオブジェクトに対する埋め込みを学習するために考案された,混合スケールグループ(MS-UGCML)による教師なし協調的メトリック学習(unsupervised collaborative metric learning)と呼ばれる新しいディープ・メトリック・ラーニング手法を提案する。 その後、COCO 2017とVOC 2007データセットを使用して、一般的なオブジェクト検索モデルのトレーニングと評価を容易にすることで、課題のベンチマークが作成される。 最後に、包括的アブレーション研究を行い、汎用オブジェクト検索の領域で直面する複雑さについて論じる。 オブジェクト検索評価は,BelgaLogos,Visual Genome,LVISなど,さまざまなデータセットにまたがる。 これらの総合評価は、オブジェクトレベルと画像レベルmAPをそれぞれ6.69%と10.03%改善した、教師なしMS-UGCMLアプローチの堅牢性を効果的に強調する。 コードはhttps://github.com/dengyuhai/MS-UGCMLで公開されている。

The task of searching for visual objects in a large image dataset is difficult because it requires efficient matching and accurate localization of objects that can vary in size. Although the segment anything model (SAM) offers a potential solution for extracting object spatial context, learning embeddings for local objects remains a challenging problem. This paper presents a novel unsupervised deep metric learning approach, termed unsupervised collaborative metric learning with mixed-scale groups (MS-UGCML), devised to learn embeddings for objects of varying scales. Following this, a benchmark of challenges is assembled by utilizing COCO 2017 and VOC 2007 datasets to facilitate the training and evaluation of general object retrieval models. Finally, we conduct comprehensive ablation studies and discuss the complexities faced within the domain of general object retrieval. Our object retrieval evaluations span a range of datasets, including BelgaLogos, Visual Genome, LVIS, in addition to a challenging evaluation set that we have individually assembled for open-vocabulary evaluation. These comprehensive evaluations effectively highlight the robustness of our unsupervised MS-UGCML approach, with an object level and image level mAPs improvement of up to 6.69% and 10.03%, respectively. The code is publicly available at https://github.com/dengyuhai/MS-UGCML.
翻訳日:2024-03-19 21:45:00 公開日:2024-03-16
# 適応的推定融合を用いた大規模言語モデルの効率的なプルーニング

Efficient Pruning of Large Language Model with Adaptive Estimation Fusion ( http://arxiv.org/abs/2403.10799v1 )

ライセンス: Link先を確認
Jun Liu, Chao Wu, Changdi Yang, Hao Tang, Haoye Dong, Zhenglun Kong, Geng Yuan, Wei Niu, Dong Huang, Yanzhi Wang, (参考訳) 大規模言語モデル(LLM)は、多くの生成的な下流タスクにおいて重要なものとなり、リソースに制約のあるデバイスに効率的にデプロイする上で、避けられない傾向と重大な課題に繋がった。 構造化プルーニング(Structured pruning)は、この課題に対処するために広く使われている手法である。 しかし、複数のデコーダ層の複雑な構造を扱う場合、一般的な手法ではプルーニングに一般的な推定手法を用いることが多い。 これらのアプローチは、特定の下流タスクの精度を低下させる。 本稿では,各サブ構造の重要性を適応的にモデル化する簡易かつ効率的な手法を提案する。 一方、複雑な構造と多層構造から得られた結果に基づいて、粗粒度と微粒度の推定を適応的に融合させることができる。 設計のすべての側面は、エンドツーエンドのプルーニングフレームワークにシームレスに統合されます。 その結果,LLaMa-7B,Vicuna-7B,Baichuan-7B,Bloom-7b1の平均精度は1.1%,1.02%,2.0%,1.2%向上した。

Large language models (LLMs) have become crucial for many generative downstream tasks, leading to an inevitable trend and significant challenge to deploy them efficiently on resource-constrained devices. Structured pruning is a widely used method to address this challenge. However, when dealing with the complex structure of the multiple decoder layers, general methods often employ common estimation approaches for pruning. These approaches lead to a decline in accuracy for specific downstream tasks. In this paper, we introduce a simple yet efficient method that adaptively models the importance of each substructure. Meanwhile, it can adaptively fuse coarse-grained and finegrained estimations based on the results from complex and multilayer structures. All aspects of our design seamlessly integrate into the endto-end pruning framework. Our experimental results, compared with state-of-the-art methods on mainstream datasets, demonstrate average accuracy improvements of 1.1%, 1.02%, 2.0%, and 1.2% for LLaMa-7B,Vicuna-7B, Baichuan-7B, and Bloom-7b1, respectively.
翻訳日:2024-03-19 21:45:00 公開日:2024-03-16
# テキスト画像エンコーダにおける分布外データの微調整によるモデル再構成

Model Reprogramming Outperforms Fine-tuning on Out-of-distribution Data in Text-Image Encoders ( http://arxiv.org/abs/2403.10800v1 )

ライセンス: Link先を確認
Andrew Geng, Pin-Yu Chen, (参考訳) 下流タスクに移行した事前学習モデルの性能を評価する際には、下流モデルの分布内(ID)精度だけでなく、分布外(OOD)サンプルを一般化・識別する能力も評価することが不可欠である。 本稿では,侵入的微調整技術に関連する隠れたコストを明らかにする。 具体的には,covariate-shifted OOD サンプル(OOD 一般化)の一般化に必要な表現を歪曲するだけでなく,意味的にシフトした OOD サンプル(OOD 検出)を検出するために必要な表現を歪曲する。 これらの課題に対処するため、我々は細調整のための新しいモデル再プログラミング手法を導入し、それをリプログラマと呼ぶ。 Re Programmerは、ID、OOD一般化、OOD検出タスク間のダウンストリームモデルの全体的なパフォーマンスを改善することを目的としている。 我々の経験的証拠は、Re Programmerは侵入力が少なく、下流モデルに優れていることを示している。 さらに、Re Programmerに余分な表現接続を追加することで、トレーニング前の表現をさらに保存し、多くのID分類、OOD一般化、OOD検出設定に優れた、より安全で堅牢な下流モデルが得られることを示す。

When evaluating the performance of a pre-trained model transferred to a downstream task, it is imperative to assess not only the in-distribution (ID) accuracy of the downstream model but also its capacity to generalize and identify out-of-distribution (OOD) samples. In this paper, we unveil the hidden costs associated with intrusive fine-tuning techniques. Specifically, we demonstrate that commonly used fine-tuning methods not only distort the representations necessary for generalizing to covariate-shifted OOD samples (OOD generalization) but also distort the representations necessary for detecting semantically-shifted OOD samples (OOD detection). To address these challenges, we introduce a new model reprogramming approach for fine-tuning, which we name Reprogrammer. Reprogrammer aims to improve the holistic performance of the downstream model across ID, OOD generalization, and OOD detection tasks. Our empirical evidence reveals that Reprogrammer is less intrusive and yields superior downstream models. Furthermore, we demonstrate that by appending an additional representation residual connection to Reprogrammer, we can further preserve pre-training representations, resulting in an even more safe and robust downstream model capable of excelling in many ID classification, OOD generalization, and OOD detection settings.
翻訳日:2024-03-19 21:45:00 公開日:2024-03-16
# 適応例に対するセキュアな微調整事前学習エンコーダ

Securely Fine-tuning Pre-trained Encoders Against Adversarial Examples ( http://arxiv.org/abs/2403.10801v1 )

ライセンス: Link先を確認
Ziqi Zhou, Minghui Li, Wei Liu, Shengshan Hu, Yechao Zhang, Wei Wan, Lulu Xue, Leo Yu Zhang, Dezhong Yang, Hai Jin, (参考訳) 自己指導型学習の進化に伴い、事前学習パラダイムは、ディープラーニングのランドスケープにおける主要なソリューションとして現れてきた。 モデルプロバイダは、多目的な特徴抽出器として機能するように設計された事前訓練されたエンコーダを備えており、下流のユーザは、微調整によって最小限の労力で拡張モデルの利点を活用できる。 それにもかかわらず、最近の研究は、事前訓練されたエンコーダの脆弱性を明らかにし、攻撃者が慎重に作り上げた下流非依存の敵例(DAE)への感受性を強調している。 この問題は、特に事前訓練されたエンコーダが攻撃者に公開アクセス可能なシナリオにおいて、DAEに対して下流モデルのロバスト性を強化できる可能性に関するものである。 本稿では、まず、事前学習パラダイムにおける敵の例に対する既存の防御機構について検討する。 以上の結果から,現在の防衛の失敗は,事前学習データと下流タスクのドメインシフトと,エンコーダパラメータの感度に起因していることが明らかとなった。 これらの課題に対応するために、下流モデルの堅牢性を高めることを目的とした2段階の逆調整手法である遺伝的進化-栄養的逆調整(Gen-AF)を提案する。 Gen-AFが最先端のDAEに対して高いテスト精度と堅牢なテスト精度を達成できることを実証した。

With the evolution of self-supervised learning, the pre-training paradigm has emerged as a predominant solution within the deep learning landscape. Model providers furnish pre-trained encoders designed to function as versatile feature extractors, enabling downstream users to harness the benefits of expansive models with minimal effort through fine-tuning. Nevertheless, recent works have exposed a vulnerability in pre-trained encoders, highlighting their susceptibility to downstream-agnostic adversarial examples (DAEs) meticulously crafted by attackers. The lingering question pertains to the feasibility of fortifying the robustness of downstream models against DAEs, particularly in scenarios where the pre-trained encoders are publicly accessible to the attackers. In this paper, we initially delve into existing defensive mechanisms against adversarial examples within the pre-training paradigm. Our findings reveal that the failure of current defenses stems from the domain shift between pre-training data and downstream tasks, as well as the sensitivity of encoder parameters. In response to these challenges, we propose Genetic Evolution-Nurtured Adversarial Fine-tuning (Gen-AF), a two-stage adversarial fine-tuning approach aimed at enhancing the robustness of downstream models. Our extensive experiments, conducted across ten self-supervised training methods and six datasets, demonstrate that Gen-AF attains high testing accuracy and robust testing accuracy against state-of-the-art DAEs.
翻訳日:2024-03-19 21:45:00 公開日:2024-03-16
# 分離メカニズムに基づく異常検出:調査

Anomaly Detection Based on Isolation Mechanisms: A Survey ( http://arxiv.org/abs/2403.10802v1 )

ライセンス: Link先を確認
Yang Cao, Haolong Xiang, Hang Zhang, Ye Zhu, Kai Ming Ting, (参考訳) 異常検出は長く活発な研究領域であり、金融、セキュリティ、製造業など多くの分野に応用されている。 しかし, 大規模, 高次元, 不均一なデータにより, 異常検出アルゴリズムの効率性と性能が問題視されている。 分離に基づく教師なし異常検出は、データの異常を識別するための新しく効果的なアプローチである。 異常は通常のインスタンスとほとんど異なるため、ランダムなパーティショニングによって容易に分離できるという考えに依存している。 分離に基づく手法は、計算複雑性の低い、メモリ使用量の少ない、高いスケーラビリティ、ノイズに対する堅牢性、無関係な機能など、既存の手法よりもいくつかの利点があり、事前の知識や重いパラメータチューニングは不要である。 本稿では,データ分割戦略,異常スコア関数,アルゴリズムの詳細など,最先端の分離に基づく異常検出手法について概説する。 また、ストリーミングデータ、時系列、軌跡、画像データセットの異常を検出するなど、異なるシナリオにおける分離に基づく手法の拡張や応用についても論じる。 最後に,孤立型異常検出研究の課題と今後の方向性を明らかにする。

Anomaly detection is a longstanding and active research area that has many applications in domains such as finance, security, and manufacturing. However, the efficiency and performance of anomaly detection algorithms are challenged by the large-scale, high-dimensional, and heterogeneous data that are prevalent in the era of big data. Isolation-based unsupervised anomaly detection is a novel and effective approach for identifying anomalies in data. It relies on the idea that anomalies are few and different from normal instances, and thus can be easily isolated by random partitioning. Isolation-based methods have several advantages over existing methods, such as low computational complexity, low memory usage, high scalability, robustness to noise and irrelevant features, and no need for prior knowledge or heavy parameter tuning. In this survey, we review the state-of-the-art isolation-based anomaly detection methods, including their data partitioning strategies, anomaly score functions, and algorithmic details. We also discuss some extensions and applications of isolation-based methods in different scenarios, such as detecting anomalies in streaming data, time series, trajectory, and image datasets. Finally, we identify some open challenges and future directions for isolation-based anomaly detection research.
翻訳日:2024-03-19 21:45:00 公開日:2024-03-16
# マルチテストに基づく層状特徴融合による分布検出の高速化

Enhancing Out-of-Distribution Detection with Multitesting-based Layer-wise Feature Fusion ( http://arxiv.org/abs/2403.10803v1 )

ライセンス: Link先を確認
Jiawei Li, Sitong Li, Shanshan Wang, Yicheng Zeng, Falong Tan, Chuanlong Xie, (参考訳) オープンな環境で機械学習をデプロイすることは、トレーニングデータと大きく異なる多様なテストインプットに遭遇する課題を示す。 これらのアウト・オブ・ディストリビューションサンプルは、トレーニング分布と比較して、局所的またはグローバルな特徴の変化を示す可能性がある。 機械学習(ML)コミュニティは、元のトレーニングデータから異常な入力を区別することを目的とした、数多くの手法で対応している。 しかし、以前の研究の大部分は、主に事前訓練された深層ニューラルネットワークの出力層または最後層に焦点を当てている。 本稿では,多機能化による多機能化によるテストサンプルの分布変化を識別するために,多機能化に基づく層分割検出(Multitesting-wise Out-of-Distribution, MLOD)を提案する。 本手法は,事前学習した分類器の構造や微調整を必要としないため,既存の手法と区別する。 広範囲にわたる実験により,提案手法は様々な深度の特徴抽出器を効率よく利用しながら,既存の距離ベース検査手法とシームレスに統合できることが実証された。 本手法は, ベースライン法と比較して, 分布外検出の性能を効果的に向上させる。 特にMLOD-Fisherは一般に優れた性能を発揮する。 CIFAR10でKNNを用いて訓練すると、MLOD-Fisherは、最後の層の特徴を単に活用するのに比べて、偽陽性率(FPR)を平均24.09%から7.47%に大幅に下げる。

Deploying machine learning in open environments presents the challenge of encountering diverse test inputs that differ significantly from the training data. These out-of-distribution samples may exhibit shifts in local or global features compared to the training distribution. The machine learning (ML) community has responded with a number of methods aimed at distinguishing anomalous inputs from original training data. However, the majority of previous studies have primarily focused on the output layer or penultimate layer of pre-trained deep neural networks. In this paper, we propose a novel framework, Multitesting-based Layer-wise Out-of-Distribution (OOD) Detection (MLOD), to identify distributional shifts in test samples at different levels of features through rigorous multiple testing procedure. Our approach distinguishes itself from existing methods as it does not require modifying the structure or fine-tuning of the pre-trained classifier. Through extensive experiments, we demonstrate that our proposed framework can seamlessly integrate with any existing distance-based inspection method while efficiently utilizing feature extractors of varying depths. Our scheme effectively enhances the performance of out-of-distribution detection when compared to baseline methods. In particular, MLOD-Fisher achieves superior performance in general. When trained using KNN on CIFAR10, MLOD-Fisher significantly lowers the false positive rate (FPR) from 24.09% to 7.47% on average compared to merely utilizing the features of the last layer.
翻訳日:2024-03-19 21:45:00 公開日:2024-03-16
# 音声駆動型パーソナライズドジェスチャ合成:ファジィ特徴推論のハーネス化

Speech-driven Personalized Gesture Synthetics: Harnessing Automatic Fuzzy Feature Inference ( http://arxiv.org/abs/2403.10805v1 )

ライセンス: Link先を確認
Fan Zhang, Zhaohan Wang, Xin Lyu, Siyuan Zhao, Mengjian Li, Weidong Geng, Naye Ji, Hui Du, Fuxing Gao, Hao Wu, Shunman Li, (参考訳) 音声駆動ジェスチャ生成は、仮想人間創造の新たな分野である。 しかし、重要な課題は、多数の入力特徴(音響、意味、感情、性格、さらには微妙な未知の特徴など)を正確に決定し、処理することである。 従来のアプローチは、様々な明示的な特徴入力と複雑なマルチモーダル処理に依存し、結果として生じるジェスチャーの表現性を制限し、適用性を制限する。 このような課題に対処するために,生音声のみに依存した高度にパーソナライズされた3Dフルボディジェスチャーを生成するために設計された,新しいエンドツーエンド生成モデルであるPersona-Gestorを提案する。 このモデルはファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)変換器拡散アーキテクチャを組み合わせたものである。 ファジィ特徴抽出器は、暗黙的かつ連続的なファジィ特徴を自動的に推論するファジィ推論戦略を利用する。 これらのファジィ特徴は統一潜在特徴として表現され、AdaLN変換器に入力される。 AdaLN変換器は、全てのトークンに一様関数を適用する条件機構を導入し、ファジィ特徴とジェスチャーシーケンスの相関を効果的にモデル化する。 このモジュールは自然性を保ちながら高いレベルのジェスチャー音声同期を保証する。 最後に、拡散モデルを用いて様々なジェスチャーを訓練し、推論する。 Trinity、ZEGGS、BEATデータセットに関する広範囲な主観的および客観的評価は、現在の最先端アプローチと比較して、我々のモデルの優れたパフォーマンスを確認します。 Persona-Gestorはシステムのユーザビリティと一般化能力を改善し、音声駆動ジェスチャ合成の新しいベンチマークを設定し、バーチャルヒューマンテクノロジーの地平を広げる。 追加のビデオとコードはhttps://zf223669.github.io/Diffmotion-v2-website/でアクセスできる。

Speech-driven gesture generation is an emerging field within virtual human creation. However, a significant challenge lies in accurately determining and processing the multitude of input features (such as acoustic, semantic, emotional, personality, and even subtle unknown features). Traditional approaches, reliant on various explicit feature inputs and complex multimodal processing, constrain the expressiveness of resulting gestures and limit their applicability. To address these challenges, we present Persona-Gestor, a novel end-to-end generative model designed to generate highly personalized 3D full-body gestures solely relying on raw speech audio. The model combines a fuzzy feature extractor and a non-autoregressive Adaptive Layer Normalization (AdaLN) transformer diffusion architecture. The fuzzy feature extractor harnesses a fuzzy inference strategy that automatically infers implicit, continuous fuzzy features. These fuzzy features, represented as a unified latent feature, are fed into the AdaLN transformer. The AdaLN transformer introduces a conditional mechanism that applies a uniform function across all tokens, thereby effectively modeling the correlation between the fuzzy features and the gesture sequence. This module ensures a high level of gesture-speech synchronization while preserving naturalness. Finally, we employ the diffusion model to train and infer various gestures. Extensive subjective and objective evaluations on the Trinity, ZEGGS, and BEAT datasets confirm our model's superior performance to the current state-of-the-art approaches. Persona-Gestor improves the system's usability and generalization capabilities, setting a new benchmark in speech-driven gesture synthesis and broadening the horizon for virtual human technology. Supplementary videos and code can be accessed at https://zf223669.github.io/Diffmotion-v2-website/
翻訳日:2024-03-19 21:45:00 公開日:2024-03-16
# 開発者の認識: 品質への貢献としてしばしば見過ごされるバグの修正

Developers' Perception: Fixed Bugs Often Overlooked as Quality Contributions ( http://arxiv.org/abs/2403.10806v1 )

ライセンス: Link先を確認
Vitaly Alifanov, Kamil Almetov, Ivan Kornienko, Arsen Mutalapov, Yegor Bugayenko, (参考訳) 高品質なソフトウェア製品は、よく書かれたソースコードとタイムリーな検出とバグの徹底的な報告の両方に依存している。 しかし、一部のプログラマはバグレポートを作業のネガティブな評価とみなし、バグ報告を控え、結果としてプロジェクトに有害な影響を及ぼすと考えている。 102人のプログラマによる調査の結果、リポジトリで見つかったバグの量と修正されたバグを、より高い品質を示すものとして認識しているのは、その3分の1に過ぎないことが分かりました。 この発見は、プログラマがテストとバグレポートの重要性を誤解することが多いという考えを裏付けるものだ。

High-quality software products rely on both well-written source code and timely detection and thorough reporting of bugs. However, some programmers view bug reports as negative assessments of their work, leading them to withhold reporting bugs, thereby detrimentally impacting projects. Through a survey of 102 programmers, we discovered that only a third of them perceive the quantity of bugs found and rectified in a repository as indicative of higher quality. This finding substantiates the notion that programmers often misinterpret the significance of testing and bug reporting.
翻訳日:2024-03-19 21:45:00 公開日:2024-03-16
# FlyKD: カリキュラム学習によるフライでのグラフ知識蒸留

FlyKD: Graph Knowledge Distillation on the Fly with Curriculum Learning ( http://arxiv.org/abs/2403.10807v1 )

ライセンス: Link先を確認
Eugene Ku, (参考訳) 知識蒸留(KD)は、より有能な教師モデルの知識をより軽量な学生モデルに移し、モデルの効率を向上し、より速く、よりデプロイしやすくすることを目的としている。 しかし、ノイズの多い擬似ラベル(教師モデルによって生成される)に対する学生モデルの最適化プロセスは難易度が高く、メモリ外乱(OOM)エラーにより生成できる擬似ラベルの量は制限される。 本稿では,FlyKD(Knowledge Distillation on the Fly)を提案する。このFlyKD(Knowledge Distillation on the Fly)は,ほとんど無限数の擬似ラベルを生成できる。 実証的に、FlyKDはバニラKDと有名なローカル構造保存グラフ畳み込みネットワーク(LSPGCN)より優れています。 最後に、カリキュラム学習の成功により、ノイズの多い擬似ラベルに対する最適化を改善するための新たな研究の方向性を明らかにした。

Knowledge Distillation (KD) aims to transfer a more capable teacher model's knowledge to a lighter student model in order to improve the efficiency of the model, making it faster and more deployable. However, the student model's optimization process over the noisy pseudo labels (generated by the teacher model) is tricky and the amount of pseudo labels one can generate is limited due to Out of Memory (OOM) error. In this paper, we propose FlyKD (Knowledge Distillation on the Fly) which enables the generation of virtually unlimited number of pseudo labels, coupled with Curriculum Learning that greatly alleviates the optimization process over the noisy pseudo labels. Empirically, we observe that FlyKD outperforms vanilla KD and the renown Local Structure Preserving Graph Convolutional Network (LSPGCN). Lastly, with the success of Curriculum Learning, we shed light on a new research direction of improving optimization over noisy pseudo labels.
翻訳日:2024-03-19 21:35:15 公開日:2024-03-16
# DarkGS: 暗黒でのロボット探査をめざす3Dガウスとニューラル照明の学習

DarkGS: Learning Neural Illumination and 3D Gaussians Relighting for Robotic Exploration in the Dark ( http://arxiv.org/abs/2403.10814v1 )

ライセンス: Link先を確認
Tianyi Zhang, Kaining Huang, Weiming Zhi, Matthew Johnson-Roberson, (参考訳) 人間は、限られた、あるいは様々なレベルの照明の下でも、環境の一貫性のある精神モデルを構築することができる。 私たちは同じ能力でロボットを養うことを望んでいます。 本稿では, 照明条件が悪く, 移動光源で光写実的シーン表現を構築することの課題に対処する。 我々は,照明を学習問題としてモデル化する作業にアプローチし,シーン再構築を支援するために開発した照明モデルを利用する。 我々は,Neural Light Simulator (NeLiS) を用いて,カメラライトシステムのモデル化とキャリブレーションを行う革新的なフレームワークを提案する。 さらに,新しい視点からリアルタイムで光リアルなレンダリングが可能な3次元ガウスシーンモデルを作成するためにNeLiSを応用したDarkGSを提案する。 本研究では,様々な実環境におけるシミュレータとシステムの適用性およびロバスト性を示す。

Humans have the remarkable ability to construct consistent mental models of an environment, even under limited or varying levels of illumination. We wish to endow robots with this same capability. In this paper, we tackle the challenge of constructing a photorealistic scene representation under poorly illuminated conditions and with a moving light source. We approach the task of modeling illumination as a learning problem, and utilize the developed illumination model to aid in scene reconstruction. We introduce an innovative framework that uses a data-driven approach, Neural Light Simulators (NeLiS), to model and calibrate the camera-light system. Furthermore, we present DarkGS, a method that applies NeLiS to create a relightable 3D Gaussian scene model capable of real-time, photorealistic rendering from novel viewpoints. We show the applicability and robustness of our proposed simulator and system in a variety of real-world environments.
翻訳日:2024-03-19 21:35:15 公開日:2024-03-16
# マイクロディフュージョン(マイクロディフュージョン) : 限定2次元顕微鏡像からの3次元再構成のためのインプシット表現誘導拡散

MicroDiffusion: Implicit Representation-Guided Diffusion for 3D Reconstruction from Limited 2D Microscopy Projections ( http://arxiv.org/abs/2403.10815v1 )

ライセンス: Link先を確認
Mude Hui, Zihao Wei, Hongru Zhu, Fei Xia, Yuyin Zhou, (参考訳) 非回折ビームを用いた体積光学顕微鏡は、2次元画像に軸方向に投影することで3次元ボリュームを高速に撮像することができるが、重要な深度情報がない。 この問題に対処するために,我々は,限られた2次元プロジェクションから高品質で深度を解決した3次元ボリューム再構成を容易にするパイオニアツールであるMicroDiffusionを紹介した。 Inlicit Neural Representation (INR) モデルでは,不完全出力や拡散拡散確率モデル (DDPM) の高精細化に優れることが多いが,本手法はINRの構造的コヒーレンスとDDPMの細部拡張機能を統合する。 InRモデルを用いて2次元の軸方向投影画像を予備的な3次元ボリュームに変換する。 この事前学習INRは、INR出力とノイズ入力の線形補間を通じて、DDPMの生成過程のグローバルな先導として機能する。 この戦略は, 局所化2次元画像における拡散過程を構造化された3次元情報で強化し, 詳細性を高め, ノイズを低減する。 拡散モデルを最も近い2次元投影に条件付けすることにより、マイクロ拡散は、3次元再構成の結果の忠実度を大幅に向上し、INRおよび標準DDPM出力を非並列画像品質と構造忠実度で上回る。 私たちのコードとデータセットはhttps://github.com/UCSC-VLAA/MicroDiffusion.comで公開されています。

Volumetric optical microscopy using non-diffracting beams enables rapid imaging of 3D volumes by projecting them axially to 2D images but lacks crucial depth information. Addressing this, we introduce MicroDiffusion, a pioneering tool facilitating high-quality, depth-resolved 3D volume reconstruction from limited 2D projections. While existing Implicit Neural Representation (INR) models often yield incomplete outputs and Denoising Diffusion Probabilistic Models (DDPM) excel at capturing details, our method integrates INR's structural coherence with DDPM's fine-detail enhancement capabilities. We pretrain an INR model to transform 2D axially-projected images into a preliminary 3D volume. This pretrained INR acts as a global prior guiding DDPM's generative process through a linear interpolation between INR outputs and noise inputs. This strategy enriches the diffusion process with structured 3D information, enhancing detail and reducing noise in localized 2D images. By conditioning the diffusion model on the closest 2D projection, MicroDiffusion substantially enhances fidelity in resulting 3D reconstructions, surpassing INR and standard DDPM outputs with unparalleled image quality and structural fidelity. Our code and dataset are available at https://github.com/UCSC-VLAA/MicroDiffusion.
翻訳日:2024-03-19 21:35:15 公開日:2024-03-16
# 非定常確率帯域のインセンティブ付き探索

Incentivized Exploration of Non-Stationary Stochastic Bandits ( http://arxiv.org/abs/2403.10819v1 )

ライセンス: Link先を確認
Sourav Chakraborty, Lijun Chen, (参考訳) 本研究では,非定常報酬分布を用いたマルチアームバンディット(MAB)問題に対するインセンティブ付き探索について検討する。 本研究では, 急激な変化と連続的な変化の2つの非定常環境を考察し, それぞれのインセンティブ付き探索アルゴリズムを提案する。 提案アルゴリズムは,非定常性や偏りやドリフトフィードバックにも拘わらず,探索を効果的に動機付けることができることを示す。

We study incentivized exploration for the multi-armed bandit (MAB) problem with non-stationary reward distributions, where players receive compensation for exploring arms other than the greedy choice and may provide biased feedback on the reward. We consider two different non-stationary environments: abruptly-changing and continuously-changing, and propose respective incentivized exploration algorithms. We show that the proposed algorithms achieve sublinear regret and compensation over time, thus effectively incentivizing exploration despite the nonstationarity and the biased or drifted feedback.
翻訳日:2024-03-19 21:35:15 公開日:2024-03-16
# 基礎モデルを用いたセマンティックセグメンテーションのための能動ラベル補正

Active Label Correction for Semantic Segmentation with Foundation Models ( http://arxiv.org/abs/2403.10820v1 )

ライセンス: Link先を確認
Hoyoung Kim, Sehyun Hwang, Suha Kwak, Jungseul Ok, (参考訳) セマンティックセグメンテーションのためのモデルのトレーニングと検証には、ピクセル単位のアノテーションを持つデータセットが必要である。 ファンデーションモデルやクラウドソースデータセットなどの有用な事前情報は利用可能だが、エラーが発生しやすい。 そこで我々は,画素の擬似ラベルを補正するための補正クエリの設計に基づいて,能動的ラベル補正(ALC)の有効なフレームワークを提案する。 具体的には、擬似ラベルとスーパーピクセルに有用なゼロショット予測を提供する基礎モデルを活用し、本手法は2つの重要な手法からなる。 一 擬似ラベルによる訂正クエリの注釈に親しみやすい設計、及び (ii)スーパーピクセルに基づくラベル展開を目指す取得関数。 PASCAL,Cityscapes,Kvasir-SEGデータセットによる実験結果から,ALCフレームワークの有効性が示された。 特に,本手法を用いて,PASCALデータセット中の260万画素の誤りを補正し,PASCALの修正データセットを得た。

Training and validating models for semantic segmentation require datasets with pixel-wise annotations, which are notoriously labor-intensive. Although useful priors such as foundation models or crowdsourced datasets are available, they are error-prone. We hence propose an effective framework of active label correction (ALC) based on a design of correction query to rectify pseudo labels of pixels, which in turn is more annotator-friendly than the standard one inquiring to classify a pixel directly according to our theoretical analysis and user study. Specifically, leveraging foundation models providing useful zero-shot predictions on pseudo labels and superpixels, our method comprises two key techniques: (i) an annotator-friendly design of correction query with the pseudo labels, and (ii) an acquisition function looking ahead label expansions based on the superpixels. Experimental results on PASCAL, Cityscapes, and Kvasir-SEG datasets demonstrate the effectiveness of our ALC framework, outperforming prior methods for active semantic segmentation and label correction. Notably, utilizing our method, we obtained a revised dataset of PASCAL by rectifying errors in 2.6 million pixels in PASCAL dataset.
翻訳日:2024-03-19 21:35:14 公開日:2024-03-16
# 大規模言語モデルは医療コードを理解するか?

Do Large Language Models understand Medical Codes? ( http://arxiv.org/abs/2403.10822v1 )

ライセンス: Link先を確認
Simon A. Lee, Timothy Lindsey, (参考訳) 最近のAI研究の包括的な目標は、人工知能(AGI)の実現に向けて着実に進歩することであり、様々なタスクやドメインにわたる大規模言語モデル(LLM)の評価を促進することである。 そのような領域の1つは医療であり、LSMは幅広いタスクを支援することで臨床実践に多大な利益をもたらすことができる。 しかし、これらのモデルはまた、適切な対処ができないクエリに直面した時に、特に医療コミュニティ内で、懸念や懐疑論を提起する「幻覚」や誤った反応を生み出す傾向にある。 そこで本研究では, LLM が医療実践において広く用いられている医療コードの本質的意味を理解しているかどうかを考察する。 生物医学的応用に特化して設計された各種市販LCM (e , GPT, LLaMAなど) およびLSMを, これらのドメイン固有用語の認識と理解を評価するために評価した。 以上の結果から,これらのモデルが医療用コードの意味を理解していないことが示唆され,医療に広く用いられているこれらのアルファ数字符号の表現性の向上の必要性が示唆された。 我々は、LSM内の医療コードや用語のニュアンスを効果的に把握し、表現するための改善戦略を求め、医療専門家にとってより信頼性が高く信頼できるツールとなることができるようにします。

The overarching goal of recent AI research has been to make steady progress towards achieving Artificial General Intelligence (AGI), prompting the evaluation of Large Language Models (LLMs) across a variety of tasks and domains. One such domain is healthcare, where LLMs can greatly benefit clinical practice by assisting with a wide range of tasks. However, these models are also prone to producing "hallucinations" or incorrect responses when faced with queries they cannot adequately address, raising concerns and skepticism, especially within the healthcare community. Therefore, in this work, we investigate whether LLMs understand the inherent meaning of medical codes, which are widely used in healthcare practice. We evaluate various off-the-shelf LLMs (e.g., GPT, LLaMA, etc.) and LLMs specifically designed for biomedical applications to assess their awareness and understanding of these domain-specific terminologies. Our results indicate that these models do not comprehend the meaning of the medical codes, highlighting the need for better representation of these alphanumeric codes extensively used in healthcare. We call for improved strategies to effectively capture and represent the nuances of medical codes and terminologies within LLMs, enabling them to become more reliable and trustworthy tools for healthcare professionals.
翻訳日:2024-03-19 21:35:14 公開日:2024-03-16
# VisionCLIP: 一般化可能な網膜画像解析のためのMed-AIGCに基づく倫理的言語画像基盤モデル

VisionCLIP: An Med-AIGC based Ethical Language-Image Foundation Model for Generalizable Retina Image Analysis ( http://arxiv.org/abs/2403.10823v1 )

ライセンス: Link先を確認
Hao Wei, Bowen Liu, Minqing Zhang, Peilun Shi, Wu Yuan, (参考訳) ジェネラリスト基礎モデルは、医療領域における新しい基礎的能力の基盤となっている。 しかし、高品質な注釈付きデータの需要の増加と患者のプライバシーとの矛盾はますます強まり続けている。 医療用人工知能生成コンテンツ(Med-AIGC)の資源リポジトリとしての利用は、上記の課題に対処するための潜在的な解決策として生じる。 ここでは、自然言語記述と組み合わせた100万のオープンソース合成基礎画像を用いて、VisionCLIPという網膜画像解析のための倫理的言語イメージ基盤モデルをキュレートする。 VisionCLIPは、ゼロショット方式で実世界のデータで事前訓練された既存の方法と比較して、3つの外部データセット上での競合性能を達成する。 人工的に合成された画像と、それに対応するテキストデータとを併用することにより、医療基盤モデルは、疾患症状学の知識をうまく同化することができ、患者の機密性の潜在的な侵害を回避することができる。

Generalist foundation model has ushered in newfound capabilities in medical domain. However, the contradiction between the growing demand for high-quality annotated data with patient privacy continues to intensify. The utilization of medical artificial intelligence generated content (Med-AIGC) as an inexhaustible resource repository arises as a potential solution to address the aforementioned challenge. Here we harness 1 million open-source synthetic fundus images paired with natural language descriptions, to curate an ethical language-image foundation model for retina image analysis named VisionCLIP. VisionCLIP achieves competitive performance on three external datasets compared with the existing method pre-trained on real-world data in a zero-shot fashion. The employment of artificially synthetic images alongside corresponding textual data for training enables the medical foundation model to successfully assimilate knowledge of disease symptomatology, thereby circumventing potential breaches of patient confidentiality.
翻訳日:2024-03-19 21:35:14 公開日:2024-03-16
# LookALike: 人間のミミリーをベースとした共同意思決定

LookALike: Human Mimicry based collaborative decision making ( http://arxiv.org/abs/2403.10824v1 )

ライセンス: Link先を確認
Rabimba Karanjai, Weidong Shi, (参考訳) 人工知能は、役割特定ニュアンスを他のシステムに伝達する際に不足する。 これは、現実の問題解決のために相互に通信可能な自律的LLMエージェントを構築する場合により顕著である。 人間は知識とともにコンテキストやドメイン固有のニュアンスを伝えることができ、それがスキルの洗練につながった。 本研究では,LLMエージェント間の知識蒸留につながる新しい手法の提案と評価を行う。 また,本システムによる実世界のタスクのシミュレーションにおいて,最先端のタスクと比較して性能が向上することを示した。

Artificial General Intelligence falls short when communicating role specific nuances to other systems. This is more pronounced when building autonomous LLM agents capable and designed to communicate with each other for real world problem solving. Humans can communicate context and domain specific nuances along with knowledge, and that has led to refinement of skills. In this work we propose and evaluate a novel method that leads to knowledge distillation among LLM agents leading to realtime human role play preserving unique contexts without relying on any stored data or pretraining. We also evaluate how our system performs better in simulated real world tasks compared to state of the art.
翻訳日:2024-03-19 21:35:14 公開日:2024-03-16
# マルチモーダル知識の統合による影響行動分析

Affective Behaviour Analysis via Integrating Multi-Modal Knowledge ( http://arxiv.org/abs/2403.10825v1 )

ライセンス: Link先を確認
Wei Zhang, Feng Qiu, Chen Liu, Lincheng Li, Heming Du, Tiancheng Guo, Xin Yu, (参考訳) 感情的行動分析(Affective Behavior Analysis)は、デバイスが人間の感情を理解し、反応できる世界を作ることで、テクノロジーを感情的に賢くすることを目指している。 自然環境における感情行動分析技術の信頼性と適用性を総合的に評価するため、第6回感情行動分析コンテスト(ABAW)では、Aff-Wild2、Hum-Vidmimic2、C-EXPR-DBデータセットを用いて、Valence-Arousal(VA)推定、Expression(EXPR)認識、AU検出、複合表現(CE)認識、情緒的模倣強度(EMI)推定の5つの競合トラックを設定する。 本稿では,5つの課題に対する手法設計について述べる。 特に、我々のデザインは主に3つの側面を含む。 1)トランスフォーマーをベースとした機能融合モジュールを用いて,音声信号,視覚画像,文字起こしなどの感情情報を完全に統合し,下流タスクに高品質な表現機能を提供する。 2) 高品質な顔特徴表現を実現するために,視覚特徴抽出モデルとしてMasked-Auto Encoderを使用し,顔データセットで微調整する。 3)映像収集シーンの複雑さを考慮すると,シーン特性に基づいてより詳細なデータセット分割を行い,各シーンの分類器を訓練する。 大規模な実験は、我々の設計の優越性を実証している。

Affective Behavior Analysis aims to facilitate technology emotionally smart, creating a world where devices can understand and react to our emotions as humans do. To comprehensively evaluate the authenticity and applicability of emotional behavior analysis techniques in natural environments, the 6th competition on Affective Behavior Analysis in-the-wild (ABAW) utilizes the Aff-Wild2, Hume-Vidmimic2, and C-EXPR-DB datasets to set up five competitive tracks, i.e., Valence-Arousal (VA) Estimation, Expression (EXPR) Recognition, Action Unit (AU) Detection, Compound Expression (CE) Recognition, and Emotional Mimicry Intensity (EMI) Estimation. In this paper, we present our method designs for the five tasks. Specifically, our design mainly includes three aspects: 1) Utilizing a transformer-based feature fusion module to fully integrate emotional information provided by audio signals, visual images, and transcripts, offering high-quality expression features for the downstream tasks. 2) To achieve high-quality facial feature representations, we employ Masked-Auto Encoder as the visual features extraction model and fine-tune it with our facial dataset. 3) Considering the complexity of the video collection scenes, we conduct a more detailed dataset division based on scene characteristics and train the classifier for each scene. Extensive experiments demonstrate the superiority of our designs.
翻訳日:2024-03-19 21:35:14 公開日:2024-03-16
# 複数物体追跡における学習に基づく運動モデルの検討

Exploring Learning-based Motion Models in Multi-Object Tracking ( http://arxiv.org/abs/2403.10826v1 )

ライセンス: Link先を確認
Hsiang-Wei Huang, Cheng-Yen Yang, Wenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang, (参考訳) 多目的追跡(MOT)の分野では、従来の手法は運動予測にカルマンフィルタを頼り、その強みを線形運動のシナリオで活用することが多い。 しかし、これらの手法の本質的な限界は、複雑な非線形運動や、スポーツやダンスのような動的環境によく見られる閉塞に直面したときに明らかになる。 本稿では,カルマンフィルタを様々な学習ベースモーションモデルに置き換えることで,カルマンフィルタの制約を超えたトラッキング精度と適応性を効果的に向上する可能性について検討する。 本稿では、DanceTrackとSportsMOTのデータセットにおいて、既存のモーションベースのトラッカーよりも優れるオンラインモーションベースのトラッカーであるMambaTrackを提案する。 さらに、トラジェクトリ特徴抽出における状態空間モデルの可能性をさらに活用して追跡性能を高めるとともに、56.1 HOTAと54.9 IDF1のDanceTrackデータセットにおける最先端性能を実現するMambaTrack+を提案する。

In the field of multi-object tracking (MOT), traditional methods often rely on the Kalman Filter for motion prediction, leveraging its strengths in linear motion scenarios. However, the inherent limitations of these methods become evident when confronted with complex, nonlinear motions and occlusions prevalent in dynamic environments like sports and dance. This paper explores the possibilities of replacing the Kalman Filter with various learning-based motion model that effectively enhances tracking accuracy and adaptability beyond the constraints of Kalman Filter-based systems. In this paper, we proposed MambaTrack, an online motion-based tracker that outperforms all existing motion-based trackers on the challenging DanceTrack and SportsMOT datasets. Moreover, we further exploit the potential of the state-space-model in trajectory feature extraction to boost the tracking performance and proposed MambaTrack+, which achieves the state-of-the-art performance on DanceTrack dataset with 56.1 HOTA and 54.9 IDF1.
翻訳日:2024-03-19 21:35:14 公開日:2024-03-16
# リレージディアンタングメントを用いた多人数応答生成

Multi-party Response Generation with Relation Disentanglement ( http://arxiv.org/abs/2403.10827v1 )

ライセンス: Link先を確認
Tianhao Dai, Chengyu Huang, Lizi Liao, (参考訳) 既存のニューラルレスポンス生成モデルは、発話が逐次的に組織化されていると仮定して、二者会話の印象的な改善を実現している。 しかし、現実世界の対話の多くは複数のインターロケータを伴い、会話のコンテキストの構造はずっと複雑であり、例えば異なるインターロケータからの発声は「平行に」起こる。 この課題に直面して、より明確な文脈で応答生成を促進するために、発話やインターロケータ間の関係をモデル化しようとする作業がある。 それにもかかわらず、これらの手法はそのような関係に強く依存しており、これらが事前に与えられると仮定し、これは現実的ではなく、そのような方法の一般化を妨げる。 本研究では,人間のラベルを使わずに,会話の文脈内で微妙な手がかりに基づいて,関係性を自動推論し,これらの関係を利用して神経応答生成を導くことを提案する。 具体的には、まずディープグラフのランダムな処理を適用し、会話の文脈における発話間の全ての可能性について検討する。 次に、推定関係グラフを変分自動エンコーダフレームワークに統合し、構造認識応答生成のためのGANをトレーニングする。 Ubuntu Internet Relay Chat (IRC) チャネルベンチマークと最新のMovie Dialoguesによる実験結果から,本手法はマルチパーティ応答生成のための各種ベースラインモデルより優れていることが示された。

Existing neural response generation models have achieved impressive improvements for two-party conversations, which assume that utterances are sequentially organized. However, many real-world dialogues involve multiple interlocutors and the structure of conversational context is much more complex, e.g. utterances from different interlocutors can occur "in parallel". Facing this challenge, there are works trying to model the relations among utterances or interlocutors to facilitate response generation with clearer context. Nonetheless, these methods rely heavily on such relations and all assume that these are given beforehand, which is impractical and hinders the generality of such methods. In this work, we propose to automatically infer the relations via relational thinking on subtle clues inside the conversation context without any human label, and leverage these relations to guide the neural response generation. Specifically, we first apply a deep graph random process to fully consider all possible relations among utterances in the conversational context. Then the inferred relation graphs are integrated with a variational auto-encoder framework to train a GAN for structure-aware response generation. Experimental results on the Ubuntu Internet Relay Chat (IRC) channel benchmark and the most recent Movie Dialogues show that our method outperforms various baseline models for multi-party response generation.
翻訳日:2024-03-19 21:35:14 公開日:2024-03-16
# データ可用性と分散化:レイヤ2ブロックチェーンネットワークにおけるzk-Rollupの新しいテクニック

Data Availability and Decentralization: New Techniques for zk-Rollups in Layer 2 Blockchain Networks ( http://arxiv.org/abs/2403.10828v1 )

ライセンス: Link先を確認
Chengpeng Huang, Rui Song, Shang Gao, Yu Guo, Bin Xiao, (参考訳) パブリックブロックチェーンのスケーラビリティ制限は、現実世界のアプリケーションで広く採用されていることを妨げている。 Ethereumコミュニティは、EIP-4844に‘blob transaction’を導入するなど、zkロールアップ(ゼロ知識のロールアップ)ソリューションを推し進めているが、Layer 2ネットワークは、データ可用性の問題に直面している。 さらに、レイヤ2ブロックの構築には計算能力がかなり必要で、レイヤ2ネットワークの分散化の側面を補う必要がある。 本稿では,レイヤ2ネットワークにおけるデータ可用性と分散化の課題に対処する新しい手法を提案する。 これは、歴史的データをダウンロードすることなく、レイヤ2ノードがトランザクションを集約できないことを保証します。 さらに,履歴データを不正に削除したノードを罰する‘ストレージの保護’スキームを設計する。 分散化のために、我々はLayer 2の新しいロール分離を導入し、限られたハードウェアを持つノードが参加できるようにしました。 さらに,レイヤ2ノード間の衝突を回避するために,最大抽出可能な値(MEV)攻撃に対するロバストな保護を提供する ''proof of luck' スキームを設計する。 実験結果から,本手法はデータの可用性を確保するだけでなく,ネットワーク全体の効率向上も図っている。

The scalability limitations of public blockchains have hindered their widespread adoption in real-world applications. While the Ethereum community is pushing forward in zk-rollup (zero-knowledge rollup) solutions, such as introducing the ``blob transaction'' in EIP-4844, Layer 2 networks encounter a data availability problem: storing transactions completely off-chain poses a risk of data loss, particularly when Layer 2 nodes are untrusted. Additionally, building Layer 2 blocks requires significant computational power, compromising the decentralization aspect of Layer 2 networks. This paper introduces new techniques to address the data availability and decentralization challenges in Layer 2 networks. To ensure data availability, we introduce the concept of ``proof of download'', which ensures that Layer 2 nodes cannot aggregate transactions without downloading historical data. Additionally, we design a ``proof of storage'' scheme that punishes nodes who maliciously delete historical data. For decentralization, we introduce a new role separation for Layer 2, allowing nodes with limited hardware to participate. To further avoid collusion among Layer 2 nodes, we design a ``proof of luck'' scheme, which also provides robust protection against maximal extractable value (MEV) attacks. Experimental results show our techniques not only ensure data availability but also improve overall network efficiency, which implies the practicality and potential of our techniques for real-world implementation.
翻訳日:2024-03-19 21:35:14 公開日:2024-03-16
# 憎しみの解読:憎しみのあるミームとそのターゲットを識別する

Deciphering Hate: Identifying Hateful Memes and Their Targets ( http://arxiv.org/abs/2403.10829v1 )

ライセンス: Link先を確認
Eftekhar Hossain, Omar Sharif, Mohammed Moshiul Hoque, Sarah M. Preum, (参考訳) インターネットミームは、個人がソーシャルメディア上で感情、思考、視点を表現するための強力な手段となっている。 ユーモアやエンターテイメントの源と見なされることが多いが、ミームは個人やコミュニティをターゲットにしたヘイトフルなコンテンツを広めることもできる。 既存の研究は、ベンガル語(バングラ語としても知られる)のような低リソース言語にまつわる独特な課題を見越して、高リソース言語のミームの負の側面に焦点を当てている。 さらに、ベンガルのミームに関する以前の研究は、憎しみのあるミームを検出することに焦点を合わせてきたが、その対象物を検出するための研究は行われていない。 このギャップを埋め、この領域での研究を促進するために、ベンガルのBHM(Bengali Hateful Memes)のための新しいマルチモーダルデータセットを導入する。 データセットは、ベンガル語で書かれた7,148のミームと、2つのタスクに合わせたコードミキシングされたキャプションで構成されている。 一 憎しみのあるミームを検知し、 (二)対象とする社会団体(個人、組織、コミュニティ、社会)を検出すること。 これらの課題を解決するために,メメから重要なモダリティ特徴を体系的に抽出し,その文脈をよりよく理解するためのモダリティ特化特徴と共同で評価するマルチモーダルディープニューラルネットワークであるDORA(Dual cO attention fRAmework)を提案する。 我々の実験は、DORAが他の低リソースのヘイトフルミームデータセットで一般化可能であることを示し、最先端の競合するいくつかのベースラインを上回っている。

Internet memes have become a powerful means for individuals to express emotions, thoughts, and perspectives on social media. While often considered as a source of humor and entertainment, memes can also disseminate hateful content targeting individuals or communities. Most existing research focuses on the negative aspects of memes in high-resource languages, overlooking the distinctive challenges associated with low-resource languages like Bengali (also known as Bangla). Furthermore, while previous work on Bengali memes has focused on detecting hateful memes, there has been no work on detecting their targeted entities. To bridge this gap and facilitate research in this arena, we introduce a novel multimodal dataset for Bengali, BHM (Bengali Hateful Memes). The dataset consists of 7,148 memes with Bengali as well as code-mixed captions, tailored for two tasks: (i) detecting hateful memes, and (ii) detecting the social entities they target (i.e., Individual, Organization, Community, and Society). To solve these tasks, we propose DORA (Dual cO attention fRAmework), a multimodal deep neural network that systematically extracts the significant modality features from the memes and jointly evaluates them with the modality-specific features to understand the context better. Our experiments show that DORA is generalizable on other low-resource hateful meme datasets and outperforms several state-of-the-art rivaling baselines.
翻訳日:2024-03-19 21:35:14 公開日:2024-03-16
# 移動UAVにおけるホログラフィマッチングを用いたビュー中心多物体追跡

View-Centric Multi-Object Tracking with Homographic Matching in Moving UAV ( http://arxiv.org/abs/2403.10830v1 )

ライセンス: Link先を確認
Deyi Ji, Siqi Gao, Lanyun Zhu, Yiru Zhao, Peng Xu, Hongtao Lu, Feng Zhao, (参考訳) 本稿では,無人航空機(UAV)の移動における多物体追跡(MOT)の課題に対処する。これは,ホバリング,左右旋回,上下旋回といった不規則な飛行軌道が固定カメラMOTに比べてはるかに複雑である。 具体的には、シーン背景の変化は、従来のフレーム間オブジェクトIOUアソシエーションメソッドを非効率にするだけでなく、トラッキングを複雑にするオブジェクトのビューシフトも導入する。 これらの課題を克服するために,新しいユニバーサルなHomView-MOTフレームワークを提案する。このフレームワークは,移動環境におけるMOTの課題を解決するために,シーン変更に固有のHomographyを初めて活用し,Homographic MatchingとView-Centricの概念を取り入れたものだ。 本稿では,ビデオフレーム間のホログラフィ行列を高速に計算するFHEアルゴリズムを導入し,オブジェクトビュー中心ID学習(VCIL)を実現し,多視点ホログラフィを利用してクロスビューIDの特徴を学習する。 同時に、HMF(Homographic Matching Filter)は、異なるフレームからのオブジェクト境界ボックスを共通のビュープレーンにマッピングすることで、よりリアルな物理IOUアソシエーションを実現します。 大規模な実験により、これらの革新により、HomView-MOTは、著名なUAV MOTデータセットであるVisDroneとUAVDTで最先端のパフォーマンスを達成できることが証明された。

In this paper, we address the challenge of multi-object tracking (MOT) in moving Unmanned Aerial Vehicle (UAV) scenarios, where irregular flight trajectories, such as hovering, turning left/right, and moving up/down, lead to significantly greater complexity compared to fixed-camera MOT. Specifically, changes in the scene background not only render traditional frame-to-frame object IOU association methods ineffective but also introduce significant view shifts in the objects, which complicates tracking. To overcome these issues, we propose a novel universal HomView-MOT framework, which for the first time, harnesses the view Homography inherent in changing scenes to solve MOT challenges in moving environments, incorporating Homographic Matching and View-Centric concepts. We introduce a Fast Homography Estimation (FHE) algorithm for rapid computation of Homography matrices between video frames, enabling object View-Centric ID Learning (VCIL) and leveraging multi-view Homography to learn cross-view ID features. Concurrently, our Homographic Matching Filter (HMF) maps object bounding boxes from different frames onto a common view plane for a more realistic physical IOU association. Extensive experiments have proven that these innovations allow HomView-MOT to achieve state-of-the-art performance on prominent UAV MOT datasets VisDrone and UAVDT.
翻訳日:2024-03-19 21:35:14 公開日:2024-03-16
# DUE:3Dインプットによる動的不確かさを意識した説明スーパービジョン

DUE: Dynamic Uncertainty-Aware Explanation Supervision via 3D Imputation ( http://arxiv.org/abs/2403.10831v1 )

ライセンス: Link先を確認
Qilong Zhao, Yifei Zhang, Mengdan Zhu, Siyi Gu, Yuyang Gao, Xiaofeng Yang, Liang Zhao, (参考訳) 説明監督は,モデルの予測可能性と説明可能性の両方において顕著な改善を示すとともに,モデル説明の生成を導くために追加信号を統合することにより,ディープラーニングモデルを強化することを目的としている。 しかし,3次元医用画像などの高次元データへの説明監督の適用は,未探索領域のままである。 追加の次元が存在する場合の視覚的説明の監督に関する課題には、以下のものがある。 1)空間的相関は変化した。 2【直接3Dアノテーションの欠如】 3)不確実性は説明の様々な部分によって異なる。 これらの課題に対処するために,拡散に基づく3次元補間処理を用いた疎アノテーション3次元データを扱う際に,不確実性を考慮した説明指導を確実にする3次元説明監督のための動的不確実性対応説明監督(DUE)フレームワークを提案する。 提案手法は,様々な実世界の医療画像データセットに関する総合的な実験を通じて検証される。 本研究は,医用画像診断におけるディープラーニングモデルの予測可能性と説明可能性を高めるための枠組みの有効性を示すものである。

Explanation supervision aims to enhance deep learning models by integrating additional signals to guide the generation of model explanations, showcasing notable improvements in both the predictability and explainability of the model. However, the application of explanation supervision to higher-dimensional data, such as 3D medical images, remains an under-explored domain. Challenges associated with supervising visual explanations in the presence of an additional dimension include: 1) spatial correlation changed, 2) lack of direct 3D annotations, and 3) uncertainty varies across different parts of the explanation. To address these challenges, we propose a Dynamic Uncertainty-aware Explanation supervision (DUE) framework for 3D explanation supervision that ensures uncertainty-aware explanation guidance when dealing with sparsely annotated 3D data with diffusion-based 3D interpolation. Our proposed framework is validated through comprehensive experiments on diverse real-world medical imaging datasets. The results demonstrate the effectiveness of our framework in enhancing the predictability and explainability of deep learning models in the context of medical imaging diagnosis applications.
翻訳日:2024-03-19 21:35:14 公開日:2024-03-16
# SF(DA)$^2$:データ拡張レンズによるソースフリードメイン適応

SF(DA)$^2$: Source-free Domain Adaptation Through the Lens of Data Augmentation ( http://arxiv.org/abs/2403.10834v1 )

ライセンス: Link先を確認
Uiwon Hwang, Jonghyun Lee, Juhyeon Shin, Sungroh Yoon, (参考訳) ディープラーニングモデルのドメインシフトに対する脆弱性に直面して、ソースのないドメイン適応(SFDA)メソッドが提案されている。 SFDAにデータ拡張を適用することの潜在的な利点は魅力的であるが、クラス保存変換の事前知識への依存や、メモリと計算要求の増加など、いくつかの課題が生じる。 本稿では、これらの課題に悩まされることなく、データ拡張の利点を活用する新しいアプローチである、データ拡張のレンズを通してのソースフリードメイン適応(SF(DA)$^2$)を提案する。 本研究では,対象特徴間の近接関係を用いた事前学習モデルの特徴空間における拡張グラフを構築し,予測空間内の分割を識別するためのスペクトル近傍クラスタリングを提案する。 さらに,機能空間内のクラス意味情報を効果的に活用する正規化損失関数として,暗黙的な機能拡張と特徴の絡み合わせを提案する。 これらの正規化器は、計算およびメモリ要求を最小限に抑えつつ、拡張対象の機能を拡張グラフに無制限に含めることをシミュレートする。 提案手法は,2次元画像と3次元点クラウドデータセット,高度に不均衡なデータセットを含む,SFDAシナリオにおける優れた適応性能を示す。

In the face of the deep learning model's vulnerability to domain shift, source-free domain adaptation (SFDA) methods have been proposed to adapt models to new, unseen target domains without requiring access to source domain data. Although the potential benefits of applying data augmentation to SFDA are attractive, several challenges arise such as the dependence on prior knowledge of class-preserving transformations and the increase in memory and computational requirements. In this paper, we propose Source-free Domain Adaptation Through the Lens of Data Augmentation (SF(DA)$^2$), a novel approach that leverages the benefits of data augmentation without suffering from these challenges. We construct an augmentation graph in the feature space of the pretrained model using the neighbor relationships between target features and propose spectral neighborhood clustering to identify partitions in the prediction space. Furthermore, we propose implicit feature augmentation and feature disentanglement as regularization loss functions that effectively utilize class semantic information within the feature space. These regularizers simulate the inclusion of an unlimited number of augmented target features into the augmentation graph while minimizing computational and memory demands. Our method shows superior adaptation performance in SFDA scenarios, including 2D image and 3D point cloud datasets and a highly imbalanced dataset.
翻訳日:2024-03-19 21:25:31 公開日:2024-03-16
# IPSynth: ソフトウェアセキュリティ実装のための言語間プログラム合成

IPSynth: Interprocedural Program Synthesis for Software Security Implementation ( http://arxiv.org/abs/2403.10836v1 )

ライセンス: Link先を確認
Ali Shokri, Ibrahim Jameel Mujhid, Mehdi Mirakhorli, (参考訳) アーキテクチャのセキュリティ戦略のようなソフトウェアの重要な品質特性を実装するために、開発者はソフトウェアフレームワークのAPIをビルディングブロックとして組み込んで、車輪の再発明を避け、生産性を向上させる。 しかし、これは特に初心者プログラマにとって、困難でエラーを起こしやすいタスクである。 APIベースのプログラム合成の分野では進歩しているにもかかわらず、アーキテクチャの戦術的な実装タスクに関しては、最先端技術は2つの欠点に悩まされている。 第一に、望ましい戦術の仕様は明示的に表現されなければならないが、これはそのようなプログラマの知識から外れている。 第二に、これらのアプローチはコードのブロックを合成し、それを小さなピースに分解し、コード内の適切な場所に各ピースを追加し、各ピースとその周辺環境と他のピースとの間の正確な依存関係をプログラマに確立するタスクを残します。 これらの課題を緩和するために、IPSynthという、プログラム間プログラム合成手法を導入し、戦術の仕様を自動的に学習し、その戦術を関連するコードスニペットとして合成し、既存のコードベースに追加する。 第36回IEEE/ACM International Conference on Automated Software Engineering (ASE'21) 研究コンペティショントラックで認識された、第1回受賞の要約を拡張します。 本稿では,アプローチの詳細,IPSynthの実験的評価結果,研究トピックのより包括的な探索のための分析と洞察について述べる。 さらに、我々のアプローチの結果を、最も強力なコードジェネレータツールであるChatGPTと比較する。 提案手法は,プログラム内の対応する箇所を正確に特定し,必要なコードスニペットを合成し,プログラムに追加し,ChatGPTをプログラム間の戦術的合成タスクで上回ることを示す。

To implement important quality attributes of software such as architectural security tactics, developers incorporate API of software frameworks, as building blocks, to avoid re-inventing the wheel and improve their productivity. However, this is a challenging and error-prone task, especially for novice programmers. Despite the advances in the field of API-based program synthesis, the state-of-the-art suffers from a twofold shortcoming when it comes to architectural tactic implementation tasks. First, the specification of the desired tactic must be explicitly expressed, which is out of the knowledge of such programmers. Second, these approaches synthesize a block of code and leave the task of breaking it down into smaller pieces, adding each piece to the proper location in the code, and establishing correct dependencies between each piece and its surrounding environment as well as the other pieces, to the programmer. To mitigate these challenges, we introduce IPSynth, a novel inter-procedural program synthesis approach that automatically learns the specification of the tactic, synthesizes the tactic as inter-related code snippets, and adds them to an existing code base. We extend our first-place award-winning extended abstract recognized at the 36th IEEE/ACM International Conference on Automated Software Engineering (ASE'21) research competition track. In this paper, we provide the details of the approach, present the results of the experimental evaluation of IPSynth, and analyses and insights for a more comprehensive exploration of the research topic. Moreover, we compare the results of our approach to one of the most powerful code generator tools, ChatGPT. Our results show that our approach can accurately locate corresponding spots in the program, synthesize needed code snippets, add them to the program, and outperform ChatGPT in inter-procedural tactic synthesis tasks.
翻訳日:2024-03-19 21:25:31 公開日:2024-03-16
# 多段階表現学習を用いた2段階のサイバー犯罪符号化単語検出

Two-step Automated Cybercrime Coded Word Detection using Multi-level Representation Learning ( http://arxiv.org/abs/2403.10838v1 )

ライセンス: Link先を確認
Yongyeon Kim, Byung-Won On, Ingyu Lee, (参考訳) ソーシャルネットワークサービスプラットフォームでは、犯罪容疑者は、既存の単語に犯罪の意味を付加したり、類似した単語で置き換えることで、サイバー犯罪のコード化された単語をコミュニケーションに使用する傾向にある。 例えば、"ice"という言葉は薬物犯罪におけるメタンフェタミンを意味することが多い。 サイバー犯罪の性質や犯罪者の行動を分析し、そのような言葉を迅速に検出し、その意味をさらに理解することが重要である。 自動サイバークレーム符号化語検出問題では、教師あり学習のための十分な量のトレーニングデータを収集し、文脈情報を利用する言語モデルを直接適用して自然言語をよりよく理解することは困難である。 これらの制約を克服するため,第1段階では5つのAutoEncoderモデルのいずれかを用いて,各サイバー犯罪に対して平均潜時ベクトルを構築し,第2段階ではマルチレベル潜時表現に基づいてサイバー犯罪符号化語を検出する2段階の手法を提案する。 さらに,2段階のアプローチで検出されたサイバー犯罪コード化された単語を深く理解するために,(1)最近作られた新しい単語の検出,(2)薬物犯罪と性犯罪の両方に頻繁に現れる単語の検出,(3)単語分類の自動生成という3つの新しい手法を提案する。 実験結果によると、さまざまなAutoEncoderモデルの中で、積み重ねられたAutoEncoderモデルは最高のパフォーマンスを示している。 さらに、2段階のアプローチのF1スコアは0.991であり、既存のDark-GloVeおよびDark-BERTモデルの0.987と0.903よりも高い。 提案した3つの方法の実験結果を解析することにより、薬物犯罪と性犯罪についてより深く理解することができる。

In social network service platforms, crime suspects are likely to use cybercrime coded words for communication by adding criminal meanings to existing words or replacing them with similar words. For instance, the word 'ice' is often used to mean methamphetamine in drug crimes. To analyze the nature of cybercrime and the behavior of criminals, quickly detecting such words and further understanding their meaning are critical. In the automated cybercrime coded word detection problem, it is difficult to collect a sufficient amount of training data for supervised learning and to directly apply language models that utilize context information to better understand natural language. To overcome these limitations, we propose a new two-step approach, in which a mean latent vector is constructed for each cybercrime through one of five different AutoEncoder models in the first step, and cybercrime coded words are detected based on multi-level latent representations in the second step. Moreover, to deeply understand cybercrime coded words detected through the two-step approach, we propose three novel methods: (1) Detection of new words recently coined, (2) Detection of words frequently appeared in both drug and sex crimes, and (3) Automatic generation of word taxonomy. According to our experimental results, among various AutoEncoder models, the stacked AutoEncoder model shows the best performance. Additionally, the F1-score of the two-step approach is 0.991, which is higher than 0.987 and 0.903 of the existing dark-GloVe and dark-BERT models. By analyzing the experimental results of the three proposed methods, we can gain a deeper understanding of drug and sex crimes.
翻訳日:2024-03-19 21:25:31 公開日:2024-03-16
# MSI-NeRF: 一般化可能なニューラルラジアンス場を用いた多球画像による視線合成とオムニ奥行きのリンク

MSI-NeRF: Linking Omni-Depth with View Synthesis through Multi-Sphere Image aided Generalizable Neural Radiance Field ( http://arxiv.org/abs/2403.10840v1 )

ライセンス: Link先を確認
Dongyu Yan, Guanyu Huang, Fengyu Quan, Haoyao Chen, (参考訳) 魚眼カメラを用いたパノラマ観察は,ロボットの知覚,再建,遠隔操作において重要である。 しかし、従来の手法で合成されたパノラマ画像は深度情報を欠き、仮想現実アプリケーションでは3自由度(3DoF)回転レンダリングしか提供できない。 魚眼カメラのパララックス情報を完全に保存し,活用するために,深層学習の全方位深度推定と新しいビューレンダリングを組み合わせたMSI-NeRFを導入する。 まず,入力画像の特徴抽出とワープによって,コストボリュームとして多面体画像を構築する。 その後、幾何デコーダと外見デコーダによって処理される。 深度マップを直接回帰する手法とは異なり、空間点と補間された3次元特徴ベクトルを入力として用いた暗黙の放射場をさらに構築する。 このようにして、全方位深度推定と6DoFビュー合成を同時に実現する。 我々の手法は、半自制的な方法で訓練されている。 対象のビューイメージは不要で、監視には深度データのみを使用する。 ネットワークには,4つの画像のみを用いて未知のシーンを効率的に再構築する一般化機能がある。 実験結果から,本手法は,深度推定や新しいビュー合成タスクにおいて,既存の手法よりも優れていることがわかった。

Panoramic observation using fisheye cameras is significant in robot perception, reconstruction, and remote operation. However, panoramic images synthesized by traditional methods lack depth information and can only provide three degrees-of-freedom (3DoF) rotation rendering in virtual reality applications. To fully preserve and exploit the parallax information within the original fisheye cameras, we introduce MSI-NeRF, which combines deep learning omnidirectional depth estimation and novel view rendering. We first construct a multi-sphere image as a cost volume through feature extraction and warping of the input images. It is then processed by geometry and appearance decoders, respectively. Unlike methods that regress depth maps directly, we further build an implicit radiance field using spatial points and interpolated 3D feature vectors as input. In this way, we can simultaneously realize omnidirectional depth estimation and 6DoF view synthesis. Our method is trained in a semi-self-supervised manner. It does not require target view images and only uses depth data for supervision. Our network has the generalization ability to reconstruct unknown scenes efficiently using only four images. Experimental results show that our method outperforms existing methods in depth estimation and novel view synthesis tasks.
翻訳日:2024-03-19 21:25:31 公開日:2024-03-16
# テネシー・イーストマン過程における異常検出・診断のためのGated Dynamic Learnable Attention 機構を用いた双極子変圧器

Twin Transformer using Gated Dynamic Learnable Attention mechanism for Fault Detection and Diagnosis in the Tennessee Eastman Process ( http://arxiv.org/abs/2403.10842v1 )

ライセンス: Link先を確認
Mohammad Ali Labbaf-Khaniki, Mohammad Manthouri, Hanieh Ajami, (参考訳) 故障検出・診断(FDD)は,産業プロセスの安全性と効率を確保するための重要な課題である。 我々は、化学プロセス制御のための広く使われているベンチマークであるテネシー・イーストマン・プロセス(TEP)のための新しいFDD手法を提案する。 このモデルは2つの別々のTransformerブランチを使用しており、入力データの独立処理と多様な情報の潜在的抽出を可能にしている。 新しい注意機構であるGated Dynamic Learnable Attention (GDLAttention)を導入し、ゲーティング機構と動的学習機能を統合する。 ゲーティング機構は注意重みを変調し、モデルが入力の最も関連性の高い部分に集中できるようにする。 動的学習アプローチは、トレーニング中の注意戦略に適応し、パフォーマンスを向上させる可能性がある。 注意機構は双線形類似関数を使用し、クエリとキーベクトルの間の複雑な関係をキャプチャする柔軟性を高める。 提案手法の有効性を評価するため,TEPの21および18の異なる障害シナリオに対してテストを行い,その性能をいくつかのFDD手法と比較した。 その結果, 精度, 誤報率, 誤分類率において, 他者よりも優れていたことが示唆された。 このことは、複雑な工業プロセスにおけるFDDのアプローチの堅牢性と有効性を示している。

Fault detection and diagnosis (FDD) is a crucial task for ensuring the safety and efficiency of industrial processes. We propose a novel FDD methodology for the Tennessee Eastman Process (TEP), a widely used benchmark for chemical process control. The model employs two separate Transformer branches, enabling independent processing of input data and potential extraction of diverse information. A novel attention mechanism, Gated Dynamic Learnable Attention (GDLAttention), is introduced which integrates a gating mechanism and dynamic learning capabilities. The gating mechanism modulates the attention weights, allowing the model to focus on the most relevant parts of the input. The dynamic learning approach adapts the attention strategy during training, potentially leading to improved performance. The attention mechanism uses a bilinear similarity function, providing greater flexibility in capturing complex relationships between query and key vectors. In order to assess the effectiveness of our approach, we tested it against 21 and 18 distinct fault scenarios in TEP, and compared its performance with several established FDD techniques. The outcomes indicate that the method outperforms others in terms of accuracy, false alarm rate, and misclassification rate. This underscores the robustness and efficacy of the approach for FDD in intricate industrial processes.
翻訳日:2024-03-19 21:25:31 公開日:2024-03-16
# 知識ベース質問応答モデルRETINAQA

RETINAQA : A Knowledge Base Question Answering Model Robust to both Answerable and Unanswerable Questions ( http://arxiv.org/abs/2403.10849v1 )

ライセンス: Link先を確認
Prayushi Faldu, Indrajit Bhattacharya, Mausam, (参考訳) 最先端のKBQAモデルは質問の回答可能性を想定している。 近年の研究では、これらは適切なトレーニングやしきい値の設定によって不解性を検出することができるが、これは答え可能な質問の正確さを犠牲にしており、不解性のすべてのカテゴリを単一のモデルで処理できないことが示されている。 本稿では KBQA の新しいモデル RetinaQA を提案する。 KB-traversalベースの論理形式検索とスケッチフィリングベースの論理形式構築を補完する。 これは有効な論理形式を持つが、KB内のデータパスが解答に繋がらない質問に役立ちます。 さらに、ジェネレーションの代わりに差別を使用して、有効な論理形式を持たない質問をよりよく識別する。 RetinaQAは、解答不可能な質問にまたがって最先端KBQAモデルの適応を著しく上回り、解答不可能なカテゴリ間で堅牢性を示す。 注目すべきは、既存のモデルを超えることで、回答可能なKBQAのための新しい最先端技術を確立することだ。

State-of-the-art KBQA models assume answerability of questions. Recent research has shown that while these can be adapted to detect unaswerability with suitable training and thresholding, this comes at the expense of accuracy for answerable questions, and no single model is able to handle all categories of unanswerability. We propose a new model for KBQA named RetinaQA that is robust against unaswerability. It complements KB-traversal based logical form retrieval with sketch-filling based logical form construction. This helps with questions that have valid logical forms but no data paths in the KB leading to an answer. Additionally, it uses discrimination instead of generation to better identify questions that do not have valid logical forms. We demonstrate that RetinaQA significantly outperforms adaptations of state-of-the-art KBQA models across answerable and unanswerable questions, while showing robustness across unanswerability categories. Remarkably, it also establishes a new state-of-the art for answerable KBQA by surpassing existing models
翻訳日:2024-03-19 21:25:31 公開日:2024-03-16
# GAgent:複雑な照明環境のための視覚言語モデルを用いた適応型Rigid-Softグリップエージェント

GAgent: An Adaptive Rigid-Soft Gripping Agent with Vision Language Models for Complex Lighting Environments ( http://arxiv.org/abs/2403.10850v1 )

ライセンス: Link先を確認
Zhuowei Li, Miao Zhang, Xiaotian Lin, Meng Yin, Shuai Lu, Xueqian Wang, (参考訳) 本稿では, VLMエージェントによる高度な認知能力と, ソフトグリップを用いた柔軟な把握能力を提供する, オープンワールド環境のためのグリップエージェントであるGAgentについて紹介する。 GAgentには、Prompt Engineerモジュール、Visual-Language Model (VLM)コア、Workflowモジュールの3つの主要コンポーネントが含まれている。 これら3つのモジュールは、物体や材料を認識し、困難な照明条件下であってもグリップ面積を正確に推定することにより、グリップ成功率を高める。 クリエイティビティの一環として、研究者たちは、重い荷物をしっかりと握りながら、いまだに魅力的な物体をつかむことのできる、様々な剛性を持つバイオニックハイブリッドソフトグリップも作った。 このインテリジェントなエージェントは、VLMベースの認知処理とバイオニックデザインを特徴としている。

This paper introduces GAgent: an Gripping Agent designed for open-world environments that provides advanced cognitive abilities via VLM agents and flexible grasping abilities with variable stiffness soft grippers. GAgent comprises three primary components - Prompt Engineer module, Visual-Language Model (VLM) core and Workflow module. These three modules enhance gripper success rates by recognizing objects and materials and accurately estimating grasp area even under challenging lighting conditions. As part of creativity, researchers also created a bionic hybrid soft gripper with variable stiffness capable of gripping heavy loads while still gently engaging objects. This intelligent agent, featuring VLM-based cognitive processing with bionic design, shows promise as it could potentially benefit UAVs in various scenarios.
翻訳日:2024-03-19 21:25:31 公開日:2024-03-16
# 名前だけを言う: データ生成のみによるカテゴリー名によるオンライン連続学習

Just Say the Name: Online Continual Learning with Category Names Only via Data Generation ( http://arxiv.org/abs/2403.10853v1 )

ライセンス: Link先を確認
Minhyuk Seo, Diganta Misra, Seongwon Cho, Minjae Lee, Jonghyun Choi, (参考訳) 現実のシナリオでは、継続的な学習のための広範囲なマニュアルアノテーションは、禁止コストのため実行不可能である。 大規模なWeb教師付きトレーニングの影響を受け、継続学習におけるWebスクラッドデータの活用を推奨する先行技術は、データ不均衡、使用制限、プライバシの懸念といった課題を提起する。 オンライン連続学習フレームワークG-NoCL(Generative Name only Continual Learning)を提案する。 提案したG-NoCLは、学習者とともにジェネレータGのセットを使用する。 新しい概念(クラス)に遭遇する際、G-NoCLは、生成されたデータから最適なトレーニングデータをサンプリングするために、新しいサンプルの複雑さ誘導型データアンサンブル技術であるDIverSityとコムニシティ強化センタムBlER(DISCOBER)を採用する。 G-NoCL オンライン CL ベンチマークにおける DISCOBER の優れた性能を実証し,イン・ディストリビューション (ID) とアウト・オブ・ディストリビューション (OOD) の2つの一般化評価を行った。

In real-world scenarios, extensive manual annotation for continual learning is impractical due to prohibitive costs. Although prior arts, influenced by large-scale webly supervised training, suggest leveraging web-scraped data in continual learning, this poses challenges such as data imbalance, usage restrictions, and privacy concerns. Addressing the risks of continual webly supervised training, we present an online continual learning framework - Generative Name only Continual Learning (G-NoCL). The proposed G-NoCL uses a set of generators G along with the learner. When encountering new concepts (i.e., classes), G-NoCL employs the novel sample complexity-guided data ensembling technique DIverSity and COmplexity enhancing ensemBlER (DISCOBER) to optimally sample training data from generated data. Through extensive experimentation, we demonstrate superior performance of DISCOBER in G-NoCL online CL benchmarks, covering both In-Distribution (ID) and Out-of-Distribution (OOD) generalization evaluations, compared to naive generator-ensembling, web-supervised, and manually annotated data.
翻訳日:2024-03-19 21:25:31 公開日:2024-03-16
# 画像品質評価のための多モーダル大言語モデルの総合的研究

A Comprehensive Study of Multimodal Large Language Models for Image Quality Assessment ( http://arxiv.org/abs/2403.10854v1 )

ライセンス: Link先を確認
Tianhe Wu, Kede Ma, Jie Liang, Yujiu Yang, Lei Zhang, (参考訳) MLLM(Multimodal Large Language Models)は視覚的理解と推論において大きな進歩を遂げてきたが、画像品質評価(IQA)のための強力で柔軟性があり、解釈可能で、テキスト駆動型モデルとして機能する可能性はほとんど研究されていない。 本稿では,IQAに対するMLLMの促進に関する包括的かつ体系的な研究を行う。 具体的には、まず、心理物理学における3つの標準的なテスト手順(単刺激、二重刺激、多重刺激)と自然言語処理における3つの一般的なプロンプト戦略(標準、文脈、チェーン・オブ・シント・プロンプト)の組み合わせとして、MLLMの9つのプロンプトシステムについて検討する。 次に,サンプルの多様性と不確実性を考慮に入れたサンプル選択手法を提案し,それぞれに最適なプロンプトシステムを備えたMLLMに挑戦する。 画像品質の視覚的特性(構造的およびテクスチャ的歪み,色差,幾何学的変換など)を,全参照シナリオと非参照シナリオの両方で評価する。 実験結果から,GPT-4Vは画像品質に対する人間の認識に妥当な指標であるが,微細な品質変化(色差など)の識別が困難であり,複数の画像の視覚的品質を比較する場合には,人間の努力による作業が困難であることが示唆された。

While Multimodal Large Language Models (MLLMs) have experienced significant advancement on visual understanding and reasoning, their potentials to serve as powerful, flexible, interpretable, and text-driven models for Image Quality Assessment (IQA) remains largely unexplored. In this paper, we conduct a comprehensive and systematic study of prompting MLLMs for IQA. Specifically, we first investigate nine prompting systems for MLLMs as the combinations of three standardized testing procedures in psychophysics (i.e., the single-stimulus, double-stimulus, and multiple-stimulus methods) and three popular prompting strategies in natural language processing (i.e., the standard, in-context, and chain-of-thought prompting). We then present a difficult sample selection procedure, taking into account sample diversity and uncertainty, to further challenge MLLMs equipped with the respective optimal prompting systems. We assess three open-source and one close-source MLLMs on several visual attributes of image quality (e.g., structural and textural distortions, color differences, and geometric transformations) in both full-reference and no-reference scenarios. Experimental results show that only the close-source GPT-4V provides a reasonable account for human perception of image quality, but is weak at discriminating fine-grained quality variations (e.g., color differences) and at comparing visual quality of multiple images, tasks humans can perform effortlessly.
翻訳日:2024-03-19 21:25:31 公開日:2024-03-16
# オプションによる強化学習

Reinforcement Learning with Options ( http://arxiv.org/abs/2403.10855v1 )

ライセンス: Link先を確認
Ayoub Ghriss, Masashi Sugiyama, Alessandro Lazaric, (参考訳) 現在の論文は、強化学習分野を探求し、高次元・複雑な環境における学習の課題に取り組むために、改良された学習手法を構築することを目的としている。 階層的強化学習(Hierarchical Reinforcement Learning)として知られる階層的な方法で学習タスクを分解することで、そのような目標に対処する。 第1章では、Markov Decision Processフレームワークに精通し、次の章で使用した最新のテクニックを紹介します。 そして、単一の原始的な政策の限界に対する答えとして、階層的な政策学習の構築を進めます。 階層はトップのマネージャエージェントと下位の従業員エージェントで構成されています。 この論文の核となる最後の章では、"固有オプション(Eigenoption)"として知られるマネージャレベルとは独立して、階層の下位要素を学習しようとします。 環境のグラフ構造に基づいて、Eigenoptionsは環境の幾何学的および動的性質を認識したエージェントを構築することができる。 環境の対称変換に不変であり、結果として学習タスクの複雑さを大幅に減らすことができる。

The current thesis aims to explore the reinforcement learning field and build on existing methods to produce improved ones to tackle the problem of learning in high-dimensional and complex environments. It addresses such goals by decomposing learning tasks in a hierarchical fashion known as Hierarchical Reinforcement Learning. We start in the first chapter by getting familiar with the Markov Decision Process framework and presenting some of its recent techniques that the following chapters use. We then proceed to build our Hierarchical Policy learning as an answer to the limitations of a single primitive policy. The hierarchy is composed of a manager agent at the top and employee agents at the lower level. In the last chapter, which is the core of this thesis, we attempt to learn lower-level elements of the hierarchy independently of the manager level in what is known as the "Eigenoption". Based on the graph structure of the environment, Eigenoptions allow us to build agents that are aware of the geometric and dynamic properties of the environment. Their decision-making has a special property: it is invariant to symmetric transformations of the environment, allowing as a consequence to greatly reduce the complexity of the learning task.
翻訳日:2024-03-19 21:25:31 公開日:2024-03-16
# ゼロショット生成言語ステレオグラフィ

Zero-shot Generative Linguistic Steganography ( http://arxiv.org/abs/2403.10856v1 )

ライセンス: Link先を確認
Ke Lin, Yiyang Luo, Zijian Zhang, Ping Luo, (参考訳) 生成言語ステガノグラフィーは秘密のメッセージを秘密文に隠そうとする。 従来の研究は一般に表紙と帳票の統計的差異に焦点を合わせてきたが、不定形帳票は人によって容易に識別できる。 本稿では,言語ステガノグラフィのための文脈内学習に基づくゼロショット手法を提案する。 また、ステゴテキストの認識不能度を測定するために、いくつかの新しいメトリクスと再現可能な言語評価を設計する。 実験結果から,本手法はどの手法よりも無邪気で無知なステゴテキストを生成できることが示唆された。

Generative linguistic steganography attempts to hide secret messages into covertext. Previous studies have generally focused on the statistical differences between the covertext and stegotext, however, ill-formed stegotext can readily be identified by humans. In this paper, we propose a novel zero-shot approach based on in-context learning for linguistic steganography to achieve better perceptual and statistical imperceptibility. We also design several new metrics and reproducible language evaluations to measure the imperceptibility of the stegotext. Our experimental results indicate that our method produces $1.926\times$ more innocent and intelligible stegotext than any other method.
翻訳日:2024-03-19 21:25:31 公開日:2024-03-16
# RetMIL: 病理組織学的全スライド画像分類のための強化多重学習

RetMIL: Retentive Multiple Instance Learning for Histopathological Whole Slide Image Classification ( http://arxiv.org/abs/2403.10858v1 )

ライセンス: Link先を確認
Hongbo Chu, Qiehe Sun, Jiawen Li, Yuxuan Chen, Lizhong Zhang, Tian Guan, Anjia Han, Yonghong He, (参考訳) 深層学習を用いた病理組織学的全スライド画像 (WSI) 解析は, 計算病理学研究の焦点となっている。 現在のパラダイムは主にマルチインスタンス学習(MIL)に基づいており、Transformerをバックボーンとするアプローチがよく議論されている。 これらのメソッドは、WSIシーケンスのパッチをトークンとして表現することで、WSIタスクをシーケンスタスクに変換する。 しかし、高い不均一性とギガピクセルサイズの超長シーケンスによって引き起こされる特徴の複雑さにより、TransformerベースのMILは、高いメモリ消費、遅い推論速度、性能の欠如といった課題に悩まされる。 そこで本研究では,階層的特徴伝搬構造を通じてWSIシーケンスを処理するRetMILと呼ばれるリテーナ型MIL手法を提案する。 局所レベルでは、WSIシーケンスは複数のサブシーケンスに分割される。 各サブシーケンスのトークンは、並列線形保持機構を介して更新され、注目層を利用して集約される。 グローバルレベルでは、サブシーケンスをグローバルシーケンスに融合し、シリアル保持機構によって更新し、最後に、グローバルアテンションプーリングによりスライドレベル表現を得る。 我々は2つの公開CAMELYONデータセットとBRACSデータセットとパブリック内部LUNGデータセットで実験を行い、RetMILが最先端のパフォーマンスを達成するだけでなく、計算オーバーヘッドを大幅に削減することを確認した。 私たちのコードはまもなくアクセスされます。

Histopathological whole slide image (WSI) analysis with deep learning has become a research focus in computational pathology. The current paradigm is mainly based on multiple instance learning (MIL), in which approaches with Transformer as the backbone are well discussed. These methods convert WSI tasks into sequence tasks by representing patches as tokens in the WSI sequence. However, the feature complexity brought by high heterogeneity and the ultra-long sequences brought by gigapixel size makes Transformer-based MIL suffer from the challenges of high memory consumption, slow inference speed, and lack of performance. To this end, we propose a retentive MIL method called RetMIL, which processes WSI sequences through hierarchical feature propagation structure. At the local level, the WSI sequence is divided into multiple subsequences. Tokens of each subsequence are updated through a parallel linear retention mechanism and aggregated utilizing an attention layer. At the global level, subsequences are fused into a global sequence, then updated through a serial retention mechanism, and finally the slide-level representation is obtained through a global attention pooling. We conduct experiments on two public CAMELYON and BRACS datasets and an public-internal LUNG dataset, confirming that RetMIL not only achieves state-of-the-art performance but also significantly reduces computational overhead. Our code will be accessed shortly.
翻訳日:2024-03-19 21:25:31 公開日:2024-03-16
# ニューラルカーネル条件付き平均埋め込み

Neural-Kernel Conditional Mean Embeddings ( http://arxiv.org/abs/2403.10859v1 )

ライセンス: Link先を確認
Eiki Shimizu, Kenji Fukumizu, Dino Sejdinovic, (参考訳) カーネル条件付き平均埋め込み(CME)は、条件分布を表現するための強力なフレームワークを提供するが、スケーラビリティと表現性の課題に直面することが多い。 本研究では,これらの課題に対処するために,ディープラーニングとCMEの強みを効果的に組み合わせた新しい手法を提案する。 具体的には、カーネルベースの目的を用いて、エンドツーエンドニューラルネットワーク(NN)最適化フレームワークを活用する。 この設計は、現在のCME法で必要とされる計算コストの高いグラム行列逆転を回避している。 性能をさらに向上するために、残りのカーネルハイパーパラメーターを最適化するための効率的な戦略を提供する。 条件付き密度推定タスクでは、NN-CMEハイブリッドは競合性能を達成し、しばしば既存のディープラーニング手法を上回ります。 最後に、強化学習(RL)コンテキストにシームレスに統合することで、その優れた汎用性を示す。 提案手法は,Q-ラーニングに基づいて,分散RL手法の新たな変種を自然に導き,異なる環境における一貫した有効性を示す。

Kernel conditional mean embeddings (CMEs) offer a powerful framework for representing conditional distribution, but they often face scalability and expressiveness challenges. In this work, we propose a new method that effectively combines the strengths of deep learning with CMEs in order to address these challenges. Specifically, our approach leverages the end-to-end neural network (NN) optimization framework using a kernel-based objective. This design circumvents the computationally expensive Gram matrix inversion required by current CME methods. To further enhance performance, we provide efficient strategies to optimize the remaining kernel hyperparameters. In conditional density estimation tasks, our NN-CME hybrid achieves competitive performance and often surpasses existing deep learning-based methods. Lastly, we showcase its remarkable versatility by seamlessly integrating it into reinforcement learning (RL) contexts. Building on Q-learning, our approach naturally leads to a new variant of distributional RL methods, which demonstrates consistent effectiveness across different environments.
翻訳日:2024-03-19 21:25:31 公開日:2024-03-16
# 内視鏡的視力計測のための高能率領域適応法

Efficient Domain Adaptation for Endoscopic Visual Odometry ( http://arxiv.org/abs/2403.10860v1 )

ライセンス: Link先を確認
Junyang Wu, Yun Gu, Guang-Zhong Yang, (参考訳) 視力計測は内視鏡撮影において重要な役割を担っているが、地上の真実のポーズを伴う現実的なイメージの不足は重要な課題である。 そのため、ドメイン適応は、術前計画領域を術中実領域にブリッジして、眼科情報を学習するための有望なアプローチを提供する。 しかし、既存の手法は訓練時間の非効率さに悩まされている。 本研究では,術前計画からテスト段階までの時間を5分未満に圧縮する,内視鏡的視覚計測のための効率的なニューラルスタイル転送フレームワークを提案する。 本研究は,実画像の限られた数しか持たないトレーニングモジュールに焦点をあて,トレーニング期間を劇的に短縮するために術前情報を活用する。 さらに,テストフェーズにおいて,トレーニングとテストデータセット間の照明条件のギャップを軽減するために,新しいテスト時間適応(TTA)手法を提案する。 2つの公開内視鏡データセットを用いて実験を行った結果,本手法は視力計測タスクにおける最先端の精度を達成し,最速のトレーニング速度を誇示することがわかった。 これらの結果から術中手術に有意な期待が得られた。

Visual odometry plays a crucial role in endoscopic imaging, yet the scarcity of realistic images with ground truth poses poses a significant challenge. Therefore, domain adaptation offers a promising approach to bridge the pre-operative planning domain with the intra-operative real domain for learning odometry information. However, existing methodologies suffer from inefficiencies in the training time. In this work, an efficient neural style transfer framework for endoscopic visual odometry is proposed, which compresses the time from pre-operative planning to testing phase to less than five minutes. For efficient traing, this work focuses on training modules with only a limited number of real images and we exploit pre-operative prior information to dramatically reduce training duration. Moreover, during the testing phase, we propose a novel Test Time Adaptation (TTA) method to mitigate the gap in lighting conditions between training and testing datasets. Experimental evaluations conducted on two public endoscope datasets showcase that our method achieves state-of-the-art accuracy in visual odometry tasks while boasting the fastest training speeds. These results demonstrate significant promise for intra-operative surgery applications.
翻訳日:2024-03-19 21:25:31 公開日:2024-03-16
# FedQNN: 量子ニューラルネットワークを用いたフェデレーションラーニング

FedQNN: Federated Learning using Quantum Neural Networks ( http://arxiv.org/abs/2403.10861v1 )

ライセンス: Link先を確認
Nouhaila Innan, Muhammad Al-Zafar Khan, Alberto Marchisio, Muhammad Shafique, Mohamed Bennai, (参考訳) 本研究では,分散ネットワークを用いた量子機械学習(QML)モデルをトレーニングするためのフレームワークとして,量子フェデレートラーニング(QFL)の革新的な領域について検討する。 従来の機械学習モデルは、データプライバシや機密情報の露出に関する問題に悩まされることが多い。 提案するFederated Quantum Neural Network (FedQNN) フレームワークは,QMLの特徴と古典的フェデレーション学習の原理を融合した最先端のソリューションとして出現する。 この研究はQFLを徹底的に調査し、分散環境でのデータ処理をセキュアにし、直接的なデータ共有なしに協調学習を促進する能力を強調している。 我々の研究は、ゲノム学や医療を含むさまざまなデータセットの実験を通じてこの概念を裏付け、FedQNNフレームワークの汎用性と有効性を検証する。 結果は3つの異なるデータセットに対して86%の精度を一貫して上回り、様々なQMLタスクを実行するのに適していることが証明された。 我々の研究は古典的パラダイムの限界を識別するだけでなく、QMLの分野をセキュアで協調的なイノベーションの新しい時代へと発展させる新しい枠組みも提示する。

In this study, we explore the innovative domain of Quantum Federated Learning (QFL) as a framework for training Quantum Machine Learning (QML) models via distributed networks. Conventional machine learning models frequently grapple with issues about data privacy and the exposure of sensitive information. Our proposed Federated Quantum Neural Network (FedQNN) framework emerges as a cutting-edge solution, integrating the singular characteristics of QML with the principles of classical federated learning. This work thoroughly investigates QFL, underscoring its capability to secure data handling in a distributed environment and facilitate cooperative learning without direct data sharing. Our research corroborates the concept through experiments across varied datasets, including genomics and healthcare, thereby validating the versatility and efficacy of our FedQNN framework. The results consistently exceed 86% accuracy across three distinct datasets, proving its suitability for conducting various QML tasks. Our research not only identifies the limitations of classical paradigms but also presents a novel framework to propel the field of QML into a new era of secure and collaborative innovation.
翻訳日:2024-03-19 21:25:31 公開日:2024-03-16
# stMCDI:空間トランスクリプトミクスデータインプットのためのグラフニューラルネットワークを用いたマスク付き条件拡散モデル

stMCDI: Masked Conditional Diffusion Model with Graph Neural Network for Spatial Transcriptomics Data Imputation ( http://arxiv.org/abs/2403.10863v1 )

ライセンス: Link先を確認
Xiaoyu Li, Wenwen Min, Shunfang Wang, Changmiao Wang, Taosheng Xu, (参考訳) 空間的に解決された転写学は、遺伝子発現データとそれに対応する物理的位置の両方を提供することにより、単細胞解析において重要な進歩を示す。 しかし、この高い空間分解能は、結果として生じる細胞レベルでの空間転写学的データは、欠落した値の高頻度に悩まされているため、欠点を伴う。 さらに、既存のほとんどの計算手法は、スポット間の空間情報を見渡すか、遺伝子発現データ全体の分布を損なうかのいずれかである。 これらの課題に対処するためには、空間転写データの空間的位置情報を効果的に活用し、全体のデータ分布を保ちながら、欠落した値をインプットすることに注力する。 本稿では,ランダムにマスキングされたデータ部分を用いてトレーニングした復調ネットワークを条件として利用する空間転写学データ計算のための新しい条件拡散モデルである「textbf{stMCDI}」を紹介する。 さらに、GNNエンコーダを用いて空間位置情報を統合し、モデル性能を向上させる。 空間転写学データセットから得られた結果は,既存の手法と比較して,本手法の性能を解明するものである。

Spatially resolved transcriptomics represents a significant advancement in single-cell analysis by offering both gene expression data and their corresponding physical locations. However, this high degree of spatial resolution entails a drawback, as the resulting spatial transcriptomic data at the cellular level is notably plagued by a high incidence of missing values. Furthermore, most existing imputation methods either overlook the spatial information between spots or compromise the overall gene expression data distribution. To address these challenges, our primary focus is on effectively utilizing the spatial location information within spatial transcriptomic data to impute missing values, while preserving the overall data distribution. We introduce \textbf{stMCDI}, a novel conditional diffusion model for spatial transcriptomics data imputation, which employs a denoising network trained using randomly masked data portions as guidance, with the unmasked data serving as conditions. Additionally, it utilizes a GNN encoder to integrate the spatial position information, thereby enhancing model performance. The results obtained from spatial transcriptomics datasets elucidate the performance of our methods relative to existing approaches.
翻訳日:2024-03-19 21:15:47 公開日:2024-03-16
# ニュートラル原子ハードウェアに応用したZX計算による多制御相ゲート合成

Multi-controlled Phase Gate Synthesis with ZX-calculus applied to Neutral Atom Hardware ( http://arxiv.org/abs/2403.10864v1 )

ライセンス: Link先を確認
Korbinian Staudacher, Ludwig Schmid, Johannes Zeiher, Robert Wille, Dieter Kranzlmüller, (参考訳) 量子回路合成は、任意のユニタリ演算を固定された普遍ゲートセットのゲートシーケンスに変換する過程を記述している。 現在の合成アルゴリズムは、単一量子ビットの回転と、CX、CZ、モルマー・ソレンセンゲートなどの2つの量子ビットゲートを絡み合わせるように設計されている。 しかし、中性原子ベースのハードウェアの出現と、2量子ビット以上のゲートのネイティブサポートにより、これらの新しいゲートセットに適した合成アプローチが必要である。 本研究では,ZX計算を用いて多制御位相ゲートを合成する手法を提案する。 量子回路をZX図のようなグラフとして表現することにより、対角ゲートの異なるグラフ構造を利用して、元の回路で明示的に定義されていなくても、いくつかの量子回路に本質的に存在する多重制御相ゲートを識別することができる。 そこで我々は, マルチコントロールゲートをネイティブにサポートした中性原子ベースのハードウェアの回路実行時間について, 様々なベンチマーク回路に対するアプローチを評価し, 標準的なカイスキット合成と比較した。 以上の結果から,現在最先端ハードウェアの利点が示され,任意のサイズのマルチ制御位相ゲートをサポートする最初の正確な合成アルゴリズムが示される。

Quantum circuit synthesis describes the process of converting arbitrary unitary operations into a gate sequence of a fixed universal gate set, usually defined by the operations native to a given hardware platform. Most current synthesis algorithms are designed to synthesize towards a set of single qubit rotations and an additional entangling two qubit gate, such as CX, CZ, or the Molmer Sorensen gate. However, with the emergence of neutral atom based hardware and their native support for gates with more than two qubits, synthesis approaches tailored to these new gate sets become necessary. In this work, we present an approach to synthesize multi controlled phase gates using ZX calculus. By representing quantum circuits as graph like ZX diagrams, one can utilize the distinct graph structure of diagonal gates to identify multi controlled phase gates inherently present in some quantum circuits even if none were explicitly defined in the original circuit. We evaluate the approach on a wide range of benchmark circuits and compare them to the standard Qiskit synthesis regarding its circuit execution time for neutral atom based hardware with native support of multi controlled gates. Our results show possible advantages for current state of the art hardware and represent the first exact synthesis algorithm supporting arbitrary sized multi controlled phase gates.
翻訳日:2024-03-19 21:15:47 公開日:2024-03-16
# スピノルQEDにおける非断熱量子ブラソフ方程式

Nonadiabatic quantum Vlasov equation in spinor QED ( http://arxiv.org/abs/2403.10870v1 )

ライセンス: Link先を確認
Z. L. Li, Y. J. Li, (参考訳) スピノルQEDにおけるバナディバティック量子ブラソフ方程式が導出され、よく知られたアディバティック方程式との関係は3つの方法によって確立される。 1つは明示的に解析的な式で、もう1つはVゲージのディラック方程式によるもので、もう1つはターンオフ電場の導入によるものである。 最初の2つは即時関係である。 さらに、特定の運動量に対する分布関数の時間発展と、電場を遮断した後の生成粒子対の運動量分布をスカラーQEDと比較した。 電場オフ後の粒子の総エネルギーで分割されたスピノルとスカラーQEDの分布関数の発振周期が等しくなることがわかった。 スピノルとスカラーQEDの運動量分布は、ストークス現象では説明できない新しい振動と外相挙動を示す。 これらの発見により、量子ヴラソフ方程式の理解がさらに深まり、真空対生成への応用がさらに深まる。

The nonadiabatic quantum Vlasov equation in spinor QED is derived, and its relation to the well-known adiabatic one is established by three methods. One is by an explicitly analytical expression, the second is by the Dirac equation in the V gauge, and the last is by introducing a turn-off electric field. Wherein what the first two of them are given is an instantaneous relation. Moreover, the time evolution of the distribution function for a specific momentum and the momentum distribution of created particle pairs after turning off the electric field are calculated and compared with those in scalar QED. It is found that both the oscillation periods of the distribution functions in spinor and scalar QED equal pi divided by the total energy of a particle after the electric field is turned off. The momentum distributions in spinor and scalar QED show a novel oscillation and out-of-phase behavior that cannot be explained by the Stokes phenomenon. These findings will further deepen our understanding of the quantum Vlasov equation and its application in vacuum pair production.
翻訳日:2024-03-19 21:15:47 公開日:2024-03-16
# 非対称距離測定による確率的世界モデリング

Probabilistic World Modeling with Asymmetric Distance Measure ( http://arxiv.org/abs/2403.10875v1 )

ライセンス: Link先を確認
Meng Song, (参考訳) 表現学習(representation learning)は、データから構造を明らかにすることを目的とした機械学習の基本的なタスクである。 しかし、確率的世界における計画と推論のよい表現は、依然として未解決の問題である。 本研究では,距離関数の学習が表現空間における計画と推論を許容する上で重要であると仮定する。 確率的世界力学の幾何学的抽象化が非対称コントラスト学習によって表現空間に埋め込まれることが示される。 相互類似性や適合度を学習する従来の手法とは異なり、状態到達性を反映した非対称類似性関数を学習し、マルチウェイ確率的推論を可能にする。 さらに、共通参照状態(例えばオブザーバの現在の状態)を条件付けすることで、学習された表現空間は、ほんの一握りの経路しか通過できない幾何学的に健全な状態を発見することができる。 これらの州は、ロングホライズン計画のタスクを壊すためのサブゴールとして自然に機能する。 本手法はグリッドワールド環境において,様々なレイアウトで評価し,サブゴール発見の有効性を実証する。

Representation learning is a fundamental task in machine learning, aiming at uncovering structures from data to facilitate subsequent tasks. However, what is a good representation for planning and reasoning in a stochastic world remains an open problem. In this work, we posit that learning a distance function is essential to allow planning and reasoning in the representation space. We show that a geometric abstraction of the probabilistic world dynamics can be embedded into the representation space through asymmetric contrastive learning. Unlike previous approaches that focus on learning mutual similarity or compatibility measures, we instead learn an asymmetric similarity function that reflects the state reachability and allows multi-way probabilistic inference. Moreover, by conditioning on a common reference state (e.g. the observer's current state), the learned representation space allows us to discover the geometrically salient states that only a handful of paths can lead through. These states can naturally serve as subgoals to break down long-horizon planning tasks. We evaluate our method in gridworld environments with various layouts and demonstrate its effectiveness in discovering the subgoals.
翻訳日:2024-03-19 21:15:47 公開日:2024-03-16
# Solana NFT生態系の特徴付け

Characterizing the Solana NFT Ecosystem ( http://arxiv.org/abs/2403.10879v1 )

ライセンス: Link先を確認
Dechao Kong, Xiaoqi Li, Wenkai Li, (参考訳) 非Fungible Tokens(NFT)はブロックチェーン上に記録されたデジタル資産であり、デジタルまたは物理アイテムに対する所有権の暗号的証明を提供する。 近年、ソラナは人気を博し始めているが、NFT市場は取引量を大幅に増やしている。 本稿では,Solana NFTの特性について,縦断的測定と洗剤取引安全監査という2つの観点から,最初の系統的研究を行った。 我々はSolscanから132,736のSolana NFTを収集し、これらのコレクション内の販売データを分析した。 利用者の経済活動とNFT所有者情報を調べると、ソラナNFTの上位ユーザーがより高い購入の分布に向かって歪んでいることが分かる。 次に,2,175個のSolana NFT上での洗剤取引監査を行うために,ローカル・アウトレイヤ・ファクターアルゴリズムを用いる。 その結果,138のNFTプールが洗浄取引に関与しており,そのうち8つのNFTプールは50%以上であることがわかった。 幸いにも、これらのNFTはどれも完全に洗い流されてはいない。

Non-Fungible Tokens (NFTs) are digital assets recorded on the blockchain, providing cryptographic proof of ownership over digital or physical items. Although Solana has only begun to gain popularity in recent years, its NFT market has seen substantial transaction volumes. In this paper, we conduct the first systematic research on the characteristics of Solana NFTs from two perspectives: longitudinal measurement and wash trading security audit. We gathered 132,736 Solana NFT from Solscan and analyzed the sales data within these collections. Investigating users' economic activity and NFT owner information reveals that the top users in Solana NFT are skewed toward a higher distribution of purchases. Subsequently, we employ the Local Outlier Factor algorithm to conduct a wash trading audit on 2,175 popular Solana NFTs. We discovered that 138 NFT pools are involved in wash trading, with 8 of these NFTs having a wash trading rate exceeding 50%. Fortunately, none of these NFTs have been entirely washed out.
翻訳日:2024-03-19 21:15:47 公開日:2024-03-16
# COVID-CT-H-UNet : 注意機構と二カテゴリーハイブリッド損失に基づく新しい新型コロナウイルスCTセグメンテーションネットワーク

COVID-CT-H-UNet: a novel COVID-19 CT segmentation network based on attention mechanism and Bi-category Hybrid loss ( http://arxiv.org/abs/2403.10880v1 )

ライセンス: Link先を確認
Anay Panja, Somenath Kuiry, Alaka Das, Mita Nasipuri, Nibaran Das, (参考訳) 2019年以降、新型コロナウイルス(COVID-19)の世界的な流行は、医療研究に重要な焦点をあてている。 RT-PCRは、COVID-19検出の主要な方法であるが、その延長検出時間は重要な課題である。 以上の結果から, RT-PCRをCT画像で診断し, 診断に有用であることが示唆された。 TVLossに基づく現在のセグメンテーションアプローチは、障害領域の接続性を高める。 それにもかかわらず、特定の隣接する疾患領域間で通常のピクセルを病気のピクセルと誤分類する傾向がある。 典型的なバイナリクロスエントロピー(BCE)ベースのU字型ネットワークは、影響領域を強調せずにCT画像全体にのみ集中し、その結果、投影された出力のぼんやりした境界と低コントラストが生じる。 さらに、CT画像中の感染画素の比率ははるかに小さく、セグメント化モデルが正確な予測を行うのが困難である。 本稿では,これらの問題を解決するために,COVID-19 CTセグメンテーションネットワークであるCOVID-CT-H-UNetを提案する。 近隣の疾患領域間の未影響画素を認識するために、スキップ接続上のアテンションモジュールと、提案した複合機能Biカテゴリハイブリッドロスとを組み合わせることで、余分な視覚層情報を取得する。 疾患領域の画素に集中する複合機能 Bi-category Hybrid Loss を利用することにより, 従来のBCE損失による曖昧な境界とコントラストの問題を解決する。 この実験は、以前のCOVID-19セグメンテーションネットワークと比較して、提案されているCOVID-CT-H-UNetのセグメンテーションの影響が大幅に改善され、臨床的な新型コロナウイルスの特定と研究に使用される可能性があることを示している。

Since 2019, the global COVID-19 outbreak has emerged as a crucial focus in healthcare research. Although RT-PCR stands as the primary method for COVID-19 detection, its extended detection time poses a significant challenge. Consequently, supplementing RT-PCR with the pathological study of COVID-19 through CT imaging has become imperative. The current segmentation approach based on TVLoss enhances the connectivity of afflicted areas. Nevertheless, it tends to misclassify normal pixels between certain adjacent diseased regions as diseased pixels. The typical Binary cross entropy(BCE) based U-shaped network only concentrates on the entire CT images without emphasizing on the affected regions, which results in hazy borders and low contrast in the projected output. In addition, the fraction of infected pixels in CT images is much less, which makes it a challenge for segmentation models to make accurate predictions. In this paper, we propose COVID-CT-H-UNet, a COVID-19 CT segmentation network to solve these problems. To recognize the unaffected pixels between neighbouring diseased regions, extra visual layer information is captured by combining the attention module on the skip connections with the proposed composite function Bi-category Hybrid Loss. The issue of hazy boundaries and poor contrast brought on by the BCE Loss in conventional techniques is resolved by utilizing the composite function Bi-category Hybrid Loss that concentrates on the pixels in the diseased area. The experiment shows when compared to the previous COVID-19 segmentation networks, the proposed COVID-CT-H-UNet's segmentation impact has greatly improved, and it may be used to identify and study clinical COVID-19.
翻訳日:2024-03-19 21:15:47 公開日:2024-03-16
# コンフュージョンペナルティに基づくラベル平滑化による病理組織像の正規化

Regularizing CNNs using Confusion Penalty Based Label Smoothing for Histopathology Images ( http://arxiv.org/abs/2403.10881v1 )

ライセンス: Link先を確認
Somenath Kuiry, Alaka Das, Mita Nasipuri, Nibaran Das, (参考訳) ディープラーニング、特に畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンタスクと医療画像解析で成功している。 しかし、現代のCNNは過信され、現実世界のシナリオでのデプロイが困難になる。 研究者は、トレーニングデータのためのソフトラベルを導入し、分類器をより正規化するラベル平滑化(LS)のような正則化技術を提案する。 LSはトレーニングフェーズにおける不一致や信頼の欠如を捉え、分類器をより規則化されたものにする。 LSは極めて単純かつ効果的であるが、従来のLS手法では、LSの目的だけでなく性能も制限するクラス間での目標分布と一様分布の重み付き平均を利用する。 本稿では,各クラスにおけるモデルの混乱を他のクラスよりも重要視する,混乱ペナルティに基づく新たなLS手法を提案する。 我々は,広く知られているCNNアーキテクチャを用いて,この手法による大腸組織学データセットの公開実験を行い,良好な結果を得た。 また,本手法の信頼性図やt-disdistributed Stochastic Neighbor Embedding (t-SNE) による特徴空間のプロットによる検証を行った。

Deep Learning, particularly Convolutional Neural Networks (CNN), has been successful in computer vision tasks and medical image analysis. However, modern CNNs can be overconfident, making them difficult to deploy in real-world scenarios. Researchers propose regularizing techniques, such as Label Smoothing (LS), which introduces soft labels for training data, making the classifier more regularized. LS captures disagreements or lack of confidence in the training phase, making the classifier more regularized. Although LS is quite simple and effective, traditional LS techniques utilize a weighted average between target distribution and a uniform distribution across the classes, which limits the objective of LS as well as the performance. This paper introduces a novel LS technique based on the confusion penalty, which treats model confusion for each class with more importance than others. We have performed extensive experiments with well-known CNN architectures with this technique on publicly available Colorectal Histology datasets and got satisfactory results. Also, we have compared our findings with the State-of-the-art and shown our method's efficacy with Reliability diagrams and t-distributed Stochastic Neighbor Embedding (t-SNE) plots of feature space.
翻訳日:2024-03-19 21:15:47 公開日:2024-03-16
# 多言語大言語モデルに対する言語拡張の最適化:韓国語を事例として

Optimizing Language Augmentation for Multilingual Large Language Models: A Case Study on Korean ( http://arxiv.org/abs/2403.10882v1 )

ライセンス: Link先を確認
ChangSu Choi, Yongbin Jeong, Seoyoon Park, InHo Won, HyeonSeok Lim, SangMin Kim, Yejee Kang, Chanhyuk Yoon, Jaewan Park, Yiseul Lee, HyeJin Lee, Younggyun Hahm, Hansaem Kim, KyungTae Lim, (参考訳) 大規模言語モデル (LLM) は、事前学習を用いてその後の単語を予測するが、その拡張にはかなりの計算資源が必要である。 多くの大手テック企業や研究機関が、現在の需要に応えるためにMLLM(Multilingual LLM)を開発し、低リソース言語(LRL)を見下ろしている。 本研究では, 公開されているMLLMをベースとしたLRLの性能向上のための3つの手法を提案する。 まず、LRLのMLLM語彙を拡張して表現性を高めた。 第二に、バイリンガルデータを事前トレーニングに使用して、高レベルの言語と低レベルの言語を調整した。 第三に、高品質の小型命令データセットを構築し、LRLを増強するために命令チューニングを行った。 実験ではLlama2モデルを使用し、韓国はLRLとして用いられ、8つのタスクで他のLLMに対して定量的に評価された。 また,人体評価とGPT4に基づいて定性評価を行った。 実験結果から,提案したBllossomモデルは韓国語単言語モデルと比較して定性解析において優れた性能を示した。

Large language models (LLMs) use pretraining to predict the subsequent word; however, their expansion requires significant computing resources. Numerous big tech companies and research institutes have developed multilingual LLMs (MLLMs) to meet current demands, overlooking less-resourced languages (LRLs). This study proposed three strategies to enhance the performance of LRLs based on the publicly available MLLMs. First, the MLLM vocabularies of LRLs were expanded to enhance expressiveness. Second, bilingual data were used for pretraining to align the high- and less-resourced languages. Third, a high-quality small-scale instruction dataset was constructed and instruction-tuning was performed to augment the LRL. The experiments employed the Llama2 model and Korean was used as the LRL, which was quantitatively evaluated against other developed LLMs across eight tasks. Furthermore, a qualitative assessment was performed based on human evaluation and GPT4. Experimental results showed that our proposed Bllossom model exhibited superior performance in qualitative analyses compared to previously proposed Korean monolingual models.
翻訳日:2024-03-19 21:15:47 公開日:2024-03-16
# 協調型マルチモーダルインタラクションによる視覚言語事前学習モデルの逆変換性の向上

Improving Adversarial Transferability of Visual-Language Pre-training Models through Collaborative Multimodal Interaction ( http://arxiv.org/abs/2403.10883v1 )

ライセンス: Link先を確認
Jiyuan Fu, Zhaoyu Chen, Kaixun Jiang, Haijing Guo, Jiafeng Wang, Shuyong Gao, Wenqiang Zhang, (参考訳) VLP(Vision-Language Pre-training)モデルの大幅な進歩にもかかわらず、敵の攻撃に対する感受性は重大な課題である。 既存の研究は、VLPモデルに対する攻撃の転送可能性を研究することはめったになく、その結果、ホワイトボックス攻撃からかなりのパフォーマンスのギャップが生じる。 我々は,VLPモデルの複雑さを理解する上で重要な役割を担うモダリティ間の相互作用機構を,先行研究が見落としていることを観察する。 そこで本研究では,コラボレーティブ・マルチモーダル・インタラクション・アタック(CMI-Attack)と呼ばれる新たな攻撃手法を提案する。 具体的には、セマンティクスを維持しながら埋め込みレベルでテキストを攻撃し、相互作用画像勾配を利用してテキストや画像の摂動の制約を強化する。 Flickr30Kデータセット上の画像テキスト検索タスクにおいて、CMI-AttackはALBEFからTCL、$\text{CLIP}_{\text{ViT}}$と$\text{CLIP}_{\text{CNN}}$の転送成功率を8.11%-16.75%向上させる。 さらに、CMI-Attackはクロスタスクの一般化シナリオでも優れたパフォーマンスを示している。 我々の研究は、VLPモデルに対するトランスファー攻撃の未解明領域に対処し、対向ロバスト性を高めるためのモダリティ相互作用の重要性に光を当てている。

Despite the substantial advancements in Vision-Language Pre-training (VLP) models, their susceptibility to adversarial attacks poses a significant challenge. Existing work rarely studies the transferability of attacks on VLP models, resulting in a substantial performance gap from white-box attacks. We observe that prior work overlooks the interaction mechanisms between modalities, which plays a crucial role in understanding the intricacies of VLP models. In response, we propose a novel attack, called Collaborative Multimodal Interaction Attack (CMI-Attack), leveraging modality interaction through embedding guidance and interaction enhancement. Specifically, attacking text at the embedding level while preserving semantics, as well as utilizing interaction image gradients to enhance constraints on perturbations of texts and images. Significantly, in the image-text retrieval task on Flickr30K dataset, CMI-Attack raises the transfer success rates from ALBEF to TCL, $\text{CLIP}_{\text{ViT}}$ and $\text{CLIP}_{\text{CNN}}$ by 8.11%-16.75% over state-of-the-art methods. Moreover, CMI-Attack also demonstrates superior performance in cross-task generalization scenarios. Our work addresses the underexplored realm of transfer attacks on VLP models, shedding light on the importance of modality interaction for enhanced adversarial robustness.
翻訳日:2024-03-19 21:15:47 公開日:2024-03-16
# ファジィランクを用いた細胞画像分割のためのレイトフュージョン法

Fuzzy Rank-based Late Fusion Technique for Cytology image Segmentation ( http://arxiv.org/abs/2403.10884v1 )

ライセンス: Link先を確認
Soumyajyoti Dey, Sukanta Chakraborty, Utso Guha Roy, Nibaran Das, (参考訳) 細胞像の断片化は、複雑な細胞構造と複数の重複する領域のため、非常に困難である。 一方、教師付き機械学習技術では、大量の注釈付きデータが必要であるため、コストがかかる。 近年、後期融合技術は画像分類の分野で有望な成果を上げている。 本稿では,ファジィを用いた細胞像分割のための遅延融合技術について検討した。 この融合ルールは、UNet、SegNet、PSPNetの3つの伝統的なセマンティックセグメンテーションモデルを統合する。 本手法は, 頸部細胞診(Herlev)と乳癌細胞診(JUCYT-v1)の2つの画像データセットに適用した。 提案手法が提案された後, HErlevデータセットとJUCYT-v1データセットで84.27%, 83.79%のMeanIoUスコアが得られた。 提案されたモデルのコードはGitHubで公開されている。

Cytology image segmentation is quite challenging due to its complex cellular structure and multiple overlapping regions. On the other hand, for supervised machine learning techniques, we need a large amount of annotated data, which is costly. In recent years, late fusion techniques have given some promising performances in the field of image classification. In this paper, we have explored a fuzzy-based late fusion techniques for cytology image segmentation. This fusion rule integrates three traditional semantic segmentation models UNet, SegNet, and PSPNet. The technique is applied on two cytology image datasets, i.e., cervical cytology(HErlev) and breast cytology(JUCYT-v1) image datasets. We have achieved maximum MeanIoU score 84.27% and 83.79% on the HErlev dataset and JUCYT-v1 dataset after the proposed late fusion technique, respectively which are better than that of the traditional fusion rules such as average probability, geometric mean, Borda Count, etc. The codes of the proposed model are available on GitHub.
翻訳日:2024-03-19 21:15:47 公開日:2024-03-16
# 病理組織像から細胞像を生成できるか? : 実証的研究

Could We Generate Cytology Images from Histopathology Images? An Empirical Study ( http://arxiv.org/abs/2403.10885v1 )

ライセンス: Link先を確認
Soumyajyoti Dey, Sukanta Chakraborty, Utso Guha Roy, Nibaran Das, (参考訳) 注釈付きデータセットが利用できないことと、ドメインの専門家が不足しているため、医療画像の自動化は非常に難しい。 近年、深層学習技術は、病気の分類、重要な物体の局在化、セグメンテーションなど、複雑な医療画像のタスクを解決している。 しかし、ほとんどのタスクは、成功した実装のために大量のアノテートデータを必要とします。 データの不足を軽減するため、分類性能を向上するデータ増強のために、異なる生成モデルが提案されている。 このために、データセットを増やすために、異なる合成医用画像データ生成モデルが開発されている。 未ペア画像から画像への変換モデルは、ソースドメインをターゲットドメインにシフトする。 乳腺悪性度同定ドメインでは、FNACは通常医療従事者が使用する低コストの低侵襲なモダリティの1つである。 しかし、この領域における公開データセットの可用性は非常に低い。 一方、細胞診画像の自動化には大量の注釈データが必要である。 したがって、母乳の病理組織サンプルを公開して合成細胞診画像を生成する。 本研究では,CycleGANやNeural Style Transferといった従来の画像間転送モデルについて検討した。 さらに、FIDおよびKIDスコアを測定することにより、生成された細胞診像が実際の乳房細胞診試料とかなり類似していることが観察された。

Automation in medical imaging is quite challenging due to the unavailability of annotated datasets and the scarcity of domain experts. In recent years, deep learning techniques have solved some complex medical imaging tasks like disease classification, important object localization, segmentation, etc. However, most of the task requires a large amount of annotated data for their successful implementation. To mitigate the shortage of data, different generative models are proposed for data augmentation purposes which can boost the classification performances. For this, different synthetic medical image data generation models are developed to increase the dataset. Unpaired image-to-image translation models here shift the source domain to the target domain. In the breast malignancy identification domain, FNAC is one of the low-cost low-invasive modalities normally used by medical practitioners. But availability of public datasets in this domain is very poor. Whereas, for automation of cytology images, we need a large amount of annotated data. Therefore synthetic cytology images are generated by translating breast histopathology samples which are publicly available. In this study, we have explored traditional image-to-image transfer models like CycleGAN, and Neural Style Transfer. Further, it is observed that the generated cytology images are quite similar to real breast cytology samples by measuring FID and KID scores.
翻訳日:2024-03-19 21:15:47 公開日:2024-03-16
# LuoJiaHOG:リモートセンシング画像テキスト検索のための階層指向ジオアウェア画像キャプチャデータセット

LuoJiaHOG: A Hierarchy Oriented Geo-aware Image Caption Dataset for Remote Sensing Image-Text Retrival ( http://arxiv.org/abs/2403.10887v1 )

ライセンス: Link先を確認
Yuanxin Zhao, Mi Zhang, Bingnan Yang, Zhan Zhang, Jiaju Kang, Jianya Gong, (参考訳) 画像テキスト検索(ITR)は、様々なリモートセンシング(RS)アプリケーションに対して情報決定を行う上で重要な役割を果たしている。 それにもかかわらず、視覚と言語モダリティを含むITRデータセットを作成するには、重要な地理空間サンプリング領域だけでなく、カテゴリや詳細な記述も必要である。 この目的のために,画像キャプションデータセットLuojiaHOGを導入する。 LuojiaHOGには階層的な空間サンプリング、Open Geospatial Consortium(OGC)標準への拡張可能な分類システム、詳細なキャプション生成が含まれる。 さらに,CLIPをベースとした画像セマンティックエンハンスメントネットワーク(CISEN)を提案する。 CISENは2つのコンポーネント、すなわちデュアルパスの知識伝達とプログレッシブなクロスモーダルな特徴融合で構成されている。 LuojiaHOGに関する総合統計は、多様性のサンプリング、ラベルの量、粒度の記述の豊かさを明らかにしている。 LuojiaHOGの評価は、ALBEF、ALIGN、CLIP、FILIP、Wukong、GeoRSCLIP、CISENなどの最先端ITRモデルで行われている。 我々は,アダプタチューニングによる視覚モデルの評価に第2レベル,第3レベルのラベルを使用し,CISENは優れた性能を示す。 例えば、WMAP@5で最高スコアは88.47\%、第3レベルのITRタスクでは87.28\%である。 特に、CISENはベースラインに比べてWMAP@5の約1.3\%と0.9\%の改善を示している。 これらの結果から,CISENの進歩が画像とテキスト間の関係情報を正確に検索できることが示唆された。 LuojiaHOG と CISEN は将来の RS 画像テキストアライメント研究の基盤として機能し、幅広い視覚言語アプリケーションを容易にする。

Image-text retrieval (ITR) plays a significant role in making informed decisions for various remote sensing (RS) applications. Nonetheless, creating ITR datasets containing vision and language modalities not only requires significant geo-spatial sampling area but also varing categories and detailed descriptions. To this end, we introduce an image caption dataset LuojiaHOG, which is geospatial-aware, label-extension-friendly and comprehensive-captioned. LuojiaHOG involves the hierarchical spatial sampling, extensible classification system to Open Geospatial Consortium (OGC) standards, and detailed caption generation. In addition, we propose a CLIP-based Image Semantic Enhancement Network (CISEN) to promote sophisticated ITR. CISEN consists of two components, namely dual-path knowledge transfer and progressive cross-modal feature fusion. Comprehensive statistics on LuojiaHOG reveal the richness in sampling diversity, labels quantity and descriptions granularity. The evaluation on LuojiaHOG is conducted across various state-of-the-art ITR models, including ALBEF, ALIGN, CLIP, FILIP, Wukong, GeoRSCLIP and CISEN. We use second- and third-level labels to evaluate these vision-language models through adapter-tuning and CISEN demonstrates superior performance. For instance, it achieves the highest scores with WMAP@5 of 88.47\% and 87.28\% on third-level ITR tasks, respectively. In particular, CISEN exhibits an improvement of approximately 1.3\% and 0.9\% in terms of WMAP@5 compared to its baseline. These findings highlight CISEN advancements accurately retrieving pertinent information across image and text. LuojiaHOG and CISEN can serve as a foundational resource for future RS image-text alignment research, facilitating a wide range of vision-language applications.
翻訳日:2024-03-19 21:15:47 公開日:2024-03-16
# リストサンプル圧縮と一様収束

List Sample Compression and Uniform Convergence ( http://arxiv.org/abs/2403.10889v1 )

ライセンス: Link先を確認
Steve Hanneke, Shay Moran, Tom Waknine, (参考訳) リスト学習は教師付き分類の一種であり、学習者は1つだけではなく、各インスタンスに対して複数の可算ラベルを出力する。 リスト学習の文脈における一般化に関連する古典的原理を考察する。 我々の第一の目的は、PAC設定における古典的原則がPAC学習の分野における適用性を維持するかどうかを決定することである。 我々は,一様収束(経験的リスク最小化の基礎)とサンプル圧縮(オッカムのラザーの強力な表現)に焦点を当てる。 古典的なPAC学習では、一様収束とサンプル圧縮の両方が「完全性」の形式を満たす: クラスが学習可能であればいつでも、これらの原則に従う学習規則によっても学習することができる。 リスト学習設定において、同じ完全性が真であるかどうかを問う。 この結果から,一様収束はPAC学習環境における学習可能性と等価であることが示唆された。 ラベル空間が$Y=\{0,1,2\}$の場合、圧縮できない2-list-learnableクラスが存在することを証明します。 このことはLittlestone and Warmuth (1986) によるサンプル圧縮予想のリストバージョンを否定する。 さらに、再構成された関数が任意の大きさのリストを扱える場合でも、圧縮できない2$リスト学習可能なクラスが存在することを示す。 ラベル空間が非有界である場合、 (1-list) PAC 学習可能なクラスに対して同様の結果を示す。 これは最近の結果をarXiv:2308.06424で一般化する。

List learning is a variant of supervised classification where the learner outputs multiple plausible labels for each instance rather than just one. We investigate classical principles related to generalization within the context of list learning. Our primary goal is to determine whether classical principles in the PAC setting retain their applicability in the domain of list PAC learning. We focus on uniform convergence (which is the basis of Empirical Risk Minimization) and on sample compression (which is a powerful manifestation of Occam's Razor). In classical PAC learning, both uniform convergence and sample compression satisfy a form of `completeness': whenever a class is learnable, it can also be learned by a learning rule that adheres to these principles. We ask whether the same completeness holds true in the list learning setting. We show that uniform convergence remains equivalent to learnability in the list PAC learning setting. In contrast, our findings reveal surprising results regarding sample compression: we prove that when the label space is $Y=\{0,1,2\}$, then there are 2-list-learnable classes that cannot be compressed. This refutes the list version of the sample compression conjecture by Littlestone and Warmuth (1986). We prove an even stronger impossibility result, showing that there are $2$-list-learnable classes that cannot be compressed even when the reconstructed function can work with lists of arbitrarily large size. We prove a similar result for (1-list) PAC learnable classes when the label space is unbounded. This generalizes a recent result by arXiv:2308.06424.
翻訳日:2024-03-19 21:15:47 公開日:2024-03-16
# IP保護のための透かし付き拡散モデル

A Watermark-Conditioned Diffusion Model for IP Protection ( http://arxiv.org/abs/2403.10893v1 )

ライセンス: Link先を確認
Rui Min, Sen Li, Hongyang Chen, Minhao Cheng, (参考訳) AI生成コンテンツを保護するための倫理的必要性は、近年で重要な懸念事項となっている。 既存の透かし手法は、合成内容の検出(検出)に成功したが、単一モデル(所有者識別)からこれらの出力を生成する責任のあるユーザを特定するには限界がある。 本稿では,両シナリオに焦点をあて,拡散モデルにおけるコンテンツ著作権保護のための統一的な透かしフレームワークを提案する。 具体的には、APIを介して拡散モデルにパブリックアクセスを許可するモデルプロバイダと、モデルAPIのみをクエリしてブラックボックス方式で画像を生成するユーザである。 我々のタスクは、生成したコンテンツに隠された情報を埋め込むことで、さらなる検出と所有者の識別を容易にする。 この課題に対処するために、WaDiffと呼ばれるWadmark条件付き拡散モデルを提案し、このモデルにより、透かしを条件付き入力として操作し、フィンガープリントを生成プロセスに組み込む。 WaDiffから得られる生成出力はすべて、ユーザ固有の情報を持ち、画像抽出器で検索でき、さらに法医学的識別を容易にする。 本研究では,2つの拡散モデルを用いて大規模な実験を行い,本手法が検出タスクと所有者識別タスクの両方において有効かつ堅牢であることを実証した。 一方,我々の透かしの枠組みは,従来の透かしの手法と比較して,従来の世代に対して無視できる影響しか与えず,よりステルスで効率的である。

The ethical need to protect AI-generated content has been a significant concern in recent years. While existing watermarking strategies have demonstrated success in detecting synthetic content (detection), there has been limited exploration in identifying the users responsible for generating these outputs from a single model (owner identification). In this paper, we focus on both practical scenarios and propose a unified watermarking framework for content copyright protection within the context of diffusion models. Specifically, we consider two parties: the model provider, who grants public access to a diffusion model via an API, and the users, who can solely query the model API and generate images in a black-box manner. Our task is to embed hidden information into the generated contents, which facilitates further detection and owner identification. To tackle this challenge, we propose a Watermark-conditioned Diffusion model called WaDiff, which manipulates the watermark as a conditioned input and incorporates fingerprinting into the generation process. All the generative outputs from our WaDiff carry user-specific information, which can be recovered by an image extractor and further facilitate forensic identification. Extensive experiments are conducted on two popular diffusion models, and we demonstrate that our method is effective and robust in both the detection and owner identification tasks. Meanwhile, our watermarking framework only exerts a negligible impact on the original generation and is more stealthy and efficient in comparison to existing watermarking strategies.
翻訳日:2024-03-19 21:15:47 公開日:2024-03-16
# ロバスト性と多様性を目指して--テキスト・ミクスアップとバッチ・ノームの最大化による対話生成における継続的な学習

Towards Robustness and Diversity: Continual Learning in Dialog Generation with Text-Mixup and Batch Nuclear-Norm Maximization ( http://arxiv.org/abs/2403.10894v1 )

ライセンス: Link先を確認
Zihan Wang, Jiayu Xiao, Mengxiang Li, Zhongjiang He, Yongxiang Li, Chao Wang, Shuangyong Song, (参考訳) データが連続的なストリームに到着する動的な世界では、継続的学習によって、スクラッチから再トレーニングする必要なしに、新たなタスクやドメインを段階的に追加することが可能になります。 言語モデルの継続的な学習における大きな課題は破滅的な忘れことであり、新しい言語を訓練する際に、以前に訓練されたタスクやドメインから知識を忘れる傾向にある。 本稿では,連続学習環境下での対話生成について検討する。 我々は新しい方法を提案する。 1 は、データ拡張として \textit{Text-Mixup} を使用し、リプレイメモリのモデルオーバーフィットを避ける。 2) BNNM(Batch-Nuclear Norm Maximization)を利用してモード崩壊の問題を緩和する。 370ドルのドメインタスク指向のダイアログデータセットとDailyDialog(10$ドメインのchitchatデータセット)の実験により、提案手法が継続的学習における最先端技術よりも優れていることが示された。

In our dynamic world where data arrives in a continuous stream, continual learning enables us to incrementally add new tasks/domains without the need to retrain from scratch. A major challenge in continual learning of language model is catastrophic forgetting, the tendency of models to forget knowledge from previously trained tasks/domains when training on new ones. This paper studies dialog generation under the continual learning setting. We propose a novel method that 1) uses \textit{Text-Mixup} as data augmentation to avoid model overfitting on replay memory and 2) leverages Batch-Nuclear Norm Maximization (BNNM) to alleviate the problem of mode collapse. Experiments on a $37$-domain task-oriented dialog dataset and DailyDialog (a $10$-domain chitchat dataset) demonstrate that our proposed approach outperforms the state-of-the-art in continual learning.
翻訳日:2024-03-19 21:15:47 公開日:2024-03-16
# 量子世界の古典的サブシステムの探索

A Search for Classical Subsystems in Quantum Worlds ( http://arxiv.org/abs/2403.10895v1 )

ライセンス: Link先を確認
Arsalan Adil, Manuel S. Rudolph, Andrew Arrasmith, Zoë Holmes, Andreas Albrecht, Andrew Sornborger, (参考訳) デコヒーレンスとアインシュタイン選択は、基礎となる量子論から創発的古典世界のいくつかの特徴を説明するのに効果的である。 しかしながら、この理論は、大域ヒルベルト空間の特定の分解を構成系と環境サブシステム、および特別に構築されたハミルトニアンに仮定する。 この研究において、固定ハミルトニアンが与えられたとき、ある状態(「ポインター状態」)が絡み合いに対して堅牢であるという意味での準古典的なサブシステムの記述を許容する大域ヒルベルト空間のいくつかの分解(あるいはテンソル積構造)を発見する体系的なアプローチをとる。 すべてのハミルトニアンがエネルギー固有ベクトルが分離可能な分解においてポインタ基底を持つことを示す。 さらに、ポインタ状態を受け入れた多数の因子化を発見し、それらをランダムかつ構造化されたハミルトニアンの両方に対して準古典的な「現実」を探索するアルゴリズムを実装した。 また、ハミルトニアンがそのような分解を行うことができるいくつかの解析形式を導出し、それぞれが一意的な特徴を持つ。 このアプローチにはいくつかの意味がある: 準古典的なサブシステムへの分割を導出し、部分システムのデコヒーリングが局所性という古典的な概念と必ずしも一致しないことを示す。 量子基底の観点から、これらの結果は相対状態の解釈に興味深い影響をもたらす。 量子工学の観点からは、これらの結果はデコヒーレンス自由部分空間や他のパッシブエラー回避プロトコルの特徴付けに有用である。

Decoherence and einselection have been effective in explaining several features of an emergent classical world from an underlying quantum theory. However, the theory assumes a particular factorization of the global Hilbert space into constituent system and environment subsystems, as well as specially constructed Hamiltonians. In this work, we take a systematic approach to discover, given a fixed Hamiltonian, (potentially) several factorizations (or tensor product structures) of a global Hilbert space that admit a quasi-classical description of subsystems in the sense that certain states (the "pointer states") are robust to entanglement. We show that every Hamiltonian admits a pointer basis in the factorization where the energy eigenvectors are separable. Furthermore, we implement an algorithm that allows us to discover a multitude of factorizations that admit pointer states and use it to explore these quasi-classical "realms" for both random and structured Hamiltonians. We also derive several analytical forms that the Hamiltonian may take in such factorizations, each with its unique set of features. Our approach has several implications: it enables us to derive the division into quasi-classical subsystems, demonstrates that decohering subsystems do not necessarily align with our classical notion of locality, and challenges ideas expressed by some authors that the propensity of a system to exhibit classical dynamics relies on minimizing the interaction between subsystems. From a quantum foundations perspective, these results lead to interesting ramifications for relative-state interpretations. From a quantum engineering perspective, these results may be useful in characterizing decoherence free subspaces and other passive error avoidance protocols.
翻訳日:2024-03-19 21:06:03 公開日:2024-03-16
# 蒸留ディスタングルによる多視点表現学習の再考

Rethinking Multi-view Representation Learning via Distilled Disentangling ( http://arxiv.org/abs/2403.10897v1 )

ライセンス: Link先を確認
Guanzhou Ke, Bo Wang, Xiaoli Wang, Shengfeng He, (参考訳) マルチビュー表現学習は、多様なデータソースから、ビュー一貫性とビュー固有性の両方を持つ堅牢な表現を導出することを目的としている。 本稿では、この領域における既存のアプローチを詳細に分析し、一般的に見落とされがちな側面であるビュー一貫性とビュー固有表現の冗長性を明らかにする。 そこで本稿では,多視点表現学習のための革新的なフレームワークを提案する。 提案手法では,様々なソースからコンパクトで高品質なビュー一貫性表現を抽出し,余分な計算オーバーヘッドを発生させることなく,マスク付きクロスビュー予測の概念を導入している。 さらに,多視点表現から一貫性関連情報を効率よくフィルタし,より純粋なビュー固有表現を実現する蒸留脱タングルモジュールを開発した。 このアプローチは、ビュー一貫性とビュー固有表現の冗長性を著しく低減し、学習プロセス全体の効率を高める。 我々の経験的評価から,高いマスク比がビュー一貫性表現の質を著しく向上させることが明らかとなった。 さらに、ビュー固有表現と比較して、ビュー一貫性表現の次元性を減少させることにより、複合表現の質をさらに向上させることが判明した。 私たちのコードは、https://github.com/Guanzhou-Ke/MRDDでアクセスできます。

Multi-view representation learning aims to derive robust representations that are both view-consistent and view-specific from diverse data sources. This paper presents an in-depth analysis of existing approaches in this domain, highlighting a commonly overlooked aspect: the redundancy between view-consistent and view-specific representations. To this end, we propose an innovative framework for multi-view representation learning, which incorporates a technique we term 'distilled disentangling'. Our method introduces the concept of masked cross-view prediction, enabling the extraction of compact, high-quality view-consistent representations from various sources without incurring extra computational overhead. Additionally, we develop a distilled disentangling module that efficiently filters out consistency-related information from multi-view representations, resulting in purer view-specific representations. This approach significantly reduces redundancy between view-consistent and view-specific representations, enhancing the overall efficiency of the learning process. Our empirical evaluations reveal that higher mask ratios substantially improve the quality of view-consistent representations. Moreover, we find that reducing the dimensionality of view-consistent representations relative to that of view-specific representations further refines the quality of the combined representations. Our code is accessible at: https://github.com/Guanzhou-Ke/MRDD.
翻訳日:2024-03-19 21:06:03 公開日:2024-03-16
# BEnQA:ベンガル語と英語のための質問回答と推論ベンチマーク

BEnQA: A Question Answering and Reasoning Benchmark for Bengali and English ( http://arxiv.org/abs/2403.10900v1 )

ライセンス: Link先を確認
Sheikh Shafayat, H M Quamran Hasan, Minhajur Rahman Chowdhury Mahim, Rifki Afina Putri, James Thorne, Alice Oh, (参考訳) 本研究では,バングラデシュの中・高校生を対象に,ベンガル語と英語の同時試験質問からなるデータセットであるBEnQAを紹介する。 我々のデータセットは, 事実, 応用, 推論に基づく質問など, さまざまなタイプの質問を科学の複数の被験者にカバーする約5Kの質問で構成されている。 並列データセットを用いて複数のLarge Language Model (LLM) をベンチマークし、ベンガル語と英語のモデルの顕著な性能格差を観察する。 また、いくつかのプロンプト手法についても検討し、チェーン・オブ・ソート(Chain-of-Thought)のプロンプトは、主に推論の問題に役立ちますが、現実の問題にはあまり役立ちません。 また、英語の付加翻訳はベンガル語で質問に答えるのに役立ちます。 本研究は,ベンガル語およびより一般的に低リソース言語におけるLLMの性能向上に向けた今後の研究の方向性を示唆するものである。

In this study, we introduce BEnQA, a dataset comprising parallel Bengali and English exam questions for middle and high school levels in Bangladesh. Our dataset consists of approximately 5K questions covering several subjects in science with different types of questions, including factual, application, and reasoning-based questions. We benchmark several Large Language Models (LLMs) with our parallel dataset and observe a notable performance disparity between the models in Bengali and English. We also investigate some prompting methods, and find that Chain-of-Thought prompting is beneficial mostly on reasoning questions, but not so much on factual ones. We also find that appending English translation helps to answer questions in Bengali. Our findings point to promising future research directions for improving the performance of LLMs in Bengali and more generally in low-resource languages.
翻訳日:2024-03-19 21:06:03 公開日:2024-03-16
# DTOR: 異常を説明するための決定木外部回帰器

DTOR: Decision Tree Outlier Regressor to explain anomalies ( http://arxiv.org/abs/2403.10903v1 )

ライセンス: Link先を確認
Riccardo Crupi, Alessandro Damiano Sabatino, Immacolata Marano, Massimiliano Brinis, Luca Albertazzi, Andrea Cirillo, Andrea Claudio Cosentini, (参考訳) 外乱の発生と発生のメカニズムを説明することは、様々な領域において非常に重要である。 誤動作、詐欺、脅迫は正しく識別されるだけでなく、効果的に行動可能な対策を実行するために有効な説明を必要とすることが多い。 異常を識別するための高度な機械学習アプローチを、これまで以上に広く利用することで、このような説明がより困難になる。 本稿では,異常検出モデルにより生成された異常スコアを推定することにより,個々のデータポイントに対する規則に基づく説明を生成する手法であるDTORを提案する。 これはまず、推定スコアを計算し、データポイントスコアに関連する相対パスを抽出する決定木回帰器を適用する。 本結果は,多数の特徴を持つデータセットにおいても,DTORの堅牢性を示すものである。 さらに、他の規則に基づくアプローチとは対照的に、生成された規則は説明すべき点によって一貫して満たされる。 さらに、我々の評価基準は、実行時間を短縮し、外乱説明タスクにおけるAnchorsに匹敵する性能を示す。

Explaining outliers occurrence and mechanism of their occurrence can be extremely important in a variety of domains. Malfunctions, frauds, threats, in addition to being correctly identified, oftentimes need a valid explanation in order to effectively perform actionable counteracts. The ever more widespread use of sophisticated Machine Learning approach to identify anomalies make such explanations more challenging. We present the Decision Tree Outlier Regressor (DTOR), a technique for producing rule-based explanations for individual data points by estimating anomaly scores generated by an anomaly detection model. This is accomplished by first applying a Decision Tree Regressor, which computes the estimation score, and then extracting the relative path associated with the data point score. Our results demonstrate the robustness of DTOR even in datasets with a large number of features. Additionally, in contrast to other rule-based approaches, the generated rules are consistently satisfied by the points to be explained. Furthermore, our evaluation metrics indicate comparable performance to Anchors in outlier explanation tasks, with reduced execution time.
翻訳日:2024-03-19 21:06:03 公開日:2024-03-16
# 都市音の伝搬 : 複雑な物理系の1ステップ生成モデルのためのベンチマーク

Urban Sound Propagation: a Benchmark for 1-Step Generative Modeling of Complex Physical Systems ( http://arxiv.org/abs/2403.10904v1 )

ライセンス: Link先を確認
Martin Spitznagel, Janis Keuper, (参考訳) 複雑な物理システムのデータ駆動モデリングは、シミュレーションや機械学習コミュニティで注目を集めている。 ほとんどの物理シミュレーションは、計算集約的で反復的な微分方程式系の実装に基づいているため、学習された1ステップの推論モデルに置き換えることで、広範囲の応用領域において大きなスピードアップの可能性を秘めている。 そこで本研究では,1段階生成学習モデルの評価のための新しいベンチマークを,速度と物理的正確性の観点から提示する。 我々の都市音伝搬ベンチマークは、物理的に複雑で実用的だが直感的に都市環境における音源からの2次元波動伝搬をモデル化する作業に基づいている。 我々は100kのサンプルを用いて,各サンプルがOpenStreetmapから引き出された実2次元ビルディングマップとパラメータ化された音源と,与えられたシーンに対する模擬地上真実音の伝搬からなるデータセットを提供する。 このデータセットは、リフレクション、回折、ソース分散に関する複雑さを増大させる4つの異なるシミュレーションタスクを提供する。 一般的な生成的U-Net, GAN, Diffusionモデルの最初のベースライン評価では、これらのモデルは単純な場合では音の伝搬をモデル化できるが、高次方程式で表されるサブシステムの近似は体系的に失敗する。 データセット、ダウンロード手順、ソースコードに関する情報は、匿名のWebサイト(https://www.urban-sound-data.org)で公開されています。

Data-driven modeling of complex physical systems is receiving a growing amount of attention in the simulation and machine learning communities. Since most physical simulations are based on compute-intensive, iterative implementations of differential equation systems, a (partial) replacement with learned, 1-step inference models has the potential for significant speedups in a wide range of application areas. In this context, we present a novel benchmark for the evaluation of 1-step generative learning models in terms of speed and physical correctness. Our Urban Sound Propagation benchmark is based on the physically complex and practically relevant, yet intuitively easy to grasp task of modeling the 2d propagation of waves from a sound source in an urban environment. We provide a dataset with 100k samples, where each sample consists of pairs of real 2d building maps drawn from OpenStreetmap, a parameterized sound source, and a simulated ground truth sound propagation for the given scene. The dataset provides four different simulation tasks with increasing complexity regarding reflection, diffraction and source variance. A first baseline evaluation of common generative U-Net, GAN and Diffusion models shows, that while these models are very well capable of modeling sound propagations in simple cases, the approximation of sub-systems represented by higher order equations systematically fails. Information about the dataset, download instructions and source codes are provided on our anonymous website: https://www.urban-sound-data.org.
翻訳日:2024-03-19 21:06:03 公開日:2024-03-16
# HourglassNeRF:Few-shot Neural Renderingのための光束としてHourglassを鋳造する

HourglassNeRF: Casting an Hourglass as a Bundle of Rays for Few-shot Neural Rendering ( http://arxiv.org/abs/2403.10906v1 )

ライセンス: Link先を確認
Seunghyeon Seo, Yeonjin Chang, Jayeon Yoo, Seungwoo Lee, Hojun Lee, Nojun Kwak, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)の最近の進歩は、新しいビュー合成の能力を後押ししているが、密集したマルチビュー・トレーニング画像への依存は現実的な課題である。 そこで我々は,新しい時間ガラス鋳造戦略を取り入れた効果的な正規化手法であるHourglassNeRFを提案する。 提案手法は, 初期入力光線と対応する反射光線との領域内に付加された光線の束として概念化され, 統合位置符号化(IPE)により円錐状のフラストラムを破砕する。 この設計は、見えないビューのカバレッジを拡大し、ターゲット画素光一貫性に基づいた適応的な高周波正則化を可能にする。 さらに,ランベルトの仮定に基づく輝度整合正則化を提案する。 視角によらず一貫した輝度を保持するランバータ面の性質を生かし, 提案した時間ガラスをフリップ拡散反射線の集合体として仮定し, 元の入力線と対応する時間ガラスとの輝度の整合性を高めることにより, より物理的に接地したトレーニングフレームワークと性能向上を実現した。 我々のHourglassNeRFはベースラインを上回り、シャープに細部を絞り込んだ複数のベンチマークで競合する結果を得る。 コードは利用可能です。

Recent advancements in the Neural Radiance Field (NeRF) have bolstered its capabilities for novel view synthesis, yet its reliance on dense multi-view training images poses a practical challenge. Addressing this, we propose HourglassNeRF, an effective regularization-based approach with a novel hourglass casting strategy. Our proposed hourglass is conceptualized as a bundle of additional rays within the area between the original input ray and its corresponding reflection ray, by featurizing the conical frustum via Integrated Positional Encoding (IPE). This design expands the coverage of unseen views and enables an adaptive high-frequency regularization based on target pixel photo-consistency. Furthermore, we propose luminance consistency regularization based on the Lambertian assumption, which is known to be effective for training a set of augmented rays under the few-shot setting. Leveraging the inherent property of a Lambertian surface, which retains consistent luminance irrespective of the viewing angle, we assume our proposed hourglass as a collection of flipped diffuse reflection rays and enhance the luminance consistency between the original input ray and its corresponding hourglass, resulting in more physically grounded training framework and performance improvement. Our HourglassNeRF outperforms its baseline and achieves competitive results on multiple benchmarks with sharply rendered fine details. The code will be available.
翻訳日:2024-03-19 21:06:03 公開日:2024-03-16
# 教師なし特徴学習のためのL20ノルムグラフ正規化NMF

Graph Regularized NMF with L20-norm for Unsupervised Feature Learning ( http://arxiv.org/abs/2403.10910v1 )

ライセンス: Link先を確認
Zhen Wang, Wenwen Min, (参考訳) 非負行列因子化(Non negative Matrix Factorization, NMF)は、機械学習とデータマイニングの分野で広く応用されている技術である。 グラフ正規化非負行列因子化(GNMF)は、グラフ正規化制約を組み込んだNMFの拡張である。 GNMFはクラスタリングと次元還元において例外的な性能を示し、高次元空間に埋め込まれた固有の低次元構造を効果的に発見している。 しかし、GNMFの雑音に対する感度は、実用上の安定性と堅牢性を制限する。 効率的な特徴選択のために,データ中の行間隔パターンをマイニングしながら,特徴空間の分散性を高め,ノイズの影響を軽減するために,GNMFの疎度制約として$\ell_{2,0}$-norm制約を導入する。 本稿では,GNMF\_$\ell_{20}$に基づく教師なし機能学習フレームワークを提案する。 さらに,提案アルゴリズムの収束性を確立し,シミュレーションおよび実画像データを用いた実験により,提案手法の有効性と優位性を検証した。

Nonnegative Matrix Factorization (NMF) is a widely applied technique in the fields of machine learning and data mining. Graph Regularized Non-negative Matrix Factorization (GNMF) is an extension of NMF that incorporates graph regularization constraints. GNMF has demonstrated exceptional performance in clustering and dimensionality reduction, effectively discovering inherent low-dimensional structures embedded within high-dimensional spaces. However, the sensitivity of GNMF to noise limits its stability and robustness in practical applications. In order to enhance feature sparsity and mitigate the impact of noise while mining row sparsity patterns in the data for effective feature selection, we introduce the $\ell_{2,0}$-norm constraint as the sparsity constraints for GNMF. We propose an unsupervised feature learning framework based on GNMF\_$\ell_{20}$ and devise an algorithm based on PALM and its accelerated version to address this problem. Additionally, we establish the convergence of the proposed algorithms and validate the efficacy and superiority of our approach through experiments conducted on both simulated and real image data.
翻訳日:2024-03-19 21:06:03 公開日:2024-03-16
# テスト時間適応のための効率よい拡散駆動型破壊エディタ

Efficient Diffusion-Driven Corruption Editor for Test-Time Adaptation ( http://arxiv.org/abs/2403.10911v1 )

ライセンス: Link先を確認
Yeongtak Oh, Jonghyun Lee, Jooyoung Choi, Dahuin Jung, Uiwon Hwang, Sungroh Yoon, (参考訳) テスト時間適応(TTA)は、テスト時間中に発生する予期せぬ分散シフトに対処する。 TTAでは、パフォーマンスとメモリと時間消費の両方が重要な考慮事項である。 最近の拡散ベースの画像復元のためのTTAアプローチには、画像レベルの更新が含まれる。 しかし, 画素空間拡散を用いた場合, 従来のモデル更新TTA手法に比べて資源要求が大幅に増加し, TTA法としての限界が明らかとなった。 そこで本研究では,遅延拡散モデル(LDM)に基づく画像編集モデルを利用して,新たに導入した汚濁モデルを用いて微調整を行うことにより,新しいTTA手法を提案する。 このスキームは、(クリーンで、破損した)イメージペアを作成し、破損した画像をクリーンなものに微調整することによって、拡散モデルの分散シフトに対する堅牢性を高める。 さらに,4つのネットワーク関数評価(NFE)のみを用いた汚職編集モデルの高速化を目的とした蒸留変種を提案する。 画像ドメインやビデオドメインを含むさまざまなアーキテクチャやデータセットに対して,我々の手法を広範囲に検証した。 我々のモデルは拡散ベースベースラインよりも100倍高速なランタイムで最高の性能を達成する。 さらに、データ拡張3倍に基づくモデル更新TTA法の速度を上回り、画像レベルの更新アプローチをより実用的なものにする。

Test-time adaptation (TTA) addresses the unforeseen distribution shifts occurring during test time. In TTA, both performance and, memory and time consumption serve as crucial considerations. A recent diffusion-based TTA approach for restoring corrupted images involves image-level updates. However, using pixel space diffusion significantly increases resource requirements compared to conventional model updating TTA approaches, revealing limitations as a TTA method. To address this, we propose a novel TTA method by leveraging a latent diffusion model (LDM) based image editing model and fine-tuning it with our newly introduced corruption modeling scheme. This scheme enhances the robustness of the diffusion model against distribution shifts by creating (clean, corrupted) image pairs and fine-tuning the model to edit corrupted images into clean ones. Moreover, we introduce a distilled variant to accelerate the model for corruption editing using only 4 network function evaluations (NFEs). We extensively validated our method across various architectures and datasets including image and video domains. Our model achieves the best performance with a 100 times faster runtime than that of a diffusion-based baseline. Furthermore, it outpaces the speed of the model updating TTA method based on data augmentation threefold, rendering an image-level updating approach more practical.
翻訳日:2024-03-19 21:06:03 公開日:2024-03-16
# 深層学習に基づく位置の自動検出

Automatic location detection based on deep learning ( http://arxiv.org/abs/2403.10912v1 )

ライセンス: Link先を確認
Anjali Karangiya, Anirudh Sharma, Divax Shah, Kartavya Badgujar, Dr. Chintan Thacker, Dainik Dave, (参考訳) デジタル画像の普及と深層学習の進歩は、特に画像分類の分野で、様々な領域における革新的な解決策の道を開いた。 本研究は,インドにおける都市画像の識別・分類に適した画像分類システムの詳細な研究と実装について述べる。 大規模なデータセットから、我々のモデルは、Ahmedabad, Delhi, Kerala, Kolkata, Mumbaiの5つの主要なインド都市に分類し、各都市と州の特徴と特徴を認識する。 高い精度とリコール率を達成するために,我々は2つのアプローチを採用した。 まず,バニラ畳み込みニューラルネットワーク(CNN)を用いて,VGG16モデルを用いて伝達学習のパワーについて検討した。 バニラCNNは高い精度を達成し、VGG16モデルは63.6%のテスト精度を達成した。 評価は改善の強みと潜在的な領域を強調し、我々のモデルを競争力だけでなく、より広範なアプリケーションにもスケーラブルに位置づけた。 オープンソースの倫理に重点を置いて、私たちの仕事はコミュニティに貢献し、さらなる開発と多様なアプリケーションを促進することを目的としています。 本研究は,観光,都市計画,さらにはリアルタイム位置情報システムなどへの応用の可能性を示すものである。

The proliferation of digital images and the advancements in deep learning have paved the way for innovative solutions in various domains, especially in the field of image classification. Our project presents an in-depth study and implementation of an image classification system specifically tailored to identify and classify images of Indian cities. Drawing from an extensive dataset, our model classifies images into five major Indian cities: Ahmedabad, Delhi, Kerala, Kolkata, and Mumbai to recognize the distinct features and characteristics of each city/state. To achieve high precision and recall rates, we adopted two approaches. The first, a vanilla Convolutional Neural Network (CNN) and then we explored the power of transfer learning by leveraging the VGG16 model. The vanilla CNN achieved commendable accuracy and the VGG16 model achieved a test accuracy of 63.6%. Evaluations highlighted the strengths and potential areas of improvement, positioning our model as not only competitive but also scalable for broader applications. With an emphasis on open-source ethos, our work aims to contribute to the community, encouraging further development and diverse applications. Our findings demonstrate the potential applications in tourism, urban planning, and even real-time location identification systems, among others.
翻訳日:2024-03-19 21:06:03 公開日:2024-03-16
# FishNet:低コスト魚種推定のためのディープニューラルネットワーク

FishNet: Deep Neural Networks for Low-Cost Fish Stock Estimation ( http://arxiv.org/abs/2403.10916v1 )

ライセンス: Link先を確認
Moseli Mots'oehli, Anton Nikolaev, Wawan B. IGede, John Lynham, Peter J. Mous, Peter Sadowski, (参考訳) 魚の在庫評価は、しばしば、時間と費用のかかる分類の専門家による手動の魚の数え方にかかわる。 低コストデジタルカメラで撮影された画像から分類分類と魚の大きさ推定を行う自動コンピュータビジョンシステムを提案する。 このシステムはまずMask R-CNNを用いて物体の検出とセグメンテーションを行い、おそらく異なる種からなる複数の魚を含む画像から個々の魚を識別する。 次に、各魚種を別々に機械学習モデルを用いて分類し、予測した長さを推定する。 これらのモデルは、長さ10cmから250cmの163の異なる魚種を含む5万枚の手書き画像のデータセットで訓練されている。 実験結果から,本システムは魚の群集化作業における対合9.2\%,単魚種分類におけるトップ-1分類精度8.9\%,魚長推定作業における平均誤差2.3$~cmを達成した。

Fish stock assessment often involves manual fish counting by taxonomy specialists, which is both time-consuming and costly. We propose an automated computer vision system that performs both taxonomic classification and fish size estimation from images taken with a low-cost digital camera. The system first performs object detection and segmentation using a Mask R-CNN to identify individual fish from images containing multiple fish, possibly consisting of different species. Then each fish species is classified and the predicted length using separate machine learning models. These models are trained on a dataset of 50,000 hand-annotated images containing 163 different fish species, ranging in length from 10cm to 250cm. Evaluated on held-out test data, our system achieves a $92\%$ intersection over union on the fish segmentation task, a $89\%$ top-1 classification accuracy on single fish species classification, and a $2.3$~cm mean error on the fish length estimation task.
翻訳日:2024-03-19 21:06:03 公開日:2024-03-16
# ハイパーグラフによる階層型反応性モジュールの形式化と構成検証法

A Hypergraph-based Formalization of Hierarchical Reactive Modules and a Compositional Verification Method ( http://arxiv.org/abs/2403.10919v1 )

ライセンス: Link先を確認
Daisuke Ishii, (参考訳) 構成的アプローチは、大規模で複雑なシステムについて推論するために重要である。 本研究では,サイバー物理システムのモデル化によく用いられる階層構造を持つ同期システムについて述べる。 反応加群の理論を再検討し,それをハイパーグラフに基づいて再構成し,モジュールの並列構成と階層的記述を明らかにする。 そこで本研究では,階層型システムの自動検証手法を提案する。 想定保証契約に注釈を付けたシステム記述が与えられた場合、提案手法はシステムをモジュールに分割し、上位レベルのシステムがその契約を満たすことを示すためにそれらを別々に検証する。 提案手法は,サブモジュール同士が相互に依存する円形システムであることを示す。 実験結果から,本手法はSMTモデルチェッカーを用いて効果的に実装可能であることが示された。

The compositional approach is important for reasoning about large and complex systems. In this work, we address synchronous systems with hierarchical structures, which are often used to model cyber-physical systems. We revisit the theory of reactive modules and reformulate it based on hypergraphs to clarify the parallel composition and the hierarchical description of modules. Then, we propose an automatic verification method for hierarchical systems. Given a system description annotated with assume-guarantee contracts, the proposed method divides the system into modules and verifies them separately to show that the top-level system satisfies its contract. Our method allows an input to be a circular system in which submodules mutually depend on each other. Experimental result shows our method can be effectively implemented using an SMT-based model checker.
翻訳日:2024-03-19 21:06:03 公開日:2024-03-16
# プライバシ保護ニューラルネットワークのためのバッチ指向要素ワイド近似活性化

Batch-oriented Element-wise Approximate Activation for Privacy-Preserving Neural Networks ( http://arxiv.org/abs/2403.10920v1 )

ライセンス: Link先を確認
Peng Zhang, Ao Duan, Xianglu Zou, Yuhong Liu, (参考訳) プライバシ保存ニューラルネットワーク(PPNN)は、ユーザのプライバシを侵害することなく推論を行うように進歩しており、ビッグデータユーティリティとプライバシ保護を同時に達成するために、診断に不可欠なツールとして機能する。 PPNNを有効にするための鍵となる手法の1つとして、FHE(Fully Homomorphic Encryption)は、非線型アクティベーション計算に同型演算を容易に適用できないという大きな課題に直面している。 本稿では,非線型アクティベーション関数ReLUを近似するために,線形低次多項式を訓練するバッチ指向要素データパッキングと近似アクティベーションを提案する。 他の近似的アクティベーション手法と比較して、提案手法は、近似誤差による精度損失を効果的に軽減することができる。 一方、要素単位のデータパッキングにより、大量の画像が同時にパッケージ化され、推論されるため、暗号文スロットの有効利用率がはるかに高くなる。 したがって、総推測時間は急上昇するが、特にバッチサイズが大きくなると、各画像の補正時間が実際に減少する。 さらに、トレーニング工程で知識蒸留を採用して推論精度をさらに高める。 実験の結果、4096の入力画像上で、現在の最も効率的なチャネルワイド方式と比較して、暗号文推論を行うと、推測精度が1.65%向上し、償却推論時間が99.5%低下することがわかった。

Privacy-Preserving Neural Networks (PPNN) are advanced to perform inference without breaching user privacy, which can serve as an essential tool for medical diagnosis to simultaneously achieve big data utility and privacy protection. As one of the key techniques to enable PPNN, Fully Homomorphic Encryption (FHE) is facing a great challenge that homomorphic operations cannot be easily adapted for non-linear activation calculations. In this paper, batch-oriented element-wise data packing and approximate activation are proposed, which train linear low-degree polynomials to approximate the non-linear activation function - ReLU. Compared with other approximate activation methods, the proposed fine-grained, trainable approximation scheme can effectively reduce the accuracy loss caused by approximation errors. Meanwhile, due to element-wise data packing, a large batch of images can be packed and inferred concurrently, leading to a much higher utility ratio of ciphertext slots. Therefore, although the total inference time increases sharply, the amortized time for each image actually decreases, especially when the batch size increases. Furthermore, knowledge distillation is adopted in the training process to further enhance the inference accuracy. Experiment results show that when ciphertext inference is performed on 4096 input images, compared with the current most efficient channel-wise method, the inference accuracy is improved by 1.65%, and the amortized inference time is reduced by 99.5%.
翻訳日:2024-03-19 21:06:03 公開日:2024-03-16
# TabPFNのための解釈可能な機械学習

Interpretable Machine Learning for TabPFN ( http://arxiv.org/abs/2403.10923v1 )

ライセンス: Link先を確認
David Rundel, Julius Kobialka, Constantin von Crailsheim, Matthias Feurer, Thomas Nagler, David Rügamer, (参考訳) 最近開発されたPFN(Presideed-Data Fitted Networks)は、低データシステムにおけるアプリケーションに対して非常に有望な結果を示している。 表型データのためのPFNの特殊なケースであるTabPFNモデルは、学習パラメータやハイパーパラメータチューニングを必要とせずに、文脈内学習により、わずか数秒で後続予測分布を生成しながら、様々な分類タスクにおける最先端のパフォーマンスを達成することができる。 これにより、TabPFNは広範囲のドメインアプリケーションにとって非常に魅力的な選択肢となります。 しかし、この方法の大きな欠点は、解釈可能性の欠如である。 そこで本稿では,TabPFN に特化して設計する一般的な解釈可能性手法の適応について提案する。 モデルのユニークな特性を活かすことで、既存の実装よりも効率的な計算を可能にします。 特に,大規模トランスフォーマーを用いた場合であっても,文脈内学習が近似的リトレーニングを回避してシェープリー値の推定を容易にすることを示し,LOCO(Leave-One-Covariate-Out)の利用を可能にする。 さらに,TabPFNのスケーラビリティ問題に対処するために,データアセスメント手法をいかに活用できるかを示す。 提案手法は tabpfn_iml で実装され,https://github.com/david-rundel/tabpfn_iml で利用可能である。

The recently developed Prior-Data Fitted Networks (PFNs) have shown very promising results for applications in low-data regimes. The TabPFN model, a special case of PFNs for tabular data, is able to achieve state-of-the-art performance on a variety of classification tasks while producing posterior predictive distributions in mere seconds by in-context learning without the need for learning parameters or hyperparameter tuning. This makes TabPFN a very attractive option for a wide range of domain applications. However, a major drawback of the method is its lack of interpretability. Therefore, we propose several adaptations of popular interpretability methods that we specifically design for TabPFN. By taking advantage of the unique properties of the model, our adaptations allow for more efficient computations than existing implementations. In particular, we show how in-context learning facilitates the estimation of Shapley values by avoiding approximate retraining and enables the use of Leave-One-Covariate-Out (LOCO) even when working with large-scale Transformers. In addition, we demonstrate how data valuation methods can be used to address scalability challenges of TabPFN. Our proposed methods are implemented in a package tabpfn_iml and made available at https://github.com/david-rundel/tabpfn_iml.
翻訳日:2024-03-19 21:06:03 公開日:2024-03-16
# 実世界規模任意超解法のためのデュアルレベル変形型命令表現の学習

Learning Dual-Level Deformable Implicit Representation for Real-World Scale Arbitrary Super-Resolution ( http://arxiv.org/abs/2403.10925v1 )

ライセンス: Link先を確認
Zhiheng Li, Muheng Li, Jixuan Fan, Lei Chen, Yansong Tang, Jie Zhou, Jiwen Lu, (参考訳) 暗黙のイメージ関数に基づく任意の超解像は、連続的に視覚世界を表現できるため、人気が高まる。 しかし、既存のスケールの任意の作業は、シミュレーションデータセットに基づいて訓練され、評価され、そこでは、最も単純なバイコビックなダウンサンプリングによって、地上の真実から低解像度の画像が生成される。 これらのモデルは、現実世界の劣化の複雑さが大きいため、現実のシナリオへの限定的な一般化を示す。 この問題に対処するため、我々はRealArbiSRデータセットを構築した。これは、実世界の任意の超分解能のトレーニングと評価のための整数および非整数スケーリング要素を備えた新しい実世界の超分解能ベンチマークである。 さらに、実世界の任意の超解像を解くために、Dual-level Deformable Implicit Representation (DDIR)を提案する。 具体的には,実世界の劣化による画像レベルの変形と画素レベルの変形の両方を扱うために,外観埋め込みと変形場を設計する。 外観埋め込みは、異なるスケールでの測光変動を扱うための低解像度入力の特性をモデル化し、画素ベースの変形場は、実世界と任意の座標でのシミュレーション劣化のずれから生じるRGB差を学習する。 大規模な実験により,実世界の任意の超解像のためのRealArbiSRおよびRealSRベンチマークの最先端性能が得られた。 当社のデータセットとソースコードは公開されます。

Scale arbitrary super-resolution based on implicit image function gains increasing popularity since it can better represent the visual world in a continuous manner. However, existing scale arbitrary works are trained and evaluated on simulated datasets, where low-resolution images are generated from their ground truths by the simplest bicubic downsampling. These models exhibit limited generalization to real-world scenarios due to the greater complexity of real-world degradations. To address this issue, we build a RealArbiSR dataset, a new real-world super-resolution benchmark with both integer and non-integer scaling factors for the training and evaluation of real-world scale arbitrary super-resolution. Moreover, we propose a Dual-level Deformable Implicit Representation (DDIR) to solve real-world scale arbitrary super-resolution. Specifically, we design the appearance embedding and deformation field to handle both image-level and pixel-level deformations caused by real-world degradations. The appearance embedding models the characteristics of low-resolution inputs to deal with photometric variations at different scales, and the pixel-based deformation field learns RGB differences which result from the deviations between the real-world and simulated degradations at arbitrary coordinates. Extensive experiments show our trained model achieves state-of-the-art performance on the RealArbiSR and RealSR benchmarks for real-world scale arbitrary super-resolution. Our dataset as well as source code will be publicly available.
翻訳日:2024-03-19 21:06:03 公開日:2024-03-16
# 空域協調MECのための分散多目的動的オフロードスケジューリング

Distributed Multi-Objective Dynamic Offloading Scheduling for Air-Ground Cooperative MEC ( http://arxiv.org/abs/2403.10927v1 )

ライセンス: Link先を確認
Yang Huang, Miaomiao Dong, Yijie Mao, Wenqiang Liu, Zhen Gao, (参考訳) 無人航空機(UAV)をエッジサーバに利用して地球外移動エッジコンピューティング(MEC)を支援していることが注目されている。 それにもかかわらず、決定論的最適化や単目的強化学習(RL)に基づく最先端のスキームは、タスクビットのバックログを減らし、設計上の問題が逐次決定問題となる高度に動的なネットワーク環境におけるエネルギー効率を同時に改善できない。 そこで本研究では,MORLとカーネル手法を統合した分散多目的(MO)動的軌道計画およびオフロードスケジューリング手法を提案する。 n段階の戻り値の設計は、バックログ内の平均変動にも適用される。 計算結果から,nステップの戻り値が提案したカーネルベースのアプローチに有効であること,従来の1ステップの戻り値の設計に比べて長期平均バックログ性能が大幅に向上していることが判明した。 このような設計と、意思決定機能を継続的に追加できるカーネルベースのニューラルネットワークにより、カーネルベースのアプローチは、完全に接続されたディープニューラルネットワークに基づくアプローチよりも優れ、エネルギー消費とバックログのパフォーマンスが向上し、意思決定とオンライン学習時間が大幅に短縮される。

Utilizing unmanned aerial vehicles (UAVs) with edge server to assist terrestrial mobile edge computing (MEC) has attracted tremendous attention. Nevertheless, state-of-the-art schemes based on deterministic optimizations or single-objective reinforcement learning (RL) cannot reduce the backlog of task bits and simultaneously improve energy efficiency in highly dynamic network environments, where the design problem amounts to a sequential decision-making problem. In order to address the aforementioned problems, as well as the curses of dimensionality introduced by the growing number of terrestrial terrestrial users, this paper proposes a distributed multi-objective (MO) dynamic trajectory planning and offloading scheduling scheme, integrated with MORL and the kernel method. The design of n-step return is also applied to average fluctuations in the backlog. Numerical results reveal that the n-step return can benefit the proposed kernel-based approach, achieving significant improvement in the long-term average backlog performance, compared to the conventional 1-step return design. Due to such design and the kernel-based neural network, to which decision-making features can be continuously added, the kernel-based approach can outperform the approach based on fully-connected deep neural network, yielding improvement in energy consumption and the backlog performance, as well as a significant reduction in decision-making and online learning time.
翻訳日:2024-03-19 21:06:03 公開日:2024-03-16
# 逐次学習のためのニューラルネットワークの機能空間パラメータ化

Function-space Parameterization of Neural Networks for Sequential Learning ( http://arxiv.org/abs/2403.10929v1 )

ライセンス: Link先を確認
Aidan Scannell, Riccardo Mereu, Paul Chang, Ella Tamir, Joni Pajarinen, Arno Solin, (参考訳) 逐次学習パラダイムは、新しいデータの導入と事前知識の維持が困難であるため、勾配に基づくディープラーニングに課題を提起する。 ガウス過程はこれらの問題にエレガントに対処するが、スケーラビリティと画像などのリッチな入力を扱うのに苦労する。 これらの問題に対処するため,ニューラルネットワークを重み空間から関数空間に変換する手法を提案する。 私たちのパラメータ化は以下の通りです。 (i)スパーシフィケーションによって関数空間のメソッドを大規模データセットにスケールする方法。 二 過去のデータへのアクセスが制限されたときの事前知識の保持 三 再訓練することなく新データを組み込む仕組み 実験により,継続学習における知識を保ち,新しいデータを効率的に活用できることが実証された。 さらに、モデルベースRLにおける不確実性の定量化と探索の導出におけるその強みを示す。 さらなる情報とコードはプロジェクトのWebサイトにある。

Sequential learning paradigms pose challenges for gradient-based deep learning due to difficulties incorporating new data and retaining prior knowledge. While Gaussian processes elegantly tackle these problems, they struggle with scalability and handling rich inputs, such as images. To address these issues, we introduce a technique that converts neural networks from weight space to function space, through a dual parameterization. Our parameterization offers: (i) a way to scale function-space methods to large data sets via sparsification, (ii) retention of prior knowledge when access to past data is limited, and (iii) a mechanism to incorporate new data without retraining. Our experiments demonstrate that we can retain knowledge in continual learning and incorporate new data efficiently. We further show its strengths in uncertainty quantification and guiding exploration in model-based RL. Further information and code is available on the project website.
翻訳日:2024-03-19 20:56:18 公開日:2024-03-16
# 均質なPOMDPによる個人生徒の学習方略の誘導

Inducing Individual Students' Learning Strategies through Homomorphic POMDPs ( http://arxiv.org/abs/2403.10930v1 )

ライセンス: Link先を確認
Huifan Gao, Yifeng Zeng, Yinghui Pan, (参考訳) 生徒の学習戦略の最適化は知的学習システムにおいて重要な要素である。 従来の研究では、部分的に観察可能なマルコフ決定プロセス(POMDP)を通じて学習プロセスをモデル化することで、学生にパーソナライズされた学習戦略を考案する効果を実証している。 しかし,本研究は,学生集団が一様認知パターンに従属すると仮定している。 この仮定はPOMDPモデリングプロセスを単純化するが、これは明らかに現実世界のシナリオから逸脱し、個々の学生の学習戦略を誘導する精度を低下させる。 本稿では,複数の認知パターンに対応する同型POMDP(H-POMDP)モデルを提案し,H-POMDPモデルを自動的に構築するためのパラメータ学習手法を提案する。 H-POMDPモデルに基づいて、データから異なる認知パターンを表現し、個々の学生に対してよりパーソナライズされた学習戦略を導き出すことができる。 我々は、一般的なPOMDP手法と比較して、H-POMDPモデルが複数の認知パターンから混合データをモデル化する際に、より良い精度を示すことを示す実験を行った。 さらに,H-POMDPsから得られた学習戦略は,性能評価においてパーソナライズ性が向上した。

Optimizing students' learning strategies is a crucial component in intelligent tutoring systems. Previous research has demonstrated the effectiveness of devising personalized learning strategies for students by modelling their learning processes through partially observable Markov decision process (POMDP). However, the research holds the assumption that the student population adheres to a uniform cognitive pattern. While this assumption simplifies the POMDP modelling process, it evidently deviates from a real-world scenario, thus reducing the precision of inducing individual students' learning strategies. In this article, we propose the homomorphic POMDP (H-POMDP) model to accommodate multiple cognitive patterns and present the parameter learning approach to automatically construct the H-POMDP model. Based on the H-POMDP model, we are able to represent different cognitive patterns from the data and induce more personalized learning strategies for individual students. We conduct experiments to show that, in comparison to the general POMDP approach, the H-POMDP model demonstrates better precision when modelling mixed data from multiple cognitive patterns. Moreover, the learning strategies derived from H-POMDPs exhibit better personalization in the performance evaluation.
翻訳日:2024-03-19 20:56:18 公開日:2024-03-16
# 不確実性認識型適応器:曖昧な医用画像分割のためのセグメンテーションモデル(SAM)の適応

Uncertainty-Aware Adapter: Adapting Segment Anything Model (SAM) for Ambiguous Medical Image Segmentation ( http://arxiv.org/abs/2403.10931v1 )

ライセンス: Link先を確認
Mingzhou Jiang, Jiaying Zhou, Junde Wu, Tianyang Wang, Yueming Jin, Min Xu, (参考訳) Segment Anything Model (SAM) は自然画像のセグメンテーションにおいて大きな成功を収め、多くの手法がそれを医療画像セグメンテーションに微調整しようと試みている。 アダプタ(Adapter)は、いくつかのパラメータを学習してSAMを医用画像用に調整する特殊なモジュールである。 しかし、自然画像とは異なり、医療画像の多くの組織や病変はぼやけており、曖昧である可能性がある。 SAMに適応する以前の取り組みは、この課題を無視し、異なるセグメンテーションを予測できるだけであり、特に稀な変種やモデル信頼性の低い状況に遭遇する場合に、臨床医を誤解させるか、誤診を引き起こす可能性がある。 本研究では,不確かさを意識した画像分割のためのSAMを効率よく微調整するUncertainty-aware Adapterという新しいモジュールを提案する。 条件付き変分オートエンコーダを用いて確率的サンプルを符号化し,医用画像の固有不確かさを効果的に表現した。 我々は、SAMが不確実性を統合するのを助けるために、条件ベースの戦略を利用してサンプルと対話する標準アダプタ上に新しいモジュールを設計した。 LIDC-IDRI (Lung abnormalities segmentation) と REFUGE2 (Optical-cup segmentation) の2種類のマルチアノテートデータセットについて検討した。 実験の結果,提案手法は従来の手法よりも優れており,両方のベンチマークで新たなSOTA(State-of-the-art)を実現することがわかった。 また,本手法は多種多様なセグメンテーション仮説を生成できることを示した。

The Segment Anything Model (SAM) gained significant success in natural image segmentation, and many methods have tried to fine-tune it to medical image segmentation. An efficient way to do so is by using Adapters, specialized modules that learn just a few parameters to tailor SAM specifically for medical images. However, unlike natural images, many tissues and lesions in medical images have blurry boundaries and may be ambiguous. Previous efforts to adapt SAM ignore this challenge and can only predict distinct segmentation.It may mislead clinicians or cause misdiagnosis, especially when encountering rare variants or situations with low model confidence. In this work, we propose a novel module called the Uncertainty-aware Adapter, which efficiently fine-tuning SAM for uncertainty-aware medical image segmentation. Utilizing a conditional variational autoencoder, we encoded stochastic samples to effectively represent the inherent uncertainty in medical imaging. We designed a new module on a standard adapter that utilizes a condition-based strategy to interact with samples to help SAM integrate uncertainty. We evaluated our method on two multi-annotated datasets with different modalities: LIDC-IDRI (lung abnormalities segmentation) and REFUGE2 (optic-cup segmentation). The experimental results show that the proposed model outperforms all the previous methods and achieves the new state-of-the-art (SOTA) on both benchmarks. We also demonstrated that our method can generate diverse segmentation hypotheses that are more realistic as well as heterogeneous.
翻訳日:2024-03-19 20:56:18 公開日:2024-03-16
# 画像分類のための視覚状態空間モデルのロバスト性理解

Understanding Robustness of Visual State Space Models for Image Classification ( http://arxiv.org/abs/2403.10935v1 )

ライセンス: Link先を確認
Chengbin Du, Yanxi Li, Chang Xu, (参考訳) 近ごろ、Visual State Space Model (VMamba)が有望なアーキテクチャとして登場し、様々なコンピュータビジョンタスクにおいて顕著なパフォーマンスを示している。 しかし、その堅牢性はまだ十分に研究されていない。 本稿では,このアーキテクチャのロバスト性について,複数の視点から総合的な調査を通して考察する。 まず, 対人攻撃に対する堅牢性について検討し, 全体像とパッチ固有の対人攻撃の両方を用いて検討した。 その結果、Transformerアーキテクチャと比較して、スケーラビリティの弱点を明らかにしながら、優れた対向的堅牢性を示した。 第二に、VMambaの一般的な堅牢性は、自然な敵例、アウト・オブ・ディストリビューションデータ、一般的な腐敗など、さまざまなシナリオに対して評価される。 VMambaは、アウト・オブ・ディストリビューションデータによる例外的な一般化性を示すが、自然な敵例や一般的な腐敗に対するスケーラビリティの弱点を示す。 さらに、White-box攻撃時のVMambaの勾配とバックプロパゲーションを調査し、その新しいコンポーネントのユニークな脆弱性と防御能力を明らかにする。 最後に, 画像構造変化に対するVMambaの感度について検討し, 画像中心に近づき, 乱れ領域や空間情報の分布に関連する脆弱性を明らかにする。 これらの包括的な研究を通じて、我々はVMambaの堅牢性についてより深く理解し、コンピュータビジョンアプリケーションにおけるディープニューラルネットワークの能力を洗練し、改善するための貴重な洞察を提供する。

Visual State Space Model (VMamba) has recently emerged as a promising architecture, exhibiting remarkable performance in various computer vision tasks. However, its robustness has not yet been thoroughly studied. In this paper, we delve into the robustness of this architecture through comprehensive investigations from multiple perspectives. Firstly, we investigate its robustness to adversarial attacks, employing both whole-image and patch-specific adversarial attacks. Results demonstrate superior adversarial robustness compared to Transformer architectures while revealing scalability weaknesses. Secondly, the general robustness of VMamba is assessed against diverse scenarios, including natural adversarial examples, out-of-distribution data, and common corruptions. VMamba exhibits exceptional generalizability with out-of-distribution data but shows scalability weaknesses against natural adversarial examples and common corruptions. Additionally, we explore VMamba's gradients and back-propagation during white-box attacks, uncovering unique vulnerabilities and defensive capabilities of its novel components. Lastly, the sensitivity of VMamba to image structure variations is examined, highlighting vulnerabilities associated with the distribution of disturbance areas and spatial information, with increased susceptibility closer to the image center. Through these comprehensive studies, we contribute to a deeper understanding of VMamba's robustness, providing valuable insights for refining and advancing the capabilities of deep neural networks in computer vision applications.
翻訳日:2024-03-19 20:56:18 公開日:2024-03-16
# 強調学習画像圧縮のためのチャネルワイド特徴量の補正

Channel-wise Feature Decorrelation for Enhanced Learned Image Compression ( http://arxiv.org/abs/2403.10936v1 )

ライセンス: Link先を確認
Farhad Pakdaman, Moncef Gabbouj, (参考訳) 新たなLearnered Compression(LC)は、従来のコーデックモジュールを、レート歪みのパフォーマンスをエンドツーエンドにトレーニングしたDeep Neural Networks(DNN)に置き換えるものだ。 このアプローチは、画像/ビデオ圧縮の将来と見なされ、圧縮効率の向上に重点が置かれている。 しかし、ほとんどの研究はより複雑なDNNSを用いることで圧縮効率を目標としており、計算複雑性の向上に寄与している。 あるいは,既存のDNN容量をフル活用して圧縮を改善することを提案する。 そのため、潜伏する特徴はよりリッチで多様な機能の集合を学ぶためにガイドされる。 チャネルワイドな特徴デコレーション損失を設計し、LC最適化に統合する。 3つの戦略が提案され,(1)変換ネットワーク,(2)コンテキストモデル,(3)両ネットワークを最適化する。 2つの確立されたLC法の実験結果から,BD-Rateの圧縮は最大8.06%向上し,複雑さは加えられなかった。 提案手法は, 同様のLC法を最適化するために, プラグアンドプレイソリューションとして適用することができる。

The emerging Learned Compression (LC) replaces the traditional codec modules with Deep Neural Networks (DNN), which are trained end-to-end for rate-distortion performance. This approach is considered as the future of image/video compression, and major efforts have been dedicated to improving its compression efficiency. However, most proposed works target compression efficiency by employing more complex DNNS, which contributes to higher computational complexity. Alternatively, this paper proposes to improve compression by fully exploiting the existing DNN capacity. To do so, the latent features are guided to learn a richer and more diverse set of features, which corresponds to better reconstruction. A channel-wise feature decorrelation loss is designed and is integrated into the LC optimization. Three strategies are proposed and evaluated, which optimize (1) the transformation network, (2) the context model, and (3) both networks. Experimental results on two established LC methods show that the proposed method improves the compression with a BD-Rate of up to 8.06%, with no added complexity. The proposed solution can be applied as a plug-and-play solution to optimize any similar LC method.
翻訳日:2024-03-19 20:56:18 公開日:2024-03-16
# 低資源ASRにおける格子再構成のための最小拡張言語モデルによる初期復号化

Initial Decoding with Minimally Augmented Language Model for Improved Lattice Rescoring in Low Resource ASR ( http://arxiv.org/abs/2403.10937v1 )

ライセンス: Link先を確認
Savitha Murthy, Dinkar Sitaram, (参考訳) 本稿では,包摂的格子を生成するのにベースライン言語モデルが不十分な低リソース言語において,格子再構成による音声認識精度向上の問題に対処する。 対象言語のより大きなテキストコーパスに存在するが、ベースラインには存在しない単語ユニグラム数でベースライン言語モデルを最小化する。 このような拡張ベースライン言語モデルでデコード後に生成された格子はより包括的である。 提案手法を用いて,21.8% (Telugu) と41.8% (Kannada) の単語誤りを削減した。 この単語エラー率の削減は21.5% (Telugu) と45.9% (Kannada) の相対的な単語エラー削減に匹敵する。 提案手法は,テキスト選択に基づく言語モデル拡張と同等であり,異なるサイズのデータセットに一貫性があることを実証する。 提案手法は,音声データや計算資源が不十分な低リソース環境下での音声認識システムの訓練に応用できる。 我々の研究は、基本語の語彙外単語の問題を一般に解決することを含み、名前付きエンティティの欠如を解決することに重点を置いていない。 提案手法は単純であるが,計算コストは低い。

This paper addresses the problem of improving speech recognition accuracy with lattice rescoring in low-resource languages where the baseline language model is insufficient for generating inclusive lattices. We minimally augment the baseline language model with word unigram counts that are present in a larger text corpus of the target language but absent in the baseline. The lattices generated after decoding with such an augmented baseline language model are more comprehensive. We obtain 21.8% (Telugu) and 41.8% (Kannada) relative word error reduction with our proposed method. This reduction in word error rate is comparable to 21.5% (Telugu) and 45.9% (Kannada) relative word error reduction obtained by decoding with full Wikipedia text augmented language mode while our approach consumes only 1/8th the memory. We demonstrate that our method is comparable with various text selection-based language model augmentation and also consistent for data sets of different sizes. Our approach is applicable for training speech recognition systems under low resource conditions where speech data and compute resources are insufficient, while there is a large text corpus that is available in the target language. Our research involves addressing the issue of out-of-vocabulary words of the baseline in general and does not focus on resolving the absence of named entities. Our proposed method is simple and yet computationally less expensive.
翻訳日:2024-03-19 20:56:18 公開日:2024-03-16
# ViSaRL:人力による視覚強化学習

ViSaRL: Visual Reinforcement Learning Guided by Human Saliency ( http://arxiv.org/abs/2403.10940v1 )

ライセンス: Link先を確認
Anthony Liang, Jesse Thomason, Erdem Bıyık, (参考訳) 強化学習(RL)を用いた高次元画素入力から複雑な制御タスクを行うための訓練ロボットは、画像観察が主にタスク非関連情報から成り立っているため、サンプル非効率である。 対照的に、人間は視覚的にタスク関連物や領域に出席することができる。 この知見に基づき,ビジュアル・サリエンシ指導型強化学習(ViSaRL)を紹介する。 ViSaRLを用いて視覚表現を学習することで、DeepMind Controlベンチマーク、シミュレーションでのロボット操作、実際のロボットでのRLエージェントの成功率、サンプル効率、一般化が大幅に向上する。 我々はCNNとTransformerベースのエンコーダの両方にサリエンシを組み込むアプローチを提案する。 ViSaRLを用いて学習した視覚表現は、知覚ノイズやシーンの変動など、様々な視覚摂動の源泉に対して堅牢であることを示す。 ViSaRLは、サリエンシを使用しないベースラインと比較して、実際のロボットタスクの成功率をほぼ2倍にします。

Training robots to perform complex control tasks from high-dimensional pixel input using reinforcement learning (RL) is sample-inefficient, because image observations are comprised primarily of task-irrelevant information. By contrast, humans are able to visually attend to task-relevant objects and areas. Based on this insight, we introduce Visual Saliency-Guided Reinforcement Learning (ViSaRL). Using ViSaRL to learn visual representations significantly improves the success rate, sample efficiency, and generalization of an RL agent on diverse tasks including DeepMind Control benchmark, robot manipulation in simulation and on a real robot. We present approaches for incorporating saliency into both CNN and Transformer-based encoders. We show that visual representations learned using ViSaRL are robust to various sources of visual perturbations including perceptual noise and scene variations. ViSaRL nearly doubles success rate on the real-robot tasks compared to the baseline which does not use saliency.
翻訳日:2024-03-19 20:56:18 公開日:2024-03-16
# ScanTalk: 登録されていないスカンの3Dトーキングヘッド

ScanTalk: 3D Talking Heads from Unregistered Scans ( http://arxiv.org/abs/2403.10942v1 )

ライセンス: Link先を確認
Federico Nocentini, Thomas Besnier, Claudio Ferrari, Sylvain Arguillere, Stefano Berretti, Mohamed Daoudi, (参考訳) 音声駆動の3D音声ヘッド生成は、研究者の間で重要な関心領域として現れており、多くの課題が提示されている。 既存の方法は、点対応が確立された固定位相の顔のアニメーションによって制約され、そのモデルがアニメーションできるすべてのアイデンティティにおいて、点の数と順序は一貫して保持される。 本研究では,スキャンデータを含む任意のトポロジで3次元顔をアニメーションできる新しいフレームワークであるScanTalkを提案する。 我々のアプローチは、固定トポロジ制約を克服するためにDiffusionNetアーキテクチャに依存しており、より柔軟でリアルな3Dアニメーションのための有望な道を提供する。 DiffusionNetのパワーを活用することで、ScanTalkは多様な顔構造に適応するだけでなく、スキャンされたデータを扱う際の忠実さも維持し、生成された3D音声ヘッドの信頼性と汎用性を向上させる。 本研究では,最先端手法との総合的な比較を通じて,既存の手法に匹敵する現実的な話し声を生成する能力を示すとともに,アプローチの有効性を検証した。 我々の主な目的は、トポロジカル制約のない汎用的な手法を開発することであるが、最先端の方法論はすべてそのような制約によって拘束されている。 結果を再生成するためのコードと、事前トレーニングされたモデルが利用可能になります。

Speech-driven 3D talking heads generation has emerged as a significant area of interest among researchers, presenting numerous challenges. Existing methods are constrained by animating faces with fixed topologies, wherein point-wise correspondence is established, and the number and order of points remains consistent across all identities the model can animate. In this work, we present ScanTalk, a novel framework capable of animating 3D faces in arbitrary topologies including scanned data. Our approach relies on the DiffusionNet architecture to overcome the fixed topology constraint, offering promising avenues for more flexible and realistic 3D animations. By leveraging the power of DiffusionNet, ScanTalk not only adapts to diverse facial structures but also maintains fidelity when dealing with scanned data, thereby enhancing the authenticity and versatility of generated 3D talking heads. Through comprehensive comparisons with state-of-the-art methods, we validate the efficacy of our approach, demonstrating its capacity to generate realistic talking heads comparable to existing techniques. While our primary objective is to develop a generic method free from topological constraints, all state-of-the-art methodologies are bound by such limitations. Code for reproducing our results, and the pre-trained model will be made available.
翻訳日:2024-03-19 20:56:18 公開日:2024-03-16
# MIntRec2.0:会話におけるマルチモーダルインテント認識とスコープ外検出のための大規模ベンチマークデータセット

MIntRec2.0: A Large-scale Benchmark Dataset for Multimodal Intent Recognition and Out-of-scope Detection in Conversations ( http://arxiv.org/abs/2403.10943v1 )

ライセンス: Link先を確認
Hanlei Zhang, Xin Wang, Hua Xu, Qianrui Zhou, Kai Gao, Jianhua Su, jinyue Zhao, Wenrui Li, Yanting Chen, (参考訳) マルチモーダルな意図認識は、人間の意図の理解を高めるために、現実世界の文脈から非言語的モダリティを組み込むことが要求される、重大な課題となる。 既存のベンチマークデータセットは規模が限られており、マルチターン対話で発生するスコープ外のサンプルを扱うのに苦労している。 マルチモーダルな意図認識のための大規模ベンチマークデータセットであるMIntRec2.0を紹介する。 1,245の対話と15,040のサンプルがあり、それぞれが30のきめ細かいクラスからなる新しい意図的分類に注釈付けされている。 9,304個のインスコープサンプルに加えて、実世界のシナリオで自然に発生するマルチターンのコンテキストに現れる5,736個のアウトオブスコープサンプルも含まれている。 さらに,各発話における話者の包括的情報を提供し,多人数会話研究に活用する。 我々は,単ターン・多ターン対話データ,モダリティ特徴抽出,マルチモーダル融合,顕微鏡内分類,スコープ外検出をサポートする汎用フレームワークを構築した。 評価ベンチマークは、古典的なマルチモーダル融合法、ChatGPT、人間評価器を用いて構築されている。 非言語情報を用いた既存の手法では、文脈情報を効果的に活用し、スコープ外サンプルを検出することは大きな課題である。 特に、大きな言語モデルでは、認知意図理解タスクにおける機械学習手法の限界が強調され、人間に比べて大きなパフォーマンスギャップが生じる。 私たちは、MIntRec2.0が貴重なリソースとして機能し、人間と機械の対話における研究の先駆的な基盤を提供し、関連するアプリケーションを大幅に促進すると考えている。 完全なデータセットとコードはhttps://github.com/thuiar/MIntRec2.0で公開されている。

Multimodal intent recognition poses significant challenges, requiring the incorporation of non-verbal modalities from real-world contexts to enhance the comprehension of human intentions. Existing benchmark datasets are limited in scale and suffer from difficulties in handling out-of-scope samples that arise in multi-turn conversational interactions. We introduce MIntRec2.0, a large-scale benchmark dataset for multimodal intent recognition in multi-party conversations. It contains 1,245 dialogues with 15,040 samples, each annotated within a new intent taxonomy of 30 fine-grained classes. Besides 9,304 in-scope samples, it also includes 5,736 out-of-scope samples appearing in multi-turn contexts, which naturally occur in real-world scenarios. Furthermore, we provide comprehensive information on the speakers in each utterance, enriching its utility for multi-party conversational research. We establish a general framework supporting the organization of single-turn and multi-turn dialogue data, modality feature extraction, multimodal fusion, as well as in-scope classification and out-of-scope detection. Evaluation benchmarks are built using classic multimodal fusion methods, ChatGPT, and human evaluators. While existing methods incorporating nonverbal information yield improvements, effectively leveraging context information and detecting out-of-scope samples remains a substantial challenge. Notably, large language models exhibit a significant performance gap compared to humans, highlighting the limitations of machine learning methods in the cognitive intent understanding task. We believe that MIntRec2.0 will serve as a valuable resource, providing a pioneering foundation for research in human-machine conversational interactions, and significantly facilitating related applications. The full dataset and codes are available at https://github.com/thuiar/MIntRec2.0.
翻訳日:2024-03-19 20:56:18 公開日:2024-03-16
# インド法テキスト分析のための人間中心AI

Human Centered AI for Indian Legal Text Analytics ( http://arxiv.org/abs/2403.10944v1 )

ライセンス: Link先を確認
Sudipto Ghosh, Devanshu Verma, Balaji Ganesan, Purnima Bindal, Vikas Kumar, Vasudha Bhatnagar, (参考訳) 法律研究は法律の実践において重要な課題である。 訴訟を調査し、議論を準備するためには、激しい人間の努力と知的な忍耐が必要である。 ジェネレーティブAIの最近のブームは、信頼性の低さとLarge Language Models(LLMs)のトレーニングのための特別なデータセットの不足のため、影響力のある法的応用の増加に比例するものではない。 本稿では,LTA(Lawal Text Analytics)におけるLLMの可能性について考察し,人間の専門知識の統合が専門家の能力に匹敵するパフォーマンスを著しく向上する分野を明らかにする。 本稿では,LTAタスクをLLMで実行するために,人間の入力を主に組み込んだ,人間中心の複合AIシステムについて紹介する。

Legal research is a crucial task in the practice of law. It requires intense human effort and intellectual prudence to research a legal case and prepare arguments. Recent boom in generative AI has not translated to proportionate rise in impactful legal applications, because of low trustworthiness and and the scarcity of specialized datasets for training Large Language Models (LLMs). This position paper explores the potential of LLMs within Legal Text Analytics (LTA), highlighting specific areas where the integration of human expertise can significantly enhance their performance to match that of experts. We introduce a novel dataset and describe a human centered, compound AI system that principally incorporates human inputs for performing LTA tasks with LLMs.
翻訳日:2024-03-19 20:56:18 公開日:2024-03-16
# シークエンシャルタスク設定における局所レギュレット最小化の誤り

The Fallacy of Minimizing Local Regret in the Sequential Task Setting ( http://arxiv.org/abs/2403.10946v1 )

ライセンス: Link先を確認
Ziping Xu, Kelly W. Zhang, Susan A. Murphy, (参考訳) 強化学習(RL)の領域では、オンラインRLはしばしば最適化問題として概念化され、アルゴリズムが未知の環境と相互作用して累積的後悔を最小限に抑える。 定常的な設定では、部分線型($\sqrt{T}$)後悔境界のような強い理論的保証が得られ、これは典型的には最適なポリシーへの収束と探索の停止を意味する。 しかしながら、これらの理論的な設定は、実際のRL実装で遭遇する複雑さを単純化し、タスク間の実質的な変化とともにタスクが順次到着し、アルゴリズムは特定のタスク内で適応的に学習することが許されない。 結果分布を超えて、報酬デザインの変更(成果から報酬へのマッピング)と許容可能な政策空間について検討する。 結果から,各タスクにおける後悔の最小化は,初期タスクにおいて最適な後悔率を得ることで,結果分布が同じであっても,その後のタスクでは悪化する可能性が示唆された。 全てのタスクにまたがる最適な累積的後悔を実現するために、アルゴリズムは以前のタスクを過度に探索する必要がある。 この理論的な洞察は事実上重要であり、タスク間の予期せぬ変化(例えば、迅速な技術開発や、ループへの人間的関与)のために、アルゴリズムは各タスク内の通常の定常的な設定よりも多くを探索する必要があることを示唆している。 このような意味合いは、モバイルヘルス臨床試験でクリップされたポリシーを使用し、ロボット学習において$\epsilon$-greedyの探索を一定の割合で維持するという一般的な慣習と一致している。

In the realm of Reinforcement Learning (RL), online RL is often conceptualized as an optimization problem, where an algorithm interacts with an unknown environment to minimize cumulative regret. In a stationary setting, strong theoretical guarantees, like a sublinear ($\sqrt{T}$) regret bound, can be obtained, which typically implies the convergence to an optimal policy and the cessation of exploration. However, these theoretical setups often oversimplify the complexities encountered in real-world RL implementations, where tasks arrive sequentially with substantial changes between tasks and the algorithm may not be allowed to adaptively learn within certain tasks. We study the changes beyond the outcome distributions, encompassing changes in the reward designs (mappings from outcomes to rewards) and the permissible policy spaces. Our results reveal the fallacy of myopically minimizing regret within each task: obtaining optimal regret rates in the early tasks may lead to worse rates in the subsequent ones, even when the outcome distributions stay the same. To realize the optimal cumulative regret bound across all the tasks, the algorithm has to overly explore in the earlier tasks. This theoretical insight is practically significant, suggesting that due to unanticipated changes (e.g., rapid technological development or human-in-the-loop involvement) between tasks, the algorithm needs to explore more than it would in the usual stationary setting within each task. Such implication resonates with the common practice of using clipped policies in mobile health clinical trials and maintaining a fixed rate of $\epsilon$-greedy exploration in robotic learning.
翻訳日:2024-03-19 20:56:18 公開日:2024-03-16
# SelfIE: 大規模言語モデル埋め込みの自己解釈

SelfIE: Self-Interpretation of Large Language Model Embeddings ( http://arxiv.org/abs/2403.10949v1 )

ライセンス: Link先を確認
Haozhe Chen, Carl Vondrick, Chengzhi Mao, (参考訳) 大規模言語モデル(LLM)はどのようにその答えを得るのか? LLMの推論プロセスを説明し、制御する能力は、信頼性、透明性、将来のモデル開発の鍵となります。 本稿は,LLMが自然言語への埋め込みを解釈するためのフレームワークであるSelfIE(Self-Interpretation of Embeddings)を提案する。 隠された埋め込みにおいてオープンワールドの概念を解釈できるSelfIEは、倫理的判断、即時注入の内在化、有害な知識のリコールといったケースにおいて、LCMの内部理性を明らかにする。 隠れた埋め込みに関するSelfIEのテキスト記述は、LSM推論を制御するための新しい道を開く。 本稿では,各レイヤの勾配計算のみを必要としながら,オープンな概念を編集できるSupervised Controlを提案する。 我々は,LLHFを隠れ埋め込みに拡張し,LLMにおける有害な知識を監視対象なく消去する強化制御を提案する。

How do large language models (LLMs) obtain their answers? The ability to explain and control an LLM's reasoning process is key for reliability, transparency, and future model developments. We propose SelfIE (Self-Interpretation of Embeddings), a framework that enables LLMs to interpret their own embeddings in natural language by leveraging their ability to respond inquiry about a given passage. Capable of interpreting open-world concepts in the hidden embeddings, SelfIE reveals LLM internal reasoning in cases such as making ethical decisions, internalizing prompt injection, and recalling harmful knowledge. SelfIE's text descriptions on hidden embeddings also open up new avenues to control LLM reasoning. We propose Supervised Control, which allows editing open-ended concepts while only requiring gradient computation of individual layer. We extend RLHF to hidden embeddings and propose Reinforcement Control that erases harmful knowledge in LLM without supervision targets.
翻訳日:2024-03-19 20:56:18 公開日:2024-03-16
# Ctrl123: クローズドループ転写による新規なビュー合成

Ctrl123: Consistent Novel View Synthesis via Closed-Loop Transcription ( http://arxiv.org/abs/2403.10953v1 )

ライセンス: Link先を確認
Hongxiang Zhao, Xili Dai, Jianan Wang, Shengbang Tong, Jingyuan Zhang, Weida Wang, Lei Zhang, Yi Ma, (参考訳) 大規模な画像拡散モデルは、新規ビュー合成(NVS)においてゼロショット機能を示した。 しかし、既存の拡散に基づくNVS法は、トレーニングセット上でも対応する真実のポーズや外観と正確に一致した新しいビューを生成するのに苦労している。 これにより、イメージ・ツー・マルチビュー生成や3D再構成といった下流タスクのパフォーマンスが制限される。 このような矛盾は主に、Zero123のような既存の手法で行われているように、拡散訓練において、正確なポーズと外観アライメントを直接強制することが困難であるという事実から生じている。 この問題を解決するために、我々はCtrl123を提案する。Ctrl123は、ポーズに敏感な特徴空間において、生成されたビューと地上の真実との間のアライメントを強制する、クローズドループ転写に基づくNVS拡散法である。 我々は,Ctrl123がNVSおよび3次元再構成のタスクに与える影響を実証し,既存の手法よりも多視点整合性とポーズ整合性の両方において顕著な改善を実現した。

Large image diffusion models have demonstrated zero-shot capability in novel view synthesis (NVS). However, existing diffusion-based NVS methods struggle to generate novel views that are accurately consistent with the corresponding ground truth poses and appearances, even on the training set. This consequently limits the performance of downstream tasks, such as image-to-multiview generation and 3D reconstruction. We realize that such inconsistency is largely due to the fact that it is difficult to enforce accurate pose and appearance alignment directly in the diffusion training, as mostly done by existing methods such as Zero123. To remedy this problem, we propose Ctrl123, a closed-loop transcription-based NVS diffusion method that enforces alignment between the generated view and ground truth in a pose-sensitive feature space. Our extensive experiments demonstrate the effectiveness of Ctrl123 on the tasks of NVS and 3D reconstruction, achieving significant improvements in both multiview-consistency and pose-consistency over existing methods.
翻訳日:2024-03-19 20:56:18 公開日:2024-03-16
# オープンファイバキャビティを有する通信Oバンドにおける量子ドットのパーセル化の検討

Investigation of Purcell enhancement of quantum dots emitting in the telecom O-band with an open fiber-cavity ( http://arxiv.org/abs/2403.10960v1 )

ライセンス: Link先を確認
Julian Maisch, Jonas Grammel, Nam Tran, Michael Jetter, Simone L. Portalupi, David Hunger, Peter Michler, (参考訳) 光マイクロキャビティに統合された単一光子エミッタは、量子通信アプリケーションにおいて重要な要素である。 しかし、キャビティ幾何学と量子エミッタ系の組み合わせには、放射特性の最適化とキャビティ・エミッタ相互作用に特別な課題がある。 本稿では、オープンファイバキャビティに集積された通信Oバンドに放出される半導体量子ドット(QD)について、徹底的に検討する。 この設計は、内在的なファイバーカップリングを備えた全空間次元で調整可能な光学マイクロキャビティを提供する。 その結果、高い収集効率と空間的およびスペクトル的に変化するサンプルの調査に有望なアプローチを提供する。 一方、システムは振動騒音の影響を受けやすい。 そこで, キャビティとエミッタ特性の総合的研究を行い, キャビティ長の変動の解析を行った。 パーセルの強化により、最大で$2.46(2)}$までの崩壊時間の減少が観察される。

Single-photon emitters integrated in optical micro-cavities are key elements in quantum communication applications. However, for each combination of a cavity geometry with a quantum emitter system, there are specific challenges in the optimization of the emission properties and cavity-emitter interaction. Here, we present a thorough investigation of semiconductor quantum dots (QDs), emitting in the telecom O-band, integrated in an open fiber-cavity. The design provides an optical micro-cavity tunable in all spatial dimensions with intrinsic fiber-coupling. Consequently, it offers a promising approach to a high collection efficiency and the investigation of spatially and spectrally varying samples. On the other hand, the system is also susceptible to vibrational noise. Therefore, we provide a comprehensive study of the cavity and emitter properties together with an analysis of the fluctuations of the cavity length. Due to the Purcell enhancement, we observe a reduction of the decay times of up to a factor of ${2.46(2)}$.
翻訳日:2024-03-19 20:56:18 公開日:2024-03-16
# エネルギーモデルと音声・言語処理への応用

Energy-Based Models with Applications to Speech and Language Processing ( http://arxiv.org/abs/2403.10961v1 )

ライセンス: Link先を確認
Zhijian Ou, (参考訳) エネルギーベースモデル(Energy-Based Models、EBMs)は確率モデルの重要なクラスであり、ランダムフィールドや非方向グラフィカルモデルとも呼ばれる。 EBMは非正規化されており、隠れマルコフモデル(HMM)、自己回帰モデル、生成逆数ネット(GAN)、変動自己エンコーダ(VAE)といった他の一般的な自己正規化確率モデルとは根本的に異なる。 過去数年間、ESMは、コア機械学習コミュニティだけでなく、言語、ビジョン、自然言語処理(NLP)といったアプリケーションドメインからも関心を集めてきた。 音声と言語のシーケンシャルな性質は、特別な課題を示し、固定次元データ(例えば画像)の処理とは異なる処理を必要とする。 したがって,本モノグラフの目的は,アルゴリズムの進歩と音声処理および言語処理への応用を含む,エネルギーモデルへの体系的な導入を提供することである。 まず、従来のモデル、ニューラルネットワークでパラメータ化された最近のモデル、サンプリング方法、古典的な学習アルゴリズムから最も高度な学習方法など、ESMの基本を紹介します。 次に,3つのシナリオ,すなわち境界分布,条件分布,関節分布のモデリングに適用する。 1) 逐次データと言語モデリングの応用のための EBM であって,その主な焦点は,シーケンス自体の限界分布である。 2) 対象シーケンスの条件分布をモデル化するためのEMMとその音声認識,シーケンスラベリング,テキスト生成への応用 3)観察対象と観測対象の双方の連関分布をモデル化するためのEMMとその半教師付き学習・校正自然言語理解への応用

Energy-Based Models (EBMs) are an important class of probabilistic models, also known as random fields and undirected graphical models. EBMs are un-normalized and thus radically different from other popular self-normalized probabilistic models such as hidden Markov models (HMMs), autoregressive models, generative adversarial nets (GANs) and variational auto-encoders (VAEs). Over the past years, EBMs have attracted increasing interest not only from the core machine learning community, but also from application domains such as speech, vision, natural language processing (NLP) and so on, due to significant theoretical and algorithmic progress. The sequential nature of speech and language also presents special challenges and needs a different treatment from processing fix-dimensional data (e.g., images). Therefore, the purpose of this monograph is to present a systematic introduction to energy-based models, including both algorithmic progress and applications in speech and language processing. First, the basics of EBMs are introduced, including classic models, recent models parameterized by neural networks, sampling methods, and various learning methods from the classic learning algorithms to the most advanced ones. Then, the application of EBMs in three different scenarios is presented, i.e., for modeling marginal, conditional and joint distributions, respectively. 1) EBMs for sequential data with applications in language modeling, where the main focus is on the marginal distribution of a sequence itself; 2) EBMs for modeling conditional distributions of target sequences given observation sequences, with applications in speech recognition, sequence labeling and text generation; 3) EBMs for modeling joint distributions of both sequences of observations and targets, and their applications in semi-supervised learning and calibrated natural language understanding.
翻訳日:2024-03-19 20:56:18 公開日:2024-03-16
# ポイントクラウド生成のためのトポロジカル事前の爆発

Exploiting Topological Prior for Boosting Point Cloud Generation ( http://arxiv.org/abs/2403.10962v1 )

ライセンス: Link先を確認
Baiyuan Chen, (参考訳) 本稿では、ポイントクラウド生成用に設計された最先端GANであるSP-GANモデルとして、Sphereの革新的な拡張について述べる。 生成した点雲の構造的整合性と全体的品質を高めるために, 発生源のトレーニングプロセスにトポロジカル事前を組み込むことにより, 点雲生成に新たな手法が導入された。 具体的には、K平均アルゴリズムを用いて、リポジトリからポイントクラウドをクラスタに分割し、センタロイドを抽出し、SP-GANの生成プロセスの先行として使用する。 さらに、SP-GANの差別化要素は、セントロイドに寄与する同一の点雲を利用して、一貫性のある一貫した学習環境を確保する。 直感的ガイドとしてのこの戦略的利用は、グローバルな特徴学習の効率を高めるだけでなく、生成された点雲の構造的コヒーレンスと忠実性を大幅に改善する。 K平均アルゴリズムを適用してセンチロイドを生成することにより、この研究は直感的かつ実験的に、そのような先行が生成された点雲の品質を高めることを実証する。

This paper presents an innovative enhancement to the Sphere as Prior Generative Adversarial Network (SP-GAN) model, a state-of-the-art GAN designed for point cloud generation. A novel method is introduced for point cloud generation that elevates the structural integrity and overall quality of the generated point clouds by incorporating topological priors into the training process of the generator. Specifically, this work utilizes the K-means algorithm to segment a point cloud from the repository into clusters and extract centroids, which are then used as priors in the generation process of the SP-GAN. Furthermore, the discriminator component of the SP-GAN utilizes the identical point cloud that contributed the centroids, ensuring a coherent and consistent learning environment. This strategic use of centroids as intuitive guides not only boosts the efficiency of global feature learning but also substantially improves the structural coherence and fidelity of the generated point clouds. By applying the K-means algorithm to generate centroids as the prior, the work intuitively and experimentally demonstrates that such a prior enhances the quality of generated point clouds.
翻訳日:2024-03-19 20:46:34 公開日:2024-03-16
# 低リソース機械翻訳のためのポインタジェネレータネットワーク:それをコピーするな!

Pointer-Generator Networks for Low-Resource Machine Translation: Don't Copy That! ( http://arxiv.org/abs/2403.10963v1 )

ライセンス: Link先を確認
Niyati Bafna, David Yarowsky, (参考訳) Transformerベースのニューラルネットワーク翻訳(NMT)は、高リソース設定において非常に効果的であるが、多くの言語では、その恩恵を受けるために必要な大きな並列コーパスが欠如している。 2つの近縁言語間の低リソース (LR) MT の文脈において、自然な直観は、ソースからターゲットへのサブワードのコピーのような構造的な「ショートカット」の恩恵を求めることである。 この目的のためにPointer-Generator Networksを、さまざまなリソース範囲で6つの言語ペアでテストし、ほとんどの設定で弱い改善点を見つけました。 しかし, 分析の結果, より近い言語対とより遠い言語対, あるいはより低いリソース範囲において, モデルがより大きな改善を示さないこと, 共有サブワードに対して, モデルが期待される使用方法を示していないこと, などの結果が得られた。 この行動の理由に関する議論は、現代のトークン化戦略、雑音の多い現実世界の条件、言語的複雑さなど、LR NMTのいくつかの一般的な課題を浮き彫りにしている。 我々は、トランスフォーマーモデルのブラックボックスの性質を考えると、言語的に動機づけられたNMTの改善のより精査と、この分野における上記の問題に焦点をあてることを求めている。

While Transformer-based neural machine translation (NMT) is very effective in high-resource settings, many languages lack the necessary large parallel corpora to benefit from it. In the context of low-resource (LR) MT between two closely-related languages, a natural intuition is to seek benefits from structural "shortcuts", such as copying subwords from the source to the target, given that such language pairs often share a considerable number of identical words, cognates, and borrowings. We test Pointer-Generator Networks for this purpose for six language pairs over a variety of resource ranges, and find weak improvements for most settings. However, analysis shows that the model does not show greater improvements for closely-related vs. more distant language pairs, or for lower resource ranges, and that the models do not exhibit the expected usage of the mechanism for shared subwords. Our discussion of the reasons for this behaviour highlights several general challenges for LR NMT, such as modern tokenization strategies, noisy real-world conditions, and linguistic complexities. We call for better scrutiny of linguistically motivated improvements to NMT given the blackbox nature of Transformer models, as well as for a focus on the above problems in the field.
翻訳日:2024-03-19 20:46:34 公開日:2024-03-16
# 古典シミュレーションにおける効率的なT分解のための手続き最適化ZX-Diagram切削

Procedurally Optimised ZX-Diagram Cutting for Efficient T-Decomposition in Classical Simulation ( http://arxiv.org/abs/2403.10964v1 )

ライセンス: Link先を確認
Matthew Sutcliffe, Aleks Kissinger, (参考訳) 量子回路は、古典的に計算可能な安定化項の和に$t$T-ゲートを分解することで、ZX-計算の助けを借りて古典的に強くシミュレートすることができる。 本稿では,ZX-ダイアグラムにおける頂点カットの最適パターンを見つけるための一般的な手順を紹介し,最も少ないカットのコストでTカウントの削減を最大化する。 Tゲートを直接分解する固定ルーチンに基づいてクリフォード+Tダイアグラムを縮小する代わりに、そのような回路に共通する特定のパターンや構造を利用して、実質的には特定の回路に最適化されたクモ分解の配列を自動的に設計する。 要するに、これはウェイトをバーチカンに割り当てて、ブロックしているT字型のゲートの数に基づいて、そのウェイトを近隣のあらゆる場所に適切に伝播させ、重み付きバーチカンをヒュージングからブロックするなどして機能する。 最終的に、これは関連するノードに一連の重み付けを提供し、各ノードをカットして、最上位の重み付けから始めることができる。 これはヒューリスティックなアプローチであるが、検証可能な回路が十分小さい場合、この手法は711\%の時間で可能な限り最適なカットを実現できることを示す。 さらに、この方法によって達成される効率の上限はなく、原理的には、高度に構造化された回路に対して有効分解効率$\alpha\rightarrow0$が可能である。 ランダムな擬構造回路(CNOT、位相ゲート、Toffolis)に適用しても、従来のT-分解手法($\alpha\approx0.47$)と比較して、全てのT-ゲートを減らすのに必要な安定化項の数を記録し、有効効率$0.1\lesssim\alpha\lesssim0.2$で一貫した桁数の改善を示す。

A quantum circuit may be strongly classically simulated with the aid of ZX-calculus by decomposing its $t$ T-gates into a sum of $2^{\alpha t}$ classically computable stabiliser terms. In this paper, we introduce a general procedure to find an optimal pattern of vertex cuts in a ZX-diagram to maximise its T-count reduction at the cost of the fewest cuts. Rather than reducing a Clifford+T diagram based on a fixed routine of decomposing its T-gates directly (as is the conventional approach), we focus instead on taking advantage of certain patterns and structures common to such circuits to, in effect, design by automatic procedure an arrangement of spider decompositions that is optimised for the particular circuit. In short, this works by assigning weights to vertices based on how many T-like gates they are blocking from fusing/cancelling and then appropriately propagating these weights through any neighbours which are then blocking weighted vertices from fusing, and so on. Ultimately, this then provides a set of weightings on relevant nodes, which can then each be cut, starting from the highest weighted down. While this is a heuristic approach, we show that, for circuits small enough to verify, this method achieves the most optimal set of cuts possible $71\%$ of the time. Furthermore, there is no upper bound for the efficiency achieved by this method, allowing, in principle, an effective decomposition efficiency $\alpha\rightarrow0$ for highly structured circuits. Even applied to random pseudo-structured circuits (produced from CNOTs, phase gates, and Toffolis), we record the number of stabiliser terms required to reduce all T-gates, via our method as compared to that of the more conventional T-decomposition approaches (with $\alpha\approx0.47$), and show consistent improvements of orders of magnitude, with an effective efficiency $0.1\lesssim\alpha\lesssim0.2$.
翻訳日:2024-03-19 20:46:34 公開日:2024-03-16
# 多くの世界の夢:ゼロショットの一般化を支援する文脈的世界モデルを学ぶ

Dreaming of Many Worlds: Learning Contextual World Models Aids Zero-Shot Generalization ( http://arxiv.org/abs/2403.10967v1 )

ライセンス: Link先を確認
Sai Prasanna, Karim Farid, Raghu Rajan, André Biedenkapp, (参考訳) ゼロショット一般化(ZSG)は、一般に有能なエンボディエージェントを作成する上で大きな課題である。 より広い課題に対処するために、我々は、マルコフ状態の観測可能性に関する仮定をさらに単純化することなく、ロボットの質量や寸法などのシステムの力学の変動をパラメータ化する文脈値の可観測性を仮定する、文脈強化学習(cRL)の簡易な設定から始める。 本稿では,ZSGがコンテキストの変動を未確認にすることを目的として,夢想家(v3)の世界モデルに変化をもたらすコンテキストリカレント状態空間モデル(cRSSM)を提案する(Hafner et al ,2023)。 これにより、世界モデルは、潜在力学の観測とモデリングから潜在マルコフ状態を推論するための文脈を組み込むことができる。 実験により,このような文脈の体系的な組み入れにより,世界モデルの 'dreams'' に基づいて訓練された政策のZSGが向上することが示された。 さらに、我々のアプローチは、ドリーマーが潜在状態をコンテキストから切り離すことを可能にし、夢を目に見えないコンテキストの多くの世界への外挿を可能にすることを定性的に見出す。 すべての実験のコードは \url{https://github.com/sai-prasanna/dreaming_of_many_worlds} で公開されている。

Zero-shot generalization (ZSG) to unseen dynamics is a major challenge for creating generally capable embodied agents. To address the broader challenge, we start with the simpler setting of contextual reinforcement learning (cRL), assuming observability of the context values that parameterize the variation in the system's dynamics, such as the mass or dimensions of a robot, without making further simplifying assumptions about the observability of the Markovian state. Toward the goal of ZSG to unseen variation in context, we propose the contextual recurrent state-space model (cRSSM), which introduces changes to the world model of the Dreamer (v3) (Hafner et al., 2023). This allows the world model to incorporate context for inferring latent Markovian states from the observations and modeling the latent dynamics. Our experiments show that such systematic incorporation of the context improves the ZSG of the policies trained on the ``dreams'' of the world model. We further find qualitatively that our approach allows Dreamer to disentangle the latent state from context, allowing it to extrapolate its dreams to the many worlds of unseen contexts. The code for all our experiments is available at \url{https://github.com/sai-prasanna/dreaming_of_many_worlds}.
翻訳日:2024-03-19 20:46:34 公開日:2024-03-16
# フェデレートラーニングによるDDoS攻撃に対するIoTセキュリティの強化

Enhancing IoT Security Against DDoS Attacks through Federated Learning ( http://arxiv.org/abs/2403.10968v1 )

ライセンス: Link先を確認
Ghazaleh Shirvani, Saeid Ghasemshirazi, Mohammad Ali Alipour, (参考訳) IoT(Internet of Things)の急速な普及は、物理デバイスとデジタル領域の間の変換接続を後押ししている。 それでも、DDoS(Distributed Denial of Service)攻撃のエスカレートする脅威は、IoTネットワークの完全性と信頼性を危険にさらしている。 従来型のDDoS緩和アプローチは、IoTエコシステムの複雑さに対処するには不適であり、データのプライバシを損なう可能性がある。 本稿では,複数のIoTデバイスやエッジノードがデータプライバシを保持し,通信オーバヘッドを最小限に抑えながら,グローバルモデルを協調的に構築できるフェデレートラーニングの力を活用して,IoTネットワークのDDoS攻撃に対するセキュリティを強化する,革新的な戦略を紹介する。 この研究は、IoTにおけるDDoS攻撃の検出と緩和におけるフェデレートラーニングの有効性を調査することを目的としている。 提案するフレームワークは,IoTデバイスの集合的インテリジェンスを,センシティブなデータを妥協することなくリアルタイムな攻撃検出に活用する。 本研究では,データ次元の低減,再学習,部分選択のための革新的なディープオートエンコーダ手法を提案する。 さらに、この研究には2つの有名な集約アルゴリズム、FedAvgとFedAvgMが採用されている。 モデルを評価するために、真正レート、偽正レート、F1スコアを含む様々な指標が使用される。 この研究で利用されるデータセットであるN-BaIoTは、データカテゴリが全く異なる方法で分散される非IIDデータ分布を示す。 これらの分布格差の負の影響は、再学習と部分選択技術を用いて、最終モデルの安定性を高めることによって管理される。 さらに,FedAvgMアグリゲーションアルゴリズムはFedAvgよりも優れており,非IIDデータセットではFedAvgMの方が安定性と性能が向上していることを示す。

The rapid proliferation of the Internet of Things (IoT) has ushered in transformative connectivity between physical devices and the digital realm. Nonetheless, the escalating threat of Distributed Denial of Service (DDoS) attacks jeopardizes the integrity and reliability of IoT networks. Conventional DDoS mitigation approaches are ill-equipped to handle the intricacies of IoT ecosystems, potentially compromising data privacy. This paper introduces an innovative strategy to bolster the security of IoT networks against DDoS attacks by harnessing the power of Federated Learning that allows multiple IoT devices or edge nodes to collaboratively build a global model while preserving data privacy and minimizing communication overhead. The research aims to investigate Federated Learning's effectiveness in detecting and mitigating DDoS attacks in IoT. Our proposed framework leverages IoT devices' collective intelligence for real-time attack detection without compromising sensitive data. This study proposes innovative deep autoencoder approaches for data dimensionality reduction, retraining, and partial selection to enhance the performance and stability of the proposed model. Additionally, two renowned aggregation algorithms, FedAvg and FedAvgM, are employed in this research. Various metrics, including true positive rate, false positive rate, and F1-score, are employed to evaluate the model. The dataset utilized in this research, N-BaIoT, exhibits non-IID data distribution, where data categories are distributed quite differently. The negative impact of these distribution disparities is managed by employing retraining and partial selection techniques, enhancing the final model's stability. Furthermore, evaluation results demonstrate that the FedAvgM aggregation algorithm outperforms FedAvg, indicating that in non-IID datasets, FedAvgM provides better stability and performance.
翻訳日:2024-03-19 20:46:34 公開日:2024-03-16
# 任意のN-党系における3つの状態の強非局所集合の存在

Existence of strongly nonlocal sets of three states in any N-partite system ( http://arxiv.org/abs/2403.10969v1 )

ライセンス: Link先を確認
Zong-Xing Xiong, Mao-Sheng Li, (参考訳) 強い非局所性の概念は、サブシステムの各二分割にまたがる直交多部量子状態の集合の局所的既約性を意味し、Halder et al によって [Phys. Rev. Lett. 122, 040403 (2019)] において提唱された。 ここでは、(C^2)^{\otimes N} における3つの直交量子状態の存在を示す。 具体的には、これら3つの状態はすべて真に絡み合っていて、そのうちの2つはN-量子GHZ対である。 局所的に区別できない3つの状態は常に局所的に既約であるため、3つのN-部分的直交状態は強く非局所的である。 したがって、ここでの強非局所集合のキャリダリティは、すべての既知の集合よりも劇的に小さい。

The notion of strong nonlocality, which refers to local irreducibility of a set of orthogonal multipartite quantum states across each bipartition of the subsystems, was put forward by Halder et al. in [Phys. Rev. Lett. 122, 040403 (2019)]. Here, we show the existence of three orthogonal quantum states in (C^2)^{\otimes N} that cannot be perfectly distinguished locally across any bipartition of the subsystems. Specifically, all these three states are genuinely entangled, among which two are the N-qubit GHZ pairs. Since any three locally indistinguishable states are always locally irreducible, the three N-partite orthogonal states we present are strongly nonlocal. Thus, the caridnality of strongly nonlocal sets here is dramatically smaller than all known ones.
翻訳日:2024-03-19 20:46:34 公開日:2024-03-16
# セグメンテーションモデルにおけるタスク対応低ランク適応

Task-Aware Low-Rank Adaptation of Segment Anything Model ( http://arxiv.org/abs/2403.10971v1 )

ライセンス: Link先を確認
Xuehao Wang, Feiyang Ye, Yu Zhang, (参考訳) SAM(Segment Anything Model)は、画像分割タスクの強力な基盤モデルであることが証明されており、コンピュータビジョンにおいて重要な課題である。 しかし、そのリッチなセマンティック情報を複数の下流タスクに転送することは、まだ探索されていない。 本稿では、SAMをマルチタスク学習の基礎モデルとして機能させるタスク対応低ランク適応(TA-LoRA)手法を提案する。 具体的には、TA-LoRAはSAMのエンコーダの各層に更新パラメータテンソルを注入し、低ランクテンソル分解法を利用してタスク共有情報とタスク固有情報の両方を組み込む。 さらに,マルチタスク学習のための改良SAM(mSAM)を導入し,SAMのプロンプトエンコーダを除去し,タスクごとにマスク埋め込みやマスクデコーダを使用できるようにする。 ベンチマークデータセットを用いた大規模な実験は、複数の下流タスクにおけるmSAMの性能向上におけるTA-LoRAの有効性を裏付けるものである。

The Segment Anything Model (SAM), with its remarkable zero-shot capability, has been proven to be a powerful foundation model for image segmentation tasks, which is an important task in computer vision. However, the transfer of its rich semantic information to multiple different downstream tasks remains unexplored. In this paper, we propose the Task-Aware Low-Rank Adaptation (TA-LoRA) method, which enables SAM to work as a foundation model for multi-task learning. Specifically, TA-LoRA injects an update parameter tensor into each layer of the encoder in SAM and leverages a low-rank tensor decomposition method to incorporate both task-shared and task-specific information. Furthermore, we introduce modified SAM (mSAM) for multi-task learning where we remove the prompt encoder of SAM and use task-specific no mask embeddings and mask decoder for each task. Extensive experiments conducted on benchmark datasets substantiate the efficacy of TA-LoRA in enhancing the performance of mSAM across multiple downstream tasks.
翻訳日:2024-03-19 20:46:34 公開日:2024-03-16
# ラベル付きダンピングケースを用いたエンティティアライメント

Entity Alignment with Unlabeled Dangling Cases ( http://arxiv.org/abs/2403.10978v1 )

ライセンス: Link先を確認
Hang Yin, Dong Ding, Liyao Xiang, Yuheng He, Yihan Wu, Xinbing Wang, Chenghu Zhou, (参考訳) 我々は、ラベルのないダングリングケースによるエンティティアライメントの問題について検討する。つまり、ソースグラフやターゲットグラフには、もう一方のエンティティを持たないエンティティが存在し、それらのエンティティはラベル付けされていないままである。 この問題は、ソースグラフとターゲットグラフが異なるスケールであるときに起こり、マッチ可能なペアをダングリングエンティティよりもずっと安くラベル付けることができる。 そこで本研究では,新しいGNNに基づくダングリング検出とエンティティアライメントフレームワークを提案する。 2つのタスクは同じGNNを共有し、一緒に訓練されるが、検出されたダングリングエンティティはアライメントで削除される。 本フレームワークは,表現学習における選択的近傍集約のための設計された実体と関係性注意機構と,非偏見的実体推定のための正の未ラベル学習損失を特徴とする。 実験結果から,ベースラインがトレーニングデータとしてラベル付けされたダングリングエンティティの30%を付加しても,設計の各コンポーネントがベースラインに匹敵するあるいは優越するアライメント性能に寄与することが判明した。

We investigate the entity alignment problem with unlabeled dangling cases, meaning that there are entities in the source or target graph having no counterparts in the other, and those entities remain unlabeled. The problem arises when the source and target graphs are of different scales, and it is much cheaper to label the matchable pairs than the dangling entities. To solve the issue, we propose a novel GNN-based dangling detection and entity alignment framework. While the two tasks share the same GNN and are trained together, the detected dangling entities are removed in the alignment. Our framework is featured by a designed entity and relation attention mechanism for selective neighborhood aggregation in representation learning, as well as a positive-unlabeled learning loss for an unbiased estimation of dangling entities. Experimental results have shown that each component of our design contributes to the overall alignment performance which is comparable or superior to baselines, even if the baselines additionally have 30\% of the dangling entities labeled as training data.
翻訳日:2024-03-19 20:46:34 公開日:2024-03-16
# 光センサを用いた近接場MIMOレーダの自動空間校正

Automatic Spatial Calibration of Near-Field MIMO Radar With Respect to Optical Sensors ( http://arxiv.org/abs/2403.10981v1 )

ライセンス: Link先を確認
Vanessa Wirth, Johanna Bräunig, Danti Khouri, Florian Gutsche, Martin Vossiek, Tim Weyrich, Marc Stamminger, (参考訳) MIMOレーダーへの関心が高まりつつあるにもかかわらず、光学センサと組み合わせた補完強度の利用は、近接場における相互センサの校正による課題のため、これまでは遠距離場に限られてきた。 実際、自律産業におけるほとんどの関連するアプローチは、近距離場に不適であることが証明されたコーナーリフレクタを用いたターゲットベースキャリブレーション手法を提案する。 対照的に,光学RGB-DセンサとMIMOレーダの連接校正手法を提案する。 我々のパイプラインは、自動目標検出と位置決めが可能なベスポークキャリブレーションターゲットと、ターゲット登録による2つのセンサ座標系の空間キャリブレーションで構成される。 我々は光学領域から2つの異なる深度センシング技術を用いてアプローチを検証する。 実験により, 種々の目標変位に対する校正の効率と精度, 信号のあいまいさの観点からの局所化の頑健さが示された。

Despite an emerging interest in MIMO radar, the utilization of its complementary strengths in combination with optical sensors has so far been limited to far-field applications, due to the challenges that arise from mutual sensor calibration in the near field. In fact, most related approaches in the autonomous industry propose target-based calibration methods using corner reflectors that have proven to be unsuitable for the near field. In contrast, we propose a novel, joint calibration approach for optical RGB-D sensors and MIMO radars that is designed to operate in the radar's near-field range, within decimeters from the sensors. Our pipeline consists of a bespoke calibration target, allowing for automatic target detection and localization, followed by the spatial calibration of the two sensor coordinate systems through target registration. We validate our approach using two different depth sensing technologies from the optical domain. The experiments show the efficiency and accuracy of our calibration for various target displacements, as well as its robustness of our localization in terms of signal ambiguities.
翻訳日:2024-03-19 20:46:34 公開日:2024-03-16
# OMG:拡散モデルにおけるオクルージョンフレンドリーなパーソナライズされたマルチコンセプト生成

OMG: Occlusion-friendly Personalized Multi-concept Generation in Diffusion Models ( http://arxiv.org/abs/2403.10983v1 )

ライセンス: Link先を確認
Zhe Kong, Yong Zhang, Tianyu Yang, Tao Wang, Kaihao Zhang, Bizhu Wu, Guanying Chen, Wei Liu, Wenhan Luo, (参考訳) パーソナライゼーションはテキスト・ツー・イメージ生成において重要なトピックであり、特に難解なマルチコンセプトパーソナライゼーションである。 現在のマルチコンセプト手法は, 身元確認, 閉塞, 前景と背景の調和に苦慮している。 そこで本研究では,複数の概念をシームレスに1つの画像に統合するオクルージョン・フレンドリなパーソナライズド・ジェネレーション・フレームワークOMGを提案する。 本稿では,新しい2段階サンプリング法を提案する。 第1段階は、オクルージョンを扱うためのレイアウト生成と視覚的理解情報収集を担当する。 2つ目は、取得した視覚的理解情報と設計したノイズブレンディングを利用して、オクルージョンを考慮しつつ複数の概念を統合することである。 また、ノイズブレンディングの開始時刻がアイデンティティの保存とレイアウトの鍵となることも観察した。 さらに本手法は,LoRAやInstantIDなどの単一概念モデルと組み合わせることができる。 特にcivitai.comのLoRAモデルは直接利用することができる。 OMGは多概念パーソナライゼーションにおいて優れた性能を示した。

Personalization is an important topic in text-to-image generation, especially the challenging multi-concept personalization. Current multi-concept methods are struggling with identity preservation, occlusion, and the harmony between foreground and background. In this work, we propose OMG, an occlusion-friendly personalized generation framework designed to seamlessly integrate multiple concepts within a single image. We propose a novel two-stage sampling solution. The first stage takes charge of layout generation and visual comprehension information collection for handling occlusions. The second one utilizes the acquired visual comprehension information and the designed noise blending to integrate multiple concepts while considering occlusions. We also observe that the initiation denoising timestep for noise blending is the key to identity preservation and layout. Moreover, our method can be combined with various single-concept models, such as LoRA and InstantID without additional tuning. Especially, LoRA models on civitai.com can be exploited directly. Extensive experiments demonstrate that OMG exhibits superior performance in multi-concept personalization.
翻訳日:2024-03-19 20:46:34 公開日:2024-03-16
# IoTCO2:インターネット・オブ・Things-Enabled Deep Learningのエンドツーエンドのカーボンフットプリントを評価する

IoTCO2: Assessing the End-To-End Carbon Footprint of Internet-of-Things-Enabled Deep Learning ( http://arxiv.org/abs/2403.10984v1 )

ライセンス: Link先を確認
Ahmad Faiz, Shahzeen Attari, Gayle Buck, Fan Chen, Lei Jiang, (参考訳) プライバシを改善し、サービス品質(QoS)を保証するため、ディープラーニング(DL)モデルは、データ処理のためにIoT(Internet of Things)デバイスにますますデプロイされ、IoT上のDLに関連する炭素フットプリントが大幅に増加し、運用面と実施面の両方をカバーする。 既存の運用エネルギー予測器は、量子化されたDLモデルと新しいニューラル処理ユニット(NPU)を見落としていることが多いが、具体化されたカーボンフットプリントモデリングツールは、IoTデバイスに共通する非計算ハードウェアコンポーネントを無視し、IoT対応のDLのための正確なカーボンフットプリントモデリングツールのギャップを生じさせている。 本稿では,IoT 対応 DL における正確な炭素フットプリント推定のためのエンドツーエンドモデリングツールである \textit{\carb} を紹介し,様々な DL モデルにおける実測値と比較して,最大で$\pm21\% の炭素フットプリント値の偏差を示す。 さらに、複数のユーザケーススタディを通じて、実践的な \carb の応用が紹介されている。

To improve privacy and ensure quality-of-service (QoS), deep learning (DL) models are increasingly deployed on Internet of Things (IoT) devices for data processing, significantly increasing the carbon footprint associated with DL on IoT, covering both operational and embodied aspects. Existing operational energy predictors often overlook quantized DL models and emerging neural processing units (NPUs), while embodied carbon footprint modeling tools neglect non-computing hardware components common in IoT devices, creating a gap in accurate carbon footprint modeling tools for IoT-enabled DL. This paper introduces \textit{\carb}, an end-to-end modeling tool for precise carbon footprint estimation in IoT-enabled DL, demonstrating a maximum $\pm21\%$ deviation in carbon footprint values compared to actual measurements across various DL models. Additionally, practical applications of \carb are showcased through multiple user case studies.
翻訳日:2024-03-19 20:46:34 公開日:2024-03-16
# 量子力学と有限オートマタによるグラフ容量のバウンディング

Bounding the Graph Capacity with Quantum Mechanics and Finite Automata ( http://arxiv.org/abs/2403.10985v1 )

ライセンス: Link先を確認
Alexander Meiburg, (参考訳) チャネル(あるいはグラフのシャノン容量)のゼロエラー容量は、エラーのリスクなしに、どれだけの情報を送信できるかを定量化する。 チャネルのシャノンキャパシティとは対照的に、ゼロエラーキャパシティは計算可能であることも示されていない。 本研究では,新しい量であるゼロエラー単位容量を示し,量子ゲームのテンソル積値として簡潔に表現できることを示す。 有限オートマトンの構造を研究することにより、ユニタリキャパシティがゼロエラーキャパシティの制御可能な要素内にあることを示す。 これにより、ゲームの可換作用素値に収束する2乗階数階層による新しい上界化が可能になる。 このゲームの可換作用素とテンソル積値が等しいという予想の下では、ゼロエラー能力を計算するアルゴリズムが得られる。

The zero-error capacity of a channel (or Shannon capacity of a graph) quantifies how much information can be transmitted with no risk of error. In contrast to the Shannon capacity of a channel, the zero-error capacity has not even been shown to be computable: we have no convergent upper bounds. In this work, we present a new quantity, the zero-error {\em unitary} capacity, and show that it can be succinctly represented as the tensor product value of a quantum game. By studying the structure of finite automata, we show that the unitary capacity is within a controllable factor of the zero-error capacity. This allows new upper bounds through the sum-of-squares hierarchy, which converges to the commuting operator value of the game. Under the conjecture that the commuting operator and tensor product value of this game are equal, this would yield an algorithm for computing the zero-error capacity.
翻訳日:2024-03-19 20:46:34 公開日:2024-03-16
# 先行学習によるフローベース生成超解法モデルの構築

Boosting Flow-based Generative Super-Resolution Models via Learned Prior ( http://arxiv.org/abs/2403.10988v1 )

ライセンス: Link先を確認
Li-Yuan Tsao, Yi-Chen Lo, Chia-Che Chang, Hao-Wei Chen, Roy Tseng, Chien Feng, Chun-Yi Lee, (参考訳) フローベース超解像(SR)モデルは、高品質な画像を生成する際に驚くべき能力を示した。 しかし、これらの手法は、グリッドアーティファクト、爆発する逆数、固定サンプリング温度による最適以下の結果など、画像生成においていくつかの課題に直面している。 これらの問題を克服するために、フローベースSRモデルの推論フェーズに先立って学習された条件を導入する。 この前者は,低解像度画像上に条件付き潜在モジュールによって予測された潜時符号であり,フローモデルによりSR画像に変換される。 我々のフレームワークは、アーキテクチャや事前訓練された重量を変更することなく、現代のフローベースSRモデルとシームレスに統合するように設計されている。 提案手法の有効性を,広範囲な実験とアブレーション解析により評価した。 提案するフレームワークは,フローベースSRモデルに固有のすべての問題に対処し,様々なSRシナリオにおける性能を向上させる。 私たちのコードは、https://github.com/liyuantsao/FlowSR-LPで利用可能です。

Flow-based super-resolution (SR) models have demonstrated astonishing capabilities in generating high-quality images. However, these methods encounter several challenges during image generation, such as grid artifacts, exploding inverses, and suboptimal results due to a fixed sampling temperature. To overcome these issues, this work introduces a conditional learned prior to the inference phase of a flow-based SR model. This prior is a latent code predicted by our proposed latent module conditioned on the low-resolution image, which is then transformed by the flow model into an SR image. Our framework is designed to seamlessly integrate with any contemporary flow-based SR model without modifying its architecture or pre-trained weights. We evaluate the effectiveness of our proposed framework through extensive experiments and ablation analyses. The proposed framework successfully addresses all the inherent issues in flow-based SR models and enhances their performance in various SR scenarios. Our code is available at: https://github.com/liyuantsao/FlowSR-LP
翻訳日:2024-03-19 20:46:34 公開日:2024-03-16
# 強駆動限界における欠陥軌道状態のコヒーレント音響制御

Coherent Acoustic Control of Defect Orbital States in the Strong-Driving Limit ( http://arxiv.org/abs/2403.10989v1 )

ライセンス: Link先を確認
B. A. McCullian, V. Sharma, H. Y. Chen, J. C. Crossman, E. J. Mueller, G. D. Fuchs, (参考訳) 我々はバルク音響共振器を用いて、低温におけるダイヤモンド窒素空洞(NV)中心における励起軌道状態のコヒーレント制御を実証する。 コヒーレント量子制御は、デコヒーレンスを理解し緩和するための重要なツールである。 さらに、軌道状態の特徴付けと制御は、光コヒーレンスと軌道コヒーレンスが結びついている量子ネットワークにおける中心的な課題である。 周波数領域と時間領域の共振型マルチフォノン軌道Rabi振動について検討し,軌道-フォノン相互作用の強度と音響駆動軌道状態のコヒーレンスを抽出した。 我々は、音波によって引き起こされる結合によって物理が支配される強い運転限界に達する。 我々は、我々の測定値、量子マスター方程式シミュレーション、および強い運転限界におけるランダウ・ツェナー遷移モデルとの一致を見出した。 摂動理論を用いて、駆動強度が非摂動的な軌道Rabi周波数と音響駆動強度の表現を導出し、全ての音響パワーの測定値とよく一致する。 連続波スピン共鳴に基づくデコヒーレンス保護法により, 軌道デコヒーレンスをモデル化し, 測定した数ナノ秒間におけるデコヒーレンス時間との良好な一致を求める。 軌道デコヒーレンス保護の展望について論じる。

We use a bulk acoustic wave resonator to demonstrate coherent control of the excited orbital states in a diamond nitrogen-vacancy (NV) center at cryogenic temperature. Coherent quantum control is an essential tool for understanding and mitigating decoherence. Moreover, characterizing and controlling orbital states is a central challenge for quantum networking, where optical coherence is tied to orbital coherence. We study resonant multi-phonon orbital Rabi oscillations in both the frequency and time domain, extracting the strength of the orbital-phonon interactions and the coherence of the acoustically driven orbital states. We reach the strong-driving limit, where the physics is dominated by the coupling induced by the acoustic waves. We find agreement between our measurements, quantum master equation simulations, and a Landau-Zener transition model in the strong-driving limit. Using perturbation theory, we derive an expression for the orbital Rabi frequency versus acoustic drive strength that is non-perturbative in the drive strength and agrees well with our measurements for all acoustic powers. Motivated by continuous wave spin resonance-based decoherence protection schemes, we model the orbital decoherence and find good agreement between our model and our measured few-to-several nanoseconds orbital decoherence times. We discuss the outlook for orbital decoherence protection.
翻訳日:2024-03-19 20:46:34 公開日:2024-03-16
# アンドレフ反射による$Δ_T$ノイズ

Andreev reflection mediated $Δ_T$ noise ( http://arxiv.org/abs/2403.10990v1 )

ライセンス: Link先を確認
Tusaradri Mohapatra, Colin Benjamin, (参考訳) 量子ノイズは、電流相関や波動-粒子双対性など、量子輸送の様々な側面を研究するために広く利用されている。 この分野で最近注目されているのは$\Delta_T$量子ノイズであり、これは電荷電流が消える際の温度差が有限であるからである。 本稿では,1次元金属/絶縁体/超伝導接合におけるショットノイズとサーマルノイズの寄与と合わせて,$\Delta_T$ノイズ自動相関の特性について検討する。 貯水池に適用バイアスがゼロとなる有限温度勾配を, 比較温度で検討した。 アンドレーフ反射は、透過限界における金属絶縁体-超伝導接合とは対照的に、金属絶縁体-超伝導接合における$\Delta_T$ノイズを高める。 ショットノイズが大きなバイアス電圧と有限バリア強度で熱ノイズを支配している量子ノイズとは異なり、$\Delta_T$熱ノイズは常に$\Delta_T$ショットノイズよりも高い。 これによりバリア強度とは無関係な一般境界が確立される。 この調査は、ショットノイズとサーマルノイズの比と共に、$\Delta_T$ノイズの異なる挙動について光を当て、有限温度勾配、バリア強度、アンドリーフ反射の間の複雑な相互作用に関する貴重な洞察を提供する。

Quantum noise has been extensively utilized to investigate various aspects of quantum transport, such as current-current correlations and wave-particle duality. A recent focus in this field is on $\Delta_T$ quantum noise, which arises because of a finite temperature difference at vanishing charge current. This paper explores the characterization of $\Delta_T$ noise auto-correlation alongside the shot noise and thermal-noise contributions in a 1D metal/insulator/superconductor junction. We consider a finite temperature gradient with zero applied bias for reservoirs at comparable temperatures. Andreev reflection enhances the $\Delta_T$ noise in a metal-insulator-superconductor junction in contrast to a metal-insulator-superconductor junction in the transparent limit. Unlike quantum noise for which shot-noise dominates thermal-noise at large bias voltages and finite barrier strength, $\Delta_T$ thermal-noise is always higher than $\Delta_T$ shot-noise. Thus, a general bound that is independent of barrier strength is established. This investigation sheds light on the distinct behavior of $\Delta_T$ noise, alongside the ratio of shot-noise to thermal-noise contributions, offering valuable insights into the intricate interplay between finite temperature gradient, barrier strength, and Andreev reflection.
翻訳日:2024-03-19 20:46:34 公開日:2024-03-16
# 特異値摂動を持つエッジプライベートグラフニューラルネットワーク

Edge Private Graph Neural Networks with Singular Value Perturbation ( http://arxiv.org/abs/2403.10995v1 )

ライセンス: Link先を確認
Tingting Tang, Yue Niu, Salman Avestimehr, Murali Annavaram, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データから表現を学習する上で重要な役割を担い、多くのアプリケーションで有用であることが示されている。 しかし、GNNトレーニングパイプラインはノード機能のリークやエッジ抽出攻撃に対して脆弱であることが示されている。 本稿では,訓練されたGNNモデルから,攻撃者がプライベートエッジ情報を復元することを目的としたシナリオについて検討する。 従来の研究では、隣接行列やコンパクトグラフ表現に直接ノイズを加えるために差分プライバシー(DP)が用いられてきた。 追加の摂動はグラフ構造を実質的に変形させ、モデルの有用性を低下させる。 我々は、エッジ上で強力なプライバシ保護を提供しながら、優れたモデルユーティリティを維持する、新しいプライバシ保護GNNトレーニングアルゴリズムであるEclipseを提案する。 Eclipseは2つの重要な観察に基づいています。 まず、グラフ構造の隣接行列は低ランクな振る舞いを示す。 従ってEclipseは、元のグラフではなく特異値分解(SVD)を通じて、グラフの低ランクフォーマットでGNNを訓練する。 低ランクのフォーマットを使用することで、Eclipseは主要なグラフトポロジを保持し、残りの残余のエッジを削除する。 Eclipseはグラフ全体ではなく、低ランクの特異値にノイズを追加し、グラフのプライバシを保ちながら、モデルユーティリティを維持するのに十分なグラフ構造を維持します。 理論的には、Eclipseはエッジに対して正式なDP保証を提供します。 ベンチマークグラフデータセットの実験では、Eclipseは既存のプライバシ保存GNNトレーニングメソッドに比べて、はるかに優れたプライバシとユーティリティのトレードオフを実現している。 特に、強力なプライバシ制約($\epsilon$ < 4)の下では、Eclipseはモデルユーティリティで最大46%大きな利益を上げている。 さらに、Eclipseは共通のエッジアタック(LPAなど)に対するレジリエンスも向上しており、他の最先端のベースラインと比較して、AUCを最大5%低下させています。

Graph neural networks (GNNs) play a key role in learning representations from graph-structured data and are demonstrated to be useful in many applications. However, the GNN training pipeline has been shown to be vulnerable to node feature leakage and edge extraction attacks. This paper investigates a scenario where an attacker aims to recover private edge information from a trained GNN model. Previous studies have employed differential privacy (DP) to add noise directly to the adjacency matrix or a compact graph representation. The added perturbations cause the graph structure to be substantially morphed, reducing the model utility. We propose a new privacy-preserving GNN training algorithm, Eclipse, that maintains good model utility while providing strong privacy protection on edges. Eclipse is based on two key observations. First, adjacency matrices in graph structures exhibit low-rank behavior. Thus, Eclipse trains GNNs with a low-rank format of the graph via singular values decomposition (SVD), rather than the original graph. Using the low-rank format, Eclipse preserves the primary graph topology and removes the remaining residual edges. Eclipse adds noise to the low-rank singular values instead of the entire graph, thereby preserving the graph privacy while still maintaining enough of the graph structure to maintain model utility. We theoretically show Eclipse provide formal DP guarantee on edges. Experiments on benchmark graph datasets show that Eclipse achieves significantly better privacy-utility tradeoff compared to existing privacy-preserving GNN training methods. In particular, under strong privacy constraints ($\epsilon$ < 4), Eclipse shows significant gains in the model utility by up to 46%. We further demonstrate that Eclipse also has better resilience against common edge attacks (e.g., LPA), lowering the attack AUC by up to 5% compared to other state-of-the-art baselines.
翻訳日:2024-03-19 20:36:44 公開日:2024-03-16
# マルチエージェント強化学習システムの持続可能Sim2Real遷移のための拡張性と並列化可能なディジタルツインフレームワーク

A Scalable and Parallelizable Digital Twin Framework for Sustainable Sim2Real Transition of Multi-Agent Reinforcement Learning Systems ( http://arxiv.org/abs/2403.10996v1 )

ライセンス: Link先を確認
Chinmay Vilas Samak, Tanmay Vilas Samak, Venkat Krovi, (参考訳) 本研究は、並列化されたトレーニングワークロードをオンデマンドで選択的にスケーリングし、最小限のハードウェアリソースを使用して、トレーニングされたポリシをシミュレーションから現実へ移行可能な、持続可能なマルチエージェント深層強化学習フレームワークを提案する。 我々は,AutoDRIVEエコシステムを,シミュレーションから現実への競争力のあるマルチエージェント強化学習ポリシと同様に,デジタルツインフレームワークによる協調の訓練,展開,転送を可能にするものとして紹介する。 特に,コモン・ポリシー・アプローチを用いたマルチエージェント・ラーニング・セッティングとともに,限られた状態情報を共有する4台の協力車(ナイジェル)の交差点トラバース問題について検討した。 次に、個別の政策アプローチを用いて、2台の車両(F1TENTH)の対向自律レース問題について検討する。 いずれの実験でも、分散学習アーキテクチャが採用され、確率的環境におけるポリシーの堅牢なトレーニングとテストを可能にした。 エージェントは現実的に疎らな観測空間を備えており、強制されたキノダイナミックおよび安全制約を暗黙的に満たすサンプル制御行動に制限されていた。 両問題ステートメントの実験結果は、定量的な測定値と、トレーニングのための定性的な発言、およびデプロイメントフェーズの観点から報告される。 また,MARL学習を効率的に高速化するエージェントと環境並列化手法についても検討し,その計算性能を解析した。 最後に、提案したデジタルツインフレームワークを用いて、トレーニング済みポリシーのシミュレーションから現実への移行を実演する。

This work presents a sustainable multi-agent deep reinforcement learning framework capable of selectively scaling parallelized training workloads on-demand, and transferring the trained policies from simulation to reality using minimal hardware resources. We introduce AutoDRIVE Ecosystem as an enabling digital twin framework to train, deploy, and transfer cooperative as well as competitive multi-agent reinforcement learning policies from simulation to reality. Particularly, we first investigate an intersection traversal problem of 4 cooperative vehicles (Nigel) that share limited state information in single as well as multi-agent learning settings using a common policy approach. We then investigate an adversarial autonomous racing problem of 2 vehicles (F1TENTH) using an individual policy approach. In either set of experiments, a decentralized learning architecture was adopted, which allowed robust training and testing of the policies in stochastic environments. The agents were provided with realistically sparse observation spaces, and were restricted to sample control actions that implicitly satisfied the imposed kinodynamic and safety constraints. The experimental results for both problem statements are reported in terms of quantitative metrics and qualitative remarks for training as well as deployment phases. We also discuss agent and environment parallelization techniques adopted to efficiently accelerate MARL training, while analyzing their computational performance. Finally, we demonstrate a resource-aware transition of the trained policies from simulation to reality using the proposed digital twin framework.
翻訳日:2024-03-19 20:36:44 公開日:2024-03-16
# N2F2:Nested Neural Feature Fieldsを用いた階層的シーン理解

N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields ( http://arxiv.org/abs/2403.10997v1 )

ライセンス: Link先を確認
Yash Bhalgat, Iro Laina, João F. Henriques, Andrew Zisserman, Andrea Vedaldi, (参考訳) 複数のレベルの抽象化で複雑なシーンを理解することは、コンピュータビジョンにおいて非常に難しい課題である。 この問題に対処するため,Nested Neural Feature Fields (N2F2) を導入し, 階層的監視を用いて単一特徴場を学習する手法を提案する。 本手法は, 物理的次元や意味論, あるいはその両方に適した階層の柔軟な定義を可能にし, シーンの包括的かつ曖昧な理解を可能にする。 画像空間の任意のスケールで意味論的に意味のある画素群を提供するために2次元クラス非依存セグメンテーションモデルを利用し、CLIPビジョンエンコーダにこれらのセグメンテーション毎に言語対応の埋め込みを求める。 提案手法は,様々な物理スケールで遅延ボリュームレンダリングを用いてCLIP埋め込みを蒸留し,粗い粒度表現を生成する。 開語彙3次元分節化や局所化といったタスクにおいて,本手法は最先端の特徴体蒸留法よりも優れており,学習したネストした特徴体の有効性が示された。

Understanding complex scenes at multiple levels of abstraction remains a formidable challenge in computer vision. To address this, we introduce Nested Neural Feature Fields (N2F2), a novel approach that employs hierarchical supervision to learn a single feature field, wherein different dimensions within the same high-dimensional feature encode scene properties at varying granularities. Our method allows for a flexible definition of hierarchies, tailored to either the physical dimensions or semantics or both, thereby enabling a comprehensive and nuanced understanding of scenes. We leverage a 2D class-agnostic segmentation model to provide semantically meaningful pixel groupings at arbitrary scales in the image space, and query the CLIP vision-encoder to obtain language-aligned embeddings for each of these segments. Our proposed hierarchical supervision method then assigns different nested dimensions of the feature field to distill the CLIP embeddings using deferred volumetric rendering at varying physical scales, creating a coarse-to-fine representation. Extensive experiments show that our approach outperforms the state-of-the-art feature field distillation methods on tasks such as open-vocabulary 3D segmentation and localization, demonstrating the effectiveness of the learned nested feature field.
翻訳日:2024-03-19 20:36:44 公開日:2024-03-16
# 医用画像におけるトポロジカルに忠実なマルチクラスセグメンテーション

Topologically faithful multi-class segmentation in medical images ( http://arxiv.org/abs/2403.11001v1 )

ライセンス: Link先を確認
Alexander H. Berger, Nico Stucki, Laurin Lux, Vincent Buergin, Suprosanna Shit, Anna Banaszak, Daniel Rueckert, Ulrich Bauer, Johannes C. Paetzold, (参考訳) 医用画像セグメンテーションにおけるトポロジ的精度は、ネットワーク解析や血管内のフローモデリング、セルカウントといった下流アプリケーションにとって非常に重要な特性である。 近年、重要な方法論の進歩は代数的トポロジーからバイナリセグメンテーションへとしっかりと根ざした概念をもたらした。 しかし、これらのアプローチは、トポロジカルエラーが一般的であるマルチクラスセグメンテーションのシナリオにおいて過小評価されている。 本稿では,近年のベッチマッチングの概念を拡張したトポロジカルに忠実なマルチクラスセグメンテーションのための一般損失関数を提案する。 我々はNクラス分割問題をNクラス分割タスクに投射し、1パラメータの永続的ホモロジーを用いてニューラルネットワークのトレーニングを計算可能とした。 提案手法を,高度に変動する位相特性を持つ4つの医学データセットの包括的集合上で検証する。 心筋, 細胞, 動脈静脈, およびWillisセグメンテーションの局所的正当性は, 著明に向上する。

Topological accuracy in medical image segmentation is a highly important property for downstream applications such as network analysis and flow modeling in vessels or cell counting. Recently, significant methodological advancements have brought well-founded concepts from algebraic topology to binary segmentation. However, these approaches have been underexplored in multi-class segmentation scenarios, where topological errors are common. We propose a general loss function for topologically faithful multi-class segmentation extending the recent Betti matching concept, which is based on induced matchings of persistence barcodes. We project the N-class segmentation problem to N single-class segmentation tasks, which allows us to use 1-parameter persistent homology making training of neural networks computationally feasible. We validate our method on a comprehensive set of four medical datasets with highly variant topological characteristics. Our loss formulation significantly enhances topological correctness in cardiac, cell, artery-vein, and Circle of Willis segmentation.
翻訳日:2024-03-19 20:36:44 公開日:2024-03-16
# グラフニューラルネットワークの前方学習

Forward Learning of Graph Neural Networks ( http://arxiv.org/abs/2403.11004v1 )

ライセンス: Link先を確認
Namyong Park, Xing Wang, Antoine Simoulin, Shuai Yang, Grey Yang, Ryan Rossi, Puja Trivedi, Nesreen Ahmed, (参考訳) グラフニューラルネットワーク(GNN)は、リコメンデーション、薬物発見、質問応答など、幅広いアプリケーションで顕著な成功を収めている。 GNNの成功の背後には、ディープニューラルネットワーク(NN)をトレーニングするデファクトスタンダードであるバックプロパゲーション(BP)アルゴリズムがある。 しかし、その有効性にもかかわらず、BPはいくつかの制約を課し、これは生物学的に理解できないだけでなく、NN学習のスケーラビリティ、並列性、柔軟性も制限している。 このような制約の例としては、後続の後方パスで使用する前方パスで計算された神経活動の保存、非局所的な信号に対するパラメータ更新の依存性などがある。 これらの制約に対処するため、画像分類領域におけるBPの代替としてフォワードフォワードアルゴリズム(FF)が提案されている。 この進歩に触発されて、我々はGNNのための新しい前方学習手法であるForwardGNNを提案する。 ForwardGNNは元々のFFを拡張してグラフデータやGNNを扱う。 さらに、ForwardGNNは、エラーのバックプロパゲーションに頼ることなく、各レイヤがボトムアップ信号とトップダウン信号の両方から学習できるようにする。 実世界のデータセットに対する大規模な実験は、提案したフォワードグラフ学習フレームワークの有効性と汎用性を示している。 コードについてはhttps://github.com/facebookresearch/forwardgnn.comで公開しています。

Graph neural networks (GNNs) have achieved remarkable success across a wide range of applications, such as recommendation, drug discovery, and question answering. Behind the success of GNNs lies the backpropagation (BP) algorithm, which is the de facto standard for training deep neural networks (NNs). However, despite its effectiveness, BP imposes several constraints, which are not only biologically implausible, but also limit the scalability, parallelism, and flexibility in learning NNs. Examples of such constraints include storage of neural activities computed in the forward pass for use in the subsequent backward pass, and the dependence of parameter updates on non-local signals. To address these limitations, the forward-forward algorithm (FF) was recently proposed as an alternative to BP in the image classification domain, which trains NNs by performing two forward passes over positive and negative data. Inspired by this advance, we propose ForwardGNN in this work, a new forward learning procedure for GNNs, which avoids the constraints imposed by BP via an effective layer-wise local forward training. ForwardGNN extends the original FF to deal with graph data and GNNs, and makes it possible to operate without generating negative inputs (hence no longer forward-forward). Further, ForwardGNN enables each layer to learn from both the bottom-up and top-down signals without relying on the backpropagation of errors. Extensive experiments on real-world datasets show the effectiveness and generality of the proposed forward graph learning framework. We release our code at https://github.com/facebookresearch/forwardgnn.
翻訳日:2024-03-19 20:36:44 公開日:2024-03-16
# MASSM:画像から直接多解剖学的統計的形状モデリングのためのエンドツーエンドディープラーニングフレームワーク

MASSM: An End-to-End Deep Learning Framework for Multi-Anatomy Statistical Shape Modeling Directly From Images ( http://arxiv.org/abs/2403.11008v1 )

ライセンス: Link先を確認
Janmesh Ukey, Tushar Kataria, Shireen Y. Elhabian, (参考訳) 統計的形状モデリング(SSM)は、集団内の解剖学的変動を定量的に分析するための有効な方法である。 しかし、その実用性は、医療専門家の少ない専門知識に依存する、解剖学のマニュアルセグメンテーションの必要性によって制限されている。 近年のディープラーニングの進歩は、未分類画像から統計的表現を自動的に生成する有望なアプローチをもたらした。 トレーニングが終わると、これらのディープラーニングベースのモデルは、新しい科目のための手動セグメンテーションの必要性を排除します。 しかしながら、現在のほとんどの手法では、イメージボリュームを手動で事前調整し、推論に先立ってターゲット解剖の周囲にバウンディングボックスを指定する必要があるため、一部手動の推論プロセスが生じる。 最近のアプローチは解剖学的局所化を促進するが、人口レベルでの統計的表現を見積もるだけである。 しかし、画像に直接解剖を記述することはできず、単一の解剖学をモデル化することに限定されている。 本稿では,画像内の複数の解剖を同時にローカライズし,人口レベルの統計表現を推定し,各解剖を列挙する新しいエンドツーエンドディープラーニングフレームワークMASSMを紹介する。 本研究は, 医用画像タスクにおいて, より優れた形状情報の提供に欠かせない, 局所的対応の重要性を強調した。

Statistical Shape Modeling (SSM) is an effective method for quantitatively analyzing anatomical variations within populations. However, its utility is limited by the need for manual segmentations of anatomies, a task that relies on the scarce expertise of medical professionals. Recent advances in deep learning have provided a promising approach that automatically generates statistical representations from unsegmented images. Once trained, these deep learning-based models eliminate the need for manual segmentation for new subjects. Nonetheless, most current methods still require manual pre-alignment of image volumes and specifying a bounding box around the target anatomy prior for inference, resulting in a partially manual inference process. Recent approaches facilitate anatomy localization but only estimate statistical representations at the population level. However, they cannot delineate anatomy directly in images and are limited to modeling a single anatomy. Here, we introduce MASSM, a novel end-to-end deep learning framework that simultaneously localizes multiple anatomies in an image, estimates population-level statistical representations, and delineates each anatomy. Our findings emphasize the crucial role of local correspondences, showcasing their indispensability in providing superior shape information for medical imaging tasks.
翻訳日:2024-03-19 20:36:44 公開日:2024-03-16
# DIALECTBENCH: 方言、変種および近縁言語のためのNLPベンチマーク

DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages ( http://arxiv.org/abs/2403.11009v1 )

ライセンス: Link先を確認
Fahim Faisal, Orevaoghene Ahia, Aarohi Srivastava, Kabir Ahuja, David Chiang, Yulia Tsvetkov, Antonios Anastasopoulos, (参考訳) 言語技術は、実世界のユースケースにおけるそれらの有用性に基づいて判断されるべきである。 自然言語処理(NLP)の研究と評価において、しばしば見落とされがちな側面は、非標準方言または言語多様体(以下、変種)の形の言語変化である。 ほとんどのNLPベンチマークは標準言語に限られている。 このギャップを埋めるために、DIALECTBENCHを提案する。DIALECTBENCHは、NLPの多種多様なデータセット(281種類をカバーする10のテキストレベルタスク)を集約した、多様体上で初めての大規模ベンチマークである。 これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。 我々は,標準言語と非標準言語間の性能格差の相当な証拠を提供するとともに,タスク間の性能差が大きい言語クラスタも同定する。 我々は、DIALECTBENCHが言語品種のNLPの現状を包括的に把握し、さらに進むための一歩だと信じている。 コード/データ:https://github.com/ffaisal93/DialectBench

Language technologies should be judged on their usefulness in real-world use cases. An often overlooked aspect in natural language processing (NLP) research and evaluation is language variation in the form of non-standard dialects or language varieties (hereafter, varieties). Most NLP benchmarks are limited to standard language varieties. To fill this gap, we propose DIALECTBENCH, the first-ever large-scale benchmark for NLP on varieties, which aggregates an extensive set of task-varied variety datasets (10 text-level tasks covering 281 varieties). This allows for a comprehensive evaluation of NLP system performance on different language varieties. We provide substantial evidence of performance disparities between standard and non-standard language varieties, and we also identify language clusters with large performance divergence across tasks. We believe DIALECTBENCH provides a comprehensive view of the current state of NLP for language varieties and one step towards advancing it further. Code/data: https://github.com/ffaisal93/DialectBench
翻訳日:2024-03-19 20:36:44 公開日:2024-03-16
# 逐次投影のための改良されたアルゴリズムと境界

Improved Algorithm and Bounds for Successive Projection ( http://arxiv.org/abs/2403.11013v1 )

ライセンス: Link先を確認
Jiashun Jin, Zheng Tracy Ke, Gabriel Moryoussef, Jiajun Tang, Jingming Wang, (参考訳) $d$-次元空間における$K$-頂点単純点が与えられたとき、ノイズのある単純点上の$n$点を測ると仮定する(従って、観測された点のいくつかは単純点の外にある)。 頂点探索は、単純体の$K$頂点を推定する問題である。 一般的な頂点探索アルゴリズムは逐次投影アルゴリズム(SPA)である。 しかし、SPAは強い雑音や外周下では不満足に動作することが観察される。 擬似点SPA(pp-SPA)を提案する。 プロジェクションステップと denoise ステップを使用して擬似点を生成し、頂点狩りのためにSPAに供給する。 p-SPAの誤差境界を導出し、(おそらく)高次元ランダムベクトルの極値理論を利用する。 その結果, p-SPAはSPAよりも高速で, 数値性能が良好であることが示唆された。 我々の分析には、独立した関心を持つ元のSPAに対する非漸近的境界の改善が含まれている。

Given a $K$-vertex simplex in a $d$-dimensional space, suppose we measure $n$ points on the simplex with noise (hence, some of the observed points fall outside the simplex). Vertex hunting is the problem of estimating the $K$ vertices of the simplex. A popular vertex hunting algorithm is successive projection algorithm (SPA). However, SPA is observed to perform unsatisfactorily under strong noise or outliers. We propose pseudo-point SPA (pp-SPA). It uses a projection step and a denoise step to generate pseudo-points and feed them into SPA for vertex hunting. We derive error bounds for pp-SPA, leveraging on extreme value theory of (possibly) high-dimensional random vectors. The results suggest that pp-SPA has faster rates and better numerical performances than SPA. Our analysis includes an improved non-asymptotic bound for the original SPA, which is of independent interest.
翻訳日:2024-03-19 20:36:44 公開日:2024-03-16
# 不確かさ下での表現データから遺伝子調節ネットワークの魅力を識別する:解釈可能なアプローチ

Identifying the Attractors of Gene Regulatory Networks from Expression Data under Uncertainty: An Interpretable Approach ( http://arxiv.org/abs/2403.11015v1 )

ライセンス: Link先を確認
Alireza Rowhanimanesh, (参考訳) システム生物学において、遺伝子制御ネットワークのアトラクターランドスケープ解析は、増殖や分化から老化、アポトーシスまで様々な細胞状態を研究するための強力な計算ツールとして認識されている。 したがって、アトラクターの正確な同定は、細胞運命を決定する上で重要な役割を担っている。 一方、実際の生物学的回路では、遺伝的・エピジェネティックな変化と様々な環境要因が、その位置、特徴、さらにはアトラクションの数に大きく影響する。 真の遺伝子制御ネットワークの時間的遺伝子発現プロファイルが与えられた場合、多くの不確実性が存在する場合、どのようにアトラクタを堅牢に識別できるのか? 本稿では,Zadeh Computing with Wordsに基づく新しいアプローチを用いて,この問題に対処する。 提案手法は,ヒトの専門家が簡単に解釈できるファジィ論理と言語記述の両方の観点から,時間的遺伝子発現データからアトラクタを効果的に同定することができる。 したがって、この手法は人工知能を解釈するための効果的なステップとみなすことができる。 一般性を欠くことなく、遺伝子トグルスイッチをケーススタディとみなす。 このベンチマーク遺伝子制御ネットワークの非線形力学は、不確実な確率微分方程式の概念によって計算的にモデル化される。 In-silico studyの結果は,提案手法の効率性とロバスト性を示すものである。

In systems biology, attractor landscape analysis of gene regulatory networks is recognized as a powerful computational tool for studying various cellular states from proliferation and differentiation to senescence and apoptosis. Therefore, accurate identification of attractors plays a critical role in determination of the cell fates. On the other hand, in a real biological circuit, genetic/epigenetic alterations as well as varying environmental factors drastically take effect on the location, characteristics, and even the number of attractors. The central question is: Given a temporal gene expression profile of a real gene regulatory network, how can the attractors be robustly identified in the presence of huge amount of uncertainty? This paper addresses this question using a novel approach based on Zadeh Computing with Words. The proposed scheme could effectively identify the attractors from temporal gene expression data in terms of both fuzzy logic-based and linguistic descriptions which are simply interpretable by human experts. Therefore, this method can be considered as an effective step towards interpretable artificial intelligence. Without loss of generality, genetic toggle switch is considered as the case study. The nonlinear dynamics of this benchmark gene regulatory network is computationally modeled by the notion of uncertain stochastic differential equations. The results of in-silico study demonstrate the efficiency and robustness of the proposed method.
翻訳日:2024-03-19 20:36:44 公開日:2024-03-16
# 空間的抽象化によるプロトタイプ選択の高速化

Accelerating prototype selection with spatial abstraction ( http://arxiv.org/abs/2403.11020v1 )

ライセンス: Link先を確認
Joel Luís Carbonera, (参考訳) 産業や社会におけるデジタル化の増大は、処理と利用が可能なデータの量の増加につながります。 しかし、機械学習のアプローチを適用するには膨大な量のデータを必要とする。 これらの技術で必要とされる計算資源の要求を減らすために,プロトタイプ選択技術が適用されている。 本稿では,既存のプロトタイプ選択手法を高速化するためのアプローチを提案する。 空間分割の概念を用いてデータセットの抽象的な表現を構築する。 第2のステップでは、この抽象表現を使用して、探索空間を効率よくプルークし、候補となるプロトタイプのセットを選択する。 その後、提案手法により選択された候補に対して、いくつかの従来のプロトタイプ選択アルゴリズムを適用することができる。 提案手法は従来の5つのプロトタイプ選択アルゴリズムと統合され,14個の広く認識されているデータセットを用いて評価された。 修正アルゴリズムの性能は、精度と削減率の観点から元のバージョンと比較された。 実験の結果,提案手法は,プロトタイプ選択アルゴリズムの高速化と実行時間の短縮を両立させながら,精度を向上することを示した。

The increasing digitalization in industry and society leads to a growing abundance of data available to be processed and exploited. However, the high volume of data requires considerable computational resources for applying machine learning approaches. Prototype selection techniques have been applied to reduce the requirements of computational resources that are needed by these techniques. In this paper, we propose an approach for speeding up existing prototype selection techniques. It builds an abstract representation of the dataset, using the notion of spatial partition. The second step uses this abstract representation to prune the search space efficiently and select a set of candidate prototypes. After, some conventional prototype selection algorithms can be applied to the candidates selected by our approach. Our approach was integrated with five conventional prototype selection algorithms and tested on 14 widely recognized datasets used in classification tasks. The performance of the modified algorithms was compared to that of their original versions in terms of accuracy and reduction rate. The experimental results demonstrate that, overall, our proposed approach maintains accuracy while enhancing the reduction rate of the original prototype selection algorithms and simultaneously reducing their execution times.
翻訳日:2024-03-19 20:36:44 公開日:2024-03-16
# ニューロシンボリックビデオサーチ

Neuro-Symbolic Video Search ( http://arxiv.org/abs/2403.11021v1 )

ライセンス: Link先を確認
Minkyu Choi, Harsh Goel, Mohammad Omama, Yunhao Yang, Sahil Shah, Sandeep Chinchali, (参考訳) 近年のビデオデータ生産の急激な増加は、下流のタスクのためにビデオから意味のあるフレームを抽出する効率的なツールを必要としている。 長期的時間的推論は、フレーム検索システムにとって重要なデシダータムである。 VideoLLaMAやViCLIPのような最先端の基盤モデルは、短期的な意味理解に熟練しているが、フレーム間の長期的な推論では驚くほど失敗する。 この失敗の主な理由は、フレーム単位の認識と時間的推論を1つのディープネットワークに織り込むためである。 したがって、効率的なシーン識別には、疎結合だが協調設計のセマンティック理解と時間的推論が不可欠である。 本稿では,個々のフレームのセマンティック理解に視覚言語モデルを活用するシステムを提案する。 我々のTLベースの推論は、WaymoやNuScenesといった最先端の自動運転データセットの推論にGPT4を使用するベンチマークと比較して、複雑なイベント識別のF1スコアを9~15%改善します。

The unprecedented surge in video data production in recent years necessitates efficient tools to extract meaningful frames from videos for downstream tasks. Long-term temporal reasoning is a key desideratum for frame retrieval systems. While state-of-the-art foundation models, like VideoLLaMA and ViCLIP, are proficient in short-term semantic understanding, they surprisingly fail at long-term reasoning across frames. A key reason for this failure is that they intertwine per-frame perception and temporal reasoning into a single deep network. Hence, decoupling but co-designing semantic understanding and temporal reasoning is essential for efficient scene identification. We propose a system that leverages vision-language models for semantic understanding of individual frames but effectively reasons about the long-term evolution of events using state machines and temporal logic (TL) formulae that inherently capture memory. Our TL-based reasoning improves the F1 score of complex event identification by 9-15% compared to benchmarks that use GPT4 for reasoning on state-of-the-art self-driving datasets such as Waymo and NuScenes.
翻訳日:2024-03-19 20:36:44 公開日:2024-03-16
# 高速スパースビューガイドによるオブジェクト再構成のためのNeRF更新

Fast Sparse View Guided NeRF Update for Object Reconfigurations ( http://arxiv.org/abs/2403.11024v1 )

ライセンス: Link先を確認
Ziqi Lu, Jianbo Ye, Xiaohan Fei, Xiaolong Li, Jiawei Mo, Ashwin Swaminathan, Stefano Soatto, (参考訳) NeRF(Neural Radiance Field)は、暗黙の3Dシーン表現として、初期静的シーンの変更に対応する固有の能力に欠ける。 オブジェクトが再構成された場合、NeRFを更新してシーンの新たな状態を反映することは、データの再キャプチャやNeRFの再トレーニングに時間がかからない。 この制限に対処するため、我々はNeRFの物理変化に対する最初の更新方法を開発した。 提案手法では,追加入力として変化シーンの新しい画像(eg4)のみを抽出し,トレーニング済みのNeRFを約1~2分で更新する。 特に,シーン変化を識別するパイプラインを開発し,それに応じてNeRFを更新する。 我々の中核となる考え方は、局所的な幾何学と外観変化を学習するために第2のヘルパーNeRFを使用することであり、これは直接のNeRF微調整における最適化の難しさを後押しするものである。 ヘルパー NeRF の補間力は、疎視監督下で隠蔽対象領域を正確に再構築する鍵となる。 提案手法は,NeRF事前学習に制約を課さず,ユーザ入力や明示的なセマンティック事前処理は不要である。 NeRFをスクラッチから再訓練し、オンパーを維持し、さらに優れた性能を保ちながら、桁違いに高速である。

Neural Radiance Field (NeRF), as an implicit 3D scene representation, lacks inherent ability to accommodate changes made to the initial static scene. If objects are reconfigured, it is difficult to update the NeRF to reflect the new state of the scene without time-consuming data re-capturing and NeRF re-training. To address this limitation, we develop the first update method for NeRFs to physical changes. Our method takes only sparse new images (e.g. 4) of the altered scene as extra inputs and update the pre-trained NeRF in around 1 to 2 minutes. Particularly, we develop a pipeline to identify scene changes and update the NeRF accordingly. Our core idea is the use of a second helper NeRF to learn the local geometry and appearance changes, which sidesteps the optimization difficulties in direct NeRF fine-tuning. The interpolation power of the helper NeRF is the key to accurately reconstruct the un-occluded objects regions under sparse view supervision. Our method imposes no constraints on NeRF pre-training, and requires no extra user input or explicit semantic priors. It is an order of magnitude faster than re-training NeRF from scratch while maintaining on-par and even superior performance.
翻訳日:2024-03-19 20:36:44 公開日:2024-03-16
# 事前学習された言語モデルでは、地理的人口が他の言語よりも良く表現される

Pre-Trained Language Models Represent Some Geographic Populations Better Than Others ( http://arxiv.org/abs/2403.11025v1 )

ライセンス: Link先を確認
Jonathan Dunn, Benjamin Adams, Harish Tayyar Madabushi, (参考訳) 本稿では, LLM の2つの家系が地理的に多様であることを示す。 OPTおよびBLOOMシリーズの事前学習された言語モデルが世界中の多様な人口を表す程度を測定するために、空間探索タスクがジオリファレンスコーパスと共に使用される。 結果は、これらのモデルが一部の個体群で他の個体群よりもはるかに優れていることを示している。 特に、アメリカやイギリスでは人口がかなり多く、南アジアや東南アジアでは人口が不足している。 分析の結果、どちらのモデルも人口でも同じ傾向にあることが判明した。 同時に、このスキューは社会言語学的要因、経済要因、地理的要因によって完全に説明できない。 この分析から得られた基本的な結論は、事前訓練されたモデルは世界の人口を等しく表さないということである。 この発見は、一つのモデルがすべての人口に使えるという考えに挑戦する。

This paper measures the skew in how well two families of LLMs represent diverse geographic populations. A spatial probing task is used with geo-referenced corpora to measure the degree to which pre-trained language models from the OPT and BLOOM series represent diverse populations around the world. Results show that these models perform much better for some populations than others. In particular, populations across the US and the UK are represented quite well while those in South and Southeast Asia are poorly represented. Analysis shows that both families of models largely share the same skew across populations. At the same time, this skew cannot be fully explained by sociolinguistic factors, economic factors, or geographic factors. The basic conclusion from this analysis is that pre-trained models do not equally represent the world's population: there is a strong skew towards specific geographic populations. This finding challenges the idea that a single model can be used for all populations.
翻訳日:2024-03-19 20:36:44 公開日:2024-03-16
# 効率的なMorph: 3次元画像登録のためのパラメータ効率の良いトランスフォーマーベースアーキテクチャ

EfficientMorph: Parameter-Efficient Transformer-Based Architecture for 3D Image Registration ( http://arxiv.org/abs/2403.11026v1 )

ライセンス: Link先を確認
Abu Zahid Bin Aziz, Mokshagna Sai Teja Karanam, Tushar Kataria, Shireen Y. Elhabian, (参考訳) トランスフォーマーは、医療画像登録における最先端のアーキテクチャとして登場し、限定された受容領域に対処し、より深いモデルでの勾配不安定を克服することで、畳み込みニューラルネットワーク(CNN)を上回っている。 その成功にもかかわらず、トランスフォーマーベースのモデルは、データ、メモリ、計算能力を含むトレーニングのためのかなりのリソースを必要とし、限られたリソースを持つエンドユーザーに適用性を制限する可能性がある。 特に、既存のトランスフォーマーベースの3D画像登録アーキテクチャは、その効率性と有効性に挑戦する3つの重要なギャップに直面している。 第一に、局所に焦点をあてて注意の二次的複雑さを緩和する一方で、ウィンドウベースの注意機構は、局所的およびグローバルな情報を適切に統合することができないことが多い。 第二に、最近マルチヘッドアテンションアーキテクチャで発見されたアテンションヘッド間の特徴的類似性は、重要な計算冗長性を示し、ネットワークのキャパシティが性能向上に有効であることを示唆している。 最後に、トークン化の粒度は、登録精度の重要な要素であるトレードオフを示し、より小さなトークンは、高い計算複雑性、メモリ要求の増加、オーバーフィッティングのリスクを犠牲にして、詳細なキャプチャを改善する。 本稿では,教師なし3次元画像登録のためのトランスフォーマーベースアーキテクチャであるEfficientMorphを提案する。 平面ベースのアテンション機構を通じて局所的およびグローバル的アテンションのバランスを最適化し、カスケードされたグループアテンションを介して計算冗長性を低減し、マージ操作を補完するHi-Resトークン化戦略のおかげで、計算効率を損なうことなく細部をキャプチャする。 特に、EfficientMorphは16~27倍のパラメータでOASISデータセットのパフォーマンスベンチマークを設定している。

Transformers have emerged as the state-of-the-art architecture in medical image registration, outperforming convolutional neural networks (CNNs) by addressing their limited receptive fields and overcoming gradient instability in deeper models. Despite their success, transformer-based models require substantial resources for training, including data, memory, and computational power, which may restrict their applicability for end users with limited resources. In particular, existing transformer-based 3D image registration architectures face three critical gaps that challenge their efficiency and effectiveness. Firstly, while mitigating the quadratic complexity of full attention by focusing on local regions, window-based attention mechanisms often fail to adequately integrate local and global information. Secondly, feature similarities across attention heads that were recently found in multi-head attention architectures indicate a significant computational redundancy, suggesting that the capacity of the network could be better utilized to enhance performance. Lastly, the granularity of tokenization, a key factor in registration accuracy, presents a trade-off; smaller tokens improve detail capture at the cost of higher computational complexity, increased memory demands, and a risk of overfitting. Here, we propose EfficientMorph, a transformer-based architecture for unsupervised 3D image registration. It optimizes the balance between local and global attention through a plane-based attention mechanism, reduces computational redundancy via cascaded group attention, and captures fine details without compromising computational efficiency, thanks to a Hi-Res tokenization strategy complemented by merging operations. Notably, EfficientMorph sets a new benchmark for performance on the OASIS dataset with 16-27x fewer parameters.
翻訳日:2024-03-19 20:36:44 公開日:2024-03-16
# Reward Guided Latent Consistency Distillation

Reward Guided Latent Consistency Distillation ( http://arxiv.org/abs/2403.11027v1 )

ライセンス: Link先を確認
Jiachen Li, Weixi Feng, Wenhu Chen, William Yang Wang, (参考訳) 効率的なテキスト・画像合成のためのパラダイムとしてLCD(Latent Consistency Distillation)が登場している。 事前学習した教師潜在拡散モデル(LDM)から潜在整合性モデル(LCM)を蒸留することにより、LCDは2~4段階の推論ステップで高忠実度画像の生成を容易にする。 しかし, LCMの効率的な推論は, 試料品質を犠牲にして得られる。 本稿では,LCMの出力とトレーニング中の人間の嗜好を合わせることで品質損失を補償する手法を提案する。 具体的には、報酬モデル(RM)からのフィードバックをLCDプロセスに統合するReward Guided LCD(RG-LCD)を導入する。 評価の結果,RG-LCMの2段階は,教師 LDM の50段階 DDIM サンプルに対して,品質損失を伴わずに25倍の推論加速を達成できた。 差別化可能なRMへの直接最適化は過度な最適化に悩まされるため、潜在プロキシRM(LRM)の使用を提案することで、この難しさを克服する。 この新しいコンポーネントは仲介役として機能し、私たちのLCMとRMを接続します。 RG-LCDにLRMを組み込むことで、生成画像の高周波ノイズを回避できることを実証し、MS-COCOでのFIDの改善とHPSv2のテストセットでのHPSv2.1スコアの向上の両方に寄与し、ベースラインLCMよりも優れていたことを実証した。

Latent Consistency Distillation (LCD) has emerged as a promising paradigm for efficient text-to-image synthesis. By distilling a latent consistency model (LCM) from a pre-trained teacher latent diffusion model (LDM), LCD facilitates the generation of high-fidelity images within merely 2 to 4 inference steps. However, the LCM's efficient inference is obtained at the cost of the sample quality. In this paper, we propose compensating the quality loss by aligning LCM's output with human preference during training. Specifically, we introduce Reward Guided LCD (RG-LCD), which integrates feedback from a reward model (RM) into the LCD process by augmenting the original LCD loss with the objective of maximizing the reward associated with LCM's single-step generation. As validated through human evaluation, when trained with the feedback of a good RM, the 2-step generations from our RG-LCM are favored by humans over the 50-step DDIM samples from the teacher LDM, representing a 25 times inference acceleration without quality loss. As directly optimizing towards differentiable RMs can suffer from over-optimization, we overcome this difficulty by proposing the use of a latent proxy RM (LRM). This novel component serves as an intermediary, connecting our LCM with the RM. Empirically, we demonstrate that incorporating the LRM into our RG-LCD successfully avoids high-frequency noise in the generated images, contributing to both improved FID on MS-COCO and a higher HPSv2.1 score on HPSv2's test set, surpassing those achieved by the baseline LCM.
翻訳日:2024-03-19 20:36:44 公開日:2024-03-16
# FH-TabNet:多段階タブラル深層学習による家族性高コレステロール血症の検出

FH-TabNet: Multi-Class Familial Hypercholesterolemia Detection via a Multi-Stage Tabular Deep Learning ( http://arxiv.org/abs/2403.11032v1 )

ライセンス: Link先を確認
Sadaf Khademi, Zohreh Hajiakhondi, Golnaz Vaseghi, Nizal Sarrafzadegan, Arash Mohammadi, (参考訳) 家族性高コレステロール血症(家族性高コレステロール血症、FH)は、低比重リポ蛋白(LDL)コレステロールまたはその関連遺伝子の増加を特徴とする遺伝疾患である。 FHの早期かつ正確な分類は、生命を脅かすリスクを軽減するために、タイムリーな介入を可能にする重要な要素である。 しかし、従来の診断アプローチは複雑でコストがかかり、経験豊富な臨床医でも高い診断率が得られるという難しい解釈課題である。 近年、機械学習(ML)モデルによる早期FH検出への関心が高まっているが、既存のソリューションでは、古典的なMLモデルのみを使用したバイナリ分類タスクのみを考慮している。 その重要性にもかかわらず、FH検出へのディープラーニング(DL)の適用は、おそらく、基礎となる臨床データの分類学的性質のために、その初期段階にある。 FH-TabNetはマルチクラス(定型、可算、可算、異型)FH検出のための多段階表型DLネットワークである。 FH-TabNetは、最初は、健康な(可否/非可否)クラスと患者(可否/確定)クラスへの一次分類に深い表型データ学習アーキテクチャ(TabNet)を適用する。 その後、独立したTabNet分類器が各サブグループに適用され、洗練された分類が可能となる。 このモデルの性能は,FH患者の分類,特に低頻度サブカテゴリの挑戦において,優れた成績を示す5倍のクロスバリデーションによって評価される。

Familial Hypercholesterolemia (FH) is a genetic disorder characterized by elevated levels of Low-Density Lipoprotein (LDL) cholesterol or its associated genes. Early-stage and accurate categorization of FH is of significance allowing for timely interventions to mitigate the risk of life-threatening conditions. Conventional diagnosis approach, however, is complex, costly, and a challenging interpretation task even for experienced clinicians resulting in high underdiagnosis rates. Although there has been a recent surge of interest in using Machine Learning (ML) models for early FH detection, existing solutions only consider a binary classification task solely using classical ML models. Despite its significance, application of Deep Learning (DL) for FH detection is in its infancy, possibly, due to categorical nature of the underlying clinical data. The paper addresses this gap by introducing the FH-TabNet, which is a multi-stage tabular DL network for multi-class (Definite, Probable, Possible, and Unlikely) FH detection. The FH-TabNet initially involves applying a deep tabular data learning architecture (TabNet) for primary categorization into healthy (Possible/Unlikely) and patient (Probable/Definite) classes. Subsequently, independent TabNet classifiers are applied to each subgroup, enabling refined classification. The model's performance is evaluated through 5-fold cross-validation illustrating superior performance in categorizing FH patients, particularly in the challenging low-prevalence subcategories.
翻訳日:2024-03-19 20:27:00 公開日:2024-03-16
# 波長多重拡散型光プロセッサを用いた多面的定量位相イメージング

Multiplane Quantitative Phase Imaging Using a Wavelength-Multiplexed Diffractive Optical Processor ( http://arxiv.org/abs/2403.11035v1 )

ライセンス: Link先を確認
Che-Yung Shen, Jingxi Li, Tianyi Gan, Yuhang Li, Langxing Bai, Mona Jarrahi, Aydogan Ozcan, (参考訳) 定量的位相イメージング(QPI)は、透明な検体に対して光路長の情報を提供し、生物学、材料科学、工学における有用性を見つけるためのラベルのない技術である。 本稿では、波長多重回折光学プロセッサを用いて、位相のみの物体の3次元スタックの定量的位相イメージングを行う。 深層学習によって訓練された複数の空間工学的な回折層を利用して、この回折プロセッサは、複数の2次元物体の様々な軸位置における位相分布を、それぞれ独自の波長チャネルで符号化された強度パターンに変換することができる。 これらの波長多重パターンは、回折プロセッサの出力面における単一視野視野(FOV)に投影され、強度のみの画像センサを用いて異なる軸面に位置する入力物体の定量的位相分布の取得を可能にする。 数値シミュレーションにより,光波長を走査することにより,複数の異なる軸面を横断する全光学的定量的位相像を同時に実現できることが示唆された。 さらに, テラヘルツスペクトルの照射波長を走査することにより, 2つの異なる位相物体を異なる軸位置で撮像することに成功した。 Diffractive NetworkベースのマルチプレーンQPI設計は、小型オンチップ位相イメージングおよびセンシングデバイスのための新しい道を開くことができる。

Quantitative phase imaging (QPI) is a label-free technique that provides optical path length information for transparent specimens, finding utility in biology, materials science, and engineering. Here, we present quantitative phase imaging of a 3D stack of phase-only objects using a wavelength-multiplexed diffractive optical processor. Utilizing multiple spatially engineered diffractive layers trained through deep learning, this diffractive processor can transform the phase distributions of multiple 2D objects at various axial positions into intensity patterns, each encoded at a unique wavelength channel. These wavelength-multiplexed patterns are projected onto a single field-of-view (FOV) at the output plane of the diffractive processor, enabling the capture of quantitative phase distributions of input objects located at different axial planes using an intensity-only image sensor. Based on numerical simulations, we show that our diffractive processor could simultaneously achieve all-optical quantitative phase imaging across several distinct axial planes at the input by scanning the illumination wavelength. A proof-of-concept experiment with a 3D-fabricated diffractive processor further validated our approach, showcasing successful imaging of two distinct phase objects at different axial positions by scanning the illumination wavelength in the terahertz spectrum. Diffractive network-based multiplane QPI designs can open up new avenues for compact on-chip phase imaging and sensing devices.
翻訳日:2024-03-19 20:27:00 公開日:2024-03-16
# パッチコンセンサス(TEP)によるテクスチャエッジ検出

Texture Edge detection by Patch consensus (TEP) ( http://arxiv.org/abs/2403.11038v1 )

ライセンス: Link先を確認
Guangyu Cui, Sung Ha Kang, (参考訳) 本研究では,テクスチャの境界を検出するトレーニング不要な手法であるパッチコンセンサス(TEP)を用いたテクスチャエッジ検出を提案する。 局所パッチ情報のセグメンテーションを用いて,テクスチャエッジの位置を識別する手法を提案する。 境界線では、局所的なパッチ情報を用いても、テクスチャの区別は明らかになっていないが、隣のコンセンサスを用いて、境界線を明確に考えることができる。 異なるテクスチャ間の類似点と相違点を強調するために、局所パッチと近隣地域に対する応答を利用する。 応答のセグメンテーションのステップは、エッジ位置をさらに強調し、近隣の投票は合意を与え、エッジ検出を安定化させる。 テクスチャを定常的プロセスとして解析し、パッチ幅パラメータの洞察がエッジ検出の質に反することを示す。 テクスチャを区別するために必要な条件を導出し,テクスチャのスケールに関するパッチ幅を解析する。 提案モデルを検証するために,様々な実験を行った。

We propose Texture Edge detection using Patch consensus (TEP) which is a training-free method to detect the boundary of texture. We propose a new simple way to identify the texture edge location, using the consensus of segmented local patch information. While on the boundary, even using local patch information, the distinction between textures are typically not clear, but using neighbor consensus give a clear idea of the boundary. We utilize local patch, and its response against neighboring regions, to emphasize the similarities and the differences across different textures. The step of segmentation of response further emphasizes the edge location, and the neighborhood voting gives consensus and stabilize the edge detection. We analyze texture as a stationary process to give insight into the patch width parameter verses the quality of edge detection. We derive the necessary condition for textures to be distinguished, and analyze the patch width with respect to the scale of textures. Various experiments are presented to validate the proposed model.
翻訳日:2024-03-19 20:27:00 公開日:2024-03-16
# FAGH: 近似グローバルヘッセンによるフェデレーション学習の高速化

FAGH: Accelerating Federated Learning with Approximated Global Hessian ( http://arxiv.org/abs/2403.11041v1 )

ライセンス: Link先を確認
Mrinmay Sen, A. K. Qin, Krishna Mohan C, (参考訳) フェデレートラーニング(FL)では、トレーニングの収束速度の遅いため、グローバルモデルが大きな課題となる。 具体的には、FLの収束を達成するために、多数の通信ラウンドが必要である。 潜在的な解決策の1つは、ニュートンの2次収束率(英語版)で知られるトレーニングに最適化法を用いることである。 しかし、既存のニュートンベースのFLトレーニング手法は、ローカルクライアントやサーバのメモリ不足や高い計算コストに悩まされている。 この問題に対処するために, FLトレーニングを高速化するための大域的ヘッセン法(FAGH)を用いたFLを提案する。 FAGHは、近似された大域ヘッセンの最初のモーメントと、大域勾配の最初のモーメントを活用して、大域模型を訓練する。 近似された大域ヘッセン曲率を利用することで、FAGHはグローバルモデルトレーニングの収束を加速し、通信ラウンドの減少と訓練時間の短縮につながる。 実験結果から,FAGHの通信ラウンド数削減効果と,訓練やテスト損失,テスト精度の観点から,グローバルモデル性能の事前目標達成に要する時間について検証した。 特に、FAGHは最先端のFLトレーニング方法よりも優れています。

In federated learning (FL), the significant communication overhead due to the slow convergence speed of training the global model poses a great challenge. Specifically, a large number of communication rounds are required to achieve the convergence in FL. One potential solution is to employ the Newton-based optimization method for training, known for its quadratic convergence rate. However, the existing Newton-based FL training methods suffer from either memory inefficiency or high computational costs for local clients or the server. To address this issue, we propose an FL with approximated global Hessian (FAGH) method to accelerate FL training. FAGH leverages the first moment of the approximated global Hessian and the first moment of the global gradient to train the global model. By harnessing the approximated global Hessian curvature, FAGH accelerates the convergence of global model training, leading to the reduced number of communication rounds and thus the shortened training time. Experimental results verify FAGH's effectiveness in decreasing the number of communication rounds and the time required to achieve the pre-specified objectives of the global model performance in terms of training and test losses as well as test accuracy. Notably, FAGH outperforms several state-of-the-art FL training methods.
翻訳日:2024-03-19 20:27:00 公開日:2024-03-16
# 多変量時系列類似度評価の高度化:統合計算アプローチ

Advancing multivariate time series similarity assessment: an integrated computational approach ( http://arxiv.org/abs/2403.11044v1 )

ライセンス: Link先を確認
Franck Tonle, Henri Tonnang, Milliam Ndadji, Maurice Tchendji, Armand Nzeukou, Kennedy Senagi, Saliou Niassy, (参考訳) データマイニング、特に多変量時系列データの解析は、複雑なシステムから洞察を抽出し、様々な領域にわたる情報的意思決定を支援する上で重要な役割を担っている。 しかし、多変量時系列データの類似性を評価することは、大規模なデータセットの処理、時間的ミスアライメントへの対処、効率的で包括的な分析フレームワークの必要性など、いくつかの課題を提示している。 これらの課題に対処するため, MTASA (Multivariate Time series Alignment and similarity Assessment) と呼ばれる新しい計算手法を提案する。 MTASAは時系列アライメントを最適化するために設計されたハイブリッドな手法に基づいており、計算資源の利用性を高めるマルチプロセッシングエンジンによって補完される。 この統合されたアプローチは、4つの重要なコンポーネントから構成され、それぞれが時系列の類似性評価の本質的な側面に対処し、分析のための包括的なフレームワークを提供する。 MTASAは、ユーザフレンドリーなインターフェースを備えたオープンソースのPythonライブラリとして実装されており、研究者や実践者が利用できる。 MTASAの有効性を評価するため,実環境データを用いた農業生態系の類似性評価を目的とした実証的研究を行った。 本研究の結果はMTASAの優位性を強調し,従来の多変量時系列類似性評価フレームワークと比較して約1.5倍の精度と2倍の速度を実現した。 MTASAは多変量時系列解析の効率とアクセシビリティを大幅に向上させ,様々な領域の研究者や実践者に利益をもたらすことが期待されている。 大規模なデータセットの処理、時間的ミスアライメントへの対処、正確な結果の提供といった能力により、MTASAは複雑なシステムにおける洞察を導き、意思決定プロセスを支援する貴重なツールになります。

Data mining, particularly the analysis of multivariate time series data, plays a crucial role in extracting insights from complex systems and supporting informed decision-making across diverse domains. However, assessing the similarity of multivariate time series data presents several challenges, including dealing with large datasets, addressing temporal misalignments, and the need for efficient and comprehensive analytical frameworks. To address all these challenges, we propose a novel integrated computational approach known as Multivariate Time series Alignment and Similarity Assessment (MTASA). MTASA is built upon a hybrid methodology designed to optimize time series alignment, complemented by a multiprocessing engine that enhances the utilization of computational resources. This integrated approach comprises four key components, each addressing essential aspects of time series similarity assessment, thereby offering a comprehensive framework for analysis. MTASA is implemented as an open-source Python library with a user-friendly interface, making it accessible to researchers and practitioners. To evaluate the effectiveness of MTASA, we conducted an empirical study focused on assessing agroecosystem similarity using real-world environmental data. The results from this study highlight MTASA's superiority, achieving approximately 1.5 times greater accuracy and twice the speed compared to existing state-of-the-art integrated frameworks for multivariate time series similarity assessment. It is hoped that MTASA will significantly enhance the efficiency and accessibility of multivariate time series analysis, benefitting researchers and practitioners across various domains. Its capabilities in handling large datasets, addressing temporal misalignments, and delivering accurate results make MTASA a valuable tool for deriving insights and aiding decision-making processes in complex systems.
翻訳日:2024-03-19 20:27:00 公開日:2024-03-16
# InstructCV:ビジョンジェネラリストとしてのインストラクション付きテキスト-画像拡散モデル

InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists ( http://arxiv.org/abs/2310.00390v3 )

ライセンス: Link先を確認
Yulu Gan, Sungwoo Park, Alexander Schubert, Anthony Philippakis, Ahmed M. Alaa, (参考訳) 生成拡散モデルの最近の進歩は、印象的な品質を持つ現実的で多様な画像のテキスト制御合成を可能にしている。 これらの顕著な進歩にもかかわらず、コンピュータビジョンにおけるテキストから画像への生成モデルの適用は依然として限られている。 これらのタスクの現在の事実上のアプローチは、そのタスクに合わせたモデルアーキテクチャと損失関数を設計することである。 本稿では,タスク固有の設計選択を抽象化し,自然言語命令に従うことでタスク実行を可能にする,コンピュータビジョンタスクのための統一型言語インタフェースを開発する。 我々のアプローチは、複数のコンピュータビジョンタスクをテキスト・画像生成問題としてキャストすることである。 ここでは、テキストはタスクを記述する命令を表し、その結果のイメージは視覚的に符号化されたタスク出力である。 モデルのトレーニングには、セグメンテーション、オブジェクト検出、深さ推定、分類など、さまざまなタスクをカバーするコンピュータビジョンデータセットをプールする。 そこで我々は,各画像上で実行すべき特定のタスクを伝達するテンプレートのプロンプトを,大規模言語モデルで表現し,このプロセスを通じて,入力および出力画像と注釈付き命令とを組み合わせたマルチモーダルおよびマルチタスクのトレーニングデータセットを作成する。 InstructPix2Pixアーキテクチャに従うと、構築したデータセットを用いて、命令チューニングをテキストから画像への拡散モデルに適用し、その機能を生成モデルから命令誘導型マルチタスク視覚学習者へ誘導する。 InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能することを示した。 さらに、データやカテゴリ、ユーザインストラクションを表示できないような、魅力的な一般化機能も備えています。

Recent advances in generative diffusion models have enabled text-controlled synthesis of realistic and diverse images with impressive quality. Despite these remarkable advances, the application of text-to-image generative models in computer vision for standard visual recognition tasks remains limited. The current de facto approach for these tasks is to design model architectures and loss functions that are tailored to the task at hand. In this paper, we develop a unified language interface for computer vision tasks that abstracts away task-specific design choices and enables task execution by following natural language instructions. Our approach involves casting multiple computer vision tasks as text-to-image generation problems. Here, the text represents an instruction describing the task, and the resulting image is a visually-encoded task output. To train our model, we pool commonly-used computer vision datasets covering a range of tasks, including segmentation, object detection, depth estimation, and classification. We then use a large language model to paraphrase prompt templates that convey the specific tasks to be conducted on each image, and through this process, we create a multi-modal and multi-task training dataset comprising input and output images along with annotated instructions. Following the InstructPix2Pix architecture, we apply instruction-tuning to a text-to-image diffusion model using our constructed dataset, steering its functionality from a generative model to an instruction-guided multi-task vision learner. Experiments demonstrate that our model, dubbed InstructCV, performs competitively compared to other generalist and task-specific vision models. Moreover, it exhibits compelling generalization capabilities to unseen data, categories, and user instructions.
翻訳日:2024-03-19 11:35:28 公開日:2024-03-16
# ガウス局所線型写像を用いた高速で高精度で軽量な逐次シミュレーションに基づく推論

Fast, accurate and lightweight sequential simulation-based inference using Gaussian locally linear mappings ( http://arxiv.org/abs/2403.07454v2 )

ライセンス: Link先を確認
Henrik Häggström, Pedro L. C. Rodrigues, Geoffroy Oudoumanessah, Florence Forbes, Umberto Picchini, (参考訳) 難易度の高い複素モデルに対するベイズ推論は、計算機シミュレータへの多くの呼び出しを実行するアルゴリズムを用いて取り組むことができる。 これらの手法を総合的に「シミュレーションベース推論(SBI)」と呼ぶ。 近年のSBI法では、ニューラルネットワーク(NN)を用いて、不可能な可能性関数と後部分布の近似的かつ表現的な構造を提供している。 しかし、それらは一般的に、精度と計算要求の間の最適なトレードオフを達成しない。 本研究では,確率分布の構造的混合を用いて,確率分布と後部分布の両方を近似する手法を提案する。 提案手法は, NN-based SBI法と比較して, 計算フットプリントがはるかに小さく, 正確な後部推測を導出する。 本稿では,SBI文献のベンチマークモデルについて概説する。

Bayesian inference for complex models with an intractable likelihood can be tackled using algorithms performing many calls to computer simulators. These approaches are collectively known as "simulation-based inference" (SBI). Recent SBI methods have made use of neural networks (NN) to provide approximate, yet expressive constructs for the unavailable likelihood function and the posterior distribution. However, they do not generally achieve an optimal trade-off between accuracy and computational demand. In this work, we propose an alternative that provides both approximations to the likelihood and the posterior distribution, using structured mixtures of probability distributions. Our approach produces accurate posterior inference when compared to state-of-the-art NN-based SBI methods, while exhibiting a much smaller computational footprint. We illustrate our results on several benchmark models from the SBI literature.
翻訳日:2024-03-19 11:35:28 公開日:2024-03-16
# PeLK: 周辺畳み込みを用いたパラメータ効率の大きい大カーネルネットワーク

PeLK: Parameter-efficient Large Kernel ConvNets with Peripheral Convolution ( http://arxiv.org/abs/2403.07589v2 )

ライセンス: Link先を確認
Honghao Chen, Xiangxiang Chu, Yongjian Ren, Xin Zhao, Kaiqi Huang, (参考訳) 最近、一部の大型カーネルコンブネットは、魅力的な性能と効率で反撃している。 しかし、畳み込みの2乗の複雑さを考えると、カーネルのスケールアップは膨大な量のパラメータをもたらし、増大したパラメータは深刻な最適化問題を引き起こす可能性がある。 これらの問題により、現在のCNNはストライプ畳み込み(51x5 + 5x51)の形で51x51までのスケールを妥協し、カーネルのサイズが大きくなるにつれて飽和し始める。 本稿では,これらの重要な問題に対処し,カーネルのスケールアップを継続してパフォーマンスの向上を図る。 人間の視覚にインスパイアされた周辺的畳み込みは、パラメータ共有による高密度グリッド畳み込みの90%以上を効率的に削減し、カーネルサイズを極端に大きくする。 末梢のコンボリューションは人間と非常によく似ており,O(K^2)からO(logK)へのコンボリューションの複雑さを低下させる。 そこで本研究では,パラメータ効率の高いLarge Kernel Network (PeLK)を提案する。 私たちのPeLKは、ImageNet分類、ADE20K上のセマンティックセグメンテーション、MS COCOでのオブジェクト検出など、様々なビジョンタスクにおいて、Swin、ConvNeXt、RepLKNet、SLaKのようなモダンなビジョントランスフォーマーやConvNetアーキテクチャよりも優れています。 初めて、CNNのカーネルサイズを前例のない101x101にスケールアップし、一貫した改善を実証しました。

Recently, some large kernel convnets strike back with appealing performance and efficiency. However, given the square complexity of convolution, scaling up kernels can bring about an enormous amount of parameters and the proliferated parameters can induce severe optimization problem. Due to these issues, current CNNs compromise to scale up to 51x51 in the form of stripe convolution (i.e., 51x5 + 5x51) and start to saturate as the kernel size continues growing. In this paper, we delve into addressing these vital issues and explore whether we can continue scaling up kernels for more performance gains. Inspired by human vision, we propose a human-like peripheral convolution that efficiently reduces over 90% parameter count of dense grid convolution through parameter sharing, and manage to scale up kernel size to extremely large. Our peripheral convolution behaves highly similar to human, reducing the complexity of convolution from O(K^2) to O(logK) without backfiring performance. Built on this, we propose Parameter-efficient Large Kernel Network (PeLK). Our PeLK outperforms modern vision Transformers and ConvNet architectures like Swin, ConvNeXt, RepLKNet and SLaK on various vision tasks including ImageNet classification, semantic segmentation on ADE20K and object detection on MS COCO. For the first time, we successfully scale up the kernel size of CNNs to an unprecedented 101x101 and demonstrate consistent improvements.
翻訳日:2024-03-19 11:35:28 公開日:2024-03-16
# 深部部分モジュラー周辺ネットワーク

Deep Submodular Peripteral Networks ( http://arxiv.org/abs/2403.08199v2 )

ライセンス: Link先を確認
Gantavya Bhatt, Arnav Das, Jeff Bilmes, (参考訳) 様々なアプリケーションに不可欠な部分モジュラー関数は、取得のための実践的な学習方法を欠いていることが多い。 精神測定学の豊富な歴史にもかかわらず、グレードドド・ペアワイズ・レディション(GPC)を提供するオークルからスケーリングを学ぶことは、一見無関係である。 本稿では,DSPN(Deep Submodular Peripteral Network)という,新しいパラメトリックなサブモジュール関数のファミリーを導入し,これらの課題に対処するための,コントラスト学習にインスパイアされたGPC対応戦略を用いたトレーニング手法を提案する。 新たに考案されたGPCスタイルの「周辺」損失は,物体の対(この場合の集合)間の数値的にグレードされた関係を生かしたものである。 従来のコントラスト学習とは異なり,本手法では,2値比較よりもニュアンス情報を抽出し,任意のサイズのコントラストセット(2値ではなく2値比較)を抽出する。 また、アクティブラーニングにインスパイアされたサブモジュールフィードバックを含む、トレーニングのための自動サンプリング戦略の新たなスイートも定義する。 実験的な設計やストリーミングアプリケーションなどの下流タスクにおいて、コストがかかるサブモジュール関数からサブモジュール性を学ぶ上でのDSPNの有効性を実証する。

Submodular functions, crucial for various applications, often lack practical learning methods for their acquisition. Seemingly unrelated, learning a scaling from oracles offering graded pairwise preferences (GPC) is underexplored, despite a rich history in psychometrics. In this paper, we introduce deep submodular peripteral networks (DSPNs), a novel parametric family of submodular functions, and methods for their training using a contrastive-learning inspired GPC-ready strategy to connect and then tackle both of the above challenges. We introduce newly devised GPC-style "peripteral" loss which leverages numerically graded relationships between pairs of objects (sets in our case). Unlike traditional contrastive learning, our method utilizes graded comparisons, extracting more nuanced information than just binary-outcome comparisons, and contrasts sets of any size (not just two). We also define a novel suite of automatic sampling strategies for training, including active-learning inspired submodular feedback. We demonstrate DSPNs' efficacy in learning submodularity from a costly target submodular function showing superiority in downstream tasks such as experimental design and streaming applications.
翻訳日:2024-03-19 11:35:28 公開日:2024-03-16
# ハードウェア非決定性制御による最適検証訓練

Optimistic Verifiable Training by Controlling Hardware Nondeterminism ( http://arxiv.org/abs/2403.09603v2 )

ライセンス: Link先を確認
Megha Srivastava, Simran Arora, Dan Boneh, (参考訳) AIシステムの計算要求の増加は、必要なリソースが不足しているクライアントのためにモデルをトレーニングするサービスの出現につながった。 しかし、トレーニングの正確性を確保し、データ中毒などの潜在的なトレーニングタイムアタックに対する防御が課題となる。 検証可能なトレーニングに関する既存の研究は、暗号技術を必要とするためスケールに苦しむ証明ベースシステムと、トレーニングプロセスを再現する信頼できる第三者監査者を考える「最適化」方法の2つのクラスに大別される。 後者の主な課題は、トレーニング中のGPUタイプ間のハードウェア非決定性により、監査人がトレーニングプロセスを正確に複製できないため、そのようなスキームは非破壊的である。 本研究では,対象モデルよりも高精度なトレーニング,中間計算ステップ後のラウンドリング,適応的しきい値決定法に基づくラウンドリング決定を組み合わせ,非決定性をうまく制御する手法を提案する。 3種類のNVIDIA GPU(A40, Titan XP, RTX 2080 Ti)にわたって、我々は、ResNet-50(23M)モデルとGPT-2(117M)モデルのフルトレーニングと微調整の両方において、FP32精度で正確なトレーニングレプリケーションを実現する。 検証可能なトレーニング手法は,証明ベースシステムと比較して,ストレージと時間コストを著しく削減する。

The increasing compute demands of AI systems has led to the emergence of services that train models on behalf of clients lacking necessary resources. However, ensuring correctness of training and guarding against potential training-time attacks, such as data poisoning, poses challenges. Existing works on verifiable training largely fall into two classes: proof-based systems, which struggle to scale due to requiring cryptographic techniques, and "optimistic" methods that consider a trusted third-party auditor who replicates the training process. A key challenge with the latter is that hardware nondeterminism between GPU types during training prevents an auditor from replicating the training process exactly, and such schemes are therefore non-robust. We propose a method that combines training in a higher precision than the target model, rounding after intermediate computation steps, and storing rounding decisions based on an adaptive thresholding procedure, to successfully control for nondeterminism. Across three different NVIDIA GPUs (A40, Titan XP, RTX 2080 Ti), we achieve exact training replication at FP32 precision for both full-training and fine-tuning of ResNet-50 (23M) and GPT-2 (117M) models. Our verifiable training scheme significantly decreases the storage and time costs compared to proof-based systems.
翻訳日:2024-03-19 11:35:28 公開日:2024-03-16