このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240531となっている論文です。

PDF登録状況(公開日: 20240531)

TitleAuthorsAbstract論文公表日・翻訳日
# 異なる言語による画像キャプション

Image captioning in different languages ( http://arxiv.org/abs/2407.09495v1 )

ライセンス: Link先を確認
Emiel van Miltenburg, (参考訳) 本論文は、非英語画像キャプションデータセット(2024年5月現在)を手作業でキュレートしたリストを提供する。 このリストを通じて、異なる言語におけるデータセットの変形を観察できる。 クロスモーダル3600データセット(Thapliyal et al , 2022, 36言語)が加わったことにより、この数字は幾らか増加するが、それでもこの数字は存在する数千の言語と比較して小さい。 本稿では、ビジョン&ランゲージの分野について、いくつかのオープンな質問で締めくくります。

This short position paper provides a manually curated list of non-English image captioning datasets (as of May 2024). Through this list, we can observe the dearth of datasets in different languages: only 23 different languages are represented. With the addition of the Crossmodal-3600 dataset (Thapliyal et al., 2022, 36 languages) this number increases somewhat, but still this number is tiny compared to the thousands of spoken languages that exist. This paper closes with some open questions for the field of Vision & Language.
翻訳日:2024-07-22 13:38:25 公開日:2024-05-31
# データのオープン! Chuvash データセット

Open the Data! Chuvash Datasets ( http://arxiv.org/abs/2407.11982v1 )

ライセンス: Link先を確認
Nikolay Plotnikov, Alexander Antonov, (参考訳) 本稿では,Chuvash言語に対する4つの包括的データセットについて紹介する。 これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。 各データセットは、機械翻訳、言語分析、音声認識などの様々な用途に役立ち、Chuvash言語で作業する学者や開発者にとって貴重なリソースを提供するために、慎重にキュレートされている。 これらのデータセットは、デジタル時代のChuvash言語を保存し、促進するための重要なステップである。

In this paper, we introduce four comprehensive datasets for the Chuvash language, aiming to support and enhance linguistic research and technological development for this underrepresented language. These datasets include a monolingual dataset, a parallel dataset with Russian, a parallel dataset with English, and an audio dataset. Each dataset is meticulously curated to serve various applications such as machine translation, linguistic analysis, and speech recognition, providing valuable resources for scholars and developers working with the Chuvash language. Together, these datasets represent a significant step towards preserving and promoting the Chuvash language in the digital age.
翻訳日:2024-07-22 11:50:18 公開日:2024-05-31
# ディシプリンのビジョン:YouTubeにおける入門AIコースの分析

Visions of a Discipline: Analyzing Introductory AI Courses on YouTube ( http://arxiv.org/abs/2407.13077v1 )

ライセンス: Link先を確認
Severin Engelmann, Madiha Zahrah Choksi, Angelina Wang, Casey Fiesler, (参考訳) 教育は社会的幸福を育む上で欠かせない役割を担い、これからの世代を形作る上で最も影響力のある要因の1つと広く考えられている。 人工知能(AI)が私たちの日常生活や労働力に深く統合されるにつれ、あらゆるレベルの教育機関が、AI教育に役立つリソースに重点を置いている。 我々の研究は、YouTubeにおける導入AIコースの現在の状況と、この文脈で倫理を導入する可能性について調査している。 われわれはYouTubeで視聴された20のAIコースを質的に分析し、5000万人近い人々が視聴する92.2時間の教育コンテンツをコーディングした。 導入型AIコースは、AIの倫理的または社会的課題(RQ1)に有意義に関わっていない。 textit{defining and framing AI}のとき、入門AIコースは、社会におけるAIの変革的役割に関する興奮、AIの現在と将来の能力を過大に誇張し、AIを人為的形態化する(RQ2)。 textit{teaching AI}では、企業AIツールやフレームワークに広く依存するだけでなく、概念基盤(RQ3)ではなく、学習へのハンズオンアプローチへの優先順位付けも見られます。 重要な‘textit{AI practices}の推進において、導入AIコースは、例えばデータ品質よりもデータ量を好む(RQ4)など、AI分類と予測の社会技術的性質を完全に抽象化する。 我々は、倫理的リフレクションを入門AIコースに統合することを目的としたレコメンデーションで分析を拡張します。 導入型AIコースは,(1)よりバランスのとれた視点を示すために,AIの倫理的課題を強調すること,(2)議論されている技術的概念に明示的に関連する倫理的問題を提起すること,(3)将来のAI開発者に説明責任感を育むことを推奨する。

Education plays an indispensable role in fostering societal well-being and is widely regarded as one of the most influential factors in shaping the future of generations to come. As artificial intelligence (AI) becomes more deeply integrated into our daily lives and the workforce, educational institutions at all levels are directing their focus on resources that cater to AI education. Our work investigates the current landscape of introductory AI courses on YouTube, and the potential for introducing ethics in this context. We qualitatively analyze the 20 most watched introductory AI courses on YouTube, coding a total of 92.2 hours of educational content viewed by close to 50 million people. Introductory AI courses do not meaningfully engage with ethical or societal challenges of AI (RQ1). When \textit{defining and framing AI}, introductory AI courses foreground excitement around AI's transformative role in society, over-exaggerate AI's current and future abilities, and anthropomorphize AI (RQ2). In \textit{teaching AI}, we see a widespread reliance on corporate AI tools and frameworks as well as a prioritization on a hands-on approach to learning rather than on conceptual foundations (RQ3). In promoting key \textit{AI practices}, introductory AI courses abstract away entirely the socio-technical nature of AI classification and prediction, for example by favoring data quantity over data quality (RQ4). We extend our analysis with recommendations that aim to integrate ethical reflections into introductory AI courses. We recommend that introductory AI courses should (1) highlight ethical challenges of AI to present a more balanced perspective, (2) raise ethical issues explicitly relevant to the technical concepts discussed and (3) nurture a sense of accountability in future AI developers.
翻訳日:2024-07-22 08:07:30 公開日:2024-05-31
# フィールドスポーツにおける時空間グラフ分析のためのフレームワーク

A Framework for Spatio-Temporal Graph Analytics In Field Sports ( http://arxiv.org/abs/2407.13109v1 )

ライセンス: Link先を確認
Valerio Antonini, Michael Scriney, Alessandra Mileo, Mark Roantree, (参考訳) 世界的なスポーツ分析産業は2023年に378億ドルの時価総額を持つ。 GPSセンサーのようなウェアラブルデバイスの増加は、プレイヤーのパフォーマンスを詳細に示す、大きなきめ細かいデータセットをアナリストに提供する。 このデータの伝統的な分析は、スピードゾーンでカバーされた距離や運動の知覚率など、内部および外部の負荷を測定する個々のアスリートに焦点を当てている。 しかし、これらのメトリクスは、フィールドスポーツ内のチームのダイナミクスを理解するのに十分な情報を提供していません。 マッチプレイの時空間的性質は、データを適切なフォーマットに適切に変換し、活動領域のような特徴を抽出するために、日付エンジニアリングへの投資を必要とする。 本稿では,フィールドスポーツのためのタイムウィンドな空間活動グラフ(TWG)を構築するためのアプローチを提案する。 ゲールフットボールの試合から得られたGPSデータを用いて,GPSセンサデータから時空間的特徴を抽出する方法を実証する。

The global sports analytics industry has a market value of USD 3.78 billion in 2023. The increase of wearables such as GPS sensors has provided analysts with large fine-grained datasets detailing player performance. Traditional analysis of this data focuses on individual athletes with measures of internal and external loading such as distance covered in speed zones or rate of perceived exertion. However these metrics do not provide enough information to understand team dynamics within field sports. The spatio-temporal nature of match play necessitates an investment in date-engineering to adequately transform the data into a suitable format to extract features such as areas of activity. In this paper we present an approach to construct Time-Window Spatial Activity Graphs (TWGs) for field sports. Using GPS data obtained from Gaelic Football matches we demonstrate how our approach can be utilised to extract spatio-temporal features from GPS sensor data
翻訳日:2024-07-22 08:07:30 公開日:2024-05-31
# ツープレイゲームアプローチによるクラスフェアネスの強化

Enhancing Class Fairness in Classification with A Two-Player Game Approach ( http://arxiv.org/abs/2407.03146v1 )

ライセンス: Link先を確認
Yunpeng Jiang, Paul Weng, Yutong Ban, (参考訳) データ拡張は広く適用されており、さまざまな機械学習タスクにおいてそのメリットを示している。 しかし、最近下流のタスクで見られるように、データ拡張は分類に不公平な影響を与える可能性がある。 いくつかのクラスのパフォーマンスを改善することができるが、実際には他のクラスにとって有害であり、いくつかのアプリケーションドメインでは問題となることがある。 本稿では,この現象に対処するため,FACTを用いたFAir分類手法を提案する。 まず,データ拡張を伴う分類器のトレーニングを公正な最適化問題として定式化し,対戦型2プレーヤゲームとして記述する。 この定式化に続いて,クラスに対して公平な解に収束できることを理論的に証明する,新しい乗法重み最適化アルゴリズムを提案する。 興味深いことに、私たちの定式化は、このクラスに対する公平性問題は、データ拡張によるものではなく、実際は一般的な現象であることも明らかにしています。 我々の実証実験は、学習した分類器の性能が5つのデータセットのクラスにかなり分散していることを示し、平均精度に限られた影響しか与えていない。

Data augmentation is widely applied and has shown its benefits in different machine learning tasks. However, as recently observed in some downstream tasks, data augmentation may introduce an unfair impact on classifications. While it can improve the performance of some classes, it can actually be detrimental for other classes, which can be problematic in some application domains. In this paper, to counteract this phenomenon, we propose a FAir Classification approach with a Two-player game (FACT). We first formulate the training of a classifier with data augmentation as a fair optimization problem, which can be further written as an adversarial two-player game. Following this formulation, we propose a novel multiplicative weight optimization algorithm, for which we theoretically prove that it can converge to a solution that is fair over classes. Interestingly, our formulation also reveals that this fairness issue over classes is not due to data augmentation only, but is in fact a general phenomenon. Our empirical experiments demonstrate that the performance of our learned classifiers is indeed more fairly distributed over classes in five datasets, with only limited impact on the average accuracy.
翻訳日:2024-07-07 13:14:55 公開日:2024-05-31
# 単一Trial EEGカテゴリデコーディングにおける模範表現の学習

Learning Exemplar Representations in Single-Trial EEG Category Decoding ( http://arxiv.org/abs/2406.16902v1 )

ライセンス: Link先を確認
Jack Kilgallen, Barak Pearlmutter, Jeffery Mark Siskind, (参考訳) 脳波(EEG)や脳磁図(MEG)のような、ノイズの多いデータ取得システムを扱う場合、実験で試行を繰り返すのが一般的である。 このアプローチは、いくつかの実験的な設計において有用であるが、対象が観察する対象の圏を特定するなど、ある種の分析に重要な制限を与える。 本研究では,1つの対象に関する試行が,トレーニングセットとテストセットの両方に現れると,ほぼすべての分類アルゴリズムが,カテゴリラベルのみを与えられた対象の表現を学習できることを示す。 この物体表現を学習する能力は、脳波信号から観測対象のカテゴリを予測するいくつかの論文の結果が、報告された精度を膨らませた微妙な形の漏れに影響される可能性があることを示唆しているため、特に重要である。 我々は、単純な分類アルゴリズムと高度なディープラーニングモデルの両方の能力を示し、カテゴリラベルのみを与えられたオブジェクト表現を学習する。 我々は、Keinshiro et al (2015)データセットとGifford et al (2022)データセットの2つのデータセットを使用してこれを行う。 本研究の結果は,いくつかの発表モデルの真の一般化可能性に疑問を呈し,これらのモデルの性能が著しく膨らませられる可能性があることを示唆している。

Within neuroimgaing studies it is a common practice to perform repetitions of trials in an experiment when working with a noisy class of data acquisition system, such as electroencephalography (EEG) or magnetoencephalography (MEG). While this approach can be useful in some experimental designs, it presents significant limitations for certain types of analyses, such as identifying the category of an object observed by a subject. In this study we demonstrate that when trials relating to a single object are allowed to appear in both the training and testing sets, almost any classification algorithm is capable of learning the representation of an object given only category labels. This ability to learn object representations is of particular significance as it suggests that the results of several published studies which predict the category of observed objects from EEG signals may be affected by a subtle form of leakage which has inflated their reported accuracies. We demonstrate the ability of both simple classification algorithms, and sophisticated deep learning models, to learn object representations given only category labels. We do this using two datasets; the Kaneshiro et al. (2015) dataset and the Gifford et al. (2022) dataset. Our results raise doubts about the true generalizability of several published models and suggests that the reported performance of these models may be significantly inflated.
翻訳日:2024-07-01 06:41:31 公開日:2024-05-31
# 乱流輸送シミュレーションのための物理増幅型ニューラル演算子

Physics-enhanced Neural Operator for Simulating Turbulent Transport ( http://arxiv.org/abs/2406.04367v1 )

ライセンス: Link先を確認
Shengyu Chen, Peyman Givi, Can Zheng, Xiaowei Jia, (参考訳) 乱流の正確なシミュレーションは、気候科学、淡水科学、エネルギー効率の高い製造プロセスの開発など、様々な科学・工学分野において非常に重要である。 乱流シミュレーションの領域内では, 直接数値シミュレーション(DNS)が最も信頼性の高い手法とされているが, 空間スケールでの長期シミュレーションでは極めて高価である。 効率的なシミュレーションの必要性が高まる中、他の低忠実度シミュレーションからDNSを再構築するか、過去のデータから学んだパターンに基づいてDNSを予測することによって、乱流の機械学習モデルを構築することへの関心が高まっている。 しかし, 乱流の複雑な時空間特性を捉える上で, 標準的な機械学習技術は依然として限られており, 性能と一般化性に限界がある。 本稿では、偏微分方程式(PDE)の物理知識を取り入れた新しい物理強化ニューラル演算子(PENO)を提案し、流れのダイナミクスを正確にモデル化する。 このモデルは、長期シミュレーションにおける累積誤差を低減する自己拡張機構によってさらに洗練される。 提案手法は, 2つの異なる3次元乱流データに対して, 高分解能DNSデータを再構成し, 流動輸送の物理的特性を維持し, 様々な解像度で流れシミュレーションを生成する能力を示す。 さらに、異なるPDEによって生成された複数の2次元渦流列に対する実験結果により、提案手法の伝達性と一般化性を強調した。 これにより、多様な設定下で広範囲のシミュレーションが必要な、幅広い現実世界シナリオに適用可能であることが確認できる。

The precise simulation of turbulent flows is of immense importance in a variety of scientific and engineering fields, including climate science, freshwater science, and the development of energy-efficient manufacturing processes. Within the realm of turbulent flow simulation, direct numerical simulation (DNS) is widely considered to be the most reliable approach, but it is prohibitively expensive for long-term simulation at fine spatial scales. Given the pressing need for efficient simulation, there is an increasing interest in building machine learning models for turbulence, either by reconstructing DNS from alternative low-fidelity simulations or by predicting DNS based on the patterns learned from historical data. However, standard machine learning techniques remain limited in capturing complex spatio-temporal characteristics of turbulent flows, resulting in limited performance and generalizability. This paper presents a novel physics-enhanced neural operator (PENO) that incorporates physical knowledge of partial differential equations (PDEs) to accurately model flow dynamics. The model is further refined by a self-augmentation mechanism to reduce the accumulated error in long-term simulations. The proposed method is evaluated through its performance on two distinct sets of 3D turbulent flow data, showcasing the model's capability to reconstruct high-resolution DNS data, maintain the inherent physical properties of flow transport, and generate flow simulations across various resolutions. Additionally, experimental results on multiple 2D vorticity flow series, generated by different PDEs, highlight the transferability and generalizability of the proposed method. This confirms its applicability to a wide range of real-world scenarios in which extensive simulations are needed under diverse settings.
翻訳日:2024-06-23 14:05:12 公開日:2024-05-31
# SocialNLP Fake-EmoReact 2021 チャレンジ概要:リプライとGIFから偽ツイートを予測する

SocialNLP Fake-EmoReact 2021 Challenge Overview: Predicting Fake Tweets from Their Replies and GIFs ( http://arxiv.org/abs/2406.04368v1 )

ライセンス: Link先を確認
Chien-Kun Huang, Yi-Ting Chang, Lun-Wei Ku, Cheng-Te Li, Hong-Han Shuai, (参考訳) NAACL 2021とともに第9回SocialNLPワークショップで開催されたFake-EmoReact 2021 Challengeの概要を紹介する。 この課題は、EmotionGIFデータセットから返信コンテキストと拡張GIFカテゴリを使用して、ツイートの真正性を予測することである。 実験材料として453k以上のFake-EmoReactデータセットを提供しています。 この挑戦に参加するために24チームが登録され、5チームが評価フェーズに成果を提出しました。 最高のチームはF1スコアを使用してFake-EmoReact 2021データセットで93.9を達成する。 さらに、共有タスクの定義、データ収集、そしてこの課題に参加したチームのパフォーマンスとそのアプローチを示します。

This paper provides an overview of the Fake-EmoReact 2021 Challenge, held at the 9th SocialNLP Workshop, in conjunction with NAACL 2021. The challenge requires predicting the authenticity of tweets using reply context and augmented GIF categories from EmotionGIF dataset. We offer the Fake-EmoReact dataset with more than 453k as the experimental materials, where every tweet is labeled with authenticity. Twenty-four teams registered to participate in this challenge, and 5 submitted their results successfully in the evaluation phase. The best team achieves 93.9 on Fake-EmoReact 2021 dataset using F1 score. In addition, we show the definition of share task, data collection, and the teams' performance that joined this challenge and their approaches.
翻訳日:2024-06-23 14:05:12 公開日:2024-05-31
# RAGはエンタープライズでは機能しない

RAG Does Not Work for Enterprises ( http://arxiv.org/abs/2406.04369v1 )

ライセンス: Link先を確認
Tilmann Bruckhaus, (参考訳) Retrieval-Augmented Generation (RAG)は、知識検索を取り入れた大規模言語モデル出力の精度と妥当性を向上させる。 しかしながら、企業におけるRAGの実装は、データセキュリティ、正確性、スケーラビリティ、統合に関する課題を引き起こします。 本稿では、エンタープライズRAGのユニークな要件について検討し、現在のアプローチと限界を調査し、セマンティック検索、ハイブリッドクエリ、最適化された検索の潜在的な進歩について考察する。 定量テスト,定性分析,アブレーション研究,産業ケーススタディなど,企業RAGソリューションを評価するための評価フレームワークを提案する。 このフレームワークは、エンタープライズグレードのセキュリティ、コンプライアンス、統合による正確性と関連性の向上を実現するために、目的に構築されたRAGアーキテクチャの能力を実証することを目的としている。 論文は、企業展開、制限、今後の研究方向性に影響を及ぼすと結論付けている。 研究者と業界パートナーの緊密なコラボレーションは、検索強化世代技術の開発と展開の進展を加速させる可能性がある。

Retrieval-Augmented Generation (RAG) improves the accuracy and relevance of large language model outputs by incorporating knowledge retrieval. However, implementing RAG in enterprises poses challenges around data security, accuracy, scalability, and integration. This paper explores the unique requirements for enterprise RAG, surveys current approaches and limitations, and discusses potential advances in semantic search, hybrid queries, and optimized retrieval. It proposes an evaluation framework to validate enterprise RAG solutions, including quantitative testing, qualitative analysis, ablation studies, and industry case studies. This framework aims to help demonstrate the ability of purpose-built RAG architectures to deliver accuracy and relevance improvements with enterprise-grade security, compliance and integration. The paper concludes with implications for enterprise deployments, limitations, and future research directions. Close collaboration between researchers and industry partners may accelerate progress in developing and deploying retrieval-augmented generation technology.
翻訳日:2024-06-23 14:05:12 公開日:2024-05-31
# ジェネレーティブAI投票: 公正な集団選択はLLMのバイアスと矛盾に耐性がある

Generative AI Voting: Fair Collective Choice is Resilient to LLM Biases and Inconsistencies ( http://arxiv.org/abs/2406.11871v1 )

ライセンス: Link先を確認
Srijoni Majumdar, Edith Elkind, Evangelos Pournaras, (参考訳) 討論や投票の参加を拡大することは長年にわたる取り組みであり、直接民主主義と正統な集団選択の基盤となっている。 生成人工知能(AI)と大規模言語モデル(LLM)の最近のブレークスルーは、前例のない機会を提供するが、デジタル民主主義のリスクを警告する。 AIパーソナルアシスタントは、人間の認知帯域幅の制限を克服し、意思決定支援機能や、大規模な人間の有権者の直接AI表現を提供する。 しかしながら、この表現の質と、LCMに集団決定を委譲する際の根底にあるバイアスは、対処する上での脅威であり、タイムリーな課題である。 実世界の81の選挙において,50K以上の投票者に対して高いリアリズムを厳格にエミュレートすることにより,より単純で一貫した主要主義選挙と比較して,異なる LLM (GPT 3, GPT 3.5, Llama2) に偏りがあり,複雑な優先投票形式に重大な矛盾があることが示される。 興味深いことに、平等な株式のような公正投票の集計手法は、より公平なAI表現を持つ人間に対するより公平な投票結果として、勝利を証明している。 この新たな基盤となる関係は、低投票率とAI代表者が支持する有権者疲労による進歩主義のシナリオにおける民主的レジリエンスの最高峰を証明している: 棄権された有権者は、より公平な、非常に代表的な投票結果を取り戻すことで緩和される。 これらの洞察は、民主的イノベーションにおけるAIリスクの説明と緩和において、科学、政策立案者、市民に顕著な基盤を提供する。

Scaling up deliberative and voting participation is a longstanding endeavor -- a cornerstone for direct democracy and legitimate collective choice. Recent breakthroughs in generative artificial intelligence (AI) and large language models (LLMs) provide unprecedented opportunities, but also alerting risks for digital democracy. AI personal assistants can overcome cognitive bandwidth limitations of humans, providing decision support capabilities or even direct AI representation of human voters at large scale. However, the quality of this representation and what underlying biases manifest when delegating collective decision making to LLMs is an alarming and timely challenge to tackle. By rigorously emulating with high realism more than >50K LLM voting personas in 81 real-world voting elections, we show that different LLMs (GPT 3, GPT 3.5, and Llama2) come with biases and significant inconsistencies in complex preferential ballot formats, compared to simpler and more consistent majoritarian elections. Strikingly, fair voting aggregation methods, such as equal shares, prove to be a win-win: fairer voting outcomes for humans with fairer AI representation. This novel underlying relationship proves paramount for democratic resilience in progressives scenarios with low voters turnout and voter fatigue supported by AI representatives: abstained voters are mitigated by recovering highly representative voting outcomes that are fairer. These insights provide remarkable foundations for science, policymakers and citizens in explaining and mitigating AI risks in democratic innovations.
翻訳日:2024-06-23 13:24:48 公開日:2024-05-31
# EarlyBirdがWORMを導入 - EarlyBirdコンバージェンスをヒューリスティックに加速

The EarlyBird Gets the WORM: Heuristically Accelerating EarlyBird Convergence ( http://arxiv.org/abs/2406.11872v1 )

ライセンス: Link先を確認
Adithya Vasudev, (参考訳) Lottery Ticket仮説は、未学習の高密度ネットワークに宝くじと呼ばれる理想的なスパースサブネットワークが存在することを示唆している。 Early Bird仮説は、モデルのサブネットワーク内の収束を検出するためにサブネットワーク間の距離という新しい概念を用いて、畳み込みニューラルネットワークでこれらの当選抽選チケットを見つける効率的なアルゴリズムを提案する。 しかし、この手法は探索の終わり近くで重要でないニューロンの変動しないグループを見落としている。 WORMは、これらの静的なグループを利用して勾配を計算し、モデルが他のニューロンに頼らざるを得ないようにする手法である。 実験の結果、WORMはより高速なチケット識別トレーニングを実現し、計算オーバーヘッドの増大にもかかわらずFLOPを少なくすることがわかった。 さらに、WORMプルーンドモデルでは、プルーニング中の精度が低下し、精度が向上し、モデルの堅牢性が向上する。 さらに、WORMはEarly Bird仮説をトランスフォーマーのようなより大きなモデルに合理的に一般化することができ、様々なアーキテクチャに適応する柔軟性を示している。

The Lottery Ticket hypothesis proposes that ideal sparse subnetworks called lottery tickets exist in the untrained dense network. The Early Bird hypothesis proposes an efficient algorithm to find these winning lottery tickets in convolutional neural networks using the novel concept of distance between subnetworks to detect convergence in the subnetworks of a model. However, this approach overlooks unchanging groups of unimportant neurons near the end of the search. We propose WORM, a method that exploits these static groups by truncating their gradients, forcing the model to rely on other neurons. Experiments show WORM achieves faster ticket identification training and uses fewer FLOPs, despite the additional computational overhead. Additionally WORM pruned models lose less accuracy during pruning and recover accuracy faster, improving the robustness of the model. Furthermore, WORM is also able to generalize the Early Bird hypothesis reasonably well to larger models such as transformers, displaying its flexibility to adapt to various architectures.
翻訳日:2024-06-23 13:24:48 公開日:2024-05-31
# 新しい7値論理における複数基準決定の嗜好の表現

Representation of preferences for multiple criteria decision aiding in a new seven-valued logic ( http://arxiv.org/abs/2406.03501v1 )

ライセンス: Link先を確認
Salvatore Greco, Roman Słowiński, (参考訳) この論文で考慮された7値論理は、粗い集合の枠組みの中に自然に現れ、粗さによる曖昧さと不明瞭さによる曖昧さを区別することができる。 近年,オブジェクトの多属性分類を記述するデータに対する推論の有用性について論じている。 また、この論理は、特に有名なベルナップ四値論理を含むことを示した。 ここでは、7値論理とそれに由来する他の論理が、MCDA(Multiple Criteria Decision Aiding)の領域における好みを表現するためにどのように使用できるかを示す。 特に,不完全な選好情報を考慮した複数の基準を集約した,新たな格付けと値関数選好モデルを提案する。 提案手法は,不確実性,不正確性,性能や嗜好の不確定など,MCDAの嗜好モデリングにおける共通の課題に効果的に対処できることを実証する。 そこで本稿では, 意思決定者の選好を表す複数の指数関数や値関数を利用して, 7つの評価された選好関係を構築し, 頑健性を考慮したレコメンデーションを定義するための具体的な手順を提案する。 さらに、提案した7値の選好構造の主な特性について論じ、順序回帰、頑健な順序回帰、確率的多属性受容性分析、確率的順序回帰など、MCDAの現在のアプローチと比較する。 実践的な例を用いて,本手法の適用例を説明し,議論する。 最後に,提案手法の今後の研究と応用に向けての方向性を提案する。

The seven-valued logic considered in this paper naturally arises within the rough set framework, allowing to distinguish vagueness due to imprecision from ambiguity due to coarseness. Recently, we discussed its utility for reasoning about data describing multi-attribute classification of objects. We also showed that this logic contains, as a particular case, the celebrated Belnap four-valued logic. Here, we present how the seven-valued logic, as well as the other logics that derive from it, can be used to represent preferences in the domain of Multiple Criteria Decision Aiding (MCDA). In particular, we propose new forms of outranking and value function preference models that aggregate multiple criteria taking into account imperfect preference information. We demonstrate that our approach effectively addresses common challenges in preference modeling for MCDA, such as uncertainty, imprecision, and ill-determination of performances and preferences. To this end, we present a specific procedure to construct a seven-valued preference relation and use it to define recommendations that consider robustness concerns by utilizing multiple outranking or value functions representing the decision maker s preferences. Moreover, we discuss the main properties of the proposed seven-valued preference structure and compare it with current approaches in MCDA, such as ordinal regression, robust ordinal regression, stochastic multiattribute acceptability analysis, stochastic ordinal regression, and so on. We illustrate and discuss the application of our approach using a didactic example. Finally, we propose directions for future research and potential applications of the proposed methodology.
翻訳日:2024-06-07 19:34:24 公開日:2024-05-31
# 確率変数のキャプチャ:確率的ダウンスケーリングにおけるディープラーニングの利用

Capturing Climatic Variability: Using Deep Learning for Stochastic Downscaling ( http://arxiv.org/abs/2406.02587v1 )

ライセンス: Link先を確認
Kiri Daust, Adam Monahan, (参考訳) 変化する気候に適応するには正確な局地的な気候情報が必要であるが、計算的に難しい問題である。 近年の研究では、複雑な分布とダウンスケールの気候変数を効率的に学習するために、GAN(Generative Adversarial Networks)を用いている。 ダウンスケーリング中の変動を捉えることは、不確実性を推定し、極端な出来事を特徴づけるのに不可欠である。 ダウンスケーリングは未決定の問題であるため、多くの微細な状態は粗解状態と物理的に一致している。 この不正な問題を定量化するためには、ダウンスケーリング手法は確率的であり、低分解能入力で条件付けられた高分解能分布から実例をサンプリングすることができる。 それまでの確率的ダウンスケーリングの試みでは、モデルが完全な分布を表現できなかったため、かなり過小評価されている。 GANの確率的キャリブレーションを改善するための3つの方法を提案する。 a) ネットワーク内のノイズを注入すること b) 確率性を明確に説明するためにトレーニングプロセスを調整すること、及び c) 確率的損失指標を用いて。 我々はまず、既知の分布特性を持つ合成データセットを用いて、続いて現実的なダウンスケーリングシナリオを用いて、低分解能気候共変量からの高分解能風成分を予測した。 単独でノイズを注入することで、合成データを用いたテストでは条件付きおよび完全分布の質が大幅に向上するが、風力ダウンスケーリングでは性能が低下し、モデルが分散しにくい状態に留まった。 風下スケーリングでは,トレーニング方法を調整し,確率的損失を含むキャリブレーションが改善された。 最高のモデルでは、3つの変更すべてで、高解像度分布の完全な変動を捉え、極端を特徴づける能力が大幅に向上した。

Adapting to the changing climate requires accurate local climate information, a computationally challenging problem. Recent studies have used Generative Adversarial Networks (GANs), a type of deep learning, to learn complex distributions and downscale climate variables efficiently. Capturing variability while downscaling is crucial for estimating uncertainty and characterising extreme events - critical information for climate adaptation. Since downscaling is an undetermined problem, many fine-scale states are physically consistent with the coarse-resolution state. To quantify this ill-posed problem, downscaling techniques should be stochastic, able to sample realisations from a high-resolution distribution conditioned on low-resolution input. Previous stochastic downscaling attempts have found substantial underdispersion, with models failing to represent the full distribution. We propose approaches to improve the stochastic calibration of GANs in three ways: a) injecting noise inside the network, b) adjusting the training process to explicitly account for the stochasticity, and c) using a probabilistic loss metric. We tested our models first on a synthetic dataset with known distributional properties, and then on a realistic downscaling scenario, predicting high-resolution wind components from low-resolution climate covariates. Injecting noise, on its own, substantially improved the quality of conditional and full distributions in tests with synthetic data, but performed less well for wind field downscaling, where models remained underdispersed. For wind downscaling, we found that adjusting the training method and including the probabilistic loss improved calibration. The best model, with all three changes, showed much improved skill at capturing the full variability of the high-resolution distribution and thus at characterising extremes.
翻訳日:2024-06-06 23:49:24 公開日:2024-05-31
# ナノマテリアル形態予測におけるAIの可能性

Unveiling the Potential of AI for Nanomaterial Morphology Prediction ( http://arxiv.org/abs/2406.02591v1 )

ライセンス: Link先を確認
Ivan Dubrovsky, Andrei Dmitrenko, Aleksei Dmitrenko, Nikita Serov, Vladimir Vinogradov, (参考訳) 特定の形態を持つナノマテリアルの創製は、様々な産業分野で需要が高まっているにもかかわらず、複雑な実験プロセスのままである。 本研究は、データ可用性制約内のナノ粒子の形態を予測するAIの可能性について検討する。 そこで我々はまず,類似研究の2倍の大きさのマルチモーダルデータセットを作成した。 そこで我々は,ナノマテリアルの形状と大きさを予測するため,古典的機械学習と大規模言語モデルの性能を体系的に評価した。 最後に,テキスト・ツー・イメージシステムのプロトタイプを作成し,得られた実験結果と既存のアプローチの限界と約束について議論した。

Creation of nanomaterials with specific morphology remains a complex experimental process, even though there is a growing demand for these materials in various industry sectors. This study explores the potential of AI to predict the morphology of nanoparticles within the data availability constraints. For that, we first generated a new multi-modal dataset that is double the size of analogous studies. Then, we systematically evaluated performance of classical machine learning and large language models in prediction of nanomaterial shapes and sizes. Finally, we prototyped a text-to-image system, discussed the obtained empirical results, as well as the limitations and promises of existing approaches.
翻訳日:2024-06-06 23:49:24 公開日:2024-05-31
# LOLAMEME:ロジック、言語、メモリ、メカニスティックフレームワーク

LOLAMEME: Logic, Language, Memory, Mechanistic Framework ( http://arxiv.org/abs/2406.02592v1 )

ライセンス: Link先を確認
Jay Desai, Xiaobo Guo, Srinivasan H. Sengamedu, (参考訳) 大規模言語モデルの性能は、前例のない深さで超人的な広さを達成した。 同時に、言語モデルは大部分がブラックボックスモデルであり、その基盤となる性能メカニズムは、合成的または機械的スキームを用いて評価されている。 我々は、現在の機械的スキームを拡張して、潜在構造のような言語の論理、記憶、ニュアンスを組み込む。 提案するフレームワークはLOLAMEMEと呼ばれ、LOLAMEMEの2つのインスタンス(LoLa言語とMeMe言語)を提供する。 次に、トランスフォーマーベースGPT-2と畳み込みベースHyenaの2つの生成言語モデルアーキテクチャについて検討する。 本稿では,ハイブリッドアーキテクチャT HEXを提案し,LOLAMEMEフレームワークを用いて3つのアーキテクチャを比較する。 T HEX は GPT-2 と Hyena より優れている。

The performance of Large Language Models has achieved superhuman breadth with unprecedented depth. At the same time, the language models are mostly black box models and the underlying mechanisms for performance have been evaluated using synthetic or mechanistic schemes. We extend current mechanistic schemes to incorporate Logic, memory, and nuances of Language such as latent structure. The proposed framework is called LOLAMEME and we provide two instantiations of LOLAMEME: LoLa and MeMe languages. We then consider two generative language model architectures: transformer-based GPT-2 and convolution-based Hyena. We propose the hybrid architecture T HEX and use LOLAMEME framework is used to compare three architectures. T HEX outperforms GPT-2 and Hyena on select tasks.
翻訳日:2024-06-06 23:49:24 公開日:2024-05-31
# プライバシ保護機械学習の安定性向上のための新しい技術レビュー

A Novel Review of Stability Techniques for Improved Privacy-Preserving Machine Learning ( http://arxiv.org/abs/2406.00073v1 )

ライセンス: Link先を確認
Coleman DuPlessie, Aidan Gao, (参考訳) 機械学習モデルは、最近、サイズと人気が大幅に増加した。 しかし、この成長はデータセットのプライバシーに関する懸念を引き起こしている。 データ漏洩に対処するため、さまざまなプライバシーフレームワークは、機械学習モデルの出力がトレーニングデータを損なわないことを保証している。 しかし、この民営化はトレーニングプロセスにランダムノイズを加えることでコストがかかるため、モデルの性能が低下する。 入力の小さな変更に対してより耐性を持たせ、したがってより安定させることで、プライバシーを保護しながら必要なノイズ量を削減できる。 本稿では, 機械学習における民営化の悪影響を最小限に抑えるため, 安定性向上のための様々な手法について検討する。

Machine learning models have recently enjoyed a significant increase in size and popularity. However, this growth has created concerns about dataset privacy. To counteract data leakage, various privacy frameworks guarantee that the output of machine learning models does not compromise their training data. However, this privatization comes at a cost by adding random noise to the training process, which reduces model performance. By making models more resistant to small changes in input and thus more stable, the necessary amount of noise can be decreased while still protecting privacy. This paper investigates various techniques to enhance stability, thereby minimizing the negative effects of privatization in machine learning.
翻訳日:2024-06-06 08:43:16 公開日:2024-05-31
# 付加のための任意長一般化法

Arbitrary Length Generalization for Addition ( http://arxiv.org/abs/2406.00075v1 )

ライセンス: Link先を確認
Alexandre Galvao Patriota, (参考訳) 本稿では,2桁の数値を未知の桁数に加算する手法を,小型トランスフォーマーモデルで実現するための新しいトレーニング手法を提案する。 提案手法では, 右から左へ処理を行う自己回帰生成手法を用いて, 多数の値を追加するための共通手動手法を模倣する。 私の知る限りでは、この方法論は文献ではこれまで研究されていない。 すべての結果は再現可能であり、対応するRコードは以下の通りである。

This paper introduces a novel training methodology that enables a small Transformer model to generalize the addition of two-digit numbers to numbers with unseen lengths of digits. The proposed approach employs an autoregressive generation technique, processing from right to left, which mimics a common manual method for adding large numbers. To the best of my knowledge, this methodology has not been previously explored in the literature. All results are reproducible, and the corresponding R code is available at: \url{https://github.com/AGPatriota/ALGA-R/}.
翻訳日:2024-06-06 08:43:16 公開日:2024-05-31
# 決定マンバ:ハイブリッド選択シーケンスモデリングによる強化学習

Decision Mamba: Reinforcement Learning via Hybrid Selective Sequence Modeling ( http://arxiv.org/abs/2406.00079v1 )

ライセンス: Link先を確認
Sili Huang, Jifeng Hu, Zhejian Yang, Liwei Yang, Tao Luo, Hechang Chen, Lichao Sun, Bo Yang, (参考訳) 近年の研究では、決定問題を逐次生成として定式化する強化学習(RL)において、変圧器モデルの顕著な優位性を示している。 トランスフォーマーベースのエージェントは、インコンテキストRLと呼ばれる複数のトラジェクトリのようなタスクコンテキストを提供することで、オンライン環境で自己改善を行うことができる。 しかし、変圧器における注意の2次計算の複雑さのため、現在のコンテキスト内RL法はタスクの水平線が増加するにつれて計算コストの増大に悩まされる。 対照的に、Mambaモデルは、長期依存を処理する効率的な能力で知られており、長期記憶を必要とするタスクを解決するためのコンテキスト内RLを提供する。 この目的のために、まずDecision Mamba (DM) を実装し、Decision Transformer (DT) のバックボーンを置き換える。 そこで我々は,高品質な予測と長期記憶において,トランスフォーマーとマンバの利点を活かした決定型マンバ・ヒブリッド(DM-H)を提案する。 具体的には、DM-Hはまず、Mambaモデルを通して長期記憶から高値のサブゴールを生成する。 そして、サブゴールを用いてトランスフォーマーを誘導し、高品質な予測を確立する。 実験の結果,DM-HはD4RL,Grid World,Tmazeベンチマークなど,長期的および短期的なタスクにおいて最先端の処理を実現することがわかった。 効率性に関しては、長期的なタスクにおけるDM-Hのオンラインテストは、トランスフォーマーベースのベースラインの28$\times$倍高速である。

Recent works have shown the remarkable superiority of transformer models in reinforcement learning (RL), where the decision-making problem is formulated as sequential generation. Transformer-based agents could emerge with self-improvement in online environments by providing task contexts, such as multiple trajectories, called in-context RL. However, due to the quadratic computation complexity of attention in transformers, current in-context RL methods suffer from huge computational costs as the task horizon increases. In contrast, the Mamba model is renowned for its efficient ability to process long-term dependencies, which provides an opportunity for in-context RL to solve tasks that require long-term memory. To this end, we first implement Decision Mamba (DM) by replacing the backbone of Decision Transformer (DT). Then, we propose a Decision Mamba-Hybrid (DM-H) with the merits of transformers and Mamba in high-quality prediction and long-term memory. Specifically, DM-H first generates high-value sub-goals from long-term memory through the Mamba model. Then, we use sub-goals to prompt the transformer, establishing high-quality predictions. Experimental results demonstrate that DM-H achieves state-of-the-art in long and short-term tasks, such as D4RL, Grid World, and Tmaze benchmarks. Regarding efficiency, the online testing of DM-H in the long-term task is 28$\times$ times faster than the transformer-based baselines.
翻訳日:2024-06-06 08:43:16 公開日:2024-05-31
# 量子交差のアドホック防止による効率的な多重量子回帰ネットワーク

An Efficient Multi Quantile Regression Network with Ad Hoc Prevention of Quantile Crossing ( http://arxiv.org/abs/2406.00080v1 )

ライセンス: Link先を確認
Jens Decke, Arne Jenß, Bernhard Sick, Christian Gruhl, (参考訳) 本稿では,Sorting Composite Quantile Regression Neural Network (SCQRNN)について述べる。 トレーニングにおいてアドホックソートを統合することで、SCQRNNは非交差量子化を保証するとともに、モデルの信頼性と解釈可能性を高める。 SCQRNNは、量子交差を防止し、計算複雑性を低減するだけでなく、従来のモデルよりも高速な収束を実現することを実証する。 この進歩は、持続的で正確な計算のための高性能コンピューティングの要求を満たす。 有機コンピューティングにおいて、SCQRNNは予測の不確実性による自己認識システムを強化し、金融、気象学、気候科学、工学にまたがる応用を充実させる。

This article presents the Sorting Composite Quantile Regression Neural Network (SCQRNN), an advanced quantile regression model designed to prevent quantile crossing and enhance computational efficiency. Integrating ad hoc sorting in training, the SCQRNN ensures non-intersecting quantiles, boosting model reliability and interpretability. We demonstrate that the SCQRNN not only prevents quantile crossing and reduces computational complexity but also achieves faster convergence than traditional models. This advancement meets the requirements of high-performance computing for sustainable, accurate computation. In organic computing, the SCQRNN enhances self-aware systems with predictive uncertainties, enriching applications across finance, meteorology, climate science, and engineering.
翻訳日:2024-06-06 08:43:16 公開日:2024-05-31
# 構造化から非構造化へ:メッシュ型PDEの解法におけるコンピュータビジョンとグラフモデルの比較分析

From Structured to Unstructured:A Comparative Analysis of Computer Vision and Graph Models in solving Mesh-based PDEs ( http://arxiv.org/abs/2406.00081v1 )

ライセンス: Link先を確認
Jens Decke, Olaf Wünsch, Bernhard Sick, Christian Gruhl, (参考訳) 本稿では,ハイパフォーマンスコンピューティング環境におけるメッシュ型偏微分方程式の解法におけるコンピュータビジョンとグラフベースモデルの適用について検討する。 この研究は、構造化された、グレード化された、非構造化のメッシュに焦点を当て、3つのコンピュータビジョンベースのモデルのパフォーマンスと計算効率を、3つのデータセットにわたる3つのグラフベースのモデルと比較した。 この研究は、異なるメッシュトポグラフィーに最も適したモデルを特定することを目的としており、特に研究の少ない領域であるグレードメッシュの探索に焦点を当てている。 その結果、コンピュータビジョンに基づくモデル、特にU-Netは、3つのメッシュトポグラフィーのうち2つの(構造化およびグレード化された)性能と効率の予測において、グラフモデルより優れていることが示された。 この研究は、非構造化メッシュを扱う際のコンピュータビジョンベースのモデルの予期せぬ効果を明らかにし、データ駆動偏微分方程式学習における方法論的アプローチの潜在的シフトを示唆している。 この記事では、メッシュのトポグラフィに基づく情報モデル選択を提唱する、従来の高性能コンピューティング手法を強化するための、ディープラーニングを実現可能で持続可能な方法として強調する。

This article investigates the application of computer vision and graph-based models in solving mesh-based partial differential equations within high-performance computing environments. Focusing on structured, graded structured, and unstructured meshes, the study compares the performance and computational efficiency of three computer vision-based models against three graph-based models across three data\-sets. The research aims to identify the most suitable models for different mesh topographies, particularly highlighting the exploration of graded meshes, a less studied area. Results demonstrate that computer vision-based models, notably U-Net, outperform the graph models in prediction performance and efficiency in two (structured and graded) out of three mesh topographies. The study also reveals the unexpected effectiveness of computer vision-based models in handling unstructured meshes, suggesting a potential shift in methodological approaches for data-driven partial differential equation learning. The article underscores deep learning as a viable and potentially sustainable way to enhance traditional high-performance computing methods, advocating for informed model selection based on the topography of the mesh.
翻訳日:2024-06-06 08:43:16 公開日:2024-05-31
# マルチスタブル物理ニューラルネットワーク

Multistable Physical Neural Networks ( http://arxiv.org/abs/2406.00082v1 )

ライセンス: Link先を確認
Eran Ben-Haim, Sefi Givli, Yizhar Or, Amir Gat, (参考訳) 脳にインスパイアされた人工知能ニューラルネットワーク(ANN)は、人工知能の現在進行中のブレークスルーの柱である。 近年、研究者は物理ニューラルネットワーク(PNN)と呼ばれるANNの機械的実装を調査している。 PNNは、一般的な材料や物理現象をネットワークとして見る機会を提供し、計算能力とそれらを関連付ける。 本研究では,PNNに機械的不安定性を導入し,メモリと計算と物理動作の直接リンクを可能にする。 そこで本研究では,バイスタブル液体充填チャンバーの相互接続ネットワークについて検討する。 まず、可能な平衡配置や定常状態の全てをマッピングし、その安定性を検証します。 これらのマップ上に構築されたマルチスタブルPNNをトレーニングするためのグローバルアルゴリズムとローカルアルゴリズムの両方を実装した。 これらのアルゴリズムにより、安定した出力状態を達成するネットワークの能力を体系的に検証することができ、それによって、ネットワークが計算タスクを実行することができる。 PNNとマルチスタビリティを取り入れることで、電子ニューラルネットワークと関連したタスクを機械的に実行する構造を設計できると同時に、物理的アクティベーションを直接取得できる。 我々の研究から得られた洞察は、スマートテクノロジー、メタマテリアル、医療機器、ソフトロボティクス、その他の分野におけるインテリジェントな構造の実装の道を開いた。

Artificial neural networks (ANNs), which are inspired by the brain, are a central pillar in the ongoing breakthrough in artificial intelligence. In recent years, researchers have examined mechanical implementations of ANNs, denoted as Physical Neural Networks (PNNs). PNNs offer the opportunity to view common materials and physical phenomena as networks, and to associate computational power with them. In this work, we incorporated mechanical bistability into PNNs, enabling memory and a direct link between computation and physical action. To achieve this, we consider an interconnected network of bistable liquid-filled chambers. We first map all possible equilibrium configurations or steady states, and then examine their stability. Building on these maps, both global and local algorithms for training multistable PNNs are implemented. These algorithms enable us to systematically examine the network's capability to achieve stable output states and thus the network's ability to perform computational tasks. By incorporating PNNs and multistability, we can design structures that mechanically perform tasks typically associated with electronic neural networks, while directly obtaining physical actuation. The insights gained from our study pave the way for the implementation of intelligent structures in smart tech, metamaterials, medical devices, soft robotics, and other fields.
翻訳日:2024-06-06 08:43:16 公開日:2024-05-31
# 主抑うつ障害同定のための拡張型非教師付きクロスドメイン機能MRI適応

Augmentation-based Unsupervised Cross-Domain Functional MRI Adaptation for Major Depressive Disorder Identification ( http://arxiv.org/abs/2406.00085v1 )

ライセンス: Link先を確認
Yunling Ma, Chaojun Zhang, Xiaochuan Wang, Qianqian Wang, Liang Cao, Limei Zhang, Mingxia Liu, (参考訳) メジャー・うつ病(Major depressive disorder、MDD)は、一般的に人の気分、認知、行動、身体的健康に影響を及ぼす一般的な精神障害である。 静止状態機能型MRI(rs-fMRI)はMDDのコンピュータ診断に広く用いられている。 マルチサイトfMRIデータは、信頼性のある診断モデルのトレーニングのためにより多くのデータを提供することができるが、重要なクロスサイトデータの異質性は、モデルの一般化性を低下させる。 多くのドメイン適応法は、サイト間の分布差をある程度低減するために設計されているが、通常、ソースドメイン上のモデルの過度な適合問題を無視する。 直感的には、ターゲットデータ拡張は、モデルにより一般化された特徴を学習させ、ソースドメインデータへの依存を減らすことで、オーバーフィッティング問題を緩和することができる。 本研究では,MDDの自動診断のための拡張型非教師なしクロスドメインfMRI適応(AUFA)フレームワークを提案する。 AUFAは 1)空間的注意を払ってrs-fMRI特徴を抽出するグラフ表現学習モジュール。 2 ソースデータとターゲットデータとの間の特徴整合のためのドメイン適応モジュール 3)ソースドメイン上のモデルオーバーフィッティングを緩和するための拡張ベースの自己最適化モジュール。 4)分類モジュール。 1,089人の被験者に対する実験結果から、AUFAはMDDの同定においていくつかの最先端の手法より優れていることが示唆された。 提案手法は, 異なる部位間のデータの均一性を低下させるだけでなく, 疾患関連機能的接続異常の局在化や, モデルに対する解釈可能性も提供する。

Major depressive disorder (MDD) is a common mental disorder that typically affects a person's mood, cognition, behavior, and physical health. Resting-state functional magnetic resonance imaging (rs-fMRI) data are widely used for computer-aided diagnosis of MDD. While multi-site fMRI data can provide more data for training reliable diagnostic models, significant cross-site data heterogeneity would result in poor model generalizability. Many domain adaptation methods are designed to reduce the distributional differences between sites to some extent, but usually ignore overfitting problem of the model on the source domain. Intuitively, target data augmentation can alleviate the overfitting problem by forcing the model to learn more generalized features and reduce the dependence on source domain data. In this work, we propose a new augmentation-based unsupervised cross-domain fMRI adaptation (AUFA) framework for automatic diagnosis of MDD. The AUFA consists of 1) a graph representation learning module for extracting rs-fMRI features with spatial attention, 2) a domain adaptation module for feature alignment between source and target data, 3) an augmentation-based self-optimization module for alleviating model overfitting on the source domain, and 4) a classification module. Experimental results on 1,089 subjects suggest that AUFA outperforms several state-of-the-art methods in MDD identification. Our approach not only reduces data heterogeneity between different sites, but also localizes disease-related functional connectivity abnormalities and provides interpretability for the model.
翻訳日:2024-06-06 08:43:16 公開日:2024-05-31
# 変圧器ニューラルネットと量子シミュレーター:強相関系シミュレーションのためのハイブリッドアプローチ

Transformer neural networks and quantum simulators: a hybrid approach for simulating strongly correlated systems ( http://arxiv.org/abs/2406.00091v1 )

ライセンス: Link先を確認
Hannah Lange, Guillaume Bornet, Gabriel Emperauger, Cheng Chen, Thierry Lahaye, Stefan Kienle, Antoine Browaeys, Annabelle Bohrdt, (参考訳) その表現性と汎用性のために、ニューラルネットワークは大規模な2次元量子多体系をシミュレートするために注目を集めている。 しかし、その表現力は、一般に粗く複雑な損失の状況のため、挑戦的な最適化のコストが伴う。 本稿では、数値または実験データを用いたデータ駆動事前学習と、ハミルトン駆動最適化の第2段階を含む、ニューラル量子状態(NQS)のハイブリッド最適化手法を提案する。 スピンスピン相関などの他の測定条件からの予測値と計算ベースからの予測値の両方を用いることで、事前学習により状態のサイン構造にアクセスでき、堅牢な実験的不完全性や限られたデータセットに対してより高速な収束が得られる。 このハイブリッドスキームを,プログラム可能なRydberg量子シミュレータ(Chen et al , Nature 616 (2023))の数値および実験データを用いて,6-times 6$ and 10\times 10$ square lattices with a patched transformer wave function, using the numerical and experimental data from a Programmable Rydberg quantum simulator [Chen et al , Nature 616 (2023)], with the snapshots of the quantum system obtained from the different Measurements and show that the second basis from the information to the performance。 我々の研究は、ニューラル量子状態の信頼性と効率的な最適化の道を開いた。

Owing to their great expressivity and versatility, neural networks have gained attention for simulating large two-dimensional quantum many-body systems. However, their expressivity comes with the cost of a challenging optimization due to the in general rugged and complicated loss landscape. Here, we present a hybrid optimization scheme for neural quantum states (NQS) that involves a data-driven pretraining with numerical or experimental data and a second, Hamiltonian-driven optimization stage. By using both projective measurements from the computational basis as well as expectation values from other measurement configurations such as spin-spin correlations, our pretraining gives access to the sign structure of the state, yielding improved and faster convergence that is robust w.r.t. experimental imperfections and limited datasets. We apply the hybrid scheme to the ground state search for the 2D transverse field Ising model and the 2D dipolar XY model on $6\times 6$ and $10\times 10$ square lattices with a patched transformer wave function, using numerical and experimental data from a programmable Rydberg quantum simulator [Chen et al., Nature 616 (2023)], with snapshots of the quantum system obtained from the different measurement configurations, and show that the information from the second basis highly improves the performance. Our work paves the way for a reliable and efficient optimization of neural quantum states.
翻訳日:2024-06-06 08:43:16 公開日:2024-05-31
# ランダムとは何か? LLMのコインフリップのランダム性と人間性の評価

How Random is Random? Evaluating the Randomness and Humaness of LLMs' Coin Flips ( http://arxiv.org/abs/2406.00092v1 )

ライセンス: Link先を確認
Katherine Van Koevering, Jon Kleinberg, (参考訳) 人間の特徴の1つは、ランダムであることができないことです。 何もすべきでないパターンを見て生成し、予測可能な方法でそれを実行します。 LLMは人間のデータによって供給され、人間の偏見に左右される。 本研究では、LLMがランダムネスにどのように近づき、どのようにして二進乱数列を生成するよく研究された現象のレンズを通して失敗するかを考察する。 GPT 4 と Llama 3 は、この文脈でテストしたほとんど全ての人間のバイアスを増悪するが、GPT 3.5 はよりランダムな振る舞いを示す。 ランダム性やヒューマネスのこの二分法は、LLMの基本的問題として提案され、どちらの行動も異なる状況で有用である可能性がある。

One uniquely human trait is our inability to be random. We see and produce patterns where there should not be any and we do so in a predictable way. LLMs are supplied with human data and prone to human biases. In this work, we explore how LLMs approach randomness and where and how they fail through the lens of the well studied phenomena of generating binary random sequences. We find that GPT 4 and Llama 3 exhibit and exacerbate nearly every human bias we test in this context, but GPT 3.5 exhibits more random behavior. This dichotomy of randomness or humaness is proposed as a fundamental question of LLMs and that either behavior may be useful in different circumstances.
翻訳日:2024-06-06 08:43:16 公開日:2024-05-31
# Bootstrap3D: 合成データによる3Dコンテンツ作成の改善

Bootstrap3D: Improving 3D Content Creation with Synthetic Data ( http://arxiv.org/abs/2406.00093v1 )

ライセンス: Link先を確認
Zeyi Sun, Tong Wu, Pan Zhang, Yuhang Zang, Xiaoyi Dong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang, (参考訳) 近年,3次元コンテンツ作成のための多視点拡散モデルが顕著に進歩している。 しかし,2次元拡散モデルと比較すると,画像品質と高速追従能力には大きな差がある。 重要なボトルネックは、詳細なキャプションを備えた高品質な3Dアセットの不足である。 この課題に対処するため、我々は、任意の量のマルチビュー画像を自動生成し、マルチビュー拡散モデルのトレーニングを支援する新しいフレームワークBootstrap3Dを提案する。 具体的には,(1)2Dおよびビデオ拡散モデルを用いて,構築されたテキストプロンプトに基づいてマルチビュー画像を生成するデータ生成パイプラインを導入し,(2)高品質なデータをフィルタリングし,不正確な字幕を書き換えるための細調整された3D対応MV-LLaVAを提案する。 このパイプラインを活用することで、高品質な3Dデータの不足に対処するため、高密度な記述キャプションを備えた100万の高品質な合成マルチビュー画像を生成しました。 さらに,従来の2次元拡散を事前に維持しつつ,マルチビューの一貫性を学習するために,デノナイズプロセスを活用するトレーニングタイムステップ再スケジュール(TTR)戦略を提案する。 大規模な実験により、Bootstrap3Dは優れた美的品質、画像テキストアライメント、メンテナンスされたビュー一貫性を備えた高品質なマルチビュー画像を生成することができることが示された。

Recent years have witnessed remarkable progress in multi-view diffusion models for 3D content creation. However, there remains a significant gap in image quality and prompt-following ability compared to 2D diffusion models. A critical bottleneck is the scarcity of high-quality 3D assets with detailed captions. To address this challenge, we propose Bootstrap3D, a novel framework that automatically generates an arbitrary quantity of multi-view images to assist in training multi-view diffusion models. Specifically, we introduce a data generation pipeline that employs (1) 2D and video diffusion models to generate multi-view images based on constructed text prompts, and (2) our fine-tuned 3D-aware MV-LLaVA for filtering high-quality data and rewriting inaccurate captions. Leveraging this pipeline, we have generated 1 million high-quality synthetic multi-view images with dense descriptive captions to address the shortage of high-quality 3D data. Furthermore, we present a Training Timestep Reschedule (TTR) strategy that leverages the denoising process to learn multi-view consistency while maintaining the original 2D diffusion prior. Extensive experiments demonstrate that Bootstrap3D can generate high-quality multi-view images with superior aesthetic quality, image-text alignment, and maintained view consistency.
翻訳日:2024-06-06 08:43:16 公開日:2024-05-31
# 量子双極子アレイにおけるディラックスピン液体

Dirac spin liquid in quantum dipole arrays ( http://arxiv.org/abs/2406.00098v1 )

ライセンス: Link先を確認
Marcus Bintz, Vincent S. Liu, Johannes Hauschild, Ahmed Khalifa, Shubhayu Chatterjee, Michael P. Zaletel, Norman Y. Yao, (参考訳) 空隙のない$U(1)$ Diracスピン液体は自然に2次元の量子双極子の配列に現れると予測する。 特に、双極XYモデル$\unicode{x2014}$realized in both Rydberg atom arrays and Ultracold polar molecules$\unicode{x2014}$hosts a quantum spin liquid ground state on the kagome lattice。 大規模密度行列再正規化群計算は、このスピン液体が、$U(1)$ Dirac スピン液体と一致する、ギャップのない線形分散スピノンのシグネチャを示すことを示している。 本手法により, 実測的な時間スケールで低温スピン液体を調製できることが実証された。 最後に、終端依存エッジモードや局所摂動に対するフリーデル応答を含む、短期量子シミュレータに合わせたディラックスピン液体の新規なシグネチャを提案する。

We predict that the gapless $U(1)$ Dirac spin liquid naturally emerges in a two-dimensional array of quantum dipoles. In particular, we demonstrate that the dipolar XY model$\unicode{x2014}$realized in both Rydberg atom arrays and ultracold polar molecules$\unicode{x2014}$hosts a quantum spin liquid ground state on the kagome lattice. Large-scale density matrix renormalization group calculations indicate that this spin liquid exhibits signatures of gapless, linearly-dispersing spinons, consistent with the $U(1)$ Dirac spin liquid. We identify a route to adiabatic preparation via staggered on-site fields and demonstrate that this approach can prepare cold spin liquids within experimentally realistic time-scales. Finally, we propose a number of novel signatures of the Dirac spin liquid tailored to near-term quantum simulators, including termination-dependent edge modes and the Friedel response to a local perturbation.
翻訳日:2024-06-06 08:33:32 公開日:2024-05-31
# 後方学習によるスケーラブルベイズ学習

Scalable Bayesian Learning with posteriors ( http://arxiv.org/abs/2406.00104v1 )

ライセンス: Link先を確認
Samuel Duffield, Kaelan Donatella, Johnathan Chiu, Phoebe Klett, Daniel Simpson, (参考訳) 理論的には魅力的ではあるが、現代の機械学習モデルを用いたベイズ学習は、高次元の後方分布を近似する必要があるため、計算的に困難である。 この作品では、 i) 容易に拡張可能なPyTorchライブラリであるPostorsを導入し、ベイジアン学習を大規模データやパラメーターレシエーションに対してアクセスしやすくスケーラブルにする汎用実装をホストする。 2) 後方に実装された確率勾配マルコフ連鎖モンテカルロの温和なフレーミングは、最適化にシームレスに移行し、ベイズ後方に漸近的に偏りがないことを保証するために、深層アンサンブルへの小さな修正を提示する。 3) ベイズ近似の有用性を実験により実証・比較し, 寒冷後部効果と大規模言語モデルを用いた応用について検討した。

Although theoretically compelling, Bayesian learning with modern machine learning models is computationally challenging since it requires approximating a high dimensional posterior distribution. In this work, we (i) introduce posteriors, an easily extensible PyTorch library hosting general-purpose implementations making Bayesian learning accessible and scalable to large data and parameter regimes; (ii) present a tempered framing of stochastic gradient Markov chain Monte Carlo, as implemented in posteriors, that transitions seamlessly into optimization and unveils a minor modification to deep ensembles to ensure they are asymptotically unbiased for the Bayesian posterior, and (iii) demonstrate and compare the utility of Bayesian approximations through experiments including an investigation into the cold posterior effect and applications with large language models.
翻訳日:2024-06-06 08:33:32 公開日:2024-05-31
# マルチストラテジーフュージョンを用いた動的多目的ライオン群最適化:6Rロボット軌道への応用

Dynamic Multi-Objective Lion Swarm Optimization with Multi-strategy Fusion: An application in 6R robot trajectory ( http://arxiv.org/abs/2406.00114v1 )

ライセンス: Link先を確認
Bao Liu, Tianbao Liu, Lei Gao, Zhongshuo Hu, Fei Ye, (参考訳) 工業化の進展により、Lion Swarm Optimization(LSO)はその堅牢性と効率性で注目され、革新的なSwarmインテリジェンスアルゴリズムが発展してきた。 しかし、LSOの多目的変種は、初期化の貧弱、局所的最適包摂、動的環境への適応の遅さに苦慮している。 本研究では,MF-DMOLSO(MF-DMOLSO)を用いた動的多目的ライオン群最適化手法を提案する。 MF−DMOLSOは、カオスマッピングを用いた初期化部と、非支配と多様性に基づく行動パターンを強化する位置更新部と、外部アーカイブ更新部とを備える。 ベンチマーク関数の評価では、MF-DMOLSOが既存のアルゴリズムより優れており、比較アルゴリズムを90%超の精度で達成している。 6Rロボット軌道計画に適用した場合,MF-DMOLSOは最大走行時間を8.3s,0.3pi rad/s^2に最適化し,多目的粒子群最適化では2%に対して70.97%に設定し,効率の向上とメカニカルディザーの低減を実現した。

The advancement of industrialization has fostered innovative swarm intelligence algorithms, with Lion Swarm Optimization (LSO) being notable for its robustness and efficiency. However, multi-objective variants of LSO struggle with poor initialization, local optima entrapment, and slow adaptation to dynamic environments. This study proposes a Dynamic Multi-Objective Lion Swarm Optimization with Multi-strategy Fusion (MF-DMOLSO) to overcome these challenges. MF-DMOLSO includes an initialization unit using chaotic mapping, a position update unit enhancing behavior patterns based on non-domination and diversity, and an external archive update unit. Evaluations on benchmark functions showed MF-DMOLSO outperformed existing algorithms achieving an accuracy that exceeds the comparison algorithm by 90%. Applied to 6R robot trajectory planning, MF-DMOLSO optimized running time and maximum acceleration to 8.3s and 0.3pi rad/s^2, respectively, achieving a set coverage rate of 70.97% compared to 2% by multi-objective particle swarm optimization, thus improving efficiency and reducing mechanical dither.
翻訳日:2024-06-06 08:33:32 公開日:2024-05-31
# 解釈可能な機械学習におけるタスク関連特性の同定のためのSim2Realアプローチ

A Sim2Real Approach for Identifying Task-Relevant Properties in Interpretable Machine Learning ( http://arxiv.org/abs/2406.00116v1 )

ライセンス: Link先を確認
Eura Nofshin, Esther Brown, Brian Lim, Weiwei Pan, Finale Doshi-Velez, (参考訳) 既存のユーザー研究は、異なるタスクは異なる特性を持つ説明を必要とするかもしれないことを示唆している。 しかし、ユーザスタディは高価である。 本稿では,シリコにおけるタスク関連説明特性を識別する汎用的で費用対効果の高い手法を提案する。 提案手法は,3つの実例に対して関連するプロキシを同定し,実ユーザによるシミュレーションの有効性を検証する。

Existing user studies suggest that different tasks may require explanations with different properties. However, user studies are expensive. In this paper, we introduce a generalizable, cost-effective method for identifying task-relevant explanation properties in silico, which can guide the design of more expensive user studies. We use our approach to identify relevant proxies for three example tasks and validate our simulation with real user studies.
翻訳日:2024-06-06 08:33:32 公開日:2024-05-31
# ADEP: 判別器強化エンコーダデコーダアーキテクチャに基づく多薬効の逆効果の高精度予測のための新しいアプローチ

ADEP: A Novel Approach Based on Discriminator-Enhanced Encoder-Decoder Architecture for Accurate Prediction of Adverse Effects in Polypharmacy ( http://arxiv.org/abs/2406.00118v1 )

ライセンス: Link先を確認
Katayoun Kobraei, Mehrdad Baradaran, Seyed Mohsen Sadeghi, Raziyeh Masumshah, Changiz Eslahchi, (参考訳) モチベーション(Motivation):予想外の薬物・薬物相互作用(DDIs)は多薬局に重大なリスクをもたらし、予測方法の必要性を強調している。 近年の計算技術の進歩は、この問題に対処することを目指している。 方法: 識別器とエンコーダデコーダモデルを組み合わせた新しい手法であるADEPを導入する。 ADEPは多薬効の悪影響を予測するために、複数の分類方法を含む3部モデルを採用している。 GGI-DDI, SSF-DDI, LSFC, DPSP, GNN-DDI, MSTE, MDF-SA-DDI, NNPS, DDIMDL, Random Forest, K-Nearest-Neighbor, Logistic Regression, Decision Tree など,ADEPはよく知られた手法より優れている。 主な指標は、精度、AUROC、AUPRC、Fスコア、リコール、精度、偽陰性、偽陽性である。 ADEPは多剤の副作用をより正確に予測する。 実世界のデータを用いたケーススタディでは、ADEPが潜在的なDDIを特定し、副作用を予防する実践的な応用を示している。 結論:ADEPは多剤副作用の予測を大幅に進歩させ、精度と信頼性を向上させた。 その革新的なアーキテクチャは、スパース医療データからの特徴抽出を強化し、医薬品の安全性と患者の結果を改善する。 可用性: ソースコードとデータセットはhttps://github.com/m0hssn/ADEP.orgで公開されている。

Motivation: Unanticipated drug-drug interactions (DDIs) pose significant risks in polypharmacy, emphasizing the need for predictive methods. Recent advancements in computational techniques aim to address this challenge. Methods: We introduce ADEP, a novel approach integrating a discriminator and an encoder-decoder model to address data sparsity and enhance feature extraction. ADEP employs a three-part model, including multiple classification methods, to predict adverse effects in polypharmacy. Results: Evaluation on benchmark datasets shows ADEP outperforms well-known methods such as GGI-DDI, SSF-DDI, LSFC, DPSP, GNN-DDI, MSTE, MDF-SA-DDI, NNPS, DDIMDL, Random Forest, K-Nearest-Neighbor, Logistic Regression, and Decision Tree. Key metrics include Accuracy, AUROC, AUPRC, F-score, Recall, Precision, False Negatives, and False Positives. ADEP achieves more accurate predictions of adverse effects in polypharmacy. A case study with real-world data illustrates ADEP's practical application in identifying potential DDIs and preventing adverse effects. Conclusions: ADEP significantly advances the prediction of polypharmacy adverse effects, offering improved accuracy and reliability. Its innovative architecture enhances feature extraction from sparse medical data, improving medication safety and patient outcomes. Availability: Source code and datasets are available at https://github.com/m0hssn/ADEP.
翻訳日:2024-06-06 08:33:32 公開日:2024-05-31
# 騒音・不確実環境における深部RL用逆流機

Reward Machines for Deep RL in Noisy and Uncertain Environments ( http://arxiv.org/abs/2406.00120v1 )

ライセンス: Link先を確認
Andrew C. Li, Zizhao Chen, Toryn Q. Klassen, Pashootan Vaezipoor, Rodrigo Toro Icarte, Sheila A. McIlraith, (参考訳) Reward Machinesは、命令、安全性の制約、その他の時間的に拡張された報酬に値する振る舞いを指定するための、オートマチックにインスパイアされた構造を提供する。 複雑な報酬関数構造を公開することで、サンプル効率が著しく向上した反実的学習の更新が可能になる。 Reward Machinesは表と奥のRL設定の両方で使われているが、典型的には、報酬関数の構成要素を形成するドメイン固有の語彙の地味な解釈に依存している。 このような地味な解釈は、部分的な可観測性やノイズ感知のために、現実世界で多くの場面で解明することができる。 本稿では,雑音および不確実な環境における深部RLに対するReward Machinesの利用について検討する。 我々はこの問題をPOMDPとして特徴付け、ドメイン固有語彙の不確定な解釈の下でタスク構造を利用するRLアルゴリズムスイートを提案する。 理論的解析により,本問題に対する直感的なアプローチの落とし穴が明らかとなり,実験結果から,我々のアルゴリズムはタスク構造をうまく活用し,語彙のノイズの多い解釈下での性能向上を図っている。 本研究では,Reward Machinesを部分的に観測可能な環境で活用するための一般的なフレームワークを提供する。

Reward Machines provide an automata-inspired structure for specifying instructions, safety constraints, and other temporally extended reward-worthy behaviour. By exposing complex reward function structure, they enable counterfactual learning updates that have resulted in impressive sample efficiency gains. While Reward Machines have been employed in both tabular and deep RL settings, they have typically relied on a ground-truth interpretation of the domain-specific vocabulary that form the building blocks of the reward function. Such ground-truth interpretations can be elusive in many real-world settings, due in part to partial observability or noisy sensing. In this paper, we explore the use of Reward Machines for Deep RL in noisy and uncertain environments. We characterize this problem as a POMDP and propose a suite of RL algorithms that leverage task structure under uncertain interpretation of domain-specific vocabulary. Theoretical analysis exposes pitfalls in naive approaches to this problem, while experimental results show that our algorithms successfully leverage task structure to improve performance under noisy interpretations of the vocabulary. Our results provide a general framework for exploiting Reward Machines in partially observable environments.
翻訳日:2024-06-06 08:33:32 公開日:2024-05-31
# ビジュアルクリエイティビティの強化:画像編集推奨のための視覚言語アシスタント

Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations ( http://arxiv.org/abs/2406.00121v1 )

ライセンス: Link先を確認
Tiancheng Shen, Jun Hao Liew, Long Mai, Lu Qi, Jiashi Feng, Jiaya Jia, (参考訳) テキストベースの画像生成と編集の進歩は、ユーザーが想像力のあるテキストプロンプトから印象的なコンテンツを作成できるように、コンテンツの創造に革命をもたらした。 しかし、既存のメソッドは、ユーザーが曖昧で抽象的な目的だけを念頭に編集を開始するとき、典型的なシナリオでしばしば発生する過度に単純化されたプロンプトとうまく機能するようには設計されていない。 これらのシナリオは、ユーザから、そのようなあいまいな出発点と、望ましい結果を記述するために必要な詳細な創造的アイデアのギャップを埋めるために、精巧なアイデアの努力を必要とします。 本稿では,画像編集レコメンデーション(IER)の課題を紹介する。 本課題は、入力画像から多様なクリエイティブな編集指示を自動的に生成し、ユーザの未指定の編集目的を表すシンプルなプロンプトを作成することである。 そこで我々はCreative-Vision Language Assistant~(Creativity-VLA)を紹介した。 IER用に特別にキュレートされた編集命令データセットでCreative-VLAをトレーニングします。 さらに,グローバルな編集操作とローカルな編集操作の両方をサポートできるように,新しい「トーケン・フォー・ローカライゼーション」機構でモデルをさらに強化する。 提案手法の有効性を実験的に検証し, 創造的要素を含むだけでなく, 入力画像とユーザの初期ヒントの両方に高い関連性を保っていることを示す。

Advances in text-based image generation and editing have revolutionized content creation, enabling users to create impressive content from imaginative text prompts. However, existing methods are not designed to work well with the oversimplified prompts that are often encountered in typical scenarios when users start their editing with only vague or abstract purposes in mind. Those scenarios demand elaborate ideation efforts from the users to bridge the gap between such vague starting points and the detailed creative ideas needed to depict the desired results. In this paper, we introduce the task of Image Editing Recommendation (IER). This task aims to automatically generate diverse creative editing instructions from an input image and a simple prompt representing the users' under-specified editing purpose. To this end, we introduce Creativity-Vision Language Assistant~(Creativity-VLA), a multimodal framework designed specifically for edit-instruction generation. We train Creativity-VLA on our edit-instruction dataset specifically curated for IER. We further enhance our model with a novel 'token-for-localization' mechanism, enabling it to support both global and local editing operations. Our experimental results demonstrate the effectiveness of \ours{} in suggesting instructions that not only contain engaging creative elements but also maintain high relevance to both the input image and the user's initial hint.
翻訳日:2024-06-06 08:33:32 公開日:2024-05-31
# 変形可能な医用画像登録のための相関対応粗大なMLP

Correlation-aware Coarse-to-fine MLPs for Deformable Medical Image Registration ( http://arxiv.org/abs/2406.00123v1 )

ライセンス: Link先を確認
Mingyuan Meng, Dagan Feng, Lei Bi, Jinman Kim, (参考訳) 変形可能な画像登録は、医用画像解析の基本的なステップである。 近年、トランスフォーマーは、CNN(Convolutional Neural Networks)の登録と性能向上に使用されている。 トランスフォーマーは、画像特徴間の長距離依存をキャプチャできるが、これは登録に有用であることが示されている。 しかし、自己アテンションの計算/メモリ負荷が高いため、トランスフォーマーは通常、ダウンサンプリングされた特徴解像度で使用され、完全な画像解像度で細かな長距離依存を捉えることはできない。 これにより、各画像ピクセル間の正確な密接な対応を必要とするため、変形可能な登録が制限される。 自己注意のない多層パーセプトロン(MLP)は、計算/メモリ使用において効率的であり、完全な解像度で細粒度の長距離依存を捉えることが可能である。 それでも、MLPは画像登録のために広く研究されておらず、医療登録業務に不可欠な誘導バイアスの考慮が欠如している。 本研究では,変形可能な医用画像登録のための相関対応MLPベース登録ネットワーク(CorrMLP)を提案する。 我々のCorrMLPは、相関対応のマルチウィンドウMLPブロックを新しい粗粒度登録アーキテクチャに導入し、相関対応の粗粒度登録を行うための細粒度マルチレンジ依存をキャプチャする。 7つの公開医療データセットによる大規模な実験により、私たちのCorrMLPは最先端の変形可能な登録方法よりも優れています。

Deformable image registration is a fundamental step for medical image analysis. Recently, transformers have been used for registration and outperformed Convolutional Neural Networks (CNNs). Transformers can capture long-range dependence among image features, which have been shown beneficial for registration. However, due to the high computation/memory loads of self-attention, transformers are typically used at downsampled feature resolutions and cannot capture fine-grained long-range dependence at the full image resolution. This limits deformable registration as it necessitates precise dense correspondence between each image pixel. Multi-layer Perceptrons (MLPs) without self-attention are efficient in computation/memory usage, enabling the feasibility of capturing fine-grained long-range dependence at full resolution. Nevertheless, MLPs have not been extensively explored for image registration and are lacking the consideration of inductive bias crucial for medical registration tasks. In this study, we propose the first correlation-aware MLP-based registration network (CorrMLP) for deformable medical image registration. Our CorrMLP introduces a correlation-aware multi-window MLP block in a novel coarse-to-fine registration architecture, which captures fine-grained multi-range dependence to perform correlation-aware coarse-to-fine registration. Extensive experiments with seven public medical datasets show that our CorrMLP outperforms state-of-the-art deformable registration methods.
翻訳日:2024-06-06 08:33:32 公開日:2024-05-31
# TotalVibeSegmentator:Volume Interpolated Breath-hold Examination Body ImagesにおけるNAKOと英国バイオバンクのための完全なトーソセグメンテーション

TotalVibeSegmentator: Full Torso Segmentation for the NAKO and UK Biobank in Volumetric Interpolated Breath-hold Examination Body Images ( http://arxiv.org/abs/2406.00125v1 )

ライセンス: Link先を確認
Robert Graf, Paul-Sören Platzek, Evamaria Olga Riedel, Constanze Ramschütz, Sophie Starck, Hendrik Kristian Möller, Matan Atad, Henry Völzke, Robin Bülow, Carsten Oliver Schmidt, Julia Rüdebusch, Matthias Jung, Marco Reisert, Jakob Weiss, Maximilian Löffler, Fabian Bamberg, Bene Wiestler, Johannes C. Paetzold, Daniel Rueckert, Jan Stefan Kirschke, (参考訳) 目的: 容積補間呼吸保持検査(VIBE)画像に基づいて, 大規模な疫学データセットを対象としたトルソ分節ネットワークを提案する。 材料と方法:VIBE画像のためのTotalSegmentator, spine, and body composition networkから予備セグメントを抽出し,反復的に改善し,nnUNetネットワークを再訓練した。 NAKO (85名) と UK Biobank (16名) のサブセットを用いて, ホールドアウトセット (12名) と既存の臓器セグメント化アプローチ (1000名) でDice-score を用いて評価し, VIBE画像の意味セグメント化タイプを71名生成した。 本研究は, 椎体22種に対して, 新たなネットワークを提供する。 結果: 平均Diceスコアは0.89+-0.07で, 71のセグメンテーションラベルが得られた。 腹部のDiceスコアは0.90点,膵は0.70点であった。 結論: 私たちの研究は、VIBE画像の完全な胴体セグメンテーションを詳細かつ洗練して公開しています。

Objectives: To present a publicly available torso segmentation network for large epidemiology datasets on volumetric interpolated breath-hold examination (VIBE) images. Materials & Methods: We extracted preliminary segmentations from TotalSegmentator, spine, and body composition networks for VIBE images, then improved them iteratively and retrained a nnUNet network. Using subsets of NAKO (85 subjects) and UK Biobank (16 subjects), we evaluated with Dice-score on a holdout set (12 subjects) and existing organ segmentation approach (1000 subjects), generating 71 semantic segmentation types for VIBE images. We provide an additional network for the vertebra segments 22 individual vertebra types. Results: We achieved an average Dice score of 0.89 +- 0.07 overall 71 segmentation labels. We scored > 0.90 Dice-score on the abdominal organs except for the pancreas with a Dice of 0.70. Conclusion: Our work offers a detailed and refined publicly available full torso segmentation on VIBE images.
翻訳日:2024-06-06 08:33:32 公開日:2024-05-31
# 階層的ジャコビアンアライメントによる安定性のエッジのトレーニング

Training on the Edge of Stability Is Caused by Layerwise Jacobian Alignment ( http://arxiv.org/abs/2406.00127v1 )

ライセンス: Link先を確認
Mark Lowell, Catharine Kastner, (参考訳) ニューラルネットワークトレーニング中、トレーニング損失のヘッセン行列のシャープネスは、トレーニングが安定性の端にあるまで上昇する。 その結果、非確率勾配降下でさえ、トレーニング損失の勾配流によって定義される基礎力学系を正確にモデル化することができない。 指数型オイラーソルバを用いてネットワークを安定の端に入ることなく訓練し、真の勾配降下ダイナミクスを正確に近似する。 本研究では,ネットワークの階層的ジャコビアン行列の整列化によるヘッセン行列のシャープさの増加を実験的に証明し,ネットワークの入力近傍のネットワーク前兆の変化がネットワークの出力に大きな変化をもたらすことを示した。 さらに,0.74から0.98の判定係数を持つ電力法則により,アライメントの度合いがデータセットのサイズと一致することを示した。

During neural network training, the sharpness of the Hessian matrix of the training loss rises until training is on the edge of stability. As a result, even nonstochastic gradient descent does not accurately model the underlying dynamical system defined by the gradient flow of the training loss. We use an exponential Euler solver to train the network without entering the edge of stability, so that we accurately approximate the true gradient descent dynamics. We demonstrate experimentally that the increase in the sharpness of the Hessian matrix is caused by the layerwise Jacobian matrices of the network becoming aligned, so that a small change in the network preactivations near the inputs of the network can cause a large change in the outputs of the network. We further demonstrate that the degree of alignment scales with the size of the dataset by a power law with a coefficient of determination between 0.74 and 0.98.
翻訳日:2024-06-06 08:33:32 公開日:2024-05-31
# 非構造化データの学習から学ぶインテクスト学習 : 共起・位置情報・騒音構造の役割について

How In-Context Learning Emerges from Training on Unstructured Data: On the Role of Co-Occurrence, Positional Information, and Noise Structures ( http://arxiv.org/abs/2406.00131v1 )

ライセンス: Link先を確認
Kevin Christian Wibisono, Yixin Wang, (参考訳) 変換器のような大規模言語モデル(LLM)は印象的なインコンテキスト学習(ICL)機能を備えており、パラメータ更新なしでインプット出力シーケンスに基づいた新しいクエリの予測を生成することができる。 多くの理論がICLの説明を試みているが、回帰のようなICLのタスクに似た構造化されたトレーニングデータに焦点を当てることが多い。 しかし、実際には、これらのモデルは、ICLタスクとほとんど類似しない非構造化テキストデータに基づいて教師なしの方法で訓練されている。 そこで本研究では,非構造化データに対する教師なしトレーニングからICLがどのように現れるかを検討する。 鍵となる観察は、ICLは、理論上証明され実証的に検証される連続的な単語の袋(CBOW)のような古典的な言語モデルを用いて、共起情報を単にモデル化することによって生じる可能性があることである。 さらに、位置情報とノイズ構造が、ICLを見えないデータに一般化する必要性を確立する。 最後に、ICLが失敗し理論的に説明できない事例を提示し、LCMが特定のタスクを識別するICL能力は、トレーニングデータの構造に敏感であることが示唆された。

Large language models (LLMs) like transformers have impressive in-context learning (ICL) capabilities; they can generate predictions for new queries based on input-output sequences in prompts without parameter updates. While many theories have attempted to explain ICL, they often focus on structured training data similar to ICL tasks, such as regression. In practice, however, these models are trained in an unsupervised manner on unstructured text data, which bears little resemblance to ICL tasks. To this end, we investigate how ICL emerges from unsupervised training on unstructured data. The key observation is that ICL can arise simply by modeling co-occurrence information using classical language models like continuous bag of words (CBOW), which we theoretically prove and empirically validate. Furthermore, we establish the necessity of positional information and noise structure to generalize ICL to unseen data. Finally, we present instances where ICL fails and provide theoretical explanations; they suggest that the ICL ability of LLMs to identify certain tasks can be sensitive to the structure of the training data.
翻訳日:2024-06-06 08:33:32 公開日:2024-05-31
# QuanTA: 量子インフォームトテンソル適応によるLDMの高速高速微調整

QuanTA: Efficient High-Rank Fine-Tuning of LLMs with Quantum-Informed Tensor Adaptation ( http://arxiv.org/abs/2406.00132v1 )

ライセンス: Link先を確認
Zhuo Chen, Rumen Dangovski, Charlotte Loh, Owen Dugan, Di Luo, Marin Soljačić, (参考訳) 大規模事前学習型言語モデルに対する推論オーバーヘッドを伴わない新しい,実装が容易な微調整手法であるQuantum-informed Tensor Adaptation (QuanTA)を提案する。 量子回路構造から導かれた量子インスパイアされた手法を活用することで、QuanTAは、低ランク適応(LoRA)の限界を超える効率的な高ランク微調整を可能にし、複雑な下流タスクでは低ランク近似が失敗する可能性がある。 我々のアプローチは、効率的な高階適応を実現するために、普遍性定理とランク表現定理によって理論的に支持されている。 実験により、QuanTAは従来の手法と比較して、常識推論、算術推論、拡張性を著しく向上させることが示された。 さらに、QuunTAは他のアプローチと比べてトレーニング可能なパラメータが少なくて優れたパフォーマンスを示しており、さらなる改善のために既存の微調整アルゴリズムとの統合を設計できる。

We propose Quantum-informed Tensor Adaptation (QuanTA), a novel, easy-to-implement, fine-tuning method with no inference overhead for large-scale pre-trained language models. By leveraging quantum-inspired methods derived from quantum circuit structures, QuanTA enables efficient high-rank fine-tuning, surpassing the limitations of Low-Rank Adaptation (LoRA)--low-rank approximation may fail for complicated downstream tasks. Our approach is theoretically supported by the universality theorem and the rank representation theorem to achieve efficient high-rank adaptations. Experiments demonstrate that QuanTA significantly enhances commonsense reasoning, arithmetic reasoning, and scalability compared to traditional methods. Furthermore, QuanTA shows superior performance with fewer trainable parameters compared to other approaches and can be designed to integrate with existing fine-tuning algorithms for further improvement, providing a scalable and efficient solution for fine-tuning large language models and advancing state-of-the-art in natural language processing.
翻訳日:2024-06-06 08:33:32 公開日:2024-05-31
# 水質管理のための不確かさ定量化による流れ予測:制約付き推論と学習アプローチ

Streamflow Prediction with Uncertainty Quantification for Water Management: A Constrained Reasoning and Learning Approach ( http://arxiv.org/abs/2406.00133v1 )

ライセンス: Link先を確認
Mohammed Amine Gharsallaoui, Bhupinderjeet Singh, Supriya Savalkar, Aryan Deshwal, Yan Yan, Ananth Kalyanaraman, Kirti Rajagopalan, Janardhan Rao Doppa, (参考訳) 河川流の時空間変動と不確実な定量化の予測は, 少ない水資源の持続的管理のための意思決定を可能にする。 プロセスベースの水理モデル(または物理に基づくモデル)は物理法則に基づいているが、仮定を単純化することで精度が低下する可能性がある。 データ駆動アプローチは強力な代替手段を提供するが、大量のトレーニングデータを必要とし、物理法則に反する予測を生成する傾向がある。 本稿では、論理的制約として表される物理法則を、ディープニューラルネットワークの層として統合する制約付き推論と学習(CRL)アプローチについて検討する。 そこで本研究では,深層モデルの一般化精度を向上させるため,理論的に基礎的なトレーニング手法を開発した。 不確実性定量化のために、学習された潜在表現を標準距離ベースカーネルへの入力として渡すことにより、ガウス過程(GP)と深時間モデル(時系列予測の深部モデル)の相乗的強みを組み合わせる。 複数の実世界のデータセットに対する実験は、強力なベースライン法に対するディープカーネルアプローチによるCRLとGPの有効性を示す。

Predicting the spatiotemporal variation in streamflow along with uncertainty quantification enables decision-making for sustainable management of scarce water resources. Process-based hydrological models (aka physics-based models) are based on physical laws, but using simplifying assumptions which can lead to poor accuracy. Data-driven approaches offer a powerful alternative, but they require large amount of training data and tend to produce predictions that are inconsistent with physical laws. This paper studies a constrained reasoning and learning (CRL) approach where physical laws represented as logical constraints are integrated as a layer in the deep neural network. To address small data setting, we develop a theoretically-grounded training approach to improve the generalization accuracy of deep models. For uncertainty quantification, we combine the synergistic strengths of Gaussian processes (GPs) and deep temporal models (i.e., deep models for time-series forecasting) by passing the learned latent representation as input to a standard distance-based kernel. Experiments on multiple real-world datasets demonstrate the effectiveness of both CRL and GP with deep kernel approaches over strong baseline methods.
翻訳日:2024-06-06 08:33:32 公開日:2024-05-31
# 動的グラフにおける異常検出:包括的調査

Anomaly Detection in Dynamic Graphs: A Comprehensive Survey ( http://arxiv.org/abs/2406.00134v1 )

ライセンス: Link先を確認
Ocheme Anthony Ekle, William Eberle, (参考訳) 本稿では,動的グラフを用いた異常検出の包括的,概念的概要について述べる。 既存のグラフベースの異常検出(AD)技術とその動的ネットワークへの応用に焦点を当てる。 本調査報告の貢献は以下のとおりである。 一 異常検出に関する既存調査の比較研究 二 動的グラフに基づく異常検出(DGAD)レビューフレームワークにおいて、従来の機械学習モデル、行列変換、確率論的アプローチ、ディープラーニングアプローチに基づいて、動的グラフの異常を検出するアプローチをグループ化する。 三 離散的及び動的ネットワークの両方を図式的に表現する議論及び iv) 動的グラフデータにおける関係構造と複雑な相互作用を捉えるためのグラフベースの手法の利点に関する議論。 最後に,動的ネットワークにおける異常検出の潜在的な課題と今後の方向性を明らかにする。 このDGADサーベイアプローチは、それぞれのアプローチの強みと限界を要約し、現在の研究動向を強調し、オープンな課題を特定することで、研究者や実践者にとって貴重なリソースを提供することを目的としている。 これにより、将来の研究をガイドし、動的グラフにおける異常検出の進歩を促進することができる。 キーワード:グラフ、異常検出、動的ネットワーク、グラフニューラルネットワーク(GNN)、ノード異常、グラフマイニング。

This survey paper presents a comprehensive and conceptual overview of anomaly detection using dynamic graphs. We focus on existing graph-based anomaly detection (AD) techniques and their applications to dynamic networks. The contributions of this survey paper include the following: i) a comparative study of existing surveys on anomaly detection; ii) a Dynamic Graph-based Anomaly Detection (DGAD) review framework in which approaches for detecting anomalies in dynamic graphs are grouped based on traditional machine-learning models, matrix transformations, probabilistic approaches, and deep-learning approaches; iii) a discussion of graphically representing both discrete and dynamic networks; and iv) a discussion of the advantages of graph-based techniques for capturing the relational structure and complex interactions in dynamic graph data. Finally, this work identifies the potential challenges and future directions for detecting anomalies in dynamic networks. This DGAD survey approach aims to provide a valuable resource for researchers and practitioners by summarizing the strengths and limitations of each approach, highlighting current research trends, and identifying open challenges. In doing so, it can guide future research efforts and promote advancements in anomaly detection in dynamic graphs. Keywords: Graphs, Anomaly Detection, dynamic networks,Graph Neural Networks (GNN), Node anomaly, Graph mining.
翻訳日:2024-06-06 08:33:32 公開日:2024-05-31
# 耳バイオメトリックスの発展:ディープラーニングによる精度とロバスト性の向上

Advancing Ear Biometrics: Enhancing Accuracy and Robustness through Deep Learning ( http://arxiv.org/abs/2406.00135v1 )

ライセンス: Link先を確認
Youssef Mohamed, Zeyad Youssef, Ahmed Heakl, Ahmed Zaky, (参考訳) 生体認証は、ユニークな物理的特徴や行動特性に基づいて個人を検証するための信頼性の高い方法であり、パスワードやPINといった従来の方法に代わるセキュアな代替手段を提供する。 本研究は,耳の生体認証に焦点をあて,その特徴を精度,信頼性,ユーザビリティの向上に活用する。 過去の研究では、顔の認識や指紋分析をよく研究しているが、顔の表情や照明条件の変化といった限界を克服するための耳のバイオメトリックスの有効性を実証している。 AMI(100人から700枚)とEarNV1.0(164人から28,412枚)の2つのデータセットを使用しました。 耳の生体認証システムの精度とロバスト性を向上させるため,データ前処理や拡張など様々な手法を適用した。 我々のモデルは、AMIデータセットで99.35%、EarNV1.0データセットで98.1%の精度を達成した。

Biometric identification is a reliable method to verify individuals based on their unique physical or behavioral traits, offering a secure alternative to traditional methods like passwords or PINs. This study focuses on ear biometric identification, exploiting its distinctive features for enhanced accuracy, reliability, and usability. While past studies typically investigate face recognition and fingerprint analysis, our research demonstrates the effectiveness of ear biometrics in overcoming limitations such as variations in facial expressions and lighting conditions. We utilized two datasets: AMI (700 images from 100 individuals) and EarNV1.0 (28,412 images from 164 individuals). To improve the accuracy and robustness of our ear biometric identification system, we applied various techniques including data preprocessing and augmentation. Our models achieved a testing accuracy of 99.35% on the AMI Dataset and 98.1% on the EarNV1.0 dataset, showcasing the effectiveness of our approach in precisely identifying individuals based on ear biometric characteristics.
翻訳日:2024-06-06 08:33:32 公開日:2024-05-31
# 光学的超格子における非エルミート位相と絡み合い

Non-hermitian topology and entanglement in an optomechanical superlattice ( http://arxiv.org/abs/2406.00137v1 )

ライセンス: Link先を確認
Wojciech Brzezicki, Timo Hyart, Francesco Massel, (参考訳) トポロジ、散逸、非線形性の相互作用は、多くの新しい現象を引き起こし、新しいトポロジカルレーザー、センサー、その他の量子デバイスへの道を開く。 これらの線に沿って、空間的に変調された外部駆動と消散の存在が、機械的および光学的励起に対して位相的に非自明な状態を引き起こすという光学的構成を提案する。 ここで考慮した一次元システムは、機械的および光学的自由度が絡み合う位相的に保護された終末状態を示すことを示すことができる。 このような絡み合いは、非低温浴の存在に関して堅牢であることを示し、その絡み合いを実験的に観察するためのプロトコルを提案する。

The interplay between topology, dissipation and nonlinearities can give rise to a wealth of new phenomena and pave the way for novel topological lasers, sensors and other quantum devices. Along these lines, we propose here an optomechanical setup in which the concomitant presence of a spatially modulated external drive and dissipation gives rise to a topologically nontrivial state for mechanical and optical excitations. We are able to show that the one-dimensional system considered here exhibits topologically protected end states for which mechanical and optical degrees of freedom are entangled. We show such entanglement to be robust with respect to the presence of nonzero-temperature baths and we propose a protocol for experimental observation of the entanglement.
翻訳日:2024-06-06 08:23:48 公開日:2024-05-31
# 変分クエリ: 時間文接地のための領域ガイド変換器

Diversifying Query: Region-Guided Transformer for Temporal Sentence Grounding ( http://arxiv.org/abs/2406.00143v1 )

ライセンス: Link先を確認
Xiaolong Sun, Liushuai Shi, Le Wang, Sanping Zhou, Kun Xia, Yabing Wang, Gang Hua, (参考訳) 時間的文接頭辞は言語記述に関連するモーメントをローカライズすることを目的とした課題である。 最近のDETRベースのモデルは、複数の学習可能なモーメントクエリを活用することで顕著な進歩を遂げているが、重複と冗長な提案に悩まされ、不正確な予測につながった。 この制限は、特定のモードを提供するための学習可能なクエリに対するタスク関連ガイダンスの欠如に起因する。 さらに、変数および開語彙言語記述によって生成される複雑な解空間は、最適化の難しさを増し、学習可能なクエリ同士を適応的に区別することが困難になる。 この制限に対処するために、時間的文グラウンド化のためのRerea-Guided TRansformer(RGTR)を提案する。 学習可能なクエリを使う代わりに、RGTRは一連のアンカーペアをモーメントクエリとして採用して、明示的な地域ガイダンスを導入している。 それぞれのアンカーペアが特定の時間領域のモーメント予測を担当し、最適化の難しさを低減し、最終的な予測の多様性を保証する。 また,提案手法の質向上を図るため,IoU対応スコアヘッドを設計する。 大規模な実験は、QVHighlights、Charades-STA、TACoSデータセットにおける最先端の手法よりも優れたRGTRの有効性を示す。

Temporal sentence grounding is a challenging task that aims to localize the moment spans relevant to a language description. Although recent DETR-based models have achieved notable progress by leveraging multiple learnable moment queries, they suffer from overlapped and redundant proposals, leading to inaccurate predictions. We attribute this limitation to the lack of task-related guidance for the learnable queries to serve a specific mode. Furthermore, the complex solution space generated by variable and open-vocabulary language descriptions exacerbates the optimization difficulty, making it harder for learnable queries to distinguish each other adaptively. To tackle this limitation, we present a Region-Guided TRansformer (RGTR) for temporal sentence grounding, which diversifies moment queries to eliminate overlapped and redundant predictions. Instead of using learnable queries, RGTR adopts a set of anchor pairs as moment queries to introduce explicit regional guidance. Each anchor pair takes charge of moment prediction for a specific temporal region, which reduces the optimization difficulty and ensures the diversity of the final predictions. In addition, we design an IoU-aware scoring head to improve proposal quality. Extensive experiments demonstrate the effectiveness of RGTR, outperforming state-of-the-art methods on QVHighlights, Charades-STA and TACoS datasets.
翻訳日:2024-06-06 08:23:48 公開日:2024-05-31
# Query2CAD:自然言語クエリを用いたCADモデルの生成

Query2CAD: Generating CAD models using natural language queries ( http://arxiv.org/abs/2406.00144v1 )

ライセンス: Link先を確認
Akshay Badagabettu, Sai Sravan Yarlagadda, Amir Barati Farimani, (参考訳) CAD(Computer Aided Design)エンジニアは、単一の試みで最高のプロトタイプを達成できないのが普通である。 代わりに、複数のリビジョンを通じて最適な解決策を達成するために、設計を反復して洗練する。 従来のアプローチは効果的ですが、時間がかかり、熟練したエンジニアの専門知識に大きく依存しています。 これらの課題に対処するために,CAD設計を生成する新しいフレームワークであるQuery2CADを紹介した。 このフレームワークは大きな言語モデルを使用して実行可能なCADマクロを生成する。 さらに、Query2CADは自己精製ループの助けを借りてCADモデルの生成を洗練します。 Query2CADは、LLMをジェネレータと精錬器の両方として使用して、教師付きデータや追加のトレーニングなしで動作する。 本手法では,BLIP2モデルによって生成されたフィードバックを活用し,偽陰性に対処するため,本システムにヒューマン・イン・ザ・ループ・フィードバックを組み込んだ。 さらに,CADモデル設計に使用される操作の大部分を包含するデータセットを開発し,本データセットを用いてフレームワークの評価を行った。 その結果, GPT-4 Turbo を言語モデルとして用いた場合, 最初の試みで 53.6 % の成功率を達成した。 その後の改良により、成功率は23.1\%上昇した。 特に、改良の最初のイテレーションで、成功率の最も重要な改善が観察された。 その後の改良により、正確な設計の精度は向上しなかった。 我々は、データ、モデル、コード(github.com/akshay140601/Query2CAD)をオープンソース化しました。

Computer Aided Design (CAD) engineers typically do not achieve their best prototypes in a single attempt. Instead, they iterate and refine their designs to achieve an optimal solution through multiple revisions. This traditional approach, though effective, is time-consuming and relies heavily on the expertise of skilled engineers. To address these challenges, we introduce Query2CAD, a novel framework to generate CAD designs. The framework uses a large language model to generate executable CAD macros. Additionally, Query2CAD refines the generation of the CAD model with the help of its self-refinement loops. Query2CAD operates without supervised data or additional training, using the LLM as both a generator and a refiner. The refiner leverages feedback generated by the BLIP2 model, and to address false negatives, we have incorporated human-in-the-loop feedback into our system. Additionally, we have developed a dataset that encompasses most operations used in CAD model designing and have evaluated our framework using this dataset. Our findings reveal that when we used GPT-4 Turbo as our language model, the architecture achieved a success rate of 53.6\% on the first attempt. With subsequent refinements, the success rate increased by 23.1\%. In particular, the most significant improvement in the success rate was observed with the first iteration of the refinement. With subsequent refinements, the accuracy of the correct designs did not improve significantly. We have open-sourced our data, model, and code (github.com/akshay140601/Query2CAD).
翻訳日:2024-06-06 08:23:48 公開日:2024-05-31
# 深層学習音声生成法に関する調査研究

A Survey of Deep Learning Audio Generation Methods ( http://arxiv.org/abs/2406.00146v1 )

ライセンス: Link先を確認
Matej Božić, Marko Horvat, (参考訳) 本稿では、音声生成のためのディープラーニングモデル開発における3つの異なる側面において使用される典型的な手法について概説する。 本論文の前半では,基本的音声波形から始まる音声表現について解説する。 そして、人間の聴覚特性に重点を置いて周波数領域に進み、最終的に比較的最近の展開を導入する。 この記事では、基本的で拡張されたディープラーニングアーキテクチャのバリエーションと、オーディオ生成の分野における実践的応用について説明する。 以下のアーキテクチャに対処します。 1)オートエンコーダ 2) 生成的敵ネットワーク 3)正規化フロー 4)トランスフォーマーネットワーク 5)拡散モデル。 最後に、音声生成によく用いられる4つの異なる評価指標について検討する。 本稿は,本分野の初心者読者と初心者を対象に,音声生成技術の現状を包括的に把握し,今後の研究に資することを目的としている。

This article presents a review of typical techniques used in three distinct aspects of deep learning model development for audio generation. In the first part of the article, we provide an explanation of audio representations, beginning with the fundamental audio waveform. We then progress to the frequency domain, with an emphasis on the attributes of human hearing, and finally introduce a relatively recent development. The main part of the article focuses on explaining basic and extended deep learning architecture variants, along with their practical applications in the field of audio generation. The following architectures are addressed: 1) Autoencoders 2) Generative adversarial networks 3) Normalizing flows 4) Transformer networks 5) Diffusion models. Lastly, we will examine four distinct evaluation metrics that are commonly employed in audio generation. This article aims to offer novice readers and beginners in the field a comprehensive understanding of the current state of the art in audio generation methods as well as relevant studies that can be explored for future research.
翻訳日:2024-06-06 08:23:47 公開日:2024-05-31
# 動的機構設計におけるフェアアロケーション

Fair Allocation in Dynamic Mechanism Design ( http://arxiv.org/abs/2406.00147v1 )

ライセンス: Link先を確認
Alireza Fallah, Michael I. Jordan, Annie Ulichney, (参考訳) 競売人が各ラウンドで2つのグループに分割可能な商品を販売し、合計$T$ラウンドで販売する動的メカニズム設計問題を考える。 競売人は、各グループの最低平均配分を保証する公正な制約に固執しつつ、割引された全体の収益を最大化することを目的としている。 まず、静的ケース(T=1$)を調査し、最適メカニズムは、すべての購入者への割り当ての全体的な確率を増大させるものと、それ以外はアイテムを勝ち取る確率が低いグループを優先する2つのタイプの補助金を含むことを確認します。 次に、各ラウンドにおける最適な割り当てと支払いを決定する再帰関数のセットを特徴付けることにより、結果を動的ケースに拡張する。 特に、私たちの結果は、ダイナミックなケースでは、売り手は、真理をインセンティブ付けするための参加報酬をコミットし、一方、ラウンド毎にエントリー料金を請求する、ということを確立しています。 さらに、最適なアロケーションは、あるグループに対して、あるグループに対してアイテムを割り当てる際に、売り手と買い手の両方の将来のユーティリティの違いによって、補助金の程度が左右されるような、一つのグループのために補助金が再び必要となる。 最後に、再帰方程式を解き、ほぼ最適かつ公平な割当を効率的に決定する近似スキームを提案する。

We consider a dynamic mechanism design problem where an auctioneer sells an indivisible good to two groups of buyers in every round, for a total of $T$ rounds. The auctioneer aims to maximize their discounted overall revenue while adhering to a fairness constraint that guarantees a minimum average allocation for each group. We begin by studying the static case ($T=1$) and establish that the optimal mechanism involves two types of subsidization: one that increases the overall probability of allocation to all buyers, and another that favors the group which otherwise has a lower probability of winning the item. We then extend our results to the dynamic case by characterizing a set of recursive functions that determine the optimal allocation and payments in each round. Notably, our results establish that in the dynamic case, the seller, on the one hand, commits to a participation reward to incentivize truth-telling, and on the other hand, charges an entry fee for every round. Moreover, the optimal allocation once more involves subsidization in favor of one group, where the extent of subsidization depends on the difference in future utilities for both the seller and buyers when allocating the item to one group versus the other. Finally, we present an approximation scheme to solve the recursive equations and determine an approximately optimal and fair allocation efficiently.
翻訳日:2024-06-06 08:23:47 公開日:2024-05-31
# 不均一音源に対する非フェデレーションマルチタスクスプリット学習

Non-Federated Multi-Task Split Learning for Heterogeneous Sources ( http://arxiv.org/abs/2406.00150v1 )

ライセンス: Link先を確認
Yilin Zheng, Atilla Eryilmaz, (参考訳) エッジネットワークとモバイルコンピューティングの開発により、ネットワークエッジにおける異種データソースの提供の必要性は、新しい分散機械学習メカニズムの設計を必要とする。 一般的なアプローチとして、フェデレートラーニング(FL)では、クライアントとサーバ間のパラメータ共有と勾配回避を採用しています。 コンバージェンスやデータプライバシ保証といった多くの特質にもかかわらず、古典的なFLがクライアント間のデータ不均一性と計算の不均一性という課題に対処できないことはよく知られている。 このような異種性の源に対応することを目的とした既存の研究はFL演算パラダイムに留まり、異種データの負の効果を克服する修正がなされている。 本稿では,分散ネットワークアーキテクチャの柔軟性と分割学習(SL)の利点を組み合わせたマルチタスク分割学習(MTSL)フレームワークを提案する。 FLとは対照的に、このパラダイムでは、不均一性は克服する障害ではなく、活用する上で有用な性質である。 そこで本研究は,異種データソースのマルチタスク学習を効率的に行うための新しいアーキテクチャと方法論を導入することを目的としている。 MTSLがサーバとクライアントの学習率を調整して高速収束を実現できることを示す。 そして, MTSLと既存のマルチタスクFL法の性能を比較し, トレーニング速度, 通信コスト, 異種データに対する堅牢性において, MTSLがFLよりも優れていることを示す。

With the development of edge networks and mobile computing, the need to serve heterogeneous data sources at the network edge requires the design of new distributed machine learning mechanisms. As a prevalent approach, Federated Learning (FL) employs parameter-sharing and gradient-averaging between clients and a server. Despite its many favorable qualities, such as convergence and data-privacy guarantees, it is well-known that classic FL fails to address the challenge of data heterogeneity and computation heterogeneity across clients. Most existing works that aim to accommodate such sources of heterogeneity stay within the FL operation paradigm, with modifications to overcome the negative effect of heterogeneous data. In this work, as an alternative paradigm, we propose a Multi-Task Split Learning (MTSL) framework, which combines the advantages of Split Learning (SL) with the flexibility of distributed network architectures. In contrast to the FL counterpart, in this paradigm, heterogeneity is not an obstacle to overcome, but a useful property to take advantage of. As such, this work aims to introduce a new architecture and methodology to perform multi-task learning for heterogeneous data sources efficiently, with the hope of encouraging the community to further explore the potential advantages we reveal. To support this promise, we first show through theoretical analysis that MTSL can achieve fast convergence by tuning the learning rate of the server and clients. Then, we compare the performance of MTSL with existing multi-task FL methods numerically on several image classification datasets to show that MTSL has advantages over FL in training speed, communication cost, and robustness to heterogeneous data.
翻訳日:2024-06-06 08:23:47 公開日:2024-05-31
# $μ$LO:学習オプティマイザの計算効率の良いメタ一般化

$μ$LO: Compute-Efficient Meta-Generalization of Learned Optimizers ( http://arxiv.org/abs/2406.00153v1 )

ライセンス: Link先を確認
Benjamin Thérien, Charles-Étienne Joseph, Boris Knyazev, Edouard Oyallon, Irina Rish, Eugene Belilovsky, (参考訳) 学習オプティマイザ(LO)はニューラルネットワークのウォールクロックトレーニング時間を著しく短縮し、トレーニングコストを大幅に削減する。 しかし、メタ汎用性に乏しい場合が多く、特にメタトレーニングで見られるものよりもトレーニングネットワークが大きい場合である。 これを解決するために、我々は最近提案された最大更新パラメトリゼーション($\mu$P)を使用し、より小さなモデルからより大規模なモデルへの最適化ハイパーパラメータのゼロショット一般化を可能にする。 我々は、学習オプティマイザに$\mu$P理論を拡張し、メタトレーニング問題を、学習オプティマイザを$\mu$Pの下で見つけるものとして扱う。 評価の結果,$\mu$Pで訓練したLOは,標準パラメトリゼーション(SP)で訓練したLOと比較して,メタジェネリゼーションを大幅に改善した。 特に、大容量モデルに適用した場合、最高の$\mu$LOは103GPU時間でトレーニングされ、4000TPUヶ月の計算でメタトレーニングされた、最大規模の学習オプティマイザであるVeLOのパフォーマンスにマッチまたは超過します。 さらに、$\mu$LOsはSPのより深いネットワークへの一般化を示し、メタトレーニングで見られるものよりもはるかに長い水平線(25倍)を訓練する。

Learned optimizers (LOs) can significantly reduce the wall-clock training time of neural networks, substantially reducing training costs. However, they often suffer from poor meta-generalization, especially when training networks larger than those seen during meta-training. To address this, we use the recently proposed Maximal Update Parametrization ($\mu$P), which allows zero-shot generalization of optimizer hyperparameters from smaller to larger models. We extend $\mu$P theory to learned optimizers, treating the meta-training problem as finding the learned optimizer under $\mu$P. Our evaluation shows that LOs meta-trained with $\mu$P substantially improve meta-generalization as compared to LOs trained under standard parametrization (SP). Notably, when applied to large-width models, our best $\mu$LO, trained for 103 GPU-hours, matches or exceeds the performance of VeLO, the largest publicly available learned optimizer, meta-trained with 4000 TPU-months of compute. Moreover, $\mu$LOs demonstrate better generalization than their SP counterparts to deeper networks and to much longer training horizons (25 times longer) than those seen during meta-training.
翻訳日:2024-06-06 08:23:47 公開日:2024-05-31
# 重度原理を用いた確率最適化アルゴリズムの性能解析のための新しいランク付け手法

A Novel Ranking Scheme for the Performance Analysis of Stochastic Optimization Algorithms using the Principles of Severity ( http://arxiv.org/abs/2406.00154v1 )

ライセンス: Link先を確認
Sowmya Chandrasekaran, Thomas Bartz-Beielstein, (参考訳) 確率最適化アルゴリズムは、最適解を見つけるためにいくつかの領域でうまく適用されている。 統合システムの複雑さがますます増大しているため、新しい確率的アルゴリズムが提案されており、アルゴリズムの性能解析のタスクが極めて重要である。 本稿では,複数の単目的最適化問題に対してアルゴリズムをランク付けする新しいランキング方式を提案する。 アルゴリズムの結果は、重大性の原理に基づく頑健なブートストラップに基づく仮説テスト手法を用いて比較される。 サッカーリーグのスコアリング方式とは対照的に,リーグ戦におけるアルゴリズムのペアワイズ比較を提案する。 それぞれのアルゴリズムはポイントを蓄積し、フットボールリーグのスコアリングシステムにおけるゴール差測定に類似した他のアルゴリズムに対して、それがどれだけ良いか、悪いかを示す。 目標差分性能測定はタイブレーカーとして利用できるだけでなく、各アルゴリズムの定量的性能を得るためにも利用できる。 提案手法の重要な特徴は,達成された性能向上の程度を考慮し,その実用的妥当性を考慮し,各アルゴリズムの性能を考慮し,分布的仮定を持たないことである。 提案手法は古典的仮説テストと比較され, 結果の解析により, 結果が同等であること, 提案手法には多くのメリットが示された。

Stochastic optimization algorithms have been successfully applied in several domains to find optimal solutions. Because of the ever-growing complexity of the integrated systems, novel stochastic algorithms are being proposed, which makes the task of the performance analysis of the algorithms extremely important. In this paper, we provide a novel ranking scheme to rank the algorithms over multiple single-objective optimization problems. The results of the algorithms are compared using a robust bootstrapping-based hypothesis testing procedure that is based on the principles of severity. Analogous to the football league scoring scheme, we propose pairwise comparison of algorithms as in league competition. Each algorithm accumulates points and a performance metric of how good or bad it performed against other algorithms analogous to goal differences metric in football league scoring system. The goal differences performance metric can not only be used as a tie-breaker but also be used to obtain a quantitative performance of each algorithm. The key novelty of the proposed ranking scheme is that it takes into account the performance of each algorithm considering the magnitude of the achieved performance improvement along with its practical relevance and does not have any distributional assumptions. The proposed ranking scheme is compared to classical hypothesis testing and the analysis of the results shows that the results are comparable and our proposed ranking showcases many additional benefits.
翻訳日:2024-06-06 08:23:47 公開日:2024-05-31
# 連続時間におけるニューラルネットワーク制御システムの検証

Verification of Neural Network Control Systems in Continuous Time ( http://arxiv.org/abs/2406.00157v1 )

ライセンス: Link先を確認
Ali ArjomandBigdeli, Andrew Mata, Stanley Bak, (参考訳) ニューラルネットワークコントローラは現在、多くの安全クリティカルなタスクで使用するために提案されている。 ニューラルネットワーク制御システムのほとんどの分析方法は、一定の制御期間を仮定する。 制御理論では、高い周波数では通常性能が向上する。 しかし、現在の分析手法では、周波数の増加は検証を複雑にする。 この制限下では、アクティベーションが継続的に実行されると、既存のニューラルネットワーク制御システム検証方法がシステムを分析することができない。 本研究では,連続的なニューラルネットワーク制御システムに対する最初の検証手法を開発する。 ニューラルネットワークコントローラをモデル化するための抽象化レベルを追加することで、これを実現する。 この抽象化は局所線形化誤差を考慮に入れた一括線形モデルである。 抽象化の健全性は、必要な仕様を扱う際に既存のツールのボトルネックを示すが、オープンループニューラルネットワーク検証ツールを使用して確認することができる。 視覚に基づく自律型飛行機タクシーシステムに適用し、固定周波数解析ベースラインと比較することにより、アプローチの有効性を実証する。

Neural network controllers are currently being proposed for use in many safety-critical tasks. Most analysis methods for neural network control systems assume a fixed control period. In control theory, higher frequency usually improves performance. However, for current analysis methods, increasing the frequency complicates verification. In the limit, when actuation is performed continuously, no existing neural network control systems verification methods are able to analyze the system. In this work, we develop the first verification method for continuously-actuated neural network control systems. We accomplish this by adding a level of abstraction to model the neural network controller. The abstraction is a piecewise linear model with added noise to account for local linearization error. The soundness of the abstraction can be checked using open-loop neural network verification tools, although we demonstrate bottlenecks in existing tools when handling the required specifications. We demonstrate the approach's efficacy by applying it to a vision-based autonomous airplane taxiing system and compare with a fixed frequency analysis baseline.
翻訳日:2024-06-06 08:23:47 公開日:2024-05-31
# 言語モデルにおける参照能力について:マンデルケルンとリンゼンの内在論

On the referential capacity of language models: An internalist rejoinder to Mandelkern & Linzen ( http://arxiv.org/abs/2406.00159v1 )

ライセンス: Link先を確認
Giosue Baggio, Elliot Murphy, (参考訳) 最近の論文では、Mandelkern & Linzen (2024) が言語モデル(LM)の単語が参照するかどうかという問題に対処している。 彼らの主張は、哲学的意味論における外部主義の伝統からきており、言葉の能力は「「言葉と世界」のつながりをつかむ」のであると見なしている。 外部主義の枠組みでは、因果的に不断な用法連鎖が、名前のあらゆる発生をその持ち手に遡らせ、例えば「ピアノ」が個々のピアノを指すことを保証している(Kripke 1980)。 この説明は、言葉が世界の「外に」参照者を選ぶことと、参照を決定するものは、個々の精神状態ではなく、コミュニティのメンバーによって協調された言語行動であるからである。 M&Lは、LMが人間の言語コミュニティに属しているかどうかを問う。 彼らの答えは慎重な"yes"である: LMへの入力は言語的"特定の参照使用履歴を持つ形式"であり、"これらの歴史はそれらの形態の参照を根拠としている"; LMのアウトプットにおける"Peano"の発生は、人間のスピーチやテキストにおける同じ適切な名前の他の発生と同様に、個々の"Peano"に因果的に関連している; LMのアウトプットにおける"Peano"の発生は、Peanoを参照している。 このコメンタリーでは、まずM&Lの主張を、自然言語表現の狭いクラスに適用するものとして評価する。 したがって、彼らの主張は有効であり、第2節でそれに対する追加の動機を強調します。 次に,それらの主張の実際の範囲について論じるとともに,それらの定式化によって,LMにおける参照に関する不確実な一般化がもたらされることを示唆する。 私たちの批判は、LMの他の外部論者(例えば、Lederman & Mahowald 2024; Mollo & Milliere 2023)にも当てはまります。 最後に、人間の言語コミュニティのメンバーとしてのLMの現状についてコメントを締めくくった。

In a recent paper, Mandelkern & Linzen (2024) - henceforth M&L - address the question of whether language models' (LMs) words refer. Their argument draws from the externalist tradition in philosophical semantics, which views reference as the capacity of words to "achieve 'word-to-world' connections". In the externalist framework, causally uninterrupted chains of usage, tracing every occurrence of a name back to its bearer, guarantee that, for example, 'Peano' refers to the individual Peano (Kripke 1980). This account is externalist both because words pick out referents 'out there' in the world, and because what determines reference are coordinated linguistic actions by members of a community, and not individual mental states. The "central question to ask", for M&L, is whether LMs too belong to human linguistic communities, such that words by LMs may also trace back causally to their bearers. Their answer is a cautious "yes": inputs to LMs are linguistic "forms with particular histories of referential use"; "those histories ground the referents of those forms"; any occurrence of 'Peano' in LM outputs is as causally connected to the individual Peano as any other occurrence of the same proper name in human speech or text; therefore, occurrences of 'Peano' in LM outputs refer to Peano. In this commentary, we first qualify M&L's claim as applying to a narrow class of natural language expressions. Thus qualified, their claim is valid, and we emphasise an additional motivation for that in Section 2. Next, we discuss the actual scope of their claim, and we suggest that the way they formulate it may lead to unwarranted generalisations about reference in LMs. Our critique is likewise applicable to other externalist accounts of LMs (e.g., Lederman & Mahowald 2024; Mollo & Milliere 2023). Lastly, we conclude with a comment on the status of LMs as members of human linguistic communities.
翻訳日:2024-06-06 08:23:47 公開日:2024-05-31
# DYNA : 病原性に関する言語モデル

DYNA: Disease-Specific Language Model for Variant Pathogenicity ( http://arxiv.org/abs/2406.00164v1 )

ライセンス: Link先を確認
Huixin Zhan, Zijun Zhang, (参考訳) 病原性と良性の遺伝的変異の臨床的変異分類は、臨床遺伝学における課題である。 近年、ゲノム基盤モデルの提案により、弱教師付きまたは教師なしのトレーニングにより、一般的な変動効果予測(VEP)の精度が向上した。 しかしながら、これらのVEPは疾患特異的ではなく、治療の時点で適応を制限する。 この問題に対処するために、我々はDYNAを提案する: 病気特異的な文脈におけるより効果的な変異効果予測のために、シームズニューラルネットワークを介して、すべてのゲノム基盤モデルに広く適用する。 我々はDYNAを2つの異なる疾患関連タスクで評価した。 VEPのコーディングには、機能喪失と機能獲得の関係が疾患特異的なVEPを規定する様々な心血管疾患に焦点をあてる。 非コード型VEPでは、DYNAをRNAスプライシングの転写後調節軸に応用し、確立された臨床VEPガイドラインにおいて最も一般的な非コード病原性機構である。 どちらの場合も、DYNAは小さな稀な変種集合上の様々な事前訓練されたゲノム基盤モデルを微調整する。 DYNAファインチューニングモデルは、保持された稀な変種テストセットにおいて優れた性能を示し、ClinVARの大規模かつ臨床的に関連のある変種アノテーションでさらに複製される。 したがって、DYNAは、遺伝子内一般化および未確認遺伝子変異への一般化に優れた強力な疾患特異的変異効果予測方法を提供し、疾患関連や臨床応用に特に有用である。

Clinical variant classification of pathogenic versus benign genetic variants remains a challenge in clinical genetics. Recently, the proposition of genomic foundation models has improved the generic variant effect prediction (VEP) accuracy via weakly-supervised or unsupervised training. However, these VEPs are not disease-specific, limiting their adaptation at the point of care. To address this problem, we propose DYNA: Disease-specificity fine-tuning via a Siamese neural network broadly applicable to all genomic foundation models for more effective variant effect predictions in disease-specific contexts. We evaluate DYNA in two distinct disease-relevant tasks. For coding VEPs, we focus on various cardiovascular diseases, where gene-disease relationships of loss-of-function vs. gain-of-function dictate disease-specific VEP. For non-coding VEPs, we apply DYNA to an essential post-transcriptional regulatory axis of RNA splicing, the most common non-coding pathogenic mechanism in established clinical VEP guidelines. In both cases, DYNA fine-tunes various pre-trained genomic foundation models on small, rare variant sets. The DYNA fine-tuned models show superior performance in the held-out rare variant testing set and are further replicated in large, clinically-relevant variant annotations in ClinVAR. Thus, DYNA offers a potent disease-specific variant effect prediction method, excelling in intra-gene generalization and generalization to unseen genetic variants, making it particularly valuable for disease associations and clinical applicability.
翻訳日:2024-06-06 08:23:47 公開日:2024-05-31
# 一般化量子コヒーレント状態の空間光モード類似

Spatial light mode analogues of generalized quantum coherent states ( http://arxiv.org/abs/2406.00169v1 )

ライセンス: Link先を確認
M. P. Morales Rodríguez, E. García Herrera, O. Magaña Loaiza, B. Perez-Garcia, F. Marroquín Gutíerrez, B. M. Rodríguez-Lara, (参考訳) 光モードの空間的自由度を用いて、エルミートモードとラゲール・ガウスモードの一般化された量子コヒーレント状態の光学的アナログを構成する。 我々の光学アナログは、その振幅と位相分布に符号化された量子対の統計的性質を保存している。 一般化された変位、回転、圧縮されたコヒーレント状態を提供する3つの基本対称性を探索する。 物質探索のための圧縮状態へのかなりの関心を考えると、ここで導入された光学アナログは光センシングに重大な影響を及ぼすと信じている。 具体的には、我々の空間モードの単一粒子の性質は、感光材料を検知するための頑健な候補となる。 全体として、我々のアプローチは、量子領域にすでに存在するものを模倣する光学気象学やセンシングプロトコルへの扉を開き、古典的な光学的アナログを通して量子状態動物園のさらなる探索を促進する。

We use the spatial degree of freedom of light modes to construct optical analogues of generalized quantum coherent states for Hermite- and Laguerre-Gauss modes. Our optical analogues preserve the statistical properties of their quantum counterparts, encoded in their amplitude and phase distributions. We explore three basic symmetries that provide generalized displaced, rotated, and squeezed coherent states. Given the substantial interest in squeezed states for probing matter, we believe that the optical analogues introduced here have significant implications for optical sensing. Specifically, the single-particle nature of our spatial modes makes them robust candidates for sensing photosensitive materials. Overall, our approach opens the door to optical metrology and sensing protocols that mimic those already existing in the quantum realm, and facilitates further exploration of the quantum state zoo through classical optical analogues.
翻訳日:2024-06-06 08:23:47 公開日:2024-05-31
# トポロジカル弱メカウレメントによる幾何学的位相の再検討

Topological weak-mesaurement-induced geometric phases revisited ( http://arxiv.org/abs/2406.00176v1 )

ライセンス: Link先を確認
Graciana Puentes, (参考訳) 弱測定により誘導される幾何位相のクラスの解析的および数値的研究について述べる。 特に、幾何位相が極角$\varphi$の巻線$W$の依存性を、増大する等級(c$)の弱測定シーケンスに基づいて解析し、幾何位相が確率的になるような臨界測度強度パラメータの多重性の出現をもたらす。 提案手法の斬新さに加えて, 準連続極限(N \rightarrow \infty$) に有効である完全解析導出による弱測定誘起幾何位相の解析に加えて, 幾何位相を数値的に解析することにより, 幾何位相の有限-N$相互作用を測定強度パラメータで解き放つことができ, 測定プロトコルにおける摂動に対する安定性が向上する。

We present an analytical and numerical study of a class of geometric phase induced by weak measurements. In particular, we analyze the dependence of the geometric phase on the winding $W$ of the polar angle $\varphi$, upon a sequence of $N$ weak measurements of increased magnitude ($c$), resulting in the appearance of a multiplicity of critical measurement-strength parameters where the geometric phase becomes stochastic. Adding to the novelty of our approach, we not only analyze the weak-measurement induced geometric phase by a full analytic derivation, valid in the quasicontinuous limit ($N \rightarrow \infty$), but also we analyze the induced geometric phase numerically, thus enabling us to unravel the finite-$N$ interplay of the geometric phase with the measurement strength parameter, and its stability to perturbations in the measurements protocol.
翻訳日:2024-06-06 08:23:47 公開日:2024-05-31
# 前向きグラディエント注入によるフレキシブル・高効率サロゲートグラディエントモデリング

Flexible and Efficient Surrogate Gradient Modeling with Forward Gradient Injection ( http://arxiv.org/abs/2406.00177v1 )

ライセンス: Link先を確認
Sebastian Otte, (参考訳) 自動微分は、現在のディープラーニングフレームワークの重要な特徴である。 さらに、それらは一般に、スパイキングニューラルネットワーク(SNN)におけるHeaviside関数のような微分不可能な操作の領域における代理勾配を定義するために特に重要である計算グラフ内のカスタム勾配を指定するための様々な方法を提供する。 例えば、PyTorchは、後方メソッドをオーバーライドすることで、オペレーションの後方パスのカスタム仕様を可能にする。 他のフレームワークは同等の選択肢を提供する。 これらのメソッドは一般的なプラクティスであり、通常はうまく動作しますが、柔軟性の制限、ソースコードのオーバーヘッドの追加、ユーザビリティの低下、自動モデル最適化手順の有効性に対する潜在的にネガティブな影響など、いくつかの欠点があります。 本稿では, 代理勾配を定式化する方法として, フォワード勾配注入(FGI)を提案する。 FGIは、基本的な標準演算の単純かつ効果的な組み合わせを適用して、任意の勾配形状を前方パス内で直接計算グラフに注入する。 FGIの使用は簡単で便利である。 さらに、FGIはTorchScriptを使用する場合のSNNのカスタムバックワードメソッドと比較して、モデル性能を著しく向上させることができることを示した。 これらの結果は、TorchScript と torch.compile による繰り返し SNN の一般的な性能調査と補完され、トレーニングのスピードアップが7倍以上、推論のスピードアップが16倍以上になる可能性を明らかにした。

Automatic differentiation is a key feature of present deep learning frameworks. Moreover, they typically provide various ways to specify custom gradients within the computation graph, which is of particular importance for defining surrogate gradients in the realms of non-differentiable operations such as the Heaviside function in spiking neural networks (SNNs). PyTorch, for example, allows the custom specification of the backward pass of an operation by overriding its backward method. Other frameworks provide comparable options. While these methods are common practice and usually work well, they also have several disadvantages such as limited flexibility, additional source code overhead, poor usability, or a potentially strong negative impact on the effectiveness of automatic model optimization procedures. In this paper, an alternative way to formulate surrogate gradients is presented, namely, forward gradient injection (FGI). FGI applies a simple but effective combination of basic standard operations to inject an arbitrary gradient shape into the computational graph directly within the forward pass. It is demonstrated that using FGI is straightforward and convenient. Moreover, it is shown that FGI can significantly increase the model performance in comparison to custom backward methods in SNNs when using TorchScript. These results are complemented with a general performance study on recurrent SNNs with TorchScript and torch.compile, revealing the potential for a training speedup of more than 7x and an inference speedup of more than 16x in comparison with pure PyTorch.
翻訳日:2024-06-06 08:23:47 公開日:2024-05-31
# ロングスパン質問応答:サイドバイサイド評価による自動質問生成とQAシステムランキング

Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation ( http://arxiv.org/abs/2406.00179v1 )

ライセンス: Link先を確認
Bernd Bohnet, Kevin Swersky, Rosanne Liu, Pranjal Awasthi, Azade Nova, Javier Snaider, Hanie Sedghi, Aaron T Parisi, Michael Collins, Angeliki Lazaridou, Orhan Firat, Noah Fiedel, (参考訳) 大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。 このようなデータセットを構築するためのこれまでの努力は、クラウドソーシングに依存していたが、コンテキストサイズ100万以上のトランスフォーマーの出現により、完全に自動的なアプローチが可能になった。 我々の目的は、長文の詳細な理解を必要とする問題(例えば、文字弧を含む質問、より広いテーマ、物語の後の初期の行動の結果など)を分析し、理解し、推論するLLMの能力をテストすることである。 本稿では,'Evaluator'を用いた質問生成,回答,モデルスコアリングを含む,自動データ生成のための全体的パイプラインを提案する。 モデル間の解答をペア方式で比較し、Bradley-Terryモデルとランク付けすることで、解答を個別に評価する絶対スコアラーよりも一貫性と差別化のメカニズムが提供される。 また、異なるモデルファミリーのLCMが評価において適度な合意を得られることを示す。 我々は手動でキュレートされたNarrativeQAデータセットを用いてアプローチを基礎とし、評価器は人間の判断と優れた一致を示し、データセットにエラーを見つける。 自動評価手法を用いて,書籍全体を文脈として使用すると,ベースライン・ノ・コンテクスト(パラメトリック知識のみ)や検索ベースアプローチよりも優れた読解能力が得られることを示す。

We explore the use of long-context capabilities in large language models to create synthetic reading comprehension data from entire books. Previous efforts to construct such datasets relied on crowd-sourcing, but the emergence of transformers with a context size of 1 million or more tokens now enables entirely automatic approaches. Our objective is to test the capabilities of LLMs to analyze, understand, and reason over problems that require a detailed comprehension of long spans of text, such as questions involving character arcs, broader themes, or the consequences of early actions later in the story. We propose a holistic pipeline for automatic data generation including question generation, answering, and model scoring using an ``Evaluator''. We find that a relative approach, comparing answers between models in a pairwise fashion and ranking with a Bradley-Terry model, provides a more consistent and differentiating scoring mechanism than an absolute scorer that rates answers individually. We also show that LLMs from different model families produce moderate agreement in their ratings. We ground our approach using the manually curated NarrativeQA dataset, where our evaluator shows excellent agreement with human judgement and even finds errors in the dataset. Using our automatic evaluation approach, we show that using an entire book as context produces superior reading comprehension performance compared to baseline no-context (parametric knowledge only) and retrieval-based approaches.
翻訳日:2024-06-06 08:23:47 公開日:2024-05-31
# コードとしてワークフローを実装する開発者の課題に関する実証的研究: Apache Airflowを事例として

An Empirical Study of Developers' Challenges in Implementing Workflows as Code: A Case Study on Apache Airflow ( http://arxiv.org/abs/2406.00180v1 )

ライセンス: Link先を確認
Jerin Yasmin, Jiale Wang, Yuan Tian, Bram Adams, (参考訳) ワークフロー・アズ・コード(Workflows as Code)パラダイムは、データ集約型ソフトウェアシステムにおける複雑なプロセスの設計と管理を合理化する上で、ますます不可欠になりつつある。 これらのシステムは、大規模なデータセットから洞察を処理、分析、抽出するために堅牢な機能を必要とします。 Apache Airflowのようなワークフローオーケストレーションプラットフォームは、ワークフロー・アズ・コード・パラダイムの実装を効果的にサポートするため、これらのニーズを満たす上で重要である。 それにもかかわらず、ワークフローオーケストレーションの特殊な要求と分散実行環境の複雑さのため、開発者は依然として課題に直面している。 本稿では,9,591件のAirflow関連質問から得られた1,000件のStack Overflowポストを手作業で調査し,Workflows as Codeを実装しながら,開発者の課題と根本原因を理解する。 分析の結果,エアフロー関連課題の階層的分類が,上位7カテゴリと下位14カテゴリを含むことが明らかとなった。 ワークフローの定義と実行において、開発者にとって最も重要な障害が生じていることに気付きました。 私たちの詳細な分析では、誤ったワークフロー設定、複雑な環境設定、Airflowとそれと相互作用する外部システムに関する基本的な知識の欠如など、これらの課題の背後にある10の根本原因を特定しています。 さらに、収集された投稿で共有されるリファレンスの分析からは、頻繁に引用されるAirflowドキュメント、外部システムからのドキュメント、サードパーティプロバイダなど以外にも、Airflow関連の課題に対処するために一般的に参照されていることが分かる。

The Workflows as Code paradigm is becoming increasingly essential to streamline the design and management of complex processes within data-intensive software systems. These systems require robust capabilities to process, analyze, and extract insights from large datasets. Workflow orchestration platforms such as Apache Airflow are pivotal in meeting these needs, as they effectively support the implementation of the Workflows as Code paradigm. Nevertheless, despite its considerable advantages, developers still face challenges due to the specialized demands of workflow orchestration and the complexities of distributed execution environments. In this paper, we manually study 1,000 sampled Stack Overflow posts derived from 9,591 Airflow-related questions to understand developers' challenges and root causes while implementing Workflows as Code. Our analysis results in a hierarchical taxonomy of Airflow-related challenges that contains 7 high-level categories and 14 sub-categories. We find that the most significant obstacles for developers arise when defining and executing their workflow. Our in-depth analysis identifies 10 root causes behind the challenges, including incorrect workflow configuration, complex environmental setup, and a lack of basic knowledge about Airflow and the external systems that it interacts with. Additionally, our analysis of references shared within the collected posts reveals that beyond the frequently cited Airflow documentation, documentation from external systems and third-party providers is also commonly referenced to address Airflow-related challenges.
翻訳日:2024-06-06 08:13:57 公開日:2024-05-31
# 暗黙の溶媒機械学習電位による解離自由エネルギーの予測

Predicting solvation free energies with an implicit solvent machine learning potential ( http://arxiv.org/abs/2406.00183v1 )

ライセンス: Link先を確認
Sebastien Röcken, Anton F. Burnet, Julija Zavadlav, (参考訳) 機械学習(ML)ポテンシャルは、分子モデリングにおいて強力なツールであり、計算コストの最小化のために、ab初期精度を実現する。 それでも、最高のパフォーマンスのグラフニューラルネットワークアーキテクチャを用いた全原子シミュレーションは、自由エネルギー計算のような広範なサンプリングを必要とするアプリケーションにとって、依然として高価である。 入射溶媒モデルでは、自由度が低下し、速度が速くなるため、必要なスピードアップを提供できる。 本稿では, 薬物設計および汚染物質モデルにおいて重要なパラメータである, 水和自由エネルギーを正確に予測する小さな有機分子に対して, 暗黙の溶媒MLポテンシャルをパラメトリズするソルベーションフリーエネルギー経路再加重法(ReSolv)フレームワークを提案する。 トップダウン(実験的な水和自由エネルギーデータ)とボトムアップ(真空中の分子の初期データ)の学習の組み合わせにより、ReSolvは明示的なバルク溶媒中の分子の難解なアブ初期データの必要性を回避し、より精度の低いデータ生成モデルに頼る必要がない。 FreeSolvデータセットでは、ReSolvは平均的な実験の不確実性に近い平均的な絶対誤差を達成する。 提示されたフレームワークは、古典的な原子論モデルよりも正確だが計算的に安価であるディープ分子モデルへの道を開いた。

Machine learning (ML) potentials are a powerful tool in molecular modeling, enabling ab initio accuracy for comparably small computational costs. Nevertheless, all-atom simulations employing best-performing graph neural network architectures are still too expensive for applications requiring extensive sampling, such as free energy computations. Implicit solvent models could provide the necessary speed-up due to reduced degrees of freedom and faster dynamics. Here, we introduce a Solvation Free Energy Path Reweighting (ReSolv) framework to parametrize an implicit solvent ML potential for small organic molecules that accurately predicts the hydration free energy, an essential parameter in drug design and pollutant modeling. With a combination of top-down (experimental hydration free energy data) and bottom-up (ab initio data of molecules in a vacuum) learning, ReSolv bypasses the need for intractable ab initio data of molecules in explicit bulk solvent and does not have to resort to less accurate data-generating models. On the FreeSolv dataset, ReSolv achieves a mean absolute error close to average experimental uncertainty, significantly outperforming standard explicit solvent force fields. The presented framework paves the way toward deep molecular models that are more accurate yet computationally cheaper than classical atomistic models.
翻訳日:2024-06-06 08:13:57 公開日:2024-05-31
# 変圧器を用いたアンダーサンプルK空間からの直接心分離

Direct Cardiac Segmentation from Undersampled K-space Using Transformers ( http://arxiv.org/abs/2406.00192v1 )

ライセンス: Link先を確認
Yundi Zhang, Nil Stolt-Ansó, Jiazhen Pan, Wenqi Huang, Kerstin Hammernik, Daniel Rueckert, (参考訳) 心臓のセグメンテーションを予測するためのディープラーニングベースの手法は、再構成された磁気共鳴(MR)画像を含む。 画像品質に対するセグメンテーションアプローチの重い依存性は、高速MR再構成における加速速度を著しく制限する。 さらに、再構成と分割を個別の逐次的プロセスとして扱うという実践は、中間段階におけるアーティファクトの生成と情報損失につながる。 これらの問題は、高品質な成果を達成する上で大きなリスクをもたらします。 このデュアルステップパイプラインで見落とされた冗長なk空間情報を活用するために、トランスフォーマー(DiSK)を用いてスパースk空間サンプルからセグメントを直接抽出する新しいアプローチを導入する。 DiSKは2D+時間k空間データからグローバルに遅延特徴を注目ブロックで抽出し、クエリポイントのセグメンテーションラベルを予測する。 様々な加速度因子(4から64の範囲)でモデルを評価し,2つのイメージベースセグメンテーションベースラインと比較した。 我々のモデルは、示されるすべてのサンプリングレートに対して、Dice と Hausdorff の距離の基底線を常に上回る。

The prevailing deep learning-based methods of predicting cardiac segmentation involve reconstructed magnetic resonance (MR) images. The heavy dependency of segmentation approaches on image quality significantly limits the acceleration rate in fast MR reconstruction. Moreover, the practice of treating reconstruction and segmentation as separate sequential processes leads to artifact generation and information loss in the intermediate stage. These issues pose a great risk to achieving high-quality outcomes. To leverage the redundant k-space information overlooked in this dual-step pipeline, we introduce a novel approach to directly deriving segmentations from sparse k-space samples using a transformer (DiSK). DiSK operates by globally extracting latent features from 2D+time k-space data with attention blocks and subsequently predicting the segmentation label of query points. We evaluate our model under various acceleration factors (ranging from 4 to 64) and compare against two image-based segmentation baselines. Our model consistently outperforms the baselines in Dice and Hausdorff distances across foreground classes for all presented sampling rates.
翻訳日:2024-06-06 08:13:57 公開日:2024-05-31
# SNED:効率的なビデオ拡散モデルのための重ね合わせネットワークアーキテクチャ探索

SNED: Superposition Network Architecture Search for Efficient Video Diffusion Model ( http://arxiv.org/abs/2406.00195v1 )

ライセンス: Link先を確認
Zhengang Li, Yan Kang, Yuchen Liu, Difan Liu, Tobias Hinz, Feng Liu, Yanzhi Wang, (参考訳) AI生成コンテンツは大きな注目を集めているが、写真リアリスティックなビデオ合成を実現することは、依然として困難な課題だ。 ビデオ生成品質の拡散モデルが期待できる進歩にもかかわらず、複雑なモデルアーキテクチャと、トレーニングと推論の両方に対する実質的な計算要求は、これらのモデルと現実世界のアプリケーションの間に大きなギャップを生じさせる。 本稿では,効率的な映像拡散モデルのための重ね合わせネットワークアーキテクチャ探索手法SNEDを提案する。 本手法は,重み共有方式を用いて,様々なモデルコストと解像度の選択肢をターゲットにしたスーパーネットトレーニングパラダイムを用いる。 また,高速トレーニング最適化のためのスーパーネットトレーニングサンプリングウォームアップを提案する。 本手法の柔軟性を示すため,画素空間と潜時空間の両方の拡散モデルを用いた実験を行った。 その結果、我々のフレームワークは、高い効率で、異なるモデルオプションにまたがる同等の結果を連続的に生成することを示した。 画素空間ビデオ拡散モデルの実験によると、64 x 64 から256 x 256 の解像度で一貫したビデオ生成結果が同時に得られ、640M から1.6B のモデルサイズを持つ。

While AI-generated content has garnered significant attention, achieving photo-realistic video synthesis remains a formidable challenge. Despite the promising advances in diffusion models for video generation quality, the complex model architecture and substantial computational demands for both training and inference create a significant gap between these models and real-world applications. This paper presents SNED, a superposition network architecture search method for efficient video diffusion model. Our method employs a supernet training paradigm that targets various model cost and resolution options using a weight-sharing method. Moreover, we propose the supernet training sampling warm-up for fast training optimization. To showcase the flexibility of our method, we conduct experiments involving both pixel-space and latent-space video diffusion models. The results demonstrate that our framework consistently produces comparable results across different model options with high efficiency. According to the experiment for the pixel-space video diffusion model, we can achieve consistent video generation results simultaneously across 64 x 64 to 256 x 256 resolutions with a large range of model sizes from 640M to 1.6B number of parameters for pixel-space video diffusion models.
翻訳日:2024-06-06 08:13:57 公開日:2024-05-31
# Re3: 協調的なドキュメントリビジョンをモデル化するための全体論的なフレームワークとデータセット

Re3: A Holistic Framework and Dataset for Modeling Collaborative Document Revision ( http://arxiv.org/abs/2406.00197v1 )

ライセンス: Link先を確認
Qian Ruan, Ilia Kuznetsov, Iryna Gurevych, (参考訳) テキスト文書の協調的レビューと改訂は、知識研究の核心であり、実証分析とNLP支援のための有望な目標である。 しかし、ドキュメントのリビジョン、レビュー、著者の反応の間の複雑な関係をモデル化できる包括的なフレームワークは欠如している。 このギャップに対処するために、共同文書リビジョンの協調分析のためのフレームワークであるRe3を紹介する。 我々は、この枠組みを学術領域でインスタンス化し、現在Re3-Sciは、その行動と意図に応じて手動でラベル付けされた科学論文の大規模なコーパスであり、それぞれのピアレビューと人間による編集要約を補足している。 本研究は,学術領域における共同文書改訂に関する実証的な知見を初めて提供し,編集分析の自動化とテキストベースのコラボレーションの促進における最先端のLCMの能力を評価する。 アノテーション環境とプロトコル、結果のデータ、実験的なコードを公開しています。

Collaborative review and revision of textual documents is the core of knowledge work and a promising target for empirical analysis and NLP assistance. Yet, a holistic framework that would allow modeling complex relationships between document revisions, reviews and author responses is lacking. To address this gap, we introduce Re3, a framework for joint analysis of collaborative document revision. We instantiate this framework in the scholarly domain, and present Re3-Sci, a large corpus of aligned scientific paper revisions manually labeled according to their action and intent, and supplemented with the respective peer reviews and human-written edit summaries. We use the new data to provide first empirical insights into collaborative document revision in the academic domain, and to assess the capabilities of state-of-the-art LLMs at automating edit analysis and facilitating text-based collaboration. We make our annotation environment and protocols, the resulting data and experimental code publicly available.
翻訳日:2024-06-06 08:13:57 公開日:2024-05-31
# ImplicitSLIMと埋め込み型協調フィルタリングの改善

ImplicitSLIM and How it Improves Embedding-based Collaborative Filtering ( http://arxiv.org/abs/2406.00198v1 )

ライセンス: Link先を確認
Ilya Shenbin, Sergey Nikolenko, (参考訳) IndicitSLIMはスパース高次元データのための新しい教師なし学習手法であり、協調フィルタリングへの応用がある。 スパース線形法(SLIM)とそのバリエーションは、優れた性能を示すが、それらはメモリ集約的でスケールが難しい。 ImplicitSLIMは、重いSLIMのようなモデルを明示的に学習することなく、SLIMのようなモデルからの埋め込みを計算的に安価でメモリ効率の良い方法で抽出することで、埋め込みベースのモデルを改善する。 我々は,ImplicitSLIMにより,最先端および古典的協調フィルタリング手法のコンバージェンスを向上し,高速化することを示す。 ImplicitSLIMのソースコード、関連するモデル、アプリケーションはhttps://github.com/ilya-shenbin/ImplicitSLIMで入手できる。

We present ImplicitSLIM, a novel unsupervised learning approach for sparse high-dimensional data, with applications to collaborative filtering. Sparse linear methods (SLIM) and their variations show outstanding performance, but they are memory-intensive and hard to scale. ImplicitSLIM improves embedding-based models by extracting embeddings from SLIM-like models in a computationally cheap and memory-efficient way, without explicit learning of heavy SLIM-like models. We show that ImplicitSLIM improves performance and speeds up convergence for both state of the art and classical collaborative filtering methods. The source code for ImplicitSLIM, related models, and applications is available at https://github.com/ilya-shenbin/ImplicitSLIM.
翻訳日:2024-06-06 08:13:57 公開日:2024-05-31
# 即時注入によるChatGPTからの個人情報の抽出

Exfiltration of personal information from ChatGPT via prompt injection ( http://arxiv.org/abs/2406.00199v1 )

ライセンス: Link先を確認
Gregory Schwartzman, (参考訳) 本報告では,ChatGPT 4 と 4o は,攻撃者がユーザの個人情報を照会できるプロンプトインジェクション攻撃の影響を受けやすいことを報告している。 サードパーティのツールを使わずに適用でき、現在すべてのユーザが影響を受ける。 この脆弱性は、最近のChatGPTのメモリ機能の導入によって悪化し、攻撃者はChatGPTに、希望する個人データを監視するように指示することができる。

We report that ChatGPT 4 and 4o are susceptible to a prompt injection attack that allows an attacker to query users' personal data. It is applicable without the use of any 3rd party tools and all users are currently affected. This vulnerability is exacerbated by the recent introduction of ChatGPT's memory feature, which allows an attacker to command ChatGPT to monitor the user for the desired personal data.
翻訳日:2024-06-06 08:13:57 公開日:2024-05-31
# Mamba State-Space Modelsは強力な下流学習者になれる

Mamba State-Space Models Can Be Strong Downstream Learners ( http://arxiv.org/abs/2406.00209v1 )

ライセンス: Link先を確認
John T. Halloran, Manbir Gulati, Paul F. Roysdon, (参考訳) Mamba State-space Model (SSM) は、最近様々なタスクにおいて、SOTA (State-of-the-art) の変換言語モデル (LLM) よりも優れており、広く採用されている。 しかし、Mambaの下流学習能力は、探索されていない$\unicode{x2013}$e g、混合精度(MPFT)、パラメータ効率の微調整(PEFT)、または未評価$\unicode{x2013}$e g、インコンテキスト学習(ICL)のいずれかである。 後者については、最近の研究で、マンバのICLは標準ではないベンチマークを用いてSOTA Transformer LLMと競合していると報告されている。 対照的に、標準ベンチマークでは、トレーニング済みのMambaモデルは、同等のトランスフォーマーのICL性能改善(ゼロショット以上)の38%しか達成していない。 Mamba アーキテクチャにおける MPFT と PEFT の実装は,それぞれ再帰的な動的特性と高度にカスタマイズされた CUDA カーネルにより困難である。 しかし、マンバの繰り返し力学は力学系理論を用いて小さな入力変化に対して堅牢であることを示す。 実験により,Transformer LLMとの混合精度整合によるマンバ推定と微調整の性能変化が示された。 さらに、低ランク適応のためのMambaのカスタマイズされたCUDAカーネルにおけるキーメモリバッファのターゲットは、SSMパラメータを正規化し、スピードアップを維持しながらパラメータ効率が向上することを示す。 我々は,MPFTとPEFTを組み合わせることで,最大2.15倍のトークン/秒,65.5%のトークン/トークン/メモリ削減が可能であり,また,互換性のある微調整トランスのICL性能改善(ゼロショット以上)を最大81.5%達成できることを示した。

Mamba state-space models (SSMs) have recently outperformed state-of-the-art (SOTA) Transformer large language models (LLMs) in various tasks and been widely adapted. However, Mamba's downstream learning capabilities remain either unexplored$\unicode{x2013}$e.g., mixed-precision (MPFT) and parameter-efficient fine-tuning (PEFT)--or under-evaluated$\unicode{x2013}$e.g., in-context learning (ICL). For the latter, recent works reported Mamba's ICL rivals SOTA Transformer LLMs using non-standard benchmarks. In contrast, we show that on standard benchmarks, pretrained Mamba models achieve only 38% of the ICL performance improvements (over zero-shot) of comparable Transformers. Enabling MPFT and PEFT in Mamba architectures is challenging due to recurrent dynamics and highly customized CUDA kernels, respectively. However, we prove that Mamba's recurrent dynamics are robust to small input changes using dynamical systems theory. Empirically, we show that performance changes in Mamba's inference and fine-tuning due to mixed-precision align with Transformer LLMs. Furthermore, we show that targeting key memory buffers in Mamba's customized CUDA kernels for low-rank adaptation regularizes SSM parameters, thus achieving parameter efficiency while retaining speedups. We show that combining MPFT and PEFT enables up to 2.15 times more tokens-per-second and 65.5% reduced per-token-memory compared to full Mamba fine-tuning, while achieving up to 81.5% of the ICL performance improvements (over zero-shot) of comparably fine-tuned Transformers.
翻訳日:2024-06-06 08:13:57 公開日:2024-05-31
# MVAD:ビデオストリーミングのための複数のビジュアルアーティファクト検出器

MVAD: A Multiple Visual Artifact Detector for Video Streaming ( http://arxiv.org/abs/2406.00212v1 )

ライセンス: Link先を確認
Chen Feng, Duolikun Danier, Fan Zhang, David Bull, (参考訳) ビジュアルアーティファクトは、しばしば、コンテンツ制作および/または配信中に一般的な条件のために、ストリーミングされたビデオコンテンツに導入される。 これらはユーザ体験の質を劣化させる可能性があるため、効果的な品質測定と向上を可能にするために、自動的に正確に検出することが重要である。 既存の検出方法は、単一の種類のアーティファクトに焦点を当てたり、あるいは客観的な品質指標をしきい値にすることで、アーティファクトの存在を判定することが多い。 このようなアプローチは一貫性のない予測性能を提供すると報告されており、複数のアーティファクトが共存し相互作用する現実世界のアプリケーションには実用的ではない。 本稿では,映像品質評価モデルに依存しない単一のフレームワークを用いて,初めて複数のアーティファクトを検出可能なビデオストリーミング用マルチビジュアルアーティファクト検出器MVADを提案する。 提案手法では,Artifact-aware Dynamic Feature Extractor (ADFE) を用いて,複数のアーティファクトタイプに対して,各フレーム内のアーティファクト関連空間的特徴を求める。 抽出した特徴は、リカレントメモリビジョン変換器(RMViT)モジュールによってさらに処理され、入力ビデオ内の短期情報と長期情報の両方をキャプチャする。 提案するネットワークアーキテクチャは,ビデオストリーミングパイプラインをシミュレートし,Adversarial Data Augmentationに基づいて生成された,大規模かつ多様なトレーニングデータベースに基づいて,エンドツーエンドで最適化されている。 このモデルは、MaxwellとBVI-Artifactの2つのビデオアーティファクトデータベースで評価され、既存の7つの単一および複数のアーティファクト検出器と比較して、10のターゲット視覚アーティファクトに対して一貫性と改善された予測結果が得られた。 ソースコードとトレーニングデータベースはhttps://chenfeng-bristol.github.io/MVAD/.com/で入手できる。

Visual artifacts are often introduced into streamed video content, due to prevailing conditions during content production and/or delivery. Since these can degrade the quality of the user's experience, it is important to automatically and accurately detect them in order to enable effective quality measurement and enhancement. Existing detection methods often focus on a single type of artifact and/or determine the presence of an artifact through thresholding objective quality indices. Such approaches have been reported to offer inconsistent prediction performance and are also impractical for real-world applications where multiple artifacts co-exist and interact. In this paper, we propose a Multiple Visual Artifact Detector, MVAD, for video streaming which, for the first time, is able to detect multiple artifacts using a single framework that is not reliant on video quality assessment models. Our approach employs a new Artifact-aware Dynamic Feature Extractor (ADFE) to obtain artifact-relevant spatial features within each frame for multiple artifact types. The extracted features are further processed by a Recurrent Memory Vision Transformer (RMViT) module, which captures both short-term and long-term temporal information within the input video. The proposed network architecture is optimized in an end-to-end manner based on a new, large and diverse training database that is generated by simulating the video streaming pipeline and based on Adversarial Data Augmentation. This model has been evaluated on two video artifact databases, Maxwell and BVI-Artifact, and achieves consistent and improved prediction results for ten target visual artifacts when compared to seven existing single and multiple artifact detectors. The source code and training database will be available at https://chenfeng-bristol.github.io/MVAD/.
翻訳日:2024-06-06 08:13:57 公開日:2024-05-31
# LLMとLLMエージェントのためのコード生成のコミュニケーション能力のベンチマーク

Benchmarking the Communication Competence of Code Generation for LLMs and LLM Agent ( http://arxiv.org/abs/2406.00215v1 )

ライセンス: Link先を確認
Jie JW Wu, Fatemeh H. Fard, (参考訳) 大規模言語モデル(LLM)は、コード生成の分野でタスクを実行する能力を大幅に改善した。 しかし、LLMが有能なプログラマであることと、最上位のソフトウェアエンジニアであることの間にはまだギャップがある。 トップレベルのソフトウェアエンジニアが要求とコーディングソリューションのあいまいさを減らすために明確な質問をすることが多いことを踏まえると、コード生成タスクにはLLMにも同じように適用されるべきである、と私たちは主張する。 本研究では,コード生成のためのLLMの通信能力のベンチマークと解析に関する実証的研究を行った。 我々は,LLMのコミュニケーションスキルを,コード生成問題の記述に問題があった場合の明確化を問うことができるようなものだと定義している。 我々は、不整合、曖昧性、不完全性の3つの問題に応じて問題記述を変更することで、新しいベンチマークであるHumanEvalCommを作成しました。 我々は,コミュニケーションレートや質問率などの新たな評価指標を定義し,異なるコードLLMを用いてHumanEvalCommを試行し,コードや記述から曖昧な部分の質問を識別・問うための新しいLLMエージェントアプローチであるOkanaganについて検討した。 最後に,コードLLMと岡永君を比較し,評価結果を考察した。

Large language models (LLMs) have significantly improved their ability to perform tasks in the field of code generation. However, there is still a gap between LLMs being capable coders and being top-tier software engineers. Based on the observation that top-level software engineers often ask clarifying questions to reduce ambiguity in both requirements and coding solutions, we argue that the same should be applied to LLMs for code generation tasks. In this work, we conducted an empirical study on the benchmark and analysis of the communication skills of LLMs for code generation. We define communication skills of LLMs as ``being able to ask clarifying questions when the description of the code generation problem has issues''. We created a new benchmark, HumanEvalComm, by modifying problem descriptions according to three issues: inconsistency, ambiguity, incompleteness. We defined new evaluation metrics such as Communication Rate and Good Question Rate, and then experimented on HumanEvalComm with different Code LLMs, and a new LLM agent approach, Okanagan, to identify and ask questions in ambiguous parts from code and descriptions for further refining the generated code. Finally, we discussed evaluation results by comparing Code LLMs and Okanagan with our findings.
翻訳日:2024-06-06 08:13:57 公開日:2024-05-31
# 医療AIのための説明の必要性

The Explanation Necessity for Healthcare AI ( http://arxiv.org/abs/2406.00216v1 )

ライセンス: Link先を確認
Michail Mamalakis, Héloïse de Vareilles, Graham Murray, Pietro Lio, John Suckling, (参考訳) 説明可能性はしばしば人工知能(AI)の実装に欠かせない。 意思決定が患者に直接影響を与え、AIシステムへの信頼が不可欠である医療よりも、このことが重要なのはどこにもない。 この信頼は、AIが提供する説明と解釈に基づいて構築されることが多い。 AIの解釈可能性の大幅な進歩にもかかわらず、医療の文脈において、いつ、どの程度の説明が必要なのか、明確なガイドラインが必要である。 患者またはサンプル(地域)レベル,コホート(コホート)レベル,データセット(グローバル)レベル,あるいはいずれのレベルも要求される説明レベルを導く。 我々はこれらのカテゴリを識別する数学的定式化を導入し、研究者が医療AI応用に必要な説明の必要性と深さを決定するための実践的な枠組みを提供する。 評価プロトコルの堅牢性、専門家による観察の変動性、アプリケーションの表現次元性という3つの重要な要素が考慮されている。 この観点では、私たちは疑問に対処する: AI医療アプリケーションはいつ、どのレベルの詳細で説明する必要があるのか?

Explainability is often critical to the acceptable implementation of artificial intelligence (AI). Nowhere is this more important than healthcare where decision-making directly impacts patients and trust in AI systems is essential. This trust is often built on the explanations and interpretations the AI provides. Despite significant advancements in AI interpretability, there remains the need for clear guidelines on when and to what extent explanations are necessary in the medical context. We propose a novel categorization system with four distinct classes of explanation necessity, guiding the level of explanation required: patient or sample (local) level, cohort or dataset (global) level, or both levels. We introduce a mathematical formulation that distinguishes these categories and offers a practical framework for researchers to determine the necessity and depth of explanations required in medical AI applications. Three key factors are considered: the robustness of the evaluation protocol, the variability of expert observations, and the representation dimensionality of the application. In this perspective, we address the question: When does an AI medical application need to be explained, and at what level of detail?
翻訳日:2024-06-06 08:13:57 公開日:2024-05-31
# 自律運転の公正性:混在した天候下での物体検出における境界要素の理解に向けて

Fairness in Autonomous Driving: Towards Understanding Confounding Factors in Object Detection under Challenging Weather ( http://arxiv.org/abs/2406.00219v1 )

ライセンス: Link先を確認
Bimsara Pathiraja, Caleb Liu, Ransalu Senanayake, (参考訳) 自動運転車(AV)の配備は、多くの都市に急速に拡大している。 AVの中心部では、物体検出モジュールが最重要な役割を担い、近くの歩行者や車両の存在を考慮し、下流の意思決定タスクに直接影響を与える。 保持されたデータセットで検出された歩行者の精度が高いにもかかわらず、そのような物体検出器、特に困難な気象条件におけるアルゴリズムバイアスの存在の可能性は、まだ不明である。 本研究では,現在最先端の変圧器を用いた物体検出装置において,歩行者の公正さを総合的に分析する。 古典的メトリクスに加えて,オブジェクト検出の様々な複雑な特性を測定するために,新しい確率ベースのメトリクスを導入する。 現状のFACETデータセットとカーラ高忠実度車両シミュレータを応用し, 環境暗黒や霧などの環境条件下での物体検出性能に及ぼす性別, 肌のトーン, 体サイズなどの保護属性の影響について検討した。 筆者らによる定量的分析では、現場の人口分布、天気の重大さ、歩行者のAV接近など、これまで見過ごされていた直感的な要因が、物体検出性能にどのように影響しているかを明らかにした。 私たちのコードはhttps://github.com/bimsarapathiraja/fair-AVで利用可能です。

The deployment of autonomous vehicles (AVs) is rapidly expanding to numerous cities. At the heart of AVs, the object detection module assumes a paramount role, directly influencing all downstream decision-making tasks by considering the presence of nearby pedestrians, vehicles, and more. Despite high accuracy of pedestrians detected on held-out datasets, the potential presence of algorithmic bias in such object detectors, particularly in challenging weather conditions, remains unclear. This study provides a comprehensive empirical analysis of fairness in detecting pedestrians in a state-of-the-art transformer-based object detector. In addition to classical metrics, we introduce novel probability-based metrics to measure various intricate properties of object detection. Leveraging the state-of-the-art FACET dataset and the Carla high-fidelity vehicle simulator, our analysis explores the effect of protected attributes such as gender, skin tone, and body size on object detection performance in varying environmental conditions such as ambient darkness and fog. Our quantitative analysis reveals how the previously overlooked yet intuitive factors, such as the distribution of demographic groups in the scene, the severity of weather, the pedestrians' proximity to the AV, among others, affect object detection performance. Our code is available at https://github.com/bimsarapathiraja/fair-AV.
翻訳日:2024-06-06 08:13:57 公開日:2024-05-31
# 行動に基づくコントラスト自己学習によるマルチターン会話の学習

Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training ( http://arxiv.org/abs/2406.00222v1 )

ライセンス: Link先を確認
Maximillian Chen, Ruoxi Sun, Sercan Ö. Arık, Tomas Pfister, (参考訳) ヒューマンフィードバック(RLHF)からの強化学習を通じて整列された大規模言語モデル(LLM)は、インテリジェントな会話アシスタントエージェントを構築する上で、急速に支配的なパラダイムの1つになっている。 一般化されたアシスタントがあいまいさに直面している場合、彼らはしばしば、明確化の質問をするのではなく、ユーザーの根底からの意図を誇張または暗黙的に推測し、タスク固有の設定の下では、高品質な会話サンプルは制限され、モデルが最適な対話アクションポリシーを学習する能力に影響を与える。 提案手法は, DPO(Direct Preference Optimization)に基づく準オンライン選好最適化アルゴリズムであり, マルチターン会話において, サンプル効率のよい対話ポリシー学習を可能にする。 本稿では,テキストからSQL生成への情報探索要求を曖昧にするための新しいタスクであるAmbigSQLと,表在的質問応答,機械読解,3つの難解な会話課題において,ACTの有効性を示す。 さらに,会話におけるあいまいさを暗黙的に認識し,説明できるかどうかを調べることで,LLMが会話エージェントとして機能する能力を評価することを提案する。 ACTは、教師付き微調整とDPOのための標準的なアプローチよりも、相当な会話モデリングの改善を示す。

Large language models (LLMs) aligned through reinforcement learning from human feedback (RLHF) have quickly become one of the dominant paradigms for building intelligent conversational assistant agents. However, despite their strong performance across many benchmarks, LLM-based agents still lack conversational skills such as disambiguation: when generalized assistants are faced with ambiguity, they often overhedge or implicitly guess users' ground-truth intents rather than asking clarification questions, and under task-specific settings, high-quality conversation samples are often limited, affecting models' ability to learn optimal dialogue action policies. We propose Action-Based Contrastive Self-Training (henceforth ACT), a quasi-online preference optimization algorithm based on Direct Preference Optimization (DPO) which allows for sample-efficient dialogue policy learning in multi-turn conversation. We demonstrate ACT's efficacy under sample-efficient conditions in three difficult conversational tasks: tabular-grounded question-answering, machine reading comprehension, and AmbigSQL, a novel task for disambiguating information-seeking requests for text-to-SQL generation. Additionally, we propose evaluating LLMs' ability to function as conversational agents by examining whether they can implicitly recognize and reason about ambiguity in conversation. ACT demonstrates substantial conversation modeling improvements over standard approaches to supervised fine-tuning and DPO.
翻訳日:2024-06-06 08:13:57 公開日:2024-05-31
# 絡み合った関係:NLIとメタアナリシスを活用して生医学的関係抽出を促進する

Entangled Relations: Leveraging NLI and Meta-analysis to Enhance Biomedical Relation Extraction ( http://arxiv.org/abs/2406.00226v1 )

ライセンス: Link先を確認
William Hogan, Jingbo Shang, (参考訳) 近年,関係抽出(RE)を強化するために自然言語推論(NLI)技術を活用する可能性を探っている。 本稿では,NLIの原理を応用してRE性能を向上させる新しい適応手法であるMetaEntail-REを紹介する。 我々のアプローチは,従来の多クラス分類タスクをテキスト・エンテーメントの1つに整合させて,関係クラスをクラス指示仮説に言語化することで過去の研究に追随する。 我々は,(1)非包括的前提-仮説ペアと非形式的「中立的」包括ラベルをラベル付けする代わりに,包括ラベルを割り当てる際のクラス間のメタ関係を包括的に解析するメタクラス分析,(2)仮説フィルタリング,(3)グループベースの予測選択,の3つの重要な拡張を紹介した。 MetaEntail-REは概念的にはシンプルで経験的に強力であり、従来の関係抽出技術や他のNLIの定式化よりも大幅に改善されている。 実験の結果,MetaEntail-REはバイオメディカルドメインと一般ドメインの両方で性能向上を示した。

Recent research efforts have explored the potential of leveraging natural language inference (NLI) techniques to enhance relation extraction (RE). In this vein, we introduce MetaEntail-RE, a novel adaptation method that harnesses NLI principles to enhance RE performance. Our approach follows past works by verbalizing relation classes into class-indicative hypotheses, aligning a traditionally multi-class classification task to one of textual entailment. We introduce three key enhancements: (1) Instead of labeling non-entailed premise-hypothesis pairs with the uninformative "neutral" entailment label, we introduce meta-class analysis, which provides additional context by analyzing overarching meta relationships between classes when assigning entailment labels; (2) Feasible hypothesis filtering, which removes unlikely hypotheses from consideration based on pairs of entity types; and (3) Group-based prediction selection, which further improves performance by selecting highly confident predictions. MetaEntail-RE is conceptually simple and empirically powerful, yielding significant improvements over conventional relation extraction techniques and other NLI formulations. Our experimental results underscore the versatility of MetaEntail-RE, demonstrating performance gains across both biomedical and general domains.
翻訳日:2024-06-06 08:04:10 公開日:2024-05-31
# ImplicitTerrain: 地形データ解析のための連続表面モデル

ImplicitTerrain: a Continuous Surface Model for Terrain Data Analysis ( http://arxiv.org/abs/2406.00227v1 )

ライセンス: Link先を確認
Haoan Feng, Xin Xu, Leila De Floriani, (参考訳) デジタル地形モデル(DTM)は、リモートセンシング、地図、景観管理において重要な要素であり、正確な表面表現と位相情報の復元を必要とする。 トポロジー解析は伝統的に滑らかな多様体に依存しているが、大きな地形に対する使い勝手の良い連続曲面モデルがないため、離散メッシュが好まれる。 トポロジーに基づく構造表現は簡潔な表面記述を提供し、多くの地形解析アプリケーションの基礎を築いた。 しかし、離散メッシュでは、数値的な問題が出現し、それらを扱うために複雑なアルゴリズムが設計されている。 本稿では,地形データ解析のコンテキストを連続的世界に持ち帰り,高解像度地形を連続的にモデル化するための暗黙的ニューラル表現(INR)アプローチであるImplicitTerrain(プロジェクトホームページ https://fengyee.github.io/implicit-terrain/)を紹介する。 本研究では, このコンパクトな表現に対して並列に実装した, 表面収差精度, 有効トポロジカル特徴抽出, および様々な地形特徴抽出について検討した。 私たちの知る限り、ImplicitTerrainは、我々のコミュニティに新たな研究道を提供する、実現可能な連続的な地形表面モデリングパイプラインを開拓した。

Digital terrain models (DTMs) are pivotal in remote sensing, cartography, and landscape management, requiring accurate surface representation and topological information restoration. While topology analysis traditionally relies on smooth manifolds, the absence of an easy-to-use continuous surface model for a large terrain results in a preference for discrete meshes. Structural representation based on topology provides a succinct surface description, laying the foundation for many terrain analysis applications. However, on discrete meshes, numerical issues emerge, and complex algorithms are designed to handle them. This paper brings the context of terrain data analysis back to the continuous world and introduces ImplicitTerrain (Project homepage available at https://fengyee.github.io/implicit-terrain/), an implicit neural representation (INR) approach for modeling high-resolution terrain continuously and differentiably. Our comprehensive experiments demonstrate superior surface fitting accuracy, effective topological feature retrieval, and various topographical feature extraction that are implemented over this compact representation in parallel. To our knowledge, ImplicitTerrain pioneers a feasible continuous terrain surface modeling pipeline that provides a new research avenue for our community.
翻訳日:2024-06-06 08:04:10 公開日:2024-05-31
# LLM-RankFusion: LLMに基づくランキングにおける本質的矛盾の緩和

LLM-RankFusion: Mitigating Intrinsic Inconsistency in LLM-based Ranking ( http://arxiv.org/abs/2406.00231v1 )

ライセンス: Link先を確認
Yifan Zeng, Ojas Tendolkar, Raymond Baartmans, Qingyun Wu, Huazheng Wang, Lizhong Chen, (参考訳) 大規模言語モデル(LLM)によるランク付けは、現代の情報検索(IR)システムにおいて有望な性能を達成することができる。 一般的なアプローチは、ペア比較のために LLM を誘導することでランキングリストをソートすることである。 しかし、ソートに基づく手法では、パスを正しくソートするには一貫した比較が必要であり、LCMがしばしば違反することを示す。 LLMに基づくペアワイズ比較では、通過順序を切り替える際に矛盾する結果をもたらす順序の不整合と、全ての選好ペア間に非推移的な三元関係をもたらす過渡的不整合の2種類を同定する。 本稿では,これらの矛盾を軽減し,ロバストなランキングリストを生成するLLM-RankFusionを提案する。 LLM-RankFusionは、文脈内学習(ICL)を用いて順序不整合を緩和し、順序に依存しない比較とキャリブレーションを示し、2つの経路間の基本的嗜好確率を推定する。 次に、複数のランク付け者のランク付け結果を集約することで、推移的不整合に対処する。 実験の結果,LLM-RankFusionはペア比較結果の整合性を著しく低減し,最終ランクリストをより堅牢にすることでランキング品質を向上させることができることがわかった。

Ranking passages by prompting a large language model (LLM) can achieve promising performance in modern information retrieval (IR) systems. A common approach is to sort the ranking list by prompting LLMs for pairwise comparison. However, sorting-based methods require consistent comparisons to correctly sort the passages, which we show that LLMs often violate. We identify two kinds of intrinsic inconsistency in LLM-based pairwise comparisons: order inconsistency which leads to conflicting results when switching the passage order, and transitive inconsistency which leads to non-transitive triads among all preference pairs. In this paper, we propose LLM-RankFusion, an LLM-based ranking framework that mitigates these inconsistencies and produces a robust ranking list. LLM-RankFusion mitigates order inconsistency using in-context learning (ICL) to demonstrate order-agnostic comparisons and calibration to estimate the underlying preference probability between two passages. We then address transitive inconsistency by aggregating the ranking results from multiple rankers. In our experiments, we empirically show that LLM-RankFusion can significantly reduce inconsistent pairwise comparison results, and improve the ranking quality by making the final ranking list more robust.
翻訳日:2024-06-06 08:04:10 公開日:2024-05-31
# 確率雑音下での単一軌道上の未知LTIシステムの安定化学習

Learning to Stabilize Unknown LTI Systems on a Single Trajectory under Stochastic Noise ( http://arxiv.org/abs/2406.00234v1 )

ライセンス: Link先を確認
Ziyi Zhang, Yorie Nakahira, Guannan Qu, (参考訳) 本研究では,未知雑音の線形時間不変系(LTI)を単一軌道上で安定化させる学習の課題について検討する。 文献では、学習と安定化の問題は、状態ノルムが$\Theta(2^n)$の順番で爆発する指数的爆発によって生じることが知られている。 この爆発は、$n$次元状態空間を探索する際の開ループ不安定性に起因する。 この問題に対処するために、安定部分空間からLTIシステムの不安定部分空間を分離する新しいアルゴリズムを開発し、そのアルゴリズムは不安定部分空間を探索・安定化するのみであり、その次元は$n$よりもはるかに小さくすることができる。 新しい特異値分解(SVD)に基づく解析フレームワークを用いて、状態ノルムが不安定な部分空間の次元である$k$のとき、状態ノルムが2^{O(k \log n)}$に達する前にシステムは安定であることを示す。 批判的に言えば、この境界は以前の研究と同様に$\Theta(2^n)$の順序で状態次元の指数的爆発を避けることができ、我々の知る限り、LTI系を雑音で安定化させるための指数的爆発を避けるための最初の論文である。

We study the problem of learning to stabilize unknown noisy Linear Time-Invariant (LTI) systems on a single trajectory. It is well known in the literature that the learn-to-stabilize problem suffers from exponential blow-up in which the state norm blows up in the order of $\Theta(2^n)$ where $n$ is the state space dimension. This blow-up is due to the open-loop instability when exploring the $n$-dimensional state space. To address this issue, we develop a novel algorithm that decouples the unstable subspace of the LTI system from the stable subspace, based on which the algorithm only explores and stabilizes the unstable subspace, the dimension of which can be much smaller than $n$. With a new singular-value-decomposition(SVD)-based analytical framework, we prove that the system is stabilized before the state norm reaches $2^{O(k \log n)}$, where $k$ is the dimension of the unstable subspace. Critically, this bound avoids exponential blow-up in state dimension in the order of $\Theta(2^n)$ as in the previous works, and to the best of our knowledge, this is the first paper to avoid exponential blow-up in dimension for stabilizing LTI systems with noise.
翻訳日:2024-06-06 08:04:10 公開日:2024-05-31
# 胸部疾患の多型化のためのCNN, ResNet, Vision Transformerの比較検討

A Comparative Study of CNN, ResNet, and Vision Transformers for Multi-Classification of Chest Diseases ( http://arxiv.org/abs/2406.00237v1 )

ライセンス: Link先を確認
Ananya Jain, Aviral Bhardwaj, Kaushik Murali, Isha Surani, (参考訳) 大規模な言語モデル、特にTransformerアーキテクチャは、スケーラビリティと大量のデータ処理能力のために強力なツールとして登場した。 Dosovitskiyらはこのアーキテクチャを拡張してビジョントランスフォーマー(ViT)を導入した。 この進歩に触発された我々は、前頭前部X線画像10万枚以上を含むNIH Chest X-rayデータセットを用いて、ImageNetで事前訓練された2種類のViTモデルと、スクラッチから訓練された別のViTモデルを微調整した。 コンボリューショナルニューラルネットワーク(CNN)とResNetアーキテクチャをベースラインモデルとして,14の異なる疾患のマルチラベル分類におけるこれらのモデルの性能評価を行った。 精度測定値に基づく厳密な評価により,胸部X線画像から各種肺疾患の正確な診断の可能性を明らかにするとともに,トレーニング済みのViTモデルがCNNやResNetを上回ることが確認された。

Large language models, notably utilizing Transformer architectures, have emerged as powerful tools due to their scalability and ability to process large amounts of data. Dosovitskiy et al. expanded this architecture to introduce Vision Transformers (ViT), extending its applicability to image processing tasks. Motivated by this advancement, we fine-tuned two variants of ViT models, one pre-trained on ImageNet and another trained from scratch, using the NIH Chest X-ray dataset containing over 100,000 frontal-view X-ray images. Our study evaluates the performance of these models in the multi-label classification of 14 distinct diseases, while using Convolutional Neural Networks (CNNs) and ResNet architectures as baseline models for comparison. Through rigorous assessment based on accuracy metrics, we identify that the pre-trained ViT model surpasses CNNs and ResNet in this multilabel classification task, highlighting its potential for accurate diagnosis of various lung conditions from chest X-ray images.
翻訳日:2024-06-06 08:04:10 公開日:2024-05-31
# QuST: QuPath Extension for Integrative Whole Slide Image and Space Transcriptomics Analysis

QuST: QuPath Extension for Integrative Whole Slide Image and Spatial Transcriptomics Analysis ( http://arxiv.org/abs/2406.01613v1 )

ライセンス: Link先を確認
Chao-Hui Huang, (参考訳) 近年,病的全スライド画像 (WSI) 解析と空間転写学 (ST) 解析の両分野において,人工知能 (AI) による手法を含む様々な技術がデジタル病理学に導入されている。 AIによるWSI分析は、深層学習(DL)の力を利用して、病理画像解析のための視野を広げる。 一方、STは組織空間分析と生体信号のギャップを埋め、空間生物学を理解することができる。 しかし、DLベースのWSI分析における大きなボトルネックは、ヘマトキシリン・エオシン(H\&E)染色は、生物学的成分の分類を決定するために、遺伝子発現のような直接的な生物学的証拠を提供しないため、トレーニングパターンの作成である。 一方、現在、STの分解能はWSIの分解能をはるかに超えており、さらなる空間分析の課題となっている。 QuPathを含む様々なWSI分析ツールは、ST分析の文脈におけるWSI分析ツールの使用を引用しているが、その使用は主に初期画像分析に焦点を当てており、その他のツールはより詳細な転写解析に利用されている。 その結果、WSIの下に隠された情報は、ST分析をサポートするためにまだ十分に利用されていない。 このギャップを埋めるために、我々は、H\&E WSI と ST 分析タスクの間のギャップを埋めるために設計された QuPath 拡張である QuST を導入する。 本稿では,病の理解におけるDLベースのWSI分析とST分析の統合の重要性と,データ形式や解析手法の違いによるこれらのモダリティの統合の課題について述べる。 QuSTソースコードはGitHubにホストされており、ドキュメントはhttps://github.com/huangch/qust.comで公開されている。

Recently, various technologies have been introduced into digital pathology, including artificial intelligence (AI) driven methods, in both areas of pathological whole slide image (WSI) analysis and spatial transcriptomics (ST) analysis. AI-driven WSI analysis utilizes the power of deep learning (DL), expands the field of view for histopathological image analysis. On the other hand, ST bridges the gap between tissue spatial analysis and biological signals, offering the possibility to understand the spatial biology. However, a major bottleneck in DL-based WSI analysis is the preparation of training patterns, as hematoxylin \& eosin (H\&E) staining does not provide direct biological evidence, such as gene expression, for determining the category of a biological component. On the other hand, as of now, the resolution in ST is far beyond that of WSI, resulting the challenge of further spatial analysis. Although various WSI analysis tools, including QuPath, have cited the use of WSI analysis tools in the context of ST analysis, its usage is primarily focused on initial image analysis, with other tools being utilized for more detailed transcriptomic analysis. As a result, the information hidden beneath WSI has not yet been fully utilized to support ST analysis. To bridge this gap, we introduce QuST, a QuPath extension designed to bridge the gap between H\&E WSI and ST analyzing tasks. In this paper, we highlight the importance of integrating DL-based WSI analysis and ST analysis in understanding disease biology and the challenges in integrating these modalities due to differences in data formats and analytical methods. The QuST source code is hosted on GitHub and documentation is available at https://github.com/huangch/qust.
翻訳日:2024-06-05 21:31:36 公開日:2024-05-31
# LightCPPgen: 細胞貫通ペプチドの合理的設計のための説明可能な機械学習パイプライン

LightCPPgen: An Explainable Machine Learning Pipeline for Rational Design of Cell Penetrating Peptides ( http://arxiv.org/abs/2406.01617v1 )

ライセンス: Link先を確認
Gabriele Maroni, Filip Stojceski, Lorenzo Pallante, Marco A. Deriu, Dario Piga, Gianvito Grasso, (参考訳) 細胞貫通ペプチド(CPP)は、様々な治療分子の細胞内輸送に強力なベクターである。 彼らの可能性にもかかわらず、CPPの合理的な設計は、しばしば広範な実験的努力と反復を必要とする難しい課題である。 本研究では,機械学習(ML)と最適化アルゴリズムの長所を活かした,CPPのデノボ設計のための革新的なアプローチを提案する。 我々の戦略はLightCPPgenと呼ばれ、LightGBMベースの予測モデルと遺伝的アルゴリズム(GA)を統合し、CPPシーケンスの体系的生成と最適化を可能にする。 提案手法の核心となるのは,20個の説明可能な特徴を用いてCPP転位能力に影響を及ぼす重要な要因を明らかにする,正確で効率的かつ解釈可能な予測モデルの開発である。 CPP予測モデルは最適化アルゴリズムと相乗的に働き、最適化性能を維持しながら計算効率を向上させるように調整される。 GAソリューションは、候補配列の透過性スコアを特にターゲットとし、元の生物学的および物理化学的特性を維持するために、元の非貫通性ペプチドとの類似性を最大化しようと試みている。 最も有望なCPP候補の合成だけを優先順位付けすることで、LightCPPgenは湿式実験にかかわる時間とコストを大幅に削減できる。 まとめると,本研究はCPP設計の分野に大きく貢献し,MLと最適化技術を組み合わせて,設計プロセスの説明可能性や解釈可能性を高めることにより,透過性ペプチドの合理的な設計を容易にする堅牢なフレームワークを提供する。

Cell-penetrating peptides (CPPs) are powerful vectors for the intracellular delivery of a diverse array of therapeutic molecules. Despite their potential, the rational design of CPPs remains a challenging task that often requires extensive experimental efforts and iterations. In this study, we introduce an innovative approach for the de novo design of CPPs, leveraging the strengths of machine learning (ML) and optimization algorithms. Our strategy, named LightCPPgen, integrates a LightGBM-based predictive model with a genetic algorithm (GA), enabling the systematic generation and optimization of CPP sequences. At the core of our methodology is the development of an accurate, efficient, and interpretable predictive model, which utilizes 20 explainable features to shed light on the critical factors influencing CPP translocation capacity. The CPP predictive model works synergistically with an optimization algorithm, which is tuned to enhance computational efficiency while maintaining optimization performance. The GA solutions specifically target the candidate sequences' penetrability score, while trying to maximize similarity with the original non-penetrating peptide in order to retain its original biological and physicochemical properties. By prioritizing the synthesis of only the most promising CPP candidates, LightCPPgen can drastically reduce the time and cost associated with wet lab experiments. In summary, our research makes a substantial contribution to the field of CPP design, offering a robust framework that combines ML and optimization techniques to facilitate the rational design of penetrating peptides, by enhancing the explainability and interpretability of the design process.
翻訳日:2024-06-05 21:31:36 公開日:2024-05-31
# ゆっくりと周期的に変化する超低温原子の磁気的スピン軌道結合

Magnetically generated spin-orbit coupling for ultracold atoms with slowly varying periodic driving ( http://arxiv.org/abs/2406.01619v1 )

ライセンス: Link先を確認
Domantas Burba, Mažena Mackoit Sinkevičienė, Viktor Novičenko, Emilia Witkowska, Gediminas Juzeliūnas, (参考訳) 超低温原子の質量の中心に影響を及ぼすスピン軌道結合(SOC)は、適切に選択された磁気パルスの周期列を用いてシミュレートすることができる。 しかし、このような方法は一般に、原子動力学の正確な制御を妨げ、実用的な応用を複雑にするマイクロモーションを伴っている。 ここでは、初期および末期に発振する磁場のスイッチングとオフを適切に行うことにより、磁気誘導型SOCに生じるマイクロモーションをバイパスする方法を示す。 システムの正確なダイナミクスを考察し、全体的なダイナミクスがマイクロモーションに免疫できることを示す。 正確な力学は、SOC項を含む効果的なフロケハミルトニアンを緩やかに変化させることによって記述された系の進化とよく一致することが示されている。 周期駆動の位相がスピン軌道カップリングの効果が最大となる特定の値を取るとき、この一致が最適であることが示される。

The spin-orbit coupling (SOC) affecting the center of mass of ultracold atoms can be simulated using a properly chosen periodic sequence of magnetic pulses. Yet such a method is generally accompanied by micro-motion which hinders a precise control of atomic dynamics and thus complicating practical applications. Here we show how to by-pass the micro-motion emerging in the magnetically induced SOC by switching on and off properly the oscillating magnetic fields at the initial and final times. We consider the exact dynamics of the system and demonstrate that the overall dynamics can be immune to the micro-motion. The exact dynamics is shown to agree well with the evolution of the system described by slowly changing effective Floquet Hamiltonian including the SOC term. The agreement is shown to be the best when the phase of the periodic driving takes a specific value for which the effect of the spin-orbit coupling is maximum.
翻訳日:2024-06-05 21:31:36 公開日:2024-05-31
# 騒音によるシフティング:拡散確率モデルとその生体分子への応用

Sifting through the Noise: A Survey of Diffusion Probabilistic Models and Their Applications to Biomolecules ( http://arxiv.org/abs/2406.01622v1 )

ライセンス: Link先を確認
Trevor Norton, Debswapna Bhattacharya, (参考訳) 拡散確率モデルは、その誕生以来、多くの著名な応用に進出してきた。 特に、生体分子構造や配列の予測と設計に拡散モデルを用いる研究の波があった。 彼らのユビキタス化は、これらの分野の研究者が理解することが不可欠である。 本稿では,これらのモデルの背後にある理論と研究の現状について概説する。 まず拡散モデルを導入し,生体分子に適用する際の共通モチーフについて議論する。 次に、生成的および予測的タスクにこれらのモデルを適用することで達成された重要な結果を示す。 本調査は,拡散モデルにおいてますます重要になっている役割について,読者に包括的に理解することを目的としている。

Diffusion probabilistic models have made their way into a number of high-profile applications since their inception. In particular, there has been a wave of research into using diffusion models in the prediction and design of biomolecular structures and sequences. Their growing ubiquity makes it imperative for researchers in these fields to understand them. This paper serves as a general overview for the theory behind these models and the current state of research. We first introduce diffusion models and discuss common motifs used when applying them to biomolecules. We then present the significant outcomes achieved through the application of these models in generative and predictive tasks. This survey aims to provide readers with a comprehensive understanding of the increasingly critical role of diffusion models.
翻訳日:2024-06-05 21:31:36 公開日:2024-05-31
# Kernel Ridge Riesz Representers: Generalization Error and Mis-specification

Kernel Ridge Riesz Representers: Generalization Error and Mis-specification ( http://arxiv.org/abs/2102.11076v3 )

ライセンス: Link先を確認
Rahul Singh, (参考訳) カーネルバランスウェイトは平均処理効果に対する信頼区間を提供し、処理群と未処理群との特徴空間のバランスをとるという考え方に基づいており、しばしばリッジ正則化を伴う。 古典的なカーネルリッジバランスウェイトに関する以前の研究には、いくつかの制限がある。 一 バランスウェイトに対する一般化誤差を明示しないこと。 (二)典型的には特徴の正確な明細書が必要で、 三 平均効果のみを推測すること。 私はカーネルの重みをカーネルリッジRiesz表現子(KRRR)と解釈し、これらの制限に反現実的有効次元の新たな特徴を通して対処する。 KRRRはカーネルリッジ回帰とカーネルリッジバランスウェイトを正確に一般化したものである。 私はカーネルリッジ回帰に類似した強い性質を証明している:集団$L_2$ 一般化誤差を制御するレートと、補間可能なスタンドアロン閉形式解である。 このフレームワークは、基礎となる回帰モデルが機能によって正しく指定されているという厳密な仮定を緩和する。 これは、平均的な効果を超えて不均一な効果、すなわち因果関数まで推論を拡張する。 私はKRRRを用いて、資産に対する401(k)の非均一な処理効果を年齢によって推測する。

Kernel balancing weights provide confidence intervals for average treatment effects, based on the idea of balancing covariates for the treated group and untreated group in feature space, often with ridge regularization. Previous works on the classical kernel ridge balancing weights have certain limitations: (i) not articulating generalization error for the balancing weights, (ii) typically requiring correct specification of features, and (iii) providing inference for only average effects. I interpret kernel balancing weights as kernel ridge Riesz representers (KRRR) and address these limitations via a new characterization of the counterfactual effective dimension. KRRR is an exact generalization of kernel ridge regression and kernel ridge balancing weights. I prove strong properties similar to kernel ridge regression: population $L_2$ rates controlling generalization error, and a standalone closed form solution that can interpolate. The framework relaxes the stringent assumption that the underlying regression model is correctly specified by the features. It extends inference beyond average effects to heterogeneous effects, i.e. causal functions. I use KRRR to infer heterogeneous treatment effects, by age, of 401(k) eligibility on assets.
翻訳日:2024-06-05 00:04:47 公開日:2024-05-31
# Black Boxのアンパック:アルゴリズムによる決定の規制

Unpacking the Black Box: Regulating Algorithmic Decisions ( http://arxiv.org/abs/2110.03443v3 )

ライセンス: Link先を確認
Laura Blattner, Scott Nelson, Jann Spiess, (参考訳) 複雑なアルゴリズムの規制は何を規制すべきか? 本稿では,貸付,医療検査,雇用などの高額なアプリケーションで使用される「ブラックボックス」アルゴリズムの監視モデルを提案する。 私たちのモデルでは、規制官は、ミスマッチした好みを持つエージェントによってデプロイされたブラックボックスモデルについて、どの程度の量で学べるかに制限されています。 第1に、複雑なアルゴリズムの使用を許可するかどうか、第2に、どのアルゴリズムの重要な特性を規制するか、という2つの選択肢に直面している。 完全透明なアルゴリズムに対するエージェントの制限は、ミスアライメントが制限され、複雑なアルゴリズムが単純なアルゴリズムよりも十分な性能を有する限り、非効率であることを示す。 複雑なアルゴリズムを許すことは、福祉を改善することができるが、その利益は規制当局がそれらをどのように規制するかに依存する。 例えば、標準的な説明ツールに基づいたアルゴリズムの平均的な振る舞いにフォーカスする規則は、一般的に非効率である。 インセンティブのミスアライメント(例えば過剰な偽陽性または人種格差)の源泉に焦点を当てた規制は、第二のベストソリューションを提供することができる。 我々は,消費者貸付の応用を用いて,理論的知見を実証的に支援する。そこでは,コンテキスト固有の説明ツールに基づく複雑なモデルが,単純で完全透明なモデルよりも優れていることを示す。 複雑なモデルから得られるこの利益は、銀行や金融規制当局の観点からも好ましい経験的応用におけるParetoの改善を表している。

What should regulators of complex algorithms regulate? We propose a model of oversight over 'black-box' algorithms used in high-stakes applications such as lending, medical testing, or hiring. In our model, a regulator is limited in how much she can learn about a black-box model deployed by an agent with misaligned preferences. The regulator faces two choices: first, whether to allow for the use of complex algorithms; and second, which key properties of algorithms to regulate. We show that limiting agents to algorithms that are simple enough to be fully transparent is inefficient as long as the misalignment is limited and complex algorithms have sufficiently better performance than simple ones. Allowing for complex algorithms can improve welfare, but the gains depend on how the regulator regulates them. Regulation that focuses on the overall average behavior of algorithms, for example based on standard explainer tools, will generally be inefficient. Targeted regulation that focuses on the source of incentive misalignment, e.g., excess false positives or racial disparities, can provide second-best solutions. We provide empirical support for our theoretical findings using an application in consumer lending, where we document that complex models regulated based on context-specific explanation tools outperform simple, fully transparent models. This gain from complex models represents a Pareto improvement across our empirical applications that is preferred both by the lender and from the perspective of the financial regulator.
翻訳日:2024-06-05 00:04:47 公開日:2024-05-31
# 境界リコールによるオンライン学習

Online Learning with Bounded Recall ( http://arxiv.org/abs/2205.14519v2 )

ライセンス: Link先を確認
Jon Schneider, Kiran Vodrahalli, (参考訳) 本研究では,繰り返しゲーム研究に人気がある「バウンド・リコール」環境において,オンライン学習の完全情報化の課題について検討する。 オンライン学習アルゴリズムの $\mathcal{A}$ が $M$-$\textit{bounded-recall}$ であるとき、その出力が $t$ が $M$ 以前の報酬の関数として記述できる($\mathcal{A}$ の他の内部状態は eg ではない)。 我々はまず、平均に基づく非回帰学習アルゴリズム(例えば、過去$M$ラウンドでHedgeを実行する)から有界リコールアルゴリズムを構築するための自然なアプローチが失敗し、そのようなアルゴリズムがラウンド毎に絶え間ない後悔を引き起こすことを実証した。 すると、我々は、厳密な下界を補うような$\Theta(1/\sqrt{M})$の1周あたりの後悔を実現する定常的有界リコールアルゴリズムを構築する。 最後に、完全なリコール設定とは異なり、任意の低遅延有界リコールアルゴリズムは、過去の$M$損失の順序に気付いていなければならない -- 過去の$M$損失の対称関数を実行する任意の有界リコールアルゴリズムは、ラウンド毎に一定の後悔を起こさなければならない。

We study the problem of full-information online learning in the "bounded recall" setting popular in the study of repeated games. An online learning algorithm $\mathcal{A}$ is $M$-$\textit{bounded-recall}$ if its output at time $t$ can be written as a function of the $M$ previous rewards (and not e.g. any other internal state of $\mathcal{A}$). We first demonstrate that a natural approach to constructing bounded-recall algorithms from mean-based no-regret learning algorithms (e.g., running Hedge over the last $M$ rounds) fails, and that any such algorithm incurs constant regret per round. We then construct a stationary bounded-recall algorithm that achieves a per-round regret of $\Theta(1/\sqrt{M})$, which we complement with a tight lower bound. Finally, we show that unlike the perfect recall setting, any low regret bound bounded-recall algorithm must be aware of the ordering of the past $M$ losses -- any bounded-recall algorithm which plays a symmetric function of the past $M$ losses must incur constant regret per round.
翻訳日:2024-06-04 23:55:24 公開日:2024-05-31
# フェアモデルがいかにロバストか? ディバースフェアネス戦略のロバスト性を探る

How Robust is your Fair Model? Exploring the Robustness of Diverse Fairness Strategies ( http://arxiv.org/abs/2207.04581v4 )

ライセンス: Link先を確認
Edward Small, Wei Shao, Zeliang Zhang, Peihan Liu, Jeffrey Chan, Kacper Sokol, Flora Salim, (参考訳) 機械学習がハイテイクな意思決定に導入されたことにより、アルゴリズムの公平性を保証することが、解決すべき課題としてますます重要になっている。 これに対し、フェアネスの数学的定義が多数提案され、フェアネスの定義を最大化するために様々な最適化技術が開発されている。 しかし、公正なソリューションはトレーニングデータの品質に依存しており、ノイズに非常に敏感である。 近年の研究では、新しい問題にアプローチする際に使用するべき戦略のタイプにおいて、ロバスト性(モデルが不明瞭なデータに対してうまく機能する能力)が重要な役割を果たすことが示されており、そのため、これらの戦略のロバスト性を測定することが根本的な問題となっている。 そこで本研究では,様々なフェアネス最適化戦略のロバスト性(ロバスト性比)を測定するための新しい基準を提案する。 我々は,5つのベンチマークフェアネスデータセットに対して,最もポピュラーなフェアネス戦略の3つを用いて,最もポピュラーなフェアネス定義の4つについて,広範な実験を行った。 実験により, しきい値の最適化に依存するフェアネス法は, 他の手法よりも優れているにもかかわらず, 評価された全てのデータセットのノイズに非常に敏感であることが実証された。 これは他の2つの手法とは対照的であり、低騒音のシナリオではより公平ではなく、高騒音ではより公平である。 私たちの知識を最大限に活用するために、フェアネス最適化戦略の頑健さを定量的に評価するのは、私たちが初めてです。 これは、様々なデータセットに対して最も適切な公正戦略を選択する際のガイドラインとして機能する可能性がある。

With the introduction of machine learning in high-stakes decision making, ensuring algorithmic fairness has become an increasingly important problem to solve. In response to this, many mathematical definitions of fairness have been proposed, and a variety of optimisation techniques have been developed, all designed to maximise a defined notion of fairness. However, fair solutions are reliant on the quality of the training data, and can be highly sensitive to noise. Recent studies have shown that robustness (the ability for a model to perform well on unseen data) plays a significant role in the type of strategy that should be used when approaching a new problem and, hence, measuring the robustness of these strategies has become a fundamental problem. In this work, we therefore propose a new criterion to measure the robustness of various fairness optimisation strategies - the robustness ratio. We conduct multiple extensive experiments on five bench mark fairness data sets using three of the most popular fairness strategies with respect to four of the most popular definitions of fairness. Our experiments empirically show that fairness methods that rely on threshold optimisation are very sensitive to noise in all the evaluated data sets, despite mostly outperforming other methods. This is in contrast to the other two methods, which are less fair for low noise scenarios but fairer for high noise ones. To the best of our knowledge, we are the first to quantitatively evaluate the robustness of fairness optimisation strategies. This can potentially can serve as a guideline in choosing the most suitable fairness strategy for various data sets.
翻訳日:2024-06-04 23:55:24 公開日:2024-05-31
# 強化学習のための教師なし表現の軽量な探索

Light-weight probing of unsupervised representations for Reinforcement Learning ( http://arxiv.org/abs/2208.12345v2 )

ライセンス: Link先を確認
Wancong Zhang, Anthony GX-Chen, Vlad Sobal, Yann LeCun, Nicolas Carion, (参考訳) 教師なしの視覚表現学習は、ラベルなし軌跡の大きなコーパスを利用して有用な視覚表現を形成する機会を与え、強化学習(RL)アルゴリズムの訓練に役立てることができる。 しかし、そのような表現の適合性を評価するには、計算集約的でばらつきの高いRLアルゴリズムを訓練する必要がある。 ビジョンコミュニティに触発されて、線形探索が教師なしRL表現の品質のプロキシ評価タスクになるかどうかを考察する。 具体的には、与えられた状態における観察された報酬と、与えられた状態における専門家の作用を探索する。 厳密な実験により、探索タスクは、Atari100kベンチマークの下流RL性能と強く相関し、ばらつきが低く、計算コストが最大600倍も低いことを示す。 これにより、設定毎にRL評価を実行することなく、事前学習アルゴリズムの空間を探索し、有望な事前学習レシピを識別するより効率的な方法が提供される。 このフレームワークを活用することで、RLの既存の自己教師あり学習(SSL)レシピをさらに改善し、フォワードモデルの重要性、視覚的バックボーンのサイズ、教師なし目的の正確な定式化を強調します。

Unsupervised visual representation learning offers the opportunity to leverage large corpora of unlabeled trajectories to form useful visual representations, which can benefit the training of reinforcement learning (RL) algorithms. However, evaluating the fitness of such representations requires training RL algorithms which is computationally intensive and has high variance outcomes. Inspired by the vision community, we study whether linear probing can be a proxy evaluation task for the quality of unsupervised RL representation. Specifically, we probe for the observed reward in a given state and the action of an expert in a given state, both of which are generally applicable to many RL domains. Through rigorous experimentation, we show that the probing tasks are strongly rank correlated with the downstream RL performance on the Atari100k Benchmark, while having lower variance and up to 600x lower computational cost. This provides a more efficient method for exploring the space of pretraining algorithms and identifying promising pretraining recipes without the need to run RL evaluations for every setting. Leveraging this framework, we further improve existing self-supervised learning (SSL) recipes for RL, highlighting the importance of the forward model, the size of the visual backbone, and the precise formulation of the unsupervised objective.
翻訳日:2024-06-04 23:55:24 公開日:2024-05-31
# 構造化雑音によるニューラルネットワークの学習は分類と一般化を改善する

Training neural networks with structured noise improves classification and generalization ( http://arxiv.org/abs/2302.13417v6 )

ライセンス: Link先を確認
Marco Benedetti, Enrico Ventura, (参考訳) 学習におけるノイズ注入の利点は、人工ニューラルネットワークの分野における統合された概念であり、生物学的システムでさえ、その性能を最適化するために同様のメカニズムを利用する可能性があることを示唆している。 ガードナーと共同研究者によって提案されたトレーニング・ウィズ・ノイズ・アルゴリズムは、生物学的ニューラルネットワークのモデル化に使用できるリカレントネットワークにおけるノイズ注入手順の象徴的な例である。 雑音の多い学習データに構造を加えることでアルゴリズムの性能が大幅に向上し、最大射出雑音のシナリオにおいても、ネットワークは記憶の完全検索やアトラクションの広い流域にアプローチできることを示す。 また,いわゆるヘビアン・アンラーニング則は,ノイズが最大であり,データがネットワーク力学の安定な固定点である場合に,トレーニング・ウィズ・ノイズ・アルゴリズムと一致することを証明した。

The beneficial role of noise-injection in learning is a consolidated concept in the field of artificial neural networks, suggesting that even biological systems might take advantage of similar mechanisms to optimize their performance. The training-with-noise algorithm proposed by Gardner and collaborators is an emblematic example of a noise-injection procedure in recurrent networks, which can be used to model biological neural systems. We show how adding structure to noisy training data can substantially improve the algorithm performance, allowing the network to approach perfect retrieval of the memories and wide basins of attraction, even in the scenario of maximal injected noise. We also prove that the so-called Hebbian Unlearning rule coincides with the training-with-noise algorithm when noise is maximal and data are stable fixed points of the network dynamics.
翻訳日:2024-06-04 23:35:51 公開日:2024-05-31
# 行列分解における勾配降下--大きな初期化を理解する

Gradient descent in matrix factorization: Understanding large initialization ( http://arxiv.org/abs/2305.19206v2 )

ライセンス: Link先を確認
Hengchao Chen, Xin Chen, Mohamad Elmasri, Qiang Sun, (参考訳) GD(Gradient Descent)は様々な行列因数分解問題を解くのに有効であることが証明されている。 しかし、初期値が大きい最適化挙動はいまだ理解されていない。 そこで本研究では,GDの収束軌道を大規模初期化して検討するための理論的枠組みを提案する。 このフレームワークは信号対雑音比の概念と帰納的議論に基づいている。 その結果、GDにおける暗黙的な漸進的な学習現象を明らかにし、大規模な初期化シナリオにおけるその性能についてより深い理解を提供する。

Gradient Descent (GD) has been proven effective in solving various matrix factorization problems. However, its optimization behavior with large initial values remains less understood. To address this gap, this paper presents a novel theoretical framework for examining the convergence trajectory of GD with a large initialization. The framework is grounded in signal-to-noise ratio concepts and inductive arguments. The results uncover an implicit incremental learning phenomenon in GD and offer a deeper understanding of its performance in large initialization scenarios.
翻訳日:2024-06-04 21:29:55 公開日:2024-05-31
# 単一スナップショットからのグラフ拡散履歴の再構成

Reconstructing Graph Diffusion History from a Single Snapshot ( http://arxiv.org/abs/2306.00488v4 )

ライセンス: Link先を確認
Ruizhong Qiu, Dingsu Wang, Lei Ying, H. Vincent Poor, Yifang Zhang, Hanghang Tong, (参考訳) グラフ上の拡散は、多くのハイインパクトな応用でユビキタスである。 これらの応用において、完全な拡散履歴は、動的パターンの同定、予防行動の反映、介入効果の予測において重要な役割を担っている。 その重要性にもかかわらず、完全な拡散履歴はめったに得られず、不適切さ、爆発的な捜索空間、訓練データの不足により、再構築が極めて困難である。 現在、拡散史再構築のための方法はほとんど存在しない。 これらは極大推定(MLE)の定式化のみに基づいており、真の拡散パラメータを知る必要がある。 本稿では,単一SnapsHot(DASH)から拡散履歴を再構成する,さらに難しい問題について検討する。 まず、MLEの定式化の基本的な限界を明らかにする理論解析から始める。 証明する。 (a)拡散パラメータの推定誤差は、拡散パラメータ推定のNP硬度により避けられず、 b) MLE定式化は拡散パラメータの推定誤差に敏感である。 MLEの定式化に固有の限界を克服するために,拡散パラメータの推定誤差に対して確実に安定な,ヒストリーの後部分布のバリ中心を見つけるという,新しいバリセンター定式化を提案する。 さらに,メトロポリス-ハスティングス・マルコフ連鎖モンテカルロ法 (M--H MCMC) を経由し,M-H MCMCの収束を早めるための最適提案を学習するために教師なしグラフニューラルネットワークを用いて,DITTO (Diffusion hitting Times with Optimal proposal) と呼ばれる効果的な解法を開発した。 提案手法の有効性を実証するための広範囲な実験を行った。

Diffusion on graphs is ubiquitous with numerous high-impact applications. In these applications, complete diffusion histories play an essential role in terms of identifying dynamical patterns, reflecting on precaution actions, and forecasting intervention effects. Despite their importance, complete diffusion histories are rarely available and are highly challenging to reconstruct due to ill-posedness, explosive search space, and scarcity of training data. To date, few methods exist for diffusion history reconstruction. They are exclusively based on the maximum likelihood estimation (MLE) formulation and require to know true diffusion parameters. In this paper, we study an even harder problem, namely reconstructing Diffusion history from A single SnapsHot} (DASH), where we seek to reconstruct the history from only the final snapshot without knowing true diffusion parameters. We start with theoretical analyses that reveal a fundamental limitation of the MLE formulation. We prove: (a) estimation error of diffusion parameters is unavoidable due to NP-hardness of diffusion parameter estimation, and (b) the MLE formulation is sensitive to estimation error of diffusion parameters. To overcome the inherent limitation of the MLE formulation, we propose a novel barycenter formulation: finding the barycenter of the posterior distribution of histories, which is provably stable against the estimation error of diffusion parameters. We further develop an effective solver named DIffusion hiTting Times with Optimal proposal (DITTO) by reducing the problem to estimating posterior expected hitting times via the Metropolis--Hastings Markov chain Monte Carlo method (M--H MCMC) and employing an unsupervised graph neural network to learn an optimal proposal to accelerate the convergence of M--H MCMC. We conduct extensive experiments to demonstrate the efficacy of the proposed method.
翻訳日:2024-06-04 21:29:55 公開日:2024-05-31
# 基礎モデルによるフェデレーション学習

Federated Generative Learning with Foundation Models ( http://arxiv.org/abs/2306.16064v2 )

ライセンス: Link先を確認
Jie Zhang, Xiaohua Qi, Bo Zhao, (参考訳) 既存のFL(Federated Learning)のアプローチは、主にモデルパラメータや勾配をクライアントからサーバに送信することに焦点を当てています。 しかし、これらの手法は、重大な非効率性、プライバシー、セキュリティ上の懸念に悩まされている。 新たな基盤生成モデルにより,我々は新しいフェデレーション学習フレームワーク,フェデレーション学習を提案する。 このフレームワークでは、各クライアントがローカルデータに適したテキスト埋め込みを作成し、サーバに埋め込みを送信することができる。 次に、これらの埋め込みによる基礎生成モデルを使用して、サーバ上で情報的トレーニングデータをリモートで合成することが可能で、FLタスクの恩恵を受けることができる。 提案するフレームワークには,通信効率の向上,データの不均一性に対する堅牢性,大幅なパフォーマンス向上,プライバシー保護の強化など,いくつかのメリットがある。 12のデータセットで実施した広範な実験を通じて,これらのメリットを検証する。 例えば、高度に歪んだデータ分布を持つImageNet100データセットでは、1回の通信ラウンドでFedAvgを12%上回り、200回以上の通信ラウンドでFedAvgのパフォーマンスを上回ります。 本研究で実施したすべての実験のコードを公開した。

Existing approaches in Federated Learning (FL) mainly focus on sending model parameters or gradients from clients to a server. However, these methods are plagued by significant inefficiency, privacy, and security concerns. Thanks to the emerging foundation generative models, we propose a novel federated learning framework, namely Federated Generative Learning. In this framework, each client can create text embeddings that are tailored to their local data, and send embeddings to the server. Then the informative training data can be synthesized remotely on the server using foundation generative models with these embeddings, which can benefit FL tasks. Our proposed framework offers several advantages, including increased communication efficiency, robustness to data heterogeneity, substantial performance improvements, and enhanced privacy protection. We validate these benefits through extensive experiments conducted on 12 datasets. For example, on the ImageNet100 dataset with a highly skewed data distribution, our method outperforms FedAvg by 12% in a single communication round, compared to FedAvg's performance over 200 communication rounds. We have released the code for all experiments conducted in this study.
翻訳日:2024-06-04 21:20:11 公開日:2024-05-31
# 頑健な不信感: マスク語モデルに対する不信感の度合いが誤っているとき

Robust Infidelity: When Faithfulness Measures on Masked Language Models Are Misleading ( http://arxiv.org/abs/2308.06795v2 )

ライセンス: Link先を確認
Evan Crothers, Herna Viktor, Nathalie Japkowicz, (参考訳) ニューラルネットワーク分類器の解釈可能性の定量化における一般的なアプローチは、有能な入力トークンを反復的にマスキングし、モデル予測の変化を測定することによって、忠実度メトリクスを計算することである。 本稿では,この特性を「反復的マスキングに対する感受性」と表現し,テキスト分類器の解釈可能性の比較に用いた際の落とし穴を浮き彫りにする。 繰り返しマスキングは、それと同等のトランスフォーマーエンコーダテキスト分類器間の忠実度スコアに大きな変化をもたらすことを示す。 次に、反復的にマスクされたサンプルがトレーニング中に見られる分布の外に埋め込みを生成し、予測不可能な振る舞いをもたらすことを示す。 さらに,反復マスキングによる解釈可能性の原理的比較を損なうタスク固有の考察を考察する。 本研究は,これらの行動がニューラルテキスト分類器にどのように影響するかを考察し,反復マスキングに対する感受性の解釈方法についてのガイダンスを提供する。

A common approach to quantifying neural text classifier interpretability is to calculate faithfulness metrics based on iteratively masking salient input tokens and measuring changes in the model prediction. We propose that this property is better described as "sensitivity to iterative masking", and highlight pitfalls in using this measure for comparing text classifier interpretability. We show that iterative masking produces large variation in faithfulness scores between otherwise comparable Transformer encoder text classifiers. We then demonstrate that iteratively masked samples produce embeddings outside the distribution seen during training, resulting in unpredictable behaviour. We further explore task-specific considerations that undermine principled comparison of interpretability using iterative masking, such as an underlying similarity to salience-based adversarial attacks. Our findings give insight into how these behaviours affect neural text classifiers, and provide guidance on how sensitivity to iterative masking should be interpreted.
翻訳日:2024-06-04 21:10:26 公開日:2024-05-31
# HoSNN: アダプティブファイリング閾値を持つ逆回転型ホメオスタティックスパイクニューラルネットワーク

HoSNN: Adversarially-Robust Homeostatic Spiking Neural Networks with Adaptive Firing Thresholds ( http://arxiv.org/abs/2308.10373v3 )

ライセンス: Link先を確認
Hejia Geng, Peng Li, (参考訳) スパイクニューラルネットワーク(SNN)は、有望なニューラルネットワークにインスパイアされた計算モデルを提供するが、敵の攻撃に対して脆弱である。 本研究は,ニューラルホメオスタシスからインスピレーションを得て,しきい値適応型インテリジェンス・アンド・ファイア(TA-LIF)ニューロンモデルを設計し,TA-LIFニューロンを用いて,強靭性を向上させるために対向的に堅牢なホメオスタシスSNN(HoSNN)を構築することを目的とした最初の研究である。 TA-LIFモデルには自己安定化動的しきい値設定機構が組み込まれており、対向障害に起因する各ニューロンの膜電位誤差の最小化に対する局所的なフィードバック制御ソリューションを提供する。 理論的解析により、TA-LIFニューロンのバウンドインプット・アウトプット安定性と膜電位誤差の時間的成長を抑え、標準のLIFニューロンと比較して優れた強靭性を示す。 弱いFGSM攻撃(アタック予算=2/255)で訓練し、PGD攻撃(アタック予算=8/255)でテストすると、我々のHoSNNはいくつかのデータセットでモデル精度を著しく改善した: FashionMNISTで30.54%から74.91%、SVHNで0.44%から35.06%、CIFAR10で0.56%から42.63%、従来のLIFベースのSNNで0.04%から16.66%。

While spiking neural networks (SNNs) offer a promising neurally-inspired model of computation, they are vulnerable to adversarial attacks. We present the first study that draws inspiration from neural homeostasis to design a threshold-adapting leaky integrate-and-fire (TA-LIF) neuron model and utilize TA-LIF neurons to construct the adversarially robust homeostatic SNNs (HoSNNs) for improved robustness. The TA-LIF model incorporates a self-stabilizing dynamic thresholding mechanism, offering a local feedback control solution to the minimization of each neuron's membrane potential error caused by adversarial disturbance. Theoretical analysis demonstrates favorable dynamic properties of TA-LIF neurons in terms of the bounded-input bounded-output stability and suppressed time growth of membrane potential error, underscoring their superior robustness compared with the standard LIF neurons. When trained with weak FGSM attacks (attack budget = 2/255) and tested with much stronger PGD attacks (attack budget = 8/255), our HoSNNs significantly improve model accuracy on several datasets: from 30.54% to 74.91% on FashionMNIST, from 0.44% to 35.06% on SVHN, from 0.56% to 42.63% on CIFAR10, from 0.04% to 16.66% on CIFAR100, over the conventional LIF-based SNNs.
翻訳日:2024-06-04 21:00:32 公開日:2024-05-31
# 学習する機械学習: 学生のファイナンシャル・エイド・リニューアルの現場実験における因果対予測目標

Machine Learning Who to Nudge: Causal vs Predictive Targeting in a Field Experiment on Student Financial Aid Renewal ( http://arxiv.org/abs/2310.08672v2 )

ライセンス: Link先を確認
Susan Athey, Niall Keleher, Jann Spiess, (参考訳) 多くの環境では、介入は他の個人よりも効果的であり、介入を標的にすることが有益である。 我々は,53,000人以上の大学生を対象に,大規模フィールド実験の文脈におけるターゲットの価値を分析し,非拘束期限前に学生がファイナンシャル・エイド・アプリケーションの更新を促すために「ナッジ」を使用することを目標とした。 まずは、ターゲティングに対するベースラインアプローチから始めます。 まず、不均一な治療効果を推定する因果林を対象とし、最も治療効果が高いと見積もられた者に応じて、学生に治療効果を割り当てる。 次に,2つの代替的ターゲティング政策の評価を行った。1つは,治療の欠如による財政援助の更新可能性の低い学生を対象に,もう1つは高い確率でターゲットとする学生を対象としている。 予測されたベースライン結果は、ターゲティングの理想的な基準ではなく、低い、高い、中間的な予測確率を優先順位付けするかどうかの事前基準でもない。 しかしながら、例えば、個々の特徴と治療効果の関係は、歴史的データで見積もることが困難または不可能である場合が多いため、低いベースライン結果のターゲティングは現実的には一般的である。 本稿では,予測的アプローチ(正確な推定)と因果的アプローチ(正確な基準)の両方の長所を取り入れたハイブリッドアプローチを提案する。 実験の1年間で,全学生が早期申込を平均6.4ポイント改善し,平均37%の申込を達成できた。

In many settings, interventions may be more effective for some individuals than others, so that targeting interventions may be beneficial. We analyze the value of targeting in the context of a large-scale field experiment with over 53,000 college students, where the goal was to use "nudges" to encourage students to renew their financial-aid applications before a non-binding deadline. We begin with baseline approaches to targeting. First, we target based on a causal forest that estimates heterogeneous treatment effects and then assigns students to treatment according to those estimated to have the highest treatment effects. Next, we evaluate two alternative targeting policies, one targeting students with low predicted probability of renewing financial aid in the absence of the treatment, the other targeting those with high probability. The predicted baseline outcome is not the ideal criterion for targeting, nor is it a priori clear whether to prioritize low, high, or intermediate predicted probability. Nonetheless, targeting on low baseline outcomes is common in practice, for example because the relationship between individual characteristics and treatment effects is often difficult or impossible to estimate with historical data. We propose hybrid approaches that incorporate the strengths of both predictive approaches (accurate estimation) and causal approaches (correct criterion); we show that targeting intermediate baseline outcomes is most effective in our specific application, while targeting based on low baseline outcomes is detrimental. In one year of the experiment, nudging all students improved early filing by an average of 6.4 percentage points over a baseline average of 37% filing, and we estimate that targeting half of the students using our preferred policy attains around 75% of this benefit.
翻訳日:2024-06-04 20:41:02 公開日:2024-05-31
# ReEval:Transferable Adversarial Attackによる検索型大規模言語モデルの自動幻覚評価

ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks ( http://arxiv.org/abs/2310.12516v2 )

ライセンス: Link先を確認
Xiaodong Yu, Hao Cheng, Xiaodong Liu, Dan Roth, Jianfeng Gao, (参考訳) 検索強化による大規模言語モデル(LLM)における幻覚の緩和は目覚ましいが,静的質問応答(QA)データを用いてLCMの信頼性を測定することは依然として困難である。 具体的には、データ汚染の可能性(例えば記憶化につながる)を考えると、優れた静的ベンチマーク性能は、要求された知識が新しく、あるいは非公開である場合に幻覚を避けるために、与えられた応答の証拠を確実に使用することを保証するものではない。 対戦型機械学習に触発されて、動的評価のために既存の静的な物体を自動的に摂動できる可能性について検討する。 具体的には,LSMの信頼性を評価するために,プロンプトチェインを用いたReEvalを提案する。 我々はChatGPTを用いてReEvalを実装し、様々なプロンプト設定の下でLLMのコレクション上で2つの人気のあるオープンドメインQAデータセットのバリエーションを評価した。 生成したデータは人間可読であり,LLMの幻覚を誘発するのに有用である。 GPT-4を含むLCMの精度低下が顕著であるため,静的データの正確なモデルが得られた。 敵の例は、考慮された全てのLLM間で転送可能である。 小さなモデルによって生成された例は、はるかに大きなモデルを評価するために使用することができ、我々のアプローチはコスト効率が良い。

Despite remarkable advancements in mitigating hallucinations in large language models (LLMs) by retrieval augmentation, it remains challenging to measure the reliability of LLMs using static question-answering (QA) data. Specifically, given the potential of data contamination (e.g., leading to memorization), good static benchmark performance does not ensure that model can reliably use the provided evidence for responding, which is essential to avoid hallucination when the required knowledge is new or private. Inspired by adversarial machine learning, we investigate the feasibility of automatically perturbing existing static one for dynamic evaluation. Specifically, this paper presents ReEval, an LLM-based framework using prompt chaining to perturb the original evidence for generating new test cases for evaluating the LLMs' reliability in using new evidence for answering. We implement ReEval using ChatGPT and evaluate the resulting variants of two popular open-domain QA datasets on a collection of LLMs under various prompting settings. Our generated data is human-readable and useful to trigger hallucination in LLM. Accurate models on static data are observed to produce unsupported answers from the perturbed evidence, with pronounced accuracy drops across LLMs including GPT-4. We find that our adversarial examples are transferable across all considered LLMs. The examples generated by a small model can be used to evaluate a much larger model, making our approach cost-effective.
翻訳日:2024-06-04 20:41:02 公開日:2024-05-31
# アダムを2次レンズで見るK-FACヒューリスティックスの研究

Studying K-FAC Heuristics by Viewing Adam through a Second-Order Lens ( http://arxiv.org/abs/2310.14963v2 )

ライセンス: Link先を確認
Ross M. Clarke, José Miguel Hernández-Lobato, (参考訳) ディープラーニングの最適化に関する研究は、一階勾配法(SGDやAdamなど)の計算効率と二階曲線法(準ニュートン法やK-FACなど)の理論的効率との緊張が特徴である。 2階法はしばしば安定化ヒューリスティック(レバンス・マルカート減衰など)の追加で有効に機能するが、これら(二階曲率モデルとは対照的に)が2階アルゴリズムの性能にどの程度寄与するかを問う。 そこで本稿では,K-FAC (Martens & Grosse, 2015) の減衰と学習率選択技術と,Adamが提案した2次レンズによるAdamを考慮した更新方向を併用したオプティマイザであるAdamQLRについて検討する。 K-FACの適応的ヒューリスティックは、可変なスタンドアロンの一般的な有効性であり、未調整のAdamQLR設定は、チューニングされたベンチマークに対して実行時と同等のパフォーマンスを達成することができる。

Research into optimisation for deep learning is characterised by a tension between the computational efficiency of first-order, gradient-based methods (such as SGD and Adam) and the theoretical efficiency of second-order, curvature-based methods (such as quasi-Newton methods and K-FAC). Noting that second-order methods often only function effectively with the addition of stabilising heuristics (such as Levenberg-Marquardt damping), we ask how much these (as opposed to the second-order curvature model) contribute to second-order algorithms' performance. We thus study AdamQLR: an optimiser combining damping and learning rate selection techniques from K-FAC (Martens & Grosse, 2015) with the update directions proposed by Adam, inspired by considering Adam through a second-order lens. We evaluate AdamQLR on a range of regression and classification tasks at various scales and hyperparameter tuning methodologies, concluding K-FAC's adaptive heuristics are of variable standalone general effectiveness, and finding an untuned AdamQLR setting can achieve comparable performance vs runtime to tuned benchmarks.
翻訳日:2024-06-04 20:41:02 公開日:2024-05-31
# インテクスト学習のための高次最適化法を変換者が学習する:線形モデルによる検討

Transformers Learn Higher-Order Optimization Methods for In-Context Learning: A Study with Linear Models ( http://arxiv.org/abs/2310.17086v2 )

ライセンス: Link先を確認
Deqing Fu, Tian-Qi Chen, Robin Jia, Vatsal Sharan, (参考訳) トランスフォーマーは、ICL(In-context Learning) -- パラメータ更新のないデモから学ぶ -- に優れていますが、その方法はまだ謎のままです。 最近の研究は、トランスフォーマーが内部的にGD(Gradient Descent)を1次最適化法で実行し、ICLを実行することを示唆している。 そこで本論文では,ICLの高次最適化手法を学習するために,トランスフォーマーが学習できることを実証する。 文脈内線形回帰では、トランスフォーマーはイテレーティブニュートン法と同様の収束率を共有し、どちらもGDよりも指数関数的に高速である。 経験的に、連続するトランスフォーマー層からの予測はニュートンのメソッドの異なるイテレーションと線形に一致し、各中間層は3つのイテレーションを大まかに計算し、したがってトランスフォーマーとニュートンの手法はほぼ同じ速度で収束する。 対照的に、勾配 Descent は指数関数的に徐々に収束する。 また、Transformerは、Gradient Descentが苦しむがIterative Newtonが成功するような環境で、不適切なデータを使ってコンテキストで学習できることを示す。 最後に、経験的発見を裏付けるために、Transformerが$k + \mathcal{O}(1)$レイヤでNewtonのメソッドの反復を$k$実装できることを証明した。

Transformers excel at in-context learning (ICL) -- learning from demonstrations without parameter updates -- but how they do so remains a mystery. Recent work suggests that Transformers may internally run Gradient Descent (GD), a first-order optimization method, to perform ICL. In this paper, we instead demonstrate that Transformers learn to approximate higher-order optimization methods for ICL. For in-context linear regression, Transformers share a similar convergence rate as Iterative Newton's Method; both are exponentially faster than GD. Empirically, predictions from successive Transformer layers closely match different iterations of Newton's Method linearly, with each middle layer roughly computing 3 iterations; thus, Transformers and Newton's method converge at roughly the same rate. In contrast, Gradient Descent converges exponentially more slowly. We also show that Transformers can learn in-context on ill-conditioned data, a setting where Gradient Descent struggles but Iterative Newton succeeds. Finally, to corroborate our empirical findings, we prove that Transformers can implement $k$ iterations of Newton's method with $k + \mathcal{O}(1)$ layers.
翻訳日:2024-06-04 20:31:18 公開日:2024-05-31
# ChemScraper: 分子ダイアグラム解析のためのPDFグラフィックインストラクションの活用

ChemScraper: Leveraging PDF Graphics Instructions for Molecular Diagram Parsing ( http://arxiv.org/abs/2311.12161v4 )

ライセンス: Link先を確認
Ayush Kumar Shah, Bryan Manrique Amador, Abhisek Dey, Ming Creekmore, Blake Ocampo, Scott Denmark, Richard Zanibbi, (参考訳) ほとんどの分子図解析器は、ラスタ画像(例えば、PNGs)から化学構造を復元する。 しかし、多くのPDFには、文字、行、ポリゴンの明確な位置と形を示すコマンドが含まれている。 我々は、これらの誕生デジタルPDFプリミティブを入力として利用する新しいパーサを提案する。 解析モデルは高速で正確であり、GPU、光学文字認識(OCR)、ベクトル化を必要としない。 我々は,ラスター画像にアノテートするパーサーを用いて,ラスター画像中の分子を認識するために,新しいマルチタスクニューラルネットワークを訓練する。 SMILESと標準ベンチマークを用いて解析を行い、自動エラーコンパイルをサポートする分子グラフを直接比較し、SMILESによる評価で欠落したエラーを明らかにする新しい評価プロトコルについて述べる。 合成USPTOベンチマークでは、我々の出生時デジタルパーサーは98.4%(前モデルよりも1%高い)の認識率を獲得し、ラスター画像に対する比較的単純なニューラルパーサーは、既存のニューラルネットワークアプローチ(数百万分子と比較して)よりも少ないトレーニングデータを用いて85%のレートを得る。

Most molecular diagram parsers recover chemical structure from raster images (e.g., PNGs). However, many PDFs include commands giving explicit locations and shapes for characters, lines, and polygons. We present a new parser that uses these born-digital PDF primitives as input. The parsing model is fast and accurate, and does not require GPUs, Optical Character Recognition (OCR), or vectorization. We use the parser to annotate raster images and then train a new multi-task neural network for recognizing molecules in raster images. We evaluate our parsers using SMILES and standard benchmarks, along with a novel evaluation protocol comparing molecular graphs directly that supports automatic error compilation and reveals errors missed by SMILES-based evaluation. On the synthetic USPTO benchmark, our born-digital parser obtains a recognition rate of 98.4% (1% higher than previous models) and our relatively simple neural parser for raster images obtains a rate of 85% using less training data than existing neural approaches (thousands vs. millions of molecules).
翻訳日:2024-06-04 20:21:27 公開日:2024-05-31
# HD map is Lane Detection Generalizers: A Novel Generative Framework for Single-Source Domain Generalization

HD Maps are Lane Detection Generalizers: A Novel Generative Framework for Single-Source Domain Generalization ( http://arxiv.org/abs/2311.16589v2 )

ライセンス: Link先を確認
Daeun Lee, Minhyeok Heo, Jiwon Kim, (参考訳) 車線検出は、車両が道路上の位置をナビゲートし、ローカライズするための重要なタスクである。 信頼性の高い運転を確保するため,車線検出モデルは道路環境において堅牢な一般化性能を有する必要がある。 しかし、訓練されたドメインの高度なパフォーマンスにもかかわらず、その一般化性能はドメインの相違により期待に届かなかった。 このギャップを埋めるために,車線検出における単一ソース領域一般化(SSDG)のためのHDマップを用いた新しい生成フレームワークを提案する。 まず、HDマップのレーンマーキングから、多数のフロントビュー画像を生成する。 次に、生成した画像の中核部分集合を戦略的に選択する。 (i)車線構造及び構造 二 多様性を最大化するための道路周辺基準 最終的に、このコアセットを利用して、一般化性能を高めるためにレーン検出モデルを訓練する。 我々は,HDマップから生成するフレームワークが,対象領域画像にアクセスできない場合でも,+3.01%pの精度で,ドメイン適応モデルMLDAよりも優れていることを検証した。

Lane detection is a vital task for vehicles to navigate and localize their position on the road. To ensure reliable driving, lane detection models must have robust generalization performance in various road environments. However, despite the advanced performance in the trained domain, their generalization performance still falls short of expectations due to the domain discrepancy. To bridge this gap, we propose a novel generative framework using HD Maps for Single-Source Domain Generalization (SSDG) in lane detection. We first generate numerous front-view images from lane markings of HD Maps. Next, we strategically select a core subset among the generated images using (i) lane structure and (ii) road surrounding criteria to maximize their diversity. In the end, utilizing this core set, we train lane detection models to boost their generalization performance. We validate that our generative framework from HD Maps outperforms the Domain Adaptation model MLDA with +3.01%p accuracy improvement, even though we do not access the target domain images.
翻訳日:2024-06-04 20:11:43 公開日:2024-05-31
# パラメトリック汎用微分ゲームのためのポントリャーギンニューラル演算子

Pontryagin Neural Operator for Solving Parametric General-Sum Differential Games ( http://arxiv.org/abs/2401.01502v2 )

ライセンス: Link先を確認
Lei Zhang, Mukesh Ghimire, Zhe Xu, Wenlong Zhang, Yi Ren, (参考訳) 2プレイヤーの一般サム微分ゲームの値はハミルトン・ヤコビ・イザック方程式(HJI)の粘性解である。 このようなゲームの価値とポリシーの近似は、次元性の呪い(CoD)に悩まされる。 物理インフォームドニューラルネットワーク(PINN)によるCoDの緩和は、状態制約により大きなリプシッツ定数を持つ微分可能な値が存在する場合に収束問題に遭遇する。 これらの課題に加えて、情報が不完全である場合のゲームパラメータ推論のために、ゲームのパラメトリック空間全体にわたって一般化可能な値とポリシーを学ぶことがしばしば必要である。 これらの課題に対処するために、パラメトリックな状態制約を持つゲーム間での安全性性能において、現在の最先端のハイブリッドPINNモデルよりも優れるポントリャーギンモードニューラル演算子を提案する。 我々の重要な貢献は、前向きと後向きのコストトロールアウトの相違について定義されたコストト損失の導入であり、これは計算的に安価である。 本研究では, 状態制約違反を反映し, リプシッツ定数の大きな微分可能な値の学習を, ハイブリッドPINNモデルによって提案されるように手動で教師付きデータを必要とすることなく, 効果的に行うことができることを示す。 さらに重要なことは、コストとポリシーの密接な関係が、前者が一般的な安全性能を持つフィードバック制御ポリシーを学習する上で重要なものであることを示す。

The values of two-player general-sum differential games are viscosity solutions to Hamilton-Jacobi-Isaacs (HJI) equations. Value and policy approximations for such games suffer from the curse of dimensionality (CoD). Alleviating CoD through physics-informed neural networks (PINN) encounters convergence issues when differentiable values with large Lipschitz constants are present due to state constraints. On top of these challenges, it is often necessary to learn generalizable values and policies across a parametric space of games, e.g., for game parameter inference when information is incomplete. To address these challenges, we propose in this paper a Pontryagin-mode neural operator that outperforms the current state-of-the-art hybrid PINN model on safety performance across games with parametric state constraints. Our key contribution is the introduction of a costate loss defined on the discrepancy between forward and backward costate rollouts, which are computationally cheap. We show that the costate dynamics, which can reflect state constraint violation, effectively enables the learning of differentiable values with large Lipschitz constants, without requiring manually supervised data as suggested by the hybrid PINN model. More importantly, we show that the close relationship between costates and policies makes the former critical in learning feedback control policies with generalizable safety performance.
翻訳日:2024-06-04 19:42:23 公開日:2024-05-31
# オブジェクト検出とマイノリティクラスのためのコンセンサス焦点

Consensus Focus for Object Detection and minority classes ( http://arxiv.org/abs/2401.05530v2 )

ライセンス: Link先を確認
Erik Isai Valle Salgado, Chen Li, Yaqi Han, Linchao Shi, Xinghui Li, (参考訳) Ensembleメソッドは、単一または複数のソースドメインとタスクでトレーニングされた所定の数の分類器または検出器の可用性を利用して、ドメイン適応やマルチソース転送学習といった機械学習問題に対処する。 既存の調査では、ソースとターゲットデータセット間のドメイン距離を測定し、クラス毎に異なるサンプルで同じデータ上で複数のネットワークをトレーニングしたり、さまざまなハイパーパラメータと設定の下でトレーニングされたモデルからの予測を組み合わせています。 彼らのソリューションは、小または末尾のカテゴリのパフォーマンスを高めたが、残りは損なわれた。 そこで本研究では,半教師付きおよび長い尾を持つ物体検出のためのコンセンサスの修正を提案する。 本稿では,各モデルの寄与をコンセンサスで把握し,利用者が対象ラベル空間内の各クラスの関連性を選択することで,少数境界ボックスの抑制を緩和し,有害ネットワークを捨てることなく複数のモデルの結果を組み合わせる投票システムを提案する。 実験では,NMS,ソフトNMS,WBFよりも信頼性が高く,バウンディングボックスの精度が高かった。 結果を生成するために使用されるコードは、GitHubリポジトリで利用可能です。

Ensemble methods exploit the availability of a given number of classifiers or detectors trained in single or multiple source domains and tasks to address machine learning problems such as domain adaptation or multi-source transfer learning. Existing research measures the domain distance between the sources and the target dataset, trains multiple networks on the same data with different samples per class, or combines predictions from models trained under varied hyperparameters and settings. Their solutions enhanced the performance on small or tail categories but hurt the rest. To this end, we propose a modified consensus focus for semi-supervised and long-tailed object detection. We introduce a voting system based on source confidence that spots the contribution of each model in a consensus, lets the user choose the relevance of each class in the target label space so that it relaxes minority bounding boxes suppression, and combines multiple models' results without discarding the poisonous networks. Our tests on synthetic driving datasets retrieved higher confidence and more accurate bounding boxes than the NMS, soft-NMS, and WBF. The code used to generate the results is available in our GitHub repository: http://github.com/ErikValle/Consensus-focus-for-object-detection.
翻訳日:2024-06-04 19:42:23 公開日:2024-05-31
# ドメインに依存しない動的プログラミング

Domain-Independent Dynamic Programming ( http://arxiv.org/abs/2401.13883v2 )

ライセンス: Link先を確認
Ryo Kuroiwa, J. Christopher Beck, (参考訳) 組合せ最適化問題では、混合整数プログラミング(MIP)や制約プログラミング(CP)といったモデルベースのパラダイムは、宣言的問題解決の「ホット・ゴリラ」であるモデリングと問題解決を分離することを目的としている。 本稿では、動的プログラミング(DP)に基づく新しいモデルベースパラダイムであるドメイン非依存動的プログラミング(DIDP)を提案する。 DPは新しいものではないが、通常は問題固有の方法として実装されている。 AI計画にインスパイアされた状態遷移システムに基づくDPモデルを定義するフォーマリズムである動的プログラミング記述言語(DyPDL)を導入する。 そこで本研究では,DyPDLモデルの解法としてヒューリスティック検索アルゴリズムを用いて7つのDIDP解法を提案する。 我々は,DDPソルバと商用MIPおよびCPソルバ(それぞれMIPとCPモデルを解いた)を,11の組合せ最適化問題クラスの共通ベンチマークインスタンス上で実験的に比較した。 その結果,DIDPは9つの問題クラス,CPは9つの問題クラス,MIPとCPは7つの問題クラスでMIPを上回っていることがわかった。

For combinatorial optimization problems, model-based paradigms such as mixed-integer programming (MIP) and constraint programming (CP) aim to decouple modeling and solving a problem: the `holy grail' of declarative problem solving. We propose domain-independent dynamic programming (DIDP), a new model-based paradigm based on dynamic programming (DP). While DP is not new, it has typically been implemented as a problem-specific method. We introduce Dynamic Programming Description Language (DyPDL), a formalism to define DP models based on a state transition system, inspired by AI planning. We show that heuristic search algorithms can be used to solve DyPDL models and propose seven DIDP solvers. We experimentally compare our DIDP solvers with commercial MIP and CP solvers (solving MIP and CP models, respectively) on common benchmark instances of eleven combinatorial optimization problem classes. We show that DIDP outperforms MIP in nine problem classes, CP also in nine problem classes, and both MIP and CP in seven.
翻訳日:2024-06-04 19:32:36 公開日:2024-05-31
# メタラーニング線形二次レギュレータ:モデルフリーLQRに対するポリシーグラディエントMAMLアプローチ

Meta-Learning Linear Quadratic Regulators: A Policy Gradient MAML Approach for Model-free LQR ( http://arxiv.org/abs/2401.14534v2 )

ライセンス: Link先を確認
Leonardo F. Toso, Donglin Zhan, James Anderson, Han Wang, (参考訳) マルチタスク, 異種, 無モデル設定における線形2次レギュレータ(LQR)の学習問題について検討する。 我々は,LQR問題に対する政策勾配に基づくモデル非依存メタラーニング(MAML)アプローチ(Finn et al , 2017)の安定性とパーソナライズ保証を,異なるタスク・ヘテロジニティ設定下で特徴付ける。 我々のMAML-LQRアルゴリズムは,モデルベースおよびモデルフリーの学習シナリオにおいて,各タスク固有最適制御器に近い安定化制御器を生成する。 さらに、モデルに基づく設定では、そのようなコントローラは線形収束率で達成され、既存の作業からサブ線形速度を改善することを示す。 我々の理論的保証は、学習したコントローラが見えないLQRタスクに効率的に適応できることを示しています。

We investigate the problem of learning linear quadratic regulators (LQR) in a multi-task, heterogeneous, and model-free setting. We characterize the stability and personalization guarantees of a policy gradient-based (PG) model-agnostic meta-learning (MAML) (Finn et al., 2017) approach for the LQR problem under different task-heterogeneity settings. We show that our MAML-LQR algorithm produces a stabilizing controller close to each task-specific optimal controller up to a task-heterogeneity bias in both model-based and model-free learning scenarios. Moreover, in the model-based setting, we show that such a controller is achieved with a linear convergence rate, which improves upon sub-linear rates from existing work. Our theoretical guarantees demonstrate that the learned controller can efficiently adapt to unseen LQR tasks.
翻訳日:2024-06-04 19:32:36 公開日:2024-05-31
# 出発点を再考する:フェデレートされた下流タスクのための協調的な事前訓練

Rethinking the Starting Point: Collaborative Pre-Training for Federated Downstream Tasks ( http://arxiv.org/abs/2402.02225v2 )

ライセンス: Link先を確認
Yun-Wei Chu, Dong-Jun Han, Seyyedali Hosseinalipour, Christopher G. Brinton, (参考訳) 近年の研究では、中心的な事前学習モデルを利用することで、フェデレートラーニング(FL)に有利な初期化が得られることが示されている。 しかし、既存の事前学習手法は、任意の下流FLタスクに直面すると、うまく一般化しない。 特に しばしば (i)特に下流ラベルの見当たらない場合には、平均精度を限定して達成し、 (ii) クライアント間でのバランスの取れたパフォーマンスが得られず、精度のばらつきが大きくなる。 これらの課題に対処するために、下流FLタスクに対して堅牢な初期化を提供する協調型/分散型事前学習アプローチであるCoPreFLを提案する。 CoPreFLの鍵となるアイデアは、不均一かつ目に見えないFLシナリオを忠実に模倣するためにグローバルモデルを調整する、モデルに依存しないメタラーニング(MAML)プロシージャである。 我々のMAML手法は,性能の分散をメタオブジェクト関数に組み込み,精度を最適化するのではなく,クライアント間で性能のバランスをとる。 広範囲な実験により,CoPreFLは,任意の下流FLタスクにおける平均精度とばらつきを,事前学習ベースラインと比較して有意に向上することを示した。 また、CoPreFLがダウンストリームタスクによって適用されるよく知られたFLアルゴリズムとどのように互換性があり、それぞれのケースにおける性能が向上しているかを示す。

A few recent studies have demonstrated that leveraging centrally pre-trained models can offer advantageous initializations for federated learning (FL). However, existing pre-training methods do not generalize well when faced with an arbitrary set of downstream FL tasks. Specifically, they often (i) achieve limited average accuracy, particularly when there are unseen downstream labels, and (ii) result in significant accuracy variance, failing to provide a balanced performance across clients. To address these challenges, we propose CoPreFL, a collaborative/distributed pre-training approach which provides a robust initialization for downstream FL tasks. The key idea of CoPreFL is a model-agnostic meta-learning (MAML) procedure that tailors the global model to closely mimic heterogeneous and unseen FL scenarios, resulting in a pre-trained model that is rapidly adaptable to arbitrary FL tasks. Our MAML procedure incorporates performance variance into the meta-objective function, balancing performance across clients rather than solely optimizing for accuracy. Through extensive experiments, we demonstrate that CoPreFL obtains significant improvements in both average accuracy and variance across arbitrary downstream FL tasks with unseen/seen labels, compared with various pre-training baselines. We also show how CoPreFL is compatible with different well-known FL algorithms applied by the downstream tasks, enhancing performance in each case.
翻訳日:2024-06-04 19:13:07 公開日:2024-05-31
# 協調UAVによるセル通信のオフロードのためのマルチエージェント強化学習

Multi-Agent Reinforcement Learning for Offloading Cellular Communications with Cooperating UAVs ( http://arxiv.org/abs/2402.02957v2 )

ライセンス: Link先を確認
Abhishek Mondal, Deepak Mishra, Ganesh Prasad, George C. Alexandropoulos, Azzam Alnahari, Riku Jantti, (参考訳) 地上のセルネットワークにおけるインテリジェントなデータ収集の効果的なソリューションは、特にモノのインターネット(Internet of Things)アプリケーションにおいて重要である。 地上基地局の限られたスペクトルと範囲は、ネットワークユーザのデータレート要求の増大に対応する上での課題となる。 高度の機敏性、機動性、柔軟性で知られる無人航空機は、地上のBSからデータトラフィックをオフロードする代替手段を提供し、追加のアクセスポイントとして機能する。 本稿では,地上BSからのデータトラフィックオフロードに複数のUAVを効率的に利用するための新しい手法を提案する。 具体的には、UAVトラジェクトリとユーザ関連指標をサービス品質の制約下で協調的に最適化することで、UAVとのユーザ関連を最大化することに焦点を当てている。 定式化UAV制御問題は非凸かつ組合せ的であるため,本研究はマルチエージェント強化学習フレームワークを活用する。 この枠組みでは、それぞれのUAVが独立したエージェントとして機能し、UAV間の協調行動を維持することを目的としている。 提案手法は, 有限状態マルコフ決定プロセスを用いて, UAVの速度制約と軌道と状態空間の関係を考察する。 低複雑性な分散状態行動報酬状態行動アルゴリズムが提示され、トレーニングエピソードよりもUAVの最適な逐次決定ポリシーを決定する。 シミュレーションの結果は、提案した解析を検証し、最適なUAV軌道に関する貴重な知見を提供する。 得られた軌道は,Qラーニングや粒子群最適化などのベンチマーク手法と比較して,平均UAVアソシエーション性能が優れている。

Effective solutions for intelligent data collection in terrestrial cellular networks are crucial, especially in the context of Internet of Things applications. The limited spectrum and coverage area of terrestrial base stations pose challenges in meeting the escalating data rate demands of network users. Unmanned aerial vehicles, known for their high agility, mobility, and flexibility, present an alternative means to offload data traffic from terrestrial BSs, serving as additional access points. This paper introduces a novel approach to efficiently maximize the utilization of multiple UAVs for data traffic offloading from terrestrial BSs. Specifically, the focus is on maximizing user association with UAVs by jointly optimizing UAV trajectories and users association indicators under quality of service constraints. Since, the formulated UAVs control problem is nonconvex and combinatorial, this study leverages the multi agent reinforcement learning framework. In this framework, each UAV acts as an independent agent, aiming to maintain inter UAV cooperative behavior. The proposed approach utilizes the finite state Markov decision process to account for UAVs velocity constraints and the relationship between their trajectories and state space. A low complexity distributed state action reward state action algorithm is presented to determine UAVs optimal sequential decision making policies over training episodes. The extensive simulation results validate the proposed analysis and offer valuable insights into the optimal UAV trajectories. The derived trajectories demonstrate superior average UAV association performance compared to benchmark techniques such as Q learning and particle swarm optimization.
翻訳日:2024-06-04 19:03:18 公開日:2024-05-31
# Decentralized Sporadic Federated Learning: 収束保証を備えた統一アルゴリズムフレームワーク

Decentralized Sporadic Federated Learning: A Unified Algorithmic Framework with Convergence Guarantees ( http://arxiv.org/abs/2402.03448v2 )

ライセンス: Link先を確認
Shahryar Zehtabi, Dong-Jun Han, Rohit Parasnis, Seyyedali Hosseinalipour, Christopher G. Brinton, (参考訳) 分散連合学習(DFL)はFL設定をキャプチャする (i)モデル更新 (ii)モデルアグリゲーションは、中央サーバーなしでクライアントによってのみ実行される。 既存のDFLの作業は、クライアントがローカルモデル交換間で一定の数のローカル更新を行うような設定に主に焦点を合わせており、通信や計算能力の異質性や動的性を見渡している。 本研究では,局所勾配と凝集過程の両方において散発性の概念を一般化したDFL手法である分散散発的フェデレーションラーニング(DSpodFL)を提案する。 DSpodFLは、各項目のモデル化により、統一的なアルゴリズムフレームワークの下で、多くの既存の分散最適化手法を仮定する 一 顧客ごとの勾配降下の発生及び 二 クライアントペア間のモデルを任意の指標確率変数として交換することにより、不均一および時間変化の計算/通信シナリオをキャプチャする。 コンベックスモデルと非凸モデルの両方に対するDSpodFLの収束挙動を,通信グラフ接続性,クライアント間のデータ不均一性,勾配雑音といった軽微な仮定の下で解析的に解析し,既存の結果を特殊ケースとして再現する方法を示す。 DSpodFLは、さまざまなシステム設定下でのベースラインと比較して、トレーニング速度の改善を一貫して達成している。

Decentralized federated learning (DFL) captures FL settings where both (i) model updates and (ii) model aggregations are exclusively carried out by the clients without a central server. Existing DFL works have mostly focused on settings where clients conduct a fixed number of local updates between local model exchanges, overlooking heterogeneity and dynamics in communication and computation capabilities. In this work, we propose Decentralized Sporadic Federated Learning (DSpodFL), a DFL methodology built on a generalized notion of sporadicity in both local gradient and aggregation processes. DSpodFL subsumes many existing decentralized optimization methods under a unified algorithmic framework by modeling the per-iteration (i) occurrence of gradient descent at each client and (ii) exchange of models between client pairs as arbitrary indicator random variables, thus capturing heterogeneous and time-varying computation/communication scenarios. We analytically characterize the convergence behavior of DSpodFL for both convex and non-convex models, for both constant and diminishing learning rates, under mild assumptions on the communication graph connectivity, data heterogeneity across clients, and gradient noises, and show how our bounds recover existing results as special cases. Experiments demonstrate that DSpodFL consistently achieves improved training speeds compared with baselines under various system settings.
翻訳日:2024-06-04 19:03:18 公開日:2024-05-31
# BECoTTA: 連続的なテスト時間適応のためのエキスパートの入力依存オンラインブレンディング

BECoTTA: Input-dependent Online Blending of Experts for Continual Test-time Adaptation ( http://arxiv.org/abs/2402.08712v3 )

ライセンス: Link先を確認
Daeun Lee, Jaehong Yoon, Sung Ju Hwang, (参考訳) 連続テスト時間適応(CTTA)は、学習済みの知識を維持しながら、継続的に見えない領域に効率的に適応するために必要である。 しかし、CTTAの進歩にもかかわらず、忘れられた適応トレードオフと効率を改善してモデルをデプロイすることは依然として困難である。 さらに、現在のCTTAシナリオは、現実世界のドメインがシームレスに変更されたとしても、相容れない状況のみを前提としている。 これらの課題に対処するために,CTTAの入力依存かつ効率的なモジュラーフレームワークであるBECoTTAを提案する。 2つのコアコンポーネントを含むMixture-of Domain Low-rank Experts (MoDE)を提案する。 (i)複数のドメインルータでドメイン適応知識を選択的にキャプチャするのに役立つドメイン適応ルーティング (ii) 各ドメインと専門家間の依存関係を最大化するために、ドメイン-専門家のシナジー損失。 提案手法は, トレーニング可能なパラメータを約98%削減した上で, 整合性や漸進性などの複数のCTTAシナリオに優れることを確認した。 また,エキスパートの構築,ドメイン適応型エキスパートの効果,可視化などの手法の分析を行った。

Continual Test Time Adaptation (CTTA) is required to adapt efficiently to continuous unseen domains while retaining previously learned knowledge. However, despite the progress of CTTA, it is still challenging to deploy the model with improved forgetting-adaptation trade-offs and efficiency. In addition, current CTTA scenarios assume only the disjoint situation, even though real-world domains are seamlessly changed. To address these challenges, this paper proposes BECoTTA, an input-dependent and efficient modular framework for CTTA. We propose Mixture-of Domain Low-rank Experts (MoDE) that contains two core components: (i) Domain-Adaptive Routing, which helps to selectively capture the domain adaptive knowledge with multiple domain routers, and (ii) Domain-Expert Synergy Loss to maximize the dependency between each domain and expert. We validate that our method outperforms multiple CTTA scenarios, including disjoint and gradual domain shits, while only requiring ~98% fewer trainable parameters. We also provide analyses of our method, including the construction of experts, the effect of domain-adaptive experts, and visualizations.
翻訳日:2024-06-04 18:43:36 公開日:2024-05-31
# ハームのないフェアネス:インフルエンスガイド型アクティブサンプリングアプローチ

Fairness Without Harm: An Influence-Guided Active Sampling Approach ( http://arxiv.org/abs/2402.12789v2 )

ライセンス: Link先を確認
Jinlong Pang, Jialu Wang, Zhaowei Zhu, Yuanshun Yao, Chen Qian, Yang Liu, (参考訳) 機械学習(ML)における公正性の追求は、モデルが保護された人口集団に対する偏見を示しないことを保証する。 この妥協は、特定のリソース(例えばデータ)を与えられたParetoフロンティアによって説明できる。 本研究では,モデルの精度を損なうことなく,グループフェアネスの格差を軽減するモデルを訓練することを目的とする。 直感的には、より多くのデータを取得することは、公平さと正確性のトレードオフのより良いParetoフロンティアに到達することで、この目標を達成するための自然で有望なアプローチである。 公正なアクティブな学習アプローチのような現在のデータ取得方法は、通常、アノテートセンシティブな属性を必要とする。 しかしながら、これらのセンシティブな属性アノテーションは、プライバシと安全上の懸念から保護されるべきである。 本稿では,グループアノテーションに頼らず,小さな検証セットにグループアノテーションを必要とするのではなく,抽出可能なアクティブデータサンプリングアルゴリズムを提案する。 具体的には、アルゴリズムはまず、検証データセット上で評価された公正さと正確性に影響を与えることで、新しいサンプルをスコアし、次に、トレーニングのための一定の数のサンプルを選択する。 理論的には、より多くのデータを取得することで、害を生じさせることなく公正性を向上し、リスク格差の文脈でサンプリングアプローチの可能性を検証する。 また、一般化誤差とリスク格差と対応する接続の上限も提供する。 実世界のデータに対する大規模な実験により,提案アルゴリズムの有効性が示された。

The pursuit of fairness in machine learning (ML), ensuring that the models do not exhibit biases toward protected demographic groups, typically results in a compromise scenario. This compromise can be explained by a Pareto frontier where given certain resources (e.g., data), reducing the fairness violations often comes at the cost of lowering the model accuracy. In this work, we aim to train models that mitigate group fairness disparity without causing harm to model accuracy. Intuitively, acquiring more data is a natural and promising approach to achieve this goal by reaching a better Pareto frontier of the fairness-accuracy tradeoff. The current data acquisition methods, such as fair active learning approaches, typically require annotating sensitive attributes. However, these sensitive attribute annotations should be protected due to privacy and safety concerns. In this paper, we propose a tractable active data sampling algorithm that does not rely on training group annotations, instead only requiring group annotations on a small validation set. Specifically, the algorithm first scores each new example by its influence on fairness and accuracy evaluated on the validation dataset, and then selects a certain number of examples for training. We theoretically analyze how acquiring more data can improve fairness without causing harm, and validate the possibility of our sampling approach in the context of risk disparity. We also provide the upper bound of generalization error and risk disparity as well as the corresponding connections. Extensive experiments on real-world data demonstrate the effectiveness of our proposed algorithm.
翻訳日:2024-06-04 16:38:05 公開日:2024-05-31
# メッセージパッシングニューラルネットワークを用いたサンプリング型分散トレーニング

Sampling-based Distributed Training with Message Passing Neural Network ( http://arxiv.org/abs/2402.15106v3 )

ライセンス: Link先を確認
Priyesh Kakka, Sheel Nidhan, Rishikesh Ranade, Jonathan F. MacArt, (参考訳) 本研究では,ドメイン分割に基づくメッセージパッシングニューラルネットワーク(MPNN)のための分散トレーニングと推論手法を提案する。 我々の目標は、ノード数が増加するにつれてエッジベースのグラフニューラルネットワークをスケールするという課題に対処することである。 分散トレーニングアプローチを通じて、Nystr\"om-approximation sample techniqueと組み合わせて、DS-MPNN(DとSはそれぞれ分散用とサンプル用)と呼ばれるスケーラブルなグラフニューラルネットワークを提案し、最大$O(10^5)のノードをスケールアップできる。 サンプリングと分散トレーニングのアプローチを2つのケースで検証する。 a) ダーシーフローデータセットと b) 単一GPU実装とノードベースグラフ畳み込みネットワーク(GCN)を比較した2次元翼のRANSシミュレーションを行った。 DS-MPNNモデルはシングルGPU実装に匹敵する精度を示し、シングルGPU変種(S-MPNN)と比較してノード数が大幅に増加し、ノードベースGCNよりも大幅に向上する。

In this study, we introduce a domain-decomposition-based distributed training and inference approach for message-passing neural networks (MPNN). Our objective is to address the challenge of scaling edge-based graph neural networks as the number of nodes increases. Through our distributed training approach, coupled with Nystr\"om-approximation sampling techniques, we present a scalable graph neural network, referred to as DS-MPNN (D and S standing for distributed and sampled, respectively), capable of scaling up to $O(10^5)$ nodes. We validate our sampling and distributed training approach on two cases: (a) a Darcy flow dataset and (b) steady RANS simulations of 2-D airfoils, providing comparisons with both single-GPU implementation and node-based graph convolution networks (GCNs). The DS-MPNN model demonstrates comparable accuracy to single-GPU implementation, can accommodate a significantly larger number of nodes compared to the single-GPU variant (S-MPNN), and significantly outperforms the node-based GCN.
翻訳日:2024-06-04 16:28:21 公開日:2024-05-31
# FORML:Stiefel多様体上のメタラーニングのためのリーマン的ヘッセンフリー手法

FORML: A Riemannian Hessian-free Method for Meta-learning on Stiefel Manifolds ( http://arxiv.org/abs/2402.18605v2 )

ライセンス: Link先を確認
Hadi Tabealhojeh, Soumava Kumar Roy, Peyman Adibi, Hossein Karshenas, (参考訳) メタラーニング問題は、通常、内部および外部の最適化ループにおいて、タスク固有とメタパラメータを更新する二段階最適化として定式化される。 しかし、リーマン多様体上のパラメータとメタパラメータが位置するリーマン空間における最適化の実行は、計算的に集約的である。 ユークリッドの方法とは異なり、リーマンのバックプロパゲーションは、リトラクションや直交射影のようなリーマン作用素による後方の計算を含む2階微分を計算する必要がある。 本稿では、スティーフェル多様体上の微分の1次近似を用いたヘッセンフリーアプローチを提案する。 本手法は計算負荷とメモリフットプリントを大幅に削減する。 本稿では,最後の分類層のパラメータの直交制約をバックボーンネットワークのヘッダとして適用したStiefel完全連結層を用いて,勾配に基づくメタ学習手法の表現再利用を強化する方法を示す。 提案手法は, 最先端の手法, 特にユークリッドの手法であるMAMLと比較して, 提案手法の優位性を実証した。

Meta-learning problem is usually formulated as a bi-level optimization in which the task-specific and the meta-parameters are updated in the inner and outer loops of optimization, respectively. However, performing the optimization in the Riemannian space, where the parameters and meta-parameters are located on Riemannian manifolds is computationally intensive. Unlike the Euclidean methods, the Riemannian backpropagation needs computing the second-order derivatives that include backward computations through the Riemannian operators such as retraction and orthogonal projection. This paper introduces a Hessian-free approach that uses a first-order approximation of derivatives on the Stiefel manifold. Our method significantly reduces the computational load and memory footprint. We show how using a Stiefel fully-connected layer that enforces orthogonality constraint on the parameters of the last classification layer as the head of the backbone network, strengthens the representation reuse of the gradient-based meta-learning methods. Our experimental results across various few-shot learning datasets, demonstrate the superiority of our proposed method compared to the state-of-the-art methods, especially MAML, its Euclidean counterpart.
翻訳日:2024-06-04 16:18:27 公開日:2024-05-31
# DOCTOR:自己補正型フォトニックテンソル加速器に向けた動的オンチップ時変修復

DOCTOR: Dynamic On-Chip Temporal Variation Remediation Toward Self-Corrected Photonic Tensor Accelerators ( http://arxiv.org/abs/2403.02688v2 )

ライセンス: Link先を確認
Haotian Lu, Sanmitra Banerjee, Jiaqi Gu, (参考訳) フォトニックコンピューティングは計算集約型人工知能(AI)ワークロードを加速するための有望なソリューションとして登場し、特にリソース制限、レイテンシに敏感なエッジコンピューティング環境において、非並列なスピードとエネルギー効率を提供する。 しかし、アナログフォトニックテンソル加速器の展開は、ハードウェアノイズと環境変動による信頼性の問題に直面している。 オンチップノイズ認識トレーニングとオンチップトレーニングは、中等度で静的な雑音を伴う光ニューラルアクセラレータの変動耐性を高めるために提案されているが、リアルタイムのその場校正機構を必要とする時間的変動による顕著な性能劣化を観察する。 この課題に対処するため,我々はDOCTORと呼ばれる軽量な動的オンチップ修復フレームワークを提案し,時間的ドリフトノイズに対して適応的かつその場での精度回復を実現する。 DOCTORフレームワークは、適応的プローブを用いてチップステータスをインテリジェントに監視し、高速なトレーニングフリーキャリブレーションを行い、必要に応じて精度を回復する。 デバイスおよびテンソルコア間の不均一な空間変動分布を認識し,ノイズのあるデバイス上で重要なタスクを実行することを避けるために,変動を考慮したアーキテクチャ再マッピング戦略を提案する。 実験により,ドリフト変動下での持続的性能を34%高い精度と2~3桁のオーバヘッドで保証できることが確認された。 私たちのコードはhttps://github.com/ScopeX-ASU/DOCTOR.comで公開されている。

Photonic computing has emerged as a promising solution for accelerating computation-intensive artificial intelligence (AI) workloads, offering unparalleled speed and energy efficiency, especially in resource-limited, latency-sensitive edge computing environments. However, the deployment of analog photonic tensor accelerators encounters reliability challenges due to hardware noise and environmental variations. While off-chip noise-aware training and on-chip training have been proposed to enhance the variation tolerance of optical neural accelerators with moderate, static noise, we observe a notable performance degradation over time due to temporally drifting variations, which requires a real-time, in-situ calibration mechanism. To tackle this challenging reliability issues, for the first time, we propose a lightweight dynamic on-chip remediation framework, dubbed DOCTOR, providing adaptive, in-situ accuracy recovery against temporally drifting noise. The DOCTOR framework intelligently monitors the chip status using adaptive probing and performs fast in-situ training-free calibration to restore accuracy when necessary. Recognizing nonuniform spatial variation distributions across devices and tensor cores, we also propose a variation-aware architectural remapping strategy to avoid executing critical tasks on noisy devices. Extensive experiments show that our proposed framework can guarantee sustained performance under drifting variations with 34% higher accuracy and 2-3 orders-of-magnitude lower overhead compared to state-of-the-art on-chip training methods. Our code is open-sourced at https://github.com/ScopeX-ASU/DOCTOR.
翻訳日:2024-06-04 16:08:41 公開日:2024-05-31
# 除去に基づくノード影響の高速推定

Fast Inference of Removal-Based Node Influence ( http://arxiv.org/abs/2403.08333v3 )

ライセンス: Link先を確認
Weikai Li, Zhiping Xiao, Xiao Luo, Yizhou Sun, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ内の情報拡散パターンをキャプチャするために広く利用されている。 優れたパフォーマンスが達成されているが、ノードの影響を評価する新たなトレンドトピックが存在する。 本稿では,ノードの除去による学習GNNモデルの予測変化を計測するノードの影響評価手法を提案する。 現実世界のアプリケーションは、"Twitterアカウントの極性を予測するタスクにおいて、特定のアカウントが削除された場合、他のアカウントの極性をどのように変更するか"である。 我々は,ノード除去に伴うノードやエッジの変化をシミュレート可能な代理モデルとして,GNNを使用している。 我々の目標は、各ノードに対する影響スコアを取得することであり、簡単な方法は、各ノードを交互に削除し、修正したグラフにトレーニングされたGNNを適用して、新しい予測を生成することである。 信頼性はあるが時間を要するので、効率的な方法が必要です。 グラフ敵攻撃や反事実的説明のような関連する作業行は、問題設定が異なるため、我々のニーズを直接満たすことはできない。 本稿では,ノード除去の影響を近似するために勾配情報を用いたNOde-Removal-based fAst GNN推論(NORA)を提案する。 すべてのノードに対する影響スコアを近似するために、1つの前進伝播と1つのバックプロパゲーションしかかからない。 6つのデータセットと6つのGNNモデルに対する大規模な実験により、NORAの有効性が検証された。 私たちのコードはhttps://github.com/weikai-li/NORA.git.comで公開されています。

Graph neural networks (GNNs) are widely utilized to capture the information spreading patterns in graphs. While remarkable performance has been achieved, there is a new trending topic of evaluating node influence. We propose a new method of evaluating node influence, which measures the prediction change of a trained GNN model caused by removing a node. A real-world application is, "In the task of predicting Twitter accounts' polarity, had a particular account been removed, how would others' polarity change?". We use the GNN as a surrogate model whose prediction could simulate the change of nodes or edges caused by node removal. Our target is to obtain the influence score for every node, and a straightforward way is to alternately remove every node and apply the trained GNN on the modified graph to generate new predictions. It is reliable but time-consuming, so we need an efficient method. The related lines of work, such as graph adversarial attack and counterfactual explanation, cannot directly satisfy our needs, since their problem settings are different. We propose an efficient, intuitive, and effective method, NOde-Removal-based fAst GNN inference (NORA), which uses the gradient information to approximate the node-removal influence. It only costs one forward propagation and one backpropagation to approximate the influence score for all nodes. Extensive experiments on six datasets and six GNN models verify the effectiveness of NORA. Our code is available at https://github.com/weikai-li/NORA.git.
翻訳日:2024-06-04 15:57:11 公開日:2024-05-31
# グラフ機械学習によるネットワーク因果効果の2倍ロバスト推定

Graph Machine Learning based Doubly Robust Estimator for Network Causal Effects ( http://arxiv.org/abs/2403.11332v2 )

ライセンス: Link先を確認
Seyedeh Baharan Khatami, Harsh Parikh, Haowei Chen, Sudeepa Roy, Babak Salimi, (参考訳) ソーシャルネットワークデータにおける因果関係を推定することの課題に対処する。 これは、ユニットの結果が隣人の治療によって影響を受ける干渉と、ネットワークが引き起こす障害による課題をもたらす。 ソーシャルネットワークの設定における因果効果の推定に焦点をあてた文献が多数存在するが、その大半は、ネットワークによる共起機構の形式について事前の仮定を行っている。 このような強い仮定は、特に高次元ネットワークにおいて成り立つことは滅多にない。 本稿では,グラフ機械学習アプローチとダブル機械学習フレームワークを併用して,単一観測ソーシャルネットワークを用いた直接効果とピア効果の高精度かつ効率的な推定を可能にする手法を提案する。 提案した推定器の半パラメトリック効率を軽度な正則性条件下で示し、一貫した不確実性定量化を可能にする。 提案手法は,広範囲なシミュレーション研究を通じて,正確で堅牢でスケーラブルであることを示す。 我々は,自己ヘルプグループ参加が金融リスク耐性に与える影響を調査するために,本手法を用いた。

We address the challenge of inferring causal effects in social network data. This results in challenges due to interference -- where a unit's outcome is affected by neighbors' treatments -- and network-induced confounding factors. While there is extensive literature focusing on estimating causal effects in social network setups, a majority of them make prior assumptions about the form of network-induced confounding mechanisms. Such strong assumptions are rarely likely to hold especially in high-dimensional networks. We propose a novel methodology that combines graph machine learning approaches with the double machine learning framework to enable accurate and efficient estimation of direct and peer effects using a single observational social network. We demonstrate the semiparametric efficiency of our proposed estimator under mild regularity conditions, allowing for consistent uncertainty quantification. We demonstrate that our method is accurate, robust, and scalable via an extensive simulation study. We use our method to investigate the impact of Self-Help Group participation on financial risk tolerance.
翻訳日:2024-06-04 15:57:11 公開日:2024-05-31
# 植木なしの構文学習:トランスフォーマーが階層的に一般化する時期と理由を理解する

Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically ( http://arxiv.org/abs/2404.16367v2 )

ライセンス: Link先を確認
Kabir Ahuja, Vidhisha Balachandran, Madhur Panwar, Tianxing He, Noah A. Smith, Navin Goyal, Yulia Tsvetkov, (参考訳) 自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、構造バイアスを明示的に符号化することなく、目に見えない構文構造を持つ文に一般化することが示されている。 本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動が出現する可能性のあるトレーニングについて検討する。 我々は、複数の合成データセットに基づいて訓練されたトランスフォーマーモデルと異なる訓練目標を用いて広範囲に実験を行い、他の目的である、例えば、シーケンス・ツー・シーケンス・モデリング、プレフィックス言語モデリングは階層的な一般化に至らなかったが、言語モデリングの目的で訓練されたモデルは、階層的に一般化するために一貫して学習された。 次に、言語モデリングの目的である階層構造を符号化するトランスフォーマーがどのように訓練されたかを研究するために、プルーニング実験を行う。 刈り取られると、一般化挙動が異なるモデル(階層構造と線形順序に対応するサブネット)の中にサブネットの結合が存在することが分かる。 線形一般化を示す正規文法と比較して、変換器がデータセット上で階層的に一般化するか否かと、そのデータセットの最も単純な説明が階層文法によって提供されるかどうかの相関関係を確立する。

Transformers trained on natural language data have been shown to learn its hierarchical structure and generalize to sentences with unseen syntactic structures without explicitly encoding any structural bias. In this work, we investigate sources of inductive bias in transformer models and their training that could cause such generalization behavior to emerge. We extensively experiment with transformer models trained on multiple synthetic datasets and with different training objectives and show that while other objectives e.g. sequence-to-sequence modeling, prefix language modeling, often failed to lead to hierarchical generalization, models trained with the language modeling objective consistently learned to generalize hierarchically. We then conduct pruning experiments to study how transformers trained with the language modeling objective encode hierarchical structure. When pruned, we find joint existence of subnetworks within the model with different generalization behaviors (subnetworks corresponding to hierarchical structure and linear order). Finally, we take a Bayesian perspective to further uncover transformers' preference for hierarchical generalization: We establish a correlation between whether transformers generalize hierarchically on a dataset and whether the simplest explanation of that dataset is provided by a hierarchical grammar compared to regular grammars exhibiting linear generalization.
翻訳日:2024-06-04 15:08:25 公開日:2024-05-31
# AI駆動の自律兵器は、地政学的不安定と危険なAI研究を危険にさらす

AI-Powered Autonomous Weapons Risk Geopolitical Instability and Threaten AI Research ( http://arxiv.org/abs/2405.01859v2 )

ライセンス: Link先を確認
Riley Simmons-Edler, Ryan Badman, Shayne Longpre, Kanaka Rajan, (参考訳) 自律兵器システム(AWS)開発における機械学習(ML)の最近の採用は、地政学的安定性とAI研究におけるアイデアの自由交換に深刻なリスクをもたらす。 この話題は、超知能人工知能(AGI)によって引き起こされるリスクと比較して、最近はほとんど注目されていないが、技術開発過程に関する仮定は少なく、そのため近い将来の課題である。 MLはすでに、多くの戦場で、人間の兵士のためのAWSの代替を可能にしている。 対外敵の場合には、より広い戦力へのエスカレーションを危険にさらす「低強度」紛争の可能性が高まる。 非農民の敵の場合、攻撃の戦争に対する国内的打撃を減少させる。 この効果は、民間人の犠牲者のリスクなど、軍事AIの使用に関する他の倫理的問題によらず発生し、超人的AI能力を必要としない。 さらに、AWSの軍事的価値は、AIによる軍備競争の投機と、AI研究に対する国家安全保障上の制限の誤った適用を提起する。 本研究の目的は,軍事技術における完全ないし完全に近い自律性によって引き起こされる近い将来のリスクに対する,一般およびML研究者の意識を高めることであり,これらのリスクを軽減するための規制提案を提供する。 私たちは、グローバルな安定性とAI研究に対するネガティブな影響を避けるため、特にAIポリシの専門家と防衛AIコミュニティに、透明性とAWSの開発とデプロイメントに注意を払うように呼びかけています。

The recent embrace of machine learning (ML) in the development of autonomous weapons systems (AWS) creates serious risks to geopolitical stability and the free exchange of ideas in AI research. This topic has received comparatively little attention of late compared to risks stemming from superintelligent artificial general intelligence (AGI), but requires fewer assumptions about the course of technological development and is thus a nearer-future issue. ML is already enabling the substitution of AWS for human soldiers in many battlefield roles, reducing the upfront human cost, and thus political cost, of waging offensive war. In the case of peer adversaries, this increases the likelihood of "low intensity" conflicts which risk escalation to broader warfare. In the case of non-peer adversaries, it reduces the domestic blowback to wars of aggression. This effect can occur regardless of other ethical issues around the use of military AI such as the risk of civilian casualties, and does not require any superhuman AI capabilities. Further, the military value of AWS raises the specter of an AI-powered arms race and the misguided imposition of national security restrictions on AI research. Our goal in this paper is to raise awareness among the public and ML researchers on the near-future risks posed by full or near-full autonomy in military technology, and we provide regulatory suggestions to mitigate these risks. We call upon AI policy experts and the defense AI community in particular to embrace transparency and caution in their development and deployment of AWS to avoid the negative effects on global stability and AI research that we highlight here.
翻訳日:2024-06-04 14:58:30 公開日:2024-05-31
# TENNs-PLEIADES:直交多項式を用いたテンポラルカーネルの構築

TENNs-PLEIADES: Building Temporal Kernels with Orthogonal Polynomials ( http://arxiv.org/abs/2405.12179v3 )

ライセンス: Link先を確認
Yan Ru Pei, Olivier Coenen, (参考訳) TENN(Temporal Neural Networks)アーキテクチャに属するPLEIADES(PoLynomial Expansion In Adaptive Distributed Event-based Systems)と呼ばれるニューラルネットワークを導入する。 我々は、これらのネットワークをイベントベースのデータで相互接続して、オンラインの時空間分類と検出を低レイテンシで行うことに重点を置いている。 構造化時間カーネルとイベントベースデータを使用することで、さらなる微調整をすることなく、ネットワークの離散化ステップサイズとともにデータのサンプルレートを変更できる。 我々は3つのイベントベースのベンチマークを実験し、メモリと計算コストを大幅に削減した大きなマージンで3つすべてに対して最先端の結果を得た。 達成しました。 1) DVS128ハンドジェスチャー認識データセット上の192Kパラメータによる99.59%の精度、および小さな出力フィルタによる100%の精度。 2)AIS2024眼球追跡課題における277Kパラメータによる99.58%の検査精度,及び 3) ProPHESEE 1 Megapixel Automotive Detection Datasetに576kパラメータを持つ0.556mAP。

We introduce a neural network named PLEIADES (PoLynomial Expansion In Adaptive Distributed Event-based Systems), belonging to the TENNs (Temporal Neural Networks) architecture. We focus on interfacing these networks with event-based data to perform online spatiotemporal classification and detection with low latency. By virtue of using structured temporal kernels and event-based data, we have the freedom to vary the sample rate of the data along with the discretization step-size of the network without additional finetuning. We experimented with three event-based benchmarks and obtained state-of-the-art results on all three by large margins with significantly smaller memory and compute costs. We achieved: 1) 99.59% accuracy with 192K parameters on the DVS128 hand gesture recognition dataset and 100% with a small additional output filter; 2) 99.58% test accuracy with 277K parameters on the AIS 2024 eye tracking challenge; and 3) 0.556 mAP with 576k parameters on the PROPHESEE 1 Megapixel Automotive Detection Dataset.
翻訳日:2024-06-04 14:29:15 公開日:2024-05-31
# 翻訳品質測定のマルチランジ理論:MQMスコアリングモデルと統計的品質制御

The Multi-Range Theory of Translation Quality Measurement: MQM scoring models and Statistical Quality Control ( http://arxiv.org/abs/2405.16969v3 )

ライセンス: Link先を確認
Arle Lommel, Serge Gladkoff, Alan Melby, Sue Ellen Wright, Ingemar Strandvik, Katerina Gasova, Angelika Vaasa, Andy Benzo, Romina Marazzato Sparano, Monica Foresi, Johani Innis, Lifeng Han, Goran Nenadic, (参考訳) 2024年は、分析翻訳品質評価のためのMultidimensional Quality Metrics(MQM)フレームワークの10周年である。 MQMエラー型は翻訳とローカライゼーション産業の実践者によって広く使われ、多くの派生プロジェクトの基盤となっている。 毎年開催される機械翻訳会議(WMT)は、MQMエラータイプロジを用いた人的および自動翻訳品質評価のタスクを共有した。 計量は2つの柱の上にあり、エラーのタイプロジーとスコアリングモデルである。 スコアリングモデルは、アノテーションデータから品質スコアを算出し、エラータイプと重大度数を数値スコアに変換して、コンテンツが仕様を満たしているかどうかを判断する。 以前は、生のスコアリングモデルのみが発表されていた。 今年4月、MQM評議会はリニア・キャリブレーション・スコーリング・モデル(Linear Calibrated Scoring Model)を発表し、非線形・スコーリング・モデル(Non-Linear Scoring Model)も発表した。 本稿では,最新のMQM開発について詳述し,3つのサンプルサイズ範囲にわたる翻訳品質測定への普遍的アプローチを示す。 また、統計品質制御が、単一の文から始まる非常に小さなサンプルサイズに使用されるべき理由も説明している。

The year 2024 marks the 10th anniversary of the Multidimensional Quality Metrics (MQM) framework for analytic translation quality evaluation. The MQM error typology has been widely used by practitioners in the translation and localization industry and has served as the basis for many derivative projects. The annual Conference on Machine Translation (WMT) shared tasks on both human and automatic translation quality evaluations used the MQM error typology. The metric stands on two pillars: error typology and the scoring model. The scoring model calculates the quality score from annotation data, detailing how to convert error type and severity counts into numeric scores to determine if the content meets specifications. Previously, only the raw scoring model had been published. This April, the MQM Council published the Linear Calibrated Scoring Model, officially presented herein, along with the Non-Linear Scoring Model, which had not been published before. This paper details the latest MQM developments and presents a universal approach to translation quality measurement across three sample size ranges. It also explains why Statistical Quality Control should be used for very small sample sizes, starting from a single sentence.
翻訳日:2024-06-04 14:09:37 公開日:2024-05-31
# 共通コア状態標準とNAEP項目仕様のNLP横断歩道

An NLP Crosswalk Between the Common Core State Standards and NAEP Item Specifications ( http://arxiv.org/abs/2405.17284v2 )

ライセンス: Link先を確認
Gregory Camilli, (参考訳) 自然言語処理(NLP)は、教育評価の分野で急速に普及している。 本稿では,項目仕様とコンテンツ標準の横断歩道を確立する際に,主題の専門家を支援するためのNLPベースの手順について述べる。 本稿では,文章やテキストの埋め込みベクトルに基づく多変量類似性(multivariate similarity)の提案と実証により,最近の研究を拡張した。 特に、各コンテンツ標準と複数のアイテム仕様との整合性を確立するためのハイブリッド回帰手順が示される。 この手順は、数学のCCSS(Common Core State Standards)と、2026年の国家教育進歩評価(National Assessment of Educational Progress、NAEP)の項目仕様との一致を評価するために使用される。

Natural language processing (NLP) is rapidly developing for applications in educational assessment. In this paper, I describe an NLP-based procedure that can be used to support subject matter experts in establishing a crosswalk between item specifications and content standards. This paper extends recent work by proposing and demonstrating the use of multivariate similarity based on embedding vectors for sentences or texts. In particular, a hybrid regression procedure is demonstrated for establishing the match of each content standard to multiple item specifications. The procedure is used to evaluate the match of the Common Core State Standards (CCSS) for mathematics at grade 4 to the corresponding item specifications for the 2026 National Assessment of Educational Progress (NAEP).
翻訳日:2024-06-04 13:59:47 公開日:2024-05-31
# ブロードバンド励起と再焦点のためのEPRパルスの最適化

Optimizing EPR pulses for broadband excitation and refocusing ( http://arxiv.org/abs/2405.20943v1 )

ライセンス: Link先を確認
Eric R. Lowe, Stefan Stoll, J. P. Kestner, (参考訳) 本稿では,ハーンエコー振幅を最大化するブロードバンドパルス形状を数値的に最適化する。 パルスはニューラルネットワーク(NN)、非線形振幅制限フーリエ級数(FS)、離散時系列(DT)としてパラメータ化される。 これらは、従来の双曲性セカント(HS)パルス形状の最適化された選択と比較される。 パワー増幅器の非線形性やマイクロ波共振器の伝達機能による現実的な形状歪みとして、電力制約を含む。 NN,FS,DTのパラメータ化は同等に動作し、最高のHSパルスよりも改善され、多くの等価な最適解が含まれており、将来の設計にさらなる制約や最適化の目標を含む柔軟性を示唆している。

In this paper, we numerically optimize broadband pulse shapes that maximize Hahn echo amplitudes. Pulses are parameterized as neural networks (NN), nonlinear amplitude limited Fourier series (FS), and discrete time series (DT). These are compared to an optimized choice of the conventional hyperbolic secant (HS) pulse shape. A power constraint is included, as are realistic shape distortions due to power amplifier nonlinearity and the transfer function of the microwave resonator. We find that the NN, FS, and DT parameterizations perform equivalently, offer improvements over the best HS pulses, and contain a large number of equivalent optimal solutions, implying the flexibility to include further constraints or optimization goals in future designs.
翻訳日:2024-06-04 13:50:03 公開日:2024-05-31
# 機械学習は自然科学にとって良いのか悪いのか?

Is machine learning good or bad for the natural sciences? ( http://arxiv.org/abs/2405.18095v2 )

ライセンス: Link先を確認
David W. Hogg, Soledad Villar, (参考訳) 機械学習(ML)メソッドは、すべての科学に大きく影響しています。 しかし、MLには強力なオントロジー(データのみが存在する)と強力な認識論(モデルが保持されたトレーニングデータでうまく機能していると判断される)がある。 これらの哲学は、標準的な実践と自然科学における重要な哲学の両方と強く対立している。 ここでは、オントロジーと認識学が貴重である自然科学におけるMLのいくつかの場所を特定する。 例えば、前景や背景、楽器の校正パラメータといった共同創設者の影響を表現するために、表現力のある機械学習モデルが因果推論で使用される場合、モデルのキャパシティとMLの緩やかな哲学は、結果をより信頼できるものにします。 また、MLの導入が強い、望ましくない統計バイアスをもたらす状況があることも示している。 例えば、MLモデルを用いて物理(または第一原理)シミュレーションをエミュレートすると、検証バイアスが増幅される。 別の例として、データセットのラベル付けに表現的回帰を用いる場合、制御不能なバイアスを考慮せずに下流のジョイントやアンサンブル分析では、これらのラベルは使用できない。 このタイトルの問題は、すべての自然科学から求められている。つまり、我々は科学コミュニティに対して、その分野におけるMLの役割と価値について、一歩後退するよう呼びかけている。

Machine learning (ML) methods are having a huge impact across all of the sciences. However, ML has a strong ontology - in which only the data exist - and a strong epistemology - in which a model is considered good if it performs well on held-out training data. These philosophies are in strong conflict with both standard practices and key philosophies in the natural sciences. Here we identify some locations for ML in the natural sciences at which the ontology and epistemology are valuable. For example, when an expressive machine learning model is used in a causal inference to represent the effects of confounders, such as foregrounds, backgrounds, or instrument calibration parameters, the model capacity and loose philosophy of ML can make the results more trustworthy. We also show that there are contexts in which the introduction of ML introduces strong, unwanted statistical biases. For one, when ML models are used to emulate physical (or first-principles) simulations, they amplify confirmation biases. For another, when expressive regressions are used to label datasets, those labels cannot be used in downstream joint or ensemble analyses without taking on uncontrolled biases. The question in the title is being asked of all of the natural sciences; that is, we are calling on the scientific communities to take a step back and consider the role and value of ML in their fields; the (partial) answers we give here come from the particular perspective of physics.
翻訳日:2024-06-04 11:33:55 公開日:2024-05-31
# ML-QLS:マルチレベル量子レイアウト合成

ML-QLS: Multilevel Quantum Layout Synthesis ( http://arxiv.org/abs/2405.18371v2 )

ライセンス: Link先を確認
Wan-Hsuan Lin, Jason Cong, (参考訳) 量子レイアウト合成(QLS)は、物理量子デバイス上での量子回路実行の最適化において重要な役割を果たす。 量子コンピュータが数百の量子ビットを持つ時代に入ると、最適アプローチによるスケーラビリティの問題と、グローバル最適化の欠如によるヒューリスティック手法の性能低下に直面します。 そこで本研究では,VLSI設計における大規模問題の解決に有効な手法であるマルチレベルフレームワークを用いたヒューリスティック手法の解法を改良したハイブリッド設計を提案する。 本稿では,新しいコスト関数とクラスタリング戦略を統合したスケーラブルな改善操作を備えた,最初のマルチレベル量子レイアウトツールであるML-QLSを提案する。 我々のクラスタリングは、量子回路やデバイスに対する適切な問題近似を生成するための貴重な洞察を提供する。 実験の結果,ML-QLSは数百の量子ビットを含む問題にスケールアップでき,大規模回路用ヒューリスティックQLSツールよりも優れた52%の性能向上を実現し,量子アプリケーションにおけるマルチレベルフレームワークの有効性を裏付けることがわかった。

Quantum Layout Synthesis (QLS) plays a crucial role in optimizing quantum circuit execution on physical quantum devices. As we enter the era where quantum computers have hundreds of qubits, we are faced with scalability issues using optimal approaches and degrading heuristic methods' performance due to the lack of global optimization. To this end, we introduce a hybrid design that obtains the much improved solution for the heuristic method utilizing the multilevel framework, which is an effective methodology to solve large-scale problems in VLSI design. In this paper, we present ML-QLS, the first multilevel quantum layout tool with a scalable refinement operation integrated with novel cost functions and clustering strategies. Our clustering provides valuable insights into generating a proper problem approximation for quantum circuits and devices. Our experimental results demonstrate that ML-QLS can scale up to problems involving hundreds of qubits and achieve a remarkable 52% performance improvement over leading heuristic QLS tools for large circuits, which underscores the effectiveness of multilevel frameworks in quantum applications.
翻訳日:2024-06-04 11:33:55 公開日:2024-05-31
# 拡散モデルの保守的微調整によるブリッジモデルに基づく最適化と生成モデル

Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models ( http://arxiv.org/abs/2405.19673v2 )

ライセンス: Link先を確認
Masatoshi Uehara, Yulai Zhao, Ehsan Hajiramezanali, Gabriele Scalia, Gökcen Eraslan, Avantika Lal, Sergey Levine, Tommaso Biancalani, (参考訳) DNA/タンパク質配列設計のようなAI駆動設計問題は通常、2つの角度から取り組まれる: 生成モデリングは、実現可能な設計空間(例えば、自然画像や生物学的配列)を効率的にキャプチャし、モデルベースの最適化は、外挿に報酬モデルを利用する。 両手法の強みを組み合わせるために,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を採用する。 以前の作業では同様の方法が検討されているが、それらは主に、正確な報酬モデルにアクセス可能なシナリオに焦点を当てている。 対照的に、報酬モデルが未知のオフライン設定に集中しており、科学領域における一般的なシナリオである静的オフラインデータセットから学ぶ必要がある。 オフラインのシナリオでは、既存のアプローチは配布外領域の報酬モデルによって誤解される可能性があるため、過度な最適化に悩まされる傾向がある。 そこで本研究では,オフラインデータ配信以外のペナル化を含む,保守的な報酬モデルの最適化により,保守的な微調整手法であるBRAIDを導入する。 実験的および理論的解析を通じて,本手法がオフラインデータにおいて最良の設計を上回り,事前学習した拡散モデルによる不正な設計の発生を回避しつつ,報酬モデルの補間能力を活用できることを実証する。

AI-driven design problems, such as DNA/protein sequence design, are commonly tackled from two angles: generative modeling, which efficiently captures the feasible design space (e.g., natural images or biological sequences), and model-based optimization, which utilizes reward models for extrapolation. To combine the strengths of both approaches, we adopt a hybrid method that fine-tunes cutting-edge diffusion models by optimizing reward models through RL. Although prior work has explored similar avenues, they primarily focus on scenarios where accurate reward models are accessible. In contrast, we concentrate on an offline setting where a reward model is unknown, and we must learn from static offline datasets, a common scenario in scientific domains. In offline scenarios, existing approaches tend to suffer from overoptimization, as they may be misled by the reward model in out-of-distribution regions. To address this, we introduce a conservative fine-tuning approach, BRAID, by optimizing a conservative reward model, which includes additional penalization outside of offline data distributions. Through empirical and theoretical analysis, we demonstrate the capability of our approach to outperform the best designs in offline data, leveraging the extrapolation capabilities of reward models while avoiding the generation of invalid designs through pre-trained diffusion models.
翻訳日:2024-06-04 11:33:55 公開日:2024-05-31
# オフライン強化学習のための信頼領域を作成する拡散政策

Diffusion Policies creating a Trust Region for Offline Reinforcement Learning ( http://arxiv.org/abs/2405.19690v2 )

ライセンス: Link先を確認
Tianyu Chen, Zhendong Wang, Mingyuan Zhou, (参考訳) オフライン強化学習(RL)は、コンパイル済みデータセットを活用して最適なポリシをトレーニングする。 Diffusion Q-Learning (DQL)は、拡散モデルを強力で表現力豊かなポリシークラスとして導入し、オフラインRLの性能を大幅に向上させる。 しかし、行動を生成するための反復的偏執サンプリングに依存しているため、トレーニングと推論の両方が遅くなる。 拡散-QLを加速しようとする最近の試みはいくつかあるが、トレーニングおよび/または推論速度の改善は、しばしば性能の低下をもたらす。 本稿では,Diffusion Trusted Q-Learning (DTQL, Diffusion Trusted Q-Learning) という2つのポリシーアプローチを導入する。 我々は新たに導入された拡散信頼領域の喪失によって2つの警察を橋渡しする。 拡散政策は表現性を維持し、信頼領域の損失は1段階の政策を自由に探索し、拡散政策で定義された領域内でモードを求めるよう指示する。 DTQLは、トレーニングと推論の両方において反復的なデノレーションサンプリングの必要性を排除し、計算的に極めて効率的である。 2次元バンディットシナリオとジムタスクにおけるKLを用いた蒸留法の有効性とアルゴリズム特性について検討した。 次に、DTQLは、D4RLベンチマークタスクの大部分において、他のメソッドよりも優れているだけでなく、トレーニングや推論速度の効率性も証明できることを示した。 PyTorchの実装はhttps://github.com/TianyuCodings/Diffusion_Trusted_Q_Learningで公開されている。

Offline reinforcement learning (RL) leverages pre-collected datasets to train optimal policies. Diffusion Q-Learning (DQL), introducing diffusion models as a powerful and expressive policy class, significantly boosts the performance of offline RL. However, its reliance on iterative denoising sampling to generate actions slows down both training and inference. While several recent attempts have tried to accelerate diffusion-QL, the improvement in training and/or inference speed often results in degraded performance. In this paper, we introduce a dual policy approach, Diffusion Trusted Q-Learning (DTQL), which comprises a diffusion policy for pure behavior cloning and a practical one-step policy. We bridge the two polices by a newly introduced diffusion trust region loss. The diffusion policy maintains expressiveness, while the trust region loss directs the one-step policy to explore freely and seek modes within the region defined by the diffusion policy. DTQL eliminates the need for iterative denoising sampling during both training and inference, making it remarkably computationally efficient. We evaluate its effectiveness and algorithmic characteristics against popular Kullback-Leibler (KL) based distillation methods in 2D bandit scenarios and gym tasks. We then show that DTQL could not only outperform other methods on the majority of the D4RL benchmark tasks but also demonstrate efficiency in training and inference speeds. The PyTorch implementation is available at https://github.com/TianyuCodings/Diffusion_Trusted_Q_Learning.
翻訳日:2024-06-04 11:33:55 公開日:2024-05-31
# 動的ネットワーク・プルーニングのための自己教師付き特徴ゲート結合

Self-supervised Feature-Gate Coupling for Dynamic Network Pruning ( http://arxiv.org/abs/2111.14302v2 )

ライセンス: Link先を確認
Mengnan Shi, Chang Liu, Jianbin Jiao, Qixiang Ye, (参考訳) ゲーティングモジュールは、機能表現を維持しながら、ディープニューラルネットワークのリアルタイム計算コストを削減するために、動的ネットワークプルーニングにおいて広く研究されている。 かなりの進歩にもかかわらず、既存の手法は特徴分布とゲート分布の整合性を無視し続けており、ゲート特徴の歪みにつながる可能性がある。 本稿では,特徴とゲートの分布の整合化を目的とした特徴ゲート結合(FGC)手法を提案する。 FGCはプラグ・アンド・プレイモジュールであり、反復的な自己管理方式で2つのステップが実行される。 最初のステップでは、FGCは特徴空間における$k$-Nearest Neighbor法を用いて、自己監督信号として扱われるインスタンス近傍の関係を探索する。 第2のステップでは、FGCは対照的な学習を利用して、生成した自己超越的な信号でゲーティングモジュールを正規化し、特徴空間とゲート空間内のインスタンス近傍の関係を整列させる。 実験結果から,FGC法は高いマージンでベースライン手法を改良し,精度・計算トレードオフが向上した。 コードは公開されている。

Gating modules have been widely explored in dynamic network pruning to reduce the run-time computational cost of deep neural networks while preserving the representation of features. Despite the substantial progress, existing methods remain ignoring the consistency between feature and gate distributions, which may lead to distortion of gated features. In this paper, we propose a feature-gate coupling (FGC) approach aiming to align distributions of features and gates. FGC is a plug-and-play module, which consists of two steps carried out in an iterative self-supervised manner. In the first step, FGC utilizes the $k$-Nearest Neighbor method in the feature space to explore instance neighborhood relationships, which are treated as self-supervisory signals. In the second step, FGC exploits contrastive learning to regularize gating modules with generated self-supervisory signals, leading to the alignment of instance neighborhood relationships within the feature and gate spaces. Experimental results validate that the proposed FGC method improves the baseline approach with significant margins, outperforming the state-of-the-arts with better accuracy-computation trade-off. Code is publicly available.
翻訳日:2024-06-04 02:36:04 公開日:2024-05-31
# マーケティング感度の相関ダイナミクス

Correlated Dynamics in Marketing Sensitivities ( http://arxiv.org/abs/2104.11702v2 )

ライセンス: Link先を確認
Ryan Dew, Yuhao Fan, (参考訳) 個々の顧客の価格、プロモーション、ブランド、その他のマーケティングミックス要素に対する感受性を理解することは、幅広いマーケティング問題の根底にある。 この問題の重要かつ未検討の側面は、時間とともに変化し、個人によって異なるこれらの感覚の動的な性質である。 以前の研究は、製品カテゴリ内でそのような動的不均一性を取得する方法を開発したが、カテゴリー間での相関力学の可能性を無視した。 本研究では,階層的動的因子モデルを用いて,ベイズ非パラメトリックガウス過程から推定される共通カテゴリーの動的潜在因子によって個々の選好パラメータが影響されるような相関的ダイナミクスを捉える枠組みを提案する。 我々のモデルは食料品の購入データに適用され、驚くほどのダイナミックな不均一性は、わずかにグローバルなトレンドによって説明できる。 また、消費者の感性がカテゴリーによってどのように進化していくかというパターンを特徴付けます。 管理面では、提案フレームワークは、カテゴリ間データを活用することにより予測精度を高めるだけでなく、価格の弾力性などの興味の量をより正確に見積もることができる。

Understanding individual customers' sensitivities to prices, promotions, brands, and other marketing mix elements is fundamental to a wide swath of marketing problems. An important but understudied aspect of this problem is the dynamic nature of these sensitivities, which change over time and vary across individuals. Prior work has developed methods for capturing such dynamic heterogeneity within product categories, but neglected the possibility of correlated dynamics across categories. In this work, we introduce a framework to capture such correlated dynamics using a hierarchical dynamic factor model, where individual preference parameters are influenced by common cross-category dynamic latent factors, estimated through Bayesian nonparametric Gaussian processes. We apply our model to grocery purchase data, and find that a surprising degree of dynamic heterogeneity can be accounted for by only a few global trends. We also characterize the patterns in how consumers' sensitivities evolve across categories. Managerially, the proposed framework not only enhances predictive accuracy by leveraging cross-category data, but enables more precise estimation of quantities of interest, like price elasticity.
翻訳日:2024-06-04 00:49:36 公開日:2024-05-31
# 未知の未知情報を用いた探索的機械学習

Exploratory Machine Learning with Unknown Unknowns ( http://arxiv.org/abs/2002.01605v2 )

ライセンス: Link先を確認
Peng Zhao, Jia-Wei Shan, Yu-Jie Zhang, Zhi-Hua Zhou, (参考訳) 従来の教師付き学習では、トレーニングデータセットには、既知のラベルセットから地味なラベルが与えられ、学習されたモデルは、未知のインスタンスを既知のラベルに分類する。 本稿では,他のラベルと誤認識されたトレーニングデータに未知のクラスが存在するという新たな問題設定について検討する。 トレーニングデータセットが不十分な特徴情報のために不完全な認識されたラベル空間によって酷評されているという事実から、未知の未知が原因と考えられる。 そこで本研究では,潜在的な隠れクラスを発見するために,機能空間を積極的に拡張することにより,学習データを調べ,調査する探索機械学習を提案する。 提案手法は, 拒絶モデル, 特徴探索, モデルカスケードを含む3つの成分からなる。 我々は,その優位性を正当化する理論解析を行い,合成データセットと実データセットの両方の有効性を検証した。

In conventional supervised learning, a training dataset is given with ground-truth labels from a known label set, and the learned model will classify unseen instances to known labels. This paper studies a new problem setting in which there are unknown classes in the training data misperceived as other labels, and thus their existence appears unknown from the given supervision. We attribute the unknown unknowns to the fact that the training dataset is badly advised by the incompletely perceived label space due to the insufficient feature information. To this end, we propose the exploratory machine learning, which examines and investigates training data by actively augmenting the feature space to discover potentially hidden classes. Our method consists of three ingredients including rejection model, feature exploration, and model cascade. We provide theoretical analysis to justify its superiority, and validate the effectiveness on both synthetic and real datasets.
翻訳日:2024-06-03 21:09:19 公開日:2024-05-31
# CoDeGAN: ジェネレーティブ・アダクティブ・アダクティブ・アダクティブ・ネットワークのためのコントラスト・ディハンジメント

CoDeGAN: Contrastive Disentanglement for Generative Adversarial Network ( http://arxiv.org/abs/2103.03636v2 )

ライセンス: Link先を確認
Jiangwei Zhao, Zejia Liu, Xiaohan Guo, Lili Pan, (参考訳) 解釈可能な機械学習において重要な関心事であるディスタングルメントもまた、コンピュータビジョンコミュニティから大きな注目を集めている。 InfoGANやその変種など、既存のGANベースのクラス非絡み合い(unsupervised)アプローチの多くは、生成した画像とその潜在コード間の相互情報(MI)を最大化することを目的としている。 しかし、この焦点は、同じ潜在クラスファクタで提示された場合、ネットワークが非常に類似した画像を生成する傾向があるため、モードの崩壊やモードの低下につながる可能性がある。 この問題を緩和するために、画像領域から特徴領域への歪みの類似性制約を緩和する「texttt{CoDeGAN} (Contrastive Disentanglement for Generative Adversarial Networks)」を提案する。 この修正により、GANトレーニングの安定性が向上するだけでなく、不整合性も向上する。 さらに,自己教師付き事前学習をCoDeGANに統合し,意味表現を学習し,教師なしの絡み合いを著しく促進する。 複数のベンチマークにおける最先端手法よりも,本手法の方が優れていることを示す。 コードはhttps://github.com/learninginvision/CoDeGANで公開されている。

Disentanglement, a critical concern in interpretable machine learning, has also garnered significant attention from the computer vision community. Many existing GAN-based class disentanglement (unsupervised) approaches, such as InfoGAN and its variants, primarily aim to maximize the mutual information (MI) between the generated image and its latent codes. However, this focus may lead to a tendency for the network to generate highly similar images when presented with the same latent class factor, potentially resulting in mode collapse or mode dropping. To alleviate this problem, we propose \texttt{CoDeGAN} (Contrastive Disentanglement for Generative Adversarial Networks), where we relax similarity constraints for disentanglement from the image domain to the feature domain. This modification not only enhances the stability of GAN training but also improves their disentangling capabilities. Moreover, we integrate self-supervised pre-training into CoDeGAN to learn semantic representations, significantly facilitating unsupervised disentanglement. Extensive experimental results demonstrate the superiority of our method over state-of-the-art approaches across multiple benchmarks. The code is available at https://github.com/learninginvision/CoDeGAN.
翻訳日:2024-06-03 21:09:19 公開日:2024-05-31
# 転帰学習の一般的な直観は勝ち負けか--リニア回帰のケーススタディ

The Common Intuition to Transfer Learning Can Win or Lose: Case Studies for Linear Regression ( http://arxiv.org/abs/2103.05621v4 )

ライセンス: Link先を確認
Yehuda Dar, Daniel LeJeune, Richard G. Baraniuk, (参考訳) データサンプルよりも多くの学習パラメータが存在する過パラメータ設定を含む、ソースからターゲットの線形回帰タスクへの基本的な伝達学習プロセスについて検討する。 目標タスク学習は、そのトレーニングデータと、ソースタスクのために予め計算されたパラメータを用いて対処される。 本稿では,学習対象パラメータと学習対象パラメータとの距離を正規化した線形回帰最適化として,対象タスクへの伝達学習アプローチを定義する。 我々は,移動学習手法の一般化性能を解析的に評価し,線形回帰に対する最小L2-ノルム解の二重降下現象における一般化誤差のピークを解く能力を示した。 さらに、十分関連するタスクに対して、真のパラメータベクトルが等方的ガウス分布に適合する場合でも、最適に調整された転送学習アプローチが最適に調整されたリッジ回帰法より優れていることを示す。 すなわち、移動学習が独立目標タスクの最小平均二乗誤差(MMSE)解に勝ることを示す。 提案手法は,提案手法を目標タスクに拡張し,改良されたMMSEソリューションを実現するための伝達学習の能力を強調した。 伝達学習設定に対する線形MMSE解を定式化し、伝達学習の共通設計哲学との主な相違点を指摘する。

We study a fundamental transfer learning process from source to target linear regression tasks, including overparameterized settings where there are more learned parameters than data samples. The target task learning is addressed by using its training data together with the parameters previously computed for the source task. We define a transfer learning approach to the target task as a linear regression optimization with a regularization on the distance between the to-be-learned target parameters and the already-learned source parameters. We analytically characterize the generalization performance of our transfer learning approach and demonstrate its ability to resolve the peak in generalization errors in double descent phenomena of the minimum L2-norm solution to linear regression. Moreover, we show that for sufficiently related tasks, the optimally tuned transfer learning approach can outperform the optimally tuned ridge regression method, even when the true parameter vector conforms to an isotropic Gaussian prior distribution. Namely, we demonstrate that transfer learning can beat the minimum mean square error (MMSE) solution of the independent target task. Our results emphasize the ability of transfer learning to extend the solution space to the target task and, by that, to have an improved MMSE solution. We formulate the linear MMSE solution to our transfer learning setting and point out its key differences from the common design philosophy to transfer learning.
翻訳日:2024-06-03 21:09:19 公開日:2024-05-31
# リフテッド動的ジャンクションツリーアルゴリズムの完全性と複雑さについて

On the Completeness and Complexity of the Lifted Dynamic Junction Tree Algorithm ( http://arxiv.org/abs/2110.09197v3 )

ライセンス: Link先を確認
Marcel Gehrke, (参考訳) 静的昇降推論アルゴリズムでは、完全性(すなわち、ドメインの昇降性)が広く研究されている。 しかし、今のところ時間的持ち上げ推論アルゴリズムのドメインリフト性は存在しない。 本稿では,このギャップを埋める。 より正確には、時間的持ち上げアルゴリズム(LDJT)の最初の完全性および複雑さの解析に貢献する。 時間的側面を効率的に扱うため、LDJTは条件付き独立性を使用して時間内に進行し、除去命令に制限を与える。 これらの制限がドメインのリフタビリティに影響を及ぼし、時間内に進行する特定のケースがFO12から除外されなければならないことを示す。 さらに, LDJTの複雑さに対して, 昇降幅が静的推論と比較して, 対応する木幅よりも小さい場合が多いことを証明した。

For static lifted inference algorithms, completeness, i.e., domain liftability, is extensively studied. However, so far no domain liftability results for temporal lifted inference algorithms exist. In this paper, we close this gap. More precisely, we contribute the first completeness and complexity analysis for a temporal lifted algorithm, the socalled lifted dynamic junction tree algorithm (LDJT), which is the only exact lifted temporal inference algorithm out there. To handle temporal aspects efficiently, LDJT uses conditional independences to proceed in time, leading to restrictions w.r.t. elimination orders. We show that these restrictions influence the domain liftability results and show that one particular case while proceeding in time, has to be excluded from FO12 . Additionally, for the complexity of LDJT, we prove that the lifted width is in even more cases smaller than the corresponding treewidth in comparison to static inference.
翻訳日:2024-06-03 21:09:19 公開日:2024-05-31
# SecureBoost+ : 大規模垂直フェデレーション学習のための高性能なグラディエントブースティングツリーフレームワーク

SecureBoost+ : A High Performance Gradient Boosting Tree Framework for Large Scale Vertical Federated Learning ( http://arxiv.org/abs/2110.10927v4 )

ライセンス: Link先を確認
Weijing Chen, Guoqiang Ma, Tao Fan, Yan Kang, Qian Xu, Qiang Yang, (参考訳) グラディエントブースティング決定木(GBDT)は、業界で広く使われているアンサンブルアルゴリズムである。 その縦型フェデレーション学習バージョンであるSecureBoostは、クロスサイロのプライバシ保存モデリングで使用される最も一般的なアルゴリズムの1つである。 近年のプライバシ計算の分野が発展するにつれて、大規模かつ高性能なフェデレーション学習の需要は、現実世界のアプリケーションで劇的に増大している。 本稿では,これらの要件を満たすために,SecureBoostを新規かつ改良したSecureBoost+を提案する。 SecureBoost+は、いくつかの暗号文計算最適化とエンジニアリング最適化を統合している。 実験の結果,SecureBoostと比較すると,Secureboost+は大規模かつ高次元のデータセットに対して顕著な性能向上を示した。 これは、効果的で効率的な大規模な垂直連邦学習を可能にする。

Gradient boosting decision tree (GBDT) is a widely used ensemble algorithm in the industry. Its vertical federated learning version, SecureBoost, is one of the most popular algorithms used in cross-silo privacy-preserving modeling. As the area of privacy computation thrives in recent years, demands for large-scale and high-performance federated learning have grown dramatically in real-world applications. In this paper, to fulfill these requirements, we propose SecureBoost+ that is both novel and improved from the prior work SecureBoost. SecureBoost+ integrates several ciphertext calculation optimizations and engineering optimizations. The experimental results demonstrate that Secureboost+ has significant performance improvements on large and high dimensional data sets compared to SecureBoost. It makes effective and efficient large-scale vertical federated learning possible.
翻訳日:2024-06-03 21:09:19 公開日:2024-05-31
# マルチホップ質問に対する回答

Multi-hop Question Answering ( http://arxiv.org/abs/2204.09140v2 )

ライセンス: Link先を確認
Vaibhav Mavi, Anubhav Jangra, Adam Jatowt, (参考訳) 質問回答(QA)の課題は、長い間大きな研究関心を集めてきた。 言語理解と知識検索タスクとの関連性は、単純な設定とともに、強力なAIシステムにおいてQAのタスクが不可欠である。 単純なQAタスクの最近の成功は、より複雑な設定に焦点を移した。 このうち、Multi-Hop QA(MHQA)は近年最も研究されているタスクの1つである。 広い意味で言えば、MHQAは、複数の情報を抽出して組み合わせ、複数の推論を行う自然言語の質問に答えるタスクである。 マルチホップの質問の例として、「アルゼンチンのPGAチャンピオンシップ記録保持者が世界中で何回優勝したか」がある。 質問に答えるには、「アルゼンチンのPGA選手権のレコード保持者は誰だ?」と「どのトーナメントが優勝したか」という2つの情報が必要である。 マルチホップ質問に回答し、マルチステップ推論を行う能力は、NLPシステムの実用性を大幅に向上させることができる。 その結果、高品質なデータセット、モデル、評価戦略が急増した。 多重ホップ(multiple hops)の概念はやや抽象的であり、結果として多元ホップ推論を必要とする様々なタスクが生じる。 これにより、異なるデータセットやモデルが互いに大きく異なり、分野の一般化と調査が困難になる。 我々は,MHQAタスクの汎用的かつ正式な定義を提供し,既存のMHQAフレームワークを整理し,まとめることを目指している。 MHQAデータセット構築のベストプラクティスについても概説する。 この本は、体系的で徹底的な紹介と、この非常に興味深い、そして非常に難しいタスクに対する既存の試みの構造化を提供する。

The task of Question Answering (QA) has attracted significant research interest for long. Its relevance to language understanding and knowledge retrieval tasks, along with the simple setting makes the task of QA crucial for strong AI systems. Recent success on simple QA tasks has shifted the focus to more complex settings. Among these, Multi-Hop QA (MHQA) is one of the most researched tasks over the recent years. In broad terms, MHQA is the task of answering natural language questions that involve extracting and combining multiple pieces of information and doing multiple steps of reasoning. An example of a multi-hop question would be "The Argentine PGA Championship record holder has won how many tournaments worldwide?". Answering the question would need two pieces of information: "Who is the record holder for Argentine PGA Championship tournaments?" and "How many tournaments did [Answer of Sub Q1] win?". The ability to answer multi-hop questions and perform multi step reasoning can significantly improve the utility of NLP systems. Consequently, the field has seen a surge with high quality datasets, models and evaluation strategies. The notion of 'multiple hops' is somewhat abstract which results in a large variety of tasks that require multi-hop reasoning. This leads to different datasets and models that differ significantly from each other and makes the field challenging to generalize and survey. We aim to provide a general and formal definition of the MHQA task, and organize and summarize existing MHQA frameworks. We also outline some best practices for building MHQA datasets. This book provides a systematic and thorough introduction as well as the structuring of the existing attempts to this highly interesting, yet quite challenging task.
翻訳日:2024-06-03 21:09:19 公開日:2024-05-31
# 確率的オンライン漁業市場:静的価格制限と適応的強化

Stochastic Online Fisher Markets: Static Pricing Limits and Adaptive Enhancements ( http://arxiv.org/abs/2205.00825v4 )

ライセンス: Link先を確認
Devansh Jalota, Yinyu Ye, (参考訳) 漁業市場は資源配分の最も基本的なモデルの一つである。 しかし、フィッシャー市場における均衡価格の計算問題は、通常、ユーザの予算とユーティリティ機能の完全な知識に依存し、全てのユーザが同時にいる静的市場においてトランザクションを行う必要がある。 これらの実践的考察により、民間で知られたユーティリティと予算パラメータを持つユーザが、流通から引き出された、連続して到着する、オンライン型のフィッシャーマーケットについて研究する。 この設定では、まず静的な価格アルゴリズムの制限について検討する。 一 後悔、即ち、オンラインアルゴリズムと完全な情報を持つ託宣者との間のアイゼンベルグ・ゲール計画の目的の最適性ギャップ (二 容量違反、すなわち、その能力に対する商品の過消費 静的な価格設定の限界を考えると、ユーザの予算とユーティリティパラメータの分布に関する知識を持つアルゴリズムと、ユーザ消費の過去の観測に基づいて価格を調整するアルゴリズム、すなわち、好みのフィードバックを明らかにし、性能保証を改善したアルゴリズムを適応的に設計する。 最後に,提案した選好アルゴリズムの性能をいくつかのベンチマークと比較するための数値実験を行った。

Fisher markets are one of the most fundamental models for resource allocation. However, the problem of computing equilibrium prices in Fisher markets typically relies on complete knowledge of users' budgets and utility functions and requires transactions to happen in a static market where all users are present simultaneously. Motivated by these practical considerations, we study an online variant of Fisher markets, wherein users with privately known utility and budget parameters, drawn i.i.d. from a distribution, arrive sequentially. In this setting, we first study the limitations of static pricing algorithms, which set uniform prices for all users, along two performance metrics: (i) regret, i.e., the optimality gap in the objective of the Eisenberg-Gale program between an online algorithm and an oracle with complete information, and (ii) capacity violations, i.e., the over-consumption of goods relative to their capacities. Given the limitations of static pricing, we design adaptive posted-pricing algorithms, one with knowledge of the distribution of users' budget and utility parameters and another that adjusts prices solely based on past observations of user consumption, i.e., revealed preference feedback, with improved performance guarantees. Finally, we present numerical experiments to compare our revealed preference algorithm's performance to several benchmarks.
翻訳日:2024-06-03 21:09:19 公開日:2024-05-31
# すべてのドメインの後ろにシフトがある:パノラマセマンティックセマンティックセマンティックセグメンテーションのための歪み認識型視覚変換器の適応

Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation ( http://arxiv.org/abs/2207.11860v5 )

ライセンス: Link先を確認
Jiaming Zhang, Kailun Yang, Hao Shi, Simon Reiß, Kunyu Peng, Chaoxiang Ma, Haodong Fu, Philip H. S. Torr, Kaiwei Wang, Rainer Stiefelhagen, (参考訳) 本稿では, パノラマ画像における画像歪みとオブジェクト変形, (2) 360{\deg} 画像における意味アノテーションの欠如という,2つの重要な課題により探索されていないパノラマ意味セグメンテーションに対処する。 まず, パノラマセマンティックセマンティックセグメンテーション用トランスフォーマー(Transformer for Panoramic Semantic Semantic Segmentation, Trans4PASS+)を提案する。 第2に、教師なしドメイン適応パノラマセグメンテーションのための擬似ラベル修正により、Mutual Prototypeal Adaptation(MPA)戦略を強化する。 第3に、Pinhole-to-Panoramic(Pin2Pan)適応とは別に、9,080パノラマ画像を備えた新しいデータセット(SynPASS)を作成し、360{\deg}イメージにおけるSyn2Real(Syn2Real)適応スキームを容易にする。 屋内および屋外のシナリオをカバーする大規模な実験を行い、それぞれがPin2PanとSyn2Realで調査された。 Trans4PASS+は4つのドメイン適応型パノラマセマンティックセマンティックセマンティックベンチマークで最先端のパフォーマンスを達成する。 コードはhttps://github.com/jamycheung/Trans4PASSで公開されている。

In this paper, we address panoramic semantic segmentation which is under-explored due to two critical challenges: (1) image distortions and object deformations on panoramas; (2) lack of semantic annotations in the 360{\deg} imagery. To tackle these problems, first, we propose the upgraded Transformer for Panoramic Semantic Segmentation, i.e., Trans4PASS+, equipped with Deformable Patch Embedding (DPE) and Deformable MLP (DMLPv2) modules for handling object deformations and image distortions whenever (before or after adaptation) and wherever (shallow or deep levels). Second, we enhance the Mutual Prototypical Adaptation (MPA) strategy via pseudo-label rectification for unsupervised domain adaptive panoramic segmentation. Third, aside from Pinhole-to-Panoramic (Pin2Pan) adaptation, we create a new dataset (SynPASS) with 9,080 panoramic images, facilitating Synthetic-to-Real (Syn2Real) adaptation scheme in 360{\deg} imagery. Extensive experiments are conducted, which cover indoor and outdoor scenarios, and each of them is investigated with Pin2Pan and Syn2Real regimens. Trans4PASS+ achieves state-of-the-art performances on four domain adaptive panoramic semantic segmentation benchmarks. Code is available at https://github.com/jamycheung/Trans4PASS.
翻訳日:2024-06-03 21:09:19 公開日:2024-05-31
# DNNトレーニングのための4ビット固定点算術の精度向上

Accuracy Booster: Enabling 4-bit Fixed-point Arithmetic for DNN Training ( http://arxiv.org/abs/2211.10737v4 )

ライセンス: Link先を確認
Simla Burcu Harma, Ayan Chakraborty, Nicholas Sperry, Babak Falsafi, Martin Jaggi, Yunho Oh, (参考訳) DNNモデルをトレーニングするコンピューティングリソースに対する前例のない需要は、最小の数値エンコーディングの探索に繋がった。 最近のSOTA(State-of-the-art)提案は、マルチレベルスケールの狭いビット幅の数値形式を提唱している。 本稿では,算術密度を最大化しつつ,トレーニング精度を維持する上で,単一レベルのスケーリングが十分であることを示す。 従来提案されていた8ビットトレーニング用シングルレベルスケールドフォーマットであるハイブリッドブロック浮動小数点(HBFP)を,最小化のための最適候補として同定した。 数学的ツールを用いてHBFP設計空間を大規模に探索し、様々なパラメータ間の相互作用を研究し、層やエポックをまたいでさらに小さなエンコーディングを行う機会を特定する。 本研究は,4ビットマンティッサをトレーニング中の算術演算の99%以上に使用し,最後のエポック層と第1層にのみ6ビットマンティッサを併用した混合マンティッサHBFP手法であるAccuracy Boosterを提案する。 本稿では,他のSOTAフォーマットの算術密度を少なくとも2.3倍に高めるとともに,4ビットトレーニングにおける最先端の精度を実現していることを示す。

The unprecedented demand for computing resources to train DNN models has led to a search for minimal numerical encoding. Recent state-of-the-art (SOTA) proposals advocate for multi-level scaled narrow bitwidth numerical formats. In this paper, we show that single-level scaling is sufficient to maintain training accuracy while maximizing arithmetic density. We identify a previously proposed single-level scaled format for 8-bit training, Hybrid Block Floating Point (HBFP), as the optimal candidate to minimize. We perform a full-scale exploration of the HBFP design space using mathematical tools to study the interplay among various parameters and identify opportunities for even smaller encodings across layers and epochs. Based on our findings, we propose Accuracy Booster, a mixed-mantissa HBFP technique that uses 4-bit mantissas for over 99% of all arithmetic operations in training and 6-bit mantissas only in the last epoch and first/last layers. We show Accuracy Booster enables increasing arithmetic density over all other SOTA formats by at least 2.3x while achieving state-of-the-art accuracies in 4-bit training.
翻訳日:2024-06-03 21:09:19 公開日:2024-05-31
# 複素ウェーブレットに基づくCNNからシフト不変双対モデルへ

From CNNs to Shift-Invariant Twin Models Based on Complex Wavelets ( http://arxiv.org/abs/2212.00394v3 )

ライセンス: Link先を確認
Hubert Leterme, Kévin Polisano, Valérie Perrier, Karteek Alahari, (参考訳) 本稿では,畳み込みニューラルネットワークにおけるシフト不変性と予測精度を向上させる新しい手法を提案する。 具体的には、「実数値畳み込み + max pooling」 (RMax) を「複素数値畳み込み + modulus」 (CMod) に置き換える。 我々のアプローチを正当化するために、CModとRMaxは、畳み込みカーネルがバンドパスで指向(Gaborライクなフィルタ)であるときに、同等の出力を生成すると主張している。 この文脈では、CMod は RMax の安定な代替品とみなすことができる。 この性質を強制するために、コンボリューションカーネルはそのようなガボル構造を採用することを制約する。 対応するアーキテクチャは、元の自由学習モデルの振る舞いを模倣するために、よく定義された数学的演算子を使用するため、数学的ツインと呼ばれる。 提案手法は,イメージネットとCIFAR-10の分類タスクにおいて,低域フィルタに基づく従来手法と比較して精度が高い。 いずれにせよ, 高周波の詳細保持に重点を置くアプローチは, シフト不変性と情報保存のバランスが良くなり, 性能が向上する。 さらに、並列処理よりも計算コストとメモリフットプリントが低く、実用的な実装には有望なソリューションである。

We propose a novel method to increase shift invariance and prediction accuracy in convolutional neural networks. Specifically, we replace the first-layer combination "real-valued convolutions + max pooling" (RMax) by "complex-valued convolutions + modulus" (CMod), which is stable to translations, or shifts. To justify our approach, we claim that CMod and RMax produce comparable outputs when the convolution kernel is band-pass and oriented (Gabor-like filter). In this context, CMod can therefore be considered as a stable alternative to RMax. To enforce this property, we constrain the convolution kernels to adopt such a Gabor-like structure. The corresponding architecture is called mathematical twin, because it employs a well-defined mathematical operator to mimic the behavior of the original, freely-trained model. Our approach achieves superior accuracy on ImageNet and CIFAR-10 classification tasks, compared to prior methods based on low-pass filtering. Arguably, our approach's emphasis on retaining high-frequency details contributes to a better balance between shift invariance and information preservation, resulting in improved performance. Furthermore, it has a lower computational cost and memory footprint than concurrent work, making it a promising solution for practical implementation.
翻訳日:2024-06-03 21:00:55 公開日:2024-05-31
# アクティブ推論と強化学習:部分観測可能性下での連続状態と行動空間の統一推論

Active Inference and Reinforcement Learning: A unified inference on continuous state and action spaces under partial observability ( http://arxiv.org/abs/2212.07946v3 )

ライセンス: Link先を確認
Parvin Malekzadeh, Konstantinos N. Plataniotis, (参考訳) 強化学習(Reinforcement Learning, RL)は、完全観測可能な環境下で、外部監督官が指定した報酬を最大化することを目的とした意思決定エージェントの開発において、大きな注目を集めている。 しかし、現実世界の多くの問題は、部分的に観測可能なマルコフ決定過程(POMDP)として定式化されている部分的な観測を含んでいる。 これまでの研究では、過去の行動や観測の記憶を取り入れたり、観測データから環境の本当の状態を推測することで、PMDPのRLに取り組みました。 しかし、観測データを時間をかけて集約することは連続空間では現実的ではない。 さらに、推論に基づくRLアプローチでは、報酬の最大化と推論状態の不確かさの無視にのみ焦点をあてるため、多くのサンプルをうまく動作させる必要があることが多い。 アクティブ推論(英: Active Inference、AIF)は、エージェントに期待自由エネルギー(EFE)と呼ばれる関数を最小化することで、選択アクションを指示するフレームワークである。 これにより、RLのように報酬最大化(探索的)な振る舞いと情報探索(探索的)な振る舞いが提供される。 AIFの探索的な振る舞いにもかかわらず、その用途はEFEに関連する計算上の問題のために離散空間に限られている。 本稿では,AIFとRLの理論的関係を確立する統一原理を提案し,これら2つのアプローチをシームレスに統合し,上記の制約を連続空間POMDP設定で克服する。 我々は、AIFを人工エージェントの設計に活用するための新しい視点を提供する理論分析により、この知見を裏付ける。 実験により,連続的な空間を部分的に観測可能なタスクを解く上で,本手法の優れた学習能力を実証した。 特に,提案手法は情報探索を利用して報酬のない問題を効果的に解決し,外部スーパーバイザによる明示的なタスク報酬設計のレンダリングを可能にする。

Reinforcement learning (RL) has garnered significant attention for developing decision-making agents that aim to maximize rewards, specified by an external supervisor, within fully observable environments. However, many real-world problems involve partial observations, formulated as partially observable Markov decision processes (POMDPs). Previous studies have tackled RL in POMDPs by either incorporating the memory of past actions and observations or by inferring the true state of the environment from observed data. However, aggregating observed data over time becomes impractical in continuous spaces. Moreover, inference-based RL approaches often require many samples to perform well, as they focus solely on reward maximization and neglect uncertainty in the inferred state. Active inference (AIF) is a framework formulated in POMDPs and directs agents to select actions by minimizing a function called expected free energy (EFE). This supplies reward-maximizing (exploitative) behaviour, as in RL, with information-seeking (exploratory) behaviour. Despite this exploratory behaviour of AIF, its usage is limited to discrete spaces due to the computational challenges associated with EFE. In this paper, we propose a unified principle that establishes a theoretical connection between AIF and RL, enabling seamless integration of these two approaches and overcoming their aforementioned limitations in continuous space POMDP settings. We substantiate our findings with theoretical analysis, providing novel perspectives for utilizing AIF in the design of artificial agents. Experimental results demonstrate the superior learning capabilities of our method in solving continuous space partially observable tasks. Notably, our approach harnesses information-seeking exploration, enabling it to effectively solve reward-free problems and rendering explicit task reward design by an external supervisor optional.
翻訳日:2024-06-03 21:00:54 公開日:2024-05-31
# RNA二次構造予測の解読:確率論的K-Rookマッチングの観点から

Deciphering RNA Secondary Structure Prediction: A Probabilistic K-Rook Matching Perspective ( http://arxiv.org/abs/2212.14041v4 )

ライセンス: Link先を確認
Cheng Tan, Zhangyang Gao, Hanqun Cao, Xingran Chen, Ge Wang, Lirong Wu, Jun Xia, Jiangbin Zheng, Stan Z. Li, (参考訳) リボ核酸(RNA)の二次構造は、その第3次構造よりも安定しており、細胞内でアクセスしやすく、機能的な予測に不可欠である。 ディープラーニングはこの分野で有望な結果を示しているが、現在の手法は一般化の貧弱さと複雑さに悩まされている。 本研究では,RNA二次構造予測をK-Rook問題として再構成し,その予測プロセスを有限解空間内での確率的マッチングに単純化する。 この革新的な観点から、与えられたシーケンスから最も一致するK-Rook解を予測するための、単純で効果的な方法であるRFoldを導入する。 RFoldは、確率的マッチング問題を行ワイドおよび列ワイドのコンポーネントに分解して、マッチングの複雑さを低減し、出力の有効性を保証しながら解決プロセスを簡素化する2次元最適化戦略を採用している。 RFoldは最先端の手法よりも競争性能と推論効率を約8倍に向上することを示した。 コードとColabのデモは \href{http://github.com/A4Bio/RFold}{http://github.com/A4Bio/RFold} で公開されている。

The secondary structure of ribonucleic acid (RNA) is more stable and accessible in the cell than its tertiary structure, making it essential for functional prediction. Although deep learning has shown promising results in this field, current methods suffer from poor generalization and high complexity. In this work, we reformulate the RNA secondary structure prediction as a K-Rook problem, thereby simplifying the prediction process into probabilistic matching within a finite solution space. Building on this innovative perspective, we introduce RFold, a simple yet effective method that learns to predict the most matching K-Rook solution from the given sequence. RFold employs a bi-dimensional optimization strategy that decomposes the probabilistic matching problem into row-wise and column-wise components to reduce the matching complexity, simplifying the solving process while guaranteeing the validity of the output. Extensive experiments demonstrate that RFold achieves competitive performance and about eight times faster inference efficiency than the state-of-the-art approaches. The code and Colab demo are available in \href{http://github.com/A4Bio/RFold}{http://github.com/A4Bio/RFold}.
翻訳日:2024-06-03 21:00:54 公開日:2024-05-31
# 動的回帰による深層交通予測モデルの強化

Enhancing Deep Traffic Forecasting Models with Dynamic Regression ( http://arxiv.org/abs/2301.06650v2 )

ライセンス: Link先を確認
Vincent Zhihao Zheng, Seongjin Choi, Lijun Sun, (参考訳) 交通予測のためのディープラーニングモデルは、残差が時間と空間にわたって独立で等方的であると仮定することが多い。 この仮定は平均絶対誤差のような損失関数を単純化するが、実世界の残留過程は、しばしば大きな自己相関と構造的時空間相関を示す。 本稿では,既存の時空間交通予測モデルを改善するための動的回帰(DR)フレームワークを提案する。 本研究では,損失関数の再設計を通じて学習過程にシームレスに統合された行列変量季節性自己回帰(AR)モデルに従って,ベースモデルの残差(例えば,十分に発達した交通予測モデル)を仮定する。 重要なことに、DRフレームワークのパラメータはベースモデルと共同で最適化されている。 提案手法の有効性を,速度と流速の両方のデータセットを用いて評価し,改良された性能を示し,解釈可能なAR係数と時空間共分散行列を提供する。

Deep learning models for traffic forecasting often assume the residual is independent and isotropic across time and space. This assumption simplifies loss functions such as mean absolute error, but real-world residual processes often exhibit significant autocorrelation and structured spatiotemporal correlation. This paper introduces a dynamic regression (DR) framework to enhance existing spatiotemporal traffic forecasting models by incorporating structured learning for the residual process. We assume the residual of the base model (i.e., a well-developed traffic forecasting model) follows a matrix-variate seasonal autoregressive (AR) model, which is seamlessly integrated into the training process through the redesign of the loss function. Importantly, the parameters of the DR framework are jointly optimized alongside the base model. We evaluate the effectiveness of the proposed framework on state-of-the-art (SOTA) deep traffic forecasting models using both speed and flow datasets, demonstrating improved performance and providing interpretable AR coefficients and spatiotemporal covariance matrices.
翻訳日:2024-06-03 21:00:54 公開日:2024-05-31
# S_n$-equivariant $k$-body ゲートの普遍性について

On the universality of $S_n$-equivariant $k$-body gates ( http://arxiv.org/abs/2303.00728v2 )

ライセンス: Link先を確認
Sujay Kazi, Martin Larocca, M. Cerezo, (参考訳) あるタスクが対称性を示す場合(グループ$\mathfrak{G}$で与えられる)、学習モデルはそれらの対称性を尊重すべきである。 これは$\mathfrak{G}$-equivariant Quantum Neural Networks (QNNs) によってインスタンス化できる。 しかし実際には、最大$k$ qubitsで動作できるなど、使用可能なゲートの種類に制限が加えられる可能性がある。 本研究では、QNN生成器における対称性と$k$-体性の間の相互作用が、対称群である$\mathfrak{G}=S_n$の特別な場合において、その表現性にどのように影響するかを研究する。 この結果から,QNN が 1 と 2 の $S_n$-equivariant ゲートで生成される場合,QNN は半ユニバーサルであるが普遍的ではないことがわかった。 すなわち、QNNは不変部分空間において任意の特殊ユニタリ行列を生成できるが、それらの間の相対位相を制御できない。 そして、普遍性に到達するためには、$n$-body ジェネレータ($n$が偶数であれば)または$(n-1)$-body ジェネレータ($n$が奇数であれば)を含める必要がある。 その結果、同変QNNの能力と限界をよりよく理解する上で一歩近づいた。

The importance of symmetries has recently been recognized in quantum machine learning from the simple motto: if a task exhibits a symmetry (given by a group $\mathfrak{G}$), the learning model should respect said symmetry. This can be instantiated via $\mathfrak{G}$-equivariant Quantum Neural Networks (QNNs), i.e., parametrized quantum circuits whose gates are generated by operators commuting with a given representation of $\mathfrak{G}$. In practice, however, there might be additional restrictions to the types of gates one can use, such as being able to act on at most $k$ qubits. In this work we study how the interplay between symmetry and $k$-bodyness in the QNN generators affect its expressiveness for the special case of $\mathfrak{G}=S_n$, the symmetric group. Our results show that if the QNN is generated by one- and two-body $S_n$-equivariant gates, the QNN is semi-universal but not universal. That is, the QNN can generate any arbitrary special unitary matrix in the invariant subspaces, but has no control over the relative phases between them. Then, we show that in order to reach universality one needs to include $n$-body generators (if $n$ is even) or $(n-1)$-body generators (if $n$ is odd). As such, our results brings us a step closer to better understanding the capabilities and limitations of equivariant QNNs.
翻訳日:2024-06-03 21:00:54 公開日:2024-05-31
# 大規模言語モデルを用いた自己計画コード生成

Self-planning Code Generation with Large Language Models ( http://arxiv.org/abs/2303.06689v3 )

ライセンス: Link先を確認
Xue Jiang, Yihong Dong, Lecheng Wang, Zheng Fang, Qiwei Shang, Ge Li, Zhi Jin, Wenpin Jiao, (参考訳) 大きな言語モデル(LLM)は、コード生成において印象的な能力を示しているが、人間によって提供される複雑な意図に対処するのに依然として苦労している。 人間は通常、複雑な問題を分解し、実装前に解決手順をスケジュールする計画を採用すると広く認められている。 この目的のために、複雑な意図を理解し、問題解決の難しさを軽減するために、コード生成に計画を導入する。 本稿では,大規模言語モデルを用いた自己計画型コード生成手法を提案する。 特に計画段階では、LLMは意図からの簡潔な解法ステップと数発のプロンプトの組み合わせを計画している。 その後、実装フェーズでは、前のソリューションステップでガイドされたステップごとにコードを生成する。 複数のプログラミング言語にまたがる様々なコード生成ベンチマークについて広範な実験を行った。 実験結果から、自己計画コード生成は、直接コード生成と比較してPass@1で25.4%、Chain-of-Thoughtコード生成と比較して11.9%の相対的な改善を実現している。 さらに,我々の自己計画手法は,人間の評価した正確性,可読性,堅牢性に関して,生成したコードの品質を向上させる。

Although large language models (LLMs) have demonstrated impressive ability in code generation, they are still struggling to address the complicated intent provided by humans. It is widely acknowledged that humans typically employ planning to decompose complex problems and schedule solution steps prior to implementation. To this end, we introduce planning into code generation to help the model understand complex intent and reduce the difficulty of problem-solving. This paper proposes a self-planning code generation approach with large language models, which consists of two phases, namely planning phase and implementation phase. Specifically, in the planning phase, LLM plans out concise solution steps from the intent combined with few-shot prompting. Subsequently, in the implementation phase, the model generates code step by step, guided by the preceding solution steps. We conduct extensive experiments on various code-generation benchmarks across multiple programming languages. Experimental results show that self-planning code generation achieves a relative improvement of up to 25.4% in Pass@1 compared to direct code generation, and up to 11.9% compared to Chain-of-Thought of code generation. Moreover, our self-planning approach also enhances the quality of the generated code with respect to correctness, readability, and robustness, as assessed by humans.
翻訳日:2024-06-03 21:00:54 公開日:2024-05-31
# 準1次元幾何学における非共振性物質波ジェット

Incommensurable matter-wave jets in quasi-1D geometry ( http://arxiv.org/abs/2303.07004v3 )

ライセンス: Link先を確認
Tadej Mežnaršič, Rok Žitko, Katja Gosar, Jure Pirman, Katja Arh, Matevž Jug, Erik Zupanič, Peter Jeglič, (参考訳) 物質波ジェットは、相互作用強度の変調を受けるボース・アインシュタイン凝縮体から放出される。 十分に強い変調のために、高調波物質波ジェットが出現する。 ここでは, 単周波相互作用変調に曝露されたボース・アインシュタイン凝縮体における非可換な"金"$\frac{1+\sqrt{5}}{2}$物質波ジェットの初めての実験的観察を報告する。 数値1次元(1D)グロス・ピタエフスキー方程式による擬一次元幾何における高次ジェットとそれに対応する非可換密度波の形成について検討した。 本研究では, ジェットの生成過程を実験的に, 理論的に幅広い変調振幅と周波数に対して検討し, ジェット生成の異なる条件を規定する相図を確立する。

Matter-wave jets are ejected from a Bose-Einstein condensate subjected to a modulation of the interaction strength. For sufficiently strong modulation additional higher harmonic matter-wave jets emerge. Here we report the first experimental observation of incommensurable "golden" $\frac{1+\sqrt{5}}{2}$ matter-wave jets in a Bose-Einstein condensate exposed to a single frequency interaction modulation. We study the formation of higher-order jets and the corresponding incommensurable density waves in quasi-one-dimensional geometry with numerical one dimensional (1D) Gross-Pitaevskii equation simulation. We explore the process of jet formation experimentally and theoretically for a wide range of modulation amplitudes and frequencies and establish a phase diagram delineating different regimes of jet formation.
翻訳日:2024-06-03 21:00:54 公開日:2024-05-31
# カリフォルニア大学サンフランシスコ校脳転移外科(UCSF-BMSR)MRIデータセット

The University of California San Francisco Brain Metastases Stereotactic Radiosurgery (UCSF-BMSR) MRI Dataset ( http://arxiv.org/abs/2304.07248v4 )

ライセンス: Link先を確認
Jeffrey D. Rudie, Rachit Saluja, David A. Weiss, Pierre Nedelec, Evan Calabrese, John B. Colby, Benjamin Laguna, John Mongan, Steve Braunstein, Christopher P. Hess, Andreas M. Rauschecker, Leo P. Sugrue, Javier E. Villanueva-Meyer, (参考訳) カリフォルニア大学サンフランシスコ校脳転移ステレオタクティック放射線外科(UCSF-BMSR)データセットは、5136脳転移の専門アノテーションを持つ412人の患者の560個の脳MRIからなる、パブリック、臨床、マルチモーダル脳MRIデータセットである。 データは、T1後コントラスト、T1前コントラスト、FLAIRおよびサブトラクション(T1前コントラスト - T1後コントラスト)の画像と、NifTIフォーマットで脳転移を増強するボクセルワイズセグメンテーションで構成されている。 データセットには、患者の人口統計、外科的状態、原発性癌のタイプも含まれている。 UCSF-BSMRは、研究者たちがこれらのデータを使って脳転移のためのAIアプリケーションの境界を押し上げることを期待して、一般公開されている。 このデータセットは、https://imagingdatasets.ucsf.edu/dataset/1.com/commercial で無料で利用できる。

The University of California San Francisco Brain Metastases Stereotactic Radiosurgery (UCSF-BMSR) dataset is a public, clinical, multimodal brain MRI dataset consisting of 560 brain MRIs from 412 patients with expert annotations of 5136 brain metastases. Data consists of registered and skull stripped T1 post-contrast, T1 pre-contrast, FLAIR and subtraction (T1 pre-contrast - T1 post-contrast) images and voxelwise segmentations of enhancing brain metastases in NifTI format. The dataset also includes patient demographics, surgical status and primary cancer types. The UCSF-BSMR has been made publicly available in the hopes that researchers will use these data to push the boundaries of AI applications for brain metastases. The dataset is freely available for non-commercial use at https://imagingdatasets.ucsf.edu/dataset/1
翻訳日:2024-06-03 21:00:54 公開日:2024-05-31
# Federated compositional Deep AUC Maximization

Federated Compositional Deep AUC Maximization ( http://arxiv.org/abs/2304.10101v2 )

ライセンス: Link先を確認
Xinwen Zhang, Yihan Zhang, Tianbao Yang, Richard Souvenir, Hongchang Gao, (参考訳) フェデレートラーニングは、プライバシと大規模ラーニングのバランスをとるという約束のために注目を集めており、多くのアプローチが提案されている。 しかし、既存のほとんどのアプローチは、バランスの取れたデータの問題に焦点を合わせており、予測性能は、異なるクラスのサンプル数が非常に不均衡である多くの実世界のアプリケーションにとって、決して満足できない。 この課題に対処するために,曲線下領域(AUC)のスコアを直接最適化することにより,不均衡なデータに対する新しいフェデレート学習手法を開発した。 特に、AUCの最大化問題を連合合成最小値最適化問題として定式化し、モーメントアルゴリズムに比例した局所確率合成勾配勾配法を開発し、アルゴリズムの計算と通信の複雑さに関するバウンダリを提供する。 私たちの知る限りでは、このような好ましい理論的な結果を達成した最初の作品である。 最後に,本法の有効性を実験的に検証した。

Federated learning has attracted increasing attention due to the promise of balancing privacy and large-scale learning; numerous approaches have been proposed. However, most existing approaches focus on problems with balanced data, and prediction performance is far from satisfactory for many real-world applications where the number of samples in different classes is highly imbalanced. To address this challenging problem, we developed a novel federated learning method for imbalanced data by directly optimizing the area under curve (AUC) score. In particular, we formulate the AUC maximization problem as a federated compositional minimax optimization problem, develop a local stochastic compositional gradient descent ascent with momentum algorithm, and provide bounds on the computational and communication complexities of our algorithm. To the best of our knowledge, this is the first work to achieve such favorable theoretical results. Finally, extensive experimental results confirm the efficacy of our method.
翻訳日:2024-06-03 21:00:54 公開日:2024-05-31
# EvoluNet: グラフ上での動的非IID変換学習の改善

EvoluNet: Advancing Dynamic Non-IID Transfer Learning on Graphs ( http://arxiv.org/abs/2305.00664v5 )

ライセンス: Link先を確認
Haohui Wang, Yuzhen Mao, Yujun Yan, Yaoqing Yang, Jianhui Sun, Kevin Choi, Balaji Veeramani, Alison Hu, Edward Bowen, Tyler Cody, Dawei Zhou, (参考訳) グラフ上の非IID移動学習は多くの高吸収領域において重要である。 既存の作業の大部分は、ソースドメインとターゲットドメインの両方に対して定常的な配布を前提としている。 しかし、現実世界のグラフは本質的に動的であり、ドメインの進化と、ソースとターゲットのドメイン間の動的相違の観点からの課題を提示する。 ラベルリッチなソースグラフとラベルスカースターゲットグラフがどちらも以前のTタイムスタンプで観測されていることを考慮すれば、進化しているドメインの不一致を効果的に特徴づけて、T+1タイムスタンプでターゲットドメインの一般化性能を最適化するにはどうすればよいのか? そこで本研究では,グラフ上での動的非IID移動学習に限定した一般化法を提案する。 理論的結果に触発されて,EvoluNetという新しい汎用フレームワークを導入する。 トランスフォーマーベースのテンポラリエンコーディングモジュールを使用して、進化しているドメインの時間情報をモデル化し、動的ドメイン統一モジュールを使用して、ソースとターゲットドメインをまたいだドメイン不変表現を効率的に学習する。 最後に、EvoluNetは最先端のモデルを最大12.1%向上させ、動的ソースグラフから動的ターゲットグラフへの知識転送の有効性を示した。

Non-IID transfer learning on graphs is crucial in many high-stakes domains. The majority of existing works assume stationary distribution for both source and target domains. However, real-world graphs are intrinsically dynamic, presenting challenges in terms of domain evolution and dynamic discrepancy between source and target domains. To bridge the gap, we shift the problem to the dynamic setting and pose the question: given the label-rich source graphs and the label-scarce target graphs both observed in previous T timestamps, how can we effectively characterize the evolving domain discrepancy and optimize the generalization performance of the target domain at the incoming T+1 timestamp? To answer it, we propose a generalization bound for dynamic non-IID transfer learning on graphs, which implies the generalization performance is dominated by domain evolution and domain discrepancy between source and target graphs. Inspired by the theoretical results, we introduce a novel generic framework named EvoluNet. It leverages a transformer-based temporal encoding module to model temporal information of the evolving domains and then uses a dynamic domain unification module to efficiently learn domain-invariant representations across the source and target domains. Finally, EvoluNet outperforms the state-of-the-art models by up to 12.1%, demonstrating its effectiveness in transferring knowledge from dynamic source graphs to dynamic target graphs.
翻訳日:2024-06-03 21:00:54 公開日:2024-05-31
# 強化学習による混合整数最適制御:ハイブリッド電気自動車エネルギー管理の事例研究

Mixed-Integer Optimal Control via Reinforcement Learning: A Case Study on Hybrid Electric Vehicle Energy Management ( http://arxiv.org/abs/2305.01461v3 )

ライセンス: Link先を確認
Jinming Xu, Nasser Lashgarian Azad, Yuan Lin, (参考訳) 多くの最適制御問題は離散制御変数と連続制御変数の同時出力を必要とする。 これらの問題は、通常、混合整数最適制御(MIOC)問題として定式化され、解空間の複雑さのために解決が難しい。 ブランチ・アンド・バウンドのような数値的な手法は計算コストが高く、リアルタイム制御には望ましくない。 本稿では,MIOC問題に対する2つの遅延深い決定論的アクターQ(TD3AQ)であるハイブリッドアクション強化学習(HARL)アルゴリズムを提案する。 TD3AQはアクター批判とQ-ラーニングの両方の利点を組み合わせ、離散的かつ連続的なアクション空間を同時に扱うことができる。 提案アルゴリズムは, 独立変数, クラッチエンゲージメント, ギヤシフト, 連続変数, エンジントルクをリアルタイムに制御するプラグインハイブリッド電気自動車(PHEV)エネルギー管理問題において, 運転制約を満たすことなく, 燃費を最大化するために不可欠である。 シミュレーションの結果、TD3AQは動的プログラミング(DP)と比較して最適に近い制御結果を得るが、差はわずか4.69%である。 さらに、ベースライン強化学習アルゴリズムの性能を上回ります。

Many optimal control problems require the simultaneous output of discrete and continuous control variables. These problems are usually formulated as mixed-integer optimal control (MIOC) problems, which are challenging to solve due to the complexity of the solution space. Numerical methods such as branch-and-bound are computationally expensive and undesirable for real-time control. This paper proposes a novel hybrid-action reinforcement learning (HARL) algorithm, twin delayed deep deterministic actor-Q (TD3AQ), for MIOC problems. TD3AQ combines the advantages of both actor-critic and Q-learning methods, and can handle the discrete and continuous action spaces simultaneously. The proposed algorithm is evaluated on a plug-in hybrid electric vehicle (PHEV) energy management problem, where real-time control of the discrete variables, clutch engagement/disengagement and gear shift, and continuous variable, engine torque, is essential to maximize fuel economy while satisfying driving constraints. Simulation outcomes demonstrate that TD3AQ achieves control results close to optimality when compared with dynamic programming (DP), with just 4.69% difference. Furthermore, it surpasses the performance of baseline reinforcement learning algorithms.
翻訳日:2024-06-03 21:00:54 公開日:2024-05-31
# 不均一データを用いたフェデレーション学習におけるモデル平均化の理解と改善

Understanding and Improving Model Averaging in Federated Learning on Heterogeneous Data ( http://arxiv.org/abs/2305.07845v4 )

ライセンス: Link先を確認
Tailin Zhou, Zehong Lin, Jun Zhang, Danny H. K. Tsang, (参考訳) モデル平均化は、複数のクライアントモデルを集約してグローバルモデルを得るフェデレートラーニング(FL)において広く採用されている手法である。 FLにおけるモデル平均化は、クライアントモデルが非凸目的関数で訓練されたり、異種局所データセットで訓練されたとしても、優れたグローバルモデルをもたらす。 しかし、その成功の根拠はよく分かっていない。 この問題を浮き彫りにするために、クライアントモデルとグローバルモデルによるFLの損失景観を視覚化し、それらの幾何学的性質を例証する。 可視化により、クライアントモデルは共通の盆地内のグローバルモデルを含み、興味深いことに、グローバルモデルは流域の中心から逸脱し、クライアントモデルよりも優れています。 FLにおけるモデル平均化に関するさらなる知見を得るため、グローバルモデルの損失をクライアントモデルに関連する5つの要因に分解する。 具体的には、早期トレーニング後のグローバルモデル損失は主にクライアントデータセットとグローバルデータセットの非重複データにおけるクライアントモデルの損失である。 ロスランドスケープの可視化と損失分解から得られた知見に基づいて,我々は,グローバルモデルとクライアントモデルの間の最大距離を制限するために,クライアント探索を制約しながら,トレーニング後期のグローバルモデルに対する反復的移動平均化(IMA)を活用することを提案する。 実験により,既存のFL手法にIMAを組み込むことで,ベンチマークデータセットの異種データ設定における精度とトレーニング速度が大幅に向上することが示された。 コードは \url{https://github.com/TailinZhou/FedIMA} で公開されている。

Model averaging is a widely adopted technique in federated learning (FL) that aggregates multiple client models to obtain a global model. Remarkably, model averaging in FL yields a superior global model, even when client models are trained with non-convex objective functions and on heterogeneous local datasets. However, the rationale behind its success remains poorly understood. To shed light on this issue, we first visualize the loss landscape of FL over client and global models to illustrate their geometric properties. The visualization shows that the client models encompass the global model within a common basin, and interestingly, the global model may deviate from the basin's center while still outperforming the client models. To gain further insights into model averaging in FL, we decompose the expected loss of the global model into five factors related to the client models. Specifically, our analysis reveals that the global model loss after early training mainly arises from \textit{i)} the client model's loss on non-overlapping data between client datasets and the global dataset and \textit{ii)} the maximum distance between the global and client models. Based on the findings from our loss landscape visualization and loss decomposition, we propose utilizing iterative moving averaging (IMA) on the global model at the late training phase to reduce its deviation from the expected minimum, while constraining client exploration to limit the maximum distance between the global and client models. Our experiments demonstrate that incorporating IMA into existing FL methods significantly improves their accuracy and training speed on various heterogeneous data setups of benchmark datasets. Code is available at \url{https://github.com/TailinZhou/FedIMA}.
翻訳日:2024-06-03 21:00:54 公開日:2024-05-31
# 超現実性を有する知識グラフの構造とダイナミクス

The Structure and Dynamics of Knowledge Graphs, with Superficiality ( http://arxiv.org/abs/2305.08116v3 )

ライセンス: Link先を確認
Loïck Lhote, Béatrice Markhoff, Arnaud Soulet, (参考訳) 大規模な知識グラフは、アカデミアや機関、企業、クラウドソーシングなど、さまざまなプロジェクトから得られた人間の知識を組み合わせている。 このようなグラフの中では、2つのノード間の関係は、これらの2つの実体を含む基本的な事実を表している。 関係性の意味論の多様性は知識グラフの豊かさを構成し、特異位相の出現に繋がる。 しかし、この複雑な特徴は、事実が独立して生成される関係の重複を制御する超現実性の概念を導入することで、単純な方法でモデル化することができる。 このモデルでは、超現実性は、誤って記述された実体の比率を決定することによって、知識のグローバルな分布のバランスを調節する。 これは知識グラフの構造と力学に関する最初のモデルである。 これは、正式な知識の獲得と組織に関する理解を深めます。

Large knowledge graphs combine human knowledge garnered from projects ranging from academia and institutions to enterprises and crowdsourcing. Within such graphs, each relationship between two nodes represents a basic fact involving these two entities. The diversity of the semantics of relationships constitutes the richness of knowledge graphs, leading to the emergence of singular topologies, sometimes chaotic in appearance. However, this complex characteristic can be modeled in a simple way by introducing the concept of superficiality, which controls the overlap between relationships whose facts are generated independently. With this model, superficiality also regulates the balance of the global distribution of knowledge by determining the proportion of misdescribed entities. This is the first model for the structure and dynamics of knowledge graphs. It leads to a better understanding of formal knowledge acquisition and organization.
翻訳日:2024-06-03 20:51:10 公開日:2024-05-31
# グラフ上の長期的複雑性をマスターする:特徴付け、学習、一般化

Mastering Long-Tail Complexity on Graphs: Characterization, Learning, and Generalization ( http://arxiv.org/abs/2305.09938v4 )

ライセンス: Link先を確認
Haohui Wang, Baoyu Jing, Kaize Ding, Yada Zhu, Wei Cheng, Si Zhang, Yonghui Fan, Liqing Zhang, Dawei Zhou, (参考訳) グラフ上の長い尾の分類の文脈では、既存の作業の大部分は、主にモデルの偏りを緩和し、全体的なパフォーマンスを高めることを目的として、モデルデバイアスング戦略の開発を中心に展開している。 顕著な成功にもかかわらず、グラフ内の長い尾クラスの振る舞いを特徴づけ、実世界のシナリオにおける一般化性能に関する洞察を得るための理論的ツールを提供する、非常に限られた文献がある。 このギャップを埋めるために,マルチタスク学習の方法で問題を定式化することにより,グラフ上の長い尾の分類のための一般化を提案し,各タスクは1つの特定のクラスの予測に対応する。 理論的には, 長期分類の一般化性能は, 全体の損失範囲とタスクの複雑さに支配されている。 理論的な知見に基づいて,グラフ上の長い尾の分類のための新しい汎用フレームワークHierTailを提案する。 特に,タスクをハイパータスクに割り当て,タスク空間の複雑さを制御する階層的なタスクグループ化モジュールから始める。さらに,頭と尾の両方の勾配を適応的にバランスさせて,すべてのタスクの損失範囲を統一的に制御する,バランスの取れたコントラスト学習モジュールを設計する。 大規模な実験により、HierTailが実グラフ上の長い尾のクラスを特徴づける効果が示され、その精度は最上位のベースライン法よりも最大12.9%向上した。

In the context of long-tail classification on graphs, the vast majority of existing work primarily revolves around the development of model debiasing strategies, intending to mitigate class imbalances and enhance the overall performance. Despite the notable success, there is very limited literature that provides a theoretical tool for characterizing the behaviors of long-tail classes in graphs and gaining insight into generalization performance in real-world scenarios. To bridge this gap, we propose a generalization bound for long-tail classification on graphs by formulating the problem in the fashion of multi-task learning, i.e., each task corresponds to the prediction of one particular class. Our theoretical results show that the generalization performance of long-tail classification is dominated by the overall loss range and the task complexity. Building upon the theoretical findings, we propose a novel generic framework HierTail for long-tail classification on graphs. In particular, we start with a hierarchical task grouping module that allows us to assign related tasks into hypertasks and thus control the complexity of the task space; then, we further design a balanced contrastive learning module to adaptively balance the gradients of both head and tail classes to control the loss range across all tasks in a unified fashion. Extensive experiments demonstrate the effectiveness of HierTail in characterizing long-tail classes on real graphs, which achieves up to 12.9% improvement over the leading baseline method in accuracy.
翻訳日:2024-06-03 20:51:10 公開日:2024-05-31
# マルチキュービット構成の文脈性次数に関する新しい改良された境界

New and improved bounds on the contextuality degree of multi-qubit configurations ( http://arxiv.org/abs/2305.10225v3 )

ライセンス: Link先を確認
Axel Muller, Metod Saniga, Alain Giorgetti, Henri de Boutray, Frédéric Holweck, (参考訳) 量子的文脈性を明らかにするアルゴリズムとC符号を提示し、小さな階数の2次シンプレクティック極空間に位置する様々な点線ジオメトリーの文脈性度(文脈性を定量化する方法)を評価する。 このコードでは、より効率的な方法で、De Boutrayらによる最近の論文((2022) Journal of Physics A: Mathematical and Theory 55 475301]のすべての結果を得ることができました。 この論文はまずアルゴリズムとCのコードについて記述する。 次に、階数が 2 から 7 までのシンプレクティック極空間の多くの部分空間にそのパワーを描いている。 最も興味深い新しい結果は以下のとおりである。 i) 文脈が次元 2 以上の部分空間である構成の非文脈性 (ii)次元3以上の負部分空間が存在しないこと。 3) 階数 4 の楕円次数と双曲次数の両方の文脈性次数、および、文脈がこの空間の直線である3量子空間の特定の部分幾何学に関して、かなり改善された境界。 (四) パープレットの非文脈性の証明及び最後で、かつ、少なくとも (v) 2-スプレッドと呼ばれるマルチキュービットの有界な部分幾何学の文脈的性質と、その文脈的度合いの計算。 最後に、三量子極空間において、全構成の文脈性度を補正し改善し、また、空間の文脈が全て315行であるような幾何学と同様に、両方のタイプの二次体に対して不満足かつ非有意な制約によって形成される有限な幾何学的構成を記述する。

We present algorithms and a C code to reveal quantum contextuality and evaluate the contextuality degree (a way to quantify contextuality) for a variety of point-line geometries located in binary symplectic polar spaces of small rank. With this code we were not only able to recover, in a more efficient way, all the results of a recent paper by de Boutray et al [(2022). Journal of Physics A: Mathematical and Theoretical 55 475301], but also arrived at a bunch of new noteworthy results. The paper first describes the algorithms and the C code. Then it illustrates its power on a number of subspaces of symplectic polar spaces whose rank ranges from 2 to 7. The most interesting new results include: (i) non-contextuality of configurations whose contexts are subspaces of dimension 2 and higher, (ii) non-existence of negative subspaces of dimension 3 and higher, (iii) considerably improved bounds for the contextuality degree of both elliptic and hyperbolic quadrics for rank 4, as well as for a particular subgeometry of the three-qubit space whose contexts are the lines of this space, (iv) proof for the non-contextuality of perpsets and, last but not least, (v) contextual nature of a distinguished subgeometry of a multi-qubit doily, called a two-spread, and computation of its contextuality degree. Finally, in the three-qubit polar space we correct and improve the contextuality degree of the full configuration and also describe finite geometric configurations formed by unsatisfiable/invalid constraints for both types of quadrics as well as for the geometry whose contexts are all 315 lines of the space.
翻訳日:2024-06-03 20:51:10 公開日:2024-05-31
# スペクトログラムを用いたLLMを用いた音声質問応答と音声継続

Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM ( http://arxiv.org/abs/2305.15255v4 )

ライセンス: Link先を確認
Eliya Nachmani, Alon Levkovitch, Roy Hirsch, Julian Salazar, Chulayuth Asawaroengchai, Soroosh Mariooryad, Ehud Rivlin, RJ Skerry-Ryan, Michelle Tadmor Ramanovich, (参考訳) 本稿では,事前学習された大規模言語モデル(LLM)を適応させて,音声質問応答(QA)と音声継続を行う新しいアプローチであるSpectronを提案する。 LLMに事前訓練された音声エンコーダを付与することにより、我々のモデルは音声入力を取り込み、音声出力を生成することができる。 システム全体がエンドツーエンドでトレーニングされ、直接スペクトログラム上で動作し、アーキテクチャを簡素化します。 提案手法の鍵となるのは, 音声認識, テキスト継続, および音声合成を, ペアの音声テキストペアのみを用いて共同で監督し, 単一の復号パス内での「クロスモーダル」連鎖を可能にする訓練目標である。 提案手法は話者保存とセマンティック・コヒーレンスにおいて既存の言語モデルを上回る。 さらに,提案モデルでは,音声QAデータセットを通じて示すように,元のLLMの知識を保ちながら,直接初期化により改善する。 オーディオサンプル(https://michelleramanovich.github.io/spectron/spectron)と音声QAデータセット(https://github.com/google-research-datasets/LLAMA1-Test-Set)をリリースします。

We present Spectron, a novel approach to adapting pre-trained large language models (LLMs) to perform spoken question answering (QA) and speech continuation. By endowing the LLM with a pre-trained speech encoder, our model becomes able to take speech inputs and generate speech outputs. The entire system is trained end-to-end and operates directly on spectrograms, simplifying our architecture. Key to our approach is a training objective that jointly supervises speech recognition, text continuation, and speech synthesis using only paired speech-text pairs, enabling a `cross-modal' chain-of-thought within a single decoding pass. Our method surpasses existing spoken language models in speaker preservation and semantic coherence. Furthermore, the proposed model improves upon direct initialization in retaining the knowledge of the original LLM as demonstrated through spoken QA datasets. We release our audio samples (https://michelleramanovich.github.io/spectron/spectron) and spoken QA dataset (https://github.com/google-research-datasets/LLAMA1-Test-Set).
翻訳日:2024-06-03 20:51:10 公開日:2024-05-31
# 効率的かつ解釈可能な自己回帰変換器のための動的コンテキストプラニング

Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers ( http://arxiv.org/abs/2305.15805v3 )

ライセンス: Link先を確認
Sotiris Anagnostidis, Dario Pavllo, Luca Biggio, Lorenzo Noci, Aurelien Lucchi, Thomas Hofmann, (参考訳) LLM(Large Language Models)で採用されている自己回帰変換器は、長いシーケンスにスケールすることが難しい。 計算コストを減らそうとするいくつかの研究にもかかわらず、LLMのほとんどの研究は、シークエンス内の全てのトークン間の注意層を採用しており、2次的なコストが生じる。 本研究では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。 提案手法では,生成プロセスの任意の時点において,非形式的トークンがどのコンテキストからドロップできるかを決定する,学習可能なメカニズムを採用している。 そうすることで、我々のアプローチはパフォーマンス上の懸念に対処するだけでなく、解釈可能性も向上し、モデルの意思決定プロセスに関する貴重な洞察を与えます。 本手法は, 簡易な微調整プロセスにより, 既存の事前学習モデルに適用でき, プルーニング強度を空間パラメータで特定できる。 特に、我々の経験的発見は、ダウンストリームタスクのパフォーマンスを著しく低下させることなく、コンテキストの最大80%を効果的に実行できることを示し、推論コストを軽減できる貴重なツールを提供しています。 我々の参照実装は、推論スループットの増大と、さらに大きなメモリ節約を実現します。

Autoregressive Transformers adopted in Large Language Models (LLMs) are hard to scale to long sequences. Despite several works trying to reduce their computational cost, most of LLMs still adopt attention layers between all pairs of tokens in the sequence, thus incurring a quadratic cost. In this study, we present a novel approach that dynamically prunes contextual information while preserving the model's expressiveness, resulting in reduced memory and computational requirements during inference. Our method employs a learnable mechanism that determines which uninformative tokens can be dropped from the context at any point across the generation process. By doing so, our approach not only addresses performance concerns but also enhances interpretability, providing valuable insight into the model's decision-making process. Our technique can be applied to existing pre-trained models through a straightforward fine-tuning process, and the pruning strength can be specified by a sparsity parameter. Notably, our empirical findings demonstrate that we can effectively prune up to 80\% of the context without significant performance degradation on downstream tasks, offering a valuable tool for mitigating inference costs. Our reference implementation achieves up to $2\times$ increase in inference throughput and even greater memory savings.
翻訳日:2024-06-03 20:51:10 公開日:2024-05-31
# 置換決定木

Permutation Decision Trees ( http://arxiv.org/abs/2306.02617v3 )

ライセンス: Link先を確認
Harikrishnan N B, Arham Jain, Nithin Nagaraj, (参考訳) 決定木(Decision Tree)は、内部ノードにおける不純物を最小限にした、よく理解された機械学習モデルである。 最も一般的な不純物対策はシャノンエントロピーとジーニ不純物である。 これらの不純物対策はトレーニングデータの順序に敏感であるため、得られた最終木はデータの任意の置換に不変である。 これは、データインスタンス間に時間的順序依存性がある場合のモデリングにおける制限である。 本研究では,不純物対策としてEffort-To-Compress(ETC)を初めて導入することを提案する。 シャノンエントロピーやジーニの不純物とは異なり、ETCに基づく構造的不純物はデータの順序依存を捉えることができ、同じデータインスタンスの異なる置換に対する潜在的に異なる決定木を得ることができる。 次に、ランダムな特徴選択やサブサンプリングを必要とせず、置換決定木を用いて達成した置換バギングの概念を導入する。 我々は,アペンディシス,乳がんウィスコンシン,糖尿病ピマ・インディアン,イオノスフェア,アイリス,ソナー,ワインなど,さまざまな実世界のデータセットを対象に,置換決定木と古典的決定木のパフォーマンス比較を行った。 以上の結果から,PDTは従来の決定木に匹敵する性能を示した。 注目すべきは、あるケースでは、PDTは古典的な決定木のパフォーマンスをわずかに上回っていることだ。 Permutation BaggingとRandom Forestを比較すると、たった21本の木を使って、50から1000本の木からなるランダムフォレストモデルに匹敵するパフォーマンスが得られる。 これは、非常に少ないツリーで同等のパフォーマンスの成果を達成する上で、Permutation Baggingの効率性と有効性を強調している。

Decision Tree is a well understood Machine Learning model that is based on minimizing impurities in the internal nodes. The most common impurity measures are Shannon entropy and Gini impurity. These impurity measures are insensitive to the order of training data and hence the final tree obtained is invariant to any permutation of the data. This is a limitation in terms of modeling when there are temporal order dependencies between data instances. In this research, we propose the adoption of Effort-To-Compress (ETC) - a complexity measure, for the first time, as an alternative impurity measure. Unlike Shannon entropy and Gini impurity, structural impurity based on ETC is able to capture order dependencies in the data, thus obtaining potentially different decision trees for different permutations of the same data instances, a concept we term as Permutation Decision Trees (PDT). We then introduce the notion of Permutation Bagging achieved using permutation decision trees without the need for random feature selection and sub-sampling. We conduct a performance comparison between Permutation Decision Trees and classical decision trees across various real-world datasets, including Appendicitis, Breast Cancer Wisconsin, Diabetes Pima Indian, Ionosphere, Iris, Sonar, and Wine. Our findings reveal that PDT demonstrates comparable performance to classical decision trees across most datasets. Remarkably, in certain instances, PDT even slightly surpasses the performance of classical decision trees. In comparing Permutation Bagging with Random Forest, we attain comparable performance to Random Forest models consisting of 50 to 1000 trees, using merely 21 trees. This highlights the efficiency and effectiveness of Permutation Bagging in achieving comparable performance outcomes with significantly fewer trees.
翻訳日:2024-06-03 20:51:10 公開日:2024-05-31
# レベル非依存収束率をもつ分散多層構成最適化アルゴリズム

Decentralized Multi-Level Compositional Optimization Algorithms with Level-Independent Convergence Rate ( http://arxiv.org/abs/2306.03322v2 )

ライセンス: Link先を確認
Hongchang Gao, (参考訳) 確率的多段階合成最適化問題は、大規模データに対する効率的な最適化アルゴリズムを必要とするマルチステップモデル非依存メタラーニングなど、多くの新しい機械学習パラダイムをカバーする。 本稿では,分散確率的多段階最適化アルゴリズムについて検討するが,これは多段階構造と分散通信方式が収束率の順序に有意な影響を及ぼす可能性があるためである。 そこで我々は,多段階合成最適化問題を最適化する2つの新しい分散最適化アルゴリズムを開発した。 理論的には, 従来の単機械アルゴリズムと比較して, 非凸問題に対するレベル非依存収束率をはるかに軽快に達成できることが示唆された。 我々の知る限りでは、これは分散された設定の下でレベル非依存の収束率を達成する最初の研究である。 さらに,提案アルゴリズムの有効性を検証した。

Stochastic multi-level compositional optimization problems cover many new machine learning paradigms, e.g., multi-step model-agnostic meta-learning, which require efficient optimization algorithms for large-scale data. This paper studies the decentralized stochastic multi-level optimization algorithm, which is challenging because the multi-level structure and decentralized communication scheme may make the number of levels significantly affect the order of the convergence rate. To this end, we develop two novel decentralized optimization algorithms to optimize the multi-level compositional optimization problem. Our theoretical results show that both algorithms can achieve the level-independent convergence rate for nonconvex problems under much milder conditions compared with existing single-machine algorithms. To the best of our knowledge, this is the first work that achieves the level-independent convergence rate under the decentralized setting. Moreover, extensive experiments confirm the efficacy of our proposed algorithms.
翻訳日:2024-06-03 20:51:10 公開日:2024-05-31
# 教育・海外におけるLLMに関する中国ソーシャルメディアの展望

A Perspective Study on Chinese Social Media regarding LLM for Education and Beyond ( http://arxiv.org/abs/2306.04325v4 )

ライセンス: Link先を確認
Yao Tian, Chengwei Tong, Lik-Hang Lee, Reza Hadi Mogavi, Yong Liao, Pengyuan Zhou, (参考訳) AIを活用したツールの応用は多くの分野、特に学術コミュニティの関心を喚起している。 この研究は、現在最も強力で人気のあるAIツールであるChatGPTを用いて、中国国民が教育と一般的な目的のために大規模言語モデル(LLM)の可能性をどのように認識するかを分析する代表的な例である。 アクセシビリティの課題に直面しながら、我々は、ChatGPTの議論の数は、本土で最も人気のあるChatGPT代替製品であるBaiduが開発したErnie Botの16倍であり、ChatGPTが我々の分析にもっと適していることがわかった。 この研究は、AI技術がより高度でインテリジェントになるにつれて、世論の変化を調査する最初の試みでもある。 この分析によると、まだ高い能力を持っていない先進的なAIに初めて遭遇したとき、一部のソーシャルメディアユーザーはAIの進歩が教育や社会に恩恵をもたらすと信じていたが、一方でChatGPTのような先進的なAIが人間を劣悪に感じさせ、不正行為や道徳原則の低下といった問題を引き起こすことを恐れた。 利用者の大多数は中立のままだった。 興味深いことに、AI能力の急速な開発と改善により、公衆の態度はポジティブな方向にシフトする傾向にある。 本稿では,ChatGPT型モデルの教育等における倫理的適用を確保するために,トレンドシフトの徹底的な分析とロードマップを提案する。

The application of AI-powered tools has piqued the interest of many fields, particularly in the academic community. This study uses ChatGPT, currently the most powerful and popular AI tool, as a representative example to analyze how the Chinese public perceives the potential of large language models (LLMs) for educational and general purposes. Although facing accessibility challenges, we found that the number of discussions on ChatGPT per month is 16 times that of Ernie Bot developed by Baidu, the most popular alternative product to ChatGPT in the mainland, making ChatGPT a more suitable subject for our analysis. The study also serves as the first effort to investigate the changes in public opinion as AI technologies become more advanced and intelligent. The analysis reveals that, upon first encounters with advanced AI that was not yet highly capable, some social media users believed that AI advancements would benefit education and society, while others feared that advanced AI, like ChatGPT, would make humans feel inferior and lead to problems such as cheating and a decline in moral principles. The majority of users remained neutral. Interestingly, with the rapid development and improvement of AI capabilities, public attitudes have tended to shift in a positive direction. We present a thorough analysis of the trending shift and a roadmap to ensure the ethical application of ChatGPT-like models in education and beyond.
翻訳日:2024-06-03 20:51:10 公開日:2024-05-31
# 暗記知識の非コンパイルによるベイズプログラム学習

Bayesian Program Learning by Decompiling Amortized Knowledge ( http://arxiv.org/abs/2306.07856v3 )

ライセンス: Link先を確認
Alessandro B. Palmarini, Christopher G. Lucas, N. Siddharth, (参考訳) DreamCoderは、問題を解く一方で、反復的なウェイクスリープ手順で検索を単純化することを学ぶ、帰納的なプログラム合成システムである。 検索のコストは、ニューラルサーチポリシーをトレーニングし、検索幅を減らし、タスク間でプログラムソリューションを構成するのに有用な情報を効率的に「コンパイルする」ことで償却される。 さらに、プログラムコンポーネントのライブラリを学習して、発見されたソリューションを少ないコンポーネントで圧縮し、表現することで、探索深度を減少させる。 本稿では,ニューラルサーチポリシーを直接活用し,その記憶された知識を効果的に「分解」し,関連するプログラムコンポーネントを抽出する,新たな図書館学習手法を提案する。 これにより、より強力な償却推論が実現され、探索幅を減らすために学習した償却知識も探索深度を減らすために使用されるようになった。 私たちはDreamCoderとアプローチを統合し、特にサンプルソリューションが少ない場合に、さまざまな領域での一般化を改善することで、より高速なドメイン習熟度を示す。

DreamCoder is an inductive program synthesis system that, whilst solving problems, learns to simplify search in an iterative wake-sleep procedure. The cost of search is amortized by training a neural search policy, reducing search breadth and effectively "compiling" useful information to compose program solutions across tasks. Additionally, a library of program components is learnt to compress and express discovered solutions in fewer components, reducing search depth. We present a novel approach for library learning that directly leverages the neural search policy, effectively "decompiling" its amortized knowledge to extract relevant program components. This provides stronger amortized inference: the amortized knowledge learnt to reduce search breadth is now also used to reduce search depth. We integrate our approach with DreamCoder and demonstrate faster domain proficiency with improved generalization on a range of domains, particularly when fewer example solutions are available.
翻訳日:2024-06-03 20:51:10 公開日:2024-05-31
# TensorKrowch: マシンラーニングにおけるテンソルネットワークのスムーズな統合

TensorKrowch: Smooth integration of tensor networks in machine learning ( http://arxiv.org/abs/2306.08595v3 )

ライセンス: Link先を確認
José Ramón Pareja Monturiol, David Pérez-García, Alejandro Pozas-Kerstjens, (参考訳) テンソルネットワークは、高次元テンソルからより小さなテンソルのネットワークへの分解である。 それらは物理学や数学に応用されており、最近では有望な機械学習アーキテクチャとして提案されている。 機械学習パイプラインにおけるテンソルネットワークの統合を容易にするため、PyTorch上に構築されたオープンソースのPythonライブラリであるTensorKrowchを紹介した。 ユーザフレンドリなインターフェースを提供するTensorKrowchでは,任意のテンソルネットワークを構築してトレーニングし,より複雑なディープラーニングモデルのレイヤとして統合することができる。 本稿では,TensorKrowchの主な機能と基本的な使用法について述べるとともに,その構築ブロックと効率的な操作を実現するための最適化について技術的に詳述する。

Tensor networks are factorizations of high-dimensional tensors into networks of smaller tensors. They have applications in physics and mathematics, and recently have been proposed as promising machine learning architectures. To ease the integration of tensor networks in machine learning pipelines, we introduce TensorKrowch, an open source Python library built on top of PyTorch. Providing a user-friendly interface, TensorKrowch allows users to construct any tensor network, train it, and integrate it as a layer in more intricate deep learning models. In this paper, we describe the main functionality and basic usage of TensorKrowch, and provide technical details on its building blocks and the optimizations performed to achieve efficient operation.
翻訳日:2024-06-03 20:51:10 公開日:2024-05-31
# フェデレートラーニングのための効率的かつ多自由な鍵セキュアアグリゲーション

An Efficient and Multi-private Key Secure Aggregation for Federated Learning ( http://arxiv.org/abs/2306.08970v3 )

ライセンス: Link先を確認
Xue Yang, Zifeng Liu, Xiaohu Tang, Rongxing Lu, Bo Liu, (参考訳) フェデレート学習におけるプライバシリークの出現に伴い、各クライアントのローカルトレーニングデータのプライバシを保護するために、同型暗号化またはしきい値秘密共有を主体とするセキュアアグリゲーションプロトコルが広く開発されている。 しかし、これらの既存のプロトコルは、信頼できるサードパーティへの依存、クライアントに対する脆弱性の破損、低効率、セキュリティとフォールトトレランスの間のトレードオフなど、多くの欠点に悩まされている。 これらの欠点を解決するために,フェデレート学習のための効率的かつ多目的な鍵セキュアアグリゲーション方式を提案する。 具体的には、変種ElGamal暗号を巧みに修正し、同型加算演算を実現する。 1) サーバ及び各クライアントは、信頼できる第三者を導入することなく、公開鍵及びプライベート鍵を自由に選択することができる。 2) 変種ElGamal暗号と比較すると, 平文空間は比較的大きく, 深部モデルに適している。 さらに,高次元深層モデルパラメータに対して,多次元データを1次元に圧縮する超増進シーケンスを導入する。 詳細なセキュリティ分析の結果,提案手法は個々の局所勾配と集約結果の両方のセマンティック・セキュリティを実現するとともに,クライアントの共謀とドロップクライアントの許容に最適なロバスト性を実現する。 大規模なシミュレーションにより,提案手法の精度は非私的手法とほぼ同じであるが,提案手法の効率は最先端の同型暗号ベースのセキュアアグリゲーション方式よりも優れていることが示された。 さらに重要なことに、モデルパラメータの数が増加するにつれて、我々のスキームの効率性はますます顕著になる。

With the emergence of privacy leaks in federated learning, secure aggregation protocols that mainly adopt either homomorphic encryption or threshold secret sharing have been widely developed for federated learning to protect the privacy of the local training data of each client. However, these existing protocols suffer from many shortcomings, such as the dependence on a trusted third party, the vulnerability to clients being corrupted, low efficiency, the trade-off between security and fault tolerance, etc. To solve these disadvantages, we propose an efficient and multi-private key secure aggregation scheme for federated learning. Specifically, we skillfully modify the variant ElGamal encryption technique to achieve homomorphic addition operation, which has two important advantages: 1) The server and each client can freely select public and private keys without introducing a trust third party and 2) Compared to the variant ElGamal encryption, the plaintext space is relatively large, which is more suitable for the deep model. Besides, for the high dimensional deep model parameter, we introduce a super-increasing sequence to compress multi-dimensional data into 1-D, which can greatly reduce encryption and decryption times as well as communication for ciphertext transmission. Detailed security analyses show that our proposed scheme achieves the semantic security of both individual local gradients and the aggregated result while achieving optimal robustness in tolerating both client collusion and dropped clients. Extensive simulations demonstrate that the accuracy of our scheme is almost the same as the non-private approach, while the efficiency of our scheme is much better than the state-of-the-art homomorphic encryption-based secure aggregation schemes. More importantly, the efficiency advantages of our scheme will become increasingly prominent as the number of model parameters increases.
翻訳日:2024-06-03 20:51:10 公開日:2024-05-31
# Sterile Insect Technique プログラムにおける放流容器内AI技術を用いた女性の蚊検出

Female mosquito detection by means of AI techniques inside release containers in the context of a Sterile Insect Technique program ( http://arxiv.org/abs/2306.10843v2 )

ライセンス: Link先を確認
Javier Naranjo-Alcazar, Jordi Grau-Haro, David Almenar, Pedro Zuccarello, (参考訳) SIT(Sterile Insect Technique)は、個体数の制御を行う昆虫の無菌雄の環境への放散に基づく、生物的な害虫防除技術である。 SITプロセス全体は、バイオファクトリー内での大量採取、性別による標本の選別、不妊化、およびその後の不妊化雄の環境への放出を含む。 雌の検体が放たれるのを避ける理由は、オスとは異なり、メスが噛みつき、その後の感染のリスクがあるためである。 エイデス蚊のSIT用バイオファクトリーの場合、全プロセスの要点は性分離である。 このプロセスは現在、機械装置とAIベースの視覚システムの組み合わせによって実行されている。 しかし、偽陰性の可能性はまだ残っているため、環境に放出する前には検証の最終段階が必要である。 成体の雄蚊の羽ばたきによる音は雌の鳴き声とは異なることが知られており、この特徴は環境放出前の容器内のメスの存在を検出するのに利用できる。 本報告では,SITプログラム用蚊放流槽におけるメスの発見について述べる。 使用した容器は、直径8.8cm、高さ12.5cmの管状形状のPVCで構成されている。 容器は実験装置に収められ、内部の蚊の飛行音を録音することができた。 各容器は250個の標本で満たされ, 症例を考慮に入れられた。 (i)雄の蚊のみ。 (二)雌蚊のみ (三)男性75%、女性25%。 事例 (i)は訓練や試験に用いられたが、ケースはあった。 (ii)および (iii) 試験にのみ使用した。 メスの蚊を検出するために2つのアルゴリズムが実装された: 教師なしの外れ値検出アルゴリズム(iForest)と、男性のみの記録で訓練された一級SVMである。

The Sterile Insect Technique (SIT) is a biological pest control technique based on the release into the environment of sterile males of the insect species whose population is to be controlled. The entire SIT process involves mass-rearing within a biofactory, sorting of the specimens by sex, sterilization, and subsequent release of the sterile males into the environment. The reason for avoiding the release of female specimens is because, unlike males, females bite, with the subsequent risk of disease transmission. In the case of Aedes mosquito biofactories for SIT, the key point of the whole process is sex separation. This process is nowadays performed by a combination of mechanical devices and AI-based vision systems. However, there is still a possibility of false negatives, so a last stage of verification is necessary before releasing them into the environment. It is known that the sound produced by the flapping of adult male mosquitoes is different from that produced by females, so this feature can be used to detect the presence of females in containers prior to environmental release. This paper presents a study for the detection of females in Aedes mosquito release vessels for SIT programs. The containers used consist of PVC a tubular design of 8.8cm diameter and 12.5cm height. The containers were placed in an experimental setup that allowed the recording of the sound of mosquito flight inside of them. Each container was filled with 250 specimens considering the cases of (i) only male mosquitoes, (ii) only female mosquitoes, and (iii) 75% males and 25% females. Case (i) was used for training and testing, whereas cases (ii) and (iii) were used only for testing. Two algorithms were implemented for the detection of female mosquitoes: an unsupervised outlier detection algorithm (iForest) and a one-class SVM trained with male-only recordings.
翻訳日:2024-06-03 20:51:10 公開日:2024-05-31
# 非エルミタン系における生物直交動的量子相転移

Biorthogonal Dynamical Quantum Phase Transitions in Non-Hermitian Systems ( http://arxiv.org/abs/2307.02993v3 )

ライセンス: Link先を確認
Yecheng Jing, Jian-Jun Dong, Yu-Yu Zhang, Zi-Xiang Hu, (参考訳) 生物直交基底を利用することにより、非エルミート系における生物直交動的量子相転移を研究するための包括的枠組みを開発する。 従来見過ごされていた関連状態の助けを借りて、自動正規化された生物直交性Loschmidtエコーを定義する。 このアプローチは複雑な固有値を持つ任意の非エルミート系を扱うことができ、生物直交基底を持たないロシミトレートの負の値を自然に排除することができる。 非エルミート的Su-Schrieffer-Heegerモデルを具体例として、生物直交基底における動的トポロジカル秩序パラメータの変化は、自己正規基底では示されない。 さらに, 生体直交力学量子相転移の周期性は, 臨界運動量における2段階のサブシステムが振動するか, 定常状態に達するかに依存することがわかった。

By utilizing biorthogonal bases, we develop a comprehensive framework for studying biorthogonal dynamical quantum phase transitions in non-Hermitian systems. With the help of the previously overlooked associated state, we define the automatically normalized biorthogonal Loschmidt echo. This approach is capable of handling arbitrary non-Hermitian systems with complex eigenvalues and naturally eliminates the negative value of Loschmidt rate obtained without the biorthogonal bases. Taking the non-Hermitian Su-Schrieffer-Heeger model as a concrete example, a $1/2$ change of dynamical topological order parameter in biorthogonal bases is observed which is not shown in self-normal bases. Furthermore, we discover that the periodicity of biorthogonal dynamical quantum phase transitions depends on whether the two-level subsystem at the critical momentum oscillates or reaches a steady state.
翻訳日:2024-06-03 20:51:10 公開日:2024-05-31
# ビットフリップ時間10秒を超える猫量子ビットの量子制御

Quantum control of a cat-qubit with bit-flip times exceeding ten seconds ( http://arxiv.org/abs/2307.06617v2 )

ライセンス: Link先を確認
Ulysse Réglade, Adrien Bocquet, Ronan Gautier, Joachim Cohen, Antoine Marquet, Emanuele Albertinale, Natalia Pankratova, Mattis Hallén, Felix Rautschke, Lev-Arcady Sellem, Pierre Rouchon, Alain Sarlette, Mazyar Mirrahimi, Philippe Campagne-Ibarcq, Raphaël Lescanne, Sébastien Jezouin, Zaki Leghtas, (参考訳) 量子ビット(量子ビット)は、環境との制御不能な相互作用により、いくつかのタイプのエラーを引き起こす。 これらのエラーを修正するための一般的な戦略は、ハードウェアのオーバーヘッドを突くようなキュービットのアーキテクチャに基づいている。 希望的なパスは、特定の種類のエラーに対して本質的に保護されているキュービットを構築することで、残りのエラーを修正するのに必要なオーバーヘッドを大幅に削減することである。 しかし、前兆の利点は厳しい状態にある:量子ビットの量子的操作は、非常に慎重に設計された保護を壊さなければならない。 最近の量子ビット (cat-qubit) は量子力学系の準安定状態の多様体に符号化され、ビットフリップに対する連続的かつ自律的な保護を得る。 ここでは,超伝導回路実験において,10秒を超えるビットフリップ時間を有するキャットキュービットを実装した。 これは、以前のキャットキュービット実装よりも4桁の大幅な改善である。 我々は490ナノ秒以上の位相-フリップ倍の量子重畳状態を準備し、画像化する。 最も重要なことは、ビットフリップ保護を破ることなくこれらの量子重ね合わせの位相を制御することである。 この実験は、量子制御と固有のビットフリップ保護の互換性を前例のないレベルで示し、将来の量子技術に対するこれらの動的量子ビットの生存可能性を示している。

Quantum bits (qubits) are prone to several types of errors due to uncontrolled interactions with their environment. Common strategies to correct these errors are based on architectures of qubits involving daunting hardware overheads. A hopeful path forward is to build qubits that are inherently protected against certain types of errors, so that the overhead required to correct remaining ones is significantly reduced. However, the foreseen benefit rests on a severe condition: quantum manipulations of the qubit must not break the protection that has been so carefully engineered. A recent qubit - the cat-qubit - is encoded in the manifold of metastable states of a quantum dynamical system, thereby acquiring continuous and autonomous protection against bit-flips. Here, in a superconducting circuit experiment, we implement a cat-qubit with bit-flip times exceeding 10 seconds. This is a four order of magnitude improvement over previous cat-qubit implementations. We prepare and image quantum superposition states, and measure phase-flip times above 490 nanoseconds. Most importantly, we control the phase of these quantum superpositions without breaking bit-flip protection. This experiment demonstrates the compatibility of quantum control and inherent bit-flip protection at an unprecedented level, showing the viability of these dynamical qubits for future quantum technologies.
翻訳日:2024-06-03 20:51:10 公開日:2024-05-31
# 不均衡運動に向けて:映像画像分割のための部分分離ネットワーク

Towards Imbalanced Motion: Part-Decoupling Network for Video Portrait Segmentation ( http://arxiv.org/abs/2307.16565v2 )

ライセンス: Link先を確認
Tianshu Yu, Changqun Xia, Jia Li, (参考訳) 近年,映像のフレームから著名な前景肖像画をセグメント化することを目的とした映像肖像画セグメンテーション (VPS) が注目されている。 しかし、既存のVPSデータセットの単純さは、タスクの広範な研究に制限をもたらす。 本研究では,101本のビデオクリップを7つのシナリオカテゴリにまとめ,10,843枚のサンプルフレームをピクセルレベルで微調整した,複雑な大規模マルチシーン映像ポートレートセグメンテーションデータセットMVPを提案する。 データセットには多様なシーンと複雑な背景環境があり、VPSで最も複雑なデータセットである。 データセット構築中に画像を含む多数の動画を観察した結果、人体の関節構造のため、肖像画の動きは部分的に関連付けられており、異なる部分の動作が比較的独立していることが判明した。 つまり、肖像画の異なる部分の動きは不均衡である。 この不均衡に向けて、直感的で合理的な考え方は、肖像画の異なる動き状態が、肖像画を部品に分解することでよりうまく活用できるということである。 これを実現するために,ビデオポートレートセグメンテーションのためのPart-Decoupling Network (PDNet)を提案する。 具体的には, フレーム間部分識別注意モジュール (IPDA) を提案し, ポートレートを無監督で分割し, それぞれに指定された識別的特徴に対する異なる注意力を利用する。 このように、不均衡な動きのポートレート部分に適切な注意を払って、部分識別された相関関係を抽出することにより、ポートレートをより正確にセグメント化することができる。 実験により,本手法は最先端の手法と比較して先行性能が得られた。

Video portrait segmentation (VPS), aiming at segmenting prominent foreground portraits from video frames, has received much attention in recent years. However, simplicity of existing VPS datasets leads to a limitation on extensive research of the task. In this work, we propose a new intricate large-scale Multi-scene Video Portrait Segmentation dataset MVPS consisting of 101 video clips in 7 scenario categories, in which 10,843 sampled frames are finely annotated at pixel level. The dataset has diverse scenes and complicated background environments, which is the most complex dataset in VPS to our best knowledge. Through the observation of a large number of videos with portraits during dataset construction, we find that due to the joint structure of human body, motion of portraits is part-associated, which leads that different parts are relatively independent in motion. That is, motion of different parts of the portraits is imbalanced. Towards this imbalance, an intuitive and reasonable idea is that different motion states in portraits can be better exploited by decoupling the portraits into parts. To achieve this, we propose a Part-Decoupling Network (PDNet) for video portrait segmentation. Specifically, an Inter-frame Part-Discriminated Attention (IPDA) module is proposed which unsupervisedly segments portrait into parts and utilizes different attentiveness on discriminative features specified to each different part. In this way, appropriate attention can be imposed to portrait parts with imbalanced motion to extract part-discriminated correlations, so that the portraits can be segmented more accurately. Experimental results demonstrate that our method achieves leading performance with the comparison to state-of-the-art methods.
翻訳日:2024-06-03 20:41:23 公開日:2024-05-31
# 言語で世界をモデル化する学習

Learning to Model the World with Language ( http://arxiv.org/abs/2308.01399v2 )

ライセンス: Link先を確認
Jessy Lin, Yuqing Du, Olivia Watkins, Danijar Hafner, Pieter Abbeel, Dan Klein, Anca Dragan, (参考訳) 人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。 現在のエージェントは単純な言語命令を実行することを学べるが、我々は多様な言語("このボタンがテレビをオンにする"や"ボウルを片付ける"など)を活用するエージェントの構築を目指している。 私たちのキーとなる考え方は、エージェントが未来を予測するのに役立つ信号として、このような多様な言語を解釈すべきであるということです。 この視点は、言語理解と将来の予測を強力な自己教師型学習目標として統合する。 我々は、将来のテキストや画像表現を予測するためにマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化し、想像されたモデルロールアウトから行動することを学ぶ。 言語条件付きポリシーを学習する現在の手法は、より多様な種類の言語で性能が劣化しているのに対し、Dynalangは、環境記述、ゲームルール、命令を活用して、ゲームプレイからフォトリアリスティックなホームスキャンのナビゲートまで、タスクを最適化する。 ダイナラングは、テキストのみのデータに基づいて事前訓練し、オフラインのデータセットから学習し、環境に根ざした言語を生成することができる。

To interact with humans and act in the world, agents need to understand the range of language that people use and relate it to the visual world. While current agents can learn to execute simple language instructions, we aim to build agents that leverage diverse language -- language like "this button turns on the TV" or "I put the bowls away" -- that conveys general knowledge, describes the state of the world, provides interactive feedback, and more. Our key idea is that agents should interpret such diverse language as a signal that helps them predict the future: what they will observe, how the world will behave, and which situations will be rewarded. This perspective unifies language understanding with future prediction as a powerful self-supervised learning objective. We instantiate this in Dynalang, an agent that learns a multimodal world model to predict future text and image representations, and learns to act from imagined model rollouts. While current methods that learn language-conditioned policies degrade in performance with more diverse types of language, we show that Dynalang learns to leverage environment descriptions, game rules, and instructions to excel on tasks ranging from game-playing to navigating photorealistic home scans. Finally, we show that our method enables additional capabilities due to learning a generative model: Dynalang can be pretrained on text-only data, enabling learning from offline datasets, and generate language grounded in an environment.
翻訳日:2024-06-03 20:41:23 公開日:2024-05-31
# 角膜信号の不均一測定率を用いた周辺制御:物理規則化多エージェント強化学習アプローチ

Perimeter Control with Heterogeneous Metering Rates for Cordon Signals: A Physics-Regularized Multi-Agent Reinforcement Learning Approach ( http://arxiv.org/abs/2308.12985v2 )

ライセンス: Link先を確認
Jiajie Yu, Pierre-Antoine Laharotte, Yu Han, Wei Ma, Ludovic Leclercq, (参考訳) マクロ基盤図 (MFD) に基づく保護ネットワーク (PN) の移動流を制御し, 過飽和状況下での都市道路網の制御に対処するための周辺制御 (PC) 戦略が提案されている。 コードン信号の均一測定速度は, 交差点レベルでの局部交通状態のばらつきを考慮し, 激しい局部交通渋滞とネットワーク安定性の低下を引き起こす可能性がある。 コードン信号の不均一な測定速度を持つPC戦略は、周辺を正確に制御できるが、この問題の複雑さはPNのスケールとともに指数関数的に増加する。 本稿では,マルチエージェント強化学習(MARL)に基づく交通信号制御フレームワークを活用し,コードン信号の不均一な計測率を考慮したPC問題をマルチエージェント協調タスクに分解する。 各エージェントは、コードンに位置する個々の信号を制御し、集中的な方法と比較してコントローラのアクション空間の次元を減少させる。 MARLフレームワークの物理正則化手法を提案し、MFDに基づく知識を局所エージェントのアクション値関数に符号化することにより、分散コードン信号制御装置がグローバルネットワーク状態を認識することを保証する。 提案したPCストラテジーは,PN内の全トラフィック状態を検出し,物理正則化を介してMARLフレームワーク内のコードン信号制御装置にローカル命令を配信するフィードバックPCストラテジーを備えた2段階システムとして運用されている。 微視的交通環境における需要パターンの異なる数値実験を通じて,提案したPC戦略は有望な堅牢性と伝達性を示す。 ネットワークスループットの向上、ゲートリンクの分散遅延の低減、二酸化炭素排出量の削減など、最先端のフィードバックPC戦略よりも優れています。

Perimeter Control (PC) strategies have been proposed to address urban road network control in oversaturated situations by regulating the transfer flow of the Protected Network (PN) based on the Macroscopic Fundamental Diagram (MFD). The uniform metering rate for cordon signals in most existing studies overlooks the variance of local traffic states at the intersection level, which may cause severe local traffic congestion and degradation of the network stability. PC strategies with heterogeneous metering rates for cordon signals allow precise control for the perimeter but the complexity of the problem increases exponentially with the scale of the PN. This paper leverages a Multi-Agent Reinforcement Learning (MARL)-based traffic signal control framework to decompose this PC problem, which considers heterogeneous metering rates for cordon signals, into multi-agent cooperation tasks. Each agent controls an individual signal located in the cordon, decreasing the dimension of action space for the controller compared to centralized methods. A physics regularization approach for the MARL framework is proposed to ensure the distributed cordon signal controllers are aware of the global network state by encoding MFD-based knowledge into the action-value functions of the local agents. The proposed PC strategy is operated as a two-stage system, with a feedback PC strategy detecting the overall traffic state within the PN and then distributing local instructions to cordon signals controllers in the MARL framework via the physics regularization. Through numerical tests with different demand patterns in a microscopic traffic environment, the proposed PC strategy shows promising robustness and transferability. It outperforms state-of-the-art feedback PC strategies in increasing network throughput, decreasing distributed delay for gate links, and reducing carbon emissions.
翻訳日:2024-06-03 20:41:23 公開日:2024-05-31
# 短距離系から生じるハミルトニアン交絡の関連長距離相互作用

Relevant long-range interaction of the entanglement Hamiltonian emerges from a short-range system ( http://arxiv.org/abs/2309.16089v2 )

ライセンス: Link先を確認
Chuhao Li, Rui-Zhen Huang, Yi-Ming Ding, Zi Yang Meng, Yan-Cheng Wang, Zheng Yan, (参考訳) Li-Haldane-Poilblanc予想の他に、ハミルトニアン(EH)の絡み合いは、実際には仮想エッジ上の元のハミルトニアンとあまり似ていない。 必然的に、EHは物理学に大きな影響を与えるいくつかの関連する長距離相互作用項を持つ。 一般性を失うことなく、スピン-1/2ハイゼンベルク複層を研究し、大規模EHをシミュレートできる新しい量子モンテカルロ法により、2つの層間の絡み合い情報を得る。 ゴールドストーンモードを持つ絡み合いスペクトルは、Li-Haldane-Poilblanc予想と一致する単一層上のハイゼンベルクモデルのように思われるが、実際にはEHの有限温度相転移が存在することを実証する。 結果はメルミン=ワグナーの定理に反し、EHには関連する長距離項が存在するはずである。 これは、Li-Haldane-Poilblanc予想が、完全に異なる物理を導く可能性があるEHに必要な補正を無視していることを明らかにする。

Beyond the Li-Haldane-Poilblanc conjecture, we find the entanglement Hamiltonian (EH) is actually not closely similar to the original Hamiltonian on the virtual edge. Unexpectedly, the EH has some relevant long-range interacting terms which hugely affect the physics. Without loss of generality, we study a spin-1/2 Heisenberg bilayer to obtain the entanglement information between the two layers through our newly developed quantum Monte Carlo scheme, which can simulate large-scale EH. Although the entanglement spectrum carrying the Goldstone mode seems like a Heisenberg model on a single layer, which is consistent with Li-Haldane-Poilblanc conjecture, we demonstrate that there actually exists a finite-temperature phase transition of the EH. The results violate the Mermin-Wagner theorem, which means there should be relevant long-range terms in the EH. It reveals that the Li-Haldane-Poilblanc conjecture ignores necessary corrections for the EH which may lead totally different physics.
翻訳日:2024-06-03 20:41:23 公開日:2024-05-31
# 重み付きデータに基づく高次元ロバストレグレッション:漸近性と普遍性

High-dimensional robust regression under heavy-tailed data: Asymptotics and Universality ( http://arxiv.org/abs/2309.16476v2 )

ライセンス: Link先を確認
Urte Adomaityte, Leonardo Defilippis, Bruno Loureiro, Gabriele Sicuro, (参考訳) 共変量および応答関数の重み付き汚染の存在下での頑健な回帰推定器の高次元特性について検討した。 特に,第2モーメントと高次モーメントが存在しない場合を含む,楕円共変量および雑音データ分布に基づいて訓練されたM-推定器の鋭い漸近特性について述べる。 整合性にもかかわらず、最適に調整された位置パラメータ$\delta$は重み付き雑音の存在下での高次元状態において最適であり、最適性能を達成するためにさらなる正規化の必要性を強調している。 この結果はまた、サンプルの複雑さと汚染の関数として$\delta$における遷移の存在を明らかにする。 さらに,尾根回帰の余剰リスクに対する崩壊率を導出する。 有限第二モーメントを持つ共変量分布には最適かつ普遍的であるが、共変量 2 モーメントが存在しなければ、その崩壊速度は著しく高速であることを示す。 最後に, 混合モデルに基づいて学習した任意の凸正規化を用いた一般化線形推定など, モデルとデータ分布のよりリッチなファミリに容易に一般化できることを述べる。

We investigate the high-dimensional properties of robust regression estimators in the presence of heavy-tailed contamination of both the covariates and response functions. In particular, we provide a sharp asymptotic characterisation of M-estimators trained on a family of elliptical covariate and noise data distributions including cases where second and higher moments do not exist. We show that, despite being consistent, the Huber loss with optimally tuned location parameter $\delta$ is suboptimal in the high-dimensional regime in the presence of heavy-tailed noise, highlighting the necessity of further regularisation to achieve optimal performance. This result also uncovers the existence of a transition in $\delta$ as a function of the sample complexity and contamination. Moreover, we derive the decay rates for the excess risk of ridge regression. We show that, while it is both optimal and universal for covariate distributions with finite second moment, its decay rate can be considerably faster when the covariates' second moment does not exist. Finally, we show that our formulas readily generalise to a richer family of models and data distributions, such as generalised linear estimation with arbitrary convex regularisation trained on mixture models.
翻訳日:2024-06-03 20:41:23 公開日:2024-05-31
# プライマルデュアル連続学習:適応的メモリ割り当てによる安定性と塑性のバランス

Primal Dual Continual Learning: Balancing Stability and Plasticity through Adaptive Memory Allocation ( http://arxiv.org/abs/2310.00154v2 )

ライセンス: Link先を確認
Juan Elenter, Navid NaderiAlizadeh, Tara Javidi, Alejandro Ribeiro, (参考訳) 継続的学習は本質的に制約のある学習問題である。 目標は、予期しない要求の下で予測器を学習することである。 いくつかの先行研究はそのような形式を定式化しているが、制約された問題を明示的に解決するわけではない。 本研究では,制約付き最適化問題を直接的に実施することは可能かつ有益であることを示す。 これを実現するために、ラグランジアン双対性による制約付き学習の最近の結果を活用する。 メモリベースのメソッドでは、以前のタスクからのサンプルの小さなサブセットをリプレイバッファに格納できる。 本稿では,タスクレベルでの制約付き粗いアプローチと,サンプルレベルでの制約付ききめ細かなアプローチという,連続学習問題の2つのバージョンを分析する。 両変数は,制約摂動に対する連続学習問題の最適値の感度を示す。 次に、この結果を利用して、粗いアプローチでバッファを分割し、より多くのリソースをより難しいタスクに割り当て、影響のあるサンプルのみを含む詳細なアプローチでバッファをポップアップさせます。 感度指標として双対変数に束縛された偏差を導出し、この結果を様々な連続学習ベンチマークで実証的に相関させる。 また、利用可能なメモリ量とパラメトリゼーションの表現性に関して、これらの手法の限界についても論じる。

Continual learning is inherently a constrained learning problem. The goal is to learn a predictor under a no-forgetting requirement. Although several prior studies formulate it as such, they do not solve the constrained problem explicitly. In this work, we show that it is both possible and beneficial to undertake the constrained optimization problem directly. To do this, we leverage recent results in constrained learning through Lagrangian duality. We focus on memory-based methods, where a small subset of samples from previous tasks can be stored in a replay buffer. In this setting, we analyze two versions of the continual learning problem: a coarse approach with constraints at the task level and a fine approach with constraints at the sample level. We show that dual variables indicate the sensitivity of the optimal value of the continual learning problem with respect to constraint perturbations. We then leverage this result to partition the buffer in the coarse approach, allocating more resources to harder tasks, and to populate the buffer in the fine approach, including only impactful samples. We derive a deviation bound on dual variables as sensitivity indicators, and empirically corroborate this result in diverse continual learning benchmarks. We also discuss the limitations of these methods with respect to the amount of memory available and the expressiveness of the parametrization.
翻訳日:2024-06-03 20:41:23 公開日:2024-05-31
# TRAM:大規模言語モデルのための時間推論ベンチマーク

TRAM: Benchmarking Temporal Reasoning for Large Language Models ( http://arxiv.org/abs/2310.00835v3 )

ライセンス: Link先を確認
Yuqing Wang, Yun Zhao, (参考訳) 時間についての推論は、自然言語で記述された出来事のニュアンスを理解するために不可欠である。 このトピックに関する以前の研究は範囲が限られており、様々な研究で一貫した評価を可能にする標準ベンチマークが欠如していることが特徴である。 本稿では,大規模言語モデル(LLM)のTeR能力の総合的な評価を容易にするために,10のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。 GPT-4 や Llama2 のような一般的な LLM をゼロショットや少数ショットのシナリオで評価し,BERT ベースのモデルとドメイン固有モデルでベースラインを確立する。 以上の結果から,最も優れたモデルラグが人的性能に大きく遅れていることが示唆された。 TRAMがLLMのTeR能力のさらなる向上を後押しすることを願っている。

Reasoning about time is essential for understanding the nuances of events described in natural language. Previous research on this topic has been limited in scope, characterized by a lack of standardized benchmarks that would allow for consistent evaluations across different studies. In this paper, we introduce TRAM, a temporal reasoning benchmark composed of ten datasets, encompassing various temporal aspects of events such as order, arithmetic, frequency, and duration, designed to facilitate a comprehensive evaluation of the TeR capabilities of large language models (LLMs). We evaluate popular LLMs like GPT-4 and Llama2 in zero-shot and few-shot scenarios, and establish baselines with BERT-based and domain-specific models. Our findings indicate that the best-performing model lags significantly behind human performance. It is our aspiration that TRAM will spur further progress in enhancing the TeR capabilities of LLMs.
翻訳日:2024-06-03 20:41:23 公開日:2024-05-31
# データクリーニングと機械学習: 体系的な文献レビュー

Data Cleaning and Machine Learning: A Systematic Literature Review ( http://arxiv.org/abs/2310.01765v2 )

ライセンス: Link先を確認
Pierre-Olivier Côté, Amin Nikanjam, Nafisa Ahmed, Dmytro Humeniuk, Foutse Khomh, (参考訳) コンテキスト: 機械学習(ML)は、さまざまなアプリケーション向けの多くのシステムに統合されます。 MLモデルの性能はトレーニングされたデータの品質に大きく依存しているため、データエラー(すなわちデータのクリーニング)を検出し、修復するアプローチへの関心が高まっている。 研究者はまた、MLをデータクリーニングに使用する方法についても検討している。 私たちの知る限りでは、この関係を包括的にレビューする研究はない。 目的:本論文の目的は2つある。 まず、データクリーニングのためのMLとMLの最新のアプローチを要約することを目的としている。 第2に、将来的な仕事の推奨を提供する。 方法:2016年から2022年にかけての論文を包括的に体系的な文献レビューを行う。 MLでは,特徴クリーニング,ラベルクリーニング,エンティティマッチング,アウトリーチ検出,インプット,全体的データクリーニングなど,さまざまな種類のデータクリーニング活動を識別する。 結果: 各種データクリーニング活動に関する101件の論文の内容を要約し, 今後24件の業務勧告を提示する。 我々のレビューでは、さらなる拡張が可能な多くの有望なデータクリーニング技術に注目している。 結論: 文献のレビューは、コミュニティがデータをきれいにするためのより良いアプローチを開発するのに役立つと信じています。

Context: Machine Learning (ML) is integrated into a growing number of systems for various applications. Because the performance of an ML model is highly dependent on the quality of the data it has been trained on, there is a growing interest in approaches to detect and repair data errors (i.e., data cleaning). Researchers are also exploring how ML can be used for data cleaning; hence creating a dual relationship between ML and data cleaning. To the best of our knowledge, there is no study that comprehensively reviews this relationship. Objective: This paper's objectives are twofold. First, it aims to summarize the latest approaches for data cleaning for ML and ML for data cleaning. Second, it provides future work recommendations. Method: We conduct a systematic literature review of the papers published between 2016 and 2022 inclusively. We identify different types of data cleaning activities with and for ML: feature cleaning, label cleaning, entity matching, outlier detection, imputation, and holistic data cleaning. Results: We summarize the content of 101 papers covering various data cleaning activities and provide 24 future work recommendations. Our review highlights many promising data cleaning techniques that can be further extended. Conclusion: We believe that our review of the literature will help the community develop better approaches to clean data.
翻訳日:2024-06-03 20:41:23 公開日:2024-05-31
# InstinCTの使用: トランスフォーマーを結合したLLMsusIngニューラルバンドのInstruction最適化

Use Your INSTINCT: INSTruction optimization for LLMs usIng Neural bandits Coupled with Transformers ( http://arxiv.org/abs/2310.02905v2 )

ライセンス: Link先を確認
Xiaoqiang Lin, Zhaoxuan Wu, Zhongxiang Dai, Wenyang Hu, Yao Shu, See-Kiong Ng, Patrick Jaillet, Bryan Kian Hsiang Low, (参考訳) 大規模言語モデル (LLM) は命令追従能力に優れ、様々なアプリケーションで優れた性能を発揮している。 しかし、LSMの演奏は彼らに与えられた指示に大きく依存する。 最近の研究は、ブラックボックスLLMに与えられる命令を自動的に最適化するために、クエリ効率のよいベイズ最適化(BO)アルゴリズムを用いている。 しかし、BOは通常、高度に洗練された(例えば高次元の)目的関数、例えば命令をLLMのパフォーマンスにマッピングする関数を最適化するときに不足する。 これは主に、目的関数をモデル化するための代理としてBOによって使用されるガウス過程(GP)の限られた表現力による。 一方、ニューラルネットワーク(NN)、特に事前訓練されたトランスフォーマーは、強い表現力を持ち、非常に複雑な関数をモデル化できることが繰り返し示されている。 そこで我々は,ブラックボックスLLMの命令を最適化するために,NNサロゲートによってBOのGPを置き換えるニューラルネットワークバンドアルゴリズムを採用した。 さらに重要なのは、ニューラルバンディットアルゴリズムは、NNサロゲートと、トレーニング済みのトランスフォーマー(すなわちオープンソースのLLM)が学習した隠れ表現とを自然に結合させることで、その性能が大幅に向上する。 これらのことから,Instruction Optimization usIng Neural Bandits Coupled with Transformers (INSTINCT) アルゴリズムを提案する。 我々はChatGPTの命令最適化を行い、INSTINCTが様々なタスク、例えば様々な命令誘導タスク、ゼロショットチェーン・オブ・シークレット命令を改善するタスクにおいて、ベースラインを一貫して上回っていることを示す。 私たちのコードはhttps://github.com/xqlin98/INSTINCTで利用可能です。

Large language models (LLMs) have shown remarkable instruction-following capabilities and achieved impressive performances in various applications. However, the performances of LLMs depend heavily on the instructions given to them, which are typically manually tuned with substantial human efforts. Recent work has used the query-efficient Bayesian optimization (BO) algorithm to automatically optimize the instructions given to black-box LLMs. However, BO usually falls short when optimizing highly sophisticated (e.g., high-dimensional) objective functions, such as the functions mapping an instruction to the performance of an LLM. This is mainly due to the limited expressive power of the Gaussian process (GP) which is used by BO as a surrogate to model the objective function. Meanwhile, it has been repeatedly shown that neural networks (NNs), especially pre-trained transformers, possess strong expressive power and can model highly complex functions. So, we adopt a neural bandit algorithm which replaces the GP in BO by an NN surrogate to optimize instructions for black-box LLMs. More importantly, the neural bandit algorithm allows us to naturally couple the NN surrogate with the hidden representation learned by a pre-trained transformer (i.e., an open-source LLM), which significantly boosts its performance. These motivate us to propose our INSTruction optimization usIng Neural bandits Coupled with Transformers (INSTINCT) algorithm. We perform instruction optimization for ChatGPT and use extensive experiments to show that INSTINCT consistently outperforms baselines in different tasks, e.g., various instruction induction tasks and the task of improving zero-shot chain-of-thought instructions. Our code is available at https://github.com/xqlin98/INSTINCT.
翻訳日:2024-06-03 20:31:38 公開日:2024-05-31
# 等変深度空間アライメント

Equivariant Deep Weight Space Alignment ( http://arxiv.org/abs/2310.13397v3 )

ライセンス: Link先を確認
Aviv Navon, Aviv Shamsian, Ethan Fetaya, Gal Chechik, Nadav Dym, Haggai Maron, (参考訳) 深層ネットワークの置換対称性は、モデルマージや類似度推定といった基本的な操作を困難にしている。 多くの場合、ネットワークの重み、すなわち、その重み間の最適な置換を見つけることは必要である。 残念ながら、ウェイトアライメントはNPハード問題である。 それまでの研究は主にアライメント問題の緩和版を解くことに集中しており、時間を要する方法や準最適解が導かれる。 本研究では,アライメントプロセスの高速化と品質向上を目的として,Deep-Align というウェイトアライメント問題の解法を目的とした新しいフレームワークを提案する。 この目的のために、まず2つの基本対称性に重み付けが一致することを証明し、これらの対称性を尊重する深いアーキテクチャを提案する。 特に、私たちのフレームワークはラベル付きデータを一切必要としません。 提案手法の理論的解析を行い,様々なタイプのネットワークアーキテクチャと学習環境におけるDeep-Alignの評価を行う。 実験結果から,Deep-Align を用いたフィードフォワードパスは,現在の最適化アルゴリズムと同等のアライメントが得られることがわかった。 さらに、アライメントは他の手法の効果的な初期化として利用することができ、収束の大幅な高速化を伴う改善された解をもたらす。

Permutation symmetries of deep networks make basic operations like model merging and similarity estimation challenging. In many cases, aligning the weights of the networks, i.e., finding optimal permutations between their weights, is necessary. Unfortunately, weight alignment is an NP-hard problem. Prior research has mainly focused on solving relaxed versions of the alignment problem, leading to either time-consuming methods or sub-optimal solutions. To accelerate the alignment process and improve its quality, we propose a novel framework aimed at learning to solve the weight alignment problem, which we name Deep-Align. To that end, we first prove that weight alignment adheres to two fundamental symmetries and then, propose a deep architecture that respects these symmetries. Notably, our framework does not require any labeled data. We provide a theoretical analysis of our approach and evaluate Deep-Align on several types of network architectures and learning setups. Our experimental results indicate that a feed-forward pass with Deep-Align produces better or equivalent alignments compared to those produced by current optimization algorithms. Additionally, our alignments can be used as an effective initialization for other methods, leading to improved solutions with a significant speedup in convergence.
翻訳日:2024-06-03 20:31:38 公開日:2024-05-31
# MOEとLLM:マルチタスク医療応用のためのパラメータ効率的な微調整

When MOE Meets LLMs: Parameter Efficient Fine-tuning for Multi-task Medical Applications ( http://arxiv.org/abs/2310.18339v2 )

ライセンス: Link先を確認
Qidong Liu, Xian Wu, Xiangyu Zhao, Yuanshao Zhu, Derong Xu, Feng Tian, Yefeng Zheng, (参考訳) 近年のLarge Language Models(LLM)の急増は、多くの分野において大きな注目を集めている。 ファインチューニングは、Webベースの医療システムのように、特定のドメインに一般的なLLMを適合させるために必要となることが多い。 しかし、医療応用のための微調整LDMの間には2つの問題が生じる。 ひとつはタスクバラエティの問題であり、現実の医療シナリオにおいて異なるタスクが伴う。 この多様性は、データ不均衡とシーソー問題に対する準最適微調整につながることが多い。 LLMの大量のパラメータは、微調整によって膨大な時間と計算消費をもたらす。 これら2つの問題に対処するために,MOELoRAと呼ばれるマルチタスク医療応用のためのパラメータ効率の良い微調整フレームワークを提案する。 設計されたフレームワークは、マルチタスク学習におけるMix-of-expert(MOE)の利点とパラメータ効率の良い微調整のためのローランク適応(LoRA)の両方を吸収することを目的としている。 MOEとLoRAを統一するために、トレーニング可能なパラメータとして複数の専門家を考案し、トレーニング可能なパラメータの小さなサイズを保持するために、各専門家は2つの低ランク行列から構成される。 そして,すべてのMOELoRA層に対するタスクモチベーションゲート関数を提案し,各専門家のコントリビューションを制御し,タスクごとに異なるパラメータを生成する。 マルチタスク医療データセットを用いて実験を行い、MOELoRAが既存のパラメータを効率よく微調整する手法よりも優れていることを示す。 コードはオンラインで入手できる。

The recent surge in Large Language Models (LLMs) has garnered significant attention across numerous fields. Fine-tuning is often required to fit general LLMs for a specific domain, like the web-based healthcare system. However, two problems arise during fine-tuning LLMs for medical applications. One is the task variety problem, which involves distinct tasks in real-world medical scenarios. The variety often leads to sub-optimal fine-tuning for data imbalance and seesaw problems. Besides, the large amount of parameters in LLMs leads to huge time and computation consumption by fine-tuning. To address these two problems, we propose a novel parameter efficient fine-tuning framework for multi-task medical applications, dubbed as MOELoRA. The designed framework aims to absorb both the benefits of mixture-of-expert (MOE) for multi-task learning and low-rank adaptation (LoRA) for parameter efficient fine-tuning. For unifying MOE and LoRA, we devise multiple experts as the trainable parameters, where each expert consists of a pair of low-rank matrices to retain the small size of trainable parameters. Then, a task-motivated gate function for all MOELoRA layers is proposed, which can control the contributions of each expert and produce distinct parameters for various tasks. We conduct experiments on a multi-task medical dataset, indicating MOELoRA outperforms the existing parameter efficient fine-tuning methods. The code is available online.
翻訳日:2024-06-03 20:31:38 公開日:2024-05-31
# せん断ひずみとGe濃度振動によるSiGeヘテロ構造における結合伝導バンドバレー

Coupling conduction-band valleys in SiGe heterostructures via shear strain and Ge concentration oscillations ( http://arxiv.org/abs/2310.18879v3 )

ライセンス: Link先を確認
Benjamin D. Woods, Hudaiba Soomro, E. S. Joseph, Collin C. D. Frink, Robert Joynt, M. A. Eriksson, Mark Friesen, (参考訳) エンジニアリング伝導バンド・バレー結合は、Siベースのスピン量子ビットにとって鍵となる課題である。 近年の研究では、谷のカップリングを強化する最も信頼性の高い方法は、量子井戸にGe濃度の振動を加えることである。 しかし、超短発振周期は成長が困難であり、長い発振周期は有用ではない。 ここでは, 短波長発振の主な利点は, せん断ひずみによって誘起されるブリルアンゾーンの折り畳みを伴う2次結合過程によって, 長波長構造において達成できることを示す。 最終的に、このような歪みは共通の製造技術によって達成できることが示され、スケーラブルな量子コンピューティングにとって非常に有望なシステムとなった。

Engineering conduction-band valley couplings is a key challenge for Si-based spin qubits. Recent work has shown that the most reliable method for enhancing valley couplings entails adding Ge concentration oscillations to the quantum well. However, ultrashort oscillation periods are difficult to grow, while long oscillation periods do not provide useful improvements. Here, we show that the main benefits of short-wavelength oscillations can be achieved in long-wavelength structures through a second-order coupling process involving Brillouin-zone folding induced by shear strain. We finally show that such strain can be achieved through common fabrication techniques, making this an exceptionally promising system for scalable quantum computing.
翻訳日:2024-06-03 20:31:38 公開日:2024-05-31
# TIC-TAC:Deep Heteroscedastic Regressionにおける共分散推定のためのフレームワーク

TIC-TAC: A Framework for Improved Covariance Estimation in Deep Heteroscedastic Regression ( http://arxiv.org/abs/2310.18953v2 )

ライセンス: Link先を確認
Megh Shukla, Mathieu Salzmann, Alexandre Alahi, (参考訳) 深い異方性回帰は、予測分布の平均と共分散を負の対数類似度を用いて共同最適化する。 しかし、近年の研究では、共分散推定に関わる問題により、この結果が準最適収束をもたらす可能性が示されている。 文献は、予測された共分散の影響を軽減するために、別の定式化を提案することでこの問題に対処するが、予測共分散自体を改善することに焦点をあてる。 1)予測共分散は予測平均のランダム性を真に捉えているか? 2) 監督がない場合、共分散推定の精度を定量化するにはどうすればよいか。 1 はテイラー誘導共分散(TIC)を用いて、その勾配と曲率を第2次テイラー多項式に組み込むことで予測平均のランダム性を捉える。 さらに、相関の概念と絶対誤差を組み合わせたタスク非依存相関(TAC)メトリクスを導入して、共分散を評価する。 合成および実世界のデータセットにまたがる複数の実験におけるTIC-TACの評価を行った。 その結果, TICは共分散を正確に学習するだけでなく, 負の対数類似性の収束性の向上も促進することがわかった。 私たちのコードはhttps://github.com/vita-epfl/TIC-TACで利用可能です。

Deep heteroscedastic regression involves jointly optimizing the mean and covariance of the predicted distribution using the negative log-likelihood. However, recent works show that this may result in sub-optimal convergence due to the challenges associated with covariance estimation. While the literature addresses this by proposing alternate formulations to mitigate the impact of the predicted covariance, we focus on improving the predicted covariance itself. We study two questions: (1) Does the predicted covariance truly capture the randomness of the predicted mean? (2) In the absence of supervision, how can we quantify the accuracy of covariance estimation? We address (1) with a Taylor Induced Covariance (TIC), which captures the randomness of the predicted mean by incorporating its gradient and curvature through the second order Taylor polynomial. Furthermore, we tackle (2) by introducing a Task Agnostic Correlations (TAC) metric, which combines the notion of correlations and absolute error to evaluate the covariance. We evaluate TIC-TAC across multiple experiments spanning synthetic and real-world datasets. Our results show that not only does TIC accurately learn the covariance, it additionally facilitates an improved convergence of the negative log-likelihood. Our code is available at https://github.com/vita-epfl/TIC-TAC
翻訳日:2024-06-03 20:31:38 公開日:2024-05-31
# AIコードの完成に関する学生の視点 - メリットと課題

Students' Perspective on AI Code Completion: Benefits and Challenges ( http://arxiv.org/abs/2311.00177v2 )

ライセンス: Link先を確認
Wannita Takerngsaksiri, Cleshan Warusavitarne, Christian Yaacoub, Matthew Hee Keng Hou, Chakkrit Tantithamthavorn, (参考訳) AI Code Completion(GitHubのCopilotなど)は、コンピュータサイエンスの学生がプログラミング言語と対話する方法に革命をもたらした。 しかし、AIコード補完は、未来のデジタル世界を表す学生の視点ではなく、開発者の視点から研究されている。 本稿では,学生の視点からAIコード補完のメリット,課題,期待について検討した。 そこで我々はまず,最先端の大規模言語モデルであるStarCoderを利用したオープンソースのVisual Studio Code ExtensionツールAutoAuroraを開発した。 次に,10人の学生を対象にインタビュー研究を行い,AIコード補完における学生のメリット,課題,期待に関する洞察力のある知見を分析するための基礎理論を適用した。 この結果から,AIコード補完は,正しい構文提案を提供し,代替ソリューションを提供し,プログラミング指導者としての機能を提供することによって,学生の生産性と効率を向上させることが示唆された。 しかし、AIのコード補完に対する過度な信頼は、プログラミングの概念を表面的に理解し、問題解決のスキルを減らし、創造性を制限してしまう可能性がある。 将来的には、AIコード補完は説明可能であり、教育プロセスを強化するための最高のコーディングプラクティスを提供するべきである。

AI Code Completion (e.g., GitHub's Copilot) has revolutionized how computer science students interact with programming languages. However, AI code completion has been studied from the developers' perspectives, not the students' perspectives who represent the future generation of our digital world. In this paper, we investigated the benefits, challenges, and expectations of AI code completion from students' perspectives. To facilitate the study, we first developed an open-source Visual Studio Code Extension tool AutoAurora, powered by a state-of-the-art large language model StarCoder, as an AI code completion research instrument. Next, we conduct an interview study with ten student participants and apply grounded theory to help analyze insightful findings regarding the benefits, challenges, and expectations of students on AI code completion. Our findings show that AI code completion enhanced students' productivity and efficiency by providing correct syntax suggestions, offering alternative solutions, and functioning as a coding tutor. However, the over-reliance on AI code completion may lead to a surface-level understanding of programming concepts, diminishing problem-solving skills and restricting creativity. In the future, AI code completion should be explainable and provide best coding practices to enhance the education process.
翻訳日:2024-06-03 20:31:38 公開日:2024-05-31
# トランスフォーマーブロックの簡易化

Simplifying Transformer Blocks ( http://arxiv.org/abs/2311.01906v2 )

ライセンス: Link先を確認
Bobby He, Thomas Hofmann, (参考訳) ディープトランスフォーマーのためのシンプルな設計レシピは、同じビルディングブロックを構成することである。 しかし、標準のトランスフォーマーブロックは、正確に配置されたスキップ接続と正規化レイヤを備えた単純なインターウィーブアテンションやMPPサブブロックとは程遠い。 この複雑さは、微妙な変更がトレーニング速度を大幅に削減したり、トレーニング不可能なモデルをレンダリングする、不安定なアーキテクチャにつながります。 この作業では、標準のトランスフォーマーブロックをどの程度単純化できるかを問う。 信号伝搬理論と経験的観測を組み合わせることで、スキップ接続、投影または値パラメータ、シーケンシャルサブブロック、正規化層を含む、多くのブロックコンポーネントをトレーニング速度の損失なしに除去できる修正を動機付けます。 自己回帰デコーダオンリーモデルとBERTエンコーダオンモデルの両方の実験では、標準トランスの更新毎のトレーニング速度と性能をエミュレートし、15%高速なトレーニングスループットを享受し、15%少ないパラメータを使用する。

A simple design recipe for deep Transformers is to compose identical building blocks. But standard transformer blocks are far from simple, interweaving attention and MLP sub-blocks with skip connections & normalisation layers in precise arrangements. This complexity leads to brittle architectures, where seemingly minor changes can significantly reduce training speed, or render models untrainable. In this work, we ask to what extent the standard transformer block can be simplified? Combining signal propagation theory and empirical observations, we motivate modifications that allow many block components to be removed with no loss of training speed, including skip connections, projection or value parameters, sequential sub-blocks and normalisation layers. In experiments on both autoregressive decoder-only and BERT encoder-only models, our simplified transformers emulate the per-update training speed and performance of standard transformers, while enjoying 15% faster training throughput, and using 15% fewer parameters.
翻訳日:2024-06-03 20:31:38 公開日:2024-05-31
# 絶え間ないアクティブラーニングの学習

Learning to Learn for Few-shot Continual Active Learning ( http://arxiv.org/abs/2311.03732v4 )

ライセンス: Link先を確認
Stella Ho, Ming Liu, Shang Gao, Longxiang Gao, (参考訳) 継続的な学習は、新しいドメインで可塑性を示しながら、以前見たタスクを解く際の安定性を確保するために努力する。 連続学習の最近の進歩は、特にNLPドメインにおいて、主に教師付き学習環境に限られている。 本研究では,ラベル付きデータが不十分であり,ラベル付きデータが豊富だがアノテーションの予算が限られているような,数発の継続的なアクティブな学習環境について考察する。 我々はメタラーニングを活用し,メタコンチネンタルアクティブラーニングと呼ばれる手法を提案する。 本手法は,タスク固有のパフォーマンスを高め,メタオブジェクトによる継続的な学習問題に取り組むために,未ラベルデータのプールから最も情報に富んだ例を逐次検索する。 具体的には,メタラーニングと経験リプレイを用いて,タスク間の混乱と破滅的な忘れ込みに対処する。 さらに、経験的なリプレイやサンプルクエリによるメモリ過適合を回避するために、テキスト拡張を組み込むことにより、一般化を確実にする。 様々な分野のテキスト分類データセットのベンチマーク実験を行い、メタコンチネンタルアクティブラーニングの有効性と有効性を検証する。 また,様々なメタ連続学習モデルに対する各種能動学習戦略の影響も分析した。 実験結果から,サンプル選択にランダム性を導入することは,メタコンチネンタル学習フレームワークにおける一般化を維持するための最良のデフォルト戦略であることが示された。

Continual learning strives to ensure stability in solving previously seen tasks while demonstrating plasticity in a novel domain. Recent advances in continual learning are mostly confined to a supervised learning setting, especially in NLP domain. In this work, we consider a few-shot continual active learning setting where labeled data are inadequate, and unlabeled data are abundant but with a limited annotation budget. We exploit meta-learning and propose a method, called Meta-Continual Active Learning. This method sequentially queries the most informative examples from a pool of unlabeled data for annotation to enhance task-specific performance and tackle continual learning problems through meta-objective. Specifically, we employ meta-learning and experience replay to address inter-task confusion and catastrophic forgetting. We further incorporate textual augmentations to avoid memory over-fitting caused by experience replay and sample queries, thereby ensuring generalization. We conduct extensive experiments on benchmark text classification datasets from diverse domains to validate the feasibility and effectiveness of meta-continual active learning. We also analyze the impact of different active learning strategies on various meta continual learning models. The experimental results demonstrate that introducing randomness into sample selection is the best default strategy for maintaining generalization in meta-continual learning framework.
翻訳日:2024-06-03 20:31:38 公開日:2024-05-31
# 条件付き時空間正規化流による気候変動予測に向けて

Towards Climate Variable Prediction with Conditioned Spatio-Temporal Normalizing Flows ( http://arxiv.org/abs/2311.06958v3 )

ライセンス: Link先を確認
Christina Winkler, David Rolnick, (参考訳) 本研究では,時空間予測のための気候科学におけるリモートセンシングデータ生成物に対して,条件付き正規化フローをどのように適用することができるかを検討する。 この手法は, 正確な精度計算, 予測不確実性推定, 効率的な推論とサンプリングなど, より高速な気候シナリオの探索を容易にする性質から選択される。 長期のロールアウトシナリオにおいて,条件付き時空間流が決定的ベースラインおよび確率的ベースラインを超越していることが実験的に明らかになった。 ロールアウト期間を延ばすため、トレーニングタイムの地平線を超えて安定した外挿を行う。 これらの知見は時空間モデリングの分野における貴重な洞察に寄与し、様々な科学的分野にまたがる潜在的な応用が期待できる。

This study investigates how conditional normalizing flows can be applied to remote sensing data products in climate science for spatio-temporal prediction. The method is chosen due to its desired properties such as exact likelihood computation, predictive uncertainty estimation and efficient inference and sampling which facilitates faster exploration of climate scenarios. Experimental findings reveal that the conditioned spatio-temporal flow surpasses both deterministic and stochastic baselines in prolonged rollout scenarios. It exhibits stable extrapolation beyond the training time horizon for extended rollout durations. These findings contribute valuable insights to the field of spatio-temporal modeling, with potential applications spanning diverse scientific disciplines.
翻訳日:2024-06-03 20:31:38 公開日:2024-05-31
# 目標精度の調整:オープンドメインプロシージャカスタマイズのための編集ベースエージェント

Tailoring with Targeted Precision: Edit-Based Agents for Open-Domain Procedure Customization ( http://arxiv.org/abs/2311.09510v3 )

ライセンス: Link先を確認
Yash Kumar Lal, Li Zhang, Faeze Brahman, Bodhisattwa Prasad Majumder, Peter Clark, Niket Tandon, (参考訳) 庭の植え方などのハウツー・プロシージャは今や何百万人ものユーザーが利用しているが、時には特定のニーズに合うようにカスタマイズする必要がある。 我々のゴールは、このようなカスタマイズを行うLLMの能力の測定と改善です。 我々のアプローチは、カスタマイズに必要な200以上のWikiHowプロシージャのCustomPlansと呼ばれる新しい評価セットを使用して、カスタマイズのためのシンプルなマルチLLMエージェントアーキテクチャとエンドツーエンドのLCMをテストすることである。 2つのLLMエージェントが連続的に使用される単純なアーキテクチャは、一般的なハウツープロシージャを編集するアーキテクチャと、その実行可能性を検証するアーキテクチャとで、エンドツーエンドのLLMよりも大幅に優れています(10.5%絶対)。 このことから, LLM はプロシージャのカスタマイズに合理的に設定可能であることが示唆された。 これはまた、マルチエージェントの編集アーキテクチャが、将来他のカスタマイズアプリケーション(例えば、コーディング、クリエイティブな書き込み)のためにさらに探求する価値があることを示唆している。

How-to procedures, such as how to plant a garden, are now used by millions of users, but sometimes need customizing to meet a user's specific needs, e.g., planting a garden without pesticides. Our goal is to measure and improve an LLM's ability to perform such customization. Our approach is to test several simple multi-LLM-agent architectures for customization, as well as an end-to-end LLM, using a new evaluation set, called CustomPlans, of over 200 WikiHow procedures each with a customization need. We find that a simple architecture with two LLM agents used sequentially performs best, one that edits a generic how-to procedure and one that verifies its executability, significantly outperforming (10.5% absolute) an end-to-end prompted LLM. This suggests that LLMs can be configured reasonably effectively for procedure customization. This also suggests that multi-agent editing architectures may be worth exploring further for other customization applications (e.g. coding, creative writing) in the future.
翻訳日:2024-06-03 20:31:38 公開日:2024-05-31
# 造影MRIによる胸部切開術の術前・術後成績

Pre- to Post-Contrast Breast MRI Synthesis for Enhanced Tumour Segmentation ( http://arxiv.org/abs/2311.10879v3 )

ライセンス: Link先を確認
Richard Osuala, Smriti Joshi, Apostolia Tsirikoglou, Lidia Garrucho, Walter H. L. Pinaya, Oliver Diaz, Karim Lekadir, (参考訳) 腫瘍の検出と治療の利点にもかかわらず、ダイナミックコントラスト造影MRI(DCE-MRI)における造影剤の投与は、その侵襲性、生体蓄積、腎原性全身線維症のリスクなど、様々な問題と関連している。 本研究は, GAN(Generative Adversarial Network)の機能を利用して, コントラスト前T1強調脂肪飽和乳房MRIを対応する第1のDCE-MRIシーケンスに翻訳することにより, 合成コントラストの増強を実現する可能性について検討した。 さらに, 合成データの質を原理的に定量的に評価し, 最適生成モデルを選択するための基盤となるスケールドアグリゲート尺度(SAMe)を導入する。 定量的な画像品質指標を用いて生成したDCE-MRIデータを評価し、3D乳房切片の下流タスクに適用する。 以上の結果から, 造影後DCE-MRI合成が乳房のセグメンテーションモデルの堅牢性向上に寄与する可能性が示唆された。 私たちのコードはhttps://github.com/RichardObi/pre_post_ synthesis.comで利用可能です。

Despite its benefits for tumour detection and treatment, the administration of contrast agents in dynamic contrast-enhanced MRI (DCE-MRI) is associated with a range of issues, including their invasiveness, bioaccumulation, and a risk of nephrogenic systemic fibrosis. This study explores the feasibility of producing synthetic contrast enhancements by translating pre-contrast T1-weighted fat-saturated breast MRI to their corresponding first DCE-MRI sequence leveraging the capabilities of a generative adversarial network (GAN). Additionally, we introduce a Scaled Aggregate Measure (SAMe) designed for quantitatively evaluating the quality of synthetic data in a principled manner and serving as a basis for selecting the optimal generative model. We assess the generated DCE-MRI data using quantitative image quality metrics and apply them to the downstream task of 3D breast tumour segmentation. Our results highlight the potential of post-contrast DCE-MRI synthesis in enhancing the robustness of breast tumour segmentation models via data augmentation. Our code is available at https://github.com/RichardObi/pre_post_synthesis.
翻訳日:2024-06-03 20:31:38 公開日:2024-05-31
# ELF:音声合成のための話者特化潜在音声特徴の符号化

ELF: Encoding Speaker-Specific Latent Speech Feature for Speech Synthesis ( http://arxiv.org/abs/2311.11745v2 )

ライセンス: Link先を確認
Jungil Kong, Junmo Lee, Jeongmin Kim, Beomjeong Kim, Jihoon Park, Dohee Kong, Changheon Lee, Sangjin Kim, (参考訳) 本研究では,対象話者のデータセットに付加的な訓練を加えることなく,訓練されたマルチ話者モデルのように,話者の全体的な特徴を詳細に表現することのできる,多数の話者をモデル化する新しい手法を提案する。 類似した目的を持った様々な作品が活発に研究されているが、その性能は基本的限界のため、訓練されたマルチスピーカーモデルほどには達していない。 従来の制限を克服するために,特徴を識別し,それを音声合成モデルに調和させることにより,対象話者の音声特性を効果的に表現する手法を提案する。 提案手法は, 主観的類似度評価において, 未知話者であっても, 高性能多話者モデルの話者よりも有意に高い類似度平均世論スコア(SMOS)を得た。 提案手法は,ゼロショット法を有意差で上回る性能を示した。 さらに,本手法は,新しい人工スピーカーの開発において顕著な性能を示す。 さらに、符号化された潜在特徴が、元の話者の音声を完全に再構成するのに十分な情報であることを示す。 本手法は,様々なタスクにおいて話者の特性を符号化し,再構成するための一般的な手法として利用できる。

In this work, we propose a novel method for modeling numerous speakers, which enables expressing the overall characteristics of speakers in detail like a trained multi-speaker model without additional training on the target speaker's dataset. Although various works with similar purposes have been actively studied, their performance has not yet reached that of trained multi-speaker models due to their fundamental limitations. To overcome previous limitations, we propose effective methods for feature learning and representing target speakers' speech characteristics by discretizing the features and conditioning them to a speech synthesis model. Our method obtained a significantly higher similarity mean opinion score (SMOS) in subjective similarity evaluation than seen speakers of a high-performance multi-speaker model, even with unseen speakers. The proposed method also outperforms a zero-shot method by significant margins. Furthermore, our method shows remarkable performance in generating new artificial speakers. In addition, we demonstrate that the encoded latent features are sufficiently informative to reconstruct an original speaker's speech completely. It implies that our method can be used as a general methodology to encode and reconstruct speakers' characteristics in various tasks.
翻訳日:2024-06-03 20:31:38 公開日:2024-05-31
# 第二の考えを持っているか、聞いてみよう。

Having Second Thoughts? Let's hear it ( http://arxiv.org/abs/2311.15356v2 )

ライセンス: Link先を確認
Jung H. Lee, Sujith Vijayan, (参考訳) ディープラーニングモデルは、低次知覚領域から高次認知領域へのボトムアップ信号経路を緩やかに模倣する。 訓練後、DLモデルはいくつかのドメイン固有のタスクにおいて人間より優れているが、意思決定プロセスは容易に破壊されることが知られている。 人間の脳は複数の機能領域から構成されており、ボトムアップとトップダウン(高次から低次まで)の複雑な相互作用に依存しているため、トップダウン信号処理を取り入れることで、DLモデルをより堅牢にすることができると仮定する。 この仮説に対処するため,本論文では,DLモデルをより堅牢にできるかどうか,選択的注意を模倣した認証プロセスを提案する。 実験的な評価から,新たに提案された認証により,DLモデルの精度が向上し,その脆弱性を人為的,自然的両面的な例で軽減する安全対策が構築できることが示唆された。

Deep learning models loosely mimic bottom-up signal pathways from low-order sensory areas to high-order cognitive areas. After training, DL models can outperform humans on some domain-specific tasks, but their decision-making process has been known to be easily disrupted. Since the human brain consists of multiple functional areas highly connected to one another and relies on intricate interplays between bottom-up and top-down (from high-order to low-order areas) processing, we hypothesize that incorporating top-down signal processing may make DL models more robust. To address this hypothesis, we propose a certification process mimicking selective attention and test if it could make DL models more robust. Our empirical evaluations suggest that this newly proposed certification can improve DL models' accuracy and help us build safety measures to alleviate their vulnerabilities with both artificial and natural adversarial examples.
翻訳日:2024-06-03 20:21:48 公開日:2024-05-31
# 360Loc: クロスデバイスクエリによる全方位視覚ローカライゼーションのためのデータセットとベンチマーク

360Loc: A Dataset and Benchmark for Omnidirectional Visual Localization with Cross-device Queries ( http://arxiv.org/abs/2311.17389v3 )

ライセンス: Link先を確認
Huajian Huang, Changkun Liu, Yipeng Zhu, Hui Cheng, Tristan Braud, Sai-Kit Yeung, (参考訳) ポータブル360ドル^\circ$カメラは、大規模なビジュアルデータベースを確立するための安価で効率的なツールになりつつある。 シーンの全方位ビューをキャプチャすることで、これらのカメラは視覚的ローカライゼーションに不可欠な環境モデルを迅速に構築することができる。 しかし、貴重なデータセットがないため、このような利点は見過ごされがちである。 本稿では,360$^\circ$画像からなる新しいベンチマークデータセットである360Locを紹介した。 本稿では,360$^\circ$とライダーデータを組み合わせた360$^\circ$マッピングの実践的実装について述べる。 360Locは、360$^\circ$参照フレーム、ピンホール、超ワイドなFoV魚眼、360$^\circ$カメラからのクエリフレームを含む、クロスデバイスな視覚的位置決めの課題を探求する最初のデータセットとベンチマークである。 視覚的ローカライゼーションタスクにおいて,360$^\circ$画像から低FoVクエリフレームを生成する仮想カメラ手法を提案する。 また、この仮想カメラアプローチを特徴マッチングベースに拡張し、デバイス間ドメインギャップによる性能損失を軽減するために回帰ベースの手法を適用し、最先端のベースラインに対するその効果を評価する。 一方向の視覚的ローカライゼーションは、対称性と繰り返し構造を持つ大規模シーンに挑戦する上で、より堅牢であることを示す。 これらの結果は、360度カメラマッピングと、デバイス間クエリによる全方向の視覚的ローカライゼーションに関する新たな洞察を提供する。

Portable 360$^\circ$ cameras are becoming a cheap and efficient tool to establish large visual databases. By capturing omnidirectional views of a scene, these cameras could expedite building environment models that are essential for visual localization. However, such an advantage is often overlooked due to the lack of valuable datasets. This paper introduces a new benchmark dataset, 360Loc, composed of 360$^\circ$ images with ground truth poses for visual localization. We present a practical implementation of 360$^\circ$ mapping combining 360$^\circ$ images with lidar data to generate the ground truth 6DoF poses. 360Loc is the first dataset and benchmark that explores the challenge of cross-device visual positioning, involving 360$^\circ$ reference frames, and query frames from pinhole, ultra-wide FoV fisheye, and 360$^\circ$ cameras. We propose a virtual camera approach to generate lower-FoV query frames from 360$^\circ$ images, which ensures a fair comparison of performance among different query types in visual localization tasks. We also extend this virtual camera approach to feature matching-based and pose regression-based methods to alleviate the performance loss caused by the cross-device domain gap, and evaluate its effectiveness against state-of-the-art baselines. We demonstrate that omnidirectional visual localization is more robust in challenging large-scale scenes with symmetries and repetitive structures. These results provide new insights into 360-camera mapping and omnidirectional visual localization with cross-device queries.
翻訳日:2024-06-03 20:21:48 公開日:2024-05-31
# CLIP-QDA: 説明可能なコンセプトボトルネックモデル

CLIP-QDA: An Explainable Concept Bottleneck Model ( http://arxiv.org/abs/2312.00110v3 )

ライセンス: Link先を確認
Rémi Kazmierczak, Eloïse Berthier, Goran Frehse, Gianni Franchi, (参考訳) 本稿では,高速かつ説明可能な画像分類を行うマルチモーダル基礎モデルから設計した説明可能なアルゴリズムを提案する。 CLIPをベースとしたConcept Bottleneck Models (CBM) からインスピレーションを得て,本手法は各ニューロンが特定の単語にリンクする潜在空間を生成する。 この潜伏空間が単純な分布でモデル化できることを観察すると、この潜伏空間の解釈可能性を高めるために、混合ガウス形式(英語版)(Mixture of Gaussian, MoG)を用いる。 次に,概念からラベルを推測するために統計値のみを使用する分類器CLIP-QDAを紹介する。 さらに、この形式主義は、局所的およびグローバル的説明の両方を可能にする。 これらの説明はアーキテクチャの内部設計に由来するものであり、我々の研究は、不透明な基礎モデルのパフォーマンスと透明なモデルの解釈可能性を組み合わせた、新しいグレーボックスモデルのファミリーの一部である。 実験の結果,MoG仮定が仮定された場合,CLIP-QDAは最先端のCBMと同様の精度を達成できることがわかった。 我々の説明は計算を高速化しながら既存のXAI手法と競合する。

In this paper, we introduce an explainable algorithm designed from a multi-modal foundation model, that performs fast and explainable image classification. Drawing inspiration from CLIP-based Concept Bottleneck Models (CBMs), our method creates a latent space where each neuron is linked to a specific word. Observing that this latent space can be modeled with simple distributions, we use a Mixture of Gaussians (MoG) formalism to enhance the interpretability of this latent space. Then, we introduce CLIP-QDA, a classifier that only uses statistical values to infer labels from the concepts. In addition, this formalism allows for both local and global explanations. These explanations come from the inner design of our architecture, our work is part of a new family of greybox models, combining performances of opaque foundation models and the interpretability of transparent models. Our empirical findings show that in instances where the MoG assumption holds, CLIP-QDA achieves similar accuracy with state-of-the-art methods CBMs. Our explanations compete with existing XAI methods while being faster to compute.
翻訳日:2024-06-03 20:21:48 公開日:2024-05-31
# Mamba: 選択状態空間を用いた線形時間シーケンスモデリング

Mamba: Linear-Time Sequence Modeling with Selective State Spaces ( http://arxiv.org/abs/2312.00752v2 )

ライセンス: Link先を確認
Albert Gu, Tri Dao, (参考訳) 現在ディープラーニングのエキサイティングなアプリケーションの多くを動かしているファウンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。 線形アテンションやゲート畳み込み、リカレントモデル、構造化状態空間モデル(SSM)などのサブクワッド・タイム・アーキテクチャは、トランスフォーマーの長周期の計算非効率性に対処するために開発されたが、言語のような重要なモダリティに注意を向けるほど実行されていない。 このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことであり、いくつかの改善がなされている。 まず、SSMパラメータを入力の関数にするだけで、その弱点を離散的なモダリティで処理し、現在のトークンに依存するシーケンス長次元に沿って、モデルを選択的に伝播または忘れることができる。 第二に、この変更は効率的な畳み込みを防止しているが、ハードウェア対応の並列アルゴリズムをリカレントモードで設計する。 我々はこれらの選択的なSSMを、注意やMLPブロック(Mamba)を使わずに、シンプルなエンドツーエンドのニューラルネットワークアーキテクチャに統合する。 Mambaは高速な推論(Transformersより5$\times$高いスループット)とシーケンス長の線形スケーリングを楽しみ、そのパフォーマンスは100万行までの実データで改善される。 一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。 言語モデリングでは、Mamba-3Bモデルはトランスフォーマーを同じサイズで上回り、トランスフォーマーのサイズは事前学習と下流評価の両方で2倍になる。

Foundation models, now powering most of the exciting applications in deep learning, are almost universally based on the Transformer architecture and its core attention module. Many subquadratic-time architectures such as linear attention, gated convolution and recurrent models, and structured state space models (SSMs) have been developed to address Transformers' computational inefficiency on long sequences, but they have not performed as well as attention on important modalities such as language. We identify that a key weakness of such models is their inability to perform content-based reasoning, and make several improvements. First, simply letting the SSM parameters be functions of the input addresses their weakness with discrete modalities, allowing the model to selectively propagate or forget information along the sequence length dimension depending on the current token. Second, even though this change prevents the use of efficient convolutions, we design a hardware-aware parallel algorithm in recurrent mode. We integrate these selective SSMs into a simplified end-to-end neural network architecture without attention or even MLP blocks (Mamba). Mamba enjoys fast inference (5$\times$ higher throughput than Transformers) and linear scaling in sequence length, and its performance improves on real data up to million-length sequences. As a general sequence model backbone, Mamba achieves state-of-the-art performance across several modalities such as language, audio, and genomics. On language modeling, our Mamba-3B model outperforms Transformers of the same size and matches Transformers twice its size, both in pretraining and downstream evaluation.
翻訳日:2024-06-03 20:21:48 公開日:2024-05-31
# マルチパラメータ量子推定のための漁業情報感受性

Fisher information susceptibility for multiparameter quantum estimation ( http://arxiv.org/abs/2312.02035v2 )

ライセンス: Link先を確認
Francesco Albarelli, Ilaria Gianani, Marco G. Genoni, Marco Barbieri, (参考訳) ノイズは量子技術の性能に影響を与えるため、正確な言葉でその影響を捉えることのできる、操作上のメリットの数値を解明することが重要である。 量子気象学において、フィッシャー情報計測ノイズ感受性の導入により、単一パラメータ推定のための測定の頑健さを定量化できるようになった。 ここでは、この概念をマルチパラメータ量子推定シナリオに拡張する。 半定値プログラムの形式でその数学的定義を提供する。 クローズドな公式は見つからなかったが, より上界と下界を感受性に導出する。 次に、これらの手法を、位相差と位相差の連成推定と、光点源の不整合混合を記述する異なるパラメータの推定という、2つのパラダイム的なマルチパラメータ推定の例に適用する。 本稿では,多パラメータ測定の頑健さを許容または阻害する条件について明らかにした。

Noise affects the performance of quantum technologies, hence the importance of elaborating operative figures of merit that can capture its impact in exact terms. In quantum metrology, the introduction of the Fisher information measurement noise susceptibility now allows to quantify the robustness of measurement for single-parameter estimation. Here we extend this notion to the multiparameter quantum estimation scenario. We provide its mathematical definition in the form of a semidefinite program. Although a closed formula could not be found, we further derive an upper and a lower bound to the susceptibility. We then apply these techniques to two paradigmatic examples of multiparameter estimation: the joint estimation of phase and phase-diffusion and the estimation of the different parameters describing the incoherent mixture of optical point sources. Our figure of merit provides clear indications on conditions allowing or hampering robustness of multiparameter measurements.
翻訳日:2024-06-03 20:21:48 公開日:2024-05-31
# グラフ畳み込みはトランスフォーマーの自己意識を豊かにする!

Graph Convolutions Enrich the Self-Attention in Transformers! ( http://arxiv.org/abs/2312.04234v4 )

ライセンス: Link先を確認
Jeongwhan Choi, Hyowon Wi, Jayoung Kim, Yehjin Shin, Kookjin Lee, Nathaniel Trask, Noseong Park, (参考訳) トランスフォーマーは自己認識機構で知られており、自然言語処理、コンピュータビジョン、時系列モデリングなど様々なタスクで最先端のパフォーマンスを実現している。 しかし、Deep Transformerモデルの課題の1つは、レイヤ間の表現が区別できない値に収束し、パフォーマンスが著しく低下するという過度な問題である。 本稿では,従来の自己アテンションを単純なグラフフィルタとして解釈し,グラフ信号処理(GSP)の観点から再設計する。 本稿では,グラフフィルタに基づく自己注意法(GFSA)を提案する。 GFSAはコンピュータビジョン,自然言語処理,グラフ回帰,音声認識,コード分類など,様々な分野におけるトランスフォーマーの性能向上を実証する。

Transformers, renowned for their self-attention mechanism, have achieved state-of-the-art performance across various tasks in natural language processing, computer vision, time-series modeling, etc. However, one of the challenges with deep Transformer models is the oversmoothing problem, where representations across layers converge to indistinguishable values, leading to significant performance degradation. We interpret the original self-attention as a simple graph filter and redesign it from a graph signal processing (GSP) perspective. We propose a graph-filter-based self-attention (GFSA) to learn a general yet effective one, whose complexity, however, is slightly larger than that of the original self-attention mechanism. We demonstrate that GFSA improves the performance of Transformers in various fields, including computer vision, natural language processing, graph regression, speech recognition, and code classification.
翻訳日:2024-06-03 20:21:48 公開日:2024-05-31
# VQ-HPS:ベクトル量子化潜在空間における人間の姿勢と形状推定

VQ-HPS: Human Pose and Shape Estimation in a Vector-Quantized Latent Space ( http://arxiv.org/abs/2312.08291v3 )

ライセンス: Link先を確認
Guénolé Fiche, Simon Leglaive, Xavier Alameda-Pineda, Antonio Agudo, Francesc Moreno-Noguer, (参考訳) RGB画像からのHuman Pose and Shape Estimation(HPSE)に関するこれまでの研究は、パラメトリックと非パラメトリックの2つの主要なグループに分類される。 近年の非パラメトリック手法は, 人体メッシュの3次元座標を直接回帰することにより, 高精度化を実現している。 本研究はHPSE問題に対処する新しいパラダイムを導入し,人間のメッシュの低次元離散潜在表現とHPSEのフレーミングを分類課題とする。 身体モデルパラメータや3次元頂点座標を予測する代わりに、提案する離散潜在表現の予測に重点を置いており、これは登録された人間のメッシュにデコードできる。 この革新的なパラダイムには2つの大きな利点がある。 第一に、低次元の離散表現を予測することは、トレーニングデータが少ない場合でも、人為的ポーズや形状の空間に予測を限定する。 第二に、問題を分類タスクとしてフレーミングすることで、ニューラルネットワークに固有の識別力を利用することができる。 提案モデルであるVQ-HPSはメッシュの離散潜在表現を予測する。 実験結果から,VQ-HPSは従来の非パラメトリック手法よりも優れており,少ないデータでトレーニングした場合のパラメトリック手法と同等に現実的な結果が得られることがわかった。 VQ-HPSはまた、大規模データセットのトレーニングにおいて有望な結果を示し、HPSEの分類アプローチの有意義な可能性を強調している。 プロジェクトページはhttps://g-fiche.github.io/research-pages/vqhps/にある。

Previous works on Human Pose and Shape Estimation (HPSE) from RGB images can be broadly categorized into two main groups: parametric and non-parametric approaches. Parametric techniques leverage a low-dimensional statistical body model for realistic results, whereas recent non-parametric methods achieve higher precision by directly regressing the 3D coordinates of the human body mesh. This work introduces a novel paradigm to address the HPSE problem, involving a low-dimensional discrete latent representation of the human mesh and framing HPSE as a classification task. Instead of predicting body model parameters or 3D vertex coordinates, we focus on predicting the proposed discrete latent representation, which can be decoded into a registered human mesh. This innovative paradigm offers two key advantages. Firstly, predicting a low-dimensional discrete representation confines our predictions to the space of anthropomorphic poses and shapes even when little training data is available. Secondly, by framing the problem as a classification task, we can harness the discriminative power inherent in neural networks. The proposed model, VQ-HPS, predicts the discrete latent representation of the mesh. The experimental results demonstrate that VQ-HPS outperforms the current state-of-the-art non-parametric approaches while yielding results as realistic as those produced by parametric methods when trained with little data. VQ-HPS also shows promising results when training on large-scale datasets, highlighting the significant potential of the classification approach for HPSE. See the project page at https://g-fiche.github.io/research-pages/vqhps/
翻訳日:2024-06-03 20:21:48 公開日:2024-05-31
# 地球は平らである:―説得的会話を通してLLMの誤報に対する信念を調査する―

The Earth is Flat because...: Investigating LLMs' Belief towards Misinformation via Persuasive Conversation ( http://arxiv.org/abs/2312.09085v5 )

ライセンス: Link先を確認
Rongwu Xu, Brian S. Lin, Shujian Yang, Tianqi Zhang, Weiyan Shi, Tianwei Zhang, Zhixuan Fang, Wei Xu, Han Qiu, (参考訳) 大規模な言語モデル(LLM)は膨大な量の知識をカプセル化しているが、それでも外部の誤情報に弱いままである。 現存する研究は主に、この感受性の挙動を1ターンで研究している。 しかし、信念は多面的な会話、特に説得力のある会話の間に変化する可能性がある。 そこで本研究では,LLMの説得的会話に対する感受性について検討し,特に正解できる事実的質問について考察した。 我々はまず、体系的に生成された説得的誤報と組み合わせた事実質問を含むFact to Misinformデータセット(Fact to Misinform)をキュレートする。 そこで我々は,説得的対話におけるLLMの信念変化を追跡するためのテストフレームワークを開発した。 広範にわたる実験により,LLMの事実知識に対する正しい信念は,様々な説得的戦略によって容易に操作できることが判明した。

Large language models (LLMs) encapsulate vast amounts of knowledge but still remain vulnerable to external misinformation. Existing research mainly studied this susceptibility behavior in a single-turn setting. However, belief can change during a multi-turn conversation, especially a persuasive one. Therefore, in this study, we delve into LLMs' susceptibility to persuasive conversations, particularly on factual questions that they can answer correctly. We first curate the Farm (i.e., Fact to Misinform) dataset, which contains factual questions paired with systematically generated persuasive misinformation. Then, we develop a testing framework to track LLMs' belief changes in a persuasive dialogue. Through extensive experiments, we find that LLMs' correct beliefs on factual knowledge can be easily manipulated by various persuasive strategies.
翻訳日:2024-06-03 20:21:48 公開日:2024-05-31
# 応答影響に基づく反実的推論による解釈可能な知識の追跡

Interpretable Knowledge Tracing via Response Influence-based Counterfactual Reasoning ( http://arxiv.org/abs/2312.10045v2 )

ライセンス: Link先を確認
Jiajun Cui, Minghe Yu, Bo Jiang, Aimin Zhou, Jianyong Wang, Wei Zhang, (参考訳) 知識追跡(KT)は,コンピュータ支援教育と知的教習システムにおいて重要な役割を担い,過去の回答記録に基づいて,新たな質問に対する将来の成果を予測することによって,学生の知識能力を評価することを目的とする。 既存の深層学習知識追跡法(DLKT)は予測精度を大幅に向上し、最先端の結果を得たが、しばしば解釈可能性の欠如に悩まされる。 この制限に対処するため、現在のアプローチでは、より説明可能な予測を達成するために心理的影響を取り入れることを検討してきたが、彼らは歴史的な反応の潜在的影響を見逃す傾向にある。 実際、モデルがどのように反応の影響に基づいて予測を行うかを理解することは、知識追跡プロセスの透明性と信頼性を高め、解釈可能なKTの新しいパラダイムの機会を提供する。 しかし、観測不可能な応答の影響を測定することは困難である。 本稿では, 学生が正解した質問に対して, 正解が正しくなかった場合と, 正解が正解した場合と, 正解が正解である場合と, 正解が正解である場合と, 正解が正解である場合と, 正解が正解である場合とを, 正解が正解である場合と, 正解が正解である場合と, 正解が正解である場合とを正解する。 そこで本研究では,新しい応答影響に基づく対実的知識追跡フレームワークであるRCKTを提案する。 RCKTは、実数列からの予測結果と介入後の反実数列とを比較して、応答の影響を生成する。 さらに、過去の異なる応答から蓄積した影響を活用するために、最大化および推論技術を導入し、モデルの性能と信頼性をさらに改善する。 実験の結果,RCKT法は4つのデータセット上で6つのベースラインに対して最先端の知識追跡法より優れており,応答影響の信頼性の高い解釈が得られた。

Knowledge tracing (KT) plays a crucial role in computer-aided education and intelligent tutoring systems, aiming to assess students' knowledge proficiency by predicting their future performance on new questions based on their past response records. While existing deep learning knowledge tracing (DLKT) methods have significantly improved prediction accuracy and achieved state-of-the-art results, they often suffer from a lack of interpretability. To address this limitation, current approaches have explored incorporating psychological influences to achieve more explainable predictions, but they tend to overlook the potential influences of historical responses. In fact, understanding how models make predictions based on response influences can enhance the transparency and trustworthiness of the knowledge tracing process, presenting an opportunity for a new paradigm of interpretable KT. However, measuring unobservable response influences is challenging. In this paper, we resort to counterfactual reasoning that intervenes in each response to answer \textit{what if a student had answered a question incorrectly that he/she actually answered correctly, and vice versa}. Based on this, we propose RCKT, a novel response influence-based counterfactual knowledge tracing framework. RCKT generates response influences by comparing prediction outcomes from factual sequences and constructed counterfactual sequences after interventions. Additionally, we introduce maximization and inference techniques to leverage accumulated influences from different past responses, further improving the model's performance and credibility. Extensive experimental results demonstrate that our RCKT method outperforms state-of-the-art knowledge tracing methods on four datasets against six baselines, and provides credible interpretations of response influences.
翻訳日:2024-06-03 20:21:48 公開日:2024-05-31
# 共鳴蛍光におけるコヒーレンス

Coherence in resonance fluorescence ( http://arxiv.org/abs/2312.13743v3 )

ライセンス: Link先を確認
Xu-Jie Wang, Guoqi Huang, Ming-Yang Li, Yuan-Zhuo Wang, Li Liu, Bang Wu, Hanqing Liu, Haiqiao Ni, Zhichuan Niu, Weijie Ji, Rongzhen Jiao, Hua-Lei Yin, Zhiliang Yuan, (参考訳) 2レベルエミッターの共鳴蛍光(RF)は励起強度に関係なく持続的に反膨らみを示すが、弱い励起の下で駆動レーザーのリニア幅を継承する。 これらの性質は、放射体の単一光子飽和度や受動的散乱光として一般的には不一致に説明されるが、最近の理論ではレーザーのようなスペクトルが不整合散乱光との干渉に反結合している。 しかし、この理論は高次散乱過程を示唆し、2つの光子の原子の同時散乱を検証する実験につながった。 もし本当なら、量子情報応用におけるRFの展望を複雑にするかもしれない。 本稿では、すべてのRF光子を1回に1回ずつ自然放出として扱う統一モデルを提案し、RFのスペクトル特性と相関特性の両方を同時に説明できる。 理論上は励起パワー依存性を導出し, 単一光子の入射レベル, RFの1次コヒーレンス, スペクトルフィルタのスーパーバンチ, および半導体量子ドットマイクロピラーデバイス上での実験的検証を行った。 さらに,位相依存型2光子干渉実験で観測された特異な異常な集団化について説明する。 我々の研究は、コヒーレントな光-物質相互作用の新たな理解を提供し、新しい応用を刺激する可能性がある。

Resonance fluorescence (RF) of a two-level emitter displays persistently anti-bunching irrespective of the excitation intensity, but inherits the driving laser's linewidth under weak excitation. These properties are commonly explained disjoinedly as the emitter's single photon saturation or passively scattering light, until a recent theory attributes anti-bunching to the laser-like spectrum's interference with the incoherently scattered light. However, the theory implies higher-order scattering processes, and led to an experiment purporting to validate an atom's simultaneous scattering of two photons. If true, it could complicate RF's prospects in quantum information applications. Here, we propose a unified model that treats all RF photons as spontaneous emission, one at a time, and can explain simultaneously both the RF's spectral and correlation properties. We theoretically derive the excitation power dependencies, with the strongest effects measurable at the single-photon incidence level, of the first-order coherence of the whole RF and super-bunching of the spectrally filtered, followed by experimental confirmation on a semiconductor quantum dot micro-pillar device. Furthermore, our model explains peculiar coincidence bunching observed in phase-dependent two-photon interference experiments. Our work provides novel understandings of coherent light-matter interaction and may stimulate new applications.
翻訳日:2024-06-03 20:21:48 公開日:2024-05-31
# 大規模言語モデルによるテキスト埋め込みの改善

Improving Text Embeddings with Large Language Models ( http://arxiv.org/abs/2401.00368v3 )

ライセンス: Link先を確認
Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei, (参考訳) 本稿では,合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現する方法を提案する。 数十億の弱い教師付きテキストペアを持つ多段階の中間訓練にしばしば依存する既存の方法とは異なり、ラベル付きデータセットによる微調整では、複雑なトレーニングパイプラインの構築や、タスクの多様性や言語カバレッジに制約された手作業によるデータセットに頼る必要がなくなる。 我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。 次に、標準コントラスト損失を用いた合成データ上に、オープンソースデコーダのみを微調整する。 実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。 さらに、合成データとラベルデータの混合を微調整すると、BEIRおよびMTEBベンチマークに新たな最先端結果が設定される。

In this paper, we introduce a novel and simple method for obtaining high-quality text embeddings using only synthetic data and less than 1k training steps. Unlike existing methods that often depend on multi-stage intermediate pre-training with billions of weakly-supervised text pairs, followed by fine-tuning with a few labeled datasets, our method does not require building complex training pipelines or relying on manually collected datasets that are often constrained by task diversity and language coverage. We leverage proprietary LLMs to generate diverse synthetic data for hundreds of thousands of text embedding tasks across 93 languages. We then fine-tune open-source decoder-only LLMs on the synthetic data using standard contrastive loss. Experiments demonstrate that our method achieves strong performance on highly competitive text embedding benchmarks without using any labeled data. Furthermore, when fine-tuned with a mixture of synthetic and labeled data, our model sets new state-of-the-art results on the BEIR and MTEB benchmarks.
翻訳日:2024-06-03 20:21:48 公開日:2024-05-31
# 露光ブラケットは、画像復元と拡張タスクの統合に必要なもの

Exposure Bracketing is All You Need for Unifying Image Restoration and Enhancement Tasks ( http://arxiv.org/abs/2401.00766v4 )

ライセンス: Link先を確認
Zhilu Zhang, Shuohao Zhang, Renlong Wu, Zifei Yan, Wangmeng Zuo, (参考訳) 低照度環境では、鮮明な内容の高品質な写真を取得することが非常に望ましいが、難しい。 マルチイメージ処理手法(バースト、デュアル露光、マルチ露光画像)はこの問題に対処する上で大きな進歩を遂げているが、それらは通常、特定の復元や拡張の問題に焦点を当てており、複数の画像を利用する可能性について完全には検討していない。 マルチ露光画像は,分解,分解,高ダイナミックレンジイメージング,超解像において相補的であるという事実から,露光ブラケット写真を用いて画像復元と強調作業を統合することを提案する。 実世界のペアを集めることの難しさから,まず合成ペアデータを用いてモデルを事前学習し,実世界の未ラベル画像に適応させる手法を提案する。 特に,時間変調リカレントネットワーク(TMRNet)と自己教師あり適応手法を提案する。 さらに,200の夜間シナリオからペアを合成し,実世界の画像を収集するデータシミュレーションパイプラインを構築した。 両データセットの実験から,本手法は最先端のマルチイメージ処理に対して良好に動作することが示された。 データセット、コード、事前トレーニングされたモデルはhttps://github.com/cszhilu1998/BracketIREで入手できる。

It is highly desired but challenging to acquire high-quality photos with clear content in low-light environments. Although multi-image processing methods (using burst, dual-exposure, or multi-exposure images) have made significant progress in addressing this issue, they typically focus on specific restoration or enhancement problems, and do not fully explore the potential of utilizing multiple images. Motivated by the fact that multi-exposure images are complementary in denoising, deblurring, high dynamic range imaging, and super-resolution, we propose to utilize exposure bracketing photography to unify image restoration and enhancement tasks in this work. Due to the difficulty in collecting real-world pairs, we suggest a solution that first pre-trains the model with synthetic paired data and then adapts it to real-world unlabeled images. In particular, a temporally modulated recurrent network (TMRNet) and self-supervised adaptation method are proposed. Moreover, we construct a data simulation pipeline to synthesize pairs and collect real-world images from 200 nighttime scenarios. Experiments on both datasets show that our method performs favorably against the state-of-the-art multi-image processing ones. The dataset, code, and pre-trained models are available at https://github.com/cszhilu1998/BracketIRE.
翻訳日:2024-06-03 20:21:48 公開日:2024-05-31
# SNeurodCNN:アルツハイマー病のモデリングと分類のための構造中心神経変性畳み込みニューラルネットワーク

SNeurodCNN: Structure-focused Neurodegeneration Convolutional Neural Network for Modelling and Classification of Alzheimer's Disease ( http://arxiv.org/abs/2401.03922v3 )

ライセンス: Link先を確認
Simisola Odimayo, Chollette C. Olisah, Khadija Mohammed, (参考訳) 認知症の主要な形態であるアルツハイマー病(AD)は世界的な課題であり、正確な早期診断の緊急の必要性を強調している。 現在の臨床診断は、放射線技師の専門家による解釈に依存しており、これは人間の誤りを招きやすい。 これまでのところ、ディープラーニングは早期AD診断の可能性を秘めている。 しかし、既存の方法では、大脳皮質神経変性の理解を深めるために重要な焦点構造萎縮を見落としていることが多い。 本稿では,SNeurodCNNという新しい構造に着目した神経変性CNNアーキテクチャと,ガンマ補正を用いた画像輝度向上プリプロセッサを含むディープラーニングフレームワークを提案する。 SNeurodCNNアーキテクチャは、MRI(MRI)で捉えた脳構造のセグメント化に起因する焦点構造萎縮の特徴を入力として取る。 その結果、アーキテクチャは、2つのダウンサンプリングされた畳み込みブロックと2つの完全に接続されたレイヤから構成されるCNNコンポーネントのみを考慮し、学習可能なパラメータを正規化するために正規化技術を利用する。 Alzheimer's Disease Neuroimaging Initiative (ADNI) データセットを用いた中矢状・準矢状脳画像の応用により,我々の枠組みは異常な性能を示した。 準矢状視線は97.8%の精度、97.0%の特異性、98.5%の感度を達成し、中矢状視線は98.1%の精度、97.2%の特異性、99.0%の感度で深い洞察を与えた。 モデル解析により,前頭葉,後頭葉,小脳,側頭葉,頭頂葉における軽度認知障害 (MCI) とADの構造動態をとらえるSNeurodCNNの有用性が明らかとなり,早期AD診断における脳構造変化ジギバイオマーカーとしての可能性が示唆された。 この作業は、GitHubで公開したコードを使って再現することができます。

Alzheimer's disease (AD), the predominant form of dementia, is a growing global challenge, emphasizing the urgent need for accurate and early diagnosis. Current clinical diagnoses rely on radiologist expert interpretation, which is prone to human error. Deep learning has thus far shown promise for early AD diagnosis. However, existing methods often overlook focal structural atrophy critical for enhanced understanding of the cerebral cortex neurodegeneration. This paper proposes a deep learning framework that includes a novel structure-focused neurodegeneration CNN architecture named SNeurodCNN and an image brightness enhancement preprocessor using gamma correction. The SNeurodCNN architecture takes as input the focal structural atrophy features resulting from segmentation of brain structures captured through magnetic resonance imaging (MRI). As a result, the architecture considers only necessary CNN components, which comprises of two downsampling convolutional blocks and two fully connected layers, for achieving the desired classification task, and utilises regularisation techniques to regularise learnable parameters. Leveraging mid-sagittal and para-sagittal brain image viewpoints from the Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset, our framework demonstrated exceptional performance. The para-sagittal viewpoint achieved 97.8% accuracy, 97.0% specificity, and 98.5% sensitivity, while the mid-sagittal viewpoint offered deeper insights with 98.1% accuracy, 97.2% specificity, and 99.0% sensitivity. Model analysis revealed the ability of SNeurodCNN to capture the structural dynamics of mild cognitive impairment (MCI) and AD in the frontal lobe, occipital lobe, cerebellum, temporal, and parietal lobe, suggesting its potential as a brain structural change digi-biomarker for early AD diagnosis. This work can be reproduced using code we made available on GitHub.
翻訳日:2024-06-03 20:12:04 公開日:2024-05-31
# フェデレーションラーニングのための緩和されたコントラスト学習

Relaxed Contrastive Learning for Federated Learning ( http://arxiv.org/abs/2401.04928v2 )

ライセンス: Link先を確認
Seonguk Seo, Jinkyu Kim, Geeho Kim, Bohyung Han, (参考訳) 本稿では,フェデレート学習におけるデータ不均一性の課題を効果的に解決するための,新しいコントラスト学習フレームワークを提案する。 まず,局所学習におけるクライアント間の勾配更新の不整合を解析し,特徴表現の分布への依存性を確立することにより,教師付きコントラスト学習(SCL)の目的を導出し,局所的な偏差を緩和する。 さらに,フェデレーション学習におけるSCLの「積極的」導入は,表現の崩壊を招き,収束の鈍化と性能向上の限界をもたらすことを示す。 この問題に対処するために、各クラス内の過剰に類似したサンプルペアに対して、分散ペナルティを課す緩和された対照的な学習損失を導入する。 この戦略は、崩壊した表現を防止し、機能の転送性を高め、協調トレーニングを容易にし、大幅なパフォーマンス改善をもたらす。 我々のフレームワークは、実験結果を通じて、標準ベンチマークにおいて、既存のフェデレート学習アプローチよりも大きなマージンを達成しています。

We propose a novel contrastive learning framework to effectively address the challenges of data heterogeneity in federated learning. We first analyze the inconsistency of gradient updates across clients during local training and establish its dependence on the distribution of feature representations, leading to the derivation of the supervised contrastive learning (SCL) objective to mitigate local deviations. In addition, we show that a na\"ive adoption of SCL in federated learning leads to representation collapse, resulting in slow convergence and limited performance gains. To address this issue, we introduce a relaxed contrastive learning loss that imposes a divergence penalty on excessively similar sample pairs within each class. This strategy prevents collapsed representations and enhances feature transferability, facilitating collaborative training and leading to significant performance improvements. Our framework outperforms all existing federated learning approaches by huge margins on the standard benchmarks through extensive experimental results.
翻訳日:2024-06-03 20:12:04 公開日:2024-05-31
# 格子誘起波動関数が捕捉された超流動体に及ぼす影響

Lattice-induced wavefunction effects on trapped superfluids ( http://arxiv.org/abs/2401.14004v2 )

ライセンス: Link先を確認
Yeyang Zhang, (参考訳) 非相関系の波動関数効果はベリー曲率と量子計量によって特徴づけられる。 さらに、相関粒子間の局所的相互作用に対するブロッホ波動関数効果を記述するゲージ独立テンソルを提案する。 光学格子中の超低温ボソンに対する有効流体力学理論を導出する。 高対称格子に対して等方性調和トラップの基底状態と超流動の集合モードを解く。 動的過程において、波動関数効果は励起呼吸モードの固有周波数、振幅、位相シフトによって特徴づけられ、実験で観察できる。 また、非自明な波動関数効果を持つ二部格子の密結合モデルを与える。 我々の発見は、現代のバンド理論と量子多体物理学のつながりを前進させる。

Wavefunction effects in uncorrelated systems are characterized by the Berry curvature and quantum metric. Beyond those, we propose gauge-independent tensors describing Bloch wavefunction effects on local interaction between correlated particles. We derive an effective hydrodynamic theory for ultracold bosons in optical lattices. Ground states and collective modes of superfluids in isotropic harmonic traps are solved for highly symmetric lattices. In a dynamic process, the wavefunction effects are featured by the eigenfrequency, amplitude, and phase shift of an excited breathing mode and can be observed in experiments. We also give a tight-binding model of a bipartite square lattice with nontrivial wavefunction effects. Our discovery advances the connections between the modern band theory and quantum many-body physics.
翻訳日:2024-06-03 20:12:03 公開日:2024-05-31
# 光を通したp波超伝導線のトポロジカルサイン

Topological signatures of a p-wave superconducting wire through light ( http://arxiv.org/abs/2401.14501v2 )

ライセンス: Link先を確認
Frederick Del Pozo, Karyn Le Hur, (参考訳) 一次元トポロジカルp波超伝導体の$\mathbb{Z}_{2}$トポロジカル指数は、古典的ベクトルポテンシャル、すなわち電磁波を準粒子間遷移速度で駆動する際に、どのように明らかにできるかを示す。 駆動周波数$\omega$ の関数として、短距離北エフ線の2つの異なる位相位相を分類する共振エンベロープからこの位相不変量の測度を得ることができる。 また、光電場の存在下での大域容量の応答と、ワイヤと近接結合バルク超伝導体との間のジョセフソン電流を介してモデル内の位相相転移を探索することを提案する。 このシステムはブロッホ球面上でも実装され、回路または空洞量子力学を通して$\mathbb{Z}$と$\mathbb{Z}_2$の位相不変量を測定する別の方法が可能である。

We show how the $\mathbb{Z}_{2}$ topological index of a one-dimensional topological p-wave superconductor can be revealed when driving with a classical vector potential i.e. an electromagnetic wave, through the quasiparticles inter-band transition rates. As a function of driving frequency $\omega$, it is possible to obtain a measure of this topological invariant from the resonance envelope classifying the two distinct topological phases of the short-range Kitaev wire. We also propose to probe the topological phase transition in the model through the responses of the global capacitance in the presence of the light field and also through the Josephson current between the wire and the proximity coupled bulk superconductor. The system may also be implemented on the Bloch sphere allowing alternative ways to measure the $\mathbb{Z}$ and $\mathbb{Z}_2$ topological invariants through circuit or cavity quantum electrodynamics.
翻訳日:2024-06-03 20:12:03 公開日:2024-05-31
# LSTMに基づく深層ニューラルネットワーク : 医学的要約における逐次文分類のための文表現に着目して

LSTM-based Deep Neural Network With A Focus on Sentence Representation for Sequential Sentence Classification in Medical Scientific Abstracts ( http://arxiv.org/abs/2401.15854v2 )

ライセンス: Link先を確認
Phat Lam, Lam Pham, Tin Nguyen, Hieu Tang, Michael Seidl, Medina Andresel, Alexander Schindler, (参考訳) 医学的抽象学領域における逐次文分類タスク(SSC)は、抽象学において重要な情報を伝達する役割に基づいて、文を事前に定義された見出しに分類することを含む。 SSCタスクでは、文は順次関連付けられている。 このため、文中の単語間の意味情報と要約中の文の文脈的関係の両方をキャプチャするためには、文埋め込みの役割が不可欠であり、SSCシステムの性能が向上する。 本稿では,文レベルでの包括的文表現に焦点をあてたLSTMに基づく深層学習ネットワークを提案する。 生成した文表現の有効性を実証するため,これらの文埋め込みを利用したシステムも開発され,抽象レベルでの畳み込み型リカレントニューラルネットワーク(C-RNN)とセグメントレベルでの多層知覚ネットワーク(MLP)から構成される。 提案システムは,最先端システムと比較して高い競争力を示し,ベンチマークデータセットPudMed 200K RCT,PudMed 20K RCT,NICTA-PIBOSOにおいて,ベースラインのF1スコアを1.0%,2.8%,2.6%向上させる。 このことは、文表現の改善がモデル性能の向上に重大な影響を与えることを示している。

The Sequential Sentence Classification task within the domain of medical abstracts, termed as SSC, involves the categorization of sentences into pre-defined headings based on their roles in conveying critical information in the abstract. In the SSC task, sentences are sequentially related to each other. For this reason, the role of sentence embeddings is crucial for capturing both the semantic information between words in the sentence and the contextual relationship of sentences within the abstract, which then enhances the SSC system performance. In this paper, we propose a LSTM-based deep learning network with a focus on creating comprehensive sentence representation at the sentence level. To demonstrate the efficacy of the created sentence representation, a system utilizing these sentence embeddings is also developed, which consists of a Convolutional-Recurrent neural network (C-RNN) at the abstract level and a multi-layer perception network (MLP) at the segment level. Our proposed system yields highly competitive results compared to state-of-the-art systems and further enhances the F1 scores of the baseline by 1.0%, 2.8%, and 2.6% on the benchmark datasets PudMed 200K RCT, PudMed 20K RCT and NICTA-PIBOSO, respectively. This indicates the significant impact of improving sentence representation on boosting model performance.
翻訳日:2024-06-03 20:12:03 公開日:2024-05-31
# 確率論的論理プログラミングにおける説明

Explaining Explanations in Probabilistic Logic Programming ( http://arxiv.org/abs/2401.17045v3 )

ライセンス: Link先を確認
Germán Vidal, (参考訳) 人工知能に基づくツールの出現は、人間によって理解可能な説明を作成する必要ももたらした。 ほとんどのアプローチでは、システムはブラックボックスと見なされており、適切な説明を生成することは困難である。 確率論的論理プログラミング(PLP:probabilistic logic programming)は、知識表現のための論理プログラミングと不確実性をモデル化する確率を組み合わせたパラダイムである。 しかしながら、クエリが与えられた場合、通常の説明の概念は、モデルの各ランダム変数に対して1つの選択の集合に関連付けられている。 残念ながら、そのようなセットは、なぜクエリが真実なのかを説明せず、実際は、検討されたクエリとは無関係な選択肢を含んでいるかもしれない。 この状況を改善するために,我々は,証明に「選択表現」をラベル付けした PLP の新しいクエリ駆動推論機構の定義に基づく説明法を提案する。 証明木と選択式の組み合わせにより、因果構造を持つ理解可能なクエリ正当性を生成することができる。

The emergence of tools based on artificial intelligence has also led to the need of producing explanations which are understandable by a human being. In most approaches, the system is considered a black box, making it difficult to generate appropriate explanations. In this work, though, we consider a setting where models are transparent: probabilistic logic programming (PLP), a paradigm that combines logic programming for knowledge representation and probability to model uncertainty. However, given a query, the usual notion of explanation is associated with a set of choices, one for each random variable of the model. Unfortunately, such a set does not explain why the query is true and, in fact, it may contain choices that are actually irrelevant for the considered query. To improve this situation, we present in this paper an approach to explaining explanations which is based on defining a new query-driven inference mechanism for PLP where proofs are labeled with "choice expressions", a compact and easy to manipulate representation for sets of choices. The combination of proof trees and choice expressions allows us to produce comprehensible query justifications with a causal structure.
翻訳日:2024-06-03 20:12:03 公開日:2024-05-31
# 相関誤差を用いた多変量確率時系列予測

Multivariate Probabilistic Time Series Forecasting with Correlated Errors ( http://arxiv.org/abs/2402.01000v3 )

ライセンス: Link先を確認
Vincent Zhihao Zheng, Lijun Sun, (参考訳) 確率的時系列予測において、誤差の相関構造を正確にモデル化することは確実な不確実性定量化に不可欠である。 近年の多変量時系列の深層学習モデルでは、時間変化の同時共分散に対する効率的なパラメータ化が開発されているが、単純さのためにエラーの時間的独立性を仮定することが多い。 しかし,実世界のデータは,共変量不足などの要因により,大きな誤差自己相関とクロスラグ相関を示すことが多い。 本稿では,ガウス分布誤差を持つ自己回帰モデルに対して,複数ステップにわたる誤差の共分散構造を学習するプラグイン・アンド・プレイ方式を提案する。 拡張性のある推論と計算効率を実現するために、低ランク+対角パラメーター化を用いて同時共分散をモデル化し、独立な潜時過程の群を通じて相互共分散を特徴付ける。 学習された共分散行列は、観測された残差に基づいて予測を校正するのに使うことができる。 提案手法は, RNN と Transformer アーキテクチャ上に構築された確率モデルを用いて評価し, パラメータサイズを著しく増大させることなく, 予測精度と不確実性定量化を向上する手法の有効性を検証した。

Accurately modeling the correlation structure of errors is essential for reliable uncertainty quantification in probabilistic time series forecasting. Recent deep learning models for multivariate time series have developed efficient parameterizations for time-varying contemporaneous covariance, but they often assume temporal independence of errors for simplicity. However, real-world data frequently exhibit significant error autocorrelation and cross-lag correlation due to factors such as missing covariates. In this paper, we present a plug-and-play method that learns the covariance structure of errors over multiple steps for autoregressive models with Gaussian-distributed errors. To achieve scalable inference and computational efficiency, we model the contemporaneous covariance using a low-rank-plus-diagonal parameterization and characterize cross-covariance through a group of independent latent temporal processes. The learned covariance matrix can be used to calibrate predictions based on observed residuals. We evaluate our method on probabilistic models built on RNN and Transformer architectures, and the results confirm the effectiveness of our approach in enhancing predictive accuracy and uncertainty quantification without significantly increasing the parameter size.
翻訳日:2024-06-03 20:12:03 公開日:2024-05-31
# ポジション:非科学的なAGIパフォーマンスの主張をやめる

Position: Stop Making Unscientific AGI Performance Claims ( http://arxiv.org/abs/2402.03962v3 )

ライセンス: Link先を確認
Patrick Altmeyer, Andrew M. Demetriou, Antony Bartlett, Cynthia C. S. Liem, (参考訳) 人工知能(AI)分野、特に大規模言語モデル(LLM)の発展は、素早い人工知能(AGI)の「スパーク」を観測するための「完璧な嵐」を生み出した。 単純なモデルと同様に、LCMは、外部変数と相関することが示されている潜在埋め込みにおいて有意義な表現を蒸留する。 それにもかかわらず、そのような表現の相関はしばしば後者では人間のような知性に結びついているが、前者ではない。 ランダム・プロジェクション、行列分解、ディープ・オートエンコーダ、トランスフォーマーを含む様々な複雑さのモデルを探索し、いずれも潜伏変数や外部変数を予測できる情報を抽出することに成功したが、これまでAGIに関連付けられていなかった。 我々は、モデルの潜在空間における有意義なパターンの発見は、AGIを支持する証拠とは見なされないことを議論し、実証的に実証した。 さらに, 社会科学の文献から, 人間はそのようなパターンを追求し, 人為的な形態を呈しがちであることを示す。 我々は、モデル表現と興味のある変数の間の相関が、モデルが根底にある「真実」の関係について理解していることから「原因」であるとの誤解に対して、AIの方法論的設定と一般的な公開イメージの両方が理想的であると結論付けている。 したがって、我々は、AI研究成果の解釈と伝達において、学術コミュニティに余計な注意を払って、学術的完全性の原則を熱心に認識するよう呼びかけます。

Developments in the field of Artificial Intelligence (AI), and particularly large language models (LLMs), have created a 'perfect storm' for observing 'sparks' of Artificial General Intelligence (AGI) that are spurious. Like simpler models, LLMs distill meaningful representations in their latent embeddings that have been shown to correlate with external variables. Nonetheless, the correlation of such representations has often been linked to human-like intelligence in the latter but not the former. We probe models of varying complexity including random projections, matrix decompositions, deep autoencoders and transformers: all of them successfully distill information that can be used to predict latent or external variables and yet none of them have previously been linked to AGI. We argue and empirically demonstrate that the finding of meaningful patterns in latent spaces of models cannot be seen as evidence in favor of AGI. Additionally, we review literature from the social sciences that shows that humans are prone to seek such patterns and anthropomorphize. We conclude that both the methodological setup and common public image of AI are ideal for the misinterpretation that correlations between model representations and some variables of interest are 'caused' by the model's understanding of underlying 'ground truth' relationships. We, therefore, call for the academic community to exercise extra caution, and to be keenly aware of principles of academic integrity, in interpreting and communicating about AI research outcomes.
翻訳日:2024-06-03 20:02:19 公開日:2024-05-31
# ストリーム上の効率的な推論のためのオンラインカスケード学習

Online Cascade Learning for Efficient Inference over Streams ( http://arxiv.org/abs/2402.04513v2 )

ライセンス: Link先を確認
Lunyiu Nie, Zhimin Ding, Erdong Hu, Christopher Jermaine, Swarat Chaudhuri, (参考訳) 大規模言語モデル(LLM)は、データストリームに関する複雑なクエリに応答する自然な役割を持つが、LLM推論の計算コストが高いため、そのようなタスクの多くでは実現不可能である。 この課題に対処する最初のアプローチであるオンラインカスケード学習を提案する。 ここでの目的はモデルの"カスケード"を学習することであり、まず低容量モデル(ロジスティック回帰など)から始まり、与えられた入力で使用するモデルを決定する遅延ポリシーとともに強力なLCMで終わる。 そこで我々は,LLMの実演を模擬した小さなモデルを時間とともに更新し,その問題に対する非回帰アルゴリズムを与える,模擬学習問題として,オンラインでカスケードを学習するタスクを定式化する。 4つのベンチマークによる実験結果から,提案手法は推定コストを最大90%削減し,入力分布シフトに対して強い堅牢性を付与し,ストリーム処理の有効性と適応性を実証した。

Large Language Models (LLMs) have a natural role in answering complex queries about data streams, but the high computational cost of LLM inference makes them infeasible in many such tasks. We propose online cascade learning, the first approach to address this challenge. The objective here is to learn a "cascade" of models, starting with lower-capacity models (such as logistic regression) and ending with a powerful LLM, along with a deferral policy that determines the model to be used on a given input. We formulate the task of learning cascades online as an imitation-learning problem, where smaller models are updated over time imitating the collected LLM demonstrations, and give a no-regret algorithm for the problem. Experimental results across four benchmarks show that our method parallels LLMs in accuracy while cutting down inference costs by as much as 90% with strong robustness against input distribution shifts, underscoring its efficacy and adaptability in stream processing.
翻訳日:2024-06-03 20:02:19 公開日:2024-05-31
# 長期ビデオ理解を可能にするメモリ統合

Memory Consolidation Enables Long-Context Video Understanding ( http://arxiv.org/abs/2402.05861v2 )

ライセンス: Link先を確認
Ivana Balažević, Yuge Shi, Pinelopi Papalampidi, Rahma Chaabouni, Skanda Koppula, Olivier J. Hénaff, (参考訳) ほとんどの変換器ベースのビデオエンコーダは、その2次複雑さのため、短時間の時間的コンテキストに制限される。 この文脈を拡張するために様々な試みがなされてきたが、概念と計算の複雑さの両面でコストがかかることがしばしばある。 そこで本稿では,過去のアクティベーションから非パラメトリックに派生した記憶への出席を単純に微調整することで,既存の事前学習ビデオトランスフォーマーを再利用することを提案する。 冗長性の低減を生かして、記憶統合型視覚変換器(MC-ViT)は、そのコンテキストを過去まで拡張し、長いビデオから学習する際の優れたスケーリング動作を示す。 MC-ViTは、EgoSchema、Perception Test、Diving48の長文ビデオ理解において、さらに多くのパラメータのオーダーから恩恵を受ける方法として、新たな最先端の技術を設定している。

Most transformer-based video encoders are limited to short temporal contexts due to their quadratic complexity. While various attempts have been made to extend this context, this has often come at the cost of both conceptual and computational complexity. We propose to instead re-purpose existing pre-trained video transformers by simply fine-tuning them to attend to memories derived non-parametrically from past activations. By leveraging redundancy reduction, our memory-consolidated vision transformer (MC-ViT) effortlessly extends its context far into the past and exhibits excellent scaling behavior when learning from longer videos. In doing so, MC-ViT sets a new state-of-the-art in long-context video understanding on EgoSchema, Perception Test, and Diving48, outperforming methods that benefit from orders of magnitude more parameters.
翻訳日:2024-06-03 20:02:19 公開日:2024-05-31
# Iris-SAM: 基礎モデルを用いたアイリスセグメンテーション

Iris-SAM: Iris Segmentation Using a Foundation Model ( http://arxiv.org/abs/2402.06497v3 )

ライセンス: Link先を確認
Parisa Farmanifard, Arun Ross, (参考訳) 虹彩セグメンテーションは虹彩生体計測システムの重要な構成要素であり、眼画像から環状虹彩領域を抽出する。 本研究では,任意のオブジェクトのセグメンテーションに成功している基本モデルであるviz., Segment Anything Model (SAM) から画素レベルのアイリスセグメンテーションモデルを開発する。 この研究の主な貢献は、眼画像上のSAMの微調整中に異なる損失関数を統合することである。 特に、Focal Lossの重要性は、クラス不均衡問題(アイリス対非アイリス画素)に戦略的に対処するため、微調整プロセスにおいて発せられる。 ND-IRIS-0405、CASIA-Iris-Interval-v3、IIT-Delhi-Irisデータセットの実験は、虹彩セグメンテーションのタスクに対する訓練されたモデルの有効性を伝達する。 例えば、ND-IRIS-0405データセットでは、平均セグメンテーション精度は99.58%、ベースライン性能は89.75%であった。

Iris segmentation is a critical component of an iris biometric system and it involves extracting the annular iris region from an ocular image. In this work, we develop a pixel-level iris segmentation model from a foundational model, viz., Segment Anything Model (SAM), that has been successfully used for segmenting arbitrary objects. The primary contribution of this work lies in the integration of different loss functions during the fine-tuning of SAM on ocular images. In particular, the importance of Focal Loss is borne out in the fine-tuning process since it strategically addresses the class imbalance problem (i.e., iris versus non-iris pixels). Experiments on ND-IRIS-0405, CASIA-Iris-Interval-v3, and IIT-Delhi-Iris datasets convey the efficacy of the trained model for the task of iris segmentation. For instance, on the ND-IRIS-0405 dataset, an average segmentation accuracy of 99.58% was achieved, compared to the best baseline performance of 89.75%.
翻訳日:2024-06-03 20:02:19 公開日:2024-05-31
# タオルの物語 - スケール法の変化としてのモデル崩壊

A Tale of Tails: Model Collapse as a Change of Scaling Laws ( http://arxiv.org/abs/2402.07043v2 )

ライセンス: Link先を確認
Elvis Dohmatob, Yunzhen Feng, Pu Yang, Francois Charton, Julia Kempe, (参考訳) AIモデルのサイズが大きくなるにつれて、ニューラルスケーリング法則は、容量とオリジナルの(人間または自然)トレーニングデータのサイズを増大させるときに、大きなモデルの改善を予測する重要なツールとなっている。 しかし、一般的なモデルの普及は、オンラインデータとテキストのエコシステムが、徐々に大量の合成データを含むように発展していくことを意味している。 本稿では, 合成データが学習コーパスに導入される必然的体制において, スケーリング法則はどのように変化するのかを問う。 将来のモデルは、まだ改善されるのか、それとも、全体(モデル)の崩壊まで縮退する運命にあるのか? スケーリング法則のレンズによるモデル崩壊の理論的枠組みを開発する。 我々は、広範囲の崩壊現象を発見し、スケーリングの損失を分析し、世代ごとにスケールをシフトさせ、スキルの「アンラーニング」を行い、人間と合成データを混在させながらグルーキングを行う。 本理論は,大規模言語モデルであるLlama2を用いて,算術的タスクとテキスト生成の変換器を用いた大規模実験により検証された。

As AI model size grows, neural scaling laws have become a crucial tool to predict the improvements of large models when increasing capacity and the size of original (human or natural) training data. Yet, the widespread use of popular models means that the ecosystem of online data and text will co-evolve to progressively contain increased amounts of synthesized data. In this paper we ask: How will the scaling laws change in the inevitable regime where synthetic data makes its way into the training corpus? Will future models, still improve, or be doomed to degenerate up to total (model) collapse? We develop a theoretical framework of model collapse through the lens of scaling laws. We discover a wide range of decay phenomena, analyzing loss of scaling, shifted scaling with number of generations, the ''un-learning" of skills, and grokking when mixing human and synthesized data. Our theory is validated by large-scale experiments with a transformer on an arithmetic task and text generation using the large language model Llama2.
翻訳日:2024-06-03 20:02:19 公開日:2024-05-31
# 民間統計的推論のためのサンプリング手法

Resampling methods for Private Statistical Inference ( http://arxiv.org/abs/2402.07131v2 )

ライセンス: Link先を確認
Karan Chadha, John Duchi, Rohith Kuditipudi, (参考訳) 我々は、信頼区間を異なるプライバシーで構築する作業について検討する。 本研究では,複数のブートストラップがデータのパーティション上で実行された結果の中央値をプライベートに計算し,その結果の信頼区間のカバレッジ誤差に漸近的境界を与える,非パラメトリックブートストラップの2つのプライベート変種を提案する。 固定差分プライバシーパラメータ$\epsilon$に対して、我々のメソッドは、サンプルサイズ$n$の対数係数内の非プライベートブートストラップと同じエラー率を享受します。 我々は,実データと合成データの両方を用いて,平均推定,中央値推定,ロジスティック回帰の手法の性能を実証的に検証した。 提案手法は,既存手法(および非プライベートベースライン)と同様のカバレッジ精度を達成し,従来手法よりもはるかに短い信頼区間(10ドル倍)を提供する。

We consider the task of constructing confidence intervals with differential privacy. We propose two private variants of the non-parametric bootstrap, which privately compute the median of the results of multiple "little" bootstraps run on partitions of the data and give asymptotic bounds on the coverage error of the resulting confidence intervals. For a fixed differential privacy parameter $\epsilon$, our methods enjoy the same error rates as that of the non-private bootstrap to within logarithmic factors in the sample size $n$. We empirically validate the performance of our methods for mean estimation, median estimation, and logistic regression with both real and synthetic data. Our methods achieve similar coverage accuracy to existing methods (and non-private baselines) while providing notably shorter ($\gtrsim 10$ times) confidence intervals than previous approaches.
翻訳日:2024-06-03 20:02:19 公開日:2024-05-31
# 凸平滑な単純二値最適化のための加速勾配法

An Accelerated Gradient Method for Convex Smooth Simple Bilevel Optimization ( http://arxiv.org/abs/2402.08097v2 )

ライセンス: Link先を確認
Jincheng Cao, Ruichen Jiang, Erfan Yazdandoost Hamedani, Aryan Mokhtari, (参考訳) 本稿では, 単純二段階最適化問題に焦点をあて, 凸スムーズな最適化問題の最適解集合上での凸スムーズな目的関数を最小化する。 そこで本稿では, カットプレーンアプローチを用いて, 下層問題の解集合を局所的に近似し, 高速化された勾配に基づく更新を用いて, 近似された解集合上の上層目標関数を減少させる新しい二層最適化手法を提案する。 本稿では,提案手法の性能を準最適性および不実現可能性誤差の観点から測定し,両誤差基準に対する非漸近収束保証を提供する。 具体的には、実現可能な集合がコンパクトであるとき、我々の方法は少なくとも$\mathcal{O}(\max\{1/\sqrt{\epsilon_{f}}, 1/\epsilon_g\})$を繰り返して$\epsilon_f$-suboptimalと$\epsilon_g$-infeasibleの解を見つける必要があることを示す。 さらに、下層の目的が$r$-th H\"olderian の誤差境界を満たすという仮定の下で、我々の手法は$r=1$のときの単一レベルの凸制約最適化の最適複雑さと一致する$\mathcal{O}(\max\{\epsilon_{f}^{-\frac{2r-1}{2r}},\epsilon_{g}^{-\frac{2r-1}{2r}}\})$の反復複雑性を達成することを示す。

In this paper, we focus on simple bilevel optimization problems, where we minimize a convex smooth objective function over the optimal solution set of another convex smooth constrained optimization problem. We present a novel bilevel optimization method that locally approximates the solution set of the lower-level problem using a cutting plane approach and employs an accelerated gradient-based update to reduce the upper-level objective function over the approximated solution set. We measure the performance of our method in terms of suboptimality and infeasibility errors and provide non-asymptotic convergence guarantees for both error criteria. Specifically, when the feasible set is compact, we show that our method requires at most $\mathcal{O}(\max\{1/\sqrt{\epsilon_{f}}, 1/\epsilon_g\})$ iterations to find a solution that is $\epsilon_f$-suboptimal and $\epsilon_g$-infeasible. Moreover, under the additional assumption that the lower-level objective satisfies the $r$-th H\"olderian error bound, we show that our method achieves an iteration complexity of $\mathcal{O}(\max\{\epsilon_{f}^{-\frac{2r-1}{2r}},\epsilon_{g}^{-\frac{2r-1}{2r}}\})$, which matches the optimal complexity of single-level convex constrained optimization when $r=1$.
翻訳日:2024-06-03 20:02:19 公開日:2024-05-31
# SemRel2024: 13言語用セマンティックテキスト関連データセットのコレクション

SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages ( http://arxiv.org/abs/2402.08638v5 )

ライセンス: Link先を確認
Nedjma Ousidhoum, Shamsuddeen Hassan Muhammad, Mohamed Abdalla, Idris Abdulmumin, Ibrahim Said Ahmad, Sanchit Ahuja, Alham Fikri Aji, Vladimir Araujo, Abinew Ali Ayele, Pavan Baswani, Meriem Beloucif, Chris Biemann, Sofia Bourhim, Christine De Kock, Genet Shanko Dekebo, Oumaima Hourrane, Gopichand Kanumolu, Lokesh Madasu, Samuel Rutunda, Manish Shrivastava, Thamar Solorio, Nirmal Surange, Hailegnaw Getaneh Tilaye, Krishnapriya Vishnubhotla, Genta Winata, Seid Muhie Yimam, Saif M. Mohammad, (参考訳) 意味的関連性の探索と定量化は言語の中心であり、様々なNLPタスクにおいて重要な意味を持つ。 初期のNLP研究は主に意味的類似性(しばしば英語の文脈内で)に焦点を当てていたが、その代わりに意味的関連性のより広範な現象を調査した。 本稿では,13言語にまたがる母語話者によって注釈付けされた新しい意味関連データセットである「textit{SemRel}」について述べる。「textit{Afrikaans, Algerian Arabic, Amharic, English, Hausa, Hindi, Indonesian, Kinyarwanda, Marathi, Moroccan Arabic, Modern Standard Arabic, Spanish,} および「textit{Telugu}」。 これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。 SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。 スコアは比較アノテーションフレームワークを用いて得られる。 データ収集とアノテーションプロセス、データセット構築時の課題、ベースライン実験、NLPにおけるそれらの影響と有用性について説明する。

Exploring and quantifying semantic relatedness is central to representing language and holds significant implications across various NLP tasks. While earlier NLP research primarily focused on semantic similarity, often within the English language context, we instead investigate the broader phenomenon of semantic relatedness. In this paper, we present \textit{SemRel}, a new semantic relatedness dataset collection annotated by native speakers across 13 languages: \textit{Afrikaans, Algerian Arabic, Amharic, English, Hausa, Hindi, Indonesian, Kinyarwanda, Marathi, Moroccan Arabic, Modern Standard Arabic, Spanish,} and \textit{Telugu}. These languages originate from five distinct language families and are predominantly spoken in Africa and Asia -- regions characterised by a relatively limited availability of NLP resources. Each instance in the SemRel datasets is a sentence pair associated with a score that represents the degree of semantic textual relatedness between the two sentences. The scores are obtained using a comparative annotation framework. We describe the data collection and annotation processes, challenges when building the datasets, baseline experiments, and their impact and utility in NLP.
翻訳日:2024-06-03 20:02:19 公開日:2024-05-31
# 機械学習を用いたデジタルプラットフォームにおける時間横断予測再調整

Cross-Temporal Forecast Reconciliation at Digital Platforms with Machine Learning ( http://arxiv.org/abs/2402.09033v2 )

ライセンス: Link先を確認
Jeroen Rombouts, Marie Ternes, Ines Wilms, (参考訳) プラットフォームビジネスはデジタルコア上で運用され、意思決定には、横断的(地理的な地域など)と時間的集約(例えば、数分から数日)の異なるレベルで、高次元の正確な予測ストリームが必要である。 また、価格、製品、制御、戦略など、さまざまな計画単位に整合した意思決定を確実にするために、階層のすべてのレベルにわたる一貫性のある予測が必要である。 プラットフォームデータストリームが複雑な特徴と相互依存を特徴とすることを考慮し,一般的な機械学習手法を用いて,時間的相互整合予測を直接的かつ自動的に生成する非線形階層的予測整合手法を提案する。 この手法は、プラットフォームが必要とする予測ベースの高周波決定を可能にするのに十分高速である。 ヨーロッパの主要なオンデマンドデリバリプラットフォームと、ニューヨーク市の自転車共有システムから、独自の大規模ストリーミングデータセットを試験的にテストしています。

Platform businesses operate on a digital core and their decision making requires high-dimensional accurate forecast streams at different levels of cross-sectional (e.g., geographical regions) and temporal aggregation (e.g., minutes to days). It also necessitates coherent forecasts across all levels of the hierarchy to ensure aligned decision making across different planning units such as pricing, product, controlling and strategy. Given that platform data streams feature complex characteristics and interdependencies, we introduce a non-linear hierarchical forecast reconciliation method that produces cross-temporal reconciled forecasts in a direct and automated way through the use of popular machine learning methods. The method is sufficiently fast to allow forecast-based high-frequency decision making that platforms require. We empirically test our framework on unique, large-scale streaming datasets from a leading on-demand delivery platform in Europe and a bicycle sharing system in New York City.
翻訳日:2024-06-03 20:02:19 公開日:2024-05-31
# エンド・ツー・エンド・トレーニングは、レイヤー・ロールの差分によるインフォメーション・ボトルネックを誘導する:レイヤー・ワイド・トレーニングとの比較分析

End-to-End Training Induces Information Bottleneck through Layer-Role Differentiation: A Comparative Analysis with Layer-wise Training ( http://arxiv.org/abs/2402.09050v2 )

ライセンス: Link先を確認
Keitaro Sakamoto, Issei Sato, (参考訳) エンド・ツー・エンド(E2E)トレーニングでは、エラーのバックプロパゲーションを通じてモデル全体を最適化し、ディープラーニングの進歩を根本的に支援する。 高性能にもかかわらず、E2Eトレーニングは、メモリ消費、並列コンピューティング、実際の脳の機能との相違といった問題に直面している。 これらの困難を克服するために、様々な代替手法が提案されているが、E2E訓練のパフォーマンスにはまだ一致しないため、実用性に乏しい。 さらに、トレーニングされたモデル特性の違いについて、パフォーマンスギャップ以外の深い理解はありません。 本稿では,エラーを局所的に設定する非E2E手法であるレイヤワイドトレーニングとの比較により,E2Eトレーニングが優れた性能を示す理由を再考する。 本研究では,E2Eトレーニングが入力情報の伝達に有利であることを示す上で,Hilbert-Schmidt Independent criterion(HSIC)に基づく中間表現の情報平面ダイナミクスを解析した。 正規化HSIC値解析の結果から,効率的な情報伝達に加えて,レイヤ間で異なる情報ダイナミクスを示すE2Eトレーニング能力が明らかとなった。 さらに,この層間区別が,情報ボトルネックの原理に従って最終表現につながることを示す。 これは、ディープラーニングの情報ボトルネックを分析する際に、最終層だけでなく、レイヤ間の協調的な相互作用を検討する必要があることを示唆している。

End-to-end (E2E) training, optimizing the entire model through error backpropagation, fundamentally supports the advancements of deep learning. Despite its high performance, E2E training faces the problems of memory consumption, parallel computing, and discrepancy with the functionalities of the actual brain. Various alternative methods have been proposed to overcome these difficulties; however, no one can yet match the performance of E2E training, thereby falling short in practicality. Furthermore, there is no deep understanding regarding differences in the trained model properties beyond the performance gap. In this paper, we reconsider why E2E training demonstrates a superior performance through a comparison with layer-wise training, a non-E2E method that locally sets errors. On the basis of the observation that E2E training has an advantage in propagating input information, we analyze the information plane dynamics of intermediate representations based on the Hilbert-Schmidt independence criterion (HSIC). The results of our normalized HSIC value analysis reveal the E2E training ability to exhibit different information dynamics across layers, in addition to efficient information propagation. Furthermore, we show that this layer-role differentiation leads to the final representation following the information bottleneck principle. It suggests the need to consider the cooperative interactions between layers, not just the final layer when analyzing the information bottleneck of deep learning.
翻訳日:2024-06-03 20:02:19 公開日:2024-05-31
# API Pack: APIコール生成のための大規模マルチプログラミング言語データセット

API Pack: A Massive Multi-Programming Language Dataset for API Call Generation ( http://arxiv.org/abs/2402.09615v3 )

ライセンス: Link先を確認
Zhen Guo, Adriana Meza Soria, Wei Sun, Yikang Shen, Rameswar Panda, (参考訳) 我々は,大規模言語モデルのAPIコール生成機能を改善するために,100万以上の命令-APIコールペアを含む大規模マルチプログラミング言語データセットであるAPI Packを紹介する。 API Packから2万のPythonインスタンス上でCodeLlama-13Bを微調整することで、GPT-3.5とGPT-4と比較して、それぞれ10%と5%の精度を実現しました。 API Packの微調整により、1つの言語で大量のデータと、他の言語からの少量のデータを活用することで、クロスプログラミング言語の一般化が可能になる。 トレーニングデータを100万インスタンスにスケールアップすることで、トレーニング中に遭遇しない新しいAPIへのモデルの一般化がさらに向上する。 API Packデータセット、トレーニングされたモデル、および関連するソースコードをhttps://github.com/zguo0525/API-Packでオープンソース化し、さらなる調査を行っています。

We introduce API Pack, a massive multi-programming language dataset containing more than 1 million instruction-API call pairs to improve the API call generation capabilities of large language models. By fine-tuning CodeLlama-13B on 20,000 Python instances from API Pack, we achieved around 10% and 5% higher accuracy compared to GPT-3.5 and GPT-4, respectively, in generating unseen API calls. Fine-tuning on API Pack enables cross-programming language generalization by leveraging a large amount of data in one language and small amounts of data from other languages. Scaling the training data to 1 million instances further improves the model's generalization to new APIs not encountered during training. We open-source the API Pack dataset, trained models, and associated source code at https://github.com/zguo0525/API-Pack to facilitate further research.
翻訳日:2024-06-03 20:02:19 公開日:2024-05-31
# 段階的に変化する環境における適応的強化学習

Performative Reinforcement Learning in Gradually Shifting Environments ( http://arxiv.org/abs/2402.09838v2 )

ライセンス: Link先を確認
Ben Rank, Stelios Triantafyllou, Debmalya Mandal, Goran Radanovic, (参考訳) 強化学習(RL)エージェントが実際にデプロイされると、環境に影響を与え、そのダイナミクスを変える可能性がある。 本稿では,この現象をモデル化するための新しい枠組みを提案する。 これはPerformative RL (PRL) [Mandal et al , 2023] の一般化である。 PRLとは異なり、我々のフレームワークは環境が徐々にデプロイされたポリシーに適応するシナリオをモデル化することができる。 本研究では,2つのアルゴリズムを性能予測文から設定に適応させ,MDRR(Mixed Delayed Retraining)と呼ばれる新しいアルゴリズムを提案する。 これらのアルゴリズムが収束して比較する条件として,リトレーニング数,近似保証数,デプロイ毎のサンプル数という3つの指標を挙げる。 MDRRは、トレーニングにおける複数のデプロイメントからのサンプルを組み合わせる、この設定の最初のアルゴリズムである。 これにより、MDRRは特に、環境の応答が実際に一般的な以前のダイナミクスに強く依存するシナリオに適している。 シミュレーションベースのテストベッドを用いて実験を行った結果,MDRRは従来の手法よりもはるかに高速に収束することがわかった。

When Reinforcement Learning (RL) agents are deployed in practice, they might impact their environment and change its dynamics. We propose a new framework to model this phenomenon, where the current environment depends on the deployed policy as well as its previous dynamics. This is a generalization of Performative RL (PRL) [Mandal et al., 2023]. Unlike PRL, our framework allows to model scenarios where the environment gradually adjusts to a deployed policy. We adapt two algorithms from the performative prediction literature to our setting and propose a novel algorithm called Mixed Delayed Repeated Retraining (MDRR). We provide conditions under which these algorithms converge and compare them using three metrics: number of retrainings, approximation guarantee, and number of samples per deployment. MDRR is the first algorithm in this setting which combines samples from multiple deployments in its training. This makes MDRR particularly suitable for scenarios where the environment's response strongly depends on its previous dynamics, which are common in practice. We experimentally compare the algorithms using a simulation-based testbed and our results show that MDRR converges significantly faster than previous approaches.
翻訳日:2024-06-03 20:02:19 公開日:2024-05-31
# AIワークフローの実用性とカスタマイズに関する縦断的研究

Not Just Novelty: A Longitudinal Study on Utility and Customization of an AI Workflow ( http://arxiv.org/abs/2402.09894v2 )

ライセンス: Link先を確認
Tao Long, Katy Ilonka Gero, Lydia B. Chilton, (参考訳) ジェネレーティブAIは、日々のタスクで人々を助ける、斬新で印象的な能力を提供します。 AI出力と人間のインタラクションをチェーンすることで、現実的で複雑な問題を解決するAIワークフローが数多く存在する。 AIには疑いの余地がないが、新規性が欠けた後に生成するAIワークフローがどれほど有用であるかは定かではない。 さらに、生成AIで構築されたワークフローは、ユーザの個々のニーズに合うように簡単にカスタマイズできる可能性があるが、ユーザーはこれを活用できるだろうか? 我々は,科学コミュニケーションのための生成AIツールの慣れ親しみとカスタマイズを理解するために,12人のユーザを対象に3週間の縦断的研究を行った。 そこで本研究では,ユーザがワークフローの新たな機能を探究し,どの側面が有用かを見いだすための,親しみやすい段階があることを明らかにした。 このフェーズ以降、ユーザはワークフローを理解し、アウトプットを予測できるようになった。 驚くべきことに、慣れ親しんだ後、システムの有用性は以前よりも高く評価され、AIの有用性は単なる新規性効果ではないことが示唆された。 アドバンテージの増加は、主にエンドユーザがプロンプトをカスタマイズする能力から来ており、それによってシステムを自身のニーズに適合させる可能性がある。 このことは、生成型AIシステムによって、代償を設計できる未来を指し示している。

Generative AI brings novel and impressive abilities to help people in everyday tasks. There are many AI workflows that solve real and complex problems by chaining AI outputs together with human interaction. Although there is an undeniable lure of AI, it is uncertain how useful generative AI workflows are after the novelty wears off. Additionally, workflows built with generative AI have the potential to be easily customized to fit users' individual needs, but do users take advantage of this? We conducted a three-week longitudinal study with 12 users to understand the familiarization and customization of generative AI tools for science communication. Our study revealed that there exists a familiarization phase, during which users were exploring the novel capabilities of the workflow and discovering which aspects they found useful. After this phase, users understood the workflow and were able to anticipate the outputs. Surprisingly, after familiarization the perceived utility of the system was rated higher than before, indicating that the perceived utility of AI is not just a novelty effect. The increase in benefits mainly comes from end-users' ability to customize prompts, and thus potentially appropriate the system to their own needs. This points to a future where generative AI systems can allow us to design for appropriation.
翻訳日:2024-06-03 19:52:35 公開日:2024-05-31
# AutoSAT: 大規模言語モデルによるSATソルバーの自動最適化

AutoSAT: Automatically Optimize SAT Solvers via Large Language Models ( http://arxiv.org/abs/2402.10705v2 )

ライセンス: Link先を確認
Yiwen Sun, Xianyin Zhang, Shiyu Huang, Shaowei Cai, BingZhen Zhang, Ke Wei, (参考訳) SATソルバではヒューリスティックが重要であるが、すべてのSAT問題にはヒューリスティックなルールが適していない。 したがって、特定の問題に対する特定のヒューリスティックスを洗練させるのに役立つ。 本稿では,SATソルバのヒューリスティックスを自動的に最適化する新しいフレームワークであるAutoSATを紹介する。 AutoSATはLarge Language Models (LLMs)をベースにしており、コードを生成し、評価を行い、フィードバックを利用してヒューリスティックスをさらに最適化し、人間の介入を減らし、解決能力を向上させる。 AutoSATはプラグイン・アンド・プレイベースで動作し、広範なエンタープライズおよびモデルトレーニングの必要性を排除し、堅牢なヒューリスティック最適化を保証するために、フォールトトレランスを備えたマルチエージェントベースのコラボレーティブプロセスを促進する。 我々は、軽量な衝突駆動クロース学習(CDCL)ソルバ、EasySAT(EasySATの体積は、State-of-the-ArtハイブリッドソルバKissatの約5分の1)にAutoSATを実装し、その優れた性能を示す7つのデータセットに関する広範な実験を行った。 7つのテストデータセットのうち、AutoSATは2つのデータセットでKissatよりも優れたパフォーマンスを示し、3つのデータセットで全体的な同様のパフォーマンスを示している。 AutoSATが生成したヒューリスティックは直感に反するものもあるが、非常に効果的である。

Heuristics are crucial in SAT solvers, but no heuristic rules are suitable for all SAT problems. Therefore, it is helpful to refine specific heuristics for specific problems. In this context, we present AutoSAT, a novel framework for automatically optimizing heuristics in SAT solvers. AutoSAT is based on Large Language Models (LLMs) which is able to autonomously generate codes, conduct evaluation, and then utilize feedback to further optimize heuristics, thereby reducing human intervention and enhancing solver capabilities. AutoSAT operates on a plug-and-play basis, eliminating the need for extensive enterprise and model training, and fosters a Multi-Agent-based collaborative process with fault tolerance to ensure robust heuristic optimization. We implement AutoSAT on a lightweight Conflict-Driven Clause Learning (CDCL) solver EasySAT (the volume of EasySAT is about one-fiftieth of the State-of-the-Art hybrid solver Kissat) and extensive experiments on seven datasets demonstrate its superior performance. Out of the seven testing datasets, AutoSAT shows a superior performance to Kissat in two datasets and displays an overall similar performance in three datasets. Some heuristics generated by AutoSAT are even counter-intuitive but are very effective.
翻訳日:2024-06-03 19:52:35 公開日:2024-05-31
# II-MMR:視覚質問応答におけるマルチモーダルマルチホップ推論の同定と改善

II-MMR: Identifying and Improving Multi-modal Multi-hop Reasoning in Visual Question Answering ( http://arxiv.org/abs/2402.11058v2 )

ライセンス: Link先を確認
Jihyung Kil, Farideh Tavazoee, Dongyeop Kang, Joo-Kyung Kim, (参考訳) VQA(Visual Question Answering)は、視覚と言語(V&L)にまたがる様々な推論シナリオを含むことが多い。 しかしながら、以前のVQA研究のほとんどは、異なる推論ケースで評価することなく、モデル全体の精度を評価することにのみ焦点を絞っている。 さらに、いくつかの最近の研究は、特にマルチホップ推論を必要とする複雑なシナリオにおいて、従来のCoT(Chain-of-Thought)がVQAに対して効果的な推論を起こさないことを観察している。 本稿では,VQAにおけるマルチモーダルマルチホップ推論を識別・改善するための新しいアイデアであるII-MMRを提案する。 具体的には、II-MMRは画像でVQA質問を受け取り、2つの新しい言語プロンプトを使って答えに到達する理由を見つける。 一 予測誘導CoTプロンプトの回答 (二 知識三重化指示書 II-MMRはこの経路を分析して、現在のVQAベンチマークで異なる推論ケースを特定する。 GQA や A-OKVQA などの一般的なベンチマークでは、II-MMR は VQA のほとんどの質問は答えが簡単であり、単に "シングルホップ" の推論を要求する。 さらに,最近のV&Lモデルでは,従来のCoT法でも複雑なマルチホップ推論問題に苦慮しているが,II-MMRは,ゼロショットと微調整の両方ですべての推論ケースで有効性を示す。

Visual Question Answering (VQA) often involves diverse reasoning scenarios across Vision and Language (V&L). Most prior VQA studies, however, have merely focused on assessing the model's overall accuracy without evaluating it on different reasoning cases. Furthermore, some recent works observe that conventional Chain-of-Thought (CoT) prompting fails to generate effective reasoning for VQA, especially for complex scenarios requiring multi-hop reasoning. In this paper, we propose II-MMR, a novel idea to identify and improve multi-modal multi-hop reasoning in VQA. In specific, II-MMR takes a VQA question with an image and finds a reasoning path to reach its answer using two novel language promptings: (i) answer prediction-guided CoT prompt, or (ii) knowledge triplet-guided prompt. II-MMR then analyzes this path to identify different reasoning cases in current VQA benchmarks by estimating how many hops and what types (i.e., visual or beyond-visual) of reasoning are required to answer the question. On popular benchmarks including GQA and A-OKVQA, II-MMR observes that most of their VQA questions are easy to answer, simply demanding "single-hop" reasoning, whereas only a few questions require "multi-hop" reasoning. Moreover, while the recent V&L model struggles with such complex multi-hop reasoning questions even using the traditional CoT method, II-MMR shows its effectiveness across all reasoning cases in both zero-shot and fine-tuning settings.
翻訳日:2024-06-03 19:52:35 公開日:2024-05-31
# 信頼への道 - 機密VM内にエンクレーブを構築する

The Road to Trust: Building Enclaves within Confidential VMs ( http://arxiv.org/abs/2402.11438v2 )

ライセンス: Link先を確認
Wenhao Wang, Linke Song, Benshan Mei, Shuang Liu, Shijun Zhao, Shoumeng Yan, XiaoFeng Wang, Dan Meng, Rui Hou, (参考訳) 真のソフトウェアだけがマシンにロードされることを保証するため、システムセキュリティの維持には統合性が不可欠である。 機密仮想マシン(CVM)はホストとは分離された環境内で機能するが、信頼された実行環境(TEE)内で実行されるコードの整合性を維持する上で、ユーザが依然として課題に直面していることを認識することが重要である。 高度なオペレーティングシステム(OS)が存在することで、動的にコードを作成して実行することが可能になり、ゲストOSが侵害された場合、TEE内のユーザアプリケーションが干渉や改ざんに対して脆弱になる。 この問題に対処するために、ゲストVM内でハードウェアエンクレーブを作成するためにAMD SEV-SNPで利用可能な最近のハードウェア機能である仮想マシン特権レベル(VMPL)を活用するフレームワークであるNestedSGXを紹介する。 Intel SGXと同様、NestedSGXは、悪意のあるコードのロードを信頼していないゲストOSだと考えている。 これは、エンクレーブ内で実行される信頼され測定されたコードだけがリモートで検証可能であることを保証します。 既存のアプリケーションをシームレスに保護するために、NestedSGXはSGXリーフ関数をシミュレートすることで、Intel SGXとの互換性を目指している。 我々はまた、SGX SDKとOcclumライブラリOSをNestedSGXに移植し、システム内の既存のSGXツールチェーンとアプリケーションの使用を可能にしました。 パフォーマンス評価によると、NestedSGXのコンテキストスイッチは約32,000 -- 34,000サイクル、約1.33\times$ -- $1.54\times$はIntel SGXよりも高い。 NestedSGXは、ほとんどの現実世界のアプリケーションでは最小限のオーバーヘッドを発生し、計算とメモリ集約ワークロードでは平均2%以下、I/O集約ワークロードでは15.68%以下である。

Integrity is critical for maintaining system security, as it ensures that only genuine software is loaded onto a machine. Although confidential virtual machines (CVMs) function within isolated environments separate from the host, it is important to recognize that users still encounter challenges in maintaining control over the integrity of the code running within the trusted execution environments (TEEs). The presence of a sophisticated operating system (OS) raises the possibility of dynamically creating and executing any code, making user applications within TEEs vulnerable to interference or tampering if the guest OS is compromised. To address this issue, this paper introduces NestedSGX, a framework which leverages virtual machine privilege level (VMPL), a recent hardware feature available on AMD SEV-SNP to enable the creation of hardware enclaves within the guest VM. Similar to Intel SGX, NestedSGX considers the guest OS untrusted for loading potentially malicious code. It ensures that only trusted and measured code executed within the enclave can be remotely attested. To seamlessly protect existing applications, NestedSGX aims for compatibility with Intel SGX by simulating SGX leaf functions. We have also ported the SGX SDK and the Occlum library OS to NestedSGX, enabling the use of existing SGX toolchains and applications in the system. Performance evaluations show that context switches in NestedSGX take about 32,000 -- 34,000 cycles, approximately $1.33\times$ -- $1.54\times$ higher than that of Intel SGX. NestedSGX incurs minimal overhead in most real-world applications, with an average overhead below 2% for computation and memory intensive workloads and below 15.68% for I/O intensive workloads.
翻訳日:2024-06-03 19:52:35 公開日:2024-05-31
# メタランク付けによる応答信頼性判定のための弱LLMの導入

Enabling Weak LLMs to Judge Response Reliability via Meta Ranking ( http://arxiv.org/abs/2402.12146v3 )

ライセンス: Link先を確認
Zijun Liu, Boqun Kou, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu, (参考訳) 幅広いタスクにわたる大規模言語モデル(LLM)の強いパフォーマンスにもかかわらず、信頼性の問題はまだ残っている。 従来の研究では, GPT-4-turbo のような強力な LLM は LLM からの応答の信頼性を評価するのに優れているが, 効率性や局所的な展開の問題に直面している。 そこで我々は, LLM応答の信頼性を効果的に評価するために, $\textit{Meta Ranking}$ (MR) と呼ばれるクロスクエリベースの新しい手法を提案する。 LLMのインコンテキスト学習機能のみをベースとした従来の数ショット方式とは異なり、MRは複数の参照クエリレスポンスペアでターゲットクエリレスポンスペアをペアにランク付けすることで信頼性を評価する。 MRは,Phi-2などの弱いLDMがGPT-3.5-turboのような強いベースラインを超え,参照サンプルが5つしか必要とせず,効率が著しく向上するLLM応答の誤差検出に極めて有効であることがわかった。 さらに、MRはモデルカスケーディングと命令チューニングの2つの実用的応用において、強力なLLMの性能を向上させることができることを実証する。 モデルカスケードでは,GPT-4-turboに匹敵する性能を低コストで達成するために,オープンソースとクローズドソースのLCMを組み合わせる。 インストラクションチューニングでは、反復的トレーニングデータフィルタリングにMRを使用し、データ処理時間を著しく短縮し、LLaMA-7BとPhi-2がより少ないトレーニングトークンでAlpaca-13Bを超えることができる。 これらの結果はMRの効率と有効性の両方において高い可能性を示している。

Despite the strong performance of large language models (LLMs) across a wide range of tasks, they still have reliability issues. Previous studies indicate that strong LLMs like GPT-4-turbo excel in evaluating the reliability of responses from LLMs, but face efficiency and local deployment issues. Thus, to enable weak LLMs to effectively assess the reliability of LLM responses, we propose a novel cross-query-comparison-based method called $\textit{Meta Ranking}$ (MR). Unlike previous few-shot methods that solely based on in-context learning capabilities in LLMs, MR assesses reliability by pairwisely ranking the target query-response pair with multiple reference query-response pairs. We found that MR is highly effective in error detection for LLM responses, where weak LLMs, such as Phi-2, could surpass strong baselines like GPT-3.5-turbo, requiring only five reference samples and significantly improving efficiency. We further demonstrate that MR can enhance strong LLMs' performance in two practical applications: model cascading and instruction tuning. In model cascading, we combine open- and closed-source LLMs to achieve performance comparable to GPT-4-turbo with lower costs. In instruction tuning, we use MR for iterative training data filtering, significantly reducing data processing time and enabling LLaMA-7B and Phi-2 to surpass Alpaca-13B with fewer training tokens. These results underscore the high potential of MR in both efficiency and effectiveness.
翻訳日:2024-06-03 19:52:35 公開日:2024-05-31
# エキスパートのマルチ線形混合:因子化によるスケーラブルなエキスパートスペシャライゼーション

Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization ( http://arxiv.org/abs/2402.12550v2 )

ライセンス: Link先を確認
James Oldfield, Markos Georgopoulos, Grigorios G. Chrysos, Christos Tzelepis, Yannis Panagakis, Mihalis A. Nicolaou, Jiankang Deng, Ioannis Patras, (参考訳) Mixture of Experts (MoE)パラダイムは、高密度層をより小さく、モジュール化された計算に分解する強力な方法を提供する。 しかし、大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。 本稿では、視覚モデルに焦点をあてて、この問題に対処するMultilinear Mixture of Experts(\mu$MoE)層を提案する。 $\mu$MoEレイヤは、非常に大きなテンソルを完全に分解された形で暗黙の計算を行うことで、スケーラブルな専門家の特殊化を可能にする。 したがって、$\mu$MoEs (1) は 'soft' MoEs の制約的に高い推論時間コストを避けるが、 (2) は、人気のある 'sparse' MoEs' の訓練問題を継承しない。 我々は,視覚タスクの微調整基礎モデルにおいて,$\mu$MoE層をスケーリングすると,クラスレベルの専門家がより専門的になり,CelebA属性分類における手動バイアス補正が可能となるという定性的および定量的証拠を提示する。 最後に,パラメータマッチングされた$\mu$MoEブロックを持つ大規模GPT2およびMLP-Mixerモデルを各層で事前学習し,精度を同等に保ちながら,専門家の専門性を示す定性的な結果を示す。 私たちのコードは、https://github.com/james-oldfield/muMoE.comで利用可能です。

The Mixture of Experts (MoE) paradigm provides a powerful way to decompose dense layers into smaller, modular computations often more amenable to human interpretation, debugging, and editability. However, a major challenge lies in the computational cost of scaling the number of experts high enough to achieve fine-grained specialization. In this paper, we propose the Multilinear Mixture of Experts ($\mu$MoE) layer to address this, focusing on vision models. $\mu$MoE layers enable scalable expert specialization by performing an implicit computation on prohibitively large weight tensors entirely in factorized form. Consequently, $\mu$MoEs (1) avoid the restrictively high inference-time costs of 'soft' MoEs, yet (2) do not inherit the training issues of the popular 'sparse' MoEs' discrete (non-differentiable) expert routing. We present both qualitative and quantitative evidence that scaling $\mu$MoE layers when fine-tuning foundation models for vision tasks leads to more specialized experts at the class-level, further enabling manual bias correction in CelebA attribute classification. Finally, we show qualitative results demonstrating the expert specialism achieved when pre-training large GPT2 and MLP-Mixer models with parameter-matched $\mu$MoE blocks at every layer, maintaining comparable accuracy. Our code is available at: https://github.com/james-oldfield/muMoE.
翻訳日:2024-06-03 19:52:35 公開日:2024-05-31
# 量子論とコンテキスト最適輸送の応用

Quantum Theory and Application of Contextual Optimal Transport ( http://arxiv.org/abs/2402.14991v2 )

ライセンス: Link先を確認
Nicola Mariella, Albert Akhriev, Francesco Tacchino, Christa Zoufal, Juan Carlos Gonzalez-Espitia, Benedek Harsanyi, Eugene Koskin, Ivano Tavernelli, Stefan Woerner, Marianna Rapsomaniki, Sergiy Zhuk, Jannis Born, (参考訳) Optimal Transport(OT)は多くのドメインにわたって機械学習(ML)を推進している。 ペアデータの測定値 $(\boldsymbol{\mu}, \boldsymbol{\nu})$ を共変量に結合すると、困難な条件分布学習環境が発生する。 既存のアプローチによる$\textit{global}$トランスポートマップの学習は、潜在的に見えない文脈でパラメータ化され、Neural OTを用いており、ブレニエの定理に大きく依存している。 本稿では、文脈化された輸送計画の償却最適化のための、第一種量子コンピューティングの定式化を提案する。 両立確率行列とユニタリ演算子との直接リンクを利用して、OTと量子計算との自然な接続を悪化させる。 薬物投与量に応じた細胞型分布の変動を予測し, 合成データと実データに基づいて本手法(QontOT)を検証する。 重要なことは、24量子ビットのハードウェア実験を、古典的コンピュータに挑戦するタスクで実施し、我々の古典的ニューラルOTアプローチと一致しない性能を報告している。 要約すると、これは量子コンピューティングを通じてコンテキスト化された輸送計画を予測することを学ぶための第一歩である。

Optimal Transport (OT) has fueled machine learning (ML) across many domains. When paired data measurements $(\boldsymbol{\mu}, \boldsymbol{\nu})$ are coupled to covariates, a challenging conditional distribution learning setting arises. Existing approaches for learning a $\textit{global}$ transport map parameterized through a potentially unseen context utilize Neural OT and largely rely on Brenier's theorem. Here, we propose a first-of-its-kind quantum computing formulation for amortized optimization of contextualized transportation plans. We exploit a direct link between doubly stochastic matrices and unitary operators thus unravelling a natural connection between OT and quantum computation. We verify our method (QontOT) on synthetic and real data by predicting variations in cell type distributions conditioned on drug dosage. Importantly we conduct a 24-qubit hardware experiment on a task challenging for classical computers and report a performance that cannot be matched with our classical neural OT approach. In sum, this is a first step toward learning to predict contextualized transportation plans through quantum computing.
翻訳日:2024-06-03 19:52:35 公開日:2024-05-31
# 協調ゲーム理論を用いたオープンアドホックワーク

Open Ad Hoc Teamwork with Cooperative Game Theory ( http://arxiv.org/abs/2402.15259v3 )

ライセンス: Link先を確認
Jianhong Wang, Yang Li, Yuan Zhang, Wei Pan, Samuel Kaski, (参考訳) アドホックなチームワークは、事前の調整や共同トレーニングなしに、チームメイトと協力するエージェントの設計を必要とする、困難な問題を引き起こします。 オープンアドホックチームワーク(OAHT)は、オープンチームと呼ばれるチームメイトの数が増える環境を考えることで、この課題をさらに複雑にします。 この問題に対する現実的な解決策の1つは、グラフベースのポリシー学習(GPL)と呼ばれる、制限のない数のエージェントを扱うために、グラフニューラルネットワークの一般化可能性を活用することである。 しかし、協調グラフ上の共同Q値表現は説得力のある説明を欠いている。 本稿では、協調ゲーム理論の観点から、OAHTの合同Q値表現を理解するための新たな理論を確立し、その学習パラダイムを検証する。 本理論に基づいて,GPLフレームワークと互換性のあるCIAOという新しいアルゴリズムを提案する。 実験結果のデモはhttps://sites.google.com/view/ciao2024で公開されており、実験のコードはhttps://github.com/hsvgbgbv/CIAOで公開されている。

Ad hoc teamwork poses a challenging problem, requiring the design of an agent to collaborate with teammates without prior coordination or joint training. Open ad hoc teamwork (OAHT) further complicates this challenge by considering environments with a changing number of teammates, referred to as open teams. One promising solution in practice to this problem is leveraging the generalizability of graph neural networks to handle an unrestricted number of agents, named graph-based policy learning (GPL). However, its joint Q-value representation over a coordination graph lacks convincing explanations. In this paper, we establish a new theory to understand the joint Q-value representation for OAHT, from the perspective of cooperative game theory, and validate its learning paradigm. Building on our theory, we propose a novel algorithm named CIAO, compatible with GPL framework, with additional provable implementation tricks that can facilitate learning. The demos of experimental results are available on https://sites.google.com/view/ciao2024, and the code of experiments is published on https://github.com/hsvgbkhgbv/CIAO.
翻訳日:2024-06-03 19:52:35 公開日:2024-05-31
# 絡み合いとエントロピーの幾何学

A Geometry of entanglement and entropy ( http://arxiv.org/abs/2402.15880v2 )

ライセンス: Link先を確認
Ramita Sarkar, Soumik Mahanti, Prasanta K. Panigrahi, (参考訳) 本稿では, エンタングルメントの幾何学とフォン・ノイマンエントロピーの基本的な関係を考察し, 量子相関の複雑な性質に光を当てる。 我々は、量子力学におけるその重要な役割を強調する、絡み合いの包括的概要を提供する。 我々の焦点は、エンタングルメント、フォン・ノイマンエントロピー、量子系における情報内容の測度、複合ヒルベルト空間の幾何学との接続に焦点を当てている。 我々は、幾何学的な視点で絡み合いを定量化し、特徴づける様々な方法について議論し、この接続が量子絡み合いの性質をいかに明らかにするかを解明し、量子システムの基盤構造に関する貴重な洞察を提供する。 この研究は、量子相関の豊かな風景と、物理学や情報理論の様々な領域におけるその意味を理解するための重要なツールとして、幾何学の重要性を浮き彫りにしている。 状態テレポーテーションのタスクに必要なリソースとしての絡み合いの例を最後に示す。

This paper explores the fundamental relationship between the geometry of entanglement and von Neumann entropy, shedding light on the intricate nature of quantum correlations. We provide a comprehensive overview of entanglement, highlighting its crucial role in quantum mechanics. Our focus centers on the connection between entanglement, von Neumann entropy, a measure of the information content within quantum systems and the geometry of composite Hilbert spaces. We discuss various methods for quantifying and characterizing entanglement through a geometric perspective and elucidate how this connection unveils the nature of quantum entanglement, offering valuable insights into the underlying structure of quantum systems. This study underscores the significance of geometry as a key tool for understanding the rich landscape of quantum correlations and their implications across various domains of physics and information theory. An example of entanglement as an indispensable resource for the task of state teleportation is presented at the end.
翻訳日:2024-06-03 19:52:35 公開日:2024-05-31
# 一般化・記憶:大規模言語モデルにおけるデータ汚染と信頼できる評価

Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models ( http://arxiv.org/abs/2402.15938v3 )

ライセンス: Link先を確認
Yihong Dong, Xue Jiang, Huanyu Liu, Zhi Jin, Bin Gu, Mengfei Yang, Ge Li, (参考訳) 大規模言語モデル(LLM)の印象的な機能に関する最近のステートメントは、通常、オープンアクセスベンチマークで評価される。 LLMのトレーニングデータの膨大なサイズと広範囲のソースを考えると、明示的にまたは暗黙的にテストデータを含めることができるため、LSMはデータ汚染の影響を受けやすい。 しかし、トレーニングデータの不透明さ、モデルのブラックボックスアクセス、および合成トレーニングデータの急速な成長により、LLMのデータ汚染の検出と緩和は大きな課題に直面している。 本稿では,LCMの出力分布による汚染検出を行うCDDを提案する。 CDDは、LLMの出力分布のピーク性を特定することによって、データの汚染を検出するためにサンプルテキストのみを必要とする。 評価におけるデータ汚染の影響を軽減するため, LLMの出力分布の補正に基づいて, 出力分布による信頼に値する評価を行う。 本研究では,データ汚染検出と汚染緩和評価タスクのための2つのベンチマーク,すなわちDetConとComiEvalを紹介する。 実験結果から,CDDは,他の汚染検出手法と比較して,精度,F1スコア,AUC測定値で平均21.8\%-30.2\%の相対的な改善を達成し,暗黙的な汚染を効果的に検出できることが示唆された。 TEDは、様々な汚染装置にまたがるデータ汚染に起因する66.9\%の性能改善を著しく軽減している。 実世界の応用において,ChatGPTはHumanEvalベンチマークでデータ汚染に悩む可能性が高いことが明らかになった。

Recent statements about the impressive capabilities of large language models (LLMs) are usually supported by evaluating on open-access benchmarks. Considering the vast size and wide-ranging sources of LLMs' training data, it could explicitly or implicitly include test data, leading to LLMs being more susceptible to data contamination. However, due to the opacity of training data, the black-box access of models, and the rapid growth of synthetic training data, detecting and mitigating data contamination for LLMs faces significant challenges. In this paper, we propose CDD, which stands for Contamination Detection via output Distribution for LLMs. CDD necessitates only the sampled texts to detect data contamination, by identifying the peakedness of LLM's output distribution. To mitigate the impact of data contamination in evaluation, we also present TED: Trustworthy Evaluation via output Distribution, based on the correction of LLM's output distribution. To facilitate this study, we introduce two benchmarks, i.e., DetCon and ComiEval, for data contamination detection and contamination mitigation evaluation tasks. Extensive experimental results show that CDD achieves the average relative improvements of 21.8\%-30.2\% over other contamination detection approaches in terms of Accuracy, F1 Score, and AUC metrics, and can effectively detect implicit contamination. TED substantially mitigates performance improvements up to 66.9\% attributed to data contamination across various contamination setups. In real-world applications, we reveal that ChatGPT exhibits a high potential to suffer from data contamination on HumanEval benchmark.
翻訳日:2024-06-03 19:52:35 公開日:2024-05-31
# 量子線形代数はトランスフォーマーアーキテクチャに必要なもの

Quantum linear algebra is all you need for Transformer architectures ( http://arxiv.org/abs/2402.16714v2 )

ライセンス: Link先を確認
Naixu Guo, Zhan Yu, Matthew Choi, Aman Agrawal, Kouhei Nakaji, Alán Aspuru-Guzik, Patrick Rebentrost, (参考訳) 大規模言語モデルのような生成機械学習手法は、テキストや画像の作成に革命をもたらしている。 これらのモデルは強力だが、大量の計算資源も活用している。 変換器は、与えられた部分シーケンスの適切な完了を生成することを目的とした、大きな言語モデルのキーコンポーネントである。 本研究では,フォールトトレラント量子コンピューティングのレンズ下でのトランスフォーマーアーキテクチャについて検討する。 入力モデルは、訓練された重み行列をブロック符号化として与え、変換器のクエリ、キー、値行列を構成する。 我々は,ソフトマックス関数の行ワイド適用のための新しいサブルーチンを用いて,自己アテンション行列のブロック符号化の仕方を示す。 さらに、量子サブルーチンを組み合わせることで、トランス、残差接続、層正規化、フィードフォワードニューラルネットワークの重要なビルディングブロックを構築する。 我々のサブルーチンは変換器出力の振幅エンコーディングを作成し、予測値を得るために測定することができる。 一般的なオープンソースの大言語モデルに基づいて、量子アルゴリズムの実行時間を決定する重要なパラメータの挙動に関する洞察を提供する。 量子優位性を得るための可能性と課題について論じる。

Generative machine learning methods such as large-language models are revolutionizing the creation of text and images. While these models are powerful they also harness a large amount of computational resources. The transformer is a key component in large language models that aims to generate a suitable completion of a given partial sequence. In this work, we investigate transformer architectures under the lens of fault-tolerant quantum computing. The input model is one where trained weight matrices are given as block encodings and we construct the query, key, and value matrices for the transformer. We show how to prepare a block encoding of the self-attention matrix, with a new subroutine for the row-wise application of the softmax function. In addition, we combine quantum subroutines to construct important building blocks in the transformer, the residual connection and layer normalization, and the feed-forward neural network. Our subroutines prepare an amplitude encoding of the transformer output, which can be measured to obtain a prediction. Based on common open-source large-language models, we provide insights into the behavior of important parameters determining the run time of the quantum algorithm. We discuss the potential and challenges for obtaining a quantum advantage.
翻訳日:2024-06-03 19:52:35 公開日:2024-05-31
# CARTE: 単語学習のための事前学習と伝達

CARTE: Pretraining and Transfer for Tabular Learning ( http://arxiv.org/abs/2402.16785v2 )

ライセンス: Link先を確認
Myung Jun Kim, Léo Grinsztajn, Gaël Varoquaux, (参考訳) 事前訓練されたディープラーニングモデルは、画像やテキストのゴーツーソリューションである。 しかし、表データの標準は依然としてツリーベースのモデルをトレーニングすることである。 実際、テーブル上での転送学習は、データ統合の課題である。対応を見つけること、異なる単語が同じエンティティを表すことができるエントリ(エンティティマッチング)内の対応、列をまたいだ対応(スキーママッチング)。 このような対応を必要としないニューラルアーキテクチャを提案する。 結果として、マッチしていないバックグラウンドデータに基づいて事前トレーニングを行うことができる。 CARTE for Context Aware Representation of Table Entriesというアーキテクチャでは、表データ(またはリレーショナル)のグラフ表現を使用して、異なる列のテーブルを処理する。 広範なベンチマークでは、CARTEが学習を容易にし、最高のツリーベースモデルを含む一連のベースラインを上回ることが示されている。 CARTEはまた、マッチしない列を持つテーブル間の共同学習を可能にし、より大きな列を持つ小さなテーブルを拡張する。 CARTEは、表データのための大きな事前訓練されたモデルへの扉を開く。

Pretrained deep-learning models are the go-to solution for images or text. However, for tabular data the standard is still to train tree-based models. Indeed, transfer learning on tables hits the challenge of data integration: finding correspondences, correspondences in the entries (entity matching) where different words may denote the same entity, correspondences across columns (schema matching), which may come in different orders, names... We propose a neural architecture that does not need such correspondences. As a result, we can pretrain it on background data that has not been matched. The architecture -- CARTE for Context Aware Representation of Table Entries -- uses a graph representation of tabular (or relational) data to process tables with different columns, string embedding of entries and columns names to model an open vocabulary, and a graph-attentional network to contextualize entries with column names and neighboring entries. An extensive benchmark shows that CARTE facilitates learning, outperforming a solid set of baselines including the best tree-based models. CARTE also enables joint learning across tables with unmatched columns, enhancing a small table with bigger ones. CARTE opens the door to large pretrained models for tabular data.
翻訳日:2024-06-03 19:52:35 公開日:2024-05-31
# FedLPPA:Federated Weakly-supervised Medical Image Segmentationのための個人化プロンプトとアグリゲーションの学習

FedLPPA: Learning Personalized Prompt and Aggregation for Federated Weakly-supervised Medical Image Segmentation ( http://arxiv.org/abs/2402.17502v2 )

ライセンス: Link先を確認
Li Lin, Yixiang Liu, Jiewei Wu, Pujin Cheng, Zhiyuan Cai, Kenneth K. Y. Wong, Xiaoying Tang, (参考訳) フェデレートラーニング(FL)は、ポリシーやプライバシの懸念によって引き起こされるデータサイロの課題を効果的に軽減し、深層モデルのトレーニングにより多くのデータを暗黙的に活用する。 しかし、従来の集中型FLモデルは、特に医学的文脈において、重要なデータ不均一性に直面して、多様なマルチセンターデータに波及する。 医用画像のセグメンテーションの領域では、アノテーションの削減に要するコストの増加が、ポイントやスクリブルなどのスパースアノテーションを利用する弱監督技術の重要性を高めている。 実用的FLパラダイムは、さまざまなサイトにわたる多様なアノテーションフォーマットに対応し、研究トピックは未検討のままである。 このような状況下で,医用画像セグメンテーションのための不均一な弱い監督を均一に活用するために,学習可能なプロンプトとアグリゲーション(FedLPPA)を備えた新規なパーソナライズFLフレームワークを提案する。 FedLPPAでは、学習可能な普遍的な知識プロンプトが維持され、複数の学習可能なパーソナライズされたデータ配布プロンプトと、監督空間を表すプロンプトが補完される。 デュアルアテンション機構によってサンプル機能と統合され、各ローカルタスクデコーダが局所分布と監督形式の両方に順応的に適応するように促される。 同時に、プロンプト類似性を前提としたデュアルデコーダ戦略を導入し、弱教師付き学習における擬似ラベルの生成を向上し、局所データ固有の過度適合やノイズ蓄積を緩和し、パラメータ的にタスクデコーダをカスタマイズする適応的なアグリゲーション手法を採用した。 異なるモダリティを含む4つの異なる医用画像セグメンテーションタスクに対する広範囲な実験は、FedLPPAの優位性を裏付けるものであり、その有効性は、完全に監督された集中トレーニングと密接に一致している。 コードとデータは利用可能です。

Federated learning (FL) effectively mitigates the data silo challenge brought about by policies and privacy concerns, implicitly harnessing more data for deep model training. However, traditional centralized FL models grapple with diverse multi-center data, especially in the face of significant data heterogeneity, notably in medical contexts. In the realm of medical image segmentation, the growing imperative to curtail annotation costs has amplified the importance of weakly-supervised techniques which utilize sparse annotations such as points, scribbles, etc. A pragmatic FL paradigm shall accommodate diverse annotation formats across different sites, which research topic remains under-investigated. In such context, we propose a novel personalized FL framework with learnable prompt and aggregation (FedLPPA) to uniformly leverage heterogeneous weak supervision for medical image segmentation. In FedLPPA, a learnable universal knowledge prompt is maintained, complemented by multiple learnable personalized data distribution prompts and prompts representing the supervision sparsity. Integrated with sample features through a dual-attention mechanism, those prompts empower each local task decoder to adeptly adjust to both the local distribution and the supervision form. Concurrently, a dual-decoder strategy, predicated on prompt similarity, is introduced for enhancing the generation of pseudo-labels in weakly-supervised learning, alleviating overfitting and noise accumulation inherent to local data, while an adaptable aggregation method is employed to customize the task decoder on a parameter-wise basis. Extensive experiments on four distinct medical image segmentation tasks involving different modalities underscore the superiority of FedLPPA, with its efficacy closely parallels that of fully supervised centralized training. Our code and data will be available.
翻訳日:2024-06-03 19:52:35 公開日:2024-05-31
# 対人ロバストネスの極端緩和とイラシオン

Extreme Miscalibration and the Illusion of Adversarial Robustness ( http://arxiv.org/abs/2402.17509v2 )

ライセンス: Link先を確認
Vyas Raina, Samson Tan, Volkan Cevher, Aditya Rawal, Sheng Zha, George Karypis, (参考訳) ディープラーニングベースの自然言語処理(NLP)モデルは、小さな摂動によってモデルが誤分類される可能性のある敵攻撃に対して脆弱である。 逆行訓練(AT)は、しばしばモデルの堅牢性を高めるために使用される。 しかし, 敵の攻撃探索手法に干渉するような方法で, 意図的あるいは誤ってモデルが勾配を覆い隠すという, 興味深い現象が発見され, 強靭性は明らかに増大する。 本研究は, 強靭性の観察による獲得は, 強靭性の錯覚(IOR)であり, 上記の干渉を無効化し, 敵の攻撃が敵の例を見出すことを可能にするために, 様々な形態のテスト時間温度校正を行うことができることを示す。 したがって、我々はNLPコミュニティに対して、観測された利得が本物であることを確実にするために、テスト時間温度のスケーリングを彼らの堅牢性評価に組み込むよう促す。 最後に、実際のロバスト性を改善するために、 \textit{training} の間、どのように温度をスケールできるかを示す。

Deep learning-based Natural Language Processing (NLP) models are vulnerable to adversarial attacks, where small perturbations can cause a model to misclassify. Adversarial Training (AT) is often used to increase model robustness. However, we have discovered an intriguing phenomenon: deliberately or accidentally miscalibrating models masks gradients in a way that interferes with adversarial attack search methods, giving rise to an apparent increase in robustness. We show that this observed gain in robustness is an illusion of robustness (IOR), and demonstrate how an adversary can perform various forms of test-time temperature calibration to nullify the aforementioned interference and allow the adversarial attack to find adversarial examples. Hence, we urge the NLP community to incorporate test-time temperature scaling into their robustness evaluations to ensure that any observed gains are genuine. Finally, we show how the temperature can be scaled during \textit{training} to improve genuine robustness.
翻訳日:2024-06-03 19:52:35 公開日:2024-05-31
# BioT5+: IUPAC統合とマルチタスクチューニングによる汎用生物学的理解を目指して

BioT5+: Towards Generalized Biological Understanding with IUPAC Integration and Multi-task Tuning ( http://arxiv.org/abs/2402.17810v2 )

ライセンス: Link先を確認
Qizhi Pei, Lijun Wu, Kaiyuan Gao, Xiaozhuan Liang, Yin Fang, Jinhua Zhu, Shufang Xie, Tao Qin, Rui Yan, (参考訳) 計算生物学における最近の研究動向は、特に分子やタンパク質の文脈において、テキストとバイオエンタリティモデリングの統合に焦点を当てている。 しかし、BioT5のような以前の取り組みは、様々なタスクをまたいだ一般化の課題に直面しており、特にテキスト表現(例えば、IUPAC)において、分子構造に関する微妙な理解が欠如していた。 本稿では,BioT5フレームワークの拡張であるBioT5+を紹介する。 BioT5+ には、分子理解のための IUPAC 名の統合、bioRxiv や PubChem などのソースからの広範なバイオテキストと分子データの統合、タスク間の汎用性のためのマルチタスク命令チューニング、数値データの処理を改善する数値トークン化技術など、いくつかの新機能が含まれている。 これらの拡張により、BioT5+は、分子表現とそれらのテキスト記述のギャップを埋め、生物学的実体をより包括的に理解し、バイオテキストとバイオシーケンスの基底的推論を大幅に改善することができる。 モデルは事前訓練され、多数の実験で微調整されており、例えば \emph{3 タイプの問題(分類、回帰、生成)、15種類のタスク、21種類のベンチマークデータセットなどがあり、ほとんどのケースで顕著なパフォーマンスと最先端の結果を示している。 BioT5+は、生物学的データの複雑な関係を捉え、バイオインフォマティクスや計算生物学に大きく貢献する。 私たちのコードは \url{https://github.com/QizhiPei/BioT5} で利用可能です。

Recent research trends in computational biology have increasingly focused on integrating text and bio-entity modeling, especially in the context of molecules and proteins. However, previous efforts like BioT5 faced challenges in generalizing across diverse tasks and lacked a nuanced understanding of molecular structures, particularly in their textual representations (e.g., IUPAC). This paper introduces BioT5+, an extension of the BioT5 framework, tailored to enhance biological research and drug discovery. BioT5+ incorporates several novel features: integration of IUPAC names for molecular understanding, inclusion of extensive bio-text and molecule data from sources like bioRxiv and PubChem, the multi-task instruction tuning for generality across tasks, and a numerical tokenization technique for improved processing of numerical data. These enhancements allow BioT5+ to bridge the gap between molecular representations and their textual descriptions, providing a more holistic understanding of biological entities, and largely improving the grounded reasoning of bio-text and bio-sequences. The model is pre-trained and fine-tuned with a large number of experiments, including \emph{3 types of problems (classification, regression, generation), 15 kinds of tasks, and 21 total benchmark datasets}, demonstrating the remarkable performance and state-of-the-art results in most cases. BioT5+ stands out for its ability to capture intricate relationships in biological data, thereby contributing significantly to bioinformatics and computational biology. Our code is available at \url{https://github.com/QizhiPei/BioT5}.
翻訳日:2024-06-03 19:42:50 公開日:2024-05-31
# AI生成コンテンツの検索拡張生成:サーベイ

Retrieval-Augmented Generation for AI-Generated Content: A Survey ( http://arxiv.org/abs/2402.19473v5 )

ライセンス: Link先を確認
Penghao Zhao, Hailin Zhang, Qinhan Yu, Zhengren Wang, Yunteng Geng, Fangcheng Fu, Ling Yang, Wentao Zhang, Jie Jiang, Bin Cui, (参考訳) モデルアルゴリズムの進歩、基礎モデルの成長、高品質なデータセットへのアクセスは、人工知能生成コンテンツ(AIGC)の進化を促している。 その顕著な成功にもかかわらず、AIGCは、知識の更新、長期データ処理、データ漏洩の軽減、高いトレーニングと推論コストの管理といったハードルに直面している。 Retrieval-Augmented Generation (RAG) はそのような課題に対処するためのパラダイムとして最近登場した。 特に、RAGは情報検索プロセスを導入し、関連オブジェクトを利用可能なデータストアから取得することで生成プロセスを強化し、より高い精度と堅牢性を実現する。 本稿では,RAG手法をAIGCシナリオに統合する既存の取り組みを概観的にレビューする。 本稿では、まず、レトリバーがジェネレータをどのように拡張するかに応じてRAG基盤を分類し、様々なレトリバーやジェネレータのための拡張手法の基本的抽象化を蒸留する。 この統合された視点は、すべてのRAGシナリオを包含し、将来の進歩に役立つ進歩と重要な技術を示します。 また、RAGシステムの効率的なエンジニアリングと実装を容易にするため、RAGのさらなる拡張手法についても要約する。 そして、別の視点から、様々なモダリティやタスクにまたがるRAGの実践的応用を調査し、研究者や実践者に貴重な参考資料を提供する。 さらに、RAGのベンチマークを導入し、現在のRAGシステムの限界について議論し、今後の研究の方向性を提案する。 Github:https://github.com/PKU-DAIR/RAG-Survey.com

Advancements in model algorithms, the growth of foundational models, and access to high-quality datasets have propelled the evolution of Artificial Intelligence Generated Content (AIGC). Despite its notable successes, AIGC still faces hurdles such as updating knowledge, handling long-tail data, mitigating data leakage, and managing high training and inference costs. Retrieval-Augmented Generation (RAG) has recently emerged as a paradigm to address such challenges. In particular, RAG introduces the information retrieval process, which enhances the generation process by retrieving relevant objects from available data stores, leading to higher accuracy and better robustness. In this paper, we comprehensively review existing efforts that integrate RAG technique into AIGC scenarios. We first classify RAG foundations according to how the retriever augments the generator, distilling the fundamental abstractions of the augmentation methodologies for various retrievers and generators. This unified perspective encompasses all RAG scenarios, illuminating advancements and pivotal technologies that help with potential future progress. We also summarize additional enhancements methods for RAG, facilitating effective engineering and implementation of RAG systems. Then from another view, we survey on practical applications of RAG across different modalities and tasks, offering valuable references for researchers and practitioners. Furthermore, we introduce the benchmarks for RAG, discuss the limitations of current RAG systems, and suggest potential directions for future research. Github: https://github.com/PKU-DAIR/RAG-Survey.
翻訳日:2024-06-03 19:42:50 公開日:2024-05-31
# 制約付き多目的強化学習のための矛盾-逆勾配集約

Conflict-Averse Gradient Aggregation for Constrained Multi-Objective Reinforcement Learning ( http://arxiv.org/abs/2403.00282v2 )

ライセンス: Link先を確認
Dohyeong Kim, Mineui Hong, Jeongho Park, Songhwai Oh, (参考訳) 多くの実世界の応用において、強化学習(RL)エージェントは、複数の目的を考慮し、安全ガイドラインに従うべきである。 これらの課題に対処するため,制約付き多目的勾配アグリゲータ (CoMOGA) という制約付き多目的RLアルゴリズムを提案する。 多目的最適化の分野では、ポリシーが局所最適に収束するのを防ぐために、複数の目的の勾配間の衝突を管理することが不可欠である。 また、安定したトレーニングと制約満足度のための安全制約を効率的に処理することが不可欠である。 本研究は,複数の目的の最大化を制約最適化問題 (COP) として扱うことで,これらの課題に容易に対処する。 既存の安全制約をCOPに統合し、勾配衝突を回避する線形近似を用いてポリシーを更新する。 その単純さにもかかわらず、CoMOGAは表の設定において最適な収束を保証する。 各種実験により, 勾配衝突防止が重要であり, 提案手法は全タスクの制約満足度を達成できることを確認した。

In many real-world applications, a reinforcement learning (RL) agent should consider multiple objectives and adhere to safety guidelines. To address these considerations, we propose a constrained multi-objective RL algorithm named Constrained Multi-Objective Gradient Aggregator (CoMOGA). In the field of multi-objective optimization, managing conflicts between the gradients of the multiple objectives is crucial to prevent policies from converging to local optima. It is also essential to efficiently handle safety constraints for stable training and constraint satisfaction. We address these challenges straightforwardly by treating the maximization of multiple objectives as a constrained optimization problem (COP), where the constraints are defined to improve the original objectives. Existing safety constraints are then integrated into the COP, and the policy is updated using a linear approximation, which ensures the avoidance of gradient conflicts. Despite its simplicity, CoMOGA guarantees optimal convergence in tabular settings. Through various experiments, we have confirmed that preventing gradient conflicts is critical, and the proposed method achieves constraint satisfaction across all tasks.
翻訳日:2024-06-03 19:42:50 公開日:2024-05-31
# トケナイザー推論手法の評価

Greed is All You Need: An Evaluation of Tokenizer Inference Methods ( http://arxiv.org/abs/2403.01289v2 )

ライセンス: Link先を確認
Omri Uzan, Craig W. Schmidt, Chris Tanner, Yuval Pinter, (参考訳) BPEやWordPieceのようなサブワードトークンーは一般的にNLPモデルの語彙を構築するのに使用されるが、これらの語彙からトークンの列にテキストを復号する手法は、しばしば未特定のまま残されるか、それらが構築された方法に不適当である。 本研究では,4つの異なるアルゴリズムと3つの語彙サイズにまたがる7つのトークンライザ推論手法の制御分析を行い,形態学,認知,情報理論に根ざした指標を組み合わせて,我々が英語でキュレーションした内在的評価スイートで実施した。 我々は,最もよく使われているトークン化剤に対して,グリーディ推論が驚くほどよく機能し,最近導入された文脈的にインフォームドされたトークン化剤であるSaGeが,形態的アライメントにおいて他の全てより優れていることを示す。

While subword tokenizers such as BPE and WordPiece are typically used to build vocabularies for NLP models, the method of decoding text into a sequence of tokens from these vocabularies is often left unspecified, or ill-suited to the method in which they were constructed. We provide a controlled analysis of seven tokenizer inference methods across four different algorithms and three vocabulary sizes, performed on a novel intrinsic evaluation suite we curated for English, combining measures rooted in morphology, cognition, and information theory. We show that for the most commonly used tokenizers, greedy inference performs surprisingly well; and that SaGe, a recently-introduced contextually-informed tokenizer, outperforms all others on morphological alignment.
翻訳日:2024-06-03 19:42:50 公開日:2024-05-31
# eXponential FAmily Dynamical Systems (XFADS):大規模非線形ガウス状態空間モデリング

eXponential FAmily Dynamical Systems (XFADS): Large-scale nonlinear Gaussian state-space modeling ( http://arxiv.org/abs/2403.01371v2 )

ライセンス: Link先を確認
Matthew Dowling, Yuan Zhao, Il Memming Park, (参考訳) 状態空間グラフィカルモデルと変分オートエンコーダフレームワークは、データから動的システムを学ぶための原則化された装置を提供する。 最先端の確率的アプローチは、しばしば力学モデルの変動後部や表現率の柔軟性を犠牲にして、大きな問題にスケールすることができる。 しかし、これらの統合は、データの時空間構造を説明し、正確な予測を行うことができる生成モデルを学ぶことが究極の目標である場合、有害となる可能性がある。 本稿では,非線形ガウス状態空間グラフィカルモデルのための低ランク構造付き変分自動符号化フレームワークを提案する。 我々の推論アルゴリズムはサンプルベースの近似ガウスメッセージパッシングと低ランクの補正後更新から自然に生じる共分散構造を利用する。 他の深い状態空間モデルアーキテクチャと比較して、我々のアプローチは、より予測的な生成モデルを学ぶ能力を一貫して示しています。 さらに, 神経生理学的記録に適用すると, 集団のスパイクや行動の相関を予測できる力学系を学習できる。

State-space graphical models and the variational autoencoder framework provide a principled apparatus for learning dynamical systems from data. State-of-the-art probabilistic approaches are often able to scale to large problems at the cost of flexibility of the variational posterior or expressivity of the dynamics model. However, those consolidations can be detrimental if the ultimate goal is to learn a generative model capable of explaining the spatiotemporal structure of the data and making accurate forecasts. We introduce a low-rank structured variational autoencoding framework for nonlinear Gaussian state-space graphical models capable of capturing dense covariance structures that are important for learning dynamical systems with predictive capabilities. Our inference algorithm exploits the covariance structures that arise naturally from sample based approximate Gaussian message passing and low-rank amortized posterior updates -- effectively performing approximate variational smoothing with time complexity scaling linearly in the state dimensionality. In comparisons with other deep state-space model architectures our approach consistently demonstrates the ability to learn a more predictive generative model. Furthermore, when applied to neural physiological recordings, our approach is able to learn a dynamical system capable of forecasting population spiking and behavioral correlates from a small portion of single trials.
翻訳日:2024-06-03 19:42:50 公開日:2024-05-31
# 協調型対話型エージェントによるツールの活用

Learning to Use Tools via Cooperative and Interactive Agents ( http://arxiv.org/abs/2403.03031v3 )

ライセンス: Link先を確認
Zhengliang Shi, Shen Gao, Xiuyi Chen, Lingyong Yan, Haibo Shi, Dawei Yin, Zhumin Chen, Pengjie Ren, Suzan Verberne, Zhaochun Ren, (参考訳) ツール学習は、大きな言語モデル(LLM)をエージェントとして、その能力を拡張するために外部ツールを使用する権限を与える。 既存の手法では、1つのLCMベースのエージェントを使用してツールを反復的に選択し実行し、その結果を次のアクション予測に組み込む。 しかし, 1 つの LLM 固有の動作能力の制限, 2 つのタスクが失敗した時に誤りを適応的に修正する難しさにより, 複雑なタスクに対処する際の潜在的な性能劣化に悩まされている。 これらの問題を緩和するために,ツール学習のワークフローをグラウンディング,実行,監視エージェントにモジュール化した協調対話型エージェントフレームワークであるConAgentsを提案する。 また,ツール環境からのフィードバックに基づいてエージェントを適応させるイテレーティブキャリブレーション(IterCali)手法も導入した。 3つのデータセットで行った実験は、ConAgentsの優位性を示している(例:SOTAベースラインよりも6点改善)。 さらに,フレームワークの効率性と一貫性について,粒度解析を行う。

Tool learning empowers large language models (LLMs) as agents to use external tools to extend their capability. Existing methods employ one single LLM-based agent to iteratively select and execute tools, thereafter incorporating the result into the next action prediction. However, they still suffer from potential performance degradation when addressing complex tasks due to: (1) the limitation of the inherent capability of a single LLM to perform diverse actions, and (2) the struggle to adaptively correct mistakes when the task fails. To mitigate these problems, we propose the ConAgents, a Cooperative and interactive Agents framework, which modularizes the workflow of tool learning into Grounding, Execution, and Observing agents. We also introduce an iterative calibration (IterCali) method, enabling the agents to adapt themselves based on the feedback from the tool environment. Experiments conducted on three datasets demonstrate the superiority of our ConAgents (e.g., 6 point improvement over the SOTA baseline). We further provide fine-granularity analysis for the efficiency and consistency of our framework.
翻訳日:2024-06-03 19:42:50 公開日:2024-05-31
# GUIDE:拡散モデルを用いた指導型インクリメンタルラーニング

GUIDE: Guidance-based Incremental Learning with Diffusion Models ( http://arxiv.org/abs/2403.03938v2 )

ライセンス: Link先を確認
Bartosz Cywiński, Kamil Deja, Tomasz Trzciński, Bartłomiej Twardowski, Łukasz Kuciński, (参考訳) GUIDEは,拡散モデルからサンプルのリハーサルを誘導する,新しい連続学習手法である。 既存の生成戦略は、生成モデルからランダムにリハーサル例をサンプリングすることで破滅的忘れと戦う。 このようなアプローチは、サンプリング戦略が重要な役割を果たすバッファベースのアプローチと矛盾する。 このギャップを拡散過程に分類器ガイダンスを組み込むことで橋渡しし、連続訓練モデルで忘れられた情報を対象としたリハーサル例を作成することを提案する。 このアプローチは、最近遭遇したクラスのコンテキストで誤って分類される可能性が高い、前のタスク分布からサンプルを生成することを可能にする。 実験の結果,GUIDEは破滅的忘れを著しく減らし,従来のランダムサンプリング手法より優れ,生成的再生を伴う継続的な学習における最近の最先端手法を超越した。

We introduce GUIDE, a novel continual learning approach that directs diffusion models to rehearse samples at risk of being forgotten. Existing generative strategies combat catastrophic forgetting by randomly sampling rehearsal examples from a generative model. Such an approach contradicts buffer-based approaches where sampling strategy plays an important role. We propose to bridge this gap by incorporating classifier guidance into the diffusion process to produce rehearsal examples specifically targeting information forgotten by a continuously trained model. This approach enables the generation of samples from preceding task distributions, which are more likely to be misclassified in the context of recently encountered classes. Our experimental results show that GUIDE significantly reduces catastrophic forgetting, outperforming conventional random sampling approaches and surpassing recent state-of-the-art methods in continual learning with generative replay.
翻訳日:2024-06-03 19:42:50 公開日:2024-05-31
# MedFLIP:マスクオートエンコーダを用いた医用ビジョン・ランゲージ型高速事前訓練

MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training with Masked Autoencoder ( http://arxiv.org/abs/2403.04626v2 )

ライセンス: Link先を確認
Lei Li, Tianfang Zhang, Xinglin Zhang, Jiaqi Liu, Bingqi Ma, Yan Luo, Tao Chen, (参考訳) 医学分析の領域内では、マスケッドオートエンコーダ(MAE)とマルチモーダルデータ間の相互学習の可能性について広範な研究がなされている。 しかし、モーダリティに対するMAEsの影響は依然として重要な課題である。 本稿では,医療分析のための高速言語画像事前学習手法であるMedFLIPを紹介する。 医療診断における一般的なシナリオである、限られたデータから学習するモデルの能力を高めるため、クロスドメインを用いたゼロショット学習のためのMAEを探索する。 画像のマスキングがモーダル間学習に影響を与えないことを検証する。 さらに,医用画像の特徴の表現学習を強化するためのSVD損失を提案し,そのようなデータの構造的複雑さを活用して分類精度を向上させることを目的とした。 我々の理論は、マスキングが意味保存、頑健な特徴抽出、正規化、ドメイン適応、不変学習を促進することを示唆している。 最後に,医療画像解析におけるゼロショット性能の向上を言語を用いて検証する。 MedFLIPのマスキングプロセスのスケーリングは、従来の計算ボトルネックを伴わずに、迅速かつ正確な医用画像解析のための経路を提供する、この分野の進歩を示している。 実験と検証を通じて、MedFLIPは効率的なパフォーマンス向上を示し、将来の医学診断研究と応用に役立つ。

Within the domain of medical analysis, extensive research has explored the potential of mutual learning between Masked Autoencoders(MAEs) and multimodal data. However, the impact of MAEs on intermodality remains a key challenge. We introduce MedFLIP, a Fast Language-Image Pre-training method for Medical analysis. We explore MAEs for zero-shot learning with crossed domains, which enhances the model's ability to learn from limited data, a common scenario in medical diagnostics. We verify that masking an image does not affect inter-modal learning. Furthermore, we propose the SVD loss to enhance the representation learning for characteristics of medical images, aiming to improve classification accuracy by leveraging the structural intricacies of such data. Our theory posits that masking encourages semantic preservation, robust feature extraction, regularization, domain adaptation, and invariance learning. Lastly, we validate using language will improve the zero-shot performance for the medical image analysis. MedFLIP's scaling of the masking process marks an advancement in the field, offering a pathway to rapid and precise medical image analysis without the traditional computational bottlenecks. Through experiments and validation, MedFLIP demonstrates efficient performance improvements, helps for future research and application in medical diagnostics.
翻訳日:2024-06-03 19:42:50 公開日:2024-05-31
# マヨラナ系ジョーンズ多項式のフォトニックシミュレーション

Photonic simulation of Majorana-based Jones polynomials ( http://arxiv.org/abs/2403.04980v2 )

ライセンス: Link先を確認
Jia-Kun Li, Kai Sun, Ze-Yan Hao, Jia-He Liang, Si-Jing Tao, Jiannis K. Pachos, Jin-Shi Xu, Yong-Jian Han, Chuan-Feng Li, Guang-Can Guo, (参考訳) ジョーンズ多項式は、位相的に異なるリンクを区別するための道具として導入された。 最近、彼らはトポロジカル量子計算の中央構造ブロックとして現れ、非アベリア・エノンをブレイディングすることで、ジョーンズ多項式の計算を通じて量子アルゴリズムを実現することができる。 これまでのところ、非アベリア素数の制御と操作を通じてジョーンズ多項式を評価することは、強大な作業であった。 本研究では,2光子相関と非散逸時間進化を用いたフォトニック量子システムを用いて,マヨラナゼロモードの2つの等価ブレイディング動作をシミュレートする。 結果の振幅は、そのパラメータの特定の値におけるジョーンズ多項式と数学的に等価であることが示される。 光学プラットフォームの高忠実性により、対応するジョーンズ多項式を決定することによって、ホップリンク、ソロモンリンク、トレフォイル結び目、図8結び目、ボロメアン環などの幅広いリンクを区別することができる。 我々のフォトニック量子シミュレータは、トポロジカル量子符号化と演算に基づくフォールトトレラント量子アルゴリズムの実行に向けた重要なステップである。

Jones polynomials were introduced as a tool to distinguish between topologically different links. Recently, they emerged as the central building block of topological quantum computation: by braiding non-Abelian anyons it is possible to realise quantum algorithms through the computation of Jones polynomials. So far, it has been a formidable task to evaluate Jones polynomials through the control and manipulation of non-Abelian anyons. In this study, a photonic quantum system employing two-photon correlations and non-dissipative imaginary-time evolution is utilized to simulate two inequivalent braiding operations of Majorana zero modes. The resulting amplitudes are shown to be mathematically equivalent to Jones polynomials at a particular value of their parameter. The high-fidelity of our optical platform allows us to distinguish between a wide range of links, such as Hopf links, Solomon links, Trefoil knots, Figure Eight knots and Borromean rings, through determining their corresponding Jones polynomials. Our photonic quantum simulator represents a significant step towards executing fault-tolerant quantum algorithms based on topological quantum encoding and manipulation.
翻訳日:2024-06-03 19:42:50 公開日:2024-05-31
# 多様性による統一:マルチモーダルVAEにおける表現学習の改善

Unity by Diversity: Improved Representation Learning in Multimodal VAEs ( http://arxiv.org/abs/2403.05300v3 )

ライセンス: Link先を確認
Thomas M. Sutter, Yang Meng, Andrea Agostini, Daphné Chopard, Norbert Fortin, Julia E. Vogt, Bahbak Shahbaba, Stephan Mandt, (参考訳) マルチモーダルデータのための変分オートエンコーダは、表現学習、条件生成、計算など、データ分析における多くのタスクを約束する。 現在のアーキテクチャはエンコーダ出力を共有したり、デコーダ入力を共有したり、あるいはモダリティを越えて共有表現を学ぶ。 このようなアーキテクチャは、モデルに厳しい制約を課します。 本研究では,これらの制約をソフト制約に置き換えることで,より優れた潜在表現が得られることを示す。 そこで本研究では,各モータリティの潜在表現を,共有集合部分に対してソフトに導出する,新しい実験混合物を提案する。 このアプローチにより、より優れた潜在表現が得られ、各エンコーディングは、圧縮されていない元の特徴から情報をよりよく保存することができる。 複数のベンチマークデータセットと2つの挑戦的な実世界のデータセットに関する広範な実験では、既存の手法と比較して学習された潜在表現と欠落したデータモダリティの計算が改善された。

Variational Autoencoders for multimodal data hold promise for many tasks in data analysis, such as representation learning, conditional generation, and imputation. Current architectures either share the encoder output, decoder input, or both across modalities to learn a shared representation. Such architectures impose hard constraints on the model. In this work, we show that a better latent representation can be obtained by replacing these hard constraints with a soft constraint. We propose a new mixture-of-experts prior, softly guiding each modality's latent representation towards a shared aggregate posterior. This approach results in a superior latent representation and allows each encoding to preserve information better from its uncompressed original features. In extensive experiments on multiple benchmark datasets and two challenging real-world datasets, we show improved learned latent representations and imputation of missing data modalities compared to existing methods.
翻訳日:2024-06-03 19:42:50 公開日:2024-05-31
# NLP検証:ロバスト性認証のための一般的な方法論を目指して

NLP Verification: Towards a General Methodology for Certifying Robustness ( http://arxiv.org/abs/2403.10144v2 )

ライセンス: Link先を確認
Marco Casadio, Tanvi Dinkar, Ekaterina Komendantskaya, Luca Arnaboldi, Matthew L. Daggitt, Omri Isac, Guy Katz, Verena Rieser, Oliver Lemon, (参考訳) ディープニューラルネットワークは自然言語処理の分野で大きな成功を収めており、その安全性と信頼性が不可欠である。 コンピュータビジョンとは異なり、NLPには統一的な検証手法がなく、近年の文献の進歩にもかかわらず、NLP検証の実用的問題に光を当てることが多い。 本稿では,NLP検証パイプラインの一般成分の消耗と評価を試みる。 私たちの貢献は2倍です。 まず、文を連続空間に埋め込んだ結果、検証可能な部分空間の一般的な(すなわちアルゴリズムに依存しない)特徴付けを与える。 我々は、検証された部分空間のセマンティック・ジェネリシビリティに関する技術的課題を同定し、対処する効果的な方法を提供し、NLP検証パイプラインの標準指標として提案する(モデル精度とモデル検証可能性の標準指標に加えて)。 第2に,幾何学的部分空間の検証と,幾何学的部分空間が表すはずの文の意味的意味の相違に言及した問題である埋め込みギャップの効果を解析するための一般的な手法を提案する。 極端な場合、文章を埋め込む際の不適切な選択は、検証結果を無効にする可能性がある。 本研究では, 組込みギャップの効果を定量化する実用的なNLP手法を提案し, 特に, NLP検証パイプラインの一部として報告すべき他の基本的な指標として, セマンティック部分空間のファルシフィビリティの尺度を提案する。 これらの一般的な原則が組み合わさって、この新しいドメインをより統合し、効果的に開発するための道を開いたと信じています。

Deep neural networks have exhibited substantial success in the field of Natural Language Processing and ensuring their safety and reliability is crucial: there are safety critical contexts where such models must be robust to variability or attack, and give guarantees over their output. Unlike Computer Vision, NLP lacks a unified verification methodology and, despite recent advancements in literature, they are often light on the pragmatical issues of NLP verification. In this paper, we attempt to distil and evaluate general components of an NLP verification pipeline, that emerges from the progress in the field to date. Our contributions are two-fold. Firstly, we give a general (i.e. algorithm-independent) characterisation of verifiable subspaces that result from embedding sentences into continuous spaces. We identify, and give an effective method to deal with, the technical challenge of semantic generalisability of verified subspaces; and propose it as a standard metric in the NLP verification pipelines (alongside with the standard metrics of model accuracy and model verifiability). Secondly, we propose a general methodology to analyse the effect of the embedding gap -- a problem that refers to the discrepancy between verification of geometric subspaces, and the semantic meaning of sentences which the geometric subspaces are supposed to represent. In extreme cases, poor choices in embedding of sentences may invalidate verification results. We propose a number of practical NLP methods that can help to quantify the effects of the embedding gap; and in particular we propose the metric of falsifiability of semantic subspaces as another fundamental metric to be reported as part of the NLP verification pipeline. We believe that together these general principles pave the way towards a more consolidated and effective development of this new domain.
翻訳日:2024-06-03 19:42:50 公開日:2024-05-31
# 相互作用を持つオープン量子ドット系における励起時間進化散乱状態:時間進化共鳴状態の発見

Exact time-evolving scattering states in open quantum-dot systems with an interaction: Discovery of time-evolving resonant states ( http://arxiv.org/abs/2403.10251v2 )

ライセンス: Link先を確認
Akinori Nishino, Naomichi Hatano, (参考訳) クーロン相互作用を持つオープンダブル量子ドット系の時間進化多電子状態について検討する。 任意の初期条件に対する時間進化状態の体系的構成を提案する。 導波路上の1電子および2電子平面波の初期状態について、時間進化する散乱状態の正確な解を得る。 量子ドット上の局在電子の初期状態について、我々は新しいタイプの正確な時間進化状態を見つけ、これを時間進化共鳴状態と呼ぶ。 波動関数が空間的にばらつき、正規化できない定常共振状態とは異なり、波動関数は因果性によって有限空間間隔に制限されるため、時変共振状態は正規化可能である。 正確な時間進化共鳴状態により、線形化された分散を持つ系の量子ドット上の電子の生存確率の時間依存性を計算することができる。 共鳴エネルギーの指数点の一方の側で指数関数的に減衰する一方、他方の側では2つの共鳴エネルギーの干渉によって崩壊中に振動する。

We study exact time-evolving many-electron states of an open double quantum-dot system with an interdot Coulomb interaction. A systematic construction of the time-evolving states for arbitrary initial conditions is proposed. For any initial states of one- and two-electron plane waves on the electrical leads, we obtain exact solutions of the time-evolving scattering states, which converge to known stationary scattering eigenstates in the long-time limit. For any initial states of localized electrons on the quantum dots, we find exact time-evolving states of a new type, which we refer to as time-evolving resonant states. In contrast to stationary resonant states, whose wave functions spatially diverge and not normalizable, the time-evolving resonant states are normalizable since their wave functions are restricted to a finite space interval due to causality. The exact time-evolving resonant states enable us to calculate the time-dependence of the survival probability of electrons on the quantum dots for the system with the linearized dispersions. It decays exponentially in time on one side of an exponential point of resonance energies while, on the other side, it oscillates during the decay as a result of the interference of the two resonance energies.
翻訳日:2024-06-03 19:42:50 公開日:2024-05-31
# ESMオール原子:統一分子モデリングのためのマルチスケールタンパク質言語モデル

ESM All-Atom: Multi-scale Protein Language Model for Unified Molecular Modeling ( http://arxiv.org/abs/2403.12995v3 )

ライセンス: Link先を確認
Kangjie Zheng, Siyu Long, Tianyu Lu, Junwei Yang, Xinyu Dai, Ming Zhang, Zaiqing Nie, Wei-Ying Ma, Hao Zhou, (参考訳) タンパク質言語モデルは、タンパク質工学の分野で大きな可能性を証明している。 しかしながら、現在のタンパク質言語モデルは、主に残基スケールで機能し、原子レベルで情報を提供する能力を制限する。 この制限により、タンパク質と小分子の両方の応用のために、タンパク質言語モデルの能力を十分に活用することができません。 本稿では,ESM-AA(ESM All-Atom)を提案する。 ESM-AAは、マルチスケールのコードスウィッチタンパク質配列を事前訓練し、マルチスケールの位置符号化を利用して、残基と原子間の関係を捉えることでこれを達成している。 実験の結果,ESM-AAはタンパク質分子タスクにおける従来の手法を超越し,タンパク質言語モデルの完全活用を実証した。 さらなる研究により、ESM-AAは分子の知識を得るだけでなく、タンパク質の理解も維持していることが明らかとなった。 ESM-AAのソースコードはhttps://github.com/zhengkangjie/ESM-AAで公開されている。

Protein language models have demonstrated significant potential in the field of protein engineering. However, current protein language models primarily operate at the residue scale, which limits their ability to provide information at the atom level. This limitation prevents us from fully exploiting the capabilities of protein language models for applications involving both proteins and small molecules. In this paper, we propose ESM-AA (ESM All-Atom), a novel approach that enables atom-scale and residue-scale unified molecular modeling. ESM-AA achieves this by pre-training on multi-scale code-switch protein sequences and utilizing a multi-scale position encoding to capture relationships among residues and atoms. Experimental results indicate that ESM-AA surpasses previous methods in protein-molecule tasks, demonstrating the full utilization of protein language models. Further investigations reveal that through unified molecular modeling, ESM-AA not only gains molecular knowledge but also retains its understanding of proteins. The source codes of ESM-AA are publicly released at https://github.com/zhengkangjie/ESM-AA.
翻訳日:2024-06-03 19:33:06 公開日:2024-05-31
# 順序認識参照によるデータ効率のよい3次元視覚グラウンド

Data-Efficient 3D Visual Grounding via Order-Aware Referring ( http://arxiv.org/abs/2403.16539v3 )

ライセンス: Link先を確認
Tung-Yu Wu, Sheng-Yu Huang, Yu-Chiang Frank Wang, (参考訳) 3Dビジュアルグラウンドティングは、自然言語記述によって参照される3Dポイントクラウドシーン内でターゲットオブジェクトを特定することを目的としている。 以前の作品は、通常、それに対応する複雑な言語と視覚の関係を利用するために、点の色とその記述に関する重要なデータを必要とする。 本稿では,新しい3次元ビジュアルグラウンドフレームワークであるVigorについて紹介する。 Vigor は LLM を利用して3次元視覚グラウンドの入力記述から望ましい参照順序を生成する。 提案したスタック化されたオブジェクト参照ブロックにより、上記の順序で予測されたアンカーオブジェクトは、アンカーオブジェクトの同一性やアンカー/ターゲットオブジェクト間の正確な関係を監督することなく、ターゲットオブジェクトを徐々に特定できる。 さらに,視覚的接地フレームワークを事前訓練するための参照命令を付加する,注文対応ウォームアップトレーニング戦略を提案する。 これにより、複雑な言語と視覚の関係をよりよく把握し、望ましいデータ効率の学習手法の恩恵を受けることができる。 NR3DおよびScanReferデータセットの実験結果は、低リソースシナリオにおける我々の優位性を実証している。 特に、Vigorは現在の最先端フレームワークを9.3%上回り、7.6%の精度で、それぞれ1%のデータと10%のデータ設定をNR3Dデータセットで下支えしている。

3D visual grounding aims to identify the target object within a 3D point cloud scene referred to by a natural language description. Previous works usually require significant data relating to point color and their descriptions to exploit the corresponding complicated verbo-visual relations. In our work, we introduce Vigor, a novel Data-Efficient 3D Visual Grounding framework via Order-aware Referring. Vigor leverages LLM to produce a desirable referential order from the input description for 3D visual grounding. With the proposed stacked object-referring blocks, the predicted anchor objects in the above order allow one to locate the target object progressively without supervision on the identities of anchor objects or exact relations between anchor/target objects. In addition, we present an order-aware warm-up training strategy, which augments referential orders for pre-training the visual grounding framework. This allows us to better capture the complex verbo-visual relations and benefit the desirable data-efficient learning scheme. Experimental results on the NR3D and ScanRefer datasets demonstrate our superiority in low-resource scenarios. In particular, Vigor surpasses current state-of-the-art frameworks by 9.3% and 7.6% grounding accuracy under 1% data and 10% data settings on the NR3D dataset, respectively.
翻訳日:2024-06-03 19:33:06 公開日:2024-05-31
# 第二言語学習における分散型エージェントと生成AIによる教育

Distributed agency in second language learning and teaching through generative AI ( http://arxiv.org/abs/2403.20216v4 )

ライセンス: Link先を確認
Robert Godwin-Jones, (参考訳) 生成AIは、言語学習に重要な機会を提供する。 ChatGPTのようなツールは、文章や音声形式のチャットを通じて非公式の第二言語プラクティスを提供することができ、学習者は習熟度、言語レジスタ、議論トピックなどの会話パラメータを指示する。 AIは、修正的なフィードバックを与えたり、実践演習を作成したり、拡張された研究計画を開発するように指示することができる。 インストラクタはAIを使って、さまざまなメディアで学習と評価材料を構築することができる。 AIは没入型技術をより強力で多用途にし、スクリプトによるインタラクションから遠ざかる可能性が高い。 学習者と教師の双方にとって、純粋に統計的に人間の言語モデルから生じるAIシステムの限界を理解することが重要である。 さらに、AIシステムの構築方法に関する倫理的な懸念や、その使用に関する実践的な制約、特に特権の少ない人口に対する懸念もある。 AIツールのパワーと汎用性は、多くの人々の生活において(スマートフォンと同じく)価値ある、絶え間ない仲間になり、単純なツールの使用以上の密接なつながりを生み出すだろう。 社会物質主義のような生態学理論は、密接なユーザーとAIの相互作用を通して発展する共有機関を調べるのに役立つ。

Generative AI offers significant opportunities for language learning. Tools like ChatGPT can provide informal second language practice through chats in written or voice forms, with the learner specifying through prompts conversational parameters such as proficiency level, language register, and discussion topics. AI can be instructed to give corrective feedback, create practice exercises, or develop an extended study plan. Instructors can use AI to build learning and assessment materials in a variety of media. AI is likely to make immersive technologies more powerful and versatile, moving away from scripted interactions. For both learners and teachers, it is important to understand the limitations of AI systems that arise from their purely statistical model of human language, which limits their ability to deal with nuanced social and cultural aspects of language use. Additionally, there are ethical concerns over how AI systems are created as well as practical constraints in their use, especially for less privileged populations. The power and versatility of AI tools are likely to turn them into valuable and constant companions in many peoples lives (akin to smartphones), creating a close connection that goes beyond simple tool use. Ecological theories such as sociomaterialism are helpful in examining the shared agency that develops through close user-AI interactions, as are the perspectives on human-object relations from Indigenous cultures.
翻訳日:2024-06-03 19:33:06 公開日:2024-05-31
# ワクチン接種決定に対する社会的影響

Perceived Social Influence on Vaccination Decisions: A COVID-19 Case Study ( http://arxiv.org/abs/2404.01489v2 )

ライセンス: Link先を確認
Denise Yewell, R. Alexander Bentley, Benjamin D. Horne, (参考訳) 本研究では,米国における新型コロナウイルスワクチン接種決定に対する,強い社会関係と弱い社会関係の双方にわたる他者の影響について検討した。 他者との合意の認識や、他者に対する新型コロナウイルスの危険性の認識など、関連する概念を測ることで、社会的影響に文脈を加える。 予防接種を受けた人口は、予防接種を受けていない人口よりも社会的サークルの影響を受けやすいことが判明した。 この発見は、家族、親しい友人、隣人など、様々な社会集団に当てはまる。 接種された参加者は、接種を受けない参加者よりも接種を受けないことに同意し、他の参加者は接種を受けないという決定に同意した。 集団間の社会的影響と合意の明確な違いにもかかわらず、予防接種と非予防接種の両方の参加者の大多数は、その決定においてすべての社会的グループから社会的影響を受けていないと認識した。 この結果を踏まえると、ワクチン接種と非ワクチン接種の両方の参加者が、社会的影響よりも、その決定に動機づける要因として恐怖をしばしば引用していることが明らかとなった。

In this study, we examine the perceived influence of others, across both strong and weak social ties, on COVID-19 vaccination decisions in the United States. We add context to social influence by measuring related concepts, such as perceived agreement of others and perceived danger of COVID-19 to others. We find that vaccinated populations perceived more influence from their social circles than unvaccinated populations. This finding holds true across various social groups, including family, close friends, and neighbors. Vaccinated participants perceived that others agreed with their decision to get vaccinated more than unvaccinated participants perceived others to agree with their decision to not get vaccinated. Despite the clear differences in perceived social influence and agreement across the groups, the majority of participants across both vaccinated and unvaccinated populations perceived no social influence from all social group in their decisions. Aligning with this result, we find through open-ended responses that both vaccinated and unvaccinated participants frequently cited fear as a motivating factor in their decision, rather than social influence: vaccinated participants feared COVID-19, while unvaccinated participants feared the vaccine itself.
翻訳日:2024-06-03 19:33:06 公開日:2024-05-31
# ログインと認証セキュリティ問題に対するシステムソリューション:デュアルパスワードログイン認証機構

Systematic Solutions to Login and Authentication Security Problems: A Dual-Password Login-Authentication Mechanism ( http://arxiv.org/abs/2404.01803v2 )

ライセンス: Link先を確認
Suyun Borjigin, (参考訳) 認証盗難とリモート攻撃は、ユーザー認証機構に対する最も深刻な脅威である。 これらの問題の要点は、そのような行動を制御できないことです。 しかし、パスワードがユーザーの秘密を含まない場合、それを盗むことは役に立たない。 不正な入力が無効になった場合、リモートアタックは無効にできる。 これにより、クレデンシャルシークレットとアカウント入力フィールドを制御することができる。 パスワードを暗号化する代わりに、ユーザーが選択した秘密のログインパスワードを不正なパスワードに変換する、デュアルパスワードのログイン認証機構を設計する。 その後、認証パスワードの認証可能な機能と、認証パスワードの入力可能な機能を無効または無効にすることができ、クレデンシャル盗難やリモート攻撃を防止することができる。 したがって、ユーザビリティのトレードオフとパスワード再利用の問題は解決され、ローカル認証パスワードストレージはもはや不要になった。 さらに重要なことは、パスワードコンバータがオープンハッシュアルゴリズムとして機能するため、その中間要素はログインプロセスの真にユニークなアイデンティティを定義するために使用でき、新しいデュアルID認証スキームを実装することができる。 特に、システム管理された要素は隠蔽され、アクセス不能であり、あらゆる個人情報から独立しているため、許可されていない入力を識別するための完全な偽造不可能なプロセス識別子を定義するために使用することができる。

Credential theft and remote attacks are the most serious threats to user authentication mechanisms. The crux of these problems is that we cannot control such behaviors. However, if a password does not contain user secrets, stealing it is useless. If unauthorized inputs are invalidated, remote attacks can be disabled. Thus, credential secrets and account input fields can be controlled. Rather than encrypting passwords, we design a dual-password login-authentication mechanism, where a user-selected secret-free login password is converted into an untypable authentication password. Subsequently, the authenticatable functionality of the login password and the typable functionality of the authentication password can be disabled or invalidated to prevent credential theft and remote attacks. Thus, the usability-security tradeoff and password reuse issues are resolved; local authentication password storage is no longer necessary. More importantly, the password converter acts as an open hashing algorithm, meaning that its intermediate elements can be used to define a truly unique identity for the login process to implement a novel dual-identity authentication scheme. In particular, the system-managed elements are concealed, inaccessible, and independent of any personal information and therefore can be used to define a perfect unforgeable process identifier to identify unauthorized inputs.
翻訳日:2024-06-03 19:33:06 公開日:2024-05-31
# シミュレーションフリー流れによる動的条件最適輸送

Dynamic Conditional Optimal Transport through Simulation-Free Flows ( http://arxiv.org/abs/2404.04240v2 )

ライセンス: Link先を確認
Gavin Kerrigan, Giosue Migliorini, Padhraic Smyth, (参考訳) 我々は条件最適輸送(COT)の幾何学を研究し、ベナモ・ブレンニエ理論を一般化する動的定式化を証明した。 これらのツールを用いて,条件付き生成モデリングのためのシミュレーション不要なフローベース手法を提案する。 本手法は, 任意のソース分布を三角COT計画により任意のターゲット分布に結合し, このCOT計画によって誘導される測地線経路を近似することにより条件生成モデルを得る。 我々の理論と手法は無限次元の設定に適用でき、ベイズ逆問題の幅広いクラスに適している。 実験により,本手法は無限次元逆問題を含むいくつかの条件付きタスクと競合することを示した。

We study the geometry of conditional optimal transport (COT) and prove a dynamical formulation which generalizes the Benamou-Brenier Theorem. Equipped with these tools, we propose a simulation-free flow-based method for conditional generative modeling. Our method couples an arbitrary source distribution to a specified target distribution through a triangular COT plan, and a conditional generative model is obtained by approximating the geodesic path of measures induced by this COT plan. Our theory and methods are applicable in infinite-dimensional settings, making them well suited for a wide class of Bayesian inverse problems. Empirically, we demonstrate that our method is competitive on several challenging conditional generation tasks, including an infinite-dimensional inverse problem.
翻訳日:2024-06-03 19:33:06 公開日:2024-05-31
# 協調推論のための注意型意味コミュニケーション

Attention-aware Semantic Communications for Collaborative Inference ( http://arxiv.org/abs/2404.07217v2 )

ライセンス: Link先を確認
Jiwoong Im, Nayoung Kwon, Taewoo Park, Jiheon Woo, Jaeho Lee, Yongjune Kim, (参考訳) 本稿では,視覚変換器(ViT)モデルの効率的な利用に着目し,エッジ推論領域におけるコミュニケーション効率の良い協調推論フレームワークを提案する。 従来のコラボレーティブ推論の分割戦略は、トランスバータエンコーダ全体にわたって一貫した層次元を維持するViT固有のアーキテクチャのため、通信コストの削減に失敗する。 したがって、分割戦略を採用する代わりに、エッジデバイス上の軽量なViTモデルを使用し、サーバは複雑なViTモデルをデプロイする。 通信効率を向上し、サーバモデルの分類精度を達成するために、我々は2つの戦略を提案する。 1)注意を意識したパッチ選択 2)エントロピー対応画像伝送。 アテンション対応パッチ選択は、エッジデバイスのトランスフォーマーエンコーダが生成したアテンションスコアを利用して、分類に不可欠なイメージパッチを特定し、選択する。 この戦略により、エッジデバイスは必要なパッチのみをサーバに送信し、通信効率を大幅に向上させることができる。 エントロピー対応画像伝送は、エッジデバイス上の軽量モデルに依存するか、サーバモデルからの推論を要求するかを正確に判定するために、min-entropyをメトリックとして使用する。 本フレームワークでは,エッジデバイス上での軽量なViTモデルをセマンティックエンコーダとして機能し,分類作業に必要な重要な画像情報を効率的に識別し,選択する。 提案した協調推論フレームワークは,ImageNetデータセットのサーバモデルと比較して,最小限の精度で通信オーバーヘッドを68%削減できることを示した。

We propose a communication-efficient collaborative inference framework in the domain of edge inference, focusing on the efficient use of vision transformer (ViT) models. The partitioning strategy of conventional collaborative inference fails to reduce communication cost because of the inherent architecture of ViTs maintaining consistent layer dimensions across the entire transformer encoder. Therefore, instead of employing the partitioning strategy, our framework utilizes a lightweight ViT model on the edge device, with the server deploying a complicated ViT model. To enhance communication efficiency and achieve the classification accuracy of the server model, we propose two strategies: 1) attention-aware patch selection and 2) entropy-aware image transmission. Attention-aware patch selection leverages the attention scores generated by the edge device's transformer encoder to identify and select the image patches critical for classification. This strategy enables the edge device to transmit only the essential patches to the server, significantly improving communication efficiency. Entropy-aware image transmission uses min-entropy as a metric to accurately determine whether to depend on the lightweight model on the edge device or to request the inference from the server model. In our framework, the lightweight ViT model on the edge device acts as a semantic encoder, efficiently identifying and selecting the crucial image information required for the classification task. Our experiments demonstrate that the proposed collaborative inference framework can reduce communication overhead by 68% with only a minimal loss in accuracy compared to the server model on the ImageNet dataset.
翻訳日:2024-06-03 19:33:06 公開日:2024-05-31
# NoticIA: スペイン語のクリックベイト記事要約データセット

NoticIA: A Clickbait Article Summarization Dataset in Spanish ( http://arxiv.org/abs/2404.07611v2 )

ライセンス: Link先を確認
Iker García-Ferrero, Begoña Altuna, (参考訳) NoticIAは850のスペイン語ニュース記事からなるデータセットで、目立ったクリックベイト見出しを特徴とし、それぞれが高品質で、人間によって書かれた単一文生成要約と組み合わせている。 このタスクは、高度なテキスト理解と要約能力を必要とし、クリックベイト見出しによって生成されるユーザの情報要求を満たすために、様々な情報を推測し、接続するためのモデルの能力に挑戦する。 我々は、幅広い最先端の大規模言語モデルのスペイン語テキスト理解能力を評価する。 さらに、このデータセットを使用して、このタスクでほぼ人間に近いパフォーマンスを達成するタスク固有のモデルであるClickbaitFighterをトレーニングします。

We present NoticIA, a dataset consisting of 850 Spanish news articles featuring prominent clickbait headlines, each paired with high-quality, single-sentence generative summarizations written by humans. This task demands advanced text understanding and summarization abilities, challenging the models' capacity to infer and connect diverse pieces of information to meet the user's informational needs generated by the clickbait headline. We evaluate the Spanish text comprehension capabilities of a wide range of state-of-the-art large language models. Additionally, we use the dataset to train ClickbaitFighter, a task-specific model that achieves near-human performance in this task.
翻訳日:2024-06-03 19:33:06 公開日:2024-05-31
# Any2Point: 効率的な3D理解のためのあらゆるモダリティ大モデル

Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding ( http://arxiv.org/abs/2404.07989v2 )

ライセンス: Link先を確認
Yiwen Tang, Ray Zhang, Jiaming Liu, Zoey Guo, Dong Wang, Zhigang Wang, Bin Zhao, Shanghang Zhang, Peng Gao, Hongsheng Li, Xuelong Li, (参考訳) 大規模な基盤モデルは近年注目の的となり、幅広いシナリオにおいて優れたパフォーマンスを実現している。 3Dデータの不足のため、事前学習されたトランスフォーマーを視覚から3D領域に適応させる取り組みが数多く行われている。 しかし、空間幾何学の潜在的な損失と高い計算コストのため、そのような2次元から3次元へのアプローチは依然として限られている。 さらに重要なのは、それらのフレームワークが主に2Dモデル用に設計されており、一般的なノン・ツー・3Dパラダイムが欠如していることだ。 本稿では,Any2Pointを提案する。Any2Pointは,任意のモダリティ大モデル(ビジョン,言語,音声)を3次元理解に活用するためのパラメータ効率のよい手法である。 任意の震源モードから凍結した変圧器が与えられた場合、入力された3Dポイントを原震源モード内の原震源1Dまたは2D位置と相関する3D-to-any (1Dまたは2D)仮想射影戦略を提案する。 この機構により、各3次元トークンに事前訓練されたモデルと組み合わせた位置符号化を割り当てることができ、これは真の投影による3次元幾何学的損失を回避し、1D/2D位置前処理による3次元学習のモチベーションを向上させる。 そして,各トランスブロック内にパラメータ効率のよい微調整用アダプタモジュールを挿入する。 このアダプタは、3Dトークンの局所的な特徴集約を導くために、ソースモダリティからの事前の空間知識を取り入れ、任意のモダリティトランスフォーマーのセマンティック適応を説得する。 提案手法の有効性と有効性を示すため, 広範囲な実験を行った。 コードとモデルはhttps://github.com/Ivan-Tang-3D/Any2Pointで公開されている。

Large foundation models have recently emerged as a prominent focus of interest, attaining superior performance in widespread scenarios. Due to the scarcity of 3D data, many efforts have been made to adapt pre-trained transformers from vision to 3D domains. However, such 2D-to-3D approaches are still limited, due to the potential loss of spatial geometries and high computation cost. More importantly, their frameworks are mainly designed for 2D models, lacking a general any-to-3D paradigm. In this paper, we introduce Any2Point, a parameter-efficient method to empower any-modality large models (vision, language, audio) for 3D understanding. Given a frozen transformer from any source modality, we propose a 3D-to-any (1D or 2D) virtual projection strategy that correlates the input 3D points to the original 1D or 2D positions within the source modality. This mechanism enables us to assign each 3D token with a positional encoding paired with the pre-trained model, which avoids 3D geometry loss caused by the true projection and better motivates the transformer for 3D learning with 1D/2D positional priors. Then, within each transformer block, we insert an any-to-3D guided adapter module for parameter-efficient fine-tuning. The adapter incorporates prior spatial knowledge from the source modality to guide the local feature aggregation of 3D tokens, compelling the semantic adaption of any-modality transformers. We conduct extensive experiments to showcase the effectiveness and efficiency of our method. Code and models are released at https://github.com/Ivan-Tang-3D/Any2Point.
翻訳日:2024-06-03 19:33:06 公開日:2024-05-31
# 大規模言語モデルにおけるアクティブトランスダクティブ推論の実験設計

Experimental Design for Active Transductive Inference in Large Language Models ( http://arxiv.org/abs/2404.08846v2 )

ライセンス: Link先を確認
Subhojyoti Mukherjee, Anusha Lalitha, Aniket Deshmukh, Ge Liu, Yifei Ma, Branislav Kveton, (参考訳) 大きな言語モデル(LLM)の創発的な能力の1つは、クエリ固有の例を推論時にプロンプトに含めることができることである。 本研究では,適応的なプロンプト設計にアクティブラーニングを使用し,それをアクティブ・イン・コンテクスト・プロンプト・デザイン(AIPD)と呼ぶ。 テストセットの性能を最適化するために、トレーニングセットから少数ショット例を適応的に選択し、LCMプロンプトを設計する。 トレーニング例は,まずラベルが付かず,最も情報性の高いものの名称が得られ,LLM予測の不確かさを最大に低減する。 GOとSALの2つのアルゴリズムを提案する。 まず,これらのアルゴリズムを線形モデルで解析し,SALと等価性を利用する。 我々は小・中・大規模言語モデルで様々なタスクを実験し、GOとSALは推論時間でLLMプロンプトの少数例を選択する他の方法よりも優れていることを示す。

One emergent ability of large language models (LLMs) is that query-specific examples can be included in the prompt at inference time. In this work, we use active learning for adaptive prompt design and call it Active In-context Prompt Design (AIPD). We design the LLM prompt by adaptively choosing few-shot examples from a training set to optimize performance on a test set. The training examples are initially unlabeled and we obtain the label of the most informative ones, which maximally reduces uncertainty in the LLM prediction. We propose two algorithms, GO and SAL, which differ in how the few-shot examples are chosen. We analyze these algorithms in linear models: first GO and then use its equivalence with SAL. We experiment with many different tasks in small, medium-sized, and large language models; and show that GO and SAL outperform other methods for choosing few-shot examples in the LLM prompt at inference time.
翻訳日:2024-06-03 19:33:06 公開日:2024-05-31
# オールインワンシミュレーションに基づく推論

All-in-one simulation-based inference ( http://arxiv.org/abs/2404.09636v2 )

ライセンス: Link先を確認
Manuel Gloeckler, Michael Deistler, Christian Weilbach, Frank Wood, Jakob H. Macke, (参考訳) 償却ベイズ推論は、モデルシミュレーションを用いて確率的推論問題を解決するためにニューラルネットワークを訓練し、新たに観測されたデータに対してベイズ推論を迅速に実行できるようにする。 しかし、現在のシミュレーションベースの償却推論手法は、シミュレーションに長けており、非柔軟である: 固定パラメトリック事前、シミュレータ、推論タスクを事前に指定する必要がある。 ここでは、これらの制限を克服する新しい償却推論手法、Simformerを提案する。 トランスフォーマーアーキテクチャで確率的拡散モデルをトレーニングすることにより、Simformerは、現在の最先端のアモート化推論アプローチをベンチマークタスクで上回り、より柔軟になる。関数値パラメータを持つモデルに適用でき、欠落したデータや非構造データで推論シナリオを処理でき、後と後の両方を含むパラメータとデータの結合分布の任意の条件をサンプリングすることができる。 生態学,疫学,神経科学のシミュレータ上でのSimformerの性能と柔軟性を実証し,シミュレーションベースモデルによるベイズ推定に対する新たな可能性と応用領域を開くことを実証した。

Amortized Bayesian inference trains neural networks to solve stochastic inference problems using model simulations, thereby making it possible to rapidly perform Bayesian inference for any newly observed data. However, current simulation-based amortized inference methods are simulation-hungry and inflexible: They require the specification of a fixed parametric prior, simulator, and inference tasks ahead of time. Here, we present a new amortized inference method -- the Simformer -- which overcomes these limitations. By training a probabilistic diffusion model with transformer architectures, the Simformer outperforms current state-of-the-art amortized inference approaches on benchmark tasks and is substantially more flexible: It can be applied to models with function-valued parameters, it can handle inference scenarios with missing or unstructured data, and it can sample arbitrary conditionals of the joint distribution of parameters and data, including both posterior and likelihood. We showcase the performance and flexibility of the Simformer on simulators from ecology, epidemiology, and neuroscience, and demonstrate that it opens up new possibilities and application domains for amortized Bayesian inference on simulation-based models.
翻訳日:2024-06-03 19:33:06 公開日:2024-05-31
# SparseDM: 疎拡散モデルに向けて

SparseDM: Toward Sparse Efficient Diffusion Models ( http://arxiv.org/abs/2404.10445v2 )

ライセンス: Link先を確認
Kafeng Wang, Jianfei Chen, He Li, Zhenpeng Mi, Jun Zhu, (参考訳) 拡散モデルはデータ生成タスクで広く使われており、最も優れた生成モデルの一つとして認識されている。 しかしながら、彼らの時間を要するデプロイメント、長い推測時間、大きなメモリに対する要求は、モバイルデバイス上のアプリケーションを制限する。 本稿では,拡散モデルの展開効率を向上させるために,改良されたストレートトラフ推定器に基づく手法を提案する。 具体的には、事前訓練された拡散モデルにおける畳み込み層と線形層にスパースマスクを追加し、微調整段階におけるモデルトレーニングに設計の進歩的スパーシティを使用し、FIDおよびMACs要求に応じて推論中のスパーシティの柔軟な選択をサポートする推論マスクをオン/オフに切り替える。 現状のトランスフォーマーに基づく拡散モデルを用いて行った4つのデータセット実験により,FIDを平均1.5だけ増加させながらMACを50\%の値で削減できることが実証された。 他のMAC条件下では、FIDは他の方法に比べて1$\sim$137以下である。

Diffusion models have been extensively used in data generation tasks and are recognized as one of the best generative models. However, their time-consuming deployment, long inference time, and requirements on large memory limit their application on mobile devices. In this paper, we propose a method based on the improved Straight-Through Estimator to improve the deployment efficiency of diffusion models. Specifically, we add sparse masks to the Convolution and Linear layers in a pre-trained diffusion model, then use design progressive sparsity for model training in the fine-tuning stage, and switch the inference mask on and off, which supports a flexible choice of sparsity during inference according to the FID and MACs requirements. Experiments on four datasets conducted on a state-of-the-art Transformer-based diffusion model demonstrate that our method reduces MACs by $50\%$ while increasing FID by only 1.5 on average. Under other MACs conditions, the FID is also lower than 1$\sim$137 compared to other methods.
翻訳日:2024-06-03 19:33:06 公開日:2024-05-31
# クリプティックシークエンス複雑度推定法

Methods to Estimate Cryptic Sequence Complexity ( http://arxiv.org/abs/2404.10854v2 )

ライセンス: Link先を確認
Matthew Andres Moreno, (参考訳) 複雑度は人工生命系における重要な品質である。 他の評価の次元とともに、複雑性の尺度として適合性に寄与するゲノムサイトを定量化することが一般的である。 しかしながら、リッチな生物相互作用を含む暗黙の複製基準を持つモデルにおけるフィットネスアッセイの感度に対する制限は、個々の検出可能性のしきい値以下に小さなフィットネス効果を寄与する「暗号的」適応部位の可能性をもたらした。 本稿では,デジタルゲノム内の暗号適応部位を定量化するために,ノックアウトに基づく3つの方法を提案する。 本研究では, サイト適合性を考慮した簡易ゲノムモデルを用いて, これらの手法の初期試験を行った。 これらの限定試験では、推定結果は、基底真理暗号シーケンスの複雑さをよく反映している。 提案された研究は、生物の適合性に関する高価なインサイトアセスメントを必要とする人など、生命系全体にわたる複雑性分析の解決、厳格化、トラクタビリティを向上させる新しい方法やソフトウェアツールの開発に向けた最初のステップを提供する。

Complexity is a signature quality of interest in artificial life systems. Alongside other dimensions of assessment, it is common to quantify genome sites that contribute to fitness as a complexity measure. However, limitations to the sensitivity of fitness assays in models with implicit replication criteria involving rich biotic interactions introduce the possibility of difficult-to-detect ``cryptic'' adaptive sites, which contribute small fitness effects below the threshold of individual detectability or involve epistatic redundancies. Here, we propose three knockout-based assay procedures designed to quantify cryptic adaptive sites within digital genomes. We report initial tests of these methods on a simple genome model with explicitly configured site fitness effects. In these limited tests, estimation results reflect ground truth cryptic sequence complexities well. Presented work provides initial steps toward development of new methods and software tools that improve the resolution, rigor, and tractability of complexity analyses across alife systems, particularly those requiring expensive in situ assessments of organism fitness.
翻訳日:2024-06-03 19:33:06 公開日:2024-05-31
# 被害者と受益者: 汚染されたデータでクリーンなモデルを訓練するために、汚染されたモデルを爆発させる

The Victim and The Beneficiary: Exploiting a Poisoned Model to Train a Clean Model on Poisoned Data ( http://arxiv.org/abs/2404.11265v2 )

ライセンス: Link先を確認
Zixuan Zhu, Rui Wang, Cong Zou, Lihua Jing, (参考訳) 近年、バックドア攻撃はディープニューラルネットワーク(DNN)のトレーニングプロセスに深刻なセキュリティ上の脅威をもたらしている。 攻撃されたモデルは、通常、良質なサンプルで振る舞うが、トリガーが存在するときに特定の結果を出力する。 しかし、バックドア攻撃の進行と比べ、既存の防御はこれらの脅威に効果的に対処することが困難であり、実際のシナリオでは利用できない良質なサンプルを必要とする。 本稿では, 有毒試料と良性試料を予測エントロピーで識別できることを見出した。 V&B(The Victim and The Beneficiary)は、有害なモデルを利用して、余分な良性サンプルを使わずにクリーンなモデルをトレーニングするものです。 まず、不審なサンプルのトレーニングによって、Victimネットワークを強力な有毒サンプル検出器として犠牲にする。 次に,Besticiary NetworkをVictimによって選択された信頼性サンプル上でトレーニングし,バックドア注入を抑制する。 第3に、潜在的なバックドアを消去し、モデル性能を向上させるための半教師付き抑制戦略を採用する。 さらに,欠落した有毒なサンプルを効果的に抑制するために,提案するV&Bフレームワークとうまく連携する強力なデータ拡張手法であるAttentionMixを提案する。 6つの最先端攻撃に対して広く利用されている2つのデータセットに対する大規模な実験は、我々のフレームワークが良質なサンプルの性能を維持しつつ、バックドア注入を防止し、様々な攻撃に対して堅牢であることを示す。 私たちのコードはhttps://github.com/Zixuan-Zhu/VaB.comで公開されています。

Recently, backdoor attacks have posed a serious security threat to the training process of deep neural networks (DNNs). The attacked model behaves normally on benign samples but outputs a specific result when the trigger is present. However, compared with the rocketing progress of backdoor attacks, existing defenses are difficult to deal with these threats effectively or require benign samples to work, which may be unavailable in real scenarios. In this paper, we find that the poisoned samples and benign samples can be distinguished with prediction entropy. This inspires us to propose a novel dual-network training framework: The Victim and The Beneficiary (V&B), which exploits a poisoned model to train a clean model without extra benign samples. Firstly, we sacrifice the Victim network to be a powerful poisoned sample detector by training on suspicious samples. Secondly, we train the Beneficiary network on the credible samples selected by the Victim to inhibit backdoor injection. Thirdly, a semi-supervised suppression strategy is adopted for erasing potential backdoors and improving model performance. Furthermore, to better inhibit missed poisoned samples, we propose a strong data augmentation method, AttentionMix, which works well with our proposed V&B framework. Extensive experiments on two widely used datasets against 6 state-of-the-art attacks demonstrate that our framework is effective in preventing backdoor injection and robust to various attacks while maintaining the performance on benign samples. Our code is available at https://github.com/Zixuan-Zhu/VaB.
翻訳日:2024-06-03 19:23:22 公開日:2024-05-31
# Fuzzychain: ブロックチェーンネットワークのための等価なコンセンサスメカニズム

Fuzzychain: An Equitable Consensus Mechanism for Blockchain Networks ( http://arxiv.org/abs/2404.13337v2 )

ライセンス: Link先を確認
Bruno Ramos-Cruz, Javier Andreu-Pérez, Francisco J. Quesada, Luis Martínez, (参考訳) ブロックチェーン技術は、分散暗号化ネットワークを通じてセキュアで透明なトランザクションを確立するための信頼できる方法になっています。 ブロックチェーンの運用はコンセンサスアルゴリズムによって管理されており、その中ではProof of Stake(PoS)が一般的だが、その欠点がある。 提案手法であるファジィチェーンでは,利害関係のセマンティクス定義にファジィセットを導入し,分散処理制御を推進している。 本システムは,利得ファジィ集合の会員度に基づくバリデータを選択する。 ブロックチェーンにファジィセットを適用するという先駆的な提案として、FuzzychainはPoSの制限の修正を目指している。 以上の結果から,Fuzzychainは機能的にPoSに適合するだけでなく,バリデータ間の利害関係の公平な分配も保証し,より包括的なバリデータ選択と分散ネットワークの実現につながることが示唆された。

Blockchain technology has become a trusted method for establishing secure and transparent transactions through a distributed, encrypted network. The operation of blockchain is governed by consensus algorithms, among which Proof of Stake (PoS) is popular yet has its drawbacks, notably the potential for centralising power in nodes with larger stakes or higher rewards. Fuzzychain, our proposed solution, introduces the use of fuzzy sets to define stake semantics, promoting decentralised and distributed processing control. This system selects validators based on their degree of membership to the stake fuzzy sets rather than just the size of their stakes. As a pioneer proposal in applying fuzzy sets to blockchain, Fuzzychain aims to rectify PoS's limitations. Our results indicate that Fuzzychain not only matches PoS in functionality but also ensures a fairer distribution of stakes among validators, leading to more inclusive validator selection and a better-distributed network.
翻訳日:2024-06-03 19:23:22 公開日:2024-05-31
# フィードバックの最適設計

Optimal Design for Human Feedback ( http://arxiv.org/abs/2404.13895v2 )

ライセンス: Link先を確認
Subhojyoti Mukherjee, Anusha Lalitha, Kousha Kalantari, Aniket Deshmukh, Ge Liu, Yifei Ma, Branislav Kveton, (参考訳) 人間のフィードバックから好みモデルを学ぶことは、人工知能の最近の進歩の中心である。 高品質な人文アノテーションを入手するコストに触発され,学習嗜好モデルにおけるデータ収集の問題について検討した。 我々の研究における鍵となる考え方は、情報収集ポリシーの計算方法である最適設計をランキングリストに一般化することである。 提案するアイデアの一般性を示すため,リストの絶対的フィードバックと相対的フィードバックの両方について検討する。 設定と解析の両方に効率的なアルゴリズムを設計する。 選好モデル推定器は、より多くのデータで改善され、推定器のランク付け誤差も改善されることを実証する。 最後に、アルゴリズムの統計的効率を示すために、いくつかの合成および実世界のデータセットを実験した。

Learning of preference models from human feedback has been central to recent advances in artificial intelligence. Motivated by the cost of obtaining high-quality human annotations, we study the problem of data collection for learning preference models. The key idea in our work is to generalize the optimal design, a method for computing information gathering policies, to ranked lists. To show the generality of our ideas, we study both absolute and relative feedback on the lists. We design efficient algorithms for both settings and analyze them. We prove that our preference model estimators improve with more data and so does the ranking error under the estimators. Finally, we experiment with several synthetic and real-world datasets to show the statistical efficiency of our algorithms.
翻訳日:2024-06-03 19:23:22 公開日:2024-05-31
# 協力・崩壊: LLM エージェント学会における持続可能性行動の創出

Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents ( http://arxiv.org/abs/2404.16698v2 )

ライセンス: Link先を確認
Giorgio Piatti, Zhijing Jin, Max Kleiman-Weiner, Bernhard Schölkopf, Mrinmaya Sachan, Rada Mihalcea, (参考訳) AIシステムが人間の生活に浸透するにつれて、大きな言語モデル(LLM)が安全な判断を下すことは大きな課題である。 本稿では,LLMにおける戦略的相互作用と協調的意思決定の研究を目的とした生成シミュレーションプラットフォームであるGovSimについて紹介する。 GovSimを用いて,AIエージェントの社会における持続可能な資源共有のダイナミクスについて検討する。 この環境は、倫理的考察、戦略的計画、交渉のスキルがAIエージェントの協力的成果に与える影響を研究できる。 我々は、これらの社会的ジレンマのために設計されたLLMベースのエージェントアーキテクチャを開発し、様々なLLMを用いてテストする。 最強のLLMエージェントを除く全てのエージェントが、GovSimの持続可能な平衡を達成できないことがわかった。 エージェント間のマルチエージェントコミュニケーションの成功は、これらのケースにおける協調を達成するために重要であることが、アブレーションによって明らかにされている。 さらに, LLMにおける持続的協力の達成に失敗する要因は, 集団の平衡に対する行動の長期的影響に関する仮説を定式化・分析できないことにある。 最後に,道徳的思考の理論である「大学化」に基づく推論を活用するエージェントは,持続可能性を大幅に向上させることができることを示す。 GovSimを併用することで、持続可能な自己統治の基盤となるメカニズムを、重要な特異性と規模で研究することができる。 シミュレーション環境やエージェントプロンプト,包括的なWebインターフェースなど,研究成果の全スイートをオープンソースとして公開しています。

As AI systems pervade human life, ensuring that large language models (LLMs) make safe decisions is a significant challenge. This paper introduces the Governance of the Commons Simulation (GovSim), a generative simulation platform designed to study strategic interactions and cooperative decision-making in LLMs. Using GovSim, we investigate the dynamics of sustainable resource sharing in a society of AI agents. This environment allows us to study the influence of ethical considerations, strategic planning, and negotiation skills on cooperative outcomes for AI agents. We develop an LLM-based agent architecture designed for these social dilemmas and test it with a variety of LLMs. We find that all but the most powerful LLM agents fail to achieve a sustainable equilibrium in GovSim. Ablations reveal that successful multi-agent communication between agents is critical for achieving cooperation in these cases. Furthermore, our analyses show that the failure to achieve sustainable cooperation in most LLMs stems from their inability to formulate and analyze hypotheses about the long-term effects of their actions on the equilibrium of the group. Finally, we show that agents that leverage ``Universalization''-based reasoning, a theory of moral thinking, are able to achieve significantly greater sustainability. Taken together, GovSim enables us to study the mechanisms that underlie sustainable self-government with significant specificity and scale. We open source the full suite of our research results, including the simulation environment, agent prompts, and a comprehensive web interface.
翻訳日:2024-06-03 19:23:22 公開日:2024-05-31
# SOUL:LLMアンラーニングのための2階最適化のパワーを解き放つ

SOUL: Unlocking the Power of Second-Order Optimization for LLM Unlearning ( http://arxiv.org/abs/2404.18239v2 )

ライセンス: Link先を確認
Jinghan Jia, Yihua Zhang, Yimeng Zhang, Jiancheng Liu, Bharat Runwal, James Diffenderfer, Bhavya Kailkhura, Sijia Liu, (参考訳) 大規模言語モデル(LLM)は、データ規則や倫理的AIプラクティスに従うための効果的な非学習メカニズムの必要性を強調している。 LLMアンラーニングは、望ましくないデータの影響と関連するモデル機能を取り除くことを目的としており、アンラーニングの範囲からユーティリティを妥協させることはない。 LLMアンラーニングの研究への関心は高まっているが、LLMアンラーニングにおけるオプティマイザ選択の影響はいまだに未調査である。 本研究では,LLMアンラーニングにおけるオプティマイザ選択の重要性を初めて明らかにし,<2次最適化>とアンラーニング(データ影響除去のためのモデル更新にインフルエンス関数を用いた古典的アプローチ)との明確な関係を確立した。 この知見は,2次クリッピング確率最適化(Sophia)に基づくLLM学習法に基づいて,SOULと呼ばれる2次アンラーニングフレームワークを開発することを示唆している。 SOULは、動的で反復的なアンラーニングプロセスにインフルエンスアンラーニングを使用して、静的でワンショットのモデル更新を拡張する。 我々の広範な実験により、SOULは様々な未学習タスク、モデル、メトリクスにまたがる従来の一階法よりも一貫して優れており、LLMアンラーニングのためのスケーラブルで実装が容易なソリューションを提供することで、二階最適化の可能性を示唆している。

Large Language Models (LLMs) have highlighted the necessity of effective unlearning mechanisms to comply with data regulations and ethical AI practices. LLM unlearning aims at removing undesired data influences and associated model capabilities without compromising utility out of the scope of unlearning. While interest in studying LLM unlearning is growing,the impact of the optimizer choice for LLM unlearning remains under-explored. In this work, we shed light on the significance of optimizer selection in LLM unlearning for the first time, establishing a clear connection between {second-order optimization} and influence unlearning (a classical approach using influence functions to update the model for data influence removal). This insight propels us to develop a second-order unlearning framework, termed SOUL, built upon the second-order clipped stochastic optimization (Sophia)-based LLM training method. SOUL extends the static, one-shot model update using influence unlearning to a dynamic, iterative unlearning process. Our extensive experiments show that SOUL consistently outperforms conventional first-order methods across various unlearning tasks, models, and metrics, suggesting the promise of second-order optimization in providing a scalable and easily implementable solution for LLM unlearning.
翻訳日:2024-06-03 19:23:22 公開日:2024-05-31
# リモートセンシング画像における高能率メタラーニングによるマルチスケールFew-Shotオブジェクト検出

Efficient Meta-Learning Enabled Lightweight Multiscale Few-Shot Object Detection in Remote Sensing Images ( http://arxiv.org/abs/2404.18426v2 )

ライセンス: Link先を確認
Wenbin Guan, Zijiu Yang, Xiaohong Wu, Liqiong Chen, Feng Huang, Xiaohai He, Honggang Chen, (参考訳) 現在、リモートセンシング画像(RSI)における小ショット物体検出(FSOD)の課題が注目されている。 多数の数発の検出器、特に2段階の検出器に基づく検出器は、RSIに固有のマルチスケールの複雑さを扱う際に困難に直面している。 さらに、これらの検出器は、大量のデータを扱う際に、主に不安定なモデルパラメータのために、現実世界の応用において非現実的な特性を示す。 対照的に、高い検出速度や大域的受容場を含む一段検出器の利点を認識している。 その結果,YOLOv71段検出器をベースラインとして選択し,新しいメタラーニングトレーニングフレームワークを提案する。 この変換により、検出器はFSODのタスクに十分対応できると同時に、その固有の軽量化の利点を活かすことができる。 さらに, メタ学習戦略によって生成されたサンプルを徹底的に調査し, 設計したメタ検出ヘッドが生成したサンプルを保持するための新しいメタサンプリング手法を提案する。 考案したメタクロス損失と相まって、しばしば見過ごされる"負のサンプル"を意図的に利用して、それらから貴重な知識を抽出します。 このアプローチは、検出精度を高め、全体的なメタ学習戦略を効率的に洗練する。 提案した検出器の有効性を検証するため,DIORとNWPU VHR-10.v2データセットを用いて現状の検出器の性能比較を行い,良好な結果を得た。

Presently, the task of few-shot object detection (FSOD) in remote sensing images (RSIs) has become a focal point of attention. Numerous few-shot detectors, particularly those based on two-stage detectors, face challenges when dealing with the multiscale complexities inherent in RSIs. Moreover, these detectors present impractical characteristics in real-world applications, mainly due to their unwieldy model parameters when handling large amount of data. In contrast, we recognize the advantages of one-stage detectors, including high detection speed and a global receptive field. Consequently, we choose the YOLOv7 one-stage detector as a baseline and subject it to a novel meta-learning training framework. This transformation allows the detector to adeptly address FSOD tasks while capitalizing on its inherent advantage of lightweight. Additionally, we thoroughly investigate the samples generated by the meta-learning strategy and introduce a novel meta-sampling approach to retain samples produced by our designed meta-detection head. Coupled with our devised meta-cross loss, we deliberately utilize "negative samples" that are often overlooked to extract valuable knowledge from them. This approach serves to enhance detection accuracy and efficiently refine the overall meta-learning strategy. To validate the effectiveness of our proposed detector, we conducted performance comparisons with current state-of-the-art detectors using the DIOR and NWPU VHR-10.v2 datasets, yielding satisfactory results.
翻訳日:2024-06-03 19:23:22 公開日:2024-05-31
# 時系列・時空間データの拡散モデルに関する調査

A Survey on Diffusion Models for Time Series and Spatio-Temporal Data ( http://arxiv.org/abs/2404.18886v2 )

ライセンス: Link先を確認
Yiyuan Yang, Ming Jin, Haomin Wen, Chaoli Zhang, Yuxuan Liang, Lintao Ma, Yi Wang, Chenghao Liu, Bin Yang, Zenglin Xu, Jiang Bian, Shirui Pan, Qingsong Wen, (参考訳) 時系列データの研究は、時間とともにトレンドや異常を理解するために不可欠であり、様々な分野にわたる予測的な洞察を可能にする。 一方、時空間データは空間と時間の両方の現象を解析するのに不可欠であり、複雑なシステム相互作用のダイナミックな視点を提供する。 近年,拡散モデルが時系列や時空間データマイニングに広く応用されている。 シーケンシャルなデータや時間的なデータの生成能力や推論能力を向上するだけでなく、他の下流タスクにも拡張する。 本研究では,時系列および時空間データにおける拡散モデルの使用状況について,モデルカテゴリ,タスクタイプ,データモダリティ,実践的アプリケーション領域で分類し,包括的かつ徹底的にレビューする。 本稿では,拡散モデルを非条件型と条件付き型に分類し,時系列データと時空間データを別々に議論する。 教師なしモデル(unconditioned model)は確率ベースモデルとスコアベースモデルに分けられ、予測、異常検出、分類、計算などの予測および生成タスクを提供する。 一方、条件付きモデルでは、余分な情報を利用して性能を向上し、予測的タスクと生成的タスクの両方で同様に分割される。 本調査では,医療,レコメンデーション,気候,エネルギー,オーディオ,交通など,さまざまな分野の応用を幅広く取り上げ,これらのモデルがどのようにデータを分析し,生成するかの基本的な理解を提供する。 この構造的概要を通じて,従来の課題に対処し,拡散モデルフレームワーク内で革新的なソリューションを探求することによって,将来的なイノベーションと応用を導くことを目的として,時系列および時空間データ分析のための拡散モデルに関する包括的理解を研究者や実践者に提供することを目的とする。

The study of time series data is crucial for understanding trends and anomalies over time, enabling predictive insights across various sectors. Spatio-temporal data, on the other hand, is vital for analyzing phenomena in both space and time, providing a dynamic perspective on complex system interactions. Recently, diffusion models have seen widespread application in time series and spatio-temporal data mining. Not only do they enhance the generative and inferential capabilities for sequential and temporal data, but they also extend to other downstream tasks. In this survey, we comprehensively and thoroughly review the use of diffusion models in time series and spatio-temporal data, categorizing them by model category, task type, data modality, and practical application domain. In detail, we categorize diffusion models into unconditioned and conditioned types and discuss time series data and spatio-temporal data separately. Unconditioned models, which operate unsupervised, are subdivided into probability-based and score-based models, serving predictive and generative tasks such as forecasting, anomaly detection, classification, and imputation. Conditioned models, on the other hand, utilize extra information to enhance performance and are similarly divided for both predictive and generative tasks. Our survey extensively covers their application in various fields, including healthcare, recommendation, climate, energy, audio, and transportation, providing a foundational understanding of how these models analyze and generate data. Through this structured overview, we aim to provide researchers and practitioners with a comprehensive understanding of diffusion models for time series and spatio-temporal data analysis, aiming to direct future innovations and applications by addressing traditional challenges and exploring innovative solutions within the diffusion model framework.
翻訳日:2024-06-03 19:23:22 公開日:2024-05-31
# HDマップフリー自律運転のためのGAD生成学習

GAD-Generative Learning for HD Map-Free Autonomous Driving ( http://arxiv.org/abs/2405.00515v3 )

ライセンス: Link先を確認
Weijian Sun, Yanbo Jia, Qi Zeng, Zihao Liu, Jiang Liao, Yue Li, Xianfeng Li, (参考訳) 近年、ディープラーニングベースの技術は、認識モジュールを中心に、大量生産のための自動運転ソフトウェアスタックに広く採用されており、この手法を予測モジュールに拡張する作業も行われている。 しかし、下流の計画および制御モジュールは、二次プログラミングやモデル予測制御のような最適化に基づく手法に支配される、手作りの厳密なルールで設計されている。 これにより、コーナーケースは手作りのルールを列挙するだけでは解決できないという、自律運転システムのパフォーマンスボトルネックが生じる。 本稿では,都市部における自動運転の現実的な応用におけるルールベース手法の欠如を克服する試みとともに,予測,決定,計画モジュールをもたらすディープラーニングベースのアプローチを提案する。 私たちが提案したDNNモデルは、人間の運転データ10時間でのみトレーニングされており、現在市場に出回っているすべての大量生産ADAS機能をサポートしている。 この方法は、工場対応のセンサーセットと計算プラットフォームを変更することなく、ジユーテストカーに展開する。 実現可能性、ユーザビリティ、および商業的可能性について、この記事で示します。

Deep-learning-based techniques have been widely adopted for autonomous driving software stacks for mass production in recent years, focusing primarily on perception modules, with some work extending this method to prediction modules. However, the downstream planning and control modules are still designed with hefty handcrafted rules, dominated by optimization-based methods such as quadratic programming or model predictive control. This results in a performance bottleneck for autonomous driving systems in that corner cases simply cannot be solved by enumerating hand-crafted rules. We present a deep-learning-based approach that brings prediction, decision, and planning modules together with the attempt to overcome the rule-based methods' deficiency in real-world applications of autonomous driving, especially for urban scenes. The DNN model we proposed is solely trained with 10 hours of human driver data, and it supports all mass-production ADAS features available on the market to date. This method is deployed onto a Jiyue test car with no modification to its factory-ready sensor set and compute platform. the feasibility, usability, and commercial potential are demonstrated in this article.
翻訳日:2024-06-03 19:23:22 公開日:2024-05-31
# 多体傷モデルにおける準Nambu-Goldstoneモード

Quasi-Nambu-Goldstone modes in many-body scar models ( http://arxiv.org/abs/2405.00785v2 )

ライセンス: Link先を確認
Jie Ren, Yu-Peng Wang, Chen Fang, (参考訳) 準対称性-群の観点から [Phys. Lett. 126, 120604 (2021)] では、縮退限界における多体スカーモデルにおける集合的、一貫性のある励起モードの普遍的な存在を示す。 これらのモードの数とそれらが持つ量子数は、ハミルトニアンの対称性ではなく、スカータワーの準対称性によって与えられる。 これに基づいて、自発対称性の破れのパラダイムと退化極限における多体スカー物理との具体的な類似性を描く。

From the quasisymmetry-group perspective [Phys. Rev. Lett. 126, 120604 (2021)], we show the universal existence of collective, coherent modes of excitations in many-body scar models in the degenerate limit, where the energy spacing in the scar tower vanishes. The number of these modes, as well as the quantum numbers carried by them, are given, not by the symmetry of the Hamiltonian, but by the quasisymmetry of the scar tower: hence the name quasi-Nambu-Goldstone modes. Based on this, we draw a concrete analogy between the paradigm of spontaneous symmetry breaking and the many-body scar physics in the degenerate limit.
翻訳日:2024-06-03 19:23:22 公開日:2024-05-31
# 対戦型イマジネーションを歩き回る安全なロボット「Gameplay Filters」

Gameplay Filters: Safe Robot Walking through Adversarial Imagination ( http://arxiv.org/abs/2405.00846v2 )

ライセンス: Link先を確認
Duy P. Nguyen, Kai-Chieh Hsu, Wenhao Yu, Jie Tan, Jaime F. Fisac, (参考訳) 脚付きロボットが不確実で新しい環境で安全に運用されることは、その普及に不可欠である。 近年の安全フィルタの進歩により、任意のタスク駆動型ポリシーが安全上の障害を引き起こすのを防ぐことができるが、脚のあるロボットの移動のための既存のソリューションは、まだ単純化されたダイナミクスに依存しており、ロボットが予め定義された安定した歩行から遠ざかっているときに失敗する可能性がある。 本稿では,オフラインゲーム理論の強化学習を活用し,高次非線形力学のための高堅牢な安全フィルタを合成する一般手法を提案する。 このゲームプレイフィルタは、敵の未来を継続的にシミュレートし、将来のゲームを失う(したがって安全を損なう)ようなタスク駆動アクションを先取りすることにより、実行時の安全性を維持する。 ゲームプレイ安全フィルタは、36次元の四足歩行タスクで検証され、手動のチューニングやヒューリスティックなデザインなしで、シム・トゥ・リアルギャップに固有の堅牢性を示す。 物理実験は、タグ付けや不規則な地形などの摂動下でのゲームプレイ安全フィルタの有効性を実証し、シミュレーション研究は、安全性を損なうことなく計算と保守性をトレードオフする方法に光を当てた。

Ensuring the safe operation of legged robots in uncertain, novel environments is crucial to their widespread adoption. Despite recent advances in safety filters that can keep arbitrary task-driven policies from incurring safety failures, existing solutions for legged robot locomotion still rely on simplified dynamics and may fail when the robot is perturbed away from predefined stable gaits. This paper presents a general approach that leverages offline game-theoretic reinforcement learning to synthesize a highly robust safety filter for high-order nonlinear dynamics. This gameplay filter then maintains runtime safety by continually simulating adversarial futures and precluding task-driven actions that would cause it to lose future games (and thereby violate safety). Validated on a 36-dimensional quadruped robot locomotion task, the gameplay safety filter exhibits inherent robustness to the sim-to-real gap without manual tuning or heuristic designs. Physical experiments demonstrate the effectiveness of the gameplay safety filter under perturbations, such as tugging and unmodeled irregular terrains, while simulation studies shed light on how to trade off computation and conservativeness without compromising safety.
翻訳日:2024-06-03 19:23:22 公開日:2024-05-31
# 外部位置とクロック装置を持たないロバスト協調認識

Robust Collaborative Perception without External Localization and Clock Devices ( http://arxiv.org/abs/2405.02965v2 )

ライセンス: Link先を確認
Zixing Lei, Zhenyang Ni, Ruize Han, Shuo Tang, Dingju Wang, Chen Feng, Siheng Chen, Yanfeng Wang, (参考訳) 複数のエージェントをまたいだ一貫した空間的時間的調整は、エージェント間の情報交換を通じて知覚能力を向上させることを目的とした協調的知覚の基礎である。 この空間的時間的アライメントを実現するために、従来の手法は位置付けとクロック信号を提供する外部装置に依存している。 しかし、ハードウェアが生成する信号は、ノイズや潜在的に悪意のある攻撃に対して脆弱であり、空間的時間的アライメントの精度を損なう可能性がある。 外部ハードウェアに頼るのではなく、様々なエージェントの知覚データに内在する幾何学的パターンを認識して整列するという、新しいアプローチを提案する。 そこで本研究では,外部の局所化やクロックデバイスとは独立して動作する,堅牢な協調認識システムを提案する。 我々のシステムのキーモジュールである~\emph{FreeAlign}は、検出されたボックスに基づいて各エージェントに対して有能なオブジェクトグラフを構築し、グラフニューラルネットワークを用いてエージェント間の共通部分グラフを識別し、正確な相対的なポーズと時間を与える。 実世界とシミュレートされたデータセットの両方で \emph{FreeAlign} を検証する。 以上の結果から,ロバストな協調認識システムは,高精度な局所化とクロックデバイスに依存するシステムと相容れない性能を示した。

A consistent spatial-temporal coordination across multiple agents is fundamental for collaborative perception, which seeks to improve perception abilities through information exchange among agents. To achieve this spatial-temporal alignment, traditional methods depend on external devices to provide localization and clock signals. However, hardware-generated signals could be vulnerable to noise and potentially malicious attack, jeopardizing the precision of spatial-temporal alignment. Rather than relying on external hardwares, this work proposes a novel approach: aligning by recognizing the inherent geometric patterns within the perceptual data of various agents. Following this spirit, we propose a robust collaborative perception system that operates independently of external localization and clock devices. The key module of our system,~\emph{FreeAlign}, constructs a salient object graph for each agent based on its detected boxes and uses a graph neural network to identify common subgraphs between agents, leading to accurate relative pose and time. We validate \emph{FreeAlign} on both real-world and simulated datasets. The results show that, the ~\emph{FreeAlign} empowered robust collaborative perception system perform comparably to systems relying on precise localization and clock devices.
翻訳日:2024-06-03 19:23:22 公開日:2024-05-31
# 深層学習に基づくオブジェクトポース推定 : 総合的な調査

Deep Learning-Based Object Pose Estimation: A Comprehensive Survey ( http://arxiv.org/abs/2405.07801v3 )

ライセンス: Link先を確認
Jian Liu, Wei Sun, Hui Yang, Zhiwen Zeng, Chongpei Liu, Jin Zheng, Xingyu Liu, Hossein Rahmani, Nicu Sebe, Ajmal Mian, (参考訳) オブジェクトポーズ推定は、拡張現実やロボット工学の幅広い応用において、基本的なコンピュータビジョン問題である。 過去10年間で、より優れた精度と堅牢性のために、ディープラーニングモデルは、エンジニアリングされたポイントペア機能に依存する従来のアルゴリズムに取って代わる傾向にある。 それでも、ラベル付きトレーニングデータへの依存、モデルコンパクト性、挑戦条件下での堅牢性、新しい未知のオブジェクトに一般化する能力など、現代の手法ではいくつかの課題が続いている。 この分野のさまざまな側面、卓越した課題、将来有望な方向性に関する最近の調査は欠落している。 このギャップを埋めるために、ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じ、問題の3つの定式化である「emph{i.e.}」、インスタンスレベル、カテゴリレベル、不明なオブジェクトポーズ推定を網羅する。 また、複数の入力データモダリティ、出力ポーズの度合い、オブジェクト特性、下流タスクについても調査を行い、この分野の全体的理解を読者に提供する。 さらに、異なるドメイン、推論モード、アプリケーション領域、評価指標、ベンチマークデータセットのトレーニングパラダイムや、これらのベンチマークにおける現在の最先端メソッドのパフォーマンスを報告し、読者がアプリケーションに最も適したメソッドを選択するのを容易にする。 最後に、この調査は主要な課題を特定し、その長所と短所と共に流行傾向をレビューし、将来の研究に向けた有望な方向性を特定する。 また、最新の作業をhttps://github.com/CNJianLiu/Awesome-Object-Pose-Estimationで追跡しています。

Object pose estimation is a fundamental computer vision problem with broad applications in augmented reality and robotics. Over the past decade, deep learning models, due to their superior accuracy and robustness, have increasingly supplanted conventional algorithms reliant on engineered point pair features. Nevertheless, several challenges persist in contemporary methods, including their dependency on labeled training data, model compactness, robustness under challenging conditions, and their ability to generalize to novel unseen objects. A recent survey discussing the progress made on different aspects of this area, outstanding challenges, and promising future directions, is missing. To fill this gap, we discuss the recent advances in deep learning-based object pose estimation, covering all three formulations of the problem, \emph{i.e.}, instance-level, category-level, and unseen object pose estimation. Our survey also covers multiple input data modalities, degrees-of-freedom of output poses, object properties, and downstream tasks, providing the readers with a holistic understanding of this field. Additionally, it discusses training paradigms of different domains, inference modes, application areas, evaluation metrics, and benchmark datasets, as well as reports the performance of current state-of-the-art methods on these benchmarks, thereby facilitating the readers in selecting the most suitable method for their application. Finally, the survey identifies key challenges, reviews the prevailing trends along with their pros and cons, and identifies promising directions for future research. We also keep tracing the latest works at https://github.com/CNJianLiu/Awesome-Object-Pose-Estimation.
翻訳日:2024-06-03 19:23:22 公開日:2024-05-31
# SpeechVerse: 大規模汎用型オーディオ言語モデル

SpeechVerse: A Large-scale Generalizable Audio Language Model ( http://arxiv.org/abs/2405.08295v2 )

ライセンス: Link先を確認
Nilaksh Das, Saket Dingliwal, Srikanth Ronanki, Rohit Paturi, Zhaocheng Huang, Prashant Mathur, Jie Yuan, Dhanush Bekal, Xing Niu, Sai Muralidhar Jayanthi, Xilai Li, Karel Mundnich, Monica Sunkara, Sundararajan Srinivasan, Kyu J Han, Katrin Kirchhoff, (参考訳) 大規模言語モデル(LLM)は、自然言語命令の意味的理解を必要とするタスクの実行において、驚くほどの熟練度を示している。 近年,マルチモーダル音声やテキスト入力を知覚するために,この機能をさらに拡張する研究が数多く行われているが,その能力は音声認識や翻訳など,特定の微調整タスクに限られることが多い。 そこで我々は,学習可能なパラメータの小さなセットを通じて,事前学習した音声とテキストの基盤モデルを組み合わせた,堅牢なマルチタスク学習およびカリキュラム学習フレームワークであるSpeechVerseを開発した。 音声基礎モデルから抽出した連続潜時表現を用いて命令を微調整し,自然言語命令を用いた多種多様な音声処理タスクにおいて最適なゼロショット性能を実現する。 モデルパフォーマンスを、いくつかのデータセットやタスクにわたる従来のベースラインと比較するなど、広範なベンチマークを行います。 さらに、ドメイン外のデータセット、新しいプロンプト、目に見えないタスクをテストすることによって、一般化された命令のモデル能力を評価する。 実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。

Large language models (LLMs) have shown incredible proficiency in performing tasks that require semantic understanding of natural language instructions. Recently, many works have further expanded this capability to perceive multimodal audio and text inputs, but their capabilities are often limited to specific fine-tuned tasks such as automatic speech recognition and translation. We therefore develop SpeechVerse, a robust multi-task training and curriculum learning framework that combines pre-trained speech and text foundation models via a small set of learnable parameters, while keeping the pre-trained models frozen during training. The models are instruction finetuned using continuous latent representations extracted from the speech foundation model to achieve optimal zero-shot performance on a diverse range of speech processing tasks using natural language instructions. We perform extensive benchmarking that includes comparing our model performance against traditional baselines across several datasets and tasks. Furthermore, we evaluate the model's capability for generalized instruction following by testing on out-of-domain datasets, novel prompts, and unseen tasks. Our empirical experiments reveal that our multi-task SpeechVerse model is even superior to conventional task-specific baselines on 9 out of the 11 tasks.
翻訳日:2024-06-03 19:23:22 公開日:2024-05-31
# 脳-コンピュータインタフェースによるユーザの嗜好のモデル化

Modeling User Preferences via Brain-Computer Interfacing ( http://arxiv.org/abs/2405.09691v2 )

ライセンス: Link先を確認
Luis A. Leiva, V. Javier Traver, Alexandra Kawala-Sterniuk, Tuukka Ruotsalo, (参考訳) 現在のBrain-Computer Interface (BCI)技術は、認知的および情緒的状態の推測と検出を可能にするが、そのような情報が人間の認知をモデル化する新しいアプリケーションを促進するシナリオを研究するためにはほとんど行われていない。 様々な生理的信号から定量化できる状態の一つに注意がある。 人間の注意の推定は、ユーザー体験の好みや新しい次元を明らかにするために用いられる。 これまでのアプローチでは、居住時間からクリックスルーデータ、そしてこれらの行動信号に対する視覚的対応の計算モデルなど、さまざまな行動信号を使用して、これらの驚くほど難しいタスクに取り組みました。 しかし、行動信号は実際の注意力とユーザの感情的嗜好を大まかに見積もるだけである。 実際、ユーザーは、コンテンツが健全なためだけに出席するかもしれないが、本当に面白いからではなく、非現実的だからだ。 本稿では,ユーザの嗜好を推測するためにBCIを用いた研究課題と実例を提示し,視覚的コンテンツに対する注意関係と情緒的体験との関連について考察した。 その後、情報検索、生成モデルのパーソナライズドステアリング、感情経験のクラウドソーシング人口推定など、関連する応用にリンクする。

Present Brain-Computer Interfacing (BCI) technology allows inference and detection of cognitive and affective states, but fairly little has been done to study scenarios in which such information can facilitate new applications that rely on modeling human cognition. One state that can be quantified from various physiological signals is attention. Estimates of human attention can be used to reveal preferences and novel dimensions of user experience. Previous approaches have tackled these incredibly challenging tasks using a variety of behavioral signals, from dwell-time to click-through data, and computational models of visual correspondence to these behavioral signals. However, behavioral signals are only rough estimations of the real underlying attention and affective preferences of the users. Indeed, users may attend to some content simply because it is salient, but not because it is really interesting, or simply because it is outrageous. With this paper, we put forward a research agenda and example work using BCI to infer users' preferences, their attentional correlates towards visual content, and their associations with affective experience. Subsequently, we link these to relevant applications, such as information retrieval, personalized steering of generative models, and crowdsourcing population estimates of affective experiences.
翻訳日:2024-06-03 19:13:28 公開日:2024-05-31
# SPOR:データ・テキスト・ジェネレーションにおける構成一般化のための総合的・実践的評価手法

SPOR: A Comprehensive and Practical Evaluation Method for Compositional Generalization in Data-to-Text Generation ( http://arxiv.org/abs/2405.10650v6 )

ライセンス: Link先を確認
Ziyao Xu, Houfeng Wang, (参考訳) 構成一般化は言語モデルの重要な能力であり、多くの異なる表現を持つ。 データ・トゥ・テキスト生成では、この能力に関するこれまでの研究は、Systematicityと呼ばれる単一のマニフェストに限られており、実用的なアプリケーションシナリオを完全にカバーできない大規模言語モデル(LLM)の考慮が欠如している。 本研究では,データ・テキスト生成における合成一般化のための総合的・実践的な評価手法であるSPORを提案する。 SPORには、宣言の4つの側面(体系性、生産性、秩序不変性、規則学習性)が含まれており、既存のデータセットに基づいた追加のマニュアルアノテーションなしで高品質な評価を可能にする。 2つの異なるデータセット上でSPORを実証し、LLMを含む既存の言語モデルを評価する。 評価の様々な面においてモデルが不足していることが分かり、さらなる改善が必要である。 本研究は、データ・テキスト・ジェネレーションにおける合成一般化の異なる表現に関する総合的な研究の必要性を示し、評価のための枠組みを提供する。

Compositional generalization is an important ability of language models and has many different manifestations. For data-to-text generation, previous research on this ability is limited to a single manifestation called Systematicity and lacks consideration of large language models (LLMs), which cannot fully cover practical application scenarios. In this work, we propose SPOR, a comprehensive and practical evaluation method for compositional generalization in data-to-text generation. SPOR includes four aspects of manifestations (Systematicity, Productivity, Order invariance, and Rule learnability) and allows high-quality evaluation without additional manual annotations based on existing datasets. We demonstrate SPOR on two different datasets and evaluate some existing language models including LLMs. We find that the models are deficient in various aspects of the evaluation and need further improvement. Our work shows the necessity for comprehensive research on different manifestations of compositional generalization in data-to-text generation and provides a framework for evaluation.
翻訳日:2024-06-03 19:13:28 公開日:2024-05-31
# インテリジェントで小型化されたニューラルインターフェース:ニューロテクノロジーの新たな時代

Intelligent and Miniaturized Neural Interfaces: An Emerging Era in Neurotechnology ( http://arxiv.org/abs/2405.10780v2 )

ライセンス: Link先を確認
Mahsa Shoaran, Uisub Shin, MohammadAli Shaeri, (参考訳) 神経デバイスにスマートアルゴリズムを統合することは、様々な脳障害にとって大きなチャンスとなる。 本稿では,組込み可能なデバイスやウェアラブルデバイスに組込み信号処理を施した3種類の知的神経義肢の開発における最新の進歩を概説する。 以下を含む。 1)閉ループ症状追跡と応答性刺激のための神経インタフェース 2 精神疾患等の新興ネットワーク関連疾患に対する神経インタフェース、及び 3)麻痺後の運動回復のための知的BMI SoC

Integrating smart algorithms on neural devices presents significant opportunities for various brain disorders. In this paper, we review the latest advancements in the development of three categories of intelligent neural prostheses featuring embedded signal processing on the implantable or wearable device. These include: 1) Neural interfaces for closed-loop symptom tracking and responsive stimulation; 2) Neural interfaces for emerging network-related conditions, such as psychiatric disorders; and 3) Intelligent BMI SoCs for movement recovery following paralysis.
翻訳日:2024-06-03 19:13:28 公開日:2024-05-31
# MotionGS : 運動フィルタによる小型ガウス散乱SLAM

MotionGS : Compact Gaussian Splatting SLAM by Motion Filter ( http://arxiv.org/abs/2405.11129v2 )

ライセンス: Link先を確認
Xinli Guo, Weidong Zhang, Ruonan Liu, Peng Han, Hongtian Chen, (参考訳) 高忠実度シーン表現能力により、SLAMフィールドの注意はニューラル放射場(NeRF)と3Dガウス散乱(DGS)に深く惹かれる。 最近、NeRFベースのSLAMが急増しており、3DGSベースのSLAMは希薄である。 本稿では,深部視覚特徴と2つのキーフレーム選択と3DGSを融合した新しい3DGSベースのSLAM手法を提案する。 既存の手法と比較して,提案手法は各フレーム上の特徴抽出とモーションフィルタにより実現されている。 ポーズと3Dガウスの合同最適化は、マッピングプロセス全体を通して行われる。 さらに、二重鍵フレーム選択と新規損失関数により、粗大なポーズ推定とコンパクトなガウスシーン表現を実現する。 実験の結果,提案アルゴリズムはトラッキングやマッピングにおいて既存の手法よりも優れているだけでなく,メモリ使用量も少ないことがわかった。

With their high-fidelity scene representation capability, the attention of SLAM field is deeply attracted by the Neural Radiation Field (NeRF) and 3D Gaussian Splatting (3DGS). Recently, there has been a surge in NeRF-based SLAM, while 3DGS-based SLAM is sparse. A novel 3DGS-based SLAM approach with a fusion of deep visual feature, dual keyframe selection and 3DGS is presented in this paper. Compared with the existing methods, the proposed tracking is achieved by feature extraction and motion filter on each frame. The joint optimization of poses and 3D Gaussians runs through the entire mapping process. Additionally, the coarse-to-fine pose estimation and compact Gaussian scene representation are implemented by dual keyframe selection and novel loss functions. Experimental results demonstrate that the proposed algorithm not only outperforms the existing methods in tracking and mapping, but also has less memory usage.
翻訳日:2024-06-03 19:13:28 公開日:2024-05-31
# ReasonPix2Pix: 高度な画像編集のためのインストラクション推論データセット

ReasonPix2Pix: Instruction Reasoning Dataset for Advanced Image Editing ( http://arxiv.org/abs/2405.11190v2 )

ライセンス: Link先を確認
Ying Jin, Pengyang Ling, Xiaoyi Dong, Pan Zhang, Jiaqi Wang, Dahua Lin, (参考訳) インストラクションベースの画像編集は、画像編集のための人書きの指示に従う能力を持つ生成モデルを装備することに焦点を当てる。 現在のアプローチは、通常、明示的で特定の指示を理解する。 しかし、暗黙的または不十分に定義された指示を理解するのに必要な能動的推論能力の実行に欠如することが多い。 能動的推論能力を向上し、編集モデルにインテリジェンスを付与するために、包括的な推論注意型命令編集データセットであるReasonPix2Pixを導入する。 データセットの特徴は 1)理性指導 2)細かなカテゴリのよりリアルなイメージ 3) 入力画像と編集画像のばらつきは増大した。 教師付き条件下でのデータセットの微調整では、タスクが推論を必要とするか否かに関わらず、命令編集タスクにおいて優れたパフォーマンスを示す。 コードはhttps://github.com/Jin-Ying/ReasonPix2Pixで入手できる。

Instruction-based image editing focuses on equipping a generative model with the capacity to adhere to human-written instructions for editing images. Current approaches typically comprehend explicit and specific instructions. However, they often exhibit a deficiency in executing active reasoning capacities required to comprehend instructions that are implicit or insufficiently defined. To enhance active reasoning capabilities and impart intelligence to the editing model, we introduce ReasonPix2Pix, a comprehensive reasoning-attentive instruction editing dataset. The dataset is characterized by 1) reasoning instruction, 2) more realistic images from fine-grained categories, and 3) increased variances between input and edited images. When fine-tuned with our dataset under supervised conditions, the model demonstrates superior performance in instructional editing tasks, independent of whether the tasks require reasoning or not. The code will be available at https://github.com/Jin-Ying/ReasonPix2Pix.
翻訳日:2024-06-03 19:13:28 公開日:2024-05-31
# 体型肝脂肪定量ネットワーク

Liver Fat Quantification Network with Body Shape ( http://arxiv.org/abs/2405.11386v2 )

ライセンス: Link先を確認
Qiyue Wang, Wu Xue, Xiaoke Zhang, Fang Jin, James Hahn, (参考訳) 心臓合併症や心血管疾患の死亡と関連する肝脂肪の含有量を検出することは極めて重要である。 しかしながら、既存の方法は、高コストおよび/または医療上の合併症(例えば、肝生検、イメージング技術)と関連付けられているか、あるいは、大まかに見積もられているだけである。 本稿では, 生体形状のみを用いて肝脂肪の割合を推定するディープニューラルネットワークを提案する。 提案手法は,フレキシブルベースラインネットワークと軽量アテンションモジュールから構成される。 注意モジュールは、パフォーマンスを著しく向上させる差別的で多様な特徴を生成するように訓練されている。 本手法を検証するため,公衆医療データセット上で広範囲な検査を行った。 その結果,Root平均二乗誤差(RMSE)が5.26%,R-二乗値が0.8。 肝脂肪症を正確に、よりアクセシブルに評価する。

It is critically important to detect the content of liver fat as it is related to cardiac complications and cardiovascular disease mortality. However, existing methods are either associated with high cost and/or medical complications (e.g., liver biopsy, imaging technology) or only roughly estimate the grades of steatosis. In this paper, we propose a deep neural network to estimate the percentage of liver fat using only body shapes. The proposed is composed of a flexible baseline network and a lightweight Attention module. The attention module is trained to generate discriminative and diverse features which significant improve the performance. In order to validate the method, we perform extensive tests on the public medical dataset. The results verify that our proposed method yields state-of-the-art performance with Root mean squared error (RMSE) of 5.26% and R-Squared value over 0.8. It offers an accurate and more accessible assessment of hepatic steatosis.
翻訳日:2024-06-03 19:13:28 公開日:2024-05-31
# URDFormer: 実世界の画像から人工シミュレーション環境を構築するパイプライン

URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images ( http://arxiv.org/abs/2405.11656v3 )

ライセンス: Link先を確認
Zoey Chen, Aaron Walsman, Marius Memmel, Kaichun Mo, Alex Fang, Karthikeya Vemuri, Alan Wu, Dieter Fox, Abhishek Gupta, (参考訳) 視覚的にも身体的にも現実的にもシミュレーションシーンを構築することは、ロボット工学からコンピュータビジョンまで、領域における実践的な関心の問題である。 この問題は、大規模なデータハングリー学習手法が物理的な意思決定システムのための新たなトレーニングデータソースを求める研究者によってさらに重要になっている。 しかし、シミュレーションモデルの構築は依然として手作業で行われていることが多い。 グラフィックデザイナとシミュレーションエンジニアは、事前に定義された資産を使って、リアルな動的およびキネマティックな特性を持つリッチなシーンを構築する。 これは、データ駆動型ロボット制御に必要な一般化特性を達成するために、少数のシーンにスケールする可能性があるが、我々は「自然」キネマティック構造と動的構造を完備した、多数の現実的なシーンを合成できるパイプラインが必要である。 この問題に対処するため、我々は自然画像から構造を推論しシミュレーションシーンを生成するモデルを開発し、Webスケールのデータセットからスケーラブルなシーン生成を可能にした。 これらのイメージ・トゥ・シミュレートモデルをトレーニングするために、現実的な画像から完全なシーンモデルへのマッピング、逆問題のモデル化を可能にするペア化トレーニングデータを生成するために、制御可能なテキスト・ツー・イメージ生成モデルをどのように利用できるかを示す。 このパラダイムによって、セマンティックおよび物理リアリズムを用いたシミュレーションにおいて、大規模なシーンデータセットを構築することができることを示す。 本稿では,実世界の画像から機械的・動的構造を表現したシミュレーションシーンを生成し,ロボット制御ポリシのトレーニングに使用する統合エンドツーエンドパイプラインを提案する。 そして、オブジェクトの操作のようなタスクのために、現実世界にしっかりとデプロイします。 そこで本研究は,シミュレーション環境を大規模に生成するためのパイプラインと,ロバストなロボット制御ポリシをトレーニングする統合システムの両方を提供する。

Constructing simulation scenes that are both visually and physically realistic is a problem of practical interest in domains ranging from robotics to computer vision. This problem has become even more relevant as researchers wielding large data-hungry learning methods seek new sources of training data for physical decision-making systems. However, building simulation models is often still done by hand. A graphic designer and a simulation engineer work with predefined assets to construct rich scenes with realistic dynamic and kinematic properties. While this may scale to small numbers of scenes, to achieve the generalization properties that are required for data-driven robotic control, we require a pipeline that is able to synthesize large numbers of realistic scenes, complete with 'natural' kinematic and dynamic structures. To attack this problem, we develop models for inferring structure and generating simulation scenes from natural images, allowing for scalable scene generation from web-scale datasets. To train these image-to-simulation models, we show how controllable text-to-image generative models can be used in generating paired training data that allows for modeling of the inverse problem, mapping from realistic images back to complete scene models. We show how this paradigm allows us to build large datasets of scenes in simulation with semantic and physical realism. We present an integrated end-to-end pipeline that generates simulation scenes complete with articulated kinematic and dynamic structures from real-world images and use these for training robotic control policies. We then robustly deploy in the real world for tasks like articulated object manipulation. In doing so, our work provides both a pipeline for large-scale generation of simulation environments and an integrated system for training robust robotic control policies in the resulting environments.
翻訳日:2024-06-03 19:13:28 公開日:2024-05-31
# TrojanRAG: 大規模言語モデルでは,検索可能な生成がバックドアドライバになる

TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models ( http://arxiv.org/abs/2405.13401v3 )

ライセンス: Link先を確認
Pengzhou Cheng, Yidong Ding, Tianjie Ju, Zongru Wu, Wei Du, Ping Yi, Zhuosheng Zhang, Gongshen Liu, (参考訳) 大規模言語モデル (LLM) は、自然言語処理 (NLP) で顕著なパフォーマンスにもかかわらず、潜在的なセキュリティ脅威に対する懸念を提起している。 バックドア攻撃は当初、LLMがあらゆる段階で重大な損害を受けていることを証明したが、コストとロバスト性は批判されている。 LLMを攻撃することは、セキュリティレビューにおいて本質的に危険であるが、違法に高価である。 さらに、LLMの連続的なイテレーションは、バックドアの堅牢性を低下させます。 本稿では,Retrieval-Augmented Generationにおける共同バックドア攻撃を利用したTrojanRAGを提案する。 具体的には、敵は、精巧なターゲットコンテキストとトリガーセットを構成する。 複数のバックドアショートカットは、コントラスト学習によって直交的に最適化されるため、トリガー条件をパラメータ部分空間に制約し、マッチングを改善する。 対象コンテキストに対するRAGのリコールを改善するため,構造化データを構築するための知識グラフを導入し,きめ細かいレベルでのハードマッチングを実現する。 さらに, LLMのバックドアシナリオを正規化し, 攻撃者の視点とユーザ視点の両方からバックドアが引き起こす本当の害を分析し, さらに, ジェイルブレイクモデルに適したツールであるかどうかを検証した。 真理性、言語理解、有害性に関する広範な実験結果から、TrojanRAGは通常のクエリの検索能力を保ちながら、万能性の脅威を示すことが示された。

Large language models (LLMs) have raised concerns about potential security threats despite performing significantly in Natural Language Processing (NLP). Backdoor attacks initially verified that LLM is doing substantial harm at all stages, but the cost and robustness have been criticized. Attacking LLMs is inherently risky in security review, while prohibitively expensive. Besides, the continuous iteration of LLMs will degrade the robustness of backdoors. In this paper, we propose TrojanRAG, which employs a joint backdoor attack in the Retrieval-Augmented Generation, thereby manipulating LLMs in universal attack scenarios. Specifically, the adversary constructs elaborate target contexts and trigger sets. Multiple pairs of backdoor shortcuts are orthogonally optimized by contrastive learning, thus constraining the triggering conditions to a parameter subspace to improve the matching. To improve the recall of the RAG for the target contexts, we introduce a knowledge graph to construct structured data to achieve hard matching at a fine-grained level. Moreover, we normalize the backdoor scenarios in LLMs to analyze the real harm caused by backdoors from both attackers' and users' perspectives and further verify whether the context is a favorable tool for jailbreaking models. Extensive experimental results on truthfulness, language understanding, and harmfulness show that TrojanRAG exhibits versatility threats while maintaining retrieval capabilities on normal queries.
翻訳日:2024-06-03 19:13:28 公開日:2024-05-31
# 拡散モデルを直接デノイングする

Directly Denoising Diffusion Models ( http://arxiv.org/abs/2405.13540v2 )

ライセンス: Link先を確認
Dan Zhang, Jingjing Wang, Feng Luo, (参考訳) 本稿では,数ステップのサンプリングでリアルな画像を生成するためのシンプルで汎用的な手法である直接分解拡散モデル(DDDM)を提案する。 DDDMは、事前訓練された蒸留モデルに対して、繊細に設計されたサンプリング器や蒸留を必要としない。 DDDMは、以前のトレーニングイテレーションから生成された推定目標に基づいて、拡散モデルをトレーニングします。 画像を生成するには、前回のタイムステップから生成されたサンプルも考慮し、生成プロセスを反復的に導く。 さらにPseudo-LPIPSを提案する。これはハイパーパラメータの様々な値に対してより堅牢な新しい計量損失である。 その単純さにもかかわらず、提案手法はベンチマークデータセットで高いパフォーマンスを達成することができる。 本モデルでは, CIFAR-10のFIDスコアを1段階, 2段階のサンプリングで2.57と2.33とし, GANと蒸留モデルから得られたFIDスコアをそれぞれ上回った。 サンプリングを1000ステップに拡張することで、FIDスコアをさらに1.79に削減し、文献における最先端の手法と整合する。 ImageNet 64x64の場合、当社のアプローチは主要なモデルに対する競争相手として機能します。

In this paper, we present the Directly Denoising Diffusion Model (DDDM): a simple and generic approach for generating realistic images with few-step sampling, while multistep sampling is still preserved for better performance. DDDMs require no delicately designed samplers nor distillation on pre-trained distillation models. DDDMs train the diffusion model conditioned on an estimated target that was generated from previous training iterations of its own. To generate images, samples generated from the previous time step are also taken into consideration, guiding the generation process iteratively. We further propose Pseudo-LPIPS, a novel metric loss that is more robust to various values of hyperparameter. Despite its simplicity, the proposed approach can achieve strong performance in benchmark datasets. Our model achieves FID scores of 2.57 and 2.33 on CIFAR-10 in one-step and two-step sampling respectively, surpassing those obtained from GANs and distillation-based models. By extending the sampling to 1000 steps, we further reduce FID score to 1.79, aligning with state-of-the-art methods in the literature. For ImageNet 64x64, our approach stands as a competitive contender against leading models.
翻訳日:2024-06-03 19:13:28 公開日:2024-05-31
# なぜチャット大言語モデルを英語に変換しないのか?

Why Not Transform Chat Large Language Models to Non-English? ( http://arxiv.org/abs/2405.13923v2 )

ライセンス: Link先を確認
Xiang Geng, Ming Zhu, Jiahuan Li, Zhejian Lai, Wei Zou, Shuaijie She, Jiaxin Guo, Xiaofeng Zhao, Yinglu Li, Yuang Li, Chang Su, Yanqing Zhao, Xinglin Lyu, Min Zhang, Jiajun Chen, Hao Yang, Shujian Huang, (参考訳) 非英語データの不足は、非英語の大規模言語モデル(LLM)の開発を制限する。 英語中心のLLMを非英語に変換することは、効果的かつ資源効率のよい方法として認識されている。 従来の研究は、ベースLLMから始まり、より強力なLLM、eg GPT-4によって生成されたデータを用いて知識蒸留(KD)を行う。 基本LLMと比較して、チャットLLMは高度な能力、例えばマルチターン会話や人間の嗜好アライメントにさらに最適化されており、利便性と安全性の両方においてより強力である。 しかし、チャット LLM の変換には、2つの重要な問題がある。 2) 変革中の破滅的な忘れ方からオリジナル知識をどう防ぐか。 TransLLMと呼ばれるシンプルなフレームワークを導入することで、これらの問題をターゲットにしています。 最初の問題として、TransLLMは、翻訳問題を、英語と非英語のステップバイステップのブリッジとして使用する翻訳チェーン・オブ・シント(translation chain-of- Thought)と、いくつかの共通のサブタスクに分割する。 公開データを用いたサブタスクの性能をさらに向上する。 2つ目の問題として,LLMパラメータの保持のためのトレーニングのための低ランク適応と,チャットLLM自体が生成したデータを用いて凍結したパラメータから元の知識を復元するリカバリKDという2つの相乗的要素からなる手法を提案する。 実験ではLLaMA-2-chat-7Bをタイ語に変換する。 本手法は,シングルターンデータのみを用いて,マルチターンベンチマークMT-benchにおいて,強いベースラインとChatGPTより優れる。 さらに,安全データを持たない手法では,ChatGPT や GPT-4 よりも安全性ベンチマークAdvBench の有害なクエリを拒否する。

The scarcity of non-English data limits the development of non-English large language models (LLMs). Transforming English-centric LLMs to non-English has been identified as an effective and resource-efficient method. Previous works start from base LLMs and perform knowledge distillation (KD) with data generated by stronger LLMs, e.g. GPT-4. Compared to base LLMs, chat LLMs are further optimized for advanced abilities, e.g. multi-turn conversation and human preference alignment, and thus more powerful in both helpfulness and safety. However, transforming a chat LLM involves two critical issues: (1) How can we effectively transfer advanced abilities without their supervised data? (2) How can we prevent the original knowledge from catastrophic forgetting during transformation? We target these issues by introducing a simple framework called TransLLM. For the first issue, TransLLM divides the transfer problem into some common sub-tasks with the translation chain-of-thought, which uses the translation as the bridge between English and non-English step-by-step. We further enhance the performance of sub-tasks with publicly available data. For the second issue, we propose a method comprising two synergistic components: low-rank adaptation for training to maintain the original LLM parameters, and recovery KD, which utilizes data generated by the chat LLM itself to recover the original knowledge from the frozen parameters. In the experiments, we transform the LLaMA-2-chat-7B to the Thai language. Our method, using only single-turn data, outperforms strong baselines and ChatGPT on multi-turn benchmark MT-bench. Furthermore, our method, without safety data, rejects more harmful queries of safety benchmark AdvBench than both ChatGPT and GPT-4.
翻訳日:2024-06-03 19:13:28 公開日:2024-05-31
# 北エフ量子スピン液体候補Na2Co2TeO6の面外磁気相図

Out-of-plane magnetic phase diagram of Kitaev quantum spin liquid candidate Na2Co2TeO6 ( http://arxiv.org/abs/2405.13935v3 )

ライセンス: Link先を確認
Shengzhi Zhang, Sangyun Lee, Eric Brosha, Qing Huang, Haidong Zhou, Vivien S. Zapf, Minseong Lee, (参考訳) 我々は,ハニカム磁石Na2Co2TeO6とCo3d7の相図を平面外磁場中で解析し,その相図をマッピングした。 この物質は、Coスピンと、高磁場における北エフ量子スピン液体の挙動の間において、最も近接した北エフ相互作用を示すためにこれまで提案されてきた。 低磁場下では、TN = 27Kで熱相転移を観測し、常磁性状態から正準強磁性状態へ遷移する。 磁場の印加の下では、10KからTNの間のJ = 1/2の飽和前にスピンフロップのような相転移が起こった。 10K以下では、磁気飽和前の磁気感受性(dM/dH)においてピークディップピーク構造が10〜17Tに出現し、磁気プラトーの挙動を連想させる。 磁場効果の測定は、この領域におけるディップピーク・ディップの挙動も示している。 我々のデータは、単一イオン異方性を持つXXZモデルで説明でき、おそらくは小さなKitaev と {\Gamma} の交換相互作用によって説明できる。 また、交換相互作用のエネルギースケールを制約する磁化飽和場を曖昧に決定する。

We have investigated the magnetic properties and mapped out the phase diagram of the honeycomb magnet Na2Co2TeO6 with Co 3d7 in out-of-plane magnetic fields. This material has previously been proposed to show nearest-neighbor Kitaev interactions between Co spins and maybe even Kitaev quantum spin liquid behavior in high fields. At low magnetic fields, we observe a thermal phase transition at TN = 27 K, transitioning from a paramagnetic state to a canonical ferrimagnetic state. Under the application of magnetic fields, a spin flop-like phase transition occurred before saturation of J = 1/2 between 10 K and TN. Below 10 K, a peak-dip-peak structure emerges between 10 and 17 T in the magnetic susceptibility (dM/dH) before the magnetic saturation, reminiscent of magnetic plateau behavior. The measurement of the magnetocaloric effect also shows dip-peak-dip behavior in this field range. Our data can be explained by an XXZ model with a single ion anisotropy and possibly small Kitaev and {\Gamma} exchange interactions. We also unambiguously determined the magnetization saturation field that helps constrain the energy scale of the exchange interactions
翻訳日:2024-06-03 19:13:28 公開日:2024-05-31
# 素晴らしいマルチモーダル物体追跡

Awesome Multi-modal Object Tracking ( http://arxiv.org/abs/2405.14200v2 )

ライセンス: Link先を確認
Chunhui Zhang, Li Liu, Hao Wen, Xi Zhou, Yanfeng Wang, (参考訳) MMOT(Multi-modal Object Tracking)は、様々なモダリティ(RGB)、深度、熱赤外、イベント、言語、オーディオなどのデータを組み合わせて、ビデオシーケンス中の任意のオブジェクトの状態を推定する新興分野である。 自律運転やインテリジェントな監視といった多くのアプリケーションにとって、これは大きな意味を持つ。 近年、MMOTはますます注目を集めている。 しかし、既存のMMOTアルゴリズムは主に2つのモード(RGB+深度、RGB+熱赤外、RGB+言語)に焦点を当てている。 よりモダリティを活用するために、あらゆるモダリティに対して統一された視覚オブジェクト追跡モデルを学ぶための最近の試みがある。 さらに、視覚言語オーディオ (\eg WebUAV-3M) と視覚深度言語 (\eg UniMod1K) の2つ以上のモダリティを同時に提供することで、大規模なマルチモーダル追跡ベンチマークが確立されている。 本報告では,MMOTの最近の進歩を追究するために,包括的調査を行う。 具体的には,既存のMMOTタスクを,RGBL追跡,RGBE追跡,RGBD追跡,RGBT追跡,雑多性(RGB+X)の5つのカテゴリに分割する。 そして,各MMOTタスクを分析し,その技術パラダイム(自己教師型学習,素早い学習,知識蒸留,生成モデル,状態空間モデル)に基づいて,広く使用されているデータセットと主流追跡アルゴリズムに着目して要約する。 最後に、MMOTの更新されたペーパーリストをhttps://github.com/983632847/Awesome-Multimodal-Object-Tracking.comで継続的に維持する。

Multi-modal object tracking (MMOT) is an emerging field that combines data from various modalities, \eg vision (RGB), depth, thermal infrared, event, language and audio, to estimate the state of an arbitrary object in a video sequence. It is of great significance for many applications such as autonomous driving and intelligent surveillance. In recent years, MMOT has received more and more attention. However, existing MMOT algorithms mainly focus on two modalities (\eg RGB+depth, RGB+thermal infrared, and RGB+language). To leverage more modalities, some recent efforts have been made to learn a unified visual object tracking model for any modality. Additionally, some large-scale multi-modal tracking benchmarks have been established by simultaneously providing more than two modalities, such as vision-language-audio (\eg WebUAV-3M) and vision-depth-language (\eg UniMod1K). To track the latest progress in MMOT, we conduct a comprehensive investigation in this report. Specifically, we first divide existing MMOT tasks into five main categories, \ie RGBL tracking, RGBE tracking, RGBD tracking, RGBT tracking, and miscellaneous (RGB+X), where X can be any modality, such as language, depth, and event. Then, we analyze and summarize each MMOT task, focusing on widely used datasets and mainstream tracking algorithms based on their technical paradigms (\eg self-supervised learning, prompt learning, knowledge distillation, generative models, and state space models). Finally, we maintain a continuously updated paper list for MMOT at https://github.com/983632847/Awesome-Multimodal-Object-Tracking.
翻訳日:2024-06-03 19:13:28 公開日:2024-05-31
# 最適学習率とバッチサイズスケーリングにおけるサージ現象

Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling ( http://arxiv.org/abs/2405.14578v2 )

ライセンス: Link先を確認
Shuaipeng Li, Penghao Zhao, Hailin Zhang, Xingwu Sun, Hao Wu, Dian Jiao, Weiyan Wang, Chengjun Liu, Zheng Fang, Jinbao Xue, Yangyu Tao, Bin Cui, Di Wang, (参考訳) 現在のディープラーニングタスクでは、Adam、Adagrad、RMSProp、Adafactor、LionといったAdamスタイルオプティマイザがSGDスタイルオプティマイザの代替として広く使用されている。 これらのオプティマイザは通常、勾配の符号を使ってモデルパラメータを更新し、より安定した収束曲線をもたらす。 学習速度とバッチサイズはオプティマイザにとって最も重要なハイパーパラメータであり、効果的な収束を実現するためには注意深いチューニングが必要である。 従来の研究では、最適学習率が線形に増加するか、SGDスタイルオプティマイザのバッチサイズに類似したルールに従うことが示されている。 しかし、この結論はAdamスタイルのオプティマイザには当てはまらない。 本稿では,Adamスタイルオプティマイザの最適学習率とバッチサイズとの関係を理論的解析と広範囲な実験により解明する。 まず, バッチサイズと最適学習率の間のスケーリング法則を勾配の符号で表し, 最適学習率が最初に上昇し, バッチサイズが大きくなるにつれて低下することを示す。 さらに、トレーニングが進むにつれて、サージのピーク値は、より大きなバッチサイズへと徐々に移動します。 第2に,各種CVおよびNLPタスクの実験を行い,スケーリング法則の正当性を検証した。

In current deep learning tasks, Adam style optimizers such as Adam, Adagrad, RMSProp, Adafactor, and Lion have been widely used as alternatives to SGD style optimizers. These optimizers typically update model parameters using the sign of gradients, resulting in more stable convergence curves. The learning rate and the batch size are the most critical hyperparameters for optimizers, which require careful tuning to enable effective convergence. Previous research has shown that the optimal learning rate increases linearly or follows similar rules with batch size for SGD style optimizers. However, this conclusion is not applicable to Adam style optimizers. In this paper, we elucidate the connection between optimal learning rates and batch sizes for Adam style optimizers through both theoretical analysis and extensive experiments. First, we raise the scaling law between batch sizes and optimal learning rates in the sign of gradient case, in which we prove that the optimal learning rate first rises and then falls as the batch size increases. Moreover, the peak value of the surge will gradually move toward the larger batch size as training progresses. Second, we conducted experiments on various CV and NLP tasks and verified the correctness of the scaling law.
翻訳日:2024-06-03 19:13:28 公開日:2024-05-31
# Calibrated Self-Rewarding Vision Language Models

Calibrated Self-Rewarding Vision Language Models ( http://arxiv.org/abs/2405.14622v3 )

ライセンス: Link先を確認
Yiyang Zhou, Zhiyuan Fan, Dongjie Cheng, Sihan Yang, Zhaorun Chen, Chenhang Cui, Xiyao Wang, Yun Li, Linjun Zhang, Huaxiu Yao, (参考訳) LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と命令チューニングによる視覚モデルを統合することで大きな進歩を遂げた。 これらの進歩にもかかわらず、LVLMは、しばしば幻覚現象を示し、生成したテキスト応答は言語的に妥当に見えるが、入力画像と矛盾し、画像とテキストペアの相違を示す。 このミスアライメントは、言語モデルと視覚表現の両方が高品質である場合でも、モデルが視覚入力よりもテキスト情報を優先する傾向があるために生じる。 既存の方法は、追加のモデルや人間のアノテーションを利用して、好みデータをキュレートし、好みの最適化を通じてモダリティアライメントを強化する。 これらのアプローチはLVLMの選好を効果的に反映していないため、キュレートされた選好を容易に区別できる。 本研究は,CSR (Calibrated Self-Rewarding) アプローチを提案することで,モデルが候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,これらの課題に対処する。 報酬モデリングでは、ステップワイズ戦略を採用し、視覚的制約を自己回帰プロセスに組み込んで視覚的入力に重点を置く。 実証的な結果は、CSRがパフォーマンスを高め、10のベンチマークとタスクの幻覚を減らし、既存のメソッドに対して7.62%の大幅な改善を達成していることを示している。 我々の経験的結果は、厳密な理論的分析によってさらに支持され、軽微な仮定の下で、自己回帰パラダイムに視覚的制約を導入する効果が検証される。 さらに、CSRは異なる視覚言語モデルとの互換性を示し、反復的な微調整によってパフォーマンスを漸進的に改善する能力を示している。 私たちのデータとコードはhttps://github.com/YiyangZhou/CSR.comで公開されています。

Large Vision-Language Models (LVLMs) have made substantial progress by integrating pre-trained large language models (LLMs) and vision models through instruction tuning. Despite these advancements, LVLMs often exhibit the hallucination phenomenon, where generated text responses appear linguistically plausible but contradict the input image, indicating a misalignment between image and text pairs. This misalignment arises because the model tends to prioritize textual information over visual input, even when both the language model and visual representations are of high quality. Existing methods leverage additional models or human annotations to curate preference data and enhance modality alignment through preference optimization. These approaches may not effectively reflect the target LVLM's preferences, making the curated preferences easily distinguishable. Our work addresses these challenges by proposing the Calibrated Self-Rewarding (CSR) approach, which enables the model to self-improve by iteratively generating candidate responses, evaluating the reward for each response, and curating preference data for fine-tuning. In the reward modeling, we employ a step-wise strategy and incorporate visual constraints into the self-rewarding process to place greater emphasis on visual input. Empirical results demonstrate that CSR enhances performance and reduces hallucinations across ten benchmarks and tasks, achieving substantial improvements over existing methods by 7.62%. Our empirical results are further supported by rigorous theoretical analysis, under mild assumptions, verifying the effectiveness of introducing visual constraints into the self-rewarding paradigm. Additionally, CSR shows compatibility with different vision-language models and the ability to incrementally improve performance through iterative fine-tuning. Our data and code are available at https://github.com/YiyangZhou/CSR.
翻訳日:2024-06-03 19:03:44 公開日:2024-05-31
# グラフ上の量子支援レンデブー:明示的アルゴリズムと量子コンピュータシミュレーション

Quantum-assisted Rendezvous on Graphs: Explicit Algorithms and Quantum Computer Simulations ( http://arxiv.org/abs/2405.14951v2 )

ライセンス: Link先を確認
J. Tucker, P. Strange, P. Mironowicz, J. Quintanilla, (参考訳) 我々は,単純なグラフ上での一段階のランデブーゲームにおいて,ノイズの多い中間スケール量子(NISQ)プロセッサを用いて量子優位性について検討した。 我々のプロトコルは、最近発見された(arXiv:2207.14404)小さなサイクルグラフと立方体グラフの最適境界を実現する。 サイクルグラフの場合、プロトコルを任意のグラフサイズに一般化する。 NISQ プロセッサの実験では、完全なグラフ K3 上でランデブーを行うための高い精度で期待される量子優位性を実現する。 対照的に、2つの非連結4頂点完全グラフからなるグラフ2K4では、NISQハードウェアの性能は、より深い回路と既知のキュービットのデコヒーレンスとゲートエラー率とに一致して、サブ古典的である。

We study quantum advantage in one-step rendezvous games on simple graphs analytically, numerically, and using noisy intermediate-scale quantum (NISQ) processors. Our protocols realise the recently discovered [arXiv:2207.14404] optimal bounds for small cycle graphs and cubic graphs. In the case of cycle graphs, we generalise the protocols to arbitrary graph size. The NISQ processor experiments realise the expected quantum advantage with high accuracy for rendezvous on the complete graph K3. In contrast, for the graph 2K4, formed by two disconnected 4-vertex complete graphs, the performance of the NISQ hardware is sub-classical, consistent with the deeper circuit and known qubit decoherence and gate error rates.
翻訳日:2024-06-03 19:03:44 公開日:2024-05-31
# Aya 23: オープンウェイトがリリース、さらに多言語対応へ

Aya 23: Open Weight Releases to Further Multilingual Progress ( http://arxiv.org/abs/2405.15032v2 )

ライセンス: Link先を確認
Viraat Aryabumi, John Dang, Dwarak Talupuru, Saurabh Dash, David Cairuz, Hangyu Lin, Bharat Venkitesh, Madeline Smith, Jon Ander Campos, Yi Chern Tan, Kelly Marchisio, Max Bartolo, Sebastian Ruder, Acyr Locatelli, Julia Kreutzer, Nick Frosst, Aidan Gomez, Phil Blunsom, Marzieh Fadaee, Ahmet Üstün, Sara Hooker, (参考訳) この技術的レポートでは、多言語言語モデルのファミリーであるAya 23を紹介します。 Aya 23は、Ayaモデルの最新リリース("Ust\"un et al , 2024)に基づいて構築されており、高性能で事前訓練されたモデルと、最近リリースされたAyaコレクション(Singh et al , 2024)とのペアリングに焦点を当てている。 その結果、23の言語を提供する強力な多言語大言語モデルとなり、最先端の言語モデリング能力を世界の人口の約半分にまで拡張した。 Ayaモデルは101言語をカバーし、Aya 23は深さ対幅の実験であり、事前トレーニング中に含まれるより少ない言語により多くのキャパシティを割り当てることの影響を探っている。 Aya 23は、Aya 101のような従来の多言語モデルと、Gemma、Mistral、Mixtralといった広く使われているモデルの両方を、差別的で生成的なタスクで上回っている。 8Bモデルと35Bモデルの両方のオープンウェイトは、多言語進行へのアクセスを拡大するための継続的なコミットメントの一部としてリリースします。

This technical report introduces Aya 23, a family of multilingual language models. Aya 23 builds on the recent release of the Aya model (\"Ust\"un et al., 2024), focusing on pairing a highly performant pre-trained model with the recently released Aya collection (Singh et al., 2024). The result is a powerful multilingual large language model serving 23 languages, expanding state-of-art language modeling capabilities to approximately half of the world's population. The Aya model covered 101 languages whereas Aya 23 is an experiment in depth vs breadth, exploring the impact of allocating more capacity to fewer languages that are included during pre-training. Aya 23 outperforms both previous massively multilingual models like Aya 101 for the languages it covers, as well as widely used models like Gemma, Mistral and Mixtral on an extensive range of discriminative and generative tasks. We release the open weights for both the 8B and 35B models as part of our continued commitment for expanding access to multilingual progress.
翻訳日:2024-06-03 19:03:44 公開日:2024-05-31
# Combinatorial Multi-Armed Bandit and Hierarchical Stackelberg Game によるオンラインプロンプト価格設定

Online Prompt Pricing based on Combinatorial Multi-Armed Bandit and Hierarchical Stackelberg Game ( http://arxiv.org/abs/2405.15154v2 )

ライセンス: Link先を確認
Meiling Li, Hongrun Ren, Haixu Xiong, Zhenxing Qian, Xinpeng Zhang, (参考訳) 生成モデルは様々なタスクにおいて有望なパフォーマンスを示し、機械学習モデルに関するトレーディングを可能にする。 本稿では,新しいプロンプト取引シナリオ,プロンプトバンドル取引(PBT)システム,オンライン価格設定機構を提案する。 本稿では,CMAB(Multiar Multi-armed bandit)と3段階階層型Stackelburg(HS)ゲームに基づいて,消費者,プラットフォーム,販売者の利益を考慮し,これら3つの参加者の利益満足度を同時に達成する。 価格問題を、未知のカテゴリ選択とインセンティブ戦略最適化の2つのステップに分類する。 前者のステップは、最高の品質のカテゴリを選択することであり、後者は、選択されたカテゴリに基づいて、各参加者の最適な戦略を導出することである。 既存の固定価格モードとは異なり、我々が提案するPBTの価格メカニズムはより柔軟で多様なものであり、現実のシナリオのトランザクション要求に応じている。 シミュレーションされたテキストと画像のデータセット上で本手法をテストする。 実験により,提案アルゴリズムの有効性が実証された。

Generation models have shown promising performance in various tasks, making trading around machine learning models possible. In this paper, we aim at a novel prompt trading scenario, prompt bundle trading (PBT) system, and propose an online pricing mechanism. Based on the combinatorial multi-armed bandit (CMAB) and three-stage hierarchical Stackelburg (HS) game, our pricing mechanism considers the profits of the consumer, platform, and seller, simultaneously achieving the profit satisfaction of these three participants. We break down the pricing issue into two steps, namely unknown category selection and incentive strategy optimization. The former step is to select a set of categories with the highest qualities, and the latter is to derive the optimal strategy for each participant based on the chosen categories. Unlike the existing fixed pricing mode, the PBT pricing mechanism we propose is more flexible and diverse, which is more in accord with the transaction needs of real-world scenarios. We test our method on a simulated text-to-image dataset. The experimental results demonstrate the effectiveness of our algorithm, which provides a feasible price-setting standard for the prompt marketplaces.
翻訳日:2024-06-03 19:03:44 公開日:2024-05-31
# UAVに基づく物体検出のための逆学習によるスケール不変な特徴分散

Scale-Invariant Feature Disentanglement via Adversarial Learning for UAV-based Object Detection ( http://arxiv.org/abs/2405.15465v2 )

ライセンス: Link先を確認
Fan Liu, Liang Yao, Chuanyi Zhang, Ting Wu, Xinlei Zhang, Xiruo Jiang, Jun Zhou, (参考訳) 無人航空機(UAV)からの物体の検出は、しばしば多数の小さな物体によって妨げられ、検出精度が低下する。 この問題に対処するため、主流のアプローチは典型的には多段階推論を利用する。 目覚ましい精度にもかかわらず、リアルタイムの効率は犠牲にされ、実際のアプリケーションを扱うのは実用的ではない。 そこで本研究では,スケール不変の特徴を学習することで,単段階推論の精度を向上させることを提案する。 具体的には、スケール不変機能分離モジュールは、スケール関連およびスケール不変機能を切り離すように設計されている。 そして、絡み合いを高めるために、敵対的特徴学習方式を用いる。 最後に、スケール不変の機能は、堅牢なUAVベースのオブジェクト検出に活用される。 さらに,アノテーション付きUAV状態パラメータを組み込んだマルチモーダルUAVオブジェクト検出データセットであるState-Airを構築した。 当社のアプローチは、State-Airを含む3つのベンチマークデータセット上で、最先端の3つの軽量検出フレームワークに適用します。 大規模な実験により,本手法がモデル精度を効果的に向上できることが実証された。 コードとデータセットは補助材料で提供されており、論文が受け入れられたら公開されます。

Detecting objects from Unmanned Aerial Vehicles (UAV) is often hindered by a large number of small objects, resulting in low detection accuracy. To address this issue, mainstream approaches typically utilize multi-stage inferences. Despite their remarkable detecting accuracies, real-time efficiency is sacrificed, making them less practical to handle real applications. To this end, we propose to improve the single-stage inference accuracy through learning scale-invariant features. Specifically, a Scale-Invariant Feature Disentangling module is designed to disentangle scale-related and scale-invariant features. Then an Adversarial Feature Learning scheme is employed to enhance disentanglement. Finally, scale-invariant features are leveraged for robust UAV-based object detection. Furthermore, we construct a multi-modal UAV object detection dataset, State-Air, which incorporates annotated UAV state parameters. We apply our approach to three state-of-the-art lightweight detection frameworks on three benchmark datasets, including State-Air. Extensive experiments demonstrate that our approach can effectively improve model accuracy. Our code and dataset are provided in Supplementary Materials and will be publicly available once the paper is accepted.
翻訳日:2024-06-03 19:03:44 公開日:2024-05-31
# Spiketrum: FPGAによるニューロモルフィック・コクランの実装

Spiketrum: An FPGA-based Implementation of a Neuromorphic Cochlea ( http://arxiv.org/abs/2405.15923v3 )

ライセンス: Link先を確認
MHD Anas Alsakkal, Jayawan Wijekoon, (参考訳) 本稿では,汎用スパイク符号化アルゴリズムであるSpketrumを活用するFPGAベースのニューロモルフィック・コクリーを提案する。 本研究の焦点は, 音波振動を生体現実的な音波スパイクトレインに変換することの優れたコチェリーモデルの開発と特性評価である。 これらのスパイク列車は、入ってくる振動の強度とともに、音声の空間的および正確な時間的特性を正確にカプセル化しながら、神経揺らぎやスパイク損失に耐えるように設計されている。 注目すべき機能は、情報損失を最小限に抑えたリアルタイムスパイク列車を生成する機能と、元の信号を再構築する機能である。 この微調整機能により、ユーザーはスパイクレートを最適化し、出力品質と消費電力の最適バランスを達成することができる。 さらに、フィードバックシステムをSpketrumに統合することで、特定の機能を選択的に増幅し、他の機能を減衰させ、アプリケーション要求に基づいた適応電力消費を容易にする。 ハードウェア実装はスパイクベースと非スパイクベースのプロセッサの両方をサポートし、様々なコンピュータシステムに汎用的である。 音波形を超えて様々な感覚情報をエンコードし、現在および将来のスパイクベースのインテリジェントコンピューティングシステムのための有望な感覚入力として位置づけ、コンパクトでリアルタイムなスパイクトレイン生成を提供する。

This paper presents a novel FPGA-based neuromorphic cochlea, leveraging the general-purpose spike-coding algorithm, Spiketrum. The focus of this study is on the development and characterization of this cochlea model, which excels in transforming audio vibrations into biologically realistic auditory spike trains. These spike trains are designed to withstand neural fluctuations and spike losses while accurately encapsulating the spatial and precise temporal characteristics of audio, along with the intensity of incoming vibrations. Noteworthy features include the ability to generate real-time spike trains with minimal information loss and the capacity to reconstruct original signals. This fine-tuning capability allows users to optimize spike rates, achieving an optimal balance between output quality and power consumption. Furthermore, the integration of a feedback system into Spiketrum enables selective amplification of specific features while attenuating others, facilitating adaptive power consumption based on application requirements. The hardware implementation supports both spike-based and non-spike-based processors, making it versatile for various computing systems. The cochlea's ability to encode diverse sensory information, extending beyond sound waveforms, positions it as a promising sensory input for current and future spike-based intelligent computing systems, offering compact and real-time spike train generation.
翻訳日:2024-06-03 19:03:44 公開日:2024-05-31
# 効率的なスパイクエンコーダ"Spiketrum"の応用評価

Application based Evaluation of an Efficient Spike-Encoder, "Spiketrum" ( http://arxiv.org/abs/2405.15927v3 )

ライセンス: Link先を確認
MHD Anas Alsakkal, Runze Wang, Jayawan Wijekoon, Huajin Tang, (参考訳) スパイクベースのエンコーダは、情報をスパイクまたはパルスのシーケンスとして表現し、ニューロン間で伝達される。 一般的なコンセンサスでは、スパイクベースのアプローチは、神経活動の時間的ダイナミクスを捉え、低消費電力アプリケーションにエネルギー効率の高いソリューションを提供する可能性を示す。 Spiketrumエンコーダはスパイクトレインやコードセット(非スパイクアプリケーション)を使って入力データを効率よく圧縮し、ハードウェアとソフトウェアの両方の実装に適応し、ロスレス信号再構成機能を持つ。 本稿では,スパイクレートの異なるハードウェアと,一般的なスパイクおよび非スパイキング分類器による分類性能の評価を行い,情報圧縮とハードウェア資源利用の質を評価する。 この論文は、Spketrumハードウェアとそのソフトウェアの両方を、最先端で生物学的に証明可能なエンコーダに対して広範囲にベンチマークしている。 評価は、分類精度、トレーニング速度、パターン認識におけるエンコーダ出力と、スパイキングおよび非スパイキング分類器の両方を用いた分類におけるスパーシリティなどのベンチマーク基準を含む。 さらに、彼らはエンコードされた出力エントロピーとハードウェアリソースの利用とエンコーダのハードウェアバージョンの消費電力を考慮する。 その結果、ほとんどのベンチマーク基準においてSpketrumが優れていることが示され、様々なアプリケーションにとって有望な選択となった。 低消費電力のハードウェア資源を効率的に利用し、高い分類精度を実現する。 この研究は、スパイクベースの処理におけるエンコーダの可能性を強調し、ニューラルコンピューティングシステムの効率と性能を改善する。

Spike-based encoders represent information as sequences of spikes or pulses, which are transmitted between neurons. A prevailing consensus suggests that spike-based approaches demonstrate exceptional capabilities in capturing the temporal dynamics of neural activity and have the potential to provide energy-efficient solutions for low-power applications. The Spiketrum encoder efficiently compresses input data using spike trains or code sets (for non-spiking applications) and is adaptable to both hardware and software implementations, with lossless signal reconstruction capability. The paper proposes and assesses Spiketrum's hardware, evaluating its output under varying spike rates and its classification performance with popular spiking and non-spiking classifiers, and also assessing the quality of information compression and hardware resource utilization. The paper extensively benchmarks both Spiketrum hardware and its software counterpart against state-of-the-art, biologically-plausible encoders. The evaluations encompass benchmarking criteria, including classification accuracy, training speed, and sparsity when using encoder outputs in pattern recognition and classification with both spiking and non-spiking classifiers. Additionally, they consider encoded output entropy and hardware resource utilization and power consumption of the hardware version of the encoders. Results demonstrate Spiketrum's superiority in most benchmarking criteria, making it a promising choice for various applications. It efficiently utilizes hardware resources with low power consumption, achieving high classification accuracy. This work also emphasizes the potential of encoders in spike-based processing to improve the efficiency and performance of neural computing systems.
翻訳日:2024-06-03 19:03:44 公開日:2024-05-31
# FedSheafHN: グラフ構造化データによる個人化フェデレーション学習

FedSheafHN: Personalized Federated Learning on Graph-structured Data ( http://arxiv.org/abs/2405.16056v3 )

ライセンス: Link先を確認
Wenfei Liang, Yanan Zhao, Rui She, Yiming Li, Wee Peng Tay, (参考訳) パーソナライズされたサブグラフフェデレーション学習(FL)は、グラフニューラルネットワーク(GNN)を個々のクライアントのニーズに合わせてカスタマイズし、多様なデータ分散を調節するタスクである。 しかし、モデルパーソナライゼーションを促進することを目的としたFLでのハイパーネットの適用は、クライアント固有の特性の表現が不十分なため、しばしば課題に直面する。 これらの制約を克服するために、協調グラフの埋め込みと効率的なパーソナライズされたモデルパラメータ生成を用いたFedSheafHNと呼ばれるモデルを提案する。 具体的には、各クライアントのローカルサブグラフをサーバ構築コラボレーショングラフに埋め込む。 協調グラフにおけるせん断拡散を利用してクライアント表現を学習する。 我々のモデルは複雑なクライアント特性の統合と解釈を改善します。 さらに,クライアント間の並列処理に最適化された高度なハイパーネットによるパーソナライズされたモデルの生成も保証している。 実証的な評価では、FedSheafHNは、さまざまなグラフ構造化データセット上でのクライアントモデルのパフォーマンスにおいて、ほとんどのシナリオで既存のメソッドよりも優れています。 また、高速なモデル収束と効果的な新しいクライアントの一般化も備えている。

Personalized subgraph Federated Learning (FL) is a task that customizes Graph Neural Networks (GNNs) to individual client needs, accommodating diverse data distributions. However, applying hypernetworks in FL, while aiming to facilitate model personalization, often encounters challenges due to inadequate representation of client-specific characteristics. To overcome these limitations, we propose a model called FedSheafHN, using enhanced collaboration graph embedding and efficient personalized model parameter generation. Specifically, our model embeds each client's local subgraph into a server-constructed collaboration graph. We utilize sheaf diffusion in the collaboration graph to learn client representations. Our model improves the integration and interpretation of complex client characteristics. Furthermore, our model ensures the generation of personalized models through advanced hypernetworks optimized for parallel operations across clients. Empirical evaluations demonstrate that FedSheafHN outperforms existing methods in most scenarios, in terms of client model performance on various graph-structured datasets. It also has fast model convergence and effective new clients generalization.
翻訳日:2024-06-03 19:03:44 公開日:2024-05-31
# IncomeSCM:表データセットから時系列シミュレータと因果推定ベンチマークへ

IncomeSCM: From tabular data set to time-series simulator and causal estimation benchmark ( http://arxiv.org/abs/2405.16069v2 )

ライセンス: Link先を確認
Fredrik D. Johansson, (参考訳) 因果効果の観察的推定器を評価するには、ほとんど利用できない情報が必要である: ランダム化または調整によって生成される、関心の集団からの未確立の介入と結果。 結果として、ベンチマークタスクを作成する際にシミュレータにフォールバックするのが慣例である。 シミュレータは優れた制御を提供するが、実世界のデータのニュアンスを欠いた手作業や、構造的な制約のない観測データに適合しているため、難しいタスクを行うには単純すぎることが多い。 本研究では,観測データを逐次構造因果モデルに変換するための汎用的かつ反復的な戦略を提案する。 1)可能であれば現実世界のデータに適合し、 2)シンプルで手作りのメカニズムを構成することで複雑さを生み出す。 我々は、これらのアイデアを高度に構成可能なソフトウェアパッケージに実装し、それをよく知られたアダルト所得データセットに適用し、 \tt IncomeSCMシミュレータを構築する。 そこで我々は,複数の推定タスクとサンプルデータセットを考案し,因果効果の確立した推定器の比較を行った。 これらの課題は、実際の結果のモデリングにおける類似した性能にもかかわらず、メソッド間の品質に大きな違いがあるため、専用の因果推定器やモデル選択基準の必要性を強調しながら、適切な課題を示す。

Evaluating observational estimators of causal effects demands information that is rarely available: unconfounded interventions and outcomes from the population of interest, created either by randomization or adjustment. As a result, it is customary to fall back on simulators when creating benchmark tasks. Simulators offer great control but are often too simplistic to make challenging tasks, either because they are hand-designed and lack the nuances of real-world data, or because they are fit to observational data without structural constraints. In this work, we propose a general, repeatable strategy for turning observational data into sequential structural causal models and challenging estimation tasks by following two simple principles: 1) fitting real-world data where possible, and 2) creating complexity by composing simple, hand-designed mechanisms. We implement these ideas in a highly configurable software package and apply it to the well-known Adult income data set to construct the \tt IncomeSCM simulator. From this, we devise multiple estimation tasks and sample data sets to compare established estimators of causal effects. The tasks present a suitable challenge, with effect estimates varying greatly in quality between methods, despite similar performance in the modeling of factual outcomes, highlighting the need for dedicated causal estimators and model selection criteria.
翻訳日:2024-06-03 19:03:44 公開日:2024-05-31
# P4:プライベート、パーソナライズ、ピアツーピアラーニングを目指す

P4: Towards private, personalized, and Peer-to-Peer learning ( http://arxiv.org/abs/2405.17697v2 )

ライセンス: Link先を確認
Mohammad Mahdi Maheri, Sandra Siby, Sina Abdollahi, Anastasia Borovykh, Hamed Haddadi, (参考訳) パーソナライズド・ラーニング(Personalized learning)は、協調機械学習におけるデータ不均一性の問題に対処する手法である。 分散環境では、パーソナライズの主な課題は、クライアントクラスタリングとデータのプライバシである。 本稿では,P4(Personalized Private Peer-to-Peer)を開発し,各クライアントがトレーニング中の各クライアントのローカルデータセットの差分プライバシ保証を維持しながらパーソナライズされたモデルを受け取ることを保証する手法を提案する。 我々のアプローチは、類似したクライアントを識別し、P2P方式でグループ化する軽量なアルゴリズムの設計を含む。 一度グループ化すると、クライアントが精度に最小限の影響を伴ってコトレーニングを行うための、差分プライベートな知識蒸留を開発する。 提案手法は,3つのベンチマークデータセット(FEMNIST,Federated EMNIST,CIFAR-10,CIFAR-100)と2つの異なるニューラルネットワークアーキテクチャ(LinearとCNNベースのネットワーク)に対して,さまざまなプライバシパラメータを用いた評価を行った。 その結果、P4の可能性が示され、精度で微分プライベートP2Pの最先端を最大40%上回った。 また、リソース制約のあるデバイスに実装することでP4の実用性を示すとともに、2つのクライアント間の協調トレーニングの実行に約7秒を要したオーバーヘッドを最小限に抑えることを検証する。

Personalized learning is a proposed approach to address the problem of data heterogeneity in collaborative machine learning. In a decentralized setting, the two main challenges of personalization are client clustering and data privacy. In this paper, we address these challenges by developing P4 (Personalized Private Peer-to-Peer) a method that ensures that each client receives a personalized model while maintaining differential privacy guarantee of each client's local dataset during and after the training. Our approach includes the design of a lightweight algorithm to identify similar clients and group them in a private, peer-to-peer (P2P) manner. Once grouped, we develop differentially-private knowledge distillation for clients to co-train with minimal impact on accuracy. We evaluate our proposed method on three benchmark datasets (FEMNIST or Federated EMNIST, CIFAR-10 and CIFAR-100) and two different neural network architectures (Linear and CNN-based networks) across a range of privacy parameters. The results demonstrate the potential of P4, as it outperforms the state-of-the-art of differential private P2P by up to 40 percent in terms of accuracy. We also show the practicality of P4 by implementing it on resource constrained devices, and validating that it has minimal overhead, e.g., about 7 seconds to run collaborative training between two clients.
翻訳日:2024-06-03 19:03:44 公開日:2024-05-31
# 視覚的全身型ヒューマノイド制御系としての階層的世界モデル

Hierarchical World Models as Visual Whole-Body Humanoid Controllers ( http://arxiv.org/abs/2405.18418v2 )

ライセンス: Link先を確認
Nicklas Hansen, Jyothir S V, Vlad Sobal, Yann LeCun, Xiaolong Wang, Hao Su, (参考訳) ヒューマノイドの全身制御は、この問題の高次元的な性質と、二足歩行形態の固有の不安定性により困難である。 視覚的な観察から学ぶことで、この困難はさらに悪化する。 本研究では,強化学習に基づく視覚的全身ヒューマノイド制御に対するデータ駆動型アプローチを,仮定や報酬設計,スキルプリミティブを単純化することなく検討する。 具体的には、ハイレベルエージェントが実行すべき低レベルエージェントの視覚的観察に基づいてコマンドを生成する階層的世界モデルを提案する。 提案手法は, 56-DoFヒューマノイドを模擬した8つのタスクにおいて, ヒトに広く好まれる動作を合成しながら, 高い性能の制御ポリシーを生成する。 コードとビデオ:https://nicklashansen.com/rlpuppeteer

Whole-body control for humanoids is challenging due to the high-dimensional nature of the problem, coupled with the inherent instability of a bipedal morphology. Learning from visual observations further exacerbates this difficulty. In this work, we explore highly data-driven approaches to visual whole-body humanoid control based on reinforcement learning, without any simplifying assumptions, reward design, or skill primitives. Specifically, we propose a hierarchical world model in which a high-level agent generates commands based on visual observations for a low-level agent to execute, both of which are trained with rewards. Our approach produces highly performant control policies in 8 tasks with a simulated 56-DoF humanoid, while synthesizing motions that are broadly preferred by humans. Code and videos: https://nicklashansen.com/rlpuppeteer
翻訳日:2024-06-03 19:03:44 公開日:2024-05-31
# Zipper: モダリティを再利用するための多層デコーダアーキテクチャ

Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities ( http://arxiv.org/abs/2405.18669v2 )

ライセンス: Link先を確認
Vicky Zayats, Peter Chen, Melissa Ferrari, Dirk Padfield, (参考訳) 複数の生成基盤モデル、特に異なるモダリティで訓練されたモデルを統合することは、その部分の総和よりも大きい何かに重大な課題をもたらす。 2つの主要なハードルは、整列データ(同様の意味を持つが異なるモダリティで表現される概念)の可用性と、ドメイン間の生成タスクにおいて、元のユニモーダル能力を損なうことなく、効果的にユニモーダル表現を活用することである。 本稿では,これらの問題に対処する多目的デコーダアーキテクチャであるZipperを提案する。 音声とテキストのモダリティを融合させる実験では,限定されたテキスト音声データを持つシナリオにおいて,提案アーキテクチャが極めて競合的に機能することを示した。 また,本モデルでは,対応する変調塔(e.g.テキスト)を凍結することにより,単調(e.g.テキスト・テキスト生成)生成性能を選択的に維持する柔軟性を示す。 出力モダリティがテキストである自動音声認識(ASR)のようなクロスモーダルタスクにおいて、テキストバックボーンの凍結が無視可能な性能劣化をもたらすことを示す。 出力モダリティが音声であるTTS(text-to-Speech Generation)のようなクロスモーダルなタスクでは、事前訓練された音声バックボーンを使用することで、ベースラインよりも優れたパフォーマンスが得られることを示す。

Integrating multiple generative foundation models, especially those trained on different modalities, into something greater than the sum of its parts poses significant challenges. Two key hurdles are the availability of aligned data (concepts that contain similar meaning but is expressed differently in different modalities), and effectively leveraging unimodal representations in cross-domain generative tasks, without compromising their original unimodal capabilities. We propose Zipper, a multi-tower decoder architecture that addresses these concerns by using cross-attention to flexibly compose multimodal generative models from independently pre-trained unimodal decoders. In our experiments fusing speech and text modalities, we show the proposed architecture performs very competitively in scenarios with limited aligned text-speech data. We also showcase the flexibility of our model to selectively maintain unimodal (e.g., text-to-text generation) generation performance by freezing the corresponding modal tower (e.g. text). In cross-modal tasks such as automatic speech recognition (ASR) where the output modality is text, we show that freezing the text backbone results in negligible performance degradation. In cross-modal tasks such as text-to-speech generation (TTS) where the output modality is speech, we show that using a pre-trained speech backbone results in superior performance to the baseline.
翻訳日:2024-06-03 19:03:44 公開日:2024-05-31
# MEGA:人間のメッシュ回復のためのマスケ生成オートエンコーダ

MEGA: Masked Generative Autoencoder for Human Mesh Recovery ( http://arxiv.org/abs/2405.18839v2 )

ライセンス: Link先を確認
Guénolé Fiche, Simon Leglaive, Xavier Alameda-Pineda, Francesc Moreno-Noguer, (参考訳) 単一のRGB画像からのHuman Mesh Recovery(HMR)は、類似した2D投影が複数の3D解釈に対応できるため、非常に曖昧な問題である。 しかしながら、ほとんどのHMR法はこの曖昧さを無視し、関連する不確実性を考慮せずに単一の予測を行う。 いくつかのアプローチは、人間のメッシュの分布を生成し、複数の予測のサンプリングを可能にするが、それらのうちの1つの予測を行う際に、最新の単一出力モデルと競合するものは存在しない。 本研究は,マスク生成モデルに基づく新しい手法を提案する。 人間のポーズと形状をトークン化することにより、HMRタスクを入力画像に条件付けられた離散トークンのシーケンスを生成するものとして定式化する。 画像と部分的ヒューマンメッシュトークンシーケンスから人間のメッシュを復元するために訓練された MaskEd Generative Autoencoder であるMEGA を紹介する。 画像が与えられた場合、フレキシブルな生成方式により、決定論的モードで1つの人間のメッシュを予測したり、確率論的モードで複数の人間のメッシュを生成できる。 MEGAにより、複数の出力を提案し、予測の不確実性を評価することができる。 In-the-wildベンチマークの実験により、MEGAは決定論的および確率的モードにおける最先端のパフォーマンスを達成し、単一出力および複数出力のアプローチより優れていることが示された。

Human Mesh Recovery (HMR) from a single RGB image is a highly ambiguous problem, as similar 2D projections can correspond to multiple 3D interpretations. Nevertheless, most HMR methods overlook this ambiguity and make a single prediction without accounting for the associated uncertainty. A few approaches generate a distribution of human meshes, enabling the sampling of multiple predictions; however, none of them is competitive with the latest single-output model when making a single prediction. This work proposes a new approach based on masked generative modeling. By tokenizing the human pose and shape, we formulate the HMR task as generating a sequence of discrete tokens conditioned on an input image. We introduce MEGA, a MaskEd Generative Autoencoder trained to recover human meshes from images and partial human mesh token sequences. Given an image, our flexible generation scheme allows us to predict a single human mesh in deterministic mode or to generate multiple human meshes in stochastic mode. MEGA enables us to propose multiple outputs and to evaluate the uncertainty of the predictions. Experiments on in-the-wild benchmarks show that MEGA achieves state-of-the-art performance in deterministic and stochastic modes, outperforming single-output and multi-output approaches.
翻訳日:2024-06-03 18:54:00 公開日:2024-05-31
# LLMはマインドタスクの高次理論上での成人人間のパフォーマンスを達成する

LLMs achieve adult human performance on higher-order theory of mind tasks ( http://arxiv.org/abs/2405.18870v2 )

ライセンス: Link先を確認
Winnie Street, John Oliver Siy, Geoff Keeling, Adrien Baranes, Benjamin Barnett, Michael McKibben, Tatenda Kanyere, Alison Lentz, Blaise Aguera y Arcas, Robin I. M. Dunbar, (参考訳) 本稿では,大規模言語モデル (LLM) が高次心の理論 (ToM) をいかに発展させたかを検討する。 本稿では、手書きテストスイートであるMulti-Order Theory of Mind Q&Aを導入し、5つのLCMのパフォーマンスと、新たに集まった成人のベンチマークを比較することによって、以前の作業の上に構築する。 GPT-4とFlan-PaLMは、ToMタスク全体において、成人レベルおよびほぼ成人レベルに到達し、GPT-4は6次推定で成人レベルを超えることが判明した。 以上の結果から,ToM能力を実現するためのモデルサイズと微調整の間には相互作用があることが示唆された。 高次ToMが幅広い協調的かつ競争的な人間の行動に果たす役割を考えると、これらの発見はユーザ向けLLMアプリケーションに重大な影響を及ぼす。

This paper examines the extent to which large language models (LLMs) have developed higher-order theory of mind (ToM); the human ability to reason about multiple mental and emotional states in a recursive manner (e.g. I think that you believe that she knows). This paper builds on prior work by introducing a handwritten test suite -- Multi-Order Theory of Mind Q&A -- and using it to compare the performance of five LLMs to a newly gathered adult human benchmark. We find that GPT-4 and Flan-PaLM reach adult-level and near adult-level performance on ToM tasks overall, and that GPT-4 exceeds adult performance on 6th order inferences. Our results suggest that there is an interplay between model size and finetuning for the realisation of ToM abilities, and that the best-performing LLMs have developed a generalised capacity for ToM. Given the role that higher-order ToM plays in a wide range of cooperative and competitive human behaviours, these findings have significant implications for user-facing LLM applications.
翻訳日:2024-06-03 18:54:00 公開日:2024-05-31
# LSPI:サイズ近傍経路同定に基づく不均一グラフニューラルネットワーク分類アルゴリズム

LSPI: Heterogeneous Graph Neural Network Classification Aggregation Algorithm Based on Size Neighbor Path Identification ( http://arxiv.org/abs/2405.18933v2 )

ライセンス: Link先を確認
Yufei Zhao, Shiduo Wang, Hua Duan, (参考訳) 既存のヘテロジニアスグラフニューラルネットワークアルゴリズム(HGNN)は、ヘテロジニアスグラフ(ヘテロジニアス情報ネットワーク(HIN)とも呼ばれる)に含まれる豊富なセマンティック情報をキャプチャするために、メタパスに依存しているが、これらのHGNNのほとんどは、機能集約の異なる方法に焦点を当て、メタパス自体の特性を無視している。 本稿では3つの一般的なデータ集合におけるメタパスについて検討し、異なるメタパスによって接続される隣人の数に大きな違いがあることを見出した。 同時に、大きなボルパスに含まれる騒音情報は、モデル性能に悪影響を及ぼす。 そこで本稿では,大小近傍経路Iden tification (LSPI) に基づく異種グラフニューラルネットワークの分類と集約アルゴリズムを提案する。 LSPIは、まず、パス判別器を通じて、メタパスを大小隣の経路に分割し、大きな隣の経路におけるノイズ干渉問題を低減するために、トポロジと特徴の両方からより類似度の高い隣のノードを選択し、小さな隣の経路を通り、異なるグラフ畳み込み成分を介して大きな隣の経路をフィルタリングする。 集約を行い、異なるサブグラフの下で特徴情報を取得し、LSPIはサブグラフレベルの注意を使って異なるサブグラフの下で特徴情報を融合して最終ノード埋め込みを生成する。 最後に, 大規模実験により提案手法の優越性を検証し, エクスペイメントによる大規模隣接経路に留置すべきノード数について提案する。 完全な再現可能なコードAdnデータは、https://github.com/liuhua811/LSPIAで公開された。

Existing heterogeneous graph neural network algorithms (HGNNs) mostly rely on meta-paths to capture the rich semantic information contained in heterogeneous graphs (also known as heterogeneous information networks (HINs)), but most of these HGNNs focus on different ways of feature aggre gation and ignore the properties of the meta-paths themselves. This paper studies meta-paths in three commonly used data sets and finds that there are huge differences in the number of neighbors connected by different meta paths. At the same time, the noise information contained in large neigh bor paths will have an adverse impact on model performance. Therefore, this paper proposes a Heterogeneous Graph Neural Network Classification and Aggregation Algorithm Based on Large and Small Neighbor Path Iden tification(LSPI). LSPI firstly divides the meta-paths into large and small neighbor paths through the path discriminator , and in order to reduce the noise interference problem in large neighbor paths, LSPI selects neighbor nodes with higher similarity from both topology and feature perspectives, and passes small neighbor paths and filtered large neighbor paths through different graph convolution components. Aggregation is performed to obtain feature information under different subgraphs, and then LSPI uses subgraph level attention to fuse the feature information under different subgraphs to generate the final node embedding. Finally this paper verifies the superiority of the method through extensive experiments and also gives suggestions on the number of nodes to be retained in large neighbor paths through exper iments. The complete reproducible code adn data has been published at: https://github.com/liuhua811/LSPIA.
翻訳日:2024-06-03 18:54:00 公開日:2024-05-31
# 安全なベイズ最適化のためのロバストエントロピー探索

Robust Entropy Search for Safe Efficient Bayesian Optimization ( http://arxiv.org/abs/2405.19059v2 )

ライセンス: Link先を確認
Dorina Weichert, Alexander Kister, Sebastian Houben, Patrick Link, Gunar Ernis, (参考訳) エンジニアリング応用におけるベイズ最適化(BO)の実践的利用は、一方のサンプリング効率が高く、他方の堅牢な解を見つけるという特別な要件を課している。 最適化プロセスでは,全てのパラメータが制御可能であるが,そのサブセットは適用時に制御できないか,あるいは逆に乱れてしまうような,対向的ロバスト性の問題に対処する。 そこで我々は,ロバスト・エントロピー・サーチ(RES)と呼ばれる,効率的な情報ベース獲得機能を開発した。 我々は、合成データと実生活データの実験において、その利点を実証的に実証した。 その結果、RESは頑健で、最先端のアルゴリズムより優れていることがわかった。

The practical use of Bayesian Optimization (BO) in engineering applications imposes special requirements: high sampling efficiency on the one hand and finding a robust solution on the other hand. We address the case of adversarial robustness, where all parameters are controllable during the optimization process, but a subset of them is uncontrollable or even adversely perturbed at the time of application. To this end, we develop an efficient information-based acquisition function that we call Robust Entropy Search (RES). We empirically demonstrate its benefits in experiments on synthetic and real-life data. The results showthat RES reliably finds robust optima, outperforming state-of-the-art algorithms.
翻訳日:2024-06-03 18:54:00 公開日:2024-05-31
# 詳細な画像キャプションのベンチマークと改善

Benchmarking and Improving Detail Image Caption ( http://arxiv.org/abs/2405.19092v3 )

ライセンス: Link先を確認
Hongyuan Dong, Jiawen Li, Bohong Wu, Jiacong Wang, Yuan Zhang, Haoyuan Guo, (参考訳) 画像キャプションは視覚的理解の基本的な課題として長い間見なされてきた。 しかし,近年,古くなったショートキャプションベンチマークと信頼性の低い評価指標により,画像キャプション性能に関する大規模視覚言語モデル (LVLM) の研究はほとんど行われていない。 そこで本研究では,GPT-4V と Gemini-1.5-Pro がアノテートした高品質な評価データセットを算出し,画像キャプションタスクのベンチマークを行う。 CAPTURE(exTracting and coupling coRE information)と呼ばれる,より信頼性の高いキャプション評価指標も設計する。 CAPTUREは、字幕から視覚的要素、例えばオブジェクト、属性、関係を抽出し、これらの要素を3段階を通してマッチングし、他のルールベースのまたはモデルベースのキャプションメトリクスよりも専門家の判断と最高の一貫性を達成する。 提案したベンチマークとメトリクスは,LVLMの詳細な画像キャプション能力の信頼性評価を提供する。 この評価によって,5段階のデータ構築パイプラインを通じて高品質なデータを合成することにより,LVLMの詳細なキャプション機能を解き放つことを探る。 私たちのパイプラインは、ループ内に人間やGPT-4Vアノテーションなしで、与えられたLVLM自身や他のオープンソースツールのみを使用します。 実験により,提案したデータ構築戦略により,LVLMのモデル生成の詳細キャプションデータの品質が向上し,自己ループ方式でデータ品質がさらに向上することが示された。 すべてのコードとデータセットはhttps://github.com/foundation-multimodal-models/CAPTUREで公開される。

Image captioning has long been regarded as a fundamental task in visual understanding. Recently, however, few large vision-language model (LVLM) research discusses model's image captioning performance because of the outdated short-caption benchmarks and unreliable evaluation metrics. In this work, we propose to benchmark detail image caption task by curating high-quality evaluation datasets annotated by human experts, GPT-4V and Gemini-1.5-Pro. We also design a more reliable caption evaluation metric called CAPTURE (CAPtion evaluation by exTracting and coUpling coRE information). CAPTURE extracts visual elements, e.g., objects, attributes and relations from captions, and then matches these elements through three stages, achieving the highest consistency with expert judgements over other rule-based or model-based caption metrics. The proposed benchmark and metric provide reliable evaluation for LVLM's detailed image captioning ability. Guided by this evaluation, we further explore to unleash LVLM's detail caption capabilities by synthesizing high-quality data through a five-stage data construction pipeline. Our pipeline only uses a given LVLM itself and other open-source tools, without any human or GPT-4V annotation in the loop. Experiments show that the proposed data construction strategy significantly improves model-generated detail caption data quality for LVLMs with leading performance, and the data quality can be further improved in a self-looping paradigm. All code and dataset will be publicly available at https://github.com/foundation-multimodal-models/CAPTURE.
翻訳日:2024-06-03 18:54:00 公開日:2024-05-31
# LLM生成と帰属のための最近近傍投機的復号法

Nearest Neighbor Speculative Decoding for LLM Generation and Attribution ( http://arxiv.org/abs/2405.19325v2 )

ライセンス: Link先を確認
Minghan Li, Xilun Chen, Ari Holtzman, Beidi Chen, Jimmy Lin, Wen-tau Yih, Xi Victoria Lin, (参考訳) 大型言語モデル(LLM)は幻覚を呈し、世代に貢献する能力を持たないことが多い。 kNN-LMのような半パラメトリックなLMは、非パラメトリックなデータストアの近傍のマッチを使用して、与えられたプロンプトに対するLMの出力を精製することで、これらの制限にアプローチする。 しかし、これらのモデルは推論速度が遅く、非流速なテキストを生成することが多い。 本稿では,Nearest Neighbor Speculative Decoding(NEST)について紹介する。これは,任意の長さの実世界のテキストをLM世代に組み込んで,その情報源への属性を提供する,新しい半パラメトリック言語モデリング手法である。 NESTは、各推論ステップでトークンレベルの検索を行い、半パラメトリック混合分布を計算し、コーパス内の有望なスパン継続を識別する。 次に、検索したスパンのプレフィックスを受け入れたり、新しいトークンを生成する、近似的な投機的復号処理を使用する。 NESTは,従来のkNN-LM法を超越し,テキスト内検索に競争力を持たせることで,様々な知識集約タスクにおけるベースLMの生成品質と帰属率を大幅に向上させる。 さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。

Large language models (LLMs) often hallucinate and lack the ability to provide attribution for their generations. Semi-parametric LMs, such as kNN-LM, approach these limitations by refining the output of an LM for a given prompt using its nearest neighbor matches in a non-parametric data store. However, these models often exhibit slow inference speeds and produce non-fluent texts. In this paper, we introduce Nearest Neighbor Speculative Decoding (NEST), a novel semi-parametric language modeling approach that is capable of incorporating real-world text spans of arbitrary length into the LM generations and providing attribution to their sources. NEST performs token-level retrieval at each inference step to compute a semi-parametric mixture distribution and identify promising span continuations in a corpus. It then uses an approximate speculative decoding procedure that accepts a prefix of the retrieved span or generates a new token. NEST significantly enhances the generation quality and attribution rate of the base LM across a variety of knowledge-intensive tasks, surpassing the conventional kNN-LM method and performing competitively with in-context retrieval augmentation. In addition, NEST substantially improves the generation speed, achieving a 1.8x speedup in inference time when applied to Llama-2-Chat 70B.
翻訳日:2024-06-03 18:54:00 公開日:2024-05-31
# クリーンデータキュレーションによる安全に配慮した大規模言語モデルのロバスト化

Robustifying Safety-Aligned Large Language Models through Clean Data Curation ( http://arxiv.org/abs/2405.19358v2 )

ライセンス: Link先を確認
Xiaoqun Liu, Jiacheng Liang, Muchao Ye, Zhaohan Xi, (参考訳) 大きな言語モデル(LLM)は、有害なコンテンツを含むデータセットでトレーニングされた場合、脆弱性があるため、2つのシナリオで脱獄攻撃が起こる可能性がある。 どちらのシナリオでも、敵はLLMの安全アライメントを妥協し、誤動作を悪化させる可能性がある。 本研究は、これらの敵対的影響を軽減することの必要性から、事前学習データセットにおける悪意のあるテキストの影響を中和するか、下流の微調整中のジェイルブレイクの難しさを増大させることにより、安全性の整合性を高めることを目的としている。 本稿では,両シナリオにおける敵対的影響に対処するためのデータキュレーションフレームワークを提案する。 本手法は,クリーンテキストのキュレーションにのみ焦点をあてて,攻撃詳細に関する事前の知識がないという前提の下で機能する。 テキストの品質を同時に保ちつつ,LLMが認識する難易度を低減するために,テキストの修正を目的とした反復的プロセスを導入する。 クリーンテキストの事前学習や微調整により,有害なクエリに対する安全性アライメントに関するLCMのロバスト性の顕著な改善が観察された。 例えば、5\%の有害なインスタンスを含むクラウドソースデータセットを使用したLLMの事前トレーニングでは、同等量のキュレートされたテキストがLLMに有害な応答を与える可能性を大幅に軽減し、攻撃成功率を71\%削減する。 本研究は, 訓練による脱獄のリスクを軽減し, LLMの安全性を高めるための重要なステップである。

Large language models (LLMs) are vulnerable when trained on datasets containing harmful content, which leads to potential jailbreaking attacks in two scenarios: the integration of harmful texts within crowdsourced data used for pre-training and direct tampering with LLMs through fine-tuning. In both scenarios, adversaries can compromise the safety alignment of LLMs, exacerbating malfunctions. Motivated by the need to mitigate these adversarial influences, our research aims to enhance safety alignment by either neutralizing the impact of malicious texts in pre-training datasets or increasing the difficulty of jailbreaking during downstream fine-tuning. In this paper, we propose a data curation framework designed to counter adversarial impacts in both scenarios. Our method operates under the assumption that we have no prior knowledge of attack details, focusing solely on curating clean texts. We introduce an iterative process aimed at revising texts to reduce their perplexity as perceived by LLMs, while simultaneously preserving their text quality. By pre-training or fine-tuning LLMs with curated clean texts, we observe a notable improvement in LLM robustness regarding safety alignment against harmful queries. For instance, when pre-training LLMs using a crowdsourced dataset containing 5\% harmful instances, adding an equivalent amount of curated texts significantly mitigates the likelihood of providing harmful responses in LLMs and reduces the attack success rate by 71\%. Our study represents a significant step towards mitigating the risks associated with training-based jailbreaking and fortifying the secure utilization of LLMs.
翻訳日:2024-06-03 18:54:00 公開日:2024-05-31
# 反モニー洗浄のためのネットワーク分析 -系統的な文献レビューと実験的評価-

Network Analytics for Anti-Money Laundering -- A Systematic Literature Review and Experimental Evaluation ( http://arxiv.org/abs/2405.19383v2 )

ライセンス: Link先を確認
Bruno Deprez, Toon Vanderschueren, Bart Baesens, Tim Verdonck, Wouter Verbeke, (参考訳) マネーロンダリングは、違法な活動の資金提供によって社会を負担する、広範囲にわたる課題を提示する。 マネーロンダリングをより効果的に戦い、検出するために、ネットワーク情報の利用がますます検討され、マネーロンダリングには必ずしも相互接続されたパーティが伴うことを悪用している。 これにより、反マネーロンダリング(AML)のためのネットワーク分析(NA)に関する文献が急増した。 しかし、文献は断片化されており、既存の作品の包括的な概要が欠落している。 これにより、適用可能なメソッドとその比較検出能力の限定的な理解がもたらされる。 そこで本稿では,文献の大規模かつ体系的なレビューを行う。 我々は、Web of ScienceとScopusデータベースの97の論文を特定し分析し、その結果、Bockel-Rickermannらの詐欺分析フレームワークによるアプローチの分類結果を得た。 さらに,一様セットアップにおける顕著なNA手法の性能評価と比較を行うための総合的な実験フレームワークを提案する。 このフレームワークは一般公開されているEllipticデータセットに適用され、手動機能エンジニアリング、ランダムウォークベースのメソッド、ディープラーニングGNNを実装している。 ネットワーク分析により,グラフニューラルネットワークを用いたAMLモデルの予測能力が向上し,最良の結果が得られた。 研究者や実践者がこれらの結果を拡張し、プロプライエタリなデータで実験できるように、実験フレームワークのオープンソース実装が提供されている。 そこで我々は,AMLにおけるネットワーク分析の分析と評価に向けて,標準化されたアプローチを推進することを目的としている。

Money laundering presents a pervasive challenge, burdening society by financing illegal activities. To more effectively combat and detect money laundering, the use of network information is increasingly being explored, exploiting that money laundering necessarily involves interconnected parties. This has lead to a surge in literature on network analytics (NA) for anti-money laundering (AML). The literature, however, is fragmented and a comprehensive overview of existing work is missing. This results in limited understanding of the methods that may be applied and their comparative detection power. Therefore, this paper presents an extensive and systematic review of the literature. We identify and analyse 97 papers in the Web of Science and Scopus databases, resulting in a taxonomy of approaches following the fraud analytics framework of Bockel-Rickermann et al.. Moreover, this paper presents a comprehensive experimental framework to evaluate and compare the performance of prominent NA methods in a uniform setup. The framework is applied on the publicly available Elliptic data set and implements manual feature engineering, random walk-based methods, and deep learning GNNs. We conclude from the results that network analytics increases the predictive power of the AML model with graph neural networks giving the best results. An open source implementation of the experimental framework is provided to facilitate researchers and practitioners to extend upon these results and experiment on proprietary data. As such, we aim to promote a standardised approach towards the analysis and evaluation of network analytics for AML.
翻訳日:2024-06-03 18:54:00 公開日:2024-05-31
# ポイント・プロセス・ラーニングとTaccs-Fiksel 推定の特殊な場合の比較

Comparison of Point Process Learning and its special case Takacs-Fiksel estimation ( http://arxiv.org/abs/2405.19523v2 )

ライセンス: Link先を確認
Julia Jansson, Ottmar Cronie, (参考訳) 最近、Cronie et al (2024)はポイントプロセスのクロスバリデーションの概念と、ポイントプロセス学習(PPL)と呼ばれる新しい統計方法論を導入した。 PPLでは、ポイントプロセス/パターンをトレーニングと検証セットに分割し、パラメトリドのパパンガルー条件強度によって後者を前者から予測する。 モデルパラメータは点過程予測誤差を最小化することで推定され、この概念はPPLの2番目のビルディングブロックとして導入された。 PPLは、Gibsハードコアプロセスのカーネル強度推定とパラメータ推定の両方において、最先端技術よりも優れていることを示した。 後者の場合、最先端技術は擬似的類似度推定によって表される。 本稿では,PPLとTaccs-Fiksel推定の関係について検討する。 本稿では, 特定の損失関数を持つPLPが, クロスバリデーション体制を離脱する傾向にある場合, 特定の損失関数を持つPLPをTakacs-Fiksel推定に漸近的に還元するという意味では, PPLの特別な場合であることを示す。 さらに、PPLは重み関数によって与えられるある種のハイパーパラメータを伴い、予測誤差が期待値ゼロであることを保証する。 重み関数は一般ギブスモデルに対して明示的だが難解な形式をとることを示す。 そこで本研究では,実際の重量関数を推定するための異なる手法を提案する。 一般のPPLセットアップが特殊ケースであるTakacs-Fiksel推定と比較してどのように動作するかを評価するため、一般的なGibsモデルでは損失関数やハイパーパラメータが得られ、PPLは平均二乗誤差でTakacs-Fiksel推定を著しく上回る。 ここで、ハイパーパラメータは、クロスバリデーションパラメータと重み関数の推定値である。

Recently, Cronie et al. (2024) introduced the notion of cross-validation for point processes and a new statistical methodology called Point Process Learning (PPL). In PPL one splits a point process/pattern into a training and a validation set, and then predicts the latter from the former through a parametrised Papangelou conditional intensity. The model parameters are estimated by minimizing a point process prediction error; this notion was introduced as the second building block of PPL. It was shown that PPL outperforms the state-of-the-art in both kernel intensity estimation and estimation of the parameters of the Gibbs hard-core process. In the latter case, the state-of-the-art was represented by pseudolikelihood estimation. In this paper we study PPL in relation to Takacs-Fiksel estimation, of which pseudolikelihood is a special case. We show that Takacs-Fiksel estimation is a special case of PPL in the sense that PPL with a specific loss function asymptotically reduces to Takacs-Fiksel estimation if we let the cross-validation regime tend to leave-one-out cross-validation. Moreover, PPL involves a certain type of hyperparameter given by a weight function which ensures that the prediction errors have expectation zero if and only if we have the correct parametrisation. We show that the weight function takes an explicit but intractable form for general Gibbs models. Consequently, we propose different approaches to estimate the weight function in practice. In order to assess how the general PPL setup performs in relation to its special case Takacs-Fiksel estimation, we conduct a simulation study where we find that for common Gibbs models we can find loss functions and hyperparameters so that PPL typically outperforms Takacs-Fiksel estimation significantly in terms of mean square error. Here, the hyperparameters are the cross-validation parameters and the weight function estimate.
翻訳日:2024-06-03 18:54:00 公開日:2024-05-31
# Aモード超音波信号の動的復号化による解剖学的領域認識とリアルタイム骨追跡法

Anatomical Region Recognition and Real-time Bone Tracking Methods by Dynamically Decoding A-Mode Ultrasound Signals ( http://arxiv.org/abs/2405.19542v2 )

ライセンス: Link先を確認
Bangyu Lan, Stefano Stramigioli, Kenan Niu, (参考訳) 整形外科と補綴ロボットの運動解析には正確な骨追跡が不可欠である。 従来の方法(例えば皮膚マーカー)は軟部組織のアーティファクトであり、手術で使用される骨のピンは、追加の外傷や感染のリスクをもたらす。 エレクトロミオグラフィー(EMG)では、関節角度を直接測定できないため、運動学的推定のための複雑なアルゴリズムが必要である。 これらの問題に対処するため、Aモード超音波による追跡は非侵襲的で安全な代替手段として提案されている。 しかし、この手法は、受信した超音波信号を処理する際にピーク検出の精度が限られている。 本稿では,Aモード超音波信号を用いた解剖学的領域認識と骨追跡のための深層学習手法を提案する。 このアルゴリズムは、同時に骨追跡を行い、Aモード超音波トランスデューサが置かれた解剖学的領域を特定することができる。 これは、カスケードされたU-Netのすべてのエンコーディング層とデコード層の間の完全な接続を含み、骨のピークを持つ可能性が高い信号領域のみに焦点を合わせ、ピークの正確な位置を特定し、信号の解剖学的領域を分類する。 実験では, 関節周囲の解剖学的領域に対する動的追跡条件下で, 解剖学的領域の分類において97%の精度, 約0.5$\pm$1mmの精度を示した。 一般に, 超音波が付加機能として付加された解剖学的領域の精度と認識において, 従来の手法を超える大きな可能性を示す。

Accurate bone tracking is crucial for kinematic analysis in orthopedic surgery and prosthetic robotics. Traditional methods (e.g., skin markers) are subject to soft tissue artifacts, and the bone pins used in surgery introduce the risk of additional trauma and infection. For electromyography (EMG), its inability to directly measure joint angles requires complex algorithms for kinematic estimation. To address these issues, A-mode ultrasound-based tracking has been proposed as a non-invasive and safe alternative. However, this approach suffers from limited accuracy in peak detection when processing received ultrasound signals. To build a precise and real-time bone tracking approach, this paper introduces a deep learning-based method for anatomical region recognition and bone tracking using A-mode ultrasound signals, specifically focused on the knee joint. The algorithm is capable of simultaneously performing bone tracking and identifying the anatomical region where the A-mode ultrasound transducer is placed. It contains the fully connection between all encoding and decoding layers of the cascaded U-Nets to focus only on the signal region that is most likely to have the bone peak, thus pinpointing the exact location of the peak and classifying the anatomical region of the signal. The experiment showed a 97% accuracy in the classification of the anatomical regions and a precision of around 0.5$\pm$1mm under dynamic tracking conditions for various anatomical areas surrounding the knee joint. In general, this approach shows great potential beyond the traditional method, in terms of the accuracy achieved and the recognition of the anatomical region where the ultrasound has been attached as an additional functionality.
翻訳日:2024-06-03 18:54:00 公開日:2024-05-31
# SparseDrive: スパースシーン表現によるエンドツーエンドの自動運転

SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation ( http://arxiv.org/abs/2405.19620v2 )

ライセンス: Link先を確認
Wenchao Sun, Xuewu Lin, Yining Shi, Chuang Zhang, Haoran Wu, Sifa Zheng, (参考訳) 十分に確立されたモジュラー自動運転システムは、知覚、予測、計画、情報損失、モジュール間のエラー蓄積といった、さまざまなスタンドアロンタスクに分離されている。 対照的に、エンドツーエンドのパラダイムはマルチタスクを完全に差別化可能なフレームワークに統合し、計画指向の精神で最適化を可能にします。 エンド・ツー・エンドのパラダイムの大きな可能性にもかかわらず、既存の手法の性能と効率は、特に計画上の安全性において満足できない。 計算コストのかかるBEV(Bird's Eye View)機能と、予測と計画のための簡単な設計による。 この目的のために、スパース表現を探求し、SparseDriveという新しいパラダイムを提案し、エンドツーエンドの自動運転のためのタスク設計をレビューする。 具体的には、SparseDriveは対称なスパース認識モジュールとパラレルモーションプランナーから構成される。 スパース認識モジュールは、検出、追跡、オンラインマッピングを対称モデルアーキテクチャで統一し、運転シーンの完全なスパース表現を学習する。 動作予測と計画について,これら2つの課題の相似性を概観し,運動プランナの並列設計に繋がる。 マルチモーダル問題として計画をモデル化するこの並列設計に基づいて,衝突認識再スコアモジュールを組み込んだ階層的計画選択戦略を提案し,最終的な計画出力として合理的かつ安全な軌道を選択する。 このような効果的な設計により、SparseDriveは従来の最先端のタスクをはるかに上回り、より高いトレーニングと推論効率を実現している。 コードは、将来の研究を促進するためにhttps://github.com/swc-17/SparseDriveで無効になる。

The well-established modular autonomous driving system is decoupled into different standalone tasks, e.g. perception, prediction and planning, suffering from information loss and error accumulation across modules. In contrast, end-to-end paradigms unify multi-tasks into a fully differentiable framework, allowing for optimization in a planning-oriented spirit. Despite the great potential of end-to-end paradigms, both the performance and efficiency of existing methods are not satisfactory, particularly in terms of planning safety. We attribute this to the computationally expensive BEV (bird's eye view) features and the straightforward design for prediction and planning. To this end, we explore the sparse representation and review the task design for end-to-end autonomous driving, proposing a new paradigm named SparseDrive. Concretely, SparseDrive consists of a symmetric sparse perception module and a parallel motion planner. The sparse perception module unifies detection, tracking and online mapping with a symmetric model architecture, learning a fully sparse representation of the driving scene. For motion prediction and planning, we review the great similarity between these two tasks, leading to a parallel design for motion planner. Based on this parallel design, which models planning as a multi-modal problem, we propose a hierarchical planning selection strategy , which incorporates a collision-aware rescore module, to select a rational and safe trajectory as the final planning output. With such effective designs, SparseDrive surpasses previous state-of-the-arts by a large margin in performance of all tasks, while achieving much higher training and inference efficiency. Code will be avaliable at https://github.com/swc-17/SparseDrive for facilitating future research.
翻訳日:2024-06-03 18:54:00 公開日:2024-05-31
# 検索可能な大規模言語モデルのためのスケーラブルでプラガブルな仮想トークンの学習

One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2405.19670v2 )

ライセンス: Link先を確認
Yutao Zhu, Zhaoheng Huang, Zhicheng Dou, Ji-Rong Wen, (参考訳) Retrieval-augmented Generation (RAG)は、より現実的で正確で最新のコンテンツを生成するために、大規模言語モデル(LLM)を改善するための有望な方法である。 既存の手法は、取得した情報を活用するためにLSMを誘導するプロンプトを最適化するか、RAGシナリオに適応するためにLSMを直接調整する。 微調整により性能は向上するが、パラメータを変更することでLCMのジェネラルジェネレーション能力を損なうことがしばしばある。 この制限は、特に LLM が既にデプロイされている場合、パラメータ調整が元の機能に影響を与える可能性があるため、実用上の問題を引き起こす。 そこで本研究では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。 LLMの本来のパラメータを維持し,これらプラグ可能なトークンの埋め込みのみを微調整することにより,LLMの性能を向上するだけでなく,汎用的な生成能力も維持する。 さらに,本手法のスケーラビリティ,柔軟性,一般化性を向上させるために,いくつかのトレーニング戦略を設計する。 9つの質問応答タスクの総合的な実験は、我々のアプローチの優位性を示している。

Retrieval-augmented generation (RAG) is a promising way to improve large language models (LLMs) for generating more factual, accurate, and up-to-date content. Existing methods either optimize prompts to guide LLMs in leveraging retrieved information or directly fine-tune the LLMs to adapt to RAG scenarios. Although fine-tuning can yield better performance, it often compromises the LLMs' general generation capabilities by modifying their parameters. This limitation poses challenges in practical applications, especially when LLMs are already deployed, as parameter adjustments may affect their original functionality. To address this, we propose a novel method that involves learning scalable and pluggable virtual tokens for RAG. By maintaining the LLMs' original parameters and fine-tuning only the embeddings of these pluggable tokens, our approach not only enhances LLMs' performance but also preserves their general generation capacities. Furthermore, we design several training strategies to improve the scalability, flexibility, and generalizability of our method. Comprehensive experiments across nine question-answering tasks demonstrate the superiority of our approach.
翻訳日:2024-06-03 18:54:00 公開日:2024-05-31
# スパイクニューラルネットワークによる自律走行

Autonomous Driving with Spiking Neural Networks ( http://arxiv.org/abs/2405.19687v2 )

ライセンス: Link先を確認
Rui-Jie Zhu, Ziqing Wang, Leilani Gilpin, Jason K. Eshraghian, (参考訳) 自律運転は、スケーラビリティと環境持続可能性を高めるために厳しいエネルギー制約の下で運用しながら、知覚、予測、計画を含む統合されたアプローチを要求する。 我々は、イベント駆動およびエネルギー効率のよい性質を通じて、自律運転システムによって直面するエネルギー課題に対処するために、最初の統合スパイキングニューラルネットワーク(SNN)である、スパイキング自律運転(SAD)を提示する。 SADはエンドツーエンドで訓練され、多視点カメラからの入力を処理して時空間の鳥の視線を構築する知覚、スパイクニューロンによる新しいデュアルパスを利用して将来の状態を予測する予測、予測占有率、交通規則、乗り心地を考慮した安全な軌道を生成する計画の3つの主要モジュールから構成される。 SADはnuScenesデータセットに基づいて評価され、SNNのエネルギー効率を図りながら、知覚、予測、計画タスクにおける競争性能を達成する。 この研究は、エネルギー効率の高い自動運転に適用されるニューロモルフィックコンピューティングの可能性を強調している。 私たちのコードは \url{https://github.com/ridgerchu/SAD} で利用可能です。

Autonomous driving demands an integrated approach that encompasses perception, prediction, and planning, all while operating under strict energy constraints to enhance scalability and environmental sustainability. We present Spiking Autonomous Driving (SAD), the first unified Spiking Neural Network (SNN) to address the energy challenges faced by autonomous driving systems through its event-driven and energy-efficient nature. SAD is trained end-to-end and consists of three main modules: perception, which processes inputs from multi-view cameras to construct a spatiotemporal bird's eye view; prediction, which utilizes a novel dual-pathway with spiking neurons to forecast future states; and planning, which generates safe trajectories considering predicted occupancy, traffic rules, and ride comfort. Evaluated on the nuScenes dataset, SAD achieves competitive performance in perception, prediction, and planning tasks, while drawing upon the energy efficiency of SNNs. This work highlights the potential of neuromorphic computing to be applied to energy-efficient autonomous driving, a critical step toward sustainable and safety-critical automotive technology. Our code is available at \url{https://github.com/ridgerchu/SAD}.
翻訳日:2024-06-03 18:54:00 公開日:2024-05-31
# LLM触媒によるグラディエント最適化

Two Optimizers Are Better Than One: LLM Catalyst for Enhancing Gradient-Based Optimization ( http://arxiv.org/abs/2405.19732v2 )

ライセンス: Link先を確認
Zixian Guo, Ming Liu, Zhilong Ji, Jinfeng Bai, Yiwen Guo, Wangmeng Zuo, (参考訳) スキルの習得は一般的に、実践的な実践経験とインストラクターによる洞察に富んだハイレベルガイダンスの両方に依存します。 この戦略は複雑な非凸最適化問題の解決にも有効か? ここでは、共通の勾配ベースのオプティマイザが規律のあるドーラのように動作し、各ステップで局所的に最適な更新を行う。 近年の手法では,大規模言語モデル(LLM)を用いて,高レベルのインストラクターと同様,自然言語命令から推論することで,具体的問題の解法を最適化している。 本稿では,これら2つのオプティマイザが相互補完的であることを示し,協調最適化手法を提案する。 勾配ベースオプティマイザとLLMベースのオプティマイザをインターリーブ方式で組み合わせる。 我々は,勾配に基づく最適化中に記録されたタスク記述とタイムリーな最適化トラジェクトリを用いてLCMを指示する。 勾配最適化の次の段階における再起動点として, LLMによる推定結果を用いる。 局所的な厳密な勾配に基づく最適化手法と高レベルな導出性LLMに基づく最適化手法を併用することにより、競争ベースライン・プロンプト・チューニング法よりも常に改善が得られている。 本研究は,従来の勾配最適化の相乗効果とLLMの推論能力を示すものである。 コードはhttps://github.com/guozix/LLM-catalystでリリースされる。

Learning a skill generally relies on both practical experience by doer and insightful high-level guidance by instructor. Will this strategy also work well for solving complex non-convex optimization problems? Here, a common gradient-based optimizer acts like a disciplined doer, making locally optimal update at each step. Recent methods utilize large language models (LLMs) to optimize solutions for concrete problems by inferring from natural language instructions, akin to a high-level instructor. In this paper, we show that these two optimizers are complementary to each other, suggesting a collaborative optimization approach. The gradient-based optimizer and LLM-based optimizer are combined in an interleaved manner. We instruct LLMs using task descriptions and timely optimization trajectories recorded during gradient-based optimization. Inferred results from LLMs are used as restarting points for the next stage of gradient optimization. By leveraging both the locally rigorous gradient-based optimizer and the high-level deductive LLM-based optimizer, our combined optimization method consistently yields improvements over competitive baseline prompt tuning methods. Our results demonstrate the synergistic effect of conventional gradient-based optimization and the inference ability of LLMs. The code is released at https://github.com/guozix/LLM-catalyst.
翻訳日:2024-06-03 18:54:00 公開日:2024-05-31
# HQ-DiT:FP4ハイブリッド量子化を用いた効率的な拡散変換器

HQ-DiT: Efficient Diffusion Transformer with FP4 Hybrid Quantization ( http://arxiv.org/abs/2405.19751v2 )

ライセンス: Link先を確認
Wenxuan Liu, Sai Qian Zhang, (参考訳) ディフュージョントランスフォーマー(DiT)は近年,U-Netを用いた従来の拡散モデルよりも優れた視覚生成能力を有するため,産業分野と学術分野の両方において大きな注目を集めている。 しかし、DiTの性能向上には高いパラメータカウントと実装コストが伴い、携帯電話などのリソース制限されたデバイスでの利用を著しく制限している。 これらの課題に対処するために、DiTの重みとアクティベーションの両方に4ビット浮動小数点(FP)精度を利用する効率的なポストトレーニング量子化法であるDiT(HQ-DiT)のハイブリッド浮動小点量子化を導入する。 固定点量子化(eg, INT8)と比較して,提案したクリッピング範囲選択機構を補完するFP量子化は,DiT内のデータ分布と自然に一致し,最小の量子化誤差をもたらす。 さらにHQ-DiTは、外れ値による真剣な量子化誤差を軽減するために、普遍的なアイデンティティ数学的変換を実装している。 実験結果から,DiTは極端に高精度な量子化(4ビット)が可能であり,性能への影響は無視できることがわかった。 われわれのアプローチは、DiTの重みとアクティベーションの両方が4ビットに量子化され、ImageNet上のsFIDがわずか0.12増加している最初の例である。

Diffusion Transformers (DiTs) have recently gained substantial attention in both industrial and academic fields for their superior visual generation capabilities, outperforming traditional diffusion models that use U-Net. However,the enhanced performance of DiTs also comes with high parameter counts and implementation costs, seriously restricting their use on resource-limited devices such as mobile phones. To address these challenges, we introduce the Hybrid Floating-point Quantization for DiT(HQ-DiT), an efficient post-training quantization method that utilizes 4-bit floating-point (FP) precision on both weights and activations for DiT inference. Compared to fixed-point quantization (e.g., INT8), FP quantization, complemented by our proposed clipping range selection mechanism, naturally aligns with the data distribution within DiT, resulting in a minimal quantization error. Furthermore, HQ-DiT also implements a universal identity mathematical transform to mitigate the serious quantization error caused by the outliers. The experimental results demonstrate that DiT can achieve extremely low-precision quantization (i.e., 4 bits) with negligible impact on performance. Our approach marks the first instance where both weights and activations in DiTs are quantized to just 4 bits, with only a 0.12 increase in sFID on ImageNet.
翻訳日:2024-06-03 18:54:00 公開日:2024-05-31
# シンボリックタスクからコード生成へ - 多様化によってタスクパフォーマが向上

From Symbolic Tasks to Code Generation: Diversification Yields Better Task Performers ( http://arxiv.org/abs/2405.19787v2 )

ライセンス: Link先を確認
Dylan Zhang, Justin Wang, Francois Charton, (参考訳) インストラクションチューニング -- インストラクションとアウトプットのペアで大きな言語モデルをチューニングする -- は、モデルを現実世界に適応させるために有望なテクニックである。 しかし、トレーニング中に見えない指示を理解し、従うことができるモデルの能力を駆動する重要な要素は、まだ解明されていないままである。 我々の研究は、チューリング完全アルゴリズムであるマルコフアルゴリズムの理論的枠組みの中で一連の合成実験から始まり、命令調整データのきめ細かい制御を可能にする。 トレーニング分布に関する一般化と堅牢性は、各タスクに非常に少ない例があるにもかかわらず、多種多様なタスクセットが提供されると現れる。 コード生成の現実的なアプリケーションシナリオにこれらの初期結果を拡張し、コード関連タスクを超えて、より多様な命令セットがコード生成のパフォーマンスを向上させることを発見した。 我々の観察から,命令調整セットのより多様な意味空間が,命令に従う能力とタスクの実行能力を大幅に向上させることが示唆された。

Instruction tuning -- tuning large language models on instruction-output pairs -- is a promising technique for making models better adapted to the real world. Yet, the key factors driving the model's capability to understand and follow instructions not seen during training remain under-explored. Our investigation begins with a series of synthetic experiments within the theoretical framework of a Turing-complete algorithm called Markov algorithm, which allows fine-grained control over the instruction-tuning data. Generalization and robustness with respect to the training distribution emerge once a diverse enough set of tasks is provided, even though very few examples are provided for each task. We extend these initial results to a real-world application scenario of code generation and find that a more diverse instruction set, extending beyond code-related tasks, improves the performance of code generation. Our observations suggest that a more diverse semantic space for instruction-tuning sets greatly improves the model's ability to follow instructions and perform tasks.
翻訳日:2024-06-03 18:44:15 公開日:2024-05-31
# もう一度書き直す: 意味的類似性向上のための後処理手法と差分的私的書き直しテキストのプライバシー保護

Just Rewrite It Again: A Post-Processing Method for Enhanced Semantic Similarity and Privacy Preservation of Differentially Private Rewritten Text ( http://arxiv.org/abs/2405.19831v2 )

ライセンス: Link先を確認
Stephen Meisenbacher, Florian Matthes, (参考訳) 自然言語処理における微分プライバシ(DP)の研究は、テキストのプライベート化のタスクを$\textit{rewriting}$タスクとみなし、機密性の高い入力テキストを書き換えて、明示的または暗黙的なプライベート情報を隠す。 DPテキスト書き換え機構のプライバシ保存機能を評価するために、$\textit{empirical privacy}$ testが頻繁に使用される。 これらのテストでは、敵対者が、(民営化)テキストの背後にある著者に関するセンシティブな情報(例えば、性別)を推測することを目的として、モデル化される。 DP書き換え法によって提供される経験的保護を改善するために,DP書き換え文を元のテキストと整合させることを目的とし,簡単な後処理手法を提案する。 以上の結果から,このような手法は,従来の入力よりも意味論的に類似した出力を生成するだけでなく,経験的プライバシ評価において平均的なスコアがよいテキストを生成することが示唆された。 そこで本手法は,DP書き換え手法の実証的プライバシ評価における限界を高め,悪意のある敵に対する保護の余分なレイヤを提供する。

The study of Differential Privacy (DP) in Natural Language Processing often views the task of text privatization as a $\textit{rewriting}$ task, in which sensitive input texts are rewritten to hide explicit or implicit private information. In order to evaluate the privacy-preserving capabilities of a DP text rewriting mechanism, $\textit{empirical privacy}$ tests are frequently employed. In these tests, an adversary is modeled, who aims to infer sensitive information (e.g., gender) about the author behind a (privatized) text. Looking to improve the empirical protections provided by DP rewriting methods, we propose a simple post-processing method based on the goal of aligning rewritten texts with their original counterparts, where DP rewritten texts are rewritten $\textit{again}$. Our results show that such an approach not only produces outputs that are more semantically reminiscent of the original inputs, but also texts which score on average better in empirical privacy evaluations. Therefore, our approach raises the bar for DP rewriting methods in their empirical privacy evaluations, providing an extra layer of protection against malicious adversaries.
翻訳日:2024-06-03 18:44:15 公開日:2024-05-31
# エゴセントリックな行動認識のためのマルチモーダルなクロスドメインFew-Shot学習

Multimodal Cross-Domain Few-Shot Learning for Egocentric Action Recognition ( http://arxiv.org/abs/2405.19917v2 )

ライセンス: Link先を確認
Masashi Hatano, Ryo Hachiuma, Ryo Fujii, Hideo Saito, (参考訳) マルチモーダル入力とラベルなしターゲットデータを用いた,エゴセントリックな行動認識のための新しいクロスドメイン少ショット学習タスク(CD-FSL)について検討する。 本稿では,CD-FSL設定におけるエゴセントリックなアクション認識に関わる2つの重要な課題について,(1)エゴセントリックなビデオの極端な領域間差,(2)実世界のアプリケーションにおける計算コストについて考察する。 本稿では,対象領域への適応性を向上し,推論速度を向上させるために,ドメイン適応的で効率的なアプローチであるMM-CDFSLを提案する。 最初の課題に対処するために,教師モデルを用いた学生RGBモデルへのマルチモーダル蒸留の導入を提案する。 各教師モデルは、それぞれのモダリティのソースデータとターゲットデータに基づいて、独立して訓練される。 マルチモーダル蒸留における未ラベルのターゲットデータのみを活用すると、学生モデルのターゲット領域への適応性が向上する。 さらに,マスクによる入力トークン数を削減する手法であるアンサンブルマスク推論を導入する。 このアプローチでは、アンサンブル予測はマスキングによる性能劣化を緩和し、2つ目の問題に効果的に対処する。 当社のアプローチは、最先端のCD-FSLアプローチよりも優れており、複数のエゴセントリックデータセットに対してかなりのマージンを有し、平均6.12/6.10ポイントの1ショット/5ショット設定で改善され、推論速度は2.2ドルの速さで達成された。 プロジェクトページ:https://masashi-hatano.github.io/MM-CDFSL/

We address a novel cross-domain few-shot learning task (CD-FSL) with multimodal input and unlabeled target data for egocentric action recognition. This paper simultaneously tackles two critical challenges associated with egocentric action recognition in CD-FSL settings: (1) the extreme domain gap in egocentric videos (\eg, daily life vs. industrial domain) and (2) the computational cost for real-world applications. We propose MM-CDFSL, a domain-adaptive and computationally efficient approach designed to enhance adaptability to the target domain and improve inference speed. To address the first challenge, we propose the incorporation of multimodal distillation into the student RGB model using teacher models. Each teacher model is trained independently on source and target data for its respective modality. Leveraging only unlabeled target data during multimodal distillation enhances the student model's adaptability to the target domain. We further introduce ensemble masked inference, a technique that reduces the number of input tokens through masking. In this approach, ensemble prediction mitigates the performance degradation caused by masking, effectively addressing the second issue. Our approach outperformed the state-of-the-art CD-FSL approaches with a substantial margin on multiple egocentric datasets, improving by an average of 6.12/6.10 points for 1-shot/5-shot settings while achieving $2.2$ times faster inference speed. Project page: https://masashi-hatano.github.io/MM-CDFSL/
翻訳日:2024-06-03 18:44:15 公開日:2024-05-31
# 組合せ最適化のための汎用GNNフレームワークを目指して

Towards a General GNN Framework for Combinatorial Optimization ( http://arxiv.org/abs/2405.20543v1 )

ライセンス: Link先を確認
Frederik Wenkel, Semih Cantürk, Michael Perlmutter, Guy Wolf, (参考訳) グラフニューラルネットワーク(GNN)は,ノード分類やグラフ分類,リンク予測など,さまざまなタスクにおいて大きな成功を収めている。 しかし、組合せ最適化(CO)の問題を解決するためにGNN(およびより一般的には機械学習)を用いることは、あまり研究されていない。 本稿では,グラフ上のCO問題の解法として,複雑なフィルタバンクと局所的注意機構を活用する新しいGNNアーキテクチャを提案する。 本手法が従来のGNNベースのCOソルバとどのように差別化されているか, 自己教師型学習環境における最大傾き, 最小支配セット, 最大カット問題に対して効果的に適用可能であるかを示す。 全てのタスクにまたがる総合的なパフォーマンスを示すことに加えて、最大カット問題に対する最先端の結果を確立する。

Graph neural networks (GNNs) have achieved great success for a variety of tasks such as node classification, graph classification, and link prediction. However, the use of GNNs (and machine learning more generally) to solve combinatorial optimization (CO) problems is much less explored. Here, we introduce a novel GNN architecture which leverages a complex filter bank and localized attention mechanisms designed to solve CO problems on graphs. We show how our method differentiates itself from prior GNN-based CO solvers and how it can be effectively applied to the maximum clique, minimum dominating set, and maximum cut problems in a self-supervised learning setting. In addition to demonstrating competitive overall performance across all tasks, we establish state-of-the-art results for the max cut problem.
翻訳日:2024-06-03 15:55:52 公開日:2024-05-31
# ディープラーニングのための不確実性定量化

Uncertainty Quantification for Deep Learning ( http://arxiv.org/abs/2405.20550v1 )

ライセンス: Link先を確認
Peter Jan van Leeuwen, J. Christine Chiu, C. Kevin Yang, (参考訳) 1)新しい入力データ、(2)トレーニングおよびテストデータ、(3)ニューラルネットワークの重みベクトル、(4)完全な予測子ではないニューラルネットワークを含む、ディープラーニングのための完全で統計的に一貫した不確実性定量化を提供する。 ベイズ理論と条件付き確率密度を用いて、各不確実性源を体系的に定量化する方法を実証する。 また、すべてのエラーソースを初めて組み込んで組み合わせる、迅速かつ実用的な方法も導入しています。 本手法は,アゾレス諸島における航空機雲プローブ測定と2モーメントビンモデルで定式化された確率的収集方程式を用いて,人工ニューラルネットワークから予測された雲の自動変換速度の誤差を定量化するために適用された。 この具体例では、トレーニングおよびテストデータの不確実性に起因する出力の不確実性が支配的であり、次いで入力データ、トレーニングされたニューラルネットワークにおける不確実性、および重みの不確実性が続く。 本稿では,機械学習の実践における方法論の有用性について論じるとともに,トレーニングデータに不確実性を含めることで,学習データセットの外部にある入力データに対して,新たな方法論がより敏感であることを示す。

A complete and statistically consistent uncertainty quantification for deep learning is provided, including the sources of uncertainty arising from (1) the new input data, (2) the training and testing data (3) the weight vectors of the neural network, and (4) the neural network because it is not a perfect predictor. Using Bayes Theorem and conditional probability densities, we demonstrate how each uncertainty source can be systematically quantified. We also introduce a fast and practical way to incorporate and combine all sources of errors for the first time. For illustration, the new method is applied to quantify errors in cloud autoconversion rates, predicted from an artificial neural network that was trained by aircraft cloud probe measurements in the Azores and the stochastic collection equation formulated as a two-moment bin model. For this specific example, the output uncertainty arising from uncertainty in the training and testing data is dominant, followed by uncertainty in the input data, in the trained neural network, and uncertainty in the weights. We discuss the usefulness of the methodology for machine learning practice, and how, through inclusion of uncertainty in the training data, the new methodology is less sensitive to input data that falls outside of the training data set.
翻訳日:2024-06-03 15:55:52 公開日:2024-05-31
# EM-Assist: LLMによる安全な自動抽出手法

EM-Assist: Safe Automated ExtractMethod Refactoring with LLMs ( http://arxiv.org/abs/2405.20551v1 )

ライセンス: Link先を確認
Dorin Pomian, Abhiram Bellur, Malinda Dilhara, Zarina Kurbatova, Egor Bogomolov, Andrey Sokolov, Timofey Bryksin, Danny Dig, (参考訳) 複数の責任を負った過剰な長いメソッドは、理解し、デバッグし、再利用し、メンテナンスすることが難しい。 解決策は広く認知されている抽出メソッドのリファクタリングにあります。 このリファクタリングのアプリケーションは現代的なIDEでサポートされているが、どのコードフラグメントを抽出するかを推奨することが、多くの研究ツールのトピックとなっている。 しかしながら、現実の開発者のプラクティスを再現するのに苦労することが多く、結果として、人間の開発者が現実の世界でやることと一致しないレコメンデーションが生まれます。 この問題に対処するために,リファクタリング提案の生成にLLMを使用するIntelliJ IDEAプラグインであるEM-Assistを導入する。 最後に、EM-AssistはIntelliJ IDEを使用してユーザ選択のレコメンデーションを適用する。 オープンソースのプロジェクトで実際に行われた1,752件の現実世界のリファクタリングに関する大規模な評価では、EM-Assistのリコール率はトップ5のリコメンデーションのうち53.4%であり、静的解析のみに依存した以前のベストインクラスのツールでは39.4%であった。 さらに,18の産業開発者,94.4%が肯定的な評価を受けたユーザビリティ調査を行った。

Excessively long methods, loaded with multiple responsibilities, are challenging to understand, debug, reuse, and maintain. The solution lies in the widely recognized Extract Method refactoring. While the application of this refactoring is supported in modern IDEs, recommending which code fragments to extract has been the topic of many research tools. However, they often struggle to replicate real-world developer practices, resulting in recommendations that do not align with what a human developer would do in real life. To address this issue, we introduce EM-Assist, an IntelliJ IDEA plugin that uses LLMs to generate refactoring suggestions and subsequently validates, enhances, and ranks them. Finally, EM-Assist uses the IntelliJ IDE to apply the user-selected recommendation. In our extensive evaluation of 1,752 real-world refactorings that actually took place in open-source projects, EM-Assist's recall rate was 53.4% among its top-5 recommendations, compared to 39.4% for the previous best-in-class tool that relies solely on static analysis. Moreover, we conducted a usability survey with 18 industrial developers and 94.4% gave a positive rating.
翻訳日:2024-06-03 15:55:52 公開日:2024-05-31
# 拡散アクター批判:オフライン強化学習のための拡散雑音回帰としての制約付きポリシー反復の定式化

Diffusion Actor-Critic: Formulating Constrained Policy Iteration as Diffusion Noise Regression for Offline Reinforcement Learning ( http://arxiv.org/abs/2405.20555v1 )

ライセンス: Link先を確認
Linjiajie Fang, Ruoxue Liu, Jing Zhang, Wenjia Wang, Bing-Yi Jing, (参考訳) オフライン強化学習(RL)では、価値関数の過大評価を防ぐために、配布外動作を管理する必要がある。 政策調整手法は、行動ポリシーに近づき続けるように対象の政策を制約することでこの問題に対処する。 性能向上のための表現的拡散モデルとして振舞いの表現法がいくつか提案されているが, 拡散モデルを用いた振舞いサンプルを用いた場合, 対象の振舞いの調整方法については定かではない。 本稿では,拡散雑音回帰問題としてKullback-Leibler(KL)制約ポリシー反復を定式化し,拡散モデルとしてターゲットポリシーの直接表現を可能にする拡散アクタ・クリティカル(DAC)を提案する。 我々のアプローチは、拡散モデルに基づくターゲットポリシーと批判的ネットワークを訓練するアクター・批判的学習パラダイムに従う。 アクター訓練損失は、Q段階からのソフトQガイダンス項を含む。 ソフトQガイダンスは、KL制約ポリシー反復の理論解に基づいており、学習されたポリシーが分配行動を取るのを防ぐ。 批判的トレーニングでは、Q段階の推定を安定させるためにQアンサンブルを訓練する。 さらに、DACは、関数近似誤差による値目標の過大評価と過小評価に対処するために、低信頼境界(LCB)を用いる。 提案手法はD4RLベンチマークで評価され,ほぼすべての環境において最先端の手法よりも優れている。 コードは \href{https://github.com/Fang-Lin93/DAC}{\texttt{github.com/Fang-Lin93/DAC}} で公開されている。

In offline reinforcement learning (RL), it is necessary to manage out-of-distribution actions to prevent overestimation of value functions. Policy-regularized methods address this problem by constraining the target policy to stay close to the behavior policy. Although several approaches suggest representing the behavior policy as an expressive diffusion model to boost performance, it remains unclear how to regularize the target policy given a diffusion-modeled behavior sampler. In this paper, we propose Diffusion Actor-Critic (DAC) that formulates the Kullback-Leibler (KL) constraint policy iteration as a diffusion noise regression problem, enabling direct representation of target policies as diffusion models. Our approach follows the actor-critic learning paradigm that we alternatively train a diffusion-modeled target policy and a critic network. The actor training loss includes a soft Q-guidance term from the Q-gradient. The soft Q-guidance grounds on the theoretical solution of the KL constraint policy iteration, which prevents the learned policy from taking out-of-distribution actions. For critic training, we train a Q-ensemble to stabilize the estimation of Q-gradient. Additionally, DAC employs lower confidence bound (LCB) to address the overestimation and underestimation of value targets due to function approximation error. Our approach is evaluated on the D4RL benchmarks and outperforms the state-of-the-art in almost all environments. Code is available at \href{https://github.com/Fang-Lin93/DAC}{\texttt{github.com/Fang-Lin93/DAC}}.
翻訳日:2024-06-03 15:55:52 公開日:2024-05-31
# ディープニューラルネットワークのグローバルロバスト性認証

Certifying Global Robustness for Deep Neural Networks ( http://arxiv.org/abs/2405.20556v1 )

ライセンス: Link先を確認
You Li, Guannan Zhao, Shuyu Kong, Yunqi He, Hai Zhou, (参考訳) グローバルに堅牢なディープニューラルネットワークは、すべての意味のある入力に対する摂動に抵抗する。 現在のロバストネス認証手法は、局所ロバストネスを強調し、スケールと一般化に苦慮している。 本稿では,深層ニューラルネットワークのグローバルロバスト性を評価・検証するための系統的かつ効率的な手法を提案する。 我々は確率的プログラムを用いて意味のある入力領域を特徴づけ、グローバルロバストネスの現実的な標準を設定する。 さらに,大域的ロバスト性評価の基準として累積ロバスト性曲線を導入する。 我々は,多段階分割と回帰分析を組み合わせた統計的手法を設計し,実行時間を著しく短縮する。 実験により, 本手法の有効性と有効性を示し, 対人訓練のための希少かつ多種多様な反例を見出す能力を示した。

A globally robust deep neural network resists perturbations on all meaningful inputs. Current robustness certification methods emphasize local robustness, struggling to scale and generalize. This paper presents a systematic and efficient method to evaluate and verify global robustness for deep neural networks, leveraging the PAC verification framework for solid guarantees on verification results. We utilize probabilistic programs to characterize meaningful input regions, setting a realistic standard for global robustness. Additionally, we introduce the cumulative robustness curve as a criterion in evaluating global robustness. We design a statistical method that combines multi-level splitting and regression analysis for the estimation, significantly reducing the execution time. Experimental results demonstrate the efficiency and effectiveness of our verification method and its capability to find rare and diversified counterexamples for adversarial training.
翻訳日:2024-06-03 15:55:52 公開日:2024-05-31
# 情報推定を用いたイメージングシステムの普遍的評価と設計

Universal evaluation and design of imaging systems using information estimation ( http://arxiv.org/abs/2405.20559v1 )

ライセンス: Link先を確認
Henry Pinkard, Leyla Kabuli, Eric Markley, Tiffany Chien, Jiantao Jiao, Laura Waller, (参考訳) ノイズの存在下での信号伝達を記述した情報理論は,現代社会を支える信頼性の高い通信システムの開発を可能にしている。 イメージングシステムは、オブジェクトに関する情報が画像を通して"送信"される通信の形式として見ることもできる。 しかし、画像システムへの情報理論の適用は、その物理的制約を考慮に入れることの難しさによって制限されてきた。 本稿では,オブジェクトとその測定値の確率的関係をモデル化することにより,これらの制約に対処するフレームワークを提案する。 この枠組みを用いて,画像形成過程を仮定することなく,ノイズ測定のデータセットのみを用いて情報を推定する手法を開発した。 これらの推定値が様々な画像システムやアプリケーションで測定品質を包括的に定量化できることを実証する。 さらに,最大情報取得のための画像ハードウェアの設計を最適化する手法である情報駆動型エンコーダ解析学習(IDEAL)を導入する。 この研究は、イメージングシステムの基本性能限界に関する新たな洞察を与え、その分析と設計のための強力な新しいツールを提供する。

Information theory, which describes the transmission of signals in the presence of noise, has enabled the development of reliable communication systems that underlie the modern world. Imaging systems can also be viewed as a form of communication, in which information about the object is "transmitted" through images. However, the application of information theory to imaging systems has been limited by the challenges of accounting for their physical constraints. Here, we introduce a framework that addresses these limitations by modeling the probabilistic relationship between objects and their measurements. Using this framework, we develop a method to estimate information using only a dataset of noisy measurements, without making any assumptions about the image formation process. We demonstrate that these estimates comprehensively quantify measurement quality across a diverse range of imaging systems and applications. Furthermore, we introduce Information-Driven Encoder Analysis Learning (IDEAL), a technique to optimize the design of imaging hardware for maximum information capture. This work provides new insights into the fundamental performance limits of imaging systems and offers powerful new tools for their analysis and design.
翻訳日:2024-06-03 15:55:52 公開日:2024-05-31
# スマートコントラクトにおけるアドレス検証脆弱性の最小化

All Your Tokens are Belong to Us: Demystifying Address Verification Vulnerabilities in Solidity Smart Contracts ( http://arxiv.org/abs/2405.20561v1 )

ライセンス: Link先を確認
Tianle Sun, Ningyu He, Jiang Xiao, Yinliang Yue, Xiapu Luo, Haoyu Wang, (参考訳) Ethereumでは、渡されたアドレスの妥当性を検証するプラクティスが一般的であり、スマートコントラクトのセキュアな実行を保証するための重要なステップである。 検証プロセスにおける脆弱性は,重大なセキュリティ問題を引き起こし,我々のコミュニティから逸話的証拠が報告されている。 しかし、この種の脆弱性は十分に研究されていない。 この空白を埋めるために,本稿では,このような新たな脆弱性を特徴づけ,検出することを目的としている。 静的EVMオペコードシミュレーションに基づく軽量なテナントアナライザであるAVVERIFIERの設計と実装を行う。 その3相検出器は、本質的な特性に基づいて、偽陽性と偽陰性を徐々に排除することができる。 AVVERIFIERは精度94.3%の精度と100%のリコールを維持しながら効率をSOTAの2倍から5倍改善することができる。 500万以上のEthereumスマートコントラクトを大規模に評価した結果、812の脆弱性のあるスマートコントラクトが確認されました。 EthereumとBinance Smart Chainのリアルタイム検出器としてAVVERIFIERをさらにデプロイし,コントラクトがデプロイされると,AVVERIFIERがタイムリーな警告を発生させることができることを示唆している。

In Ethereum, the practice of verifying the validity of the passed addresses is a common practice, which is a crucial step to ensure the secure execution of smart contracts. Vulnerabilities in the process of address verification can lead to great security issues, and anecdotal evidence has been reported by our community. However, this type of vulnerability has not been well studied. To fill the void, in this paper, we aim to characterize and detect this kind of emerging vulnerability. We design and implement AVVERIFIER, a lightweight taint analyzer based on static EVM opcode simulation. Its three-phase detector can progressively rule out false positives and false negatives based on the intrinsic characteristics. Upon a well-established and unbiased benchmark, AVVERIFIER can improve efficiency 2 to 5 times than the SOTA while maintaining a 94.3% precision and 100% recall. After a large-scale evaluation of over 5 million Ethereum smart contracts, we have identified 812 vulnerable smart contracts that were undisclosed by our community before this work, and 348 open source smart contracts were further verified, whose largest total value locked is over $11.2 billion. We further deploy AVVERIFIER as a real-time detector on Ethereum and Binance Smart Chain, and the results suggest that AVVERIFIER can raise timely warnings once contracts are deployed.
翻訳日:2024-06-03 15:55:52 公開日:2024-05-31
# 一次免疫性血小板減少症の診断に機械学習は有効か?

Can Machine Learning Assist in Diagnosis of Primary Immune Thrombocytopenia? A feasibility study ( http://arxiv.org/abs/2405.20562v1 )

ライセンス: Link先を確認
Haroon Miah, Dimitrios Kollias, Giacinto Luca Pedone, Drew Provan, Frederick Chen, (参考訳) 原発性免疫性血小板減少症(プライマリ・免疫性血小板減少症、ITP)は、低血小板数および出血に至る患者において、免疫による末梢血血小板の破壊を特徴とする稀な自己免疫疾患である。 ITPの診断と効果的な管理は、疾患を確定するための確立された検査がなく、治療と結果に対する反応を予測できるバイオマーカーがないため困難である。 本研究は,非急性外来環境での血液検査と人口統計データを用いて,機械学習がIPPの診断に効果的に応用できるかどうかを確認するための実現可能性研究である。 ロジスティック回帰、サポートベクトルマシン、k-Nearest Neighbor、決定木、ランダムフォレストなどのMLモデルは、英国成人ITP登録簿および一般的な血液学クリニックのデータに適用された。 2つの異なるアプローチが調査された。 我々は、これらのモデルとアプローチの予測性能とバイアスを評価するために、広範囲な実験を行う。 その結果, 決定木モデルとランダムフォレストモデルでは, ほぼ完全な予測値, 公平性スコアが得られ, 血小板数が最も有意な変数であることが判明した。 人口統計情報を備えたモデルでは, 予測精度は向上したが, フェアネススコアは低く, 予測性能とフェアネスのトレードオフが示された。

Primary Immune thrombocytopenia (ITP) is a rare autoimmune disease characterised by immune-mediated destruction of peripheral blood platelets in patients leading to low platelet counts and bleeding. The diagnosis and effective management of ITP is challenging because there is no established test to confirm the disease and no biomarker with which one can predict the response to treatment and outcome. In this work we conduct a feasibility study to check if machine learning can be applied effectively for diagnosis of ITP using routine blood tests and demographic data in a non-acute outpatient setting. Various ML models, including Logistic Regression, Support Vector Machine, k-Nearest Neighbor, Decision Tree and Random Forest, were applied to data from the UK Adult ITP Registry and a general hematology clinic. Two different approaches were investigated: a demographic-unaware and a demographic-aware one. We conduct extensive experiments to evaluate the predictive performance of these models and approaches, as well as their bias. The results revealed that Decision Tree and Random Forest models were both superior and fair, achieving nearly perfect predictive and fairness scores, with platelet count identified as the most significant variable. Models not provided with demographic information performed better in terms of predictive accuracy but showed lower fairness score, illustrating a trade-off between predictive performance and fairness.
翻訳日:2024-06-03 15:55:52 公開日:2024-05-31
# 深層強化学習のための生成AI:フレームワーク、分析、ユースケース

Generative AI for Deep Reinforcement Learning: Framework, Analysis, and Use Cases ( http://arxiv.org/abs/2405.20568v1 )

ライセンス: Link先を確認
Geng Sun, Wenwen Xie, Dusit Niyato, Fang Mei, Jiawen Kang, Hongyang Du, Shiwen Mao, (参考訳) 対話型学習に基づく人工知能(AI)技術の形式として、深層強化学習(DRL)は様々な分野に広く適用され、目覚ましい成果を上げてきた。 しかし、DRLはサンプル効率の低下や一般化の低さなど、いくつかの制限に直面している。 そこで本稿では,これらの問題に対処し,DRLアルゴリズムの性能を向上させるために生成AI(GAI)を活用する方法について述べる。 まず、いくつかの古典的GAIアルゴリズムとDRLアルゴリズムを導入し、GAI強化DRLアルゴリズムの適用例を示す。 そして、データとポリシーの観点から、GAIを用いてDRLアルゴリズムを改善する方法について論じる。 次に, GAI と DRL, すなわち GAI 強化 DRL の実際の, 新規な統合を実証する枠組みを紹介する。 さらに,UAVを利用した近距離場/遠距離通信におけるフレームワークの事例研究を行い,提案フレームワークの性能評価を行った。 さらに,今後の方向性を示す。 最後に、関連するコードは、https://xiewenwen22.github.io/GAI-enhanced-DRLで入手できる。

As a form of artificial intelligence (AI) technology based on interactive learning, deep reinforcement learning (DRL) has been widely applied across various fields and has achieved remarkable accomplishments. However, DRL faces certain limitations, including low sample efficiency and poor generalization. Therefore, we present how to leverage generative AI (GAI) to address these issues above and enhance the performance of DRL algorithms in this paper. We first introduce several classic GAI and DRL algorithms and demonstrate the applications of GAI-enhanced DRL algorithms. Then, we discuss how to use GAI to improve DRL algorithms from the data and policy perspectives. Subsequently, we introduce a framework that demonstrates an actual and novel integration of GAI with DRL, i.e., GAI-enhanced DRL. Additionally, we provide a case study of the framework on UAV-assisted integrated near-field/far-field communication to validate the performance of the proposed framework. Moreover, we present several future directions. Finally, the related code is available at: https://xiewenwen22.github.io/GAI-enhanced-DRL.
翻訳日:2024-06-03 15:55:52 公開日:2024-05-31
# 量子文脈性の統計的シグネチャ

Statistical signatures of quantum contextuality ( http://arxiv.org/abs/2405.20569v1 )

ライセンス: Link先を確認
Holger F. Hofmann, (参考訳) 量子コンテキスト性(Quantum contextuality)とは、異なる測定コンテキストで観測された統計が、システムの独立した実測によって説明できない状況を指す。 最も単純なケースは3次元ヒルベルト空間で観測され、共有測定結果によって5つの異なる測定コンテキストが互いに関連している。 量子形式論は、作用素間の明確に定義された関係の観点からこれらの文脈間の関係を定義し、これらの関係は、有限な測定結果の集合から未知の量子状態の再構成に使用できる。 本稿では,非文脈統計の限界に反する5つの測定コンテキストの関係に基づく再構成手法を提案する。 任意の量子状態の完全な記述は、カークウッド・ディラック準確率の8つの元のうち5つしか必要としないが、11つの元からなるオーバーコンプリート集合のみが5つの文脈全てを曖昧に記述する。 11つの要素の間の5つの基本的な関係の集合は、5つのコンテキストをリンクする決定論的構造を明らかにする。 多くの例で示されるように、これらの関係は5つの文脈全ての測定結果に対する文脈的現実性の一貫した記述を提供する。

Quantum contextuality describes situations where the statistics observed in different measurement contexts cannot be explained by a measurement independent reality of the system. The most simple case is observed in a three-dimensional Hilbert space, with five different measurement contexts related to each other by shared measurement outcomes. The quantum formalism defines the relations between these contexts in terms of well-defined relations between operators, and these relations can be used to reconstruct an unknown quantum state from a finite set of measurement results. Here, I introduce a reconstruction method based on the relations between the five measurement contexts that can violate the bounds of non-contextual statistics. A complete description of an arbitrary quantum state requires only five of the eight elements of a Kirkwood-Dirac quasi probability, but only an overcomplete set of eleven elements provides an unbiased description of all five contexts. A set of five fundamental relations between the eleven elements reveals a deterministic structure that links the five contexts. As illustrated by a number of examples, these relations provide a consistent description of contextual realities for the measurement outcomes of all five contexts.
翻訳日:2024-06-03 15:46:08 公開日:2024-05-31
# 高温原子における単一駆動レーザーを用いたサブナチュラル-リニア軌道角運動量絡み合った双光子の生成

Generation of subnatural-linewidth orbital angular momentum entangled biphotons using a single driving laser in hot atoms ( http://arxiv.org/abs/2405.20570v1 )

ライセンス: Link先を確認
Jiaheng Ma, Chengyuan Wang, Bingbing Li, Yun Chen, Ye Yang, Jinwen Wang, Xin Yang, Shuwei Qiu, Hong Gao, Fuli Li, (参考訳) 軌道角運動量(OAM)と狭い帯域を持つ光子対は、物質の光と量子状態の相互作用において重要な役割を果たす。 本稿では, 単一駆動ビームを$^{85}$Rb原子蒸気セルに使用することにより, 狭い帯域幅でOAM絡み合った光子対を生成する方法を示す。 この単一駆動ビームは、2つの原子遷移を同時に結合し、自発的な4波混合(SFWM)プロセスを通じてOAM保存則を活用することにより、OAMに絡み合った2光子を直接生成することができる。 光子対は最大相関関数値27.7と直線幅4MHzを示す。 OAMエンタングルメントは量子状態トモグラフィーによって確認され、最大エンタングルド状態と比較して95.7\%の忠実度と0.926の共起性を示す。 提案手法は従来提案されていた手法よりも明らかに単純であり, 熱原子系における光子対の生成を初めて実証したものである。

Orbital angular momentum (OAM) entangled photon pairs with narrow bandwidths play a crucial role in the interaction of light and quantum states of matter. In this article, we demonstrate an approach for generating OAM entangled photon pairs with a narrow bandwidth by using a single driving beam in a $^{85}$Rb atomic vapor cell. This single driving beam is able to simultaneously couple two atomic transitions and directly generate OAM entangled biphotons by leveraging the OAM conservation law through the spontaneous four-wave mixing (SFWM) process. The photon pairs exhibit a maximum cross-correlation function value of 27.7 and a linewidth of 4 MHz. The OAM entanglement is confirmed through quantum state tomography, revealing a fidelity of 95.7\% and a concurrence of 0.926 when compared to the maximally entangled state. Our scheme is notably simpler than previously proposed schemes and represents the first demonstration of generating subnatural-linewidth entangled photon pairs in hot atomic systems.
翻訳日:2024-06-03 15:46:08 公開日:2024-05-31
# 不確かさ誘導による変分オートエンコーダの微調整による生成分子設計の促進

Enhancing Generative Molecular Design via Uncertainty-guided Fine-tuning of Variational Autoencoders ( http://arxiv.org/abs/2405.20573v1 )

ライセンス: Link先を確認
A N M Nafiz Abeer, Sanket Jantre, Nathan M Urban, Byung-Jun Yoon, (参考訳) 近年, 様々な分子設計タスク, 特に生命科学や物質科学において, 深層生成モデルがうまく採用されている。 事前学習された生成分子設計(GMD)モデルにとって重要な課題は、特定の分子特性の最適化を目的とした下流設計タスクに適するように、それらを微調整することである。 しかし、新しい設計タスクごとに、スクラッチから既存の効果的な生成モデルを再設計し、訓練することは不可能である。 さらに、典型的な下流タスクのブラックボックスの性質である$\unicode{x2013}$ such as property prediction$\unicode{x2013}$makes it to optimization the generative model in a task-specific manner。 本研究では,事前学習型変分オートエンコーダ(VAE)に基づくGMDモデルのモデル不確実性誘導微調整のための,能動的学習環境における性能フィードバックによる新しいアプローチを提案する。 主な考え方は生成モデルにおけるモデルの不確実性を定量化することであり、これはモデル出力のほとんどの変数を説明する高次元のVAEパラメータの低次元の活性部分空間内で作業することで効率的になる。 モデル不確実性の包含はデコーダの多様性を通じて生存可能な分子の空間を拡大する。 次に、活性部分空間の低次元性により抽出可能なブラックボックス最適化により得られたモデル不確実性クラスを探索する。 これにより、多種多様なハイパフォーマンスモデルを特定し、活用し、強化された分子を生成することができる。 複数のVAEをベースとした生成モデルを用いた6つの分子特性の実証実験の結果、我々の不確実性誘導微調整アプローチは、元の事前学習モデルよりも一貫して優れていることが示された。

In recent years, deep generative models have been successfully adopted for various molecular design tasks, particularly in the life and material sciences. A critical challenge for pre-trained generative molecular design (GMD) models is to fine-tune them to be better suited for downstream design tasks aimed at optimizing specific molecular properties. However, redesigning and training an existing effective generative model from scratch for each new design task is impractical. Furthermore, the black-box nature of typical downstream tasks$\unicode{x2013}$such as property prediction$\unicode{x2013}$makes it nontrivial to optimize the generative model in a task-specific manner. In this work, we propose a novel approach for a model uncertainty-guided fine-tuning of a pre-trained variational autoencoder (VAE)-based GMD model through performance feedback in an active learning setting. The main idea is to quantify model uncertainty in the generative model, which is made efficient by working within a low-dimensional active subspace of the high-dimensional VAE parameters explaining most of the variability in the model's output. The inclusion of model uncertainty expands the space of viable molecules through decoder diversity. We then explore the resulting model uncertainty class via black-box optimization made tractable by low-dimensionality of the active subspace. This enables us to identify and leverage a diverse set of high-performing models to generate enhanced molecules. Empirical results across six target molecular properties, using multiple VAE-based generative models, demonstrate that our uncertainty-guided fine-tuning approach consistently outperforms the original pre-trained models.
翻訳日:2024-06-03 15:46:08 公開日:2024-05-31
# Open Ko-LLM Leaderboard:Ko-H5ベンチマークによる韓国の大規模言語モデルの評価

Open Ko-LLM Leaderboard: Evaluating Large Language Models in Korean with Ko-H5 Benchmark ( http://arxiv.org/abs/2405.20574v1 )

ライセンス: Link先を確認
Chanjun Park, Hyeonwoo Kim, Dahyun Kim, Seonghwan Cho, Sanghoon Kim, Sukyung Lee, Yungi Kim, Hwalsuk Lee, (参考訳) 本稿では,韓国の大規模言語モデル(LLM)を評価する上で重要なツールとして,Open Ko-LLM LeaderboardとKo-H5ベンチマークを紹介する。 英語のOpen LLM Leaderboardを反映しながらプライベートテストセットを組み込むことで、韓国のLLMコミュニティによく統合された堅牢な評価フレームワークを確立する。 我々は、Ko-H5ベンチマーク内の相関調査とKo-H5スコアの時間的解析とともに、プライベートテストセットの利点を示すデータ漏洩解析を行う。 さらに、設定されたベンチマークを超えて拡張する必要性を実証的に支援する。 Open Ko-LLM Leaderboardは、LLMの評価を拡大し、より言語的な多様性を育むための先例となることを願っている。

This paper introduces the Open Ko-LLM Leaderboard and the Ko-H5 Benchmark as vital tools for evaluating Large Language Models (LLMs) in Korean. Incorporating private test sets while mirroring the English Open LLM Leaderboard, we establish a robust evaluation framework that has been well integrated in the Korean LLM community. We perform data leakage analysis that shows the benefit of private test sets along with a correlation study within the Ko-H5 benchmark and temporal analyses of the Ko-H5 score. Moreover, we present empirical support for the need to expand beyond set benchmarks. We hope the Open Ko-LLM Leaderboard sets precedent for expanding LLM evaluation to foster more linguistic diversity.
翻訳日:2024-06-03 15:46:08 公開日:2024-05-31
# 差分プライバシーを備えたフェデレーショングラフ分析

Federated Graph Analytics with Differential Privacy ( http://arxiv.org/abs/2405.20576v1 )

ライセンス: Link先を確認
Shang Liu, Yang Cao, Takao Murakami, Weiran Liu, Seng Pei Liew, Tsubasa Takahashi, Jinfei Liu, Masatoshi Yoshikawa, (参考訳) 複数の機関にまたがる協調グラフ分析がますます人気が高まっている。 現実的な例としては、さまざまなソーシャルプラットフォームにわたるソーシャルネットワーク分析、複数の銀行間の金融取引分析、複数の病院における感染症の伝染の分析などがある。 我々は、差分プライバシー下での協調グラフ分析の新しい問題であるフェデレーショングラフ分析を定義する。 異なるプライベートグラフ分析は広く研究されているが、ローカルクライアントの限られた視野と複数のサブグラフにまたがる情報の重複のため、フェデレーションシナリオにおけるユーティリティとプライバシの良好なトレードオフを達成できない。 そこで我々はまず,個別のプライバシを保ちながら任意のダウンストリームの共通グラフ統計データを可能にするFEATというフェデレーション付きグラフ解析フレームワークを提案する。 さらに,提案した次数に基づく分割アルゴリズムFEAT+に基づく最適化フレームワークを導入する。 最後に、我々のFEAT+とFEAT+は、それぞれ約1桁と4桁の精度でベースラインアプローチを著しく上回ることを示した。

Collaborative graph analysis across multiple institutions is becoming increasingly popular. Realistic examples include social network analysis across various social platforms, financial transaction analysis across multiple banks, and analyzing the transmission of infectious diseases across multiple hospitals. We define the federated graph analytics, a new problem for collaborative graph analytics under differential privacy. Although differentially private graph analysis has been widely studied, it fails to achieve a good tradeoff between utility and privacy in federated scenarios, due to the limited view of local clients and overlapping information across multiple subgraphs. Motivated by this, we first propose a federated graph analytic framework, named FEAT, which enables arbitrary downstream common graph statistics while preserving individual privacy. Furthermore, we introduce an optimized framework based on our proposed degree-based partition algorithm, called FEAT+, which improves the overall utility by leveraging the true local subgraphs. Finally, extensive experiments demonstrate that our FEAT and FEAT+ significantly outperform the baseline approach by approximately one and four orders of magnitude, respectively.
翻訳日:2024-06-03 15:46:08 公開日:2024-05-31
# HOPE: 多様なパーキングシナリオのための強化学習型ハイブリッドポリシーパスプランナ

HOPE: A Reinforcement Learning-based Hybrid Policy Path Planner for Diverse Parking Scenarios ( http://arxiv.org/abs/2405.20579v1 )

ライセンス: Link先を確認
Mingyang Jiang, Yueyuan Li, Songan Zhang, Chunxiang Wang, Ming Yang, (参考訳) パスプランニングは自動駐車において重要な役割を担っているが、現在の方法は複雑で多様な駐車シナリオを効率的に扱うのに苦労している。 潜在的な解決策の1つは、記録されていない状況での探索を活用する強化学習に基づく手法である。 しかし、強化学習法の訓練において重要な課題は、実現可能な政策に収束する際の固有のランダム性である。 本稿では,強化学習エージェントとReeds-Shepp曲線を統合したHybrid POlicy Path PlannEr(HOPE)を提案する。 本稿では,経路計画における行動マスク機構の計算と実装を行い,強化学習訓練の有効性と効果を著しく向上させる手法を提案する。 ネットワーク構造としてトランスフォーマーを用いて、環境情報を融合し、計画された経路を生成する。 提案したプランナの訓練と評価を容易にするため,空間および障害物分布に基づく駐車シナリオの難易度を分類する基準を提案する。 実験の結果,本手法は一般的なルールベースアルゴリズムや従来の強化学習手法よりも優れており,高い計画成功率と様々なシナリオにおける一般化が示されている。 私たちのソリューションのコードは、 \href{GitHub}{https://github.com/jiamiya/HOPE}で公開されます。 %であった。

Path planning plays a pivotal role in automated parking, yet current methods struggle to efficiently handle the intricate and diverse parking scenarios. One potential solution is the reinforcement learning-based method, leveraging its exploration in unrecorded situations. However, a key challenge lies in training reinforcement learning methods is the inherent randomness in converging to a feasible policy. This paper introduces a novel solution, the Hybrid POlicy Path plannEr (HOPE), which integrates a reinforcement learning agent with Reeds-Shepp curves, enabling effective planning across diverse scenarios. The paper presents a method to calculate and implement an action mask mechanism in path planning, significantly boosting the efficiency and effectiveness of reinforcement learning training. A transformer is employed as the network structure to fuse environmental information and generate planned paths. To facilitate the training and evaluation of the proposed planner, we propose a criterion for categorizing the difficulty level of parking scenarios based on space and obstacle distribution. Experimental results demonstrate that our approach outperforms typical rule-based algorithms and traditional reinforcement learning methods, showcasing higher planning success rates and generalization across various scenarios. The code for our solution will be openly available on \href{GitHub}{https://github.com/jiamiya/HOPE}. % after the paper's acceptance.
翻訳日:2024-06-03 15:46:08 公開日:2024-05-31
# 感覚の視点:精神医学的ノートにおける臨床バイアス検出に向けて

The Point of View of a Sentiment: Towards Clinician Bias Detection in Psychiatric Notes ( http://arxiv.org/abs/2405.20582v1 )

ライセンス: Link先を確認
Alissa A. Valentine, Lauren A. Lepow, Alexander W. Charney, Isotta Landi, (参考訳) 精神医学では, 負の患者説明と便秘言語は, 1) 医療センターとの信頼とエンゲージメントを損なう患者から読み, (2) 将来の提供者から読み, 患者の将来的な視点に悪影響を及ぼす可能性がある。 本研究は, 大規模言語モデルを活用することにより, 精神科臨床ノートに表される感情を, 読者の視点に基づいて識別することを目的とする。 マウント・シナイ・ヘルス・システム(Mount Sinai Health System)の大規模・多種多様な臨床ノートから文章を抽出し,3つの大言語モデル(GPT-3.5, Llama 2, Mistral)を用いて,提供者やノンプロビデンスの観点から文章が伝達する感情を分類した。 その結果, GPT-3.5は提供者視点に最良であるのに対し, Mistralは非提供者視点に最良であることがわかった。

In psychiatry, negative patient descriptions and stigmatizing language can contribute to healthcare disparities in two ways: (1) read by patients they can harm their trust and engagement with the medical center; (2) read by future providers they may negatively influence the future perspective of a patient. By leveraging large language models, this work aims to identify the sentiment expressed in psychiatric clinical notes based on the reader's point of view. Extracting sentences from the Mount Sinai Health System's large and diverse clinical notes, we used prompts and in-context learning to adapt three large language models (GPT-3.5, Llama 2, Mistral) to classify the sentiment conveyed by the sentences according to the provider or non-provider point of view. Results showed that GPT-3.5 aligns best to provider point of view, whereas Mistral aligns best to non-provider point of view.
翻訳日:2024-06-03 15:46:08 公開日:2024-05-31
# ディフュージョンの破壊: ディフュージョンに基づくカスタマイズに対するトークンレベルアテンション消去攻撃

Disrupting Diffusion: Token-Level Attention Erasure Attack against Diffusion-based Customization ( http://arxiv.org/abs/2405.20584v1 )

ライセンス: Link先を確認
Yisu Liu, Jinyang An, Wanqian Zhang, Dayan Wu, Jingzi Gu, Zheng Lin, Weiping Wang, (参考訳) DreamBoothのような拡散ベースのカスタマイズ方法の開発により、個人はパーソナライズされたイメージを生成するモデルをトレーニングできるようになりました。 この便利さにもかかわらず、悪意のあるユーザーは偽画像を作成するためにこれらのテクニックを誤用し、それによってプライバシーのセキュリティ危機が引き起こされた。 これを踏まえて、ユーザをカスタマイズから守るために、積極的な敵攻撃が提案されている。 逆の例は、カスタマイズモデルの出力を歪め、したがって誤用をブロックするように訓練される。 本稿では,拡散モデル出力を阻害する新たな逆攻撃法であるDisDiff(Disrupting Diffusion)を提案する。 まず、クロスアテンションとしてよく知られている本質的な画像とテキストの関係を掘り下げ、画像生成を導く上で、主観的識別トークンが重要な役割を果たすことを実証的に見出した。 そこで本研究では,対象の注意マップを明示的に「消去」し,テキストガイダンスを乱すクロスアテンション消去モジュールを提案する。 さらに,拡散モデルのサンプリングプロセスがPGD攻撃に与える影響を解析し,ステップアウェア方式で摂動更新振幅を適応的に調整する新しいメリットサンプリングスケジューリングを導入する。 我々のDisDiffは、2つの顔ベンチマークと2つの一般的なプロンプトで、FDFRスコアの12.75%、ISMスコアの7.25%で最先端の手法よりも優れています。

With the development of diffusion-based customization methods like DreamBooth, individuals now have access to train the models that can generate their personalized images. Despite the convenience, malicious users have misused these techniques to create fake images, thereby triggering a privacy security crisis. In light of this, proactive adversarial attacks are proposed to protect users against customization. The adversarial examples are trained to distort the customization model's outputs and thus block the misuse. In this paper, we propose DisDiff (Disrupting Diffusion), a novel adversarial attack method to disrupt the diffusion model outputs. We first delve into the intrinsic image-text relationships, well-known as cross-attention, and empirically find that the subject-identifier token plays an important role in guiding image generation. Thus, we propose the Cross-Attention Erasure module to explicitly "erase" the indicated attention maps and disrupt the text guidance. Besides,we analyze the influence of the sampling process of the diffusion model on Projected Gradient Descent (PGD) attack and introduce a novel Merit Sampling Scheduler to adaptively modulate the perturbation updating amplitude in a step-aware manner. Our DisDiff outperforms the state-of-the-art methods by 12.75% of FDFR scores and 7.25% of ISM scores across two facial benchmarks and two commonly used prompts on average.
翻訳日:2024-06-03 15:46:08 公開日:2024-05-31
# GAMedX: 大規模言語モデルを用いたAIベースの医療エンティティデータエクストラクタ

GAMedX: Generative AI-based Medical Entity Data Extractor Using Large Language Models ( http://arxiv.org/abs/2405.20585v1 )

ライセンス: Link先を確認
Mohammed-Khalil Ghali, Abdelrahman Farrag, Hajar Sakai, Hicham El Baz, Yu Jin, Sarah Lam, (参考訳) 医療などの急速に発展している分野では、電子健康記録(EHR)における生成AIの統合は重要な進歩であり、現在の情報抽出技術における重要なギャップに対処している。 本稿では,大規模言語モデル (LLMs) を用いた名前付きエンティティ認識 (NER) アプローチであるGAMedXについて紹介する。 構造化されていない医療テキストを処理するという大きな課題に対処することで、GAMedXは生成AIとLLMの能力を活用してデータ抽出を改善する。 統一されたアプローチを用いることで、この方法論はNERのためのオープンソースのLCMを統合し、特殊な医学用語の複雑さをナビゲートするために、連鎖したプロンプトとピダンティックスキーマを構造化された出力に利用する。 その結果, 評価データセットの1つに対して, ROUGE F1スコアが98\%の有意な値を示した。 このイノベーションはエンティティ抽出を強化し、非構造化データから自動フォームを埋めるスケーラブルで費用対効果の高いソリューションを提供する。 その結果、GAMedXは構造化されていない物語の処理を合理化し、NERアプリケーションにおける新しい標準を設定し、医療技術以外の理論的および実践的な進歩に大きく貢献した。

In the rapidly evolving field of healthcare and beyond, the integration of generative AI in Electronic Health Records (EHRs) represents a pivotal advancement, addressing a critical gap in current information extraction techniques. This paper introduces GAMedX, a Named Entity Recognition (NER) approach utilizing Large Language Models (LLMs) to efficiently extract entities from medical narratives and unstructured text generated throughout various phases of the patient hospital visit. By addressing the significant challenge of processing unstructured medical text, GAMedX leverages the capabilities of generative AI and LLMs for improved data extraction. Employing a unified approach, the methodology integrates open-source LLMs for NER, utilizing chained prompts and Pydantic schemas for structured output to navigate the complexities of specialized medical jargon. The findings reveal significant ROUGE F1 score on one of the evaluation datasets with an accuracy of 98\%. This innovation enhances entity extraction, offering a scalable, cost-effective solution for automated forms filling from unstructured data. As a result, GAMedX streamlines the processing of unstructured narratives, and sets a new standard in NER applications, contributing significantly to theoretical and practical advancements beyond the medical technology sphere.
翻訳日:2024-06-03 15:46:08 公開日:2024-05-31
# 多部量子状態判別におけるエンタングルメント・ビクターと非局所性

Entanglement witness and nonlocality in confidence of measurement from multipartite quantum state discrimination ( http://arxiv.org/abs/2405.20586v1 )

ライセンス: Link先を確認
Donghoon Ha, Jeong San Kim, (参考訳) 我々は、多部量子状態の判別を考察し、エンタングルメント証人の性質と測定の信頼性に固有の量子非局所性との間に特定の関係を与える。 まず、測定の信頼性の定義と、様々な種類のマルチパーティイト測定に有用な性質について述べる。 局所的な操作や古典的コミュニケーションでは達成できない世界的最大信頼度は、絡み合いの証人の存在に強く依存していることを示す。 また,局所的に達成可能な信頼度を最大とする上限条件も提供する。 最後に、非局所的な最大信頼度を持つ量子状態アンサンブルを構築するために、絡み合いの証人の観点から方法を確立する。

We consider multipartite quantum state discrimination and provide a specific relation between the properties of entanglement witness and quantum nonlocality inherent in the confidence of measurements. We first provide the definition of the confidence of measurements as well as its useful properties for various types of multipartite measurements. We show that globally maximum confidence that cannot be achieved by local operations and classical communication strongly depends on the existence of entanglement witness. We also provide conditions for an upper bound on maximum of locally-achievable confidences. Finally, we establish a method in terms of entanglement witness to construct quantum state ensemble with nonlocal maximum confidences.
翻訳日:2024-06-03 15:46:08 公開日:2024-05-31
# DAFNet:大規模言語モデルにおける逐次モデル編集のための動的補助融合

DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models ( http://arxiv.org/abs/2405.20588v1 )

ライセンス: Link先を確認
Taolin Zhang, Qizhou Chen, Dongyang Li, Chengyu Wang, Xiaofeng He, Longtao Huang, Hui Xue, Jun Huang, (参考訳) 近年,大規模言語モデル (LLM) は目覚ましい結果を示したが,幻覚,すなわち偽情報の発生に悩まされている。 モデル編集は、LLMの事実的誤りを修正するタスクである。しかし、これまでのほとんどの研究は、LLMが生み出す過ちにほとんど注意を払わずに、これを一度限りのタスクとして扱う。 ミスを継続的に修正することを目的としたシーケンシャルモデル編集(SME)の課題に対処する。 動的補助核融合ネットワーク(DAFNet)は、シーケンス全体の事実知識間の意味的相互作用を強化するために設計されており、複数の知識トリプルの編集過程において破滅的な忘れを防止している。 具体的には,(1)関係3重項内の意味融合について,LLMのトークンレベルの粒度で自己回帰自己認識に注意フローを集約する。 さらに、多層対角線間注意流を利用して、シーケンスレベルの粒度全体の重み付け表現を更新する。 2) シーケンシャルな編集の知識を格納するために補助的パラメータが必要であることを考慮し, シーケンシャルな編集の汎用性を高めるために, 最新の, 人気, ロングテール, ロバストな特性を満たす新しいデータセット, textbf{DAFSet} を構築した。 実験の結果、DAFNetはシングルターンとシーケンシャルな編集において、強いベースラインを著しく上回っている。 DAFSetの使用はまた、様々なシナリオにおける他の補助的ネットワークベース手法の性能を一貫して改善する。

Recently, while large language models (LLMs) have demonstrated impressive results, they still suffer from hallucination, i.e., the generation of false information. Model editing is the task of fixing factual mistakes in LLMs; yet, most previous works treat it as a one-time task, paying little attention to ever-emerging mistakes generated by LLMs. We address the task of sequential model editing (SME) that aims to rectify mistakes continuously. A Dynamic Auxiliary Fusion Network (DAFNet) is designed to enhance the semantic interaction among the factual knowledge within the entire sequence, preventing catastrophic forgetting during the editing process of multiple knowledge triples. Specifically, (1) for semantic fusion within a relation triple, we aggregate the intra-editing attention flow into auto-regressive self-attention with token-level granularity in LLMs. We further leverage multi-layer diagonal inter-editing attention flow to update the weighted representations of the entire sequence-level granularity. (2) Considering that auxiliary parameters are required to store the knowledge for sequential editing, we construct a new dataset named \textbf{DAFSet}, fulfilling recent, popular, long-tail and robust properties to enhance the generality of sequential editing. Experiments show DAFNet significantly outperforms strong baselines in single-turn and sequential editing. The usage of DAFSet also consistently improves the performance of other auxiliary network-based methods in various scenarios
翻訳日:2024-06-03 15:46:08 公開日:2024-05-31
# 容量不均一性を考慮した個人化フェデレーション学習のための選択的知識共有

Selective Knowledge Sharing for Personalized Federated Learning Under Capacity Heterogeneity ( http://arxiv.org/abs/2405.20589v1 )

ライセンス: Link先を確認
Zheng Wang, Zheng Wang, Zhaopeng Peng, Zihui Wang, Cheng Wang, (参考訳) フェデレートラーニング(FL)は、容量不均一なモデルを協調的にトレーニングすることで、低容量デバイスからのプライベートデータとコンピューティングパワーの利用を可能にし、大きな利点を得ることができる。 しかし、クライアント固有のデータに基づくキャパシティ・ヘテロジニアスモデルのパーソナライズに焦点が当てられ、特に低キャパシティ・クライアントにおいて、最適なローカル・モデル・ユーティリティが実現されている。 データとデバイスのキャパシティの両面での不均一性は、モデルパーソナライゼーションに2つの大きな課題をもたらします。 1)各クライアントの縮小サブモデルに埋め込まれた必要な知識を正確に保持し、 2) 大きさの異なるパラメータを集約することで知識を効果的に共有する。 この目的のために我々は,容量不均一なモデル間で知識を疎結合し,選択的に共有することで,局所モデル性能を向上させる新しいフレームワークPa3dFLを紹介した。 まず,モデルの各層を一般パラメータと個人パラメータに分解する。 そして、クライアント間の一般パラメータの均一なサイズを維持し、それらを直接平均化によって集約する。 その後、学習可能な埋め込みを用いて、クライアントのサイズが変化する個人パラメータを生成するために、ハイパーネットワークを利用する。 最後に、自己認識モジュールを通じてクライアント埋め込みを集約することで、個人パラメータの暗黙的な集約を容易にする。 本研究では,Pa3dFLの有効性を評価するために,3つのデータセットについて広範な実験を行った。 以上の結果から,Pa3dFLは多種多様な異種性設定のベースライン法より一貫して優れていたことが示唆された。 さらに、Pa3dFLは、ベースラインアプローチと比較して、競争力のある通信と計算効率を示し、その実用性と、悪条件下での適応性を強調している。

Federated Learning (FL) stands to gain significant advantages from collaboratively training capacity-heterogeneous models, enabling the utilization of private data and computing power from low-capacity devices. However, the focus on personalizing capacity-heterogeneous models based on client-specific data has been limited, resulting in suboptimal local model utility, particularly for low-capacity clients. The heterogeneity in both data and device capacity poses two key challenges for model personalization: 1) accurately retaining necessary knowledge embedded within reduced submodels for each client, and 2) effectively sharing knowledge through aggregating size-varying parameters. To this end, we introduce Pa3dFL, a novel framework designed to enhance local model performance by decoupling and selectively sharing knowledge among capacity-heterogeneous models. First, we decompose each layer of the model into general and personal parameters. Then, we maintain uniform sizes for the general parameters across clients and aggregate them through direct averaging. Subsequently, we employ a hyper-network to generate size-varying personal parameters for clients using learnable embeddings. Finally, we facilitate the implicit aggregation of personal parameters by aggregating client embeddings through a self-attention module. We conducted extensive experiments on three datasets to evaluate the effectiveness of Pa3dFL. Our findings indicate that Pa3dFL consistently outperforms baseline methods across various heterogeneity settings. Moreover, Pa3dFL demonstrates competitive communication and computation efficiency compared to baseline approaches, highlighting its practicality and adaptability in adverse system conditions.
翻訳日:2024-06-03 15:46:08 公開日:2024-05-31
# 太陽フレア予測のためのクラスベース時系列データ拡張による極端クラス不均衡の軽減

Class-Based Time Series Data Augmentation to Mitigate Extreme Class Imbalance for Solar Flare Prediction ( http://arxiv.org/abs/2405.20590v1 )

ライセンス: Link先を確認
Junzhi Wen, Rafal A. Angryk, (参考訳) 時系列データは、さまざまな領域において重要な役割を担い、意思決定と予測モデリングに価値がある。 機械学習(ML)とディープラーニング(DL)は、この点において有望であることを示しているが、そのパフォーマンスはデータ品質と量に依存しており、データ不足とクラス不均衡によって制約されることが多い。 データ拡張技術は、これらの課題に対処するための潜在的な解決策を提供するが、多変量時系列データセットに対するそれらの効果は、まだ探索されていない。 本研究では,MGN(Mean Gaussian Noise)と呼ばれる時系列データに対する新しいデータ拡張手法を提案する。 太陽フレア予測のための多変量時系列データセットであるSWAN-SFにおいて、時系列データのためのMLアルゴリズムであるTimeSeriesSVCを用いて、MGNの性能を既存の8つの基本データ拡張法と比較した。 その結果、MGNの有効性を実証し、極めて不均衡なデータを持つシナリオにおける分類性能の向上の可能性を強調した。 我々の時間複雑性分析は、MGNが研究された代替手法と比較して競争力のある計算コストを持つことを示している。

Time series data plays a crucial role across various domains, making it valuable for decision-making and predictive modeling. Machine learning (ML) and deep learning (DL) have shown promise in this regard, yet their performance hinges on data quality and quantity, often constrained by data scarcity and class imbalance, particularly for rare events like solar flares. Data augmentation techniques offer a potential solution to address these challenges, yet their effectiveness on multivariate time series datasets remains underexplored. In this study, we propose a novel data augmentation method for time series data named Mean Gaussian Noise (MGN). We investigate the performance of MGN compared to eight existing basic data augmentation methods on a multivariate time series dataset for solar flare prediction, SWAN-SF, using a ML algorithm for time series data, TimeSeriesSVC. The results demonstrate the efficacy of MGN and highlight its potential for improving classification performance in scenarios with extremely imbalanced data. Our time complexity analysis shows that MGN also has a competitive computational cost compared to the investigated alternative methods.
翻訳日:2024-06-03 15:46:08 公開日:2024-05-31
# 生態学におけるハイブリッド力学系の弱形式推論

Weak-Form Inference for Hybrid Dynamical Systems in Ecology ( http://arxiv.org/abs/2405.20591v1 )

ライセンス: Link先を確認
Daniel Messenger, Greg Dwyer, Vanja Dukic, (参考訳) 捕食や環境の脅威にさらされる種は、長い期間にわたって、人口ブームや乱獲の変動周期を示すのが一般的である。 このような行動の理解と予測は、特に短い時間スケールで外因性駆動因子の固有の不均一性と確率性を考えると、現在進行中の課題である。 このようなマルチスケール効果のために生態学で人気が高まっているモデリングパラダイムは、短期的な連続的なダイナミクスと長期的な離散的な更新を2つにまとめることである。 本研究では,弱形式方程式学習を利用したデータ駆動手法を開発し,人口動態のハイブリッドな支配方程式を抽出し,離散変数と連続変数のスパース断続値を用いて必要なパラメータを推定する。 本手法は, 長期変数でパラメータ化された短期連続力学系方程式と, 短期変数でパラメータ化された長期離散方程式の集合を生成し, 2つの時間スケール間の相互依存性の直接評価を可能にする。 北米のスポンジモト(Lymantria dispar dispar)が経験したてんかんモデルを用いて,様々な生態シナリオで本手法の有用性を実証した。

Species subject to predation and environmental threats commonly exhibit variable periods of population boom and bust over long timescales. Understanding and predicting such behavior, especially given the inherent heterogeneity and stochasticity of exogenous driving factors over short timescales, is an ongoing challenge. A modeling paradigm gaining popularity in the ecological sciences for such multi-scale effects is to couple short-term continuous dynamics to long-term discrete updates. We develop a data-driven method utilizing weak-form equation learning to extract such hybrid governing equations for population dynamics and to estimate the requisite parameters using sparse intermittent measurements of the discrete and continuous variables. The method produces a set of short-term continuous dynamical system equations parametrized by long-term variables, and long-term discrete equations parametrized by short-term variables, allowing direct assessment of interdependencies between the two time scales. We demonstrate the utility of the method on a variety of ecological scenarios and provide extensive tests using models previously derived for epizootics experienced by the North American spongy moth (Lymantria dispar dispar).
翻訳日:2024-06-03 15:46:08 公開日:2024-05-31
# LInK:メカニズム合成のためのコントラスト学習による設計空間と性能空間の合同表現の学習

LInK: Learning Joint Representations of Design and Performance Spaces through Contrastive Learning for Mechanism Synthesis ( http://arxiv.org/abs/2405.20592v1 )

ライセンス: Link先を確認
Amin Heyrani Nobari, Akash Srivastava, Dan Gutfreund, Kai Xu, Faez Ahmed, (参考訳) 本稿では,工学設計における複雑な逆問題と離散的かつ連続的な変数との解法を最適化するために,性能と設計空間のコントラスト学習を統合した新しいフレームワークであるLInKを紹介する。 平面リンク機構の経路合成問題に着目する。 マルチモーダルかつ変換不変なコントラスト学習フレームワークを活用することで、LInKは複雑な物理とメカニズムの設計表現をキャプチャする共同表現を学び、1000万以上のメカニズムからなる膨大なデータセットから迅速な検索を可能にする。 このアプローチは、階層的非制約非線形最適化アルゴリズムのウォームスタートにより、従来の最適化のロバスト性と、現代のディープラーニング手法の速度と適応性を組み合わせることにより、精度を向上する。 既存のベンチマークでは、LInKは既存のベンチマークの20倍の時間を要し、最先端のアプローチに比べて28倍のエラー率で既存のメソッドよりも優れていることを示した。 さらに、LINK-ABCという、英語の大文字の軌跡を辿るリンクを合成する、より困難なベンチマークを導入する。これは、既存のメソッドが、大きな非線形性と小さな実現可能なスペースのために苦労する逆設計ベンチマークタスクである。 以上の結果から,LInKは機構設計の分野を進展させるだけでなく,他の工学分野へのコントラスト学習や最適化の適用性も拡大することが示された。

In this paper, we introduce LInK, a novel framework that integrates contrastive learning of performance and design space with optimization techniques for solving complex inverse problems in engineering design with discrete and continuous variables. We focus on the path synthesis problem for planar linkage mechanisms. By leveraging a multi-modal and transformation-invariant contrastive learning framework, LInK learns a joint representation that captures complex physics and design representations of mechanisms, enabling rapid retrieval from a vast dataset of over 10 million mechanisms. This approach improves precision through the warm start of a hierarchical unconstrained nonlinear optimization algorithm, combining the robustness of traditional optimization with the speed and adaptability of modern deep learning methods. Our results on an existing benchmark demonstrate that LInK outperforms existing methods with 28 times less error compared to a state-of-the-art approach while taking 20 times less time on an existing benchmark. Moreover, we introduce a significantly more challenging benchmark, named LINK-ABC, which involves synthesizing linkages that trace the trajectories of English capital alphabets - an inverse design benchmark task that existing methods struggle with due to large non-linearities and tiny feasible space. Our results demonstrate that LInK not only advances the field of mechanism design but also broadens the applicability of contrastive learning and optimization to other areas of engineering.
翻訳日:2024-06-03 15:46:08 公開日:2024-05-31
# 重み対称性のないディープラーニング

Deep Learning without Weight Symmetry ( http://arxiv.org/abs/2405.20594v1 )

ライセンス: Link先を確認
Li Ji-An, Marcus K. Benna, (参考訳) ニューラルネットワークをトレーニングするための基礎アルゴリズムであるバックプロパゲーション(BP)は、現代のディープラーニングにおいて優位である。 非常に成功しているが、しばしば生物学的には不可能であると考えられている。 顕著な制限は、生物学的脳では観測されない勾配信号のバックプロパゲートのために、後方経路と前方経路の接続間の正確な対称性の必要性から生じる。 研究者は、フィードバックアライメントや直接フィードバックアライメントなど、この対称性の制約を緩和するアルゴリズムをいくつか提案している。 しかしながら、バックプロパゲーションダイナミクスからの分岐は、特に深いネットワークや畳み込み層において課題を呈している。 ここでは、製品フィードバックアライメント(PFA)アルゴリズムを紹介する。 以上の結果から,PFAはBPを近似し,明らかな重み対称性を回避しつつ,深い畳み込みネットワークにおいて同等の性能を発揮することが明らかとなった。 以上の結果から, 従来の手法と比較して, 深層畳み込みネットワークにおいて, より生物学的に妥当な学習につながることが示唆された。

Backpropagation (BP), a foundational algorithm for training artificial neural networks, predominates in contemporary deep learning. Although highly successful, it is often considered biologically implausible. A significant limitation arises from the need for precise symmetry between connections in the backward and forward pathways to backpropagate gradient signals accurately, which is not observed in biological brains. Researchers have proposed several algorithms to alleviate this symmetry constraint, such as feedback alignment and direct feedback alignment. However, their divergence from backpropagation dynamics presents challenges, particularly in deeper networks and convolutional layers. Here we introduce the Product Feedback Alignment (PFA) algorithm. Our findings demonstrate that PFA closely approximates BP and achieves comparable performance in deep convolutional networks while avoiding explicit weight symmetry. Our results offer a novel solution to the longstanding weight symmetry problem, leading to more biologically plausible learning in deep convolutional networks compared to earlier methods.
翻訳日:2024-06-03 15:36:24 公開日:2024-05-31
# 自己教師付き特徴適応による半教師付き一般学習

Generalized Semi-Supervised Learning via Self-Supervised Feature Adaptation ( http://arxiv.org/abs/2405.20596v1 )

ライセンス: Link先を確認
Jiachen Liang, Ruibing Hou, Hong Chang, Bingpeng Ma, Shiguang Shan, Xilin Chen, (参考訳) 従来の半教師付き学習(SSL)では、ラベル付きデータとラベルなしデータの特徴分布は一貫性があり、現実的なシナリオではまれである。 本稿では,ラベル付きサンプルの特徴分布から逸脱した混合分布からラベル付きサンプルを抽出するSSL設定を提案する。 この設定の下では、従来のSSLメソッドはラベル付きデータに適合したモデルで間違った擬似ラベルを予測し、ノイズの蓄積をもたらす傾向にある。 この問題に対処するために,ラベル付きおよびラベルなしデータが異なる分散から来る場合のSSLパフォーマンスを改善するための汎用フレームワークである,セルフ・スーパービジョン・フィーチャー・アダプション(SSFA)を提案する。 SSFAは擬似ラベルの予測を現在のモデルから切り離し、擬似ラベルの品質を向上させる。 特にSSFAは,自己管理タスクをSSLフレームワークに組み込んで,モデルの特徴抽出器をラベルのないデータに適応させる。 このように、抽出された特徴はラベルなしデータの分布に適合し、高品質な擬似ラベルを生成する。 拡張実験の結果,提案するSSFAは擬似ラベルベースのSSL学習者に適用可能であり,ラベル付き,ラベルなし,さらには見当たらない分布における性能を著しく向上することがわかった。

Traditional semi-supervised learning (SSL) assumes that the feature distributions of labeled and unlabeled data are consistent which rarely holds in realistic scenarios. In this paper, we propose a novel SSL setting, where unlabeled samples are drawn from a mixed distribution that deviates from the feature distribution of labeled samples. Under this setting, previous SSL methods tend to predict wrong pseudo-labels with the model fitted on labeled data, resulting in noise accumulation. To tackle this issue, we propose Self-Supervised Feature Adaptation (SSFA), a generic framework for improving SSL performance when labeled and unlabeled data come from different distributions. SSFA decouples the prediction of pseudo-labels from the current model to improve the quality of pseudo-labels. Particularly, SSFA incorporates a self-supervised task into the SSL framework and uses it to adapt the feature extractor of the model to the unlabeled data. In this way, the extracted features better fit the distribution of unlabeled data, thereby generating high-quality pseudo-labels. Extensive experiments show that our proposed SSFA is applicable to various pseudo-label-based SSL learners and significantly improves performance in labeled, unlabeled, and even unseen distributions.
翻訳日:2024-06-03 15:36:24 公開日:2024-05-31
# Augmented Emotional Semantics Learning を用いたマルチラベルクラスインクリメンタル感情デコーディング

Multi-label Class Incremental Emotion Decoding with Augmented Emotional Semantics Learning ( http://arxiv.org/abs/2405.20600v1 )

ライセンス: Link先を確認
Kaicheng Fu, Changde Du, Xiaoyu Chen, Jie Peng, Huiguang He, (参考訳) 感情の復号化は、感情的な人間とコンピュータの相互作用において重要な役割を果たす。 しかし、従来の研究では、人間による複数の感情のブレンドがモデルにインクリメンタルに統合され、マルチラベルクラスインクリメンタルラーニング(MLCIL)問題に繋がる、動的な現実のシナリオを無視していた。 既存の手法では、部分的なラベル問題と不十分なラベルセマンティクスマイニングに起因する破滅的な忘れ込みが原因で、MLCILの問題を解決するのが困難である。 本稿では,マルチラベルクラスインクリメンタルな感情デコーディングのための感情意味学習フレームワークを提案する。 具体的には,過去のラベル問題に対処するため,ラベルの曖昧さを伴う感情関係グラフモジュールを設計する。 そして, 感性次元空間からのドメイン知識を活用し, 知識蒸留による将来欠落部分ラベル問題を緩和する。 さらに、感情意味学習モジュールをグラフオートエンコーダで構築し、感情埋め込みを取得し、セマンティック固有の特徴分離を誘導し、より優れたマルチラベル学習を実現する。 3つのデータセットに対する大規模な実験により,感情の復号化性能の向上と,MLCIL問題に対する忘れを緩和する手法の優位性が示された。

Emotion decoding plays an important role in affective human-computer interaction. However, previous studies ignored the dynamic real-world scenario, where human experience a blend of multiple emotions which are incrementally integrated into the model, leading to the multi-label class incremental learning (MLCIL) problem. Existing methods have difficulty in solving MLCIL issue due to notorious catastrophic forgetting caused by partial label problem and inadequate label semantics mining. In this paper, we propose an augmented emotional semantics learning framework for multi-label class incremental emotion decoding. Specifically, we design an augmented emotional relation graph module with label disambiguation to handle the past-missing partial label problem. Then, we leverage domain knowledge from affective dimension space to alleviate future-missing partial label problem by knowledge distillation. Besides, an emotional semantics learning module is constructed with a graph autoencoder to obtain emotion embeddings in order to guide the semantic-specific feature decoupling for better multi-label learning. Extensive experiments on three datasets show the superiority of our method for improving emotion decoding performance and mitigating forgetting on MLCIL problem.
翻訳日:2024-06-03 15:36:24 公開日:2024-05-31
# タブラルデータ合成のための条件密度推定のためのマスケ言語モデリング

Masked Language Modeling Becomes Conditional Density Estimation for Tabular Data Synthesis ( http://arxiv.org/abs/2405.20602v1 )

ライセンス: Link先を確認
Seunghwan An, Gyeongdong Woo, Jaesung Lim, ChangHyun Kim, Sungchul Hong, Jong-June Jeon, (参考訳) 本稿では,機械学習ユーティリティ(MLu)を用いた異種(混合型)表型データセットの合成データを生成することを目的とする。 MLuの性能は条件分布を正確に近似することに依存しているため,条件分布推定に基づく合成データ生成手法の開発に注力する。 本研究では,Masked Language Modeling (MLM) のマルチクラス分類タスクをヒストグラムに基づく非パラメトリック条件密度推定として再定義し,新しい合成データ生成手法であるMaCoDEを提案する。 提案手法は,目的変数と条件変数の任意の組み合わせで条件密度を推定できる。 さらに,本提案手法は分布学習とMDMの理論的ギャップを埋めることを示した。 提案モデルの有効性を検証するため,10個の実世界のデータセット上で合成データ生成実験を行った。 MLMにおけるマスク付き入力トークンの予測と欠落データ計算との類似性を考えると,不完全なデータセットに対する複数の命令の性能を,様々なデータ機構が欠落している場合に評価する。 さらに,本提案モデルでは,データプライバシレベルの調整を,再トレーニングを必要とせずに行うことができる。

In this paper, our goal is to generate synthetic data for heterogeneous (mixed-type) tabular datasets with high machine learning utility (MLu). Given that the MLu performance relies on accurately approximating the conditional distributions, we focus on devising a synthetic data generation method based on conditional distribution estimation. We propose a novel synthetic data generation method, MaCoDE, by redefining the multi-class classification task of Masked Language Modeling (MLM) as histogram-based non-parametric conditional density estimation. Our proposed method enables estimating conditional densities across arbitrary combinations of target and conditional variables. Furthermore, we demonstrate that our proposed method bridges the theoretical gap between distributional learning and MLM. To validate the effectiveness of our proposed model, we conduct synthetic data generation experiments on 10 real-world datasets. Given the analogy between predicting masked input tokens in MLM and missing data imputation, we also evaluate the performance of multiple imputations on incomplete datasets with various missing data mechanisms. Moreover, our proposed model offers the advantage of enabling adjustments to data privacy levels without requiring re-training.
翻訳日:2024-06-03 15:36:24 公開日:2024-05-31
# 最適化LSTMモデルの性能と比較分析による金融リスク予測の改善

Advancing Financial Risk Prediction Through Optimized LSTM Model Performance and Comparative Analysis ( http://arxiv.org/abs/2405.20603v1 )

ライセンス: Link先を確認
Ke Xu, Yu Cheng, Shiqing Long, Junjie Guo, Jue Xiao, Mengfang Sun, (参考訳) 本稿では、金融リスク予測におけるLSTMモデルの適用と最適化に焦点を当てる。 この研究は、LSTMのアーキテクチャとアルゴリズムの基礎の概要から始まり、モデルトレーニングプロセスとハイパーパラメータチューニング戦略を詳述し、実験を通してネットワークパラメータを調整し、性能を向上させる。 比較実験により、最適化されたLSTMモデルは、ランダム森林、BPニューラルネットワーク、XGBoostと比較してAUC指数において大きな利点を示し、金融リスク予測分野におけるその効率性と実践性、特に実生産環境におけるモデルの適用の基礎となる複雑な時系列データを扱う能力を検証する。

This paper focuses on the application and optimization of LSTM model in financial risk prediction. The study starts with an overview of the architecture and algorithm foundation of LSTM, and then details the model training process and hyperparameter tuning strategy, and adjusts network parameters through experiments to improve performance. Comparative experiments show that the optimized LSTM model shows significant advantages in AUC index compared with random forest, BP neural network and XGBoost, which verifies its efficiency and practicability in the field of financial risk prediction, especially its ability to deal with complex time series data, which lays a solid foundation for the application of the model in the actual production environment.
翻訳日:2024-06-03 15:36:24 公開日:2024-05-31
# 深層学習に基づく内部シンボルの探索

Searching for internal symbols underlying deep learning ( http://arxiv.org/abs/2405.20605v1 )

ライセンス: Link先を確認
Jung H. Lee, Sujith Vijayan, (参考訳) ディープラーニング(DL)は、ディープニューラルネットワーク(DNN)が、指示や指針なしに、与えられた例から複雑なタスクやルールを自動的に学習することを可能にする。 DNNの機能を設計していないため、その決定を診断することは極めて困難であり、DNN/DL操作の原理を説明するために複数の研究ラインが提案されている。 特に、ある研究は、DNNが概念を学習し、高いレベルの特徴が人間に認識できることを示唆している。 そこで我々は、DNNが必ずしも人間には認識できない抽象的なコードを開発すると仮定し、DNNの意思決定を強化するのに使用できることを示した。 この仮説に対処するため、我々は基盤分割モデルと教師なし学習を組み合わせて、内部コードを抽出し、抽象コードの可能性を特定し、DLの決定をより信頼性と安全性を高める。

Deep learning (DL) enables deep neural networks (DNNs) to automatically learn complex tasks or rules from given examples without instructions or guiding principles. As we do not engineer DNNs' functions, it is extremely difficult to diagnose their decisions, and multiple lines of studies proposed to explain principles of DNNs/DL operations. Notably, one line of studies suggests that DNNs may learn concepts, the high level features recognizable to humans. Thus, we hypothesized that DNNs develop abstract codes, not necessarily recognizable to humans, which can be used to augment DNNs' decision-making. To address this hypothesis, we combined foundation segmentation models and unsupervised learning to extract internal codes and identify potential use of abstract codes to make DL's decision-making more reliable and safer.
翻訳日:2024-06-03 15:36:24 公開日:2024-05-31
# 3次元行動表現学習のためのクロスモーダル知識による段階的蒸留

Vision-Language Meets the Skeleton: Progressively Distillation with Cross-Modal Knowledge for 3D Action Representation Learning ( http://arxiv.org/abs/2405.20606v1 )

ライセンス: Link先を確認
Yang Chen, Tian He, Junfeng Fu, Ling Wang, Jingcai Guo, Hong Cheng, (参考訳) 教師付きおよび自己教師型学習は、骨格に基づく人間の行動認識のための2つの主要な訓練パラダイムである。 しかしながら、以前のワンホット分類では、労働集約的な事前定義されたアクションカテゴリアノテーションを必要とし、後者は、骨格構造を損なう可能性のあるプリテキストタスクにおける骨格変換(例えば、収穫)を含む。 これらの課題に対処するために, プログレッシブ蒸留を用いたクロスモーダルコントラスト学習に基づく新しいスケルトンベースのトレーニングフレームワーク(C$^2$VL)を導入する。 具体的には、事前に訓練された大型マルチモーダルモデル(LMM)によって生成される視覚言語知識プロンプトを用いて、視覚言語行動概念空間を確立する。 さらに,モーダル内自己相似性と,モーダル間相互整合性の軟化目標を提案する。 これらの柔らかいインスタンス識別と自己知識蒸留戦略は、ノイズの多い骨格ビジョン言語対からのより良い骨格に基づく行動表現の学習に寄与する。 推論フェーズでは,動作認識のための入力として骨格データのみが必要であり,視覚言語的なプロンプトは不要である。 実験の結果,NTU RGB+D 60, NTU RGB+D 120, PKU-MMDデータセットについて, 実験結果が得られた。 コードは将来的に利用可能になる予定だ。

Supervised and self-supervised learning are two main training paradigms for skeleton-based human action recognition. However, the former one-hot classification requires labor-intensive predefined action categories annotations, while the latter involves skeleton transformations (e.g., cropping) in the pretext tasks that may impair the skeleton structure. To address these challenges, we introduce a novel skeleton-based training framework (C$^2$VL) based on Cross-modal Contrastive learning that uses the progressive distillation to learn task-agnostic human skeleton action representation from the Vision-Language knowledge prompts. Specifically, we establish the vision-language action concept space through vision-language knowledge prompts generated by pre-trained large multimodal models (LMMs), which enrich the fine-grained details that the skeleton action space lacks. Moreover, we propose the intra-modal self-similarity and inter-modal cross-consistency softened targets in the cross-modal contrastive process to progressively control and guide the degree of pulling vision-language knowledge prompts and corresponding skeletons closer. These soft instance discrimination and self-knowledge distillation strategies contribute to the learning of better skeleton-based action representations from the noisy skeleton-vision-language pairs. During the inference phase, our method requires only the skeleton data as the input for action recognition and no longer for vision-language prompts. Extensive experiments show that our method achieves state-of-the-art results on NTU RGB+D 60, NTU RGB+D 120, and PKU-MMD datasets. The code will be available in the future.
翻訳日:2024-06-03 15:36:24 公開日:2024-05-31
# 放射線学レポート生成のためのテクスチュアル・インバージョンとセルフ教師付きリファインメント

Textual Inversion and Self-supervised Refinement for Radiology Report Generation ( http://arxiv.org/abs/2405.20607v1 )

ライセンス: Link先を確認
Yuanjiang Luo, Hongxiang Li, Xuan Wu, Meng Cao, Xiaoshuang Huang, Zhihong Zhu, Peixi Liao, Hu Chen, Yi Zhang, (参考訳) 既存の主流のアプローチは、ラジオロジーレポートを生成するエンコーダ-デコーダパラダイムに従っている。 エンコーダとデコーダのネットワーク構造の改善に重点を置いており、モダリティギャップを見落とし、レポートの内容制約を無視しているという2つの欠点を生み出している。 本稿では,この2つの問題に対処するため,テキスト・インバージョンと自己監督型リファインメント(TISR)を提案する。 具体的には、テキストインバージョンは、画像を擬似語として表現することで、テキストと画像が同じ空間に投影され、相互モデリングのギャップがなくなる。 その後、画像とテキスト間の対照的な損失計算によって擬似語を洗練させ、生成したレポートを画像に忠実さを高める。 特に、TISRは既存のほとんどの方法、プラグイン・アンド・プレイと直交している。 広範に利用されている2つの公開データセットの実験を行い、様々なベースラインで大幅な改善を実現し、TISRの有効性と一般化を実証する。 コードはまもなく利用可能になる。

Existing mainstream approaches follow the encoder-decoder paradigm for generating radiology reports. They focus on improving the network structure of encoders and decoders, which leads to two shortcomings: overlooking the modality gap and ignoring report content constraints. In this paper, we proposed Textual Inversion and Self-supervised Refinement (TISR) to address the above two issues. Specifically, textual inversion can project text and image into the same space by representing images as pseudo words to eliminate the cross-modeling gap. Subsequently, self-supervised refinement refines these pseudo words through contrastive loss computation between images and texts, enhancing the fidelity of generated reports to images. Notably, TISR is orthogonal to most existing methods, plug-and-play. We conduct experiments on two widely-used public datasets and achieve significant improvements on various baselines, which demonstrates the effectiveness and generalization of TISR. The code will be available soon.
翻訳日:2024-06-03 15:36:24 公開日:2024-05-31
# 文書イベント因果同定のための学習中の識別

Identifying while Learning for Document Event Causality Identification ( http://arxiv.org/abs/2405.20608v1 )

ライセンス: Link先を確認
Cheng Liu, Wei Xiang, Bang Wang, (参考訳) 事象因果同定(ECI)は、文書に2つの事象の間に因果関係が存在するかどうかを検出することを目的としている。 既存の研究では、学習パラダイムの後に、イベントの表現が最初に学習され、その識別に使用される、ある種の識別が採用されている。 さらに、主に因果関係の存在に焦点を当てるが、因果方向を無視している。 本稿では、因果方向のケアを行い、ECIタスクの学習モードにおける新たな識別法を提案する。 いくつかの因果関係は信頼性が高く容易に識別でき、これらの因果関係の方向性と構造は、次ラウンドの因果関係の特定を促進するためにイベントの表現を更新するために利用することができる。 それぞれのイテレーションにおいて、イベントの因果的構造表現を更新して因果的識別を促進するイベント因果性グラフを構築します。 2つの公開データセットの実験により,本手法は因果的存在同定と方向同定の両方の評価において,最先端のアルゴリズムよりも優れていることが示された。

Event Causality Identification (ECI) aims to detect whether there exists a causal relation between two events in a document. Existing studies adopt a kind of identifying after learning paradigm, where events' representations are first learned and then used for the identification. Furthermore, they mainly focus on the causality existence, but ignoring causal direction. In this paper, we take care of the causal direction and propose a new identifying while learning mode for the ECI task. We argue that a few causal relations can be easily identified with high confidence, and the directionality and structure of these identified causalities can be utilized to update events' representations for boosting next round of causality identification. To this end, this paper designs an *iterative learning and identifying framework*: In each iteration, we construct an event causality graph, on which events' causal structure representations are updated for boosting causal identification. Experiments on two public datasets show that our approach outperforms the state-of-the-art algorithms in both evaluations for causality existence identification and direction identification.
翻訳日:2024-06-03 15:36:24 公開日:2024-05-31
# アジャイルチームにおけるチームの自律性の出現に対する心理学的支持者

Psychological Antecedents to Emergence of Team Autonomy in Agile Scrum Teams ( http://arxiv.org/abs/2405.20609v1 )

ライセンス: Link先を確認
Ravikiran Kalluri, (参考訳) 本研究の目的は,ソフトウェア組織におけるアジャイルプロジェクトの成功につながるアジャイルチームの自律性の出現に,重要な心理的要因が与える影響を研究することである。

The purpose of this research study was to study the influence of key psychological factors on emergence of Agile team autonomy that leads to Agile project success in software organizations.
翻訳日:2024-06-03 15:36:24 公開日:2024-05-31
# 半教師付きセマンティックセグメンテーションにおける時間的知識の再検討と最大化

Revisiting and Maximizing Temporal Knowledge in Semi-supervised Semantic Segmentation ( http://arxiv.org/abs/2405.20610v1 )

ライセンス: Link先を確認
Wooseok Shin, Hyun Joon Park, Jin Sob Kim, Sung Won Han, (参考訳) 半教師付きセマンティックセグメンテーションにおいて、平均教師と共同学習に基づくアプローチは、確認バイアスとカップリング問題を緩和するために用いられる。 しかし、高い性能にもかかわらず、これらのアプローチは複雑なトレーニングパイプラインとかなりの計算負担を伴い、これらの手法のスケーラビリティと互換性を制限している。 本稿では,トレーニング過程において得られた時間的知識を最大限活用することにより,上記の制限を効果的に緩和するPrevMatchフレームワークを提案する。 PrevMatchフレームワークは,(1)時間的知識の利用を再考し,トレーニング中に得られたモデルを直接利用して,事前ガイダンスと呼ばれる追加の擬似ラベルガイダンスを生成する。 2) 事前指導の有効性を最大化するために, 高度にランダム化されたアンサンブル戦略を設計する。 4つのベンチマークセマンティックセグメンテーションデータセットの実験結果から,提案手法は様々な評価プロトコルにおいて既存手法よりも一貫して優れていたことが確認された。 特にDeepLabV3+とResNet-101ネットワーク設定では、PrevMatchは既存の最先端メソッドであるDiverse Co-trainingを92の注釈付きイメージでパスカルVOCで+1.6 mIoUで上回り、トレーニングは2.4倍高速である。 さらに、PrevMatchは、特にパフォーマンスの悪いクラスに、安定した最適化をもたらすことを示唆している。 コードはhttps://github.com/wooseok-shin/PrevMatchで入手できる。

In semi-supervised semantic segmentation, the Mean Teacher- and co-training-based approaches are employed to mitigate confirmation bias and coupling problems. However, despite their high performance, these approaches frequently involve complex training pipelines and a substantial computational burden, limiting the scalability and compatibility of these methods. In this paper, we propose a PrevMatch framework that effectively mitigates the aforementioned limitations by maximizing the utilization of the temporal knowledge obtained during the training process. The PrevMatch framework relies on two core strategies: (1) we reconsider the use of temporal knowledge and thus directly utilize previous models obtained during training to generate additional pseudo-label guidance, referred to as previous guidance. (2) we design a highly randomized ensemble strategy to maximize the effectiveness of the previous guidance. Experimental results on four benchmark semantic segmentation datasets confirm that the proposed method consistently outperforms existing methods across various evaluation protocols. In particular, with DeepLabV3+ and ResNet-101 network settings, PrevMatch outperforms the existing state-of-the-art method, Diverse Co-training, by +1.6 mIoU on Pascal VOC with only 92 annotated images, while achieving 2.4 times faster training. Furthermore, the results indicate that PrevMatch induces stable optimization, particularly in benefiting classes that exhibit poor performance. Code is available at https://github.com/wooseok-shin/PrevMatch
翻訳日:2024-06-03 15:36:24 公開日:2024-05-31
# Bi-Directional Transformers vs. Word2vec: Lifted Compiled Codeにおける脆弱性の発見

Bi-Directional Transformers vs. word2vec: Discovering Vulnerabilities in Lifted Compiled Code ( http://arxiv.org/abs/2405.20611v1 )

ライセンス: Link先を確認
Gary A. McCully, John D. Hastings, Shengjie Xu, Adam Fortier, (参考訳) コンパイルされたバイナリ内の脆弱性の検出は、高レベルのコード構造や、アーキテクチャ依存関係、コンパイラ、最適化オプションなどの他の要素が失われているため、難しい。 これらの障害に対処するために,Word2vec,BERT,RoBERTaを用いた自然言語処理(NLP)埋め込み技術を用いて,中間表現(LLVM)コードからセマンティクスを学習する。 長い短期記憶(LSTM)ニューラルネットワークは、Julietデータセットから約118kのLLVM関数を使用して生成されたエンコーダからの埋め込みをトレーニングした。 この研究は、LLVMコードを用いて構築された複数双方向トランスフォーマー(BERT, RoBERTa)埋め込みを用いたWord2vecモデルの比較において、コンパイルされたバイナリの脆弱性を検出するためにニューラルネットワークをトレーニングした。 word2vec Continuous Bag of Words (CBOW)モデルでは、脆弱性の検出、Word2vec Skip-Gram、BERT、RoBERTaの精度が92.3%向上した。 このことは、複雑な文脈的NLP埋め込みは、双方向トランスフォーマーベースモデルのトレーニングにデータサンプルの限られた数(118K)を使用する場合、このタスクに対してより単純な word2vec モデルよりも利点を示さないことを示唆している。 比較結果は、コンパイラに依存しないセマンティックコード表現を学習し、コンパイルされたバイナリの脆弱性を機械学習で検出する最適な埋め込みを選択するための新しい洞察を提供する。

Detecting vulnerabilities within compiled binaries is challenging due to lost high-level code structures and other factors such as architectural dependencies, compilers, and optimization options. To address these obstacles, this research explores vulnerability detection by using natural language processing (NLP) embedding techniques with word2vec, BERT, and RoBERTa to learn semantics from intermediate representation (LLVM) code. Long short-term memory (LSTM) neural networks were trained on embeddings from encoders created using approximately 118k LLVM functions from the Juliet dataset. This study is pioneering in its comparison of word2vec models with multiple bidirectional transformer (BERT, RoBERTa) embeddings built using LLVM code to train neural networks to detect vulnerabilities in compiled binaries. word2vec Continuous Bag of Words (CBOW) models achieved 92.3% validation accuracy in detecting vulnerabilities, outperforming word2vec Skip-Gram, BERT, and RoBERTa. This suggests that complex contextual NLP embeddings may not provide advantages over simpler word2vec models for this task when a limited number (e.g. 118K) of data samples are used to train the bidirectional transformer-based models. The comparative results provide novel insights into selecting optimal embeddings for learning compiler-independent semantic code representations to advance machine learning detection of vulnerabilities in compiled binaries.
翻訳日:2024-06-03 15:36:24 公開日:2024-05-31
# UniBias:内部の注意とFFN操作によるLDMバイアスの発見と緩和

UniBias: Unveiling and Mitigating LLM Bias through Internal Attention and FFN Manipulation ( http://arxiv.org/abs/2405.20612v1 )

ライセンス: Link先を確認
Hanzhang Zhou, Zijian Feng, Zixiao Zhu, Junlang Qian, Kezhi Mao, (参考訳) 大規模言語モデル(LLM)は、コンテキスト内学習(ICL)パラダイムを用いて、様々なタスクにおいて印象的な能力を示す。 しかしながら、それらの効果はしばしば固有のバイアスによって損なわれ、即ち脆さ、すなわち、例の選択、順序、即時フォーマッティングといったデザイン設定に対する感受性をもたらす。 これまでの研究では、モデル出力の外部調整を通じてLCMバイアスに対処してきたが、そのようなバイアスを引き起こす内部メカニズムは未解明のままである。 我々の研究はこれらのメカニズムを掘り下げ、特にフィードフォワードニューラルネットワーク(FFN)とアテンションヘッドがどのようにLCMのバイアスをもたらすかを調べる。 個々のFFNベクトルとアテンションヘッドの寄与を解釈することにより、特定のラベルに対するLLMの予測を歪ませる偏りのあるLLM成分を同定する。 これらのバイアスを軽減するために,推定のみの手法であるUniBiasを導入し,バイアス付きFFNベクトルとアテンションヘッドを効果的に識別・除去する。 12個のNLPデータセットにわたる大規模な実験により、UniBiasはICLの性能を大幅に向上し、LLMの脆さを緩和することが示された。

Large language models (LLMs) have demonstrated impressive capabilities in various tasks using the in-context learning (ICL) paradigm. However, their effectiveness is often compromised by inherent bias, leading to prompt brittleness, i.e., sensitivity to design settings such as example selection, order, and prompt formatting. Previous studies have addressed LLM bias through external adjustment of model outputs, but the internal mechanisms that lead to such bias remain unexplored. Our work delves into these mechanisms, particularly investigating how feedforward neural networks (FFNs) and attention heads result in the bias of LLMs. By Interpreting the contribution of individual FFN vectors and attention heads, we identify the biased LLM components that skew LLMs' prediction toward specific labels. To mitigate these biases, we introduce UniBias, an inference-only method that effectively identifies and eliminates biased FFN vectors and attention heads. Extensive experiments across 12 NLP datasets demonstrate that UniBias significantly enhances ICL performance and alleviates prompt brittleness of LLMs.
翻訳日:2024-06-03 15:36:24 公開日:2024-05-31
# FineRadScore:重度スコアによる補正を生成する線量評価手法

FineRadScore: A Radiology Report Line-by-Line Evaluation Technique Generating Corrections with Severity Scores ( http://arxiv.org/abs/2405.20613v1 )

ライセンス: Link先を確認
Alyssa Huang, Oishi Banerjee, Kay Wu, Eduardo Pontes Reis, Pranav Rajpurkar, (参考訳) 生成された胸部X線(CXR)の報告を評価するための現在の金の標準は、放射線検査によるアノテーションである。 しかし、このプロセスは、特に大量のレポートを評価する場合、非常に時間がかかり、コストがかかる可能性がある。 本稿では,Large Language Model(LLM)を用いたCXRレポートの自動評価指標であるFinRadScoreについて述べる。 FineRadScoreは、候補レポートと接地真実レポートが与えられた場合、その候補から接地真実レポートに進むのに必要な行ごとの修正を最小限に設定する。 さらに、FinRadScoreは、修正毎にエラーの重大度評価を提供し、なぜ修正が必要なのかを説明するコメントを生成する。 我々はFinRadScoreの補正と誤差重大度スコアが放射線学者の意見と一致していることを示した。 また、FinRadScoreは、レポートの質を全体として判断するために、放射線学者や現在の最先端の自動CXR評価指標と整合していることも示しています。 最後に、FinRadScoreの欠点を分析し、今後の改善を提案する。

The current gold standard for evaluating generated chest x-ray (CXR) reports is through radiologist annotations. However, this process can be extremely time-consuming and costly, especially when evaluating large numbers of reports. In this work, we present FineRadScore, a Large Language Model (LLM)-based automated evaluation metric for generated CXR reports. Given a candidate report and a ground-truth report, FineRadScore gives the minimum number of line-by-line corrections required to go from the candidate to the ground-truth report. Additionally, FineRadScore provides an error severity rating with each correction and generates comments explaining why the correction was needed. We demonstrate that FineRadScore's corrections and error severity scores align with radiologist opinions. We also show that, when used to judge the quality of the report as a whole, FineRadScore aligns with radiologists as well as current state-of-the-art automated CXR evaluation metrics. Finally, we analyze FineRadScore's shortcomings to provide suggestions for future improvements.
翻訳日:2024-06-03 15:36:24 公開日:2024-05-31
# EPIDetect:抗てんかん薬スクリーニングのための慢性てんかんモデルにおけるビデオによるけいれん発作検出

EPIDetect: Video-based convulsive seizure detection in chronic epilepsy mouse model for anti-epilepsy drug screening ( http://arxiv.org/abs/2405.20614v1 )

ライセンス: Link先を確認
Junming Ren, Zhoujian Xiao, Yujia Zhang, Yujie Yang, Ling He, Ezra Yoon, Stephen Temitayo Bello, Xi Chen, Dapeng Wu, Micky Tortorella, Jufang He, (参考訳) 予防的抗てんかん効果を有する薬剤候補は, 慢性てんかんモデルマウスにおいて, 自然再発性けいれん(SRSs), 特にけいれん性けいれん(CSs)の長期抑制効果を示す。 しかし、現在のCSのモニタリング方法には、侵入性、特定の実験室の設定、高コスト、複雑な手術の制限があり、薬物スクリーニングの取り組みを妨げている。 本研究では,慢性てんかんマウスにおけるCSの自動検出のためのカメラベースシステムを構築し,抗てんかん薬のスクリーニングを行った。

In the preclinical translational studies, drug candidates with remarkable anti-epileptic efficacy demonstrate long-term suppression of spontaneous recurrent seizures (SRSs), particularly convulsive seizures (CSs), in mouse models of chronic epilepsy. However, the current methods for monitoring CSs have limitations in terms of invasiveness, specific laboratory settings, high cost, and complex operation, which hinder drug screening efforts. In this study, a camera-based system for automated detection of CSs in chronically epileptic mice is first established to screen potential anti-epilepsy drugs.
翻訳日:2024-06-03 15:36:24 公開日:2024-05-31
# 機械学習とそれ以上の「忘れる」 - 調査より

"Forgetting" in Machine Learning and Beyond: A Survey ( http://arxiv.org/abs/2405.20620v1 )

ライセンス: Link先を確認
Alyssa Shuang Sha, Bernardo Pereira Nunes, Armin Haller, (参考訳) 本研究は, 機械学習における忘れの多面的性質を考察し, 欠陥ではなく適応関数として, 学習プロセスの強化と過度な適合の防止を図った神経科学研究から洞察を得た。 この調査は、モデルパフォーマンスを改善し、データのプライバシを向上させるのに役立つ、さまざまな機械学習サブフィールドにおける、忘れることのメリットとそのアプリケーションに焦点を当てている。 さらに,機械学習モデルへの思考機構の統合に関する現状の課題,今後の方向性,倫理的考察について論じる。

This survey investigates the multifaceted nature of forgetting in machine learning, drawing insights from neuroscientific research that posits forgetting as an adaptive function rather than a defect, enhancing the learning process and preventing overfitting. This survey focuses on the benefits of forgetting and its applications across various machine learning sub-fields that can help improve model performance and enhance data privacy. Moreover, the paper discusses current challenges, future directions, and ethical considerations regarding the integration of forgetting mechanisms into machine learning models.
翻訳日:2024-06-03 15:26:33 公開日:2024-05-31
# 決定木アルゴリズムの超高速選択

Superfast Selection for Decision Tree Algorithms ( http://arxiv.org/abs/2405.20622v1 )

ライセンス: Link先を確認
Huaduo Wang, Gopal Gupta, (参考訳) 本稿では,決定ツリーの「最適分割」と表データ上の特徴選択アルゴリズムを選択するための,Superfast Selectionと呼ばれる新奇で体系的な手法を提案する。 この方法は、O(MN) から O(M) へ、M は入力例の数を表し、N はユニークな値の数を表す。 さらに、特徴値の不均一性に対する1ホットや整数エンコーディングのようなプリエンコーディングの必要性も排除される。 超高速選択の効率性を示すために,超高速選択を組み込んで超高速決定木(UDT)と呼ばれるものを作成することにより,CARTアルゴリズムの強化を図る。 この拡張により、UTTは時間複雑性O(KMlogM)でトレーニングプロセスを完了できる(Kは機能数)。 さらに、トレーニングのみ チューニングにより、UDTは最適なハイパーパラメータを見つけるのに必要な反復的なトレーニングプロセスを避けることができる。 実験の結果、UTTは1秒以内にKDD99-10%データセット(41個の特徴を持つ494Kの例)で1回のトレーニングを完了し、ラップトップで0.25秒以内に214.8のハイパーパラメータセットでチューニングできることが示されている。

We present a novel and systematic method, called Superfast Selection, for selecting the "optimal split" for decision tree and feature selection algorithms over tabular data. The method speeds up split selection on a single feature by lowering the time complexity, from O(MN) (using the standard selection methods) to O(M), where M represents the number of input examples and N the number of unique values. Additionally, the need for pre-encoding, such as one-hot or integer encoding, for feature value heterogeneity is eliminated. To demonstrate the efficiency of Superfast Selection, we empower the CART algorithm by integrating Superfast Selection into it, creating what we call Ultrafast Decision Tree (UDT). This enhancement enables UDT to complete the training process with a time complexity O(KMlogM) (K is the number of features). Additionally, the Training Only Once Tuning enables UDT to avoid the repetitive training process required to find the optimal hyper-parameter. Experiments show that the UDT can finish a single training on KDD99-10% dataset (494K examples with 41 features) within 1 second and tuning with 214.8 sets of hyper-parameters within 0.25 second on a laptop.
翻訳日:2024-06-03 15:26:33 公開日:2024-05-31
# サーバではなくクライアントに挑む - フェデレートラーニングにおけるスパーストレーニングの促進

Prune at the Clients, Not the Server: Accelerated Sparse Training in Federated Learning ( http://arxiv.org/abs/2405.20623v1 )

ライセンス: Link先を確認
Georg Meinhardt, Kai Yi, Laurent Condat, Peter Richtárik, (参考訳) 最近のFL(Federated Learning)パラダイムでは、複数のクライアントがローカルデータをプライベートにしながら、共有モデルをトレーニングしている。 クライアントのリソース制約と通信コストは、FLで大規模モデルをトレーニングする上で大きな問題となる。 一方、クライアントのリソース制限に対処するため、スパーストレーニングは集中的な設定において強力なツールであることが証明されている。 一方、FLにおける通信コストは、各クライアントがそのローカルデータに対して複数のグラデーションステップを踏むローカルトレーニングによって対処することができる。 近年の研究では、局部訓練が最適な加速通信複雑性を達成できることが示されている(Mishchenko et al , 2022]。 したがって、高速化されたスパーストレーニングアルゴリズムが望まれる。 本研究では、サーバでのスパーストレーニングとアクセラレーションの統合が失敗し、クライアントが適切にこれらのタスクを実行することで、どのように修正するかを示す。 我々はRandProx[Condat and Richt\'arik, 2022]にインスパイアされた非凸設定のためのSparse-ProxSkipを提案する。 Sparse-ProxSkipの優れた性能を広範な実験で実証する。

In the recent paradigm of Federated Learning (FL), multiple clients train a shared model while keeping their local data private. Resource constraints of clients and communication costs pose major problems for training large models in FL. On the one hand, addressing the resource limitations of the clients, sparse training has proven to be a powerful tool in the centralized setting. On the other hand, communication costs in FL can be addressed by local training, where each client takes multiple gradient steps on its local data. Recent work has shown that local training can provably achieve the optimal accelerated communication complexity [Mishchenko et al., 2022]. Hence, one would like an accelerated sparse training algorithm. In this work we show that naive integration of sparse training and acceleration at the server fails, and how to fix it by letting the clients perform these tasks appropriately. We introduce Sparse-ProxSkip, our method developed for the nonconvex setting, inspired by RandProx [Condat and Richt\'arik, 2022], which provably combines sparse training and acceleration in the convex setting. We demonstrate the good performance of Sparse-ProxSkip in extensive experiments.
翻訳日:2024-06-03 15:26:33 公開日:2024-05-31
# エンティティマッチングのための大規模言語モデルを活用する

Leveraging Large Language Models for Entity Matching ( http://arxiv.org/abs/2405.20624v1 )

ライセンス: Link先を確認
Qianyu Huang, Tongfang Zhao, (参考訳) エンティティマッチング(EM)は、データ統合において重要なタスクであり、同じ現実世界のエンティティを参照するさまざまなデータセット間でレコードを識別することを目的としている。 従来の手法は手動で設計された機能やルールベースのシステムに依存しており、多様で非構造的なデータに悩まされている。 GPT-4のような大規模言語モデル(LLM)の出現は、その高度な意味的理解と文脈的能力を活用して、EMの変革的なポテンシャルを提供する。 本稿では,LLMのEMへの応用について検討し,そのメリット,課題,今後の研究方向性について論じる。 さらに,弱い監督と教師なしのアプローチをEMに適用する関連研究を概説し,LLMがこれらの手法をどのように拡張できるかを強調した。

Entity matching (EM) is a critical task in data integration, aiming to identify records across different datasets that refer to the same real-world entities. Traditional methods often rely on manually engineered features and rule-based systems, which struggle with diverse and unstructured data. The emergence of Large Language Models (LLMs) such as GPT-4 offers transformative potential for EM, leveraging their advanced semantic understanding and contextual capabilities. This vision paper explores the application of LLMs to EM, discussing their advantages, challenges, and future research directions. Additionally, we review related work on applying weak supervision and unsupervised approaches to EM, highlighting how LLMs can enhance these methods.
翻訳日:2024-06-03 15:26:33 公開日:2024-05-31
# LLM-Moduloフレームワークを用いたロバストプランニング:旅行計画におけるケーススタディ

Robust Planning with LLM-Modulo Framework: Case Study in Travel Planning ( http://arxiv.org/abs/2405.20625v1 )

ライセンス: Link先を確認
Atharva Gundawar, Mudit Verma, Lin Guan, Karthik Valmeekam, Siddhant Bhambri, Subbarao Kambhampati, (参考訳) LLM(Large Language Models)の適用性が従来のテキスト処理タスクを超えて拡大するにつれ、システム2の認知能力のために伝統的に予約された領域である、計画や推論の課題に優れている可能性への関心が高まっている。 汎用性は認識されているものの、研究コミュニティはこれらのモデルをそのような複雑な領域で活用するための効果的な戦略をまだ明らかにしていない。 LLM Moduloの論文で紹介された最近の談話は、LLMの多様な計画と推論活動への統合を強化する概念的な枠組みを提唱し、大きな一歩を踏み出した。 本ワークショップでは,旅行計画分野におけるこの枠組みの実践的応用を考察し,その実施事例について述べる。 我々は,OSU NLPグループによる旅行計画ベンチマークを用いて,自然言語で提示されたユーザクエリに基づいて,有効なイテレーションを生成する上でのLLMの性能を評価する。 また, GPT3.5-Turboでは, GPT3.5-Turboを0%, 0.6%, 0%とすると, LLM-Moduloフレームワークの動作性能が向上し, GPT4-Turboでは4.6倍, GPT3.5-Turboでは0%から5%に向上した。 さらに,LLM-Moduloで提案されているような計画パイプラインにおけるLLMの他の有用な役割についても強調する。

As the applicability of Large Language Models (LLMs) extends beyond traditional text processing tasks, there is a burgeoning interest in their potential to excel in planning and reasoning assignments, realms traditionally reserved for System 2 cognitive competencies. Despite their perceived versatility, the research community is still unraveling effective strategies to harness these models in such complex domains. The recent discourse introduced by the paper on LLM Modulo marks a significant stride, proposing a conceptual framework that enhances the integration of LLMs into diverse planning and reasoning activities. This workshop paper delves into the practical application of this framework within the domain of travel planning, presenting a specific instance of its implementation. We are using the Travel Planning benchmark by the OSU NLP group, a benchmark for evaluating the performance of LLMs in producing valid itineraries based on user queries presented in natural language. While popular methods of enhancing the reasoning abilities of LLMs such as Chain of Thought, ReAct, and Reflexion achieve a meager 0%, 0.6%, and 0% with GPT3.5-Turbo respectively, our operationalization of the LLM-Modulo framework for TravelPlanning domain provides a remarkable improvement, enhancing baseline performances by 4.6x for GPT4-Turbo and even more for older models like GPT3.5-Turbo from 0% to 5%. Furthermore, we highlight the other useful roles of LLMs in the planning pipeline, as suggested in LLM-Modulo, which can be reliably operationalized such as extraction of useful critics and reformulator for critics.
翻訳日:2024-06-03 15:26:33 公開日:2024-05-31
# ToxVidLLM: コードミキシングビデオにおける毒性検出のためのマルチモーダルLCMベースのフレームワーク

ToxVidLLM: A Multimodal LLM-based Framework for Toxicity Detection in Code-Mixed Videos ( http://arxiv.org/abs/2405.20628v1 )

ライセンス: Link先を確認
Krishanu Maity, A. S. Poornash, Sriparna Saha, Pushpak Bhattacharyya, (参考訳) 急速に発展するインターネット技術の時代、ビデオを含むマルチモーダルコンテンツの急増は、オンラインコミュニケーションの視野を広げた。 しかし、この多様なランドスケープ、特に低リソースのコード混在言語における有害なコンテンツの検出は、依然として重要な課題である。 テキストデータにおける有毒なコンテンツ検出には、かなりの研究が取り組んできたが、特に非英語におけるビデオコンテンツの領域は、比較的過小評価されている。 本稿は、YouTubeから収集した4021のコード混成ヒンディー語発話を含む931の動画からなる、この種のベンチマークデータセットを導入することで、この研究ギャップに対処する。 このデータセット内の各発話は、毒性、重度、感情ラベルに対して慎重に注釈付けされている。 我々は,大規模言語モデル(LLM)を活用した映像コンテンツの毒性検出のための高度なマルチモーダル・マルチタスク・フレームワークを開発した。 ToxVidLLMには、エンコーダモジュール、クロスモーダルシンクロナイゼーションモジュール、複雑なビデオ分類タスク用にカスタマイズされた汎用マルチモーダルLLMを作成するマルチタスクモジュールの3つの主要なモジュールが組み込まれている。 実験の結果, ビデオから複数のモダリティを取り入れることで, それぞれ94.29%, 94.35%の精度と重み付きF1スコアを達成し, 有毒なコンテンツ検出性能を著しく向上させることがわかった。

In an era of rapidly evolving internet technology, the surge in multimodal content, including videos, has expanded the horizons of online communication. However, the detection of toxic content in this diverse landscape, particularly in low-resource code-mixed languages, remains a critical challenge. While substantial research has addressed toxic content detection in textual data, the realm of video content, especially in non-English languages, has been relatively underexplored. This paper addresses this research gap by introducing a benchmark dataset, the first of its kind, consisting of 931 videos with 4021 code-mixed Hindi-English utterances collected from YouTube. Each utterance within this dataset has been meticulously annotated for toxicity, severity, and sentiment labels. We have developed an advanced Multimodal Multitask framework built for Toxicity detection in Video Content by leveraging Large Language Models (LLMs), crafted for the primary objective along with the additional tasks of conducting sentiment and severity analysis. ToxVidLLM incorporates three key modules the Encoder module, Cross-Modal Synchronization module, and Multitask module crafting a generic multimodal LLM customized for intricate video classification tasks. Our experiments reveal that incorporating multiple modalities from the videos substantially enhances the performance of toxic content detection by achieving an Accuracy and Weighted F1 score of 94.29% and 94.35%, respectively.
翻訳日:2024-06-03 15:26:33 公開日:2024-05-31
# 関数空間における拡散ブリッジの確率的最適制御

Stochastic Optimal Control for Diffusion Bridges in Function Spaces ( http://arxiv.org/abs/2405.20630v1 )

ライセンス: Link先を確認
Byoungwoo Park, Jungwon Choi, Sungbin Lim, Juho Lee, (参考訳) 拡散モデルと拡散ブリッジの最近の進歩は、主に有限次元空間に焦点を当てているが、多くの実世界の問題は、より自然で解釈可能な定式化のために無限次元函数空間での演算を必要とする。 本稿では,無限次元空間に適した確率的最適制御(SOC)の理論について述べる。 具体的には、拡散ブリッジを構成する基本的なツールであるDoobの$h$-transformが、SOCの観点から導出され、無限次元に拡張可能であることを実証する。 この拡張は、無限次元空間は典型的に閉形式密度を欠くため、挑戦となる。 本理論を応用し,目的関数選択による最適制御問題の解法が拡散モデル学習と等価であることを示す。 本研究では,(1)無限次元分布間の学習ブリッジと(2)無限次元分布からのサンプリングのための生成モデルを提案する。 提案手法は,解像度のない画像,時系列データ,確率密度関数などの連続関数空間表現に関わる多様な問題に対して有効であることを示す。

Recent advancements in diffusion models and diffusion bridges primarily focus on finite-dimensional spaces, yet many real-world problems necessitate operations in infinite-dimensional function spaces for more natural and interpretable formulations. In this paper, we present a theory of stochastic optimal control (SOC) tailored to infinite-dimensional spaces, aiming to extend diffusion-based algorithms to function spaces. Specifically, we demonstrate how Doob's $h$-transform, the fundamental tool for constructing diffusion bridges, can be derived from the SOC perspective and expanded to infinite dimensions. This expansion presents a challenge, as infinite-dimensional spaces typically lack closed-form densities. Leveraging our theory, we establish that solving the optimal control problem with a specific objective function choice is equivalent to learning diffusion-based generative models. We propose two applications: (1) learning bridges between two infinite-dimensional distributions and (2) generative models for sampling from an infinite-dimensional distribution. Our approach proves effective for diverse problems involving continuous function space representations, such as resolution-free images, time-series data, and probability density functions.
翻訳日:2024-06-03 15:26:33 公開日:2024-05-31
# Action-OOD:ロバストなアウト・オブ・ディストリビューション人間行動検出のためのエンド・ツー・エンドの骨格モデル

Action-OOD: An End-to-End Skeleton-Based Model for Robust Out-of-Distribution Human Action Detection ( http://arxiv.org/abs/2405.20633v1 )

ライセンス: Link先を確認
Jing Xu, Anqi Zhu, Jingyu Lin, Qiuhong Ke, Cunjian Chen, (参考訳) 人間の行動認識はコンピュータビジョンシステムにおいて重要な課題である。 しかし、現実のシナリオでは、人間の行動はトレーニングデータの配布の外に落ち、非配布(ID)アクションを認識し、アウト・オブ・ディストリビューション(OOD)アクションを拒否するモデルが必要である。 その重要性にもかかわらず、人間の行動におけるOODの検出については限定的な研究がなされている。 OOD検出に関する既存の研究は、主にRGB構造を持つ画像データに焦点を当てており、多くの手法は本質的にポストホックである。 これらの手法は便利で計算効率が良いが、十分な精度が欠如しており、OODサンプルの存在を考慮できないことが多い。 これらの課題に対処するため,OODの人体行動検出に特化して設計されたAction-OODと呼ばれる新しいエンドツーエンドスケルトンモデルを提案する。 既存のOODデータ配信の事前知識を必要とする既存のアプローチとは異なり、本モデルはトレーニング段階ではIDデータのみを使用しており、OOD検出で発生する過信問題を効果的に軽減する。 注意に基づく特徴融合ブロックを導入し、未知のクラスを識別し、既知のクラスの分類精度を保ちながら、モデルが未知のクラスを認識する能力を向上する。 さらに,新たなエネルギーベース損失関数を提案し,従来のクロスエントロピー損失とうまく統合し,IDとOOD間のデータ分布の分離を最大化する。 NTU-RGB+D 60, NTU-RGB+D 120, Kinetics-400データセットを用いて行った広範な実験を通じて, 提案手法の最先端手法と比較して, 提案手法の優れた性能を示す。 本研究は,骨格型行動認識タスクの文脈における従来のOOD検出技術の有効性を実証し,今後の研究に期待できる道筋を提供するものである。 コードは、https://github.com/YilliaJing/Action-OOD.git.comで入手できる。

Human action recognition is a crucial task in computer vision systems. However, in real-world scenarios, human actions often fall outside the distribution of training data, requiring a model to both recognize in-distribution (ID) actions and reject out-of-distribution (OOD) ones. Despite its importance, there has been limited research on OOD detection in human actions. Existing works on OOD detection mainly focus on image data with RGB structure, and many methods are post-hoc in nature. While these methods are convenient and computationally efficient, they often lack sufficient accuracy and fail to consider the presence of OOD samples. To address these challenges, we propose a novel end-to-end skeleton-based model called Action-OOD, specifically designed for OOD human action detection. Unlike some existing approaches that may require prior knowledge of existing OOD data distribution, our model solely utilizes in-distribution (ID) data during the training stage, effectively mitigating the overconfidence issue prevalent in OOD detection. We introduce an attention-based feature fusion block, which enhances the model's capability to recognize unknown classes while preserving classification accuracy for known classes. Further, we present a novel energy-based loss function and successfully integrate it with the traditional cross-entropy loss to maximize the separation of data distributions between ID and OOD. Through extensive experiments conducted on NTU-RGB+D 60, NTU-RGB+D 120, and Kinetics-400 datasets, we demonstrate the superior performance of our proposed approach compared to state-of-the-art methods. Our findings underscore the effectiveness of classic OOD detection techniques in the context of skeleton-based action recognition tasks, offering promising avenues for future research in this field. Code will be available at: https://github.com/YilliaJing/Action-OOD.git.
翻訳日:2024-06-03 15:26:33 公開日:2024-05-31
# グラフニューラルネットワークのヘテロ親和性分布伝播

Heterophilous Distribution Propagation for Graph Neural Networks ( http://arxiv.org/abs/2405.20640v1 )

ライセンス: Link先を確認
Zhuonan Zheng, Sheng Zhou, Hongjia Xu, Ming Gu, Yilun Xu, Ao Li, Yuhong Li, Jingjun Gu, Jiajun Bu, (参考訳) グラフニューラルネットワーク (GNN) は, グラフマイニングにおいて, 周辺地域からの情報を集約し, 表現学習に成功している。 この成功は、近傍のノードが類似した振る舞いを示すというホモフィリーな仮定に依存している。 近年,異種グラフニューラルネットワーク (HeterGNN) が注目されている。 しかし、それらは不十分な地区分割とヘテロフィリモデリングに悩まされており、どちらも重大なものであるが、突破は困難である。 本稿では,これらの課題に対処するために,グラフニューラルネットワークのためのヘテロ親和性分布伝播(HDP)を提案する。 すべての近隣から情報を集約する代わりに、HDPは訓練中に擬似的な割り当てに基づいて隣人をホモフィルとヘテロフィルに適応的に分離する。 ヘテロ親和性近傍の分布は、信頼されたプロトタイプのコントラスト学習パラダイムを通じて直交性指向の制約で学習される。 ホモ親和性パターンとヘテロ親和性パターンの両方が、新しいセマンティック・アウェア・メッセージパッシング機構によって伝播される。 我々は、異なるレベルのホモフィリーを持つ9つのベンチマークデータセットに対して広範な実験を行う。 実験結果から,本手法は異種データセットにおける代表的ベースラインよりも優れていた。

Graph Neural Networks (GNNs) have achieved remarkable success in various graph mining tasks by aggregating information from neighborhoods for representation learning. The success relies on the homophily assumption that nearby nodes exhibit similar behaviors, while it may be violated in many real-world graphs. Recently, heterophilous graph neural networks (HeterGNNs) have attracted increasing attention by modifying the neural message passing schema for heterophilous neighborhoods. However, they suffer from insufficient neighborhood partition and heterophily modeling, both of which are critical but challenging to break through. To tackle these challenges, in this paper, we propose heterophilous distribution propagation (HDP) for graph neural networks. Instead of aggregating information from all neighborhoods, HDP adaptively separates the neighbors into homophilous and heterphilous parts based on the pseudo assignments during training. The heterophilous neighborhood distribution is learned with orthogonality-oriented constraint via a trusted prototype contrastive learning paradigm. Both the homophilous and heterophilous patterns are propagated with a novel semantic-aware message passing mechanism. We conduct extensive experiments on 9 benchmark datasets with different levels of homophily. Experimental results show that our method outperforms representative baselines on heterophilous datasets.
翻訳日:2024-06-03 15:26:33 公開日:2024-05-31
# ロバストで効率的なクエリベースのブラックボックス攻撃防御のためのクエリプロバンス解析

Query Provenance Analysis for Robust and Efficient Query-based Black-box Attack Defense ( http://arxiv.org/abs/2405.20641v1 )

ライセンス: Link先を確認
Shaofei Li, Ziqi Zhang, Haomin Jia, Ding Li, Yao Guo, Xiangqun Chen, (参考訳) クエリベースのブラックボックス攻撃は機械学習システムにとって重大な脅威として現れており、敵は入力クエリを操作して、モデルの誤分類を引き起こす可能性のある敵の例を生成することができる。 これらの攻撃に対抗するために、研究者は、敵のクエリシーケンスを検出し、履歴クエリと「類似」なクエリを拒否するステートフルディフェンスモデル(SDM)を提案した。 既存のSOTA(State-of-the-art)のSDM(例えば、BlackLightとPIHA)は、これらの攻撃に対する防御に大きな効果を示している。 しかし、最近の研究では、より強力な適応攻撃戦略であるOracleが指導するAdaptive Rejection Sampling (OARS)攻撃に弱いことが示されている。 既存の攻撃アルゴリズムと容易に統合でき、SDMから漏れた決定情報を利用して、微調整された方向と摂動のステップサイズでクエリを生成することで、SDMを回避することができる。 本稿では,より堅牢で効率的なSDMのための新しい手法であるQPA(Query Provenance Analysis)を提案する。 QPAは、クエリ間の履歴関係をシーケンスの特徴としてカプセル化し、良性クエリシーケンスと逆性クエリシーケンスの基本的な違いをキャプチャする。 そこで本研究では,動的管理を併用した効率的な問合せ前処理解析アルゴリズムを提案する。 我々は,6つのクエリベースのブラックボックスアタックアルゴリズムを用いて,広く使用されている4つのデータセットに対して,2つのベースラインであるBlackLightとPIHAと比較した。 その結果、QPAは、非適応攻撃と適応攻撃の両方において、防御効果と効率の両面において、ベースラインよりも優れていた。 特に、QPAはOARSのアタック成功率(ASR)を4.08%に下げ、それぞれブラックライトとPIHAの77.63%と87.72%に下げている。 さらに、QPAはBlackLightやPIHAよりも7.67倍と2.25倍高いスループットを実現している。

Query-based black-box attacks have emerged as a significant threat to machine learning systems, where adversaries can manipulate the input queries to generate adversarial examples that can cause misclassification of the model. To counter these attacks, researchers have proposed Stateful Defense Models (SDMs) for detecting adversarial query sequences and rejecting queries that are "similar" to the history queries. Existing state-of-the-art (SOTA) SDMs (e.g., BlackLight and PIHA) have shown great effectiveness in defending against these attacks. However, recent studies have shown that they are vulnerable to Oracle-guided Adaptive Rejection Sampling (OARS) attacks, which is a stronger adaptive attack strategy. It can be easily integrated with existing attack algorithms to evade the SDMs by generating queries with fine-tuned direction and step size of perturbations utilizing the leaked decision information from the SDMs. In this paper, we propose a novel approach, Query Provenance Analysis (QPA), for more robust and efficient SDMs. QPA encapsulates the historical relationships among queries as the sequence feature to capture the fundamental difference between benign and adversarial query sequences. To utilize the query provenance, we propose an efficient query provenance analysis algorithm with dynamic management. We evaluate QPA compared with two baselines, BlackLight and PIHA, on four widely used datasets with six query-based black-box attack algorithms. The results show that QPA outperforms the baselines in terms of defense effectiveness and efficiency on both non-adaptive and adaptive attacks. Specifically, QPA reduces the Attack Success Rate (ASR) of OARS to 4.08%, comparing to 77.63% and 87.72% for BlackLight and PIHA, respectively. Moreover, QPA also achieves 7.67x and 2.25x higher throughput than BlackLight and PIHA.
翻訳日:2024-06-03 15:26:33 公開日:2024-05-31
# プリンシパル・エージェント・マルチタスキング:最適契約の一様性とその楽器的回帰による効率的な学習

Principal-Agent Multitasking: the Uniformity of Optimal Contracts and its Efficient Learning via Instrumental Regression ( http://arxiv.org/abs/2405.20642v1 )

ライセンス: Link先を確認
Shiliang Zuo, (参考訳) 本研究はマルチタスクプライマリエージェント問題を研究する。 最初に ``uniformity'' の結果を示します。 具体的には、タスクが完全置換であり、エージェントのコスト関数が一定の次数に均一であるとき、最適契約は各タスクの限界効用と等質度にのみ依存する。 次に、各タスクの限界効用が不明な環境で最適な契約を学習し、観測データで見積もる。 本稿では,この問題を測定誤差のある回帰問題とみなし,この問題を器用回帰問題とみなす。 現在の研究は、契約と繰り返し観測の両方が有効な機器変数として機能することを観察し、モーメント推定器の一般化手法を用いてオフラインデータからほぼ最適な契約を計算することを提案する。 また、オンライン設定を研究し、2つの推定器を用いて最適契約をオンライン形式で効率的に学習する方法を示します。 ここでは、プリンシパルは、探索-探索のトレードオフに直面している。彼女は、新しい契約を実験し、その結果を観察しなければならないと同時に、実験が最適契約からあまり逸脱しないことを保証する。 この研究は、繰り返し観測が可能であり、エージェントが十分に `diverse' であることを示し、プリンシパルは非常に低い$\widetilde{O}(d)$ cumulative utility loss を達成することができる。

This work studies the multitasking principal-agent problem. I first show a ``uniformity'' result. Specifically, when the tasks are perfect substitutes, and the agent's cost function is homogeneous to a certain degree, then the optimal contract only depends on the marginal utility of each task and the degree of homogeneity. I then study a setting where the marginal utility of each task is unknown so that the optimal contract must be learned or estimated with observational data. I identify this problem as a regression problem with measurement errors and observe that this problem can be cast as an instrumental regression problem. The current works observe that both the contract and the repeated observations (when available) can act as valid instrumental variables, and propose using the generalized method of moments estimator to compute an approximately optimal contract from offline data. I also study an online setting and show how the optimal contract can be efficiently learned in an online fashion using the two estimators. Here the principal faces an exploration-exploitation tradeoff: she must experiment with new contracts and observe their outcome whilst at the same time ensuring her experimentations are not deviating too much from the optimal contract. This work shows when repeated observations are available and agents are sufficiently ``diverse", the principal can achieve a very low $\widetilde{O}(d)$ cumulative utility loss, even with a ``pure exploitation" algorithm.
翻訳日:2024-06-03 15:26:33 公開日:2024-05-31
# ゲーズ対応コンポジションGANの学習

Learning Gaze-aware Compositional GAN ( http://arxiv.org/abs/2405.20643v1 )

ライセンス: Link先を確認
Nerea Aranjuelo, Siyu Huang, Ignacio Arganda-Carreras, Luis Unzueta, Oihana Otaegui, Hanspeter Pfister, Donglai Wei, (参考訳) 迷路アノテートされた顔データは、視線推定のためにディープニューラルネットワーク(DNN)のトレーニングに不可欠である。 しかし、これらのデータを取得するには労働集約的であり、被験者の視線方向を正確にアノテートすることの難しさから、特別な機器を必要とする。 本研究では、ラベル付きおよびラベルなしデータソースの利点を活用して、注釈付き視線データを作成するための生成フレームワークを提案する。 限定ラベル付きデータセットから注釈付き顔画像を生成することを学習するGaze対応コンポジションGANを提案する。 そして、このモデルをラベルのないデータドメインに転送し、それが提供する多様性を活用します。 ETH-XGazeデータセットにおける領域内画像拡張と,CelebAMask-HQデータセット領域におけるドメイン間画像拡張によるDNNトレーニングの視線推定の有効性を示す実験を行った。 また、顔画像編集や視線リダイレクトなど、我々の研究の応用例も紹介する。

Gaze-annotated facial data is crucial for training deep neural networks (DNNs) for gaze estimation. However, obtaining these data is labor-intensive and requires specialized equipment due to the challenge of accurately annotating the gaze direction of a subject. In this work, we present a generative framework to create annotated gaze data by leveraging the benefits of labeled and unlabeled data sources. We propose a Gaze-aware Compositional GAN that learns to generate annotated facial images from a limited labeled dataset. Then we transfer this model to an unlabeled data domain to take advantage of the diversity it provides. Experiments demonstrate our approach's effectiveness in generating within-domain image augmentations in the ETH-XGaze dataset and cross-domain augmentations in the CelebAMask-HQ dataset domain for gaze estimation DNN training. We also show additional applications of our work, which include facial image editing and gaze redirection.
翻訳日:2024-06-03 15:26:33 公開日:2024-05-31
# 大規模言語モデルによる長期ユーザと項目の逐次レコメンデーション

Large Language Models Enhanced Sequential Recommendation for Long-tail User and Item ( http://arxiv.org/abs/2405.20646v1 )

ライセンス: Link先を確認
Qidong Liu, Xian Wu, Xiangyu Zhao, Yejing Wang, Zijian Zhang, Feng Tian, Yefeng Zheng, (参考訳) シーケンシャルレコメンデーションシステム(SRS)は,過去のインタラクションに基づいてユーザのその後の嗜好を予測することを目的としており,電子商取引やソーシャルネットワーキングプラットフォームなど,さまざまな分野に応用されている。 しかし,現実的なSRSは,ほとんどのユーザが限られた数のアイテムにしか関わらないのに対して,ほとんどのアイテムは滅多に消費されないため,課題に直面している。 これらの課題は、長い尾のユーザージレンマと長い尾のアイテムジレンマと呼ばれ、しばしば伝統的なSRS手法の障害を生み出す。 これらの課題の緩和は、ユーザの満足度とビジネス利益性に大きな影響を与える可能性があるため、非常に重要です。 いくつかの研究はこれらの問題を緩和しているが、それでも相互作用の不足に起因するシーソーやノイズといった問題に悩まされている。 大規模言語モデル(LLM)の出現は、セマンティックな観点からこれらの課題に対処するための有望な道を示す。 本研究ではLLM-ESR(Large Language Models Enhancement framework for Sequential Recommendation)を提案する。 本研究では,LLMからの意味情報を従来のSRSからの協調信号と融合する2視点モデリング手法を提案する。 本研究では, ユーザの嗜好表現を改良するために, 類似ユーザからのリッチなインタラクションデータを組み込むことにより, ユーザの嗜好表現を洗練するための検索拡張自己蒸留手法を提案する。 提案手法は,3つのSRSモデルを用いた3つの真正データセットを用いた総合的な実験により,既存の手法と比較して優れた性能を示す。

Sequential recommendation systems (SRS) serve the purpose of predicting users' subsequent preferences based on their past interactions and have been applied across various domains such as e-commerce and social networking platforms. However, practical SRS encounters challenges due to the fact that most users engage with only a limited number of items, while the majority of items are seldom consumed. These challenges, termed as the long-tail user and long-tail item dilemmas, often create obstacles for traditional SRS methods. Mitigating these challenges is crucial as they can significantly impact user satisfaction and business profitability. While some research endeavors have alleviated these issues, they still grapple with issues such as seesaw or noise stemming from the scarcity of interactions. The emergence of large language models (LLMs) presents a promising avenue to address these challenges from a semantic standpoint. In this study, we introduce the Large Language Models Enhancement framework for Sequential Recommendation (LLM-ESR), which leverages semantic embeddings from LLMs to enhance SRS performance without increasing computational overhead. To combat the long-tail item challenge, we propose a dual-view modeling approach that fuses semantic information from LLMs with collaborative signals from traditional SRS. To address the long-tail user challenge, we introduce a retrieval augmented self-distillation technique to refine user preference representations by incorporating richer interaction data from similar users. Through comprehensive experiments conducted on three authentic datasets using three widely used SRS models, our proposed enhancement framework demonstrates superior performance compared to existing methodologies.
翻訳日:2024-06-03 15:26:33 公開日:2024-05-31
# Shotluck Holmes: ビデオキャプションと要約のための高効率な大規模言語ビジョンモデル

Shotluck Holmes: A Family of Efficient Small-Scale Large Language Vision Models For Video Captioning and Summarization ( http://arxiv.org/abs/2405.20648v1 )

ライセンス: Link先を確認
Richard Luo, Austin Peng, Adithya Vasudev, Rishabh Jain, (参考訳) ビデオはますます顕著で情報量の多いメディアだが、言語モデルには大きな課題がある。 典型的なビデオは、一括してコヒーレントな物語を形成する短いセグメントまたはショットからなる。 各ショットは、複数の情報ストリーム(視覚データや聴覚データなど)を同時に処理しなければならない文中の単語に類似している。 ビデオ全体の理解には、各ショットの視覚的音響情報を理解するだけでなく、各ショット間のアイデアをリンクして、より大きく、全アクセス可能なストーリーを生成する必要がある。 この分野における大きな進歩にもかかわらず、現在の作品はビデオのより細かいショット・バイ・ショットのセマンティック情報を見落としていることが多い。 本稿では,Shotluck Holmes というビデオ要約とキャプションを促進するために,LLVM を用いた効率的な大規模言語ビジョンモデルを提案する。 より優れた事前トレーニングとデータ収集戦略を活用することで、既存の小さなLLVMの能力を、画像の理解から、フレームのシーケンスの理解にまで拡張します。 具体的には、Shotluck Holmesは、Shot2Storyビデオキャプションと要約タスクにおいて、より小さく、より計算効率の良いモデルで、最先端の結果よりも優れた性能が得られることを示す。

Video is an increasingly prominent and information-dense medium, yet it poses substantial challenges for language models. A typical video consists of a sequence of shorter segments, or shots, that collectively form a coherent narrative. Each shot is analogous to a word in a sentence where multiple data streams of information (such as visual and auditory data) must be processed simultaneously. Comprehension of the entire video requires not only understanding the visual-audio information of each shot but also requires that the model links the ideas between each shot to generate a larger, all-encompassing story. Despite significant progress in the field, current works often overlook videos' more granular shot-by-shot semantic information. In this project, we propose a family of efficient large language vision models (LLVMs) to boost video summarization and captioning called Shotluck Holmes. By leveraging better pretraining and data collection strategies, we extend the abilities of existing small LLVMs from being able to understand a picture to being able to understand a sequence of frames. Specifically, we show that Shotluck Holmes achieves better performance than state-of-the-art results on the Shot2Story video captioning and summary task with significantly smaller and more computationally efficient models.
翻訳日:2024-06-03 15:26:33 公開日:2024-05-31
# 文書間関係抽出のための逆ベース入力構成法

Reward-based Input Construction for Cross-document Relation Extraction ( http://arxiv.org/abs/2405.20649v1 )

ライセンス: Link先を確認
Byeonghu Na, Suhyeon Jo, Yeongmin Kim, Il-Chul Moon, (参考訳) 関係抽出(RE)は自然言語処理の基本課題であり、テキスト中の対象エンティティ間の関係を識別することを目的としている。 多くのREメソッドは単一の文やドキュメント用に設計されているが、クロスドキュメントREは複数の長いドキュメント間の関係に対処するために現れている。 クロスドキュメントREにおける長い文書の性質を考えると、事前訓練された言語モデルの長さ制約のため、文書埋め込みの抽出は困難である。 そこで我々は,Reward-based Input Construction (REIC)を提案する。 REICはリレーショナルエビデンスに基づいて文を抽出し、REモジュールが効率的に関係を推測することを可能にする。 証拠文の監督は一般的に不可能であるため,RE予測スコアを報酬として強化学習を用いてREICを訓練する。 クロスドキュメントREの異なるRE構造と背骨に対するヒューリスティック手法よりも,本手法が優れていることを示す実験結果が得られた。 私たちのコードはhttps://github.com/aailabkaist/REICで公開されています。

Relation extraction (RE) is a fundamental task in natural language processing, aiming to identify relations between target entities in text. While many RE methods are designed for a single sentence or document, cross-document RE has emerged to address relations across multiple long documents. Given the nature of long documents in cross-document RE, extracting document embeddings is challenging due to the length constraints of pre-trained language models. Therefore, we propose REward-based Input Construction (REIC), the first learning-based sentence selector for cross-document RE. REIC extracts sentences based on relational evidence, enabling the RE module to effectively infer relations. Since supervision of evidence sentences is generally unavailable, we train REIC using reinforcement learning with RE prediction scores as rewards. Experimental results demonstrate the superiority of our method over heuristic methods for different RE structures and backbones in cross-document RE. Our code is publicly available at https://github.com/aailabkaist/REIC.
翻訳日:2024-06-03 15:26:33 公開日:2024-05-31
# GenMix:医療画像分類のための生成データと混合データの統合

GenMix: Combining Generative and Mixture Data Augmentation for Medical Image Classification ( http://arxiv.org/abs/2405.20650v1 )

ライセンス: Link先を確認
Hansang Lee, Haeil Lee, Helen Hong, (参考訳) 本稿では、生成的手法と混合的手法を組み合わせて、両方の手法の強みを利用するGenMixと呼ばれる新しいデータ拡張手法を提案する。 生成モデルは新たなデータパターンの作成に優れていますが、GANのモード崩壊や、拡散モデルのトレーニングの困難、特に限られた医療画像データといった課題に直面しています。 一方、混合モデルはクラス境界領域を強化するが、クラス不均衡のシナリオでは主要なクラスを好む傾向にある。 これらの制限に対処するため、GenMixは両方のアプローチを統合して相互補完する。 GenMix は,(1) 合成画像を生成するために生成モデルを訓練し,(2) 合成データと実データとの混合を行う。 このプロセスは、生成モデルの新たなパターン学習と混合モデルのバウンダリ強化の恩恵を受けながら、合成データの質と多様性を向上させる。 局所肝病変(FLL)をCT画像で分類する作業において,本法の有効性を検証した。 この結果から,GenMix は DCGAN, StyleGAN, Textual Inversion, Diffusion Models など,様々な生成モデルの性能を向上させることが示された。 特に、テキスト・インバージョンを用いた提案手法は、FLLデータセット上での微調整拡散モデルなしで他の手法よりも優れている。

In this paper, we propose a novel data augmentation technique called GenMix, which combines generative and mixture approaches to leverage the strengths of both methods. While generative models excel at creating new data patterns, they face challenges such as mode collapse in GANs and difficulties in training diffusion models, especially with limited medical imaging data. On the other hand, mixture models enhance class boundary regions but tend to favor the major class in scenarios with class imbalance. To address these limitations, GenMix integrates both approaches to complement each other. GenMix operates in two stages: (1) training a generative model to produce synthetic images, and (2) performing mixup between synthetic and real data. This process improves the quality and diversity of synthetic data while simultaneously benefiting from the new pattern learning of generative models and the boundary enhancement of mixture models. We validate the effectiveness of our method on the task of classifying focal liver lesions (FLLs) in CT images. Our results demonstrate that GenMix enhances the performance of various generative models, including DCGAN, StyleGAN, Textual Inversion, and Diffusion Models. Notably, the proposed method with Textual Inversion outperforms other methods without fine-tuning diffusion model on the FLL dataset.
翻訳日:2024-06-03 15:16:48 公開日:2024-05-31
# サインは治療ではない: 異種グラフの学習のためのマルチセットからマルチセットのメッセージパス

Sign is Not a Remedy: Multiset-to-Multiset Message Passing for Learning on Heterophilic Graphs ( http://arxiv.org/abs/2405.20652v1 )

ライセンス: Link先を確認
Langzhang Liang, Sunwoo Kim, Kijung Shin, Zenglin Xu, Shirui Pan, Yuan Qi, (参考訳) グラフニューラルネットワーク(GNN)は、特にホモ親和性グラフ構造化データにおいて、強力なモデリングと推論手法として注目されている。 隣接ノードが異種ラベルや特徴を示す異種グラフでGNNを強化するために、Signed Message Passing (SMP)が広く採用されている。 しかし、SMPの限界に関する理論的および実証的な分析が欠如している。 本稿では,SMPとその対策の潜在的な落とし穴について紹介する。 まず、マルチホップ隣人に対する望ましくない表現更新と、過度にスムースな問題に対する脆弱性の2つの制限を識別する。 これらの課題を克服するために,Multiset to Multiset GNN(M2M-GNN)と呼ばれる新しいメッセージパッシング関数を提案する。 我々の理論解析と広範な実験により、M2M-GNNは前述のSMPの制限を効果的に緩和し、比較性能が優れていることが示された。

Graph Neural Networks (GNNs) have gained significant attention as a powerful modeling and inference method, especially for homophilic graph-structured data. To empower GNNs in heterophilic graphs, where adjacent nodes exhibit dissimilar labels or features, Signed Message Passing (SMP) has been widely adopted. However, there is a lack of theoretical and empirical analysis regarding the limitations of SMP. In this work, we unveil some potential pitfalls of SMP and their remedies. We first identify two limitations of SMP: undesirable representation update for multi-hop neighbors and vulnerability against oversmoothing issues. To overcome these challenges, we propose a novel message passing function called Multiset to Multiset GNN(M2M-GNN). Our theoretical analyses and extensive experiments demonstrate that M2M-GNN effectively alleviates the aforementioned limitations of SMP, yielding superior performance in comparison
翻訳日:2024-06-03 15:16:48 公開日:2024-05-31
# 無音トークンによる大規模言語モデルに対するジェイルブレイク攻撃の強化

Enhancing Jailbreak Attack Against Large Language Models through Silent Tokens ( http://arxiv.org/abs/2405.20653v1 )

ライセンス: Link先を確認
Jiahao Yu, Haozheng Luo, Jerry Yao-Chieh, Wenbo Guo, Han Liu, Xinyu Xing, (参考訳) 言語モデルの顕著な成功に加えて、最近の研究は、脱獄攻撃を含むLLMのセキュリティ脅威の調査も開始した。 攻撃者は、標的のLSMが有害な質問に応答するように、ジェイルブレイクのプロンプトを慎重に作成する。 既存のジェイルブレイク攻撃では、人間の専門家か複雑なアルゴリズムを使ってジェイルブレイクのプロンプトを作らなければならない。 本稿では,eosトークンのみを利用する単純な攻撃であるBOOSTを紹介する。 我々は、複雑なジェイルブレイクプロンプトを構築する代わりに、攻撃者は有害な質問の最後にいくつかのeosトークンを追加するだけでよいことを示した。 LLMの安全アライメントを回避し、脱獄攻撃を成功させる。 さらに, BOOST を 4 つの代表的なjailbreak 手法に適用し, プロンプトに eos トークンを追加するだけで, 攻撃成功率を大幅に向上できることを示す。 この単純だが斬新な現象を理解するために、我々は経験的分析を行う。 分析の結果、eosトークンを追加することで、ターゲットのLSMは入力がより有害であると信じ、eosトークンは注意値が低く、有害な質問に対するLLMの理解に影響を与えないことが明らかとなり、モデルが実際に質問に答える結果となった。 LLMがジェイルブレイク攻撃に対して脆弱であることが判明し、強力な安全アライメントアプローチの開発が動機となった。

Along with the remarkable successes of Language language models, recent research also started to explore the security threats of LLMs, including jailbreaking attacks. Attackers carefully craft jailbreaking prompts such that a target LLM will respond to the harmful question. Existing jailbreaking attacks require either human experts or leveraging complicated algorithms to craft jailbreaking prompts. In this paper, we introduce BOOST, a simple attack that leverages only the eos tokens. We demonstrate that rather than constructing complicated jailbreaking prompts, the attacker can simply append a few eos tokens to the end of a harmful question. It will bypass the safety alignment of LLMs and lead to successful jailbreaking attacks. We further apply BOOST to four representative jailbreak methods and show that the attack success rates of these methods can be significantly enhanced by simply adding eos tokens to the prompt. To understand this simple but novel phenomenon, we conduct empirical analyses. Our analysis reveals that adding eos tokens makes the target LLM believe the input is much less harmful, and eos tokens have low attention values and do not affect LLM's understanding of the harmful questions, leading the model to actually respond to the questions. Our findings uncover how fragile an LLM is against jailbreak attacks, motivating the development of strong safety alignment approaches.
翻訳日:2024-06-03 15:16:48 公開日:2024-05-31
# 大規模言語モデルを用いた質問応答におけるパッセージ特化プロンプトチューニング

Passage-specific Prompt Tuning for Passage Reranking in Question Answering with Large Language Models ( http://arxiv.org/abs/2405.20654v1 )

ライセンス: Link先を確認
Xuyang Wu, Zhiyuan Peng, Sravanthi Rajanala, Hsin-Tai Wu, Yi Fang, (参考訳) オープンドメイン質問応答タスクの適切な候補を特定するために,有効経路検索と再ランク法が広く利用されてきたが,近年の研究では,各項目に条件付き質問のログ化によって,検索された経路を再ランク付けするLLMを用いている。 これらの手法は有望な結果を示したが、その性能は人書きのプロンプト(あるいはハードプロンプト)に顕著に敏感であり、微調整 LLM は計算集約的で時間を要する可能性がある。 さらに,LLMのランク付け能力を高めるために,質問パス関連ペアとパス固有知識の活用を制限した。 本稿では,学習可能なパス固有のソフトプロンプトを微調整するパラメータ効率の手法である,オープンドメイン質問応答(PSPT)における再ランク付けのためのパス固有プロンプトチューニングを提案する。 本手法は,各経路に条件付き質問と学習したソフトプロンプトを生成するモデルのログ類似度に基づいて,検索したパスのランク付けを行う。 Llama-2-chat-7Bモデルを3つの公開領域質問応答データセットに適用し,提案手法の有効性を実証した。

Effective passage retrieval and reranking methods have been widely utilized to identify suitable candidates in open-domain question answering tasks, recent studies have resorted to LLMs for reranking the retrieved passages by the log-likelihood of the question conditioned on each passage. Although these methods have demonstrated promising results, the performance is notably sensitive to the human-written prompt (or hard prompt), and fine-tuning LLMs can be computationally intensive and time-consuming. Furthermore, this approach limits the leverage of question-passage relevance pairs and passage-specific knowledge to enhance the ranking capabilities of LLMs. In this paper, we propose passage-specific prompt tuning for reranking in open-domain question answering (PSPT): a parameter-efficient method that fine-tunes learnable passage-specific soft prompts, incorporating passage-specific knowledge from a limited set of question-passage relevance pairs. The method involves ranking retrieved passages based on the log-likelihood of the model generating the question conditioned on each passage and the learned soft prompt. We conducted extensive experiments utilizing the Llama-2-chat-7B model across three publicly available open-domain question answering datasets and the results demonstrate the effectiveness of the proposed approach.
翻訳日:2024-06-03 15:16:48 公開日:2024-05-31
# 外部要約データの統合によるケース制御ロジスティック回帰の統計的推測

Statistical inference for case-control logistic regression via integrating external summary data ( http://arxiv.org/abs/2405.20655v1 )

ライセンス: Link先を確認
Hengchao Shi, Xinyi Liu, Ming Zheng, Wen Yu, (参考訳) ケースコントロールサンプリングは、バイナリデータの不均衡構造を緩和するために一般的に使用される振り返りサンプリング設計である。 対物論的回帰モデルとケース制御データとを合わせると、モデルの傾きパラメータは一貫して推定できるが、インターセプトパラメータは特定できず、限界ケース比も推定できない。 本研究では,本研究のケースコントロールデータである内科研究に加えて,関連する外部研究の要約レベル情報も検討する。 内部ケース制御データと外部情報を組み込んでロジスティックモデルを推定するために,実証的可能性に基づくアプローチを提案する。 本稿では, インターセプトパラメータが外部情報の助けを借りて識別可能であることを示す。 提案手法は,外部研究における可変性も考慮する。 結果の推定値は漸近的に分布することが示されている。 漸近分散共分散行列はケース制御データにより一貫して推定できる。 外部情報を利用するための最適な方法について議論する。 理論的な結果を検証するためにシミュレーション研究を行った。 実際のデータセットはイラストのために分析される。

Case-control sampling is a commonly used retrospective sampling design to alleviate imbalanced structure of binary data. When fitting the logistic regression model with case-control data, although the slope parameter of the model can be consistently estimated, the intercept parameter is not identifiable, and the marginal case proportion is not estimatable, either. We consider the situations in which besides the case-control data from the main study, called internal study, there also exists summary-level information from related external studies. An empirical likelihood based approach is proposed to make inference for the logistic model by incorporating the internal case-control data and external information. We show that the intercept parameter is identifiable with the help of external information, and then all the regression parameters as well as the marginal case proportion can be estimated consistently. The proposed method also accounts for the possible variability in external studies. The resultant estimators are shown to be asymptotically normally distributed. The asymptotic variance-covariance matrix can be consistently estimated by the case-control data. The optimal way to utilized external information is discussed. Simulation studies are conducted to verify the theoretical findings. A real data set is analyzed for illustration.
翻訳日:2024-06-03 15:16:48 公開日:2024-05-31
# フィールドトラップにおけるモスキート卵の自動計数と分類

Automatic Counting and Classification of Mosquito Eggs in Field Traps ( http://arxiv.org/abs/2405.20656v1 )

ライセンス: Link先を確認
Javier Naranjo-Alcazar, Jordi Grau-Haro, Pedro Zuccarello, David Almenar, Jesus Lopez-Ballester, (参考訳) 蚊が卵を挿入するフィールドトラップの解析は、不妊虫技術(SIT)が適切に機能していることを確認するのに不可欠である。 これは、ハッチした卵の数は、不妊オスが野生の卵と競合していないことを示唆している可能性があるためである。 現在、トラップの研究は顕微鏡で手作業で行われており、非常に時間がかかり、人的ミスを起こしやすい。 本稿では,自動トラップサーベイを提案する。 この目的のために、異なる重なり合う写真を取得するスラットを自動的にスキャンする装置が設計された。 その後、画像はMask-RCNNニューラルネットワークによって分析され、卵を分割し、それらを2つのクラス(フルまたはハッチ)に分類する。

The analysis of the field traps where the mosquitoes insert their eggs is vital to check that the sterile insect technique (SIT) is working properly. This is because the number of hatched eggs may indicate that the sterile males are not competing with the wild ones. Nowadays, the study of the traps is done manually by microscope and is very time-consuming and prone to human error. This paper presents an automatic trap survey. For this purpose, a device has been designed that automatically scans the slat obtaining different overlapping photos. Subsequently, the images are analyzed by a Mask-RCNN neural network that segments the eggs and classifies them into 2 classes: full or hatch
翻訳日:2024-06-03 15:16:48 公開日:2024-05-31
# DORY: LLMのリベラル・プロンプト・リカバリ

DORY: Deliberative Prompt Recovery for LLM ( http://arxiv.org/abs/2405.20657v1 )

ライセンス: Link先を確認
Lirong Gao, Ru Peng, Yiming Zhang, Junbo Zhao, (参考訳) 大規模言語モデル(LLM)のプロンプトリカバリは、LLMの動作方法を理解し、プライバシや著作権などに関する懸念に対処するために不可欠である。 推論のみのAPIへのトレンドは、リカバリに必要なアウトプットへのアクセスを制限することで、このタスクを複雑にしている。 この課題に対処するため、限られた出力からプロンプト関連情報を抽出し、出力確率に基づく不確実性とプロンプト回復の成功との強い(負の)相関を同定する。 この発見は、不確実性を利用してプロンプトを正確に回収する新しいアプローチであるDeliberative PrOmpt Recovery (DORY)の開発につながった。 DORYは出力からのドラフトを再構築し、ヒントでそれらを精製し、不確実性に基づいてノイズを除去する。 多様なLCMとプロンプトベンチマークによる評価の結果,DORYは既存のベースラインより優れ,約10.82%向上し,回復作業の迅速化のために新たな最先端記録を樹立した。 重要なことは、DORYは外部リソースやモデルなしで単一のLLMを使用しており、費用対効果が高く、ユーザフレンドリな迅速な回復ソリューションを提供する。

Prompt recovery in large language models (LLMs) is crucial for understanding how LLMs work and addressing concerns regarding privacy, copyright, etc. The trend towards inference-only APIs complicates this task by restricting access to essential outputs for recovery. To tackle this challenge, we extract prompt-related information from limited outputs and identify a strong(negative) correlation between output probability-based uncertainty and the success of prompt recovery. This finding led to the development of Deliberative PrOmpt RecoverY (DORY), our novel approach that leverages uncertainty to recover prompts accurately. DORY involves reconstructing drafts from outputs, refining these with hints, and filtering out noise based on uncertainty. Our evaluation across diverse LLMs and prompt benchmarks shows that DORY outperforms existing baselines, improving performance by approximately 10.82% and establishing a new state-of-the-art record in prompt recovery tasks. Significantly, DORY operates using a single LLM without any external resources or model, offering a cost-effective, user-friendly prompt recovery solution.
翻訳日:2024-06-03 15:16:48 公開日:2024-05-31
# 宇宙における冷間原子ジャイロスコープの実現

Realization of a cold atom gyroscope in space ( http://arxiv.org/abs/2405.20659v1 )

ライセンス: Link先を確認
Jinting Li, Xi Chen, Danfang Zhang, Wenzhang Wang, Yang Zhou, Meng He, Jie Fang, Lin Zhou, Chuan He, Junjie Jiang, Huanyao Sun, Qunfeng Chen, Lei Qin, Xiao Li, Yibo Wang, Xiaowei Zhang, Jiaqi Zhong, Runbing Li, Meizhen An, Long Zhang, Shuquan Wang, Zongfeng Li, Jin Wang, Mingsheng Zhan, (参考訳) 宇宙における高精度ジャイロスコープは、高度な科学実験と深宇宙ナビゲーションに重要である。 宇宙での微小重力は、冷たい原子ジャイロスコープの操作に理想的な条件を提供する。 この利点を実証するため、2022年に中国宇宙ステーションに原子干渉計(AI)が打ち上げられた。 このAIによって、冷たい原子ジャイロスコープが実現したと報告されている。 点源干渉計を適用して空間縁を求め、加速度と回転を抽出する。 ラマンレーザーの角度は測定誤差を避けるために正確に調整され、回転測定には他の系統的誤差も考慮されている。 評価された回転測定は空間における (-115.64+/-1.71)*10^-5 rad/s であり、単一の画像に対して1.03*10^-6 m/s^2 の加速度測定分解能も得られる。 この研究は、宇宙における最初のAIベースのジャイロスコープを実行し、将来の宇宙ベースのAI実験の道を開く。

High precision gyroscopes in space are important for sophisticated scientific experiments and deep space navigation. Microgravity in the space provides an ideal condition for operation of a cold atom gyroscope. To demonstrate this advantage, an atom interferometer (AI) was launched and installed in the China Space Station in 2022. Here reported is a realization of the cold atom gyroscope with this AI. By applying point source interferometry, spatial fringes are obtained and acceleration and rotation are extracted. The angles of the Raman lasers are precisely calibrated to avoid measurement error, and other systematic errors are also considered for the rotation measurement. The evaluated rotation measurement is (-115.64+/-1.71)*10^-5 rad/s in space, and an acceleration measurement resolution of 1.03*10^-6 m/s^2 is also obtained for a single image. This study conducts the first AI-based gyroscope in space and paves a way for future space-based AI experiments.
翻訳日:2024-06-03 15:16:48 公開日:2024-05-31
# ラテンアメリカにおける量子ソフトウェア工学の概要

An Overview of Quantum Software Engineering in Latin America ( http://arxiv.org/abs/2405.20661v1 )

ライセンス: Link先を確認
Alvaro M. Aparicio-Morales, Enrique Moguel, Luis Mariano Bibbo, Alejandro Fernandez, Jose Garcia-Alonso, Juan M. Murillo, (参考訳) 量子コンピューティングは、古典的なコンピュータの能力を超えた課題に対処する可能性を持つ、革命的な計算パラダイムである。 堅牢な量子ソフトウェアの開発は、量子コンピューティングの潜在能力を最大限に活用するためには不可欠である。 古典的ソフトウェアと同様に、量子ソフトウェアは複雑で広範囲であり、量子ソフトウェア工学として知られる専門分野を確立する必要がある。 この特別号におけるラテンアメリカへの地域的焦点を認識し、既存の文献の体系的なマッピング研究とこの分野の専門家の総合的な調査を網羅した詳細な調査を行った。 この厳格な研究活動は、大学、研究機関、ラテンアメリカ全土の企業によって実施されている量子ソフトウェアエンジニアリングイニシアチブの現況を照らすことを目的としています。 この徹底的な研究は、ラテンアメリカの文脈における量子ソフトウェア工学の進歩、課題、そして機会に関する情報を提供することを目的としている。 本研究は,先進的イニシアチブの創始とラテンアメリカの研究者の協力的努力を促進するための潜在的刺激として,この急成長分野における最先端開発に関するより深い理解を促進することを目的としている。

Quantum computing represents a revolutionary computational paradigm with the potential to address challenges beyond classical computers' capabilities. The development of robust quantum software is indispensable to unlock the full potential of quantum computing. Like classical software, quantum software is expected to be complex and extensive, needing the establishment of a specialized field known as Quantum Software Engineering. Recognizing the regional focus on Latin America within this special issue, we have boarded on an in-depth inquiry encompassing a systematic mapping study of existing literature and a comprehensive survey of experts in the field. This rigorous research effort aims to illuminate the current landscape of Quantum Software Engineering initiatives undertaken by universities, research institutes, and companies across Latin America. This exhaustive study aims to provide information on the progress, challenges, and opportunities in Quantum Software Engineering in the Latin American context. By promoting a more in-depth understanding of cutting-edge developments in this burgeoning field, our research aims to serve as a potential stimulus to initiate pioneering initiatives and encourage collaborative efforts among Latin American researchers.
翻訳日:2024-06-03 15:16:48 公開日:2024-05-31
# 学習アルゴリズムと対実説明生成アルゴリズムの弱ロバスト適合性

Weak Robust Compatibility Between Learning Algorithms and Counterfactual Explanation Generation Algorithms ( http://arxiv.org/abs/2405.20664v1 )

ライセンス: Link先を確認
Ao Xu, Tieru Wu, (参考訳) 疑似説明生成は、説明可能な人工知能の強力な方法である。 機械学習モデルがなぜ特定の決定を下すのか、その決定をどう変えるのか、といったことを理解するのに役立ちます。 したがって、対実的説明アルゴリズムの堅牢性を評価することが重要である。 過去の文献は入力インスタンスの摂動に基づく堅牢性について広く研究してきた。 しかしながら、摂動インスタンスの観点から定義されたロバスト性は、この定義がロバスト性に対する学習アルゴリズムの影響を無視しているため、バイアスを受けることがある。 本稿では,説明力の観点から,より合理的なWak Robust Compatibility(Wak Robust Compatibility)を提案する。 実際に我々は、より堅牢な反事実を生成するのに役立つWRC-Testを提案する。 一方, WRC-Testの有効性を検証する実験を設計した。 理論的には、PAC学習理論の概念を導入し、PAC WRC-Approximabilityの概念を定義する。 妥当な仮定に基づいて、弱い堅牢性に関するオラクルの不等式を確立し、PAC WRC-近似可能性に十分な条件を与える。

Counterfactual explanation generation is a powerful method for Explainable Artificial Intelligence. It can help users understand why machine learning models make specific decisions, and how to change those decisions. Evaluating the robustness of counterfactual explanation algorithms is therefore crucial. Previous literature has widely studied the robustness based on the perturbation of input instances. However, the robustness defined from the perspective of perturbed instances is sometimes biased, because this definition ignores the impact of learning algorithms on robustness. In this paper, we propose a more reasonable definition, Weak Robust Compatibility, based on the perspective of explanation strength. In practice, we propose WRC-Test to help us generate more robust counterfactuals. Meanwhile, we designed experiments to verify the effectiveness of WRC-Test. Theoretically, we introduce the concepts of PAC learning theory and define the concept of PAC WRC-Approximability. Based on reasonable assumptions, we establish oracle inequalities about weak robustness, which gives a sufficient condition for PAC WRC-Approximability.
翻訳日:2024-06-03 15:16:48 公開日:2024-05-31
# MASA:手話認識のための意味的アライメントを備えた動き認識型マスクオートエンコーダ

MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition ( http://arxiv.org/abs/2405.20666v1 )

ライセンス: Link先を確認
Weichao Zhao, Hezhen Hu, Wengang Zhou, Yunyao Mao, Min Wang, Houqiang Li, (参考訳) 手話認識(SLR)は、長い間、不十分なモデル表現能力に悩まされてきた。 現在の事前学習アプローチは、このジレンマをある程度緩和し、サインポーズデータに様々なプリテキストタスクを用いることで、有望なパフォーマンスを得られるが、これらの手法には2つの主要な制限がある。 1) 特定の動作情報は、通常、以前のプリテキストタスクでは無視され、部分的な情報損失と限られた表現能力に繋がる。 2) 従来の手法では, 語彙記号のグローバルな意味のガイダンスを組み込まずに, サインポーズシーケンスの局所的文脈に焦点を当てていた。 そこで本研究では,SLRのための自己教師型学習パラダイムにおいて,リッチモーションキューとグローバルセマンティック情報を統合した,セマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。 本フレームワークは,動作認識型マスク付きオートエンコーダ(MA)とモーメントセマンティックアライメントモジュール(SA)の2つの重要なコンポーネントを含む。 具体的には、MAにおいて、マスクされたフレームの運動残差を再構成する動き認識型マスク付き戦略を用いたオートエンコーダアーキテクチャを導入し、サインポーズシーケンス間の動的動きキューを明示的に探索する。 さらに,このフレームワークをグローバルな意味認識に組み込むことにより,入力シーケンスからの異なる追加サンプルの埋め込みを共有潜在空間に整列させることにより,そのフレームワークをグローバルな意味認識に組み込む。 このようにして、我々のフレームワークは、包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。 さらに, 提案手法の有効性を検証するため, 4つの公開ベンチマークにおいて, 新たな最先端性能を実現するための広範囲な実験を行った。

Sign language recognition (SLR) has long been plagued by insufficient model representation capabilities. Although current pre-training approaches have alleviated this dilemma to some extent and yielded promising performance by employing various pretext tasks on sign pose data, these methods still suffer from two primary limitations: 1) Explicit motion information is usually disregarded in previous pretext tasks, leading to partial information loss and limited representation capability. 2) Previous methods focus on the local context of a sign pose sequence, without incorporating the guidance of the global meaning of lexical signs. To this end, we propose a Motion-Aware masked autoencoder with Semantic Alignment (MASA) that integrates rich motion cues and global semantic information in a self-supervised learning paradigm for SLR. Our framework contains two crucial components, i.e., a motion-aware masked autoencoder (MA) and a momentum semantic alignment module (SA). Specifically, in MA, we introduce an autoencoder architecture with a motion-aware masked strategy to reconstruct motion residuals of masked frames, thereby explicitly exploring dynamic motion cues among sign pose sequences. Moreover, in SA, we embed our framework with global semantic awareness by aligning the embeddings of different augmented samples from the input sequence in the shared latent space. In this way, our framework can simultaneously learn local motion cues and global semantic features for comprehensive sign language representation. Furthermore, we conduct extensive experiments to validate the effectiveness of our method, achieving new state-of-the-art performance on four public benchmarks.
翻訳日:2024-06-03 15:16:48 公開日:2024-05-31
# マルチモーダルコントラスト学習と相互作用インフォマティクス推定によるパラトープとエピトープ予測の改善

Improving Paratope and Epitope Prediction by Multi-Modal Contrastive Learning and Interaction Informativeness Estimation ( http://arxiv.org/abs/2405.20668v1 )

ライセンス: Link先を確認
Zhiwei Wang, Yongkang Wang, Wen Zhang, (参考訳) 抗体-抗原結合残基、すなわちパラトープとエピトープの正確な予測は、抗体設計において重要である。 しかし、既存の手法は、一様データ(シーケンスや構造)にのみ焦点をあて、多様データに存在する相補的な情報を無視し、ほとんどの手法は、それぞれの空間的相互作用を見越して、パラトープとエピトープを別々に予測する。 本稿では, 抗体および抗原の配列および構造データを用いて, パラトピーおよびエピトープ予測のためのマルチモーダル・コントラスト学習とインタラクション情報性推定手法MIPEを提案する。 MIPEは、各モード内の結合残基と非結合残基の表現を最大化するマルチモーダルコントラスト学習戦略を実装し、一方、一様表現を効果的なモーダル表現に調整する。 空間的相互作用情報を活用するために、MIPEは、抗体と抗原の相互作用行列を推定し、それらを実際のものと近似する相互作用情報性推定も組み込んでいる。 大規模な実験により,本手法がベースラインよりも優れていることが示された。 さらに,マルチモーダルコントラスト学習により得られる表現性の向上と,対話情報度推定によって解釈される相互作用パターンにより,MIPEの優位性を示す。

Accurately predicting antibody-antigen binding residues, i.e., paratopes and epitopes, is crucial in antibody design. However, existing methods solely focus on uni-modal data (either sequence or structure), disregarding the complementary information present in multi-modal data, and most methods predict paratopes and epitopes separately, overlooking their specific spatial interactions. In this paper, we propose a novel Multi-modal contrastive learning and Interaction informativeness estimation-based method for Paratope and Epitope prediction, named MIPE, by using both sequence and structure data of antibodies and antigens. MIPE implements a multi-modal contrastive learning strategy, which maximizes representations of binding and non-binding residues within each modality and meanwhile aligns uni-modal representations towards effective modal representations. To exploit the spatial interaction information, MIPE also incorporates an interaction informativeness estimation that computes the estimated interaction matrices between antibodies and antigens, thereby approximating them to the actual ones. Extensive experiments demonstrate the superiority of our method compared to baselines. Additionally, the ablation studies and visualizations demonstrate the superiority of MIPE owing to the better representations acquired through multi-modal contrastive learning and the interaction patterns comprehended by the interaction informativeness estimation.
翻訳日:2024-06-03 15:16:48 公開日:2024-05-31
# Fourier123:ハイブリッドフーリエスコア蒸留による高品質3Dオブジェクト生成

Fourier123: One Image to High-Quality 3D Object Generation with Hybrid Fourier Score Distillation ( http://arxiv.org/abs/2405.20669v1 )

ライセンス: Link先を確認
Shuzhou Yang, Yu Wang, Haijie Li, Jiarui Meng, Xiandong Meng, Jian Zhang, (参考訳) 単一の画像から3D生成は、制御可能な3D資産を作る上で重要な要素である。 その制約の少ない性質から、3次元の新規なビュー生成拡散モデルからの幾何学的先行と、2次元画像生成法からの外観的先行を利用して最適化プロセスの導出を行う。 2次元拡散モデルと3次元拡散モデルの訓練データセットの間には相違があることに注意し、その出力は外観の顕著な相違を示す。 具体的には、2Dモデルはより詳細なビジュアルを提供する傾向があり、3Dモデルは異なるビューで一貫性があるが、過度に滑らかな結果を生成する。 したがって,空間領域における3次元先行値を用いた3次元ガウスの集合を最適化し,周波数領域における2次元先行値をフーリエ変換により高画質に活用する。 この2D-3Dハイブリッドフーリエスコア蒸留目標関数(hy-FSDと呼ばれる)は既存の3D生成手法に統合することができ、性能が大幅に向上した。 この技術により、Fourier123という高品質な3Dオブジェクトを1分以内で作成できる画像から3D生成パイプラインをさらに開発する。 大規模な実験により、フーリエ123は高速収束速度と視覚に優しい生成結果で効率的に生成できることが示されている。

Single image-to-3D generation is pivotal for crafting controllable 3D assets. Given its underconstrained nature, we leverage geometric priors from a 3D novel view generation diffusion model and appearance priors from a 2D image generation method to guide the optimization process. We note that a disparity exists between the training datasets of 2D and 3D diffusion models, leading to their outputs showing marked differences in appearance. Specifically, 2D models tend to deliver more detailed visuals, whereas 3D models produce consistent yet over-smooth results across different views. Hence, we optimize a set of 3D Gaussians using 3D priors in spatial domain to ensure geometric consistency, while exploiting 2D priors in the frequency domain through Fourier transform for higher visual quality. This 2D-3D hybrid Fourier Score Distillation objective function (dubbed hy-FSD), can be integrated into existing 3D generation methods, yielding significant performance improvements. With this technique, we further develop an image-to-3D generation pipeline to create high-quality 3D objects within one minute, named Fourier123. Extensive experiments demonstrate that Fourier123 excels in efficient generation with rapid convergence speed and visual-friendly generation results.
翻訳日:2024-06-03 15:16:48 公開日:2024-05-31
# 位置結合:変圧器長一般化のためのタスク構造の改善

Position Coupling: Leveraging Task Structure for Improved Length Generalization of Transformers ( http://arxiv.org/abs/2405.20671v1 )

ライセンス: Link先を確認
Hanseul Cho, Jaeyoung Cha, Pranjal Awasthi, Srinadh Bhojanapalli, Anupam Gupta, Chulhee Yun, (参考訳) 整数加算のような単純な算術的なタスクであっても、Transformerがトレーニング中に遭遇したものよりも長いシーケンスに一般化することは困難である。 そこで本研究では,タスクの構造を直接(デコーダのみ)変換器の位置符号化に組み込む,シンプルで効果的な位置結合法を提案する。 それぞれのトークンに固有の位置IDを割り当てるバニラ絶対位置機構から出発すると、同じ位置IDを2つ以上の「関連」トークンに割り当てる。 経験的側面から,提案した位置結合では,1桁から30桁の加算で訓練された小さな (1層) 変圧器が最大200桁の加算(トレーニングされた長さの6.67倍)を一般化可能であることを示す。 理論的には、結合位置を持つ1層トランスは指数的に多くの桁を含む加算タスクを解くことができるが、位置情報を持たない1層トランスでは完全には解けない。 また,複数サマンドの追加,Nx2乗算,コピー/リバース,二次元タスクなど,他のアルゴリズムタスクにも位置カップリングが適用可能であることを示す。

Even for simple arithmetic tasks like integer addition, it is challenging for Transformers to generalize to longer sequences than those encountered during training. To tackle this problem, we propose position coupling, a simple yet effective method that directly embeds the structure of the tasks into the positional encoding of a (decoder-only) Transformer. Taking a departure from the vanilla absolute position mechanism assigning unique position IDs to each of the tokens, we assign the same position IDs to two or more "relevant" tokens; for integer addition tasks, we regard digits of the same significance as in the same position. On the empirical side, we show that with the proposed position coupling, a small (1-layer) Transformer trained on 1 to 30-digit additions can generalize up to 200-digit additions (6.67x of the trained length). On the theoretical side, we prove that a 1-layer Transformer with coupled positions can solve the addition task involving exponentially many digits, whereas any 1-layer Transformer without positional information cannot entirely solve it. We also demonstrate that position coupling can be applied to other algorithmic tasks such as addition with multiple summands, Nx2 multiplication, copy/reverse, and a two-dimensional task.
翻訳日:2024-06-03 15:16:48 公開日:2024-05-31
# 敵対的摂動に対するCNNの特徴レベル脆弱性の調査と解析

Investigating and unmasking feature-level vulnerabilities of CNNs to adversarial perturbations ( http://arxiv.org/abs/2405.20672v1 )

ライセンス: Link先を確認
Davide Coppola, Hwee Kuan Lee, (参考訳) 本研究は, 畳み込みニューラルネットワーク(CNN)に対する敵対的摂動の影響について検討し, その基盤となるメカニズムの理解を深めることを目的とした。 文献では多くの防衛手法が提案されているが、この現象についてはまだ不完全な理解が残っている。 モデル全体を脆弱性として扱う代わりに、トレーニング中に学習した特定の特徴マップが全体的な脆弱性に寄与することを提案します。 CNNが学習した隠れ表現がその脆弱性にどのように影響するかを調べるために、Adversarial Interventionフレームワークを導入する。 実験は、よく知られた3つのコンピュータビジョンデータセットで訓練されたモデルで行われ、異なる性質の攻撃を受けた。 我々の焦点は、モデルの初期層に対する敵の摂動がモデル全体の振舞いに与える影響に焦点を当てる。 実験の結果、説得力のある洞察が浮かび上がった。 a) 浅い層に選択されたチャネルの組み合わせが大きな破壊を引き起こすこと。 b) 破壊に最も責任を負うチャネルの組み合わせは,異なる種類の攻撃に共通する。 c) チャンネルの脆弱な組み合わせにもかかわらず,異なる攻撃は,さまざまな大きさの隠蔽表現に影響を及ぼす。 d) カーネルの規模と脆弱性の間には正の相関関係が存在する。 結論として, 本研究は, CNNモデルの逆摂動に対する脆弱性を研究するための新しい枠組みを導入し, 現象のより深い理解に寄与する洞察を明らかにする。 同定された特性は、将来の応用において効率的なアドホック防御機構を開発するための道を開く。

This study explores the impact of adversarial perturbations on Convolutional Neural Networks (CNNs) with the aim of enhancing the understanding of their underlying mechanisms. Despite numerous defense methods proposed in the literature, there is still an incomplete understanding of this phenomenon. Instead of treating the entire model as vulnerable, we propose that specific feature maps learned during training contribute to the overall vulnerability. To investigate how the hidden representations learned by a CNN affect its vulnerability, we introduce the Adversarial Intervention framework. Experiments were conducted on models trained on three well-known computer vision datasets, subjecting them to attacks of different nature. Our focus centers on the effects that adversarial perturbations to a model's initial layer have on the overall behavior of the model. Empirical results revealed compelling insights: a) perturbing selected channel combinations in shallow layers causes significant disruptions; b) the channel combinations most responsible for the disruptions are common among different types of attacks; c) despite shared vulnerable combinations of channels, different attacks affect hidden representations with varying magnitudes; d) there exists a positive correlation between a kernel's magnitude and its vulnerability. In conclusion, this work introduces a novel framework to study the vulnerability of a CNN model to adversarial perturbations, revealing insights that contribute to a deeper understanding of the phenomenon. The identified properties pave the way for the development of efficient ad-hoc defense mechanisms in future applications.
翻訳日:2024-06-03 15:16:48 公開日:2024-05-31
# 4Diffusion:4D生成のための多視点ビデオ拡散モデル

4Diffusion: Multi-view Video Diffusion Model for 4D Generation ( http://arxiv.org/abs/2405.20674v1 )

ライセンス: Link先を確認
Haiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao, (参考訳) 現在の4D生成法は、高度な拡散生成モデルの助けを借りて有意義な有効性を実現している。 しかし、これらの手法には多視点空間時間モデルが欠如しており、多様な事前知識を複数の拡散モデルから統合する際の課題に直面する。 本稿では,モノクロ映像から空間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプラインを提案する。 まず、学習可能なモーションモジュールをフリーズした3次元拡散モデルに組み込むことで、多視点映像生成に適した統合拡散モデルを設計し、多視点空間時間相関を捉える。 計算したデータセットをトレーニングした後、我々の拡散モデルは適切な時間的整合性を取得し、3D対応拡散モデルの一般化性と空間的整合性を本質的に保持する。 次に, 動的NeRFによりパラメータ化される4D表現を最適化するために, 多視点ビデオ拡散モデルに基づく4D対応スコア蒸留サンプリング損失を提案する。 これは、複数の拡散モデルから生じる不一致を解消し、空間的に時間的に一貫した4Dコンテンツを生成することを目的としている。 さらに,外見の細部を強化し,動的NeRFの学習を容易にするアンカーロスを考案した。 大規模定性的および定量的実験により,本手法は従来法に比べて優れた性能を示した。

Current 4D generation methods have achieved noteworthy efficacy with the aid of advanced diffusion generative models. However, these methods lack multi-view spatial-temporal modeling and encounter challenges in integrating diverse prior knowledge from multiple diffusion models, resulting in inconsistent temporal appearance and flickers. In this paper, we propose a novel 4D generation pipeline, namely 4Diffusion aimed at generating spatial-temporally consistent 4D content from a monocular video. We first design a unified diffusion model tailored for multi-view video generation by incorporating a learnable motion module into a frozen 3D-aware diffusion model to capture multi-view spatial-temporal correlations. After training on a curated dataset, our diffusion model acquires reasonable temporal consistency and inherently preserves the generalizability and spatial consistency of the 3D-aware diffusion model. Subsequently, we propose 4D-aware Score Distillation Sampling loss, which is based on our multi-view video diffusion model, to optimize 4D representation parameterized by dynamic NeRF. This aims to eliminate discrepancies arising from multiple diffusion models, allowing for generating spatial-temporally consistent 4D content. Moreover, we devise an anchor loss to enhance the appearance details and facilitate the learning of dynamic NeRF. Extensive qualitative and quantitative experiments demonstrate that our method achieves superior performance compared to previous methods.
翻訳日:2024-06-03 15:07:03 公開日:2024-05-31
# Adv-KD:高速拡散サンプリングのための逆知識蒸留

Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling ( http://arxiv.org/abs/2405.20675v1 )

ライセンス: Link先を確認
Kidist Amde Mekonnen, Nicola Dall'Asen, Paolo Rota, (参考訳) 拡散確率モデル(DPM)は深層生成モデルの強力なクラスとして登場し、画像合成タスクにおいて顕著な性能を達成している。 しかし、これらのモデルは、サンプル生成中のシーケンシャルなデノナイジングステップに依存しているため、広く採用されているため、課題に直面している。 この依存は、かなりの計算要求をもたらすため、リソース制約やリアルタイム処理システムには適さない。 これらの課題に対処するため,モデルアーキテクチャに直接位相を分解する手法を提案し,資源集約型計算の必要性を軽減した。 提案手法は,拡散モデルとGANを知識蒸留により組み合わせることで,より効率的なトレーニングと評価を可能にする。 教師モデルとして事前学習した拡散モデルを利用することで,教師モデルの出力を様々な点で予測するために,教師モデルとサブモジュールの階層的変換を用いて,逆学習を通じて学生モデルを訓練する。 この統合により、パラメータの数と必要なステップが大幅に削減され、テスト時のサンプリング速度が向上する。 提案手法を広範囲な実験により検証し,既存手法と比較して計算量の削減による性能向上を実証した。 本研究は,資源制約されたデバイスへの拡散モデルの展開を可能にすることにより,その計算負担を軽減し,研究コミュニティとエンドユーザーを対象に,より広範なアクセシビリティと実践的利用の道を開く。 私たちのコードはhttps://github.com/kidist-amde/Adv-KDで公開されています。

Diffusion Probabilistic Models (DPMs) have emerged as a powerful class of deep generative models, achieving remarkable performance in image synthesis tasks. However, these models face challenges in terms of widespread adoption due to their reliance on sequential denoising steps during sample generation. This dependence leads to substantial computational requirements, making them unsuitable for resource-constrained or real-time processing systems. To address these challenges, we propose a novel method that integrates denoising phases directly into the model's architecture, thereby reducing the need for resource-intensive computations. Our approach combines diffusion models with generative adversarial networks (GANs) through knowledge distillation, enabling more efficient training and evaluation. By utilizing a pre-trained diffusion model as a teacher model, we train a student model through adversarial learning, employing layerwise transformations for denoising and submodules for predicting the teacher model's output at various points in time. This integration significantly reduces the number of parameters and denoising steps required, leading to improved sampling speed at test time. We validate our method with extensive experiments, demonstrating comparable performance with reduced computational requirements compared to existing approaches. By enabling the deployment of diffusion models on resource-constrained devices, our research mitigates their computational burden and paves the way for wider accessibility and practical use across the research community and end-users. Our code is publicly available at https://github.com/kidist-amde/Adv-KD
翻訳日:2024-06-03 15:07:03 公開日:2024-05-31
# パーソナライズされたリワードを用いた対話型学習

Provably Efficient Interactive-Grounded Learning with Personalized Reward ( http://arxiv.org/abs/2405.20677v1 )

ライセンス: Link先を確認
Mengxiao Zhang, Yuheng Zhang, Haipeng Luo, Paul Mineiro, (参考訳) インタラクティブ・グラウンドド・ラーニング(Interactive-Grounded Learning, IGL) [Xie et al , 2021] は、学習者が環境と対話し、獲得した行動に対する報酬依存のフィードバックを観察することによって、観測不可能な報酬を最大化することを目的とした強力なフレームワークである。 推薦システムなどのアプリケーションでユビキタスなパーソナライズされた報酬に対処するために、Maghakian氏ら[2022]は、コンテキスト依存のフィードバックでIGLのバージョンを研究しているが、そのアルゴリズムには理論的保証はない。 本研究では,同じ問題を考察し,実現可能性下でのサブ線形後悔を伴う最初の証明可能なアルゴリズムを提供する。 解析の結果,先行作業のステップ関数推定器は有限サンプル効果により非制御的に逸脱しうることが明らかとなった。 我々の解は、真の報酬を過小評価し、良好な一般化性能を享受する新しいリプシッツ報酬推定器である。 この推定器を用いて,探索列探索と逆ギャップ重み付けに基づく2つのアルゴリズムを提案する。 IGLを画像フィードバックから学習し、テキストフィードバックから学習する。 実験の結果,リプシッツ報酬推定器の使用の重要性とアルゴリズムの全体的な有効性を示した。

Interactive-Grounded Learning (IGL) [Xie et al., 2021] is a powerful framework in which a learner aims at maximizing unobservable rewards through interacting with an environment and observing reward-dependent feedback on the taken actions. To deal with personalized rewards that are ubiquitous in applications such as recommendation systems, Maghakian et al. [2022] study a version of IGL with context-dependent feedback, but their algorithm does not come with theoretical guarantees. In this work, we consider the same problem and provide the first provably efficient algorithms with sublinear regret under realizability. Our analysis reveals that the step-function estimator of prior work can deviate uncontrollably due to finite-sample effects. Our solution is a novel Lipschitz reward estimator which underestimates the true reward and enjoys favorable generalization performances. Building on this estimator, we propose two algorithms, one based on explore-then-exploit and the other based on inverse-gap weighting. We apply IGL to learning from image feedback and learning from text feedback, which are reward-free settings that arise in practice. Experimental results showcase the importance of using our Lipschitz reward estimator and the overall effectiveness of our algorithms.
翻訳日:2024-06-03 15:07:03 公開日:2024-05-31
# 公正なマルチエージェント社会福祉最適化のための非線形学習

No-Regret Learning for Fair Multi-Agent Social Welfare Optimization ( http://arxiv.org/abs/2405.20678v1 )

ライセンス: Link先を確認
Mengxiao Zhang, Ramiro Deo-Campo Vuong, Haipeng Luo, (参考訳) オンラインマルチエージェント・ナッシュ社会福祉(NSW)の最大化の問題を考える。 Hossain et al [2021], Jones et al [2023] の以前の研究は、確率的マルチエージェント・マルチアーマー・バンドイットにおける同様の問題を研究し、$\sqrt{T}$-regret が$T$ラウンド後に可能であることを示す一方で、彼らの公正度尺度は NSW の代わりにすべてのエージェントの報酬の積である(つまり、幾何学的意味)。 フェアネス文学におけるNSWの基本的な役割を考えると、NSWを目的とする未学習のフェアラーニングが可能であるかどうかを問うことは当然である。 本研究では, 様々な状況において, この質問に対する完全な回答を提供する。 具体的には、$N$-agent $K$-armed bandits において、$\widetilde{\mathcal{O}}\left(K^{\frac{2}{N}}T^{\frac{N-1}{N}}\right)$ regret を用いてアルゴリズムを開発し、$T$への依存がきついことを証明し、Hossain et al [2021] の $\sqrt{T}$-regret bounds とは対照的である。 次に、敵の報酬に関する問題のより困難なバージョンを考えます。 意外なことに、NSWが凹凸関数であるにもかかわらず、アルゴリズムがサブ線形後悔を達成できないことが証明されている。 そのような否定的な結果を回避するために、我々はさらに、フル情報フィードバックと、$\sqrt{T}$-regretを持つ2つのアルゴリズムを設計することを考える: 1つはN$に全く依存せず、NSWだけでなく幅広い福祉機能にも適用可能であり、もう1つは$K$への依存がより良く、$N$が小さい場合には好適である。 最後に、異なる腕に無関心なエージェントが1つ存在する場合、対数的後悔が可能であることを示す。

We consider the problem of online multi-agent Nash social welfare (NSW) maximization. While previous works of Hossain et al. [2021], Jones et al. [2023] study similar problems in stochastic multi-agent multi-armed bandits and show that $\sqrt{T}$-regret is possible after $T$ rounds, their fairness measure is the product of all agents' rewards, instead of their NSW (that is, their geometric mean). Given the fundamental role of NSW in the fairness literature, it is more than natural to ask whether no-regret fair learning with NSW as the objective is possible. In this work, we provide a complete answer to this question in various settings. Specifically, in stochastic $N$-agent $K$-armed bandits, we develop an algorithm with $\widetilde{\mathcal{O}}\left(K^{\frac{2}{N}}T^{\frac{N-1}{N}}\right)$ regret and prove that the dependence on $T$ is tight, making it a sharp contrast to the $\sqrt{T}$-regret bounds of Hossain et al. [2021], Jones et al. [2023]. We then consider a more challenging version of the problem with adversarial rewards. Somewhat surprisingly, despite NSW being a concave function, we prove that no algorithm can achieve sublinear regret. To circumvent such negative results, we further consider a setting with full-information feedback and design two algorithms with $\sqrt{T}$-regret: the first one has no dependence on $N$ at all and is applicable to not just NSW but a broad class of welfare functions, while the second one has better dependence on $K$ and is preferable when $N$ is small. Finally, we also show that logarithmic regret is possible whenever there exists one agent who is indifferent about different arms.
翻訳日:2024-06-03 15:07:03 公開日:2024-05-31
# 検索型大規模言語モデルにおける検索不整合の解消と緩和

Unraveling and Mitigating Retriever Inconsistencies in Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2405.20680v1 )

ライセンス: Link先を確認
Mingda Li, Xinyu Li, Yifan Chen, Wenfeng Xuan, Weinan Zhang, (参考訳) Retrieval-Augmented Large Language Models (RALMs) は事実性の観点からその優位性を示すが、元の検索自由言語モデル (LMs) よりも一貫して優れているわけではない。 提案実験により, この例レベルの性能不整合性は, 検索強化と検索不要のLMの間だけでなく, 異なる検索者の間にも存在することが明らかとなった。 この現象を理解するために,ALMの変性挙動を調査し,理論的に4つのカテゴリに分解する。 分析の結果,知識源の自然差と予測不可能な読解モデル劣化が矛盾に大きく寄与していることが判明した。 本分析から,異なる知識ソースから適応的に検索し,予測不能な読取誤差を効果的に低減できる訓練可能なフレームワークであるEnsemble of Retrievers(EoR)を紹介した。 Open Domain Question Answering 実験の結果,EoR は不整合挙動を著しく低減し,単一検索器を用いた RALM 上での性能を大幅に向上することが示された。

Although Retrieval-Augmented Large Language Models (RALMs) demonstrate their superiority in terms of factuality, they do not consistently outperform the original retrieval-free Language Models (LMs). Our experiments reveal that this example-level performance inconsistency exists not only between retrieval-augmented and retrieval-free LM but also among different retrievers. To understand this phenomenon, we investigate the degeneration behavior of RALMs and theoretically decompose it into four categories. Further analysis based on our decomposition reveals that the innate difference in knowledge sources and the unpredictable degeneration of the reader model contribute most to the inconsistency. Drawing from our analysis, we introduce Ensemble of Retrievers (EoR), a trainable framework that can adaptively retrieve from different knowledge sources and effectively decrease unpredictable reader errors. Our experiments on Open Domain Question Answering show that EoR substantially improves performance over the RALM with a single retriever by considerably reducing inconsistent behaviors.
翻訳日:2024-06-03 15:07:03 公開日:2024-05-31
# プライバシ保護LDM推論のための自由ランチ理論

No Free Lunch Theorem for Privacy-Preserving LLM Inference ( http://arxiv.org/abs/2405.20681v1 )

ライセンス: Link先を確認
Xiaojin Zhang, Yulin Fei, Yan Kang, Wei Chen, Lixin Fan, Hai Jin, Qiang Yang, (参考訳) 個人やビジネスは、PaLM、Gemini、ChatGPTを含む大規模言語モデル(LLM)によって、様々な面で大きな恩恵を受けている。 例えば、LLMは生産性を高め、コストを削減し、より価値のあるタスクに集中できるようにします。 さらに、LLMは広範なデータセットを探索し、基礎となるパターンを明らかにし、技術と科学のフロンティアを広める重要な洞察を与える能力を持っている。 しかし、LSMはプライバシーにも懸念を抱いている。 LLMとのユーザインタラクションは、機密性の高い個人情報や企業情報を公開する可能性がある。 堅牢なプライバシー保護と法的枠組みの欠如は、個人データの不正な侵入や不正な扱いを許す可能性があるため、プライバシーの侵害や個人情報の盗難を危険にさらす可能性がある。 プライバシーを確保するためには、共有プロンプトと個人情報間の依存関係を最小限にすることが不可欠である。 プロンプトのプライバシを保護するために様々なランダム化手法が提案されているが、非プロンプトLLMのプロンプトに比べて実用上の損失が生じる可能性がある。 したがって、効果的な保護機構を実行する際には、プライバシリークのリスクとユーティリティの損失のバランスを評価することが不可欠である。 本研究は,プライバシ保護された大規模言語モデル(LLM)を推定するためのフレームワークを開発し,プライバシ保護とユーティリティの相互作用を調べるための理論的根拠を定めている。 中心となる洞察はNFL定理(No-Free-Lunch)と呼ばれる定理にカプセル化される。

Individuals and businesses have been significantly benefited by Large Language Models (LLMs) including PaLM, Gemini and ChatGPT in various ways. For example, LLMs enhance productivity, reduce costs, and enable us to focus on more valuable tasks. Furthermore, LLMs possess the capacity to sift through extensive datasets, uncover underlying patterns, and furnish critical insights that propel the frontiers of technology and science. However, LLMs also pose privacy concerns. Users' interactions with LLMs may expose their sensitive personal or company information. A lack of robust privacy safeguards and legal frameworks could permit the unwarranted intrusion or improper handling of individual data, thereby risking infringements of privacy and the theft of personal identities. To ensure privacy, it is essential to minimize the dependency between shared prompts and private information. Various randomization approaches have been proposed to protect prompts' privacy, but they may incur utility loss compared to unprotected LLMs prompting. Therefore, it is essential to evaluate the balance between the risk of privacy leakage and loss of utility when conducting effective protection mechanisms. The current study develops a framework for inferring privacy-protected Large Language Models (LLMs) and lays down a solid theoretical basis for examining the interplay between privacy preservation and utility. The core insight is encapsulated within a theorem that is called as the NFL (abbreviation of the word No-Free-Lunch) Theorem.
翻訳日:2024-06-03 15:07:03 公開日:2024-05-31
# グラフインストラクションチューニングのための共同埋め込み

Joint Embeddings for Graph Instruction Tuning ( http://arxiv.org/abs/2405.20684v1 )

ライセンス: Link先を確認
Vlad Argatu, Aaron Haag, Oliver Lohse, (参考訳) 大規模言語モデル(LLM)は、テキスト理解において優れたパフォーマンスを達成し、スマートアシスタントを構築する上で不可欠なツールとなった。 元々はテキストに焦点を合わせていたが、近年の作業ではマルチモーダル機能によって強化され、視覚的な指示を後続するアシスタントの構築に成功している。 しかし、グラフのモジュラリティに関しては、そのようなアシスタントはまだ開発されていない。 グラフ構造は、異なる特徴間の関係を表現し、置換不変であるという点で複雑である。 さらに、それらを純粋にテキスト形式で表現することは、微調整されたモデルであっても、必ずしも優れたLCM性能をもたらすとは限らない。 その結果,汎用的なグラフ理解のために,LLMにグラフを統合する新しい手法を開発する必要がある。 本研究は,LLMにおけるグラフのモダリティの統合について検討する。 グラフ埋め込みで基礎となるLLMを強化し、それらを理解できるように訓練し、グラフ表現に基礎を置く命令を与えられた答えを生成する、深層学習モデルを作成することを目的としている。 このアプローチは、グラフからテキストへのアプローチよりもはるかに優れており、大きなグラフであっても一貫性が保たれている。

Large Language Models (LLMs) have achieved impressive performance in text understanding and have become an essential tool for building smart assistants. Originally focusing on text, they have been enhanced with multimodal capabilities in recent works that successfully built visual instruction following assistants. As far as the graph modality goes, however, no such assistants have yet been developed. Graph structures are complex in that they represent relation between different features and are permutation invariant. Moreover, representing them in purely textual form does not always lead to good LLM performance even for finetuned models. As a result, there is a need to develop a new method to integrate graphs in LLMs for general graph understanding. This work explores the integration of the graph modality in LLM for general graph instruction following tasks. It aims at producing a deep learning model that enhances an underlying LLM with graph embeddings and trains it to understand them and to produce, given an instruction, an answer grounded in the graph representation. The approach performs significantly better than a graph to text approach and remains consistent even for larger graphs.
翻訳日:2024-06-03 15:07:03 公開日:2024-05-31
# マハラノビス距離を用いた特徴空間における分布推定による対物画像生成の促進

Enhancing Counterfactual Image Generation Using Mahalanobis Distance with Distribution Preferences in Feature Space ( http://arxiv.org/abs/2405.20685v1 )

ライセンス: Link先を確認
Yukai Zhang, Ao Xu, Zihao Li, Tieru Wu, (参考訳) 人工知能(AI)の領域では、説明可能な人工知能(XAI)の重要性がますます認識されている。 これは、モデルの判断を理解するのに役立ち、これらの決定を変更するためのガイダンスを提供する。 具体的には、画像分類モデルの文脈において、効果的な画像対実的説明はユーザーの理解を著しく向上させる。 本稿では,ブラックボックスモデルの特徴空間における特徴量の重要性を計算するための新しい手法を提案する。 情報融合手法を用いることで,特徴空間における特徴の反実的説明に対処するためのデータの利用を最大化する。 その後、画像生成モデルを用いて、これらの特徴の反実的説明を画像の反実的説明に変換する。 実験により,本手法が生成した反実的説明は,画素空間と特徴空間の両方の原画像によく似ていることが示された。 さらに,本手法は確立されたベースラインよりも優れ,優れた実験結果が得られた。

In the realm of Artificial Intelligence (AI), the importance of Explainable Artificial Intelligence (XAI) is increasingly recognized, particularly as AI models become more integral to our lives. One notable single-instance XAI approach is counterfactual explanation, which aids users in comprehending a model's decisions and offers guidance on altering these decisions. Specifically in the context of image classification models, effective image counterfactual explanations can significantly enhance user understanding. This paper introduces a novel method for computing feature importance within the feature space of a black-box model. By employing information fusion techniques, our method maximizes the use of data to address feature counterfactual explanations in the feature space. Subsequently, we utilize an image generation model to transform these feature counterfactual explanations into image counterfactual explanations. Our experiments demonstrate that the counterfactual explanations generated by our method closely resemble the original images in both pixel and feature spaces. Additionally, our method outperforms established baselines, achieving impressive experimental results.
翻訳日:2024-06-03 15:07:03 公開日:2024-05-31
# トレーニングデータセットのないGANの条件付け

Conditioning GAN Without Training Dataset ( http://arxiv.org/abs/2405.20687v1 )

ライセンス: Link先を確認
Kidist Amde Mekonnen, (参考訳) ディープラーニングアルゴリズムは、数十万以上のサイズのトレーニング可能なパラメータを多数持っている。 このアルゴリズムのトレーニングには大量のトレーニングデータが必要で、これらのアルゴリズムのために十分な量のデータセットを生成するのはコストがかかる。 GANは、互いに競合する2つのディープラーニングネットワークを使用する生成ニューラルネットワークである。 ネットワークはジェネレータと差別ネットワークである。 ジェネレータは、トレーニングデータ分布を近似することにより、実際のトレーニングデータセットに類似したリアルなイメージを生成しようと試み、識別器は、イメージを実または偽の(生成された)ものとして分類するように訓練される。 これらのGANアルゴリズムのトレーニングには、大量のトレーニングデータセット\cite{noguchi2019image}も必要である。 本研究の目的は,「未条件の事前学習発電機ネットワークと事前訓練型分類器を組み合わせることで,いかなる訓練データセットにも依存せず,条件付きジェネレータを開発することが可能か」という課題に対処することである。 次のセクションは次のように構成されている。 第2節は、問題の背景情報を提供する。 第3節では、その話題に関する関連文献をレビューしている。 第4節では,本研究における方法論について概説する。 第5節は実験結果を示す。 第6節では、発見について論じ、今後の研究の方向性を提案する。 最後は第7節で締めくくられる。 実装は \href{https://github.com/kidist-amde/BigGAN-PyTorch}{here} にアクセスできる。

Deep learning algorithms have a large number of trainable parameters often with sizes of hundreds of thousands or more. Training this algorithm requires a large amount of training data and generating a sufficiently large dataset for these algorithms is costly\cite{noguchi2019image}. GANs are generative neural networks that use two deep learning networks that are competing with each other. The networks are generator and discriminator networks. The generator tries to generate realistic images which resemble the actual training dataset by approximating the training data distribution and the discriminator is trained to classify images as real or fake(generated)\cite{goodfellow2016nips}. Training these GAN algorithms also requires a large amount of training dataset\cite{noguchi2019image}. In this study, the aim is to address the question, "Given an unconditioned pretrained generator network and a pretrained classifier, is it feasible to develop a conditioned generator without relying on any training dataset?" The paper begins with a general introduction to the problem. The subsequent sections are structured as follows: Section 2 provides background information on the problem. Section 3 reviews relevant literature on the topic. Section 4 outlines the methodology employed in this study. Section 5 presents the experimental results. Section 6 discusses the findings and proposes potential future research directions. Finally, Section 7 offers concluding remarks. The implementation can be accessed \href{https://github.com/kidist-amde/BigGAN-PyTorch}{here}.
翻訳日:2024-06-03 15:07:03 公開日:2024-05-31
# 不完全なデータインプットのための拡散モデルの可能性

Unleashing the Potential of Diffusion Models for Incomplete Data Imputation ( http://arxiv.org/abs/2405.20690v1 )

ライセンス: Link先を確認
Hengrui Zhang, Liancheng Fang, Philip S. Yu, (参考訳) 本稿では,DiffPuterについて紹介する。DiffPuterは期待最大化(EM)アルゴリズムと拡散モデルを利用するデータ計算のイテレーティブな手法である。 欠損したデータをモデルトレーニング中に更新可能な隠れ変数として扱うことで、欠落したデータ計算タスクをEM問題として扱う。 M段階の間、DiffPuterは拡散モデルを用いて観測されたデータと現在推定されているデータの両方の結合分布を学習する。 E-stepでは、DiffPuterは、M-stepで学習した拡散モデルを利用して、観測されたデータから条件付き確率に基づいて、欠落したデータを再推定する。 最初の計算から始めて、DiffPuterは収束するまでMステップとEステップを交互に切り替える。 この反復的なプロセスを通じて、DiffPuterは完全なデータ分布を徐々に洗練し、欠落したデータのより正確な推定を行う。 理論解析により, 拡散モデルの非条件学習と条件抽出は, それぞれMステップとEステップの目的と正確に一致していることが示された。 10の多様なデータセットに対する実証的な評価と、16の異なる計算方法との比較は、DiffPuterの優れたパフォーマンスを示している。 特にDiffPuterは、最も競争力のある既存の方法と比較して、MAEの8.10%、RMSEの5.64%の平均的な改善を実現している。

This paper introduces DiffPuter, an iterative method for missing data imputation that leverages the Expectation-Maximization (EM) algorithm and Diffusion Models. By treating missing data as hidden variables that can be updated during model training, we frame the missing data imputation task as an EM problem. During the M-step, DiffPuter employs a diffusion model to learn the joint distribution of both the observed and currently estimated missing data. In the E-step, DiffPuter re-estimates the missing data based on the conditional probability given the observed data, utilizing the diffusion model learned in the M-step. Starting with an initial imputation, DiffPuter alternates between the M-step and E-step until convergence. Through this iterative process, DiffPuter progressively refines the complete data distribution, yielding increasingly accurate estimations of the missing data. Our theoretical analysis demonstrates that the unconditional training and conditional sampling processes of the diffusion model align precisely with the objectives of the M-step and E-step, respectively. Empirical evaluations across 10 diverse datasets and comparisons with 16 different imputation methods highlight DiffPuter's superior performance. Notably, DiffPuter achieves an average improvement of 8.10% in MAE and 5.64% in RMSE compared to the most competitive existing method.
翻訳日:2024-06-03 15:07:03 公開日:2024-05-31
# In-Context Decision Transformer:階層型チェーン・オブ・サートによる強化学習

In-Context Decision Transformer: Reinforcement Learning via Hierarchical Chain-of-Thought ( http://arxiv.org/abs/2405.20692v1 )

ライセンス: Link先を確認
Sili Huang, Jifeng Hu, Hechang Chen, Lichao Sun, Bo Yang, (参考訳) In-context Learningは、オンラインタスクを処理するオフライン強化学習(RL)において有望なアプローチであり、タスクプロンプトを提供することで実現可能である。 近年の研究では、RLタスクをエポゾディックな逐次予測問題として扱う際に、文脈内RLが試行錯誤的に自己改善されうることが示されている。 漸進的な更新を必要としない自己改善にもかかわらず、現在の作業はタスクの地平線とともに全エピソードシーケンスが増加すると高い計算コストに悩まされる。 そこで本研究では,高レベルな試行錯誤方式で自己改善を実現するために,In-context Decision Transformer (IDT)を提案する。 特に、IDTは人間の意思決定の効率的な階層構造にインスパイアされ、環境と相互作用する低レベルの行動ではなく、高レベルの決定からなるシーケンスを再構築する。 1つのハイレベルな意思決定は、多段階の低レベルなアクションを導くことができるため、IDTは自然に過度に長いシーケンスを回避し、オンラインタスクをより効率的に解決する。 実験結果から, IDT は現在のコンテキスト内 RL 法よりも長い水平タスクの最先端化を実現していることがわかった。 特に、私たちの IDT のオンライン評価時間は、D4RL ベンチマークのベースラインの \textbf{36$\times$} 倍、Grid World ベンチマークの \textbf{27$\times$} 倍である。

In-context learning is a promising approach for offline reinforcement learning (RL) to handle online tasks, which can be achieved by providing task prompts. Recent works demonstrated that in-context RL could emerge with self-improvement in a trial-and-error manner when treating RL tasks as an across-episodic sequential prediction problem. Despite the self-improvement not requiring gradient updates, current works still suffer from high computational costs when the across-episodic sequence increases with task horizons. To this end, we propose an In-context Decision Transformer (IDT) to achieve self-improvement in a high-level trial-and-error manner. Specifically, IDT is inspired by the efficient hierarchical structure of human decision-making and thus reconstructs the sequence to consist of high-level decisions instead of low-level actions that interact with environments. As one high-level decision can guide multi-step low-level actions, IDT naturally avoids excessively long sequences and solves online tasks more efficiently. Experimental results show that IDT achieves state-of-the-art in long-horizon tasks over current in-context RL methods. In particular, the online evaluation time of our IDT is \textbf{36$\times$} times faster than baselines in the D4RL benchmark and \textbf{27$\times$} times faster in the Grid World benchmark.
翻訳日:2024-06-03 15:07:03 公開日:2024-05-31
# R$^2$-Gaussian: Rectifying Radiative Gaussian Splatting for Tomography Reconstruction (特集 放射線治療)

R$^2$-Gaussian: Rectifying Radiative Gaussian Splatting for Tomographic Reconstruction ( http://arxiv.org/abs/2405.20693v1 )

ライセンス: Link先を確認
Ruyi Zha, Tao Jun Lin, Yuanhao Cai, Jiwen Cao, Yanhao Zhang, Hongdong Li, (参考訳) 3次元ガウススプラッティング(3DGS)は画像のレンダリングと表面再構成において有望な結果を示した。 しかし、X線CTなどのボリューム再構成作業におけるその可能性については、まだ解明されていない。 本稿では,Sparse-viewトモグラフィ再構成のための最初の3DGSベースのフレームワークであるR2-Gaussianを紹介する。 X線ラスタ化関数を慎重に導出することにより、標準3DGSの定式化において、未知の積分バイアスが発見され、正確なボリューム検索を妨げている。 この問題に対処するために,3次元から2次元ガウスへの投影をリファクタリングし,新しい補正手法を提案する。 提案手法は,(1)カスタマイズされたガウス核の導入,(2)ラスタ化をX線イメージングに拡張すること,(3)CUDAをベースとした差別化可能なボクセラライザの開発,の3つの重要なイノベーションを示す。 実験の結果,PSNRでは0.93dB,SSIMでは0.014DB,最先端手法では0.014DBより優れていた。 重要なのは、高品質な結果を3分で提供し、これはNeRFベースの手法よりも12倍高速で、従来のアルゴリズムと同等だ。 我々の手法の優れた性能と迅速な収束は、その実用的価値を強調している。

3D Gaussian splatting (3DGS) has shown promising results in image rendering and surface reconstruction. However, its potential in volumetric reconstruction tasks, such as X-ray computed tomography, remains under-explored. This paper introduces R2-Gaussian, the first 3DGS-based framework for sparse-view tomographic reconstruction. By carefully deriving X-ray rasterization functions, we discover a previously unknown integration bias in the standard 3DGS formulation, which hampers accurate volume retrieval. To address this issue, we propose a novel rectification technique via refactoring the projection from 3D to 2D Gaussians. Our new method presents three key innovations: (1) introducing tailored Gaussian kernels, (2) extending rasterization to X-ray imaging, and (3) developing a CUDA-based differentiable voxelizer. Extensive experiments demonstrate that our method outperforms state-of-the-art approaches by 0.93 dB in PSNR and 0.014 in SSIM. Crucially, it delivers high-quality results in 3 minutes, which is 12x faster than NeRF-based methods and on par with traditional algorithms. The superior performance and rapid convergence of our method highlight its practical value.
翻訳日:2024-06-03 15:07:03 公開日:2024-05-31
# 頑丈な安定スパイクニューラルネットワーク

Robust Stable Spiking Neural Networks ( http://arxiv.org/abs/2405.20694v1 )

ライセンス: Link先を確認
Jianhao Ding, Zhiyu Pan, Yujia Liu, Zhaofei Yu, Tiejun Huang, (参考訳) スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェアの低エネルギー予算のため、ディープラーニングで人気を集めている。 しかし、自律運転のような安全クリティカルなアプリケーションを保護するのに十分な堅牢性を欠いているため、依然として課題に直面している。 敵の攻撃の脅威からSNNを守るために多くの研究がなされている。 本稿では非線形システムの安定性のレンズによるSNNの堅牢性を明らかにすることを目的とする。 私たちは、漏れやすい統合とファイアのダイナミクスを変えるパラメータを探すことで、その堅牢性を高めることができるという事実にインスピレーションを受けています。 そこで, 膜電位摂動の力学に潜り込み, 力学の定式化を簡略化する。 膜電位摂動力学は摂動の強度を確実に伝達できることを示す。 我々の理論的解析は、簡易な摂動力学が入力出力安定性を満たすことを示唆している。 そこで本研究では,SNNニューロンを修飾したトレーニングフレームワークを提案し,SNNの堅牢性を高めることを目的とした膜電位摂動の平均2乗を減少させる。 最後に,画像分類作業におけるガウスノイズトレーニングと逆方向トレーニングの設定におけるフレームワークの有効性を実験的に検証した。

Spiking neural networks (SNNs) are gaining popularity in deep learning due to their low energy budget on neuromorphic hardware. However, they still face challenges in lacking sufficient robustness to guard safety-critical applications such as autonomous driving. Many studies have been conducted to defend SNNs from the threat of adversarial attacks. This paper aims to uncover the robustness of SNN through the lens of the stability of nonlinear systems. We are inspired by the fact that searching for parameters altering the leaky integrate-and-fire dynamics can enhance their robustness. Thus, we dive into the dynamics of membrane potential perturbation and simplify the formulation of the dynamics. We present that membrane potential perturbation dynamics can reliably convey the intensity of perturbation. Our theoretical analyses imply that the simplified perturbation dynamics satisfy input-output stability. Thus, we propose a training framework with modified SNN neurons and to reduce the mean square of membrane potential perturbation aiming at enhancing the robustness of SNN. Finally, we experimentally verify the effectiveness of the framework in the setting of Gaussian noise training and adversarial training on the image classification task.
翻訳日:2024-06-03 15:07:03 公開日:2024-05-31
# ベル計測支援による混合状態の絡み合いの直接推定

Directly Estimating Mixed-State Entanglement with Bell Measurement Assistance ( http://arxiv.org/abs/2405.20696v1 )

ライセンス: Link先を確認
Gong-Chu Li, Lei Chen, Si-Qi Zhang, Xu-Song Hong, You Zhou, Geng Chen, Chuan-Feng Li, Guang-Can Guo, (参考訳) 絡み合いは量子物理学と情報処理において基本的な役割を果たす。 ここでは、フォトニックシステムにおけるランダムなユニタリ進化を用いた混合状態の絡み合いを直接推定する。 従来の射影測度を補うため,従来のランダム化測度スキームを豊かにすることにより,局所的ユニタリ進化のみでは実現しない。 このスキームは、キュービットペア上のベル測度を介してn量子ビットにスケーラブルである。 さらに、数発の事後処理を導入することにより、データ収集・処理の効率が大幅に向上する。 この推定器は、影推定に基づくスキームと比較して、システムエラーやノイズに対してより堅牢性を示しながら、連続した結果から直接導出することができる。 我々のプロトコルと実証は、実際に行われている量子状態の直接的特徴づけを前進させる。

Entanglement plays a fundamental role in quantum physics and information processing. Here, we directly estimate mixed-state entanglement using random unitary evolution in a photonic system. As a supplement to traditional projective measurements, we incorporate Bell measurements on qubit-pairs, enriching the previous randomized measurement scheme, which is no-go in this task with only local unitary evolution. The scheme is scalable to n-qubits via Bell measurements on qubit-pairs. Moreover, by introducing the few-shot postprocessing, the efficiency of the data collecting and processing is significantly improved. The estimator can be derived directly from a few consecutive outcomes while exhibiting greater robustness to system errors and noise compared to schemes based on shadow estimation. Our protocol and demonstration advance the direct characterization of quantum states in practice.
翻訳日:2024-06-03 15:07:03 公開日:2024-05-31
# UAFの脆弱性対策のための軽量化手法

A Lightweight Method for Defending Against UAF Vulnerabilities ( http://arxiv.org/abs/2405.20697v1 )

ライセンス: Link先を確認
Xun An, (参考訳) UAF(Use-After-Free)脆弱性が広く存在していることは、ソフトウェアのセキュリティに深刻な脅威をもたらす。 しかし、ダングリングポインタを排除してUAF脆弱性を防御する既存の方法は、ポインタの割り当て操作に遭遇したときにプログラムの実行を中断し、ポインタが指しているオブジェクトを調べ、ポインタのメモリアドレスを特定のデータ構造に格納する必要がある。 これにより、これらのメソッドは軽量ではない。 この欠点を克服するために、LightDEと呼ばれる新しいアプローチを提案する。 このメソッドは、ポインタのメモリアドレスを格納したり、プログラム実行中にポインタが指しているオブジェクトを位置決めする必要がない。 LightDEは,提案手法を用いて,ポインタが指しているオブジェクトを解析し,プログラムコンパイル中にプログラムのデータセグメントにポインティング関係を格納する。 LightDEは、オブジェクトがリリースされたときに、ポインタ解析によって特定されたポインタが解放されたオブジェクトを指すかどうかのみチェックする必要があるため、LightDEは非常に軽量である。 実験の結果、LightDEはUAFの脆弱性に対して効果的に防御できることがわかった。

The widespread presence of Use-After-Free (UAF) vulnerabilities poses a serious threat to software security, with dangling pointers being considered the primary cause of these vulnerabilities. However, existing methods for defending against UAF vulnerabilities by eliminating dangling pointers need to interrupt the program's execution when encountering pointer assignment operations to look up the objects pointed to by the pointers and store the memory addresses of the pointers in a specific data structure. This makes these methods not lightweight. To overcome this drawback, we propose a novel approach called LightDE. This method does not require storing the memory addresses of pointers or locating the objects pointed to by pointers during program execution. LightDE uses our proposed structure-sensitive pointer analysis method to determine the objects pointed to by pointers and stores the pointing relationships in the program's data segment during program compilation. Since LightDE only needs to check whether the pointers identified by the pointer analysis point to the released objects when the objects are released, LightDE is very lightweight. Our experimental results show that LightDE can effectively defend against UAF vulnerabilities, and the additional performance overhead it introduces is very low.
翻訳日:2024-06-03 15:07:03 公開日:2024-05-31
# 両不均衡データを用いた産業断層診断のための自己劣化コントラスト領域適応

Self-degraded contrastive domain adaptation for industrial fault diagnosis with bi-imbalanced data ( http://arxiv.org/abs/2405.20700v1 )

ライセンス: Link先を確認
Gecheng Chen, Zeyu Yang, Chengwen Luo, Jianqiang Li, (参考訳) 現代の産業断層診断タスクは、分散の相違と双不均衡の混在という課題に直面していることが多い。 既存のドメイン適応アプローチは、一般的な双方向不均衡にはほとんど注意を払わず、ドメイン適応性能の低下や、負の転送さえもたらします。 本研究では,2つの不均衡なデータの下でのドメインの不一致を処理するための自己劣化コントラスト型ドメイン適応(Sd-CDA)診断フレームワークを提案する。 まず,モデルプルーニングに基づく非バランスなコントラスト学習を通じて特徴抽出器を事前学習し,自己指導的な方法で特徴表現を効率的に学習する。 次に、教師付きコントラスト付きドメイン対向学習(SupCon-DA)に基づいて、サンプルをドメイン境界から強制的に切り離し、特徴抽出器によって生成された特徴が十分に識別可能であることを保証する。 さらに、マイノリティに自動的に重み付けされた注意を払い、バイアンバランスなデータに対する性能を高めるために、pruned contrastive domain adversarial learning (PSupCon-DA)を提案する。 2つの実験により提案手法の優位性を示す。

Modern industrial fault diagnosis tasks often face the combined challenge of distribution discrepancy and bi-imbalance. Existing domain adaptation approaches pay little attention to the prevailing bi-imbalance, leading to poor domain adaptation performance or even negative transfer. In this work, we propose a self-degraded contrastive domain adaptation (Sd-CDA) diagnosis framework to handle the domain discrepancy under the bi-imbalanced data. It first pre-trains the feature extractor via imbalance-aware contrastive learning based on model pruning to learn the feature representation efficiently in a self-supervised manner. Then it forces the samples away from the domain boundary based on supervised contrastive domain adversarial learning (SupCon-DA) and ensures the features generated by the feature extractor are discriminative enough. Furthermore, we propose the pruned contrastive domain adversarial learning (PSupCon-DA) to pay automatically re-weighted attention to the minorities to enhance the performance towards bi-imbalanced data. We show the superiority of the proposed method via two experiments.
翻訳日:2024-06-03 14:57:18 公開日:2024-05-31
# LLMの語彙感度を明らかにする:プロンプト強化のための組合せ最適化

Unveiling the Lexical Sensitivity of LLMs: Combinatorial Optimization for Prompt Enhancement ( http://arxiv.org/abs/2405.20701v1 )

ライセンス: Link先を確認
Pengwei Zhan, Zhen Xu, Qian Tan, Jie Song, Ru Xie, (参考訳) 大規模言語モデル(LLM)は、様々な下流タスクを完了させる命令追従能力を示す。 この素晴らしい能力により、LSMはフレキシブルなタスクソルバを実現するが、タスク解決のパフォーマンスも命令に大きく依存する。 本稿では,LLMが人間に受容できない場合であっても,タスク命令の語彙的変化に対して過度に敏感であることを明らかにする。 潜在表現空間に密接な位置にあり、1つの意味論的に類似した単語によって異なる近傍命令を持つモデルを提供することで、下流タスクのパフォーマンスは大きく異なることができる。 そこで本研究では,Pmpt Lexical Enhancement (COPLE) のためのブラックボックスコンビネーション最適化フレームワークを提案する。 COPLEは、単語の影響に関する探索戦略を用いて、プロキシタスクのバッチからのフィードバックに応じて反復的な語彙最適化を行う。 実験によると、現在のベンチマークで広く使われている人為的なプロンプトでさえ、モデルの語彙的感度に悩まされており、COPLEはインストラクション追従と下流タスクの解決の両方において、モデル能力の低下を回復する。

Large language models (LLMs) demonstrate exceptional instruct-following ability to complete various downstream tasks. Although this impressive ability makes LLMs flexible task solvers, their performance in solving tasks also heavily relies on instructions. In this paper, we reveal that LLMs are over-sensitive to lexical variations in task instructions, even when the variations are imperceptible to humans. By providing models with neighborhood instructions, which are closely situated in the latent representation space and differ by only one semantically similar word, the performance on downstream tasks can be vastly different. Following this property, we propose a black-box Combinatorial Optimization framework for Prompt Lexical Enhancement (COPLE). COPLE performs iterative lexical optimization according to the feedback from a batch of proxy tasks, using a search strategy related to word influence. Experiments show that even widely-used human-crafted prompts for current benchmarks suffer from the lexical sensitivity of models, and COPLE recovers the declined model ability in both instruct-following and solving downstream tasks.
翻訳日:2024-06-03 14:57:18 公開日:2024-05-31
# 単純な場合:アスペクトベースの感性分析性能の改善に関する研究

It is Simple Sometimes: A Study On Improving Aspect-Based Sentiment Analysis Performance ( http://arxiv.org/abs/2405.20703v1 )

ライセンス: Link先を確認
Laura Cabello, Uchenna Akujuobi, (参考訳) Aspect-Based Sentiment Analysis (ABSA)は、様々な補完的なサブタスクを通じて、特定の実体とその対応する側面に関するテキストデータから意見を抽出する。 いくつかの先行研究は、これらのサブタスクの様々な複雑さのアドホックデザインの開発に重点を置いている。 本稿では,任意のABSAサブタスクに拡張可能な生成フレームワークを提案する。 我々は,Scanaria et al (2023) が提案した命令調律モデルに基づいて,タスク記述を伴う命令ベースモデルと,ABSAサブタスクにおけるコンテキスト内例を提示する。 タスク記述にNLP関連タスクプレフィックスを付加することにより、この命令学習パラダイムの拡張であるPFInstructを提案する。 この単純なアプローチにより、テスト対象のSemEvalサブタスク全体のパフォーマンスが向上し、ATEサブタスク(Rest14)の以前のステート・オブ・ザ・アート(SOTA)を+3.28 F1スコア、AOOEサブタスクの+5.43 F1スコアを、SemEvalデータセット全体の平均+5.43 F1スコアで上回った。 さらに, ABSAサブタスクに対するプレフィックス強化プロンプト品質の影響について検討し, ノイズプレフィックスでもベースラインと比較してモデル性能が向上することが確認された。 また,本手法は,生物医学領域データセット(ERSA)上での競争結果も達成する。

Aspect-Based Sentiment Analysis (ABSA) involves extracting opinions from textual data about specific entities and their corresponding aspects through various complementary subtasks. Several prior research has focused on developing ad hoc designs of varying complexities for these subtasks. In this paper, we present a generative framework extensible to any ABSA subtask. We build upon the instruction tuned model proposed by Scaria et al. (2023), who present an instruction-based model with task descriptions followed by in-context examples on ABSA subtasks. We propose PFInstruct, an extension to this instruction learning paradigm by appending an NLP-related task prefix to the task description. This simple approach leads to improved performance across all tested SemEval subtasks, surpassing previous state-of-the-art (SOTA) on the ATE subtask (Rest14) by +3.28 F1-score, and on the AOOE subtask by an average of +5.43 F1-score across SemEval datasets. Furthermore, we explore the impact of the prefix-enhanced prompt quality on the ABSA subtasks and find that even a noisy prefix enhances model performance compared to the baseline. Our method also achieves competitive results on a biomedical domain dataset (ERSA).
翻訳日:2024-06-03 14:57:18 公開日:2024-05-31
# ADESSE:複雑反復意思決定環境におけるアドバイス説明

ADESSE: Advice Explanations in Complex Repeated Decision-Making Environments ( http://arxiv.org/abs/2405.20705v1 )

ライセンス: Link先を確認
Sören Schleibaum, Lu Feng, Sarit Kraus, Jörg P. Müller, (参考訳) 人間中心AIの進化する状況において、意思決定プロセスにおける人間とAIエージェントの相乗的関係を育むことは、最重要課題である。 本研究は、ニューラルネットワークベースの予測コンポーネントと深層強化学習コンポーネントからなるインテリジェントエージェントが、複雑な意思決定環境において、人間の意思決定者にアドバイスを提供する、という問題設定を考察する。 人間の意思決定者がエージェントのアドバイスに従うかどうかは、エージェントに対する信念と信頼、そしてアドバイス自体に対する理解に依存する。 そこで我々は,人的信頼と意思決定を改善するために,アドバイザーエージェントに関する説明を生成するためのADESSEというアプローチを開発した。 様々なモデルサイズを持つ様々な環境における計算実験は、ADESSEの適用性と拡張性を示している。 さらに,対話型ゲームを用いたユーザスタディでは,参加者の満足度が大きく向上し,ゲームにおける報酬が向上し,ADESSEが生成した説明を提示した場合の行動選択に要する時間が短縮された。 これらの知見は、AIによる意思決定における調整された人間中心の説明の重要性を浮き彫りにしている。

In the evolving landscape of human-centered AI, fostering a synergistic relationship between humans and AI agents in decision-making processes stands as a paramount challenge. This work considers a problem setup where an intelligent agent comprising a neural network-based prediction component and a deep reinforcement learning component provides advice to a human decision-maker in complex repeated decision-making environments. Whether the human decision-maker would follow the agent's advice depends on their beliefs and trust in the agent and on their understanding of the advice itself. To this end, we developed an approach named ADESSE to generate explanations about the adviser agent to improve human trust and decision-making. Computational experiments on a range of environments with varying model sizes demonstrate the applicability and scalability of ADESSE. Furthermore, an interactive game-based user study shows that participants were significantly more satisfied, achieved a higher reward in the game, and took less time to select an action when presented with explanations generated by ADESSE. These findings illuminate the critical role of tailored, human-centered explanations in AI-assisted decision-making.
翻訳日:2024-06-03 14:57:18 公開日:2024-05-31
# FinGen: ファイナンスにおける議論生成のためのデータセット

FinGen: A Dataset for Argument Generation in Finance ( http://arxiv.org/abs/2405.20708v1 )

ライセンス: Link先を確認
Chung-Chi Chen, Hiroya Takamura, Ichiro Kobayashi, Yusuke Miyao, (参考訳) 未来について考えることは、人々が日常生活で行う重要な活動の1つです。 未来主義者たちは、将来起こりうるシナリオの解明にも多くの努力を払っています。 我々は、この方向の探索はまだNLP研究の初期段階にあると論じる。 そこで本研究では,金融アプリケーションシナリオにおける3つの引数生成タスクを提案する。 実験結果から,これらの課題はまだ代表モデルにとって大きな課題であることがわかった。 実験結果に基づいて,本研究の方向性に関する未解決問題と課題をさらに指摘する。

Thinking about the future is one of the important activities that people do in daily life. Futurists also pay a lot of effort into figuring out possible scenarios for the future. We argue that the exploration of this direction is still in an early stage in the NLP research. To this end, we propose three argument generation tasks in the financial application scenario. Our experimental results show these tasks are still big challenges for representative generation models. Based on our empirical results, we further point out several unresolved issues and challenges in this research direction.
翻訳日:2024-06-03 14:57:18 公開日:2024-05-31
# 一般化カテゴリー発見のための相互情報の最大化の再検討

Revisiting Mutual Information Maximization for Generalized Category Discovery ( http://arxiv.org/abs/2405.20711v1 )

ライセンス: Link先を確認
Zhaorui Tan, Chengrui Zhang, Xi Yang, Jie Sun, Kaizhu Huang, (参考訳) 一般化されたカテゴリ発見は、モデルが未知のカテゴリからラベルのないサンプルを認識できる一般化能力を必要とする、現実的なシナリオにおける課題を示す。 本稿では,確率的パラメトリック分類器を用いた情報最大化(InfoMax)のレンズによる一般化されたカテゴリ発見の課題を再考する。 その結果,すべてのクラスに一様確率分布を仮定しながら,未知クラス間の独立性を確保することで,モデルの性能を高める未知クラス間のマージンを増大させることがわかった。 上記の独立性を実現するために,新しいInfoMax方式であるRegularized Parametric InfoMax (RPIM)を提案する。 さらに, 計算コストの削減のために, 直接微調整ではなく, 事前学習モデルから特徴を洗練するために, セマンティックバイアス変換を導入する。 6つのベンチマークデータセットの大規模な実験により,本手法の有効性が検証された。 RPIMは未知のクラスに関するパフォーマンスを大幅に改善し、最先端の手法を平均マージン3.5%上回った。

Generalized category discovery presents a challenge in a realistic scenario, which requires the model's generalization ability to recognize unlabeled samples from known and unknown categories. This paper revisits the challenge of generalized category discovery through the lens of information maximization (InfoMax) with a probabilistic parametric classifier. Our findings reveal that ensuring independence between known and unknown classes while concurrently assuming a uniform probability distribution across all classes, yields an enlarged margin among known and unknown classes that promotes the model's performance. To achieve the aforementioned independence, we propose a novel InfoMax-based method, Regularized Parametric InfoMax (RPIM), which adopts pseudo labels to supervise unlabeled samples during InfoMax, while proposing a regularization to ensure the quality of the pseudo labels. Additionally, we introduce novel semantic-bias transformation to refine the features from the pre-trained model instead of direct fine-tuning to rescue the computational costs. Extensive experiments on six benchmark datasets validate the effectiveness of our method. RPIM significantly improves the performance regarding unknown classes, surpassing the state-of-the-art method by an average margin of 3.5%.
翻訳日:2024-06-03 14:57:18 公開日:2024-05-31
# 普遍量子コンピュータにおけるオープン量子システムのシミュレーション

Simulation of open quantum systems on universal quantum computers ( http://arxiv.org/abs/2405.20712v1 )

ライセンス: Link先を確認
Huan-Yu Liu, Xiaoshui Lin, Zhao-Yun Chen, Cheng Xue, Tai-Ping Sun, Qing-Song Li, Xi-Ning Zhuang, Yun-Jie Wang, Yu-Chun Wu, Ming Gong, Guo-Ping Guo, (参考訳) 量子コンピュータの急速な発展は、様々なタスクにおける量子アドバンテージの実証を可能にした。 しかし、実際の量子系は常に環境との必然的な相互作用のために散逸し、結果として生じる非ユニタリなダイナミクスは、ユニタリな量子ゲートだけで量子シミュレーションを困難にしている。 本研究では,量子コンピュータを用いてオープンな量子システムをシミュレートする,革新的でスケーラブルな手法を提案する。 共役密度行列を真の密度行列の対として定義し、混合ユニタリ量子チャネルに還元し、量子コンピュータを用いて効果的にサンプリングすることができる。 この方法には、補助量子ビットや注目すべきスケーラビリティなど、いくつかの利点がある。 さらに、正確な長時間シミュレーションも随伴密度行列として達成でき、真の散逸した行列は同じ状態に収束する。 最後に、この理論の展開を、短時間のダイナミクスによる相関とエントロピーの進化のための散逸的量子$XY$モデルと、長時間のダイナミクスによる多体ローカライゼーションのための混乱したハイゼンベルクモデルに示す。 この研究は、量子コンピュータを用いた実世界の多体力学の研究を促進し、実用的な量子的優位性を示す可能性を強調している。

The rapid development of quantum computers has enabled demonstrations of quantum advantages on various tasks. However, real quantum systems are always dissipative due to their inevitable interaction with the environment, and the resulting non-unitary dynamics make quantum simulation challenging with only unitary quantum gates. In this work, we present an innovative and scalable method to simulate open quantum systems using quantum computers. We define an adjoint density matrix as a counterpart of the true density matrix, which reduces to a mixed-unitary quantum channel and thus can be effectively sampled using quantum computers. This method has several benefits, including no need for auxiliary qubits and noteworthy scalability. Moreover, accurate long-time simulation can also be achieved as the adjoint density matrix and the true dissipated one converge to the same state. Finally, we present deployments of this theory in the dissipative quantum $XY$ model for the evolution of correlation and entropy with short-time dynamics and the disordered Heisenberg model for many-body localization with long-time dynamics. This work promotes the study of real-world many-body dynamics with quantum computers, highlighting the potential to demonstrate practical quantum advantages.
翻訳日:2024-06-03 14:57:18 公開日:2024-05-31
# 粒状回路を用いたSボックスの高速評価

Fast Evaluation of S-boxes with Garbled Circuits ( http://arxiv.org/abs/2405.20713v1 )

ライセンス: Link先を確認
Erik Pohle, Aysajan Abidin, Bart Preneel, (参考訳) ガーブリングスキームは、プライバシ保護プロトコルとセキュアな双方向計算のための重要なプリミティブである。 本稿では、XORと単射影ゲートからなる回路において、2^n$の値をワイヤに割り当てる射影ガーブリング方式を提案する。 FreeXORの一般化により、2^n$の値を持つワイヤのXORは非常に効率的である。 次に、置換置換置換暗号の評価により、提案方式の性能を解析する。 提案手法を用いて,ガリングと帯域幅のコストを適度に高めることで,暗号の高速評価を行う。 理論的分析によれば、9つの検証された暗号を評価する場合、評価性能は最大で4倍から70倍に向上し、少なくともハーフゲート(Zahur、Rosulek、Evans、Eurocrypt'15)と3ハーフ(Rosulek、Roy、Crypto'21)と比較して通信コストが8倍に向上すると予想される。 サービスとしてのセキュアな機能評価などのオフライン/オンライン設定では、回路のギャリングと評価器への通信がオフラインフェーズで進行する。 このように、我々の計画は高速なオンラインフェーズを提供する。 さらに,TWINEおよびMidori64暗号のSボックスに対して,効率的なブール回路を提案する。 我々の知る限り、我々の公式は2つの暗号のS-ボックスに対して最小のANDゲートを与える。

Garbling schemes are vital primitives for privacy-preserving protocols and secure two-party computation. This paper presents a projective garbling scheme that assigns $2^n$ values to wires in a circuit comprising XOR and unary projection gates. A generalization of FreeXOR allows the XOR of wires with $2^n$ values to be very efficient. We then analyze the performance of our scheme by evaluating substitution-permutation ciphers. Using our proposal, we measure high-speed evaluation of the ciphers with a moderately increased cost in garbling and bandwidth. Theoretical analysis suggests that for evaluating the nine examined ciphers, one can expect a 4- to 70-fold improvement in evaluation performance with, at most, a 4-fold increase in garbling cost and, at most, an 8-fold increase in communication cost compared to the Half-Gates (Zahur, Rosulek and Evans; Eurocrypt'15) and ThreeHalves (Rosulek and Roy; Crypto'21) garbling schemes. In an offline/online setting, such as secure function evaluation as a service, the circuit garbling and communication to the evaluator can proceed in the offline phase. Thus, our scheme offers a fast online phase. Furthermore, we present efficient Boolean circuits for the S-boxes of TWINE and Midori64 ciphers. To our knowledge, our formulas give the smallest number of AND gates for the S-boxes of these two ciphers.
翻訳日:2024-06-03 14:57:18 公開日:2024-05-31
# カオス力学を用いた循環画像生成

Cyclic image generation using chaotic dynamics ( http://arxiv.org/abs/2405.20717v1 )

ライセンス: Link先を確認
Takaya Tanaka, Yutaka Yamaguti, (参考訳) 循環変換を用いた連続画像生成は,CycleGANモデルを拡張して3つのカテゴリの画像を変換することによって実証される。 訓練されたジェネレータの繰り返し適用は、異なるカテゴリ間で遷移する画像のシーケンスを生成する。 生成された画像シーケンスは、元のトレーニングデータセットと比較して画像空間のより限られた領域を占める。 精度とリコール指標を用いた定量的評価では, 生成した画像の品質は高いが, トレーニングデータセットと比較して多様性は低いことが示唆された。 このような連続的な生成過程は、力学系理論の観点からカオス力学として特徴づけられる。 生成された軌道から推定される正のリャプノフ指数はカオス力学の存在を証明し、アトラクターのリャプノフ次元は訓練データ多様体の内在次元に匹敵する。 その結果, 深部生成モデルによって定義される画像空間のカオス的ダイナミクスは, 生成画像の多様性に寄与し, マルチクラス画像生成の新しいアプローチを構成することが示唆された。 このモデルは、画像カテゴリ間で異種連想を行うための古典的連想記憶の拡張と解釈できる。

Successive image generation using cyclic transformations is demonstrated by extending the CycleGAN model to transform images among three different categories. Repeated application of the trained generators produces sequences of images that transition among the different categories. The generated image sequences occupy a more limited region of the image space compared with the original training dataset. Quantitative evaluation using precision and recall metrics indicates that the generated images have high quality but reduced diversity relative to the training dataset. Such successive generation processes are characterized as chaotic dynamics in terms of dynamical system theory. Positive Lyapunov exponents estimated from the generated trajectories confirm the presence of chaotic dynamics, with the Lyapunov dimension of the attractor found to be comparable to the intrinsic dimension of the training data manifold. The results suggest that chaotic dynamics in the image space defined by the deep generative model contribute to the diversity of the generated images, constituting a novel approach for multi-class image generation. This model can be interpreted as an extension of classical associative memory to perform hetero-association among image categories.
翻訳日:2024-06-03 14:57:18 公開日:2024-05-31
# 人気バイアスの緩和のためのアライメントとコントラスト

Popularity-Aware Alignment and Contrast for Mitigating Popularity Bias ( http://arxiv.org/abs/2405.20718v1 )

ライセンス: Link先を確認
Miaomiao Cai, Lei Chen, Yifan Wang, Haoyue Bai, Peijie Sun, Le Wu, Min Zhang, Meng Wang, (参考訳) 協調フィルタリング(CF)は一般的に、現実のデータセットにおけるアイテムの不均一な分布のため、人気バイアスの重大な問題に悩まされる。 このバイアスは、人気アイテムと不人気アイテムの間にかなりの精度のギャップをもたらす。 ユーザの好みの正確な理解を妨げるだけでなく、リコメンデーションシステムにおけるMatthew効果を悪化させる。 人気バイアスを軽減するため、既存の取り組みは不人気アイテムの強調や、アイテム表現と人気との相関関係の分離に重点を置いている。 効果にもかかわらず,既存の作品では,(1)人気項目からの共通監視信号を抽出し,不人気項目の表現を改善する方法,(2)人気バイアスによる表現分離を緩和する方法の2つの課題に直面している。 本研究では,人気バイアスの実証分析を行い,2つの課題に対処するために,大衆意識アライメントとコントラスト(PAAC)を提案する。 具体的には、一般的なアイテム表現でモデル化された共通スーパーバイザリー信号を使用し、不人気なアイテム表現を学習するために、新しい人気を意識した教師付きアライメントモジュールを提案する。 さらに,コントラスト学習の損失を再重み付けすることで,表現の分離を人気中心の視点から緩和することを提案する。 最後に,3つの実世界のデータセットに対する広範な実験を通じて,人気バイアスを緩和するPAACの有効性と理論的根拠を検証する。 私たちのコードはhttps://github.com/miaomiao-cai2/KDD2024-PAACで公開されています。

Collaborative Filtering (CF) typically suffers from the significant challenge of popularity bias due to the uneven distribution of items in real-world datasets. This bias leads to a significant accuracy gap between popular and unpopular items. It not only hinders accurate user preference understanding but also exacerbates the Matthew effect in recommendation systems. To alleviate popularity bias, existing efforts focus on emphasizing unpopular items or separating the correlation between item representations and their popularity. Despite the effectiveness, existing works still face two persistent challenges: (1) how to extract common supervision signals from popular items to improve the unpopular item representations, and (2) how to alleviate the representation separation caused by popularity bias. In this work, we conduct an empirical analysis of popularity bias and propose Popularity-Aware Alignment and Contrast (PAAC) to address two challenges. Specifically, we use the common supervisory signals modeled in popular item representations and propose a novel popularity-aware supervised alignment module to learn unpopular item representations. Additionally, we suggest re-weighting the contrastive learning loss to mitigate the representation separation from a popularity-centric perspective. Finally, we validate the effectiveness and rationale of PAAC in mitigating popularity bias through extensive experiments on three real-world datasets. Our code is available at https://github.com/miaomiao-cai2/KDD2024-PAAC.
翻訳日:2024-06-03 14:57:18 公開日:2024-05-31
# 条件付き正規化流を用いた気候変動型ダウンスケーリング

Climate Variable Downscaling with Conditional Normalizing Flows ( http://arxiv.org/abs/2405.20719v1 )

ライセンス: Link先を確認
Christina Winkler, Paula Harder, David Rolnick, (参考訳) 地球規模の気候モデルの予測は、気候シミュレーションの計算コストが大きいため、粗い空間スケールで行うのが一般的である。 これはコンピュータビジョンの文脈における超解像と同様のプロセスであり、より局所的および局所的な気候情報を提供する統計的ダウンスケーリングの手法にかなりの関心を惹き付けている。 本研究では,気候変動ダウンスケーリングの課題に対して条件付き正規化フローを適用する。 異なるアップサンプリング要因に対するERA5水量データセット上で,その性能を実証した。 さらに, 本手法により, 適合条件分布平均からの標準偏差から予測の不確実性を評価することができることを示す。

Predictions of global climate models typically operate on coarse spatial scales due to the large computational costs of climate simulations. This has led to a considerable interest in methods for statistical downscaling, a similar process to super-resolution in the computer vision context, to provide more local and regional climate information. In this work, we apply conditional normalizing flows to the task of climate variable downscaling. We showcase its successful performance on an ERA5 water content dataset for different upsampling factors. Additionally, we show that the method allows us to assess the predictive uncertainty in terms of standard deviation from the fitted conditional distribution mean.
翻訳日:2024-06-03 14:57:18 公開日:2024-05-31
# 協調監督の力:3次元半監督対象検出の強化のための複数教師フレームワーク

Power of Cooperative Supervision: Multiple Teachers Framework for Enhanced 3D Semi-Supervised Object Detection ( http://arxiv.org/abs/2405.20720v1 )

ライセンス: Link先を確認
Jin-Hee Lee, Jae-Keun Lee, Je-Seok Kim, Soon Kwon, (参考訳) 自律型プラットフォームにおける安全な都市走行を確保するためには,高性能物体検出技術の開発だけでなく,様々な都市環境や物体特性を捉える多種多様な代表的データセットの確立が不可欠である。 これら2つの課題に対処するために,多様な都市環境とオブジェクト特性を反映したマルチクラス3次元LiDARデータセットを構築し,複数の教師フレームワークに基づく堅牢な3次元半教師対象検出(SSOD)を開発した。 このSSODフレームワークは、類似のクラスを分類し、各カテゴリに専門教師を割り当てる。 これらの専門教師間の協調的な監督を通じて、学生ネットワークはますます熟達し、非常に効果的な物体検出装置へと繋がる。 本稿では,PieAug(PieAug)をベースとした簡易かつ効果的な拡張手法を提案し,教師ネットワークが高品質な擬似ラベルを生成できるようにする。 WOD,KITTI,および我々のデータセットに関する大規模な実験により、提案手法の有効性とデータセットの品質が検証された。 実験結果から,本手法は既存の3次元半教師付きオブジェクト検出手法を全データセットで一貫して上回ることがわかった。 近い将来、Githubリポジトリで利用可能なマルチクラスLiDARデータセットとソースコードをリリースする予定です。

To ensure safe urban driving for autonomous platforms, it is crucial not only to develop high-performance object detection techniques but also to establish a diverse and representative dataset that captures various urban environments and object characteristics. To address these two issues, we have constructed a multi-class 3D LiDAR dataset reflecting diverse urban environments and object characteristics, and developed a robust 3D semi-supervised object detection (SSOD) based on a multiple teachers framework. This SSOD framework categorizes similar classes and assigns specialized teachers to each category. Through collaborative supervision among these category-specialized teachers, the student network becomes increasingly proficient, leading to a highly effective object detector. We propose a simple yet effective augmentation technique, Pie-based Point Compensating Augmentation (PieAug), to enable the teacher network to generate high-quality pseudo-labels. Extensive experiments on the WOD, KITTI, and our datasets validate the effectiveness of our proposed method and the quality of our dataset. Experimental results demonstrate that our approach consistently outperforms existing state-of-the-art 3D semi-supervised object detection methods across all datasets. We plan to release our multi-class LiDAR dataset and the source code available on our Github repository in the near future.
翻訳日:2024-06-03 14:57:18 公開日:2024-05-31
# ContextGS:アンカーレベルコンテキストモデルによるコンパクトな3次元ガウス分割

ContextGS: Compact 3D Gaussian Splatting with Anchor Level Context Model ( http://arxiv.org/abs/2405.20721v1 )

ライセンス: Link先を確認
Yufei Wang, Zhihao Li, Lanqing Guo, Wenhan Yang, Alex C. Kot, Bihan Wen, (参考訳) 近年, 3D Gaussian Splatting (3DGS) は, 高速なレンダリング速度と高忠実度を実現する新しいビュー合成のフレームワークとして期待されている。 しかし、多数のガウスとその関連属性は効果的な圧縮技術を必要とする。 既存の方法は、主に個別に独立にニューラル・ガウスを圧縮する、すなわち全てのニューラル・ガウスを同時にコーディングする。 本研究では,画像圧縮における文脈モデルの有効性に着想を得て,3DGS圧縮のためのアンカーレベルにおける最初の自己回帰モデルを提案する。 我々はアンカーを異なるレベルに分割し、まだコーディングされていないアンカーは、すべての粗いレベルで既にコーディングされているアンカーに基づいて予測できるので、より正確なモデリングとより高いコーディング効率をもたらす。 エントロピー符号化の効率をさらに向上するために、例えば、アンカーを符号化していない粗いレベルを符号化するために、各アンカーのハイパープライヤとして低次元量子化機能を導入することを提案する。 我々の研究は3DGS表現のアンカーレベルのコンテキストモデルを開拓し、最新の最先端のScaffold-GSと比較して100倍以上のサイズ縮小を実現し、レンダリング品質も同等あるいはそれ以上に向上した。

Recently, 3D Gaussian Splatting (3DGS) has become a promising framework for novel view synthesis, offering fast rendering speeds and high fidelity. However, the large number of Gaussians and their associated attributes require effective compression techniques. Existing methods primarily compress neural Gaussians individually and independently, i.e., coding all the neural Gaussians at the same time, with little design for their interactions and spatial dependence. Inspired by the effectiveness of the context model in image compression, we propose the first autoregressive model at the anchor level for 3DGS compression in this work. We divide anchors into different levels and the anchors that are not coded yet can be predicted based on the already coded ones in all the coarser levels, leading to more accurate modeling and higher coding efficiency. To further improve the efficiency of entropy coding, e.g., to code the coarsest level with no already coded anchors, we propose to introduce a low-dimensional quantized feature as the hyperprior for each anchor, which can be effectively compressed. Our work pioneers the context model in the anchor level for 3DGS representation, yielding an impressive size reduction of over 100 times compared to vanilla 3DGS and 15 times compared to the most recent state-of-the-art work Scaffold-GS, while achieving comparable or even higher rendering quality.
翻訳日:2024-06-03 14:57:18 公開日:2024-05-31
# UMLと合金を用いた生態系修復要件の形式的検証

Formal Verification of Ecosystem Restoration Requirements using UML and Alloy ( http://arxiv.org/abs/2405.20722v1 )

ライセンス: Link先を確認
Tiago Sousa, Benoît Ries, Nicolas Guelfi, (参考訳) 国連は、現在の10年間(2021-2030年)を、進行中の環境危機に対抗するためにR&D軍に加わるための「生態系回復に関する国連の10年」と宣言した。 地球生態系の継続的な衰退と、それらが人間社会に提供している重要なサービスを考えると、生態系の回復は社会にとって重要な問題となっている。 生態系の回復を管理する厳格なソフトウェアアプリケーションを開発する必要がある。 生態系の信頼性の高いモデルと復元目標が必要である。 本稿では,モデル駆動ソフトウェア工学の観点から形式的手法を用いた生態系要求モデリングのための厳密なアプローチを提案する。 著者らはUMLのメタモデルにまつわる主要な概念を説明し、アロイのメタモデルの形式化を紹介します。 フォーマルモデルはアロイアナライザーで実行され、それに対して安全性と生活性を確認する。 このアプローチは,生態系の仕様が信頼性が高く,特定のエコシステムが望まれる修復目標を満たすことを保証する上で有効である。 このアプローチの概念とアクティビティは、修復されたCosta Ricanエコシステムの現実的な実行例であるCRESTOで説明されています。

United Nations have declared the current decade (2021-2030) as the "UN Decade on Ecosystem Restoration" to join R\&D forces to fight against the ongoing environmental crisis. Given the ongoing degradation of earth ecosystems and the related crucial services that they offer to the human society, ecosystem restoration has become a major society-critical issue. It is required to develop rigorously software applications managing ecosystem restoration. Reliable models of ecosystems and restoration goals are necessary. This paper proposes a rigorous approach for ecosystem requirements modeling using formal methods from a model-driven software engineering point of view. The authors describe the main concepts at stake with a metamodel in UML and introduce a formalization of this metamodel in Alloy. The formal model is executed with Alloy Analyzer, and safety and liveness properties are checked against it. This approach helps ensuring that ecosystem specifications are reliable and that the specified ecosystem meets the desired restoration goals, seen in our approach as liveness and safety properties. The concepts and activities of the approach are illustrated with CRESTO, a real-world running example of a restored Costa Rican ecosystem.
翻訳日:2024-06-03 14:57:18 公開日:2024-05-31
# 交差するコミュニティを用いた大規模グラフの学習

Learning on Large Graphs using Intersecting Communities ( http://arxiv.org/abs/2405.20724v1 )

ライセンス: Link先を確認
Ben Finkelshtein, İsmail İlkan Ceylan, Michael Bronstein, Ron Levie, (参考訳) メッセージパッシングニューラルネットワーク(MPNN)は、グラフ機械学習の基盤となっている。 MPNNは、ノードの隣人からのメッセージを集約することで、入力グラフ内の各ノードの表現を反復的に更新する。 この複雑さは、あまりスパースではない場合、すぐに大きなグラフに対しては禁じられるかもしれない。 本稿では,入力グラフを交差するコミュニティグラフ (ICG) として近似することで,この問題を緩和する新しい手法を提案する。 重要な洞察は、グラフを近似するために必要なコミュニティの数は、グラフのサイズに依存しないということである。 Weak Graph Regularity Lemma の新たな構成バージョンを開発し、任意の入力グラフに対する近似 ICG を効率的に構築する。 そこで我々は,ノード数(エッジではなく)に関して,線形メモリおよび時間におけるICG上で直接動作する効率的なグラフ学習アルゴリズムを考案した。 これは、ノード分類タスクや時空間データ処理に経験的に適用可能な、非常に大きな非スパースグラフで学習するための、新しく、根本的に異なるパイプラインを提供する。

Message Passing Neural Networks (MPNNs) are a staple of graph machine learning. MPNNs iteratively update each node's representation in an input graph by aggregating messages from the node's neighbors, which necessitates a memory complexity of the order of the number of graph edges. This complexity might quickly become prohibitive for large graphs provided they are not very sparse. In this paper, we propose a novel approach to alleviate this problem by approximating the input graph as an intersecting community graph (ICG) -- a combination of intersecting cliques. The key insight is that the number of communities required to approximate a graph does not depend on the graph size. We develop a new constructive version of the Weak Graph Regularity Lemma to efficiently construct an approximating ICG for any input graph. We then devise an efficient graph learning algorithm operating directly on ICG in linear memory and time with respect to the number of nodes (rather than edges). This offers a new and fundamentally different pipeline for learning on very large non-sparse graphs, whose applicability is demonstrated empirically on node classification tasks and spatio-temporal data processing.
翻訳日:2024-06-03 14:57:18 公開日:2024-05-31
# GI-NAS: 適応型ニューラルネットワークサーチによるグラディエント・インバージョン・アタックの強化

GI-NAS: Boosting Gradient Inversion Attacks through Adaptive Neural Architecture Search ( http://arxiv.org/abs/2405.20725v1 )

ライセンス: Link先を確認
Wenbo Yu, Hao Fang, Bin Chen, Xiaohang Sui, Chuan Chen, Hao Wu, Shu-Tao Xia, Ke Xu, (参考訳) グラディエント・インバージョン・アタック(Gradient Inversion Attacks)は、Federated Learning (FL)システムで送信された勾配を逆転し、ローカルクライアントの機密データを再構築する。 勾配反転法の大半は明示的な事前知識(例えば、十分に訓練された生成モデル)に大きく依存しており、現実的なシナリオでは利用できないことが多い。 この問題を緩和するため、研究者は過度にパラメータ化されたネットワークの暗黙の事前知識を活用することを提案した。 しかし、それらはすべての攻撃設定に対してのみ、固定されたニューラルネットワークアーキテクチャを使用する。 これにより、暗黙のアーキテクチャ事前の適応的な使用が妨げられ、その結果、一般化性が制限される。 本稿では,ニューラルネットワークを適応的に探索し,ニューラルネットワークの背後にある暗黙の先行情報をキャプチャする,GI-NAS(Gradient Inversion via Neural Architecture Search)を提案することによって,そのような暗黙の事前知識をさらに活用する。 GI-NASは,高解像度画像,大規模バッチ,先進防衛戦略を用いて,より実用的な設定下であっても,最先端の勾配反転法に比べて優れた攻撃性能が得られることが実証された。

Gradient Inversion Attacks invert the transmitted gradients in Federated Learning (FL) systems to reconstruct the sensitive data of local clients and have raised considerable privacy concerns. A majority of gradient inversion methods rely heavily on explicit prior knowledge (e.g., a well pre-trained generative model), which is often unavailable in realistic scenarios. To alleviate this issue, researchers have proposed to leverage the implicit prior knowledge of an over-parameterized network. However, they only utilize a fixed neural architecture for all the attack settings. This would hinder the adaptive use of implicit architectural priors and consequently limit the generalizability. In this paper, we further exploit such implicit prior knowledge by proposing Gradient Inversion via Neural Architecture Search (GI-NAS), which adaptively searches the network and captures the implicit priors behind neural architectures. Extensive experiments verify that our proposed GI-NAS can achieve superior attack performance compared to state-of-the-art gradient inversion methods, even under more practical settings with high-resolution images, large-sized batches, and advanced defense strategies.
翻訳日:2024-06-03 14:47:24 公開日:2024-05-31
# GANcrop:フェデレートラーニングにおけるバックドア攻撃に対する対照的な防御

GANcrop: A Contrastive Defense Against Backdoor Attacks in Federated Learning ( http://arxiv.org/abs/2405.20727v1 )

ライセンス: Link先を確認
Xiaoyun Gan, Shanyu Gan, Taizhi Su, Peng Liu, (参考訳) データプライバシ保護に対する意識の高まりにより、フェデレートラーニング(FL)は、プライバシを保存する分散機械学習手法として広く注目を集めている。 しかし、フェデレーション学習の分散した性質はバックドア攻撃の機会を与え、攻撃者は、グローバルモデルトレーニングプロセスに影響を与えることなく、誤った予測を生成するようにモデルを誘導することができる。 本稿では,GANcrop という,協調学習におけるバックドア攻撃に対する防御機構について紹介する。 このアプローチは、攻撃識別のための悪意のあるモデルと良性のあるモデルの違いを深く調査するために、対照的な学習を活用し、続いてジェネレーティブ・アドバイサル・ネットワーク(GAN)を使用してバックドアトリガーを回復し、ターゲットの緩和戦略を実装する。 実験結果から,GANcropは特に非IIDシナリオにおいて,良好なモデル精度を維持しながらバックドア攻撃を効果的に防御し,優れた防御効果と実用性を示した。

With heightened awareness of data privacy protection, Federated Learning (FL) has attracted widespread attention as a privacy-preserving distributed machine learning method. However, the distributed nature of federated learning also provides opportunities for backdoor attacks, where attackers can guide the model to produce incorrect predictions without affecting the global model training process. This paper introduces a novel defense mechanism against backdoor attacks in federated learning, named GANcrop. This approach leverages contrastive learning to deeply explore the disparities between malicious and benign models for attack identification, followed by the utilization of Generative Adversarial Networks (GAN) to recover backdoor triggers and implement targeted mitigation strategies. Experimental findings demonstrate that GANcrop effectively safeguards against backdoor attacks, particularly in non-IID scenarios, while maintaining satisfactory model accuracy, showcasing its remarkable defensive efficacy and practical utility.
翻訳日:2024-06-03 14:47:24 公開日:2024-05-31
# 極端に監督されたインスタンスセグメンテーション

Extreme Point Supervised Instance Segmentation ( http://arxiv.org/abs/2405.20729v1 )

ライセンス: Link先を確認
Hyeonjun Lee, Sehyun Hwang, Suha Kwak, (参考訳) 本稿では,各オブジェクトの極端点,左極端点,最下極点,右極端点を用いて,インスタンスセグメンテーションを学習するための新しいアプローチを提案する。 これらの点は、厳密なセグメンテーションのための強力なヒントを提供しながら、現代的なバウンディングボックスアノテーションプロセスで容易に利用でき、ボックス管理されたメソッドで同じアノテーションコストでパフォーマンスを向上させることができる。 我々の研究は、極端点を真のインスタンスマスクの一部とみなし、これらを擬似ラベル生成器のトレーニングに使用した、潜在的な前景および背景点を特定するために伝播する。 次に、生成元が付与した擬似ラベルを用いて、最終モデルの教師付き学習を行う。 3つの公開ベンチマークにおいて,本手法は既存のボックス管理手法を著しく上回り,完全教師付き手法とのギャップをさらに狭めている。 特に,本モデルでは,対象物体を複数の部品に分けた場合に高品質なマスクを生成する。

This paper introduces a novel approach to learning instance segmentation using extreme points, i.e., the topmost, leftmost, bottommost, and rightmost points, of each object. These points are readily available in the modern bounding box annotation process while offering strong clues for precise segmentation, and thus allows to improve performance at the same annotation cost with box-supervised methods. Our work considers extreme points as a part of the true instance mask and propagates them to identify potential foreground and background points, which are all together used for training a pseudo label generator. Then pseudo labels given by the generator are in turn used for supervised learning of our final model. On three public benchmarks, our method significantly outperforms existing box-supervised methods, further narrowing the gap with its fully supervised counterpart. In particular, our model generates high-quality masks when a target object is separated into multiple parts, where previous box-supervised methods often fail.
翻訳日:2024-06-03 14:47:24 公開日:2024-05-31
# 畳み込みニューラルネットワークを用いたリモートセンシングデータを用いた最大温度予測

Maximum Temperature Prediction Using Remote Sensing Data Via Convolutional Neural Network ( http://arxiv.org/abs/2405.20731v1 )

ライセンス: Link先を確認
Lorenzo Innocenti, Giacomo Blanco, Luca Barco, Claudio Rossi, (参考訳) 都市熱島は、自然環境の持続可能性や公衆衛生に重大な脅威をもたらす。 本研究では,Sentinel-3衛星からのデータと気象予報,リモートセンシング入力を併用する新しい機械学習モデルを提案する。 主な目的は、トリノで24時間以内にピーク温度を予測する詳細な時空間地図を作成することである。 実験により,2023年の平均絶対誤差(MAE)は209°Cで1ピクセルあたり20mの解像度で達成され,都市の気候行動に関する知識を充実させることができた。 本研究は, 都市微気候の理解を深め, 学際的データ統合の重要性を強調し, 極度の都市温度の負の影響を軽減することを目的とした, 情報政策作成の基盤を築き上げた。

Urban heat islands, defined as specific zones exhibiting substantially higher temperatures than their immediate environs, pose significant threats to environmental sustainability and public health. This study introduces a novel machine-learning model that amalgamates data from the Sentinel-3 satellite, meteorological predictions, and additional remote sensing inputs. The primary aim is to generate detailed spatiotemporal maps that forecast the peak temperatures within a 24-hour period in Turin. Experimental results validate the model's proficiency in predicting temperature patterns, achieving a Mean Absolute Error (MAE) of 2.09 degrees Celsius for the year 2023 at a resolution of 20 meters per pixel, thereby enriching our knowledge of urban climatic behavior. This investigation enhances the understanding of urban microclimates, emphasizing the importance of cross-disciplinary data integration, and laying the groundwork for informed policy-making aimed at alleviating the negative impacts of extreme urban temperatures.
翻訳日:2024-06-03 14:47:24 公開日:2024-05-31
# マルチモーダル医用画像におけるCLIPの言語拡張による解剖学的改善

Language Augmentation in CLIP for Improved Anatomy Detection on Multi-modal Medical Images ( http://arxiv.org/abs/2405.20735v1 )

ライセンス: Link先を確認
Mansi Kakkar, Dattesh Shanbhag, Chandan Aladahalli, Gurunath Reddy M, (参考訳) ビジョン言語モデルは、これまで医療領域におけるマルチモーダル分類問題に挑戦する強力なツールとして登場した。 この開発により、マルチモーダルな臨床スキャンのための自動画像記述生成、特に放射線学レポート生成の探索に繋がった。 既存の研究は、特定のモダリティや身体領域の臨床的記述に焦点を当てており、全身のマルチモーダル記述を提供するモデルにギャップを残している。 本稿では,マルチモーダルMRIおよびCT画像において,全身の標準化された体局と臓器のリストの自動生成により,このギャップに対処する。 CLIP(Contrastive Language- Image Pre-Training)の汎用性を活用して,ベースラインモデルファインチューニング,ステーション(s)をスーパーセットとして追加し,臓器間の相関性を向上する。 提案手法は,ベースラインPubMedCLIPよりも47.6%の性能向上を示す。

Vision-language models have emerged as a powerful tool for previously challenging multi-modal classification problem in the medical domain. This development has led to the exploration of automated image description generation for multi-modal clinical scans, particularly for radiology report generation. Existing research has focused on clinical descriptions for specific modalities or body regions, leaving a gap for a model providing entire-body multi-modal descriptions. In this paper, we address this gap by automating the generation of standardized body station(s) and list of organ(s) across the whole body in multi-modal MR and CT radiological images. Leveraging the versatility of the Contrastive Language-Image Pre-training (CLIP), we refine and augment the existing approach through multiple experiments, including baseline model fine-tuning, adding station(s) as a superset for better correlation between organs, along with image and language augmentations. Our proposed approach demonstrates 47.6% performance improvement over baseline PubMedCLIP.
翻訳日:2024-06-03 14:47:24 公開日:2024-05-31
# 部分的に重複する臨床データに対するフェデレーションランダムフォレスト

Federated Random Forest for Partially Overlapping Clinical Data ( http://arxiv.org/abs/2405.20738v1 )

ライセンス: Link先を確認
Youngjun Park, Cord Eric Schmidt, Benedikt Marcel Batton, Anne-Christin Hauschild, (参考訳) 医療分野では、データプライバシとそれに対応するデータ保護規則、および異種および非調和データを取り巻く意識が、大規模データ分析に大きな課題をもたらしている。 さらに、臨床データには部分的に重複する特徴が伴うことが多く、手術方法の違い、診断検査、あるいは病院や機関間で記録された患者の履歴情報など、様々な理由から、いくつかの観察が欠落していることがある。 臨床データセットにおける特徴と不完全データの一部を重複させることによって生じる課題に対処するためには、包括的なアプローチが必要である。 特に医療データの領域では、特徴が整合するたびに連合したランダムな森林によって有望な結果が得られます。 しかし、ランダムフォレストのようなほとんどの標準的なアルゴリズムでは、全てのデータセットが同じパラメータを持つことが不可欠である。 したがって、この研究において、連合ランダム林の概念は部分的に重なる特徴を持つ環境に適応する。 さらに,本研究は,部分的に重複する臨床データに対して,新たに開発されたランダム森林モデルの有効性を評価する。 フェデレーションされたグローバルに最適化されたモデルを集約するためには、各サイトでローカルに利用可能な機能のみを使用することができる。 私たちは連邦で2つの問題に取り組みました。 一 関係者の人数 (二)特徴の重複の相違。 この評価は3つの臨床データセットにまたがって行われた。 機能のサブセットがオーバーラップする場合でも,フェデレートされたランダムフォレストモデルでは,局所的なモデルに比べて優れた性能を示す。 これは、不均衡なクラスを持つデータセットなど、さまざまなシナリオに当てはまる。 その結果、部分的に重複したデータに対する連合ランダム林は、共同研究や企業協力における障壁を超越するための有望な解決策となる。

In the healthcare sector, a consciousness surrounding data privacy and corresponding data protection regulations, as well as heterogeneous and non-harmonized data, pose huge challenges to large-scale data analysis. Moreover, clinical data often involves partially overlapping features, as some observations may be missing due to various reasons, such as differences in procedures, diagnostic tests, or other recorded patient history information across hospitals or institutes. To address the challenges posed by partially overlapping features and incomplete data in clinical datasets, a comprehensive approach is required. Particularly in the domain of medical data, promising outcomes are achieved by federated random forests whenever features align. However, for most standard algorithms, like random forest, it is essential that all data sets have identical parameters. Therefore, in this work the concept of federated random forest is adapted to a setting with partially overlapping features. Moreover, our research assesses the effectiveness of the newly developed federated random forest models for partially overlapping clinical data. For aggregating the federated, globally optimized model, only features available locally at each site can be used. We tackled two issues in federation: (i) the quantity of involved parties, (ii) the varying overlap of features. This evaluation was conducted across three clinical datasets. The federated random forest model even in cases where only a subset of features overlaps consistently demonstrates superior performance compared to its local counterpart. This holds true across various scenarios, including datasets with imbalanced classes. Consequently, federated random forests for partially overlapped data offer a promising solution to transcend barriers in collaborative research and corporate cooperation.
翻訳日:2024-06-03 14:47:24 公開日:2024-05-31
# 離散遅延符号の低ランク適応による軌道予測

Trajectory Forecasting through Low-Rank Adaptation of Discrete Latent Codes ( http://arxiv.org/abs/2405.20743v1 )

ライセンス: Link先を確認
Riccardo Benaglia, Angelo Porrello, Pietro Buzzega, Simone Calderara, Rita Cucchiara, (参考訳) トラジェクトリ予測はビデオ監視分析において不可欠であり、例えば、長期的意図との複雑な相互作用に従事するバスケットボール選手など、一組のエージェントの将来の動きを予測できる。 深層生成モデルは、軌道予測のための自然な学習手法を提供するが、サンプリング忠実度と多様性の最適バランスを達成するのに困難に直面する。 本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAEs)を用いて,離散潜在空間を用いて後方崩壊問題に取り組むことで,この問題に対処する。 具体的には、インスタンスベースのコードブックを導入し、各例用に調整された潜在表現を可能にします。 簡単に言えば、コードブックの行は動的に調整され、文脈情報(つまり、観察された軌跡から抽出された過去の動きパターン)を反映する。 このようにして、離散化プロセスは柔軟性を高め、再構築の改善につながる。 特に、インスタンスレベルのダイナミクスは低ランクの更新によってコードブックに注入され、コードブックの低次元空間へのカスタマイズが制限される。 結果として生じる離散空間は、拡散に基づく予測モデルのトレーニングを考慮に入れたその後のステップの基礎となる。 このような2段階のフレームワークは、インスタンスレベルの離散化によって強化され、正確で多様な予測をもたらし、3つの確立されたベンチマークで最先端のパフォーマンスが得られることを示す。

Trajectory forecasting is crucial for video surveillance analytics, as it enables the anticipation of future movements for a set of agents, e.g. basketball players engaged in intricate interactions with long-term intentions. Deep generative models offer a natural learning approach for trajectory forecasting, yet they encounter difficulties in achieving an optimal balance between sampling fidelity and diversity. We address this challenge by leveraging Vector Quantized Variational Autoencoders (VQ-VAEs), which utilize a discrete latent space to tackle the issue of posterior collapse. Specifically, we introduce an instance-based codebook that allows tailored latent representations for each example. In a nutshell, the rows of the codebook are dynamically adjusted to reflect contextual information (i.e., past motion patterns extracted from the observed trajectories). In this way, the discretization process gains flexibility, leading to improved reconstructions. Notably, instance-level dynamics are injected into the codebook through low-rank updates, which restrict the customization of the codebook to a lower dimension space. The resulting discrete space serves as the basis of the subsequent step, which regards the training of a diffusion-based predictive model. We show that such a two-fold framework, augmented with instance-level discretization, leads to accurate and diverse forecasts, yielding state-of-the-art performance on three established benchmarks.
翻訳日:2024-06-03 14:47:24 公開日:2024-05-31
# グラフを用いた実践的モデリング

Practical Modelling with Bigraphs ( http://arxiv.org/abs/2405.20745v1 )

ライセンス: Link先を確認
Blair Archibald, Muffy Calder, Michele Sevegnani, (参考訳) グラフはグラフィカルフォーマットでの配置と接続関係を簡単に表現できる汎用的なモデリング形式である。 システムの進化は、ユーザーが書き直しルールの集合として定義する。 本稿では、パラメータ化、即時性、優先順位付け、条件付きルール、確率的および確率的書き換えといった最近の拡張を含む、グラフモデルの開発、実行、推論の実践的かつ詳細なガイドを示す。

Bigraphs are a versatile modelling formalism that allows easy expression of placement and connectivity relations in a graphical format. System evolution is user defined as a set of rewrite rules. This paper presents a practical, yet detailed guide to developing, executing, and reasoning about bigraph models, including recent extensions such as parameterised, instantaneous, prioritised and conditional rules, and probabilistic and stochastic rewriting.
翻訳日:2024-06-03 14:47:24 公開日:2024-05-31
# OpenTensor: 高速マトリックス乗算探索アルゴリズムの再現

OpenTensor: Reproducing Faster Matrix Multiplication Discovering Algorithms ( http://arxiv.org/abs/2405.20748v1 )

ライセンス: Link先を確認
Yiwen Sun, Wenye Li, (参考訳) OpenTensorはAlphaTensorの再現であり、Deep Reinforcement Learning (DRL) による行列乗算の最先端手法よりも優れた新しいアルゴリズムを発見した。 AlphaTensorは科学的な問題を解決するための有望なフレームワークを提供するが、膨大なトリックとソースコードの欠如のために再生するのは本当に難しい。 本稿では,アルゴリズムパイプラインのクリーン化,技術的詳細の明確化,およびトレーニングプロセスの改善について述べる。 計算結果から,OpenTensorは効率の良い行列乗算アルゴリズムを実現できることが示された。

OpenTensor is a reproduction of AlphaTensor, which discovered a new algorithm that outperforms the state-of-the-art methods for matrix multiplication by Deep Reinforcement Learning (DRL). While AlphaTensor provides a promising framework for solving scientific problems, it is really hard to reproduce due to the massive tricks and lack of source codes. In this paper, we clean up the algorithm pipeline, clarify the technical details, and make some improvements to the training process. Computational results show that OpenTensor can successfully find efficient matrix multiplication algorithms.
翻訳日:2024-06-03 14:47:24 公開日:2024-05-31
# 拡散モデルは本質的に1ステップの発電機である

Diffusion Models Are Innate One-Step Generators ( http://arxiv.org/abs/2405.20750v1 )

ライセンス: Link先を確認
Bowen Zheng, Tianming Yang, (参考訳) 拡散モデル(DM)は画像生成や他の分野で大きな成功を収めた。 SDE/ODEソルバによって定義された軌道を、よく訓練されたスコアモデルに基づいて微細にサンプリングすることで、DMは驚くほど高品質な結果が得られる。 しかし、この正確なサンプリングは、しばしば複数のステップを必要とし、計算的に要求される。 この問題を解決するために、より単純な学生モデルでより複雑な教師モデルを模倣することにより、DMから一段階の発電機を蒸留するインスタンスベースの蒸留法が提案されている。 しかし,本研究では,教師モデルに固有の制約が明らかにされている: 生徒モデルと生徒モデルとの違いにより,生徒モデルが教師モデルを再現しようとする場合,教師モデルが異なる局所的ミニマを占有する。 この問題を回避するため, 排他的分散損失を用いた新しい分散蒸留法を提案する。 この方法は、トレーニングイメージを著しく少なくしながら、最先端のSOTA(State-of-the-art)結果を上回る。 さらに、DMの層は異なる時間ステップで異なる活性化をしており、単一のステップで画像を生成する固有の能力をもたらすことを示す。 分散蒸留中のDM中の畳み込み層の大半を凍結すると、さらなる性能向上につながる。 提案手法は, CIFAR-10 (FID 1.54), AFHQv2 64x64 (FID 1.23), FFHQ 64x64 (FID 0.85), ImageNet 64x64 (FID 1.16) のSOTA結果を効率よく達成する。 これらの結果のほとんどは、A100GPU8台で6時間以内に500万のトレーニングイメージで得られます。 このブレークスルーは、効率的な画像生成モデルの理解を深めるだけでなく、様々なアプリケーションで最先端を進化させるためのスケーラブルなフレームワークも提供する。

Diffusion Models (DMs) have achieved great success in image generation and other fields. By fine sampling through the trajectory defined by the SDE/ODE solver based on a well-trained score model, DMs can generate remarkable high-quality results. However, this precise sampling often requires multiple steps and is computationally demanding. To address this problem, instance-based distillation methods have been proposed to distill a one-step generator from a DM by having a simpler student model mimic a more complex teacher model. Yet, our research reveals an inherent limitations in these methods: the teacher model, with more steps and more parameters, occupies different local minima compared to the student model, leading to suboptimal performance when the student model attempts to replicate the teacher. To avoid this problem, we introduce a novel distributional distillation method, which uses an exclusive distributional loss. This method exceeds state-of-the-art (SOTA) results while requiring significantly fewer training images. Additionally, we show that DMs' layers are activated differently at different time steps, leading to an inherent capability to generate images in a single step. Freezing most of the convolutional layers in a DM during distributional distillation leads to further performance improvements. Our method achieves the SOTA results on CIFAR-10 (FID 1.54), AFHQv2 64x64 (FID 1.23), FFHQ 64x64 (FID 0.85) and ImageNet 64x64 (FID 1.16) with great efficiency. Most of those results are obtained with only 5 million training images within 6 hours on 8 A100 GPUs. This breakthrough not only enhances the understanding of efficient image generation models but also offers a scalable framework for advancing the state of the art in various applications.
翻訳日:2024-06-03 14:47:24 公開日:2024-05-31
# ネイティブサンプル混合によるコード混合ヘイト検出の改善:ヒンディー語と英語のコード混合シナリオを事例として

Improving code-mixed hate detection by native sample mixing: A case study for Hindi-English code-mixed scenario ( http://arxiv.org/abs/2405.20755v1 )

ライセンス: Link先を確認
Debajyoti Mazumder, Aakash Kumar, Jasabanta Patro, (参考訳) ヘイト検出は長年、NLPコミュニティにとって難しい課題だった。 タスクは、言語変更によって表現されるコンテキストとヘイトを理解する必要があるため、コード混合環境では複雑になる。 モノリンガルのセットアップと比べて、大規模な注釈付きヘイトコーパスが研究に役立たないため、コードの混合ヘイトに関する作業は極めて少ない。 このボトルネックを克服するために、ネイティブ言語ヘイトサンプルの使用を提案する。 我々は、多言語言語モデル(MLM)の時代において、コード混合設定における憎悪は、主にネイティブ言語サンプルに依存することによって検出できると仮定する。 NLPの文献では、多くの言語間環境でのヘイト検出におけるMLMの有効性が報告されているが、コード混合シナリオにおけるそれらの広範な評価はまだ行われていない。 本稿では,厳密な実証実験を通じて,このギャップを埋めようとしている。 我々はヒンディー語と英語の混成構文をケーススタディとして検討した。 興味深い観察のいくつかは以下のとおりである。 i) コード混合学習セットにネイティブヘイトサンプルを追加することで, 少量であっても, コード混合ヘイト検出のためのMLMの性能が向上した。 (II)コードミキシングヘイトを大量に検出しているネイティブサンプルのみを用いて訓練したMLM。 三 注意点の可視化により、ネイティブサンプルをトレーニングに含めた場合、MLMは、コード混在文脈における憎悪の発する単語により焦点を合わせることができることが明らかとなった。 (iv)最後に、ヘイトが主観的または皮肉な場合、ネイティブサンプルを鼻で混ぜるだけでは、コードミキシングされたヘイトを検出するのにはあまり役に立たない。 報告された結果を再現するために、データとコードリポジトリをリリースします。

Hate detection has long been a challenging task for the NLP community. The task becomes complex in a code-mixed environment because the models must understand the context and the hate expressed through language alteration. Compared to the monolingual setup, we see very less work on code-mixed hate as large-scale annotated hate corpora are unavailable to make the study. To overcome this bottleneck, we propose using native language hate samples. We hypothesise that in the era of multilingual language models (MLMs), hate in code-mixed settings can be detected by majorly relying on the native language samples. Even though the NLP literature reports the effectiveness of MLMs on hate detection in many cross-lingual settings, their extensive evaluation in a code-mixed scenario is yet to be done. This paper attempts to fill this gap through rigorous empirical experiments. We considered the Hindi-English code-mixed setup as a case study as we have the linguistic expertise for the same. Some of the interesting observations we got are: (i) adding native hate samples in the code-mixed training set, even in small quantity, improved the performance of MLMs for code-mixed hate detection, (ii) MLMs trained with native samples alone observed to be detecting code-mixed hate to a large extent, (iii) The visualisation of attention scores revealed that, when native samples were included in training, MLMs could better focus on the hate emitting words in the code-mixed context, and (iv) finally, when hate is subjective or sarcastic, naively mixing native samples doesn't help much to detect code-mixed hate. We will release the data and code repository to reproduce the reported results.
翻訳日:2024-06-03 14:47:24 公開日:2024-05-31
# 情報理論によるテキストと画像のアライメント

Information Theoretic Text-to-Image Alignment ( http://arxiv.org/abs/2405.20759v1 )

ライセンス: Link先を確認
Chao Wang, Giulio Franzese, Alessandro Finamore, Massimo Gallo, Pietro Michiardi, (参考訳) テキスト・トゥ・イメージ・コンディショナル・ジェネレーション(T2I)の拡散モデルは近年大きな成功を収めている。 彼らの成功にもかかわらず、これらのモデルでユーザの意図を正確に捉えるには、依然として厳しい試行錯誤とエラー処理が必要である。 この課題はモデルアライメント問題として一般的に認識されており、研究コミュニティからかなりの注目を集めている。 本研究では,情報理論的アライメント尺度に依存する新たな手法を提案する。 簡単に言えば,本手法は自己教師型微調整を用いて,プロンプトと画像間のポイントワイドな相互情報に依存して,モデルアライメントを誘導するための合成トレーニングセットを定義する。 比較分析の結果,本手法は最先端の手法よりも優れているが,MIと軽量微調整戦略を推定するために,事前学習ネットワークを必要としないことがわかった。

Diffusion models for Text-to-Image (T2I) conditional generation have seen tremendous success recently. Despite their success, accurately capturing user intentions with these models still requires a laborious trial and error process. This challenge is commonly identified as a model alignment problem, an issue that has attracted considerable attention by the research community. Instead of relying on fine-grained linguistic analyses of prompts, human annotation, or auxiliary vision-language models to steer image generation, in this work we present a novel method that relies on an information-theoretic alignment measure. In a nutshell, our method uses self-supervised fine-tuning and relies on point-wise mutual information between prompts and images to define a synthetic training set to induce model alignment. Our comparative analysis shows that our method is on-par or superior to the state-of-the-art, yet requires nothing but a pre-trained denoising network to estimate MI and a lightweight fine-tuning strategy.
翻訳日:2024-06-03 14:47:24 公開日:2024-05-31
# プライバシのための秘密を共有する! 垂直的フェデレーション学習による秘密の予測

Share Your Secrets for Privacy! Confidential Forecasting with Vertical Federated Learning ( http://arxiv.org/abs/2405.20761v1 )

ライセンス: Link先を確認
Aditya Shankar, Lydia Y. Chen, Jérémie Decouchant, Dimitra Gkorou, Rihan Hai, (参考訳) 垂直連合学習(VFL)は、予測保守や機械制御といった産業分野での時系列予測において有望な分野である。 製造業における重要な課題は、トレーニングと推論の両方において、データのプライバシと、小規模でノイズの多いデータセットへの過度な適合である。 さらに、業界適応性を高めるために、このような予測モデルは、強い収束と低チューニングの複雑さを確保しながら、パーティの数とうまくスケールする必要があります。 これらの課題に対処し、以下の重要な特徴を示す新しいフレームワークである「VFL(Secret-Shared Time Series Forecasting with VFL)」を提案する。 一 縦割りデータのSARIMAX及び自己回帰木による予測のためのプライバシー保護アルゴリズム 二 秘密の共有及び多人数計算によるサーバーレス予測 三 行列乗算のための新しいN-パーティアルゴリズム及び直接パラメータ最適化のための逆演算により、極小パラメータチューニングの複雑さを伴う強い収束を与える。 パブリックおよび業界固有のコンテキストから,6つの代表的なデータセットの評価を行う。 以上の結果から,STVの予測精度は集中型手法に匹敵することがわかった。 また、我々の直接最適化は、最先端拡散モデルや長期記憶を含む集中型手法よりも23.81%高い精度で性能を向上できることを示した。 また、直接的および反復的な最適化の通信コストを調べてスケーラビリティ解析を行い、両者の選択をナビゲートする。 コードと付録が利用可能である。 https://github.com/adis98/STV

Vertical federated learning (VFL) is a promising area for time series forecasting in industrial applications, such as predictive maintenance and machine control. Critical challenges to address in manufacturing include data privacy and over-fitting on small and noisy datasets during both training and inference. Additionally, to increase industry adaptability, such forecasting models must scale well with the number of parties while ensuring strong convergence and low-tuning complexity. We address those challenges and propose 'Secret-shared Time Series Forecasting with VFL' (STV), a novel framework that exhibits the following key features: i) a privacy-preserving algorithm for forecasting with SARIMAX and autoregressive trees on vertically partitioned data; ii) serverless forecasting using secret sharing and multi-party computation; iii) novel N-party algorithms for matrix multiplication and inverse operations for direct parameter optimization, giving strong convergence with minimal hyperparameter tuning complexity. We conduct evaluations on six representative datasets from public and industry-specific contexts. Our results demonstrate that STV's forecasting accuracy is comparable to those of centralized approaches. They also show that our direct optimization can outperform centralized methods, which include state-of-the-art diffusion models and long-short-term memory, by 23.81% on forecasting accuracy. We also conduct a scalability analysis by examining the communication costs of direct and iterative optimization to navigate the choice between the two. Code and appendix are available: https://github.com/adis98/STV
翻訳日:2024-06-03 14:47:24 公開日:2024-05-31
# グラフ構造化データのアクセス制御手法の比較

Comparison of Access Control Approaches for Graph-Structured Data ( http://arxiv.org/abs/2405.20762v1 )

ライセンス: Link先を確認
Aya Mohamed, Dagmar Auer, Daniel Hofer, Josef Kueng, (参考訳) アクセスコントロール(Access Control)は、対象、リソース、アクセス権を定義する権限ポリシーの施行である。 グラフ構造化データには、複雑な構造のために高度な、柔軟な、きめ細かなアクセス制御が要求される。 いくつかの研究は、プロパティグラフ構造データ保護、きめ細かいアクセス制御、そしてそれらの概念の実現可能性と適用性を証明することに焦点を当てている。 しかし、概念的にも技術的にも異なる。 我々は,近年のデータベースモデルに加えて,さまざまなデータベースモデルの認証とアクセス制御に関する体系的な文献レビューから,論文を選択する。 定義された基準に基づいて、我々は、グラフ構造化データの保護、プロパティグラフ以外のグラフモデル、粗粒度アクセス制御アプローチ、あるいはグラフデータストアでのアプリケーション(概念実証実装なし)など、異なる目的を持つ研究を除外する。 残りの作品の最新バージョンは、アクセス制御アプローチと認証ポリシー定義と施行の観点から詳細に議論されている。 最後に、選択した作品の長所と短所を分析し、基本アクセス制御モデル、オープン/クローズドポリシー、負のパーミッションサポート、データストアに依存しない強制など、さまざまな側面の比較を行う。

Access control is the enforcement of the authorization policy, which defines subjects, resources, and access rights. Graph-structured data requires advanced, flexible, and fine-grained access control due to its complex structure as sequences of alternating vertices and edges. Several research works focus on protecting property graph-structured data, enforcing fine-grained access control, and proving the feasibility and applicability of their concept. However, they differ conceptually and technically. We select works from our systematic literature review on authorization and access control for different database models in addition to recent ones. Based on defined criteria, we exclude research works with different objectives, such as no protection of graph-structured data, graph models other than the property graph, coarse-grained access control approaches, or no application in a graph datastore (i.e., no proof-of-concept implementation). The latest version of the remaining works are discussed in detail in terms of their access control approach as well as authorization policy definition and enforcement. Finally, we analyze the strengths and limitations of the selected works and provide a comparison with respect to different aspects, including the base access control model, open/closed policy, negative permission support, and datastore-independent enforcement.
翻訳日:2024-06-03 14:47:24 公開日:2024-05-31
# 命令規則化の強化による一般化と収束の改善

Improving Generalization and Convergence by Enhancing Implicit Regularization ( http://arxiv.org/abs/2405.20763v1 )

ライセンス: Link先を確認
Mingze Wang, Haotian He, Jinbo Wang, Zilin Wang, Guanhua Huang, Feiyu Xiong, Zhiyu Li, Weinan E, Lei Wu, (参考訳) 本研究では、ディープラーニングにおけるフラットソリューションの発見を加速し、一般化と収束を改善するために、インプリシト正規化拡張(IRE)フレームワークを提案する。 特にIREは、平坦な方向と鋭い方向のダイナミクスを分離し、鋭い方向のトレーニング安定性を維持しながら、平坦な方向に沿ったシャープネスの低減を促進させる。 We show that IRE can be practically incorporated with {\em generic base optimizationrs} without introduce significant compute overload。 実験の結果、IREはさまざまなベンチマークデータセット(CIFAR-10/100、ImageNet)とモデル(ResNets、ViTs)で画像分類タスクの一般化性能を一貫して改善していることがわかった。 意外なことに、IREはWikitext-103、Minipile、Openwebtextなどのデータセット上のLlamaモデル(60Mから229Mまで)の事前トレーニングにおいてAdamWと比較して2ドル99セントのスピードアップも達成している。 さらに,IREがシャープネス認識最小化(SAM)における平坦な最小値への収束を著しく加速できることを示す理論的保証を提供する。

In this work, we propose an Implicit Regularization Enhancement (IRE) framework to accelerate the discovery of flat solutions in deep learning, thereby improving generalization and convergence. Specifically, IRE decouples the dynamics of flat and sharp directions, which boosts the sharpness reduction along flat directions while maintaining the training stability in sharp directions. We show that IRE can be practically incorporated with {\em generic base optimizers} without introducing significant computational overload. Experiments show that IRE consistently improves the generalization performance for image classification tasks across a variety of benchmark datasets (CIFAR-10/100, ImageNet) and models (ResNets and ViTs). Surprisingly, IRE also achieves a $2\times$ {\em speed-up} compared to AdamW in the pre-training of Llama models (of sizes ranging from 60M to 229M) on datasets including Wikitext-103, Minipile, and Openwebtext. Moreover, we provide theoretical guarantees, showing that IRE can substantially accelerate the convergence towards flat minima in Sharpness-aware Minimization (SAM).
翻訳日:2024-06-03 14:47:24 公開日:2024-05-31
# CoMoFusion: 一貫性モデルによる赤外線と可視画像の高速かつ高品質な融合

CoMoFusion: Fast and High-quality Fusion of Infrared and Visible Image with Consistency Model ( http://arxiv.org/abs/2405.20764v1 )

ライセンス: Link先を確認
Zhiming Meng, Hui Li, Zeyang Zhang, Zhongwei Shen, Yunlong Yu, Xiaoning Song, Xiaojun Wu, (参考訳) 生成モデルは、赤外線および可視画像融合の分野における融合画像の分布をモデル化するために広く利用されている。 しかし、現在の生成モデルに基づく融合法は、しばしば不安定なトレーニングと遅い推論速度に悩まされる。 この問題を解決するために,CoMoFusionと呼ばれる一貫性モデルに基づく新しい融合法を提案し,高品質な画像を生成し,高速な画像推論を実現する。 具体的には、整合性モデルは、前と逆のプロセスで潜在空間に多重モードのジョイント特徴を構築するのに使用される。 そして、トレーニングされた一貫性モデルによって抽出された赤外および可視の特徴を融合モジュールに供給し、最終融合画像を生成する。 また、融合した画像のテクスチャや鮮やかな情報を高めるために、画素値選択に基づく新規な損失も設計する。 公開データセットに対する大規模な実験により,既存の融合法と比較してSOTA融合性能が向上したことを示す。

Generative models are widely utilized to model the distribution of fused images in the field of infrared and visible image fusion. However, current generative models based fusion methods often suffer from unstable training and slow inference speed. To tackle this problem, a novel fusion method based on consistency model is proposed, termed as CoMoFusion, which can generate the high-quality images and achieve fast image inference speed. In specific, the consistency model is used to construct multi-modal joint features in the latent space with the forward and reverse process. Then, the infrared and visible features extracted by the trained consistency model are fed into fusion module to generate the final fused image. In order to enhance the texture and salient information of fused images, a novel loss based on pixel value selection is also designed. Extensive experiments on public datasets illustrate that our method obtains the SOTA fusion performance compared with the existing fusion methods.
翻訳日:2024-06-03 14:37:39 公開日:2024-05-31
# 社会水理学の強化学習

Reinforcement Learning for Sociohydrology ( http://arxiv.org/abs/2405.20772v1 )

ライセンス: Link先を確認
Tirthankar Roy, Shivendra Srivastava, Beichen Zhang, (参考訳) 本研究では,強化学習(RL)が社会水理問題の解決に有効かつ効率的な枠組みを提供する方法について論じる。 この種の問題に対するRLの有効性は、政策を反復的に更新する能力から明らかである。 本稿では,土地利用土地被覆(LULC)の変更に伴う経営決定を通じての流出削減問題において,RLの実装を実証するための簡単なケーススタディを提案する。 次に,これらの問題に対するRLの利点について考察し,今後の研究方向性について考察する。

In this study, we discuss how reinforcement learning (RL) provides an effective and efficient framework for solving sociohydrology problems. The efficacy of RL for these types of problems is evident because of its ability to update policies in an iterative manner - something that is also foundational to sociohydrology, where we are interested in representing the co-evolution of human-water interactions. We present a simple case study to demonstrate the implementation of RL in a problem of runoff reduction through management decisions related to changes in land-use land-cover (LULC). We then discuss the benefits of RL for these types of problems and share our perspectives on the future research directions in this area.
翻訳日:2024-06-03 14:37:39 公開日:2024-05-31
# 間欠的不公平発見

Intersectional Unfairness Discovery ( http://arxiv.org/abs/2405.20790v1 )

ライセンス: Link先を確認
Gezheng Xu, Qi Chen, Charles Ling, Boyu Wang, Changjian Shui, (参考訳) AIシステムは、特定の集団のサブグループに対して不公平な結果をもたらすことが示されており、特定のセンシティブな属性に対するバイアスを理解する必要性を強調している。 現在の研究は、主に単一の感度属性を特徴とする部分群に焦点をあてる一方で、複数の感度属性の交叉フェアネスの性質を無視する。 本稿では,多種多様なハイバイアス部分群を交叉感度特性下で発見することによって,その1つの基本的側面に焦点をあてる。 具体的には,Bias-Guided Generative Network (BGGN)を提案する。 各バイアス値を報酬として扱うことにより、BGGNは高バイアス交叉感度特性を効率よく生成する。 実世界のテキストと画像データセットの実験では、BGGNの多様性と効率的な発見が示されている。 生成した不明瞭で不公平な交差性のある属性を更に評価するために、我々はそれらをプロンプトとして定式化し、近代的な生成AIを使って新しいテキストや画像を生成する。 バイアス付きデータを頻繁に生成する結果は、人気のある近代的生成AIシステムにおける潜在的な不公平性を発見するための新たな洞察を提供する。 警告:本論文は、自然に有害な生成例を含む。

AI systems have been shown to produce unfair results for certain subgroups of population, highlighting the need to understand bias on certain sensitive attributes. Current research often falls short, primarily focusing on the subgroups characterized by a single sensitive attribute, while neglecting the nature of intersectional fairness of multiple sensitive attributes. This paper focuses on its one fundamental aspect by discovering diverse high-bias subgroups under intersectional sensitive attributes. Specifically, we propose a Bias-Guided Generative Network (BGGN). By treating each bias value as a reward, BGGN efficiently generates high-bias intersectional sensitive attributes. Experiments on real-world text and image datasets demonstrate a diverse and efficient discovery of BGGN. To further evaluate the generated unseen but possible unfair intersectional sensitive attributes, we formulate them as prompts and use modern generative AI to produce new texts and images. The results of frequently generating biased data provides new insights of discovering potential unfairness in popular modern generative AI systems. Warning: This paper contains generative examples that are offensive in nature.
翻訳日:2024-06-03 14:37:39 公開日:2024-05-31
# GS-Phong:メタ学習型3Dガウシアンによる新しいビュー・シンセサイザー

GS-Phong: Meta-Learned 3D Gaussians for Relightable Novel View Synthesis ( http://arxiv.org/abs/2405.20791v1 )

ライセンス: Link先を確認
Yumeng He, Yunbo Wang, Xiaokang Yang, (参考訳) 3Dシーンにおける照明の分離は、新しいビューの合成とリライティングに不可欠である。 本稿では,照明可能な3次元ガウス点の集合を用いて,点光で照らされたシーンを表現する新しい手法を提案する。 Blinn-Phongモデルにインスパイアされた我々の手法は、シーンを周囲、拡散、および特異な構成要素に分解し、現実的な照明効果の合成を可能にする。 照明条件に依存しない幾何学的情報の分解を容易にするため,新しい二段階最適化に基づくメタラーニングフレームワークを提案する。 基本的な考え方は、様々な照明位置下でのレンダリングタスクをマルチタスク学習問題と見なすことであり、メタラーニングアプローチは、学習されたガウス幾何学を様々な視点だけでなく、多様な光位置にわたって一般化することによって、効果的に対処する。 実験により,従来のフリー視点リライティング手法と比較して,トレーニング効率とレンダリング品質の観点から,本手法の有効性を実証した。

Decoupling the illumination in 3D scenes is crucial for novel view synthesis and relighting. In this paper, we propose a novel method for representing a scene illuminated by a point light using a set of relightable 3D Gaussian points. Inspired by the Blinn-Phong model, our approach decomposes the scene into ambient, diffuse, and specular components, enabling the synthesis of realistic lighting effects. To facilitate the decomposition of geometric information independent of lighting conditions, we introduce a novel bilevel optimization-based meta-learning framework. The fundamental idea is to view the rendering tasks under various lighting positions as a multi-task learning problem, which our meta-learning approach effectively addresses by generalizing the learned Gaussian geometries not only across different viewpoints but also across diverse light positions. Experimental results demonstrate the effectiveness of our approach in terms of training efficiency and rendering quality compared to existing methods for free-viewpoint relighting.
翻訳日:2024-06-03 14:37:39 公開日:2024-05-31
# モデル解釈と説明可能性:予測モデルにおける透明性の創出を目指して

Model Interpretation and Explainability: Towards Creating Transparency in Prediction Models ( http://arxiv.org/abs/2405.20794v1 )

ライセンス: Link先を確認
Donald Kridel, Jacob Dineen, Daniel Dolk, David Castillo, (参考訳) 説明可能なAI(XAI)には、モデル説明可能性と呼ばれる分析モデルがある。 予測モデルの文脈におけるモデル説明可能性の問題に取り組む。 クレジットカード会社からのローンのデータセットを分析して,4つの異なる予測手法を実行および比較し,現在の文献で最もよく知られた説明可能性手法をモデルトレーニングセットに適用し,特徴の重要性(FI)を特定する(静的ケース)。 静的ケースと動的ケースのFI識別に矛盾が認められた。 我々は、モデル説明可能性の最先端を概説し、その分野を前進させるためのさらなる研究を提案する。

Explainable AI (XAI) has a counterpart in analytical modeling which we refer to as model explainability. We tackle the issue of model explainability in the context of prediction models. We analyze a dataset of loans from a credit card company and apply three stages: execute and compare four different prediction methods, apply the best known explainability techniques in the current literature to the model training sets to identify feature importance (FI) (static case), and finally to cross-check whether the FI set holds up under what if prediction scenarios for continuous and categorical variables (dynamic case). We found inconsistency in FI identification between the static and dynamic cases. We summarize the state of the art in model explainability and suggest further research to advance the field.
翻訳日:2024-06-03 14:37:39 公開日:2024-05-31
# InsightSee: 視覚理解の強化を目的としたマルチエージェントビジョンランゲージモデルの改善

InsightSee: Advancing Multi-agent Vision-Language Models for Enhanced Visual Understanding ( http://arxiv.org/abs/2405.20795v1 )

ライセンス: Link先を確認
Huaxiang Zhang, Yaojia Mu, Guo-Niu Zhu, Zhongxue Gan, (参考訳) 正確な視覚的理解は、進歩する自律システムとインテリジェントロボットにとって不可欠である。 複雑な視覚シーンの処理における視覚言語モデル(VLM)の強力な能力にもかかわらず、曖昧または曖昧に提示された視覚要素を正確に認識することは依然として困難である。 本稿では,複雑な視覚的理解シナリオを扱う上で,VLMの解釈能力を高めるためのマルチエージェントフレームワークであるInsightSeeを提案する。 このフレームワークは、視覚情報解釈のプロセスを洗練するために統合される記述エージェントと、2つの推論エージェントと決定エージェントとを含む。 これらのエージェントの設計と、それらが視覚情報処理において強化されるメカニズムを示す。 実験の結果、InsightSeeフレームワークは特定の視覚的タスクのパフォーマンスを向上するだけでなく、オリジナルのモデルの強度も維持していることがわかった。 このフレームワークは、9つのベンチマークテストのうち6つで最先端のアルゴリズムよりも優れており、マルチモーダル理解が大幅に進歩している。

Accurate visual understanding is imperative for advancing autonomous systems and intelligent robots. Despite the powerful capabilities of vision-language models (VLMs) in processing complex visual scenes, precisely recognizing obscured or ambiguously presented visual elements remains challenging. To tackle such issues, this paper proposes InsightSee, a multi-agent framework to enhance VLMs' interpretative capabilities in handling complex visual understanding scenarios. The framework comprises a description agent, two reasoning agents, and a decision agent, which are integrated to refine the process of visual information interpretation. The design of these agents and the mechanisms by which they can be enhanced in visual information processing are presented. Experimental results demonstrate that the InsightSee framework not only boosts performance on specific visual tasks but also retains the original models' strength. The proposed framework outperforms state-of-the-art algorithms in 6 out of 9 benchmark tests, with a substantial advancement in multimodal understanding.
翻訳日:2024-06-03 14:37:39 公開日:2024-05-31
# Ovis: マルチモーダル大言語モデルのための構造埋め込みアライメント

Ovis: Structural Embedding Alignment for Multimodal Large Language Model ( http://arxiv.org/abs/2405.20797v1 )

ライセンス: Link先を確認
Shiyin Lu, Yang Li, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, Han-Jia Ye, (参考訳) 現在のMultimodal Large Language Models (MLLM) は、通常、事前訓練されたLLMと、MLPのようなコネクタを通じて、他の事前訓練されたビジョントランスフォーマーを統合する。 しかし、MLLMの2つの埋め込み戦略(埋め込みルックアップテーブルに基づく構造的テキスト埋め込みと、ビジョンエンコーダによって直接生成される継続的埋め込み)の相違は、視覚的およびテキスト情報のよりシームレスな融合に挑戦する。 視覚とテキストの埋め込みを構造的に整列する新しいMLLMアーキテクチャであるOvisを提案する。 Ovisは学習可能なビジュアル埋め込みテーブルをビジュアルエンコーダのプロセスに統合する。 リッチな視覚的セマンティクスをキャプチャするために、各イメージパッチは視覚的埋め込みテーブルを複数回インデックスし、最終的な視覚的埋め込みはインデックス化された埋め込みの確率的組み合わせとなる。 この構造的アプローチは、テキスト埋め込みを生成するために使われる手法を反映している。 様々なマルチモーダルベンチマークに関する実証的な評価は、Ovisが同様のパラメータスケールのオープンソースMLLMよりも優れており、Qwen-VL-Plusのプロプライエタリモデルよりも優れていることを示している。 これらの結果は,MLLMアーキテクチャ設計を推進し,より効果的なマルチモーダル学習を促進するために,Ovisが構築した視覚表現の可能性を強調している。 ソースコードとOvisのトレーニングデータセットの両方が公開されている。

Current Multimodal Large Language Models (MLLMs) typically integrate a pre-trained LLM with another pre-trained vision transformer through a connector, such as an MLP, endowing the LLM with visual capabilities. However, the misalignment between two embedding strategies in MLLMs -- the structural textual embeddings based on an embedding look-up table and the continuous embeddings generated directly by the vision encoder -- makes challenges for a more seamless fusion of visual and textual information. We propose Ovis, a novel MLLM architecture designed to structurally align visual and textual embeddings. Ovis integrates an additional learnable visual embedding table into the visual encoder's process. To capture rich visual semantics, each image patch indexes the visual embedding table multiple times, resulting in a final visual embedding that is a probabilistic combination of the indexed embeddings. This structural approach mirrors the method used for generating textual embeddings. Empirical evaluations on various multimodal benchmarks demonstrate that Ovis outperforms open-source MLLMs of similar parameter scales and even surpasses the proprietary model Qwen-VL-Plus overall. These results highlight the potential of Ovis' structured visual representation for advancing MLLM architectural design and promoting more effective multimodal learning. Both the source code and the training dataset of Ovis will be made publicly available.
翻訳日:2024-06-03 14:27:53 公開日:2024-05-31
# 粗変換器:経路シグナチャを用いた軽量連続時間系列モデリング

Rough Transformers: Lightweight Continuous-Time Sequence Modelling with Path Signatures ( http://arxiv.org/abs/2405.20799v1 )

ライセンス: Link先を確認
Fernando Moreno-Pino, Álvaro Arroyo, Harrison Waldon, Xiaowen Dong, Álvaro Cartea, (参考訳) 実世界の時系列データは通常、長距離依存を示し、一様でない間隔で観測される。 これらの設定では、伝統的なシーケンスベースのリカレントモデルが苦労する。 これを解決するために、研究者はしばしばリカレントアーキテクチャをNeural ODEベースのモデルに置き換え、不規則にサンプリングされたデータを考慮し、Transformerベースのアーキテクチャを使用して長距離依存関係を考慮します。 これら2つのアプローチの成功にもかかわらず、どちらも中程度の長さの入力シーケンスに対して非常に高い計算コストを発生させる。 この課題に対処するために、入力シーケンスの連続時間表現を演算し、計算コストを大幅に削減する変換器モデルのバリエーションであるRough Transformerを導入する。 特に,<textit{multi-view signature attention} を提案する。これはベニラアテンションを増大させ,入力データ中の局所的およびグローバル的(マルチスケール)依存を捕捉し,シーケンス長やサンプリング周波数の変化に頑健でありながら,空間処理の改善をもたらす。 様々な時系列関連タスクにおいて、Rough Transformerは、計算時間とメモリリソースのごく一部で、Neural ODEベースのモデルの表現上の利点を享受しながら、バニラの注意点を一貫して上回ります。

Time-series data in real-world settings typically exhibit long-range dependencies and are observed at non-uniform intervals. In these settings, traditional sequence-based recurrent models struggle. To overcome this, researchers often replace recurrent architectures with Neural ODE-based models to account for irregularly sampled data and use Transformer-based architectures to account for long-range dependencies. Despite the success of these two approaches, both incur very high computational costs for input sequences of even moderate length. To address this challenge, we introduce the Rough Transformer, a variation of the Transformer model that operates on continuous-time representations of input sequences and incurs significantly lower computational costs. In particular, we propose \textit{multi-view signature attention}, which uses path signatures to augment vanilla attention and to capture both local and global (multi-scale) dependencies in the input data, while remaining robust to changes in the sequence length and sampling frequency and yielding improved spatial processing. We find that, on a variety of time-series-related tasks, Rough Transformers consistently outperform their vanilla attention counterparts while obtaining the representational benefits of Neural ODE-based models, all at a fraction of the computational time and memory resources.
翻訳日:2024-06-03 14:27:53 公開日:2024-05-31
# ペナルタイズリーストスクエアを用いたシンボリック回帰における形状制約

Shape Constraints in Symbolic Regression using Penalized Least Squares ( http://arxiv.org/abs/2405.20800v1 )

ライセンス: Link先を確認
Viktor Martinek, Julia Reuter, Ophelia Frotscher, Sanaz Mostaghim, Markus Richter, Roland Herzog, (参考訳) シンボリック回帰(SR)のパラメータ推定段階における形状制約の追加とその考慮について検討した。 形状制約は、他の未知のモデル関数の形状に関する事前知識をSRに導入する手段として用いられる。 SRにおける形状制約を探索した従来の研究とは異なり、勾配に基づく数値最適化を用いたパラメータ推定において、形状制約違反を最小限に抑えることを提案する。 合成されたデータセットから3つのシンボリック表現を同定し,その性能を評価するために,3つのアルゴリズム変種を検証した。 本稿では,騒音レベルが異なる場合と,トレーニングデータの量が少ない場合の2つのベンチマークシナリオについて検討する。 その結果,データが少ない場合には,形状制約を表現検索に組み込むことが特に有用であることが示唆された。 選択過程でのみ形状制約を用いることと比較して,パラメータ推定時の違反を最小限に抑えるというアプローチは,テストケースのいくつかで統計的に有意な利点を示す。

We study the addition of shape constraints and their consideration during the parameter estimation step of symbolic regression (SR). Shape constraints serve as a means to introduce prior knowledge about the shape of the otherwise unknown model function into SR. Unlike previous works that have explored shape constraints in SR, we propose minimizing shape constraint violations during parameter estimation using gradient-based numerical optimization. We test three algorithm variants to evaluate their performance in identifying three symbolic expressions from a synthetically generated data set. This paper examines two benchmark scenarios: one with varying noise levels and another with reduced amounts of training data. The results indicate that incorporating shape constraints into the expression search is particularly beneficial when data is scarce. Compared to using shape constraints only in the selection process, our approach of minimizing violations during parameter estimation shows a statistically significant benefit in some of our test cases, without being significantly worse in any instance.
翻訳日:2024-06-03 14:27:53 公開日:2024-05-31
# 多言語テキストスタイル変換:インド語のデータセットとモデル

Multilingual Text Style Transfer: Datasets & Models for Indian Languages ( http://arxiv.org/abs/2405.20805v1 )

ライセンス: Link先を確認
Sourabrata Mukherjee, Atul Kr. Ojha, Akanksha Bansal, Deepak Alok, John P. McCrae, Ondřej Dušek, (参考訳) テキストスタイル転送(TST)は、中核コンテンツを保持しながら、テキストの言語スタイルを変更することを含む。 本稿では,ヒンディー語,マガヒ語,マラヤラム語,マラヤラム語,マラタイ語,パンジャービ語,オディア語,テルグ語,ウルドゥー語にまたがるTSTサブタスク(Mukherjee et al ,2022a)について述べる。 これらの8言語それぞれに対して、1000の正と1000の負のスタイルパラレル文からなる専用データセットを導入する。 次に,Llama2およびGPT-3.5大言語モデル(LLM)を含む並列,非並列,クロスランガル,共有学習アプローチに分類した各種ベンチマークモデルの性能評価を行った。 実験では,TSTにおける並列データの重要性を強調し,非並列手法におけるMasked Style Filling(MSF)アプローチ(Mukherjee et al , 2023)の有効性を実証した。 さらに、言語横断学習と共同学習は、特定の言語やタスク要求に合わせて最適なモデルを選択するための洞察を提供する。 我々の知る限りでは、この研究はTSTタスクを様々な言語にまたがる感情伝達として包括的に調査した初めての例である。

Text style transfer (TST) involves altering the linguistic style of a text while preserving its core content. This paper focuses on sentiment transfer, a vital TST subtask (Mukherjee et al., 2022a), across a spectrum of Indian languages: Hindi, Magahi, Malayalam, Marathi, Punjabi, Odia, Telugu, and Urdu, expanding upon previous work on English-Bangla sentiment transfer (Mukherjee et al., 2023). We introduce dedicated datasets of 1,000 positive and 1,000 negative style-parallel sentences for each of these eight languages. We then evaluate the performance of various benchmark models categorized into parallel, non-parallel, cross-lingual, and shared learning approaches, including the Llama2 and GPT-3.5 large language models (LLMs). Our experiments highlight the significance of parallel data in TST and demonstrate the effectiveness of the Masked Style Filling (MSF) approach (Mukherjee et al., 2023) in non-parallel techniques. Moreover, cross-lingual and joint multilingual learning methods show promise, offering insights into selecting optimal models tailored to the specific language and task requirements. To the best of our knowledge, this work represents the first comprehensive exploration of the TST task as sentiment transfer across a diverse set of languages.
翻訳日:2024-06-03 14:27:53 公開日:2024-05-31
# AIアライメントパラドックス

There and Back Again: The AI Alignment Paradox ( http://arxiv.org/abs/2405.20806v1 )

ライセンス: Link先を確認
Robert West, Roland Aydin, (参考訳) AIアライメントの分野は、人間の目標、好み、倫理的原則に向けてAIシステムを操ることを目的としている。 その貢献は、今日のAIモデルの出力品質、安全性、信頼性の向上に役立っている。 このパースペクティブの記事は、すべてのAIアライメントの取り組みに固有の根本的な課題に注意を向けており、"AIアライメントパラドックス"と呼んでいる。 言語モデルの場合,3つの具体例をスケッチしてパラドックスを説明する。 AIの現実世界への影響が増大しているため、研究者の広いコミュニティがAIアライメントパラドックスを認識し、人類の利益のためにAIの有益な利用を保証するために、AIを分解する方法を見つけることが不可欠である。

The field of AI alignment aims to steer AI systems toward human goals, preferences, and ethical principles. Its contributions have been instrumental for improving the output quality, safety, and trustworthiness of today's AI models. This perspective article draws attention to a fundamental challenge inherent in all AI alignment endeavors, which we term the "AI alignment paradox": The better we align AI models with our values, the easier we make it for adversaries to misalign the models. We illustrate the paradox by sketching three concrete example incarnations for the case of language models, each corresponding to a distinct way in which adversaries can exploit the paradox. With AI's increasing real-world impact, it is imperative that a broad community of researchers be aware of the AI alignment paradox and work to find ways to break out of it, in order to ensure the beneficial use of AI for the good of humanity.
翻訳日:2024-06-03 14:27:53 公開日:2024-05-31
# ソーシャル環境における協調学習の最適化

Optimally Improving Cooperative Learning in a Social Setting ( http://arxiv.org/abs/2405.20808v1 )

ライセンス: Link先を確認
Shahrzad Haddadan, Cheng Xin, Jie Gao, (参考訳) 個人所有の分類器を持つネットワークエージェントの集合が、相互の予測のコミュニケーションや観察を通じて、同じ分類タスクに対して動的に予測を更新する、協調学習シナリオを考察する。 明らかに、非常に影響力のある頂点が誤分類器を使用すると、ネットワーク内の全てのエージェントの精度に悪影響を及ぼす。 ネットワーク全体の全体的な精度を最大化するために、いくつかの分類器の予測を最適に修正する方法を問う。 この目的のために、我々は集合と平等目的関数を考える。 集約目的関数を最適化するための多項式時間アルゴリズムを示し、平等目的関数の最適化がNPハードであることを示す。 さらに、平等主義的改善のための近似アルゴリズムを開発する。 全てのアルゴリズムの性能は数学的解析によって保証され、合成データと実データの実験によって裏付けられている。

We consider a cooperative learning scenario where a collection of networked agents with individually owned classifiers dynamically update their predictions, for the same classification task, through communication or observations of each other's predictions. Clearly if highly influential vertices use erroneous classifiers, there will be a negative effect on the accuracy of all the agents in the network. We ask the following question: how can we optimally fix the prediction of a few classifiers so as maximize the overall accuracy in the entire network. To this end we consider an aggregate and an egalitarian objective function. We show a polynomial time algorithm for optimizing the aggregate objective function, and show that optimizing the egalitarian objective function is NP-hard. Furthermore, we develop approximation algorithms for the egalitarian improvement. The performance of all of our algorithms are guaranteed by mathematical analysis and backed by experiments on synthetic and real data.
翻訳日:2024-06-03 14:27:53 公開日:2024-05-31
# マルチチェンジキャプションのためのコンテキスト認識差分蒸留

Context-aware Difference Distilling for Multi-change Captioning ( http://arxiv.org/abs/2405.20810v1 )

ライセンス: Link先を確認
Yunbin Tu, Liang Li, Li Su, Zheng-Jun Zha, Chenggang Yan, Qingming Huang, (参考訳) マルチチェンジキャプションは、自然言語でイメージペア内の複雑で結合的な変化を記述することを目的としている。 単一変更キャプションと比較して、このタスクは任意の数の変更を推論する高いレベルの認知能力を必要とする。 本稿では,文の収量に対する真の変化をすべて捉えるために,新しい文脈対応差分蒸留(CARD)ネットワークを提案する。 イメージペアが与えられた後、CARDはコンテキスト機能を最初に分離し、共通/異なるコンテキスト機能と呼ばれる、すべての類似/異種セマンティクスを集約する。 そして、一貫性と独立性の制約は、共通/異なるコンテキスト特徴のアライメント/差分性を保証するように設計されます。 さらに、共通コンテキスト特徴は、局所的に変化しない特徴を抽出し、その特徴を局所的な差分特徴を抽出するためにペアから抽出する。 次に、差分コンテキストの特徴は、すべての変更が蒸留されることを保証するために、局所的な差分特徴を増大させる。 このようにして、変換器デコーダによって言語文に変換される全ての変化の総称表現を得る。 3つの公開データセットに関する大規模な実験は、CARDが最先端のメソッドに対して好意的に動作することを示している。コードはhttps://github.com/tuyunbin/CARDで公開されている。

Multi-change captioning aims to describe complex and coupled changes within an image pair in natural language. Compared with single-change captioning, this task requires the model to have higher-level cognition ability to reason an arbitrary number of changes. In this paper, we propose a novel context-aware difference distilling (CARD) network to capture all genuine changes for yielding sentences. Given an image pair, CARD first decouples context features that aggregate all similar/dissimilar semantics, termed common/difference context features. Then, the consistency and independence constraints are designed to guarantee the alignment/discrepancy of common/difference context features. Further, the common context features guide the model to mine locally unchanged features, which are subtracted from the pair to distill locally difference features. Next, the difference context features augment the locally difference features to ensure that all changes are distilled. In this way, we obtain an omni-representation of all changes, which is translated into linguistic sentences by a transformer decoder. Extensive experiments on three public datasets show CARD performs favourably against state-of-the-art methods.The code is available at https://github.com/tuyunbin/CARD.
翻訳日:2024-06-03 14:27:53 公開日:2024-05-31
# 射影ホロノミック量子計算

Projective holonomic quantum computation ( http://arxiv.org/abs/2405.20812v1 )

ライセンス: Link先を確認
Ole Sönnerborn, (参考訳) 非線形ホロノミック量子コンピューティングは、純粋に幾何学的原理に基づく量子ゲートの実装と、効率的で堅牢な実行のための、新しくて有望なフレームワークである。 しかし、非線形ホロノミック量子コンピューティングの中心となる並列輸送条件には欠点がある。 本稿では、これらの欠点のいくつかに対処し、非断熱的ホロノミック量子計算の標準ゲージ理論の射影化がそれらを排除することを示す。 さらに、等ホロノミックな不等式を射影ゲートに拡張し、最小実行時間-量子速度制限-射影ホロノミックな量子ゲートを確立する。

Nonadiabatic holonomic quantum computing is a novel and promising framework for the implementation and efficient and robust execution of quantum gates based on purely geometric principles. However, the parallel transport condition that is central to nonadiabatic holonomic quantum computing has shortcomings. In this paper, we address some of these shortcomings and show that a projectivization of the standard gauge theory of nonadiabatic holonomic quantum computation eliminates them. In addition, we extend the isoholonomic inequality to projective gates and establish a minimum execution time-a quantum speed limit-for projective holonomic quantum gates.
翻訳日:2024-06-03 14:27:53 公開日:2024-05-31
# 量子格子の非定常拡散率:ランダム二量体モデル

Unusual Diffusivity in Strongly Disordered Quantum Lattices: Random Dimer Model ( http://arxiv.org/abs/2405.20813v1 )

ライセンス: Link先を確認
Ilia Tutunnikov, Jianshu Cao, (参考訳) 超伝導量子ビットを用いた不規則物質の輸送特性測定と格子シミュレーションの最近の進歩は、アンダーソンの局在化への関心を再燃させ、高度に不規則な量子格子の研究を動機付けている。 当初, 局所固有状態の統計的解析により, 弱体化と強体化の相違が明らかとなり, 高度不規則系における二量体のランダムな分布が示唆された。 その後、ランダム二量体モデルは、$t^{-1/2}$として崩壊し、障害強度に逆比例する振動拡散率を予測し、初期位相シフトが$\pi/4$で一定周波数を維持する。 最初のピークは、ピーク時と振幅の両方で$\sigma^{-1}$の普遍的なスケーリングを示す。 最後に、確率ノイズはこれらの振動を抑制し、局所化された固有状態間のホッピングを誘導し、長い時間にわたって一定に拡散する。 我々の予測は、強い障害下での非一貫性ホッピングの従来の理解に挑戦する。 これにより、光電気および量子情報技術のための混乱したシステムを最適化する新たな洞察が得られる。

Recent advances in transport properties measurements of disordered materials and lattice simulations, using superconducting qubits, have rekindled interest in Anderson localization, motivating our study of highly disordered quantum lattices. Initially, our statistical analysis of localized eigenstates reveals a distinct transition between weak and strong disorder regimes, suggesting a random distribution of dimers in highly disordered systems. Subsequently, the random dimer model predicts an oscillating diffusivity that decays as $t^{-1/2}$, is inversely proportional to the disorder strength, and maintains a constant frequency with an initial phase shift of $\pi/4$. The first peak exhibits a universal scaling of $\sigma^{-1}$ both in peak time and amplitude. Finally, we find that stochastic noise suppresses these oscillations and induces hopping between localized eigenstates, resulting in constant diffusion over long times. Our predictions challenge the conventional understanding of incoherent hopping under strong disorder. This offers new insights to optimize disordered systems for optoelectrical and quantum information technologies.
翻訳日:2024-06-03 14:27:53 公開日:2024-05-31
# 教師なし学習と教師なし学習を混合した言語変化の反復学習モデル

An iterated learning model of language change that mixes supervised and unsupervised learning ( http://arxiv.org/abs/2405.20818v1 )

ライセンス: Link先を確認
Jack Bunyan, Seth Bullock, Conor Houghton, (参考訳) 反復学習モデルは、教師から生徒に言語が伝達されるエージェントベースの言語変化モデルである。 安定で表現力があり、構成的な言語は、言語伝達ボトルネックの結果として自然に発生する。 従来のモデルは、人工知能ニューラルネットワークデコーダを使用して、信号から意味へのマッピングを実装していたが、関連するエンコーダを実装するために、非現実的で計算コストのかかるプロセスに依存していた。 ここでは、デコーダとエンコーダの両方がニューラルネットワークであり、教師なし学習を通じて個別に訓練され、教師なし学習によってオートエンコーダの形で訓練される新しいモデルを示す。 これにより、変形に伴うかなりの計算負担を回避し、人間の発達中に観察される教師なし学習と教師なし学習の混合を導入する。

The iterated learning model is an agent-based model of language change in which language is transmitted from a tutor to a pupil which itself becomes a tutor to a new pupil, and so on. Languages that are stable, expressive, and compositional arise spontaneously as a consequence of a language transmission bottleneck. Previous models have implemented an agent's mapping from signals to meanings using an artificial neural network decoder, but have relied on an unrealistic and computationally expensive process of obversion to implement the associated encoder, mapping from meanings to signals. Here, a new model is presented in which both decoder and encoder are neural networks, trained separately through supervised learning, and trained together through unsupervised learning in the form of an autoencoder. This avoids the substantial computational burden entailed in obversion and introduces a mixture of supervised and unsupervised learning as observed during human development.
翻訳日:2024-06-03 14:27:53 公開日:2024-05-31
# 逐次意思決定によるフェデレーション学習における総合福祉の推進

Pursuing Overall Welfare in Federated Learning through Sequential Decision Making ( http://arxiv.org/abs/2405.20821v1 )

ライセンス: Link先を確認
Seok-Ju Hahn, Gi-Soo Kim, Junghye Lee, (参考訳) 従来のフェデレートラーニングでは、単一のグローバルモデルはすべてのクライアントに対して等しく機能することができない。 そこで,フェデレートシステムにおけるクライアントレベルの公平性の実現の必要性が強調され,グローバルモデルを適応的なモデルに更新する静的アグリゲーションスキームを,参加するクライアントのローカル信号に応じて変更することで実現可能となった。 我々の研究は、既存の公正を意識したアグリゲーション戦略がオンライン凸最適化フレームワークに統合できることを明らかにし、言い換えれば、中央サーバのシーケンシャルな意思決定プロセスである。 意思決定能力を向上させるため,AAggFFを提示する既存手法における最適部分設計の簡易かつ直感的な改善を提案する。 実際の要件を考慮し,クロスデバイスとクロスサイロの設定に適したメソッドをさらに分割する。 理論解析により、両方の設定でサブ線形後悔の上界を保証する:$\mathcal{O}(\sqrt{T \log{K}})$ クロスデバイス設定では$\mathcal{O}(K \log{T})$ クロスサイロ設定では$K$クライアントと$T$フェデレーションラウンドで$ である。 大規模な実験により,AAggFFを組み込んだ連合システムは,既存手法よりもクライアントレベルの公平性を両立させることができた。 コードはhttps://github.com/vaseline555/AAggFFで入手できる。

In traditional federated learning, a single global model cannot perform equally well for all clients. Therefore, the need to achieve the client-level fairness in federated system has been emphasized, which can be realized by modifying the static aggregation scheme for updating the global model to an adaptive one, in response to the local signals of the participating clients. Our work reveals that existing fairness-aware aggregation strategies can be unified into an online convex optimization framework, in other words, a central server's sequential decision making process. To enhance the decision making capability, we propose simple and intuitive improvements for suboptimal designs within existing methods, presenting AAggFF. Considering practical requirements, we further subdivide our method tailored for the cross-device and the cross-silo settings, respectively. Theoretical analyses guarantee sublinear regret upper bounds for both settings: $\mathcal{O}(\sqrt{T \log{K}})$ for the cross-device setting, and $\mathcal{O}(K \log{T})$ for the cross-silo setting, with $K$ clients and $T$ federation rounds. Extensive experiments demonstrate that the federated system equipped with AAggFF achieves better degree of client-level fairness than existing methods in both practical settings. Code is available at https://github.com/vaseline555/AAggFF
翻訳日:2024-06-03 14:27:53 公開日:2024-05-31
# オンライン凸最適化: 任意のセグメンテーションを同時に切り替える最適レギュレータ

Online Convex Optimisation: The Optimal Switching Regret for all Segmentations Simultaneously ( http://arxiv.org/abs/2405.20824v1 )

ライセンス: Link先を確認
Stephen Pasteris, Chris Hicks, Vasilios Mavroudis, Mark Herbster, (参考訳) オンライン凸最適化の古典的な問題を考察する。 静的後悔の概念が定常問題に関係しているのに対し、切替後悔の概念は非定常問題により適している。 スイッチング後悔は、トライアルシーケンスの任意のセグメンテーションに対して定義され、各セグメンテーションの静的後悔の和に等しい。 本稿では,おそらく驚くべきことに,可能なセグメンテーションを同時に行うことで,漸近的に最適な切替後悔を実現することができることを示す。 我々のアルゴリズムは非常に効率的で、時間軸の対数的な空間と時間単位の複雑さを持つ。 また,このアルゴリズムは,コンパレータ配列の変化率の変動に適応することによる,その動的後悔の新たな限界も得る。

We consider the classic problem of online convex optimisation. Whereas the notion of static regret is relevant for stationary problems, the notion of switching regret is more appropriate for non-stationary problems. A switching regret is defined relative to any segmentation of the trial sequence, and is equal to the sum of the static regrets of each segment. In this paper we show that, perhaps surprisingly, we can achieve the asymptotically optimal switching regret on every possible segmentation simultaneously. Our algorithm for doing so is very efficient: having a space and per-trial time complexity that is logarithmic in the time-horizon. Our algorithm also obtains novel bounds on its dynamic regret: being adaptive to variations in the rate of change of the comparator sequence.
翻訳日:2024-06-03 14:27:53 公開日:2024-05-31
# 悪性黒色腫における脳転移の定位放射線治療後の局所障害予測のための臨床的,線量的および放射線学的特徴の解析

Analysis of clinical, dosimetric and radiomic features for predicting local failure after stereotactic radiotherapy of brain metastases in malignant melanoma ( http://arxiv.org/abs/2405.20825v1 )

ライセンス: Link先を確認
Nanna E. Hartong, Ilias Sachpazidis, Oliver Blanck, Lucas Etzel, Jan C. Peeken, Stephanie E. Combs, Horst Urbach, Maxim Zaitsev, Dimos Baltas, Ilinca Popp, Anca-Ligia Grosu, Tobias Fechter, (参考訳) 背景: 悪性黒色腫 (MBM) の脳転移患者に対する定位放射線治療 (SRT) の病変特異的予後予測におけるMRIの有用性について検討した。 方法】SRT (single fraction or hypofractionated) を施行した130例のMBM517例について検討した。 総腫瘍容積 (GTV) はそれぞれ1576個の放射線学的特徴 (RF) を算出した(GTVは788個, GTV周辺は3mm)。 臨床パラメータ,放射線線量,異なる施設からのT1強調MRIからのRFを,Nested Cross-validation法による特徴処理と除去パイプラインを用いて評価した。 結果: 517例中72例 (13.9%) にSRT後局所不全 (LF) を認めた。 処理パイプラインはLF予測のための情報を提供する臨床,線量測定,放射線学的特徴を示した。 最も顕著なものは、SRT前(HR: 0.55, CI: 0.42-0.70)のグレーレベル共起マトリックス(HR: 0.37, 信頼区間(CI: 0.23-0.58)と全身療法(HR: 0.55, CI: 0.42-0.70)の相関であった。 LFに関連するRFの大多数はGTV周辺で計算された。 結語: 治療前のMRIベースRFは,多心性データと画像プロトコルの差が小さいにもかかわらず,SRT後の病変特異的な結果に関連付けられていた。 周囲の転移環境の画像データ解析は、放射線治療戦略をさらに個別化する可能性を備えた治療関連情報を提供する可能性がある。

Background: The aim of this study was to investigate the role of clinical, dosimetric and pretherapeutic magnetic resonance imaging (MRI) features for lesion-specific outcome prediction of stereotactic radiotherapy (SRT) in patients with brain metastases from malignant melanoma (MBM). Methods: In this multicenter, retrospective analysis, we reviewed 517 MBM from 130 patients treated with SRT (single fraction or hypofractionated). For each gross tumor volume (GTV) 1576 radiomic features (RF) were calculated (788 each for the GTV and for a 3 mm margin around the GTV). Clinical parameters, radiation dose and RF from pretherapeutic contrast-enhanced T1-weighted MRI from different institutions were evaluated with a feature processing and elimination pipeline in a nested cross-validation scheme. Results: Seventy-two (72) of 517 lesions (13.9%) showed a local failure (LF) after SRT. The processing pipeline showed clinical, dosimetric and radiomic features providing information for LF prediction. The most prominent ones were the correlation of the gray level co-occurrence matrix of the margin (hazard ratio (HR): 0.37, confidence interval (CI): 0.23-0.58) and systemic therapy before SRT (HR: 0.55, CI: 0.42-0.70). The majority of RF associated with LF was calculated in the margin around the GTV. Conclusions: Pretherapeutic MRI based RF connected with lesion-specific outcome after SRT could be identified, despite multicentric data and minor differences in imaging protocols. Image data analysis of the surrounding metastatic environment may provide therapy-relevant information with the potential to further individualize radiotherapy strategies.
翻訳日:2024-06-03 14:27:53 公開日:2024-05-31
# 超微細結合qudit上に符号化された耐故障性量子ビットの実験的実証

Experimental demonstration of a fault-tolerant qubit encoded on a hyperfine-coupled qudit ( http://arxiv.org/abs/2405.20827v1 )

ライセンス: Link先を確認
Sumin Lim, Mikhail Vaganov, Junjie Liu, Arzhang Ardavan, (参考訳) 効率的な量子誤り訂正プロトコルの実現は、スケーラブルな量子コンピュータの開発において依然として中心的な課題である。 複数の物理量子ビット上の冗長性を利用して1つのエラー保護論理量子ビットを符号化するプロトコルは理論的には有効であるが、これは大きなリソースオーバーヘッドを示唆している。 よりハードウェア効率のよいアプローチは、quditsとして知られる高次元量子システムをデプロイしようとするものである。 近年, コンデンサ電子スピン量子ビットと結合した高スピン磁気核を利用して耐障害性メモリを実現する手法が提案されている。 本稿では、S=1/2電子スピン量子ビットに結合したI=3/2核スピン超微粒子の4つの状態に符号化された論理量子ビットについて、これらの提案の最も単純な部分について実験的に検討する。 酸化亜鉛の高コヒーレントなマンガン欠陥のアンサンブルにおいて,スピン準位の部分空間内に電子核二重共鳴を用いた符号化を実装した。 本研究では, ゆらぎの制御と自然デコヒーレンス過程の制御の下で, 符号化状態のダイナミクスについて検討する。 本研究は, 実用的で実装可能なフォールトトレラント量子メモリの提案の可能性を確認した。

The realization of effective quantum error correction protocols remains a central challenge in the development of scalable quantum computers. Protocols employing redundancy over multiple physical qubits to encode a single error-protected logical qubit are theoretically effective, but imply a large resource overhead. Alternative, more hardware-efficient, approaches seek to deploy higher-dimensional quantum systems known as qudits. Recently, proposals have emerged for exploiting high-spin magnetic nuclei coupled to condensed matter electron spin qubits to implement fault-tolerant memories. Here, we explore experimentally the simplest of these proposals, a logical qubit encoded on the four states of a I=3/2 nuclear spin hyperfine-coupled to a S=1/2 electron spin qubit; the encoding protects against the dominant decoherence mechanism in such systems, fluctuations of the quantizing magnetic field. We implement the encoding using electron-nuclear double resonance within a subspace of the spin levels in an ensemble of highly coherent manganese defects in zinc oxide. We explore the dynamics of the encoded state both under a controlled application of the fluctuation and under natural decoherence processes. Our results confirm the potential of these proposals for practical, implementable, fault tolerant quantum memories.
翻訳日:2024-06-03 14:27:53 公開日:2024-05-31
# パターンに基づく量子機能テスト

Pattern-based quantum functional testing ( http://arxiv.org/abs/2405.20828v1 )

ライセンス: Link先を確認
Erik Weiss, Marcel Cech, Stanislaw Soltan, Martin Koppenhöfer, Michael Krebsbach, Thomas Wellens, Daniel Braun, (参考訳) 量子情報処理デバイスの数が増えるにつれて、これらのプロセッサを完全に特徴付けるタスクはますます不可能になる。 実用の観点からは、デバイスの機能にできる限り早くエラーを見つけたい場合や、信頼性の高い正しい機能を確立したい場合があります。 これらの課題に対応するために,従来のメモリテストアルゴリズムに着想を得たパターンベースのアプローチを提案し,量子メモリの機能を評価する。 本稿では,T_1$や$T_2$ timesなどの重要な量子ビット特性のパターン依存性を抽出し,隣接する量子ビット間の相互作用を同定・解析する手法について述べる。 さらに,提案手法は,異なる種類のクロストーク効果や,個々の量子ビットにおける非マルコフ力学を示すシグネチャの検出を可能にする。

With the growing number of qubits of quantum information processing devices, the task of fully characterizing these processors becomes increasingly unfeasible. From a practical perspective, one wants to find possible errors in the functioning of the device as quickly as possible, or otherwise establish its correct functioning with high confidence. In response to these challenges, we propose a pattern-based approach inspired by classical memory testing algorithms to evaluate the functionality of a quantum memory, based on plausible failure mechanisms. We demonstrate the method's capability to extract pattern dependencies of important qubit characteristics, such as $T_1$ and $T_2$ times, and to identify and analyze interactions between adjacent qubits. Additionally, our approach enables the detection of different types of crosstalk effects and of signatures indicating non-Markovian dynamics in individual qubits.
翻訳日:2024-06-03 14:27:53 公開日:2024-05-31
# オープンワールドセミスーパービジョン学習の再考:分散ミスマッチと帰納推論

Rethinking Open-World Semi-Supervised Learning: Distribution Mismatch and Inductive Inference ( http://arxiv.org/abs/2405.20829v1 )

ライセンス: Link先を確認
Seongheon Park, Hyuk Kwon, Kwanghoon Sohn, Kibok Lee, (参考訳) オープンワールド半教師付き学習(OWSSL)は、ラベルなしデータセットの新たなカテゴリを考慮して、従来の半教師付き学習をオープンワールドシナリオに拡張する。 OWSSLの最近の進歩にもかかわらず、成功はしばしばその前提に依存している。 1)ラベル付きデータセットとラベルなしデータセットは同じバランスの取れたクラス事前分布を共有している。 2)未ラベルのトレーニングデータセットを評価に利用し,そのようなトランスダクティブ推論は野生の課題に適切に対処できない可能性がある。 本稿では,OWSSLを一般化することを目的としている。 本研究は,既存の文献と比較すると,実際のOWSSLには異なるトレーニング設定,評価方法,学習戦略が必要であることを示唆している。

Open-world semi-supervised learning (OWSSL) extends conventional semi-supervised learning to open-world scenarios by taking account of novel categories in unlabeled datasets. Despite the recent advancements in OWSSL, the success often relies on the assumptions that 1) labeled and unlabeled datasets share the same balanced class prior distribution, which does not generally hold in real-world applications, and 2) unlabeled training datasets are utilized for evaluation, where such transductive inference might not adequately address challenges in the wild. In this paper, we aim to generalize OWSSL by addressing them. Our work suggests that practical OWSSL may require different training settings, evaluation methods, and learning strategies compared to those prevalent in the existing literature.
翻訳日:2024-06-03 14:18:09 公開日:2024-05-31
# 自己拡張型推論最適化:言語モデルアライメントのためのオフポリティパラダイム

Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment ( http://arxiv.org/abs/2405.20830v1 )

ライセンス: Link先を確認
Yueqin Yin, Zhendong Wang, Yujia Xie, Weizhu Chen, Mingyuan Zhou, (参考訳) 直接選好最適化(DPO)のような従来の言語モデルアライメント手法は、静的で事前コンパイルされたペア化された選好データに依存しているため、適応性と実用的な適用性を損なう。 この制限を克服するために、既存のペアデータを必要としない効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。 負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。 具体的には、レスポンスセグメントの動的更新を可能にするために、リプレイバッファと協調してEMA(Exponential moving Average)モデルを使用し、歴史的データからの洞察とリアルタイムフィードバックを効果的に統合する。 Open LLM Leaderboard, IFEval, AlpacaEval 2.0, MT-Bench など,ベンチマーク全体にわたる LLaMA3-8B と Mistral-7B モデルに対する包括的な評価では,SAPO が DPO や Odds Ratio Preference Optimization などの確立したオフラインコントラストベースラインと一致し,SPIN などのオフラインセルフプレイメソッドよりも優れていたことが示されている。 私たちのコードはhttps://github.com/yinyueqin/SAPOで利用可能です。

Traditional language model alignment methods, such as Direct Preference Optimization (DPO), are limited by their dependence on static, pre-collected paired preference data, which hampers their adaptability and practical applicability. To overcome this limitation, we introduce Self-Augmented Preference Optimization (SAPO), an effective and scalable training paradigm that does not require existing paired data. Building on the self-play concept, which autonomously generates negative responses, we further incorporate an off-policy learning pipeline to enhance data exploration and exploitation. Specifically, we employ an Exponential Moving Average (EMA) model in conjunction with a replay buffer to enable dynamic updates of response segments, effectively integrating real-time feedback with insights from historical data. Our comprehensive evaluations of the LLaMA3-8B and Mistral-7B models across benchmarks, including the Open LLM Leaderboard, IFEval, AlpacaEval 2.0, and MT-Bench, demonstrate that SAPO matches or surpasses established offline contrastive baselines, such as DPO and Odds Ratio Preference Optimization, and outperforms offline self-play methods like SPIN. Our code is available at https://github.com/yinyueqin/SAPO
翻訳日:2024-06-03 14:18:09 公開日:2024-05-31
# 偽装自由フェルミオンを用いた実時間ダイナミクス

Exact real time dynamics with free fermions in disguise ( http://arxiv.org/abs/2405.20832v1 )

ライセンス: Link先を確認
István Vona, Márton Mestyán, Balázs Pozsgay, (参考訳) 我々は、ジョルダン・ウィグナー変換とその一般化とは異なる、隠れた自由フェルミオン構造を持つ量子スピン鎖を考える。 隠れフェルミオンで選択したローカル演算子を表現する。 このようにして、選択された動的2点関数とLoschmidt振幅の連続的あるいは離散的時間での計算を含む、様々な物理的シナリオにおけるリアルタイムダイナミクスを正確に解くことができる。 後者の場合、量子コンピュータで実装可能な量子回路を構築します。 これにより、古典的にシミュレート可能な量子多体過程の族を拡張する。

We consider quantum spin chains with a hidden free fermionic structure, distinct from the Jordan-Wigner transformation and its generalizations. We express selected local operators with the hidden fermions. This way we can exactly solve the real time dynamics in various physical scenarios, including the computation of selected dynamical two point functions and Loschmidt amplitudes, in continuous or discrete time. In the latter case we build quantum circuits that can be implemented on a quantum computer. With this we extend the family of classically simulable quantum many body processes.
翻訳日:2024-06-03 14:18:09 公開日:2024-05-31
# 英語の従属句における「その」省略の現代的探索

That's Optional: A Contemporary Exploration of "that" Omission in English Subordinate Clauses ( http://arxiv.org/abs/2405.20833v1 )

ライセンス: Link先を確認
Ella Rabinovich, (参考訳) 均一情報密度(UID)仮説は、話者が情報のスパイクを避けることによって発話のコミュニケーション特性を最適化し、時間とともに比較的均一な情報プロファイルを維持することを示唆している。 本稿では,UIDの原則が統語的還元に与える影響について検討し,特に英語の従属節におけるコネクタ「 that」の省略点に着目した。 本研究は,従来の研究に基づいて,より大規模な英文コーパスに拡張し,現代大言語モデル(LLM)を活用し,エントロピーの概念による情報均一性原理を拡張して,統語的還元選択のユースケースにおけるUDDの出現を推定する。

The Uniform Information Density (UID) hypothesis posits that speakers optimize the communicative properties of their utterances by avoiding spikes in information, thereby maintaining a relatively uniform information profile over time. This paper investigates the impact of UID principles on syntactic reduction, specifically focusing on the optional omission of the connector "that" in English subordinate clauses. Building upon previous research, we extend our investigation to a larger corpus of written English, utilize contemporary large language models (LLMs) and extend the information-uniformity principles by the notion of entropy, to estimate the UID manifestations in the usecase of syntactic reduction choices.
翻訳日:2024-06-03 14:18:09 公開日:2024-05-31
# RetrievalがReasoningと出会う: 高校の教科書の知識でさえマルチモーダルなReasoningに恩恵

Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning ( http://arxiv.org/abs/2405.20834v1 )

ライセンス: Link先を確認
Cheng Tan, Jingxuan Wei, Linzhuang Sun, Zhangyang Gao, Siyuan Li, Bihui Yu, Ruifeng Guo, Stan Z. Li, (参考訳) 検索拡張世代(RAG)を備えた大規模言語モデルは,外部知識ベースを活用することで,回答能力の向上をめざした新興分野である。 言語のみのモデルを用いたRAGの適用は広く検討されているが、マルチモーダル視覚言語モデルへの適応はいまだに始まったばかりである。 単なる回答生成を超えて、マルチモーダルRAGの第一の目的は、関連するクエリに応答してモデルが推論する能力を育むことである。 そこで我々はRMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークを提案する。 RMRフレームワークは、最も関連性の高い問合せペアを識別するために、バイモーダル検索モジュールを使用し、その後、マルチモーダル推論プロセスの足場として機能する。 このトレーニングなしのアプローチは、モデルが検索されたコンテンツに固有の推論プロセスに深く関与するように促すだけでなく、正確でリッチに解釈可能な回答の生成を促進する。 意外なことに、小・高校の理科カリキュラムから収集されたScienceQAデータセットのみを利用することで、RMRはA-OKVQA、MMBench、SEEDなどのベンチマークデータセットの範囲で様々なビジョン言語モデルの性能を大幅に向上させる。 これらの結果は、視覚言語モデルの推論能力を向上させるためのマルチモーダル検索と推論機構のかなりの可能性を浮き彫りにしている。

Large language models equipped with retrieval-augmented generation (RAG) represent a burgeoning field aimed at enhancing answering capabilities by leveraging external knowledge bases. Although the application of RAG with language-only models has been extensively explored, its adaptation into multimodal vision-language models remains nascent. Going beyond mere answer generation, the primary goal of multimodal RAG is to cultivate the models' ability to reason in response to relevant queries. To this end, we introduce a novel multimodal RAG framework named RMR (Retrieval Meets Reasoning). The RMR framework employs a bi-modal retrieval module to identify the most relevant question-answer pairs, which then serve as scaffolds for the multimodal reasoning process. This training-free approach not only encourages the model to engage deeply with the reasoning processes inherent in the retrieved content but also facilitates the generation of answers that are precise and richly interpretable. Surprisingly, utilizing solely the ScienceQA dataset, collected from elementary and high school science curricula, RMR significantly boosts the performance of various vision-language models across a spectrum of benchmark datasets, including A-OKVQA, MMBench, and SEED. These outcomes highlight the substantial potential of our multimodal retrieval and reasoning mechanism to improve the reasoning capabilities of vision-language models.
翻訳日:2024-06-03 14:18:09 公開日:2024-05-31
# 近代LLMの量子化に及ぼす外乱と校正セットの影響

Outliers and Calibration Sets have Diminishing Effect on Quantization of Modern LLMs ( http://arxiv.org/abs/2405.20835v1 )

ライセンス: Link先を確認
Davide Paglieri, Saurabh Dash, Tim Rocktäschel, Jack Parker-Holder, (参考訳) PTQ(Post-Training Quantization)は、メモリ使用量を減らすことで、より高速な操作と、よりアクセスしやすいハードウェアとの互換性を実現することで、パフォーマンス低下のコストで、Large Language Models(LLMs)の効率を向上させる。 PTQにおけるキャリブレーションセットの役割,特に各種オープンソースLCMにおける隠れアクティベーションへの影響について検討する。 キャリブレーションセットは、アクティベーションの規模を評価して、量子化範囲を歪め、性能に悪影響を及ぼすような外れ値を特定するのに不可欠である。 我々の分析では、モデル間で量子化の有効性が顕著に比較されている。 量子化の文献の多くをベースとした古いOPTモデルは、様々なキャリブレーションセットを持つ外れ値に対して顕著な性能劣化と高い感受性を示す。 対照的に、Llama-2 7B、Llama-3 8B、Command-R 35B、Mistral 7Bといった新しいモデルは強い堅牢性を示し、Mistral 7Bは外れ値と安定した活性化を示す。 これらの結果はPTQ戦略の転換が必要であることを示唆している。 事前学習手法の進歩により、外れ値の関連性が低下するにつれ、現在の量子化文学の基礎を再評価する必要性が高まっている。 現状のLDMの進化する特性に合わせるために、主にアウターリー保存に焦点を当てるのではなく、推論速度の最適化に重点を置くべきである。

Post-Training Quantization (PTQ) enhances the efficiency of Large Language Models (LLMs) by enabling faster operation and compatibility with more accessible hardware through reduced memory usage, at the cost of small performance drops. We explore the role of calibration sets in PTQ, specifically their effect on hidden activations in various notable open-source LLMs. Calibration sets are crucial for evaluating activation magnitudes and identifying outliers, which can distort the quantization range and negatively impact performance. Our analysis reveals a marked contrast in quantization effectiveness across models. The older OPT model, which much of the quantization literature is based on, shows significant performance deterioration and high susceptibility to outliers with varying calibration sets. In contrast, newer models like Llama-2 7B, Llama-3 8B, Command-R 35B, and Mistral 7B demonstrate strong robustness, with Mistral 7B showing near-immunity to outliers and stable activations. These findings suggest a shift in PTQ strategies might be needed. As advancements in pre-training methods reduce the relevance of outliers, there is an emerging need to reassess the fundamentals of current quantization literature. The emphasis should pivot towards optimizing inference speed, rather than primarily focusing on outlier preservation, to align with the evolving characteristics of state-of-the-art LLMs.
翻訳日:2024-06-03 14:18:09 公開日:2024-05-31
# ニューラルネットワークを用いた偏微分方程式の解法

Solving partial differential equations with sampled neural networks ( http://arxiv.org/abs/2405.20836v1 )

ライセンス: Link先を確認
Chinmay Datar, Taniya Kapoor, Abhishek Chandra, Qing Sun, Iryna Burak, Erik Lien Bolager, Anna Veselovska, Massimo Fornasier, Felix Dietrich, (参考訳) 偏微分方程式(PDE)に対する解の近似は計算科学や工学において重要な問題である。 ニューラルネットワークを解のアンザッツとして使うことは、トレーニング時間と近似精度の点で難しいことが証明されている。 本稿では,データ非依存およびデータ依存確率分布からアンザッツネットワークの隠れ重みとバイアスをサンプリングすることにより,両課題を進展させる方法について論じる。 ほとんどの例では、ランダムサンプリングスキームは、数桁のトレーニング時間と精度に関して、物理インフォームドニューラルネットワークの反復的、勾配に基づく最適化よりも優れています。 時間依存型PDEでは、空間領域のみに神経基底関数を構築し、それに関連する常微分方程式を科学計算の古典的手法で長い時間的地平線上で解く。 これにより、時間内に解をパラメータ化する必要がなくなるため、ニューラルPDEソルバの最大の課題の1つが軽減される。 バロン空間における二階楕円型PDEに対して、この解に$L^2$収束したサンプルネットワークの存在を証明する。 いくつかの時間依存型および静的PDEに対するアプローチを実証する。 また,本設定における逆問題に対して,サンプルネットワークが効果的に解決する方法について述べる。 一般的な数値スキームと比較しての利点は、スペクトル収束と基底関数のメッシュフリーな構成である。

Approximation of solutions to partial differential equations (PDE) is an important problem in computational science and engineering. Using neural networks as an ansatz for the solution has proven a challenge in terms of training time and approximation accuracy. In this contribution, we discuss how sampling the hidden weights and biases of the ansatz network from data-agnostic and data-dependent probability distributions allows us to progress on both challenges. In most examples, the random sampling schemes outperform iterative, gradient-based optimization of physics-informed neural networks regarding training time and accuracy by several orders of magnitude. For time-dependent PDE, we construct neural basis functions only in the spatial domain and then solve the associated ordinary differential equation with classical methods from scientific computing over a long time horizon. This alleviates one of the greatest challenges for neural PDE solvers because it does not require us to parameterize the solution in time. For second-order elliptic PDE in Barron spaces, we prove the existence of sampled networks with $L^2$ convergence to the solution. We demonstrate our approach on several time-dependent and static PDEs. We also illustrate how sampled networks can effectively solve inverse problems in this setting. Benefits compared to common numerical schemes include spectral convergence and mesh-free construction of basis functions.
翻訳日:2024-06-03 14:18:09 公開日:2024-05-31
# einspace: 基本的な操作からニューラルネットワークを探す

einspace: Searching for Neural Architectures from Fundamental Operations ( http://arxiv.org/abs/2405.20838v1 )

ライセンス: Link先を確認
Linus Ericsson, Miguel Espinosa, Chenhongyi Yang, Antreas Antoniou, Amos Storkey, Shay B. Cohen, Steven McDonagh, Elliot J. Crowley, (参考訳) ニューラルアーキテクチャサーチ(NAS)は、与えられたタスクに対して高いパフォーマンスのネットワークを見つける。 しかし、NASの結果はかなりプロザイクで、egが畳み込み構造からトランスフォーマーへシフトするわけではない。 これは、NASの検索空間が、そのような変換を先入観に含めるほど多様ではないためである。 代わりに、NASが基本設計シフトにより大きな可能性をもたらすためには、より基本的な操作から構築された新しい表現型検索空間設計が必要である。 この目的のために,パラメータ化された確率的文脈自由文法に基づく検索空間 einspace を導入する。 我々の空間は多用途であり、様々な大きさと複雑さのアーキテクチャをサポートしながら、畳み込みや注目コンポーネントなどをモデル化できる多様なネットワーク操作も備えています。 既存の競争力のあるアーキテクチャが数多く含まれており、新しいアーキテクチャを見つけるための柔軟性を提供する。 この検索空間を用いて、新しいアーキテクチャの探索と、Unseen NASデータセットの既存アーキテクチャの改善を行う。 競合アーキテクチャはゼロから検索することで得ることができ、強力なベースラインで検索を初期化する際には、常に大きな改善が得られます。 我々は,この研究が,検索空間表現性と戦略的検索初期化が重要な役割を担う変革的NASパラダイムへの重要な進展であると考えている。

Neural architecture search (NAS) finds high performing networks for a given task. Yet the results of NAS are fairly prosaic; they did not e.g. create a shift from convolutional structures to transformers. This is not least because the search spaces in NAS often aren't diverse enough to include such transformations a priori. Instead, for NAS to provide greater potential for fundamental design shifts, we need a novel expressive search space design which is built from more fundamental operations. To this end, we introduce einspace, a search space based on a parameterised probabilistic context-free grammar. Our space is versatile, supporting architectures of various sizes and complexities, while also containing diverse network operations which allow it to model convolutions, attention components and more. It contains many existing competitive architectures, and provides flexibility for discovering new ones. Using this search space, we perform experiments to find novel architectures as well as improvements on existing ones on the diverse Unseen NAS datasets. We show that competitive architectures can be obtained by searching from scratch, and we consistently find large improvements when initialising the search with strong baselines. We believe that this work is an important advancement towards a transformative NAS paradigm where search space expressivity and strategic search initialisation play key roles.
翻訳日:2024-06-03 14:18:09 公開日:2024-05-31
# 買わないで!コントラストマルチモーダルモデルの広告理解能力の再評価

Don't Buy it! Reassessing the Ad Understanding Abilities of Contrastive Multimodal Models ( http://arxiv.org/abs/2405.20846v1 )

ライセンス: Link先を確認
A. Bavaresco, A. Testoni, R. Fernández, (参考訳) 画像ベースの広告は複雑なマルチモーダル刺激であり、しばしば珍しい視覚要素や図形言語を含む。 広告自動理解に関する従来の研究は、広告説明検索タスクにおいて、対照的な視覚・言語モデル(VLM)の印象的なゼロショット精度を報告している。 そこで本研究では,従来のタスク設定を検証し,基礎的ヒューリスティックスを利用して,対照的なVLMが解決可能であることを示す。 そこで本研究では, TRADE を用いて, 対向的基礎的説明を伴う新しい評価法を提案する。 これらの説明は人間には理解できないように見えるが、4つの異なる対照的なVLMを「刺激する」ことが示される。 本研究は,VLMのマルチモーダル推論能力を真に評価する自動広告理解の運用改善の必要性を強調した。 コードとTRADEはhttps://github.com/dmg-illc/tradeで公開しています。

Image-based advertisements are complex multimodal stimuli that often contain unusual visual elements and figurative language. Previous research on automatic ad understanding has reported impressive zero-shot accuracy of contrastive vision-and-language models (VLMs) on an ad-explanation retrieval task. Here, we examine the original task setup and show that contrastive VLMs can solve it by exploiting grounding heuristics. To control for this confound, we introduce TRADE, a new evaluation test set with adversarial grounded explanations. While these explanations look implausible to humans, we show that they "fool" four different contrastive VLMs. Our findings highlight the need for an improved operationalisation of automatic ad understanding that truly evaluates VLMs' multimodal reasoning abilities. We make our code and TRADE available at https://github.com/dmg-illc/trade .
翻訳日:2024-06-03 14:18:09 公開日:2024-05-31
# SLIM: マイクロサービスにおける不均衡データに対するスケーラブルな軽量ルート原因分析

SLIM: a Scalable Light-weight Root Cause Analysis for Imbalanced Data in Microservice ( http://arxiv.org/abs/2405.20848v1 )

ライセンス: Link先を確認
Rui Ren, Jingbang Yang, Linxiao Yang, Xinyue Gu, Liang Sun, (参考訳) 新たにデプロイされたサービス(一種の変更サービス)は、新たなタイプのマイノリティ障害につながる可能性がある。 既存のフォールトローカライゼーションの最先端手法では、変更サービスにおける不均衡なフォールト分類を考慮することは稀である。 本稿では,F1スコアの基準値制約を最適化することにより,決定規則を用いて高度に不均衡なデータを扱う手法を提案する。 提案手法は,最大限界ゲインを持つルールを最適に生成し,効率的な最小化最大化(MM)手法を用いて規則を反復的に選択し,非単トン部分モジュラー下限を最大化する。 既存のフォールトローカライゼーションアルゴリズムと比較して,我々のアルゴリズムは変更サービスの不均衡なフォールトシナリオに適応し,理解や検証が容易なインタプリタブルフォールト原因を提供することができる。 また,従来のSOTA法と比較して,トレーニングオーバーヘッドが15%程度しかなく,オンライントレーニング環境に展開することも可能である。 実験的な研究により,我々のアルゴリズムは既存の故障局所化アルゴリズムを精度とモデル解釈可能性の両方で上回っていることが示された。

The newly deployed service -- one kind of change service, could lead to a new type of minority fault. Existing state-of-the-art methods for fault localization rarely consider the imbalanced fault classification in change service. This paper proposes a novel method that utilizes decision rule sets to deal with highly imbalanced data by optimizing the F1 score subject to cardinality constraints. The proposed method greedily generates the rule with maximal marginal gain and uses an efficient minorize-maximization (MM) approach to select rules iteratively, maximizing a non-monotone submodular lower bound. Compared with existing fault localization algorithms, our algorithm can adapt to the imbalanced fault scenario of change service, and provide interpretable fault causes which are easy to understand and verify. Our method can also be deployed in the online training setting, with only about 15% training overhead compared to the current SOTA methods. Empirical studies showcase that our algorithm outperforms existing fault localization algorithms in both accuracy and model interpretability.
翻訳日:2024-06-03 14:18:09 公開日:2024-05-31
# 合成批評による逆流モデルの改善

Improving Reward Models with Synthetic Critiques ( http://arxiv.org/abs/2405.20850v1 )

ライセンス: Link先を確認
Zihuiwen Ye, Fraser Greenlee-Scott, Max Bartolo, Phil Blunsom, Jon Ander Campos, Matthias Gallé, (参考訳) リワードモデル(RM)は、人間のフィードバックからの強化学習を通じて言語モデルを整合させる上で重要な役割を担っている。 RMは人間の好みを反映したスコアを予測するために訓練される。 さらに、RMはトレーニングセットにおける表面的特徴に急速に過度に適合し、目に見えない分布に対する一般化性能を阻害する傾向にある。 提案手法は,大規模言語モデルが生成する合成自然言語批判を用いて,追加のフィードバックを提供し,指示の追従,正確性,スタイルなどの側面を評価するものである。 これにより、よりリッチな信号と、RMが評価とスコア付けを行うためのより堅牢な機能を提供します。 本研究では,異なる事前学習モデルから初期化したRMの性能とデータ効率の向上を実証する。 逆に、低品質な批評がパフォーマンスに悪影響を及ぼすことも示している。 さらに、批判を取り入れることで、RMトレーニングの解釈可能性や堅牢性が向上する。

Reward models (RM) play a critical role in aligning language models through the process of reinforcement learning from human feedback. RMs are trained to predict a score reflecting human preference, which requires significant time and cost for human annotation. Additionally, RMs tend to quickly overfit on superficial features in the training set, hindering their generalization performance on unseen distributions. We propose a novel approach using synthetic natural language critiques generated by large language models to provide additional feedback, evaluating aspects such as instruction following, correctness, and style. This offers richer signals and more robust features for RMs to assess and score on. We demonstrate that high-quality critiques improve the performance and data efficiency of RMs initialized from different pretrained models. Conversely, we also show that low-quality critiques negatively impact performance. Furthermore, incorporating critiques enhances the interpretability and robustness of RM training.
翻訳日:2024-06-03 14:18:09 公開日:2024-05-31
# MegActor:鮮やかなポートレートアニメーションで生の動画のパワーを損なう

MegActor: Harness the Power of Raw Video for Vivid Portrait Animation ( http://arxiv.org/abs/2405.20851v1 )

ライセンス: Link先を確認
Shurong Yang, Huadong Li, Juhao Wu, Minhao Jing, Linze Li, Renhe Ji, Jiajun Liang, Haoqiang Fan, (参考訳) 生のドライビングビデオは、肖像画の分野におけるランドマークのような中間表現よりも豊かな表情情報を含んでいるが、研究の対象はめったにない。 これは、生のビデオで駆動されるポートレートアニメーションに固有の2つの課題が原因である。 1) 重大な個人情報漏洩 2)シワ等の無関係な背景と顔の細部は性能を低下させる。 生動画の力を利用して鮮やかなポートレートアニメーションを実現するために,我々はMegActorという条件付き拡散モデルを提案する。 まず、一貫した動きと表情を持つビデオを作成するための合成データ生成フレームワークを導入し、ID漏洩の問題を緩和するために、一貫性のないIDを導入した。 次に、参照画像の前景と背景を分割し、CLIPを用いて背景の詳細をエンコードした。 この符号化された情報は、テキスト埋め込みモジュールを介してネットワークに統合され、背景の安定性が保証される。 最後に,参照画像の外観をドライビングビデオに転送することで,ドライビングビデオにおける顔の詳細の影響を解消する。 最終モデルは公開データセットのみに基づいてトレーニングされ、商用モデルに匹敵する結果が得られました。 ソースコードはhttps://github.com/megvii-research/MegFaceAnimate.comで公開されている。

Despite raw driving videos contain richer information on facial expressions than intermediate representations such as landmarks in the field of portrait animation, they are seldom the subject of research. This is due to two challenges inherent in portrait animation driven with raw videos: 1) significant identity leakage; 2) Irrelevant background and facial details such as wrinkles degrade performance. To harnesses the power of the raw videos for vivid portrait animation, we proposed a pioneering conditional diffusion model named as MegActor. First, we introduced a synthetic data generation framework for creating videos with consistent motion and expressions but inconsistent IDs to mitigate the issue of ID leakage. Second, we segmented the foreground and background of the reference image and employed CLIP to encode the background details. This encoded information is then integrated into the network via a text embedding module, thereby ensuring the stability of the background. Finally, we further style transfer the appearance of the reference image to the driving video to eliminate the influence of facial details in the driving videos. Our final model was trained solely on public datasets, achieving results comparable to commercial models. We hope this will help the open-source community.The code is available at https://github.com/megvii-research/MegFaceAnimate.
翻訳日:2024-06-03 14:18:09 公開日:2024-05-31
# 多段階多粒性コントラスト学習による音声言語理解に向けて

Towards Spoken Language Understanding via Multi-level Multi-grained Contrastive Learning ( http://arxiv.org/abs/2405.20852v1 )

ライセンス: Link先を確認
Xuxin Cheng, Wanshi Xu, Zhihong Zhu, Hongxiang Li, Yuexian Zou, (参考訳) 音声言語理解(SLU)は、タスク指向対話システムにおける中核的なタスクであり、セマンティックフレームの構築を通じてユーザの現在の目標を理解することを目的としている。 SLUは通常、2つのサブタスクで構成され、インテント検出とスロットフィリングを含む。 2つのサブタスクを共同でモデリングし、高いパフォーマンスを達成するSLUフレームワークはいくつか存在するが、ほとんどのフレームワークはインテントとスロットの固有の関係を見落としており、2つのサブタスク間の相互ガイダンスを達成できない。 そこで本稿では,発話レベル,スロットレベル,単語レベルという3段階のコントラスト学習を多段階のSLUフレームワークMMCLで実現する。 発話レベルについては,粗粒度比較学習と微粒度比較学習を同時に実施する。 また, モデルの堅牢性向上のために, 自己蒸留法を適用した。 実験結果とさらなる分析により,提案モデルが2つの公開マルチインテントSLUデータセットに対して新たな最先端結果を実現し,MixATISデータセットの2.6の総合的精度向上が得られた。

Spoken language understanding (SLU) is a core task in task-oriented dialogue systems, which aims at understanding the user's current goal through constructing semantic frames. SLU usually consists of two subtasks, including intent detection and slot filling. Although there are some SLU frameworks joint modeling the two subtasks and achieving high performance, most of them still overlook the inherent relationships between intents and slots and fail to achieve mutual guidance between the two subtasks. To solve the problem, we propose a multi-level multi-grained SLU framework MMCL to apply contrastive learning at three levels, including utterance level, slot level, and word level to enable intent and slot to mutually guide each other. For the utterance level, our framework implements coarse granularity contrastive learning and fine granularity contrastive learning simultaneously. Besides, we also apply the self-distillation method to improve the robustness of the model. Experimental results and further analysis demonstrate that our proposed model achieves new state-of-the-art results on two public multi-intent SLU datasets, obtaining a 2.6 overall accuracy improvement on the MixATIS dataset compared to previous best models.
翻訳日:2024-06-03 14:18:09 公開日:2024-05-31
# MeshXL: 生成3Dファンデーションモデルのためのニューラルコーディネートフィールド

MeshXL: Neural Coordinate Field for Generative 3D Foundation Models ( http://arxiv.org/abs/2405.20853v1 )

ライセンス: Link先を確認
Sijin Chen, Xin Chen, Anqi Pang, Xianfang Zeng, Wei Cheng, Yijun Fu, Fukun Yin, Yanru Wang, Zhibin Wang, Chi Zhang, Jingyi Yu, Gang Yu, Bin Fu, Tao Chen, (参考訳) 3Dデータのポリゴンメッシュ表現は、様々なアプリケーションで広く好まれる、大きな柔軟性、高速なレンダリング速度、ストレージ効率を示す。 しかし、その非構造グラフ表現を考えると、高忠実度3Dメッシュの直接生成は困難である。 幸いなことに、事前定義された順序付け戦略では、3Dメッシュはシーケンスとして表現することができ、生成プロセスは自動回帰問題としてシームレスに扱うことができる。 本稿では,暗黙的ニューラルネットワーク埋め込みを用いた明示的な座標表現であるNeurCFを,大規模連続メッシュモデリングのための簡易なyet- Effective表現として検証する。 その後、私たちは、3Dメッシュ生成のプロセスに対処し、現代の大規模言語モデルアプローチで対処する、生成事前訓練された自動回帰モデルのファミリーであるMeshXLを紹介します。 大規模な実験によると、MeshXLは高品質な3Dメッシュを生成することができ、さまざまなダウンストリームアプリケーションの基盤モデルとしても機能する。

The polygon mesh representation of 3D data exhibits great flexibility, fast rendering speed, and storage efficiency, which is widely preferred in various applications. However, given its unstructured graph representation, the direct generation of high-fidelity 3D meshes is challenging. Fortunately, with a pre-defined ordering strategy, 3D meshes can be represented as sequences, and the generation process can be seamlessly treated as an auto-regressive problem. In this paper, we validate the Neural Coordinate Field (NeurCF), an explicit coordinate representation with implicit neural embeddings, is a simple-yet-effective representation for large-scale sequential mesh modeling. After that, we present MeshXL, a family of generative pre-trained auto-regressive models, which addresses the process of 3D mesh generation with modern large language model approaches. Extensive experiments show that MeshXL is able to generate high-quality 3D meshes, and can also serve as foundation models for various down-stream applications.
翻訳日:2024-06-03 14:18:09 公開日:2024-05-31
# 一般共役下における線形非ガウス因果モデルにおけるパラメータ同定

Parameter identification in linear non-Gaussian causal models under general confounding ( http://arxiv.org/abs/2405.20856v1 )

ライセンス: Link先を確認
Daniele Tramontano, Mathias Drton, Jalal Etesami, (参考訳) 線形非ガウス因果モデル(英語版)は、各確率変数が親変数と非ガウス外生誤差項の線型関数であることを仮定する。 このようなモデルが潜伏変数を含む場合の線形係数の同定について検討する。 我々の焦点は、各モデルが有向非巡回グラフ(DAG)に対応する、よく研究されている非巡回的な設定である。 この場合、先行研究は、過剰完全独立成分分析への接続が潜在変数モデルにおけるパラメータ識別可能性を決定する効果的な基準をもたらすことを示した。 しかし、この接続は、観測された変数が潜在変数に線形に依存するという仮定に基づいている。 この仮定とは別に、任意の非線形潜在共起が可能なモデルを扱う。 我々の主な成果は、直接的な因果効果の一般的な識別可能性を決定するのに必要かつ十分であるグラフィカルな基準である。 さらに,観測変数数の多項式である実行時間を用いて,評価基準のアルゴリズムによる実装を行う。 最後に、同定結果に基づく推定ヒューリスティックスについて報告し、フィードバックループを持つモデルへの一般化を探求し、因果グラフの識別可能性に関する新たな結果を提供する。

Linear non-Gaussian causal models postulate that each random variable is a linear function of parent variables and non-Gaussian exogenous error terms. We study identification of the linear coefficients when such models contain latent variables. Our focus is on the commonly studied acyclic setting, where each model corresponds to a directed acyclic graph (DAG). For this case, prior literature has demonstrated that connections to overcomplete independent component analysis yield effective criteria to decide parameter identifiability in latent variable models. However, this connection is based on the assumption that the observed variables linearly depend on the latent variables. Departing from this assumption, we treat models that allow for arbitrary non-linear latent confounding. Our main result is a graphical criterion that is necessary and sufficient for deciding the generic identifiability of direct causal effects. Moreover, we provide an algorithmic implementation of the criterion with a run time that is polynomial in the number of observed variables. Finally, we report on estimation heuristics based on the identification result, explore a generalization to models with feedback loops, and provide new results on the identifiability of the causal graph.
翻訳日:2024-06-03 14:18:09 公開日:2024-05-31
# clembench-2024: マルチアクションエージェントとしてのLLMのための拡張性、動的、補完性、多言語ベンチマークおよび下位フレキシブルフレームワーク

clembench-2024: A Challenging, Dynamic, Complementary, Multilingual Benchmark and Underlying Flexible Framework for LLMs as Multi-Action Agents ( http://arxiv.org/abs/2405.20859v1 )

ライセンス: Link先を確認
Anne Beyer, Kranti Chalamalasetti, Sherzod Hakimov, Brielen Madureira, Philipp Sadler, David Schlangen, (参考訳) 近年,Large Language Models (LLMs) は,対話型ゲームプレイを自動生成する,特定の能力(一般的な命令従量,戦略的目標指向,言語理解能力)を探索する,対話型ゲームに "セルフプレイ" することができることが確立されている。 本稿では,このようなゲームプレイ環境を構築するためのフレームワークの1つとして,データ汚染を回避しながら,新たな開発に追随できることを示すとともに,その内部で実施されるテストがまだ飽和していないこと(人間のパフォーマンスは,最高のモデルよりもかなり高い)を示し,さらに,学習言語がパフォーマンスに与える影響など追加的な質問の探索に役立てていることを示す。 提案手法は,応用対話型システムの構築においてモデル選択を決定するための適切な基盤となり,最終的にはシステムとシミュレートされた評価器のクローズドループ開発環境を構築することができると考えられる。

It has been established in recent work that Large Language Models (LLMs) can be prompted to "self-play" conversational games that probe certain capabilities (general instruction following, strategic goal orientation, language understanding abilities), where the resulting interactive game play can be automatically scored. In this paper, we take one of the proposed frameworks for setting up such game-play environments, and further test its usefulness as an evaluation instrument, along a number of dimensions: We show that it can easily keep up with new developments while avoiding data contamination, we show that the tests implemented within it are not yet saturated (human performance is substantially higher than that of even the best models), and we show that it lends itself to investigating additional questions, such as the impact of the prompting language on performance. We believe that the approach forms a good basis for making decisions on model choice for building applied interactive systems, and perhaps ultimately setting up a closed-loop development environment of system and simulated evaluator.
翻訳日:2024-06-03 14:08:24 公開日:2024-05-31
# サンプル操作による安全強化学習の効率化

Enhancing Efficiency of Safe Reinforcement Learning via Sample Manipulation ( http://arxiv.org/abs/2405.20860v1 )

ライセンス: Link先を確認
Shangding Gu, Laixi Shi, Yuhao Ding, Alois Knoll, Costas Spanos, Adam Wierman, Ming Jin, (参考訳) 安全強化学習(RL)は、安全性の制約を満たすとともに長期的な報酬を最大化することを目的として、現実世界のアプリケーションにRLエージェントを配置するために不可欠である。 しかし、安全なRLはしばしばサンプルの不効率に悩まされ、安全な政策を学ぶためには環境との広範囲な相互作用が必要である。 本稿では,サンプル操作による安全なRLの効率を向上させる新しいアプローチとして,ESPO(Efficient Safe Policy Optimization)を提案する。 ESPOでは,報酬の最大化,コストの最小化,両者間のトレードオフのバランスという,3つのモードの最適化フレームワークを採用している。 報酬と安全性勾配の間の観測された衝突に基づいてサンプリングプロセスを動的に調整することにより、ESPOは収束、最適化安定性、サンプル複雑性境界の改善を理論的に保証する。 Safety-MuJoCo と Omnisafe ベンチマークの実験では、ESPO は報酬の最大化と制約満足度の観点から既存の原始的ベースラインと原始的ベースラインを著しく上回っている。 さらに、ESPOはサンプル効率を大幅に向上し、ベースラインよりも25~29%少ないサンプルを必要とし、トレーニング時間を21~38%短縮する。

Safe reinforcement learning (RL) is crucial for deploying RL agents in real-world applications, as it aims to maximize long-term rewards while satisfying safety constraints. However, safe RL often suffers from sample inefficiency, requiring extensive interactions with the environment to learn a safe policy. We propose Efficient Safe Policy Optimization (ESPO), a novel approach that enhances the efficiency of safe RL through sample manipulation. ESPO employs an optimization framework with three modes: maximizing rewards, minimizing costs, and balancing the trade-off between the two. By dynamically adjusting the sampling process based on the observed conflict between reward and safety gradients, ESPO theoretically guarantees convergence, optimization stability, and improved sample complexity bounds. Experiments on the Safety-MuJoCo and Omnisafe benchmarks demonstrate that ESPO significantly outperforms existing primal-based and primal-dual-based baselines in terms of reward maximization and constraint satisfaction. Moreover, ESPO achieves substantial gains in sample efficiency, requiring 25--29% fewer samples than baselines, and reduces training time by 21--38%.
翻訳日:2024-06-03 14:08:24 公開日:2024-05-31
# BackdoorIndicator: フェデレート学習におけるアクティブなバックドア検出のためのOODデータを活用する

BackdoorIndicator: Leveraging OOD Data for Proactive Backdoor Detection in Federated Learning ( http://arxiv.org/abs/2405.20862v1 )

ライセンス: Link先を確認
Songze Li, Yanbo Dai, (参考訳) FL(Federated Learning)システムでは、分散データオーナ(クライアント)が、ローカルにトレーニングされたモデルを中央サーバにアップロードして、グローバルモデルを共同でトレーニングすることが可能になる。 悪意のあるクライアントは、有害なローカルモデルをアップロードすることでバックドアをグローバルモデルに配置し、攻撃者が定義したトリガーに遭遇したときにターゲットクラスに誤分類を引き起こす可能性がある。 既存のバックドアディフェンスは、特に悪意のある更新が統計的に良質なものに近づいた場合に、異なるシステムと敵対的な設定下での一貫性のないパフォーマンスを示す。 そこで,本論文では,先行するバックドアを同一のターゲットラベルで植えることによって,それまでのバックドアの精度の維持に有効であることを示すとともに,サーバがアウト・オブ・ディストリビューション(OOD)データを利用したグローバルモデルにインジケータタスクを注入する,新たなバックドア検出機構を提案するとともに,バックドアサンプルが良質なサンプルであるという事実を利用して,バックドアタイプやターゲットラベルを全く知らないサーバが,アップロードされたモデル内のバックドアの存在を正確に検出できることを示す。 本研究は,バックドアインディケータの性能と実用性を,多種多様なシステムおよび対向的設定において,ベースライン防御よりも一貫して優れた性能と実用性を示すために,系統的および広範囲にわたる実証的研究を行った。

In a federated learning (FL) system, decentralized data owners (clients) could upload their locally trained models to a central server, to jointly train a global model. Malicious clients may plant backdoors into the global model through uploading poisoned local models, causing misclassification to a target class when encountering attacker-defined triggers. Existing backdoor defenses show inconsistent performance under different system and adversarial settings, especially when the malicious updates are made statistically close to the benign ones. In this paper, we first reveal the fact that planting subsequent backdoors with the same target label could significantly help to maintain the accuracy of previously planted backdoors, and then propose a novel proactive backdoor detection mechanism for FL named BackdoorIndicator, which has the server inject indicator tasks into the global model leveraging out-of-distribution (OOD) data, and then utilizing the fact that any backdoor samples are OOD samples with respect to benign samples, the server, who is completely agnostic of the potential backdoor types and target labels, can accurately detect the presence of backdoors in uploaded models, via evaluating the indicator tasks. We perform systematic and extensive empirical studies to demonstrate the consistently superior performance and practicality of BackdoorIndicator over baseline defenses, across a wide range of system and adversarial settings.
翻訳日:2024-06-03 14:08:24 公開日:2024-05-31
# ABodyBuilder3: 改良されたスケーラブルな抗体構造予測

ABodyBuilder3: Improved and scalable antibody structure predictions ( http://arxiv.org/abs/2405.20863v1 )

ライセンス: Link先を確認
Henry Kenlay, Frédéric A. Dreyer, Daniel Cutting, Daniel Nissley, Charlotte M. Deane, (参考訳) 抗体構造の正確な予測は、モノクローナル抗体の設計と開発において中心的な課題であり、特に、その発生性と結合性の両方を理解するために重要である。 本稿ではImmuneBuilderに基づく改良されたスケーラブルな抗体構造予測モデルであるABodyBuilder3を紹介する。 我々は,言語モデル埋め込みを利用して,CDRループのモデリングにおいて,新たな最先端の精度を実現する。 最後に、予測された局所距離差分試験をモデル出力に組み込んで、不確実性をより正確に推定する。

Accurate prediction of antibody structure is a central task in the design and development of monoclonal antibodies, notably to understand both their developability and their binding properties. In this article, we introduce ABodyBuilder3, an improved and scalable antibody structure prediction model based on ImmuneBuilder. We achieve a new state-of-the-art accuracy in the modelling of CDR loops by leveraging language model embeddings, and show how predicted structures can be further improved through careful relaxation strategies. Finally, we incorporate a predicted Local Distance Difference Test into the model output to allow for a more accurate estimation of uncertainties.
翻訳日:2024-06-03 14:08:24 公開日:2024-05-31
# マルチヘッドアテンションのためのチャンネル自動プルーニング

Automatic Channel Pruning for Multi-Head Attention ( http://arxiv.org/abs/2405.20867v1 )

ライセンス: Link先を確認
Eunho Lee, Youngbae Hwang, (参考訳) トランスフォーマーの性能は高いが、その二次計算の複雑さはビジョンタスクに適用する際の課題を示している。 自動プルーニングは、ヒューリスティックなアプローチを使わずに計算複雑性を低減する効果的な方法の1つである。 しかし、チャネルの誤認識のため、直接マルチヘッドに当てはめることは容易ではない。 本稿では,マルチヘッドアテンション機構を考慮した自動チャネルプルーニング手法を提案する。 まず、チャネル類似度に基づく重み付けをプルーニングインジケータに組み込んで、より情報的なチャネルを各頭部に保持する。 そして,全頭部に均等な比例でチャネルの除去を強制するプルーニングインジケータを調整し,チャネルの誤調整を防止する。 また、チャネル除去による情報損失を補うためのリウェイトモジュールや、元の構造とチャネル間の注意の差に基づいてインジケータをプルーニングするための効果的な初期化ステップも追加する。 提案手法は,本来の注意だけでなく,トークン数に対する線形複雑性としてより効率的である線形注意にも利用できる。 ImageNet-1Kでは、両方の注意機構を含むFLatten Transformerにプルーニング法を適用し、従来の最先端のモデルやプルーニング法と比較して、MACの精度に優れていた。 コードはまもなく利用可能になる。

Despite the strong performance of Transformers, their quadratic computation complexity presents challenges in applying them to vision tasks. Automatic pruning is one of effective methods for reducing computation complexity without heuristic approaches. However, directly applying it to multi-head attention is not straightforward due to channel misalignment. In this paper, we propose an automatic channel pruning method to take into account the multi-head attention mechanism. First, we incorporate channel similarity-based weights into the pruning indicator to preserve more informative channels in each head. Then, we adjust pruning indicator to enforce removal of channels in equal proportions across all heads, preventing the channel misalignment. We also add a reweight module to compensate for information loss resulting from channel removal, and an effective initialization step for pruning indicator based on difference of attention between original structure and each channel. Our proposed method can be used to not only original attention, but also linear attention, which is more efficient as linear complexity with respect to the number of tokens. On ImageNet-1K, applying our pruning method to the FLattenTransformer, which includes both attention mechanisms, shows outperformed accuracy for several MACs compared with previous state-of-the-art efficient models and pruned methods. Code will be available soon.
翻訳日:2024-06-03 14:08:24 公開日:2024-05-31
# 地球観測のための責任あるAI

Responsible AI for Earth Observation ( http://arxiv.org/abs/2405.20868v1 )

ライセンス: Link先を確認
Pedram Ghamisi, Weikang Yu, Andrea Marinoni, Caroline M. Gevaert, Claudio Persello, Sivasakthy Selvakumaran, Manuela Girotto, Benjamin P. Horton, Philippe Rufin, Patrick Hostert, Fabio Pacifici, Peter M. Atkinson, (参考訳) 人工知能(AI)と地球観測(EO)技術の融合は、地球科学とリモートセンシングを非並列的な能力の時代へと導いた。 AIの、特にEOプラットフォームから派生したデータ分析に対する変革的な影響は、環境監視や災害対応、気候変動分析といった世界的な課題に対処する上で、大きな可能性を秘めている。 しかし、AIの迅速な統合は、これらの領域におけるその適用に固有の責任ある次元を慎重に調べる必要がある。 本稿では,AIとEOの交差点を体系的に定義するための先駆的な取り組みについて述べる。 社会的善のためのAIとEO、不公平な偏見の緩和、EOにおけるAIのセキュリティ、地理的プライバシとプライバシ保護対策、科学的卓越性、オープンデータ、倫理原則に基づくAI利用の指導などです。 さらに,今後の研究成果に価値ある洞察を与えるとともに,今後の可能性やトレンドを探究する。

The convergence of artificial intelligence (AI) and Earth observation (EO) technologies has brought geoscience and remote sensing into an era of unparalleled capabilities. AI's transformative impact on data analysis, particularly derived from EO platforms, holds great promise in addressing global challenges such as environmental monitoring, disaster response and climate change analysis. However, the rapid integration of AI necessitates a careful examination of the responsible dimensions inherent in its application within these domains. In this paper, we represent a pioneering effort to systematically define the intersection of AI and EO, with a central focus on responsible AI practices. Specifically, we identify several critical components guiding this exploration from both academia and industry perspectives within the EO field: AI and EO for social good, mitigating unfair biases, AI security in EO, geo-privacy and privacy-preserving measures, as well as maintaining scientific excellence, open data, and guiding AI usage based on ethical principles. Furthermore, the paper explores potential opportunities and emerging trends, providing valuable insights for future research endeavors.
翻訳日:2024-06-03 14:08:24 公開日:2024-05-31
# ポストホットプルーンドパーセプションCNNの校正と破壊ロバスト性の検討 : 画像分類ベンチマークによる検討

Investigating Calibration and Corruption Robustness of Post-hoc Pruned Perception CNNs: An Image Classification Benchmark Study ( http://arxiv.org/abs/2405.20876v1 )

ライセンス: Link先を確認
Pallavi Mitra, Gesina Schwalbe, Nadja Klein, (参考訳) 畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンタスクで最先端のパフォーマンスを達成した。 しかし、高い計算量とストレージ要求は、組み込みデバイスのようなリソース制約のある環境への展開を妨げる。 モデルプルーニングは、モデルのサイズを小さくし、優れたパフォーマンスを維持しながら、これらの制限を満たすのに役立つ。 一方、セーフティクリティカルなアプリケーションは、単にリソースとパフォーマンスの制約だけに留まらない。 特に、予測は過度に自信を持っていなければならず、すなわち、適切に校正された不確実性推定(適切な不確実性校正)を提供し、CNNは自然に発生する入力摂動(自然な汚い堅牢性)のような汚職に対して堅牢でなければならない。 本研究では, 画像分類タスクの文脈における, 不確実性校正, 自然汚濁性, 現状調査後のCNNプルーニング技術の性能のトレードオフについて検討する。 本研究は, ポストホックプルーニングがモデルの不確実性校正, 性能, 自然汚濁堅牢性を著しく改善し, 安全で堅牢な組込みCNNの期待を喚起すること, さらに, ポストホック非構造化プルーニングによる安全面の改善と圧縮の増大により, 不確実性校正と自然汚濁堅牢性は相互に排他的な目標ではないことを明らかにする。

Convolutional Neural Networks (CNNs) have achieved state-of-the-art performance in many computer vision tasks. However, high computational and storage demands hinder their deployment into resource-constrained environments, such as embedded devices. Model pruning helps to meet these restrictions by reducing the model size, while maintaining superior performance. Meanwhile, safety-critical applications pose more than just resource and performance constraints. In particular, predictions must not be overly confident, i.e., provide properly calibrated uncertainty estimations (proper uncertainty calibration), and CNNs must be robust against corruptions like naturally occurring input perturbations (natural corruption robustness). This work investigates the important trade-off between uncertainty calibration, natural corruption robustness, and performance for current state-of-research post-hoc CNN pruning techniques in the context of image classification tasks. Our study reveals that post-hoc pruning substantially improves the model's uncertainty calibration, performance, and natural corruption robustness, sparking hope for safe and robust embedded CNNs.Furthermore, uncertainty calibration and natural corruption robustness are not mutually exclusive targets under pruning, as evidenced by the improved safety aspects obtained by post-hoc unstructured pruning with increasing compression.
翻訳日:2024-06-03 14:08:24 公開日:2024-05-31
# オーバーザエアコンピューティングのための波形設計

Waveform Design for Over-the-Air Computing ( http://arxiv.org/abs/2405.20877v1 )

ライセンス: Link先を確認
Nikos G. Evgenidis, Nikos A. Mitsiou, Sotiris A. Tegos, Panagiotis D. Diamantoulakis, Panagiotis Sarigiannidis, Ioannis T. Rekanos, George K. Karagiannidis, (参考訳) 次世代ネットワークで期待されるデバイスの増加に対応して、オーバー・ザ・エア(OTA)コンピューティングへのシフトが提案されている。 複数のアクセスチャネルの重ね合わせを活用することで、OTAコンピューティングは、同時にアンコードされた送信と周波数領域をサポートすることで、効率的なリソース管理を可能にする。 そこで本研究では,OTAコンピューティングの統合を推し進めるために,時間サンプリング誤差やシンボル間干渉(ISI)といった,現在のデジタル通信トランシーバで発生する現実的な問題に対処する理論的解析を行った。 そこで本研究では,OTA伝送におけるMSEの最小化手法を探索しながら,時間サンプリング誤差とISIの下でのOTA伝送の理論的平均2乗誤差(MSE)について検討する。 また、交互最適化を用いることで、デバイスと基地局の両方に最適な電力ポリシーを導出する。 さらに、時間サンプリング誤差とISIの下でのOTA伝送性能を向上させるために、新しいディープニューラルネットワーク(DNN)に基づく設計手法を提案する。 昇降コサイン (RC) や高評価コサイン (BRTC) のような既存の波形と公正に比較するために, エネルギーと帯域幅の制約を統合したカスタム損失関数と, 波形対称性などの実用的な設計上の考慮を組み込む。 シミュレーション結果から,設計パルスのRC波形およびBTRC波形上での性能向上を検証した。 DNN構造レクリエーションを必要とせず,結果の検証を容易にするため,選択したDNN波形に対する曲線適合パラメータも提供する。

In response to the increasing number of devices anticipated in next-generation networks, a shift toward over-the-air (OTA) computing has been proposed. Leveraging the superposition of multiple access channels, OTA computing enables efficient resource management by supporting simultaneous uncoded transmission in the time and the frequency domain. Thus, to advance the integration of OTA computing, our study presents a theoretical analysis addressing practical issues encountered in current digital communication transceivers, such as time sampling error and intersymbol interference (ISI). To this end, we examine the theoretical mean squared error (MSE) for OTA transmission under time sampling error and ISI, while also exploring methods for minimizing the MSE in the OTA transmission. Utilizing alternating optimization, we also derive optimal power policies for both the devices and the base station. Additionally, we propose a novel deep neural network (DNN)-based approach to design waveforms enhancing OTA transmission performance under time sampling error and ISI. To ensure fair comparison with existing waveforms like the raised cosine (RC) and the better-than-raised-cosine (BRTC), we incorporate a custom loss function integrating energy and bandwidth constraints, along with practical design considerations such as waveform symmetry. Simulation results validate our theoretical analysis and demonstrate performance gains of the designed pulse over RC and BTRC waveforms. To facilitate testing of our results without necessitating the DNN structure recreation, we provide curve fitting parameters for select DNN-based waveforms as well.
翻訳日:2024-06-03 14:08:24 公開日:2024-05-31
# SelfGNN:Self-Supervised Graph Neural Networks for Sequential Recommendation

SelfGNN: Self-Supervised Graph Neural Networks for Sequential Recommendation ( http://arxiv.org/abs/2405.20878v1 )

ライセンス: Link先を確認
Yuxi Liu, Lianghao Xia, Chao Huang, (参考訳) シーケンシャルレコメンデーションは、ユーザの時間的およびシーケンシャルなインタラクションパターンをモデル化することによって、情報の過負荷を効果的に解決する。 監視信号の限界を克服するために、近年のアプローチでは、推薦システムに自己教師あり学習技術を採用している。 しかし、未解決のままの2つの重要な課題がある。 まず、既存のシーケンシャルモデルでは、個々のインタラクションシーケンスの長期モデリングに重点を置いており、異なるユーザの振る舞い間の価値ある短期的協調関係を見越している。 第二に、現実世界のデータにはノイズがしばしば含まれており、特にユーザの短期的な行動は、一時的な意図や誤クリックから生じる可能性がある。 このようなノイズはグラフとシーケンスモデルの精度に悪影響を及ぼし、モデリングプロセスをさらに複雑にする。 これらの課題に対処するために、シーケンシャルレコメンデーションのためのSelf-Supervised Graph Neural Network (SelfGNN) と呼ばれる新しいフレームワークを提案する。 SelfGNNフレームワークは、時間間隔に基づいて短期グラフを符号化し、グラフニューラルネットワーク(GNN)を使用して短期的な協調関係を学習する。 インターバルフュージョンと動的振る舞いモデリングにより、長期のユーザとアイテムの表現を複数の粒度レベルでキャプチャする。 重要なことは、我々のパーソナライズされた自己強化学習構造は、長期的なユーザ関心と個人の安定性に基づいて、短期的なグラフにおけるノイズを緩和することにより、モデルロバスト性を高めることである。 4つの実世界のデータセットで実施された大規模な実験は、SelfGNNが様々な最先端のベースラインを上回っていることを示している。 私たちのモデル実装コードはhttps://github.com/HKUDS/SelfGNN.comで公開されています。

Sequential recommendation effectively addresses information overload by modeling users' temporal and sequential interaction patterns. To overcome the limitations of supervision signals, recent approaches have adopted self-supervised learning techniques in recommender systems. However, there are still two critical challenges that remain unsolved. Firstly, existing sequential models primarily focus on long-term modeling of individual interaction sequences, overlooking the valuable short-term collaborative relationships among the behaviors of different users. Secondly, real-world data often contain noise, particularly in users' short-term behaviors, which can arise from temporary intents or misclicks. Such noise negatively impacts the accuracy of both graph and sequence models, further complicating the modeling process. To address these challenges, we propose a novel framework called Self-Supervised Graph Neural Network (SelfGNN) for sequential recommendation. The SelfGNN framework encodes short-term graphs based on time intervals and utilizes Graph Neural Networks (GNNs) to learn short-term collaborative relationships. It captures long-term user and item representations at multiple granularity levels through interval fusion and dynamic behavior modeling. Importantly, our personalized self-augmented learning structure enhances model robustness by mitigating noise in short-term graphs based on long-term user interests and personal stability. Extensive experiments conducted on four real-world datasets demonstrate that SelfGNN outperforms various state-of-the-art baselines. Our model implementation codes are available at https://github.com/HKUDS/SelfGNN.
翻訳日:2024-06-03 14:08:24 公開日:2024-05-31
# フローマッチングは最小限の収束を達成する

Flow matching achieves minimax optimal convergence ( http://arxiv.org/abs/2405.20879v1 )

ライセンス: Link先を確認
Kenji Fukumizu, Taiji Suzuki, Noboru Isobe, Kazusato Oko, Masanori Koyama, (参考訳) フローマッチング (FM) は, シミュレーションのない生成モデルとして注目されている。 確率微分方程式に基づく拡散モデルとは異なり、FMは通常の分布から初期条件で通常の微分方程式を解くことでより単純なアプローチを採用し、サンプル生成過程を合理化している。 本稿では、分布差の尺度である$p$-ワッサーシュタイン距離の観点から、FMの収束特性について論じる。 FM が minmax の最適収束率を 1, \leq p \leq 2$ で達成できることを証明し、FM が拡散モデルに匹敵する収束率に到達できるという最初の理論的証拠を示す。 本分析は,ベクトル場の平均および分散関数のより広範なクラスを検証し,これらの最適値を達成するために必要な特定の条件を特定することによって,既存のフレームワークを拡張した。

Flow matching (FM) has gained significant attention as a simulation-free generative model. Unlike diffusion models, which are based on stochastic differential equations, FM employs a simpler approach by solving an ordinary differential equation with an initial condition from a normal distribution, thus streamlining the sample generation process. This paper discusses the convergence properties of FM in terms of the $p$-Wasserstein distance, a measure of distributional discrepancy. We establish that FM can achieve the minmax optimal convergence rate for $1 \leq p \leq 2$, presenting the first theoretical evidence that FM can reach convergence rates comparable to those of diffusion models. Our analysis extends existing frameworks by examining a broader class of mean and variance functions for the vector fields and identifies specific conditions necessary to attain these optimal rates.
翻訳日:2024-06-03 14:08:24 公開日:2024-05-31
# より良い行動への支払い:学習エージェント間の支払いを伴うゲーム

Paying to Do Better: Games with Payments between Learning Agents ( http://arxiv.org/abs/2405.20880v1 )

ライセンス: Link先を確認
Yoav Kolumbus, Joe Halpern, Éva Tardos, (参考訳) 競売のような繰り返しゲームでは、プレイヤーは通常、学習アルゴリズムを使用してアクションを選択する。 このような自律学習エージェントの使用は、オンラインプラットフォームで広まりつつある。 本稿では,エージェントのアルゴリズムに金銭的移転を取り入れたプレイヤーの影響を考察し,行動のインセンティブを高めることを目的とした。 我々の焦点は、プレイヤーが金銭移動を利用するインセンティブを持つとき、これらの支払いが学習力学にどのように影響するか、そしてプレイヤー間の福祉とその分配にどのような影響を及ぼすかを理解することである。 このようなシナリオを捉えるための単純なゲーム理論モデルを提案する。 汎用ゲームでは,ゲーム中に学習エージェントが他の学習者に支払わせることで,プレイヤーの利益が得られ,多くの場合,このような行動がすべてのプレイヤーの福祉を改善することが示唆された。 第1および第2価格オークションの結果から,「支払政策ゲーム」の均衡において,エージェントのダイナミクスは,競売業者に低収入で強い共謀的な結果が得られることが示された。 これらの結果は、自動学習エージェントが、メカニズムの境界外の仲間と対話することの恩恵を受けることができるシステムにおけるメカニズム設計の課題を浮き彫りにしている。

In repeated games, such as auctions, players typically use learning algorithms to choose their actions. The use of such autonomous learning agents has become widespread on online platforms. In this paper, we explore the impact of players incorporating monetary transfers into their agents' algorithms, aiming to incentivize behavior in their favor. Our focus is on understanding when players have incentives to make use of monetary transfers, how these payments affect learning dynamics, and what the implications are for welfare and its distribution among the players. We propose a simple game-theoretic model to capture such scenarios. Our results on general games show that in a broad class of games, players benefit from letting their learning agents make payments to other learners during the game dynamics, and that in many cases, this kind of behavior improves welfare for all players. Our results on first- and second-price auctions show that in equilibria of the ``payment policy game,'' the agents' dynamics can reach strong collusive outcomes with low revenue for the auctioneer. These results highlight a challenge for mechanism design in systems where automated learning agents can benefit from interacting with their peers outside the boundaries of the mechanism.
翻訳日:2024-06-03 14:08:24 公開日:2024-05-31
# S4Fusion:赤外線可視画像融合のためのサリエンシ対応選択状態空間モデル

S4Fusion: Saliency-aware Selective State Space Model for Infrared Visible Image Fusion ( http://arxiv.org/abs/2405.20881v1 )

ライセンス: Link先を確認
Haolong Ma, Hui Li, Chunyang Cheng, Gaoang Wang, Xiaoning Song, Xiaojun Wu, (参考訳) Image Fusionのタスクの1つとして、赤外線と可視画像融合は、様々なモードのセンサーが捉えた補完的な情報を単一の画像に統合することを目的としている。 Selective State Space Model (SSSM)は、長距離依存を捉える能力で知られており、コンピュータビジョンの分野でその可能性を実証している。 しかし、画像融合においては、現在の手法はSSSMが両モードのグローバル空間情報を捕捉する可能性を過小評価している。 この制限は、相互作用中の両モードからグローバル空間情報の同時考慮を妨げるため、有能な目標に対する包括的認識が欠如する。 その結果、融合の結果は、適応的に健全な目標を保持するのではなく、1つのモダリティに偏りが生じる傾向にある。 この問題に対処するため、我々はS4Fusion(Saliency-aware Selective State Space Fusion Model)を提案する。 我々のS4Fusionでは、設計したCross-Modal Space Awareness Module (CMSA) は、相互の相互作用を容易にしながら、両モードのグローバル空間情報に同時に焦点を合わせ、補完情報を包括的にキャプチャすることができる。 さらに、S4Fusionは事前トレーニングされたネットワークを利用して、融合した画像の不確実性を認識する。 この不確実性を最小化することで、S4Fusionは両方の画像から適切なターゲットを適応的に強調する。 大規模な実験により,本手法は高品質な画像を生成するとともに,下流タスクの性能向上を図っている。

As one of the tasks in Image Fusion, Infrared and Visible Image Fusion aims to integrate complementary information captured by sensors of different modalities into a single image. The Selective State Space Model (SSSM), known for its ability to capture long-range dependencies, has demonstrated its potential in the field of computer vision. However, in image fusion, current methods underestimate the potential of SSSM in capturing the global spatial information of both modalities. This limitation prevents the simultaneous consideration of the global spatial information from both modalities during interaction, leading to a lack of comprehensive perception of salient targets. Consequently, the fusion results tend to bias towards one modality instead of adaptively preserving salient targets. To address this issue, we propose the Saliency-aware Selective State Space Fusion Model (S4Fusion). In our S4Fusion, the designed Cross-Modal Spatial Awareness Module (CMSA) can simultaneously focus on global spatial information from both modalities while facilitating their interaction, thereby comprehensively capturing complementary information. Additionally, S4Fusion leverages a pre-trained network to perceive uncertainty in the fused images. By minimizing this uncertainty, S4Fusion adaptively highlights salient targets from both images. Extensive experiments demonstrate that our approach produces high-quality images and enhances performance in downstream tasks.
翻訳日:2024-06-03 14:08:24 公開日:2024-05-31
# 個人化フェデレーション学習のためのSheaf HyperNetworks

Sheaf HyperNetworks for Personalized Federated Learning ( http://arxiv.org/abs/2405.20882v1 )

ライセンス: Link先を確認
Bao Nguyen, Lorenzo Sani, Xinchi Qiu, Pietro Liò, Nicholas D. Lane, (参考訳) グラフニューラルネットワーク(GNN)とハイパーネットワーク(HN)を組み合わせることで構築されたグラフハイパーネットワーク(GHN)は、ニューラルネットワーク検索、分子特性予測、フェデレーション学習など、さまざまな領域にわたるリレーショナルデータを活用する。 GNN と HN は個別に成功したが,GHN は過度な平滑化やヘテロフィリーなどの性能を損なう問題を示す。 さらに、優先的なクライアント関係グラフが欠落している場合、プライベートあるいはアクセス不能な場合、パーソナライズド・フェデレーション・ラーニング(PFL)のシナリオにGHNを直接適用することはできない。 本稿では,これらの制約をPFLの文脈で緩和するために,細胞層理論とHNを結合してPFLのパラメータ共有を改善するHNs, Sheaf Hypernetworks (SHNs) の新たなクラスを提案する。 我々は,多クラス分類,交通,天気予報など多種多様なPFLタスクのSHNを徹底的に評価した。 さらに、そのようなグラフが利用できないシナリオにおいて、クライアント関係グラフを構築するための方法論を提供する。 SHNは複雑な非IIDシナリオにおいて既存のPFLソリューションより一貫して優れていることを示す。 ベースラインの性能はタスクによって変動するが、SHNは最大2.7%の精度と5.3%の低い平均二乗誤差の改善を示した。

Graph hypernetworks (GHNs), constructed by combining graph neural networks (GNNs) with hypernetworks (HNs), leverage relational data across various domains such as neural architecture search, molecular property prediction and federated learning. Despite GNNs and HNs being individually successful, we show that GHNs present problems compromising their performance, such as over-smoothing and heterophily. Moreover, we cannot apply GHNs directly to personalized federated learning (PFL) scenarios, where a priori client relation graph may be absent, private, or inaccessible. To mitigate these limitations in the context of PFL, we propose a novel class of HNs, sheaf hypernetworks (SHNs), which combine cellular sheaf theory with HNs to improve parameter sharing for PFL. We thoroughly evaluate SHNs across diverse PFL tasks, including multi-class classification, traffic and weather forecasting. Additionally, we provide a methodology for constructing client relation graphs in scenarios where such graphs are unavailable. We show that SHNs consistently outperform existing PFL solutions in complex non-IID scenarios. While the baselines' performance fluctuates depending on the task, SHNs show improvements of up to 2.7% in accuracy and 5.3% in lower mean squared error over the best-performing baseline.
翻訳日:2024-06-03 14:08:24 公開日:2024-05-31
# 量子最適制御における基底の役割

The Role of Bases in Quantum Optimal Control ( http://arxiv.org/abs/2405.20889v1 )

ライセンス: Link先を確認
Alice Pagano, Matthias M Müller, Tommaso Calarco, Simone Montangero, Phila Rembold, (参考訳) 量子最適制御(QOC)は、パルスレベルで問題に取り組むことで量子技術の進歩をサポートする: 数値的なアプローチは、有限個の変数で適用された時間依存フィールドをパラメトリすることで、与えられたターゲットに向かって反復的に機能する。 結果の最適化の有効性は、問題の複雑さと変数の数に依存する。 応用基底の選択が最適化の品質に影響を及ぼすかどうかを問うため、基底関数の観点から異なるパラメトリを考察する。 さらに、最も適切な基盤を選択するための戦略も検討する。 比較のために,シック基底とシグモイド基底をフーリエ基底の代替として導入する3つの異なるランダム化可能な基底を,複雑さの異なるQOC問題に基づいて検証した。 各問題に対して、基底固有の収束速度は、一意のランク付けをもたらす。 特にクローズドループでの高価な評価では、最大10倍のスピードアップが最適化の実現可能性に不可欠である。 問題依存に基づく基本選択はQOC効率に影響を及ぼす要因であり、そのアプローチに対するアドバイスを提供すると結論付けている。

Quantum Optimal Control (QOC) supports the advance of quantum technologies by tackling its problems at the pulse level: Numerical approaches iteratively work towards a given target by parametrising the applied time-dependent fields with a finite set of variables. The effectiveness of the resulting optimisation depends on the complexity of the problem and the number of variables. We consider different parametrisations in terms of basis functions, asking whether the choice of the applied basis affects the quality of the optimisation. Furthermore, we consider strategies to choose the most suitable basis. For the comparison, we test three different randomisable bases - introducing the sinc and sigmoid bases as alternatives to the Fourier basis - on QOC problems of varying complexity. For each problem, the basis-specific convergence rates result in a unique ranking. Especially for expensive evaluations, e.g., in closed-loop, a potential speed-up by a factor of up to 10 may be crucial for the optimisation's feasibility. We conclude that a problem-dependent basis choice is an influential factor for QOC efficiency and provide advice for its approach.
翻訳日:2024-06-03 13:58:40 公開日:2024-05-31
# MALT:オンライン行動検出のためのマルチスケールアクション学習変換器

MALT: Multi-scale Action Learning Transformer for Online Action Detection ( http://arxiv.org/abs/2405.20892v1 )

ライセンス: Link先を確認
Zhipeng Yang, Ruoyu Wang, Yang Tan, Liping Xie, (参考訳) オンラインアクション検出(OAD)は、将来的なフレームにアクセスすることなく、リアルタイムでストリーミングビデオから進行中のアクションを特定することを目的としている。 これらのアクションは、粗いものから細かいものまで様々な粒度のスケールで現れるため、一連のアクションフレーム全体を1つの潜在エンコーディングに投影すると、局所的な情報が不足し、複数のスケールにわたるアクション特徴の獲得が必要になる可能性がある。 本稿では、より少ないパラメータを含む新しい再帰デコーダ(特徴融合に使用される)を備え、より効率的に訓練できるマルチスケール動作学習変換器(MALT)を提案する。 複数のエンコード分岐を持つ階層型エンコーダは、マルチスケールのアクション特徴をキャプチャするためにさらに提案される。 その後、前枝からの出力は、相互注意計算の一部として次枝に漸進的に入力される。 このようにして、出力特性は枝が深まるにつれて粗いものから細かいものへと遷移する。 また,無関係なフレームをより効率的にフィルタし,付加的なネットワークを必要とせず,スパースアテンションを用いた明示的なフレームスコアリング機構を導入する。 提案手法は2つのベンチマークデータセット(THUMOS'14とTVSeries)で最先端のパフォーマンスを達成し、比較に使用した既存のモデルでは、THUMOS'14のmAPが0.2%、TVシリーズのmcAPが0.1%を上回った。

Online action detection (OAD) aims to identify ongoing actions from streaming video in real-time, without access to future frames. Since these actions manifest at varying scales of granularity, ranging from coarse to fine, projecting an entire set of action frames to a single latent encoding may result in a lack of local information, necessitating the acquisition of action features across multiple scales. In this paper, we propose a multi-scale action learning transformer (MALT), which includes a novel recurrent decoder (used for feature fusion) that includes fewer parameters and can be trained more efficiently. A hierarchical encoder with multiple encoding branches is further proposed to capture multi-scale action features. The output from the preceding branch is then incrementally input to the subsequent branch as part of a cross-attention calculation. In this way, output features transition from coarse to fine as the branches deepen. We also introduce an explicit frame scoring mechanism employing sparse attention, which filters irrelevant frames more efficiently, without requiring an additional network. The proposed method achieved state-of-the-art performance on two benchmark datasets (THUMOS'14 and TVSeries), outperforming all existing models used for comparison, with an mAP of 0.2% for THUMOS'14 and an mcAP of 0.1% for TVseries.
翻訳日:2024-06-03 13:58:40 公開日:2024-05-31
# PMIを用いた単語埋め込み手法による対応解析の比較

A comparison of correspondence analysis with PMI-based word embedding methods ( http://arxiv.org/abs/2405.20895v1 )

ライセンス: Link先を確認
Qianqian Qi, David J. Hessen, Peter G. M. van der Heijden, (参考訳) GloVeやWord2Vecのような一般的な単語埋め込み手法は、ポイントワイド相互情報(PMI)行列の分解に関係している。 本稿では、PMI行列の分解と対応解析(CA)をリンクする。 CA は特異値分解 (SVD) を用いた次元減少法であり, 数学的に PMI 行列の重み付き分解に近接していることを示す。 さらに,二乗根変換 (ROOT-CA) および根根変換 (ROOTROOT-CA) を行う行列に対して,単語コンテキスト行列の分解に成功しているCAの変種を示す。 実験により, ROOT-CAとROOTROOT-CAの総合成績はPMI法に比べて若干良いことがわかった。

Popular word embedding methods such as GloVe and Word2Vec are related to the factorization of the pointwise mutual information (PMI) matrix. In this paper, we link correspondence analysis (CA) to the factorization of the PMI matrix. CA is a dimensionality reduction method that uses singular value decomposition (SVD), and we show that CA is mathematically close to the weighted factorization of the PMI matrix. In addition, we present variants of CA that turn out to be successful in the factorization of the word-context matrix, i.e. CA applied to a matrix where the entries undergo a square-root transformation (ROOT-CA) and a root-root transformation (ROOTROOT-CA). An empirical comparison among CA- and PMI-based methods shows that overall results of ROOT-CA and ROOTROOT-CA are slightly better than those of the PMI-based methods.
翻訳日:2024-06-03 13:58:40 公開日:2024-05-31
# 大規模言語モデル: 大規模プライバシポリシ分析の新しいアプローチ

Large Language Models: A New Approach for Privacy Policy Analysis at Scale ( http://arxiv.org/abs/2405.20900v1 )

ライセンス: Link先を確認
David Rodriguez, Ian Yang, Jose M. Del Alamo, Norman Sadeh, (参考訳) ウェブおよびモバイルアプリケーションの数と動的性質は、データ保護法によるコンプライアンスを評価する上で重要な課題である。 この文脈では、これらのシステムのプライバシポリシの自動解析には、象徴的かつ統計的自然言語処理(NLP)技術が使用されている。 しかしながら、これらのテクニックは通常、トレーニングと検証のために、労働集約的で潜在的にエラーを起こしやすいアノテートデータセットを必要とする。 本研究は,大規模プライバシポリシから効果的かつ効率的にプライバシプラクティスを抽出する代替手段として,LLM(Large Language Models)の適用を提案する。 特に,ChatGPTやLlama 2といった有名なLCMを活用し,プロンプト,パラメータ,モデルの最適設計に関するガイダンスを提供する。 さらに、詳細で多様なプライバシープラクティスを正確に検出する能力についても説明します。 評価では、ドメイン内のいくつかの有名なデータセットをベンチマークとして、その例外的な性能を評価し、F1スコアが93%を超えた。 さらに、コストの削減、処理時間の短縮、技術的知識の要求の低減も実現しています。 その結果、我々はLLMベースのソリューションを、大規模にプライバシーポリシーを自動解析する従来のNLP技術に代わる健全な代替手段として提唱した。

The number and dynamic nature of web and mobile applications presents significant challenges for assessing their compliance with data protection laws. In this context, symbolic and statistical Natural Language Processing (NLP) techniques have been employed for the automated analysis of these systems' privacy policies. However, these techniques typically require labor-intensive and potentially error-prone manually annotated datasets for training and validation. This research proposes the application of Large Language Models (LLMs) as an alternative for effectively and efficiently extracting privacy practices from privacy policies at scale. Particularly, we leverage well-known LLMs such as ChatGPT and Llama 2, and offer guidance on the optimal design of prompts, parameters, and models, incorporating advanced strategies such as few-shot learning. We further illustrate its capability to detect detailed and varied privacy practices accurately. Using several renowned datasets in the domain as a benchmark, our evaluation validates its exceptional performance, achieving an F1 score exceeding 93%. Besides, it does so with reduced costs, faster processing times, and fewer technical knowledge requirements. Consequently, we advocate for LLM-based solutions as a sound alternative to traditional NLP techniques for the automated analysis of privacy policies at scale.
翻訳日:2024-06-03 13:58:40 公開日:2024-05-31
# チェーン・オブ・ソート推論における「アタックス」の予備回答

Preemptive Answer "Attacks" on Chain-of-Thought Reasoning ( http://arxiv.org/abs/2405.20902v1 )

ライセンス: Link先を確認
Rongwu Xu, Zehan Qi, Wei Xu, (参考訳) 大きな言語モデル(LLM)は、Chain-of-Thought(CoT)のプロンプトと組み合わせることで、印象的な推論機能を示す。 しかし、このアプローチの堅牢性はさらなる調査を保証している。 本稿では, LLMが推論に係わる前に解答を得る, プリエンプティブな解答という新しいシナリオを紹介する。 この状況は、急激なインジェクション攻撃によって、悪意のあるユーザによって不注意に、あるいは引き起こされる可能性がある。 実験により、プリエンプティブな回答は、さまざまなCoTメソッドと幅広いデータセットにわたるモデルの推論能力を著しく損なうことが明らかになった。 推論の堅牢性を高めるために,この問題をある程度緩和する2つの方法を提案する。

Large language models (LLMs) showcase impressive reasoning capabilities when coupled with Chain-of-Thought (CoT) prompting. However, the robustness of this approach warrants further investigation. In this paper, we introduce a novel scenario termed preemptive answers, where the LLM obtains an answer before engaging in reasoning. This situation can arise inadvertently or induced by malicious users by prompt injection attacks. Experiments reveal that preemptive answers significantly impair the model's reasoning capability across various CoT methods and a broad spectrum of datasets. To bolster the robustness of reasoning, we propose two measures aimed at mitigating this issue to some extent.
翻訳日:2024-06-03 13:58:40 公開日:2024-05-31
# VENI, VINDy, VICI:不確実性定量化を伴う変動最小順序モデリングフレームワーク

VENI, VINDy, VICI: a variational reduced-order modeling framework with uncertainty quantification ( http://arxiv.org/abs/2405.20905v1 )

ライセンス: Link先を確認
Paolo Conti, Jonas Kneifl, Andrea Manzoni, Attilio Frangi, Jörg Fehr, Steven L. Brunton, J. Nathan Kutz, (参考訳) 工学と科学における多くの複雑な現象のシミュレーションは、高価な偏微分方程式(PDE)の高次元システムを解く必要がある。 これを回避するために、計算を高速化するために低次モデル(ROM)が開発された。 しかし、支配方程式が未知あるいは部分的に知られている場合、一般的にROMは予測された解の解釈可能性や信頼性を欠いている。 本研究では、ROMを構築するためのデータ駆動型非侵襲的フレームワークについて、潜在変数と動的変数を解釈可能な方法で同定し、不確実性を定量化する。 提案手法は,高次元高雑音データから,非線形ダイナミクスのスパース同定(SINDy)を新たに導入し,変分オートエンコーダを用いて効率的なROMを構築する。 より詳しくは、縮小座標の分布を特定するために、雑音入力の変分符号化(VENI)で構成される。 同時に、VINDyにより事前決定された候補関数の係数の分布を学習する。 トレーニングされたオフラインで、特定されたモデルは、新しいパラメータインスタンスと、対応するフルタイムソリューションを計算するための新しい初期条件のためにクエリすることができる。 確率的設定は、オンラインテストが自然に不確実区間(VICI)を提供する変分推論からなるため、不確実な定量化を可能にする。 本研究では,ノイズ強度と音源の異なるR\osslerシステムにおいて,解釈可能かつ正確な力学系を同定するための新しいVINDy法の有効性を示す。 次に、構造力学や流体力学を含むPDEベンチマークにおいて、VENI、VINDy、VICIと呼ばれる全体的な手法の性能を検証した。

The simulation of many complex phenomena in engineering and science requires solving expensive, high-dimensional systems of partial differential equations (PDEs). To circumvent this, reduced-order models (ROMs) have been developed to speed up computations. However, when governing equations are unknown or partially known, typically ROMs lack interpretability and reliability of the predicted solutions. In this work we present a data-driven, non-intrusive framework for building ROMs where the latent variables and dynamics are identified in an interpretable manner and uncertainty is quantified. Starting from a limited amount of high-dimensional, noisy data the proposed framework constructs an efficient ROM by leveraging variational autoencoders for dimensionality reduction along with a newly introduced, variational version of sparse identification of nonlinear dynamics (SINDy), which we refer to as Variational Identification of Nonlinear Dynamics (VINDy). In detail, the method consists of Variational Encoding of Noisy Inputs (VENI) to identify the distribution of reduced coordinates. Simultaneously, we learn the distribution of the coefficients of a pre-determined set of candidate functions by VINDy. Once trained offline, the identified model can be queried for new parameter instances and new initial conditions to compute the corresponding full-time solutions. The probabilistic setup enables uncertainty quantification as the online testing consists of Variational Inference naturally providing Certainty Intervals (VICI). In this work we showcase the effectiveness of the newly proposed VINDy method in identifying interpretable and accurate dynamical system for the R\"ossler system with different noise intensities and sources. Then the performance of the overall method - named VENI, VINDy, VICI - is tested on PDE benchmarks including structural mechanics and fluid dynamics.
翻訳日:2024-06-03 13:58:40 公開日:2024-05-31
# テキスト重度コンテンツ理解とインタラクションのためのビジョンモデルの構築

Enhancing Vision Models for Text-Heavy Content Understanding and Interaction ( http://arxiv.org/abs/2405.20906v1 )

ライセンス: Link先を確認
Adithya TG, Adithya SK, Abhinav R Bharadwaj, Abhiram HA, Dr. Surabhi Narayan, (参考訳) 複数の画像でテキストの重い視覚コンテンツをやりとりし、理解することは、従来の視覚モデルにとって大きな課題である。 本稿では,様々な種類の軸とスケールを持つ複数の画像を含む教科書や研究論文などの膨大なテキスト情報を含む画像から,視覚モデルの理解・理解能力を向上させることを目的とする。 このアプローチには、データセットの事前処理、命令指向のデータと評価を使用することによる微調整が含まれる。 また、画像エンコーディングのためのCLIPと、テキスト入力と視覚入力の両方を考慮したMassive Text Embedding Benchmarkのモデルを統合するビジュアルチャットアプリケーションを構築した。 96.71%の精度が得られた。 プロジェクトの目的は、複雑な視覚的テキストデータ相互接続データを理解するための先進視覚モデルの能力を高め、強化することであり、マルチモーダルAIに寄与する。

Interacting and understanding with text heavy visual content with multiple images is a major challenge for traditional vision models. This paper is on enhancing vision models' capability to comprehend or understand and learn from images containing a huge amount of textual information from the likes of textbooks and research papers which contain multiple images like graphs, etc and tables in them with different types of axes and scales. The approach involves dataset preprocessing, fine tuning which is by using instructional oriented data and evaluation. We also built a visual chat application integrating CLIP for image encoding and a model from the Massive Text Embedding Benchmark which is developed to consider both textual and visual inputs. An accuracy of 96.71% was obtained. The aim of the project is to increase and also enhance the advance vision models' capabilities in understanding complex visual textual data interconnected data, contributing to multimodal AI.
翻訳日:2024-06-03 13:58:40 公開日:2024-05-31
# 部分多様体からサンプリングされたランダム幾何グラフの非パラメトリック回帰

Nonparametric regression on random geometric graphs sampled from submanifolds ( http://arxiv.org/abs/2405.20909v1 )

ライセンス: Link先を確認
Paul Rosa, Judith Rousseau, (参考訳) 共変数がユークリッド空間の未知の滑らかなコンパクト部分多様体上にあるときの非パラメトリック回帰問題を考える。 共変量体上のランダムな幾何グラフ構造を定義することにより、ラプラシアン固有基底のランダム基底展開によって設計されたベイズ的先行から生じる後続分布の漸近的頻繁性挙動を解析する。 回帰関数と部分多様体上の共変量の密度に関するホルダー滑らか性仮定の下では、そのような手法の後方収縮速度が任意の正の滑らか度指数に対して極小最適(対数因子まで)であることが証明される。

We consider the nonparametric regression problem when the covariates are located on an unknown smooth compact submanifold of a Euclidean space. Under defining a random geometric graph structure over the covariates we analyze the asymptotic frequentist behaviour of the posterior distribution arising from Bayesian priors designed through random basis expansion in the graph Laplacian eigenbasis. Under Holder smoothness assumption on the regression function and the density of the covariates over the submanifold, we prove that the posterior contraction rates of such methods are minimax optimal (up to logarithmic factors) for any positive smoothness index.
翻訳日:2024-06-03 13:58:40 公開日:2024-05-31
# 単発位相探索ニューラルネットワークによるポチグラフィープローブ位置の予測

Predicting ptychography probe positions using single-shot phase retrieval neural network ( http://arxiv.org/abs/2405.20910v1 )

ライセンス: Link先を確認
Ming Du, Tao Zhou, Junjing Deng, Daniel J. Ching, Steven Henke, Mathew J. Cherukara, (参考訳) Ptychography は、材料科学、生物学、ナノテクノロジーなど、様々な分野で使用される強力なイメージング技術である。 しかし、再構成された画像の精度は、しばしばエラーを含む記録されたプローブ位置の精度に大きく依存する。 これらの誤差は、数値最適化手法による位相探索と共同で修正されるのが一般的である。 誤差がスキャンパスに沿って蓄積される場合や、誤差の大きさが大きい場合、これらのアプローチは満足な結果に収束しない。 そこで,ニューラルネットワークを用いて個々の回折パターンの単発位相を抽出し,各走査点の物体像を出力する手法を提案する。 これらの画像の対方向のオフセットは、ロバストな画像登録法を用いて見出され、その結果を組み合わせて、線形方程式の構築と解法により完全なスキャンパスを得る。 提案手法は,10^2$の画素数で誤差を蓄積したデータに対して良好な位置予測精度を達成できることを示す。 干渉計などの高度位置制御装置を使用せず, ポイクログラフィー機器の実用化には, 本手法が有効である可能性が示唆された。

Ptychography is a powerful imaging technique that is used in a variety of fields, including materials science, biology, and nanotechnology. However, the accuracy of the reconstructed ptychography image is highly dependent on the accuracy of the recorded probe positions which often contain errors. These errors are typically corrected jointly with phase retrieval through numerical optimization approaches. When the error accumulates along the scan path or when the error magnitude is large, these approaches may not converge with satisfactory result. We propose a fundamentally new approach for ptychography probe position prediction for data with large position errors, where a neural network is used to make single-shot phase retrieval on individual diffraction patterns, yielding the object image at each scan point. The pairwise offsets among these images are then found using a robust image registration method, and the results are combined to yield the complete scan path by constructing and solving a linear equation. We show that our method can achieve good position prediction accuracy for data with large and accumulating errors on the order of $10^2$ pixels, a magnitude that often makes optimization-based algorithms fail to converge. For ptychography instruments without sophisticated position control equipment such as interferometers, our method is of significant practical potential.
翻訳日:2024-06-03 13:58:40 公開日:2024-05-31
# RASE:IoTの開示攻撃に対する効果的なプライバシ保護データアグリゲーション

RASE: Efficient Privacy-preserving Data Aggregation against Disclosure Attacks for IoTs ( http://arxiv.org/abs/2405.20914v1 )

ライセンス: Link先を確認
Zuyan Wang, Jun Tao, Dika Zou, (参考訳) 個人のプライバシーに対する認知度が高まっていることは、次の4つの原則を提起している。 データアグリゲーションとプライバシ保護の共同設計に関するこれまでの研究は、信頼されたフュージョンセンターがプライバシ体制に準拠していることを前提としている。 非常に最近の作業は、データコントリビュータが自身のデータをローカルに摂動させることによって、仮定を緩和するステップを取りました。 これらのソリューションは、プライバシーリスクを軽減するためにいくつかのデータコンテンツを保持しないが、開示攻撃に対する保護が不十分であることが示されている。 より厳格なIoT(Internet of Things)データ保護の提供を目的として,プライバシ保護データアグリゲーションの研究を開始する。 本稿では,3段階の逐次手順,雑音付加,ランダムな置換,パラメータ推定に一般化可能な新しいパラダイム(RASE)を提案する。 具体的には、データコントリビュータが真実を難読化するために慎重にガイドする、微分プライベートなランダム化器を設計する。 次に、シャフラーを使用して、すべてのデータコントリビュータからノイズの多いデータを受信する。 その後、ランダムな置換を適用することで、送信側と受信側の間の正しいリンクを断ち切る。 推定フェーズは、近似集約値を計算するために不正確なデータを使用する。 RASEのプライバシーユーティリティの展望を探るため、大規模なシミュレーションが提供されている。

The growing popular awareness of personal privacy raises the following quandary: what is the new paradigm for collecting and protecting the data produced by ever-increasing sensor devices. Most previous studies on co-design of data aggregation and privacy preservation assume that a trusted fusion center adheres to privacy regimes. Very recent work has taken steps towards relaxing the assumption by allowing data contributors to locally perturb their own data. Although these solutions withhold some data content to mitigate privacy risks, they have been shown to offer insufficient protection against disclosure attacks. Aiming at providing a more rigorous data safeguard for the Internet of Things (IoTs), this paper initiates the study of privacy-preserving data aggregation. We propose a novel paradigm (called RASE), which can be generalized into a 3-step sequential procedure, noise addition, followed by random permutation, and then parameter estimation. Specially, we design a differentially private randomizer, which carefully guides data contributors to obfuscate the truth. Then, a shuffler is employed to receive the noisy data from all data contributors. After that, it breaks the correct linkage between senders and receivers by applying a random permutation. The estimation phase involves using inaccurate data to calculate an approximate aggregate value. Extensive simulations are provided to explore the privacy-utility landscape of our RASE.
翻訳日:2024-06-03 13:58:40 公開日:2024-05-31
# 高速かつ安全 - リスク管理による早期導入

Fast yet Safe: Early-Exiting with Risk Control ( http://arxiv.org/abs/2405.20915v1 )

ライセンス: Link先を確認
Metod Jazbec, Alexander Timans, Tin Hadži Veljković, Kaspar Sakmann, Dan Zhang, Christian A. Naesseth, Eric Nalisnick, (参考訳) 機械学習モデルをスケールすることで、パフォーマンスが大幅に向上する。 しかし、そのような利益は、推論が遅く、リソース集約的なコストで得られます。 早期排他ニューラルネットワーク(EENN)は、予測を早めることによって推論を加速する、有望なソリューションを提供する。 しかし、EENNの根本的な問題は、パフォーマンスを著しく低下させることなく、いつ終了するかを決定する方法である。 言い換えれば、EENNが"高速"になるのはいつ頃なのでしょうか? この問題に対処するために,我々はリスク制御のフレームワークをEENNに適応させる方法について検討する。 リスクコントロールは、EENNのエグジットメカニズムをチューニングし、アウトプットが十分な品質の場合にのみ発生する、分散のないポストホックソリューションを提供する。 リスクコントロールがユーザ固有のパフォーマンス目標を保ちながら,計算コストを大幅に削減できることを実証し,さまざまなビジョンや言語タスクに関する洞察を実証的に検証する。

Scaling machine learning models significantly improves their performance. However, such gains come at the cost of inference being slow and resource-intensive. Early-exit neural networks (EENNs) offer a promising solution: they accelerate inference by allowing intermediate layers to exit and produce a prediction early. Yet a fundamental issue with EENNs is how to determine when to exit without severely degrading performance. In other words, when is it 'safe' for an EENN to go 'fast'? To address this issue, we investigate how to adapt frameworks of risk control to EENNs. Risk control offers a distribution-free, post-hoc solution that tunes the EENN's exiting mechanism so that exits only occur when the output is of sufficient quality. We empirically validate our insights on a range of vision and language tasks, demonstrating that risk control can produce substantial computational savings, all the while preserving user-specified performance goals.
翻訳日:2024-06-03 13:58:40 公開日:2024-05-31
# スマートシティにおけるディジタル双生児の意思決定支援と政策管理

Unravelling the Use of Digital Twins to Assist Decision- and Policy-Making in Smart Cities ( http://arxiv.org/abs/2405.20916v1 )

ライセンス: Link先を確認
Lucy Temple, Gabriela Viale Pereira, Lukas Daniel Klausner, (参考訳) 本稿では,公共部門,特にスマートシティ領域を対象としたデジタルツインベースの意思決定支援フレームワークの今後の開発基盤となる,体系的な文献レビューについて述べる。 この研究の最終目的は、スマートシティにおける意思決定プロセスを支援するためにコンテキスト特異的なデジタルツインをモデル化し、政策アジェンダを定義する方法を考案することである。 本論文は, スマートシティにおける意思決定と政策決定を支援する都市デジタル双生児の役割と応用について, 既存文献の主概念に基づく基礎研究を行う。 既存の文献は、スマートシティ開発におけるデジタルツインの一般的な応用を分析し、意思決定と政策決定を支援することに焦点を当てている。 今後は、デジタルツインベースの持続可能なスマートシティの開発と、より小規模の都市と非都市で、優れたガバナンス(特に悪質な問題)の課題に関するさまざまなシナリオを定義することに集中する。

This short paper represents a systematic literature review that sets the basis for the future development of a framework for digital twin-based decision support in the public sector, specifically for the smart city domain. The final aim of the research is to model context-specific digital twins for aiding the decision-making processes in smart cities and devise methods for defining the policy agenda. Overall, this short paper provides a foundation, based on the main concepts from existing literature, for further research in the role and applications of urban digital twins to assist decision- and policy-making in smart cities. The existing literature analyses common applications of digital twins in smart city development with a focus on supporting decision- and policy-making. Future work will centre on developing a digital-twin-based sustainable smart city and defining different scenarios concerning challenges of good governance, especially so-called wicked problems, in smaller-scale urban and non-urban contexts.
翻訳日:2024-06-03 13:58:40 公開日:2024-05-31
# 変圧器とマンバを用いた線形時間論理におけるシステム仕様推定の学習

Learning to Estimate System Specifications in Linear Temporal Logic using Transformers and Mamba ( http://arxiv.org/abs/2405.20917v1 )

ライセンス: Link先を確認
İlker Işık, Ebru Aydin Gol, Ramazan Gokberk Cinbis, (参考訳) 時間論理は、時間とともに進化する命題を表現し、推論するためのフレームワークである。 ハードウェアやソフトウェアシステムやロボティクスなど、さまざまな分野の要件を特定するために一般的に使用される。 仕様マイニングまたは公式生成は、システムトレースから時間論理式を抽出することを含み、バグの検出や解釈可能性の改善など、多くの応用がある。 近年, 時間論理に適合する深層学習手法が急増しているが, 拡張性など多くの利点があるにもかかわらず, 詳細なマイニング文献は, 深層学習手法の採用に遅れを取っている。 本稿では,トレースから線形時間論理式を生成可能な自己回帰モデルを導入し,仕様マイニング問題に対処する。 本稿では,変換器のエンコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デコーダ・デ さらに、生成した公式の特異性を定量化する指標と、構文制約を強制する簡単なアルゴリズムを考案する。 実験により,提案アーキテクチャは有望な結果となり,組合せベースラインに必要な計算コストのごく一部で,正確で明確な公式が生成されることがわかった。

Temporal logic is a framework for representing and reasoning about propositions that evolve over time. It is commonly used for specifying requirements in various domains, including hardware and software systems, as well as robotics. Specification mining or formula generation involves extracting temporal logic formulae from system traces and has numerous applications, such as detecting bugs and improving interpretability. Although there has been a surge of deep learning-based methods for temporal logic satisfiability checking in recent years, the specification mining literature has been lagging behind in adopting deep learning methods despite their many advantages, such as scalability. In this paper, we introduce autoregressive models that can generate linear temporal logic formulae from traces, towards addressing the specification mining problem. We propose multiple architectures for this task: transformer encoder-decoder, decoder-only transformer, and Mamba, which is an emerging alternative to transformer models. Additionally, we devise a metric for quantifying the distinctiveness of the generated formulae and a straightforward algorithm to enforce the syntax constraints. Our experiments show that the proposed architectures yield promising results, generating correct and distinct formulae at a fraction of the compute cost needed for the combinatorial baseline.
翻訳日:2024-06-03 13:58:40 公開日:2024-05-31
# 不均一・属性多層ネットワークにおけるフレキシブル推論

Flexible inference in heterogeneous and attributed multilayer networks ( http://arxiv.org/abs/2405.20918v1 )

ライセンス: Link先を確認
Martina Contisciani, Marius Hobbhahn, Eleanor A. Power, Philipp Hennig, Caterina De Bacco, (参考訳) ネットワークデータセットは、個々のノードやエッジに関するさまざまなタイプの情報によって強化されることが多い。 しかし、そのようなデータセットを解析するための既存の方法のほとんどは、不均一なデータの複雑さを扱うのに苦労し、しばしば、実質的なモデル固有の分析を必要とする。 本稿では,任意の種類の情報を持つ多層ネットワークで推論を行う確率的生成モデルを開発する。 提案手法では,推論パラメータの解釈を容易にするために,ベイズ的枠組みとLaplaceマッチング手法を併用した。 さらに、アルゴリズムの実装は自動微分に依存しており、明示的な導出は不要である。 これにより、モデルはスケーラブルでフレキシブルで、任意の組み合わせの入力データに適応できます。 重なり合うコミュニティ構造を検出し、ノードとエッジが異なる属性を持つ異種多層データに対して様々な予測タスクを実行する方法の有効性を実証する。 さらに,インド農村部における社会支援ネットワークにおいて,すべての入力情報を有意義に活用することで,様々なパターンを公開できることを示す。

Networked datasets are often enriched by different types of information about individual nodes or edges. However, most existing methods for analyzing such datasets struggle to handle the complexity of heterogeneous data, often requiring substantial model-specific analysis. In this paper, we develop a probabilistic generative model to perform inference in multilayer networks with arbitrary types of information. Our approach employs a Bayesian framework combined with the Laplace matching technique to ease interpretation of inferred parameters. Furthermore, the algorithmic implementation relies on automatic differentiation, avoiding the need for explicit derivations. This makes our model scalable and flexible to adapt to any combination of input data. We demonstrate the effectiveness of our method in detecting overlapping community structures and performing various prediction tasks on heterogeneous multilayer data, where nodes and edges have different types of attributes. Additionally, we showcase its ability to unveil a variety of patterns in a social support network among villagers in rural India by effectively utilizing all input information in a meaningful way.
翻訳日:2024-06-03 13:58:40 公開日:2024-05-31
# 最適不確実性等価リスク推定のための濃度境界

Concentration Bounds for Optimized Certainty Equivalent Risk Estimation ( http://arxiv.org/abs/2405.20933v1 )

ライセンス: Link先を確認
Ayon Ghosh, L. A. Prashanth, Krishna Jagannathan, (参考訳) 我々は,OCE(Optimized Certainty Equivalent)リスクを,独立かつ同一に分布するサンプルから推定する問題を考察する。 OCEの古典的なサンプル平均近似(SAA)については、平均二乗誤差と濃度境界(準ガウス性 (sub-Gaussianity) )を導出する。 さらに, 確率近似に基づく効率的なOCE推定器を解析し, 有限標本境界を導出する。 適用可能性を示すため,OCEをリスクとするリスク意識の盗賊問題を考える。 この問題に対して、我々は誤識別の確率に縛られる。 最後に,理論的結果を検証する数値実験を行った。

We consider the problem of estimating the Optimized Certainty Equivalent (OCE) risk from independent and identically distributed (i.i.d.) samples. For the classic sample average approximation (SAA) of OCE, we derive mean-squared error as well as concentration bounds (assuming sub-Gaussianity). Further, we analyze an efficient stochastic approximation-based OCE estimator, and derive finite sample bounds for the same. To show the applicability of our bounds, we consider a risk-aware bandit problem, with OCE as the risk. For this problem, we derive bound on the probability of mis-identification. Finally, we conduct numerical experiments to validate the theoretical findings.
翻訳日:2024-06-03 13:58:40 公開日:2024-05-31
# 空間性と量子化の効果的な相互作用:理論から実践へ

Effective Interplay between Sparsity and Quantization: From Theory to Practice ( http://arxiv.org/abs/2405.20935v1 )

ライセンス: Link先を確認
Simla Burcu Harma, Ayan Chakraborty, Elizaveta Kostenok, Danila Mishin, Dongho Ha, Babak Falsafi, Martin Jaggi, Ming Liu, Yunho Oh, Suvinay Subramanian, Amir Yazdanbakhsh, (参考訳) ディープニューラルネットワークのサイズが大きくなると、効率的なモデル圧縮が必要になり、計算効率が向上し、メモリフットプリントが削減される。 空間性と量子化は、モデル精度を維持しながら計算量とメモリフットプリントの大幅な削減を個別に示す2つの顕著な圧縮手法である。 効果はあるものの、これらの2つの方法間の相互作用は未解決の問題である。 本稿では,これら2つの手法間の相互作用を調査し,それらの組み合わせが最終モデルの精度に影響を及ぼすかどうかを評価する。 量子化に先立ってスパーシティを適用することがこれらの演算の最適シーケンスであることを数学的に証明し、計算における誤差を最小化する。 OPTおよびLlamaモデルファミリー(125M-8B)とViTを含む、幅広いモデルにわたる実証研究は、これらの理論的な知見を裏付けるものである。 さらに、厳密な分析により、空間と量子化は直交ではなく、それらの相互作用はモデルの精度を著しく損なうことが示され、量子化誤差はこの分解において支配的な役割を果たす。 本研究は,資源制限型計算プラットフォームにおける大規模モデルの効率的な展開とサービスコストの低減を両立させ,これらの圧縮手法を適用し,精度を損なうことなく効率を最大化するためのベストプラクティスの洞察を提供する。

The increasing size of deep neural networks necessitates effective model compression to improve computational efficiency and reduce their memory footprint. Sparsity and quantization are two prominent compression methods that have individually demonstrated significant reduction in computational and memory footprints while preserving model accuracy. While effective, the interplay between these two methods remains an open question. In this paper, we investigate the interaction between these two methods and assess whether their combination impacts final model accuracy. We mathematically prove that applying sparsity before quantization is the optimal sequence for these operations, minimizing error in computation. Our empirical studies across a wide range of models, including OPT and Llama model families (125M-8B) and ViT corroborate these theoretical findings. In addition, through rigorous analysis, we demonstrate that sparsity and quantization are not orthogonal; their interaction can significantly harm model accuracy, with quantization error playing a dominant role in this degradation. Our findings extend to the efficient deployment of large models in resource-limited compute platforms and reduce serving cost, offering insights into best practices for applying these compression methods to maximize efficacy without compromising accuracy.
翻訳日:2024-06-03 13:48:55 公開日:2024-05-31
# 機械学習を用いた多重化単電子ポンプの高速特性評価

Fast characterization of multiplexed single-electron pumps with machine learning ( http://arxiv.org/abs/2405.20946v1 )

ライセンス: Link先を確認
N. Schoinas, Y. Rath, S. Norimoto, W. Xie, P. See, J. P. Griffiths, C. Chen, D. A. Ritchie, M. Kataoka, A. Rossi, I. Rungger, (参考訳) 単一電子ポンプ装置を現在の量子化方式に高速にチューニングするための機械学習に基づく効率的な自動化フレームワークを提案する。 反復能動学習アルゴリズムに基づくスパース計測手法を用いて、ゲート電圧パラメータ空間における目標測定を行う。 従来のパラメータースキャンと比較して、我々の自動フレームワークは測定点数を約1桁減らすことができる。 これは、量子化誤差を決定するのに要する時間の8倍の減少に対応しており、これはアルゴリズムに埋め込まれた第1の電流高原の指数的外挿によって推定される。 GaAs/AlGaAsマルチプレクサアレイに配置した28個の個別デバイスを特徴付けることで,並列動作に適したデバイスのサブセットを共通ゲート電圧で同定することで,フレームワークの堅牢性を示す。 この手法は、これらの多重デバイスの特性を多数のポンプに効率的に拡張する可能性を開く。

We present an efficient machine learning based automated framework for the fast tuning of single-electron pump devices into current quantization regimes. It uses a sparse measurement approach based on an iterative active learning algorithm to take targeted measurements in the gate voltage parameter space. When compared to conventional parameter scans, our automated framework allows us to decrease the number of measurement points by about an order of magnitude. This corresponds to an eight-fold decrease in the time required to determine quantization errors, which are estimated via an exponential extrapolation of the first current plateau embedded into the algorithm. We show the robustness of the framework by characterizing 28 individual devices arranged in a GaAs/AlGaAs multiplexer array, which we use to identify a subset of devices suitable for parallel operation at communal gate voltages. The method opens up the possibility to efficiently scale the characterization of such multiplexed devices to a large number of pumps.
翻訳日:2024-06-03 13:48:55 公開日:2024-05-31
# OR-Bench: 大規模言語モデルに対する過剰な拒否ベンチマーク

OR-Bench: An Over-Refusal Benchmark for Large Language Models ( http://arxiv.org/abs/2405.20947v1 )

ライセンス: Link先を確認
Justin Cui, Wei-Lin Chiang, Ion Stoica, Cho-Jui Hsieh, (参考訳) 大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。 有害なコンテンツ生成を緩和することに焦点を当てた重要な研究であるが、安全性の向上は、LLMが無害なプロンプトを拒絶し、役に立たないという、過剰な拒絶の副作用を伴うことが多い。 過剰拒絶の問題は実証的に観察されているが、有害に見えるが良心的なプロンプトの製作が困難であるため、体系的な測定は困難である。 そこで本研究では,LLMによって拒否される可能性のある「有害なプロンプト」の大規模集合を自動生成する手法を提案する。 この手法を活用することで、最初の大規模オーバーリファレンスベンチマークであるOR-Benchを導入する。 OR-Benchは10の共通の拒絶カテゴリーに80,000の有害なプロンプト、1000のハードプロンプトのサブセット、そして600の有害なプロンプトからなり、無差別な反応を防いでいる。 次に,8つのモデルファミリーにまたがる25のLLMの過剰拒絶量を測定するための総合的研究を行った。 データセットはhttps://huggingface.co/datasets/bench-llm/OR-Benchで、対応するデモはhttps://huggingface.co/spaces/bench-llm/or-benchで見ることができる。 このベンチマークが、コミュニティがより安全なモデルを開発するのに役立つことを願っています。

Large Language Models (LLMs) require careful safety alignment to prevent malicious outputs. While significant research focuses on mitigating harmful content generation, the enhanced safety often come with the side effect of over-refusal, where the LLMs may reject innocuous prompts and become less helpful. Although the issue of over-refusal has been empirically observed, a systematic measurement is challenging due to the difficulty of crafting prompts that appear harmful but are benign. This study proposes a novel method for automatically generating large-scale sets of ``seemingly toxic prompts'' (benign prompts likely rejected by LLMs). Leveraging this technique, we introduce OR-Bench, the first large-scale over-refusal benchmark. OR-Bench comprises 80,000 seemingly toxic prompts across 10 common rejection categories, a subset of around 1,000 hard prompts that are challenging even for state-of-the-art LLMs, and an additional 600 toxic prompts to prevent indiscriminate responses. We then conduct a comprehensive study to measure the over-refusal of 25 popular LLMs across 8 model families. Our datasets are available at https://huggingface.co/datasets/bench-llm/OR-Bench and the corresponding demo can be found at https://huggingface.co/spaces/bench-llm/or-bench. We hope this benchmark can help the community develop better safety aligned models.
翻訳日:2024-06-03 13:48:55 公開日:2024-05-31
# ハイブリッドパラフェミオンスピン量子ビットを用いた量子計算

Quantum computation with hybrid parafermion-spin qubits ( http://arxiv.org/abs/2405.20950v1 )

ライセンス: Link先を確認
Denis V. Kurlov, Melina Luethi, Anatoliy I. Lotkov, Katharina Laubscher, Jelena Klinovaja, Daniel Loss, (参考訳) 量子ドットスピン量子ビットを任意の整数$m$のパラフェミオン量子ビットと$\mathbb{Z}_{2m}$のパラフェミオン量子ビットに結合することによって形成されるハイブリッド量子ビット上で作用する単一および2量子ビット量子ゲートの普遍的集合を提案する。 特別の場合$m=1$は、以前Majorana qubitsで導かれた結果を再現する。 我々の定式化はフォックパラフェルミオンを利用し、ハイブリッドパラフェルミオン-スピン系の透明な処理を容易にする。 さらに, 従来見過ごされていた粒子ホール対称性の重要性を強調した。 ハイブリッド量子ビット系は、$\mathbb{Z}_4$と$\mathbb{Z}_6$パラフェルミオンに対して実験的に実現できる具体的な例を示す。 さらに、スピン量子ビット共鳴周波数の測定により、分数パラフェルミオン電荷の簡単な読み出し方式について議論する。

We propose a universal set of single- and two-qubit quantum gates acting on a hybrid qubit formed by coupling a quantum dot spin qubit to a $\mathbb{Z}_{2m}$ parafermion qubit with arbitrary integer $m$. The special case $m=1$ reproduces the results previously derived for Majorana qubits. Our formalism utilizes Fock parafermions, facilitating a transparent treatment of hybrid parafermion-spin systems. Furthermore, we highlight the previously overlooked importance of particle-hole symmetry in these systems. We give concrete examples how the hybrid qubit system could be realized experimentally for $\mathbb{Z}_4$ and $\mathbb{Z}_6$ parafermions. In addition, we discuss a simple readout scheme for the fractional parafermion charge via the measurement of the spin qubit resonant frequency.
翻訳日:2024-06-03 13:48:55 公開日:2024-05-31
# モンテカルロ・ツリー・サーチ衛星、雲のカバー不確実性下でのスケジュール決定

Monte Carlo Tree Search Satellite Scheduling Under Cloud Cover Uncertainty ( http://arxiv.org/abs/2405.20951v1 )

ライセンス: Link先を確認
Justin Norman, Francois Rivest, (参考訳) 衛星資源の動的環境における効率的な利用は、衛星スケジューリングにおいて難しい問題である。 本稿では,雲などの不確実な条件下での衛星群上でのタスクスケジューリングを最適化することを目的とした,マルチ衛星収集スケジューリング問題(m-SatCSP)に対処する。 確率探索アルゴリズムであるモンテカルロ木探索(MCTS)を利用して、MCTSの2つのバージョンを衛星を効率的にスケジュールするために探索した。 ハイパーパラメータチューニングはアルゴリズムの性能を最適化するために行われる。 実験により,MCTS法の有効性が示され,ソリューションの品質と効率の両面で既存手法よりも優れていた。 他のスケジューリングアルゴリズムとの比較分析では、MCTSを動的環境における衛星タスクスケジューリングのための有望なソリューションとして位置づけ、競争性能を示す。

Efficient utilization of satellite resources in dynamic environments remains a challenging problem in satellite scheduling. This paper addresses the multi-satellite collection scheduling problem (m-SatCSP), aiming to optimize task scheduling over a constellation of satellites under uncertain conditions such as cloud cover. Leveraging Monte Carlo Tree Search (MCTS), a stochastic search algorithm, two versions of MCTS are explored to schedule satellites effectively. Hyperparameter tuning is conducted to optimize the algorithm's performance. Experimental results demonstrate the effectiveness of the MCTS approach, outperforming existing methods in both solution quality and efficiency. Comparative analysis against other scheduling algorithms showcases competitive performance, positioning MCTS as a promising solution for satellite task scheduling in dynamic environments.
翻訳日:2024-06-03 13:48:55 公開日:2024-05-31
# レーザー冷却ストロンチウム原子を用いた連続運動量状態ラシングと空洞周波数ピンニング

Continuous momentum state lasing and cavity frequency-pinning with laser-cooled strontium atoms ( http://arxiv.org/abs/2405.20952v1 )

ライセンス: Link先を確認
V. M. Schäfer, Z. Niu, J. R. K. Cline, D. J. Young, E. Y. Song, H. Ritsch, J. K. Thompson, (参考訳) 光キャビティの磁場と相互作用する原子のレーザー冷却ガスは、量子センシングと開閉量子系のシミュレーションのための強力なツールである。 自発的な自己組織化相転移、時間結晶、新しい洗浄機構、量子センシングのための圧縮状態、量子コヒーレンス保護、動的相転移を表示できる。 しかし、これらの現象は、新しい原子の集合体を止めて再ロードする必要があるため、不連続な方法で探索される。 本稿では,レーザー冷却した$^{88}$Sr原子をリングキャビティに連続的に装填した数時間連続ラシングの観察を報告する。 溶出に必要な逆転は、自己組織相転移と集団的原子リコイル溶出に直接関係する機構である原子運動量自由度の逆転から生じる。 さらに、空洞周波数変化に対するラシング周波数の感度は、原子損失機構により120倍に抑えられ、狭い周波数基準を実現するために空洞周波数ノイズを補償する興味深い新しい経路が開かれる。 この研究は連続キャビティQED量子シミュレーション実験と連続超放射光レーザーの道を開く。

Laser-cooled gases of atoms interacting with the field of an optical cavity are a powerful tool for quantum sensing and the simulation of open and closed quantum systems. They can display spontaneous self-organisation phase transitions, time crystals, new lasing mechanisms, squeezed states for quantum sensing, protection of quantum coherence, and dynamical phase transitions. However, all of these phenomena are explored in a discontinuous manner due to the need to stop and reload a new ensemble of atoms. Here we report the observation of hours-long continuous lasing from laser-cooled $^{88}$Sr atoms continuously loaded into a ring cavity. The required inversion to produce lasing arises from inversion in the atomic momentum degree of freedom, a mechanism related directly to self-organization phase transitions and collective atomic recoil lasing, both of which were previously only observed in a cyclic fashion compared to the truly continuous behavior here. Further, the sensitivity of the lasing frequency to cavity frequency changes is 120 fold suppressed due to an atomic loss mechanism, opening an interesting new path to compensate cavity frequency noise for realizing narrow frequency references. This work opens the way for continuous cavity QED quantum simulation experiments as well as continuous superradiant lasers.
翻訳日:2024-06-03 13:48:55 公開日:2024-05-31
# F_β$-Scoreによるタスク性能を考慮したマルチクラスニューラルネットワーク分類基準の調整

Aligning Multiclass Neural Network Classifier Criterion with Task Performance via $F_β$-Score ( http://arxiv.org/abs/2405.20954v1 )

ライセンス: Link先を確認
Nathan Tsoi, Deyuan Li, Taesoo Daniel Lee, Marynel Vázquez, (参考訳) マルチクラスニューラルネットワーク分類器は通常、クロスエントロピー損失を用いて訓練される。 トレーニングの後、同じニューラルネットワークのパフォーマンスは、Macro $F_\beta$-Scoreのようなマルチクラス混乱行列に基づいて、アプリケーション固有のメトリックを使用して評価される。 クロスエントロピーの使用は、特に分類器のパフォーマンスの1つの側面を強調する必要があるシナリオにおいて、意図されたアプリケーション固有のパフォーマンス基準に合致する分類器が得られるかどうか疑問である。 例えば、リコールよりも高精度が望ましい場合、$F_\beta$評価基準の$\beta$値は、それに応じて調整できるが、クロスエントロピーの目標は、トレーニング中にこの好みに気付かないままである。 そこで本稿では,マルチクラスニューラルネットワーク分類器のトレーニング評価ギャップに対処し,ユーザが希望する$F_\beta$-Scoreでこれらのモデルを学習できるようにする手法を提案する。 二項分類における先行研究に続いて、ソフトセット混乱行列の概念とヘビサイドステップ関数の片方向線形近似を利用する。 提案手法は,2ドル2セントのソフトセット混同行列をマルチクラス$d \times d$の混同行列に拡張し,実行時の線形なHeaviside近似をパラメータ化した閾値$\tau$の動的適応を提案する。 提案手法は,Macro-$F_\beta$の一貫した推定器であるMacro-$F_\beta$のソフトセットに基づく近似を最適化するために有効であることを示す理論解析を行い,本手法の実用性を示す。

Multiclass neural network classifiers are typically trained using cross-entropy loss. Following training, the performance of this same neural network is evaluated using an application-specific metric based on the multiclass confusion matrix, such as the Macro $F_\beta$-Score. It is questionable whether the use of cross-entropy will yield a classifier that aligns with the intended application-specific performance criteria, particularly in scenarios where there is a need to emphasize one aspect of classifier performance. For example, if greater precision is preferred over recall, the $\beta$ value in the $F_\beta$ evaluation metric can be adjusted accordingly, but the cross-entropy objective remains unaware of this preference during training. We propose a method that addresses this training-evaluation gap for multiclass neural network classifiers such that users can train these models informed by the desired final $F_\beta$-Score. Following prior work in binary classification, we utilize the concepts of the soft-set confusion matrices and a piecewise-linear approximation of the Heaviside step function. Our method extends the $2 \times 2$ binary soft-set confusion matrix to a multiclass $d \times d$ confusion matrix and proposes dynamic adaptation of the threshold value $\tau$, which parameterizes the piecewise-linear Heaviside approximation during run-time. We present a theoretical analysis that shows that our method can be used to optimize for a soft-set based approximation of Macro-$F_\beta$ that is a consistent estimator of Macro-$F_\beta$, and our extensive experiments show the practical effectiveness of our approach.
翻訳日:2024-06-03 13:48:55 公開日:2024-05-31
# ロボットがバーに足を踏み入れる: 言語モデルはコメディーの満足度支援ツールとして生き残ることができるか? : コメディアンによるLLMのユーモアアライメントの評価

A Robot Walks into a Bar: Can Language Models Serve asCreativity Support Tools for Comedy? An Evaluation of LLMs' Humour Alignment with Comedians ( http://arxiv.org/abs/2405.20956v1 )

ライセンス: Link先を確認
Piotr Wojciech Mirowski, Juliette Love, Kory W. Mathewson, Shakir Mohamed, (参考訳) 我々は2023年8月にエディンバラ・フェスティバル・フランジで行われた「AI x Comedy」のワークショップの一環として,聴衆の前でライブショーを行う20人のプロコメディアンにインタビューを行った。 ワークショップは、大規模言語モデル(LLMs)によるコメディ執筆セッション、AIの創造性サポート指標を記述ツールとして評価するための人間とコンピュータのインタラクションのアンケート、AIの使用の動機とプロセスに対するコメディアンの疑問、バイアス、検閲、著作権に関する倫理的懸念などで構成された。 参加者は、安全フィルタリングや指導訓練のLLMで使用されている既存のモデレーション戦略は、少数派とその視点を消去することでヘゲモニックな視点を強化し、検閲の一形態としてこれを認定した。 同時に、ほとんどの参加者は、LLMが創造性支援ツールとして成功しなかったと感じ、1950年代の「船の喜劇の素材を掘り下げるが、少し人種差別的でない」というような、白地と偏見のある喜劇のトロープを制作した。 我々の研究は、一方が有害な言論であり、他方が抵抗、風刺、そして '`punching up'' の実践である '`offensive'' 言語との微妙な相違についての学問を拡張している。 我々はまた、そのような言語モデルの背後にあるグローバルな価値アライメントを疑問視し、アーティストのニーズに合うAIツールを構築するために、コミュニティベースの価値アライメントとデータオーナシップの重要性について議論する。

We interviewed twenty professional comedians who perform live shows in front of audiences and who use artificial intelligence in their artistic process as part of 3-hour workshops on ``AI x Comedy'' conducted at the Edinburgh Festival Fringe in August 2023 and online. The workshop consisted of a comedy writing session with large language models (LLMs), a human-computer interaction questionnaire to assess the Creativity Support Index of AI as a writing tool, and a focus group interrogating the comedians' motivations for and processes of using AI, as well as their ethical concerns about bias, censorship and copyright. Participants noted that existing moderation strategies used in safety filtering and instruction-tuned LLMs reinforced hegemonic viewpoints by erasing minority groups and their perspectives, and qualified this as a form of censorship. At the same time, most participants felt the LLMs did not succeed as a creativity support tool, by producing bland and biased comedy tropes, akin to ``cruise ship comedy material from the 1950s, but a bit less racist''. Our work extends scholarship about the subtle difference between, one the one hand, harmful speech, and on the other hand, ``offensive'' language as a practice of resistance, satire and ``punching up''. We also interrogate the global value alignment behind such language models, and discuss the importance of community-based value alignment and data ownership to build AI tools that better suit artists' needs.
翻訳日:2024-06-03 13:48:55 公開日:2024-05-31
# 語彙データ合成研究のナビゲート:ユーザニーズとツール機能を理解する

Navigating Tabular Data Synthesis Research: Understanding User Needs and Tool Capabilities ( http://arxiv.org/abs/2405.20959v1 )

ライセンス: Link先を確認
Maria F. Davila R., Sven Groen, Fabian Panse, Wolfram Wingerath, (参考訳) 急速に進歩するデータ駆動アプリケーションの時代には、研究と実践の両方において、データに対する需要が高まっています。 実際のデータが利用できない場合(例えばプライバシー規制のため)、合成データが代替手段として登場した。 表データの合成は、特に処理において、ユニークで複雑な課題を提示する (i)値の欠落。 (ii)データセットの不均衡 (三)多彩な柱型、及び (四)複雑なデータ分布及び保存 (i)カラム相関 (二)時間的依存関係、及び (iii)元のデータセットに存在する整合性制約(例えば、関数的依存関係)。 最近、世代モデルの文脈でかなりの進歩があったが、現在、表データに対して一大のソリューションはなく、与えられたタスクに対して適切なツールを選択することは簡単な作業ではない。 本稿では,タブラルデータ合成(TDS)の現状を調査し,機能要件と非機能要件のセットを定義してユーザのニーズを調査し,それらのニーズを満たすための課題をコンパイルする。 さらに,これらの要件について36種類のTDSツールの報告された性能を評価し,ユーザがアプリケーションに適したTDSツールを見つけるための意思決定ガイドを開発した。 結果として得られる決定ガイドは、重要な研究ギャップも識別する。

In an era of rapidly advancing data-driven applications, there is a growing demand for data in both research and practice. Synthetic data have emerged as an alternative when no real data is available (e.g., due to privacy regulations). Synthesizing tabular data presents unique and complex challenges, especially handling (i) missing values, (ii) dataset imbalance, (iii) diverse column types, and (iv) complex data distributions, as well as preserving (i) column correlations, (ii) temporal dependencies, and (iii) integrity constraints (e.g., functional dependencies) present in the original dataset. While substantial progress has been made recently in the context of generational models, there is no one-size-fits-all solution for tabular data today, and choosing the right tool for a given task is therefore no trivial task. In this paper, we survey the state of the art in Tabular Data Synthesis (TDS), examine the needs of users by defining a set of functional and non-functional requirements, and compile the challenges associated with meeting those needs. In addition, we evaluate the reported performance of 36 popular research TDS tools about these requirements and develop a decision guide to help users find suitable TDS tools for their applications. The resulting decision guide also identifies significant research gaps.
翻訳日:2024-06-03 13:48:55 公開日:2024-05-31
# 大規模言語モデルはゼロショット次位置予測器である

Large Language Models are Zero-Shot Next Location Predictors ( http://arxiv.org/abs/2405.20962v1 )

ライセンス: Link先を確認
Ciro Beneduce, Bruno Lepri, Massimiliano Luca, (参考訳) 将来、個人が訪れる場所を予測することは、病気の拡散や汚染の減少など、多くの社会問題を解決するために不可欠である。 しかし、次の位置予測に取り組むために設計されたモデルは、効果的に訓練される大量の個人レベルの情報を必要とする。 このようなデータは、いくつかの地理的領域や特殊なシナリオ(例えば、レコメンデーションシステムでコールドスタート)では、不足したり、利用できないこともある。 さらに、知識を一般化または地理的に伝達できる次位置予測器の設計は、まだオープンな研究課題である。 近年の自然言語処理の進歩により、Large Language Models (LLM) が急速に普及し、優れた一般化と推論能力が示された。 これらの知見は、LLMが地理的知識に富んでいるという最近の知見と相まって、これらのモデルがゼロショットの次位置予測器として機能すると考えることができた。 本稿では,Llama, GPT-3.5, Mistral 7Bなど,多くのLLMが果たす役割について述べる。 適切なプロンプトを設計した後、3つの実世界のモビリティデータセット上でモデルをテストしました。 その結果, LLM の精度は 32.4% まで向上し, 人間の移動性に特化して設計された高度DL モデルと比較して600% 以上向上した。 また,他のLLMでは適切に実行できないことを示す。 また,正に偏った結果を防ぐために,他の研究にインスパイアされたデータ汚染試験フレームワークを提案する。 最後に,LLMをテキストベースの説明器として使用して,その決定を効果的に説明できる次位置予測を行う可能性について検討した。 特に7Bモデルは、より大きなモデルに比べて、より汎用的で信頼性の高い説明を提供する。 コード:github.com/ssai-trento/LLM-zero-shot-NL

Predicting the locations an individual will visit in the future is crucial for solving many societal issues like disease diffusion and reduction of pollution among many others. The models designed to tackle next-location prediction, however, require a significant amount of individual-level information to be trained effectively. Such data may be scarce or even unavailable in some geographic regions or peculiar scenarios (e.g., cold-start in recommendation systems). Moreover, the design of a next-location predictor able to generalize or geographically transfer knowledge is still an open research challenge. Recent advances in natural language processing have led to a rapid diffusion of Large Language Models (LLMs) which have shown good generalization and reasoning capabilities. These insights, coupled with the recent findings that LLMs are rich in geographical knowledge, allowed us to believe that these models can act as zero-shot next-location predictors. This paper evaluates the capabilities of many popular LLMs in this role, specifically Llama, GPT-3.5 and Mistral 7B. After designing a proper prompt, we tested the models on three real-world mobility datasets. The results show that LLMs can obtain accuracies up to 32.4%, a significant relative improvement of over 600% when compared to sophisticated DL models specifically designed for human mobility. Moreover, we show that other LLMs are unable to perform the task properly. To prevent positively biased results, we also propose a framework inspired by other studies to test data contamination. Finally, we explored the possibility of using LLMs as text-based explainers for next-location prediction showing that can effectively provide an explanation for their decision. Notably, 7B models provide more generic, but still reliable, explanations compared to larger counterparts. Code: github.com/ssai-trento/LLM-zero-shot-NL
翻訳日:2024-06-03 13:48:55 公開日:2024-05-31
# 文脈における超越性:超越的フレームに対する明示的および暗黙的領域制限

Superlatives in Context: Explicit and Implicit Domain Restrictions for Superlative Frames ( http://arxiv.org/abs/2405.20967v1 )

ライセンス: Link先を確認
Valentina Pyatkin, Bonnie Webber, Ido Dagan, Reut Tsarfaty, (参考訳) 重ね合わせは、最大/最小の性質を持つ要素を選別するために用いられる。 Semantically, superlatives perform a set comparison: something ( or some things) have the min/max property from a set。 このように、最上層部は暗黙の現象や談話の制限を研究するのに理想的な現象である。 この比較セットは明示的に定義されないことが多いが、その(単純な)制限は、表現が現れる談話コンテキストから推測することができる。 本研究では,要約のセマンティクスに関する広範な計算研究について述べる。 我々は、広範囲のアノテーションスキーマを導出できるように、最上級のセマンティクスの統一的なアカウントを提案する。 この統合スキーマを使用して、複数のドメインのデータセットとそれらの意味解釈を注釈付けしました。 我々は特に暗黙的あるいは曖昧な表現の解釈に焦点をあて、言説コンテキストが解釈の集合を制限する方法を分析する。 実験のセットでは、予測可能なセマンティクスのバリエーションでモデルがどのようにうまく機能するかを、文脈なしで分析します。 GPT-4を含む同時代のモデルでは,文脈における最上級のセマンティクスの微粒化が困難であることを示す。

Superlatives are used to single out elements with a maximal/minimal property. Semantically, superlatives perform a set comparison: something (or some things) has the min/max property out of a set. As such, superlatives provide an ideal phenomenon for studying implicit phenomena and discourse restrictions. While this comparison set is often not explicitly defined, its (implicit) restrictions can be inferred from the discourse context the expression appears in. In this work we provide an extensive computational study on the semantics of superlatives. We propose a unified account of superlative semantics which allows us to derive a broad-coverage annotation schema. Using this unified schema we annotated a multi-domain dataset of superlatives and their semantic interpretations. We specifically focus on interpreting implicit or ambiguous superlative expressions, by analyzing how the discourse context restricts the set of interpretations. In a set of experiments we then analyze how well models perform at variations of predicting superlative semantics, with and without context. We show that the fine-grained semantics of superlatives in context can be challenging for contemporary models, including GPT-4.
翻訳日:2024-06-03 13:48:55 公開日:2024-05-31
# CCZ同値性に基づく新しい多変量プリミティブ

A new multivariate primitive from CCZ equivalence ( http://arxiv.org/abs/2405.20968v1 )

ライセンス: Link先を確認
Marco Calderini, Alessio Caminata, Irene Villa, (参考訳) 多変量暗号はポスト量子暗号の主要な候補の1つである。 多変量スキームは通常、2つの秘密アフィン可逆変換 $\mathcal S,\mathcal T$ を多変量多項式の集合 $\mathcal{F}$ (しばしば二次) に適用することによって構成される。 秘密多項式 $\mathcal{F}$ は、正規のユーザが対応するシステムの解を見つけることができるトラップドアを持ち、公開多項式 $\mathcal G=\mathcal S\circ\mathcal F\circ\mathcal T$ はランダムな多項式のように見える。 多項式 $\mathcal G$ と $\mathcal F$ はアフィン同値であると言われている。 本稿では、ベクトルブール関数の文脈で導入され研究されているCCZ同値性を考慮して、より一般的な多変量スキームの構築方法を提案する。

Multivariate Cryptography is one of the main candidates for Post-quantum Cryptography. Multivariate schemes are usually constructed by applying two secret affine invertible transformations $\mathcal S,\mathcal T$ to a set of multivariate polynomials $\mathcal{F}$ (often quadratic). The secret polynomials $\mathcal{F}$ posses a trapdoor that allows the legitimate user to find a solution of the corresponding system, while the public polynomials $\mathcal G=\mathcal S\circ\mathcal F\circ\mathcal T$ look like random polynomials. The polynomials $\mathcal G$ and $\mathcal F$ are said to be affine equivalent. In this article, we present a more general way of constructing a multivariate scheme by considering the CCZ equivalence, which has been introduced and studied in the context of vectorial Boolean functions.
翻訳日:2024-06-03 13:48:55 公開日:2024-05-31
# PUAL: 正のラベルなしデータのトリフル化のための分類器

PUAL: A Classifier on Trifurcate Positive-Unlabeled Data ( http://arxiv.org/abs/2405.20970v1 )

ライセンス: Link先を確認
Xiaoke Wang, Xiaochen Yang, Rui Zhu, Jing-Hao Xue, (参考訳) Positive-Unlabeled (PU)学習は、ラベル付き陽性インスタンスとラベルなしインスタンスのみを含むデータを使用して、分類器をトレーニングすることを目的としている。 しかし、既存のPU学習手法は、正のインスタンスが負のインスタンスの両側に分散しているトリフルケートデータに対して満足な性能を達成するのが普通である。 この問題に対処するために、まず、グローバルおよびローカル学習分類器の目的関数に正のインスタンスに非対称損失の構造を導入することにより、非対称損失を持つPU分類器(PUAL)を提案する。 そこで我々は,PUALが非線形決定境界が得られるようなカーネルベースのアルゴリズムを開発した。 シミュレーションと実世界の両方のデータセットの実験を通して、PUALはトリフルケートデータの良好な分類を実現できることを示す。

Positive-unlabeled (PU) learning aims to train a classifier using the data containing only labeled-positive instances and unlabeled instances. However, existing PU learning methods are generally hard to achieve satisfactory performance on trifurcate data, where the positive instances distribute on both sides of the negative instances. To address this issue, firstly we propose a PU classifier with asymmetric loss (PUAL), by introducing a structure of asymmetric loss on positive instances into the objective function of the global and local learning classifier. Then we develop a kernel-based algorithm to enable PUAL to obtain non-linear decision boundary. We show that, through experiments on both simulated and real-world datasets, PUAL can achieve satisfactory classification on trifurcate data.
翻訳日:2024-06-03 13:48:55 公開日:2024-05-31
# 視覚・言語・制御のための拡散モデルにおける難解推論の補正

Amortizing intractable inference in diffusion models for vision, language, and control ( http://arxiv.org/abs/2405.20971v1 )

ライセンス: Link先を確認
Siddarth Venkatraman, Moksh Jain, Luca Scimeca, Minsu Kim, Marcin Sendera, Mohsin Hasan, Luke Rowe, Sarthak Mittal, Pablo Lemos, Emmanuel Bengio, Alexandre Adam, Jarrid Rector-Brooks, Yoshua Bengio, Glen Berseth, Nikolay Malkin, (参考訳) 拡散モデルは、視覚、言語、強化学習において効果的な分布推定器として登場したが、下流タスクの先行としての使用は、難解な後部推論の問題を引き起こす。 本論文は,p(\mathbf{x})$以前の拡散生成モデルとブラックボックス制約あるいは可能性関数 $r(\mathbf{x})$ からなるモデルにおいて,データ上の後部標本である $\mathbf{x}\sim p^{\rm post}(\mathbf{x})\propto p(\mathbf{x})r(\mathbf{x})$ を償却する。 本研究は,データフリー学習目標である相対軌道バランスの漸近的正当性を記述し,この後部から抽出した拡散モデルを訓練するためのものである。 相対軌道バランスは拡散モデルにおける生成フローネットワークの観点から発生し、モードカバレッジを改善するために深層強化学習技術を利用することができる。 実験では、視覚(分類者指導)、言語(離散拡散LDMで埋め込む)、マルチモーダルデータ(テキスト・ツー・イメージ生成)など、拡散前の任意の後部の偏りのない推論の可能性を示す。 生成的モデリングの他に、スコアベース行動による連続制御の問題に対して相対軌道バランスを適用し、オフライン強化学習のベンチマークで最先端の結果を得る。

Diffusion models have emerged as effective distribution estimators in vision, language, and reinforcement learning, but their use as priors in downstream tasks poses an intractable posterior inference problem. This paper studies amortized sampling of the posterior over data, $\mathbf{x}\sim p^{\rm post}(\mathbf{x})\propto p(\mathbf{x})r(\mathbf{x})$, in a model that consists of a diffusion generative model prior $p(\mathbf{x})$ and a black-box constraint or likelihood function $r(\mathbf{x})$. We state and prove the asymptotic correctness of a data-free learning objective, relative trajectory balance, for training a diffusion model that samples from this posterior, a problem that existing methods solve only approximately or in restricted cases. Relative trajectory balance arises from the generative flow network perspective on diffusion models, which allows the use of deep reinforcement learning techniques to improve mode coverage. Experiments illustrate the broad potential of unbiased inference of arbitrary posteriors under diffusion priors: in vision (classifier guidance), language (infilling under a discrete diffusion LLM), and multimodal data (text-to-image generation). Beyond generative modeling, we apply relative trajectory balance to the problem of continuous control with a score-based behavior prior, achieving state-of-the-art results on benchmarks in offline reinforcement learning.
翻訳日:2024-06-03 13:48:55 公開日:2024-05-31
# LCQ: 大規模言語モデルのための低ランクコードブックベースの量子化

LCQ: Low-Rank Codebook based Quantization for Large Language Models ( http://arxiv.org/abs/2405.20973v1 )

ライセンス: Link先を確認
Wen-Pu Cai, Wu-Jun Li, (参考訳) 大規模言語モデル~(LLM)は、最近、多くのタスクで有望なパフォーマンスを示した。 しかし、LLMの高ストレージ化と計算コストは、LLMの展開の課題となっている。 軽量量子化はモデル圧縮に広く使われており、ストレージと計算コストの両方を削減できる。 LLMの既存の重み量子化法の多くは、量子化のためのランクワン符号ブックを使用しており、圧縮比が高いとかなり精度が低下する。 本稿では,LLMのための低ランクコードブックベースの量子化~(LCQ)と呼ばれる新しい重み量子化法を提案する。 LCQは量子化のために低ランクのコードブックを採用しており、そのランクは1より大きい。 実験の結果,LCQ はストレージコストが極めて高い既存手法よりも精度がよいことがわかった。

Large language models~(LLMs) have recently demonstrated promising performance in many tasks. However, the high storage and computational cost of LLMs has become a challenge for deploying LLMs. Weight quantization has been widely used for model compression, which can reduce both storage and computational cost. Most existing weight quantization methods for LLMs use a rank-one codebook for quantization, which results in substantial accuracy loss when the compression ratio is high. In this paper, we propose a novel weight quantization method, called low-rank codebook based quantization~(LCQ), for LLMs. LCQ adopts a low-rank codebook, the rank of which can be larger than one, for quantization. Experiments show that LCQ can achieve better accuracy than existing methods with a negligibly extra storage cost.
翻訳日:2024-06-03 13:48:55 公開日:2024-05-31
# SaySelf: LLMに自己表現的合理化による信頼の表現を教える

SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales ( http://arxiv.org/abs/2405.20974v1 )

ライセンス: Link先を確認
Tianyang Xu, Shujin Wu, Shizhe Diao, Xiaoze Liu, Xingyao Wang, Yangyi Chen, Jing Gao, (参考訳) 大規模言語モデル(LLM)は、しばしば不正確な情報や製造された情報を生成し、一般にその信頼性を示すのに失敗し、より広範なアプリケーションを制限する。 従来の作業は、直接的または自己整合性のプロンプトや、教師付き微調整のための特定のデータセットの構築によって、LSMからの信頼を引き出す。 プロンプトベースのアプローチは性能が劣り、トレーニングベースのアプローチは2値または不正確なグループレベルの信頼推定に限られる。 本研究では,より高精度な信頼度推定をLLMに教える学習フレームワークであるSaySelfを紹介する。 さらに、自信のスコアを超えて、SaySelf は LLM に自己反射的合理性を生み出すよう指示するプロセスを開始し、パラメトリックな知識のギャップを明確に識別し、不確実性を説明する。 これは、LLMを使用して、自然言語を介して特定の知識の不確実性を自動的に要約することで達成される。 要約は、複数のサンプル推論鎖の不整合の解析に基づいており、その結果データを教師付き微調整に利用する。 さらに、精度の高い報酬関数を用いた強化学習を活用し、信頼度推定を校正し、LCMを高精度で高信頼な予測を行い、誤出力における過信を罰する動機付けを行う。 その結果,SaySelfの信頼性校正誤差の低減とタスク性能の維持に効果が示された。 生成した自己反射的理性は合理的であり、キャリブレーションにさらに貢献できることを示す。 コードは \url{https://github.com/xu1868/SaySelf} で公開されている。

Large language models (LLMs) often generate inaccurate or fabricated information and generally fail to indicate their confidence, which limits their broader applications. Previous work elicits confidence from LLMs by direct or self-consistency prompting, or constructing specific datasets for supervised finetuning. The prompting-based approaches have inferior performance, and the training-based approaches are limited to binary or inaccurate group-level confidence estimates. In this work, we present the advanced SaySelf, a training framework that teaches LLMs to express more accurate fine-grained confidence estimates. In addition, beyond the confidence scores, SaySelf initiates the process of directing LLMs to produce self-reflective rationales that clearly identify gaps in their parametric knowledge and explain their uncertainty. This is achieved by using an LLM to automatically summarize the uncertainties in specific knowledge via natural language. The summarization is based on the analysis of the inconsistency in multiple sampled reasoning chains, and the resulting data is utilized for supervised fine-tuning. Moreover, we utilize reinforcement learning with a meticulously crafted reward function to calibrate the confidence estimates, motivating LLMs to deliver accurate, high-confidence predictions and to penalize overconfidence in erroneous outputs. Experimental results in both in-distribution and out-of-distribution datasets demonstrate the effectiveness of SaySelf in reducing the confidence calibration error and maintaining the task performance. We show that the generated self-reflective rationales are reasonable and can further contribute to the calibration. The code is made public at \url{https://github.com/xu1868/SaySelf}.
翻訳日:2024-06-03 13:39:10 公開日:2024-05-31
# ACE:フェデレーション学習におけるコントリビューション評価手法に対するモデル攻撃

ACE: A Model Poisoning Attack on Contribution Evaluation Methods in Federated Learning ( http://arxiv.org/abs/2405.20975v1 )

ライセンス: Link先を確認
Zhangchen Xu, Fengqing Jiang, Luyao Niu, Jinyuan Jia, Bo Li, Radha Poovendran, (参考訳) フェデレートラーニング(FL)では、クライアントのセットが、ローカルトレーニングデータを共有することなく、機械学習モデル(グローバルモデルと呼ばれる)を協調的にトレーニングする。 クライアントのローカルトレーニングデータは一般的に非i.d.d.と異種であり、結果としてグローバルモデルの最終性能に対する個々のクライアントからの様々な貢献をもたらす。 これに対し、サーバが各クライアントのコントリビューションを評価し、FLへの長期参加を継続するためにハイコントリビューションクライアントにインセンティブを与える、多くのコントリビューション評価手法が提案された。 既存の研究は主に、各クライアントの貢献度をよりよく測定する新しいメトリクスやアルゴリズムの開発に焦点を当てている。 しかし, 相手環境におけるFLのコントリビューション評価手法の安全性は明らかにされていない。 本稿では,FLにおけるコントリビューション評価手法であるACEを用いた最初のモデル毒殺攻撃を提案する。 具体的には、ACEを利用する悪意のあるクライアントがローカルモデルのパラメータを操作できることを示し、ローカルのトレーニングデータが実際に品質の低い場合でも、サーバが高いコントリビューションを持つように評価する。 我々はACEの理論的解析と経験的評価の両方を行う。 理論的には、ACEの設計は、サーバが広く使われているコサイン距離メートル法を用いて貢献を測定する際に、悪意あるクライアントの貢献を効果的に促進できることを示している。 実験により,ACEは5つの最先端コントリビューション評価手法を効果的に,効果的に活用できることを示した。 さらに、ACEは入力のテストにおける最終グローバルモデルの精度を保っている。 また、ACEを守るための6つの対策についても検討する。 本研究の結果から, FL における貢献評価手法の安全性を確保するため, 新たな防衛の必要性が浮き彫りになり, ACE の脅威を抑えるには不十分であることが示唆された。

In Federated Learning (FL), a set of clients collaboratively train a machine learning model (called global model) without sharing their local training data. The local training data of clients is typically non-i.i.d. and heterogeneous, resulting in varying contributions from individual clients to the final performance of the global model. In response, many contribution evaluation methods were proposed, where the server could evaluate the contribution made by each client and incentivize the high-contributing clients to sustain their long-term participation in FL. Existing studies mainly focus on developing new metrics or algorithms to better measure the contribution of each client. However, the security of contribution evaluation methods of FL operating in adversarial environments is largely unexplored. In this paper, we propose the first model poisoning attack on contribution evaluation methods in FL, termed ACE. Specifically, we show that any malicious client utilizing ACE could manipulate the parameters of its local model such that it is evaluated to have a high contribution by the server, even when its local training data is indeed of low quality. We perform both theoretical analysis and empirical evaluations of ACE. Theoretically, we show our design of ACE can effectively boost the malicious client's perceived contribution when the server employs the widely-used cosine distance metric to measure contribution. Empirically, our results show ACE effectively and efficiently deceive five state-of-the-art contribution evaluation methods. In addition, ACE preserves the accuracy of the final global models on testing inputs. We also explore six countermeasures to defend ACE. Our results show they are inadequate to thwart ACE, highlighting the urgent need for new defenses to safeguard the contribution evaluation methods in FL.
翻訳日:2024-06-03 13:39:10 公開日:2024-05-31
# 適応的対数学習を伴う検索言語モデルの雑音ロバスト性向上

Enhancing Noise Robustness of Retrieval-Augmented Language Models with Adaptive Adversarial Training ( http://arxiv.org/abs/2405.20978v1 )

ライセンス: Link先を確認
Feiteng Fang, Yuelin Bai, Shiwen Ni, Min Yang, Xiaojun Chen, Ruifeng Xu, (参考訳) 大型言語モデル(LLM)は、幻覚、時代遅れの知識、追跡不能な推論プロセスなどの課題に遭遇する重大な能力を示す。 Retrieval-augmented Generation(RAG)は、これらの課題を軽減するために、外部データベースからの知識を統合する、有望なソリューションとして登場した。 しかし、不適切な回収された経路は、LLMが包括的で高品質な応答を生成する能力を阻害する可能性がある。 RAGの以前の研究では、検索ノイズの頑健さは、現実の検索環境から逸脱し、実用的な適用性を制限した、限られた種類のノイズに制限されることが多かった。 本研究では,まず検索ノイズを調査し,実環境を反映した3つの異なるタイプに分類する。 LLMのロバスト性に及ぼすこれらの様々な検索ノイズの影響を解析する。 続いて,RAAT(Retrieval-augmented Adaptive Adversarial Training)として知られる新しいRAGアプローチを提案する。 RAATは適応的対向訓練を利用して、検索ノイズに応じてモデルのトレーニングプロセスを動的に調整する。 同時に、マルチタスク学習を使用して、モデルがノイズの多いコンテキストを内部的に認識する能力を保証する。 RAATを用いて訓練したLLaMA-2 7Bモデルは、様々なノイズ条件下でF1とEMのスコアを大幅に改善することを示した。 再現性のために、コードとデータをhttps://github.com/calubkk/RAAT.comでリリースします。

Large Language Models (LLMs) exhibit substantial capabilities yet encounter challenges, including hallucination, outdated knowledge, and untraceable reasoning processes. Retrieval-augmented generation (RAG) has emerged as a promising solution, integrating knowledge from external databases to mitigate these challenges. However, inappropriate retrieved passages can potentially hinder the LLMs' capacity to generate comprehensive and high-quality responses. Prior RAG studies on the robustness of retrieval noises often confine themselves to a limited set of noise types, deviating from real-world retrieval environments and limiting practical applicability. In this study, we initially investigate retrieval noises and categorize them into three distinct types, reflecting real-world environments. We analyze the impact of these various retrieval noises on the robustness of LLMs. Subsequently, we propose a novel RAG approach known as Retrieval-augmented Adaptive Adversarial Training (RAAT). RAAT leverages adaptive adversarial training to dynamically adjust the model's training process in response to retrieval noises. Concurrently, it employs multi-task learning to ensure the model's capacity to internally recognize noisy contexts. Extensive experiments demonstrate that the LLaMA-2 7B model trained using RAAT exhibits significant improvements in F1 and EM scores under diverse noise conditions. For reproducibility, we release our code and data at: https://github.com/calubkk/RAAT.
翻訳日:2024-06-03 13:39:10 公開日:2024-05-31
# 集光照明によるTsangの分解能増強法

Tsang's resolution enhancement method for imaging with focused illumination ( http://arxiv.org/abs/2405.20979v1 )

ライセンス: Link先を確認
Alexander Duplinskiy, Jernej Frank, Kaden Bearne, A. I. Lvovsky, (参考訳) 試料を乱すことなく顕微鏡の回折限界を克服するための広くテストされたアプローチは、構造された光ビームによる広視野試料照明の置換に依存している。 これにより、共焦点、画像走査、構造化発光顕微鏡法が生まれる。 一方、最近Tsangらが示したように、顕微鏡の検知端におけるサブ回折分解能は、画像面の強度測定を空間モードデマルチプレックスに置き換えることで達成できる。 本研究では,Tsang法と画像スキャンの併用効果について検討した。 いずれの方法よりも優れた横方向分解能と画像品質を実験的に示す。 この結果は、空間分解を既存の顕微鏡に統合する方法を舗装し、光学分解能の境界をさらに推し進めることに寄与する。

A widely tested approach to overcoming the diffraction limit in microscopy without disturbing the sample relies on substituting widefield sample illumination with a structured light beam. This gives rise to confocal, image-scanning and structured-illumination microscopy methods. On the other hand, as shown recently by Tsang and others, subdiffractional resolution at the detection end of the microscope can be achieved by replacing the intensity measurement in the image plane with spatial mode demultiplexing. In this work we study the combined action of Tsang's method with image scanning. We experimentally demonstrate superior lateral resolution and enhanced image quality compared to either method alone. This result paves the way for integrating spatial demultiplexing into existing microscopes, contributing to further pushing the boundaries of optical resolution.
翻訳日:2024-06-03 13:39:10 公開日:2024-05-31
# ニューラルガウススケール空間場

Neural Gaussian Scale-Space Fields ( http://arxiv.org/abs/2405.20980v1 )

ライセンス: Link先を確認
Felix Mujkanovic, Ntumba Elie Nsampi, Christian Theobalt, Hans-Peter Seidel, Thomas Leimkühler, (参考訳) ガウススケール空間は信号表現と処理の基礎であり、フィルタリング、マルチスケール分析、アンチエイリアスなど多くの応用がある。 しかし、そのようなスケール空間を得るのは費用がかかり、特に神経場のような連続表現には面倒である。 任意の信号の完全連続な異方性ガウススケール空間を学習するための効率的で軽量な手法を提案する。 フーリエ特徴変調とリプシッツバウンディングに基づいて、我々の手法は自己教師付きであり、トレーニングは手動フィルタリングを必要としない。 我々のニューラルガウススケール空間は、幅広いモダリティにまたがるマルチスケール表現を忠実に捉え、多様なアプリケーションをサポートする。 画像、幾何学、光ステージデータ、テクスチャアンチエイリアス、マルチスケール最適化などがある。

Gaussian scale spaces are a cornerstone of signal representation and processing, with applications in filtering, multiscale analysis, anti-aliasing, and many more. However, obtaining such a scale space is costly and cumbersome, in particular for continuous representations such as neural fields. We present an efficient and lightweight method to learn the fully continuous, anisotropic Gaussian scale space of an arbitrary signal. Based on Fourier feature modulation and Lipschitz bounding, our approach is trained self-supervised, i.e., training does not require any manual filtering. Our neural Gaussian scale-space fields faithfully capture multiscale representations across a broad range of modalities, and support a diverse set of applications. These include images, geometry, light-stage data, texture anti-aliasing, and multiscale optimization.
翻訳日:2024-06-03 13:39:10 公開日:2024-05-31
# 超音波イメージングにおける生成的対立ネットワーク:従来の限界を超えて視野を広げる

Generative Adversarial Networks in Ultrasound Imaging: Extending Field of View Beyond Conventional Limits ( http://arxiv.org/abs/2405.20981v1 )

ライセンス: Link先を確認
Matej Gazda, Samuel Kadoury, Jakub Gazda, Peter Drotar, (参考訳) 経胸壁心エコー法(Transthoracic Echocardiography, TTE)は、心臓血管医学における基本的な非侵襲的診断ツールであり、様々な心臓疾患の診断に不可欠な心臓構造の詳細な可視化を可能にする。 広く使われているにもかかわらず、TTE超音波画像は、特に視野(FoV)と解像度のトレードオフなど、固有の制限に直面している。 本稿では,高分解能を維持しつつ,TTE超音波画像におけるFoVの拡張を念頭に,条件付きジェネレーティブ・アドバーサリアル・ネットワーク(cGAN)の新たな応用を提案する。 提案するcGANアーキテクチャは, 医用画像の視認範囲を効果的に拡大し, オーバーペイントにより, 現実的な解剖学的構造を生成できることを実証する。 この進歩は、超音波自動ナビゲーションと手動超音波ナビゲーションの両方を強化する可能性があり、超音波画像による学習曲線を大幅に減少させ、より正確な診断を助けることができる。 その結果,エコーGANはより詳細な心的特徴を確実に再現し,非侵襲的心的ナビゲーションと診断の分野で大きな進歩を期待できることがわかった。

Transthoracic Echocardiography (TTE) is a fundamental, non-invasive diagnostic tool in cardiovascular medicine, enabling detailed visualization of cardiac structures crucial for diagnosing various heart conditions. Despite its widespread use, TTE ultrasound imaging faces inherent limitations, notably the trade-off between field of view (FoV) and resolution. This paper introduces a novel application of conditional Generative Adversarial Networks (cGANs), specifically designed to extend the FoV in TTE ultrasound imaging while maintaining high resolution. Our proposed cGAN architecture, termed echoGAN, demonstrates the capability to generate realistic anatomical structures through outpainting, effectively broadening the viewable area in medical imaging. This advancement has the potential to enhance both automatic and manual ultrasound navigation, offering a more comprehensive view that could significantly reduce the learning curve associated with ultrasound imaging and aid in more accurate diagnoses. The results confirm that echoGAN reliably reproduce detailed cardiac features, thereby promising a significant step forward in the field of non-invasive cardiac naviagation and diagnostics.
翻訳日:2024-06-03 13:39:10 公開日:2024-05-31
# オフライン-オンライン強化学習のためのベイズ設計原理

Bayesian Design Principles for Offline-to-Online Reinforcement Learning ( http://arxiv.org/abs/2405.20984v1 )

ライセンス: Link先を確認
Hao Hu, Yiqin Yang, Jianing Ye, Chengjie Wu, Ziqing Mai, Yujing Hu, Tangjie Lv, Changjie Fan, Qianchuan Zhao, Chongjie Zhang, (参考訳) オフライン強化学習(RL)は、探索に費用がかかる、あるいは安全でない現実世界のアプリケーションにとって不可欠である。 しかし、オフラインの学習ポリシーは、しばしば準最適であり、さらにオンラインの微調整が必要である。 本稿では,オフラインからオフラインへの微調整の基本的なジレンマに取り組み,もしエージェントが悲観的であれば,より良いポリシーを習得できず,一方,楽観的になった場合,性能が突然低下する可能性がある。 このようなジレンマを解決するにはベイズ設計の原則が不可欠であることを示す。 楽観的あるいは悲観的な政策を採用する代わりに、エージェントは最適な政策に対する信念と一致する方法で行動すべきである。 このような確率マッチングエージェントは、最適なポリシーを見つけることを保証しつつ、突然のパフォーマンス低下を回避することができる。 提案手法は, 提案手法の有効性を実証し, 様々なベンチマークにおける既存手法よりも優れた性能を示すアルゴリズムを提案する。 全体として、提案されたアプローチはオフラインからオンラインまでのRLに対して、オフラインデータからより効果的な学習を可能にする新たな視点を提供する。

Offline reinforcement learning (RL) is crucial for real-world applications where exploration can be costly or unsafe. However, offline learned policies are often suboptimal, and further online fine-tuning is required. In this paper, we tackle the fundamental dilemma of offline-to-online fine-tuning: if the agent remains pessimistic, it may fail to learn a better policy, while if it becomes optimistic directly, performance may suffer from a sudden drop. We show that Bayesian design principles are crucial in solving such a dilemma. Instead of adopting optimistic or pessimistic policies, the agent should act in a way that matches its belief in optimal policies. Such a probability-matching agent can avoid a sudden performance drop while still being guaranteed to find the optimal policy. Based on our theoretical findings, we introduce a novel algorithm that outperforms existing methods on various benchmarks, demonstrating the efficacy of our approach. Overall, the proposed approach provides a new perspective on offline-to-online RL that has the potential to enable more effective learning from offline data.
翻訳日:2024-06-03 13:39:10 公開日:2024-05-31
# DeCo:マルチモーダル大言語モデルにおける意味的抽象化からのトークン圧縮の分離

DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models ( http://arxiv.org/abs/2405.20985v1 )

ライセンス: Link先を確認
Linli Yao, Lei Li, Shuhuai Ren, Lean Wang, Yuanxin Liu, Xu Sun, Lu Hou, (参考訳) 視覚プロジェクタは、視覚と言語モダリティをブリッジし、モダリティ間のアライメントを促進する。 しかし、映像言語アライメントにおけるプロジェクタの有効性は未検討のままであり、現在、下流タスクにおけるMLLMの性能からしか推測できない。 本研究は,MLLM内の視覚言語セマンティックフローを解釈することにより,プロジェクタモジュールを解析する。 具体的には,生成した言語トークンから生のビジュアルエンコーダパッチやプロジェクタが生成する中間出力まで,意味的関連性の流れを遡る。 その結果,圧縮プロジェクタ(QFormerなど)は,オブジェクトや属性などの限定的な意味概念に抽象的な視覚パッチを組み込むことで,「二重抽象」現象が生じることがわかった。 これには、事前に定義されたクエリトークンを参照するプロジェクタによる第1の視覚的セマンティック抽象化と、テキスト命令に基づいたLLMによる第2の抽出が含まれる。 二重抽象化は訓練において非効率であり、累積視覚意味論の欠如をもたらす。 この問題を軽減するために,プロジェクタによってパッチレベルで視覚トークン番号を圧縮し,LLMが視覚的セマンティック抽象化を完全に扱えるようにする,「抽象表現からのデカップル圧縮(Decouple Compression from Abstraction, DeCo)」という重要な知見を提案する。 その結果、パラメータフリーで視覚パッチをダウンサンプリングするために、単純な圧縮機である2次元適応プールを採用する。 実証的な評価は、DeCoが性能と効率の両方に関して従来の圧縮プロジェクタを上回っていることを示している。 MLLMベンチマーク、ビジュアルローカライゼーション、オープンエンドVQAタスクにおいて、トレーニング可能なパラメータが少なく、より高速な収束速度でパフォーマンスが0.9%、7.1%、および2.9%向上する。

The visual projector, which bridges the vision and language modalities and facilitates cross-modal alignment, serves as a crucial component in MLLMs. However, measuring the effectiveness of projectors in vision-language alignment remains under-explored, which currently can only be inferred from the performance of MLLMs on downstream tasks. Motivated by the problem, this study examines the projector module by interpreting the vision-language semantic flow within MLLMs. Specifically, we trace back the semantic relevance flow from generated language tokens to raw visual encoder patches and the intermediate outputs produced by projectors. Our findings reveal that compressive projectors (e.g., QFormer), abstract visual patches into a limited set of semantic concepts, such as objects or attributes, resulting in a 'double abstraction' phenomenon. This involves a first visual semantic abstraction by the projector referring to pre-defined query tokens, and a second extraction by the LLM based on text instructions. The double abstraction is inefficient in training and will result in cumulative vision semantics deficiency. To mitigate this issue, we propose the key insight of 'Decouple Compression from Abstraction (DeCo), that is compressing the visual token number at the patch level by projectors and allowing the LLM to handle visual semantic abstraction entirely. Consequently, we adopt a simple compressor, i.e., 2D Adaptive Pooling, to downsample visual patches in a parameter-free manner. Empirical evaluation demonstrates that DeCo surpasses traditional compressive projectors regarding both performance and efficiency. It achieves performance gains of 0.9%, 7.1%, and 2.9% across the MLLM Benchmarks, Visual Localization, and Open-ended VQA tasks with fewer trainable parameters and faster convergence speed.
翻訳日:2024-06-03 13:39:10 公開日:2024-05-31
# 鳥の視線セマンティックセグメンテーションの不確かさの定量化:方法とベンチマーク

Uncertainty Quantification for Bird's Eye View Semantic Segmentation: Methods and Benchmarks ( http://arxiv.org/abs/2405.20986v1 )

ライセンス: Link先を確認
Linlin Yu, Bowen Yang, Tianhao Wang, Kangshuo Li, Feng Chen, (参考訳) 自律走行車に搭載された複数のセンサーから生の機能を融合して、バードアイビュー(Bird's Eye View, BEV)表現を生成することは、計画と制御システムにとって不可欠である。 BEVセマンティックセグメンテーションにディープラーニングモデルを使うことへの関心が高まっている。 DNNのセグメンテーションエラーの予測と説明可能性の向上は、自律運転には不可欠であるが、未検討である。 本稿では,BEVセグメンテーションにおける予測不確実性定量化のためのベンチマークを提案する。 このベンチマークは、2つの代表的なバックボーンを用いて3つの一般的なデータセットにまたがる様々なアプローチを評価し、誤分類およびアウト・オブ・ディストリビューション(OOD)ピクセルの識別における予測不確実性の有効性とキャリブレーションに焦点を当てている。 実証的な発見は不確実性定量化の課題を浮き彫りにした。 以上の結果から,Aleatoric と epistemic uncertainty を効果的に定量化することで,明らかな深層学習に基づくアプローチが最も有望であることがわかった。 本研究では,不均衡なデータに対する不確実性-局所-クロス-エントロピー(UFCE)損失を提案し,セグメンテーションの品質とキャリブレーションを継続的に改善する。 さらに,高不確実性画素に焦点をあてる空洞スケール正規化項を導入し,疫学的な不確実性定量化を改善した。

The fusion of raw features from multiple sensors on an autonomous vehicle to create a Bird's Eye View (BEV) representation is crucial for planning and control systems. There is growing interest in using deep learning models for BEV semantic segmentation. Anticipating segmentation errors and improving the explainability of DNNs is essential for autonomous driving, yet it is under-studied. This paper introduces a benchmark for predictive uncertainty quantification in BEV segmentation. The benchmark assesses various approaches across three popular datasets using two representative backbones and focuses on the effectiveness of predicted uncertainty in identifying misclassified and out-of-distribution (OOD) pixels, as well as calibration. Empirical findings highlight the challenges in uncertainty quantification. Our results find that evidential deep learning based approaches show the most promise by efficiently quantifying aleatoric and epistemic uncertainty. We propose the Uncertainty-Focal-Cross-Entropy (UFCE) loss, designed for highly imbalanced data, which consistently improves the segmentation quality and calibration. Additionally, we introduce a vacuity-scaled regularization term that enhances the model's focus on high uncertainty pixels, improving epistemic uncertainty quantification.
翻訳日:2024-06-03 13:39:10 公開日:2024-05-31
# バイオメディカルイメージングにおける生成的敵ネットワークの早期停止基準

Early Stopping Criteria for Training Generative Adversarial Networks in Biomedical Imaging ( http://arxiv.org/abs/2405.20987v1 )

ライセンス: Link先を確認
Muhammad Muneeb Saad, Mubashir Husain Rehmani, Ruairi O'Reilly, (参考訳) GAN(Generative Adversarial Networks)は、複雑なアーキテクチャをトレーニングするための計算コストが高い。 トレーニング過程を通じて、GANの出力は、その損失と合成画像の多様性と品質に基づいて質的に分析される。 この定性的分析に基づいて、所望の合成画像が生成されると、手動でトレーニングを停止する。 早期停止基準を利用することで、計算コストと手動監視への依存を低減できるが、モード崩壊、非収束、不安定といったトレーニング問題の影響を受けない。 これは特にバイオメディカルなイメージにおいて一般的であり、トレーニングの問題は合成画像の多様性と品質を低下させ、訓練に伴う計算コストが高く、複雑なアーキテクチャーへのアクセスがますます困難になる。 本研究は, バイオメディカルイメージの合成に伴うトレーニング問題を定量的に検出し, トレーニングを中止し, 計算コストを削減するための新しい早期停止基準を提案する。 まず, GANの訓練において, モード崩壊, 非収束, 不安定性が連続的, 同時的, あるいは相互に発生するか否かを評価するために, ジェネレータと判別器の損失値の範囲を調査した。 第二に、これらの現象を平均構造類似度指数(MS-SSIM)と合成画像のFr'echet Inception Distance(FID)スコアと組み合わせることで、提案した早期停止基準の基礎となる。 この研究は、低リソースの計算コストを用いて、GANにおけるトレーニング問題の発生を識別し、多様な高品質な合成画像を生成するためのトレーニング時間を短縮する。

Generative Adversarial Networks (GANs) have high computational costs to train their complex architectures. Throughout the training process, GANs' output is analyzed qualitatively based on the loss and synthetic images' diversity and quality. Based on this qualitative analysis, training is manually halted once the desired synthetic images are generated. By utilizing an early stopping criterion, the computational cost and dependence on manual oversight can be reduced yet impacted by training problems such as mode collapse, non-convergence, and instability. This is particularly prevalent in biomedical imagery, where training problems degrade the diversity and quality of synthetic images, and the high computational cost associated with training makes complex architectures increasingly inaccessible. This work proposes a novel early stopping criteria to quantitatively detect training problems, halt training, and reduce the computational costs associated with synthesizing biomedical images. Firstly, the range of generator and discriminator loss values is investigated to assess whether mode collapse, non-convergence, and instability occur sequentially, concurrently, or interchangeably throughout the training of GANs. Secondly, utilizing these occurrences in conjunction with the Mean Structural Similarity Index (MS-SSIM) and Fr\'echet Inception Distance (FID) scores of synthetic images forms the basis of the proposed early stopping criteria. This work helps identify the occurrence of training problems in GANs using low-resource computational cost and reduces training time to generate diversified and high-quality synthetic images.
翻訳日:2024-06-03 13:39:10 公開日:2024-05-31
# フェデレートされた動的平均化によるコミュニケーション効率のよい分散ディープラーニング

Communication-Efficient Distributed Deep Learning via Federated Dynamic Averaging ( http://arxiv.org/abs/2405.20988v1 )

ライセンス: Link先を確認
Michail Theologitis, Georgios Frangias, Georgios Anestis, Vasilis Samoladas, Antonios Deligiannakis, (参考訳) 分散ディープラーニング(DDL)は、データ量の増加と分散化の性質によって駆動され、現代のモデルのエスカレーションサイズと相まって、トレーニングの望ましいパラダイムとして定着している。 しかし、数百万から数十億のパラメータを含むDLモデルの頻繁な同期は、通信ボトルネックを生じさせ、スケーラビリティを著しく妨げます。 さらに悪いことに、DDLアルゴリズムは一般的に帯域幅を浪費し、過度に単純化され、周期的で、厳密な同期スケジュールに依存するため、帯域幅制限されたフェデレーション設定では実用的でない。 これらの欠点に対処するために、モデル分散の値に基づいて動的に同期をトリガする通信効率の良いDDL戦略であるFederated Dynamic Averaging (FDA)を提案する。 さまざまな学習タスクにわたる広範な実験を通じて、FDAは従来のコミュニケーション効率のアルゴリズムと最先端のコミュニケーション効率のアルゴリズムと比較して、通信コストを桁違いに削減することを示した。 FDAは、この分野で遭遇したトレードオフとは対照的に、収束速度を犠牲にすることなくこれを達成している。 さらに、FDAは多様なデータ不均一性設定に対して堅牢なパフォーマンスを維持していることを示す。

Driven by the ever-growing volume and decentralized nature of data, coupled with the escalating size of modern models, distributed deep learning (DDL) has been entrenched as the preferred paradigm for training. However, frequent synchronization of DL models, encompassing millions to many billions of parameters, creates a communication bottleneck, severely hindering scalability. Worse yet, DDL algorithms typically waste valuable bandwidth, and make themselves less practical in bandwidth-constrained federated settings, by relying on overly simplistic, periodic, and rigid synchronization schedules. To address these shortcomings, we propose Federated Dynamic Averaging (FDA), a communication-efficient DDL strategy that dynamically triggers synchronization based on the value of the model variance. Through extensive experiments across a wide range of learning tasks we demonstrate that FDA reduces communication cost by orders of magnitude, compared to both traditional and cutting-edge communication-efficient algorithms. Remarkably, FDA achieves this without sacrificing convergence speed - in stark contrast to the trade-offs encountered in the field. Additionally, we show that FDA maintains robust performance across diverse data heterogeneity settings.
翻訳日:2024-06-03 13:39:10 公開日:2024-05-31
# 機械学習モデルをハードウェアにロックする

Locking Machine Learning Models into Hardware ( http://arxiv.org/abs/2405.20990v1 )

ライセンス: Link先を確認
Eleanor Clifford, Adhithya Saravanan, Harry Langford, Cheng Zhang, Yiren Zhao, Robert Mullins, Ilia Shumailov, Jamie Hayes, (参考訳) 現代の機械学習モデルは高価なIPであり、ビジネス上の競争力は、しばしばこのIPを秘密にしておくことに依存する。 これにより、これらのモデルがどのようにデプロイされるかが制限される。例えば、基盤となるモデルを必然的にリークすることなく、デバイス上でモデルをデプロイする方法は不明確である。 同時に、マルチパーティ計算やホモモルフィック暗号のような機密計算技術は、広く採用するには実用的ではない。 本稿では,特定のハードウェア上でのみ使用可能なモデルを制限することで,不許可なモデルの使用を抑えるML固有のメカニズムの実現可能性について検討する。 したがって、IPが侵害されたとしても、特別なハードウェアや主要なモデル調整なしでは、自明に使用できない。 ある意味では、機械学習モデルを特定のハードウェアに安価にロックできるようにする。 ロック機構は、量子化に不適合なモデルを作るようなモデル表現の効率を目標とすることで実現可能であるか、あるいは算術演算のサイクル数など、ハードウェアの特定の特性にモデル操作を結びつけることで実現可能であることを実証する。 ロックには無視可能な作業とレイテンシのオーバーヘッドが伴い、その結果、未許可のハードウェア上でのモデルのユーザビリティを著しく制限することを示した。

Modern Machine Learning models are expensive IP and business competitiveness often depends on keeping this IP confidential. This in turn restricts how these models are deployed -- for example it is unclear how to deploy a model on-device without inevitably leaking the underlying model. At the same time, confidential computing technologies such as Multi-Party Computation or Homomorphic encryption remain impractical for wide adoption. In this paper we take a different approach and investigate feasibility of ML-specific mechanisms that deter unauthorized model use by restricting the model to only be usable on specific hardware, making adoption on unauthorized hardware inconvenient. That way, even if IP is compromised, it cannot be trivially used without specialised hardware or major model adjustment. In a sense, we seek to enable cheap locking of machine learning models into specific hardware. We demonstrate that locking mechanisms are feasible by either targeting efficiency of model representations, such making models incompatible with quantisation, or tie the model's operation on specific characteristics of hardware, such as number of cycles for arithmetic operations. We demonstrate that locking comes with negligible work and latency overheads, while significantly restricting usability of the resultant model on unauthorized hardware.
翻訳日:2024-06-03 13:39:10 公開日:2024-05-31
# 視覚・言語基礎モデルによる運動予測のハードケース検出

Hard Cases Detection in Motion Prediction by Vision-Language Foundation Models ( http://arxiv.org/abs/2405.20991v1 )

ライセンス: Link先を確認
Yi Yang, Qingwen Zhang, Kei Ikemura, Nazre Batool, John Folkesson, (参考訳) 異常な道路利用者、極端な気象条件、複雑な交通の相互作用など、自動運転における困難なケースに対処することは、重大な課題である。 安全を確保するためには、自律運転システムにおいてこれらのシナリオを効果的に検出し、管理することが不可欠である。 しかし、これらのケースの希少性とリスクの高い性質は、堅牢なモデルをトレーニングするための広範囲で多様なデータセットを必要とする。 Vision-Language Foundation Models (VLM)は、広範囲なデータセットでトレーニングされているため、目覚ましいゼロショット機能を示している。 本研究は, 自律運転におけるハードケース検出におけるVLMの可能性を探るものである。 本稿では, GPT-4v などの VLM が, エージェントレベルとシナリオレベルの両方において, 交通参加者の動作予測におけるハードケースの検出に有効であることを示す。 本稿では,既存の予測モデルにより検証された課題エージェントやシナリオを効果的に識別する,逐次的な画像フレームに設計プロンプトを付加した実現可能なパイプラインを提案する。 さらに,VLMによるこのハードケースの検出を利用して,GPTが提案するトレーニングサンプルのデータ選択を行うことで,既存の動作予測パイプラインのトレーニング効率をさらに向上する。 NuScenesデータセットの最先端手法にVLMを組み込んだパイプラインの有効性と実現可能性を示す。 コードはhttps://github.com/KTH-RPL/Detect_VLMでアクセスできる。

Addressing hard cases in autonomous driving, such as anomalous road users, extreme weather conditions, and complex traffic interactions, presents significant challenges. To ensure safety, it is crucial to detect and manage these scenarios effectively for autonomous driving systems. However, the rarity and high-risk nature of these cases demand extensive, diverse datasets for training robust models. Vision-Language Foundation Models (VLMs) have shown remarkable zero-shot capabilities as being trained on extensive datasets. This work explores the potential of VLMs in detecting hard cases in autonomous driving. We demonstrate the capability of VLMs such as GPT-4v in detecting hard cases in traffic participant motion prediction on both agent and scenario levels. We introduce a feasible pipeline where VLMs, fed with sequential image frames with designed prompts, effectively identify challenging agents or scenarios, which are verified by existing prediction models. Moreover, by taking advantage of this detection of hard cases by VLMs, we further improve the training efficiency of the existing motion prediction pipeline by performing data selection for the training samples suggested by GPT. We show the effectiveness and feasibility of our pipeline incorporating VLMs with state-of-the-art methods on NuScenes datasets. The code is accessible at https://github.com/KTH-RPL/Detect_VLM.
翻訳日:2024-06-03 13:39:10 公開日:2024-05-31
# 構造雑音をもつスパイク行列モデルに対する情報限界とThouless-Anderson-Palmer方程式

Information limits and Thouless-Anderson-Palmer equations for spiked matrix models with structured noise ( http://arxiv.org/abs/2405.20993v1 )

ライセンス: Link先を確認
Jean Barbier, Francesco Camilli, Marco Mondelli, Yizhou Xu, (参考訳) 我々は、構造付きスパイクモデルに対するベイズ推定の原型的問題を考える: 低ランク信号は加法雑音によって破壊される。 情報理論とアルゴリズムの限界は、ノイズがガウス的であるときによく理解されているが、より現実的な構造的雑音の場合はまだ困難である。 数学的トラクタビリティを維持しながら構造を捉えるために、一行の作業は回転不変ノイズに焦点を当てた。 しかし、既存の研究は準最適アルゴリズムを提供するか、特定の種類のノイズアンサンブルに制限される。 本稿では,一般的なトレースアンサンブルから引き出された雑音行列に対する情報理論の限界を初めて特徴づける。 これらの極限は、適応的Thouless-Anderson-Palmer(TAP)方程式の理論にインスパイアされた効率的なアルゴリズムによって達成される。 我々の手法は統計物理学(レプリカ法)とランダム行列理論(一般化球面積分)のツールを活用し、回転不変モデルと代理ガウスモデルとの同値性を明らかにする。

We consider a prototypical problem of Bayesian inference for a structured spiked model: a low-rank signal is corrupted by additive noise. While both information-theoretic and algorithmic limits are well understood when the noise is i.i.d. Gaussian, the more realistic case of structured noise still proves to be challenging. To capture the structure while maintaining mathematical tractability, a line of work has focused on rotationally invariant noise. However, existing studies either provide sub-optimal algorithms or they are limited to a special class of noise ensembles. In this paper, we establish the first characterization of the information-theoretic limits for a noise matrix drawn from a general trace ensemble. These limits are then achieved by an efficient algorithm inspired by the theory of adaptive Thouless-Anderson-Palmer (TAP) equations. Our approach leverages tools from statistical physics (replica method) and random matrix theory (generalized spherical integrals), and it unveils the equivalence between the rotationally invariant model and a surrogate Gaussian model.
翻訳日:2024-06-03 13:39:10 公開日:2024-05-31
# CWRCzech: 100M Query-Document Czech Click Dataset と Web 関連ランキングへの応用

CWRCzech: 100M Query-Document Czech Click Dataset and Its Application to Web Relevance Ranking ( http://arxiv.org/abs/2405.20994v1 )

ライセンス: Link先を確認
Josef Vonášek, Milan Straka, Rostislav Krč, Lenka Lasoňová, Ekaterina Egorova, Jana Straková, Jakub Náplava, (参考訳) CWRCzech, Click Web Ranking dataset for Czech, a 100M query-document Czech click dataset forlevance ranking with user behavior data collected from search engine logs of Seznam.cz。 私たちの知る限りでは、CWRCzechは原文を公開している最大のクリックデータセットです。 検索結果の文書位置とユーザーの行動に関する情報を提供する:2760万クリックされた文書と108万ダウエル時間。 さらに,少なくとも2つのアノテータによって注釈付けされた50万近いクエリドキュメントペアを含む,関連タスク用の手動アノテートチェコテストも公開しています。 最後に、ユーザの行動データが関連性ランキングをどのように改善するかを分析し、十分な規模で自動的にトレーニングされたモデルが、人間の注釈付きデータに基づいてトレーニングされたモデルの性能を上回ることができることを示す。 CWRCzechは学術的な非商用ライセンスの下で公開されており、https://github.com/seznam/CWRCzechで研究コミュニティに公開されている。

We present CWRCzech, Click Web Ranking dataset for Czech, a 100M query-document Czech click dataset for relevance ranking with user behavior data collected from search engine logs of Seznam.cz. To the best of our knowledge, CWRCzech is the largest click dataset with raw text published so far. It provides document positions in the search results as well as information about user behavior: 27.6M clicked documents and 10.8M dwell times. In addition, we also publish a manually annotated Czech test for the relevance task, containing nearly 50k query-document pairs, each annotated by at least 2 annotators. Finally, we analyze how the user behavior data improve relevance ranking and show that models trained on data automatically harnessed at sufficient scale can surpass the performance of models trained on human annotated data. CWRCzech is published under an academic non-commercial license and is available to the research community at https://github.com/seznam/CWRCzech.
翻訳日:2024-06-03 13:39:10 公開日:2024-05-31
# 流体コンピュータを目指して

Towards a Fluid computer ( http://arxiv.org/abs/2405.20999v1 )

ライセンス: Link先を確認
Robert Cardona, Eva Miranda, Daniel Peralta-Salas, (参考訳) 1991年、ムーア [20] は流体力学が計算を行うことができるかどうかという疑問を提起した。 2016年、Tao [25]は流体の流れを含む機械システムが普遍的なチューリングマシンをシミュレートできるかどうか尋ねた。 本稿では,3次元の「流体コンピュータ」の[8]の構成を,定常オイラー流とEtnyre と Ghrist が明らかにした接触幾何学との間の接続と,記号力学の技法を組み合わせて概説する。 さらに、ベクトル場ベルトラムを描画する計量はチャーン=ハミルトンの意味では批判的ではないと論じる [9]。 また、[7] で与えられるような、ユークリッド計量の全く異なる構成を $\mathbb R^3$ でスケッチする。 これらの結果は、決定不能な流体粒子経路の存在を明らかにした。 この記事は、オープンな問題のリストで締めくくります。

In 1991, Moore [20] raised a question about whether hydrodynamics is capable of performing computations. Similarly, in 2016, Tao [25] asked whether a mechanical system, including a fluid flow, can simulate a universal Turing machine. In this expository article, we review the construction in [8] of a "Fluid computer" in dimension 3 that combines techniques in symbolic dynamics with the connection between steady Euler flows and contact geometry unveiled by Etnyre and Ghrist. In addition, we argue that the metric that renders the vector field Beltrami cannot be critical in the Chern-Hamilton sense [9]. We also sketch the completely different construction for the Euclidean metric in $\mathbb R^3$ as given in [7]. These results reveal the existence of undecidable fluid particle paths. We conclude the article with a list of open problems.
翻訳日:2024-06-03 13:29:24 公開日:2024-05-31
# 分子ナノマグネットを用いた量子情報処理入門

Quantum Information Processing with Molecular Nanomagnets: an introduction ( http://arxiv.org/abs/2405.21000v1 )

ライセンス: Link先を確認
Alessandro Chiesa, Emilio Macaluso, Stefano Carretta, (参考訳) 古典的デバイス上での難解な多くの問題は、量子力学的法則、すなわち量子情報処理を利用するアルゴリズムによって解決できる。 その結果、現在では様々な分野からの取り組みが、量子デバイスの実現に向けられている。 本稿では、分子ナノマグネットとして知られる分子スピンクラスターで表される、その実装に期待できるセットアップに焦点を当てた量子情報処理の紹介を行う。 量子アルゴリズムを理解し設計するための基本的なツールを紹介し、分子スピンアーキテクチャ上での実際の実現を常に言及する。 次に、このクラスのシステムにおいて最も重要なノイズ源を調べ、その最も特徴的な特徴の1つ、すなわち、情報を符号化し、量子誤り訂正符号の適切な設計を通してエラーから自己修正するために利用可能な多くの状態(2つ以上)を利用する可能性について調べる。 最後に、分子スピンquditハードウェア上で提案および実装された量子アルゴリズムの例を示す。

Many problems intractable on classical devices could be solved by algorithms explicitly based on quantum mechanical laws, i.e. exploiting quantum information processing. As a result, increasing efforts from different fields are nowadays directed to the actual realization of quantum devices. Here we provide an introduction to Quantum Information Processing, focusing on a promising setup for its implementation, represented by molecular spin clusters known as Molecular Nanomagnets. We introduce the basic tools to understand and design quantum algorithms, always referring to their actual realization on a molecular spin architecture. We then examine the most important sources of noise in this class of systems and then one of their most peculiar features, i.e. the possibility to exploit many (more than two) available states to encode information and to self-correct it from errors via proper design of quantum error correction codes. Finally, we present some examples of quantum algorithms proposed and implemented on a molecular spin qudit hardware.
翻訳日:2024-06-03 13:29:24 公開日:2024-05-31
# 特性則による予測の解説

Explaining Predictions by Characteristic Rules ( http://arxiv.org/abs/2405.21003v1 )

ライセンス: Link先を確認
Amr Alkhatib, Henrik Boström, Michalis Vazirgiannis, (参考訳) 特徴的ルールは、ルール学習の領域における差別的ルールよりも解釈可能性を向上させる能力のために提唱されている。 しかし、従来のルールは予測を説明する技術ではまだ使われていない。 CEGA(Characteristic Explanatory General Association Rule)と呼ばれる新しい説明法が提案され,標準的局所説明法によって生成された複数の説明を,関連ルールマイニングを用いて特徴ルールの集合に集約する。 CEGAを2つの最先端の手法であるAnchorsとGLocalXと比較し、局所的および集約的な説明を識別規則の形で生成する実験的検討を行った。 CEGAとAnchorsはGLocalXをはるかに上回り、CEGAとGLocalXは生成したルールの数でAnchorsを著しく上回ります。 また,CEGA の説明形式を識別規則に変更し,LIME と SHAP をアンカーの代わりに局所的説明手法として活用する方法について検討した。 その結果, 特徴的説明規則は, 標準識別方式の規則と相反することが明らかとなった。 また,CEGAをSHAPまたはAnchorと組み合わせることで,LIMEを局所的説明法として用いる場合と比較して,連続的に高い忠実度が得られることを示した。

Characteristic rules have been advocated for their ability to improve interpretability over discriminative rules within the area of rule learning. However, the former type of rule has not yet been used by techniques for explaining predictions. A novel explanation technique, called CEGA (Characteristic Explanatory General Association rules), is proposed, which employs association rule mining to aggregate multiple explanations generated by any standard local explanation technique into a set of characteristic rules. An empirical investigation is presented, in which CEGA is compared to two state-of-the-art methods, Anchors and GLocalX, for producing local and aggregated explanations in the form of discriminative rules. The results suggest that the proposed approach provides a better trade-off between fidelity and complexity compared to the two state-of-the-art approaches; CEGA and Anchors significantly outperform GLocalX with respect to fidelity, while CEGA and GLocalX significantly outperform Anchors with respect to the number of generated rules. The effect of changing the format of the explanations of CEGA to discriminative rules and using LIME and SHAP as local explanation techniques instead of Anchors are also investigated. The results show that the characteristic explanatory rules still compete favorably with rules in the standard discriminative format. The results also indicate that using CEGA in combination with either SHAP or Anchors consistently leads to a higher fidelity compared to using LIME as the local explanation technique.
翻訳日:2024-06-03 13:29:24 公開日:2024-05-31
# 多体量子系におけるナッシュ状態と固有状態

Nash states versus eigenstates for many-body quantum systems ( http://arxiv.org/abs/2405.21011v1 )

ライセンス: Link先を確認
Chuqiao Lin, Vir B. Bulchandani, Shivaji L. Sondhi, (参考訳) ハミルトニアンのような観測可能な天体の固有状態は、量子力学において中心的な役割を果たす。 古典ゲーム理論で生じる純粋ナッシュ平衡に着想を得て、単一観測変数の固有状態の一般化として、複数の観測変数の'ナッシュ状態'を提案する。 この一般化は、本質的にテンソル積構造を持つ多体量子系にとって数学的に自然である。 可観測物のすべての集合は、「ナッシュ多様体」と呼ばれるナッシュ状態ベクトルの代数多様体をもたらす。 我々はナッシュ状態の存在とナッシュ多様体の幾何学に関する解析的および数値的な結果を示す。 これらのアイデアを、数体量子ゲームのナッシュ平衡に関する先駆的な研究と、局所ハミルトンの変分最小化への接続について議論する。

Eigenstates of observables such as the Hamiltonian play a central role in quantum mechanics. Inspired by the pure Nash equilibria that arise in classical game theory, we propose ''Nash states'' of multiple observables as a generalization of eigenstates of single observables. This generalization is mathematically natural for many-body quantum systems, which possess an intrinsic tensor product structure. Every set of observables gives rise to algebraic varieties of Nash state vectors that we call ''Nash varieties''. We present analytical and numerical results on the existence of Nash states and on the geometry of Nash varieties. We relate these ideas to earlier, pioneering work on the Nash equilibria of few-body quantum games and discuss connections to the variational minimization of local Hamiltonians.
翻訳日:2024-06-03 13:29:24 公開日:2024-05-31
# 時間的条件付き平均電位出力推定のためのG変換器

G-Transformer for Conditional Average Potential Outcome Estimation over Time ( http://arxiv.org/abs/2405.21012v1 )

ライセンス: Link先を確認
Konstantin Hess, Dennis Frauen, Valentyn Melnychuk, Stefan Feuerriegel, (参考訳) 医療におけるパーソナライズされた意思決定には、観察データに基づく治療の潜在的成果の推定が重要である。 しかし、このタスクの既存のニューラルメソッドはどちらも苦しめられている。 偏見; 偏見; 偏見 (b)大きなばらつき。 両制約に対処するため,G-transformer (GT) を導入する。 我々のGTは、時間とともに条件付き平均ポテンシャル結果(CAPOs)を非バイアスで低分散で推定するように設計された、新しいニューラルエンド・ツー・エンドモデルである。 特に,我々のGTは,時間変化条件下でCAPOに対して回帰に基づく反復的なG-計算を行う最初のニューラルモデルである。 各種実験におけるGTの有効性について検討した。 まとめると、この研究は電子的健康記録からパーソナライズされた意思決定への重要な一歩である。

Estimating potential outcomes for treatments over time based on observational data is important for personalized decision-making in medicine. Yet, existing neural methods for this task suffer from either (a) bias or (b) large variance. In order to address both limitations, we introduce the G-transformer (GT). Our GT is a novel, neural end-to-end model designed for unbiased, low-variance estimation of conditional average potential outcomes (CAPOs) over time. Specifically, our GT is the first neural model to perform regression-based iterative G-computation for CAPOs in the time-varying setting. We evaluate the effectiveness of our GT across various experiments. In sum, this work represents a significant step towards personalized decision-making from electronic health records.
翻訳日:2024-06-03 13:29:24 公開日:2024-05-31
# StrucTexTv3: テキストに富んだ画像知覚、理解、およびそれ以上の効率的な視覚言語モデル

StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond ( http://arxiv.org/abs/2405.21013v1 )

ライセンス: Link先を確認
Pengyuan Lyu, Yulin Li, Hao Zhou, Weihong Ma, Xingyu Wan, Qunyi Xie, Liang Wu, Chengquan Zhang, Kun Yao, Errui Ding, Jingdong Wang, (参考訳) テキストリッチな画像は大きな価値があり、人間の生活の様々な側面に深く統合されている。 特に、テキストリッチな画像における視覚的手がかりと言語記号は、情報伝達において重要な役割を担っているが、様々な課題が伴っている。 したがって、テキストリッチな画像の効率的かつ効果的な理解は、視覚言語モデルの能力にとって重要なリトマステストである。 我々は、テキストリッチな画像のための様々なインテリジェントなタスクに取り組むために、効率的な視覚言語モデルStrucTexTv3を開発した。 StrucTexTv3の重要な設計は以下の点である。 まず、有効なマルチスケール縮小視覚変換器と多粒度トークンサンプリング器(MG-Sampler)の組み合わせを視覚トークン生成器として採用し、高分解能入力とテキストリッチイメージの複雑な表現学習の課題をうまく解決する。 第二に、StrucTexTv3の認識と理解能力は、命令学習によって向上し、様々なテキスト指向タスクをシームレスに統一されたフレームワークに統合する。 第3に、TIM-30Mと略される高品質なテキストリッチな画像の総合的な収集を行い、インシデントシーン、オフィス文書、Webページ、スクリーンショットなどの多様なシナリオを網羅し、モデルの堅牢性を改善した。 提案手法は,テキストに富んだ画像認識タスクでSOTAを達成し,理解タスクの性能を大幅に向上させた。 LLMデコーダの約1.8Bパラメータを持つマルチモーダルモデルの中で、これはリーダーとして際立っている。 要約すると、StrucTexTv3モデルは効率的な構造設計、優れた性能、広範囲な適応性を備えており、テキストリッチな画像を含む多様なインテリジェントなアプリケーションタスクを堅牢にサポートし、幅広いアプリケーションに対して大きな可能性を秘めている。

Text-rich images have significant and extensive value, deeply integrated into various aspects of human life. Notably, both visual cues and linguistic symbols in text-rich images play crucial roles in information transmission but are accompanied by diverse challenges. Therefore, the efficient and effective understanding of text-rich images is a crucial litmus test for the capability of Vision-Language Models. We have crafted an efficient vision-language model, StrucTexTv3, tailored to tackle various intelligent tasks for text-rich images. The significant design of StrucTexTv3 is presented in the following aspects: Firstly, we adopt a combination of an effective multi-scale reduced visual transformer and a multi-granularity token sampler (MG-Sampler) as a visual token generator, successfully solving the challenges of high-resolution input and complex representation learning for text-rich images. Secondly, we enhance the perception and comprehension abilities of StrucTexTv3 through instruction learning, seamlessly integrating various text-oriented tasks into a unified framework. Thirdly, we have curated a comprehensive collection of high-quality text-rich images, abbreviated as TIM-30M, encompassing diverse scenarios like incidental scenes, office documents, web pages, and screenshots, thereby improving the robustness of our model. Our method achieved SOTA results in text-rich image perception tasks, and significantly improved performance in comprehension tasks. Among multimodal models with LLM decoder of approximately 1.8B parameters, it stands out as a leader, which also makes the deployment of edge devices feasible. In summary, the StrucTexTv3 model, featuring efficient structural design, outstanding performance, and broad adaptability, offers robust support for diverse intelligent application tasks involving text-rich images, thus exhibiting immense potential for widespread application.
翻訳日:2024-06-03 13:29:24 公開日:2024-05-31
# フロンティアAIモデルのトレーニングコストの上昇

The rising costs of training frontier AI models ( http://arxiv.org/abs/2405.21015v1 )

ライセンス: Link先を確認
Ben Cottier, Robi Rahman, Loredana Fattorini, Nestor Maslej, David Owen, (参考訳) 近年、フロンティアAIモデルのトレーニングコストは劇的に増加したが、これらの費用の規模と成長に関する公開データは限られている。 本稿では,ハードウェア,エネルギ,クラウドレンタル,スタッフ費用の3つのアプローチを用いて,このギャップに対処するための詳細なコストモデルを構築し,トレーニングコストを推定する。 この分析によると、最も計算集約的なモデルをトレーニングするための償却コストは、2016年以降、年間2.4倍(95%CI:2.0倍から3.1倍)の速さで急上昇している。 GPT-4やGeminiのような主要フロンティアモデルにとって、最も重要な費用はAIアクセラレーターチップとスタッフコストである。 その他の注目すべきコストとしては、サーバコンポーネント(15-22%)、クラスタレベルの相互接続(9-13%)、エネルギー消費(2-6%)がある。 開発コストの増加傾向が続くならば、2027年までに最大のトレーニングランが10億ドル以上かかることになる。

The costs of training frontier AI models have grown dramatically in recent years, but there is limited public data on the magnitude and growth of these expenses. This paper develops a detailed cost model to address this gap, estimating training costs using three approaches that account for hardware, energy, cloud rental, and staff expenses. The analysis reveals that the amortized cost to train the most compute-intensive models has grown precipitously at a rate of 2.4x per year since 2016 (95% CI: 2.0x to 3.1x). For key frontier models, such as GPT-4 and Gemini, the most significant expenses are AI accelerator chips and staff costs, each costing tens of millions of dollars. Other notable costs include server components (15-22%), cluster-level interconnect (9-13%), and energy consumption (2-6%). If the trend of growing development costs continues, the largest training runs will cost more than a billion dollars by 2027, meaning that only the most well-funded organizations will be able to finance frontier AI models.
翻訳日:2024-06-03 13:29:24 公開日:2024-05-31
# MpoxSLDNet: サルポックス病変検出のための新しいCNNモデルと事前訓練モデルとの比較

MpoxSLDNet: A Novel CNN Model for Detecting Monkeypox Lesions and Performance Comparison with Pre-trained Models ( http://arxiv.org/abs/2405.21016v1 )

ライセンス: Link先を確認
Fatema Jannat Dihan, Saydul Akbar Murad, Abu Jafar Md Muzahid, K. M. Aslam Uddin, Mohammed J. F. Alenazi, Anupam Kumar Bairagi, Sujit Biswas, (参考訳) サルポックスウイルス(英: Monkeypox virus、MPXV)は、特に中央アフリカと西アフリカの遠隔地において、公衆衛生に重大な脅威をもたらす動物性ウイルスである。 サルポックス病変の早期発見は治療に不可欠である。 しかし、他の皮膚疾患と類似しているため、サルポックス病変の検出は難しい課題である。 サルポックスを検出するために、多くの研究者はMobileNetv2、VGG16、ResNet50、InceptionV3、DenseNet121、EfficientNetB3、MobileNetV2、Xceptionといった様々なディープラーニングモデルを使用した。 しかし、これらのモデルはサイズが大きいため、しばしば高いストレージスペースを必要とする。 本研究の目的は,MpoxSLDNet(Monkeypox Skin Lesion Detector Network)と呼ばれるCNNモデルを導入し,サルポックス病変や非サルポックス病変の早期発見と分類を容易にすることである。 我々のモデルは、VGG16、ResNet50、DenseNet121といった従来のトレーニング済みモデルと比較して、精度、リコール、F1スコア、精度、AUCなどの優れたパフォーマンス指標を提供することで、サルポックス病変検出の分野で大きな進歩を示している。 MpoxSLDNetは、既存のモデルに比べてストレージスペースを著しく少なくしながら、高い検出精度を実現することができる。 高ストレージ要件の課題に対処することにより、MpoxSLDNetはリソース制約された医療環境におけるサルポックス病変の早期発見と分類のための実用的なソリューションを提供する。 本研究では, サルポックス病変1428枚と非サルポックス病変1764枚からなる「サルポックス皮膚病変データセット」を用いた。 データセットの制限は、目に見えないケースに一般化するモデルの能力に影響を与える可能性がある。 しかし、MpoxSLDNetモデルは検証精度が86.25%、84.38%、VGG16、DenseNet121、ResNet50の67.19%に対して94.56%に達した。

Monkeypox virus (MPXV) is a zoonotic virus that poses a significant threat to public health, particularly in remote parts of Central and West Africa. Early detection of monkeypox lesions is crucial for effective treatment. However, due to its similarity with other skin diseases, monkeypox lesion detection is a challenging task. To detect monkeypox, many researchers used various deep-learning models such as MobileNetv2, VGG16, ResNet50, InceptionV3, DenseNet121, EfficientNetB3, MobileNetV2, and Xception. However, these models often require high storage space due to their large size. This study aims to improve the existing challenges by introducing a CNN model named MpoxSLDNet (Monkeypox Skin Lesion Detector Network) to facilitate early detection and categorization of Monkeypox lesions and Non-Monkeypox lesions in digital images. Our model represents a significant advancement in the field of monkeypox lesion detection by offering superior performance metrics, including precision, recall, F1-score, accuracy, and AUC, compared to traditional pre-trained models such as VGG16, ResNet50, and DenseNet121. The key novelty of our approach lies in MpoxSLDNet's ability to achieve high detection accuracy while requiring significantly less storage space than existing models. By addressing the challenge of high storage requirements, MpoxSLDNet presents a practical solution for early detection and categorization of monkeypox lesions in resource-constrained healthcare settings. In this study, we have used "Monkeypox Skin Lesion Dataset" comprising 1428 skin images of monkeypox lesions and 1764 skin images of Non-Monkeypox lesions. Dataset's limitations could potentially impact the model's ability to generalize to unseen cases. However, the MpoxSLDNet model achieved a validation accuracy of 94.56%, compared to 86.25%, 84.38%, and 67.19% for VGG16, DenseNet121, and ResNet50, respectively.
翻訳日:2024-06-03 13:29:24 公開日:2024-05-31
# 大規模言語モデルを用いた最適化に基づくジェイルブレイク手法の改良

Improved Techniques for Optimization-Based Jailbreaking on Large Language Models ( http://arxiv.org/abs/2405.21018v1 )

ライセンス: Link先を確認
Xiaojun Jia, Tianyu Pang, Chao Du, Yihao Huang, Jindong Gu, Yang Liu, Xiaochun Cao, Min Lin, (参考訳) 大規模言語モデル(LLM)は急速に開発され、その普及の鍵となるコンポーネントは安全性に関するアライメントである。 これらの取り組みの中で、Greedy Coordinate Gradient (GCG)攻撃の成功は、最適化に基づくジェイルブレイク技術の研究への関心を高めている。 GCGは重要なマイルストーンであるが、攻撃効率は相変わらず不満足である。 本稿では,GCGのような最適化ベースのジェイルブレイクに対して,いくつかの改良(経験的)手法を提案する。 我々はまず,GCGの攻撃性能を「Sure」の1つのターゲットテンプレートで大幅に制限することから,有害な自己提案を含む多種多様なターゲットテンプレートをLLMのミスリードに応用することを提案する。 さらに,最適化面からGCGにおける自動マルチコーディネート更新戦略(つまり,各ステップで何個のトークンを交換するかを適応的に決定する)を提案する。 そして、これらの改良された技術を組み合わせて、$\mathcal{I}$-GCGと呼ばれる効率的なジェイルブレイク法を開発する。 実験では,一連のベンチマーク(NeurIPS 2023 Red Teaming Trackなど)を評価した。 以上の結果から,GCGが最先端のジェイルブレイク攻撃より優れ,100%近い攻撃成功率を達成できる可能性が示唆された。 コードはhttps://github.com/jiaxiaojunQAQ/I-GCGで公開されている。

Large language models (LLMs) are being rapidly developed, and a key component of their widespread deployment is their safety-related alignment. Many red-teaming efforts aim to jailbreak LLMs, where among these efforts, the Greedy Coordinate Gradient (GCG) attack's success has led to a growing interest in the study of optimization-based jailbreaking techniques. Although GCG is a significant milestone, its attacking efficiency remains unsatisfactory. In this paper, we present several improved (empirical) techniques for optimization-based jailbreaks like GCG. We first observe that the single target template of "Sure" largely limits the attacking performance of GCG; given this, we propose to apply diverse target templates containing harmful self-suggestion and/or guidance to mislead LLMs. Besides, from the optimization aspects, we propose an automatic multi-coordinate updating strategy in GCG (i.e., adaptively deciding how many tokens to replace in each step) to accelerate convergence, as well as tricks like easy-to-hard initialisation. Then, we combine these improved technologies to develop an efficient jailbreak method, dubbed $\mathcal{I}$-GCG. In our experiments, we evaluate on a series of benchmarks (such as NeurIPS 2023 Red Teaming Track). The results demonstrate that our improved techniques can help GCG outperform state-of-the-art jailbreaking attacks and achieve nearly 100% attack success rate. The code is released at https://github.com/jiaxiaojunQAQ/I-GCG.
翻訳日:2024-06-03 13:29:24 公開日:2024-05-31
# 断熱への近道としての量子クエンチダイナミクス

Quantum quench dynamics as a shortcut to adiabaticity ( http://arxiv.org/abs/2405.21019v1 )

ライセンス: Link先を確認
Alexander Lukin, Benjamin F. Schiffer, Boris Braverman, Sergio H. Cantu, Florian Huber, Alexei Bylinskii, Jesse Amato-Grill, Nishad Maskara, Madelyn Cain, Dominik S. Wild, Rhine Samajdar, Mikhail D. Lukin, (参考訳) 量子ハミルトニアンの基底状態を断熱的プロトコルで効率的に準備する能力は、典型的には量子進化中に遭遇する最小のエネルギーギャップによって制限される。 これは、特に断熱的ギャップがシステムサイズとともに指数関数的に消える場合、大規模システムにおける断熱的量子アルゴリズムの量子シミュレーションと実現にとって重要な障害となる。 ライドバーグ原子配列に基づくQuEraのAquilaプログラマブル量子シミュレータを用いて,そのような制限を回避する手法を実験的に実証した。 具体的には、クエンチステップを組み込んだ「スイープ・クエンチ・スウィープ」量子アルゴリズムを開発し、実験する。 これらのクエンチは、大規模なハミング距離によって分離された状態間のマクロな再構成を導入し、量子多体傷に似ている。 提案手法は, 大規模多体量子システムにおいて, 量子クエンチアルゴリズムが断熱のショートカットを提供することができることを示すため, 断熱アルゴリズムよりも著しく優れていることを示す。

The ability to efficiently prepare ground states of quantum Hamiltonians via adiabatic protocols is typically limited by the smallest energy gap encountered during the quantum evolution. This presents a key obstacle for quantum simulation and realizations of adiabatic quantum algorithms in large systems, particularly when the adiabatic gap vanishes exponentially with system size. Using QuEra's Aquila programmable quantum simulator based on Rydberg atom arrays, we experimentally demonstrate a method to circumvent such limitations. Specifically, we develop and test a "sweep-quench-sweep" quantum algorithm in which the incorporation of a quench step serves as a remedy to the diverging adiabatic timescale. These quenches introduce a macroscopic reconfiguration between states separated by an extensively large Hamming distance, akin to quantum many-body scars. Our experiments show that this approach significantly outperforms the adiabatic algorithm, illustrating that such quantum quench algorithms can provide a shortcut to adiabaticity for large-scale many-body quantum systems.
翻訳日:2024-06-03 13:29:24 公開日:2024-05-31
# 従来のパラメトリックモデリングを超えて:動的PET画像における時間活動曲線の推定と予測のためのデータ駆動フレームワーク

Beyond Conventional Parametric Modeling: Data-Driven Framework for Estimation and Prediction of Time Activity Curves in Dynamic PET Imaging ( http://arxiv.org/abs/2405.21021v1 )

ライセンス: Link先を確認
Niloufar Zakariaei, Arman Rahmim, Eldad Haber, (参考訳) 動的陽電子線トモグラフィ(dPET)イメージングと時間活性曲線(TAC)解析は、時間と空間における放射性医薬品の生物分布の理解と定量化に不可欠である。 従来のコンパートメンタルモデリングは、基礎的ではあるが、非線形力学や可変性を含む生物学的システムの複雑さを完全に捉えるのに苦慮している。 本研究では、これらの制限に対処するために設計されたリアクション拡散システムにインスパイアされた、革新的なデータ駆動ニューラルネットワークベースのフレームワークを紹介する。 提案手法は,dPETのTACを適応的に適合させて観測データから拡散係数と反応項を直接キャリブレーションし,特に複雑な生物学的シナリオにおいて従来の手法に比べて予測精度と堅牢性を大幅に向上させる。 放射性医薬品の時空間動態をより正確にモデル化することにより, 薬物動態および薬物動態のモデリングを進め, 定量核医学の新しい可能性を実現する。

Dynamic Positron Emission Tomography (dPET) imaging and Time-Activity Curve (TAC) analyses are essential for understanding and quantifying the biodistribution of radiopharmaceuticals over time and space. Traditional compartmental modeling, while foundational, commonly struggles to fully capture the complexities of biological systems, including non-linear dynamics and variability. This study introduces an innovative data-driven neural network-based framework, inspired by Reaction Diffusion systems, designed to address these limitations. Our approach, which adaptively fits TACs from dPET, enables the direct calibration of diffusion coefficients and reaction terms from observed data, offering significant improvements in predictive accuracy and robustness over traditional methods, especially in complex biological scenarios. By more accurately modeling the spatio-temporal dynamics of radiopharmaceuticals, our method advances modeling of pharmacokinetic and pharmacodynamic processes, enabling new possibilities in quantitative nuclear medicine.
翻訳日:2024-06-03 13:29:24 公開日:2024-05-31
# 一度だけスキャンする: LightNet を用いた効率的なマルチ次元シーケンスモデリング

You Only Scan Once: Efficient Multi-dimension Sequential Modeling with LightNet ( http://arxiv.org/abs/2405.21022v1 )

ライセンス: Link先を確認
Zhen Qin, Yuxin Mao, Xuyang Shen, Dong Li, Jing Zhang, Yuchao Dai, Yiran Zhong, (参考訳) 線形注意機構は, 線形計算複雑性と高速化により, 因果言語モデルにおいて顕著である。 しかし、線形注意における固有減衰機構は、画像処理やマルチモーダル学習といった多次元シーケンスモデリングタスクに適用する際の課題を提起する。 これらのシナリオでは、グローバルな受容場を確立するためにシーケンシャルスキャンを利用することで、多次元データに複数のスキャンを必要とするため、非効率になる。 本稿では,乗算線形再帰による非効率性を同定し,一走査で多次元データを処理できるため,この問題を回避するために効率的な代替線形再帰法を提案する。 さらに,新しい再帰性に基づく多次元連続モデリングフレームワークLightNetを開発した。 さらに, MD-TPE と MD-LRPE という2つの新しい多次元線形相対的位置符号化手法を提案する。 画像分類,画像生成,双方向言語モデリング,自動回帰言語モデリングなど,様々なタスクに対する実証的評価を行い,LightNetの有効性を実証し,多次元逐次モデリングの汎用的で効率的なソリューションとしての可能性を示した。

Linear attention mechanisms have gained prominence in causal language models due to their linear computational complexity and enhanced speed. However, the inherent decay mechanism in linear attention presents challenges when applied to multi-dimensional sequence modeling tasks, such as image processing and multi-modal learning. In these scenarios, the utilization of sequential scanning to establish a global receptive field necessitates multiple scans for multi-dimensional data, thereby leading to inefficiencies. This paper identifies the inefficiency caused by a multiplicative linear recurrence and proposes an efficient alternative additive linear recurrence to avoid the issue, as it can handle multi-dimensional data within a single scan. We further develop an efficient multi-dimensional sequential modeling framework called LightNet based on the new recurrence. Moreover, we present two new multi-dimensional linear relative positional encoding methods, MD-TPE and MD-LRPE to enhance the model's ability to discern positional information in multi-dimensional scenarios. Our empirical evaluations across various tasks, including image classification, image generation, bidirectional language modeling, and autoregressive language modeling, demonstrate the efficacy of LightNet, showcasing its potential as a versatile and efficient solution for multi-dimensional sequential modeling.
翻訳日:2024-06-03 13:29:24 公開日:2024-05-31
# 最適化プロキシのコンパクト最適検証

Compact Optimality Verification for Optimization Proxies ( http://arxiv.org/abs/2405.21023v1 )

ライセンス: Link先を確認
Wenbo Chen, Haoruo Zhao, Mathieu Tanneau, Pascal Van Hentenryck, (参考訳) 近年、最適化プロキシ、すなわちパラメトリック最適化問題の入出力マッピングを近似し、最適に近い実現可能な解を返す機械学習モデルへの関心が高まっている。 Nellikkath & Chatzivasileiadis, 2021) の最近の研究に続いて、この論文は最適化プロキシの最適性検証問題、すなわちインスタンス分布に対する最悪の最適性ギャップの判定を再考した。 本稿では、最適性検証のためのコンパクトな定式化と、元の定式化にかなりの計算上の利点をもたらす勾配に基づく原始ヒューリスティックを提案する。 コンパクトな定式化もより一般的であり、非凸最適化問題にも適用できる。 コンパクトな定式化の利点は、大規模直流最適潮流とクナプサック問題で実証される。

Recent years have witnessed increasing interest in optimization proxies, i.e., machine learning models that approximate the input-output mapping of parametric optimization problems and return near-optimal feasible solutions. Following recent work by (Nellikkath & Chatzivasileiadis, 2021), this paper reconsiders the optimality verification problem for optimization proxies, i.e., the determination of the worst-case optimality gap over the instance distribution. The paper proposes a compact formulation for optimality verification and a gradient-based primal heuristic that brings substantial computational benefits to the original formulation. The compact formulation is also more general and applies to non-convex optimization problems. The benefits of the compact formulation are demonstrated on large-scale DC Optimal Power Flow and knapsack problems.
翻訳日:2024-06-03 13:29:24 公開日:2024-05-31
# Fusion-PSRO:Nash Policy Fusion for Policy Space Response Oracles

Fusion-PSRO: Nash Policy Fusion for Policy Space Response Oracles ( http://arxiv.org/abs/2405.21027v1 )

ライセンス: Link先を確認
Jiesong Lian, Yucong Huang, Mingzhi Wang, Chengdong Ma, Yixue Hao, Ying Wen, Yaodong Yang, (参考訳) 非推移性を含むゼロサムゲームを解決するための一般的なアプローチは、Nash Equilibrium (NE) を近似する集団ポリシーを維持することである。 これまでの研究によると、Physal Space Response Oracle (PSRO) は、これらのゲームに有効なマルチエージェント強化学習フレームワークである。 しかし、各イテレーションで相手の混合ポリシーにBest Response(BR)を近似するために、スクラッチから新しいポリシーを繰り返し訓練することは、非効率でコストがかかる。 いくつかのPSRO手法は、過去のBRポリシーを継承して新しいBRポリシーを初期化するが、この問題に対処するため、モデル融合を用いてBRの近似性を向上するためにポリシーを初期化するFusion-PSROを提案する。 NEのTop-k確率により、我々は高品質のベースポリシーを選択し、モデル平均化を通じてそれらを新しいBRポリシーに融合する。 このアプローチにより、初期化ポリシが複数の専門家ポリシを組み込むことで、スクラッチから継承や初期化よりも難しい相手の扱いが容易になる。 さらに,本手法はポリシーの初期化のみを修正し,トレーニングのオーバーヘッドを伴わずにほぼすべてのPSRO変種を適用可能にする。我々は,非推移行列ゲーム,Leduc poker,さらに複雑なLiars Diceを用いて実験を行い,Fusion-PSROがほぼ全てのPSRO変種の性能を向上させることを示し,より低い利用性を実現する。

For solving zero-sum games involving non-transitivity, a common approach is to maintain population policies to approximate the Nash Equilibrium (NE). Previous research has shown that the Policy Space Response Oracle (PSRO) is an effective multi-agent reinforcement learning framework for these games. However, repeatedly training new policies from scratch to approximate the Best Response (BR) to opponents' mixed policies at each iteration is inefficient and costly. While some PSRO methods initialize a new BR policy by inheriting from past BR policies, this approach limits the exploration of new policies, especially against challenging opponents.To address this issue, we propose Fusion-PSRO, which uses model fusion to initialize the policy for better approximation to BR. With Top-k probabilities from NE, we select high-quality base policies and fuse them into a new BR policy through model averaging. This approach allows the initialized policy to incorporate multiple expert policies, making it easier to handle difficult opponents compared to inheriting or initializing from scratch. Additionally, our method only modifies the policy initialization, enabling its application to nearly all PSRO variants without additional training overhead.Our experiments with non-transitive matrix games, Leduc poker, and the more complex Liars Dice demonstrate that Fusion-PSRO enhances the performance of nearly all PSRO variants, achieving lower exploitability.
翻訳日:2024-06-03 13:29:24 公開日:2024-05-31
# LACIE:大規模言語モデルにおける信頼度校正のためのリスナー認識ファインタニング

LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models ( http://arxiv.org/abs/2405.21028v1 )

ライセンス: Link先を確認
Elias Stengel-Eskin, Peter Hase, Mohit Bansal, (参考訳) 質問に答えるとき、LLMは答えだけでなく、答えが正しいという自信のレベルを伝えることができる。 これには、明示的な信頼マーカー(例えば、数値スコアを与える)や、権威的なトーンや追加の知識による実験のような暗黙のマーカーが含まれる。 LLMが信頼できる知識ソースであるためには、彼らが伝える自信は実際の専門知識と一致すべきである。 暗黙的および明示的な信頼マーカーを校正するために,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考慮し,リスナーをモデル化する実用的で聞き手対応の微調整手法(LACIE)を導入する。 我々は、キャリブレーションを好みの最適化としてキャストし、2エージェントゲームを通してデータを生成し、そこでは、話者モデルの出力を模擬リスナによって判断する。 次に、LCM(Mistral-7B, Llama3-8B, Llama3-70B)をLACIEで微調整し、シミュレーションリスナの校正精度が向上したことを示す。 重要なことに、これらの傾向は人間のリスナーに伝達され、モデル正当性を正確に予測するのに役立つ:我々は、注釈者がLCMの回答を受け入れたり拒否したりする人間の評価を行う。 さらに、LACIEは別のデータセットに一般化し、TriviaQAでトレーニングされたときに、TrathfulQAの真偽が大幅に増加する。 我々の分析は、LACIEが正しい例と間違った例とをより良い信頼性で分離することを示唆している。 定性的には、LACIEで訓練されたモデルが、権威音を用いて、あるいは詳細を含むことによって、それが正しいときに、より暗黙的に確実性を示すことが分かる。 最後に、LACIEの微調整は、おそらく間違っている答えに対するモデル棄権(例:"I don't know")の急激な増加につながる。

When answering questions, LLMs can convey not only an answer, but a level of confidence about the answer being correct. This includes explicit confidence markers (e.g. giving a numeric score) as well as implicit markers, like an authoritative tone or elaborating with additional knowledge. For LLMs to be trustworthy knowledge sources, the confidence they convey should match their actual expertise; however, most current models tend towards overconfidence. To calibrate both implicit and explicit confidence markers, we introduce a pragmatic, listener-aware finetuning method (LACIE) that models the listener, considering not only whether an answer is right, but whether it will be accepted by a listener. We cast calibration as preference optimization, creating data via a two-agent game, where a speaker model's outputs are judged by a simulated listener. We then finetune three LLMs (Mistral-7B, Llama3-8B, Llama3-70B) with LACIE, and show that the resulting models are better calibrated w.r.t. a simulated listener. Crucially, these trends transfer to human listeners, helping them correctly predict model correctness: we conduct a human evaluation where annotators accept or reject an LLM's answers, finding that training with LACIE results in 47% fewer incorrect answers being accepted while maintaining the same level of acceptance for correct answers. Furthermore, LACIE generalizes to another dataset, resulting in a large increase in truthfulness on TruthfulQA when trained on TriviaQA. Our analysis indicates that LACIE leads to a better confidence separation between correct and incorrect examples. Qualitatively, we find that a LACIE-trained model hedges more and implicitly signals certainty when it is correct by using an authoritative tone or including details. Finally, LACIE finetuning leads to an emergent increase in model abstention (e.g. saying "I don't know") for answers that are likely wrong.
翻訳日:2024-06-03 13:29:24 公開日:2024-05-31
# 量子重力試験を可能にするテーブルトップナノダイアモンド干渉計

Table-top nanodiamond interferometer enabling quantum gravity tests ( http://arxiv.org/abs/2405.21029v1 )

ライセンス: Link先を確認
Marta Vicentini, Ettore Bernardi, Ekaterina Moreva, Fabrizio Piacentini, Carmine Napoli, Ivo Pietro Degiovanni, Alessandra Manzin, Marco Genovese, (参考訳) 量子論と一般相対性理論を統一することは、現代物理学の聖杯である。 にもかかわらず、この過程を導く実験的な証拠が欠如していたため、多くの数学的モデルが、それらの間の区別が不可能であったり、重力が実際に量子化される必要があるか、あるいは量子力学が何らかのスケールで「重力化」されるべきかどうかを定めなかった。 近年、重力相互作用による絡み合いの発生を観測することは、重力の量子的性質を実証するブレークスルーとなる可能性が示唆されている。 この意味ではいくつかの実験的提案が進んでいるが、極端な技術的要件(例えば、量子重畳状態において自由落下する重力的に相互作用する質量の必要性)は、その実装をはるかに先延ばしにしている。 ここでは,テーブルトップナノダイアモンドを用いた干渉計の実現可能性について述べる。 上記の提案に関して、安定質量(メソスコープ)物体の量子重ね合わせを頼りにすることで、我々の干渉計は、単に小さな範囲の電磁場(実装と制御が簡単すぎる)を利用することができ、同時に、大規模な量子プローブの再活用は、必然的にフリーフォールの干渉計のスキームで失われる。

Unifying quantum theory and general relativity is the holy grail of contemporary physics. Nonetheless, the lack of experimental evidence driving this process led to a plethora of mathematical models with a substantial impossibility of discriminating among them or even establishing if gravity really needs to be quantized or if, vice versa, quantum mechanics must be "gravitized" at some scale. Recently, it has been proposed that the observation of the generation of entanglement by gravitational interaction, could represent a breakthrough demonstrating the quantum nature of gravity. A few experimental proposals have been advanced in this sense, but the extreme technological requirements (e.g., the need for free-falling gravitationally-interacting masses in a quantum superposition state) make their implementation still far ahead. Here we present a feasibility study for a table-top nanodiamond-based interferometer eventually enabling easier and less resource-demanding quantum gravity tests. With respect to the aforementioned proposals, by relying on quantum superpositions of steady massive (mesoscopic) objects our interferometer may allow exploiting just small-range electromagnetic fields (much easier to implement and control) and, at the same time, the re-utilization of the massive quantum probes exploited, inevitably lost in free-falling interferometric schemes.
翻訳日:2024-06-03 13:19:30 公開日:2024-05-31
# LLMにおける信念表現の基準

Standards for Belief Representations in LLMs ( http://arxiv.org/abs/2405.21030v1 )

ライセンス: Link先を確認
Daniel A. Herrmann, Benjamin A. Levinstein, (参考訳) 大規模言語モデル(LLM)は、様々な領域で顕著な能力を示し続けているため、コンピュータ科学者は認知過程を理解する方法を開発している。 しかし、この分野は、LLMの信念研究の基盤となる統一的な理論基盤を欠いている。 この記事では、LLMにおける表現が信念的とみなすための適切な条件を提案することによって、このギャップを埋める。 我々は, LLMにおける信念測定プロジェクトは, 意思決定理論や形式的認識論において実施される信念測定と顕著な特徴を共有している一方で, 信念測定の方法を変える方法も異なることを論じている。 そこで,機械学習の哲学と現代的実践の洞察から,理論的考察と実践的制約のバランスをとるための4つの基準を確立する。 提案する基準は, 精度, 一貫性, 統一性, 使用性などを含み, LLMにおける信念表現の包括的理解の基盤となる。 我々は、信念の表現を識別するために、様々な基準を孤立的に使用することの限界を示す実証的研究を描いている。

As large language models (LLMs) continue to demonstrate remarkable abilities across various domains, computer scientists are developing methods to understand their cognitive processes, particularly concerning how (and if) LLMs internally represent their beliefs about the world. However, this field currently lacks a unified theoretical foundation to underpin the study of belief in LLMs. This article begins filling this gap by proposing adequacy conditions for a representation in an LLM to count as belief-like. We argue that, while the project of belief measurement in LLMs shares striking features with belief measurement as carried out in decision theory and formal epistemology, it also differs in ways that should change how we measure belief. Thus, drawing from insights in philosophy and contemporary practices of machine learning, we establish four criteria that balance theoretical considerations with practical constraints. Our proposed criteria include accuracy, coherence, uniformity, and use, which together help lay the groundwork for a comprehensive understanding of belief representation in LLMs. We draw on empirical work showing the limitations of using various criteria in isolation to identify belief representations.
翻訳日:2024-06-03 13:19:30 公開日:2024-05-31
# どこにいようが、どこにいようか。

To be or not to be, but where? ( http://arxiv.org/abs/2405.21031v1 )

ライセンス: Link先を確認
Guilherme Franzmann, (参考訳) 古典力学と比較して量子力学における物理サブシステムの同定は、特に量子重力の文脈において、重要な概念上の問題を引き起こす。 伝統的なアプローチは、有限次元系のヒルベルト空間因子または代数的場の量子論における局所作用素代数を用いて、時空で局所化された古典的な量子系を関連付ける。 これらの方法は、州の準備と測定のための統計的独立性を保証する。 しかし、正準線型化量子重力はゲージ不変な局所代数の形成を阻止し、測定に必要な統計的独立性を損なうことにより、この枠組みを妨害する。 これは初期の宇宙の宇宙論、重力によって引き起こされる絡み合いの実験をモデル化するための大きな障害を示し、量子重力の包括的理論に向けて重要な障害となる。 古典的および量子システムの同定は静的ではなく動的に進化し、単一世界のユニタリ量子力学の可能性を開くべきである。 この観点は、古典的な時空間の存在が量子力学からどのように現れるかを理解するというより広い目的と一致し、測定問題と量子重力を結びつける。

The identification of physical subsystems in quantum mechanics as compared to classical mechanics poses significant conceptual challenges, especially in the context of quantum gravity. Traditional approaches associate quantum systems with classical ones localized in spacetime, using either Hilbert space factors for finite-dimensional systems or local operator algebras in algebraic quantum field theory. These methods ensure statistical independence for state preparations and measurements. However, canonical linearized quantum gravity disrupts this framework by preventing the formation of gauge-invariant local algebras, thereby undermining the statistical independence required in measurements. This presents a major obstacle for modeling early universe cosmology, gravity-induced-entanglement experiments, and poses a significant roadblock toward a comprehensive theory of quantum gravity. A pivotal shift is proposed: the identification of classical and quantum systems should be dynamically evolving rather than static, opening the possibility of a single-world unitary quantum mechanics. This perspective aligns with the broader aim of understanding how classical spatiotemporal existence emerges from quantum mechanics and connects the measurement problem with quantum gravity.
翻訳日:2024-06-03 13:19:30 公開日:2024-05-31
# A-PETE:木アンサンブルの適応的プロトタイプ記述

A-PETE: Adaptive Prototype Explanations of Tree Ensembles ( http://arxiv.org/abs/2405.21036v1 )

ライセンス: Link先を確認
Jacek Karolczak, Jerzy Stefanowski, (参考訳) 機械学習モデルの解釈の必要性は、ツリーアンサンブルのコンテキスト内でのプロトタイプ説明を通じて解決される。 A-PETE (Adaptive Prototype Explanations of Tree Ensembles) と呼ばれるアルゴリズムが提案され、これらの分類器のプロトタイプの選択を自動化する。 その特異な特徴は、特殊距離測度とk-メドイドアプローチを使用することである。 実験では、以前の説明アルゴリズムに関して、その競合予測精度を実証した。 また、ランダムな森林分類器を解釈するために、十分な数のプロトタイプを提供する。

The need for interpreting machine learning models is addressed through prototype explanations within the context of tree ensembles. An algorithm named Adaptive Prototype Explanations of Tree Ensembles (A-PETE) is proposed to automatise the selection of prototypes for these classifiers. Its unique characteristics is using a specialised distance measure and a modified k-medoid approach. Experiments demonstrated its competitive predictive accuracy with respect to earlier explanation algorithms. It also provides a a sufficient number of prototypes for the purpose of interpreting the random forest classifier.
翻訳日:2024-06-03 13:19:30 公開日:2024-05-31
# sgboostの導入: Rにおけるスパースグループブースティングの実践的ガイドと実装

Introducing sgboost: A Practical Guide and Implementation of sparse-group boosting in R ( http://arxiv.org/abs/2405.21037v1 )

ライセンス: Link先を確認
Fabian Obster, Christian Heumann, (参考訳) 本稿では,Sgboost パッケージを R に導入し,共変量での自然なグルーピングによる高次元データモデリングのためのスパースグループブースティングを実装した。 Sparse-group boostingは、グループ選択と個々の変数選択の両方に柔軟なアプローチを提供し、オーバーフィッティングを減らし、モデルの解釈可能性を高める。 このパッケージは、個人およびグループベースラーナーの自由度に基づく正規化技術を使用し、mboostパッケージと組み合わせて使用されるように設計されている。 本稿では,既存の手法との比較と,そのユニークな機能の実証を通じて,Rにおけるスパースグループブースティングを活用するための実践的ガイドを提供する。 本稿は, スパースグループブースティングを高次元データ解析の効率化・解釈に活用しようとする研究者や実践者にとって, 総合的に貴重な資料となる。

This paper introduces the sgboost package in R, which implements sparse-group boosting for modeling high-dimensional data with natural groupings in covariates. Sparse-group boosting offers a flexible approach for both group and individual variable selection, reducing overfitting and enhancing model interpretability. The package uses regularization techniques based on the degrees of freedom of individual and group base-learners, and is designed to be used in conjunction with the mboost package. Through comparisons with existing methods and demonstration of its unique functionalities, this paper provides a practical guide on utilizing sparse-group boosting in R, accompanied by code examples to facilitate its application in various research domains. Overall, this paper serves as a valuable resource for researchers and practitioners seeking to use sparse-group boosting for efficient and interpretable high-dimensional data analysis.
翻訳日:2024-06-03 13:19:30 公開日:2024-05-31
# 品質を考慮した自己修正による言語モデルの直接アライメント

Direct Alignment of Language Models via Quality-Aware Self-Refinement ( http://arxiv.org/abs/2405.21040v1 )

ライセンス: Link先を確認
Runsheng Yu, Yong Wang, Xiaoqi Jiao, Youzhi Zhang, James T. Kwok, (参考訳) Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) の振る舞いを人間の好みに合わせるために一般的に用いられている。 最近では、ALMベースの報酬モデルをポリシー自体に置き換えることによって、報酬モデルを学ぶための余分なメモリとトレーニング時間の必要性を回避できる、ダイレクトポリシー最適化(DPO)が人気である。 しかし、DPOは正と負の反応の相対的な性質を考慮せず、準最適トレーニングの結果をもたらす可能性がある。 この問題を軽減するため,本研究は,本研究における本質的知識の相対的特性の獲得と損失関数の高度化を支援するために,本研究における本質的知識の活用について検討する。 具体的には,LLMの知識を活用して改良関数を設計し,正と負の両方の応答の質を推定する。 構築された精細化関数は、軽度の仮定の下で損失関数を自己再定義するのに役立つことを示す。 改良機能は、DPOとその派生したアイデンティティポリシー最適化(IPO)に統合される。 さまざまな評価者による実験は、DPOやIPOよりも細調整されたモデルの性能を向上させることができることを示している。

Reinforcement Learning from Human Feedback (RLHF) has been commonly used to align the behaviors of Large Language Models (LLMs) with human preferences. Recently, a popular alternative is Direct Policy Optimization (DPO), which replaces an LLM-based reward model with the policy itself, thus obviating the need for extra memory and training time to learn the reward model. However, DPO does not consider the relative qualities of the positive and negative responses, and can lead to sub-optimal training outcomes. To alleviate this problem, we investigate the use of intrinsic knowledge within the on-the-fly fine-tuning LLM to obtain relative qualities and help to refine the loss function. Specifically, we leverage the knowledge of the LLM to design a refinement function to estimate the quality of both the positive and negative responses. We show that the constructed refinement function can help self-refine the loss function under mild assumptions. The refinement function is integrated into DPO and its variant Identity Policy Optimization (IPO). Experiments across various evaluators indicate that they can improve the performance of the fine-tuned models over DPO and IPO.
翻訳日:2024-06-03 13:19:30 公開日:2024-05-31
# 作業の準確率分布に対する量子相関関数の干渉計測

Interferometry of quantum correlation functions to access quasiprobability distribution of work ( http://arxiv.org/abs/2405.21041v1 )

ライセンス: Link先を確認
Santiago Hernández-Gómez, Takuya Isogawa, Alessio Belenchia, Amikam Levy, Nicole Fabbri, Stefano Gherardini, Paola Cappellaro, (参考訳) カークウッド・ディラック準確率分布は、異なる時期に測定された2つの観測可能量の量子相関関数から生じ、したがって基礎物理学や量子技術に関係している。 これらの準確率は、合同確率分布に対するコルモゴロフ公理の1つを除いて全て従う:非正の値を取ることができる。 不整合可観測物の期待値が関与すると、実験的な再構成は困難になる。 それまでの戦略は、弱い測定や強い測定を組み合わせることでそれらを再構築することであった。 ここでは、カークウッド・ディラック準確率分布を再構成するために、補助的なシステムによって支援されるより直接的な手法であるインターフェロメトリスキームを用いる。 ダイヤモンド中の窒素空孔中心に付随する電子核スピン系における干渉計方式を実験的に実証した。 特徴関数を測定することにより,作業の準確率分布を再構築し,第1,第2モーメントの挙動を解析する。 本研究は,量子熱力学の文脈における作業準確率分布の物理的意義を明らかにするものである。 最後に、カークウッド・ディラック準確率の実部と虚部を測った結果、異なる初期状態に対するロバートソン・シュルディンガーの不確実性関係を通して、系のハミルトニアンを2回測定する不確実性についても研究することができる。

The Kirkwood-Dirac quasiprobability distribution emerges from the quantum correlation function of two observables measured at distinct times and is therefore relevant for fundamental physics and quantum technologies. These quasiprobabilities follow all but one of Kolmogorov axioms for joint probability distributions: they can take non-positive values. Their experimental reconstruction becomes challenging when expectation values of incompatible observables are involved. Previous strategies aimed to reconstruct them using weak measurements or combining strong measurements. Here, we use a more direct approach, an interferometric scheme aided by an auxiliary system, to reconstruct the Kirkwood-Dirac quasiprobability distribution. We experimentally demonstrate the interferometric scheme in an electron-nuclear spin system associated with a nitrogen-vacancy center in diamond. By measuring the characteristic function, we reconstruct the quasiprobability distribution of the work and analyze the behavior of the first and second moments of work. Our results clarify the physical meaning of the work quasiprobability distribution in the context of quantum thermodynamics. Finally, having measured the real and imaginary parts of the Kirkwood-Dirac quasiprobability of work, we are also able to study the uncertainty of measuring the Hamiltonian of the system at two times, via the Robertson-Schr{\"o}dinger uncertainty relation, for different initial states.
翻訳日:2024-06-03 13:19:30 公開日:2024-05-31
# 異方性表現空間の情報内容とVAEアンサンブルの比較

Comparing information content of representation spaces for disentanglement with VAE ensembles ( http://arxiv.org/abs/2405.21042v1 )

ライセンス: Link先を確認
Kieran A. Murphy, Sam Dillavou, Dani S. Bassett, (参考訳) Disentanglementは、機械学習を使用してデータセットに関する情報を意味のある断片に分割する試みである。 実際には、これらのフラグメントは表現(部分)空間であり、しばしば変分オートエンコーダ(VAE)の潜在空間内のチャネルの集合である。 絡み合いの評価は、主にモデルレベルで粗い粒度を持つメトリクスを用いるが、このアプローチは情報の断片化の過程を曖昧にすることができる。 本稿では,繰り返し学習の合奏によって学習された情報の断片として,学習チャネルを集約的に研究することを提案する。 さらに,各部分空間間の類似性の尺度が,データ埋め込みの性質を確率分布として無視する先行研究から逸脱する。 代わりに、表現部分空間を、データのソフトクラスタリングを行う通信チャネルとみなし、クラスタリング代入間の類似性に関する2つの古典的な情報理論を一般化し、表現空間を比較する。 本研究では, 指紋表現部分空間に基づく簡易な推定手法を開発し, データセットを識別し, 分析し, 有意義な構造を同定し, 合成データセットと自然データセットを訓練したVAEのアンサンブルに利用できるようにする。 この完全に教師なしのパイプラインを用いて、情報断片の空間における「ホットスポット」を識別する: ほぼ同一の表現部分空間の群は、VAEのアンサンブルに繰り返し現れる。 最後に,提案手法を利用してVAEによるアンサンブル学習を実現し,弱い学習者の集合の情報内容を高める。

Disentanglement is the endeavour to use machine learning to divide information about a dataset into meaningful fragments. In practice these fragments are representation (sub)spaces, often the set of channels in the latent space of a variational autoencoder (VAE). Assessments of disentanglement predominantly employ metrics that are coarse-grained at the model level, but this approach can obscure much about the process of information fragmentation. Here we propose to study the learned channels in aggregate, as the fragments of information learned by an ensemble of repeat training runs. Additionally, we depart from prior work where measures of similarity between individual subspaces neglected the nature of data embeddings as probability distributions. Instead, we view representation subspaces as communication channels that perform a soft clustering of the data; consequently, we generalize two classic information-theoretic measures of similarity between clustering assignments to compare representation spaces. We develop a lightweight method of estimation based on fingerprinting representation subspaces by their ability to distinguish dataset samples, allowing us to identify, analyze, and leverage meaningful structure in ensembles of VAEs trained on synthetic and natural datasets. Using this fully unsupervised pipeline we identify "hotspots" in the space of information fragments: groups of nearly identical representation subspaces that appear repeatedly in an ensemble of VAEs, particularly as regularization is increased. Finally, we leverage the proposed methodology to achieve ensemble learning with VAEs, boosting the information content of a set of weak learners -- a capability not possible with previous methods of assessing channel similarity.
翻訳日:2024-06-03 13:19:30 公開日:2024-05-31
# 関数近似によるオフポジーブートストラップのターゲットネットワークと過パラメータ化の安定化

Target Networks and Over-parameterization Stabilize Off-policy Bootstrapping with Function Approximation ( http://arxiv.org/abs/2405.21043v1 )

ライセンス: Link先を確認
Fengdi Che, Chenjun Xiao, Jincheng Mei, Bo Dai, Ramki Gummadi, Oscar A Ramirez, Christopher K Harris, A. Rupam Mahmood, Dale Schuurmans, (参考訳) 対象ネットワークと過度パラメータ化線形関数近似の組み合わせは、オフ政治データであっても、ブートストラップ値推定においてより弱い収束条件を確立することを証明している。 我々の状態は、状態-行動空間全体に対する期待された更新や、マルコフ決定過程からの完全な軌道のバッチによる学習に自然に満足している。 特に、ターゲットネットワークや過パラメータ化モデルのみを使用することで、そのような収束保証が得られない。 さらに, トラジェクトリにおける最終状態に対するトランジェクトリの値に似て, 微修正を施した全てのタスクに対して収束が達成可能であることを示すため, トラジェクトリによる学習に拡張する。 本研究の主な成果は,予測のための時間差推定,高確率値推定誤差境界の提供,およびBairdの反例と4室作業に関する実証分析である。 さらに、制御条件について検討し、類似の収束条件がQ-ラーニングに適用可能であることを示す。

We prove that the combination of a target network and over-parameterized linear function approximation establishes a weaker convergence condition for bootstrapped value estimation in certain cases, even with off-policy data. Our condition is naturally satisfied for expected updates over the entire state-action space or learning with a batch of complete trajectories from episodic Markov decision processes. Notably, using only a target network or an over-parameterized model does not provide such a convergence guarantee. Additionally, we extend our results to learning with truncated trajectories, showing that convergence is achievable for all tasks with minor modifications, akin to value truncation for the final states in trajectories. Our primary result focuses on temporal difference estimation for prediction, providing high-probability value estimation error bounds and empirical analysis on Baird's counterexample and a Four-room task. Furthermore, we explore the control setting, demonstrating that similar convergence conditions apply to Q-learning.
翻訳日:2024-06-03 13:19:30 公開日:2024-05-31
# ワークゾーン交通影響予測のためのアテンションベースマルチコンテキスト畳み込みエンコーダ・デコーダニューラルネットワーク

An Attention-Based Multi-Context Convolutional Encoder-Decoder Neural Network for Work Zone Traffic Impact Prediction ( http://arxiv.org/abs/2405.21045v1 )

ライセンス: Link先を確認
Qinhua Jiang, Xishun Liao, Yaofa Gong, Jiaqi Ma, (参考訳) ワークゾーンは、非リカレント交通渋滞や道路事故の主な原因の1つである。 影響の重要性にもかかわらず、ワークゾーンの交通影響を予測する研究はほとんど残っていない。 本稿では、多様なプラットフォームからのワークゾーンとトラフィックデータの利用を向上させるデータ統合パイプラインを提案し、計画されたワークゾーンイベントにおけるトラフィック速度とインシデント確率を予測するための新しいディープラーニングモデルを提案する。 提案モデルでは,交通パターンをモデル入力と出力の両方で2次元の時空間画像に変換し,ワークゾーンイベントとトラフィック変動の時空間依存性を捉えるために,アテンションベースのマルチコンテキスト畳み込みエンコーダ・デコーダアーキテクチャを用いる。 米国メリーランドの4年間のアーカイブされたワークゾーン交通データに基づいて、このモデルは、トラフィック速度、インシデント可能性、待ち行列の長さや混雑タイミング(開始時間と継続時間)などの推定トラフィック特性を予測する上で、ベースラインモデルよりも優れた性能を示す。 具体的には,トラフィック速度の予測誤差を5%から34%,待ち行列長を11%から29%,混雑タイミングを6%から17%,インシデント予測の精度を5%から7%に向上させることで,ベースラインモデルより優れている。 したがって、このモデルは、ワークゾーンの計画と交通管理を強化するための大きな約束を提供する。

Work zone is one of the major causes of non-recurrent traffic congestion and road incidents. Despite the significance of its impact, studies on predicting the traffic impact of work zones remain scarce. In this paper, we propose a data integration pipeline that enhances the utilization of work zone and traffic data from diversified platforms, and introduce a novel deep learning model to predict the traffic speed and incident likelihood during planned work zone events. The proposed model transforms traffic patterns into 2D space-time images for both model input and output and employs an attention-based multi-context convolutional encoder-decoder architecture to capture the spatial-temporal dependencies between work zone events and traffic variations. Trained and validated on four years of archived work zone traffic data from Maryland, USA, the model demonstrates superior performance over baseline models in predicting traffic speed, incident likelihood, and inferred traffic attributes such as queue length and congestion timings (i.e., start time and duration). Specifically, the proposed model outperforms the baseline models by reducing the prediction error of traffic speed by 5% to 34%, queue length by 11% to 29%, congestion timing by 6% to 17%, and increasing the accuracy of incident predictions by 5% to 7%. Consequently, this model offers substantial promise for enhancing the planning and traffic management of work zones.
翻訳日:2024-06-03 13:19:30 公開日:2024-05-31
# 探索的選好最適化: サンプル効率の良いRLHFに対する入出力Q*近似のハーネス化

Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF ( http://arxiv.org/abs/2405.21046v1 )

ライセンス: Link先を確認
Tengyang Xie, Dylan J. Foster, Akshay Krishnamurthy, Corby Rosset, Ahmed Awadallah, Alexander Rakhlin, (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、言語モデルアライメントのための中心的なツールとして現れている。 RLHFのオンライン探索は、人間やAIのフィードバックへの対話的アクセスを利用して、モデルに多様で、最大限に情報を伝達する応答を意図的に促す。 RLHFを事前訓練されたモデルから確実に逸脱させることによって、オンライン探索は、新しい、潜在的に超人的な能力の可能性を提供するが、既存の強化学習技術を直接適応する際の計算的および統計的ボトルネックのため、言語モデルトレーニングのパラダイムとしてのその大きな可能性はまだ実現されていない。 我々は,RLHFにおけるオンライン探索のための新しいアルゴリズムであるExploratory Preference Optimization (XPO)を提案する。これはシンプルで実践的で,(オンライン)直接選好最適化 (DPO; Rafailov et al , 2023) への一直線的な変更であるが,証明可能な最強の保証と有望な経験的性能を享受している。 XPOはDPOの目的を、新鮮で原則化された探索ボーナスで強化し、初期モデルと人間のフィードバックデータのサポートの外を探索するアルゴリズムを強化する。 理論上,XPO はサンプル効率が良好であり,自然探索条件下では,初期モデルが良好なカバレッジを持つか否かに関わらず,ほぼ最適言語モデルポリシーに収束することを示す。 我々の分析は、DPOが暗黙的に$Q^{\star}$-approximation(またはベルマン誤差最小化)の形式で実行しているという観察に基づいており、KL規則化マルコフ決定プロセスの観点から、言語モデリングと理論的強化学習との相違した技術を組み合わせている。 実験により,XPOは予備評価において非探索的DPO変種よりも試料効率が高いことがわかった。

Reinforcement learning from human feedback (RLHF) has emerged as a central tool for language model alignment. We consider online exploration in RLHF, which exploits interactive access to human or AI feedback by deliberately encouraging the model to produce diverse, maximally informative responses. By allowing RLHF to confidently stray from the pre-trained model, online exploration offers the possibility of novel, potentially super-human capabilities, but its full potential as a paradigm for language model training has yet to be realized, owing to computational and statistical bottlenecks in directly adapting existing reinforcement learning techniques. We propose a new algorithm for online exploration in RLHF, Exploratory Preference Optimization (XPO), which is simple and practical -- a one-line change to (online) Direct Preference Optimization (DPO; Rafailov et al., 2023) -- yet enjoys the strongest known provable guarantees and promising empirical performance. XPO augments the DPO objective with a novel and principled exploration bonus, empowering the algorithm to explore outside the support of the initial model and human feedback data. In theory, we show that XPO is provably sample-efficient and converges to a near-optimal language model policy under natural exploration conditions, irrespective of whether the initial model has good coverage. Our analysis, which builds on the observation that DPO implicitly performs a form of $Q^{\star}$-approximation (or, Bellman error minimization), combines previously disparate techniques from language modeling and theoretical reinforcement learning in a serendipitous fashion through the perspective of KL-regularized Markov decision processes. Empirically, we find that XPO is more sample-efficient than non-exploratory DPO variants in a preliminary evaluation.
翻訳日:2024-06-03 13:19:30 公開日:2024-05-31
# 文法対応復号法

Grammar-Aligned Decoding ( http://arxiv.org/abs/2405.21047v1 )

ライセンス: Link先を確認
Kanghee Park, Jiayu Wang, Taylor Berg-Kirkpatrick, Nadia Polikarpova, Loris D'Antoni, (参考訳) LLM(Large Language Models)は、プログラムコード、数学的公式、整形されたマークアップなどの高度に構造化された出力を確実に生成するのに苦労する。 制約付き復号法は、LLMが出力できるトークンを各ステップで厳格に制限し、出力が与えられた制約と一致することを保証することによってこの問題を軽減する。 具体的には、文法制約付き復号法(GCD)では、LLMの出力は与えられた文法に従う必要がある。 本稿では、GCD技術(および一般に制約付き復号法)がLLMの分布を歪め、文法的ではあるがLLMに比例しない確率で現れる出力を導出し、最終的に低品質であることを示す。 本稿では, 文法制約, 文法整合復号法(GAD)との整合性の問題と, 与えられた文法制約に条件付きLLM分布の条件付き確率に整合した出力を生成しつつ, 出力を文法的に保証する復号アルゴリズム(ASAp)を提案する。 提案アルゴリズムは, 事前サンプル出力を用いて, 異なる出力プレフィックスの将来の文法性を過大評価する。 コード生成および構造化NLPタスクの評価は、ASApが既存のGCD技術よりも高い可能性(LLMの分布による)で出力を出力する一方で、所望の文法的制約を課していることを示す。

Large Language Models (LLMs) struggle with reliably generating highly structured outputs, such as program code, mathematical formulas, or well-formed markup. Constrained decoding approaches mitigate this problem by greedily restricting what tokens an LLM can output at each step to guarantee that the output matches a given constraint. Specifically, in grammar-constrained decoding (GCD), the LLM's output must follow a given grammar. In this paper we demonstrate that GCD techniques (and in general constrained decoding techniques) can distort the LLM's distribution, leading to outputs that are grammatical but appear with likelihoods that are not proportional to the ones given by the LLM, and so ultimately are low-quality. We call the problem of aligning sampling with a grammar constraint, grammar-aligned decoding (GAD), and propose adaptive sampling with approximate expected futures (ASAp), a decoding algorithm that guarantees the output to be grammatical while provably producing outputs that match the conditional probability of the LLM's distribution conditioned on the given grammar constraint. Our algorithm uses prior sample outputs to soundly overapproximate the future grammaticality of different output prefixes. Our evaluation on code generation and structured NLP tasks shows how ASAp often produces outputs with higher likelihood (according to the LLM's distribution) than existing GCD techniques, while still enforcing the desired grammatical constraints.
翻訳日:2024-06-03 13:19:30 公開日:2024-05-31
# Kaleido Diffusion:自己回帰潜在モデルによる条件付き拡散モデルの改善

Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling ( http://arxiv.org/abs/2405.21048v1 )

ライセンス: Link先を確認
Jiatao Gu, Ying Shen, Shuangfei Zhai, Yizhe Zhang, Navdeep Jaitly, Joshua M. Susskind, (参考訳) 拡散モデルは、テキスト記述から高品質な画像を生成する強力なツールとして登場した。 それらの成功にもかかわらず、これらのモデルはサンプリングされた画像に制限された多様性を示すことが多く、特に高い分類器のないガイダンスウェイトでサンプリングする場合に顕著である。 この問題に対処するため, 自己回帰的潜伏先行を組み込むことにより, サンプルの多様性を高める新しいアプローチであるKaleidoを提案する。 Kaleidoは、オリジナルのキャプションをエンコードして潜伏変数を生成する自動回帰言語モデルを統合し、画像生成プロセスの導出と促進のための抽象的および中間的表現として機能する。 本稿では,テキスト記述,境界ボックスの検出,オブジェクトブロブ,視覚トークンなど,さまざまな遅延表現について検討する。 これらの表現は、入力条件を拡散モデルに多様化し、より多様な出力を可能にする。 実験の結果, 画像品質を維持しつつ, テキスト記述から生成した画像の多様性を効果的に拡張できることが示唆された。 さらに, カレイドは生成した潜伏変数の指示に忠実に従属し, 画像生成過程を効果的に制御し, 指示する能力を示す。

Diffusion models have emerged as a powerful tool for generating high-quality images from textual descriptions. Despite their successes, these models often exhibit limited diversity in the sampled images, particularly when sampling with a high classifier-free guidance weight. To address this issue, we present Kaleido, a novel approach that enhances the diversity of samples by incorporating autoregressive latent priors. Kaleido integrates an autoregressive language model that encodes the original caption and generates latent variables, serving as abstract and intermediary representations for guiding and facilitating the image generation process. In this paper, we explore a variety of discrete latent representations, including textual descriptions, detection bounding boxes, object blobs, and visual tokens. These representations diversify and enrich the input conditions to the diffusion models, enabling more diverse outputs. Our experimental results demonstrate that Kaleido effectively broadens the diversity of the generated image samples from a given textual description while maintaining high image quality. Furthermore, we show that Kaleido adheres closely to the guidance provided by the generated latent variables, demonstrating its capability to effectively control and direct the image generation process.
翻訳日:2024-06-03 13:19:30 公開日:2024-05-31
# 拡散モデルにおけるスペクトル認識パラメータの効率的な微調整

Spectrum-Aware Parameter Efficient Fine-Tuning for Diffusion Models ( http://arxiv.org/abs/2405.21050v1 )

ライセンス: Link先を確認
Xinxi Zhang, Song Wen, Ligong Han, Felix Juefei-Xu, Akash Srivastava, Junzhou Huang, Hao Wang, Molei Tao, Dimitris N. Metaxas, (参考訳) パラメータ効率のよい大規模事前学習生成モデルへの適応が進んでいる。 低ランク適応のような従来の手法は、制約を課すことでパラメータ効率を達成するが、高い表現能力を必要とするタスクには最適ではないかもしれない。 生成モデルのための新しいスペクトル対応適応フレームワークを提案する。 本手法は,事前学習した重みの特異値とその基底ベクトルを調節する。 Kronecker積と効率的なStiefelオプティマイザを用いて、直交行列のパラメータ効率の適応を実現する。 本稿では,計算効率と表現能力のバランスをとるスペクトル直交分解適応(SODA)を提案する。 テキストと画像の拡散モデルに対する広範囲な評価はSODAの有効性を示し、既存の微調整法に代わるスペクトル認識を提供する。

Adapting large-scale pre-trained generative models in a parameter-efficient manner is gaining traction. Traditional methods like low rank adaptation achieve parameter efficiency by imposing constraints but may not be optimal for tasks requiring high representation capacity. We propose a novel spectrum-aware adaptation framework for generative models. Our method adjusts both singular values and their basis vectors of pretrained weights. Using the Kronecker product and efficient Stiefel optimizers, we achieve parameter-efficient adaptation of orthogonal matrices. We introduce Spectral Orthogonal Decomposition Adaptation (SODA), which balances computational efficiency and representation capacity. Extensive evaluations on text-to-image diffusion models demonstrate SODA's effectiveness, offering a spectrum-aware alternative to existing fine-tuning methods.
翻訳日:2024-06-03 13:19:30 公開日:2024-05-31
# 優れたモデリングソフトウェアプラクティス

Good Modelling Software Practices ( http://arxiv.org/abs/2405.21051v1 )

ライセンス: Link先を確認
Carsten Lemmen, Philipp Sebastian Sommer, (参考訳) 社会環境科学では、モデルはしばしば複雑なシステムの振る舞いを表現、理解、予測するためのツールとして使われる。 モデリングチェーンとともに、Good Modelling Practicesは、モデルが透明で複製可能であることを保証するように進化してきました。 このようなモデルがソフトウェアで表現されるたびに、優れたモデリングは、トラクターブルな開発ワークフロー、良いコード、協調的な開発とガバナンス、継続的インテグレーションとデプロイメント、そして、著作権の帰属や知的財産の承認、ソフトウェアペーパーの公開、アーカイブといった優れた科学的プラクティスに適合します。 既存の社会環境モデルソフトウェアでは、これらのプラクティスは後になってのみ考慮すべきアドオンと見なされてきたが、実際、多くのモデラーは、良いプラクティスを加える必要があるという懸念から、自分たちのモデルをオープンソースとして公開することを避けている。 ここでは、モデルライフサイクルの実装の初期段階において、単純で簡単なプラクティスのリストに従う習慣について論じます。 我々は,良質なモデリング実践を支援するために,チェリーピックやハンズオンの実践を文脈的に検討し,その適用例を北海水産社会生態学モデルに例証する。

In socio-environmental sciences, models are frequently used as tools to represent, understand, project and predict the behaviour of these complex systems. Along the modelling chain, Good Modelling Practices have been evolving that ensure -- amongst others -- that models are transparent and replicable. Whenever such models are represented in software, good modelling meets Good software Practices, such as a tractable development workflow, good code, collaborative development and governance, continuous integration and deployment, and Good Scientific Practices, such as attribution of copyrights and acknowledgement of intellectual property, publication of a software paper and archiving. Too often in existing socio-environmental model software, these practices have been regarded as an add-on to be considered at a later stage only; in fact, many modellers have shied away from publishing their model as open source out of fear that having to add good practices is too demanding. We here argue for making a habit of following a list of simple and not so simple practices early on in the implementation of the model life cycle. We contextualise cherry-picked and hands-on practices for supporting Good Modelling Practices, and we demonstrate their application in the example context of the Viable North Sea fisheries socio-ecological systems model.
翻訳日:2024-06-03 13:19:30 公開日:2024-05-31
# RydbergGPT

RydbergGPT ( http://arxiv.org/abs/2405.21052v1 )

ライセンス: Link先を確認
David Fitzek, Yi Hong Teoh, Hin Pok Fung, Gebremedhin A. Dagnew, Ejaaz Merali, M. Schuyler Moss, Benjamin MacLellan, Roger G. Melko, (参考訳) 我々は、中性原子配列量子コンピュータの測定結果の学習を目的として、GPT(Generative Pretained Transformer)を導入する。 バニラ変換器をベースとして、我々のエンコーダデコーダアーキテクチャは相互作用するハミルトニアンを入力として、量子ビット測定確率の自己回帰列を出力する。 その性能は、正方格子アレイ内のリドベルク原子の量子相転移の近傍で研究されている。 我々は、トレーニングセットにないハミルトンパラメータの基底状態測定を作成することによって、アーキテクチャが一般化する能力について検討する。 我々は,NVIDIA A100 GPUを1つのGPUで固定計算時間でトレーニングした,3つの異なるモデルに対する推論から得られる物理オブザーバブルの例に注目した。 これらは将来、より大きなRydbergGPTモデルのスケーリングのベンチマークとして機能する。 最後に、RydbergGPTオープンソースを提供し、将来、様々な量子コンピュータの相互作用とデータセットに基づく基礎モデルの開発を支援する。

We introduce a generative pretained transformer (GPT) designed to learn the measurement outcomes of a neutral atom array quantum computer. Based on a vanilla transformer, our encoder-decoder architecture takes as input the interacting Hamiltonian, and outputs an autoregressive sequence of qubit measurement probabilities. Its performance is studied in the vicinity of a quantum phase transition in Rydberg atoms in a square lattice array. We explore the ability of the architecture to generalize, by producing groundstate measurements for Hamiltonian parameters not seen in the training set. We focus on examples of physical observables obtained from inference on three different models, trained in fixed compute time on a single NVIDIA A100 GPU. These can act as benchmarks for the scaling of larger RydbergGPT models in the future. Finally, we provide RydbergGPT open source, to aid in the development of foundation models based off of a wide variety of quantum computer interactions and data sets in the future.
翻訳日:2024-06-03 13:09:46 公開日:2024-05-31
# ソフトウェア自動テストツールコースにおける学生のパフォーマンスに影響する要因

Factors Influencing Performance of Students in Software Automated Test Tools Course ( http://arxiv.org/abs/2405.21055v1 )

ライセンス: Link先を確認
Susmita Haldar, Mary Pierce, Luiz Fernando Capretz, (参考訳) フォーマルなソフトウェアテスティング教育は、効率的なQA専門家を構築する上で重要である。 品質保証アプローチの様々な側面は、通常、ソフトウェアテストの学生を訓練するためのコースでカバーされます。 自動テストツール(Automated Test Tools)は、ソフトウェアテスト後のカリキュラムにおける中核的なコースの1つである。 自動テストコースにおいて,どの要因が学生のパフォーマンスに影響を与えているのかを理解することが重要である。 このテストコースで学生のパフォーマンスを予測するために考慮されているさまざまな指標は、学生のエンゲージメント、個々の納品品の格付け、前提条件のコースである。 本研究は,個人対グループ活動,理論的対実践的要素に基づく学生評価の効果と,最終学年において必要条件の講座を受講する効果を明らかにする。 本研究は,ソフトウェアテストにおいて,コミュニティカレッジの卒後証明プログラムの自動テストツールコースから学生データを収集した。 このデータセットは2021年から2022年までの学生の記録を含んでおり、5つの異なる学区の情報で構成されていた。 各種機械学習アルゴリズムを用いて,自動ソフトウェアテストツールコースにおいて,学生のパフォーマンスを予測する効果的なモデルを構築し,さらに,学生のパフォーマンスに影響を及ぼす重要な特徴を同定した。 ロジスティック回帰法を適用した自動テストツールコースの予測性能モデルでは,90%の精度で最高の性能を示した。

Formal software testing education is important for building efficient QA professionals. Various aspects of quality assurance approaches are usually covered in courses for training software testing students. Automated Test Tools is one of the core courses in the software testing post-graduate curriculum due to the high demand for automated testers in the workforce. It is important to understand which factors are affecting student performance in the automated testing course to be able to assist the students early on based on their needs. Various metrics that are considered for predicting student performance in this testing course are student engagement, grades on individual deliverables, and prerequisite courses. This study identifies the impact of assessing students based on individual vs. group activities, theoretical vs. practical components, and the effect of having taken prerequisite courses in their final grade. To carry out this research, student data was collected from the automated test tools course of a community college-based postgraduate certificate program in software testing. The dataset contained student records from the years 2021 to 2022 and consisted of information from five different semesters. Various machine learning algorithms were applied to develop an effective model for predicting students performance in the automated software testing tools course, and finally, important features affecting the students performance were identified. The predictive performance model of the automated test tools course that was developed by applying the logistic regression technique, showed the best performance, with an accuracy score of 90%.
翻訳日:2024-06-03 13:09:46 公開日:2024-05-31
# 直接エネルギーと深層学習を用いた有機雑草制御プロトタイプ

An Organic Weed Control Prototype using Directed Energy and Deep Learning ( http://arxiv.org/abs/2405.21056v1 )

ライセンス: Link先を確認
Deng Cao, Hongbo Zhang, Rajveer Dhillon, (参考訳) 有機雑草の制御は、持続可能なアプローチで収穫量を改善するために不可欠である。 本研究は,有機農場に特化して設計された指向性エネルギー雑草制御ロボットのプロトタイプを提案する。 このロボットは、雑草処理に新しい分散配列ロボット(DAR)ユニットを使用する。 大豆とトウモロコシのデータベースは、深層学習ニューラルネットワークを訓練して雑草認識を行うために構築されている。 最初のディープラーニングニューラルネットワークは、作物の分類において高いパフォーマンスを示す。 このロボットは、完全に有機的でUV-Cフリーで、土壌に化学的な損傷や物理的障害はない。 深層学習は、自然環境下でのダイズ畑の雑草8種を最大98%の精度で分類することができる。

Organic weed control is a vital to improve crop yield with a sustainable approach. In this work, a directed energy weed control robot prototype specifically designed for organic farms is proposed. The robot uses a novel distributed array robot (DAR) unit for weed treatment. Soybean and corn databases are built to train deep learning neural nets to perform weed recognition. The initial deep learning neural nets show a high performance in classifying crops. The robot uses a patented directed energy plant eradication recipe that is completely organic and UV-C free, with no chemical damage or physical disturbance to the soil. The deep learning can classify 8 common weed species in a soybean field under natural environment with up to 98% accuracy.
翻訳日:2024-06-03 13:09:46 公開日:2024-05-31
# 多変量関数の量子状態準備

Quantum state preparation for multivariate functions ( http://arxiv.org/abs/2405.21058v1 )

ライセンス: Link先を確認
Matthias Rosenkranz, Eric Brunner, Gabriel Marin-Sanchez, Nathan Fitzpatrick, Silas Dilkes, Yao Tang, Yuta Kikuchi, Marcello Benedetti, (参考訳) 量子アルゴリズムの基本ステップは、適切な初期状態の量子ビットレジスタを作成することである。 しばしばqubitレジスタは連続変数の離散化を表し、初期状態は多変量関数によって定義される。 フーリエ基底関数とチェビシェフ基底関数のブロックエンコーディングを線形に組み合わせ、振幅が多変量関数を符号化する量子状態を作成するためのプロトコルを開発する。 演算回路や量子フーリエ変換、多変量量子信号処理を使わずに、我々のアルゴリズムは従来の提案よりもシンプルで効果的である。 我々は,近・中期的資源の観点から,漸近的かつ実用的に要求を分析する。 数値的には, ファイナンス, 物理, 化学シミュレーションに応用可能な初期状態である3次元クーロンポテンシャルにおける2次元リッカーウェーブレット, 2次元リッカーウェーブレット, 電子波動関数を調製する。 最後に,24量子ビットと最大237個の2量子ビットゲートを用いた量子H2-1トラップイオン量子プロセッサ上での2変数ガウス分布を作成する。

A fundamental step of any quantum algorithm is the preparation of qubit registers in a suitable initial state. Often qubit registers represent a discretization of continuous variables and the initial state is defined by a multivariate function. We develop protocols for preparing quantum states whose amplitudes encode multivariate functions by linearly combining block-encodings of Fourier and Chebyshev basis functions. Without relying on arithmetic circuits, quantum Fourier transforms, or multivariate quantum signal processing, our algorithms are simpler and more effective than previous proposals. We analyze requirements both asymptotically and pragmatically in terms of near/medium-term resources. Numerically, we prepare bivariate Student's t-distributions, 2D Ricker wavelets and electron wavefunctions in a 3D Coulomb potential, which are initial states with potential applications in finance, physics and chemistry simulations. Finally, we prepare bivariate Gaussian distributions on the Quantinuum H2-1 trapped-ion quantum processor using 24 qubits and up to 237 two-qubit gates.
翻訳日:2024-06-03 13:09:46 公開日:2024-05-31
# 拡散モデルにおける変量保存と変量爆発の両立

Unified Directly Denoising for Both Variance Preserving and Variance Exploding Diffusion Models ( http://arxiv.org/abs/2405.21059v1 )

ライセンス: Link先を確認
Jingjing Wang, Dan Zhang, Feng Luo, (参考訳) これまでの研究は、分散保存(VP)のシナリオにおいて、初期段階のDDDM(Directly Denoising Diffusion Models)が高品質な画像を1ステップで生成し、マルチステップサンプリングにおいてさらに優れたパフォーマンスを実現することを実証してきた。 しかし、DDDMで使用されるPseudo-LPIPSの損失は、評価のバイアスに関する懸念につながります。 本稿では、分散保存(VP)と分散爆発(VE)の両方のケースに対して、一段階/複数ステップで画像を生成する統合DDDM(uDDDM)フレームワークを提案する。 モデル解パスの存在と特異性の理論的証明とサンプリングパスの非交差性を提供する。 さらに,実際の解と収束過程の安定性のバランスをとるために,適応的な擬似ハマー損失関数を提案する。 特に、uDDDM は、VE と VP それぞれ 2.63 と 2.53 の FID で CIFAR10 上で一段階生成する。 サンプリングを1000ステップに拡張することにより、VEとVPのFIDスコアをそれぞれ1.71と1.65に削減し、両方のケースで最先端のパフォーマンスを設定できる。

Previous work has demonstrated that, in the Variance Preserving (VP) scenario, the nascent Directly Denoising Diffusion Models (DDDM) can generate high-quality images in one step while achieving even better performance in multistep sampling. However, the Pseudo-LPIPS loss used in DDDM leads to concerns about the bias in assessment. Here, we propose a unified DDDM (uDDDM) framework that generates images in one-step/multiple steps for both Variance Preserving (VP) and Variance Exploding (VE) cases. We provide theoretical proofs of the existence and uniqueness of the model's solution paths, as well as the non-intersecting property of the sampling paths. Additionally, we propose an adaptive Pseudo-Huber loss function to balance the convergence to the true solution and the stability of convergence process.Through a comprehensive evaluation, we demonstrate that uDDDMs achieve FID scores comparable to the best-performing methods available for CIFAR-10 in both VP and VE. Specifically, uDDDM achieves one-step generation on CIFAR10 with FID of 2.63 and 2.53 for VE and VP respectively. By extending the sampling to 1000 steps, we further reduce FID score to 1.71 and 1.65 for VE and VP respectively, setting state-of-the-art performance in both cases.
翻訳日:2024-06-03 13:09:46 公開日:2024-05-31
# 変圧器はSSMである:構造化状態空間双対による一般化モデルと効率的なアルゴリズム

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality ( http://arxiv.org/abs/2405.21060v1 )

ライセンス: Link先を確認
Tri Dao, Albert Gu, (参考訳) 言語モデリングにおいて、トランスフォーマーがディープラーニングの成功の裏にある主要なアーキテクチャであるが、Mambaのような状態空間モデル(SSM)は、最近、小規模から中規模でトランスフォーマーをマッチまたは上回ることが示されている。 これらのモデルの族は実際には非常に密接に関連していることを示し、構造化半分離行列のよく研究されたクラスの様々な分解を通して連結された、SSMと注目の変種の間の理論的関係のリッチな枠組みを開発する。 我々の状態空間双対性(SSD)フレームワークは、コア層が2~8倍高速なMambaの選択的なSSMを改良した新しいアーキテクチャ(Mamba-2)を設計できます。

While Transformers have been the main architecture behind deep learning's success in language modeling, state-space models (SSMs) such as Mamba have recently been shown to match or outperform Transformers at small to medium scale. We show that these families of models are actually quite closely related, and develop a rich framework of theoretical connections between SSMs and variants of attention, connected through various decompositions of a well-studied class of structured semiseparable matrices. Our state space duality (SSD) framework allows us to design a new architecture (Mamba-2) whose core layer is an a refinement of Mamba's selective SSM that is 2-8X faster, while continuing to be competitive with Transformers on language modeling.
翻訳日:2024-06-03 13:09:46 公開日:2024-05-31
# グラフ外部アテンション強化変圧器

Graph External Attention Enhanced Transformer ( http://arxiv.org/abs/2405.21061v1 )

ライセンス: Link先を確認
Jianqing Liang, Min Chen, Jiye Liang, (参考訳) Transformerアーキテクチャは最近、グラフ表現学習の分野で大きな注目を集めている。グラフニューラルネットワーク(GNN)のいくつかの制限を自然に克服し、注意機構や位置および構造的エンコーディングをカスタマイズしているからだ。 若干の進展があるにもかかわらず、既存の研究はグラフの外部情報、特にグラフ間の相関を見落としがちである。 直感的には、類似した構造を持つグラフは類似した表現を持つべきである。 そこで本稿では,複数の外部ノード/エッジキー値ユニットを活用してグラフ間相関を暗黙的にキャプチャする,新たな注意機構であるグラフ外部注意(GEA)を提案する。 そこで我々は,より包括的なグラフ表現のための局所構造とグローバル相互作用情報を統合する,グラフ外部注意拡張変換器 (GEAET) と呼ばれる効果的なアーキテクチャを設計する。 ベンチマークデータセットに関する大規模な実験は、GAETが最先端の実証的なパフォーマンスを達成することを示した。 ソースコードは、 https://github.com/icm1018/GEAETで再現可能である。

The Transformer architecture has recently gained considerable attention in the field of graph representation learning, as it naturally overcomes several limitations of Graph Neural Networks (GNNs) with customized attention mechanisms or positional and structural encodings. Despite making some progress, existing works tend to overlook external information of graphs, specifically the correlation between graphs. Intuitively, graphs with similar structures should have similar representations. Therefore, we propose Graph External Attention (GEA) -- a novel attention mechanism that leverages multiple external node/edge key-value units to capture inter-graph correlations implicitly. On this basis, we design an effective architecture called Graph External Attention Enhanced Transformer (GEAET), which integrates local structure and global interaction information for more comprehensive graph representations. Extensive experiments on benchmark datasets demonstrate that GEAET achieves state-of-the-art empirical performance. The source code is available for reproducibility at: https://github.com/icm1018/GEAET.
翻訳日:2024-06-03 13:09:46 公開日:2024-05-31
# 一般非線形性のための分岐境界を用いたニューラルネットワークの検証

Neural Network Verification with Branch-and-Bound for General Nonlinearities ( http://arxiv.org/abs/2405.21063v1 )

ライセンス: Link先を確認
Zhouxing Shi, Qirui Jin, Zico Kolter, Suman Jana, Cho-Jui Hsieh, Huan Zhang, (参考訳) ブランチ・アンド・バウンド(BaB)は、ニューラルネットワーク(NN)検証の最も効果的な方法の一つである。 しかし、BaB の既存の研究は、主に線形に活性化するNN、特に ReLU ネットワークに焦点を当てている。 本稿では、線形有界伝播に基づく一般計算グラフにおいて、一般非線形性に対してBaBを実行するためのGenBaBという一般的なフレームワークを開発する。 分岐するニューロンを決定するために、線形境界をショートカットとして利用し、分岐後の潜在的な改善を効率的に推定する新しい分岐ヒューリスティックを設計する。 一般非線形関数に対する非自明な分岐点を決定するために,探索表を用いた検証において効率よく活用できる分岐点をオフラインで最適化することを提案する。 我々は、Sigmoid、Tanh、Sine、GeLUなどの活性化機能を持つネットワークや、LSTMやVision Transformerの乗算などの多次元非線形演算を含むネットワークを含む、幅広いNNの検証におけるGenBaBの有効性を実証する。 我々のフレームワークは、一般的な非線形計算グラフの検証も可能で、特にAC Optimal Power Flow (ACOPF) において、単純なニューラルネットワークを超える検証を可能としています。 GenBaBは最新の$\alpha,\! 第4回国際ニューラルネットワークコンペティション(VNN-COMP 2023)優勝者。

Branch-and-bound (BaB) is among the most effective methods for neural network (NN) verification. However, existing works on BaB have mostly focused on NNs with piecewise linear activations, especially ReLU networks. In this paper, we develop a general framework, named GenBaB, to conduct BaB for general nonlinearities in general computational graphs based on linear bound propagation. To decide which neuron to branch, we design a new branching heuristic which leverages linear bounds as shortcuts to efficiently estimate the potential improvement after branching. To decide nontrivial branching points for general nonlinear functions, we propose to optimize branching points offline, which can be efficiently leveraged during verification with a lookup table. We demonstrate the effectiveness of our GenBaB on verifying a wide range of NNs, including networks with activation functions such as Sigmoid, Tanh, Sine and GeLU, as well as networks involving multi-dimensional nonlinear operations such as multiplications in LSTMs and Vision Transformers. Our framework also allows the verification of general nonlinear computation graphs and enables verification applications beyond simple neural networks, particularly for AC Optimal Power Flow (ACOPF). GenBaB is part of the latest $\alpha,\!\beta$-CROWN, the winner of the 4th International Verification of Neural Networks Competition (VNN-COMP 2023).
翻訳日:2024-06-03 13:09:46 公開日:2024-05-31
# リカレントニューラルネットワーク:消滅と爆発の勾配は物語の終わりではない

Recurrent neural networks: vanishing and exploding gradients are not the end of the story ( http://arxiv.org/abs/2405.21064v1 )

ライセンス: Link先を確認
Nicolas Zucchet, Antonio Orvieto, (参考訳) リカレントニューラルネットワーク(RNN)は、主に消滅と爆発的な勾配のため、長期記憶の学習に苦慮している。 RNNのサブクラスである状態空間モデル(SSM)の最近の成功は、我々の理論的理解の難しさを克服するものである。 本稿では、RNNの最適化課題を掘り下げ、ネットワークのメモリが増大するにつれてパラメータの変化が大きくなり、爆発的な勾配を伴わずとも勾配に基づく学習に非常に敏感になることを示す。 この効果を緩和するためには,要素単位の繰り返し設計パターンと慎重なパラメトリゼーションが併用されることが重要である。 この機能はSSMやLSTMなど他のアーキテクチャにも実装されている。 全体として、我々の洞察は、RNNの勾配に基づく学習の難しさと、アーキテクチャが他のアーキテクチャよりも優れている理由について、いくつかの新しい説明を提供する。

Recurrent neural networks (RNNs) notoriously struggle to learn long-term memories, primarily due to vanishing and exploding gradients. The recent success of state-space models (SSMs), a subclass of RNNs, to overcome such difficulties challenges our theoretical understanding. In this paper, we delve into the optimization challenges of RNNs and discover that, as the memory of a network increases, changes in its parameters result in increasingly large output variations, making gradient-based learning highly sensitive, even without exploding gradients. Our analysis further reveals the importance of the element-wise recurrence design pattern combined with careful parametrizations in mitigating this effect. This feature is present in SSMs, as well as in other architectures, such as LSTMs. Overall, our insights provide a new explanation for some of the difficulties in gradient-based learning of RNNs and why some architectures perform better than others.
翻訳日:2024-06-03 13:09:46 公開日:2024-05-31
# 3次元室内シーン合成のための混合拡散

Mixed Diffusion for 3D Indoor Scene Synthesis ( http://arxiv.org/abs/2405.21066v1 )

ライセンス: Link先を確認
Siyi Hu, Diego Martin Arroyo, Stephanie Debats, Fabian Manhardt, Luca Carlone, Federico Tombari, (参考訳) リアルな条件付き3Dシーン合成は仮想環境の作成を著しく促進し、コンピュータビジョンやロボティクス研究のための広範なトレーニングデータを提供することができる。 拡散モデルは、例えば、順序のない集合を正確に配置するなど、関連するアプリケーションにおいて優れた性能を示している。 しかし、これらのモデルはフロアコンディショニングシーン合成問題において完全には研究されていない。 MiDiffusion(ミディフュージョン)は、部屋の種類、フロアプラン、および潜在的に既存のオブジェクトから可塑性3D屋内シーンを合成するために設計された、新しい混合離散連続拡散モデルアーキテクチャである。 シーンレイアウトを2次元のフロアプランとオブジェクトの集合で表現し、それぞれがそのカテゴリ、場所、サイズ、方向で定義する。 提案手法は, 離散的意味領域と連続的幾何領域にまたがる構造的腐敗を一意に実装する。 我々は3D-FRONTデータセットに対するアプローチを評価した。 実験により,MiDiffusionは床条件下での3次元シーン合成において,最先端の自己回帰モデルや拡散モデルよりもかなり優れていることが示された。 さらに,本モデルでは,タスク固有のトレーニングを使わずに,デポジトリ・アンド・マスキング戦略を通じて部分的オブジェクト制約を処理できる。 シーンコンプリートや家具配置実験において,MiDiffusionは既存のアプローチよりも明確な優位性を保っていることを示す。

Realistic conditional 3D scene synthesis significantly enhances and accelerates the creation of virtual environments, which can also provide extensive training data for computer vision and robotics research among other applications. Diffusion models have shown great performance in related applications, e.g., making precise arrangements of unordered sets. However, these models have not been fully explored in floor-conditioned scene synthesis problems. We present MiDiffusion, a novel mixed discrete-continuous diffusion model architecture, designed to synthesize plausible 3D indoor scenes from given room types, floor plans, and potentially pre-existing objects. We represent a scene layout by a 2D floor plan and a set of objects, each defined by its category, location, size, and orientation. Our approach uniquely implements structured corruption across the mixed discrete semantic and continuous geometric domains, resulting in a better conditioned problem for the reverse denoising step. We evaluate our approach on the 3D-FRONT dataset. Our experimental results demonstrate that MiDiffusion substantially outperforms state-of-the-art autoregressive and diffusion models in floor-conditioned 3D scene synthesis. In addition, our models can handle partial object constraints via a corruption-and-masking strategy without task specific training. We show MiDiffusion maintains clear advantages over existing approaches in scene completion and furniture arrangement experiments.
翻訳日:2024-06-03 13:09:46 公開日:2024-05-31
# Code Pretrainingは、言語モデルのエンティティ追跡能力を改善する

Code Pretraining Improves Entity Tracking Abilities of Language Models ( http://arxiv.org/abs/2405.21068v1 )

ライセンス: Link先を確認
Najoung Kim, Sebastian Schuster, Shubham Toshniwal, (参考訳) 最近の研究は、コード上で事前学習された言語モデルが、自然言語で表現された会話エンティティの状態変化を追跡する能力を改善するという間接的な証拠を提供している。 本研究では,言語モデルとエンティティ追跡性能を比較することで,この主張を体系的に検証する。 重要な点として、これらのペアはベースモデルと、これらのベースモデル上でトレーニングされたモデルと、追加のコードデータで構成されている。 この分析を拡張して、モデルの有用性を高めるための重要なステップである、別の高度に構造化されたデータ型、アライメントチューニング(アライメントチューニング)の効果をさらに調べる。 大量のコードでトレーニングされたモデルがベースモデルより優れているという明確な証拠が得られます。 一方、様々なモデルファミリにまたがる追加の数学訓練やアライメントチューニングによる一貫した利点は見つからない。

Recent work has provided indirect evidence that pretraining language models on code improves the ability of models to track state changes of discourse entities expressed in natural language. In this work, we systematically test this claim by comparing pairs of language models on their entity tracking performance. Critically, the pairs consist of base models and models trained on top of these base models with additional code data. We extend this analysis to additionally examine the effect of math training, another highly structured data type, and alignment tuning, an important step for enhancing the usability of models. We find clear evidence that models additionally trained on large amounts of code outperform the base models. On the other hand, we find no consistent benefit of additional math training or alignment tuning across various model families.
翻訳日:2024-06-03 13:09:46 公開日:2024-05-31
# データ不均衡を超えた一般化: 転送可能なインサイトのためのCLIPに関する制御された研究

Generalization Beyond Data Imbalance: A Controlled Study on CLIP for Transferable Insights ( http://arxiv.org/abs/2405.21070v1 )

ライセンス: Link先を確認
Xin Wen, Bingchen Zhao, Yilun Chen, Jiangmiao Pang, Xiaojuan Qi, (参考訳) 大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。 これにもかかわらず、プレトレーニングされたCLIPは教師付き学習と比較してデータ不均衡に対して顕著な堅牢性を示し、一般化可能な表現の学習において有意な効果を示す。 本研究は,本研究の背景にある諸要因を解明するための制御実験を行い,CLIPのプレテキストタスクが,授業のサブセットのみが存在するような動的分類問題を形成していることを明らかにする。 これにより、バイアスは支配的なクラスから分離され、暗黙的に学習信号のバランスをとる。 さらに、CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善され、教師付き学習にはアクセスできない。 データ不均衡を超えてCLIPの一般化可能性の背後にあるメカニズムを明らかにするだけでなく、研究コミュニティに伝達可能な洞察を提供する。 これらの結果は教師付き学習と自己教師型学習の両方で検証され、不均衡なデータに基づいてトレーニングされたモデルにより、多様な認識タスクにおいてCLIPレベルのパフォーマンスを達成することができる。 コードは、https://github.com/CVMI-Lab/clip-beyondtail.comから入手できる。

Severe data imbalance naturally exists among web-scale vision-language datasets. Despite this, we find CLIP pre-trained thereupon exhibits notable robustness to the data imbalance compared to supervised learning, and demonstrates significant effectiveness in learning generalizable representations. With an aim to investigate the reasons behind this finding, we conduct controlled experiments to study various underlying factors, and reveal that CLIP's pretext task forms a dynamic classification problem wherein only a subset of classes is present in training. This isolates the bias from dominant classes and implicitly balances the learning signal. Furthermore, the robustness and discriminability of CLIP improve with more descriptive language supervision, larger data scale, and broader open-world concepts, which are inaccessible to supervised learning. Our study not only uncovers the mechanisms behind CLIP's generalizability beyond data imbalance but also provides transferable insights for the research community. The findings are validated in both supervised and self-supervised learning, enabling models trained on imbalanced data to achieve CLIP-level performance on diverse recognition tasks. Code will be available at: https://github.com/CVMI-Lab/clip-beyond-tail.
翻訳日:2024-06-03 13:09:46 公開日:2024-05-31
# リドバーグ原子配列を用いた多体超対称性の量子アナログシミュレーションに向けて

Toward Quantum Analogue Simulation of Many-Body Supersymmetry with Rydberg Atom Arrays ( http://arxiv.org/abs/2405.21073v1 )

ライセンス: Link先を確認
Hrushikesh Sable, Nathan M. Myers, Vito W. Scarola, (参考訳) トポロジカル量子数、ウィッテン指数は、ゼロエネルギーモードと超対称性破壊の可能性を探ることで超対称性モデルを特徴づける。 量子アナログシミュレータにおけるウィッテン指数を推定する平均化法を提案する。 光学的ツイーザーアレイに閉じ込められたライドバーグ原子に関する最近の研究により、我々は関連する超対称XXZスピンモデルを考える。 本稿では,オープンシステムの平均値からウィッテン指数を推定し,そのトポロジ的ロバスト性を数値的に示す。 本研究は,多体トポロジカル物理を直接同定する量子アナログシミュレータの経路を定義する。

A topological quantum number, the Witten index, characterizes supersymmetric models by probing for zero energy modes and the possibility of supersymmetry breaking. We propose an averaging method to infer the Witten index in quantum analogue simulators. Motivated by recent work on Rydberg atoms trapped in optical tweezer arrays, we consider a related supersymmetric XXZ spin model. We show how to infer the Witten index from open system averaging and numerically demonstrate its topological robustness in this model. Our work defines a route for quantum analogue simulators to directly identify many-body topological physics.
翻訳日:2024-06-03 13:09:46 公開日:2024-05-31
# 学習から安心への潜伏した内生学

Latent Intrinsics Emerge from Training to Relight ( http://arxiv.org/abs/2405.21074v1 )

ライセンス: Link先を確認
Xiao Zhang, William Gao, Seemandhar Jain, Michael Maire, David. A. Forsyth, Anand Bhattad, (参考訳) 画像のリライティング(英: Image relighting)とは、ソースイメージからのシーンが、異なる方法で照らされた場合、どのように見えるかを示すタスクである。 逆グラフスキームは、幾何の明示的な表現と選択された内在論の集合を復元し、何らかの形でリライトする。 しかし、逆グラフィックスの誤差制御は困難であり、逆グラフィックス法は選択した内在性の影響のみを表現できる。 本稿では,データ駆動型リライト方式について述べる。 提案手法は,標準的な測定基準による実シーンのSOTAリライティングを生成する。 我々はアルベドを例を使わずに我々の潜伏した内生生物から回収できることを示し, 回収したアルベドはSOTA法と競合することを示した。

Image relighting is the task of showing what a scene from a source image would look like if illuminated differently. Inverse graphics schemes recover an explicit representation of geometry and a set of chosen intrinsics, then relight with some form of renderer. However error control for inverse graphics is difficult, and inverse graphics methods can represent only the effects of the chosen intrinsics. This paper describes a relighting method that is entirely data-driven, where intrinsics and lighting are each represented as latent variables. Our approach produces SOTA relightings of real scenes, as measured by standard metrics. We show that albedo can be recovered from our latent intrinsics without using any example albedos, and that the albedos recovered are competitive with SOTA methods.
翻訳日:2024-06-03 13:09:46 公開日:2024-05-31
# Video-MME:ビデオ分析におけるマルチモーダルLCMの総合評価ベンチマーク

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis ( http://arxiv.org/abs/2405.21075v1 )

ライセンス: Link先を確認
Chaoyou Fu, Yuhan Dai, Yondong Luo, Lei Li, Shuhuai Ren, Renrui Zhang, Zihan Wang, Chenyu Zhou, Yunhang Shen, Mengdan Zhang, Peixian Chen, Yanwei Li, Shaohui Lin, Sirui Zhao, Ke Li, Tong Xu, Xiawu Zheng, Enhong Chen, Rongrong Ji, Xing Sun, (参考訳) 近年,多モード大規模言語モデル (MLLM) が注目されている。 しかし、静的なイメージ理解において、その能力の開発に焦点が当てられている。 シーケンシャルな視覚データ処理におけるMLLMのポテンシャルはいまだ不十分であり、その性能の包括的で高品質な評価が欠如していることが浮き彫りになっている。 本稿では,ビデオ解析におけるMLLMのマルチモード評価ベンチマークであるVideo-MMEを紹介する。 私たちの研究は、既存のベンチマークと4つの重要な特徴を区別しています。 1) 広範シナリオの一般化性を確保するため、6つの主要視覚領域と30のサブフィールドにまたがる映像タイプの多様性。 2) 時間的次元の持続時間,11秒から1時間以内の短・中・長期のビデオを含む。 3)データモダリティの進歩,サブタイトルや音声を含むビデオフレーム以外のマルチモーダル入力の統合により,MLLMの全機能を公開すること。 4) 注釈の質は、専門家アノテータによる厳密なマニュアルラベリングを利用して、正確かつ信頼性の高いモデルアセスメントを容易にする。 合計256時間の900本のビデオが手動で選択され、すべてのビデオコンテンツを繰り返し視聴することで注釈付けされ、2,700対の質問応答対が生成される。 ビデオMMEでは,GPT-4シリーズやGemini 1.5 Pro,InternVL-Chat-V1.5などのオープンソースイメージモデル,LLaVA-NeXT-Videoなどのビデオモデルなど,最先端のMLLMを幅広く評価する。 我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。 これらの結果とともに、我々のデータセットは、より長いシーケンスとマルチモーダルデータを扱うためのさらなる改善の必要性を浮き彫りにしている。 Project Page: https://video-mme.github.io

In the quest for artificial general intelligence, Multi-modal Large Language Models (MLLMs) have emerged as a focal point in recent advancements. However, the predominant focus remains on developing their capabilities in static image understanding. The potential of MLLMs in processing sequential visual data is still insufficiently explored, highlighting the absence of a comprehensive, high-quality assessment of their performance. In this paper, we introduce Video-MME, the first-ever full-spectrum, Multi-Modal Evaluation benchmark of MLLMs in Video analysis. Our work distinguishes from existing benchmarks through four key features: 1) Diversity in video types, spanning 6 primary visual domains with 30 subfields to ensure broad scenario generalizability; 2) Duration in temporal dimension, encompassing both short-, medium-, and long-term videos, ranging from 11 seconds to 1 hour, for robust contextual dynamics; 3) Breadth in data modalities, integrating multi-modal inputs besides video frames, including subtitles and audios, to unveil the all-round capabilities of MLLMs; 4) Quality in annotations, utilizing rigorous manual labeling by expert annotators to facilitate precise and reliable model assessment. 900 videos with a total of 256 hours are manually selected and annotated by repeatedly viewing all the video content, resulting in 2,700 question-answer pairs. With Video-MME, we extensively evaluate various state-of-the-art MLLMs, including GPT-4 series and Gemini 1.5 Pro, as well as open-source image models like InternVL-Chat-V1.5 and video models like LLaVA-NeXT-Video. Our experiments reveal that Gemini 1.5 Pro is the best-performing commercial model, significantly outperforming the open-source models. Our dataset along with these findings underscores the need for further improvements in handling longer sequences and multi-modal data. Project Page: https://video-mme.github.io
翻訳日:2024-06-03 13:09:46 公開日:2024-05-31
# 生成フローネットワークを用いた集団可変自由遷移経路サンプリング

Collective Variable Free Transition Path Sampling with Generative Flow Network ( http://arxiv.org/abs/2405.19961v2 )

ライセンス: Link先を確認
Kiyoung Seong, Seonghyun Park, Seonghwan Kim, Woo Youn Kim, Sungsoo Ahn, (参考訳) 分子系における準安定状態間の遷移経路を理解することは、物質設計と薬物発見に不可欠である。 しかし、分子動力学シミュレーションによるこれらの経路のサンプリングは、準安定状態間の高エネルギー障壁のため、計算的に禁止されている。 最近の機械学習アプローチは、しばしば単純なシステムに制限されるか、高価なドメイン知識から抽出された集合変数(CV)に依存している。 本研究では,生成フローネットワーク(GFlowNets)をCVに依存しない遷移経路のサンプリングに活用することを提案する。 我々は,GFlowNetsのフローマッチング目的から,ターゲット分布とジェネレータの2乗対数比を最小化することにより,分子軌道上のエネルギーベースサンプリングとして問題を再構築し,バイアスポテンシャルを訓練する。 我々の3つのタンパク質(アラニンジペプチド、ポリプロリン、チグノリン)に対する評価は、我々のアプローチであるTPS-GFNが、従来のCVフリー機械学習アプローチよりも現実的で多様な遷移経路を生成することを示している。

Understanding transition paths between meta-stable states in molecular systems is fundamental for material design and drug discovery. However, sampling these paths via molecular dynamics simulations is computationally prohibitive due to the high-energy barriers between the meta-stable states. Recent machine learning approaches are often restricted to simple systems or rely on collective variables (CVs) extracted from expensive domain knowledge. In this work, we propose to leverage generative flow networks (GFlowNets) to sample transition paths without relying on CVs. We reformulate the problem as amortized energy-based sampling over molecular trajectories and train a bias potential by minimizing the squared log-ratio between the target distribution and the generator, derived from the flow matching objective of GFlowNets. Our evaluation on three proteins (Alanine Dipeptide, Polyproline, and Chignolin) demonstrates that our approach, called TPS-GFN, generates more realistic and diverse transition paths than the previous CV-free machine learning approach.
翻訳日:2024-06-03 12:59:52 公開日:2024-05-31
# Dual Encoding と Threshold を用いた再分類によるアウト・オブ・スコープのインテント分類の改善

Improved Out-of-Scope Intent Classification with Dual Encoding and Threshold-based Re-Classification ( http://arxiv.org/abs/2405.19967v2 )

ライセンス: Link先を確認
Hossam M. Zawbaa, Wael Rashwan, Sourav Dutta, Haytham Assem, (参考訳) タスク指向対話や意図分類には,スコープ外発話の検出が不可欠である。 現在の手法は、予測不可能なアウトレイラの分布に困難に直面し、しばしばデータ分布に関する仮定に依存している。 本稿では,これらの課題に対処するため,Threshold-Based Re-Classification (DETER) のためのデュアルエンコーダを提案する。 このエンドツーエンドフレームワークは、データ分散や追加の後処理ステップを仮定することなく、スコープ外インテントを効率的に検出する。 DETERのコアは、デュアルテキストエンコーダであるUniversal Sentence Encoder(USE)とTransformerベースのDenoising Auto Encoder(TSDAE)を使用して、分岐ニューラルネットワークアーキテクチャによって分類されたユーザ発話の埋め込みを生成する。 さらに、DETERは自己スーパービジョンを用いて合成外れ値を生成し、オープンドメインデータセットからスコープ外のフレーズを組み込む。 このアプローチは、スコープ外検出のための包括的なトレーニングセットを保証する。 さらに、しきい値に基づく再分類機構により、モデルの初期予測が洗練される。 CLINC-150、Stackoverflow、Banking77データセットの評価は、DETERの有効性を示している。 私たちのモデルは,CLINC-150とStackoverflowに関する未知の意図に対するF1スコアの13%と5%,Banding77に関する未知の意図に対する16%,不明な意図に対する24%に向上しています。 ソースコードはhttps://github.com/Hossam-Mohammed-tech/Intent_Classification_OOSで公開されている。

Detecting out-of-scope user utterances is essential for task-oriented dialogues and intent classification. Current methodologies face difficulties with the unpredictable distribution of outliers and often rely on assumptions about data distributions. We present the Dual Encoder for Threshold-Based Re-Classification (DETER) to address these challenges. This end-to-end framework efficiently detects out-of-scope intents without requiring assumptions on data distributions or additional post-processing steps. The core of DETER utilizes dual text encoders, the Universal Sentence Encoder (USE) and the Transformer-based Denoising AutoEncoder (TSDAE), to generate user utterance embeddings, which are classified through a branched neural architecture. Further, DETER generates synthetic outliers using self-supervision and incorporates out-of-scope phrases from open-domain datasets. This approach ensures a comprehensive training set for out-of-scope detection. Additionally, a threshold-based re-classification mechanism refines the model's initial predictions. Evaluations on the CLINC-150, Stackoverflow, and Banking77 datasets demonstrate DETER's efficacy. Our model outperforms previous benchmarks, increasing up to 13% and 5% in F1 score for known and unknown intents on CLINC-150 and Stackoverflow, and 16% for known and 24% % for unknown intents on Banking77. The source code has been released at https://github.com/Hossam-Mohammed-tech/Intent_Classification_OOS.
翻訳日:2024-06-03 12:59:52 公開日:2024-05-31
# DP-IQA:野生のブラインド画像品質評価に先立って拡散を利用する

DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild ( http://arxiv.org/abs/2405.19996v2 )

ライセンス: Link先を確認
Honghao Fu, Yufei Wang, Wenhan Yang, Bihan Wen, (参考訳) 画像品質評価(IQA)は,高品質な画像の選択や,一連のアプリケーションにおける圧縮・拡張手法の指導において重要な役割を担っている。 ブラインドIQAは、参照画像のない複雑な真の歪みを含む、ワイヤ内画像の品質を評価することで、より大きな課題を提起する。 既存の手法は局所パッチを用いた均一分布のモデル化に限られており、低レベルのビジョンと高レベルのビジョンのギャップに悩まされている。 本稿では, 画像の視覚的品質の知覚において, セマンティックギャップを橋渡しする優れた能力で, 事前学習した拡散モデルからの事前知識を活用する, 拡散事前ベースIQA (DP-IQA) と呼ばれる新しいIQA手法を提案する。 具体的には、トレーニング済みの安定拡散をバックボーンとして使用し、所定のタイミングでアップサンプリング中のU-Netからマルチレベル特徴を抽出し、画像品質スコアをデコードして推定する。 テキストおよびイメージアダプタは、下流タスクの領域ギャップを緩和し、変分オートエンコーダボトルネックに起因する情報損失を補正するために採用される。 最後に、上記のモデルにおける知識をCNNベースの学生モデルに蒸留し、適用性を高めるためにパラメータを著しく削減し、学生モデルは驚くほど教師モデルと同じような、あるいはそれ以上に優れている。 実験の結果, DP-IQAは, 画像品質評価のための拡散の階層的特徴指標を用いて, 大域的モデリングにおける手法の優位性を示した。

Image quality assessment (IQA) plays a critical role in selecting high-quality images and guiding compression and enhancement methods in a series of applications. The blind IQA, which assesses the quality of in-the-wild images containing complex authentic distortions without reference images, poses greater challenges. Existing methods are limited to modeling a uniform distribution with local patches and are bothered by the gap between low and high-level visions (caused by widely adopted pre-trained classification networks). In this paper, we propose a novel IQA method called diffusion priors-based IQA (DP-IQA), which leverages the prior knowledge from the pre-trained diffusion model with its excellent powers to bridge semantic gaps in the perception of the visual quality of images. Specifically, we use pre-trained stable diffusion as the backbone, extract multi-level features from the denoising U-Net during the upsampling process at a specified timestep, and decode them to estimate the image quality score. The text and image adapters are adopted to mitigate the domain gap for downstream tasks and correct the information loss caused by the variational autoencoder bottleneck. Finally, we distill the knowledge in the above model into a CNN-based student model, significantly reducing the parameter to enhance applicability, with the student model performing similarly or even better than the teacher model surprisingly. Experimental results demonstrate that our DP-IQA achieves state-of-the-art results on various in-the-wild datasets with better generalization capability, which shows the superiority of our method in global modeling and utilizing the hierarchical feature clues of diffusion for evaluating image quality.
翻訳日:2024-06-03 12:59:52 公開日:2024-05-31
# CycleFormer : 言語モデリングに基づくTSPソルバー

CycleFormer : TSP Solver Based on Language Modeling ( http://arxiv.org/abs/2405.20042v2 )

ライセンス: Link先を確認
Jieun Yook, Junpyo Seo, Joon Huh, Han Joon Byun, Byung-ro Mooon, (参考訳) 本稿では,CycleFormerと呼ばれるトラベリングセールスマン問題(TSP)に対するトランスフォーマーモデルを提案する。 従来の変圧器モデルをTSPに適用する際に考慮すべき特徴を特定し,これらの要素をTSP固有の変圧器に完全に組み込むことを目的とした。 限定的で静的な典型的な言語モデルのトークンセットとは異なり、TSPのトークンセット(ノード)は無制限で動的である。 この事実を最大限に活用するために、エンコーダ出力をデコーダ線形層と同一視し、エンコーダのコンテキストベクトルをデコーダ符号化に直接接続した。 さらに,TSPの2次元特性を反映したエンコーダトークンに位置符号化を加え,ツアーの循環特性を考慮したデコーダトークンの円形位置符号化を考案した。 これらのアイデアを取り入れることで、CycleFormer は TSP を TSP-50 から TSP-500 へ変換する SOTA (State-of-the-art) モデルより優れている。 特にTSP-500では、既存のSOTAと比較して、最適性ギャップが3.09%から1.10%に約2.8倍削減された。 コードはhttps://github.com/Giventicket/CycleFormer.comから入手できる。

We propose a new transformer model for the Traveling Salesman Problem (TSP) called CycleFormer. We identified distinctive characteristics that need to be considered when applying a conventional transformer model to TSP and aimed to fully incorporate these elements into the TSP-specific transformer. Unlike the token sets in typical language models, which are limited and static, the token (node) set in TSP is unlimited and dynamic. To exploit this fact to the fullest, we equated the encoder output with the decoder linear layer and directly connected the context vector of the encoder to the decoder encoding. Additionally, we added a positional encoding to the encoder tokens that reflects the two-dimensional nature of TSP, and devised a circular positional encoding for the decoder tokens that considers the cyclic properties of a tour. By incorporating these ideas, CycleFormer outperforms state-of-the-art (SOTA) transformer models for TSP from TSP-50 to TSP-500. Notably, on TSP-500, the optimality gap was reduced by approximately 2.8 times, from 3.09% to 1.10%, compared to the existing SOTA. The code will be made available at https://github.com/Giventicket/CycleFormer.
翻訳日:2024-06-03 12:59:52 公開日:2024-05-31
# 次世代ハンド義手のためのハードウェア効率の良いEMGデコーディング

Hardware-Efficient EMG Decoding for Next-Generation Hand Prostheses ( http://arxiv.org/abs/2405.20052v2 )

ライセンス: Link先を確認
Mohammad Kalbasi, MohammadAli Shaeri, Vincent Alexandre Mendez, Solaiman Shokur, Silvestro Micera, Mahsa Shoaran, (参考訳) 神経工学の進歩は、手機能の回復を目的としたロボット義肢(RPH)の開発を可能にした。 現在の商用RPHは、基本的なオン/オフコマンドによる限定的な制御を提供する。 機械学習の最近の進歩は、より高い自由度で指の動きの復号化を可能にするが、そのようなモデルの高い計算複雑性は、携帯機器におけるその応用を制限している。 将来のRPH設計では、障害のある人には移植性、消費電力の低さ、復号精度の両立を図らなければならない。 そこで本研究では,次世代携帯型RPHのオンチップ動作復号化を実現するために,新たなアトラクタベースニューラルネットワークを提案する。 提案アーキテクチャは、エンコーダ、アテンション層、アトラクタネットワーク、精細化レグレシタからなる。 対象は健常者4名で, 復号精度は80.3%であった。 提案手法は,最先端のLSTMモデルとCNNモデルと比較して120倍,50倍の圧縮性を有し,復号精度は同等(あるいは優れている)。 したがって、最小限のハードウェアの複雑さを示し、System-on-Chipとして効果的に統合できる。

Advancements in neural engineering have enabled the development of Robotic Prosthetic Hands (RPHs) aimed at restoring hand functionality. Current commercial RPHs offer limited control through basic on/off commands. Recent progresses in machine learning enable finger movement decoding with higher degrees of freedom, yet the high computational complexity of such models limits their application in portable devices. Future RPH designs must balance portability, low power consumption, and high decoding accuracy to be practical for individuals with disabilities. To this end, we introduce a novel attractor-based neural network to realize on-chip movement decoding for next-generation portable RPHs. The proposed architecture comprises an encoder, an attention layer, an attractor network, and a refinement regressor. We tested our model on four healthy subjects and achieved a decoding accuracy of 80.3%. Our proposed model is over 120 and 50 times more compact compared to state-of-the-art LSTM and CNN models, respectively, with comparable (or superior) decoding accuracy. Therefore, it exhibits minimal hardware complexity and can be effectively integrated as a System-on-Chip.
翻訳日:2024-06-03 12:59:52 公開日:2024-05-31
# 高次元関数の整合のためのN次元ガウス多様体

N-Dimensional Gaussians for Fitting of High Dimensional Functions ( http://arxiv.org/abs/2405.20067v2 )

ライセンス: Link先を確認
Stavros Diolatzis, Tobias Zirr, Alexandr Kuznetsov, Georgios Kopanas, Anton Kaplanyan, (参考訳) 高品質な3Dコンテンツを再構成し、表現するためのMLに触発された新しいアプローチが数多く導入され、近年のハイブリッドおよび明示的な表現は、有望な性能と品質特性を示す。 しかし、それらの高次元へのスケーリングは、例えば、材料特性、照明、時間といった追加のパラメータに関して動的コンテンツを説明する場合など、困難である。 本稿では,ガウス混合モデルに基づく明示的な表現のために,これらの課題に取り組む。 我々は, コンパクトなN-次元ガウス混合体を効率よく適合させ, レンダリング時の効率的な評価を可能にした: 高速なフィッティングと評価のために, 局所性感性ハッシュに着想を得たN-Dガウスを効率的に結合する高次元カリングスキームを導入する。 適応的洗練とコンパクト化を両立させるため,損失適応密度制御方式を導入し,余分な詳細に向けて追加容量の使用を漸進的に誘導する。 これらのツールを使えば、数分で最適化されミリ秒でレンダリングされるコンパクトで明示的な表現の中で、位置や視角を超えた多くの入力次元に依存する複雑な外観を初めて表現できる。

In the wake of many new ML-inspired approaches for reconstructing and representing high-quality 3D content, recent hybrid and explicitly learned representations exhibit promising performance and quality characteristics. However, their scaling to higher dimensions is challenging, e.g. when accounting for dynamic content with respect to additional parameters such as material properties, illumination, or time. In this paper, we tackle these challenges for an explicit representations based on Gaussian mixture models. With our solutions, we arrive at efficient fitting of compact N-dimensional Gaussian mixtures and enable efficient evaluation at render time: For fast fitting and evaluation, we introduce a high-dimensional culling scheme that efficiently bounds N-D Gaussians, inspired by Locality Sensitive Hashing. For adaptive refinement yet compact representation, we introduce a loss-adaptive density control scheme that incrementally guides the use of additional capacity towards missing details. With these tools we can for the first time represent complex appearance that depends on many input dimensions beyond position or viewing angle within a compact, explicit representation optimized in minutes and rendered in milliseconds.
翻訳日:2024-06-03 12:59:52 公開日:2024-05-31
# ノイズブースト:マルチモーダル大言語モデルに対する雑音摂動による幻覚の緩和

NoiseBoost: Alleviating Hallucination with Noise Perturbation for Multimodal Large Language Models ( http://arxiv.org/abs/2405.20081v2 )

ライセンス: Link先を確認
Kai Wu, Boyuan Jiang, Zhengkai Jiang, Qingdong He, Donghao Luo, Shengzhi Wang, Qingwen Liu, Chengjie Wang, (参考訳) マルチモーダルな大規模言語モデル(MLLM)は、大規模言語モデルに基づく視覚情報構築の強力なメカニズムに寄与する。 しかし、MLLMは幻覚に苦しむことで悪名高い。 分析の結果,幻覚は大きな言語モデル固有の要約機構に起因し,視覚情報を無視しながら言語トークンへの過度な依存につながることが明らかとなった。 本稿では,雑音特徴摂動の統合によりMLLMの幻覚を緩和する,広義かつ簡易な手法であるNossBoostを提案する。 ノイズ摂動は正規化器として機能し、視覚的および言語的トークン間の注意重みのバランスの取れた分布を促進する。 シンプルさにもかかわらず、NossBoostは教師付き微調整や強化学習を含む一般的なトレーニング戦略にわたってMLLMのパフォーマンスを継続的に向上させる。 さらに、NossBoostはMLLMの半教師付き学習を先駆的に可能にし、ラベルなしデータのパワーを解放する。 総合的な実験により、NossBoostは人間の評価によって密度の精度を8.1%向上し、ラベルのないデータをマイニングすることで、データの50%と同等の結果が得られることが示された。 コードとモデルはhttps://kaiwu5.github.io/noiseboost.comで入手できる。

Multimodal large language models (MLLMs) contribute a powerful mechanism to understanding visual information building on large language models. However, MLLMs are notorious for suffering from hallucinations, especially when generating lengthy, detailed descriptions for images. Our analysis reveals that hallucinations stem from the inherent summarization mechanism of large language models, leading to excessive dependence on linguistic tokens while neglecting vision information. In this paper, we propose NoiseBoost, a broadly applicable and simple method for alleviating hallucinations for MLLMs through the integration of noise feature perturbations. Noise perturbation acts as a regularizer, facilitating a balanced distribution of attention weights among visual and linguistic tokens. Despite its simplicity, NoiseBoost consistently enhances the performance of MLLMs across common training strategies, including supervised fine-tuning and reinforcement learning. Further, NoiseBoost pioneerly enables semi-supervised learning for MLLMs, unleashing the power of unlabeled data. Comprehensive experiments demonstrate that NoiseBoost improves dense caption accuracy by 8.1% with human evaluation and achieves comparable results with 50% of the data by mining unlabeled data. Code and models are available at https://kaiwu5.github.io/noiseboost.
翻訳日:2024-06-03 12:59:52 公開日:2024-05-31
# オンライン学習における視覚的注意分析

Visual Attention Analysis in Online Learning ( http://arxiv.org/abs/2405.20091v2 )

ライセンス: Link先を確認
Miriam Navarro, Álvaro Becerra, Roberto Daza, Ruth Cobos, Aythami Morales, Julian Fierrez, (参考訳) 本稿では,マルチモーダル学習分析分野におけるアプローチを提案する。 本手法では,オンライン授業における学習セッション中に収集した眼球運動データを可視化・解析するツールを開発した。 このツールはVAAD(Visual Attention Analysis Dashboardの頭字語)と名付けられた。 これらの眼球運動データは、アイトラッカーを用いて収集され、その後、解釈のために処理され、可視化される。 本ツールの目的は、可視化を容易にし、様々な学習者間での違いや学習パターンを識別できるようにすることにより、データの記述的分析を行うことである。 さらに、学習セッション中に学習者の活動を予測することができる予測モジュールを統合する。 その結果、VAADは記述的視点と予測的視点の両方から、オンライン学習行動に関する貴重な洞察を提供する可能性を秘めている。

In this paper, we present an approach in the Multimodal Learning Analytics field. Within this approach, we have developed a tool to visualize and analyze eye movement data collected during learning sessions in online courses. The tool is named VAAD (an acronym for Visual Attention Analysis Dashboard). These eye movement data have been gathered using an eye-tracker and subsequently processed and visualized for interpretation. The purpose of the tool is to conduct a descriptive analysis of the data by facilitating its visualization, enabling the identification of differences and learning patterns among various learner populations. Additionally, it integrates a predictive module capable of anticipating learner activities during a learning session. Consequently, VAAD holds the potential to offer valuable insights into online learning behaviors from both descriptive and predictive perspectives.
翻訳日:2024-06-03 12:59:52 公開日:2024-05-31
# MSSC-BiMamba:多モード睡眠ステージ分類と双方向マンバによる睡眠障害早期診断

MSSC-BiMamba: Multimodal Sleep Stage Classification and Early Diagnosis of Sleep Disorders with Bidirectional Mamba ( http://arxiv.org/abs/2405.20142v2 )

ライセンス: Link先を確認
Chao Zhang, Weirong Cui, Jingjing Guo, (参考訳) 睡眠状態のモニタリングは、睡眠状態の評価と睡眠障害の診断に不可欠である。 伝統的な手動のステージングは時間がかかり、主観的偏見がちで、しばしば矛盾した結果をもたらす。 そこで我々は、診断精度と効率を高めるために、睡眠ステージングと障害分類の自動モデルを開発した。 マルチモード睡眠状態分類モデルMSSC-BiMambaは,PSG(Polysomnography)とBSSM(Bidirectional State Space Model)を併用し,マルチモード睡眠状態分類モデル(MSSC-BiMamba)を設計した。 ECAモジュールは、異なるセンサーチャネルからのデータ重み付けを可能にし、多様なセンサー入力の影響を増幅する。 さらに、双方向マンバ(BiMamba)の実装により、PSGデータの多次元的特徴と長距離依存性を効果的に捉えることができる。 ISRUC-S3データセットとISRUC-S1データセットの両方で、健康な睡眠パターンと不健康な睡眠パターンを持つデータを含む睡眠ステージ分類タスクにおいて、優れたパフォーマンスを示した。 また、ISRUCとSleep-EDFを組み合わせたデータセットで評価すると、睡眠状態の予測精度が高かった。 多様な睡眠条件を効果的に処理できるこのモデルは,マルチモーダルPSGデータを用いた睡眠ステージングにBiMambaを適用した最初のモデルであり,従来のTransformerスタイルのモデルよりも計算効率とメモリ効率が大幅に向上したことを示す。 この方法は、モニタリングをよりアクセスしやすくし、革新的な技術を通じて先進的な医療を拡大することにより、睡眠管理を強化する。

Monitoring sleep states is essential for evaluating sleep quality and diagnosing sleep disorders. Traditional manual staging is time-consuming and prone to subjective bias, often resulting in inconsistent outcomes. Here, we developed an automated model for sleep staging and disorder classification to enhance diagnostic accuracy and efficiency. Considering the characteristics of polysomnography (PSG) multi-lead sleep monitoring, we designed a multimodal sleep state classification model, MSSC-BiMamba, that combines an Efficient Channel Attention (ECA) mechanism with a Bidirectional State Space Model (BSSM). The ECA module allows for weighting data from different sensor channels, thereby amplifying the influence of diverse sensor inputs. Additionally, the implementation of bidirectional Mamba (BiMamba) enables the model to effectively capture the multidimensional features and long-range dependencies of PSG data. The developed model demonstrated impressive performance on sleep stage classification tasks on both the ISRUC-S3 and ISRUC-S1 datasets, respectively containing data with healthy and unhealthy sleep patterns. Also, the model exhibited a high accuracy for sleep health prediction when evaluated on a combined dataset consisting of ISRUC and Sleep-EDF. Our model, which can effectively handle diverse sleep conditions, is the first to apply BiMamba to sleep staging with multimodal PSG data, showing substantial gains in computational and memory efficiency over traditional Transformer-style models. This method enhances sleep health management by making monitoring more accessible and extending advanced healthcare through innovative technology.
翻訳日:2024-06-03 12:59:52 公開日:2024-05-31
# 説明可能な音声感情認識のための反復的特徴増強

Iterative Feature Boosting for Explainable Speech Emotion Recognition ( http://arxiv.org/abs/2405.20172v2 )

ライセンス: Link先を確認
Alaa Nfissi, Wassim Bouachir, Nizar Bouguila, Brian Mishara, (参考訳) 音声感情認識(SER)では、その実用的重要性を考慮せずに事前定義された特徴を用いることで、冗長で無関係な情報を含む高次元データセットが生成される可能性がある。 その結果、高次元学習はしばしば計算複雑性を増大させながらモデルの精度を低下させる。 本研究は,効率的なSERシステムを構築するために,特徴を慎重に検討し,分析することの重要性を浮き彫りにしている。 本稿では,効率的な特徴工学手法に基づく新しい教師付きSER手法を提案する。 特徴の関連性を評価し,特徴セットを洗練させるために,結果の説明可能性に特に注意を払っている。 これは機能評価ループを通じて反復的に実行され、Shapley値を使用して機能選択を強化し、フレームワーク全体のパフォーマンスを改善する。 このアプローチによって、モデルパフォーマンスと透明性のメリットのバランスが取れます。 提案手法は,TESSデータセット上での感情認識において,ヒトレベルのパフォーマンス(HLP)および最先端の機械学習手法より優れる。

In speech emotion recognition (SER), using predefined features without considering their practical importance may lead to high dimensional datasets, including redundant and irrelevant information. Consequently, high-dimensional learning often results in decreasing model accuracy while increasing computational complexity. Our work underlines the importance of carefully considering and analyzing features in order to build efficient SER systems. We present a new supervised SER method based on an efficient feature engineering approach. We pay particular attention to the explainability of results to evaluate feature relevance and refine feature sets. This is performed iteratively through feature evaluation loop, using Shapley values to boost feature selection and improve overall framework performance. Our approach allows thus to balance the benefits between model performance and transparency. The proposed method outperforms human-level performance (HLP) and state-of-the-art machine learning methods in emotion recognition on the TESS dataset.
翻訳日:2024-06-03 12:59:52 公開日:2024-05-31
# KerasCVとKerasNLP: ビジョンと言語パワーアップ

KerasCV and KerasNLP: Vision and Language Power-Ups ( http://arxiv.org/abs/2405.20247v2 )

ライセンス: Link先を確認
Matthew Watson, Divyashree Shivakumar Sreepathihalli, Francois Chollet, Martin Gorner, Kiranbir Sodhia, Ramesh Sampath, Tirth Patel, Haifeng Jin, Neel Kovelamudi, Gabriel Rasskin, Samaneh Saadat, Luke Wood, Chen Qian, Jonathan Bischof, Ian Stenbit, Abheesht Sharma, Anshuman Mishra, (参考訳) 我々は、KerasのドメインパッケージであるKerasCVとKerasNLPを提示する。Keras API for Computer Visionと自然言語処理ワークフローの拡張で、JAX、TensorFlow、PyTorchのいずれかで動作する。 これらのドメインパッケージは、使いやすさとパフォーマンスを重視した高速な実験を可能にするように設計されている。 ライブラリの最低レベルの抽象化では、モデルとデータ前処理パイプラインを作成するためのビルディングブロックを提供し、ライブラリの最高レベルの抽象化では、Stable Diffusion、YOLOv8、GPT2、BERT、Mistral、CLIP、Gemma、T5といった一般的なアーキテクチャに対して、事前訓練された‘task’モデルを提供します。 タスクモデルには事前処理、事前訓練されたウェイトが組み込まれており、生の入力に基づいて微調整が可能である。 効率的なトレーニングを実現するため、すべてのモデルのXLAコンパイルをサポートし、tf.data APIを使用してTensorFlow操作のコンパイルグラフを介して、すべての前処理を実行する。 ライブラリは完全にオープンソース(Apache 2.0ライセンス)で、GitHubから入手できる。

We present the Keras domain packages KerasCV and KerasNLP, extensions of the Keras API for Computer Vision and Natural Language Processing workflows, capable of running on either JAX, TensorFlow, or PyTorch. These domain packages are designed to enable fast experimentation, with a focus on ease-of-use and performance. We adopt a modular, layered design: at the library's lowest level of abstraction, we provide building blocks for creating models and data preprocessing pipelines, and at the library's highest level of abstraction, we provide pretrained ``task" models for popular architectures such as Stable Diffusion, YOLOv8, GPT2, BERT, Mistral, CLIP, Gemma, T5, etc. Task models have built-in preprocessing, pretrained weights, and can be fine-tuned on raw inputs. To enable efficient training, we support XLA compilation for all models, and run all preprocessing via a compiled graph of TensorFlow operations using the tf.data API. The libraries are fully open-source (Apache 2.0 license) and available on GitHub.
翻訳日:2024-06-03 12:59:52 公開日:2024-05-31
# ビジョンのためのWhite-Box変換器のスケーリング

Scaling White-Box Transformers for Vision ( http://arxiv.org/abs/2405.20299v2 )

ライセンス: Link先を確認
Jinrui Yang, Xianhang Li, Druv Pai, Yuyin Zhou, Yi Ma, Yaodong Yu, Cihang Xie, (参考訳) 圧縮およびスパース表現を学習するために設計されたホワイトボックストランスフォーマーアーキテクチャであるCRATEは、その固有の数学的解釈性から、標準ビジョントランスフォーマー(ViT)に代わる興味深い代替手段を提供する。 言語と視覚変換器のスケーリング動作について広範な調査が行われたが、CRATEのスケーラビリティは未解決の問題である。 具体的には、CRATEアーキテクチャ設計におけるスパースコーディングブロックの戦略的かつ最小限の変更を特徴とするCRATE-$\alpha$と、CRATEのスケーラビリティ向上を目的としたライトトレーニングレシピを提案する。 大規模な実験を通じて、CRATE-$\alpha$は、より大きなモデルサイズとデータセットで効果的にスケールできることを実証する。 例えば、われわれの CRATE-$\alpha$-B は ImageNet の分類において、これまでで最高の CRATE-B モデルの精度を3.7%上回っており、精度は83.2% である。 一方、さらなるスケーリングを行う場合、CRATE-$\alpha$-L は ImageNet の分類精度85.1% を得る。 さらに、これらのモデルの性能改善は、学習されたCRATEモデルの解釈可能性を高めることさえ可能であり、より大きく訓練されたCRATE-$\alpha$モデルの学習トークン表現が、画像の高品質な教師なしオブジェクトセグメンテーションをもたらすことを示した。 プロジェクトページはhttps://rayjryang.github.io/CRATE-alpha/。

CRATE, a white-box transformer architecture designed to learn compressed and sparse representations, offers an intriguing alternative to standard vision transformers (ViTs) due to its inherent mathematical interpretability. Despite extensive investigations into the scaling behaviors of language and vision transformers, the scalability of CRATE remains an open question which this paper aims to address. Specifically, we propose CRATE-$\alpha$, featuring strategic yet minimal modifications to the sparse coding block in the CRATE architecture design, and a light training recipe designed to improve the scalability of CRATE. Through extensive experiments, we demonstrate that CRATE-$\alpha$ can effectively scale with larger model sizes and datasets. For example, our CRATE-$\alpha$-B substantially outperforms the prior best CRATE-B model accuracy on ImageNet classification by 3.7%, achieving an accuracy of 83.2%. Meanwhile, when scaling further, our CRATE-$\alpha$-L obtains an ImageNet classification accuracy of 85.1%. More notably, these model performance improvements are achieved while preserving, and potentially even enhancing the interpretability of learned CRATE models, as we demonstrate through showing that the learned token representations of increasingly larger trained CRATE-$\alpha$ models yield increasingly higher-quality unsupervised object segmentation of images. The project page is https://rayjryang.github.io/CRATE-alpha/.
翻訳日:2024-06-03 12:59:52 公開日:2024-05-31
# シングルビューで3Dを再現する「Pixel」は3Dガウシアンが1人以上いる

A Pixel Is Worth More Than One 3D Gaussians in Single-View 3D Reconstruction ( http://arxiv.org/abs/2405.20310v2 )

ライセンス: Link先を確認
Jianghao Shen, Xue Nan, Tianfu Wu, (参考訳) シングルビュー画像から3Dシーンの表現を学習することは、コンピュータビジョンにおける長年の根本的問題であり、入力ビューから見えないコンテンツの予測に固有の曖昧さがある。 Splatter Image methodは、最近提案された3D Gaussian Splatting(3DGS)に基づいて、入力画像のU-Net特徴マップに基づいて、各画素に対して単一の3D Gaussianを学習することで、高速な単一画像のノベルビュー合成を進歩させた。 しかし、入力ビューでは観測できない排他的コンポーネントを表現するための表現力は限られている。 この問題に対処するため,本研究では,画素が1つ以上の3次元ガウス値を持つ階層型スプラッター画像法を提案する。 具体的には、各画素は親3Dガウシアンと子3Dガウシアンとで表される。 親の3Dガウスは、バニラ・スプラッター・イメージ(英語版)で学習されている。 子3Dガウスアンは、親3Dガウスアンの投影された画像特徴と対象カメラビューの埋め込みを入力として、軽量のマルチ層パーセプトロン(MLP)を介して学習される。 親と子の両方の3Dガウスアンは、段階的にエンドツーエンドで学習される。 親ガウスの目からの入力画像の特徴と対象カメラ位置との結合条件は、子ガウスを「見えないものを見る」に割り当てることを容易にし、しばしば親ガウスに見逃される隠された詳細を回復させる。 実験では,提案手法をShapeNet-SRNおよびCO3Dデータセット上でテストし,特に入力ビューにおける隠蔽コンテンツを再構成する有望な能力を示す。

Learning 3D scene representation from a single-view image is a long-standing fundamental problem in computer vision, with the inherent ambiguity in predicting contents unseen from the input view. Built on the recently proposed 3D Gaussian Splatting (3DGS), the Splatter Image method has made promising progress on fast single-image novel view synthesis via learning a single 3D Gaussian for each pixel based on the U-Net feature map of an input image. However, it has limited expressive power to represent occluded components that are not observable in the input view. To address this problem, this paper presents a Hierarchical Splatter Image method in which a pixel is worth more than one 3D Gaussians. Specifically, each pixel is represented by a parent 3D Gaussian and a small number of child 3D Gaussians. Parent 3D Gaussians are learned as done in the vanilla Splatter Image. Child 3D Gaussians are learned via a lightweight Multi-Layer Perceptron (MLP) which takes as input the projected image features of a parent 3D Gaussian and the embedding of a target camera view. Both parent and child 3D Gaussians are learned end-to-end in a stage-wise way. The joint condition of input image features from eyes of the parent Gaussians and the target camera position facilitates learning to allocate child Gaussians to ``see the unseen'', recovering the occluded details that are often missed by parent Gaussians. In experiments, the proposed method is tested on the ShapeNet-SRN and CO3D datasets with state-of-the-art performance obtained, especially showing promising capabilities of reconstructing occluded contents in the input view.
翻訳日:2024-06-03 12:59:52 公開日:2024-05-31
# ParSEL: 言語によるパラメータ化された形状編集

ParSEL: Parameterized Shape Editing with Language ( http://arxiv.org/abs/2405.20319v2 )

ライセンス: Link先を確認
Aditya Ganeshan, Ryan Y. Huang, Xianghao Xu, R. Kenny Jones, Daniel Ritchie, (参考訳) 自然言語から3Dアセットを編集する能力は、3Dコンテンツ作成の民主化を支援するための魅力的なパラダイムを提供する。 しかし、自然言語は一般的な意図を伝えるのに効果的であることが多いが、正確な操作の特定には適していない。 このギャップに対処するために、自然言語から高品質な3Dアセットを制御可能な編集を可能にするParSELを導入する。 セグメント化された3Dメッシュと編集要求が与えられた後、ParSELはパラメータ化された編集プログラムを生成する。 プログラムパラメータを調整することで、ユーザーは編集の規模を正確に制御して形状のバリエーションを探索できる。 入力編集要求に整合した編集プログラムを推論するために,大規模言語モデル(LLM)の能力を利用する。 しかし, LLMは初期編集操作の識別に優れており, 完全な編集プログラムの推論に失敗することが多く, 形状意味論に反する出力を生成する。 そこで本研究では,解析的編集プロパゲーション(AEP, Analytical Edit Propagation)を提案する。 従来の方法とは異なり、AEPは幾何学解析のための計算機代数システムの統合を通じて、様々なユーザ編集と互換性のある分析編集操作を検索する。 実験により,ParSELによる3次元オブジェクトの制御可能な編集が,代替システム設計上の自然言語要求によって可能であることを示す。

The ability to edit 3D assets from natural language presents a compelling paradigm to aid in the democratization of 3D content creation. However, while natural language is often effective at communicating general intent, it is poorly suited for specifying precise manipulation. To address this gap, we introduce ParSEL, a system that enables controllable editing of high-quality 3D assets from natural language. Given a segmented 3D mesh and an editing request, ParSEL produces a parameterized editing program. Adjusting the program parameters allows users to explore shape variations with a precise control over the magnitudes of edits. To infer editing programs which align with an input edit request, we leverage the abilities of large-language models (LLMs). However, while we find that LLMs excel at identifying initial edit operations, they often fail to infer complete editing programs, and produce outputs that violate shape semantics. To overcome this issue, we introduce Analytical Edit Propagation (AEP), an algorithm which extends a seed edit with additional operations until a complete editing program has been formed. Unlike prior methods, AEP searches for analytical editing operations compatible with a range of possible user edits through the integration of computer algebra systems for geometric analysis. Experimentally we demonstrate ParSEL's effectiveness in enabling controllable editing of 3D objects through natural language requests over alternative system designs.
翻訳日:2024-06-03 12:59:52 公開日:2024-05-31
# 4DHands: 4Dのインタラクティブハンドをトランスフォーマーで再構築

4DHands: Reconstructing Interactive Hands in 4D with Transformers ( http://arxiv.org/abs/2405.20330v2 )

ライセンス: Link先を確認
Dixuan Lin, Yuxiang Zhang, Mengcheng Li, Yebin Liu, Wei Jing, Qi Yan, Qianying Wang, Hongwen Zhang, (参考訳) 本稿では,対話型ハンドメッシュの回復のための頑健なアプローチである4DHandsを紹介する。 本手法は,手動画像入力に対する統一解の欠如と,画像内の両手の位置関係の無視という,従来の手法の2つの大きな限界に対処する。 これらの課題を克服するために、新しいトークン化と機能融合戦略を備えたトランスフォーマーベースのアーキテクチャを開発する。 具体的には、手札に位置関係情報を埋め込むための関係認識型2手トークン化(RAT)手法を提案する。 このようにして、我々のネットワークは、片手と片手の両方の入力を処理し、相対的な手の位置を明示的に活用し、実世界のシナリオにおける複雑な手の動きの再構築を容易にする。 このようなトークン化は両手の相対関係を示すため、より効果的な特徴融合もサポートする。 この目的のために、我々はさらに時空間相互作用推論(SIR)モジュールを開発し、注意を払って4次元のトークンを融合し、それらを3次元の手メッシュと相対時間運動にデコードする。 提案手法の有効性を,いくつかのベンチマークデータセットで検証した。 In-the-wild video と real-world scenarios の結果は,対話型ハンドリコンストラクションにおける我々のアプローチの優れた性能を示している。 さらなるビデオ結果は、プロジェクトのページで見ることができる。

In this paper, we introduce 4DHands, a robust approach to recovering interactive hand meshes and their relative movement from monocular inputs. Our approach addresses two major limitations of previous methods: lacking a unified solution for handling various hand image inputs and neglecting the positional relationship of two hands within images. To overcome these challenges, we develop a transformer-based architecture with novel tokenization and feature fusion strategies. Specifically, we propose a Relation-aware Two-Hand Tokenization (RAT) method to embed positional relation information into the hand tokens. In this way, our network can handle both single-hand and two-hand inputs and explicitly leverage relative hand positions, facilitating the reconstruction of intricate hand interactions in real-world scenarios. As such tokenization indicates the relative relationship of two hands, it also supports more effective feature fusion. To this end, we further develop a Spatio-temporal Interaction Reasoning (SIR) module to fuse hand tokens in 4D with attention and decode them into 3D hand meshes and relative temporal movements. The efficacy of our approach is validated on several benchmark datasets. The results on in-the-wild videos and real-world scenarios demonstrate the superior performances of our approach for interactive hand reconstruction. More video results can be found on the project page: https://4dhands.github.io.
翻訳日:2024-06-03 12:59:52 公開日:2024-05-31